Os Cientistas Criaram Uma IA De Autoaprendizagem Capaz De Jogar Todos Os Jogos - Visão Alternativa

Índice:

Os Cientistas Criaram Uma IA De Autoaprendizagem Capaz De Jogar Todos Os Jogos - Visão Alternativa
Os Cientistas Criaram Uma IA De Autoaprendizagem Capaz De Jogar Todos Os Jogos - Visão Alternativa

Vídeo: Os Cientistas Criaram Uma IA De Autoaprendizagem Capaz De Jogar Todos Os Jogos - Visão Alternativa

Vídeo: Os Cientistas Criaram Uma IA De Autoaprendizagem Capaz De Jogar Todos Os Jogos - Visão Alternativa
Vídeo: Criei uma INTELIGÊNCIA ARTIFICIAL que aprende a JOGAR SOZINHA 2024, Abril
Anonim

Os desenvolvedores do revolucionário sistema de inteligência artificial de autoaprendizagem AlphaGo Zero anunciaram a criação de uma nova versão desta máquina, que pode aprender de forma independente a jogar qualquer jogo de tabuleiro e vencer uma pessoa. Sua descrição foi apresentada na revista Science.

Profundidades da Mente

O sistema AlphaGo AI foi desenvolvido por David Silver e colegas no final de 2014 e seu trabalho foi "testado" no campeão europeu Fan Hui, que perdeu todas as cinco lutas para a máquina. Em março de 2016, AlphaGo derrotou o campeão mundial Go Lee Sedol em uma série de cinco lutas, apenas uma das quais terminou com uma vitória humana.

Silver e seus colegas foram capazes de alcançar esse sucesso construindo sua IA com base não em uma, mas em duas redes neurais ao mesmo tempo - algoritmos especiais que imitam o trabalho de cadeias de neurônios no cérebro humano. Um deles é responsável por avaliar a posição atual no conselho e o segundo utiliza os resultados das análises elaboradas pela primeira rede para escolher a próxima etapa.

O próximo passo lógico no desenvolvimento do AlphaGo foi a eliminação da principal desvantagem de todas as redes neurais e sistemas de inteligência artificial existentes - a necessidade de ensiná-los o que deveriam fazer usando enormes arquivos de dados processados manualmente por uma pessoa, ou com a participação direta de uma pessoa, como aconteceu nas primeiras fases desenvolvimento de AlphaGo.

Silver e sua equipe resolveram esse problema criando uma rede neural fundamentalmente nova baseada nos chamados algoritmos de aprendizado por reforço. Essa rede neural, ao contrário de seu predecessor estelar, que foi originalmente treinado em jogos com voluntários e tinha algumas estratégias de jogo primitivas integradas, começou seu trabalho como um novato absoluto com base de conhecimento zero.

Em outras palavras, ela só conhecia as regras do jogo Go, as condições iniciais e as condições de vitória, e então o computador aprendeu de forma independente a jogar essa antiga estratégia chinesa, jogando consigo mesmo e agindo por tentativa e erro. A única limitação em seu trabalho era o tempo máximo para pensar sobre o movimento - cerca de 0,4 segundo.

Vídeo promocional:

Depois de cada um desses jogos, o sistema de IA analisava todos os seus movimentos e lembrava aqueles que trouxeram uma de suas "metades" mais perto da vitória, e entrou em uma espécie de "lista negra" aquelas etapas que estavam francamente perdendo. Usando esses dados, a rede neural se reconstruiu, gradualmente atingindo o nível que a primeira versão de AlphaGo alcançou antes da série de jogos com Lee Sedol.

A mudança para algoritmos de autoaprendizagem não só permitiu que AlphaGo Zero ultrapassasse seu antecessor e o vencesse por 100-0, mas também melhorou muitos outros aspectos de seu trabalho. Em particular, o processo de seu treinamento levou apenas três dias e cerca de cinco milhões de jogos, o que foi uma ordem de magnitude menor do que as solicitações da primeira versão da IA.

O caminho para a excelência

A conclusão bem-sucedida dos experimentos com AlphaGo Zero levou Silver e sua equipe a considerar se uma rede neural semelhante poderia ser usada para ganhar a coroa do campeão em outros tipos de estratégia e jogos de tabuleiro.

Para isso, os cientistas construíram mais um elemento no AlphaGo Zero - algoritmos heurísticos para busca aleatória de soluções, além de um código que leva em consideração a existência de empate em alguns jogos. Além disso, a nova versão do alfa estava continuamente melhorando sua estrutura, ao invés de ser atualizada em estágios como seu predecessor.

Essas mudanças relativamente simples, como outros experimentos mostraram, aumentaram significativamente a velocidade de autoaprendizagem desse sistema de inteligência artificial e o transformaram em uma máquina universal capaz de jogar todos os tipos de estratégias de tabuleiro.

Os cientistas testaram seu trabalho em três tipos de jogos - go, xadrez comum e sua variedade japonesa, shogi. Em todos os três casos, a nova ideia de Silver atingiu o nível de um grande mestre em menos de um milhão de jogos, alcançando uma seletividade quase humana na escolha de movimentos possíveis em apenas 9-12 horas de treinamento para xadrez e 13 dias para ir.

Anteriormente, ela venceu os programas de computador mais sofisticados que jogam esses jogos - o algoritmo de Stockfish desistiu na quarta hora de treinamento do AlphaZero, enquanto Elmo, o atual campeão no shogi, durou apenas duas horas. Por fim, a primeira versão do AlphaGo começou a ceder ao seu “neto” por volta de 30 horas de seu treinamento.

As próximas "vítimas" de AlphaZero, como observaram os cientistas, podem ser jogos de computador "reais", como Starcraft II e Dota 2. Ganhar o campeonato em tais disciplinas de esportes eletrônicos, em sua opinião, abrirá o caminho para que a IA de autoaprendizagem penetre em áreas menos formalizadas da ciência e da cultura e Tecnologia.

Recomendado: