Por Michael Keller
Publicado no Blog de Txchnologist
via GE Brasil
Atenção, gamers competitivos: há um novo líder na clássica categoria arcade. Esse campeão venceu 49 títulos vintage do Atari 2600,desde Breakout até Star Gunner e Space Invaders, em alguns casos superando testadores profissionais de jogos em mais de 1.000%.
O sucesso não foi fácil. Melhorias foram feitas a cada tentativa, com um intenso período de treinamento, que incluiu jogar e, depois, estudar cada quadro de cada jogo milhões de vezes, sem descanso.
É compreensível que o nome recém-criado desse mestre não seja conhecido por milhões de pessoas que jogam Call of Duty ou GTA diariamente, pois seus criadores o mantiveram em segredo enquanto melhoravam seus algoritmos. O nome é deep Q-network, mas você pode chamá-lo de DQN.
Seus desenvolvedores, participantes de uma iniciativa da Google chamada Deepmind, afirmam que o sistema é capaz de aprender rapidamente como se sobressair em jogos mesmo começando com o mínimo de informação.
O DQN representa um avanço significativo na inteligência artificial (IA), combinando o aprendizado da máquina com princípios da neurociência a fim de fazer um programa de computador aprender da mesma maneira que os animais o fazem!
“É a primeira vez que alguém construiu um único sistema de aprendizagem que pode aprender a partir da experiência para dominar uma ampla gama de tarefas desafiadoras – neste caso, um conjunto de jogos de Atari – e ter desempenho igual, ou melhor, ao do nível humano nesses jogos”, afirma Demis Hassabis, pesquisador de inteligência artificial e neurocientista. O trabalho de sua equipe foi publicado no dia 25 de fevereiro na revista Nature (em inglês).
Eles construíram o programa DQN utilizando uma rede neural convolucional profunda, um conjunto de algoritmos de aprendizado inspirado em sistemas nervosos biológicos que podem assimilar muitos dados de uma vez e computar valores a partir deles. A façanha do grupo está na novidade de fundir dois tipos de aprendizado de máquina – o profundo e o por reforço – para treinar a rede neural artificial de seu sistema.
Essas abordagens permitem que o DQN, que eles definem como agente de inteligência artificial, comece completamente ignorante de como o jogo funciona e vá aprendendo até se tornar um jogador mestre.
De fato, o DQN começa de forma bem parecida com um humano que encara um novo videogame sem manual de instruções. Tudo o que ele recebe de informação são os dados contidos em cada pixel da tela e informações sobre pontuação.
Na primeira vez em que joga, ele aperta uma tecla aleatória. Se o aperto dessa tecla é recompensado com um aumento na pontuação, ele aprende que essa resposta funciona na situação de todos os dados do jogo naquele momento. Essa recompensa em pontos reforça as funções de tomada de decisão do DQN para que se voltem a cenários mais recompensadores. Fazer isso repetidas vezes faz o DQN atualizar sua rede neural de forma que ele aprenda as regras do jogo para obter recompensas cada vez maiores, na forma de pontuações mais altas.
O objetivo do trabalho não é dominar videogames. Eles são apenas um substituto para outras aplicações em que grandes quantidades de dados desestruturados precisam ser processados rapidamente para a solução de problemas.
“No futuro, isso pode ajudar a fazer ciência, como pesquisas de doenças e a compreensão da climatologia – em qualquer lugar onde haja quantidades imensas de dados com os quais os cientistas precisam lidar”, explica Hassabis.
“Nos primórdios da inteligência artificial, vencer um enxadrista profissional era tido por alguns como o ideal máximo”, escreveu Bernhard Schölkopf, pesquisador do Instituto Max Planck de Sistemas Inteligentes, em comentário publicado na mesma edição da Nature. “São problemas do mundo real, nos quais os sistemas biológicos de percepção-ação se sobressaem e o aprendizado de máquina supera os métodos convencionais de engenharia”, finaliza.