sexta-feira, dezembro 8

AlphaZero: morte ou renascimento do xadrez?

Encontra-se a decorrer em Londres o último torneio do Grand Chess Tour, com a presença de 10 dos mais fortes jogadores do mundo (sim, Magnus está lá) e, além das inevitáveis análises das partidas em curso, muito se tem falado de AlphaZero (veja-se a excelente entrevista com Vishi Ananad, no final do seu jogo com Sergei Karjakin). [Editado: "É um pouco irritante vermos que se pode progredir tão rapidamente partindo apenas do conhecimento das regras de xadrez" - tradução livre de um comentário de Vishi Anand].

AlphaZero é um programa de computador ao qual foi “ensinado” apenas as regras do xadrez. Em 24 horas de “estudo”, sem recurso a base de partidas nem a qualquer base de aberturas, apenas usando algoritmos próprios da Inteligência Artificial (IA), AlphaZero foi capaz de vencer o Stockfish, um dos mais fortes programas de xadrez de hoje.

Na verdade, o resultado foi um verdadeiro massacre: 28 vitórias, 72 empates e nenhuma derrota. E o Stockfish estava inserido num computador 900 vezes mais rápido. Chocante, não?

Por trás do AlphaZero está a DeepMind, empresa que recentemente criou o mais forte programa de Go, um jogo de que se dizia nenhum programa informático poder vir algum dia a dominar, tal o número e complexidade de posições. O resultado foi surpreendente: Ke Jie, o genial campeão chinês de Go foi inapelavelmente batido por 3-0, evidenciando as fantásticas qualidades da nova IA.

Garry Kasparov em conversa animada com Demis Hassabis, fundador da DeepMind (Foto: Lennart )
Mas o assombro não fica por aqui: AlphaZero não assenta na força bruta, no cálculo insano de posições que os programas de xadrez hoje conseguem. Na verdade, AlphaZero “apenas” calcula aproximadamente 80 mil posições por segundo, enquanto o Stockfish encontrava-se a correr numa máquina que lhe permitia calcular até 70 milhões de posições por segundo.

Aparentemente, o algoritmo utilizado tem uma abordagem próxima do cálculo humano, selecionando apenas as continuações promissoras. Se quiserem aprofundar mais o assunto, vejam o artigo "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm" publicado pela Cornell University.

Este gráfico mostra que quanto mais AlphaZero “pensa”, mais melhora, em comparação com Stockfish
Após 24 horas de autoaprendizagem, AlphaZero selecionou as melhores formas de iniciar o jogo (aquilo que conhecemos como aberturas) e é muito interessante o resultado: nas primeiras horas preferiu a Defesa Francesa que trocou rapidamente pela Caro-Kann. 




No final, a sua preferência foi para a Abertura Inglesa e para o Gambito de Dama. 



Alguns conceitos mostrados nestas partidas são surpreendentes. Mais informação pode ser obtida no interessante artigo no site Chessbase.