Encontra-se a decorrer em Londres o último
torneio do Grand Chess Tour, com a presença de 10 dos mais fortes jogadores do
mundo (sim, Magnus está lá) e, além das inevitáveis análises das partidas em
curso, muito se tem falado de AlphaZero (veja-se a excelente entrevista com Vishi Ananad, no final do seu jogo com Sergei Karjakin). [Editado: "É um pouco irritante vermos que se pode progredir tão rapidamente partindo apenas do conhecimento das regras de xadrez" - tradução livre de um comentário de Vishi Anand].
AlphaZero é um programa de computador ao qual
foi “ensinado” apenas as regras do xadrez. Em 24 horas de “estudo”, sem recurso
a base de partidas nem a qualquer base de aberturas, apenas usando algoritmos próprios
da Inteligência Artificial (IA), AlphaZero foi capaz de vencer o Stockfish, um
dos mais fortes programas de xadrez de hoje.
Na verdade, o resultado foi um verdadeiro massacre:
28 vitórias, 72 empates e nenhuma derrota. E o
Stockfish estava inserido num computador 900 vezes mais rápido. Chocante,
não?
Por trás do AlphaZero está a DeepMind, empresa
que recentemente criou o mais forte programa de Go, um jogo de que se dizia
nenhum programa informático poder vir algum dia a dominar, tal o número e
complexidade de posições. O resultado foi surpreendente: Ke Jie, o genial
campeão chinês de Go foi inapelavelmente batido por 3-0, evidenciando as fantásticas
qualidades da nova IA.
Garry Kasparov em conversa animada com Demis Hassabis, fundador da DeepMind (Foto: Lennart ) |
Mas o assombro não fica por aqui: AlphaZero
não assenta na força bruta, no cálculo insano de posições que os programas de
xadrez hoje conseguem. Na verdade, AlphaZero “apenas” calcula aproximadamente
80 mil posições por segundo, enquanto o Stockfish encontrava-se a correr numa
máquina que lhe permitia calcular até 70 milhões de posições por segundo.
Aparentemente, o algoritmo utilizado tem uma
abordagem próxima do cálculo humano, selecionando apenas as continuações
promissoras. Se quiserem aprofundar mais o assunto, vejam o artigo "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm" publicado pela Cornell
University.
Este gráfico mostra que quanto mais AlphaZero “pensa”, mais melhora, em comparação com Stockfish |
Após 24 horas de autoaprendizagem, AlphaZero selecionou as
melhores formas de iniciar o jogo (aquilo que conhecemos como aberturas) e é
muito interessante o resultado: nas primeiras horas preferiu a Defesa Francesa
que trocou rapidamente pela Caro-Kann.
No final, a sua preferência foi para a
Abertura Inglesa e para o Gambito de Dama.
Alguns conceitos mostrados nestas partidas são surpreendentes. Mais informação pode ser obtida no
interessante artigo no site Chessbase.