Actualités

AlphaZero apprend les échecs tout seul et bat le meilleur logiciel

Le 23 décembre 2017

AlphaZero est un logiciel mis en place par l’équipe DeepMind de Google. Après quelques heures d’apprentissage renforcé, c’est-à-dire en jouant contre lui-même sans autre information sur les échecs que les règles du jeu, il a sévèrement battu le logiciel Stockfish, champion du monde des logiciels en 2016. Le score semble sans appel : 28 victoires, 72 parties nulles, aucune défaite. Néanmoins, avec les noirs (et donc sans l’avantage de l’initiative), AlphaZero n’a remporté que 3 victoires pour 47 parties nulles. Par ailleurs, les concepteurs de Stockfish regrettent que leur logiciel ait été utilisé dans une version datée d’un an, avec un temps limité de 1 min par coup et des tâches de fond sur l’ordinateur utilisé, alors qu’AlphaZero bénéficiait de moyens de calculs énormes.

AlphaZero est une variante plus générique d’AlphaGo Zero, qui a appris le go tout seul en quelques heures, ex nihilo, et a battu son prédécesseur AlphaGo Zero, lequel était déjà plus fort que les meilleurs joueurs humains. Autrement dit, AlphaZero s’est montré capable d’apprendre d’autres jeux : il a appris le go et bat désormais AlphaGo Zero, a appris le shogi, jeu semblable aux échecs, avec des pièces différentes et une combinatoire encore plus riche, et bat le meilleur logiciel spécialisé.

Pour en savoir plus, lire l’article de Pierre Barthélémy (accès réservé aux abonnés) ou cette annonce. La prépublication de l’équipe DeepMind est, au moins au début, plutôt lisible.

Partager cette actualité

La tribune des mathématiciens

Suivre IDM