Description
Aujourd’hui, on parle des lauréats du prix Turing 2025, la plus haute distinction en informatique. Il vient d'être décerné à deux chercheurs pionniers de l’intelligence artificielle. Il s'agit de Andrew Barto et Richard Sutton.
Mais alors, quelle est leur contribution au monde de l'informatique ? Il s'agit d'une technique dite d'apprentissage par renforcement. C'est cette une approche clé qui a permis à des IA comme AlphaZero et AlphaStar d’exceller dans des jeux complexes, comme les échecs.
Mais avant d'aller plus loin, penchons nous sur ce qu'est l’apprentissage par renforcement.
Qu'est ce que l'apprentissage par renforcement ?
Imaginez une souris dans un labyrinthe. À chaque décision, à chaque direction qu'elle prend, elle peut être récompensée ou non en fonction de son avancée vers la sortie.
Et bien l'apprentissage que peut effectuer un ordinateur fonctionne de la même manière. Il explore différentes options, apprend de ses erreurs et ajuste sa stratégie pour maximiser ses gains.
Et cette méthode est devenue essentielle pour entraîner des systèmes intelligents, oui tout le monde dit intelligence artificielle désormais. Et elles sont à présent capables de prendre des décisions autonomes.
Echecs, go et shogi comme terrains d'entraînement
Concrètement, l'apprentissage par renforcement est devenue une technique clé pour réaliser les promesses de l’IA moderne.
C’est cette approche qui a permis à AlphaZero, le programme de Google DeepMind, d’apprendre à jouer aux échecs, au go ou encore au shogi, qui est un jeu de société traditionnel japonais.
Et le tout sans connaissance préalable. L'IA s'est en effet entraînée contre elle même sur ces trois jeux, jusqu'à devenir experte en la matière. De la même manière mais cette fois dans le domaine des jeux vidéos, le programme AlphaStar a atteint un niveau de "grand maître" dans le jeu Starcraft 2.
La première véritable théorie computationnelle de l’intelligence
Mais évidemment, la puissance de l'apprentissage par renforcement à désormais un impact bien au-delà des jeux.
Richard Sutton et Andrew Barto affirment que leur vision de l’apprentissage par renforcement repose sur une idée plus profonde. Ils expliquent que l'apprentissage par renforcement pourrait être la première véritable théorie computationnelle de l’intelligence.
Mais au-delà des algorithmes, ils insistent sur l’importance du jeu et de la curiosité comme moteurs fondamentaux de l’apprentissage, et ce aussi bien pour les humains que pour les machines.
Le ZD Tech est sur toutes les plateformes de podcast ! Abonnez-vous !
Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.