Les chercheurs s’inspirent des travaux du psychologue jean Piaget pour développer l’intelligence artificielle des robots de loisir.
C’est à Paris que travaillent les roboticiens à qui Sony a confié les recherches fondamentales sur l’intelligence de ses chiens robots Aibo et de leurs successeurs. Sans doute parce que pour concevoir une forme d’intelligence pour des objets, il faut, comme on dit en bon franglais, des gens qui pensent «out of the box».
Frédéric Kaplan et Pierre-Yves Oudeyer sont de ceux-là. Le premier est un ingénieur qui vient d’écrire un livre passionnant aux confluents de l’anthropologie et de la technologie sur les rapports homme-robot. Le second a une formation tout aussi technique, ce qui ne l’a pas empêché de faire sa thèse sur la formation de la parole. Tout deux se tiennent sur une frontière qu’ils sentent bouger sous leur pied, celle du rapport entre l’homme et les machines. Ce mouvement, ils le testent à ses limites. Leur objectif est d’apprendre aux robots à développer des comportements autonomes. Pour cela, ils commencent par leur laisser faire des bêtises. Comme des enfants.
Bébé Aibo deviendra grand...
Ce n’est pas qu’une image. Dans leur labo, on trouve un tapis d’éveil pour les nouveaux nés. Une version d’Aibo programmée «bébé» et une autre programmée «adulte» y échangent par intermittence un jappement. Puis, la tête de «bébé » revient pour mordiller une pièce de tissus qui craque bruyamment. Ensuite, sa patte s’étend pour frapper une petite lune souriante, suspendue au portique du tapis.
Pour le comprendre, Frédéric Kaplan revient à la vocation initiale du CSL, créé à Paris en 2000 par une des stars de l’intelligence artificielle, le chercheur belge Luc Steels: apprendre aux robots à parler. Lui-même a commencé parapprendre à Aibo à nommer des objets comme une balle. Mais il est apparu que contrairement à un enfant dont le langage s’enrichit rapidement après ses premiers mots, le robot stagnait rapidement et ne mémorisait pas plus d’une dizaine de mots. « Le problème ne venait pas des algorithmes de reconnaissance visuelle que nous utilisions.» Quoi alors ?
«Nous n’arrivions pas à attirer son attention vers ce que nous voulions lui apprendre», répond Frédéric Kaplan. «Nous avons d’abord cherché un moyen pour l’amener à porter son attention vers certains objets et, comme les parents qui agitent des jouets devant l’enfant, nous avons choisi le mouvement.» Même ainsi, Aibo n’était toujours capable que d’apprendre une vingtaine de 20 mots. «Nous sommes alors remontés en arrière», poursuit Frédéric Kaplan, «pour nous poser la question de la reconnaissance des objets chez l’enfant.» Il se trouve que c’est un domaine relativement bien connu de la psychologie. Depuis les travaux de Jean Piaget, on sait que les objets sont construits par des associations de savoir-faire, des schémas qui associent la perception d’un objet à une fonction anticipable. « Pour percevoir les objets que nous lui montrions, il fallait que le robot apprenne d’abord à les utiliser » conclut Frédéric Kaplan.
Et le robot devint curieux...
Mais pour construire ces schémas, il manquait encore un trait essentiel de l’intelligence humaine au robot: la curiosité. «Celle qui pousse les enfants à faire des bêtises, mais aussi à apprendre des bêtises qu’ils font pour construire une expérience», explique Pierre-Yves Oudeyer. «Tous les systèmes d’intelligence artificielle reposent sur un système de motivation fonctionnelle: garder un niveau de charge de leur batterie élevée, maintenir un contact avec les humains. Toutefois, une fois que les robots ont développé des stratégies robustes pour remplir ces fonctions, ils n’ont pas de raison d’aller plus loin.»
Les chercheurs ont donc introduit un logiciel dans la tête d’Aibo qui le pousse, aléatoirement, à essayer une action nouvelle, à l’explorer si elle donne des effets suprenants puis à passer à d’autres une fois celle-ci acquise. Techniquement, cela signifie que le logiciel fonctionne en deux couches. La première prédit les valeurs des senseurs en fonction d’une action. La seconde détermine si cette prédiction sera plus ou moins juste. Combinées ces deux fonctions dessinent des courbes d’apprentissage dont la pente détermine, elle-même, l’entêtement d’Aibo à renouveler l’expérience où sa capacité de prédiction s’améliore. En d’autres termes, il essaie différentes expériences puis choisit progressivement d’améliorer celle au cours de laquelle il fait le plus de progrès. Il est motivé par apprendre.
Dans l’expérience du tapis d’éveil, «bébé» commence par tout essayer. Puis il se spécialise dans le mordillement, soit l’expérience la plus immédiatement gratifiante de point de vue de l’apprentissage. Il lui suffit de pencher la tête et de mordre pour avoir la récompense (le craquement du tissu). Ensuite, il apprend à taper la petite lune, ce qui est plus difficile puisque cela demande une coordination senso-motrice (la caméra et les actuateurs de la patte). Enfin, il jappe en direction de l’adulte qui jappe en retour pour établir une forme simple de communication.
«Il faut bien comprendre qu’à aucun moment ces comportement n’ont été programmés. Ils dérivent des différentes expériences d’apprentissage», explique Pierre-Yves Oudeyer. Evidemment, ici, le système est fermé. «Bébé» Aibo n’a que trois expériences possibles. Que se passerait-il si comme l’enfant, il commençait à explorer le monde qui l’entoure? Les chercheurs de Sony ne le savent pas encore parce que c’est à ce point qu’ils arrivent.
Mais étant donné que le programme choisit aléatoirement de nouvelles formes d’actions et que celles qui sont gratifiantes seront approfondies afin d’être apprises, la suite de ces recherches parait très ouverte. Cependant, avant de laisser Aibo essayer de nouvelles «bêtises», Pierre-Yves Oudeyer et Frédéric Kaplan veulent communiquer les idées que suggère leur modèle robotique sur les mécanismes d’apprentissage chez l’enfant. Pour eux, il s’agit autant d’apprendre aux robots à se comporter comme nous que de comprendre comment nous nous comportons à travers eux.
Fabrice Delaye.