Après avoir triomphé des champions du monde humains aux échecs et au go, DeepMind, la filiale de Google dans l’IA, s’est attaqué à des jeux de combat plus complexes StarCraft 2 et Quake III.
Dans les deux cas, la machine a triomphé de ses adversaires mais ce qui est intéressant et porteur d’enseignement pour d’autres domaines, c’est la manière dont elle a procédé de plus en plus éloigné de la « force brute ».
Pour Starcraft, AlphaStar, la version correspondante de l’IA, a d’abord été entraînée classiquement à partir de parties existantes en apprentissage supervisé.
Ensuite, elle a joué contre elle-même en apprentissage par renforcement comme cela avait déjà été mis en oeuvre pour le jeu de go. Différentes versions de « l’agent » se sont affrontées entre elles. L’innovation a été d’introduire une diversité de niveaux dans l’apprentissage au sein de cette compétition interne comme décrit dans l’article de Numerama « Pour encourager la diversité au sein de la (compétition), chaque agent avait son propre objectif d’apprentissage », Par exemple, « un agent peut avoir pour objectif de battre un concurrent spécifique, tandis qu’un autre agent peut avoir à battre toute une distribution de rivaux, mais en construisant plus d’une unité de jeu particulière ». Ces objectifs évoluaient au fur et à mesure. »
Pour Quake, FTW, la version correspondante de l’IA, a développé un apprentissage à 2 niveaux pour s’adapter à la dualité des objectifs du jeu (prendre un drapeau ou abattre ses adversaires). Comme décrit dans l’article de Siècle Digital « Au niveau « externe » , le système s’est concentré sur la victoire et les stratégies globales pour atteindre cet objectif. Au fur et à mesure des parties, l’IA créait ainsi toute une série de sous-objectifs permettant d’obtenir la victoire au sens général du terme. Pour améliorer les performances de cette optimisation externe, les chercheurs de DeepMind ont adopté une approche évolutive appelée « population-based training », ce qui donnerait « formation basée sur la population » en français. Après chaque cycle de formation (autrement dit après chaque partie), les systèmes de l’IA les moins importants dans la victoire étaient éliminés, et remplacés par des « mutations » des systèmes les plus performants. Dans le même temps, le niveau « interne » de l’IA établissait une politique en fonction des décisions de la couche extérieure. Si l’expérience de la couche extérieure avait déterminé qu’il fallait mieux défendre le drapeau à un moment X de la partie, la couche intérieure déployait ses compétences en matière de défense de drapeau. »
L’expérience de DeepMind montre ainsi qu’il est nécessaire de développer une lecture du jeu à plusieurs niveaux en développant un stocks de stratégies alternatives susceptibles d’être mobilisées et des mécanismes de sélection et de mutation de ce stocks constamment en évolution.
Cela fait apparaître en comparaison les limites que l’on expérimente dans les systèmes actuels pourtant basés sur les données de très larges populations d’utilisateurs.
Qui a fait l’expérience d’un trajet à Paris dans les embouteillage guidé par Waze ne peut que être convaincu que l’optimisation locale manque d’une vision stratégique.
De même les outils de finance personnelle restent souvent limités à une vision « comptable » et ne sont pas capables de reconstruire des visions des différents types et niveaux des comportements de dépenses. C’est pour cela que leurs capacités de prédiction et de coaching se révèlent relativement décevantes.
Ces conclusions s’appliquent particulièrement dans le domaine bancaire où les données sont particulièrement riches et les comportements complexes et divers.
Comme le rapporte l’article de « C’est pas mon idée », CommBank, banque australienne ayant développé l’application bancaire mobile considérée comme l’une des plus avancées en terme d’interactions personnalisées et contextualisée, prévoit ainsi d’émettre cette année 3 milliards de messages, élaborés par 200 modèles d’apprentissage automatique consommant plus de 150 milliards d’éléments d’information (pour 6,5 millions de clients digitaux) afin de cibler au mieux les besoins spécifiques de chaque individu. Et il s’agit de la 4e version de l’application considérée comme encore très partielle par rapport à la cible !
Après avoir fait la course à l’enrichissement des fonctionnalités, aiguillonnées par les néo-banques et leur agilité débridée, une nouvelle course s’engage dans l’exploitation des données pour une compréhension fine des comportements des utilisateurs afin de rendre la banque réellement « pervasive ».
Et clairement, nous n’en sommes qu’au tout début pour les particuliers. Et je ne parle pas des pro où la ligne de départ est à peine franchie.
Toute les banques devraient avoir leur Deepmind…