Connexion
Pour récupérer votre compte, veuillez saisir votre adresse email. Vous allez recevoir un email contenant une adresse pour récupérer votre compte.
Inscription
En vous inscrivant, vous acceptez les conditions d'utilisation du site et de nous vendre votre âme pour un euro symbolique. Amusez vous, mais pliez vous à la charte.

Un Rédacteur Factornews vous demande :

ACTU

DeepMind 10 - Humains 1

CBL par CBL,  email  @CBL_Factor
 
Souvenez-vous : il y a plus de deux ans, DeepMind, une division de Google fondée par Demis Hassabis (qui a développé l'IA de Black & White), annonçait un partenariat avec Blizzard. L'idée était de créer une IA à base de réseaux de neurones capable de jouer à Starcraft 2. L'IA en question s'appelle AlphaStar et en décembre, elle a affronté deux pros de Starcraft 2, TLO et MaNa. Ils ont tous les deux pris 5-0 dans la gueule. Lors d'un match en direct cette semaine, MaNa a fini par prendre sa revanche sauvant l'honneur des joueurs avec des vrais neurones. Vous pouvez voir la même partie du point de vue d'AlphaStar.

Alors comment AlphaStar est devenu aussi bonne à Starcraft 2? AlphaStar étant un réseau de neurones, il faut lui fournir des tonnes de données pour qu'elle s'améliore. Au début, AlphaStar s'est contenté de regarder des replays de joueurs humains. Puis elle a joué contre l'IA du jeu jusqu'au point de la battre dans 95% des cas en niveau Elite. Puis DeepMind est passé à la vitesse supérieure en créant de multiples instances d'AlphaStar et en les faisant s'afronter entre elles dans une ligue, chaque instance apprenant des autres instances. Cette entrainement intensif a duré 14 jours pendant lesquels AlphaStar a accumulé l'équivalent de 200 ans d'expérience. Tout cela, DeepMind vous le raconte dans un article super intéressant bourré de graphiques. Vous pouvez même télécharger les replays des parties.

La conclusion est que AlphaStar n'a pas gagné car elle était plus rapide : les chiffres montrent que le temps de réaction de l'IA est inférieur à celui des humains et qu'elle accomplissait moins d'actions par minute que les joueurs pro. AlphaStar a gagné car elle prenait de meilleures décisions, utilisait des meilleures stratégies et était plus efficace en terme de micro-management. Dans un sens c'est logique et c'est exactement ce qu'on attend d'un réseau de neurones : une puissance de calcul délirante analysant des tonnes de données de précédentes parties pour prendre la meilleure décision.

 

Commentaires

Masquer les commentaires lus.
Big Apple
 
Je veux pas faire le rabat-joie mais il est vraiment dommage qu'on ne nous explique pas à quoi ressemble la représentation du jeu dans la mémoire de l'ordinateur. Avec quelles données du jeu travaille l'ordinateur?
Si l'accès aux coordonnées de chaque unité/bâtiment du jeu est mémorisé(e) et donc accessible instantanément, il y a selon moi triche. Pour que la comparaison soit vraiment "fairplay", il faudrait que l'ordinateur joue en comprenant l'image, autrement dit avec une caméra qui filme l'action ou tout au moins avec le retour vidéo et qu'il se débrouille avec.
Là, j'imagine que leur alphaMachin a accès au code source du jeu et qu'il peut donc mémoriser, repérer et manipuler au millimètre chaque élément du jeu puis le ranger tranquillement dans un tableur.
Autant cela n'est pas gênant aux échecs ou au Go, puisque le joueur humain n'est pas désavantagé sur ce point, autant sur SC2, il y a clairement un problème.
fennec
 
Si tu avais lu l'article linké ( https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii ) tu aurais lu que l'IA ne triche pas, elle doit scouter et jouer comme un vrai joueur, c'est d'ailleur pour ça qu'elle avait eu du mal l'année dernière.
Nicaulas
 
Au passage, David Louapre a refait une petite vidéo sur la créativité des IA, même s'il n'aborde pas SC2.
CBL
 
fennec a écrit :
Si tu avais lu l'article linké ( https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii ) tu aurais lu que l'IA ne triche pas, elle doit scouter et jouer comme un vrai joueur, c'est d'ailleur pour ça qu'elle avait eu du mal l'année dernière.


Yep et c'est aussi ce que j'explique dans la précédente news. C'est aussi pour cela que je parle de temps de réponse et d'actions par minutes. Et la vidéo montre littéralement ce que voit AlphaStar.
codec-abc
 
Je me permets de copier-coller mon commentaire d'un autre forum ou je partage un avis contraire: AlphaStar a gagné parce qu'elle est plus rapide et non pas plus intelligente:

J'ai regardé les parties et il faut encore relativiser sur les capacités de la machine. Pour faire simple, sur Starcraft II un joueur compétent doit maitriser 2 aspects:

Le "macro game": C'est la capacité à gérer ses workers, développer ses bases, scouter l'ennemie, analyser la situation et prendre des décisions en fonctions.
La "micro game": C'est la capacité à gérer les unités par petits groupes (voire de manière individuelle) lors des combats pour maximiser leur efficacité. Par exemple, lors d'un combat si un missile arrive dans vos unités et que vous n'avez pas le temps de l’éviter: Vous avez tout intérêt a faire reculer toutes les unités immédiatement. Puis vous prenez une unité, idéalement peu couteuse, pour l'envoyer dans le missile pour la sacrifier et ne pas prendre de dégâts sur les autres.

Pour avoir regardé certaines games, l'IA de DeepMind a une macro game correcte (bien qu'en dessous de ce que font les joueurs humains) et une micro game largement meilleur que tout humain. Et cela se prouve par le nombre d'actions par minutes (APM). C'est une moyenne flottante qui décrit le nombre d'actions qu'un joueur fait sur un intervalle de temps donné. L'humain étant physiquement limité, les meilleurs pro montent (souvent lors des combats) autour de 600-800 APMs dans les situations les plus tendues. DeepMind grâce à ses capacités de machine est arrivé jusqu'à 1500 APMs. De plus, il faut voir que sur l'intégralité des actions exécutés par un humain il en aura certaines qui ne seront pas efficaces (clics ratés, mauvaise touche, etc...) la ou l'IA de DeepMind fera exactement ce qu'elle veut. Donc, certes en moyenne AlphaStar a un APM moindre qu'un joueur humain mais sur les moments clés les pics d'APMs dépassent ce qu'un humain est capable de faire.

Bref, l'IA de DeepMind a montré un comportement intéressant mais a gagné grâce à ses habilitées sur-humaines (temps de réaction, précision, exécution parfaite et immédiate, etc...) et non pas grâce à son intelligence.

Pour les curieux, voici un passage ou les APMs de AlphaStar montent à 1500.
CBL
 
Et pourtant DeepMind a pondu un graphique qui prouve exactement le contraire.

Et c'est connu que TLO fait des pointes à 1200-1600 APM. Ce type est un mutant.
Laurent
 
5-0 ? Ils font des BO9 maintenant à Starcraft ?
Ca fait un moment que je n'ai pas vu de match de Starcraft mais il me semblait qu'ils faisaient des BO5, c'est à dire 5 parties maximum mais qui comme les sets au tennis s’arrêtent quand un des joueurs gagne 3 sets. Donc à 3-0.
fennec
 
@codec-abc c'est quelque chose que les commentateurs évoquent dès le début, on s'attend bien a ce qu'une IA puisse monter dans les APM très haut et pourtant elle est bien en dessous des APM de MaNa dans la plupart des games. Il est possible de faire une IA qui monte a 4000 APM, mais comme un joueur, si elle fait n'importe quoi avec ça sert a rien, pareil si la macro ne suit pas.

Si les joueurs avaient l'impression que l'IA triche ils l'auraient dit, pareils pour les commentateurs.

D'un autre coté ils soulignent sa façon de démarrer le build en saturant plus que d'habitude le minerai et avec peu de gaz, sa façon de scouter très humaine, pas de peur des chokes, très bonne micro et macro. Quand on connait un peu l'IA on se rends compte que le boulot est immense!

J'ai hate de voir un match non mirror.

@Laurent, c'est un match d'exhibition ils font ce qu'ils veulent.
Temujin
 
Big Apple a écrit :
il faudrait que l'ordinateur joue en comprenant l'image, autrement dit avec une caméra qui filme l'action ou tout au moins avec le retour vidéo et qu'il se débrouille avec.



C'est exactement ca.
ZeP
 
Il est amusant de noter que la seule partie gagnée par un humain l'a été quand il a décidé de faire une chose que les commentateurs et joueurs considéraient comme sous-optimale mais qu'alphaStar faisait systématiquement : Saturer de drone plus rapidement.

C'est aussi l'avantage de ce genre de technique : l'IA n'a aucun apriori sur une unité ou une technique, et comme une technique fonctionnelle peut parfois être contre-intuitive...
Exymo
 
La seule partie gagner par un humain a aussi été celle ou l'IA a vu son champs de vision réduite car sur les 10 partie précédente, alphastar pouvait voir la totaliter de la carte sur un seul écran et donc pouvait bouger ses unités au 4 coins de la map en même temps, chose impossible pour un humain qui doit bouger la cameras.

Mon ressenti sur ca c'est quand meme qu'on a tout fait pour que l'IA gagne. Limiter la moyenne des APM plutôt que les APM effectif qui lui permet de depassé les 1500, un champs de vision cheater, et des adversaire, sans leurs faire offense, pas d'un niveau au quelle on attend un joueur pro (mana en fin de carrière et TLO "offrace" et en fin de carrière)
codec-abc
 
fennec a écrit :
@codec-abc c'est quelque chose que les commentateurs évoquent dès le début, on s'attend bien a ce qu'une IA puisse monter dans les APM très haut et pourtant elle est bien en dessous des APM de MaNa dans la plupart des games. Il est possible de faire une IA qui monte a 4000 APM, mais comme un joueur, si elle fait n'importe quoi avec ça sert a rien, pareil si la macro ne suit pas.

Si les joueurs avaient l'impression que l'IA triche ils l'auraient dit, pareils pour les commentateurs.


Elle est en dessous dans les phases calmes et largement au dessus dans les phases tendues. La preuve Mana top a 800 APMs quand AlphaStar monte a ~1500.

Et Les joueurs le remarquent. Il y en a un qui dit pendant une phase de jeu "It's micro starts to get ridiculous" ce qui prouve bien que l'IA micro-gère ses unités de façon complétement cramé par rapport à ce qu'un humain est capable de faire.

CBL a écrit :
Et pourtant DeepMind a pondu un graphique qui prouve exactement le contraire.


Le graphique ne prouve pas grand chose. La seule chose qu'il prouve c'est que la corrélation APM/probabilité de victoire n'est pas réel. D'ailleurs il me semble que Mana est meilleur que TLO en protos et pourtant il fait beaucoup moins d'APM. Le problème de cette métrique c'est qu'elle n'est pas suffisante pour clairement démontrer quoique ce soit. On peut très bien faire plein d'APMs inutiles. Et même avec 100% d’efficacité si on prend des mauvaises décisions en macro game on peut aussi perdre. Et puis, l'IA peut très bien faire peu d'actions sur les moments calmes et aller dans l’extrême avec une efficacité inhumaine lors des moments importants pour arriver à une moyenne "humaine". De plus, comme dit plus haut, elle voit la totalité du champ de vision en permanence et envoie ses units ou elle veut sans se déplacer. Donc fatalement, de base elle a besoin de moins d'APMS.

Bref, je nie pas que l'IA réalisé reste impressionnante mais je pense qu'il faut relativiser un peu. Ça fait un moment que DeepMind nous annonce des avancés incroyable mais quand on regarde d'un peu près on voit souvent que le responsable de com à un souvent présenté les choses sous l'aspect qui met DeepMind en avant plutôt que de faire preuve de retenue et d'objectivité, même s'il est vrai que les projets réalisés sont intéressants.
Yolteotl
 
J'ai été assez impressionné par le niveau d'AlphaStar, bien que :
- Le contexte a été simplifié : une seule carte, un seul matchup (Protoss vs Protoss), et pas contre les meilleurs joueurs possibles (TLO joue Zerg normalement, n'est probablement même plus dans le top 50 des meilleurs joueurs)
- AlphaStar semble facilement surprenable. Sur une des parties, TLO a réussi à gagner 5 min en envoyant des zealots harass et AS rappatriait toute son armée pour le gérer. La game live de Mana, le joueur profite d'un glitch ou l'AS ne sait pas comment gérer le warp prism au dessus du vide qui lui permet de gagner le temps nécessaire pour prendre le dessus.

Au final, AlphaStar maîtrise le "méta" de par son entraînement, mais on voit bien que sa capacité d'adaptation est assez limitée, et son entraînement n'a pas permis de découvrir toutes les subtilités du jeux.
LeGreg
 
Je pense qu'il faut rappeler la grandeur de la tâche, jusqu'il y a deux ans, un pro (ou même un très bon amateur) aurait facilement battu une telle IA.
Aussi, le reinforcement learning qui est utilisé dans le processus d'apprentissage est notoirement difficile et peut prendre un temps infini (ne jamais aboutir).

Malgré les facilités qui sont données à l'IA (vision zoomée de la carte, contrôle direct des unités plutôt que par interface souris-clavier), Deepmind se lient généralement les mains dans le dos en terme de développement d'IA, puisque le but c'est de faire l'ordinateur apprendre à jouer avec le minimum d'intervention humaine sur les bases du jeu (fixer les objectifs à court terms, build/upgrades order, réaliser qu'il faut miner des resources etc), et comme dit plus tôt il faut un temps fou pour que ces choses basiques soient apprises avec un modèle de reinforcement learning (un joueur humain peut les apprendre en faisant un petit tutorial de quelques minutes).

Bref le but ce n'est pas "seulement" de faire une IA qui bat un humain, sinon l'approche utilisée aurait pu être facilement modifiée pour ça et avec les ressources de Google elle aurait probablement abouti.

Il y a des dimensions pratiques à faire un modèle d’entraînement basé sur la vision et input souris-clavier, la performance prendrait un gros coup et les deux cent ans simulés de pratique de Starcraft pourrait prendre dix (ou plus) fois de temps que les deux semaines actuelles. C'est le modèle qui avait été utilisé pour les jeux Atari mais évidemment rendre un jeu Atari en temps simulé est une babille par rapport à un jeu plus récent comme Starcraft II. Mais cette partie est explorée en parallèle sur des jeux/applications plus simples stratégiquement (papiers sur des first person shooters, ou la conduite de voiture simulée).

Je comprends que d'un point de vue du joueur ce n'est pas forcément satisfaisant (même si la base de l'IA pour les joueurs aujourd'hui ce sont des AI qui trichent ouvertement comme dans Civiilization, ou qui sont stupides mais compensent par leur grand nombre pour donne un sentiment de surpuissance au joueur). Mais le domaine continue à évoluer et il faut souvent marcher avant de courir. Et on rappelle le but final de Deepmind ce ne sont pas des AI qui jouent aux jeux vidéo.
JiHeM
 
D'après un compte-rendu, l'IA a parfois eu des comportements "curieux". Peut-être que ça explique une partie des victoires ? Dans un jeu ultra-codifié, donc prévisible, des moves pas optimaux mais inédits ont pu conférer à l'IA un effet de surprise bénéfique ?

Me semble que c'était pareil pour le go d'ailleurs, l'IA jouait des coups bizarres, qui se révélaient bons seulement car l'adversaire humain n'y était pas préparé...
CBL
 
C'est en partie du au fait que les réseaux de neurones ne produisent pas de résultats parfaits. C'est fondé sur des algo à base de probabilités/statistiques donc la marge d'erreur existe.
MrPapillon
 
Et aussi que certains paramètres humains n'ont pas été émulés pour l'apprentissage. Par exemple l'élégance, la simplicité, l'économie en énergie (pas d'actions inutiles), etc. En gros elle va se concentrer sur l'action la plus efficace, le reste elle s'en fout. Au Go, par exemple, une fois qu'elle estime qu'elle est largement gagnante, elle joue de manière aléatoire, puisque toute action a presque la même proba de la faire gagner.
La première raison c'est que ça augmenterait le nombre de dimensions des entrées d'apprentissage. Et donc une convergence plus longue à venir, voire inexistante (un dixième des projets reinforcement learning réussit, stat approximative qui se balade dans le milieu). Ça demanderait aussi une évaluation humaine supplémentaire. Alors que leur objectif moyen-terme c'est l'efficacité pure, par exemple pour la santé.
Vous devez être connecté pour pouvoir participer à la discussion.
Cliquez ici pour vous connecter ou vous inscrire.
Rechercher sur Factornews