Juste avant leur grand événement WWDC, Apple a publié un nouvel article de recherche fascinant qui examine attentivement la manière dont les principaux modèles d’IA actuels gèrent les problèmes complexes. La principale conclusion? Même les chatbots IA les plus avancés pourraient ne pas « raisonner » comme nous l’imaginons, surtout face à des tâches qu’ils n’ont pas spécifiquement rencontrées auparavant.
Contenu
Cette étude suggère qu’au lieu de véritablement comprendre les choses étape par étape comme un humain, l’IA actuelle s’appuie souvent sur la reconnaissance de modèles et d’étapes issus de ses vastes données d’entraînement. C’est plus une mémorisation surpuissante qu’une véritable pensée flexible. C’est une découverte surprenante qui remet en question certaines hypothèses sur les progrès de l’IA sur la voie d’une véritable intelligence générale.
Ce qu’Apple a testé et pourquoi
Les chercheurs d’Apple voulaient pousser les modèles d’IA au-delà des simples réponses à des questions ou des tâches qu’ils ont probablement rencontrées des millions de fois pendant l’entraînement (comme les calculs de base ou la rédaction d’essais). Ils soupçonnaient que si l’IA peut sembler brillante pour ces tâches familières, elle pourrait éprouver des difficultés avec des défis entièrement nouveaux basés sur la logique.
Pour tester cela, ils n’ont pas utilisé de problèmes mathématiques typiques. Ils se sont plutôt tournés vers des énigmes logiques classiques. Pensez à des casse-tête comme la Tour de Hanoï (déplacer des disques entre des piquets selon des règles), les Sauts de dames (sauter des dames pour les retirer), le Passage de rivière (faire traverser des objets/personnes une rivière avec des contraintes), et le Monde des blocs (empiler des blocs dans un ordre spécifique). Ceux-ci nécessitent de la planification, de l’anticipation et de l’adaptation aux états changeants – des choses que nous associons au raisonnement.
Illustrations d'énigmes logiques classiques utilisées dans l'étude IA d'Apple, incluant la Tour de Hanoï, le Passage de rivière et l'Empilement de blocs.
Apple a testé une gamme de modèles d’IA populaires, y compris des modèles bien connus comme des versions de ChatGPT et Claude, dont certains sont spécifiquement commercialisés comme ayant de plus grandes capacités de « raisonnement ». Ils ont varié la difficulté des énigmes pour voir comment les IA performaient sous pression.
Résultats surprenants : Quand l’IA rencontre un mur
L’étude a révélé que les modèles d’IA s’en sont raisonnablement bien sortis sur les versions faciles et moyennes de ces énigmes. Ce n’est pas trop surprenant – ils peuvent reconnaître des modèles simples et des étapes de résolution de problèmes courantes qu’ils ont appris.
Cependant, les choses ont changé radicalement lorsque les énigmes sont devenues vraiment difficiles ou nouvelles. Au lieu d’essayer de résoudre le problème ou de trouver une nouvelle stratégie, les modèles d’IA ont souvent juste… abandonné. Leur performance n’a pas diminué graduellement; elle s’est effondrée.
Voyez ça comme ça : Si vous montriez à un humain une version légèrement plus difficile d’une énigme qu’il connaît, il passerait probablement plus de temps à réfléchir, peut-être en essayant différentes approches. L’IA, selon les tests d’Apple, cessait souvent de produire des étapes utiles ou donnait des réponses incorrectes qui montraient un manque total de compréhension des règles de l’énigme à des niveaux de complexité plus élevés.
Cet effondrement de la précision suggère qu’ils ne sont pas en train de véritablement raisonner le problème à partir des principes de base. Ils étaient probablement en train d’appliquer des modèles de solution mémorisés issus de leurs données d’entraînement. Lorsque l’énigme s’écartait trop de tout ce qu’ils avaient vu, ils étaient perdus.
Tableau comparatif montrant les niveaux de précision pour différents modèles d'IA (LLM et LRM) sur des tâches d'énigmes faciles, moyennes et difficiles. La précision chute brusquement à mesure que la difficulté augmente.
Cela implique que la performance impressionnante de l’IA actuelle provient souvent de la correspondance de modèles et du rappel de solutions issues de leur vaste entraînement plutôt que d’un raisonnement flexible et adaptable, surtout pour des défis inconnus.
Ce que cela signifie pour vous (et l’avenir de l’IA)
Alors, cela signifie-t-il que votre chatbot IA préféré est inutile ? Pas du tout ! Il est toujours incroyablement puissant pour les tâches pour lesquelles il a été entraîné – écrire des courriels, résumer des articles, répondre à des questions, aider au codage, et bien plus encore. Pour de nombreuses utilisations quotidiennes, cette « reconnaissance de modèles surpuissante » fonctionne brillamment.
Cependant, cette étude met en évidence d’importantes limitations. Elle nous dit que lorsque vous demandez à une IA de résoudre un problème vraiment nouveau, de créer quelque chose d’entièrement sans précédent basé sur des contraintes complexes, ou de naviguer dans une situation différente de tout ce qu’il y a dans ses données d’entraînement, elle pourrait échouer de manière inattendue.
Le moment de la publication de l’étude est également intéressant. Elle arrive juste avant la grande conférence des développeurs d’Apple (WWDC 2025), où l’on s’attend à ce qu’ils parlent davantage de leurs projets pour l’IA, potentiellement sous le nom de « Apple Intelligence ». Bien qu’Apple recherche activement l’IA avancée, ils accusent actuellement un certain retard par rapport à certains concurrents comme OpenAI et Google dans le déploiement des modèles les plus avancés et publiquement accessibles.
Certains pourraient voir cette étude comme Apple soulignant les défauts des capacités actuelles de l’IA juste au moment où ils entrent plus significativement dans la course. D’un autre côté, comprendre ces limitations est crucial pour construire une meilleure IA à l’avenir. Les chercheurs d’Apple espèrent que des études comme celle-ci pousseront le domaine vers le développement de modèles qui peuvent véritablement raisonner et s’adapter.
En fin de compte, la recherche d’Apple est un rappel précieux que si l’IA est incroyablement avancée, ce n’est pas encore l’Intelligence Artificielle Générale (IAG) – le type d’IA qui peut penser, apprendre et s’adapter comme un humain à travers un large éventail de tâches, y compris celles qu’elle n’a jamais rencontrées auparavant. Nous sommes toujours sur ce chemin, et comprendre les points aveugles de l’IA actuelle, comme « l’illusion de penser » que cette étude met en évidence, est une étape clé vers l’avant.