Depuis un sure temps déjà, des entreprises comme OpenAI et Google vantant des capacités de « raisonnement » avancées comme la prochaine grande étape dans leurs derniers modèles d’intelligence artificielle. Aujourd’hui, cependant, une nouvelle étude menée par six ingénieurs Apple montre que le « raisonnement » mathématique affiché par les grands modèles de langage avancés peut être extrêmement fragile et peu fiable face à des changements apparemment insignifiants dans des problèmes de référence courants.
La fragilité mise en évidence dans ces nouveaux résultats contribue à soutenir des recherches antérieures suggérant que l’utilisation par les LLM de l’appariement de modèles probabilistes manque de la compréhension formelle des ideas sous-jacents nécessaires à des capacités de raisonnement mathématique véritablement fiables. “Les LLM actuels ne sont pas capables d’un véritable raisonnement logique”, émettent l’hypothèse des chercheurs sur la base de ces résultats. “Au lieu de cela, ils tentent de reproduire les étapes de raisonnement observées dans leurs données de formation.”
Mélangez-le
Dans « GSM-Symbolic : Comprendre les limites du raisonnement mathématique dans les grands modèles de langage » – actuellement disponible comme papier pré-imprimé—les six chercheurs Apple commencent par Ensemble standardisé de plus de 8 000 problèmes de mots mathématiques de niveau école primaire de GSM8Kce qui est souvent utilisé comme référence pour les capacités de raisonnement complexes des LLM modernes. Ils adoptent ensuite une nouvelle approche consistant à modifier une partie de cet ensemble de assessments pour remplacer dynamiquement certains noms et numéros par de nouvelles valeurs. Ainsi, une query sur Sophie obtenant 31 éléments de base pour son neveu dans GSM8K pourrait devenir une query sur Invoice obtenant 19 éléments de base pour son frère dans la nouvelle évaluation GSM-Symbolic.
Cette approche permet d’éviter toute « contamination des données » potentielle pouvant résulter de l’introduction directe de questions statiques GSM8K dans les données d’entraînement d’un modèle d’IA. Dans le même temps, ces changements accidentels ne modifient en rien la difficulté réelle du raisonnement mathématique inhérent, ce qui signifie que les modèles devraient théoriquement fonctionner aussi bien lorsqu’ils sont testés sur GSM-Symbolic que sur GSM8K.
Au lieu de cela, lorsque les chercheurs ont testé plus de 20 LLM de pointe sur GSM-Symbolic, ils ont constaté une précision moyenne globalement réduite par rapport au GSM8K, avec des baisses de performances contains entre 0,3 % et 9,2 %, selon le modèle. Les résultats ont également montré une grande variance sur 50 exécutions distinctes de GSM-Symbolic avec des noms et des valeurs différents. Des écarts de précision allant jusqu’à 15 % entre les meilleures et les pires exécutions étaient courants au sein d’un même modèle et, pour une raison quelconque, la modification des chiffres avait tendance à entraîner une moins bonne précision que la modification des noms.
Ce sort de variance, à la fois au sein des différentes analyses GSM-Symbolic et par rapport aux résultats GSM8K, est plus que surprenant puisque, comme le soulignent les chercheurs, “les étapes de raisonnement globales nécessaires pour résoudre une query restent les mêmes”. Le fait que de si petits changements conduisent à des résultats aussi variables suggère aux chercheurs que ces modèles ne font aucun raisonnement « formel » mais « tentent plutôt d’effectuer une sorte de correspondance de modèles dans la distribution, en alignant les questions données et les résultats ». étapes de answer avec celles similaires observées dans les données de formation.
Ne vous laissez pas distraire
Néanmoins, la variance globale affichée pour les assessments GSM-Symbolic était souvent relativement faible dans l’ensemble. Le ChatGPT-4o d’OpenAI, par exemple, est passé d’une précision de 95,2 % sur GSM8K à un niveau toujours impressionnant de 94,9 % sur GSM-Symbolic. Il s’agit d’un taux de réussite assez élevé en utilisant l’un ou l’autre des critères, que le modèle lui-même utilise ou non un raisonnement « formel » en coulisses (bien que la précision totale de nombreux modèles ait chuté précipitamment lorsque les chercheurs ont ajouté seulement une ou deux étapes logiques supplémentaires aux problèmes). ).
Les LLM testés ont cependant obtenu des résultats bien pires lorsque les chercheurs d’Apple ont modifié le benchmark GSM-Symbolic en ajoutant « des déclarations apparemment pertinentes mais finalement sans conséquence » aux questions. Pour cet ensemble de référence « GSM-NoOp » (abréviation de « aucune opération »), une query sur le nombre de kiwis qu’une personne cueille sur plusieurs jours pourrait être modifiée pour inclure le détail accessoire selon lequel « cinq d’entre eux (les kiwis) étaient un peu plus petits ». que la moyenne.”
L’ajout de ces fausses pistes a conduit à ce que les chercheurs ont appelé des « baisses de performances catastrophiques » en termes de précision par rapport au GSM8K, allant de 17,5 % à 65,7 %, selon le modèle testé. Ces baisses massives de précision mettent en évidence les limites inhérentes à l’utilisation d’une easy « correspondance de modèles » pour « convertir des déclarations en opérations sans vraiment comprendre leur signification », écrivent les chercheurs.