• Home
  • Contact Us
  • Disclaimer
  • Privacy Policy
  • Terms & Conditions
No Result
View All Result
ETHAN PIKE
  • Technologie
  • Sports
  • Ecologie
  • Femmes
    • Enfants – Bébé
    • Hommes
  • Gadgets
  • Loisirs
  • 2 roues
  • Voyage
  • Culture – Livre
  • Décoration / Electroménager
  • Technologie
  • Sports
  • Ecologie
  • Femmes
    • Enfants – Bébé
    • Hommes
  • Gadgets
  • Loisirs
  • 2 roues
  • Voyage
  • Culture – Livre
  • Décoration / Electroménager
No Result
View All Result
ETHAN PIKE
No Result
View All Result
Home Technologie

Les ingénieurs Apple montrent à quel level le « raisonnement » de l’IA peut être fragile

by ETHAN PIKE
16 octobre 2024
in Technologie
0
Les ingénieurs Apple montrent à quel level le « raisonnement » de l’IA peut être fragile
0
SHARES
0
VIEWS
Share on FacebookShare on Twitter


Depuis un sure temps déjà, des entreprises comme OpenAI et Google vantant des capacités de « raisonnement » avancées comme la prochaine grande étape dans leurs derniers modèles d’intelligence artificielle. Aujourd’hui, cependant, une nouvelle étude menée par six ingénieurs Apple montre que le « raisonnement » mathématique affiché par les grands modèles de langage avancés peut être extrêmement fragile et peu fiable face à des changements apparemment insignifiants dans des problèmes de référence courants.

La fragilité mise en évidence dans ces nouveaux résultats contribue à soutenir des recherches antérieures suggérant que l’utilisation par les LLM de l’appariement de modèles probabilistes manque de la compréhension formelle des ideas sous-jacents nécessaires à des capacités de raisonnement mathématique véritablement fiables. « Les LLM actuels ne sont pas capables d’un véritable raisonnement logique », émettent l’hypothèse des chercheurs sur la base de ces résultats. « Au lieu de cela, ils tentent de reproduire les étapes de raisonnement observées dans leurs données de formation. »

Mélangez-le

Dans « GSM-Symbolic : Comprendre les limites du raisonnement mathématique dans les grands modèles de langage » – actuellement disponible comme papier pré-imprimé—les six chercheurs Apple commencent par Ensemble standardisé de plus de 8 000 problèmes de mots mathématiques de niveau école primaire de GSM8Kce qui est souvent utilisé comme référence pour les capacités de raisonnement complexes des LLM modernes. Ils adoptent ensuite une nouvelle approche consistant à modifier une partie de cet ensemble de assessments pour remplacer dynamiquement certains noms et numéros par de nouvelles valeurs. Ainsi, une query sur Sophie obtenant 31 éléments de base pour son neveu dans GSM8K pourrait devenir une query sur Invoice obtenant 19 éléments de base pour son frère dans la nouvelle évaluation GSM-Symbolic.

Cette approche permet d’éviter toute « contamination des données » potentielle pouvant résulter de l’introduction directe de questions statiques GSM8K dans les données d’entraînement d’un modèle d’IA. Dans le même temps, ces changements accidentels ne modifient en rien la difficulté réelle du raisonnement mathématique inhérent, ce qui signifie que les modèles devraient théoriquement fonctionner aussi bien lorsqu’ils sont testés sur GSM-Symbolic que sur GSM8K.

Au lieu de cela, lorsque les chercheurs ont testé plus de 20 LLM de pointe sur GSM-Symbolic, ils ont constaté une précision moyenne globalement réduite par rapport au GSM8K, avec des baisses de performances contains entre 0,3 % et 9,2 %, selon le modèle. Les résultats ont également montré une grande variance sur 50 exécutions distinctes de GSM-Symbolic avec des noms et des valeurs différents. Des écarts de précision allant jusqu’à 15 % entre les meilleures et les pires exécutions étaient courants au sein d’un même modèle et, pour une raison quelconque, la modification des chiffres avait tendance à entraîner une moins bonne précision que la modification des noms.

Ce sort de variance, à la fois au sein des différentes analyses GSM-Symbolic et par rapport aux résultats GSM8K, est plus que surprenant puisque, comme le soulignent les chercheurs, « les étapes de raisonnement globales nécessaires pour résoudre une query restent les mêmes ». Le fait que de si petits changements conduisent à des résultats aussi variables suggère aux chercheurs que ces modèles ne font aucun raisonnement « formel » mais « tentent plutôt d’effectuer une sorte de correspondance de modèles dans la distribution, en alignant les questions données et les résultats ». étapes de answer avec celles similaires observées dans les données de formation.

Ne vous laissez pas distraire

Néanmoins, la variance globale affichée pour les assessments GSM-Symbolic était souvent relativement faible dans l’ensemble. Le ChatGPT-4o d’OpenAI, par exemple, est passé d’une précision de 95,2 % sur GSM8K à un niveau toujours impressionnant de 94,9 % sur GSM-Symbolic. Il s’agit d’un taux de réussite assez élevé en utilisant l’un ou l’autre des critères, que le modèle lui-même utilise ou non un raisonnement « formel » en coulisses (bien que la précision totale de nombreux modèles ait chuté précipitamment lorsque les chercheurs ont ajouté seulement une ou deux étapes logiques supplémentaires aux problèmes). ).

Les LLM testés ont cependant obtenu des résultats bien pires lorsque les chercheurs d’Apple ont modifié le benchmark GSM-Symbolic en ajoutant « des déclarations apparemment pertinentes mais finalement sans conséquence » aux questions. Pour cet ensemble de référence « GSM-NoOp » (abréviation de « aucune opération »), une query sur le nombre de kiwis qu’une personne cueille sur plusieurs jours pourrait être modifiée pour inclure le détail accessoire selon lequel « cinq d’entre eux (les kiwis) étaient un peu plus petits ». que la moyenne. »

L’ajout de ces fausses pistes a conduit à ce que les chercheurs ont appelé des « baisses de performances catastrophiques » en termes de précision par rapport au GSM8K, allant de 17,5 % à 65,7 %, selon le modèle testé. Ces baisses massives de précision mettent en évidence les limites inhérentes à l’utilisation d’une easy « correspondance de modèles » pour « convertir des déclarations en opérations sans vraiment comprendre leur signification », écrivent les chercheurs.

Tags: AppleêtrefragileingénieursLeslIAmontrentpeutpointquelraisonnement
ETHAN PIKE

ETHAN PIKE

Next Post
« Maman et papa, nous devons parler »

"Maman et papa, nous devons parler"

Please login to join discussion

Recommandé

Après un match quasiment sans coup sûr, Bowden Francis des Jays affronte les Pink Sox

Après un match quasiment sans coup sûr, Bowden Francis des Jays affronte les Pink Sox

1 an ago
Pause Café : Cardigan Meraki – Corporette.com

Pause Café : Cardigan Meraki – Corporette.com

1 mois ago

Actualités populaires

  • Modèle gratuit – Modèle artisanal de boules de neige bleues DMC – Une création gratuite et élégante pour une décoration de Noël faite à la essential – Travail à l’aiguille

    Modèle gratuit – Modèle artisanal de boules de neige bleues DMC – Une création gratuite et élégante pour une décoration de Noël faite à la essential – Travail à l’aiguille

    0 shares
    Share 0 Tweet 0
  • Cette IA japonaise peut décrire instantanément ce que vous voyez ou imaginez

    0 shares
    Share 0 Tweet 0
  • Pourquoi la capacité d’consideration ne diminue pas – elle se polarise

    0 shares
    Share 0 Tweet 0
  • Magie monochromatique : une belle Triumph Avenue Twin par…

    0 shares
    Share 0 Tweet 0
  • Avec l’Amérique sur mon putain de dernier nerf, moi, le juge Ketanji Brown Jackson, dissident

    0 shares
    Share 0 Tweet 0

À propos de nous

Bienvenue sur ethanpike.eu L'objectif de ethanpike.eu est de vous offrir les meilleures sources d'informations sur n'importe quel sujet ! Nos sujets sont soigneusement sélectionnés et constamment mis à jour car nous savons que le Web évolue rapidement et nous essayons donc de le faire également.

Catégorie

  • 2 roues
  • Culture – Livre
  • Décoration / Electroménager
  • Ecologie
  • Enfants – Bébé
  • Femmes
  • Gadgets
  • Hommes
  • Loisirs
  • Sports
  • Technologie
  • Voyage

Messages récents

  • DIFFUSIONS GRATUITES WSL : regardez Aston Villa contre les Lionesses de London Metropolis, Brighton contre Leicester et West Ham contre Everton | Actualités footballistiques
  • Mashable Readers’ Alternative Awards 2025 : vos appareils intelligents préférés
  • Tesla émet un rappel « en raison de risques d’incendie et de brûlure ; Risque de blessures graves ou de décès
  • Home
  • Contact Us
  • Disclaimer
  • Privacy Policy
  • Terms & Conditions

Copyright © 2024 Ethanpike.eu | All Rights Reserved.

No Result
View All Result
  • Technologie
  • Sports
  • Ecologie
  • Femmes
    • Enfants – Bébé
    • Hommes
  • Gadgets
  • Loisirs
  • 2 roues
  • Voyage
  • Culture – Livre
  • Décoration / Electroménager

Copyright © 2024 Ethanpike.eu | All Rights Reserved.