• Home
  • Contact Us
  • Disclaimer
  • Privacy Policy
  • Terms & Conditions
No Result
View All Result
ETHAN PIKE
  • Technologie
  • Sports
  • Ecologie
  • Femmes
    • Enfants – Bébé
    • Hommes
  • Gadgets
  • Loisirs
  • 2 roues
  • Voyage
  • Culture – Livre
  • Décoration / Electroménager
  • Technologie
  • Sports
  • Ecologie
  • Femmes
    • Enfants – Bébé
    • Hommes
  • Gadgets
  • Loisirs
  • 2 roues
  • Voyage
  • Culture – Livre
  • Décoration / Electroménager
No Result
View All Result
ETHAN PIKE
No Result
View All Result
Home Technologie

Xai a-t-il menti sur les références de Grok 3?

by ETHAN PIKE
23 février 2025
in Technologie
0
Xai a-t-il menti sur les références de Grok 3?
0
SHARES
5
VIEWS
Share on FacebookShare on Twitter


Les débats sur les références de l’IA – et remark ils sont signalés par les laboratoires AI – se répandent dans le public.

Cette semaine, un employé d’Openai accusé La société AI d’Elon Musk, Xai, de la publication des résultats de référence trompeuse pour son dernier modèle d’IA, Grok 3. L’un des co-fondateurs de Xai, Igor Babushkin, insisté que l’entreprise était dans la droite.

La vérité se situe quelque half entre les deux.

Dans un Publier sur le weblog de Xaila société a publié un graphique montrant les performances de Grok 3 sur AIME 2025, une assortment de questions mathématiques difficiles d’un récent examen de mathématiques sur invitation. Certains consultants ont remis en query la validité de l’AIME en tant que référence AI. Néanmoins, les variations AIME 2025 et plus anciennes du take a look at sont couramment utilisées pour sonder la capacité mathématique d’un modèle.

Le graphique de Xai a montré deux variantes de Grok 3, Grok 3 Motive Beta et Grok 3 Mini Raisonnement, battant le modèle disponible le plus performant d’Openai, O3-min-de hautsur AIME 2025. Mais les employés d’Openai sur X ont rapidement souligné que le graphique de Xai n’incluait pas le rating AIME 2025 d’O3-Mini-Excessive à « Cons @ 64 ».

Qu’est-ce que Cons @ 64, vous pourriez demander? Eh bien, il est courtroom pour «consensus @ 64», et il donne essentiellement à un modèle 64 essaie de répondre à chaque problème dans une référence et prend les réponses générées le plus fréquemment comme les réponses finales. Comme vous pouvez l’imaginer, Cons @ 64 a tendance à stimuler un peu les scores de référence des modèles, et l’omettre à partir d’un graphique pourrait donner l’impression qu’un modèle dépasse un autre alors qu’en réalité, ce n’est pas le cas.

Grok 3 Reasoning Beta et Grok 3 Mini Reasoning Scores pour AIME 2025 à «@ 1» – ce qui signifie que le premier rating que les modèles ont obtenu sur la référence – tombent en dessous du rating d’O3-MinI-Excessive. Grok 3 Reashing Beta swimsuit également toujours si légèrement derrière Openai modèle O1 réglé sur l’informatique «moyenne». Pourtant, xai est publicité Grok 3 comme «l’IA la plus intelligente du monde».

Babushkin Articulé sur x Cet OpenAI a publié des graphiques de référence trompeuses dans le passé – bien que des graphiques comparant les performances de ses propres modèles. Une partie plus neutre dans le débat a mis en place un graphique plus «précis» montrant presque les performances de toutes les modèles à CONS @ 64:

Hilarant remark certaines personnes voient mon intrigue comme une attaque contre Openai et d’autres comme attaque contre Grok alors qu’en réalité c’est une propagande profonde
(Je crois en fait que Grok a l’air bien là-bas, et TTC Chicanery d’Openai derrière O3-Mini- * Excessive * -Move @ ”” ”1 ″” ”mérite plus d’examen.) https://t.co/djqljpcjh8 pic.twitter.com/3wh8foufic

– Teortaxes ▶ ️ (Deepseek 推特🐋铁粉 2023 – ∞) (@teortaxeStex) 20 février 2025

Mais en tant que chercheur en IA Nathan Lambert souligné dans un put uppeut-être que la métrique la plus importante reste un mystère: le coût de calcul (et monétaire) qu’il a fallu à chaque modèle pour obtenir son meilleur rating. Cela montre simplement à quel level la plupart des repères d’IA communiquent peu sur les limites des modèles – et leurs forces.



Tags: atilGrokLesmentiréférencessurxAI
ETHAN PIKE

ETHAN PIKE

Next Post
Google dévoile Profession Dreamer, un outil d’IA pour les demandeurs d’emploi

Google dévoile Profession Dreamer, un outil d'IA pour les demandeurs d'emploi

Please login to join discussion

Recommandé

Cousez un pull avec des détails amusants – Tricot

Cousez un pull avec des détails amusants – Tricot

1 an ago
5 purposes qui ont fait de mon iPad un véritable remplacement de MacBook

5 purposes qui ont fait de mon iPad un véritable remplacement de MacBook

5 mois ago

Actualités populaires

  • Remark faire des éclaboussures d’Halloween pour une déclaration de décoration audacieuse – House and Backyard

    Remark faire des éclaboussures d’Halloween pour une déclaration de décoration audacieuse – House and Backyard

    0 shares
    Share 0 Tweet 0
  • Les 15 meilleures couleurs de vernis à ongles OPI pour l’automne 2025

    0 shares
    Share 0 Tweet 0
  • Podcast # 1 081: L’artwork de l’auto-persuasion d’Aristote – remark utiliser la rhétorique ancienne pour changer votre vie

    0 shares
    Share 0 Tweet 0
  • J’ai trouvé un cadre qui a transformé Gmail d’un fardeau en une brise

    0 shares
    Share 0 Tweet 0
  • Omakase: Un tracker de rue Kymco Ktr de bon goût par 2loud…

    0 shares
    Share 0 Tweet 0

À propos de nous

Bienvenue sur ethanpike.eu L'objectif de ethanpike.eu est de vous offrir les meilleures sources d'informations sur n'importe quel sujet ! Nos sujets sont soigneusement sélectionnés et constamment mis à jour car nous savons que le Web évolue rapidement et nous essayons donc de le faire également.

Catégorie

  • 2 roues
  • Culture – Livre
  • Décoration / Electroménager
  • Ecologie
  • Enfants – Bébé
  • Femmes
  • Gadgets
  • Hommes
  • Loisirs
  • Sports
  • Technologie
  • Voyage

Messages récents

  • La rivière a déménagé – Journey Church Hawaii
  • Rapport de vêtements de travail de mercredi: gown de pull contrastée-trim
  • L’utility Fitbit se transforme en un coach de santé personnel propulsé par l’IA
  • Home
  • Contact Us
  • Disclaimer
  • Privacy Policy
  • Terms & Conditions

Copyright © 2024 Ethanpike.eu | All Rights Reserved.

No Result
View All Result
  • Technologie
  • Sports
  • Ecologie
  • Femmes
    • Enfants – Bébé
    • Hommes
  • Gadgets
  • Loisirs
  • 2 roues
  • Voyage
  • Culture – Livre
  • Décoration / Electroménager

Copyright © 2024 Ethanpike.eu | All Rights Reserved.