Les débats sur les références de l’IA – et remark ils sont signalés par les laboratoires AI – se répandent dans le public.
Cette semaine, un employé d’Openai accusé La société AI d’Elon Musk, Xai, de la publication des résultats de référence trompeuse pour son dernier modèle d’IA, Grok 3. L’un des co-fondateurs de Xai, Igor Babushkin, insisté que l’entreprise était dans la droite.
La vérité se situe quelque half entre les deux.
Dans un Publier sur le weblog de Xaila société a publié un graphique montrant les performances de Grok 3 sur AIME 2025, une assortment de questions mathématiques difficiles d’un récent examen de mathématiques sur invitation. Certains consultants ont remis en query la validité de l’AIME en tant que référence AI. Néanmoins, les variations AIME 2025 et plus anciennes du take a look at sont couramment utilisées pour sonder la capacité mathématique d’un modèle.
Le graphique de Xai a montré deux variantes de Grok 3, Grok 3 Motive Beta et Grok 3 Mini Raisonnement, battant le modèle disponible le plus performant d’Openai, O3-min-de hautsur AIME 2025. Mais les employés d’Openai sur X ont rapidement souligné que le graphique de Xai n’incluait pas le rating AIME 2025 d’O3-Mini-Excessive à « Cons @ 64 ».
Qu’est-ce que Cons @ 64, vous pourriez demander? Eh bien, il est courtroom pour «consensus @ 64», et il donne essentiellement à un modèle 64 essaie de répondre à chaque problème dans une référence et prend les réponses générées le plus fréquemment comme les réponses finales. Comme vous pouvez l’imaginer, Cons @ 64 a tendance à stimuler un peu les scores de référence des modèles, et l’omettre à partir d’un graphique pourrait donner l’impression qu’un modèle dépasse un autre alors qu’en réalité, ce n’est pas le cas.
Grok 3 Reasoning Beta et Grok 3 Mini Reasoning Scores pour AIME 2025 à «@ 1» – ce qui signifie que le premier rating que les modèles ont obtenu sur la référence – tombent en dessous du rating d’O3-MinI-Excessive. Grok 3 Reashing Beta swimsuit également toujours si légèrement derrière Openai modèle O1 réglé sur l’informatique «moyenne». Pourtant, xai est publicité Grok 3 comme «l’IA la plus intelligente du monde».
Babushkin Articulé sur x Cet OpenAI a publié des graphiques de référence trompeuses dans le passé – bien que des graphiques comparant les performances de ses propres modèles. Une partie plus neutre dans le débat a mis en place un graphique plus «précis» montrant presque les performances de toutes les modèles à CONS @ 64:
Hilarant remark certaines personnes voient mon intrigue comme une attaque contre Openai et d’autres comme attaque contre Grok alors qu’en réalité c’est une propagande profonde
(Je crois en fait que Grok a l’air bien là-bas, et TTC Chicanery d’Openai derrière O3-Mini- * Excessive * -Move @ ”” ”1 ″” ”mérite plus d’examen.) https://t.co/djqljpcjh8 pic.twitter.com/3wh8foufic– Teortaxes ▶ ️ (Deepseek 推特🐋铁粉 2023 – ∞) (@teortaxeStex) 20 février 2025
Mais en tant que chercheur en IA Nathan Lambert souligné dans un put uppeut-être que la métrique la plus importante reste un mystère: le coût de calcul (et monétaire) qu’il a fallu à chaque modèle pour obtenir son meilleur rating. Cela montre simplement à quel level la plupart des repères d’IA communiquent peu sur les limites des modèles – et leurs forces.