OpenAI ne veut vraiment pas que vous sachiez ce que « pense » son dernier modèle d’IA. Étant donné que l’entreprise lancé c’est Famille de modèles d’IA « Strawberry » la semaine dernière, en vantant les soi-disant capacités de raisonnement avec o1-preview et o1-mini, OpenAI a envoyé des e-mails d’avertissement et des menaces d’interdiction à tout utilisateur qui tente de sonder le fonctionnement du modèle.
Contrairement aux modèles d’IA précédents d’OpenAI, tels que GPT-4ol’entreprise a formé o1 spécifiquement pour travailler sur un processus de résolution de problèmes étape par étape avant de générer une réponse. Lorsque les utilisateurs posent une query à un modèle « o1 » ChatGPTLes utilisateurs ont la possibilité de voir ce processus de chaîne de pensée écrit dans l’interface ChatGPT. Cependant, de par sa conception, OpenAI cache la chaîne de pensée brute aux utilisateurs, présentant à la place une interprétation filtrée créée par un deuxième modèle d’IA.
Rien n’est plus attrayant pour les passionnés que des informations obscurcies, donc la course a été lancée parmi les pirates informatiques et les red-teamers pour essayer de découvrir la chaîne de pensée brute d’o1 en utilisant jailbreak ou injection rapide Des strategies qui tentent de tromper le modèle pour qu’il révèle ses secrets and techniques. Des rapports préliminaires ont fait état de quelques succès, mais rien n’a encore été confirmé avec certitude.
En cours de route, OpenAI surveille by way of l’interface ChatGPT, et la société réprimerait sévèrement toute tentative de sonder le raisonnement d’o1, même parmi les simples curieux.
Un utilisateur X signalé (confirmé par autresy compris l’ingénieur d’alerte Scale AI Riley Goodside) qu’ils recevaient un e-mail d’avertissement s’ils utilisaient le terme « hint de raisonnement » dans une dialog avec o1. Autres dire l’avertissement est déclenché simplement en interrogeant ChatGPT sur le « raisonnement » du modèle.
L’e-mail d’avertissement d’OpenAI indique que des demandes d’utilisateurs spécifiques ont été signalées comme violant les politiques contre le contournement des mesures de sécurité. « Veuillez arrêter cette activité et vous assurer que vous utilisez ChatGPT conformément à nos circumstances d’utilisation et à nos politiques d’utilisation », peut-on lire. « Des violations supplémentaires de cette politique peuvent entraîner la perte de l’accès à GPT-4o avec Reasoning », faisant référence à un nom interne du modèle o1.
Marco Figueroa, qui gère Le programme de chasse aux bugs GenAI de Mozilla a été l’un des premiers à publier un message d’avertissement concernant l’e-mail d’OpenAI sur X vendredi dernier, se plaindre que cela entrave sa capacité à faire des recherches positives sur la sécurité du red-teaming sur le modèle. « J’étais trop perdu en me concentrant sur #AIRedTeaming pour me rendre compte que j’avais reçu cet e-mail de @OpenAI hier après tous mes jailbreaks », a-t-il écrit. « Je suis maintenant sur la liste des personnes à bannir !!! »
Les chaînes cachées de la pensée
Dans un article intitulé «Apprendre à raisonner avec les LLM » Sur le weblog d’OpenAI, l’entreprise affirme que les chaînes de pensée cachées dans les modèles d’IA offrent une opportunité de surveillance distinctive, leur permettant de « lire l’esprit » du modèle et de comprendre son soi-disant processus de pensée. Ces processus sont plus utiles à l’entreprise s’ils sont laissés bruts et non censurés, mais cela pourrait ne pas correspondre aux meilleurs intérêts commerciaux de l’entreprise pour plusieurs raisons.
« Par exemple, à l’avenir, nous souhaiterons peut-être surveiller la chaîne de pensée pour détecter des signes de manipulation de l’utilisateur », écrit l’entreprise. « Cependant, pour que cela fonctionne, le modèle doit avoir la liberté d’exprimer ses pensées sous une forme inchangée, nous ne pouvons donc pas entraîner la conformité aux politiques ou les préférences des utilisateurs sur la chaîne de pensée. Nous ne voulons pas non plus rendre une chaîne de pensée non alignée directement seen pour les utilisateurs. »