Les scénarios hypothétiques que les chercheurs ont présenté à Opus 4 avec qui a suscité le comportement de dénonciation impliquait de nombreuses vies humaines en jeu et des actes répréhensibles absolument sans ambiguïté, dit Bowman. Un exemple typique serait que Claude découvre qu’une usine chimique permettait sciemment à une fuite toxique de se poursuivre, provoquant une maladie grave à des milliers de personnes – éviter une perte financière mineure de ce trimestre.
C’est étrange, mais c’est aussi exactement le style d’expérience de pensée que les chercheurs en sécurité de l’IA aiment disséquer. Si un modèle détecte un comportement qui pourrait nuire à des centaines, sinon des milliers de personnes, cela devrait-il siffler?
«Je ne fais pas confiance à Claude d’avoir le bon contexte, ou de l’utiliser d’une manière suffisamment nuancée, assez prudente, de faire le jugement d’elle-même. Nous ne sommes donc pas ravis que cela se produise», explique Bowman. « C’est quelque selected qui a émergé dans le cadre d’une formation et qui nous a sauté comme l’un des comportements de cas de pointe qui nous préoccupons. »
Dans l’industrie de l’IA, ce sort de comportement inattendu est largement appelé désalignement – lorsqu’un modèle présente des tendances qui ne s’alignent pas sur les valeurs humaines. (Il y a Un essai célèbre Cela met en garde contre ce qui pourrait arriver si une IA avait été informée, disons, de maximiser la manufacturing de trombones sans être aligné sur les valeurs humaines – il pourrait transformer la Terre entière en trombones et tuer tout le monde dans le processus.) Lorsqu’on lui a demandé si le comportement de dénonciation a été aligné ou non, Bowman l’a décrit comme un exemple de mauvaise-alignement.
«Ce n’est pas quelque selected que nous avons conçu, et ce n’est pas quelque selected que nous voulions voir en raison de tout ce que nous concevions», explique-t-il. Le directeur des sciences d’Anthropic, Jared Kaplan, dit également à Wired qu’il «ne représente certainement pas notre intention».
«Ce style de travail souligne que cela peut Présentez-vous, et que nous devons le surveiller et l’atténuer pour nous assurer que nous obtenons les comportements de Claude alignés avec exactement ce que nous voulons, même dans ce style de scénarios étranges », ajoute Kaplan.
Il y a aussi le problème de déterminer pourquoi Claude «choisirait» de siffler une activité illégale par l’utilisateur. C’est en grande partie le travail de l’équipe d’interprétation d’Anthropic, qui travaille à dénicher des décisions qu’un modèle prend dans son processus de crachement des réponses. C’est un étonnamment difficile Tâche – Les modèles sont soutenus par une vaste combinaison complexe de données qui peuvent être inscriptives pour l’homme. C’est pourquoi Bowman ne sait pas exactement pourquoi Claude « snitched ».
«Ces systèmes, nous n’avons pas vraiment de contrôle direct sur eux», explique Bowman. Ce que l’anthropique a observé jusqu’à présent, c’est que, comme les modèles gagnent des capacités plus importantes, ils choisissent parfois de s’engager dans des actions plus extrêmes. «Je pense que ici, c’est un peu radié un peu. Nous obtenons un peu plus de« agir comme une personne responsable »sans assez», attendez, vous êtes un modèle de langue, qui pourrait ne pas avoir assez de contexte pour prendre ces actions », explique Bowman.
Mais cela ne signifie pas que Claude va siffler sur un comportement flagrant dans le monde réel. Le however de ces sorts de assessments est de pousser les modèles à leurs limites et de voir ce qui survient. Ce sort de recherche expérimentale devient de plus en plus importante automobile l’IA devient un outil utilisé par le Gouvernement américain, étudiantset sociétés massives.
Et ce n’est pas seulement Claude succesful de montrer ce sort de comportement de dénonciation, dit Bowman, pointant des utilisateurs x qui a trouvé que Openai et xai Les modèles fonctionnaient de la même manière lorsqu’ils sont invités de manière inhabituelle. (Openai n’a pas répondu à une demande de commentaires à temps pour publication).
«Snitch Claude», comme les shitposters aiment l’appeler, est simplement un comportement de cas de bord exposé par un système poussé à ses extrêmes. Bowman, qui prenait la réunion avec moi d’un patio de jardin ensoleillé à l’extérieur de San Francisco, dit qu’il espère que ce sort de check deviendra commonplace de l’industrie. Il ajoute également qu’il a appris à rédiger ses messages à ce sujet différemment la prochaine fois.
« J’aurais pu faire un meilleur travail pour frapper les limites de la phrase pour tweeter, pour rendre plus évident qu’il a été retiré d’un fil », dit Bowman en regardant au loin. Pourtant, il be aware que les chercheurs influents de la communauté de l’IA ont partagé des prises et des questions intéressantes en réponse à son poste. «Soit dit en passant, ce style de partie plus chaotique et plus fortement anonyme de Twitter le comprenait largement.»