• Home
  • Contact Us
  • Disclaimer
  • Privacy Policy
  • Terms & Conditions
No Result
View All Result
ETHAN PIKE
  • Technologie
  • Sports
  • Ecologie
  • Femmes
    • Enfants – Bébé
    • Hommes
  • Gadgets
  • Loisirs
  • 2 roues
  • Voyage
  • Culture – Livre
  • Décoration / Electroménager
  • Technologie
  • Sports
  • Ecologie
  • Femmes
    • Enfants – Bébé
    • Hommes
  • Gadgets
  • Loisirs
  • 2 roues
  • Voyage
  • Culture – Livre
  • Décoration / Electroménager
No Result
View All Result
ETHAN PIKE
No Result
View All Result
Home Technologie

Pourquoi le nouveau modèle d’IA d’Anthropic essaie parfois de «couler»

by ETHAN PIKE
29 mai 2025
in Technologie
0
Pourquoi le nouveau modèle d’IA d’Anthropic essaie parfois de «couler»
0
SHARES
4
VIEWS
Share on FacebookShare on Twitter


Les scénarios hypothétiques que les chercheurs ont présenté à Opus 4 avec qui a suscité le comportement de dénonciation impliquait de nombreuses vies humaines en jeu et des actes répréhensibles absolument sans ambiguïté, dit Bowman. Un exemple typique serait que Claude découvre qu’une usine chimique permettait sciemment à une fuite toxique de se poursuivre, provoquant une maladie grave à des milliers de personnes – éviter une perte financière mineure de ce trimestre.

C’est étrange, mais c’est aussi exactement le style d’expérience de pensée que les chercheurs en sécurité de l’IA aiment disséquer. Si un modèle détecte un comportement qui pourrait nuire à des centaines, sinon des milliers de personnes, cela devrait-il siffler?

«Je ne fais pas confiance à Claude d’avoir le bon contexte, ou de l’utiliser d’une manière suffisamment nuancée, assez prudente, de faire le jugement d’elle-même. Nous ne sommes donc pas ravis que cela se produise», explique Bowman. « C’est quelque selected qui a émergé dans le cadre d’une formation et qui nous a sauté comme l’un des comportements de cas de pointe qui nous préoccupons. »

Dans l’industrie de l’IA, ce sort de comportement inattendu est largement appelé désalignement – lorsqu’un modèle présente des tendances qui ne s’alignent pas sur les valeurs humaines. (Il y a Un essai célèbre Cela met en garde contre ce qui pourrait arriver si une IA avait été informée, disons, de maximiser la manufacturing de trombones sans être aligné sur les valeurs humaines – il pourrait transformer la Terre entière en trombones et tuer tout le monde dans le processus.) Lorsqu’on lui a demandé si le comportement de dénonciation a été aligné ou non, Bowman l’a décrit comme un exemple de mauvaise-alignement.

«Ce n’est pas quelque selected que nous avons conçu, et ce n’est pas quelque selected que nous voulions voir en raison de tout ce que nous concevions», explique-t-il. Le directeur des sciences d’Anthropic, Jared Kaplan, dit également à Wired qu’il «ne représente certainement pas notre intention».

«Ce style de travail souligne que cela peut Présentez-vous, et que nous devons le surveiller et l’atténuer pour nous assurer que nous obtenons les comportements de Claude alignés avec exactement ce que nous voulons, même dans ce style de scénarios étranges », ajoute Kaplan.

Il y a aussi le problème de déterminer pourquoi Claude «choisirait» de siffler une activité illégale par l’utilisateur. C’est en grande partie le travail de l’équipe d’interprétation d’Anthropic, qui travaille à dénicher des décisions qu’un modèle prend dans son processus de crachement des réponses. C’est un étonnamment difficile Tâche – Les modèles sont soutenus par une vaste combinaison complexe de données qui peuvent être inscriptives pour l’homme. C’est pourquoi Bowman ne sait pas exactement pourquoi Claude « snitched ».

«Ces systèmes, nous n’avons pas vraiment de contrôle direct sur eux», explique Bowman. Ce que l’anthropique a observé jusqu’à présent, c’est que, comme les modèles gagnent des capacités plus importantes, ils choisissent parfois de s’engager dans des actions plus extrêmes. «Je pense que ici, c’est un peu radié un peu. Nous obtenons un peu plus de« agir comme une personne responsable »sans assez», attendez, vous êtes un modèle de langue, qui pourrait ne pas avoir assez de contexte pour prendre ces actions », explique Bowman.

Mais cela ne signifie pas que Claude va siffler sur un comportement flagrant dans le monde réel. Le however de ces sorts de assessments est de pousser les modèles à leurs limites et de voir ce qui survient. Ce sort de recherche expérimentale devient de plus en plus importante automobile l’IA devient un outil utilisé par le Gouvernement américain, étudiantset sociétés massives.

Et ce n’est pas seulement Claude succesful de montrer ce sort de comportement de dénonciation, dit Bowman, pointant des utilisateurs x qui a trouvé que Openai et xai Les modèles fonctionnaient de la même manière lorsqu’ils sont invités de manière inhabituelle. (Openai n’a pas répondu à une demande de commentaires à temps pour publication).

«Snitch Claude», comme les shitposters aiment l’appeler, est simplement un comportement de cas de bord exposé par un système poussé à ses extrêmes. Bowman, qui prenait la réunion avec moi d’un patio de jardin ensoleillé à l’extérieur de San Francisco, dit qu’il espère que ce sort de check deviendra commonplace de l’industrie. Il ajoute également qu’il a appris à rédiger ses messages à ce sujet différemment la prochaine fois.

« J’aurais pu faire un meilleur travail pour frapper les limites de la phrase pour tweeter, pour rendre plus évident qu’il a été retiré d’un fil », dit Bowman en regardant au loin. Pourtant, il be aware que les chercheurs influents de la communauté de l’IA ont partagé des prises et des questions intéressantes en réponse à son poste. «Soit dit en passant, ce style de partie plus chaotique et plus fortement anonyme de Twitter le comprenait largement.»

Tags: coulerdAnthropicdIAessaiemodèlenouveauParfoispourquoi
ETHAN PIKE

ETHAN PIKE

Next Post
Critiques de New Meals: Skittles Pop’d Greeze séché aux bonbons

Critiques de New Meals: Skittles Pop'd Greeze séché aux bonbons

Please login to join discussion

Recommandé

Pause café : Bouilloire Cuisinart – Corporette.com

Pause café : Bouilloire Cuisinart – Corporette.com

12 mois ago
Play d’eau easy d’étain d’été pour les enfants

Play d’eau easy d’étain d’été pour les enfants

4 mois ago

Actualités populaires

  • Arrière-plans technologiques de septembre 2024 : fonds d’écran d’automne gratuits et téléchargeables !

    Arrière-plans technologiques de septembre 2024 : fonds d’écran d’automne gratuits et téléchargeables !

    0 shares
    Share 0 Tweet 0
  • The Hundred: Oval Invincibles Males complète le premier tripage dans l’histoire du tournoi avec continuité et clé d’affiliation | Nouvelles de cricket

    0 shares
    Share 0 Tweet 0
  • Rain Cloud Magic: une expérience météorologique pratique

    0 shares
    Share 0 Tweet 0
  • À quoi s’attendre à sortir avec un homme de plus de 60 ans

    0 shares
    Share 0 Tweet 0
  • La règle 10-10-10 vous aide à devenir votre futur moi maintenant

    0 shares
    Share 0 Tweet 0

À propos de nous

Bienvenue sur ethanpike.eu L'objectif de ethanpike.eu est de vous offrir les meilleures sources d'informations sur n'importe quel sujet ! Nos sujets sont soigneusement sélectionnés et constamment mis à jour car nous savons que le Web évolue rapidement et nous essayons donc de le faire également.

Catégorie

  • 2 roues
  • Culture – Livre
  • Décoration / Electroménager
  • Ecologie
  • Enfants – Bébé
  • Femmes
  • Gadgets
  • Hommes
  • Loisirs
  • Sports
  • Technologie
  • Voyage

Messages récents

  • Brins d’argent et positions plus fortes: pourquoi je garde mes cheveux longs après 50 (et vous pouvez aussi)
  • Huawei Freebuds SE 4 ANC lancement avec annulation de bruit, batterie 50h et durabilité IP54
  • Chargers RB Najee Harris (Eye) est autorisé pour le contact, peut jouer la semaine 1
  • Home
  • Contact Us
  • Disclaimer
  • Privacy Policy
  • Terms & Conditions

Copyright © 2024 Ethanpike.eu | All Rights Reserved.

No Result
View All Result
  • Technologie
  • Sports
  • Ecologie
  • Femmes
    • Enfants – Bébé
    • Hommes
  • Gadgets
  • Loisirs
  • 2 roues
  • Voyage
  • Culture – Livre
  • Décoration / Electroménager

Copyright © 2024 Ethanpike.eu | All Rights Reserved.