Il y a quelques mois, mon médecin a présenté un outil de transcription IA qu’il utilisait pour enregistrer et résumer ses réunions avec ses sufferers. Dans mon cas, le résumé était bon, mais les chercheurs cités par Actualités ABC ont découvert que ce n’est pas toujours le cas avec Whisper d’OpenAI, qui alimente un outil utilisé par de nombreux hôpitaux – parfois, il invente complètement les choses.
Whisper est utilisé par une entreprise appelé Nabla pour un outil de transcription médicale qui, selon les estimations, a transcrit 7 hundreds of thousands de conversations médicales, selon Actualités ABC. Plus de 30 000 cliniciens et 40 systèmes de santé l’utilisent, écrit le média. Nabla serait conscient que Whisper peut avoir des hallucinations et « s’attaque au problème ».
Un groupe de chercheurs de l’Université Cornell, de l’Université de Washington et d’autres trouvé dans une étude que Whisper hallucinait dans environ 1 pour cent des transcriptions, composant des phrases entières avec des sentiments parfois violents ou des phrases absurdes pendant les silences des enregistrements. Les chercheurs, qui ont rassemblé des échantillons audio de l’AphasiaBank de TalkBank dans le cadre de l’étude, notent que le silence est particulièrement courant lorsqu’une personne souffrant d’un bother du langage appelé aphasie parle.
L’une des chercheuses, Allison Koenecke de l’Université Cornel, a publié des exemples comme celui ci-dessous dans un fil de dialogue sur l’étude.
Les chercheurs ont découvert que les hallucinations incluaient également des situations médicales inventées ou des expressions que l’on pourrait attendre d’une vidéo YouTube, telles que « Merci d’avoir regardé ! » (OpenAI aurait été utilisé pour transcrire plus d’un million d’heures de YouTube vidéos pour entraîner GPT-4.)
L’étude a été présenté en juin à la conférence FAccT de l’Affiliation for Computing Equipment au Brésil. On ne sait pas s’il a été évalué par des pairs.
La porte-parole d’OpenAI, Taya Christianson, a envoyé une déclaration par courrier électronique à Le bord :
Nous prenons ce problème au sérieux et travaillons continuellement à nous améliorer, notamment en réduisant les hallucinations. Pour l’utilisation de Whisper sur notre plateforme API, nos politiques d’utilisation interdisent l’utilisation dans certains contextes décisionnels à enjeux élevés, et notre carte modèle pour une utilisation open supply comprend des recommandations contre l’utilisation dans des domaines à haut risque. Nous remercions les chercheurs d’avoir partagé leurs découvertes.