Les sociétés d’intelligence artificielle ont travaillé à une vitesse vertigineuse pour développer les outils les meilleurs et les plus puissants, mais ce développement rapide n’a pas toujours été accompagné d’une compréhension claire des limites ou des faiblesses de l’IA. Aujourd’hui, Anthropic a publié un rapport sur la manière dont les attaquants peuvent influencer le développement d’un grand modèle de langage.
L’étude s’est concentrée sur un kind d’attaque appelé empoisonnement, dans lequel un LLM est pré-entraîné sur du contenu malveillant destiné à lui faire apprendre des comportements dangereux ou indésirables. La principale conclusion de cette étude est qu’un mauvais acteur n’a pas besoin de contrôler un pourcentage du matériel de pré-formation pour que le LLM soit empoisonné. Au lieu de cela, les chercheurs ont découvert qu’un nombre faible et assez fixed de paperwork malveillants peuvent empoisonner un LLM, quelle que soit la taille du modèle ou de son matériel de formation. L’étude a réussi à créer des LLM dérobés basés sur l’utilisation de seulement 250 paperwork malveillants dans l’ensemble de données de pré-entraînement, un nombre beaucoup plus petit que prévu pour des modèles allant de 600 thousands and thousands à 13 milliards de paramètres.
« Nous partageons ces résultats pour montrer que les attaques par empoisonnement des données pourraient être plus pratiques qu’on ne le croit, et pour encourager de nouvelles recherches sur l’empoisonnement des données et les défenses potentielles contre celui-ci », a déclaré la société. Anthropic a collaboré à cette recherche avec l’AI Safety Institute du Royaume-Uni et l’Institut Alan Turing.