La robustesse antagoniste de la sécurité des GML
Mettre au point un modèle d’attaque automatisé performant pour optimiser l’évaluation et l’entraînement des grands modèles de langage en vue de les rendre plus sûrs et plus robustes.
L’évaluation des vulnérabilités des grands modèles de langage (GML) est devenue un domaine clé de la recherche sur la sécurité de l’IA. Gauthier Gidel, titulaire de chaire en IA Canada-CIFAR, propose une méthode novatrice, plus efficace et automatisée, pour trouver les vulnérabilités dans les GML. En faisant appel à l’optimisation et en empruntant des méthodes issues d’attaques antagonistes fondées sur les images, ce projet a pour but de fournir un modèle efficace d’attaque automatique. Cela permettra aux concepteurs et conceptrices de modèles d’améliorer les évaluations et l’entraînement des GML, de mesurer leur vulnérabilité, ainsi que de les rendre plus sûrs et plus robustes.
Collaborateurs et collaboratrices
Gauthier Gidel
Mila et Université de Montréal

