Cadre statistique unifié pour évaluer les risques de défaillances rares des modèles de langage
Procéder à l’analyse quantitative d’événements rares à l’aide d’outils statistiques éprouvés pour mieux comparer les modèles, établir des normes de sécurité et mesurer la régression des modèles.
L’un des principaux défis de l’alignement de l’IA consiste à mesurer des taux de défaillance extrêmement faibles, à savoir des probabilités si minimes qu’aucun test ordinaire ne peut les détecter. Les défaillances dites « de longue traîne », comme les débridages (jailbreaks), le contournement des politiques ou des manquements subtils aux règles de sécurité, sont parmi les moins bien surveillées. Cette lacune rend impossible toute comparaison entre les modèles, l’établissement de normes de sécurité et l’évaluation de la régression des modèles. La titulaire de chaire en IA Canada-CIFAR Bei Jiang propose de résoudre ce problème en recourant à des outils statistiques éprouvés pour l’analyse d’événements rares, des méthodes actuellement sous-utilisées dans l’évaluation des grands modèles de langage.
Collaborateurs et collaboratrices
Bei Jiang
titulaire de chaire en IA Canada-CIFAR, Amii, Université de l'Alberta

