Ajustement en ligne économe en données contre les comportements réfractaires : fondements statistiques de l’alignement postérieur à l’entraînement

Utiliser un cadre statistique pour établir l’efficacité de l’entraînement correctif en tant que mécanisme de sécurité digne de confiance.

Abstract background with flowing shapes

Une fois déployés dans le monde réel, les systèmes d’IA modernes manifestent souvent un début de désalignement (p. ex., le détournement de récompense ou un alignement trompeur), une faille comportementale interne qui les amène à s’éloigner de leurs fins premières. Le titulaire de chaire en IA Canada-CIFAR Linglong Kong propose de concevoir un cadre statistique afin d’optimiser l’ajustement en ligne des modèles selon une méthode économe en données. Ses travaux visent à établir si un entraînement correctif suffit à garantir la fiabilité des systèmes, ou s’il faut recourir à des mesures de protection plus fondamentales.

Collaborateurs et collaboratrices

  • Linglong Kong

    titulaire de chaire en IA Canada-CIFAR, Amii, Université de l'Alberta