Faire progresser l’alignement de l’IA par le débat et le raisonnement normatif partagé

Mettre à profit un cadre de débat pour évaluer et améliorer les capacités de raisonnement normatif des agents d’IA en contexte multiagent.

Projet Catalyseur | 11 avril 2026

Abstract background with geometric shapes

Aligner les systèmes d’IA avec les valeurs humaines représente l’un des principaux défis en matière de sécurité de l’IA. La titulaire de chaire en IA Canada-CIFAR Gillian Hadfield s’appuiera sur des connaissances issues de l’économie, de l’évolution culturelle, des sciences cognitives et des sciences politiques pour adopter une nouvelle approche au défi de l’alignement. Au moyen d’un cadre de débat, ce projet évaluera et améliorera les capacités de raisonnement normatif des agents d’IA dans un contexte d’apprentissage par renforcement multiagent. Tenant compte de la nature pluraliste et hétérogène des valeurs humaines, cette approche reconnaît que des institutions normatives ont été créées afin de concilier des intérêts et des préférences divergents de manière à relever le défi de l’alignement et à permettre l’intégration d’agents d’IA dans des systèmes normatifs humains.

Collaborateurs et collaboratrices

Gillian Hadfield
Institut Vecteur, Université Johns Hopkins et Université de Toronto [en congé]

Recherches associées

Projet Catalyseur

Faire progresser l’alignement de l’IA par le débat et le raisonnement normatif partagé

Collaborateurs et collaboratrices

Recherches associées

Assurance de la sécurité et ingénierie pour les systèmes d’IA multimodaux reposant sur des modèles fondateurs

CIPHER : Contrer l’influence par la mise en évidence de modèles et l’évolution des réponses

Des laboratoires de chimie autonomes et sécuritaires