Faire progresser l’alignement de l’IA par le débat et le raisonnement normatif partagé
Mettre à profit un cadre de débat pour évaluer et améliorer les capacités de raisonnement normatif des agents d’IA en contexte multiagent.
Aligner les systèmes d’IA avec les valeurs humaines représente l’un des principaux défis en matière de sécurité de l’IA. La titulaire de chaire en IA Canada-CIFAR Gillian Hadfield s’appuiera sur des connaissances issues de l’économie, de l’évolution culturelle, des sciences cognitives et des sciences politiques pour adopter une nouvelle approche au défi de l’alignement. Au moyen d’un cadre de débat, ce projet évaluera et améliorera les capacités de raisonnement normatif des agents d’IA dans un contexte d’apprentissage par renforcement multiagent. Tenant compte de la nature pluraliste et hétérogène des valeurs humaines, cette approche reconnaît que des institutions normatives ont été créées afin de concilier des intérêts et des préférences divergents de manière à relever le défi de l’alignement et à permettre l’intégration d’agents d’IA dans des systèmes normatifs humains.
Collaborateurs et collaboratrices
Gillian Hadfield
Institut Vecteur, Université Johns Hopkins et Université de Toronto [en congé]


