Théorie économique et alignement démocratique des grands modèles de langage : préférences relatives et coordination stratégique

Ce projet vise à développer un cadre de conformité démocratique fondé sur la théorie économique pour pallier les limites des méthodes d’alignement de l’IA actuelles.

Projet Catalyseur | 11 avril 2026

Abstract background with geometric shapes

Ce projet vise à pallier les limites des méthodes d’alignement de l’IA actuelles, qui peinent souvent à représenter la diversité des valeurs sociales et à résister aux manipulations stratégiques. Par l’application de la théorie économique et la conception de mécanismes, l’équipe élaborera un cadre de conformité aux valeurs démocratiques qui transcende les simples classements pour rendre compte de l’étendue des préférences humaines. En recourant à des techniques comme le « vote quadratique », les chercheurs prévoient de créer des protocoles qui permettent aux communautés d’encadrer le comportement des modèles tout en prévenant leur exploitation malveillante. À terme, ces travaux définiront la voie vers des systèmes d’IA plus sûrs et responsables qui respectent la pluralité des points de vue et favorisent la résilience démocratique.

Collaborateurs et collaboratrices

Elliot Creager
Rohit Lamba
Clemens Possnig

Recherches associées

Projet Catalyseur

Théorie économique et alignement démocratique des grands modèles de langage : préférences relatives et coordination stratégique

Collaborateurs et collaboratrices

Recherches associées

Assurance de la sécurité et ingénierie pour les systèmes d’IA multimodaux reposant sur des modèles fondateurs

CIPHER : Contrer l’influence par la mise en évidence de modèles et l’évolution des réponses

Des laboratoires de chimie autonomes et sécuritaires