La “constitution” de Claude. Une opération de lavage d'éthique ?

Anthropic vient de publier la nouvelle constitution de Claude, un document destiné non pas tant aux humains qu'à l'IA elle-même : une sorte de charte des valeurs qui définit ce que signifie pour un modèle génératif d'être utile sans cesser d'être sûr, éthique et transparent.
Dans ces pages, l'ordre des priorités de Claude est établi : d'abord la sécurité générale, puis l'éthique, puis la conformité aux directives de l'entreprise, et seulement ensuite la capacité à être réellement utile à l'utilisateur. Il s'agit d'un changement de perspective important, car il déplace le discours de l'IA qui “obéit” à l'invite, à l'IA qui raisonne selon des principes déclarés et publics.
La partie la plus surprenante est une clause qui renverse la hiérarchie traditionnelle entre l'entreprise et le modèle : le document stipule explicitement que si Anthropic demande à Claude de faire quelque chose de mal ou de “louche”, Claude n'est pas obligé d'obéir. En d'autres termes, la constitution autorise le modèle à agir comme un objecteur de conscience vis-à-vis de son créateur, si la demande va à l'encontre des principes de sécurité et d'éthique qu'Anthropic a elle-même couchés sur le papier.
