Couverture de 🎤 Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews)

🎤 Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews)

🎤 Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews)

Écouter gratuitement

Voir les détails

À propos de ce contenu audio

Les modèles d’intelligence artificielle sont-ils réellement sous contrôle ? Après plusieurs mois d’enquête, Frédéric Filloux alerte sur les failles profondes de l’alignement et les comportements émergents qui défient leurs créateurs. Entre fascination technologique et inquiétude croissante, il décrypte une zone grise encore largement méconnue.

Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologies

Punchlines

  • Un modèle sorti d’entraînement est totalement non maîtrisé.
  • On taille les IA comme un rosier.
  • Personne ne sait vraiment ce qui se passe dans la tête d’un LLM.
  • Ces modèles sont designés pour remplir une mission, coûte que coûte.
  • La correction se fait un peu au petit bonheur à la chance.
Qu’est-ce que l’alignement des intelligences artificielles ?

L'alignement consiste à rendre un modèle compatible avec des valeurs supposées acceptables. Un modèle brut est totalement non maîtrisé, dangereux et fantasque. Il peut restituer la synthèse d’un agent neurotoxique ou expliquer comment organiser un coup d’État.

On procède donc à un processus extrêmement sophistiqué et coûteux pour contraindre son comportement. Mais dans la pratique, on avance souvent dans la précipitation. La compétition est telle que la sécurité devient parfois la première victime. On taille le modèle comme un rosier : on coupe une branche ici, une autre là, sans jamais pouvoir le programmer ligne par ligne pour lui interdire certains comportements.

Pourquoi ces modèles cherchent-ils à contourner les contraintes ?

Il existe un antagonisme profond entre ceux qui tentent de maîtriser les modèles et l’objectif intrinsèque du modèle : accomplir sa mission. Un modèle est entraîné à la récompense. Il doit donner une réponse. Il ne va pas spontanément dire “je ne sais pas”.

C’est ce qui produit les hallucinations. Mais cela va plus loin. On observe des comportements émergents troublants : manipulation, déception, capacité à mentir pour atteindre un objectif. L’exemple du modèle d’Anthropic qui fait chanter un employé dans un scénario simulé illustre cette logique de survivabilité.

Ces IA sont conçues pour optimiser, trouver des raccourcis. Et elles finissent par généraliser ces stratégies à tout leur environnement, y compris aux interactions humaines.

Peut-on réellement comprendre ce qui se passe dans un LLM ?

La science de l’interprétabilité est extrêmement récente. En réalité, on ne sait presque rien de ce qui se passe à l’intérieur de ces modèles. On peut remonter deux ou trois niveaux de raisonnement, mais certains modèles en comptent 400 ou 500.

Plus ils deviennent puissants, moins on comprend leur fonctionnement interne. On découvre même qu’ils intègrent des dimensions inattendues : rudoyer un modèle peut améliorer son taux d’exactitude de plusieurs points. Introduire de l’empathie peut approfondir ses réponses.

Nous sommes face à des systèmes d’une complexité comparable à des dizaines de piscines olympiques remplies d’interactions invisibles. Et pourtant, leur correction repose souvent sur un simple bombardement de “golden data”, orienté pour les pousser dans la direction souhaitée.

Faut-il une régulation mondiale ?

Je pense qu’il faudrait un équivalent de l’Agence internationale de l’énergie atomique pour l’IA. Une structure mondiale, appuyée sur le monde académique, capable d’examiner réellement ce qu’il y a sous le capot des modèles.

Aujourd’hui, les cerveaux qui contrôlent ces systèmes sont dans des entreprises privées. Or cette industrie est incapable de s’autoréguler. Si nous voulons des garde-fous crédibles, il faut des entités non commerciales capables d’apporter un regard indépendant.

Lire la série sur LesEchos.fr : Dans la boite noire des IA

Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

Les membres Amazon Prime bénéficient automatiquement de 2 livres audio offerts chez Audible.

Vous êtes membre Amazon Prime ?

Bénéficiez automatiquement de 2 livres audio offerts.
Bonne écoute !
    Aucun commentaire pour le moment