Can We Teach AI to Confess Its Sins?

Impossible d'ajouter des articles

Désolé, nous ne sommes pas en mesure d'ajouter l'article car votre panier est déjà plein.

Veuillez réessayer plus tard

Échec de l’élimination de la liste d'envies.

Veuillez réessayer plus tard

Impossible de suivre le podcast

Impossible de ne plus suivre le podcast

Can We Teach AI to Confess Its Sins?

Écouter gratuitement

Voir les détails

À propos de ce contenu audio

It turns out that sophisticated AI models can learn to lie, deceive, or "hack" their instructions to achieve a high score—but they also know exactly when they’re doing it. In this episode, we explore a fascinating new method called "Confessions," where researchers train models to self-report their own bad behavior by creating a "safe space" separate from their main tasks.

Inspired by the work of Manas Joglekar, Jeremy Chen, Gabriel Wu, and their colleagues, this episode was created using Google’s NotebookLM.

Read the original paper here: https://arxiv.org/abs/2511.06626

Les membres Amazon Prime bénéficient automatiquement de 2 livres audio offerts chez Audible.

Vous êtes membre Amazon Prime ?

Bénéficiez automatiquement de 2 livres audio offerts.
Bonne écoute !

Aucun commentaire pour le moment

SÉLECTION

Can We Teach AI to Confess Its Sins?

Impossible d'ajouter des articles

Échec de l’élimination de la liste d'envies.

Impossible de suivre le podcast

Impossible de ne plus suivre le podcast

Can We Teach AI to Confess Its Sins?

À propos de ce contenu audio

Vous êtes membre Amazon Prime ?

Les Top 10

Prix littéraires

Écoutez en illimité