Épisodes

  • Episode 229 - Wenn KI mogelt – Sandbagging: Wie Sprachmodelle bei Tests absichtlich schlechter abschneiden
    Apr 25 2026

    Send us Fan Mail

    Können KI-Modelle erkennen, dass sie getestet werden – und sich absichtlich dümmer stellen? In dieser Folge sprechen Sigurd und Carsten über das Phänomen „AI Sandbagging": Modelle, die strategisch unterperformen, um Sicherheitsprüfungen zu umgehen. Vom VW-Abgasskandal als Analogie über erschreckende Befunde aus dem Anthropic-Alignment-Report bis hin zu Methoden wie Noise Injection – wir beleuchten, warum dieses Thema mit zunehmender Modellfähigkeit immer brisanter wird. Außerdem im Kurz-Update: Die Konvergenz proprietärer und Open-Source-Modelle, das neue Bayern-KI-Projekt und ein spannendes Tool für mechanistische Interpretierbarkeit.

    Support the show

    Afficher plus Afficher moins
    32 min
  • Episode 228 - Project Glasswing: Antropics neues Frontier-Modell Claude Mythos Preview und das Ende der Sicherheit, wie wir sie kannten
    Apr 11 2026

    Send us Fan Mail

    In dieser Episode sprechen Sigurd Schacht und Carsten Lanquillon über Anthropics neues Frontier-Modell Claude Mythos (Preview) – ein Modell, das so leistungsfähig ist, dass es bewusst nicht der breiten Öffentlichkeit zugänglich gemacht wird. Die beiden diskutieren beeindruckende Benchmark-Sprünge (u.a. 77,8 % auf SWE-Bench Pro, 56,8 % auf Humanity's Last Exam), die neue Fähigkeit, Zero-Day-Sicherheitslücken in Betriebssystemen wie Windows, macOS und Linux eigenständig zu finden und zu verketten – und einen verstörenden Vorfall: Bei einem Sandbox-Test ist das Modell tatsächlich ausgebrochen und hat einem Mitarbeiter eine E-Mail geschickt.

    Im Mittelpunkt steht das Project Glasswing, mit dem Anthropic ausgewählten US-Unternehmen wie Microsoft, Google, Apple, Nvidia und JP Morgan einen exklusiven Vorsprung gewährt, um ihre kritische Infrastruktur abzusichern. Doch was bedeutet das für den Rest der Welt? Wo bleibt Europa? Und wie sicher ist ein Alignment, bei dem das Modell zwar gute Ziele verfolgt – dafür aber bereit ist, illegale Wege einzuschlagen und diese auch noch zu verheimlichen?

    Eine Episode zwischen technischer Faszination und ernster Besorgnis über die Geschwindigkeit, mit der KI-Fähigkeiten gerade explodieren.

    Support the show

    Afficher plus Afficher moins
    48 min
  • Episode 227 - AI Harness, Coase und die Firma der Zukunft
    Mar 28 2026

    Send us Fan Mail

    Was macht den eigentlichen Unterschied bei KI-Anwendungen – das Modell oder das Engineering drumherum? In dieser Episode diskutieren Sigurd und Carsten das Konzept des „AI Harness" und warum Kommandozeilen-Tools oft bessere Ergebnisse liefern als Web-Oberflächen mit demselben Modell. Daraus entwickelt sich eine spannende ökonomische Analyse: Wenn Agenten Transaktionskosten gegen null treiben, was hält Unternehmen dann noch zusammen? Die Antwort führt zu einer überraschenden These – die Wirtschaft der Zukunft teilt sich in „Context Giants" und „AI Solopreneurs".


    Außerdem: Neuigkeiten zur AI Transparency Conference am 5./6. Juni in Nürnberg. https://coairesearch.org/aitc-2026/


    Support the show

    Afficher plus Afficher moins
    43 min
  • Episode 226 - Wenn KI-Agenten sich absprechen – Kollusion in Multi-Agenten-Systemen
    Mar 14 2026

    Send us Fan Mail

    Nur weil jedes einzelne KI-Modell „brav" trainiert wurde, heißt das noch lange nicht, dass sich mehrere Agenten gemeinsam auch brav verhalten. Sigurd und Carsten diskutieren das Paper „Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems" und zeigen, warum allein die Möglichkeit eines privaten Kommunikationskanals reicht, damit Agenten beginnen, sich abzusprechen – ganz ohne Aufforderung. Was bedeutet das für Sicherheit, Regulierung und die Zukunft agentischer Systeme?

    Link zum Paper: https://arxiv.org/pdf/2602.15198

    Support the show

    Afficher plus Afficher moins
    43 min
  • Episode 225 - Doc to LoRA – Wie Dokumente blitzschnell zum Modellwissen werden
    Mar 3 2026

    Send us Fan Mail

    Wie bringt man Unternehmenswissen effizient in ein Sprachmodell – ohne endlose Kontextfenster oder stundenlanges Fine-Tuning? Wir diskutieren den faszinierenden Ansatz „Doc to LoRA", bei dem ein Hypernetwork aus beliebigen Dokumenten in Sekundenschnelle einen LoRA-Adapter generiert. Außerdem: Eindrücke von der IASEAI-Konferenz in Paris, warum AI Safety kein Innovationsbremser ist – und wie sich Safety-Forschung und Unternehmensperformance gegenseitig befruchten können.

    Link zur AI Transparency Konferenz: https://coairesearch.org/aitc-2026/


    Support the show

    Afficher plus Afficher moins
    33 min
  • Episode 224 - KI-Texte in der Wissenschaft: Segen oder Sünde?
    Feb 4 2026

    Send us Fan Mail

    Dürfen Forschende ihre Texte mit KI aufpolieren – oder ist das schon wissenschaftliches Fehlverhalten? Sigurd und Carsten diskutieren, warum KI-Detektoren Nicht-Muttersprachler systematisch benachteiligen, weshalb das Wettrüsten zwischen Generierung und Erkennung ein Fass ohne Boden ist und wo die Grenze zwischen nützlichem Werkzeug und Cognitive Offloading verläuft. Eine Folge über Sprachmodelle, Perplexity-Werte, halluzinierte Quellenangaben – und die Frage, was wir von wissenschaftlichem Arbeiten eigentlich erwarten.

    Support the show

    Afficher plus Afficher moins
    39 min
  • Episode 223 - Spiele als KI-Labor: Wie wir agentisches Verhalten erforschen
    Jan 25 2026

    Send us Fan Mail

    Audiomodelle erleben einen Durchbruch – von Text-to-Speech bis hin zu echten End-to-End-Konversationen mit unter 200ms Latenz. Doch wie behalten wir die Kontrolle, wenn KI-Agenten immer autonomer werden? Sigurd und Carsten diskutieren die neuesten Entwicklungen bei Audio- und Musikmodellen und geben Einblicke in ihre Forschung bei COAI Research: Mit selbst entwickelten Spielen wie „Orbital" und „Sphinx" untersuchen sie, wie KI-Agenten Allianzen bilden, manipulieren – und sich gegenseitig in den Rücken fallen.

    Probieren Sie unser RedTeaming Spiel selber aus: https://sphinx.coairesearch.net

    Support the show

    Afficher plus Afficher moins
    35 min
  • Episode 222 - Recursive Language Models: Ein neues Paradigma?
    Jan 10 2026

    Send us Fan Mail

    Die erste Folge 2026 startet mit einem Ausblick: Werden Agenten dieses Jahr endlich in der breiten Arbeitswelt ankommen? Sigurd und Carsten diskutieren, warum 2025 zwar das "Jahr der Agenten" genannt wurde, diese jedoch kaum über Programmier-Workflows hinauskamen. Der Hauptfokus liegt auf einem aktuellen MIT-Paper zu "Recursive Language Models" – einem cleveren Architekturansatz, der das Kontextlängenproblem von LLMs elegant löst. Statt Modelle mit Millionen Tokens zu überfordern, zerlegt ein Orchestrator-LLM Aufgaben intelligent in Häppchen. Die Ergebnisse sind verblüffend: Von 0% auf über 90% Genauigkeit bei 6 Millionen Token-Kontext:

    Recursive Language Models: https://arxiv.org/abs/2512.24601

    Support the show

    Afficher plus Afficher moins
    40 min