Wenn KI den Faden verliert

Bisheriger Stiltransfer oft zu glatt – oder zu simpel

Ob ChatGPT, Claude oder Gemini: Wer mit KI spricht, tut das meist nicht in perfekten Anweisungen. Statt sofort zu sagen, was genau gebraucht wird, hangelt man sich im Gespräch zum Ziel – mal mit Rückfragen, mal mit Korrekturen. Genau darin liegt aber ein bislang unterschätztes Problem: Große Sprachmodelle verlieren in solchen „mehrstufigen Dialogen“ nicht nur den Überblick, sondern auch massiv an Qualität.

Ein Team von Microsoft Research und Salesforce hat nun mit über 200.000 simulierten Gesprächen systematisch untersucht, wie sich LLMs (Large Language Models) in mehrstufigen, unklaren Konversationen schlagen – und das Ergebnis ist ernüchternd: Im Durchschnitt sinkt die Leistung um 39 Prozent im Vergleich zu klar formulierten Ein-Prompt-Anweisungen.

Link zur Studie: LLMs Get Lost In Multi-Turn Conversation

Linguistik statt Bauchgefühl: Simulation mit Shard-Technik

Die Innovation des Papers liegt nicht nur in der Diagnose, sondern vor allem in der Methodik. Statt LLMs wie bisher in „episodischen“ Dialogen zu testen – bei denen jede Nutzerfrage für sich allein bewertbar ist – konstruieren die Forschenden sogenannte sharded simulations: Aus einer komplexen Anweisung wird ein Set von Informationsschnipseln (Shards), das dann Stück für Stück in einer simulierten Konversation offengelegt wird.

Beispiel: Statt direkt zu fragen „Wie lange braucht Jay, um 60 Schneebälle zu bauen, wenn zwei alle 15 Minuten schmelzen?“, startet der simulierte Nutzer mit einer vagen Absicht („Jay bereitet sich auf eine Schneeballschlacht vor“) und ergänzt sukzessive Details – Produktionsrate, Zielmenge, Schmelzrate. Die KI soll Schritt für Schritt zu einer Antwort finden – ohne vorher zu wissen, was noch kommt.

Methode: Sharding, Simulation, Evaluation

Die Studie nutzt sechs typische Aufgaben aus der Welt der generativen KI – darunter Code-Generierung, Datenbankabfragen, Matheaufgaben und Textzusammenfassungen. Für jede Aufgabe wurden rund 100 solcher „sharded instructions“ aus etablierten Benchmarks erstellt. Die simulierten Gespräche laufen dabei in drei Varianten:

  1. FULL – eine vollständige Anweisung in einem Prompt.
  2. CONCAT – alle Shards auf einmal als Liste.
  3. SHARDED – eine Konversation, in der die Shards turnweise offenbart werden.

Bewertet wurden die Modelle nach drei Kriterien: Durchschnittliche Leistung (P), Bestfall-Leistung (Aptitude, A90) und Streuung (Unzuverlässigkeit, U90-10).

Besserer Stil, weniger Halluzinationen? Leider nein.

Die Ergebnisse sind eindeutig – und alarmierend:

  • Jedes getestete Modell, vom kleinen Llama 3.1 bis zu Gemini 2.5 Pro, performt in SHARDED-Simulationen deutlich schlechter.
  • Der Leistungsverlust liegt nicht nur an einem schwächeren „Verständnis“ (Aptitude -15 %), sondern vor allem an einer explodierenden Unzuverlässigkeit: Die Streuung der Ergebnisse verdoppelt sich (+112 %).
  • Selbst GPT-4.1 oder Claude 3.7 Sonnet, die in Ein-Prompt-Szenarien Spitzenleistungen zeigen, sind im mehrstufigen Dialog instabil und inkonsistent.

Stil mit Maß: Weniger Antworten, bessere Antworten?

Warum ist das so? Eine qualitative Analyse zeigt typische Fehlverhalten:

  • Vorzeitige Antworten: Modelle schlagen zu früh eine Lösung vor, ohne genug Kontext zu haben.
  • Übermäßige Textlängen: Spätere Antworten sind oft länger und komplexer – sogenannte „Answer Bloat“ – aber nicht besser.
  • Vergessen der Mittel-Turns: Vor allem Anfang und Ende der Konversation prägen die Antwort, mittlere Informationen gehen verloren.
  • Annahmefehler: Die KI trifft voreilige Annahmen, die sie später nicht mehr revidiert.

All das führt dazu, dass sich LLMs im Gespräch „verlaufen“ – hence: Lost in Conversation.

Was heißt das für Copilot & Co.?

Für alle, die LLMs produktiv nutzen – sei es in Microsoft Copilot, interaktiven Tools oder über APIs – ist die Studie ein Weckruf. Sie zeigt:

  • Ein guter erster Prompt ist Gold wert.
    Wer schon zu Beginn möglichst viele Anforderungen nennt, erhält verlässlichere Ergebnisse.
  • Lieber Neustart als Reparaturversuch.
    Wenn ein Gespräch in die Irre läuft, bringt ein neuer Chat mit konsolidierter Info mehr als ein „Weiter so“.
  • Agenten helfen nur bedingt.
    Versuche, die Modelle durch Recaps oder „Snowball-Turns“ auf Kurs zu halten, verbessern zwar die Ergebnisse – aber nie auf das Niveau von Full Prompts.

Für Entwickler bedeutet das: Mehr Leistung ≠ mehr Verlässlichkeit. Neue Modelle sollten nicht nur intelligenter, sondern vor allem robuster im Dialog werden.

Zusammenfassung

  • LLMs verlieren in mehrstufigen, unklaren Dialogen massiv an Leistung.
  • Selbst Top-Modelle wie GPT-4.1 oder Gemini 2.5 sind davon betroffen.
  • Ursache ist vor allem eine steigende Unzuverlässigkeit, nicht (nur) mangelndes Verständnis.
  • Nutzer:innen sollten vollständige Anforderungen möglichst früh formulieren.
  • Agenten-Frameworks helfen nur teilweise – native Multi-Turn-Fähigkeit bleibt ein Entwicklungsziel.