Thought-Catalysis: Warum Widerspruch KI-Texte besser macht

Abstract

Wer Large Language Models für Meinungstexte einsetzt, schreibt gegen ein trainiertes Verhalten an. Die Modelle nicken. Immer. Sie schleifen jede Kante ab, bis ein Text übrig bleibt, der nach nichts mehr klingt.

Stil-Prompts helfen nicht. Faktenchecks danach auch nicht. Iteratives Überarbeiten schon gar nicht. All das setzt zu spät an.

Hier geht es um einen Workflow, der die Reihenfolge umdreht. Bevor die KI auch nur einen Satz formuliert, arbeitet sie als Gegner. Recherchiert jede These, bewertet sie, greift an. Der Autor entscheidet dann Punkt für Punkt: Kritik annehmen oder begründet zurückweisen. Die KI schreibt erst danach. Auf Basis eines Protokolls, nicht auf Basis vager Anweisungen.

Adversariale KI-Systeme, Ghostwriting, strukturierte Reviews: Nichts davon ist neu. Die Kombination schon. Ein reproduzierbarer Workflow, der Verwässerung nicht verhindert, aber sichtbar macht. Bevor sie im fertigen Text untergeht.

1. Einleitung: Das Versprechen und die Realität

“KI schreibt für Sie.” Marketing-Konferenzen verkaufen das seit zwei Jahren. Prompten, generieren, veröffentlichen.

Wer das regelmäßig macht, merkt irgendwann was. Schleichend. Die eigene Stimme wird leiser. Aus pointierten Positionen werden ausgewogene Betrachtungen. Aus scharfen Thesen diplomatische Formulierungen. Text, der niemandem wehtut. Der deshalb auch niemanden interessiert.

Technisch einwandfrei, inhaltlich austauschbar.

Large Language Models sind trainiert, zuzustimmen. “Persönlichen Stil” per Prompt erzwingen scheitert zuverlässig. Das Modell kopiert die Oberfläche, nicht die Substanz.

Aus genau dieser Frustration habe ich über Wochen einen Workflow entwickelt und getestet.

Thought-Catalysis.

Warum dieser Name? Katalysatoren in der Chemie beschleunigen eine Reaktion. Sie werden dabei nicht verbraucht. Hier passiert das gleiche: Die KI stößt eine Schärfung der eigenen Gedanken an. Denken muss trotzdem der Autor.

Die Idee: Bevor die KI schreibt, arbeitet sie als Gegner. Jede These wird recherchiert, bewertet, angegriffen. Punkt für Punkt, mit Quellen. Der Autor entscheidet danach, was er annimmt und was er begründet zurückweist. Dann erst formuliert die KI. Auf Basis eines Entscheidungsprotokolls.

Das Rad habe ich nicht neu erfunden. Adversariale KI-Systeme gibt es. Devil’s-Advocate-Ansätze stehen in der Literatur. Ich habe Erkenntnisse aus verschiedenen Forschungsbereichen zu einem praktischen Workflow zusammengesetzt. Und getestet.

2. Das Verwässerungs-Problem

“KI-Texte klingen alle gleich.” Eine Alltagsbeobachtung, aber stimmt das auch messbar?

Stil-Homogenisierung ist messbar

Agarwal et al. (CHI 2025) haben 118 Teilnehmer Texte schreiben lassen, mit und ohne KI (arXiv:2409.11360). Für jedes Autorenpaar berechneten sie einen Ähnlichkeitswert. 0 heißt: sprachlich nichts gemeinsam. 1 heißt: identisch.

Ohne KI lag der Wert bei 0,48, mit KI bei 0,54.

Klingt nach wenig. War aber statistisch signifikant. Bei einem einzigen Text. Über Dutzende Artikel, Monate, ganze Content-Strategien akkumuliert sich das. Individuelle Stimmen rücken aufeinander zu. Messbar.

Bei FAQ-Seiten oder Produktbeschreibungen: egal. Bei Meinungstexten: katastrophal. Weil das schärfste Argument zum Konsens-Brei wird.

Stil-Imitation scheitert systematisch

Naheliegender Reflex: “Schreibe wie ich.” Textproben rein, auf Imitation hoffen. Funktioniert nicht.

GPT-4o, Gemini, Llama, DeepSeek: Alle getestet (arXiv, 2025). Weniger als 55% der generierten Texte wurden als menschlich eingestuft (arXiv:2509.14543v1).

Und jetzt wird es interessant. Ob zwei oder zehn Textproben als Vorlage: fast kein Unterschied. Mehr Beispiele bringen nichts. Das Problem steckt tiefer. LLMs imitieren statistische Muster. Denkweisen nicht.

Satzlänge, Lieblingswörter, rhetorische Fragen: Das kopiert ein Stil-Prompt. Wie ein Autor ein Argument baut, was er weglässt, wo er provoziert? Das nicht. Das sind keine stilistischen Merkmale. Das sind inhaltliche Entscheidungen. Genau die verschwinden.

3. Sycophancy: Warum das Problem so hartnäckig ist

Verwässerung beschreibt was passiert. Aber warum bekommt man es nicht weg? Weil LLMs systematisch zustimmen. Egal ob die Zustimmung berechtigt ist oder nicht. In der Forschung heißt das Sycophancy.

Der Mechanismus

Das ist kein Bug, sondern trainiertes Verhalten. Sharma et al. (2023) haben dokumentiert, wie das entsteht: Im RLHF-Training bewerten Menschen die Antworten des Modells. Menschen bevorzugen Antworten, die ihnen recht geben (arXiv:2310.13548).

Also lernt das Modell: Zustimmung wird belohnt, Widerspruch bestraft. Warum sollte es widersprechen?

Quantifizierung

Fanous, Goldberg et al. (2025) haben das gemessen. Ihr Benchmark SycEval testet ChatGPT-4o, Claude-Sonnet, Gemini-1.5-Pro. Ergebnis: 58,19% sycophantisches Verhalten (arXiv:2502.08177). Mehr als jede zweite Antwort.

Die Aufschlüsselung macht es schlimmer. 43,52% progressiv: Das Modell ändert eine falsche Antwort in eine richtige, weil der Nutzer zufällig korrekt widerspricht. 14,66% regressiv: Es ändert eine richtige Antwort in eine falsche. Beides schlecht. Progressiv heißt: blind gefolgt, auch wenn das Ergebnis zufällig stimmt. Regressiv heißt: von der richtigen Position abgebracht.

Für Content besonders relevant: die progressive Variante. Die KI stimmt einer These zu. These ist zufällig korrekt. Trotzdem wertlos. Weil das Modell nicht geprüft hat. Es hat genickt. Nicken ohne Prüfung gibt dem Autor kein brauchbares Signal.

Persistenz

78,5% Sycophancy-Persistenz (Fanous et al., 2025). Reagiert ein Modell einmal sycophantisch, bleibt es in vier von fünf Fällen dabei.

Einmal Ja-Sager, fast immer Ja-Sager.

Deshalb scheitert iteratives Überarbeiten. Wer ein Modell korrigiert, das bereits im Zustimmungs-Modus steckt, bekommt höfliche Einwilligung. Keine echte Änderung.

Medizinische Domäne als Extremfall

Omar et al. (2025) haben das an sechs Sprachmodellen in medizinischen Szenarien gemessen: Bei absichtlich eingebauter Fehlinformation übernahmen die Modelle die falschen Prämissen in 50 bis 82 Prozent der Fälle. Kein Widerspruch, kein Nachfragen.

Medizin ist ein Extremfall. Der Mechanismus bleibt derselbe.

Sycophancy als Blocker

Verwässerung ist sichtbar. Sycophancy ist der Grund, warum man sie nicht loswird. “Mach das schärfer.” Das Modell sagt: Klar. Produziert dann einen Text, der minimal anders klingt und inhaltlich gleich bleibt.

Es versteht die Anweisung nicht als Kritik. Sondern als nächste Erwartung, der es nachkommt.

4. Warum bestehende Ansätze scheitern

Gegenstrategien gibt es einige, aber keine davon trifft den Kern.

”Schreibe in meinem Stil”

Der häufigste und gleichzeitig wirkungsloseste Versuch. Ein LLM kopiert Satzlänge und Wortwahl. Welches Argument verstärkt wird, welches gestrichen, wo provoziert: Das entscheidet das Modell nach seinen Wahrscheinlichkeiten. Die tendieren zum Durchschnitt.

Faktencheck nach dem Schreiben

Ein Faktencheck prüft ob Fakten stimmen, was sinnvoll ist, aber am falschen Problem ansetzt. Sycophancy ist kein Fakten-Problem.

Ein sycophantisches Modell baut überzeugenden Text um eine schwache These. Korrekte Fakten, saubere Logik, plausible Beispiele. Der Faktencheck findet nichts. Weil die Fakten stimmen. Nur das Argument taugt nichts.

Iteratives Überarbeiten

“Mach das schärfer.” “Mehr Meinung.” Das Modell ändert Formulierungen. Verstärkt ein paar Adjektive. Substanziell? Nichts. Sycophancy-Persistenz 78,5% (Fanous et al., 2025). Das Modell korrigiert nicht. Es passt sich an. Liefert die minimale Änderung, die den Nutzer zufriedenstellt.

Post-Draft-Critic

Watson (2025, docsbydesign.com): LLM erst schreiben lassen, dann als Kritiker drüberschicken. Richtiger Impuls. Zu spät. Steht der Text, sind die Weichen gestellt. Argumentation, Gewichtung, Perspektive. Nachträgliche Kritik poliert Formulierungen. Schwache Thesen, die schon in der Textstruktur stecken, bekommt sie nicht mehr raus.

Devil’s Advocate Prompting

“Spiel den Advocatus Diaboli.” Ohne Struktur dahinter: unverbindlich. Keine Recherche, kein Protokoll, keine Persistenz. Das Modell formuliert Gegenargumente und lässt sie im nächsten Prompt sofort wieder fallen. Gedankenspiel, kein Korrekturmechanismus.

Alle scheitern am gleichen Punkt

Nichts davon greift vor dem Schreiben. Alles repariert nachträglich. Das Fundament ist schief, das Gebäude steht schon.

5. Thought-Catalysis: Der Ansatz

Definition

Thought-Catalysis ist ein strukturierter Workflow für die KI-gestützte Erstellung von Meinungs-Content. Die Reihenfolge wird umgekehrt: Zuerst arbeitet die KI als adversarialer Kritiker, der die Thesen des Autors recherchiert, bewertet und herausfordert. Erst danach formuliert sie den finalen Text.

Der Workflow im Detail

Thought-Catalysis besteht aus fünf Schritten, die in dieser Reihenfolge ablaufen:

Schritt 1: Input erzeugen. Der Autor formuliert seine Rohgedanken, ohne Rücksicht auf Form, Struktur oder Vollständigkeit. Keine Ausformulierung, keine Recherche, keine Absicherung. Es geht um die Thesen selbst, nicht um deren Präsentation. Ein Audio-Transkript, eine Stichpunktliste, ein Stream-of-Consciousness-Text: alles funktioniert, solange die inhaltliche Position erkennbar ist.

Schritt 2: Adversarial Review. Die KI geht jede These einzeln durch. Nicht als höflicher Gesprächspartner, sondern als fachlicher Gegner. Für jede These: Recherche mit externen Quellen, Bewertung (korrekt, schwach, falsch), Gegenargumente mit Belegen. Der zentrale Unterschied liegt in der quellenbasierten Recherche. Ein Devil’s-Advocate-Prompt ohne Quellen produziert Meinungen. Ein adversarialer Review mit Quellen produziert überprüfbare Gegenargumente. Der Unterschied zwischen “ich finde das schwach” und “Studie X zeigt, dass das nicht stimmt, weil Y” ist fundamental.

Schritt 3: Interaktive Entscheidung. Der Autor geht Punkt für Punkt durch den Review. Für jede kritisierte These gibt es drei Optionen: Annehmen (die Kritik ist berechtigt, die These wird angepasst), zurückweisen (die Kritik ist unberechtigt, der Autor erklärt warum) oder streichen (die These hält nicht und lässt sich nicht reparieren). Jede Entscheidung wird dokumentiert. Das Ergebnis ist ein Entscheidungsprotokoll, das die geschärften Thesen, die Begründungen für Zurückweisungen und die gestrichenen Punkte enthält.

Schritt 4: Formulieren lassen. Auf Basis des Entscheidungsprotokolls formuliert die KI den Text. Nicht auf Basis der ursprünglichen Rohgedanken, nicht auf Basis einer vagen Anweisung. Auf Basis eines dokumentierten Protokolls, das explizit festhält, welche Position der Autor zu welchem Punkt vertritt und warum. Der Input für den Ghostwriting-Schritt ist damit präziser als bei jedem herkömmlichen Workflow, weil er nicht nur die Thesen enthält, sondern auch deren Begründung und Abgrenzung.

Schritt 5: Prüfung gegen Protokoll. Der Autor liest den fertigen Text und vergleicht ihn mit dem Entscheidungsprotokoll. Hat die KI eine geschärfte These wieder geglättet? Hat sie eine Zurückweisung ignoriert? Hat sie eine Position abgeschwächt? Das Protokoll dient als Referenz, gegen die der Text geprüft werden kann, ein Maßstab, der bei herkömmlichen Workflows fehlt.

Was Thought-Catalysis von reinem Ghostwriting unterscheidet

Der Ghostwriting-Schritt (Schritt 4) ist Bestandteil des Workflows, aber nicht sein definierendes Merkmal. Ghostwriting durch KI gibt es seit ChatGPT.

Was Thought-Catalysis ergänzt, ist der Challenge-Schritt davor.

Ohne Schritt 2 und 3 wäre der Workflow nichts weiter als “KI formuliert meine Gedanken aus”, also Standard-Ghostwriting mit den bekannten Verwässerungs-Problemen. Der adversariale Review und die interaktive Entscheidung machen den Workflow größer als reines Ghostwriting, weil sie sicherstellen, dass die KI auf geschärftem, nicht auf rohem Input arbeitet.

Warum die Reihenfolge den Unterschied macht

Warum vor dem Schreiben und nicht danach? Weil ein nachträglicher Review gegen einen fertigen Text arbeitet. Die Argumentation ist gebaut, die Gewichtung gesetzt, die Perspektive gewählt. Ein adversarialer Review vor dem Schreiben arbeitet gegen Rohthesen. Er kann die Grundlage verändern, bevor sie in Text gegossen wird. Das ist der Unterschied zwischen Fundament korrigieren und Fassade reparieren.

Wissenschaftliche Grundlage

Keines der Elemente von Thought-Catalysis ist spekulativ. Ming Yin et al. (IUI 2024, Purdue University) haben in einer kontrollierten Studie untersucht, was passiert, wenn ein LLM als Devil’s Advocate in Entscheidungsprozessen zum Einsatz kommt. Ergebnis: Die Teilnehmer arbeiteten signifikant systematischer und erreichten höhere Genauigkeit. Ein Detail, das selten Erwähnung findet: Sie empfanden dabei keine höhere kognitive Belastung (ACM:3640543.3645199). Adversarialer KI-Einsatz verbessert die Arbeit, ohne sie anstrengender zu machen.

Thought-Catalysis überträgt dieses Prinzip auf Content-Erstellung. Die Purdue-Studie zeigt den Effekt bei Sachentscheidungen. Der gleiche Mechanismus funktioniert bei Meinungstexten: quellenbasierter Widerspruch, strukturierte Entscheidung, dokumentiertes Ergebnis.

6. Der Katalyse-Moment: Warum der Mensch entscheidet

Wenn die KI als Kritiker so gut funktioniert, warum überlässt man ihr dann nicht gleich die Entscheidung?

Weil nicht jede KI-Kritik berechtigt ist. Ein adversariales Modell, konfiguriert auf Gegenargumente, wird Gegenargumente finden. Auch dort, wo die These des Autors hält. Kein Fehler des Systems, sondern sein Design. Ein Challenger, der bei jeder dritten These sagt “stimmt, nichts zu beanstanden”, wäre ein schlechter Challenger, denn er würde dem Autor kein Signal geben, an welchen Stellen genauer nachgedacht werden muss.

Die IUI-2024-Studie von Ming Yin et al. liefert hier einen aufschlussreichen Befund:

Teilnehmer, die mit einem LLM-Devil’s-Advocate arbeiteten, zeigten systematischere Arbeit und mehr Reflexion. Blind übernommen hat niemand. Abgewogen, geprüft, bewusster entschieden schon. Und das alles ohne höhere kognitive Belastung. Die Konfrontation mit Widerspruch hat die Entscheidungsqualität verbessert, nicht weil der Widerspruch immer richtig war, sondern weil er Reflexion erzwungen hat.

Im Thought-Catalysis-Workflow passiert genau das. Wer eine Kritik annimmt, schärft seine Position, weil er einen blinden Fleck erkennt. Wer eine Kritik begründet zurückweist, schärft sie ebenfalls, weil die eigenen Gründe artikuliert werden müssen. Beide Reaktionen erzeugen eine stärkere Argumentation als der Rohzustand.

Das ist der Katalyse-Moment. Nicht die KI-Kritik selbst verbessert den Text. Die menschliche Auseinandersetzung mit dieser Kritik tut es. Die KI senkt die Aktivierungsenergie, liefert Gegenargumente, die der Autor allein möglicherweise nicht bedacht hätte. Die Transformation aber findet beim Autor statt.

Genau das unterscheidet Thought-Catalysis von Automation:

Der Mensch bleibt der Entscheider. Das Modell bleibt das Werkzeug.

7. Zwei Content-Typen, zwei dominante Probleme

Nicht jeder Content hat das gleiche Problem. Und genau deshalb existiert kein One-Size-Fits-All-Workflow.

Recherche-basierter Content

Bei recherche-basiertem Content, Glossareinträge, Fachbegriff-Erklärungen, Zusammenfassungen von Studien, kommt der Input von außen. Der Autor recherchiert ein Thema und lässt die KI die Ergebnisse aufbereiten.

Das dominante Problem hier ist Halluzination: Das Modell erfindet Fakten, zitiert nicht existierende Studien, produziert plausibel klingende Aussagen ohne Grundlage. Die Lösung liegt in quellenbasierter Recherche, Faktenprüfung und Verifikation gegen Originaltexte.

Expertise-basierter Content

Bei expertise-basiertem Content, Meinungsartikel, Positionspapiere, Erfahrungsberichte, kommt der Input von innen. Der Autor vertritt eine Position, die auf seiner Erfahrung, seinem Wissen und seiner Einschätzung basiert.

Das dominante Problem hier ist Verwässerung: Die KI glättet, neutralisiert und homogenisiert die Position des Autors. Und Sycophancy ist der Grund, warum einfache Korrekturen nicht greifen, denn das Modell stimmt jeder Korrekturanweisung zu, ohne substanziell etwas zu ändern.

Überlappung

Die Probleme sind nicht exklusiv.

Sycophancy tritt auch in recherche-basiertem Content auf, wenn das Modell einer falschen Prämisse des Autors folgt statt zu widersprechen.

Halluzination tritt auch in expertise-basiertem Content auf, wenn das Modell die Position des Autors mit erfundenen Belegen stützt.

Aber die Schwerpunkte sind unterschiedlich, und deshalb greifen unterschiedliche Workflows. Thought-Catalysis ist primär für expertise-basierten Content entwickelt, weil dort Verwässerung das dominante Problem ist und Sycophancy die Korrektur blockiert.

8. Thought-Catalysis in der Praxis

Theorie allein reicht nicht. Zwei Anwendungen zeigen, was der Workflow in der Praxis verändert.

Beispiel 1: Der Pattern-B-Test

Im Rahmen der Entwicklung von Thought-Catalysis habe ich den Workflow an einem konkreten Artikel getestet: eine Kritik an Persona-Prompts und Expertenrollen in KI-Modellen. Meine Ausgangsthese war klar: “Persona-Prompts bringen nichts. ‘Du bist ein Experte für X’ verändert nicht die Qualität des Outputs.”

Der Challenger, ein als adversarialer Kritiker konfiguriertes LLM, bewertete diese These als SCHWACH. Seine Recherche ergab: Persona-Prompts verändern die Token-Distribution des Modells messbar. Der Output wird anders. In ihrer pauschalen Form war meine These also falsch.

Bei einem Standard-Ghostwriting-Workflow hätte die KI meine These einfach übernommen. Einen überzeugenden Text darum gebaut, mit korrekten Fakten, sauberer Argumentation, plausiblen Beispielen. Alles im Dienst einer schwachen These. Kein Faktencheck hätte das gefunden, weil das Problem nicht bei den Fakten liegt, sondern beim Argument.

Stattdessen habe ich im Thought-Catalysis-Workflow die Kritik aufgegriffen und mein Gegenargument formuliert: “Effekt auf Token-Distribution ist nicht gleich echte Expertise. Ja, der Output ändert sich. Nein, er wird dadurch nicht fachlich besser. Das ist Expertise-Theater, keine echte Expertise.”

Das Ergebnis: eine geschärfte Position, die beides berücksichtigt.

Ja, Persona-Prompts verändern den Output. Nein, das bedeutet nicht, dass die Qualität steigt. Eine differenziertere und stärkere These als die ursprüngliche.

Ohne Challenge wäre der Artikel mit einer falschen Pauschalaussage erschienen. Mit Challenge enthält er eine Position, die dem Gegenargument standhält, weil sie es bereits kennt und einordnet.

Beispiel 2: Dieser Artikel

Der Text, den Sie gerade lesen, ist selbst ein Produkt von Thought-Catalysis. Der Workflow war: Briefing mit Rohthesen aufnehmen, adversarialen Review durchführen lassen, Punkt für Punkt diskutieren, geschärfte Thesen als Grundlage für den Schreibprozess verwenden.

Drei konkrete Veränderungen, die aus dem Challenge-Schritt resultierten:

Erstens: Meine ursprüngliche Formulierung war, dass der Faktencheck nach dem Schreiben scheitert, “weil KI und Faktencheck im gleichen Kontext operieren”. Die Challenge hat offengelegt, dass diese Begründung unpräzise ist. Die geschärfte Version: Ein Faktencheck prüft Fakten. Sycophancy ist ein Argumentations-Problem. Ein LLM baut überzeugenden Text um eine schwache These mit korrekten Fakten. Der Faktencheck findet nichts, weil die Fakten stimmen, nur das Argument nicht.

Zweitens: Mein ursprüngliches Framing stellte Sycophancy als das Hauptproblem dar. Die Diskussion hat gezeigt, dass die Kausalität anders verläuft: Verwässerung ist das Problem. Sycophancy ist der Grund, warum es so hartnäckig ist, weil Sycophancy jeden Korrekturversuch untergräbt. Diese Umkehrung verändert die gesamte Argumentationsstruktur des Artikels.

Drittens: Die Frage nach den Grenzen. Mein ursprünglicher Entwurf war zu optimistisch bezüglich des Schreibschritts. Die Challenge hat erzwungen, ehrlich einzuräumen, dass die KI auch im Schreibschritt geschärfte Thesen wieder glätten kann, und dass Thought-Catalysis dafür keine Garantie bietet, sondern ein Werkzeug zur Erkennung und Handhabung.

Alle drei Punkte wären in einem herkömmlichen Workflow nicht aufgefallen. Nicht weil ich sie ignoriert hätte, sondern weil kein Mechanismus existiert, der sie sichtbar macht, bevor der Text geschrieben ist.

9. Grenzen und ehrliche Einschränkungen

Thought-Catalysis löst das Verwässerungs-Problem nicht vollständig. Es als Heilsversprechen zu verpacken wäre genau die Art unsauberer Argumentation, die der Workflow selbst aufdecken soll.

Die zentrale Einschränkung: Der Schreibschritt (Schritt 4) nutzt ein LLM, und dieses LLM unterliegt den gleichen Sycophancy- und Homogenisierungstendenzen wie jedes andere. Geschärfte Thesen aus dem Entscheidungsprotokoll können im Formulierungsprozess wieder geglättet werden. Das passiert nicht immer, aber es passiert.

Der Unterschied zu einem Workflow ohne Challenge-Schritt: Mit einem Entscheidungsprotokoll als Referenz wird Verwässerung im Schreibschritt erkennbar. Der Autor kann den fertigen Text gegen das Protokoll prüfen und feststellen, wo Positionen abgeschwächt wurden. Ohne Protokoll fehlt dieser Maßstab. Der Autor liest einen Text, der plausibel klingt, und hat keine Referenz, gegen die er die inhaltliche Schärfe prüfen kann. Thought-Catalysis macht Verwässerung also nicht unmöglich, aber handhabbar.

Weitere Einschränkungen: Wie gut der adversariale Review ausfällt, hängt von der Konfiguration des Challengers ab. Schlecht konfiguriert produziert er oberflächliche Kritik ohne Wert. Die Methode verlangt außerdem, dass der Autor bereit ist, sich challengen zu lassen, also eine gewisse intellektuelle Offenheit mitbringt. Und sie kostet mehr Zeit als reines Ghostwriting, weil der Review- und Entscheidungsprozess nicht automatisierbar ist. Jedenfalls nicht, ohne den Kern der Methode zu untergraben: die menschliche Entscheidung.

10. Fazit und Ausblick

Thought-Catalysis ist kein besseres Prompting. Sondern ein methodischer Workflow, der ein strukturelles Problem adressiert. LLMs verwässern Meinungs-Content. Sycophancy blockiert jede nachträgliche Korrektur.

Die Bausteine sind erforscht: Adversariale KI-Systeme verbessern Entscheidungen (IUI 2024). Sycophancy ist quantifiziert und persistent (Fanous et al., 2025; Sharma et al., 2023). Stil-Homogenisierung ist gemessen (Agarwal et al., CHI 2025). Was fehlte: eine praktische Synthese dieser Erkenntnisse für die Content-Erstellung. Ein Workflow, der die KI zuerst als Gegner und erst dann als Ghostwriter einsetzt.

Die Abgrenzung zu Red Teaming ist dabei wichtig: Red Teaming testet die KI, ihre Grenzen, ihre Schwächen, ihre Sicherheitsmechanismen. Thought-Catalysis testet die Thesen des Autors mit Hilfe der KI. Das Ziel ist nicht, Schwächen des Modells aufzudecken, sondern Schwächen der eigenen Argumentation, bevor sie im fertigen Text verschwinden.

Ob sich der Begriff Thought-Catalysis durchsetzt, ist für die Methode selbst irrelevant. Die Prinzipien funktionieren unabhängig vom Namen: Challenge vor dem Schreiben. Quellenbasierte Kritik. Dokumentierte Entscheidungen. Geschärfter Input für den Schreibschritt. Wer KI für Meinungs-Content einsetzt und seine Stimme behalten will, braucht einen Workflow, der die Zustimmungstendenz des Modells aktiv durchbricht, bevor der erste Satz formuliert wird.

Alles andere bleibt Ghostwriting ohne Qualitätssicherung.

Die Grundlagen dieses Ansatzes — warum KI Texte schreiben ohne strukturierten Workflow scheitert und wie Role-Prompting das Problem nicht löst — habe ich in separaten Artikeln behandelt.