Was ist ein Prompt?
Ein Prompt ist die Anweisung, die Sie einem Sprachmodell geben, um eine bestimmte Aufgabe zu erfüllen. Er fungiert als Schnittstelle zwischen Ihrer Intention und der Verarbeitung durch das Sprachmodell. Laut AWS handelt es sich um eine natürlichsprachige Anfrage, die dem System mitteilt, was es tun soll.
Wie ein Prompt funktioniert
Prompts funktionieren, indem sie dem Modell präzise mitteilen, was es tun soll. Je klarer die Anweisung, desto besser das Ergebnis.
Ein Beispiel:
Schwacher Prompt: “Schreib was über Content-Marketing.”
Besserer Prompt: “Schreibe eine 200-Wörter-Zusammenfassung über Content-Marketing für B2B-Unternehmen. Zielgruppe: Marketing-Leiter ohne Vorkenntnisse. Tonalität: sachlich, keine Buzzwords.”
Der Unterschied: Kontext, Formatvorgabe, Zielgruppe.
Was einen guten Prompt ausmacht
- Kontext: Wer ist die Zielgruppe? Was ist der Zweck?
- Format: Länge, Struktur, Stil
- Klare Anweisung: Was genau soll das Modell tun?
Was NICHT funktioniert: Role-Prompting. “Du bist Experte für X” macht das Modell nicht zum Experten – es spielt nur die Rolle. Warum das so ist, erklärt dieser Artikel.
Wie Prompts in einem strukturierten Workflow zusammenspielen, beschreibt der Artikel KI Texte schreiben: Vom Risiko zum strukturierten Workflow.
Strukturierung: XML-Tags, JSON-Formate oder klare Abschnitte helfen dem Modell, die Eingabe zu parsen (in Bestandteile zu zerlegen). Anthropic empfiehlt XML-Tags zur Strukturierung von Prompts. Diese Tags funktionieren als klare Trennzeichen für verschiedene Prompt-Teile.
Prompting-Techniken
Zero-Shot Prompting
Die einfachste Form: Eine Anweisung ohne Beispiele. Das Modell soll die Aufgabe aus der Beschreibung verstehen.
Beispiel: “Fasse diesen Text in drei Sätzen zusammen.”
Funktioniert bei einfachen, klar definierten Aufgaben. Bei komplexeren Anforderungen steigt die Fehlerquote.
Few-Shot Prompting
Sie liefern 1-3 Beispiele mit. Das Modell erkennt das Muster und wendet es an.
Beispiel: ``` Klassifiziere die Stimmung: “Das Produkt ist großartig” → Positiv “Totale Zeitverschwendung” → Negativ “Der Service war okay” → ? ```
Few-Shot erhöht die Konsistenz erheblich. Das Modell versteht Format und Stil durch konkrete Vorbilder.
Chain-of-Thought (CoT)
Das Modell soll seinen Denkprozess zeigen, bevor es antwortet. “Think step by step” oder “Erkläre deine Überlegungen.”
Warum das funktioniert: Bei komplexen Aufgaben macht das Modell weniger Fehler, wenn es Zwischenschritte explizit formuliert. Die schrittweise Zerlegung zwingt zur Struktur.
Grenzen: CoT hilft bei logischen Aufgaben. Bei Faktenwissen bringt es nichts – das Modell “denkt” nicht besser, es formuliert nur ausführlicher.
Strukturierte Prompts
XML-Tags, Markdown-Formatierung oder JSON-Strukturen machen Prompts eindeutiger. Anthropic empfiehlt XML-Tags zur Trennung verschiedener Prompt-Teile. Strukturierung reduziert Mehrdeutigkeit und macht Ergebnisse reproduzierbarer.
Self-Consistency
Derselbe Prompt wird mehrfach an das Modell geschickt. Jeder Durchlauf erzeugt einen anderen Reasoning-Pfad. Die finale Antwort ist die, die am häufigsten vorkommt (Majority Voting).
Die Logik: Wenn das Modell über verschiedene Wege zum gleichen Ergebnis kommt, ist das Ergebnis wahrscheinlich korrekt. Einzelne Ausreißer fallen raus.
Prompt Chaining
Komplexe Aufgaben werden in Teilschritte zerlegt. Der Output eines Prompts wird zum Input des nächsten.
Beispiel:
- Prompt 1: “Extrahiere die Hauptargumente aus diesem Text”
- Prompt 2: “Bewerte jedes Argument auf Stichhaltigkeit”
- Prompt 3: “Fasse die Bewertung in drei Sätzen zusammen”
Chaining reduziert Fehler, weil jeder Schritt überschaubar bleibt. Ein einzelner Mega-Prompt überfordert das Modell oft.
Negative Prompting
Explizit formulieren, was das Modell NICHT tun soll.
Beispiel: “Schreibe eine Produktbeschreibung. Keine Superlative. Keine Füllwörter. Keine Marketingfloskeln.”
Negative Anweisungen sind oft präziser als positive. “Keine Buzzwords” ist klarer als “schreibe authentisch”.
Warum Prompt Engineering relevant ist
Vorteile gegenüber Alternativen
Prompt Engineering demokratisiert KI. Sie brauchen keine Programmierkenntnisse, um Sprachmodelle zu nutzen. Ein präzise formulierter Prompt liefert in Minuten Ergebnisse, während Fine-Tuning (Anpassung des Modells durch Training) Tage dauert und GPU-Ressourcen frisst.
- Kosteneffizienz: Keine teuren Trainingsläufe nötig
- Flexibilität: Aufgaben schnell anpassbar durch Prompt-Änderungen
- Erhaltung von Modellwissen: Fine-Tuning riskiert “Catastrophic Forgetting” (das Modell verlernt vorheriges Wissen), Prompting nicht
Historischer Kontext
Mit dem Aufkommen großer Sprachmodelle wie GPT-3 (2020) hat sich gezeigt, dass die Formulierung massiven Einfluss auf die Qualität der Ergebnisse hat. Prompt Engineering hat sich von Trial-and-Error zu einer systematischen Disziplin mit etablierten Techniken entwickelt: Zero-Shot (kein Beispiel), Few-Shot (wenige Beispiele), Chain-of-Thought.
Wo Prompts an Grenzen stoßen
Keine Universallösung
Ein Prompt, der bei GPT-4 brilliert, scheitert oft bei Claude oder Gemini. Laut Praxis-Tests wenden verschiedene Modelle unterschiedliche Logik-Stacks, Token-Bewertungen und Präferenzmuster an.
Der perfekte Prompt existiert nicht. Prompts overfitten zu Modellen, genau wie Modelle zu Daten overfitten.
Grundlegende Modellgrenzen bleiben
- Begrenztes Context Window: In der Praxis sinkt die Performance bei großen Kontexten deutlich. Das Modell “vergisst”, was am Anfang stand.
- Halluzination trotz klarer Fakten: Selbst wenn relevante Informationen explizit im Prompt stehen, halluzinieren Modelle. Das ist keine Prompt-Schwäche, sondern eine Modell-Architektur-Grenze.
- Training Cutoff: Prompts können nicht auf Wissen zugreifen, das nach dem Training Cutoff entstand. Ein Prompt erweitert nicht, was das Modell nie gelernt hat.
Sicherheitsrisiken
Prompt Injection ist ein reales Problem. Angreifer verstecken bösartige Anweisungen in scheinbar harmlosen Inhalten – unsichtbarer weißer Text in E-Mails, manipulierte Webseiten, präparierte Dokumente.
Anthropic gibt offen zu: Selbst mit ausgefeilten Verteidigungsmechanismen bleibt eine Erfolgsrate von 1 Prozent bei Angriffen. Das klingt nach wenig – bei Millionen Interaktionen ist es ein echtes Risiko.
Bias durch Formulierung
Die Art, wie Sie eine Frage formulieren, beeinflusst nicht nur die Qualität der Antwort, sondern kann systematische Ungleichheiten verstärken. Studien zeigen: Prompts im Sprachstil bestimmter demografischer Gruppen führen zu messbar schlechteren Ergebnissen.
Das ist keine theoretische Sorge. Wenn LLMs in Bildung, Gesundheit oder Rechtswesen eingesetzt werden, haben Fairness-Probleme reale Auswirkungen auf Menschen.
Weiterführende Artikel
- KI Texte schreiben: Vom Risiko zum strukturierten Workflow — Wie Prompts in einem strukturierten Workflow zusammenspielen
- Warum Role-Prompting nicht funktioniert — Warum eine Rollenzuweisung das Modell nicht kompetenter macht
- Thought-Catalysis: Warum Widerspruch KI-Texte besser macht — Ein Workflow gegen die Zustimmungstendenz von Sprachmodellen
Quellen
- Anthropic Claude Docs - Prompt Engineering Overview: https://platform.claude.com/docs/en/docs/build-with-claude/prompt-engineering/overview
- Anthropic Research - Prompt Injection Defenses: https://www.anthropic.com/research/prompt-injection-defenses
- arXiv - Prompt Fairness Sub-group Disparities: https://arxiv.org/html/2511.19956
- AWS - Was ist Prompt Engineering?: https://aws.amazon.com/what-is/prompt-engineering/
- Reza Motaghi - Why GPT Prompt Fails in Claude: https://rezamotaghi.com/one-person-startup/translate-ai-prompts/