Was ist Few-Shot-Prompting?
Few-Shot-Prompting ist eine Prompting-Technik, bei der einem Sprachmodell im Prompt einige wenige Beispiele des gewünschten Verhaltens mitgegeben werden, bevor es die eigentliche Aufgabe löst. Laut Lilian Weng (OpenAI) besteht jedes Beispiel aus einer Eingabe und der zugehörigen Ausgabe. Ein Demonstrations-Paar, das dem Modell Format, Stil und Struktur der erwarteten Antwort zeigt. Typischerweise werden zwei bis fünf solcher Paare verwendet.
Die Technik gehört zum Prinzip des In-Context Learning: Das Modell lernt aus den Beispielen im Prompt, ohne dass seine Gewichte verändert werden. Kein Training, kein Fine-Tuning. Die Fähigkeiten sitzen bereits im vortrainierten Modell. Die Beispiele kanalisieren sie nur in die gewünschte Richtung.
Wie unterscheidet sich Few-Shot von Zero-Shot-Prompting?
Die Begriffe beziehen sich alle auf In-Context-Learning, also das Lernen aus dem Kontext des Prompts selbst. Der Unterschied liegt einzig in der Anzahl der Beispiele:
| Ansatz | Beispiele | Wann sinnvoll |
|---|---|---|
| Zero-Shot-Prompting | 0 | Einfache, gut bekannte Aufgaben |
| One-Shot | 1 | Wenn ein Muster reicht |
| Few-Shot | 2-20 | Format-intensive oder domänenspezifische Aufgaben |
Bei Zero-Shot-Prompting vertraut man komplett auf das Vorwissen des Modells. Das funktioniert erstaunlich gut für Standardaufgaben wie Sentiment-Analyse oder einfache Klassifikationen. Aber sobald das gewünschte Ausgabeformat spezifisch wird oder die Aufgabe ungewöhnliche Konventionen hat, liefert Zero-Shot inkonsistente Ergebnisse.
Hier setzt Few-Shot an: Statt zu hoffen, dass das Modell errät, was Sie wollen, zeigen Sie es ihm. Das ist der fundamentale Unterschied. Zero-Shot sagt “mach das”. Few-Shot sagt “mach das so, wie in diesen Beispielen”.
Wie ist ein Few-Shot-Prompt aufgebaut?
Ein Few-Shot-Prompt besteht aus drei Komponenten:
- Aufgabenbeschreibung: Was soll das Modell tun?
- Beispiele: Eingabe-Ausgabe-Paare, die das Muster demonstrieren
- Der eigentliche Prompt: Die neue Eingabe, die das Modell vervollständigen soll
Ein konkretes Beispiel für Sentiment-Klassifikation:
Klassifiziere den Satz als POSITIV oder NEGATIV.
Satz: “Das Produkt hat meine Erwartungen übertroffen.” Sentiment: POSITIV
Satz: “Der Kundenservice war eine Katastrophe.” Sentiment: NEGATIV
Satz: “Die Lieferung war pünktlich, aber die Verpackung beschädigt.” Sentiment:
Das Modell ergänzt “NEGATIV”. Und hat dabei nicht nur die Labels gelernt, sondern auch das exakte Format: Doppelpunkt, Großschreibung, einzeiliges Ergebnis.
Wie viele Beispiele sind optimal?
Das ist keine rhetorische Frage. Die Antwort ist kontraintuitiv.
Konventionelle Weisheit sagt: mehr Beispiele, bessere Ergebnisse. Eine Studie von Tang et al. (2025) belegt das Gegenteil: Nach etwa 5 bis 20 Beispielen sinkt die Leistung wieder ab. Getestet an GPT-4o, GPT-3.5-turbo, LLaMA-3.1-8B und Gemma-3-4B trat dieses “Over-Prompting”-Phänomen bei allen Modellen auf.
Kleine Modelle (3-4 Milliarden Parameter) trifft es früher. Große Modelle sind robuster, aber nicht immun. Besonders bei Multi-Klassen-Klassifikation, also Aufgaben mit vielen verschiedenen Kategorien, werden zu viele Beispiele zum Problem.
Die pragmatische Faustregel für die Praxis: Starten Sie mit drei bis fünf Beispielen. Mehr nur, wenn die Ergebnisse noch nicht konsistent genug sind. Und testen Sie, ob mehr Beispiele tatsächlich bessere Ergebnisse liefern.
Wann ist Few-Shot die bessere Wahl als Zero-Shot?
Few-Shot schlägt Zero-Shot bei Aufgaben, wo Format, Stil oder Terminologie wichtiger sind als reines Verstehen:
- Klassifikation mit spezifischem Label-Schema: Denn Ihre internen Kategorien kann kein Modell kennen.
- Strukturierte Ausgaben: JSON, Tabellen, XML mit festgelegtem Schema.
- Tone-Matching: Schreibstil nach Vorgabe (Markensprache, formell vs. locker).
- Domänenspezifische Terminologie: Fachsprache demonstrieren, statt sie zu erklären.
- Informationsextraktion: Welche Felder aus unstrukturierten Texten gezogen werden sollen.
Praktisch sieht das so aus:
- Sie wollen Marketing-Texte nach Ihrer Markenstimme? Drei Beispiele bestehender Texte in den Prompt, und das Modell produziert konsistente neue Texte.
- E-Mail-Kategorisierung? Fünf Beispiele pro Kategorie, und die Trefferquote steigt deutlich gegenüber Zero-Shot.
- Datenextraktion aus Rechnungen? Vier Beispiel-Rechnungen mit der gewünschten JSON-Ausgabe.
Wann bleibt Zero-Shot die bessere Wahl?
Zero-Shot mit Chain-of-Thought schlägt Few-Shot bei:
- Komplexem Reasoning: Mathematik, Logik, mehrstufige Schlussfolgerungen
- Offenen kreativen Aufgaben: Wo ein Format-Vorbild einschränken würde
- Situationen, wo gute Beispiele schwer zu erstellen sind: Manchmal ist ein klarer Befehl einfacher als ein repräsentatives Beispielset
Die Faustregel: Geht es um Format und Konsistenz? Few-Shot. Geht es um Denken? Zero-Shot mit Chain-of-Thought.
Wo scheitert Few-Shot-Prompting?
Hier beginnt die nüchterne Betrachtung. Few-Shot-Prompting ist keine Universallösung, und die Fallstricke sind dokumentiert.
Die drei strukturellen Biases
Forschung (Zhao et al., 2021, zitiert von Lilian Weng) identifiziert drei systematische Verzerrungen:
-
Majority Label Bias: Wenn Ihre Beispiele eine Label-Gruppe überrepräsentieren (etwa drei positive und ein negatives Beispiel), kippt das Modell systematisch in Richtung der überrepräsentierten Kategorie.
-
Recency Bias: Das letzte Beispiel hat überproportionales Gewicht. Wer das letzte Beispiel setzt, beeinflusst das Ergebnis stärker als durch die anderen Beispiele.
-
Common Token Bias: Seltene Ausgabetypen werden systematisch unterdrückt. Wenn Ihr gewünschtes Format ungewöhnlich ist, produziert das Modell trotz Beispielen häufigere Alternativen.
Diese Biases sind schwer zu kontrollieren und oft nicht offensichtlich. Sie merken erst bei systematischer Auswertung, dass Ihre Klassifikation schief läuft.
Die Reihenfolge-Sensitivität
Was selten kommuniziert wird: Die Reihenfolge der Beispiele ist nicht egal. Studien zeigen, dass identische Beispiele in unterschiedlicher Reihenfolge die Leistung von “nahezu zufällig” bis “annähernd State-of-the-Art” variieren lassen können. Das macht Few-Shot-Prompting schwer reproduzierbar.
Für produktive Anwendungen bedeutet das: Testen Sie verschiedene Reihenfolgen. Was bei drei Testfällen funktioniert, kann bei hundert scheitern.
Over-Prompting: Mehr ist nicht besser
Das bereits erwähnte Phänomen verdient Wiederholung, weil es so kontraintuitiv ist. Die “The Few-shot Dilemma”-Studie belegt empirisch: Nach 5-20 Beispielen sinkt die Leistung. Besonders kleine Modelle werden durch viele Beispiele verwirrt statt geleitet. Die konventionelle Weisheit “mehr Beispiele = besser” ist falsch.
Scheitern bei komplexem Reasoning
Für Aufgaben mit mehrstufiger Logik, Mathematik oder strukturiertem Problemlösen funktioniert Zero-Shot mit Chain-of-Thought oft besser. Warum? Beispiele binden das Modell an Oberflächenmuster. Es kopiert die Form, statt den Denkprozess zu verstehen. Bei Reasoning-Aufgaben ist der Denkweg wichtiger als das Format.
Kostenaspekt
Jedes Beispiel kostet Token. Bei API-basierten Modellen zahlen Sie pro Token. Fünf Beispiele pro Prompt, multipliziert mit Millionen von Anfragen, summieren sich zu erheblichen Mehrkosten und höherer Latenz. Das ist bei skalierenden Anwendungen ein realer Faktor.
Context-Window-Limitierung
Large Language Models haben ein begrenztes Context Window, also eine maximale Textmenge, die sie gleichzeitig verarbeiten können. Bei langen Eingabedokumenten, etwa juristischen Texten oder technischen Spezifikationen, kann der Prompt durch Beispiele so lang werden, dass für die eigentliche Aufgabe kein Raum mehr bleibt. Dann konkurrieren Beispiele und Aufgabe um den verfügbaren Kontext.
Garbage-In-Garbage-Out
Der vielleicht unterschätzteste Fallstrick: Schlechte Beispiele degradieren die Leistung unter das Zero-Shot-Niveau. Inkonsistente Formatierung, unrepräsentative Fälle, widersprüchliche Labels: All das verwirrt das Modell mehr, als dass es hilft. Der Aufwand, hochwertige, diverse, repräsentative Beispiele zu erstellen, ist oft unterschätzt.
Wie wählt man die richtigen Beispiele aus?
Die Qualität der Beispiele bestimmt die Qualität der Ergebnisse. Einige Prinzipien, die funktionieren:
- Diversität: Verschiedene Aspekte der Aufgabe abdecken, nicht nur einfache Fälle
- Repräsentativität: Beispiele sollten typisch sein für das, was das Modell später sehen wird
- Balance: Bei Klassifikation gleich viele Beispiele pro Kategorie
- Klarheit: Eindeutige Eingabe-Ausgabe-Paare ohne Mehrdeutigkeit
Zur Auswahl-Methode: Die arXiv-Studie von Tang et al. fand, dass TF-IDF-basierte Selektion (also Auswahl nach Relevanz der Schlüsselwörter) besser abschnitt als zufällige Auswahl oder semantische Embeddings. Für Produktivsysteme empfiehlt Lilian Weng semantische Ähnlichkeit via k-NN-Clustering. Aber für die meisten Anwendungen reicht sorgfältige manuelle Auswahl.
Einordnung: Wann macht Few-Shot Sinn?
Few-Shot-Prompting ist ein Werkzeug, kein Wundermittel. Es füllt eine spezifische Lücke zwischen Zero-Shot und Fine-Tuning:
| Ansatz | Aufwand | Flexibilität | Konsistenz |
|---|---|---|---|
| Zero-Shot | Minimal | Maximal | Variabel |
| Few-Shot | Mittel | Hoch | Gut |
| Fine-Tuning | Hoch | Niedrig | Maximal |
Few-Shot ist weniger aufwändig als Fine-Tuning, weil kein Training und keine Daten-Aufbereitung nötig sind. Es ist flexibler, weil Sie Beispiele jederzeit ändern können. Aber es ist teurer als Zero-Shot, und die Beispiel-Auswahl erfordert Sorgfalt.
Der typische Workflow: Erst Zero-Shot-Prompting testen. Wenn das nicht konsistent genug funktioniert, Few-Shot-Beispiele hinzufügen. Wenn auch das nicht reicht, Chain-of-Thought ergänzen oder über Fine-Tuning nachdenken.
Was Few-Shot nicht ist: eine Alternative zu echtem Lernen. Das Modell “lernt” nicht wirklich aus den Beispielen. Es kalibriert nur seine Ausgabe. Für echtes Anpassen an domänenspezifisches Verhalten brauchen Sie Fine-Tuning. Few-Shot ist eine elegante Behelfslösung, aber keine Ersatzlösung.
Weiterführende Artikel
- KI Texte schreiben: Vom Risiko zum strukturierten Workflow — Warum Prompting allein nicht reicht
- Warum Role-Prompting nicht funktioniert — Die Grenzen von Rollenzuweisungen an Sprachmodelle
Quellen
- Lilian Weng (OpenAI) – Prompt Engineering: https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
- Tang et al. (2025) – The Few-shot Dilemma (arXiv): https://arxiv.org/html/2509.13196v1