Was ist RAG?

RAG (Retrieval-Augmented Generation) koppelt ein großes Sprachmodell mit einer externen, durchsuchbaren Wissensdatenbank. Bei jeder Anfrage sucht das System zuerst passende Dokumente heraus und reicht diese dem Modell als zusätzlichen Kontext weiter, statt es nur auf sein trainiertes Wissen zurückgreifen zu lassen. Lewis et al. (2020) bei arXiv haben dieses Architekturprinzip erstmals beschrieben, entwickelt an Facebook AI Research (heute Meta AI), dem University College London und der New York University.

Warum braucht man RAG überhaupt?

Stellen Sie sich vor, Sie fragen ein KI-System nach den aktuellen Lieferbedingungen Ihres Unternehmens. Das Modell wurde irgendwann mit öffentlichen Daten trainiert, Ihre internen Dokumente bleiben ihm fremd, und sein Wissensstand liegt Monate oder Jahre zurück. Was passiert? Es erfindet eine plausibel klingende Antwort. Das nennt man Halluzination.

Hier greift RAG. Ein konkretes Beispiel: Ein mittelständisches Unternehmen will seinen Mitarbeitern erlauben, Fragen zum Qualitätsmanagement-Handbuch per KI-Chat zu stellen. Ohne RAG müsste das Handbuch in das Modell eintrainiert werden (Fine-Tuning), was bei jeder Aktualisierung erneut anfällt. Mit RAG liegt das Handbuch in einer durchsuchbaren Datenbank, das Modell findet relevante Abschnitte in Echtzeit und formuliert daraus eine Antwort. Wird das Handbuch aktualisiert, muss die Datenbank neu indexiert werden, danach steht die aktuelle Version bereit. Das Modell selbst bleibt unverändert.

Das Prinzip adressiert drei Kernprobleme gleichzeitig:

Veraltetes Wissen: Das Modell greift auf aktuelle Dokumente zu, nicht auf seinen Trainingsstand
Fehlende interne Daten: Unternehmenseigene Handbücher, Prozessbeschreibungen und Produktdokumentationen lassen sich einbinden
Fehlende Nachvollziehbarkeit: Das System benennt Quellen, weil es echte Dokumente zitiert
Datenkontrolle: Die Wissensdatenbank bleibt im eigenen Haus. Allerdings: Bei jeder Anfrage werden relevante Textpassagen als Kontext an das Sprachmodell gesendet. Wer einen externen API-Dienst nutzt, schickt damit Unternehmensdaten nach draußen. Echte Datensouveränität ergibt sich nur, wenn auch das Sprachmodell lokal betrieben wird

Laut RAG-Survey (arXiv 2023) verknüpft RAG das im Modell gespeicherte Wissen mit der Dynamik externer Datenbanken, um Halluzinationen, veraltete Informationen und fehlende Transparenz zu adressieren.

Wie funktioniert RAG?

Drei Stufen, die bei jeder Nutzeranfrage neu durchlaufen werden:

1. Retrieval (Abruf)

Die Nutzerfrage wird in einen mathematischen Vektor umgerechnet, ein sogenanntes [Embedding] (eine numerische Darstellung der Textbedeutung). Voraussetzung dafür: Alle Dokumente in der Wissensdatenbank wurden vorab in solche Vektoren umgewandelt und in einer Vektordatenbank abgelegt. Diesen Vorbereitungsschritt übernimmt ein separates Embedding-Modell, nicht das Sprachmodell selbst. Anhand der Vektoren durchsucht das System die Datenbank nach inhaltlich passenden Textpassagen, nicht bloß nach identischen Stichwörtern. Fragt jemand nach “Urlaubsanspruch für Teilzeitkräfte”, liefert ein gut konfiguriertes Retrieval-System auch Abschnitte über “anteiligen Erholungsurlaub bei reduzierter Arbeitszeit”. Klassische Stichwortsuche scheitert hier.

2. Augmentation (Anreicherung)

Die gefundenen Passagen fließen direkt in den [Prompt] (die Eingabe ans Modell) ein. Das Modell bekommt also nicht nur die Frage, sondern auch die dazu passenden Hintergrunddokumente.

3. Generation (Erzeugung)

Auf Basis der mitgelieferten Dokumente generiert das [LLM] (Large Language Model, das eigentliche Sprachmodell) eine Antwort und verweist dabei auf konkrete Textpassagen. Das macht die Antwort überprüfbar. Ohne RAG greift das Modell auf seinen Trainingsstand zurück, mit RAG arbeitet es auf Grundlage konkreter, aktueller Dokumente.

Wo wird RAG eingesetzt?

Überall dort, wo ein KI-System auf spezifisches, aktuelles oder nicht-öffentliches Wissen zugreifen soll:

Unternehmens-Chatbots: Fragen zu internen Prozessen, Richtlinien, Handbüchern
Kundensupport-KI: Antworten auf Basis aktueller Produktdokumentation
Wissensmanagement: Intelligente Suche in großen Dokumentenmengen
Fachspezifische Assistenten: Medizin, Recht, Compliance auf Basis kuratierter Fachliteratur
Content-Recherche: KI-gestützte Recherchetools, die auf aktuellen Quellen arbeiten

Seit 2020 hat sich das Verfahren deutlich weiterentwickelt. Laut RAG-Survey (arXiv 2023) sind frühe Implementierungen fehleranfällig, weil die Dokumentensuche zu simpel ausfällt. Aktuelle Systeme filtern und gewichten Suchergebnisse in mehreren Stufen, bevor sie an das Sprachmodell weitergegeben werden. Die Trefferqualität steigt, aber auch der Aufwand für Aufbau und Wartung.

Was kann RAG nicht?

Hier wird es unbequem. RAG gilt im Marketing gerne als Allheilmittel gegen Halluzinationen und veraltetes Modellwissen. Eine Vereinfachung, die in der Praxis zum Problem werden kann: Die Antwortqualität hängt vollständig von der Datengrundlage ab, bei anspruchsvollen Fragen versagt das Retrieval, und rechtliche Fallstricke werden regelmäßig übersehen.

Garbage in, garbage out

Die Qualität der Wissensdatenbank bestimmt alles. Falsche, veraltete oder schlecht strukturierte Dokumente produzieren falsche Antworten, verpackt in die Überzeugungskraft eines gut formulierten Sprachmodells. Die Fehlerquelle verlagert sich. Sie verschwindet nicht.

Anspruchsvolle Fragen überfordern das System

Einfache Faktenfragen sind die Stärke von RAG. Sobald eine Frage mehrere Quellen verknüpfen, argumentatives Verständnis voraussetzen oder widersprüchliche Positionen abwägen muss, gerät das Retrieval-Prinzip an seine Grenzen. Eine technische Analyse bei HuggingFace beschreibt sechs Schwierigkeitsstufen und zeigt: Allein aus der Formulierung einer Frage die richtigen Dokumente zu identifizieren, bleibt bei anspruchsvollen Anfragen eine ungelöste Aufgabe.

Zugriffsrechte gehen bei der Vektorisierung verloren

Ein in Unternehmensumgebungen oft übersehenes Risiko: Werden Dokumente für die Vektordatenbank aufbereitet, bleiben die ursprünglichen Zugriffsberechtigungen häufig auf der Strecke. Inhalte, die nur für bestimmte Mitarbeiter gedacht waren, tauchen plötzlich über das KI-Interface für alle Nutzer auf. Keine theoretische Frage, sondern ein praktisches DSGVO-Problem, das vor jeder Implementierung gelöst werden muss.

Dazu kommt die urheberrechtliche Frage: Nicht jedes Dokument darf ohne Weiteres in eine Vektordatenbank eingespeist werden. Bei internen Unternehmensdokumenten ist die Lage klar, bei externen Quellen wie Fachliteratur, Studien oder fremder Produktdokumentation gelten Lizenz- und Urheberrechtsbedingungen. Auch der Speicherort der Vektordatenbank selbst ist eine Datenschutzentscheidung: Liegt sie bei einem externen Cloud-Dienst, verlassen die Unternehmensdaten das Haus bereits bei der Indexierung, nicht erst bei der Anfrage.

Fehlersuche in der Komponentenkette

RAG-Systeme bestehen aus mehreren Bausteinen: dem Retriever (sucht Dokumente), optionalen Re-Ranking-Stufen (sortieren Ergebnisse nach Relevanz) und dem Sprachmodell, das die Antwort generiert. Liefert das System eine falsche Antwort, steckt der Fehler irgendwo in dieser Kette.

Hat der Retriever die falschen Dokumente geliefert?
Hat das Re-Ranking relevante Treffer herabgestuft?
Hat das Sprachmodell den richtigen Kontext falsch interpretiert?

Systematische Antworten auf diese Fragen verlangen Evaluierungsmethoden, die in vielen RAG-Projekten fehlen.

RAG gegen Fine-Tuning: kein universeller Gewinner

Fine-Tuning (das Nachtrainieren eines Modells auf eigenen Daten) ist die Alternative. Beide Verfahren lösen unterschiedliche Probleme: RAG macht externes Wissen zugänglich, Fine-Tuning verändert das Verhalten des Modells selbst. Oft ergibt eine Kombination Sinn, etwa Fine-Tuning für den Kommunikationsstil und RAG für den Zugriff auf aktuelle Daten.

Kriterium	RAG	Fine-Tuning
Wissen aktualisierbar?	Ja, jederzeit	Nein, erfordert Neutraining
Quellen nachvollziehbar?	Ja	Nein
Aufwand in der Vorbereitung	Hoch (Datenbankaufbau)	Hoch (Trainingsdaten)
Geeignet für interne Docs	Gut	Bedingt
Geeignet für Stil/Verhalten	Schlecht	Gut

Einordnung: Was RAG leistet und was nicht

RAG ist kein fertiges Produkt. Die Wissensdatenbank will aufgebaut, gepflegt und auf Qualität geprüft werden. Zugriffsrechte verlangen sorgfältige Abbildung, das Retrieval-System muss zu den tatsächlichen Fragetypen passen.

Marketing-Materialien vermitteln gerne den Eindruck, RAG ließe sich installieren wie eine Software. Der initiale Aufbau ist dabei nur der Anfang. Zwar bieten inzwischen mehrere KI-Anbieter vereinfachte Lösungen an, bei denen sich Dokumente per Upload einbinden lassen. Für kleinere Dokumentensammlungen reicht das oft aus. Dabei gilt allerdings: Hochgeladene Dokumente landen auf den Servern des Anbieters, was bei vertraulichen Unternehmensdaten ein Datenschutzproblem darstellt. Wer tausende Dokumente, differenzierte Zugriffsrechte oder volle Kontrolle über die Retrieval-Qualität braucht, kommt um eine eigene Infrastruktur nicht herum. Im laufenden Betrieb verlangt das System kontinuierliche Datenpflege: Dokumente aktualisieren, neue Quellen einpflegen, veraltete aussortieren, Retrieval-Qualität überwachen. Der Aufwand verschwindet nicht, er wandert vom Modelltraining in die Datenbank.

Wer RAG als einfachen Schalter betrachtet, den man umlegt und dann sind Halluzinationen weg, wird enttäuscht. Wer es als Werkzeug begreift, das präzise kalibriert werden will, hat ein ernstzunehmendes Instrument für unternehmensrelevante KI-Anwendungen.

Quellen

Lewis et al. (2020), arXiv / Facebook AI Research: https://arxiv.org/html/2005.11401
Gao et al. (2023), RAG Survey, arXiv: https://arxiv.org/abs/2312.10997
HuggingFace Blog (hrishioa), RAG Advanced Basics: https://huggingface.co/blog/hrishioa/retrieval-augmented-generation-1-basics