RAG (Retrieval-Augmented Generation) im Unternehmen | Business-Englisch.org
AI Workplace Series — Phase 4, Teil 3

RAG (Retrieval-Augmented Generation):
Sprachmodelle mit Firmenwissen verknüpfen

Ein globales Sprachmodell besitzt ein gigantisches Allgemeinwissen, weiß aber absolut nichts über Ihre internen Firmenstrukturen, aktuellen Preise oder geheimen Verträge. Mit Retrieval-Augmented Generation (RAG) schlagen IT-Architekten die sichere Brücke zwischen KI und internen Datenbanken.

Das Problem von Vortraining und Fine-Tuning

Ein Modell nachträglich durch Training mit eigenen Daten zu füttern (Fine-Tuning), ist extrem teuer, dauert Tage und birgt das Risiko, dass die Daten dauerhaft im Modell verankert sind. RAG wählt einen völlig anderen, dynamischen Weg: Es lässt das Modell unangetastet und fungiert stattdessen als **intelligenter, sekundenschneller Bibliothekar**, der dem Modell vor jeder Antwort die exakt passenden Aktenauszüge auf den digitalen Tisch legt.

🛡️ Warum RAG Halluzinationen eliminiert

Wenn ein Standard-LLM die Antwort auf eine interne Frage nicht weiß, fängt es mathematisch an zu raten (Halluzination). Bei einer RAG-Infrastruktur weisen Sie das Modell im System-Prompt strikt an: „Beantworte die Frage ausschließlich auf Basis der mitgelieferten Dokumente. Wenn die Information dort nicht existiert, sage: 'Information nicht gefunden'.“ Das senkt die Fehlerquote im Unternehmen auf nahezu Null.

Interaktiver Simulator: Der RAG-Datenfluss (Step-by-Step)

Szenario: Ein Mitarbeiter im Kundenservice tippt die Frage ein: „Wie hoch ist die Stornierungsgebühr für unseren Rahmenvertrag mit Kunde XY?“. Klicken Sie auf den Button, um die technische Pipeline der RAG-Architektur Schritt für Schritt auszulösen:

RAG-Pipeline-Status
[STEP 1: USER PROMPT] Mitarbeiter fragt: "Stornierungsgebühr Rahmenvertrag Kunde XY?"
[STEP 2: VECTOR EMBEDDING] Die Frage wird durch ein Embedding-Modell gejagt und in einen mathematischen Vektor (Zahlenkette) umgewandelt.
[STEP 3: VECTOR DB SEARCH] Das System durchsucht die interne Vektordatenbank (z.B. Pinecone, Qdrant) mittels Cosine-Similarity nach Dokumenten-Chunks, die inhaltlich am besten zur Frage passen.
[STEP 4: RETRIEVAL] Passende Textfragmente gefunden! Auszug aus 'Vertrag_XY_v2.pdf, Seite 14': "Die Stornierungsgebühr bei Rahmenverträgen beträgt pauschal 12% des Restvolumens."
[STEP 5: PROMPT AUGMENTATION] Das System baut im Hintergrund vollautomatisch einen gigantischen, erweiterten Prompt für das LLM zusammen: "Nutze NUR diesen Kontext: [Auszug Seite 14]. Beantworte damit die Frage: [Mitarbeiterfrage]"
[STEP 6: LLM GENERATION] Das LLM liest den angereicherten Prompt und spuckt die perfekte, verifizierte Antwort aus: "Die Stornierungsgebühr für den Vertrag mit Kunde XY beträgt laut Absatz 4 (S. 14) pauschal 12% des verbleibenden Restvolumens."

Die technischen Säulen einer RAG-Infrastruktur

Wenn Unternehmen ein internes RAG-System planen, müssen die Data Engineers drei Kernprozesse aufbauen:

  • Chunking (Portionierung): Riesige Handbücher oder Verträge werden in kleine, verdauliche Textabschnitte (z. B. Absätze mit maximal 500 Tokens) zerlegt.
  • Vector Databases (Vektordatenbanken): Spezialisierte Datenbanken, die diese Textabschnitte als mehrdimensionale Vektoren speichern, um blitzschnelle semantische Suchen zu ermöglichen.
  • Re-ranking (Nachgewichtung): Ein vorgeschalteter Algorithmus prüft die von der Datenbank gelieferten Dokumente nochmals auf ihre exakte Relevanz, bevor sie an das teure Sprachmodell übergeben werden.

Fachbegriffe für das RAG-Infrastruktur-Meeting

Nutzen Sie in Absprachen mit Ihren Daten-Architekten diese präzisen englischen Bezeichnungen:

  • Prompt Augmentation: Die Anreicherung des ursprünglichen Nutzer-Prompts mit den lokal abgerufenen Datendokumenten.
  • Vector Store: Die mathematische Speicher-Infrastruktur für semantische Daten-Embeddings.
  • Grounding: Die feste Verankerung der KI-Antworten in realen, nachprüfbaren Faktenquellen zur Vermeidung von Falschbehauptungen.