Welche Vektor-DB sollen wir nehmen?

Für Mittelstand mit PostgreSQL-Stack: pgvector. Für reine Cloud-Setups: Pinecone oder Azure AI Search. Für Self-Hosting mit Skalierungsbedarf: Qdrant oder Weaviate. Wichtig: Hybrid-Search-Support und Metadaten-Filter.

Welches Embedding-Modell für Deutsch?

OpenAI text-embedding-3-large funktioniert sehr gut für Deutsch. Multilingual-E5-large ist eine starke Open-Source-Alternative. Für hoch-spezialisierte Domänen lohnt sich ein domänenspezifisches Fine-Tuning des Embedding-Modells.

Wie groß sollen Chunks sein?

Faustregel: 300–800 Token mit 50–100 Token Overlap. Bei strukturiertem Material entlang von Absätzen oder Überschriften. Bei Tabellen pro Zeile mit Header-Kontext. Wichtig: Chunk-Strategie pro Datenquelle anpassen.

Brauchen wir Re-Ranking wirklich?

In den meisten produktiven Setups ja. Re-Ranking erhöht die Relevanz der Top-Treffer um 10–20 Prozentpunkte – mit überschaubaren Kosten- und Latenz-Auswirkungen. Tools: Cohere Rerank, BGE-Reranker.

Wie verhindern wir Halluzinationen?

Confidence-Schwelle für Retrieval (wenn keine relevanten Treffer, dann „weiß ich nicht“), Anweisung an das LLM, nur auf Basis der Quellen zu antworten, Faithfulness-Eval, Quellenangabe pro Aussage. Diese Bausteine zusammen reduzieren Halluzinationen drastisch.

Wie aktualisieren wir die Wissensbasis?

Inkrementell: Geänderte Dokumente werden erkannt, neu gechunkt und re-embedded. Alte Chunks werden gelöscht oder als veraltet markiert. Tools wie LlamaIndex oder LangChain bieten dafür Standard-Mechanismen. Vollständiges Re-Indexing nur bei Modell-Wechsel.

Was kostet ein produktives RAG-System?

Initial 50.000–150.000 EUR (Architektur, Datenanbindung, Eval-Pipeline). Laufend: Embedding (einmalig + bei Updates), Vektor-DB-Hosting (50–500 EUR/Monat je nach Volumen), LLM-Kosten (volumenabhängig). Bei mittlerem Volumen 1.500–5.000 EUR/Monat realistisch.

Können wir RAG mit Agenten kombinieren?

Ja, das ist Standard. Der Agent ruft RAG als Tool auf, bekommt relevante Quellen, formuliert die Antwort. Bei komplexen Fragen kann der Agent mehrere Retrieval-Schritte verketten (Agentic RAG). Mehr im Multi-Agenten-Leitfaden.

ARCHITEKTUR

RAG-Architektur verständlich erklärt

Retrieval-Augmented Generation ist die Schlüsseltechnologie, mit der LLMs auf unternehmensinternes Wissen zugreifen, ohne neu trainiert werden zu müssen. Dieser Leitfaden erklärt die RAG-Architektur Schritt für Schritt: Chunking, Embeddings, Vektor-Datenbanken, Hybrid-Search, Re-Ranking, Evaluation, Sicherheit und Kosten – mit Empfehlungen für produktive Unternehmens-Setups.

Vollständige Architektur in 7 Schichten

Bewährte Technologien und Frameworks

Eval-, Sicherheits- und Kosten-Strategien

Von Christoph Hertling

•

Stand: 02. Mai 2026

•

5 Min. Lesezeit

DSGVO-konform

Deutsche Server

EU-AI-Act-ready

ISO-27001-Architektur

Made in Germany

100 % Festpreis-Pilot

DSGVO-konform

Deutsche Server

EU-AI-Act-ready

ISO-27001-Architektur

Made in Germany

100 % Festpreis-Pilot

Schichten der RAG-Architektur

+15–25 %

Qualität durch Hybrid-Search

+10–20 %

Relevanz durch Re-Ranking

EU-Cloud

Standard für DSGVO-Compliance

Das Wichtigste in 60 Sekunden

RAG verbindet LLMs mit unternehmensinternem Wissen ohne Modell-Training.
Architektur: Datenquelle → Chunking → Embedding → Vektor-DB → Retrieval → Re-Ranking → LLM.
Hybrid-Search (Vektor + Keyword) liefert robustere Ergebnisse als reine Vektor-Suche.
Re-Ranking hebt die Relevanz spürbar – oft um 10–20 Prozentpunkte.
Eval-Pipeline ist Pflicht: Recall, Precision, Faithfulness, Answer Relevance.

Inhaltsverzeichnis

Warum RAG?

Große Sprachmodelle wie GPT-4, Claude oder Gemini sind beeindruckende Generalisten. Sie kennen aber nicht die Vertragsdaten Ihrer Kunden, nicht Ihre internen Richtlinien, nicht die Produkt-Dokumentation Ihres letzten Release. Sie haben einen Wissens-Cutoff – und sie wurden nicht mit Ihren Daten trainiert.

Es gibt drei Wege, ein LLM mit unternehmensinternem Wissen zu verbinden: Fine-Tuning (Modell-Training), Long-Context-Prompting (alle Daten ins Prompt schreiben), Retrieval-Augmented Generation (relevante Daten zur Laufzeit abrufen). Für die meisten Unternehmens-Use-Cases ist RAG die beste Wahl.

RAG ist günstig (kein Re-Training), aktuell (Daten können sich täglich ändern), nachvollziehbar (Quellenangabe pro Antwort), modular (Wissensbasis austauschbar) und sicher (Berechtigungen pro Datenquelle). Diese Vorteile machen RAG zur Standard-Architektur für Wissens-Agenten in Unternehmen.

Schlüsselsatz

RAG ersetzt kein gutes LLM, und kein gutes LLM ersetzt RAG. Beide sind komplementär: das LLM für Sprache und Reasoning, RAG für aktuelles, kundenspezifisches Wissen.

Naives RAG vs. produktives Enterprise-RAG

Was unterscheidet einen Demo-Prototyp von einem produktiven System?

Funktion / Kriterium	Enterprise-RAG	Naives RAG
Chunking	Strukturbasiert + semantisch	Festgrößen
Retrieval	Hybrid + Re-Ranking	Reine Vektor-Suche
Berechtigungen	Metadaten-Filter	Alle sehen alles
Eval-Pipeline	Faithfulness + Relevance	Manuell
Quellenangabe	Pro Aussage	Optional
Halluzinations-Schutz	Confidence-Schwellen	Keiner
Updates	Inkrementell, automatisiert	Manuelles Re-Indexing

Architektur-Überblick: Die 7 Schichten

Eine produktive RAG-Architektur besteht aus sieben Schichten, die jede für sich Aufmerksamkeit verdient. Wer eine Schicht vernachlässigt, opfert Qualität an unerwarteter Stelle.

Schicht 1: Datenquellen (DMS, SharePoint, Confluence, Datenbanken)
Schicht 2: Ingest und Vorverarbeitung (Cleaning, Strukturierung)
Schicht 3: Chunking (Aufteilung in retrieval-fähige Einheiten)
Schicht 4: Embedding (Umwandlung in Vektoren)
Schicht 5: Speicherung (Vektor-DB, Index, Metadaten)
Schicht 6: Retrieval (Suchalgorithmus, Hybrid, Re-Ranking)
Schicht 7: Augmentation und Generation (Prompt, LLM-Aufruf, Antwort)

Schicht 1+2: Datenquellen und Vorverarbeitung

RAG ist nur so gut wie die Datenquellen. Typische Quellen: Document-Management-Systeme (DMS), Wikis (Confluence, SharePoint), CRMs/ERPs, Ticketsysteme, Mailsysteme, Datenbanken, Webseiten. Wichtig ist die Inventur: Welche Quellen gibt es, wer hat Zugriff, welche Formate, welche Aktualität, welche Qualität?

Vorverarbeitung ist oft der größte Aufwand. PDFs müssen geparst werden (mit Tabellen-Erkennung), HTML bereinigt, Office-Dokumente konvertiert, OCR für gescannte Dokumente angewandt, Boilerplate entfernt, Sprachen erkannt. Tools: Unstructured.io, LlamaParse, Azure Document Intelligence, Textract, eigene Parser.

Strukturierung verbessert die Retrieval-Qualität dramatisch: Hierarchien (Kapitel, Absatz), Metadaten (Autor, Datum, Geltungsbereich), Tags (Produkt, Region, Vertraulichkeit). Diese Information wird beim Embedding und beim Retrieval genutzt.

Datenqualität

Schlechte Datenquellen führen zu schlechten Antworten – egal wie gut das LLM ist. Vor RAG-Implementierung lohnt sich oft eine systematische Datenaufräumung.

Schicht 3: Chunking

Chunking ist die Aufteilung der Quelldokumente in Retrieval-Einheiten. Zu kleine Chunks verlieren Kontext, zu große Chunks enthalten zu viel Irrelevantes. Die Chunk-Strategie hat erheblichen Einfluss auf die Retrieval-Qualität.

Bewährte Strategien: Festgrößen-Chunking (z.B. 500 Token mit 50 Token Overlap), strukturbasiertes Chunking (entlang von Absätzen, Kapiteln), semantisches Chunking (Themenwechsel-Erkennung), hierarchisches Chunking (Eltern-Kind-Beziehungen).

Empfehlung für die meisten Anwendungen: Strukturbasiertes Chunking mit semantischem Fallback, Chunk-Größe 300–800 Token, Overlap 50–100 Token, Eltern-Chunks für Kontext bei Bedarf abrufbar. Bei Tabellen und Listen lohnen sich spezielle Chunking-Strategien.

Chunking-Empfehlungen

Verträge/Richtlinien: Strukturbasiert nach Paragrafen
Wikis: Strukturbasiert nach Überschriften
Mails: Pro Mail mit Kontext (Thread)
Tabellen: Pro Zeile mit Header-Information
Code: Pro Funktion mit Klassen-Kontext

Schicht 4: Embedding-Modelle

Embedding-Modelle wandeln Text in numerische Vektoren um. Ähnliche Inhalte erhalten ähnliche Vektoren – das ist die Grundlage der Vektor-Suche. Die Wahl des Embedding-Modells hat erheblichen Einfluss auf die Retrieval-Qualität.

Etablierte Modelle: OpenAI text-embedding-3-large/small, Cohere Embed v3, Voyage AI, Multilingual-E5, BGE-Modelle, Jina Embeddings. Für deutsche Inhalte sind Multilingual-Modelle oder spezialisierte deutsche Modelle vorzuziehen.

Wichtig ist die Konsistenz: Embedding zur Index-Zeit und zur Query-Zeit muss mit demselben Modell erfolgen. Bei Modell-Wechsel müssen alle Vektoren neu berechnet werden – ein Aufwand, den man bei der initialen Wahl bedenken sollte.

Konkreter Anwendungsfall in Ihrem Unternehmen?

In der Potenzialanalyse zeigen wir Ihnen den Hebel auf Ihre Prozesse.

Schicht 5: Vektor-Datenbanken

Vektor-Datenbanken speichern die Embedding-Vektoren und ermöglichen schnelle Ähnlichkeits-Suche. Der Markt hat sich konsolidiert; etablierte Optionen: Qdrant, Weaviate, Milvus, Pinecone, pgvector (PostgreSQL-Extension), Azure AI Search, Elasticsearch mit Vektor-Support.

Auswahl-Kriterien: Self-Hosting vs. Managed, Skalierungsbedarf, Hybrid-Search-Support, Metadaten-Filter, Performance-Charakteristik, Kostenstruktur, EU-Hosting für DSGVO. Für Mittelstand und Pilotprojekte ist pgvector oft eine pragmatische Wahl, wenn ein PostgreSQL-Stack vorhanden ist.

Wichtige Funktionen einer modernen Vektor-DB: HNSW-Index für schnelle Suche, Filter über Metadaten, Hybrid-Search (Vektor + Keyword), Multi-Tenant-Support, Berechtigungs-Filter, Snapshot/Backup, Observability.

Schicht 6: Retrieval-Strategien

Reine Vektor-Suche (semantische Ähnlichkeit) ist der Standard, aber selten optimal. Hybrid-Search kombiniert Vektor-Suche mit klassischer Keyword-Suche (BM25, sparse Vektoren) und ist in fast allen Fällen besser. Der Effekt ist messbar: 15–25 Prozentpunkte Recall-Verbesserung.

Zusätzlich lohnt sich ein Re-Ranking-Schritt: Die Top-N-Ergebnisse der ersten Suche werden von einem spezialisierten Re-Ranking-Modell (z.B. Cohere Rerank, BGE-Reranker, ms-marco-Modelle) neu sortiert. Effekt: Die wirklich relevanten Treffer rutschen nach oben. Erwartbarer Qualitätsgewinn: 10–20 Prozentpunkte.

Weitere Verbesserungen: Query-Expansion (Anfrage paraphrasiert mit LLM), HyDE (Hypothetical Document Embeddings), strukturierte Filter (Metadaten), parent-child Retrieval (kleines Chunk findet, großes Chunk wird zurückgegeben).

Hybrid-Search: Vektor + Keyword (BM25, SPLADE)
Re-Ranking mit spezialisierten Modellen
Metadaten-Filter (Berechtigungen, Datum, Region)
Query-Expansion mit LLM
Parent-Child Retrieval für Kontext

Schicht 7: Augmentation und Generation

Die Top-Ergebnisse aus dem Retrieval werden zusammen mit der Nutzer-Anfrage in einen Prompt eingefügt und an das LLM gesendet. Wichtig sind die Reihenfolge der Treffer (besteres oben), klare Quellenangaben, Anweisungen an das LLM (z.B. „antworte nur auf Basis der gegebenen Quellen“, „gib bei Unsicherheit explizit an, dass du es nicht weißt“).

Quellenangabe pro Aussage ist Pflicht – sowohl für Vertrauen als auch für Auditierung. Die Antwort sollte mit Hinweisen auf die zugrunde liegenden Dokumente versehen werden, damit der Nutzer die Quellen prüfen kann.

Halluzinations-Schutz: Wenn das Retrieval keine relevanten Treffer liefert, sollte der Agent das transparent kommunizieren („Ich finde dazu keine verlässliche Information“) statt zu halluzinieren. Diese Logik wird über Confidence-Schwellen und Eval-Pipelines abgesichert.

Prompt-Empfehlung

Lassen Sie das LLM die Quellen-IDs in der Antwort referenzieren. Das macht Halluzinationen sichtbar und ermöglicht automatische Faithfulness-Prüfung.

Evaluation: Wie messen wir RAG-Qualität?

RAG-Evaluation ist mehrdimensional. Mindestens vier Metriken: Recall (wie viele relevante Dokumente wurden gefunden?), Precision (wie viele der gefundenen Dokumente waren relevant?), Faithfulness (basiert die Antwort auf den gefundenen Quellen?), Answer Relevance (beantwortet die Antwort die Frage?).

Tools für RAG-Evaluation: RAGAS, TruLens, Phoenix, Langfuse Evaluations, LangSmith Evals. Sie bieten teils Modell-basierte (LLM-as-a-Judge), teils klassische Metriken. Eine Mischung aus beidem ist Standard.

Wichtig ist eine Eval-Datensatz-Pflege: 100–500 reale Anfragen mit menschlich erstellten Goldantworten. Dieser Datensatz wird regelmäßig erweitert und ist die Grundlage für jedes Architektur-Experiment.

Konkreter Anwendungsfall in Ihrem Unternehmen?

In der Potenzialanalyse zeigen wir Ihnen den Hebel auf Ihre Prozesse.

Sicherheit, Berechtigungen und DSGVO

RAG-Systeme verarbeiten oft sensible Daten. Drei Bausteine sind zentral: Berechtigungs-Filter zur Retrieval-Zeit (Agent sieht nur, was Nutzer sehen darf), Quellen-Audit (welche Dokumente wurden für welche Antwort genutzt), Verschlüsselung in Transit und at rest.

Berechtigungen werden über Metadaten-Filter realisiert: Jedes Chunk trägt Berechtigungs-Metadaten (z.B. Abteilung, Sicherheitsstufe). Beim Retrieval wird gegen die Nutzer-Identität gefiltert. Implementierung muss aus dem Quellsystem (z.B. SharePoint-Berechtigungen) abgeleitet und konsistent gepflegt werden.

Für DSGVO und EU AI Act ist die Quellen-Auditierung pro Antwort wichtig: Welche personenbezogenen Daten wurden in der Antwort verwendet, woher kamen sie, gab es eine Rechtsgrundlage. Diese Information muss systematisch gespeichert und auswertbar sein.

Kosten: Wo entstehen die Kosten in RAG?

RAG-Kosten gliedern sich in vier Blöcke: Embedding-Kosten (einmalig pro Dokument, wiederholt bei Updates), Storage-Kosten (Vektor-DB), Retrieval-Kosten (pro Anfrage), LLM-Kosten (pro Anfrage, dominant). Bei großen Wissensbasen können Embedding und Storage relevant werden, bei hohem Anfragevolumen sind LLM-Kosten dominant.

Optimierungs-Hebel: Modell-Routing (kleines Modell für einfache Anfragen, großes Modell für komplexe), Caching (gleiche Anfragen werden gecacht), kleinere Embedding-Modelle (text-embedding-3-small statt -large), kürzere Chunks zur Token-Reduktion, gezielte Top-K-Wahl statt Top-50.

Erweiterte Muster: Agentic RAG, Self-RAG, Graph-RAG

Klassisches RAG ist ein einmaliger Retrieval-Schritt vor der LLM-Antwort. Moderne Patterns gehen weiter:

Agentic RAG: Der Agent entscheidet selbst, ob und wie oft er retrieval-en muss, kombiniert mehrere Retrieval-Schritte mit Reasoning. Höhere Qualität bei komplexen Fragen, höhere Kosten und Latenz.

Self-RAG: Das Modell evaluiert die Retrieval-Ergebnisse selbst und entscheidet über Re-Retrieval oder direkte Antwort. Robusterer Halluzinations-Schutz.

Graph-RAG: Statt isolierter Chunks wird ein Wissens-Graph aufgebaut, der semantische Beziehungen zwischen Entitäten abbildet. Sehr stark bei Fragen, die über mehrere Dokumente verstreut sind.

Reifegrad-Empfehlung

Starten Sie mit klassischem Hybrid-RAG + Re-Ranking. Erweiterte Muster (Agentic, Self, Graph) lohnen sich, wenn Sie konkrete Qualitäts-Limits sehen, die mit Standard-RAG nicht erreichbar sind.