ARCHITEKTUR

LLM-Integration im Unternehmen

Wer ein zweites oder drittes LLM-Projekt startet, merkt schnell: Punkt-zu-Punkt-Integration zu OpenAI/Anthropic skaliert nicht. Es braucht ein Modell-Gateway als Plattform-Baustein – mit Routing, Caching, Cost-Control, Observability, Sicherheit und Compliance. Dieser Leitfaden zeigt, wie Sie LLMs sauber, effizient und zukunftssicher in Ihre IT integrieren.

Architektur eines Modell-Gateways
Cost-Routing mit messbaren Einsparungen
Multi-Provider-Strategie und Lock-in-Vermeidung
Von Christoph Hertling
Stand: 02. Mai 2026
5 Min. Lesezeit
DSGVO-konform
Deutsche Server
EU-AI-Act-ready
ISO-27001-Architektur
Made in Germany
100 % Festpreis-Pilot
20–40 %
Kostensenkung durch Caching/Routing
EU-Cloud
Standard für DSGVO-Compliance
Multi-Provider
Best Practice gegen Lock-in
<200 ms
Gateway-Overhead realistisch
Das Wichtigste in 60 Sekunden
  • Modell-Gateway ist der wichtigste Plattform-Baustein für skalierende LLM-Nutzung.
  • Multi-Provider-Strategie senkt Lock-in-Risiko und ermöglicht Cost-Routing.
  • Caching (Prompt- und Result-Cache) spart 20–40 Prozent Token-Kosten.
  • Observability ist Pflicht: Latenz, Kosten, Qualität pro Aufruf.
  • EU-Cloud-Hosting (Azure OpenAI, Anthropic EU, Mistral) ist DSGVO-Standard.
Inhaltsverzeichnis

Warum ein Modell-Gateway?

Der erste LLM-Use-Case wird typischerweise direkt gegen die OpenAI-API entwickelt. Das ist schnell und einfach. Beim zweiten Use-Case ist diese Direktverbindung schon problematisch: Was, wenn ein anderer Provider günstiger ist? Was, wenn OpenAI ausfällt? Wer trackt die Kosten pro Use-Case? Wer setzt Sicherheits-Policies durch?

Das Modell-Gateway löst diese Probleme zentral. Es ist ein internes Service-Layer, das alle LLM-Aufrufe entgegennimmt, an den passenden Provider routet, die Antwort zurückgibt und dabei Caching, Cost-Tracking, Observability und Sicherheits-Policies anwendet. Die Anwendungen sprechen mit dem Gateway, nicht direkt mit OpenAI/Anthropic/Google.

Der Effekt ist messbar: Lock-in-Risiko gesenkt, Kosten transparent und steuerbar (typisch 20–40 Prozent Einsparung), Sicherheit zentral durchsetzbar, neue Anwendungen schneller startklar. Das Gateway ist der wichtigste Plattform-Baustein einer LLM-Strategie.

Schlüsselsatz

Wer den zweiten Use-Case ohne Modell-Gateway baut, wird beim dritten erkennen, dass er die Plattform nachträglich einziehen muss – das ist immer teurer als gleich richtig zu beginnen.

Direktverbindung vs. Modell-Gateway

Was unterscheidet eine ad-hoc LLM-Anbindung von einer Plattform?

Funktion / KriteriumModell-GatewayDirektverbindung
Provider-WechselEine KonfigurationsänderungCode-Änderung in jeder App
Cost-RoutingZentral, dynamischNicht möglich
CachingZentral, anwendungsübergreifendPro App separat oder gar nicht
ObservabilityVollständig, einheitlichPro App unterschiedlich
PII-FilterZentral durchgesetztPro App implementiert
FailoverAutomatischNicht vorhanden
Cost-AccountingPro Use-Case/TeamNur Provider-Rechnung

Architektur eines Modell-Gateways

Ein Modell-Gateway hat in der Regel folgende Komponenten: API-Schicht (einheitliches Interface, oft OpenAI-kompatibel), Router (entscheidet welcher Provider), Cache (Prompt- und Result-Cache), Policy-Engine (Sicherheit, PII-Filter), Observability (Logs, Metriken, Traces), Cost-Accounting (Kosten pro Anwendung/Team), Provider-Adapter (für jeden Anbieter).

Build vs. Buy: Es gibt mittlerweile etablierte Open-Source-Lösungen (LiteLLM, OpenRouter, Portkey, Helicone, Kong AI Gateway, Cloudflare AI Gateway). Eigenentwicklung lohnt sich nur bei sehr spezifischen Anforderungen.

Empfehlung: Starten Sie mit einer der Open-Source-Lösungen (LiteLLM ist sehr verbreitet), erweitern Sie um eigene Policy- und Cost-Logik. So bekommen Sie 80 Prozent Funktionalität ohne Eigenentwicklung und können den Rest gezielt customizen.

  • API-Schicht: OpenAI-kompatibel als Standard
  • Router: Provider-Auswahl nach Use-Case, Kosten, Verfügbarkeit
  • Cache: Prompt-Cache und Semantic Cache
  • Policy-Engine: PII-Filter, Content-Filter, Rate-Limits
  • Observability: Trace, Metriken, Cost-Tracking
  • Provider-Adapter: OpenAI, Anthropic, Google, Mistral, Cohere, Self-Hosted

Multi-Provider-Strategie und Modell-Auswahl

Eine Multi-Provider-Strategie ist die wichtigste Lock-in-Prävention. Sie ermöglicht es, das jeweils beste Modell für den Use-Case zu wählen, Cost-Routing zu betreiben (kleines Modell für einfache Anfragen, großes für komplexe), Ausfallsicherheit zu gewährleisten (Failover bei Provider-Ausfall) und Verhandlungsposition gegenüber Providern zu stärken.

Etablierte Provider für Enterprise: Azure OpenAI (GPT-Modelle in EU-Cloud), Anthropic (Claude in EU verfügbar), Google Vertex AI (Gemini-Modelle), Mistral (europäischer Anbieter, Open-Source-Optionen), Cohere (B2B-Fokus), AWS Bedrock (multiple Modelle), Self-Hosted (Llama, Mixtral, DeepSeek).

Die Modell-Wahl pro Use-Case berücksichtigt: Qualität (Benchmark, eigene Eval), Kosten pro Token, Latenz, Kontext-Größe, Multimodalität, Verfügbarkeit (EU-Region, Reliability-SLA), spezielle Fähigkeiten (Tool-Use, JSON-Mode, Vision).

Empfehlung

Pro Use-Case einen primären und einen Fallback-Provider definieren. Beim Routing dynamisch entscheiden, basierend auf Verfügbarkeit, Latenz und Kosten. So bleibt das System resilient.

Cost-Routing: 20–40 Prozent Einsparpotenzial

Eine der wichtigsten Funktionen des Modell-Gateways ist intelligentes Cost-Routing. Nicht jede Anfrage braucht das größte und teuerste Modell. Eine einfache Klassifikation kann mit einem kleinen Modell (z.B. GPT-4o-mini, Claude Haiku, Mistral Small) erledigt werden – komplexes Reasoning braucht das große Modell.

Routing-Strategien: Statisch (pro Use-Case fest definiert), Heuristisch (Anfragelänge, Komplexitäts-Hinweise), Modell-basiert (kleines Modell entscheidet, ob großes Modell nötig ist). In der Praxis sind hybride Strategien üblich: Use-Case definiert das Default-Modell, ein kleines Modell entscheidet bei Bedarf über Eskalation.

Realistische Einsparungen: 20–40 Prozent Token-Kosten bei mittlerer Komplexität, bis zu 60 Prozent bei stark variierender Anfrage-Komplexität. Voraussetzung ist eine sorgfältige Eval-Pipeline, die sicherstellt, dass das kleinere Modell die Qualität nicht spürbar senkt.

Caching: Prompt- und Semantic-Cache

Caching ist eine weitere wirksame Kostenoptimierung. Zwei Ebenen: Prompt-Cache (identische oder fast identische Anfragen werden aus dem Cache bedient) und Semantic Cache (semantisch ähnliche Anfragen werden erkannt und gecacht).

Prompt-Cache funktioniert sehr gut bei wiederkehrenden System-Prompts und stabilen Wissens-Anfragen. Anbieter wie Anthropic bieten nativen Prompt-Caching an (mit erheblichem Kostenvorteil für lange System-Prompts). OpenAI hat ebenfalls Caching-Mechanismen eingeführt.

Semantic Cache ist anspruchsvoller: Eingehende Anfragen werden eingebettet, gegen einen Cache-Vektor-Index verglichen. Bei hoher Ähnlichkeit wird die gecachte Antwort verwendet. Vorsicht: Bei zu hoher Ähnlichkeitsschwelle landen unterschiedliche Anfragen im selben Cache-Eintrag. Sorgfältige Schwellenwert-Wahl ist Pflicht.

Konkreter Anwendungsfall in Ihrem Unternehmen?

In der Potenzialanalyse zeigen wir Ihnen den Hebel auf Ihre Prozesse.

Observability: Trace, Metriken, Eval

Ohne Observability gibt es keinen produktiven LLM-Betrieb. Mindest-Bausteine: Trace pro Anfrage (Eingabe, Ausgabe, Modell, Dauer, Kosten), Metriken (Latenz P50/P95/P99, Erfolgsquote, Token pro Anfrage), Eval-Pipeline (kontinuierliche Qualitätsmessung).

Tools: LangSmith (LangChain-Welt), Langfuse (Open-Source, EU-hostbar), Phoenix (Arize), Helicone, Portkey, eigene OpenTelemetry-basierte Lösungen. Wahl hängt von bestehender Observability-Landschaft und Compliance ab.

Wichtig ist die Verknüpfung mit Business-Metriken: Nicht nur „LLM-Aufrufe pro Tag“, sondern „LLM-Kosten pro abgeschlossenem Service-Vorgang“. Diese Verknüpfung macht den ROI sichtbar.

Sicherheits-Policies: PII-Filter, Content-Filter, Rate-Limits

Das Modell-Gateway ist der zentrale Punkt für die Durchsetzung von Sicherheits-Policies. Hier können Sie zentral PII-Filter (Erkennung und Maskierung personenbezogener Daten), Content-Filter (Verhinderung unerwünschter Eingaben oder Ausgaben) und Rate-Limits (pro Nutzer, pro Anwendung, pro Modell) anwenden – ohne dass jede Anwendung das selbst implementieren muss.

PII-Filter erkennen Namen, Adressen, Telefonnummern, IBAN, Kreditkarten und andere sensible Daten und maskieren sie vor dem LLM-Aufruf. Damit sinkt das Risiko von Datenexfiltration deutlich. Tools: Microsoft Presidio, AWS Comprehend, eigene Regex-/ML-basierte Filter.

Content-Filter verhindern Prompt-Injection, Jailbreaks und andere Missbrauchsmuster. Sie sind die zweite Verteidigungslinie nach den Provider-eigenen Filtern und besonders wichtig in Agent-Setups, wo der Agent Aktionen ausführt.

Self-Hosting: Wann lohnt es sich?

Self-Hosting von Open-Source-Modellen (Llama 3, Mixtral, DeepSeek, Qwen, etc.) ist 2025 sehr viel zugänglicher geworden. Tools wie vLLM, TGI, Ollama und SGLang bieten produktionsreife Inference-Server. Aber: Self-Hosting ist nicht automatisch günstiger oder besser.

Wirtschaftlich lohnt sich Self-Hosting ab sehr hohem Volumen (typisch >5 Mio. Anfragen/Monat), bei besonderen Datenschutz-Anforderungen (kein externer Provider akzeptabel), bei spezialisierten Modellen (Fine-Tuning auf eigene Domäne) oder als Verhandlungsposition gegenüber Cloud-Providern.

Operativ braucht es spezialisierte Kompetenz: GPU-Infrastruktur (oder Cloud-GPU), Inference-Optimierung, Monitoring, Skalierung, Updates. Wir empfehlen Self-Hosting nur dort, wo es klare Treiber gibt – als Standardpfad ist Cloud-API in EU-Region effizienter.

  • Cloud-API: Standardpfad für 90 Prozent der Use-Cases
  • Self-Hosting: ab >5 Mio. Anfragen/Monat oder besondere Anforderungen
  • Hybrid: einfache Anfragen self-hosted, komplexe in Cloud
  • Spezialisierte Modelle: Fine-Tuning + Self-Hosting
  • Tools: vLLM, TGI, Ollama, SGLang, Triton

EU-Hosting und DSGVO

Für DSGVO-konforme LLM-Nutzung ist EU-Hosting der Standard. Verfügbare Optionen: Azure OpenAI in EU-Regionen (Sweden Central, France Central), Anthropic Claude in EU, Google Vertex AI in europäischen Regionen, Mistral als europäischer Anbieter, AWS Bedrock in EU-Regionen, eigenes Self-Hosting in EU-Cloud.

Wichtig: EU-Hosting bedeutet, dass die Daten die EU nicht verlassen. Das ist nicht automatisch der Fall, nur weil ein Anbieter EU-Regionen anbietet. Bei AWS Bedrock z.B. müssen Sie explizit eine EU-Region wählen. Bei OpenAI Direct (nicht Azure OpenAI) gibt es kein Standard-EU-Hosting.

Daneben braucht es einen Auftragsverarbeitungsvertrag mit dem Provider (siehe DSGVO-Leitfaden). Auch ohne Drittlandtransfer ist die Verarbeitung personenbezogener Daten ein DSGVO-relevanter Vorgang, der vertraglich geregelt sein muss.

Konkreter Anwendungsfall in Ihrem Unternehmen?

In der Potenzialanalyse zeigen wir Ihnen den Hebel auf Ihre Prozesse.

Kosten-Management und Budgetierung

LLM-Kosten können bei wachsender Nutzung schnell aus dem Ruder laufen. Budgetierung und Kosten-Management sind zentrale Funktionen des Gateways. Mindest-Funktionen: Kosten-Tracking pro Anwendung/Team/Use-Case, Budget-Limits mit Alerting, automatische Drosselung bei Überschreitung, regelmäßige Cost-Reports.

Praktische Hebel für Kostensenkung: Modell-Routing (klein/groß), Caching, Prompt-Optimierung (kürzere System-Prompts), Output-Kontrolle (max_tokens), Batch-Processing für nicht-zeitkritische Anwendungen, Rate-Limits pro Nutzer.

Wir empfehlen, monatliche Kosten-Reviews mit Use-Case-Verantwortlichen und gemeinsame Optimierungs-Roadmaps. So bleibt die Kostentransparenz hoch und es entstehen keine Überraschungen am Quartalsende.

Typische Fallstricke bei LLM-Integration

Aus vielen Implementierungen bekannte Probleme:

  • Direktverbindung statt Gateway: führt zu Lock-in und Kostenexplosion
  • Kein Caching: 20–40 Prozent Kosten unnötig
  • Falsches Modell für den Use-Case: zu groß = teuer, zu klein = schlecht
  • Keine Eval-Pipeline: Qualitätsregressionen unsichtbar
  • Provider-Updates ungeplant: Verhalten ändert sich, Eval schlägt an
  • PII-Filter fehlt: Datenexfiltration-Risiko
  • Fehlende Failover: Provider-Ausfall trifft das gesamte System
  • Kosten nicht zugeordnet: keine Verantwortung, kein Optimierungsdruck

Häufige Fragen

Über den Autor
Christoph Hertling
Geschäftsführer KBD KI-Beratung Deutschland UG

Berät seit 2019 Mittelstand und Konzerne bei der DSGVO-konformen Einführung autonomer KI-Agenten in Vertrieb, Service, HR und Dokumentenverarbeitung.

Weiterlesen

Vertiefende Inhalte zu verwandten Themen.

Wir bauen Ihr Modell-Gateway als Plattform-Baustein

In 60 Minuten skizzieren wir die passende LLM-Integration für Ihre IT – Cloud, On-Prem oder Hybrid – und benennen die wichtigsten Hebel.