Welches Gateway empfehlt ihr?

Für Open-Source-Einstieg: LiteLLM (sehr verbreitet, einfach). Für komplexere Anforderungen: Portkey, Helicone, Kong AI Gateway. Cloud-nativ: Azure API Management mit AI-Funktionen, Cloudflare AI Gateway. Wahl hängt von bestehender Infrastruktur ab.

Wie viel Overhead hat ein Gateway?

Realistisch <100–200 ms pro Anfrage, abhängig von Routing-Logik und Caching. Bei Cache-Hit kann das Gateway sogar deutlich schneller antworten als der Provider. In der Gesamt-Latenz ist das vernachlässigbar.

Welche LLM-Provider für Deutsch?

Alle großen Modelle (GPT-4o, Claude 3.5/4, Gemini 1.5/2, Mistral Large, Llama 3.1+) liefern sehr gute deutsche Ergebnisse. Für besonders fachliche Use-Cases lohnt sich eine eigene Eval mit deutschen Daten – die Unterschiede sind im Detail relevant.

Sollen wir mit Azure OpenAI starten?

Bei vorhandenem Azure-Stack: ja, gute Wahl wegen EU-Hosting, AVV und Enterprise-Features. Multi-Provider-Strategie sollten Sie aber dennoch von Anfang an einplanen, um nicht in Lock-in zu geraten.

Wie messen wir LLM-Kosten pro Use-Case?

Über Custom-Header oder Tags am Gateway-Aufruf, die im Cost-Accounting verwendet werden. Tools wie LiteLLM und Portkey bieten dies out-of-the-box. So entsteht eine vollständige Kosten-Transparenz pro Anwendung/Team.

Wann lohnt sich Self-Hosting?

Ab sehr hohem Volumen (>5 Mio. Anfragen/Monat), bei besonderen Datenschutz-Anforderungen, bei spezialisierten Fine-Tuned-Modellen. Standardpfad ist Cloud-API in EU-Region.

Wie verhindern wir Kostenausreißer?

Budget-Limits pro Anwendung im Gateway, Alerting bei Schwellenüberschreitung, automatische Drosselung, monatliche Cost-Reviews. Daneben Caching, Modell-Routing und Prompt-Optimierung als laufende Optimierung.

Was ist mit Prompt-Caching von Anthropic/OpenAI?

Sehr nützlich für lange wiederkehrende System-Prompts. Anthropic bietet das nativ mit erheblichem Kostenvorteil. OpenAI hat ebenfalls Caching eingeführt. Das Gateway sollte diese Mechanismen nutzen können.

ARCHITEKTUR

LLM-Integration im Unternehmen

Wer ein zweites oder drittes LLM-Projekt startet, merkt schnell: Punkt-zu-Punkt-Integration zu OpenAI/Anthropic skaliert nicht. Es braucht ein Modell-Gateway als Plattform-Baustein – mit Routing, Caching, Cost-Control, Observability, Sicherheit und Compliance. Dieser Leitfaden zeigt, wie Sie LLMs sauber, effizient und zukunftssicher in Ihre IT integrieren.

Architektur eines Modell-Gateways

Cost-Routing mit messbaren Einsparungen

Multi-Provider-Strategie und Lock-in-Vermeidung

Von Christoph Hertling

•

Stand: 02. Mai 2026

•

5 Min. Lesezeit

DSGVO-konform

Deutsche Server

EU-AI-Act-ready

ISO-27001-Architektur

Made in Germany

100 % Festpreis-Pilot

DSGVO-konform

Deutsche Server

EU-AI-Act-ready

ISO-27001-Architektur

Made in Germany

100 % Festpreis-Pilot

20–40 %

Kostensenkung durch Caching/Routing

EU-Cloud

Standard für DSGVO-Compliance

Multi-Provider

Best Practice gegen Lock-in

<200 ms

Gateway-Overhead realistisch

Das Wichtigste in 60 Sekunden

Modell-Gateway ist der wichtigste Plattform-Baustein für skalierende LLM-Nutzung.
Multi-Provider-Strategie senkt Lock-in-Risiko und ermöglicht Cost-Routing.
Caching (Prompt- und Result-Cache) spart 20–40 Prozent Token-Kosten.
Observability ist Pflicht: Latenz, Kosten, Qualität pro Aufruf.
EU-Cloud-Hosting (Azure OpenAI, Anthropic EU, Mistral) ist DSGVO-Standard.

Inhaltsverzeichnis

Warum ein Modell-Gateway?

Der erste LLM-Use-Case wird typischerweise direkt gegen die OpenAI-API entwickelt. Das ist schnell und einfach. Beim zweiten Use-Case ist diese Direktverbindung schon problematisch: Was, wenn ein anderer Provider günstiger ist? Was, wenn OpenAI ausfällt? Wer trackt die Kosten pro Use-Case? Wer setzt Sicherheits-Policies durch?

Das Modell-Gateway löst diese Probleme zentral. Es ist ein internes Service-Layer, das alle LLM-Aufrufe entgegennimmt, an den passenden Provider routet, die Antwort zurückgibt und dabei Caching, Cost-Tracking, Observability und Sicherheits-Policies anwendet. Die Anwendungen sprechen mit dem Gateway, nicht direkt mit OpenAI/Anthropic/Google.

Der Effekt ist messbar: Lock-in-Risiko gesenkt, Kosten transparent und steuerbar (typisch 20–40 Prozent Einsparung), Sicherheit zentral durchsetzbar, neue Anwendungen schneller startklar. Das Gateway ist der wichtigste Plattform-Baustein einer LLM-Strategie.

Schlüsselsatz

Wer den zweiten Use-Case ohne Modell-Gateway baut, wird beim dritten erkennen, dass er die Plattform nachträglich einziehen muss – das ist immer teurer als gleich richtig zu beginnen.

Direktverbindung vs. Modell-Gateway

Was unterscheidet eine ad-hoc LLM-Anbindung von einer Plattform?

Funktion / Kriterium	Modell-Gateway	Direktverbindung
Provider-Wechsel	Eine Konfigurationsänderung	Code-Änderung in jeder App
Cost-Routing	Zentral, dynamisch	Nicht möglich
Caching	Zentral, anwendungsübergreifend	Pro App separat oder gar nicht
Observability	Vollständig, einheitlich	Pro App unterschiedlich
PII-Filter	Zentral durchgesetzt	Pro App implementiert
Failover	Automatisch	Nicht vorhanden
Cost-Accounting	Pro Use-Case/Team	Nur Provider-Rechnung

Architektur eines Modell-Gateways

Ein Modell-Gateway hat in der Regel folgende Komponenten: API-Schicht (einheitliches Interface, oft OpenAI-kompatibel), Router (entscheidet welcher Provider), Cache (Prompt- und Result-Cache), Policy-Engine (Sicherheit, PII-Filter), Observability (Logs, Metriken, Traces), Cost-Accounting (Kosten pro Anwendung/Team), Provider-Adapter (für jeden Anbieter).

Build vs. Buy: Es gibt mittlerweile etablierte Open-Source-Lösungen (LiteLLM, OpenRouter, Portkey, Helicone, Kong AI Gateway, Cloudflare AI Gateway). Eigenentwicklung lohnt sich nur bei sehr spezifischen Anforderungen.

Empfehlung: Starten Sie mit einer der Open-Source-Lösungen (LiteLLM ist sehr verbreitet), erweitern Sie um eigene Policy- und Cost-Logik. So bekommen Sie 80 Prozent Funktionalität ohne Eigenentwicklung und können den Rest gezielt customizen.

API-Schicht: OpenAI-kompatibel als Standard
Router: Provider-Auswahl nach Use-Case, Kosten, Verfügbarkeit
Cache: Prompt-Cache und Semantic Cache
Policy-Engine: PII-Filter, Content-Filter, Rate-Limits
Observability: Trace, Metriken, Cost-Tracking
Provider-Adapter: OpenAI, Anthropic, Google, Mistral, Cohere, Self-Hosted

Multi-Provider-Strategie und Modell-Auswahl

Eine Multi-Provider-Strategie ist die wichtigste Lock-in-Prävention. Sie ermöglicht es, das jeweils beste Modell für den Use-Case zu wählen, Cost-Routing zu betreiben (kleines Modell für einfache Anfragen, großes für komplexe), Ausfallsicherheit zu gewährleisten (Failover bei Provider-Ausfall) und Verhandlungsposition gegenüber Providern zu stärken.

Etablierte Provider für Enterprise: Azure OpenAI (GPT-Modelle in EU-Cloud), Anthropic (Claude in EU verfügbar), Google Vertex AI (Gemini-Modelle), Mistral (europäischer Anbieter, Open-Source-Optionen), Cohere (B2B-Fokus), AWS Bedrock (multiple Modelle), Self-Hosted (Llama, Mixtral, DeepSeek).

Die Modell-Wahl pro Use-Case berücksichtigt: Qualität (Benchmark, eigene Eval), Kosten pro Token, Latenz, Kontext-Größe, Multimodalität, Verfügbarkeit (EU-Region, Reliability-SLA), spezielle Fähigkeiten (Tool-Use, JSON-Mode, Vision).

Empfehlung

Pro Use-Case einen primären und einen Fallback-Provider definieren. Beim Routing dynamisch entscheiden, basierend auf Verfügbarkeit, Latenz und Kosten. So bleibt das System resilient.

Cost-Routing: 20–40 Prozent Einsparpotenzial

Eine der wichtigsten Funktionen des Modell-Gateways ist intelligentes Cost-Routing. Nicht jede Anfrage braucht das größte und teuerste Modell. Eine einfache Klassifikation kann mit einem kleinen Modell (z.B. GPT-4o-mini, Claude Haiku, Mistral Small) erledigt werden – komplexes Reasoning braucht das große Modell.

Routing-Strategien: Statisch (pro Use-Case fest definiert), Heuristisch (Anfragelänge, Komplexitäts-Hinweise), Modell-basiert (kleines Modell entscheidet, ob großes Modell nötig ist). In der Praxis sind hybride Strategien üblich: Use-Case definiert das Default-Modell, ein kleines Modell entscheidet bei Bedarf über Eskalation.

Realistische Einsparungen: 20–40 Prozent Token-Kosten bei mittlerer Komplexität, bis zu 60 Prozent bei stark variierender Anfrage-Komplexität. Voraussetzung ist eine sorgfältige Eval-Pipeline, die sicherstellt, dass das kleinere Modell die Qualität nicht spürbar senkt.

Caching: Prompt- und Semantic-Cache

Caching ist eine weitere wirksame Kostenoptimierung. Zwei Ebenen: Prompt-Cache (identische oder fast identische Anfragen werden aus dem Cache bedient) und Semantic Cache (semantisch ähnliche Anfragen werden erkannt und gecacht).

Prompt-Cache funktioniert sehr gut bei wiederkehrenden System-Prompts und stabilen Wissens-Anfragen. Anbieter wie Anthropic bieten nativen Prompt-Caching an (mit erheblichem Kostenvorteil für lange System-Prompts). OpenAI hat ebenfalls Caching-Mechanismen eingeführt.

Semantic Cache ist anspruchsvoller: Eingehende Anfragen werden eingebettet, gegen einen Cache-Vektor-Index verglichen. Bei hoher Ähnlichkeit wird die gecachte Antwort verwendet. Vorsicht: Bei zu hoher Ähnlichkeitsschwelle landen unterschiedliche Anfragen im selben Cache-Eintrag. Sorgfältige Schwellenwert-Wahl ist Pflicht.

Konkreter Anwendungsfall in Ihrem Unternehmen?

In der Potenzialanalyse zeigen wir Ihnen den Hebel auf Ihre Prozesse.

Observability: Trace, Metriken, Eval

Ohne Observability gibt es keinen produktiven LLM-Betrieb. Mindest-Bausteine: Trace pro Anfrage (Eingabe, Ausgabe, Modell, Dauer, Kosten), Metriken (Latenz P50/P95/P99, Erfolgsquote, Token pro Anfrage), Eval-Pipeline (kontinuierliche Qualitätsmessung).

Tools: LangSmith (LangChain-Welt), Langfuse (Open-Source, EU-hostbar), Phoenix (Arize), Helicone, Portkey, eigene OpenTelemetry-basierte Lösungen. Wahl hängt von bestehender Observability-Landschaft und Compliance ab.

Wichtig ist die Verknüpfung mit Business-Metriken: Nicht nur „LLM-Aufrufe pro Tag“, sondern „LLM-Kosten pro abgeschlossenem Service-Vorgang“. Diese Verknüpfung macht den ROI sichtbar.

Sicherheits-Policies: PII-Filter, Content-Filter, Rate-Limits

Das Modell-Gateway ist der zentrale Punkt für die Durchsetzung von Sicherheits-Policies. Hier können Sie zentral PII-Filter (Erkennung und Maskierung personenbezogener Daten), Content-Filter (Verhinderung unerwünschter Eingaben oder Ausgaben) und Rate-Limits (pro Nutzer, pro Anwendung, pro Modell) anwenden – ohne dass jede Anwendung das selbst implementieren muss.

PII-Filter erkennen Namen, Adressen, Telefonnummern, IBAN, Kreditkarten und andere sensible Daten und maskieren sie vor dem LLM-Aufruf. Damit sinkt das Risiko von Datenexfiltration deutlich. Tools: Microsoft Presidio, AWS Comprehend, eigene Regex-/ML-basierte Filter.

Content-Filter verhindern Prompt-Injection, Jailbreaks und andere Missbrauchsmuster. Sie sind die zweite Verteidigungslinie nach den Provider-eigenen Filtern und besonders wichtig in Agent-Setups, wo der Agent Aktionen ausführt.

Self-Hosting: Wann lohnt es sich?

Self-Hosting von Open-Source-Modellen (Llama 3, Mixtral, DeepSeek, Qwen, etc.) ist 2025 sehr viel zugänglicher geworden. Tools wie vLLM, TGI, Ollama und SGLang bieten produktionsreife Inference-Server. Aber: Self-Hosting ist nicht automatisch günstiger oder besser.

Wirtschaftlich lohnt sich Self-Hosting ab sehr hohem Volumen (typisch >5 Mio. Anfragen/Monat), bei besonderen Datenschutz-Anforderungen (kein externer Provider akzeptabel), bei spezialisierten Modellen (Fine-Tuning auf eigene Domäne) oder als Verhandlungsposition gegenüber Cloud-Providern.

Operativ braucht es spezialisierte Kompetenz: GPU-Infrastruktur (oder Cloud-GPU), Inference-Optimierung, Monitoring, Skalierung, Updates. Wir empfehlen Self-Hosting nur dort, wo es klare Treiber gibt – als Standardpfad ist Cloud-API in EU-Region effizienter.

Cloud-API: Standardpfad für 90 Prozent der Use-Cases
Self-Hosting: ab >5 Mio. Anfragen/Monat oder besondere Anforderungen
Hybrid: einfache Anfragen self-hosted, komplexe in Cloud
Spezialisierte Modelle: Fine-Tuning + Self-Hosting
Tools: vLLM, TGI, Ollama, SGLang, Triton

EU-Hosting und DSGVO

Für DSGVO-konforme LLM-Nutzung ist EU-Hosting der Standard. Verfügbare Optionen: Azure OpenAI in EU-Regionen (Sweden Central, France Central), Anthropic Claude in EU, Google Vertex AI in europäischen Regionen, Mistral als europäischer Anbieter, AWS Bedrock in EU-Regionen, eigenes Self-Hosting in EU-Cloud.

Wichtig: EU-Hosting bedeutet, dass die Daten die EU nicht verlassen. Das ist nicht automatisch der Fall, nur weil ein Anbieter EU-Regionen anbietet. Bei AWS Bedrock z.B. müssen Sie explizit eine EU-Region wählen. Bei OpenAI Direct (nicht Azure OpenAI) gibt es kein Standard-EU-Hosting.

Daneben braucht es einen Auftragsverarbeitungsvertrag mit dem Provider (siehe DSGVO-Leitfaden). Auch ohne Drittlandtransfer ist die Verarbeitung personenbezogener Daten ein DSGVO-relevanter Vorgang, der vertraglich geregelt sein muss.

Konkreter Anwendungsfall in Ihrem Unternehmen?

In der Potenzialanalyse zeigen wir Ihnen den Hebel auf Ihre Prozesse.

Kosten-Management und Budgetierung

LLM-Kosten können bei wachsender Nutzung schnell aus dem Ruder laufen. Budgetierung und Kosten-Management sind zentrale Funktionen des Gateways. Mindest-Funktionen: Kosten-Tracking pro Anwendung/Team/Use-Case, Budget-Limits mit Alerting, automatische Drosselung bei Überschreitung, regelmäßige Cost-Reports.

Praktische Hebel für Kostensenkung: Modell-Routing (klein/groß), Caching, Prompt-Optimierung (kürzere System-Prompts), Output-Kontrolle (max_tokens), Batch-Processing für nicht-zeitkritische Anwendungen, Rate-Limits pro Nutzer.

Wir empfehlen, monatliche Kosten-Reviews mit Use-Case-Verantwortlichen und gemeinsame Optimierungs-Roadmaps. So bleibt die Kostentransparenz hoch und es entstehen keine Überraschungen am Quartalsende.