Converxys Tech Blog

State-of-the-Art Engineering, tiefe Architektur-Einblicke

Skalierung verteilter Systeme jenseits von Horizontal Pod Autoscaling

Multi-Layer-Autoscaling für latenzkritische KI-Inferenz auf Kubernetes.

Das klassische Horizontal Pod Autoscaling (HPA) stößt bei inferenzlastigen Workloads an Grenzen: Cold-Start-Zeiten, GPU-Binding und heterogene Lastprofile verlangen nach zusätzlichen Mechanismen. Ein robuster Ansatz kombiniert HPA, Vertical Pod Autoscaler (VPA) und Cluster Autoscaler innerhalb einer Policy Engine, die Metriken aus Prometheus sowie Traces aus OpenTelemetry zusammenführt.

Zentrale Bausteine eines solchen Setups:

Signal Aggregation Layer: Vektorisierung von Kennzahlen wie queue_latency_p95, token_throughput und gpu_memory_pressure, um den benötigten Pod-Footprint zu prognostizieren.
Predictive Pre-Warming: Zeitreihenmodelle (z. B. ARIMA), die GPU-Pods vor Verkehrsspitzen vorladen und damit Cold Starts entschärfen.
Slice-basierte Skalierung: Aufteilung der Inferenz-Pipeline in Tokenizer, Embedding-Service und Decoder mit jeweils eigenen HPAs und QoS-Klassen.

Policy Snippet

if gpu_memory_pressure > 0.72 and queue_latency_p95 > 250ms:
    target_replicas = ceil(current_rps / desired_rps_per_pod)
    cluster_autoscaler.scale(node_pool="gpu-a100", count=target_replicas / pods_per_node)
else if token_throughput < target and gpu_utilization < 0.4:
    vpa.recommend(memory="32Gi", cpu="6")

Derartige Richtlinien helfen, Latenzspitzen zu glätten und gleichzeitig Überprovisionierung zu reduzieren.

Ergänzend lässt sich die Resilienz durch regelmäßiges Chaos Engineering in Canary-Namespaces testen. Fault-Injection-Szenarien zeigen Schwachstellen in Netzwerkpfaden oder GPU-Workload-Isolation auf und liefern Daten für härtere SLOs.

Produktionsreife AI-Agents mit Retrieval-Augmented Orchestrierung

Von Prompt-Chaining zu Operator-Graphen mit deterministischen Kontrollpunkten.

AI-Agents in regulierten Umgebungen benötigen klar definierte Guardrails. Bewährt haben sich Operator-Graphen mit vier Ebenen: Signal Acquisition, Cognitive Core, Tool Abstraction und Action Commit. Jede Stufe lässt sich versionieren, mit Canary-Rollouts ausstatten und über Open Policy Agent (OPA) absichern.

Adaptive Retrieval: Kombination aus Dense- und Sparse-Vektorräumen (Faiss & BM25) sowie Query-Klassifikation zur Laufzeit. Frameworks wie die LangChain Expression Language (LCEL) erlauben das dynamische Komponieren von Retrieval-Strategien.
Stateful Reasoning: Persistenz des Agenten-States in Redis Streams mittels Event Sourcing, um deterministische Replays und Audits zu ermöglichen.
Human-in-the-Loop: Workflows über Slack oder Teams, die bei geringen Confidence Scores (< 0,78) oder Policy-relevanten Aktionen automatisch ein Approval-Gate öffnen.

Sogenannte Tool Contracts schützen vor instabilen Schnittstellen. Die folgende OPA-Regel illustriert, wie Schreiboperationen an ein Audit-Token gekoppelt werden können:

package agents.guardrails

default allow = false

allow {
    input.tool == "jira.create_issue"
    input.context.audit_token_verified
    input.payload.criticality <= 2
}

Solche Muster verkürzen typischerweise die Mean-Time-To-Detect von Fehlverhalten auf wenige Minuten und ermöglichen stabile Agentenflotten im hohen dreistelligen bis tausender Bereich.

End-to-End Observability für KI-first Plattformen

Telemetry-Mesh, Prompt-Level-Tracing und automatische Drift-Erkennung.

Mit wachsender Komplexität von KI-Systemen reicht das klassische Three-Pillar-Monitoring nicht aus. Moderne Plattformen nutzen ein Telemetry Mesh aus OpenTelemetry Collector, Tempo, Loki und Grafana, ergänzt um Explainability-Komponenten.

Prompt- und Token-Tracing: Jeder Prompt wird als span instrumentiert, inklusive Token-Kosten, Antwortzeit und Embedding-Version, um Regressionen nach Model-Updates schnell sichtbar zu machen.
Concept Drift Detection: Online-Scoring von Eingaben gegen Referenzverteilungen mit Bibliotheken wie River; Alarme werden ausgelöst, wenn z. B. die Jensen-Shannon-Divergenz definierte Schwellen übersteigt.
SLO-Backpropagation: Fehlerbudgets lassen sich über Service-Kataloge bis auf einzelne Prompt-Routen herunterbrechen, sodass Teams gezielt Gegenmaßnahmen priorisieren.

Das folgende OpenTelemetry-Attributset illustriert, welche Zusatzinformationen neben Standardmetriken hilfreich sein können:

{
  "llm.provider": "openai",
  "llm.model": "gpt-4.1-mini",
  "prompt.route": "contract-review:v2",
  "retrieval.latency_ms": 83,
  "guardrail.policy_version": "2025-08-14",
  "slo.burn_rate": 0.42
}

Über korrelierte Dashboards lassen sich "Shadow Failures" – also Fehler mit manuellem Workaround – aufdecken, während Automationspipelines Regressionstests gegen die letzte stabile Prompt-Version fahren können.

Service-Desk-Automatisierung mit API-first AI Agents

Incident-Tickets werden mit Managed LLM APIs triagiert, eskaliert und mit Kontext angereichert.

Viele Unternehmen greifen bei der Service-Desk-Automatisierung auf Managed LLM APIs zurück. Tickets werden über ein Event-Bus-Pattern eingespeist, von einem Lightweight-Agenten klassifiziert und mit passenden Wissensartikeln angereichert. Fine-Tuning ist dabei selten nötig; Prompt-Templates reichern den Kontext mit Metadaten aus Systemen wie ServiceNow oder Jira Service Management an.

Context Collector: GraphQL-Resolver bündeln CMDB-Daten, FAQ-Dokumente und SLA-Informationen.
Decision Router: Workflow-Engines wie Temporal legen Priorität, Dringlichkeit und Zuständigkeiten fest.
Human Handover: Adaptive Cards in Microsoft Teams oder Slack erleichtern die Übergabe an L2-Teams.

Solche Architekturen verkürzen die First Response Time signifikant und bauen über Feedback-Loops eine stets aktuelle Wissensbasis auf, die den Automatisierungsgrad sukzessive erhöht.

Domänenspezifische Wissensbots ohne Fine-Tuning

RAG-Pattern mit Metadatensteuerung für Compliance- und Vertriebs-Use-Cases.

Retrieval-Augmented Generation (RAG) eignet sich hervorragend, wenn branchenspezifisches Wissen ohne eigenes Modelltraining verfügbar gemacht werden soll. Dokumente lassen sich nach Mandant, Gültigkeitsdatum und Sicherheitsstufe indizieren; eine Dual-Vektor-Suche (OpenAI Embeddings plus BM25) verbindet semantische und keywordbasierte Ergebnisse.

Ingestion Pipeline: Datenpfade auf Basis von Delta Lake und EventBridge bringen neue Dokumente innerhalb weniger Minuten in den Index.
Response Formatter: JSON-Schemata liefern Antworten, die CRM- oder Portal-Frontends direkt rendern können.
Compliance Layer: Data-Loss-Prevention-Regeln maskieren sensible Inhalte, bevor sie in Prompts einfließen.

Das Resultat sind Wissensbots, die z. B. Produkt-Roadmaps, Vertragsklauseln oder Preislisten verlässlich wiedergeben, auditierbar bleiben und ohne Fine-Tuning auskommen.

AI-orchestrierte Prozesse im ERP ohne Custom-Modelle

Automatisierte Angebots- und Bestellfreigaben durch Kombination aus RPA, LLM-APIs und Geschäftsregeln.

ERP-Workflows lassen sich mit generativen APIs beschleunigen, ohne eigene Modelle zu betreiben. Eingehende Angebotsanfragen oder Bestellungen werden zunächst per OCR und Named Entity Recognition normalisiert, anschließend durch eine Regel- und Orchestrierungsplattform (z. B. Camunda 8) geleitet.

Input-Normalisierung: Vortrainierte Cloud-Services extrahieren relevante Entitäten und strukturieren Dokumente.
Business Rule Engine: DMN-Tabellen kodifizieren Preisgrenzen, Rabatte und Compliance-Checks.
Audit Trail: Entscheidungen werden mit Confidence Scores im ERP-Change-Log abgelegt, was Revisionen erleichtert.

Die Freigabezyklen verkürzen sich auf diese Weise erheblich, während Compliance-Anforderungen weiterhin eingehalten werden. Da Prompts und Policies versioniert sind, kann der eingesetzte LLM-Anbieter flexibel gewechselt werden.