LLM & Generative KI

RAG-Systeme, autonome Agenten, Fine-Tuning und belastbare Evaluation — generative KI für die Produktion, nicht für Demos.

Ich konzipiere und liefere generative KI-Systeme, die echtem Traffic, echten Daten und echter Compliance-Prüfung standhalten.

Wo ich helfe

Retrieval-Augmented Generation (RAG)

Fundierte Antworten auf Basis Ihrer eigenen Wissensbasis — mit Quellenangaben, Zugriffssteuerung und Evaluation. Ich baue den Ingestion-, Chunking-, Retrieval- und Re-Ranking-Stack und belege die Qualität mit Offline- und Online-Metriken.

Agenten & Workflows

Werkzeugnutzende Agenten, die mehrstufige Arbeit automatisieren: Ticket-Triage, Dokumentenverarbeitung, interne Copiloten — eng gefasst, mit Guardrails und einem Menschen in der Schleife, wo es zählt.

Fine-Tuning & Anpassung

Wenn Prompting nicht reicht, trainiere oder adaptiere ich offene Modelle auf Ihren Domänendaten — auf Infrastruktur, die Sie kontrollieren.

Evaluation & Guardrails

Jedes System wird mit einer Eval-Suite ausgeliefert: Golden Datasets, Regressionstests und Produktions-Monitoring für Halluzination, Kosten und Latenz.

Typische Ergebnisse

Ein Support-Copilot, der 40 %+ der Tier-1-Tickets mit belegten Antworten abfängt.
Eine Dokumentenverarbeitung, die manuelle Bearbeitung von Stunden auf Sekunden senkt.
Ein interner RAG-Assistent, deployt in Ihrer EU-Cloud-Region, DSGVO-konform.

Wie ich baue

# Eine fundierte Antwort ist nur so gut wie ihre Evaluation.
# Jedes RAG-Projekt wird mit einer Regressions-Eval-Suite ausgeliefert.
from nicojahn.eval import GoldenSet, score

results = score(
    system="support-copilot",
    dataset=GoldenSet.load("tier1-tickets-v3"),
    metrics=["faithfulness", "answer_relevance", "citation_accuracy"],
)
assert results.faithfulness > 0.95  # Deploy nur bei ausreichender Qualität

Ich setze auf die für die Aufgabe leistungsfähigsten Modelle und halte die Architektur anbieterflexibel — Sie sind nie an einen Vendor gebunden.

Weiter: ML Engineering & MLOps · Sprechen Sie mit mir