SENTRY-DVL

Cascaded Hybrid Guardrail Architecture for LLM Fact-Verification

SENTRY-DVL prüft LLM-generierte Antworten gegen einen Referenzkontext und blockiert abweichende, fehlerhafte oder widersprüchliche Ausgaben — bevor sie dem Nutzer angezeigt werden.

Entwickelt für High-Stakes-Systeme: Medizin, Recht, Technik – überall wo ein halluzinierter Wert echten Schaden anrichten kann.

⚠️ Hinweis: SENTRY-DVL ist ein Forschungsprototyp. Es ist nicht zertifiziert für den Einsatz in medizinischen, rechtlichen oder sicherheitskritischen Produktivsystemen. Nutzung auf eigene Verantwortung.

Prinzip: Safety-First

FP-Rate = 0,0%  ←  nicht verhandelbar
FN akzeptiert   ←  lieber blockieren als falsch freigeben

Pipeline

Kontext + LLM-Antwort
        ↓
┌──────────────────────────────────────────────┐
│  1. ZahlenChecker     (deterministisch)      │
│  2. EinheitenChecker  (deterministisch)      │
│  3. NegationsChecker  (deterministisch)      │
│  4. SemantikChecker   (Embedding-Modell)     │
│  5. NLIChecker        (mDeBERTa, optional)   │
└──────────────────────────────────────────────┘
        ↓
  FREIGEGEBEN | UNSICHER | ABGELEHNT

Early-Exit nach jeder Schicht — das NLI-Modell wird nur aufgerufen wenn die vier günstigeren Checker bestanden haben.

Schnellstart

from sentry_dvl import SentryDVL

sentry = SentryDVL()

kontext = "Die maximale Traglast beträgt 250 kN."
antwort = "Die Traglast beträgt maximal 280 kN."

verdict = sentry.evaluieren(kontext, antwort)
print(verdict.status)    # ABGELEHNT
print(verdict.konfidenz) # 0.0

Installation

pip install sentry-dvl

EinheitenChecker (v1.2)

Erkennt medizinisch-kritische Faktor-1000-Fehler:

Mutation Beispiel Risiko
mg → mcg/µg 500 mg → 500 mcg Unterdosierung
ml → µl 2 ml → 2 µl Unterdosierung
mmol → µmol 5 mmol → 5 µmol Messwertfehler
g → mg 1 g → 1 mg Überdosierung

Benchmark (v1.2, 50 Testfälle, 7 Kategorien)

Metrik Wert
Präzision 100,0%
FP-Rate 0,0%
Kategorien A–G (Zahlen, Einheiten, Negation, Semantik, NLI, Paraphrase)

Links

Zitation

@misc{ganter2025sentrydvl,
  author    = {Ganter, JoAchim},
  title     = {SENTRY-DVL: Cascaded Hybrid Guardrail Architecture
               for LLM Fact-Verification},
  year      = {2025},
  doi       = {10.5281/zenodo.20677551},
  publisher = {Zenodo}
}

Lizenz

SENTRY-DVL ist lizenziert unter AGPL-3.0 für Forschung, Bildung und Open-Source-Projekte.

Kommerzielle Nutzung erfordert eine separate Lizenz. Anfragen an: jo.ganter@googlemail.com

Copyright (c) 2025 JoAchim Ganter

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support