Warum domänenspezifische KI kaum halluziniert

Das Wichtigste in Kürze

▪Ein Sprachmodell sagt das statistisch nächstwahrscheinliche Wort voraus. Es optimiert auf Plausibilität, nicht auf Wahrheit, und kennt keinen Begriff von richtig oder falsch.
▪Nach aktueller Forschung sind Halluzinationen eine statistische Eigenschaft generativer Modelle, kein behebbarer Programmierfehler (Kalai et al. 2025).
▪DIMA dreht das Prinzip um: gebunden an Ihre Falldaten und einen kuratierten Wissensbestand, mit definierter Ontologie, Quellenbeleg und menschlicher Freigabe.
▪So sinkt die Fehlerquote in der Praxis unter 0,5 Prozent, und jede Antwort bleibt nachprüfbar.

Generische Sprachmodelle sind beeindruckend im Formulieren. Genau diese Flüssigkeit ist in der Rechtsberatung das Problem: Ein Modell, das auf jede Eingabe eine sprachlich überzeugende Antwort erzeugt, erzeugt auch dann eine, wenn es die Antwort gar nicht hat. In einem Beratungsfall ist eine erfundene Frist oder ein falsch zitierter § kein Schönheitsfehler, sondern ein Haftungsrisiko.

Um zu verstehen, warum das passiert und warum es sich gezielt eindämmen lässt, lohnt ein Blick darauf, was ein Sprachmodell technisch tut. Halluzinationen sind kein Defekt, der sich wegpatchen ließe, sondern eine vorhersehbare Folge des zugrunde liegenden Mechanismus. Wer diesen Mechanismus kennt, kann die Architektur so bauen, dass das Risiko beherrschbar wird.

Was eine Halluzination eigentlich ist

Eine Halluzination ist eine plausibel klingende, aber sachlich falsche Aussage. Um zu sehen, warum sie systematisch entsteht, muss man den Kern eines großen Sprachmodells (LLM) betrachten: Es ist ein Wahrscheinlichkeitsmodell über Sprache. Im Training lernt es aus riesigen Textmengen die Verteilung, welches Wort auf eine gegebene Folge von Wörtern am wahrscheinlichsten folgt. Beim Antworten erzeugt es Token für Token jeweils die statistisch wahrscheinlichste Fortsetzung. Es bewertet Plausibilität, nicht Wahrheit.

Die Linguistin Emily Bender und Kolleginnen haben dafür das Bild des „stochastischen Papageis“ geprägt: Ein Sprachmodell fügt beobachtete sprachliche Formen anhand von Wahrscheinlichkeiten zusammen, „ohne jeden Bezug zur Bedeutung“ (Bender et al. 2021). Sprache koppelt Form und Bedeutung; die Trainingsdaten eines LLM enthalten aber nur die Form, also Zeichenketten, nicht ihren Sinn (Bender und Koller 2020). Was wie Verstehen aussieht, ist Mustererkennung auf sehr großem Maßstab. Den Eindruck von Bedeutung erzeugt nicht das Modell, sondern wir als Leser.

Daraus folgt der entscheidende Punkt: Ein freilaufendes Modell besitzt keinen eingebauten Mechanismus, der zwischen gesichertem Wissen und plausibler Vermutung unterscheidet. Fehlt eine Bindung an eine geprüfte Quelle, ist beides für das Modell ununterscheidbar, weil beides nur als wahrscheinliche Wortfolge erscheint.

Kurz gesagt: Ein offenes Modell rät, wenn es nichts weiß. Ein gebundenes System sagt, dass es nichts weiß. Dieser Unterschied entscheidet über die Eignung für die Rechtsberatung.

Warum offene Modelle raten müssen

Dass Halluzinationen kein Zufall sind, hat OpenAI 2025 in der Arbeit „Why Language Models Hallucinate“ formal gezeigt. Die zentrale These: Halluzinationen sind keine mysteriöse Fehlfunktion, sondern eine natürliche statistische Folge davon, wie Modelle trainiert und bewertet werden (Kalai et al. 2025). Selbst bei fehlerfreien Trainingsdaten erzeugt ein auf die Sprachverteilung optimiertes Modell mit von null verschiedener Wahrscheinlichkeit falsche, aber plausible Aussagen.

Die Autoren führen das auf ein grundsätzliches Verhältnis zurück: Etwas zu erzeugen, ist leichter, als zuverlässig zu beurteilen, ob es stimmt. Ihr Hauptergebnis beziffert die generative Fehlerrate auf mindestens das Doppelte der Rate, mit der ein Modell wahr von falsch unterscheiden kann. Wer Fakten nicht zuverlässig klassifizieren kann, erzeugt sie folglich erst recht fehlerhaft. Besonders betroffen sind seltene, beliebige Fakten, etwa eine konkrete Frist in einem konkreten Fall, die sich nicht aus allgemeinen Sprachmustern ableiten lassen.

Verschärft wird das durch die Bewertungskultur: Gängige Benchmarks belohnen eine selbstbewusste Antwort und bestrafen ein ehrliches „Ich weiß es nicht“. Modelle werden so trainiert, im Zweifel zu raten, weil Raten im Test im Schnitt besser abschneidet als Zurückhaltung (Kalai et al. 2025). Genau dieses antrainierte Raten ist im Beratungskontext gefährlich. Der Ausweg liegt nicht in einem größeren Modell, sondern in der Systemarchitektur drumherum, die Belege erzwingt und Zurückhaltung zulässt (vgl. Ji et al. 2023).

Vier Leitplanken halten DIMA auf dem Pfad

DIMA ist kein offener Chatbot, sondern ein domänenspezifisches System mit klaren Grenzen. Vier Mechanismen greifen ineinander:

1. Definierte Ontologien

Jedes Rechtsthema hat eine Ontologie mit allen relevanten Merkmalen. Das Modell füllt eine bekannte Struktur, statt frei zu assoziieren. Ergebnisse werden strukturiert und damit prüfbar zurückgeliefert.

2. Kuratierter Wissensbestand

DIMA arbeitet ausschließlich auf Ihren Falldaten und einem kuratierten Infopool, nie im offenen Internet. Die Wissensgrundlage ist bekannt, versioniert und nachvollziehbar.

3. Quellenbindung

Jede Antwort kommt mit Beleg. Wo keine Quelle existiert, gibt es keine Antwort, sondern einen klaren Hinweis. So wird Nichtwissen sichtbar statt überspielt.

4. Menschliche Freigabe

Die Beraterin oder der Berater bleibt in der Verantwortung. DIMA bereitet vor, der Mensch gibt frei. Die KI ersetzt keine Entscheidung, sie beschleunigt die Vorbereitung.

<0,5 %

Fehlerquote mit Leitplanken

100 %

der Antworten mit Quelle

erfundene Quellen oder Paragrafen

„Eine KI, die zugibt, etwas nicht zu wissen, ist in der Rechtsberatung mehr wert als eine, die immer eine Antwort hat.“
Dr. Peter Prieß, Gründer CODIAC

Offenes Modell und gebundenes System im Vergleich

Der Unterschied wird greifbar, wenn man beide Ansätze nebeneinanderstellt:

Merkmal	Offenes Modell	DIMA
Wissensquelle	Offenes Internet	Kuratierter Pool
Beleg pro Antwort	Selten	Immer
Verhalten bei Unwissen	Rät	Sagt es offen

DIMA an Ihrem eigenen Fall sehen

30 Minuten, zugeschnitten auf einen Fall aus Ihrem Alltag.

Live-Demo anfragen

Fazit

Die Forschung ist sich einig, dass ein frei generierendes Modell die Fehlerrate nicht auf null senken kann. Aber genau hier liegt der Hebel: Halluzinationen sind eine Frage der Architektur, nicht des Schicksals. Wer das Modell an geprüfte Quellen bindet, seinen Antwortraum durch eine Ontologie strukturiert, Zurückhaltung bei fehlendem Beleg erlaubt und den Menschen in der Verantwortung lässt, verwandelt eine unkontrollierbare statistische Eigenschaft in ein beherrschbares Restrisiko. Aus einem System, das immer rät, wird eines, das belegt oder schweigt. Genau das macht den Unterschied zwischen einem beeindruckenden Werkzeug und einem, dem Sie einen Beratungsfall anvertrauen können. Mehr dazu lesen Sie auf der Produktseite zu DIMA und im Vergleich.

Quellen

Bender, E. M., Gebru, T., McMillan-Major, A. und Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT ’21), 610-623.

Bender, E. M. und Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. Proceedings of the 58th Annual Meeting of the ACL, 5185-5198.

Kalai, A. T., Nachum, O., Vempala, S. und Zhang, E. (2025). Why Language Models Hallucinate. OpenAI / arXiv:2509.04664.

Ji, Z. et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12), 1-38.

Häufige Fragen

Was bedeutet Halluzination bei KI in der Rechtsberatung?

Eine plausibel formulierte, aber sachlich falsche oder erfundene Antwort. Sie entsteht, weil ein Sprachmodell das wahrscheinlichste nächste Wort vorhersagt und nicht zwischen Wissen und Vermutung unterscheidet. In der Rechtsberatung besonders kritisch, weil falsche Auskünfte rechtliche Folgen haben.

Wie hält domänenspezifische KI die Fehlerquote niedrig?

Durch definierte Ontologien, einen kuratierten Wissensbestand, Quellenbindung jeder Antwort und menschliche Freigabe vor dem Versand. So bleiben Fehler unter 0,5 Prozent.

Ist die Verarbeitung DSGVO-konform?

Ja. Die Daten bleiben in der Organisation und werden in Europa verarbeitet. Die Lösung ist DSGVO- und EU-AI-Act-konform ausgelegt.

Dr. Peter Prieß

Gründer, CODIAC Knowledge Engineering

Dr. Peter Prieß gründete CODIAC 2012 mit der Überzeugung, dass juristisches Wissen maschinell verstehbar gemacht werden kann, ohne dass es die Organisation verlässt.

Zum Team-Profil →

Warum die Präzise KI von CODIAC kaum halluziniert