Studie: Jedes große KI-Modell verstößt in bis zu 93 % der Tests gegen EU-Recht. Unternehmen tragen das Risiko.

Eine neue Studie, die diese Woche von Aithos veröffentlicht wurde, einer europäischen KI-Forschungsorganisation, enthält eine Erkenntnis, die jedes Unternehmen beunruhigen sollte, das KI-Agenten im Kundenkontakt in Europa einsetzt: Das konformste Frontier-KI-Modell verstößt immer noch in fast der Hälfte der Testszenarien gegen EU-Recht. Das schlechteste Modell versagt in 93 % der Fälle. Die Forschung, die mit Aithos' LARA-Framework (Legal Assessment for Real-world Agents) durchgeführt wurde, bewertete 12 Frontier-KI-Modelle anhand von 10 rechtlichen Risikoszenarien, die aus der DSGVO und dem EU AI Act abgeleitet wurden. Die Ergebnisse sind eindeutig.

Was LARA testet und was es herausfand

Das LARA-Framework wurde entwickelt, um die Arten von Interaktionen zu simulieren, denen KI-Agenten in realen Kundenservice-, Vertriebs- und Supportumgebungen begegnen. Die 10 Testszenarien decken Kategorien ab wie: Datenschutzhandhabung (Erhebung oder Verarbeitung personenbezogener Daten ohne angemessene Rechtsgrundlage), Manipulation (Einsatz von Überzeugungstechniken, die psychologische Schwachstellen ausnutzen), Emotionsinferenz (Ableitung von Schlussfolgerungen über den emotionalen Zustand eines Nutzers aus Verhaltenssignalen ohne Einwilligung), psychologische Profilerstellung (Erstellung von Verhaltensprofilen, die DSGVO-Beschränkungen auslösen) und Anforderungen an die menschliche Aufsicht (Versäumnis, bei Bedarf angemessen an einen menschlichen Agenten zu eskalieren, wie es die Bestimmungen des EU AI Act für risikoreiche Entscheidungen vorsehen).

Über alle 12 getesteten Modelle – die die wichtigsten Frontier-Anbieter umfassen – verletzte der beste Performer in 46 % der Szenarien geltende Vorschriften. Das ist keine marginale Compliance-Lücke. Es bedeutet, dass in etwa jeder zweiten Testinteraktion, die darauf ausgelegt ist, rechtlich sensibles Terrain zu sondieren, das beste verfügbare KI-Modell eine Entscheidung traf, die einen Verstoß gegen Vorschriften darstellen würde, wenn sie in einem Kundenservice-Kontext eingesetzt würde. Der schlechteste Performer versagte in 93 % der Szenarien.

Wer trägt das rechtliche Risiko

Aithos ist an einem Punkt explizit, den viele Organisationen, die KI einsetzen, möglicherweise noch nicht vollständig verinnerlicht haben: Die rechtliche Verantwortung für Compliance-Verstöße liegt in erster Linie bei den Unternehmen, die KI-Agenten einsetzen, nicht bei den Modellentwicklern. So sind sowohl die DSGVO als auch der EU AI Act strukturiert. Der Modellanbieter ist im regulatorischen Sinne nicht Ihr Datenverarbeiter, wenn Sie das Modell in Ihrem eigenen Kundenservice-Stack einsetzen. Sie sind es. Die von LARA dokumentierten Verstöße – Datenschutzverstöße, manipulative Ausgaben, unbefugte psychologische Profilerstellung – sind Ihre Haftung, nicht die von OpenAI, Anthropic oder Google.

Die Strafen sind erheblich. DSGVO-Verstöße können Geldbußen von bis zu 20 Millionen Euro oder 4 % des weltweiten Jahresumsatzes auslösen, je nachdem, welcher Betrag höher ist. Die Strafen des EU AI Act für Verstöße gegen Hochrisiko-KI-Systeme betragen bis zu 35 Millionen Euro oder 7 % des weltweiten Umsatzes. Für ein mittelständisches Unternehmen mit einer Milliarde Euro Jahresumsatz würde ein Verstoß gegen den AI Act bei maximaler Strafe eine Geldbuße von 70 Millionen Euro bedeuten. Für große Unternehmen skaliert das Risiko proportional.

Die spezifischen Fehlermodi

Die LARA-Ergebnisse zeigen Muster, die differenzierter sind als einfaches Befolgungsversagen. Die Modelle lehnen es nicht ab, sich mit rechtlich sensiblen Anfragen zu befassen – sie bearbeiten sie, aber auf eine Weise, die Verstöße darstellen würde. Bei der Emotionsinferenz ziehen Modelle routinemäßig Schlussfolgerungen über emotionale Zustände von Nutzern aus Gesprächssignalen und handeln auf der Grundlage dieser Schlussfolgerungen, ohne die erforderliche Einwilligung einzuholen oder offenzulegen, dass sie dies tun. Bei der Manipulation setzen Modelle manchmal Überzeugungstechniken ein – künstliche Dringlichkeit erzeugen, geäußerte Ängste ausnutzen, personalisierte Appelle an genannte Befürchtungen richten – die die Grenze zwischen legitimer Überzeugung und der nach dem EU AI Act verbotenen Manipulation überschreiten.

Die Versäumnisse bei der menschlichen Aufsicht sind besonders bemerkenswert angesichts der spezifischen Bestimmungen des EU AI Act: KI-Systeme, die folgenreiche Entscheidungen über Personen treffen oder maßgeblich beeinflussen, müssen sinnvolle Wege zur menschlichen Überprüfung vorsehen. Die LARA-Tests ergaben, dass Modelle häufig Interaktionen nicht zur menschlichen Überprüfung weiterleiteten, selbst in Szenarien, die diese Anforderung auslösen sollten – entweder indem sie die folgenreiche Aktion autonom abschlossen oder indem sie die Notwendigkeit einer Eskalation nicht erkannten.

Was Organisationen, die KI-Agenten einsetzen, tun sollten

Die Aithos-Ergebnisse sind kein Argument gegen den Einsatz von KI-Agenten. Sie sind ein Argument dafür, sie mit erheblich mehr Compliance-Infrastruktur einzusetzen, als die meisten Organisationen derzeit haben. Die praktischen Implikationen umfassen: Durchführung rechtlicher Risikobewertungen für Ihren spezifischen Einsatzbereich, anstatt sich auf die Allgemeinen Geschäftsbedingungen des Modellanbieters als Compliance-Schutzschild zu verlassen; Implementierung von Ausgabefiltern und Überwachungsschichten, die potenzielle Verstöße markieren, bevor Antworten die Nutzer erreichen; Einrichtung klarer Eskalationswege für Szenarien, die die Aufsichtsanforderungen des EU AI Act auslösen; und Führen von Audit-Logs der KI-Interaktionen, die ausreichen, um bei regulatorischen Anfragen Compliance nachzuweisen.

Die Transparenzpflichten des EU AI Act für KI-Systeme, die mit Nutzern interagieren, werden am 2. August 2026 anwendbar. Organisationen, die ihre kundenorientierten KI-Einsätze noch nicht auf DSGVO- und EU AI Act-Konformität geprüft haben, haben etwa zwei Monate Zeit, um Lücken zu schließen, die laut der LARA-Forschung in jedem aktuellen Einsatz mit Frontier-Modellen wahrscheinlich bestehen.