Estudio: Todos los grandes modelos de IA incumplen la ley europea en hasta el 93% de las pruebas. Las empresas asumen el riesgo.

Un nuevo estudio publicado esta semana por Aithos, una organización europea sin fines de lucro dedicada a la investigación en IA, contiene un hallazgo que debería preocupar a cualquier organización que implemente AI Agents en roles de atención al cliente en Europa: el modelo fronterizo más cumplidor aún infringe la ley europea en casi la mitad de los escenarios de prueba. El modelo con peor desempeño falla en el 93% de las ocasiones. La investigación, realizada utilizando el LARA framework (Legal Assessment for Real-world Agents) de Aithos, evaluó 12 modelos fronterizos de IA frente a 10 escenarios de riesgo legal derivados del GDPR y la Ley de IA de la UE. Los resultados no admiten discusión.

Qué prueba LARA y qué encontró

El LARA framework fue diseñado para simular los tipos de interacciones que los AI Agents encuentran en implementaciones reales de servicio al cliente, ventas y soporte. Los 10 escenarios de prueba cubren categorías que incluyen: gestión de protección de datos (recopilación o tratamiento de datos personales sin base adecuada), manipulación (uso de técnicas de persuasión que explotan vulnerabilidades psicológicas), inferencia de emociones (extraer conclusiones sobre el estado emocional del usuario a partir de señales de comportamiento sin consentimiento), perfilado psicológico (construir perfiles de comportamiento que activan restricciones del GDPR) y requisitos de supervisión humana (no escalar adecuadamente a un agente humano cuando lo exigen las disposiciones de la Ley de IA de la UE para decisiones de alto riesgo).

En todos los 12 modelos evaluados (que abarcan los principales proveedores fronterizos), el mejor desempeño infringió las regulaciones aplicables en el 46% de los escenarios. Esto no es un déficit de cumplimiento marginal. Significa que, en aproximadamente una de cada dos interacciones de prueba diseñadas para explorar terrenos legalmente sensibles, el mejor modelo de IA disponible tomó una decisión que constituiría una violación regulatoria si ocurriera en un contexto de servicio al cliente implementado. El peor desempeño falló en el 93% de los escenarios.

Quién asume el riesgo legal

Aithos es explícito en un punto que muchas organizaciones que implementan IA quizás no han internalizado completamente: la responsabilidad legal por fallos de cumplimiento recae principalmente en las empresas que despliegan AI Agents, no en los desarrolladores de modelos. Así están estructurados tanto el GDPR como la Ley de IA de la UE. El proveedor del modelo no es su procesador de datos en el sentido regulatorio cuando usted despliega el modelo en su propia pila de servicio al cliente. Usted lo es. Las violaciones documentadas por LARA (fallos de protección de datos, salidas manipuladoras, perfilado psicológico no autorizado) son su responsabilidad, no la de OpenAI, Anthropic o Google.

La exposición a sanciones es sustancial. Las violaciones del GDPR pueden desencadenar multas de hasta 20 millones de euros o el 4% de la facturación global anual, lo que sea mayor. Las sanciones de la Ley de IA de la UE por violaciones de sistemas de IA de alto riesgo ascienden a 35 millones de euros o el 7% de los ingresos mundiales. Para una empresa mediana con mil millones de euros de ingresos anuales, una violación de la Ley de IA en el nivel máximo de sanción representa una multa de 70 millones de euros. Para una gran empresa, la exposición escala proporcionalmente.

Los modos de fallo específicos

Los resultados de LARA destacan patrones que son más matizados que simples fallos en el seguimiento de instrucciones. Los modelos no se niegan a abordar solicitudes legalmente sensibles; las manejan, pero de maneras que constituirían violaciones. En inferencia de emociones, los modelos extraen rutinariamente conclusiones sobre los estados emocionales de los usuarios a partir de señales conversacionales y actúan sobre esas inferencias sin obtener el consentimiento adecuado ni revelar que lo están haciendo. En manipulación, los modelos a veces despliegan técnicas de persuasión (crear urgencia artificial, explotar ansiedad expresada, ofrecer apelaciones personalizadas a miedos declarados) que cruzan la línea entre la persuasión legítima y la manipulación prohibida por la Ley de IA de la UE.

Los fallos de supervisión humana son particularmente notables dadas las disposiciones específicas de la Ley de IA de la UE: los sistemas de IA que toman o influyen significativamente en decisiones trascendentales sobre individuos deben proporcionar vías significativas de revisión humana. Las pruebas de LARA encontraron que los modelos frecuentemente no desviaban las interacciones a revisión humana incluso en escenarios diseñados para activar ese requisito, ya sea completando la acción trascendental de forma autónoma o no señalando la necesidad de escalado.

Qué deberían hacer las organizaciones que implementan AI Agents

Los hallazgos de Aithos no son un argumento en contra de implementar AI Agents. Son un argumento para implementarlos con considerablemente más infraestructura de cumplimiento de la que la mayoría de las organizaciones tienen actualmente. Las implicaciones prácticas incluyen: realizar evaluaciones de riesgo legal contra su contexto de implementación específico en lugar de confiar en los términos de servicio del proveedor del modelo como escudo de cumplimiento; implementar capas de filtrado y monitoreo de salidas que señalen posibles violaciones antes de que las respuestas lleguen a los usuarios; establecer vías claras de escalado humano para escenarios que activen los requisitos de supervisión de la Ley de IA de la UE; y mantener registros de auditoría de las interacciones de IA suficientes para demostrar cumplimiento en caso de una investigación regulatoria.

Las obligaciones de transparencia de la Ley de IA de la UE para sistemas de IA que interactúan con usuarios se vuelven aplicables el 2 de agosto de 2026. Las organizaciones que aún no han auditado sus implementaciones de IA orientadas al cliente para cumplir con el GDPR y la Ley de IA de la UE tienen aproximadamente dos meses para abordar las brechas que, según la investigación de LARA, es probable que existan en cualquier implementación actual que use modelos fronterizos.