5 de marzo de 2026

Lakera y Check Point lanzan b3: el nuevo estándar abierto para evaluar la seguridad de los agentes de IA

Imagen Check Point Lakera

La seguridad en la inteligencia artificial ha dado hoy un paso decisivo. Check Point Software Technologies y Lakera, en colaboración con el Instituto de Seguridad de IA del Reino Unido (AISI), han presentado backbone breaker (b3), un benchmark de código abierto diseñado específicamente para evaluar la seguridad de los modelos de lenguaje (LLM) que impulsan los agentes de IA.


¿Qué es b3 y por qué es importante?

El b3 se basa en una metodología novedosa: las “instantáneas de amenazas”. A diferencia de los enfoques tradicionales, que intentan simular el comportamiento completo de un agente de IA, este benchmark se enfoca en momentos críticos donde las vulnerabilidades son más probables. Esto permite una evaluación más precisa, práctica y sin la complejidad de modelar todo el workflow de un agente.

Mateo Rojas-Carulla, cofundador y director científico de Lakera, lo resume así:

“Los agentes de IA actuales son tan seguros como los LLM que los impulsan… Las instantáneas de amenazas nos permiten descubrir sistemáticamente vulnerabilidades que hasta ahora han permanecido ocultas.”


Un benchmark con respaldo real

Para construir este nuevo estándar, se emplearon:

  • 10 instantáneas de amenazas representativas de agentes reales
  • 19,433 ataques adversarios recopilados colectivamente a través del juego de red team Gandalf: Agent Breaker

Con estos datos, el benchmark evalúa la resistencia de los modelos ante ataques como exfiltración de mensajes, inyección de enlaces de phishing, uso indebido de herramientas y denegación de servicio, entre otros.


Resultados reveladores: mitos bajo la lupa

Tras evaluar 31 de los modelos de lenguaje más populares, b3 arrojó conclusiones que desafían las expectativas:

  • Mejor razonamiento = mayor seguridad: Los LLM con mejor capacidad de análisis tienden a resistir mejor los ataques.
  • Más grande no siempre es mejor: El tamaño del modelo no garantiza una mayor seguridad.
  • Cerrado vs. abierto: Los modelos de código cerrado lideran en seguridad, pero los de código abierto cierran la brecha rápidamente.

Estos resultados demuestran la necesidad urgente de benchmarks especializados que permitan comparar de forma precisa la seguridad en el mundo real de los agentes de IA.


Gandalf: El laboratorio de pruebas que lo inspiró todo

El origen de b3 está directamente vinculado con Gandalf: Agent Breaker, una plataforma tipo simulador diseñada para “hackear” agentes de IA en entornos controlados. Este juego, nacido en un hackathon de Lakera en 2023, se ha convertido en la comunidad de red team más grande del mundo con más de 80 millones de puntos de datos generados. Su evolución demostró que los ataques a agentes de IA son más que una ficción: son una amenaza concreta que requiere herramientas concretas para defenderse.


¿Dónde encontrarlo?

El benchmark b3 está disponible bajo licencia de código abierto y puede consultarse en el repositorio indicado en el artículo técnico de Arxiv: arxiv.org/abs/2510.22620.


La llegada de b3 marca un antes y un después en la seguridad para agentes basados en IA. En un contexto donde los modelos generativos están cada vez más integrados en aplicaciones críticas, contar con herramientas abiertas, estandarizadas y enfocadas en la realidad de las amenazas es crucial.

Gracias a la colaboración de empresas líderes como Check Point, Lakera y el AISI, la seguridad basada en IA da un salto hacia adelante y nos invita a repensar cómo evaluamos la robustez de los modelos que impulsan la próxima generación de agentes inteligentes.