Anthropic presenta nuevos benchmarks para medir capacidades de explotación de Claude

Anthropic ha desarrollado dos nuevos estándares académicos para evaluar cómo los modelos de IA pueden identificar y explotar vulnerabilidades de seguridad, junto con una versión actualizada de pruebas para contratos inteligentes. La iniciativa busca medir y contener riesgos antes de que estos modelos lleguen a producción.

investigaciónanthropicresearchpaper

Anthropic ha publicado dos nuevos benchmarks académicos destinados a medir la capacidad de los grandes modelos de lenguaje (LLM) para desarrollar exploits y vulnerar sistemas. La empresa también ha actualizado su estándar de evaluación para ataques a contratos inteligentes, ampliando así su programa de evaluación de riesgos de seguridad.

Esta línea de investigación busca cuantificar un riesgo aún poco comprendido en la industria: qué tan capaces son realmente los modelos de IA avanzados de identificar y aprovechar vulnerabilidades de seguridad. Al desarrollar benchmarks rigurosos y públicos, Anthropic pretende establecer criterios claros para medir estas capacidades antes de desplegar modelos en entornos críticos.

Claves

Evaluación proactiva: Medir capacidades de explotación permite identificar riesgos de seguridad antes de que los modelos lleguen a usuarios finales.
Estándares públicos: Los benchmarks se publican para que toda la comunidad pueda evaluarse contra criterios consistentes.
Alcance expandido: Incluye no solo exploits genéricos, sino también ataques específicos a smart contracts en blockchains.
Base para responsabilidad: Estos estándares podrían servir como referencia en futuras regulaciones o políticas de despliegue responsable de IA.