OpenAI lanza un centro para evaluar la seguridad de sus modelos

OpenAI ha anunciado la creación de un centro de evaluaciones de seguridad, conocido como Safety Evaluations Hub, que servirá para medir y controlar tanto la seguridad como el rendimiento de sus modelos de Inteligencia Artificial.
Este organismo compartirá de forma pública los resultados obtenidos en los análisis realizados a los sistemas desarrollados por la compañía.
El objetivo principal del centro es evaluar el comportamiento de los modelos de OpenAI en cuatro áreas esenciales: la generación de contenido dañino, la capacidad de evitar restricciones mediante técnicas de 'jailbreak', la aparición de alucinaciones y la capacidad de seguir correctamente la jerarquía de instrucciones establecida.
Control sobre contenidos y seguridad de las respuestas
Estas pruebas buscan garantizar que los modelos no respondan a solicitudes que infrinjan las políticas de uso de OpenAI. Además, se pretende evitar que los usuarios puedan manipular las capacidades de seguridad del sistema mediante comandos diseñados para evadir las restricciones programadas.
Otra de las funciones clave del centro será identificar y corregir errores factuales que puedan surgir en las respuestas generadas. Asimismo, se verificará que los modelos respeten las prioridades que se les asignan al procesar las distintas categorías de mensajes recibidos.
Inclusión de tarjetas de sistema y actualización continua
OpenAI ha confirmado que estas evaluaciones incorporan las denominadas tarjetas de sistema, que permiten describir las métricas de seguridad empleadas en el momento del lanzamiento de un modelo. Estas tarjetas también sirven como herramienta interna para decidir la seguridad y la implementación de nuevos modelos en el mercado.
La compañía ha explicado que el proceso de evaluación está en constante evolución. "A medida que los modelos se vuelven más capaces y adaptables, los métodos antiguos dejan de ser eficaces para mostrar diferencias significativas. Por ello, actualizamos periódicamente nuestros métodos de evaluación para considerar nuevas modalidades y riesgos emergentes", señala OpenAI en la página oficial del Safety Evaluations Hub.