OpenAI refuerza la seguridad de ChatGPT Atlas

OpenAI refuerza la seguridad de ChatGPT Atlas

OpenAI ha dado a conocer nuevos avances destinados a fortalecer la seguridad del navegador ChatGPT Atlas ante las vulnerabilidades asociadas a los ataques de inyección de código.

La compañía ha desarrollado un sistema de defensa continua que busca anticiparse a este tipo de amenazas y reducir los riesgos potenciales para los usuarios.

El navegador ChatGPT Atlas, presentado en octubre, incorpora funcionalidades que permiten al asistente visualizar páginas web y ejecutar acciones de forma autónoma, con el objetivo de mejorar la productividad durante la navegación y ofrecer apoyo en distintas tareas digitales.

No obstante, esta capacidad de actuación autónoma, común a los navegadores agénticos, lo expone a ataques de inyección, una técnica que introduce instrucciones ocultas para que el modelo de lenguaje las interprete y ejecute acciones que normalmente están bloqueadas por motivos de seguridad.

Esta debilidad quedó recientemente en evidencia tras detectarse un caso de inyección de portapapeles, mediante el cual la Inteligencia Artificial copiaba un enlace malicioso sin que el usuario lo advirtiera, activándose cuando este pegaba el contenido en la barra de direcciones.

Ante este escenario, OpenAI ha informado de que está desarrollando un refuerzo constante contra los ataques de inyección rápida, con el propósito de identificar y corregir de forma proactiva las vulnerabilidades de sus agentes antes de que, en palabras de la propia compañía, “se conviertan en armas en la prácticas”.

Así lo ha explicado la tecnológica en un comunicado publicado en su blog, donde detalla la puesta en marcha de una actualización de seguridad para ChatGPT Atlas. Esta mejora incorpora un nuevo modelo entrenado específicamente para enfrentarse a adversarios, junto con medidas de protección más robustas.

Entre las novedades se incluye un ciclo de respuesta rápida, desarrollado junto a su equipo rojo interno, que cuenta con capacidades para investigar de manera continua nuevos vectores de ataque y aplicar mitigaciones con rapidez.

Asimismo, OpenAI ha señalado que, para analizar nuevas estrategias ofensivas, ha recurrido a un “atacante automatizado basado en LLM”, es decir, un bot diseñado para simular el comportamiento de un hacker y buscar formas de introducir instrucciones maliciosas en los agentes de ChatGPT Atlas.

“Nuestro atacante entrenado mediante aprendizaje de refuerzo puede inducir a un agente a ejecutar flujos de trabajo dañinos sofisticados y de largo alcance que se desarrollan en decenas (o incluso cientos) de pasos”, ha explicado OpenAI.

De este modo, el bot ejecuta ataques en entornos simulados para observar cómo responde el agente de IA y determinar qué medidas resultan más eficaces para neutralizarlos. El proceso se repite de forma iterativa, ya que el sistema analiza cada respuesta y ajusta el ataque para volver a intentarlo.

Como resultado de este enfoque, la compañía ha indicado que está logrando detectar nuevas estrategias de ataque de manera interna, “antes de que aparezcan en el mundo real”. Según OpenAI, esta metodología, unida a una mayor inversión en controles de seguridad, puede incrementar la dificultad y el coste de los ataques, reduciendo así el riesgo efectivo de inyección rápida.

En este contexto, la empresa ha reiterado su intención de seguir trabajando para que los usuarios puedan confiar en un agente de ChatGPT y utilizar su navegador “de la manera en que confiaría en un amigo altamente competente y consciente de la seguridad”.

Con todo, OpenAI también ha reconocido que es “improbable” que la inyección rápida, “al igual que las estafas y la ingeniería social en la web”, pueda erradicarse por completo. “Consideramos que la inyección rápida es un desafío a largo plazo para la seguridad de la IA, y necesitaremos fortalecer continuamente nuestras defensas contra ella”, ha concluido la compañía.