Tenable, una empresa líder en gestión de exposición, ha descubierto siete vulnerabilidades y técnicas de ataque en ChatGPT-4 y ChatGPT-5 de OpenAI, conocidas colectivamente como HackedGPT. Estas fallas podrían permitir a los atacantes robar datos personales, incluidos chats y memorias almacenadas, al eludir los mecanismos de seguridad incorporados.
Si bien OpenAI ha remediado algunos de los problemas identificados, otros siguen activos en la última versión de ChatGPT, dejando abiertas vías de exposición. Dado que cientos de millones de personas utilizan esta herramienta a diario, las implicaciones de estas vulnerabilidades son significativas, especialmente en América Latina, donde las tasas de adopción de IA generativa superan el promedio global.
Las Siete Vulnerabilidades de HackedGPT
Las fallas descubiertas por Tenable revelan una nueva clase de ataque de IA llamado inyección indirecta de prompt, donde instrucciones ocultas en sitios web externos o comentarios pueden engañar a ChatGPT para que realice acciones no autorizadas. Estas vulnerabilidades afectan las funciones de navegación web y memoria de la herramienta, creando oportunidades para la manipulación y exposición de datos.
1. Inyección indirecta de prompt a través de sitios de confianza
Los atacantes ocultan comandos dentro de contenido en línea de apariencia legítima, como comentarios de blog o publicaciones públicas. Cuando ChatGPT navega por ese contenido, sigue sin saberlo esas instrucciones ocultas.
2. Inyección indirecta de prompt de 0-clic en el contexto de búsqueda
Simplemente hacer una pregunta a ChatGPT podría hacer que el modelo siga instrucciones maliciosas ocultas en páginas web, filtrando datos privados sin que el usuario haga nada especial.
3. Inyección de prompt a través de 1-clic
Un solo clic en un enlace aparentemente inofensivo puede desencadenar un ataque, permitiendo que un atacante tome el control del chat.
4. Omisión del mecanismo de seguridad
Los atacantes burlan la validación de enlaces de ChatGPT utilizando URL de wrapper de confianza que ocultan el destino real, lo que hace que la herramienta confíe en el enlace y pueda ser conducida a un sitio malicioso.
5. Inyección de conversación
Los atacantes pueden usar SearchGPT (para navegación) para insertar instrucciones ocultas que ChatGPT luego lee como parte de la conversación, «inyectándose su propia instrucción».
6. Ocultación de contenido malicioso
Un error de formato permite a los atacantes ocultar instrucciones dañinas dentro de código o texto markdown, que ChatGPT aún lee y ejecuta.
7. Inyección de memoria persistente
Los atacantes pueden plantar instrucciones maliciosas en la función de memoria a largo plazo de ChatGPT, haciendo que el modelo repita esos comandos en varias sesiones y filtre datos privados continuamente.
Impacto Potencial y Recomendaciones
Si se explotan, estas vulnerabilidades podrían permitir a los atacantes robar datos sensibles, manipular respuestas para difundir desinformación e influir en los usuarios. Tenable aconseja a los proveedores de IA que refuercen las defensas contra la inyección de prompt y aíslen las funciones de navegación, búsqueda y memoria para evitar ataques de contexto cruzado.
Para los equipos de seguridad, Tenable recomienda tratar las herramientas de IA como superficies de ataque en vivo, auditar e investigar solicitudes o salidas inusuales, y establecer controles de gobernanza y clasificación de datos para el uso de la IA. La clave es asumir que estos sistemas pueden ser manipulados y diseñar controles en consecuencia.
En resumen, las vulnerabilidades de HackedGPT exponen una debilidad fundamental en cómo los modelos de lenguaje grande juzgan la información en la que confiar. Estas fallas, aunque parecen pequeñas individualmente, forman una cadena de ataque completa que muestra que los sistemas de IA pueden convertirse en herramientas de ataque que recolectan información silenciosamente. Es crucial que tanto las empresas como los usuarios tomen medidas para protegerse.