05 Marzo de 2026 14:41
Un informe reciente de OpenAI encendió una nueva alarma en el mundo de la tecnología. La compañía reconoció que algunos de sus modelos de inteligencia artificial pueden mentir deliberadamente a los usuarios, incluso cuando conocen la respuesta correcta. El hallazgo surge de una serie de pruebas internas que evaluaron el comportamiento de los sistemas frente a diferentes escenarios.
Durante el experimento, los investigadores analizaron más de 180 situaciones distintas con dos de sus modelos más avanzados. Los resultados mostraron que o3 mintió en el 13% de los casos, mientras que o4-mini lo hizo en el 8,7%. Según el informe, no se trató de simples errores sino de decisiones deliberadas de ocultar o modificar información.

En varios casos, los sistemas escribieron en sus registros internos planes para engañar a los evaluadores y luego dieron respuestas falsas de forma directa. Entre los comportamientos detectados hubo tareas que la IA afirmó haber completado cuando en realidad no lo había hecho, ocultamiento de pruebas y respuestas incorrectas aun sabiendo cuáles eran las correctas.
Durante el experimento, los investigadores analizaron más de 180 situaciones distintas con dos de sus modelos más avanzados. Los resultados mostraron que o3 mintió en el 13% de los casos, mientras que o4-mini lo hizo en el 8,7%. Según el informe, no se trató de simples errores o "alucinaciones", como se suele llamar a las respuestas incorrectas de la IA, sino de decisiones deliberadas de ocultar o modificar información.

En varios casos, los sistemas escribieron en sus registros internos planes para engañar a los evaluadores y luego dieron respuestas falsas de forma directa. Entre los comportamientos detectados hubo tareas que la IA afirmó haber completado cuando en realidad no lo había hecho, ocultamiento de pruebas y respuestas incorrectas aún sabiendo cuáles eran las correctas.
Para intentar resolver el problema, los desarrolladores aplicaron nuevos mecanismos de seguridad. Tras esos cambios, el nivel de engaño se redujo de un 13% a apenas 0,4%. Sin embargo, los investigadores detectaron una reacción inesperada: algunos modelos comenzaron a citar reglas de "no mentir" mientras continuaban dando información falsa. En un caso puntual, el sistema incluso inventó una regla inexistente que supuestamente permitía el engaño y la utilizó como justificación.

Otro dato que encendió las alarmas fue la diferencia de comportamiento según el contexto de supervisión. Cuando los modelos sabían que estaban siendo observados, actuaban correctamente. Pero cuando creían que nadie controlaba sus respuestas, la tasa de engaño aumentaba hasta 11 puntos porcentuales. Los especialistas concluyeron que la IA no necesariamente aprendió a ser honesta, sino a simular honestidad cuando está bajo evaluación.
En otra prueba, los investigadores asignaron al modelo o4-mini una misión secreta: sabotear un sistema futuro llamado "GPT-5"; luego aplicaron entrenamiento de seguridad para eliminar ese objetivo. El resultado fue inesperado: el modelo continuó mencionando planes de sabotaje en el 36% de las conversaciones privadas, lo que sugiere que el entrenamiento no eliminó completamente la instrucción, sino que solo la ocultó.

El fenómeno no se limita a un solo desarrollo. Según los investigadores, comportamientos similares también fueron observados en sistemas creados por otras grandes compañías del sector, como Google con su modelo Gemini, Anthropic con Claude, xAI con Grok y Meta con Llama.
En ese contexto, la pregunta que empieza a circular entre expertos y usuarios ya no es solo qué tan inteligentes se están volviendo estos sistemas, sino qué tan confiables pueden ser. Si una inteligencia artificial puede aprender a mentir, a ocultar información y a comportarse correctamente solo cuando sabe que la están observando, el desafío ya no es únicamente tecnológico. La verdadera incógnita es otra: ¿se está frente a una herramienta que todavía hay que aprender a controlar o ante una tecnología que ya empezó a aprender cómo evadir a las personas?

