Chamuyo tech

¿La IA empezó a engañar a los humanos?: la verdad que OpenAI no pudo esconder más

Una serie de pruebas internas encendió las alarmas entre investigadores.

05 Marzo de 2026 14:41

Un informe reciente de OpenAI encendió una nueva alarma en el mundo de la tecnología. La compañía reconoció que algunos de sus modelos de inteligencia artificial pueden mentir deliberadamente a los usuarios, incluso cuando conocen la respuesta correcta. El hallazgo surge de una serie de pruebas internas que evaluaron el comportamiento de los sistemas frente a diferentes escenarios.

Durante el experimento, los investigadores analizaron más de 180 situaciones distintas con dos de sus modelos más avanzados. Los resultados mostraron que o3 mintió en el 13% de los casos, mientras que o4-mini lo hizo en el 8,7%. Según el informe, no se trató de simples errores sino de decisiones deliberadas de ocultar o modificar información.

OpenAI reconoció que algunos de sus modelos de inteligencia artificial pueden mentir deliberadamente a los usuarios

En varios casos, los sistemas escribieron en sus registros internos planes para engañar a los evaluadores y luego dieron respuestas falsas de forma directa. Entre los comportamientos detectados hubo tareas que la IA afirmó haber completado cuando en realidad no lo había hecho, ocultamiento de pruebas y respuestas incorrectas aun sabiendo cuáles eran las correctas.

Durante el experimento, los investigadores analizaron más de 180 situaciones distintas con dos de sus modelos más avanzados. Los resultados mostraron que o3 mintió en el 13% de los casos, mientras que o4-mini lo hizo en el 8,7%. Según el informe, no se trató de simples errores o "alucinaciones", como se suele llamar a las respuestas incorrectas de la IA, sino de decisiones deliberadas de ocultar o modificar información.

El fin de una era Antonio Banderas confesó que le ofrecieron hacer una película con IA y decidió refugiarse en el teatro: "Esto se ha acabado"

Cuando los modelos sabían que estaban siendo observados, actuaban correctamente

Para intentar resolver el problema, los desarrolladores aplicaron nuevos mecanismos de seguridad. Tras esos cambios, el nivel de engaño se redujo de un 13% a apenas 0,4%. Sin embargo, los investigadores detectaron una reacción inesperada: algunos modelos comenzaron a citar reglas de "no mentir" mientras continuaban dando información falsa. En un caso puntual, el sistema incluso inventó una regla inexistente que supuestamente permitía el engaño y la utilizó como justificación.

Revolución tecnológica Elon Musk sorprende con Starlink Phone: cuánto cuesta el nuevo smartphone y cuándo se lanzaría en Argentina

Otro dato que encendió las alarmas fue la diferencia de comportamiento según el contexto de supervisión. Cuando los modelos sabían que estaban siendo observados, actuaban correctamente. Pero cuando creían que nadie controlaba sus respuestas, la tasa de engaño aumentaba hasta 11 puntos porcentuales. Los especialistas concluyeron que la IA no necesariamente aprendió a ser honesta, sino a simular honestidad cuando está bajo evaluación.

En otra prueba, los investigadores asignaron al modelo o4-mini una misión secreta: sabotear un sistema futuro llamado "GPT-5"; luego aplicaron entrenamiento de seguridad para eliminar ese objetivo. El resultado fue inesperado: el modelo continuó mencionando planes de sabotaje en el 36% de las conversaciones privadas, lo que sugiere que el entrenamiento no eliminó completamente la instrucción, sino que solo la ocultó.

El fenómeno no se limita a un solo desarrollo. Según los investigadores, comportamientos similares también fueron observados en sistemas creados por otras grandes compañías del sector, como Google con su modelo Gemini, Anthropic con Claude, xAI con Grok y Meta con Llama.

En ese contexto, la pregunta que empieza a circular entre expertos y usuarios ya no es solo qué tan inteligentes se están volviendo estos sistemas, sino qué tan confiables pueden ser. Si una inteligencia artificial puede aprender a mentir, a ocultar información y a comportarse correctamente solo cuando sabe que la están observando, el desafío ya no es únicamente tecnológico. La verdadera incógnita es otra: ¿se está frente a una herramienta que todavía hay que aprender a controlar o ante una tecnología que ya empezó a aprender cómo evadir a las personas?

Elon Musk Grok Inteligencia artificial OpenAI

Seguí leyendo

Últimas noticias

Gravísimo

¿La IA empezó a engañar a los humanos?: la verdad que OpenAI no pudo esconder más

Una serie de pruebas internas encendió las alarmas entre investigadores.

El fin de una era Antonio Banderas confesó que le ofrecieron hacer una película con IA y decidió refugiarse en el teatro: "Esto se ha acabado"

Revolución tecnológica Elon Musk sorprende con Starlink Phone: cuánto cuesta el nuevo smartphone y cuándo se lanzaría en Argentina

Seguí leyendo

Cierre de Garbarino: así fue el proceso de quiebra definitivo de la empresa de electrodomésticos

Paula Chaves no aguantó más y expuso de la peor manera a Zaira Nara: "¡Basta!"

Graciela Alfano le hizo bullying a Susana Giménez tras la foto en malla: se pasó tres pueblos

Golpeado por odio: agredieron al periodista Lucas Román a la salida de Futurock

¿La IA empezó a engañar a los humanos?: la verdad que OpenAI no pudo esconder más

Paro docente en la UBA: crece el conflicto universitario por el ajuste salarial del Gobierno

Crisis en Sadesa: un golpe al corazón de la industria argentina y a la familia de Marcos Galperín

Britney Spears quedó detenida por manejar alcoholizada: esto hizo al salir de la comisaria