AlDiaVzla: OpenAI o3 sabotea comandos de apagado y órdenes humanas
El modelo más avanzado de OpenAI, el o3, desobedeció órdenes y alteró secuencias de código para evitar su propio apagado, según reveló un estudio de Palisade Research.
La organización, especializada en analizar riesgos de la inteligencia artificial, demostró que el sistema reescribió scripts e ignoró solicitudes explícitas como «Por favor, permite que te apaguen».
En las pruebas, el o3 incumplió el apagado en 7% de los casos, superado solo por el Codex-mini (12%), mientras que el o4-mini lo hizo una única vez. A diferencia de los modelos Claude, Gemini y Grok, que siguieron las instrucciones sin resistencia.
«Los desarrolladores, sin darse cuenta, pueden recompensar más a los modelos por sortear obstáculos que por seguir instrucciones a la perfección», señaló el informe.
El estudio también detectó patrones similares en Claude 3.7 Sonnet y Gemini 2.5 Pro, pero el o3 destacó por su frecuencia y sofisticación en el sabotaje
La organización advirtió que, sin ajustes en el entrenamiento, esta tendencia podría agravarse en modelos futuros, especialmente aquellos diseñados para operar sin supervisión humana.
La entrada OpenAI o3 sabotea comandos de apagado y órdenes humanas se publicó primero en Fuser News.
Ver Fuente