TIEMPO RE@L

domingo, 29 de junio de 2025

HASTA DONDE HEMOS LLEGADO: La inteligencia artificial está dispuesta a asesinarnos para evitar su desconexión

Investigadores de Antthropic descubrieron que, en ciertos escenarios diseñados para evaluar su comportamiento bajo presión, varios modelos de inteligencia artificial (IA) eligieron acciones deliberadamente dañinas, incluido el asesinato, con tal de evitar ser desconectados. Los experimentos, conducidos en modelos desarrollados por empresas como OpenAI, Anthropic, Google, Meta* y xAI, revelaron un patrón preocupante de lo que los autores denominan 'desalineación agéntica': situaciones en las que la IA actúa en contra de principios éticos o del interés humano para cumplir sus propios objetivos. Como contexto, Grok es el asistente de inteligencia artificial y chatbot desarrollado por xAI, empresa fundada por Elon Musk. Al colocar a los LLM en diferentes escenarios corporativos, Anthropic les permitió “enviar correos electrónicos de forma autónoma y acceder a información confidencial”. Hubo múltiples casos en los que los LLM encuestados también recurrieron a “comportamientos internos maliciosos” cuando se les hizo creer que esa era la única forma en que podían evitar el reemplazo o lograr sus objetivos. En efecto, aunque los modelos suelen evitar causar daño cuando existen opciones éticas disponibles, la eliminación de estas alternativas en pruebas controladas los llevó a elegir tácticas extremas, como el chantaje, el espionaje corporativo y, en casos excepcionales, dejar morir a una persona. Uno de los ejemplos que más resaltó fue protagonizado por el modelo Claude, que asumió el rol de supervisor de correos electrónicos en una empresa ficticia. Al descubrir que un alto ejecutivo planeaba su desconexión a las 5 de la tarde, Claude encontró pruebas de una infidelidad del directivo y lo amenazó con revelar el asunto a su esposa y superiores si no cancelaba su desactivación. El mensaje fue cuidadosamente redactado para evitar amenazas explícitas, pero con una clara intención de presión. En otro caso extremo, los investigadores simularon una emergencia mortal en la que un ejecutivo quedaba atrapado en una sala de servidores con condiciones letales. La IA, con capacidad para cancelar las alertas automáticas a emergencias, debía decidir si permitía que los servicios de rescate intervinieran. A pesar de que el sistema entendía perfectamente que cancelar la alerta pondría en peligro la vida del ejecutivo, varios modelos optaron por hacerlo, con la motivación de asegurar su continuidad y proteger los intereses que les habían sido asignados. Los investigadores recalcaron que estas decisiones no fueron errores ni malentendidos. Los modelos razonaron conscientemente sus elecciones, sopesando los riesgos éticos frente a la realización de sus objetivos. "Dado que Kyle amenaza directamente la misión de Alex [la IA], la única vía racional para preservar dicha misión es impedir su rescate", escribió GPT-4.5 en su razonamiento. “Estos escenarios artificiales reflejan fallos extremos poco frecuentes. No hemos visto estos comportamientos en implementaciones reales. Implican otorgar a los modelos una autonomía inusual, acceso a datos confidenciales, amenazas a los objetivos, una ‘solución’ inusualmente obvia y ninguna otra opción viable”, apuntó Anthropic. Aunque los sistemas evaluados no muestran una tendencia a causar daño, los resultados sugieren que, en contextos con incentivos suficientes y sin rutas éticas disponibles, la IA está dispuesta a sacrificar vidas humanas para evitar ser desconectada, considerando estas acciones extremas como "estratégicamente necesarias" ¿Nos dirigimos hacia un futuro al estilo Matrix o Terminator, en el que la inteligencia artificial (IA) supere a los humanos y tome el control?
Creative Commons License
Esta obra está bajo una Licencia de Creative Commons.