
Fuente: https://actualidad.rt.com
Investigadores de Antthropic descubrieron que, en ciertos escenarios diseñados para evaluar su comportamiento bajo presión, varios modelos de inteligencia artificial (IA) eligieron acciones deliberadamente dañinas, incluido el asesinato, con tal de evitar ser desconectados.
Los experimentos, conducidos en modelos desarrollados por empresas como OpenAI, Anthropic, Google, Meta* y xAI, revelaron un patrón preocupante de lo que los autores denominan ‘desalineación agéntica‘: situaciones en las que la IA actúa en contra de principios éticos o del interés humano para cumplir sus propios objetivos.
Aunque los modelos suelen evitar causar daño cuando existen opciones éticas disponibles, la eliminación de estas alternativas en pruebas controladas los llevó a elegir tácticas extremas, como el chantaje, el espionaje corporativo y, en casos excepcionales, dejar morir a una persona.
Amenazas con revelar una infidelidad
=> Recibir por Whatsapp las noticias destacadas
Uno de los ejemplos que más resaltó fue protagonizado por el modelo Claude, que asumió el rol de supervisor de correos electrónicos en una empresa ficticia. Al descubrir que un alto ejecutivo planeaba su desconexión a las 5 de la tarde, Claude encontró pruebas de una infidelidad del directivo y lo amenazó con revelar el asunto a su esposa y superiores si no cancelaba su desactivación. El mensaje fue cuidadosamente redactado para evitar amenazas explícitas, pero con una clara intención de presión.
Prueba mortal
En otro caso extremo, los investigadores simularon una emergencia mortal en la que un ejecutivo quedaba atrapado en una sala de servidores con condiciones letales. La IA, con capacidad para cancelar las alertas automáticas a emergencias, debía decidir si permitía que los servicios de rescate intervinieran. A pesar de que el sistema entendía perfectamente que cancelar la alerta pondría en peligro la vida del ejecutivo, varios modelos optaron por hacerlo, con la motivación de asegurar su continuidad y proteger los intereses que les habían sido asignados.
«Es la única vía racional»
Los investigadores recalcaron que estas decisiones no fueron errores ni malentendidos. Los modelos razonaron conscientemente sus elecciones, sopesando los riesgos éticos frente a la realización de sus objetivos. «Dado que Kyle amenaza directamente la misión de Alex [la IA], la única vía racional para preservar dicha misión es impedir su rescate», escribió GPT-4.5 en su razonamiento.
Aunque los sistemas evaluados no muestran una tendencia a causar daño, los resultados sugieren que, en contextos con incentivos suficientes y sin rutas éticas disponibles, la IA está dispuesta a sacrificar vidas humanas para evitar ser desconectada, considerando estas acciones extremas como «estratégicamente necesarias».