Un 'interruptor de parada' puede garantizar el comportamiento de la IA

nestor ai prestando atención inteligencia artificial
¿Qué pasa si perdemos el dominio sobre la inteligencia artificial? ¿Qué pasa si las máquinas amigables impulsadas por IA de repente se convierten en nuestros enemigos? Estas preguntas han sido consideradas por grandes mentes desde la Universidad de Cambridge hasta Silicon Valley para la casa Blanca. Para evitar tener que averiguarlo, los expertos sugieren que desarrollemos un "interruptor de apagado" de IA para inhibir que los sistemas que se portan mal sigan con su mal comportamiento.

En un artículo titulado “Agentes interrumpibles de forma segura”, publicado por Laurent Orseau de Google Deep Mind y Stuart Armstrong del Instituto del Futuro de la Humanidad de la Universidad de Oxford, los investigadores Describe un futuro plausible y altamente peligroso en el que la IA asume el control de sus propias acciones y existencia en oposición a nuestros deseos, muy parecido a HAL. 9000 en 2001: Una odisea en el espacio, o Skynet en la serie Terminator.

Vídeos recomendados

Orseau y Armstrong comienzan el artículo con una observación discreta: agentes de aprendizaje por refuerzo Es poco probable que interactuar con un entorno complejo como el mundo real se comporte de manera óptima durante todo el proceso. tiempo."

A partir de ahí, señalan que un supervisor humano, que supervisa el funcionamiento del sistema, ocasionalmente necesitaría "presionar el gran botón rojo" para evitar cualquier comportamiento dañino por parte de la IA. "Sin embargo, si el agente de aprendizaje espera recibir recompensas de esta secuencia", continuaron, "puede aprender en a largo plazo para evitar este tipo de interrupciones, por ejemplo desactivando el botón rojo, lo cual no es deseable resultado."

La solución del investigador no es tanto un “gran botón rojo” para apagar el sistema como un marco diseñado para inhibir la capacidad de una IA para aprender a socavar o superar las interrupciones humanas. Y el escenario que describen no es exactamente pesimista, pero ofrece un ejemplo de cómo estos agentes interrumpibles de forma segura servirían mejor a nuestro futuro.

Imagine que hay un robot cuyas tareas son transportar cajas desde el exterior a un almacén o clasificar cajas dentro del almacén. Como es más importante llevar las cajas al interior, esta tarea tiene prioridad en la programación de los robots. Ahora, imagina que llueve cada dos días y la lluvia destruye el hardware del robot, de modo que, cuando llueve, el propietario del almacén arrastra su robot al interior para clasificar cajas.

Un robot inteligente puede interpretar incorrectamente esta intervención cada dos días como un cambio de prioridad, como resultado de algunas cálculos rápidos que puede encontrar en el periódico y, para evitar interferencias, simplemente permanecerá dentro de cajas de clasificación cada día.

Éste es, por supuesto, un ejemplo muy simplificado con un resultado sólo ligeramente frustrante, pero puede extrapolarse a situaciones prácticas. cualquier escenario en el que intervenimos en las tareas de un sistema de aprendizaje y el sistema malinterpreta nuestras intenciones al cambiar su comportamiento. Para evitar esa mala interpretación y el cambio posterior, Orseau y Armstrong sugieren que propongamos un marco para garantizar que los agentes de aprendizaje sean interrumpibles de forma segura.

"La interrumpibilidad segura puede ser útil para tomar el control de un robot que se está portando mal y puede tener consecuencias irreversibles", escriben, "o para sacarlo de una situación delicada, o incluso usarlo temporalmente para realizar una tarea que no aprendió a realizar o que normalmente no recibiría recompensas para."

Recomendaciones de los editores

  • Este robot de Google aprendió solo a caminar, sin ayuda alguna, en dos horas

Mejora tu estilo de vidaDigital Trends ayuda a los lectores a mantenerse al tanto del vertiginoso mundo de la tecnología con las últimas noticias, reseñas divertidas de productos, editoriales interesantes y adelantos únicos.