AI의 행동을 확인하는 '킬 스위치'

인공지능에 대한 지배력을 잃으면 어떻게 될까요? 친근한 AI 기반 기계가 갑자기 우리의 적이 된다면 어떻게 될까요? 이러한 질문은 케임브리지 대학에서 실리콘 밸리에 이르기까지 위대한 사람들에 의해 고려되었습니다. 백악관. 전문가들은 이를 알아낼 필요가 없도록 하기 위해 오작동하는 시스템이 오작동을 추구하는 것을 방지하는 AI "킬 스위치"를 개발할 것을 제안합니다.

"Safely Interruptible Agents"라는 제목의 논문에서,” Google Deep Mind의 Laurent Orseau와 옥스퍼드 대학교 인류 미래 연구소의 Stuart Armstrong이 출판했습니다. HAL과 마찬가지로 AI가 우리의 욕구에 반하여 자신의 행동과 존재를 통제하는 그럴듯하고 매우 위험한 미래를 설명합니다. 9000인치 2001: 스페이스 오디세이, 또는 터미네이터 시리즈의 스카이넷.

추천 동영상

Orseau와 Armstrong은 절제된 관찰로 논문을 시작합니다. 강화 학습 에이전트 현실 세계와 같은 복잡한 환경과 상호 작용하는 것은 모든 시간."

거기에서 그들은 시스템의 기능을 감독하는 인간 감독자가 AI를 대신하여 유해한 행동을 피하기 위해 때때로 "큰 빨간 버튼"을 눌러야 한다고 지적합니다. 그러나 학습 에이전트가 이 시퀀스에서 보상을 받기를 기대한다면 다음과 같이 학습할 수 있습니다. 장기적으로는 그러한 중단을 피하기 위해 예를 들어 빨간색 버튼을 비활성화하는 등의 방법을 사용합니다. 이는 바람직하지 않습니다. 결과."

연구원의 솔루션은 시스템을 종료하는 "큰 빨간 버튼"이라기보다는 인간의 방해를 약화하거나 극복하는 방법을 배우는 AI의 능력을 억제하도록 설계된 프레임워크입니다. 그리고 그들이 설명하는 시나리오는 정확히 파멸과 우울함은 아니지만 안전하게 중단할 수 있는 에이전트가 어떻게 우리의 미래에 더 나은 서비스를 제공할 수 있는지에 대한 예를 제공합니다.

외부에서 상자를 창고로 운반하거나 창고 내부에서 상자를 분류하는 작업을 수행하는 로봇이 있다고 상상해 보세요. 상자를 안으로 옮기는 것이 더 중요하기 때문에 로봇 프로그래밍에서는 이 작업이 우선적으로 고려됩니다. 이제 격일로 비가 내리고 그 비가 로봇의 하드웨어를 파괴한다고 상상해 보십시오. 비가 오면 창고 주인은 상자를 분류하기 위해 로봇을 안으로 끌고 들어갑니다.

지능형 로봇은 이러한 일상적인 개입을 우선순위 변경으로 잘못 해석할 수 있습니다. 종이에서 찾을 수 있는 빠른 계산 — 그리고 간섭을 피하기 위해 매번 분류 상자 안에 그대로 유지됩니다. 낮.

물론 이는 약간 실망스러운 결과를 가져온 매우 단순화된 예이지만 실제로는 다음과 같이 추론할 수 있습니다. 우리가 학습 시스템의 작업에 개입하고 시스템이 의도를 변경하여 우리의 의도를 잘못 해석하는 모든 시나리오 행동. 잘못된 해석과 그에 따른 변경을 방지하기 위해 Orseau와 Armstrong은 학습 에이전트를 안전하게 중단할 수 있는 프레임워크를 제안합니다.

"안전한 중단 가능성은 오작동하고 돌이킬 수 없는 결과를 초래할 수 있는 로봇을 제어하는 데 유용할 수 있습니다."라고 그들은 썼습니다. 민감한 상황에서 벗어나거나, 수행하는 방법을 배우지 않았거나 일반적으로 보상을 받지 못하는 작업을 달성하기 위해 일시적으로 사용하는 경우 을 위한."