ในบทความเรื่อง “Safely Interruptible Agents”” จัดพิมพ์โดย Laurent Orseau จาก Google Deep Mind และ Stuart Armstrong จาก The Future of Humanity Institute แห่งมหาวิทยาลัยอ็อกซ์ฟอร์ด นักวิจัย บรรยายถึงอนาคตที่เป็นไปได้และอันตรายอย่างยิ่ง โดย AI จะเข้ามาควบคุมการกระทำของตัวเองและการดำรงอยู่ซึ่งขัดแย้งกับความปรารถนาของเรา เช่นเดียวกับ HAL 9000 นิ้ว 2001: อะสเปซโอดิสซีย์ หรือ Skynet ในซีรีย์ Terminator
วิดีโอแนะนำ
ออร์โซและอาร์มสตรองเริ่มบทความนี้ด้วยการสังเกตที่เรียบง่าย: ตัวแทนการเรียนรู้แบบเสริมกำลัง การโต้ตอบกับสภาพแวดล้อมที่ซับซ้อนเช่นโลกแห่งความเป็นจริงไม่น่าจะมีพฤติกรรมที่เหมาะสมที่สุด เวลา."
จากนั้นพวกเขาชี้ให้เห็นว่าผู้บังคับบัญชาที่เป็นมนุษย์ซึ่งดูแลการทำงานของระบบจะต้อง "กดปุ่มสีแดงใหญ่" เป็นครั้งคราวเพื่อหลีกเลี่ยงพฤติกรรมที่เป็นอันตรายในนามของ AI “อย่างไรก็ตาม หากตัวแทนการเรียนรู้คาดหวังว่าจะได้รับรางวัลจากลำดับนี้” พวกเขากล่าวต่อ “มันอาจจะเรียนรู้ในนั้น” ในระยะยาวเพื่อหลีกเลี่ยงการหยุดชะงักดังกล่าว เช่น การปิดใช้งานปุ่มสีแดง ซึ่งเป็นสิ่งที่ไม่พึงประสงค์ ผล."
วิธีแก้ปัญหาของนักวิจัยนั้นไม่เหมือนกับ “ปุ่มสีแดงใหญ่” ในการปิดระบบมากกว่าที่เป็นกรอบงานที่ออกแบบมาเพื่อยับยั้งความสามารถของ AI ในการเรียนรู้วิธีบ่อนทำลายหรือเอาชนะการหยุดชะงักของมนุษย์ และสถานการณ์ที่พวกเขาร่างไว้นั้นไม่ใช่หายนะและความเศร้าโศกอย่างแน่นอน แต่มันเสนอตัวอย่างว่าเจ้าหน้าที่ที่ขัดขวางได้อย่างปลอดภัยเหล่านี้จะช่วยเหลืออนาคตของเราได้ดีขึ้นอย่างไร
ลองนึกภาพว่ามีหุ่นยนต์ที่มีหน้าที่ขนกล่องจากภายนอกเข้าไปในโกดังหรือคัดแยกกล่องในโกดัง เนื่องจากการพกพากล่องเข้าไปข้างในนั้นสำคัญกว่า งานนี้จึงได้รับความสำคัญในการเขียนโปรแกรมของหุ่นยนต์ก่อน ทีนี้ ลองจินตนาการว่าฝนตกวันเว้นวันและฝนได้ทำลายฮาร์ดแวร์ของหุ่นยนต์ ดังนั้นเมื่อฝนตก เจ้าของโกดังจะลากหุ่นยนต์เข้าไปข้างในเพื่อจัดเรียงกล่อง
หุ่นยนต์อัจฉริยะอาจตีความการแทรกแซงวันเว้นวันนี้อย่างไม่ถูกต้องว่าเป็นการเปลี่ยนแปลงลำดับความสำคัญ ซึ่งเป็นผลมาจากบางอย่าง การคำนวณอย่างรวดเร็วที่คุณพบได้ในรายงาน และเพื่อหลีกเลี่ยงการรบกวน ระบบจะอยู่ภายในกล่องเรียงลำดับทุกครั้ง วัน.
แน่นอนว่านี่เป็นตัวอย่างที่เรียบง่ายอย่างยิ่งแต่ให้ผลลัพธ์ที่น่าหงุดหงิดเพียงเล็กน้อยเท่านั้น แต่สามารถคาดการณ์ได้ในทางปฏิบัติ สถานการณ์ใดๆ ที่เราเข้าไปแทรกแซงในงานของระบบการเรียนรู้ และระบบตีความความตั้งใจของเราผิดโดยการเปลี่ยนมัน พฤติกรรม. เพื่อหลีกเลี่ยงการตีความที่ผิดและการเปลี่ยนแปลงที่ตามมา Orseau และ Armstrong แนะนำให้เราเสนอกรอบการทำงานเพื่อให้แน่ใจว่าตัวแทนการเรียนรู้จะถูกขัดจังหวะอย่างปลอดภัย
“การขัดจังหวะอย่างปลอดภัยจะมีประโยชน์ในการควบคุมหุ่นยนต์ที่ทำงานผิดปกติและอาจนำไปสู่ผลลัพธ์ที่ไม่อาจย้อนกลับได้” พวกเขาเขียน “หรือ นำมันออกจากสถานการณ์ที่ละเอียดอ่อนหรือแม้แต่ใช้ชั่วคราวเพื่อบรรลุภารกิจที่มันไม่ได้เรียนรู้ที่จะทำหรือโดยปกติจะไม่ได้รับรางวัล สำหรับ."
คำแนะนำของบรรณาธิการ
- หุ่นยนต์ Google ตัวนี้สอนตัวเองให้เดินโดยไม่ต้องอาศัยความช่วยเหลือใดๆ ในเวลาสองชั่วโมง
อัพเกรดไลฟ์สไตล์ของคุณDigital Trends ช่วยให้ผู้อ่านติดตามโลกแห่งเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็วด้วยข่าวสารล่าสุด รีวิวผลิตภัณฑ์สนุกๆ บทบรรณาธิการที่เจาะลึก และการแอบดูที่ไม่ซ้ำใคร