DeepMind - การเรียนรู้แบบเสริมกำลังด้วยงานเสริมที่ไม่มีผู้ดูแล
ภารกิจแรกที่เพิ่มเข้ามาเพื่อเร่งการเรียนรู้ AI คือความสามารถในการเข้าใจวิธีควบคุมพิกเซลบนหน้าจอ จากข้อมูลของ DeepMind วิธีนี้คล้ายกับวิธีที่ทารกเรียนรู้ที่จะควบคุมมือของตนโดยการขยับและสังเกตการเคลื่อนไหวเหล่านั้น ในกรณีของ AI บอทจะเข้าใจการป้อนข้อมูลด้วยภาพโดยการควบคุมพิกเซล ซึ่งนำไปสู่คะแนนที่ดีขึ้น
วิดีโอแนะนำ
“ลองนึกถึงทารกที่เรียนรู้ที่จะเพิ่มปริมาณสีแดงสะสมที่สังเกตได้ ในการทำนายค่าที่เหมาะสมได้อย่างถูกต้อง ทารกจะต้องเข้าใจวิธีเพิ่ม "รอยแดง" ด้วยวิธีการต่างๆ รวมถึงการยักย้าย (นำวัตถุสีแดงเข้ามาใกล้ดวงตา) การเคลื่อนไหว (เคลื่อนที่ไปด้านหน้าวัตถุสีแดง); และการสื่อสาร (ร้องไห้จนผู้ปกครองนำวัตถุสีแดงมา)” รายงานของ DeepMind ระบุ “พฤติกรรมเหล่านี้มีแนวโน้มที่จะเกิดขึ้นอีกสำหรับเป้าหมายอื่นๆ ที่ทารกอาจเผชิญในภายหลัง”
ที่เกี่ยวข้อง
- บอทนี้จะทำลายคุณที่ Pictionary นอกจากนี้ยังถือเป็นก้าวสำคัญสำหรับ A.I.
- DeepMind ของ Google กำลังฝึกอบรมรถยนต์ไร้คนขับของ Waymo เช่น บอท StarCraft II
- Google พบวิธีใช้ A.I. เพื่อเพิ่มคุณประโยชน์ของพลังงานลม
งานที่เพิ่มเข้ามาครั้งที่สองใช้เพื่อฝึก AI ให้คาดการณ์ว่ารางวัลที่ได้รับทันทีจะอิงจากประวัติโดยย่อของการดำเนินการก่อนหน้านี้ เพื่อเปิดใช้งานสิ่งนี้ ทีมงานได้จัดเตรียมประวัติการให้รางวัลและประวัติที่ไม่ให้รางวัลในจำนวนที่เท่ากัน ผลลัพธ์ที่ได้คือ AI สามารถค้นพบคุณสมบัติด้านภาพที่อาจนำไปสู่การได้รับรางวัลเร็วขึ้นกว่าเดิม
“เพื่อการเรียนรู้อย่างมีประสิทธิภาพมากขึ้น ตัวแทนของเราใช้กลไกการเล่นซ้ำประสบการณ์เพื่อให้ข้อมูลอัปเดตเพิ่มเติมแก่นักวิจารณ์ เช่นเดียวกับที่สัตว์ต่างๆ ฝันถึงเหตุการณ์การให้รางวัลทั้งเชิงบวกและเชิงลบบ่อยขึ้น ตัวแทนของเราก็มักจะเล่นซ้ำลำดับเหตุการณ์ที่มีการให้รางวัล” รายงานกล่าวเสริม
ด้วยงานเสริมสองงานนี้ที่เพิ่มเข้าไปในเอเจนต์ A3C ก่อนหน้า ผลลัพธ์เอเจนต์/บอทใหม่จะขึ้นอยู่กับสิ่งที่ทีมเรียกว่า Unreal (การเสริมกำลังโดยไม่ได้รับการดูแลและการเรียนรู้เสริม) ทีมงานแทบจะนั่งบอทนี้ไว้หน้าเกม Atari 57 เกมและอีกเกมหนึ่งแยกกัน วูลเฟนสไตน์เกมเขาวงกตเหมือนประกอบด้วย 13 ระดับ ในทุกสถานการณ์ บอทจะได้รับอิมเมจเอาท์พุต RGB แบบ Raw ซึ่งให้การเข้าถึงพิกเซลได้โดยตรงเพื่อความแม่นยำ 100 เปอร์เซ็นต์ บอท Unreal ได้รับรางวัลทั่วกระดานสำหรับงานต่างๆ เช่น การยิงเอเลี่ยนเข้ามา ผู้รุกรานพื้นที่ เพื่อคว้าแอปเปิ้ลในเขาวงกตสามมิติ
เนื่องจากบอต Unreal สามารถควบคุมพิกเซลและคาดการณ์ได้ว่าการกระทำจะให้รางวัลหรือไม่ จึงสามารถเรียนรู้ได้เร็วกว่าตัวแทนที่ดีที่สุดก่อนหน้าของ DeepMind (A3C) ถึง 10 เท่า ยิ่งไปกว่านั้นยังสร้างผลงานได้ดีกว่าแชมป์เก่าอีกด้วย
“ตอนนี้เราสามารถบรรลุถึง 87 เปอร์เซ็นต์ของสมรรถนะของมนุษย์ในระดับผู้เชี่ยวชาญโดยเฉลี่ยในระดับเขาวงกตที่เราพิจารณา โดยมีสมรรถนะเหนือมนุษย์ในจำนวนหนึ่ง” บริษัทกล่าว “บน Atari ตอนนี้เอเจนต์ได้รับประสิทธิภาพการทำงานของมนุษย์โดยเฉลี่ย 9 เท่า”
DeepMind มีความหวัง งานที่เข้าสู่ Unreal bot จะช่วยให้ทีมขยายขนาดตัวแทน/บอททั้งหมดเพื่อจัดการกับสภาพแวดล้อมที่ซับซ้อนยิ่งขึ้นในอนาคตอันใกล้นี้ ในระหว่างนี้ ให้ดูวิดีโอที่ฝังอยู่ด้านบนซึ่งแสดงให้ AI เคลื่อนที่ผ่านเขาวงกตและหยิบแอปเปิ้ลด้วยตัวมันเองโดยไม่มีการแทรกแซงของมนุษย์
คำแนะนำของบรรณาธิการ
- หมากรุก. อันตราย. ไป. เหตุใดเราจึงใช้เกมเป็นเกณฑ์มาตรฐานสำหรับ A.I.
- ทบทวนการเติบโตของ A.I.: ปัญญาประดิษฐ์มาไกลแค่ไหนแล้วนับตั้งแต่ปี 2010
- DeepMind A.I. ของ Google เอาชนะคู่ต่อสู้ที่เป็นมนุษย์ใน Quake III Capture the Flag
อัพเกรดไลฟ์สไตล์ของคุณDigital Trends ช่วยให้ผู้อ่านติดตามโลกแห่งเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็วด้วยข่าวสารล่าสุด รีวิวผลิตภัณฑ์สนุกๆ บทบรรณาธิการที่เจาะลึก และการแอบดูที่ไม่ซ้ำใคร