DeepMind กลายเป็นสิ่งที่ไม่จริงด้วยตัวแทน AI ใหม่ที่เรียนรู้อย่างรวดเร็ว

DeepMind - การเรียนรู้แบบเสริมกำลังด้วยงานเสริมที่ไม่มีผู้ดูแล

DeepMind ของ Google เผยแพร่บทความในสัปดาห์นี้ชื่อ การเรียนรู้แบบเสริมกำลังด้วยงานเสริมที่ไม่มีผู้ดูแลซึ่งอธิบายวิธีการเพิ่มความเร็วในการเรียนรู้ของปัญญาประดิษฐ์และประสิทธิภาพขั้นสุดท้ายของตัวแทนหรือบอท วิธีการนี้รวมถึงการเพิ่มงานเพิ่มเติมสองงานหลักที่จะดำเนินการในขณะที่ AI ฝึก และสร้างบนความลึกมาตรฐาน รากฐานการเรียนรู้แบบเสริมกำลัง ซึ่งโดยพื้นฐานแล้วเป็นวิธีการให้รางวัล/การลงโทษแบบลองผิดลองถูกซึ่ง AI เรียนรู้จาก ความผิดพลาด

ภารกิจแรกที่เพิ่มเข้ามาเพื่อเร่งการเรียนรู้ AI คือความสามารถในการเข้าใจวิธีควบคุมพิกเซลบนหน้าจอ จากข้อมูลของ DeepMind วิธีนี้คล้ายกับวิธีที่ทารกเรียนรู้ที่จะควบคุมมือของตนโดยการขยับและสังเกตการเคลื่อนไหวเหล่านั้น ในกรณีของ AI บอทจะเข้าใจการป้อนข้อมูลด้วยภาพโดยการควบคุมพิกเซล ซึ่งนำไปสู่คะแนนที่ดีขึ้น

วิดีโอแนะนำ

“ลองนึกถึงทารกที่เรียนรู้ที่จะเพิ่มปริมาณสีแดงสะสมที่สังเกตได้ ในการทำนายค่าที่เหมาะสมได้อย่างถูกต้อง ทารกจะต้องเข้าใจวิธีเพิ่ม "รอยแดง" ด้วยวิธีการต่างๆ รวมถึงการยักย้าย (นำวัตถุสีแดงเข้ามาใกล้ดวงตา) การเคลื่อนไหว (เคลื่อนที่ไปด้านหน้าวัตถุสีแดง); และการสื่อสาร (ร้องไห้จนผู้ปกครองนำวัตถุสีแดงมา)” รายงานของ DeepMind ระบุ “พฤติกรรมเหล่านี้มีแนวโน้มที่จะเกิดขึ้นอีกสำหรับเป้าหมายอื่นๆ ที่ทารกอาจเผชิญในภายหลัง”

ที่เกี่ยวข้อง

บอทนี้จะทำลายคุณที่ Pictionary นอกจากนี้ยังถือเป็นก้าวสำคัญสำหรับ A.I.
DeepMind ของ Google กำลังฝึกอบรมรถยนต์ไร้คนขับของ Waymo เช่น บอท StarCraft II
Google พบวิธีใช้ A.I. เพื่อเพิ่มคุณประโยชน์ของพลังงานลม

งานที่เพิ่มเข้ามาครั้งที่สองใช้เพื่อฝึก AI ให้คาดการณ์ว่ารางวัลที่ได้รับทันทีจะอิงจากประวัติโดยย่อของการดำเนินการก่อนหน้านี้ เพื่อเปิดใช้งานสิ่งนี้ ทีมงานได้จัดเตรียมประวัติการให้รางวัลและประวัติที่ไม่ให้รางวัลในจำนวนที่เท่ากัน ผลลัพธ์ที่ได้คือ AI สามารถค้นพบคุณสมบัติด้านภาพที่อาจนำไปสู่การได้รับรางวัลเร็วขึ้นกว่าเดิม

“เพื่อการเรียนรู้อย่างมีประสิทธิภาพมากขึ้น ตัวแทนของเราใช้กลไกการเล่นซ้ำประสบการณ์เพื่อให้ข้อมูลอัปเดตเพิ่มเติมแก่นักวิจารณ์ เช่นเดียวกับที่สัตว์ต่างๆ ฝันถึงเหตุการณ์การให้รางวัลทั้งเชิงบวกและเชิงลบบ่อยขึ้น ตัวแทนของเราก็มักจะเล่นซ้ำลำดับเหตุการณ์ที่มีการให้รางวัล” รายงานกล่าวเสริม

ด้วยงานเสริมสองงานนี้ที่เพิ่มเข้าไปในเอเจนต์ A3C ก่อนหน้า ผลลัพธ์เอเจนต์/บอทใหม่จะขึ้นอยู่กับสิ่งที่ทีมเรียกว่า Unreal (การเสริมกำลังโดยไม่ได้รับการดูแลและการเรียนรู้เสริม) ทีมงานแทบจะนั่งบอทนี้ไว้หน้าเกม Atari 57 เกมและอีกเกมหนึ่งแยกกัน วูลเฟนสไตน์เกมเขาวงกตเหมือนประกอบด้วย 13 ระดับ ในทุกสถานการณ์ บอทจะได้รับอิมเมจเอาท์พุต RGB แบบ Raw ซึ่งให้การเข้าถึงพิกเซลได้โดยตรงเพื่อความแม่นยำ 100 เปอร์เซ็นต์ บอท Unreal ได้รับรางวัลทั่วกระดานสำหรับงานต่างๆ เช่น การยิงเอเลี่ยนเข้ามา ผู้รุกรานพื้นที่ เพื่อคว้าแอปเปิ้ลในเขาวงกตสามมิติ

เนื่องจากบอต Unreal สามารถควบคุมพิกเซลและคาดการณ์ได้ว่าการกระทำจะให้รางวัลหรือไม่ จึงสามารถเรียนรู้ได้เร็วกว่าตัวแทนที่ดีที่สุดก่อนหน้าของ DeepMind (A3C) ถึง 10 เท่า ยิ่งไปกว่านั้นยังสร้างผลงานได้ดีกว่าแชมป์เก่าอีกด้วย

“ตอนนี้เราสามารถบรรลุถึง 87 เปอร์เซ็นต์ของสมรรถนะของมนุษย์ในระดับผู้เชี่ยวชาญโดยเฉลี่ยในระดับเขาวงกตที่เราพิจารณา โดยมีสมรรถนะเหนือมนุษย์ในจำนวนหนึ่ง” บริษัทกล่าว “บน Atari ตอนนี้เอเจนต์ได้รับประสิทธิภาพการทำงานของมนุษย์โดยเฉลี่ย 9 เท่า”

DeepMind มีความหวัง งานที่เข้าสู่ Unreal bot จะช่วยให้ทีมขยายขนาดตัวแทน/บอททั้งหมดเพื่อจัดการกับสภาพแวดล้อมที่ซับซ้อนยิ่งขึ้นในอนาคตอันใกล้นี้ ในระหว่างนี้ ให้ดูวิดีโอที่ฝังอยู่ด้านบนซึ่งแสดงให้ AI เคลื่อนที่ผ่านเขาวงกตและหยิบแอปเปิ้ลด้วยตัวมันเองโดยไม่มีการแทรกแซงของมนุษย์

คำแนะนำของบรรณาธิการ

หมากรุก. อันตราย. ไป. เหตุใดเราจึงใช้เกมเป็นเกณฑ์มาตรฐานสำหรับ A.I.
ทบทวนการเติบโตของ A.I.: ปัญญาประดิษฐ์มาไกลแค่ไหนแล้วนับตั้งแต่ปี 2010
DeepMind A.I. ของ Google เอาชนะคู่ต่อสู้ที่เป็นมนุษย์ใน Quake III Capture the Flag

อัพเกรดไลฟ์สไตล์ของคุณDigital Trends ช่วยให้ผู้อ่านติดตามโลกแห่งเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็วด้วยข่าวสารล่าสุด รีวิวผลิตภัณฑ์สนุกๆ บทบรรณาธิการที่เจาะลึก และการแอบดูที่ไม่ซ้ำใคร

DeepMind กลายเป็นสิ่งที่ไม่จริงด้วยตัวแทน AI ใหม่ที่เรียนรู้อย่างรวดเร็ว

คำแนะนำของบรรณาธิการ

หมวดหมู่

ล่าสุด

ดาวเคราะห์นรกที่ปกคลุมด้วยลาวาเข้าใกล้ดาวฤกษ์ได้อย่างไร

การปราบปรามการแชร์รหัสผ่าน YouTube TV น่าจะเป็นข้อบกพร่อง

PS Plus เพิ่ม Grand Theft Auto: Vice City และผู้โจมตีที่หนักหน่วงมากขึ้น