ภาพลวงตาสามารถช่วยให้เราสร้าง AI รุ่นใหม่ได้

คุณดูภาพวงกลมสีดำบนตารางจุดวงกลม มันมีลักษณะคล้ายกับรูที่ถูกเผาเป็นชิ้นวัสดุตาข่ายสีขาว แม้ว่าจริงๆ แล้วมันจะเป็นภาพแบนนิ่งบนหน้าจอหรือแผ่นกระดาษก็ตาม แต่สมองของคุณไม่เข้าใจมันแบบนั้น เช่นเดียวกับประสบการณ์หลอนประสาทในระดับต่ำ จิตใจของคุณก็จะหลุดลอยไป รับรู้ภาพนิ่งเป็นปากอุโมงค์สีดำที่กำลังเคลื่อนเข้ามาหาคุณ

สารบัญ

ขอบวิวัฒนาการ
วิชันซิสเต็มเริ่มดีขึ้น
การทดสอบทัวริงสำหรับวิชันซิสเต็ม
ใช้ภาพลวงตาของคุณ
บรรลุวิสัยทัศน์ทั่วไป

เมื่อตอบสนองต่อความจริงของผลกระทบ ร่างกายก็เริ่มตอบสนองโดยไม่รู้ตัว รูม่านตาขยายออกเพื่อให้ แสงเข้าได้มากขึ้น เช่นเดียวกับที่แสงจะปรับหากคุณกำลังจะจมดิ่งลงไปในความมืดเพื่อให้แน่ใจว่าจะเป็นไปได้ดีที่สุด วิสัยทัศน์.

ผลกระทบที่เป็นปัญหาถูกสร้างขึ้นโดย อากิโยชิ คิตะโอกะนักจิตวิทยาจากมหาวิทยาลัย Ritsumeikan ในเมืองโกเบ ประเทศญี่ปุ่น นี่เป็นหนึ่งในภาพลวงตามากมายที่เขาสร้างขึ้นตลอดอาชีพการงานอันยาวนาน (“ฉันชอบพวกเขาทั้งหมด” เขากล่าวโดยตอบคำถามของ Digital Trend ว่าเขามีรายการโปรดหรือไม่)

วิดีโอแนะนำ

ภาพลวงตาใหม่นี้เป็นหัวข้อของงานวิจัยที่ตีพิมพ์เมื่อเร็วๆ นี้ ในวารสาร Frontiers in Human Neuroscience

. แม้ว่าบทความนี้จะเน้นไปที่การตอบสนองทางสรีรวิทยาของมนุษย์ต่อผลกระทบที่เกิดขึ้นใหม่ (ซึ่งปรากฎว่าประมาณ 86 เปอร์เซ็นต์ของพวกเราจะต้องประสบ) หัวข้อโดยรวมอาจมีความเกี่ยวข้องอย่างมากเมื่อพูดถึงอนาคตของสติปัญญาของเครื่องจักร เนื่องจากหนึ่งในนักวิจัยกระตือรือร้นที่จะอธิบายให้ Digital ฟัง เทรนด์

ขอบวิวัฒนาการ

ภาพลวงตาที่เรียกว่าเกลียวเฟรเซอร์ — เมื่อมองแวบแรกอาจดูเหมือนกับว่าภาพนี้แสดงเกลียวที่หมุนเข้าหาศูนย์กลาง แต่ลองลากตามเส้นใดเส้นหนึ่งเพราะมันดูเหมือนโค้งเข้าด้านใน แล้วคุณจะรู้ว่ามันไม่ใช่เกลียวเลย

มีบางอย่างผิดปกติกับสมองของคุณ อย่างน้อย นั่นเป็นข้อสรุปง่ายๆ ประการหนึ่งที่ได้จากวิธีที่สมองของมนุษย์รับรู้ภาพลวงตา มีคำอธิบายอะไรอีกสำหรับภาพนิ่งสองมิติที่สมองรับรู้ว่าเป็นสิ่งที่แตกต่างไปจากเดิมอย่างสิ้นเชิง เป็นเวลานานแล้วที่จิตวิทยากระแสหลักคิดอย่างนั้น

“ในตอนแรกผู้คนคิดว่า 'เอาล่ะ สมองของเราไม่ได้สมบูรณ์แบบ … มันไม่ได้ถูกเสมอไป' นั่นคือความล้มเหลวใช่ไหม” พูดว่า บรูโน่ แลงศาสตราจารย์ภาควิชาจิตวิทยาแห่งมหาวิทยาลัยออสโลและเป็นผู้เขียนงานวิจัยชิ้นแรกข้างต้น “ภาพลวงตาในกรณีนั้นน่าสนใจเพราะว่ามันจะเผยให้เห็นความไม่สมบูรณ์บางอย่างในเครื่องจักร”

สมองไม่มีทางรู้ว่ามีอะไร [จริงๆ] ข้างนอกนั่น”

นักจิตวิทยาไม่มองสิ่งเหล่านี้อีกต่อไป หากมีสิ่งใด การวิจัยเช่นนี้จะเน้นย้ำว่าระบบภาพไม่ได้เป็นเพียงกล้องที่ตรงไปตรงมาเท่านั้น ภาพลวงตาแบบ "Illusory Expanding Hole" ทำให้ชัดเจนว่าดวงตาปรับตามการรับรู้ แม้กระทั่งจินตนาการ แสงสว่างและความมืด มากกว่าที่จะปรับตามพลังงานทางกายภาพ

สิ่งที่สำคัญที่สุดคือแสดงให้เห็นว่าเราไม่เพียงแค่บันทึกโลกอย่างโง่เขลาด้วยระบบภาพของเราเท่านั้น แต่ยังแสดงให้เห็นว่า แทนที่จะทำการทดลองทางวิทยาศาสตร์อย่างต่อเนื่องเพื่อให้ได้วิวัฒนาการเล็กน้อย ข้อได้เปรียบ. เป้าหมายคือการวิเคราะห์ข้อมูลที่นำเสนอต่อเราและพยายามจัดการกับปัญหาล่วงหน้าก่อนที่จะกลายเป็นปัญหา

“สมองไม่มีทางรู้ได้เลยว่าข้างนอกนั้นมีอะไรอยู่บ้าง” แลงกล่าว “สิ่งที่กำลังทำอยู่คือการสร้างความเป็นจริงเสมือนของสิ่งที่อาจมีอยู่ข้างนอกนั่น มีการคาดเดาเล็กน้อย ในแง่นี้ คุณสามารถมองสมองเป็นเครื่องจักรชนิดหนึ่งได้ คุณสามารถเรียกมันว่าก เบย์เซียน เครื่องถ้าคุณต้องการ มันใช้สมมติฐานก่อนหน้านี้และพยายามทดสอบอยู่ตลอดเวลาเพื่อดูว่ามันได้ผลหรือไม่”

แลงยกตัวอย่างการปรับดวงตาโดยอาศัยแสงจากดวงอาทิตย์ แม้ว่าจะมองผ่านเมฆหมอกหรือใบไม้เหนือศีรษะก็ตาม เผื่อไว้.

“สิ่งสำคัญในวิวัฒนาการไม่ใช่ว่ามันเป็นเรื่องจริง [ในขณะนั้น] แต่มันน่าจะเป็นไปได้” เขากล่าวต่อ “โดยการบีบรัดรูม่านตา ร่างกายของคุณได้ปรับตัวเข้ากับสถานการณ์ที่มีแนวโน้มว่าจะเกิดขึ้นในช่วงเวลาสั้นๆ แล้ว สิ่งที่เกิดขึ้น (ถ้าจู่ๆ พระอาทิตย์ก็ออกมา) คือคุณตาพร่า Dazzled แปลว่า ไร้ความสามารถชั่วคราว นั่นมีผลกระทบมหาศาลไม่ว่าคุณจะเป็นเหยื่อหรือเป็นผู้ล่าก็ตาม คุณเสียเวลาเพียงเสี้ยววินาทีในสถานการณ์เฉพาะและคุณอาจไม่รอด”

ไม่ใช่แค่แสงสว่างและความมืดเท่านั้นที่ระบบการมองเห็นของเราจำเป็นต้องคาดเดาเช่นกัน ลองนึกถึงเกมเทนนิสที่ลูกบอลเคลื่อนที่ด้วยความเร็วสูง หากเรายึดถือพฤติกรรมของเราโดยยึดตามสิ่งที่ระบบการมองเห็นได้รับในช่วงเวลาใดก็ตาม เราจะล้าหลังความเป็นจริงและไม่สามารถส่งบอลคืนได้ “เราสามารถรับรู้ถึงปัจจุบันได้ แม้ว่าเราจะติดอยู่กับอดีตจริงๆ” แลงกล่าว “วิธีเดียวที่จะทำได้คือการทำนายอนาคต มันฟังดูคล้ายกับเกมคำศัพท์นิดหน่อย แต่นั่นเป็นเพียงบทสรุปเท่านั้น”

วิชันซิสเต็มเริ่มดีขึ้น

แล้วมันเกี่ยวอะไรกับการมองเห็นของคอมพิวเตอร์ล่ะ? เป็นไปได้ทุกอย่าง ตัวอย่างเช่น เพื่อให้หุ่นยนต์สามารถทำงานได้อย่างมีประสิทธิภาพในโลกแห่งความเป็นจริง หุ่นยนต์จะต้องสามารถทำการปรับเปลี่ยนเหล่านี้ได้ทันที คอมพิวเตอร์มีข้อได้เปรียบในเรื่องความสามารถในการคำนวณที่รวดเร็วมาก สิ่งที่พวกเขาไม่มีคือวิวัฒนาการหลายล้านปีที่อยู่เคียงข้างพวกเขา

ในช่วงไม่กี่ปีที่ผ่านมา แมชชีนวิชันมีความก้าวหน้าอย่างมาก พวกเขาสามารถระบุใบหน้าหรือการเดินในสตรีมวิดีโอแบบเรียลไทม์ แม้จะอยู่ในกลุ่มผู้คนจำนวนมากก็ตาม การจัดหมวดหมู่รูปภาพและเครื่องมือเทคโนโลยีที่คล้ายกันสามารถจดจำการมีอยู่ของวัตถุอื่นได้เช่นกัน ความก้าวหน้าในการแบ่งส่วนวัตถุทำให้สามารถเข้าใจเนื้อหาที่แตกต่างกันได้ดีขึ้น ฉาก ยังมีความก้าวหน้าที่สำคัญในการอนุมานภาพ 3 มิติจากฉาก 2 มิติ ทำให้เครื่องจักรสามารถ "อ่าน" ข้อมูลสามมิติ เช่น ความลึก จากฉากได้ ช่วยให้คอมพิวเตอร์วิทัศน์สมัยใหม่เข้าใกล้การรับรู้ภาพของมนุษย์มากขึ้น

อย่างไรก็ตาม ยังมีช่องว่างระหว่างอัลกอริธึมวิชันซิสเต็มที่ดีที่สุดกับความสามารถบนพื้นฐานวิชันที่มนุษย์ส่วนใหญ่สามารถทำได้ตั้งแต่อายุยังน้อย แม้ว่าเราจะไม่สามารถระบุได้อย่างชัดเจนว่าเราปฏิบัติงานตามวิสัยทัศน์เหล่านี้อย่างไร (อ้างอิงจาก Michael Polanyi นักพหูสูตชาวฮังการีและอังกฤษ “เราสามารถรู้ได้ มากกว่าที่เราจะบอกได้") แต่เรายังสามารถทำงานต่างๆ ได้อย่างน่าประทับใจ ซึ่งช่วยให้เราควบคุมสายตาของเราได้อย่างชาญฉลาดหลากหลาย วิธี

การทดสอบทัวริงสำหรับวิชันซิสเต็ม

หากนักวิจัยและวิศวกรหวังที่จะสร้างระบบคอมพิวเตอร์วิทัศน์ที่ทำงานเทียบเท่ากับภาพเป็นอย่างน้อย ทักษะการประมวลผลของสมองเปียก การสร้างอัลกอริธึมที่สามารถเข้าใจภาพลวงตาไม่ใช่การเริ่มต้นที่ไม่ดี จุด. อย่างน้อยที่สุด ก็สามารถพิสูจน์ได้ว่าเป็นวิธีที่ดีในการวัดว่าระบบวิชันซิสเต็มทำงานกับสมองของเราได้ดีเพียงใด อาจไม่ใช่คำตอบของตำนาน ปัญญาประดิษฐ์ทั่วไปแต่อาจเป็นกุญแจสำคัญในการปลดล็อควิสัยทัศน์ทั่วไป

ภาพลวงตาที่หลอกสมองของคุณให้มองเห็นสีที่ผิดเพี้ยน — เชื่อหรือไม่ แต่ลูกบอลทั้งหมดนี้มีสีเทาเฉดเดียวกัน และสมองของคุณตีความว่ามีสีที่แตกต่างกันโดยอิงตามบริบทของเส้นสีที่ตัดผ่านพวกมัน

“หากมีใครซักคนพัฒนาระบบการมองเห็นเทียมที่ทำให้เกิดข้อผิดพลาดในการรับรู้ภาพลวงตาแบบเดียวกัน ที่เราทำ คุณจะรู้ว่า ณ จุดนี้พวกเขากำลัง [บรรลุ] การจำลองการทำงานของสมองของเราได้ดี” แลง พูดว่า. “มันจะเป็นแบบทดสอบทัวริง หากคุณมีเครือข่ายเทียมที่ถูกภาพลวงตาหลอกเหมือนเรา เราก็ [จะ] ใกล้จะเข้าใจการคำนวณพื้นฐานของสมองแล้ว”

อี้-เจ๋อซ่งผู้อ่านเรื่อง Computer Vision และ Machine Learning ที่ Centre for Vision Speech and Signal Processing ที่มหาวิทยาลัย Surrey ในสหราชอาณาจักร เห็นด้วยกับสมมติฐานนี้ “การขอให้อัลกอริธึมการมองเห็นเข้าใจภาพลวงตาเป็นหัวข้อทั่วไปมีคุณค่าอย่างยิ่งต่อชุมชน” เขาบอกกับ Digital Trends “มันไปไกลกว่าจุดสนใจของชุมชนในปัจจุบันในการขอให้เครื่องจักร [รับรู้] โดยการผลักดันขอบเขตเพิ่มเติม [และ] การขอให้เครื่องจักรให้เหตุผล การผลักดันนี้ [จะเป็นตัวแทน] ก้าวสำคัญสู่ 'วิสัยทัศน์ทั่วไป' ซึ่งจำเป็นต้องมีการตีความแนวคิดเชิงภาพตามอัตวิสัย”

ใช้ภาพลวงตาของคุณ

จนถึงขณะนี้ มีงานวิจัยจำนวนหนึ่งที่จำกัดเกี่ยวกับเป้าหมายนี้ แม้ว่าจะยังอยู่ในระยะเริ่มแรกก็ตาม Nasim Nematzadeh นักวิจัยที่จบปริญญาเอก ในด้านปัญญาประดิษฐ์และหุ่นยนต์ - โมเดลการมองเห็นระดับต่ำเป็นบุคคลหนึ่งที่มี ตีพิมพ์ผลงานในหัวข้อนี้.

“เราเชื่อว่าการสำรวจเพิ่มเติมเกี่ยวกับบทบาทของแบบจำลองที่คล้ายเกาส์เซียนอย่างง่ายในการประมวลผลจอประสาทตาระดับต่ำและเคอร์เนลแบบเกาส์เซียนในระยะแรก [ระบบประสาทลึก] เครือข่าย] และการทำนายการสูญเสียภาพลวงตาจะนำไปสู่เทคนิคและแบบจำลองการมองเห็นคอมพิวเตอร์ที่แม่นยำยิ่งขึ้น” Nematzadeh กล่าวกับ Digital Trends “[สิ่งนี้อาจ] นำไปสู่แบบจำลองระดับความลึกและการประมวลผลการเคลื่อนไหวในระดับที่สูงขึ้น และทำให้คอมพิวเตอร์เข้าใจภาพธรรมชาติโดยทั่วไป”

การเคลื่อนที่ของวงกลมที่ไม่เคลื่อนไหว (ภาพลวงตา) !

Max Williams นักวิจัย AI ที่ช่วยรวบรวมชุดข้อมูลของ ภาพภาพลวงตานับพันภาพ สำหรับระบบการมองเห็นด้วยคอมพิวเตอร์ ให้ความสัมพันธ์ระหว่างการมองเห็นทั่วไปและภาพลวงตาโดยกระชับที่สุด: “ภาพลวงตาเกิดขึ้นได้เพราะดวงตาและสมองของเรากำลังทำหน้าที่ยุ่งเหยิงและ กระบวนการเฉพาะกิจเพื่อแยกฉากที่มองเห็นออกจากสนามแสงที่ไม่อาจเข้าใจได้ซึ่งสร้างขึ้นโดยโลกทางกายภาพซึ่งเราเกือบจะถูกปิดผนึกไว้อย่างสมบูรณ์” พวกเขาบอกกับ Digital เทรนด์ “ฉันไม่คิดว่าเป็นไปได้ที่จะสร้างระบบการมองเห็นที่แสดงออกได้มากพอที่จะถือเป็น 'การรับรู้' ซึ่งปราศจากภาพลวงตาเช่นกัน”

บรรลุวิสัยทัศน์ทั่วไป

เพื่อให้ชัดเจน การบรรลุวิสัยทัศน์ทั่วไปสำหรับ AI ระดับมนุษย์ (หรือดีกว่า) ไม่ใช่แค่การฝึกให้พวกเขารับรู้ภาพลวงตามาตรฐานเท่านั้น ไม่มีความสามารถเฉพาะเจาะจงมากเกินไปในการถอดรหัสภาพลวงตา Magic Eye ด้วยความแม่นยำ 99.9% ใน 0.001 วินาทีที่จะมาแทนที่วิวัฒนาการของมนุษย์นับล้านปีได้

(ที่น่าสนใจคือ แมชชีนวิชันมีภาพลวงตาในรูปแบบของตัวเองอยู่แล้วในรูปแบบของแบบจำลองที่ขัดแย้งกัน ซึ่งสามารถทำให้เกิดข้อผิดพลาดได้ ดังภาพประกอบที่น่าตกใจภาพหนึ่ง เต่าของเล่นจากการพิมพ์ 3 มิติสำหรับปืนไรเฟิล. อย่างไรก็ตาม สิ่งเหล่านี้ไม่ได้ให้ประโยชน์เชิงวิวัฒนาการเช่นเดียวกับภาพลวงตาที่ทำงานกับมนุษย์)

อย่างไรก็ตาม การทำให้เครื่องจักรเข้าใจภาพลวงตาของมนุษย์ และตอบสนองต่อสิ่งเหล่านั้นในแบบที่เราทำ อาจเป็นการวิจัยที่มีประโยชน์มาก

และสิ่งหนึ่งที่แน่นอน: เมื่อ General Vision AI เป็น สำเร็จแล้ว มันก็จะตกเป็นภาพลวงตาแบบเดียวกับที่เราทำ อย่างน้อย ในกรณีของ Illusory Expanding Hole พวกเรา 86%

คำแนะนำของบรรณาธิการ

Wix ใช้ ChatGPT เพื่อช่วยคุณสร้างเว็บไซต์ทั้งหมดได้อย่างรวดเร็ว
OpenAI สร้างทีมใหม่เพื่อหยุดยั้ง AI อัจฉริยะที่โกง
ความคิดอันชาญฉลาดเหล่านี้สามารถช่วยทำให้ AI ชั่วร้ายน้อยลงได้
เครื่องมือตรวจจับภาพ AI ของ Google ให้ความรู้สึกเหมือนใช้งานได้
AI สามารถแทนที่งานประมาณ 7,800 ตำแหน่งที่ IBM ซึ่งเป็นส่วนหนึ่งของการหยุดจ้างงานชั่วคราว

ภาพลวงตาสามารถช่วยให้เราสร้าง AI รุ่นใหม่ได้

ขอบวิวัฒนาการ

วิชันซิสเต็มเริ่มดีขึ้น

การทดสอบทัวริงสำหรับวิชันซิสเต็ม

ใช้ภาพลวงตาของคุณ

บรรลุวิสัยทัศน์ทั่วไป

คำแนะนำของบรรณาธิการ

หมวดหมู่

ล่าสุด

ปิ้ง... สำหรับหุ่น? ใครต้องการเครื่องปิ้งขนมปังอัจฉริยะจริงๆ

ตลาดบ้านอัจฉริยะอาจเห็นการเปลี่ยนแปลงครั้งใหญ่ในปี 2566

TempSpike ของ ThermoPro: เทอร์โมมิเตอร์ไร้สายสำหรับมือใหม่ในพวกเราทุกคน