อนาคตของ AR คือหูฟัง ไม่ใช่แว่นตา

ภาพประกอบของหูฟังเอียร์บัดในหูของบุคคล — Genevieve Poblano/กราฟิกเทรนด์ดิจิทัล

Romit Roy Choudhury เป็นคนเข้าหูมาก แต่ไม่เข้า. ที่ ทาง. รอย ชูดูรี่ศาสตราจารย์ด้านวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ที่ University of Illinois at Urbana-Champaign เป็นผู้ศรัทธาอย่างแรงกล้าในศักยภาพในการเปลี่ยนกระบวนทัศน์ของสิ่งที่เขาเรียกว่า คอมพิวเตอร์ที่สามารถฟังได้ (ไม่ใช่ และสวมใส่ไม่ได้).

สารบัญ

หูฟังอ่านใจ?
ถ่ายจนหูอื้อ
กฎของดอร์เมล
คำมั่นสัญญาของอุปกรณ์สวมใส่

นั่นหมายถึงการเสียบเข้ากับความเป็นไปได้มหาศาลสำหรับฮาร์ดแวร์และซอฟต์แวร์ที่ทำงานโดยใช้ช่องฟังแฟนซีสองช่องที่ด้านข้างของศีรษะของคุณ และเพื่อช่วยในการพัฒนาทุกอย่างตั้งแต่แอปพลิเคชันด้านความเป็นส่วนตัวและความปลอดภัยไปจนถึงการวินิจฉัยทางการแพทย์ เครื่องมือที่เน้นไปที่อนาคตของความเป็นจริงเสริม เขารวบรวมทีมผู้เชี่ยวชาญเพื่อช่วยเหลือเขา

วิดีโอแนะนำ

“ฉันใช้ได้กับใครก็ได้ในสาขาวิทยาการคอมพิวเตอร์และวิศวกรรมไฟฟ้า” เขาบอกกับ Digital Trends “ขอบเขตของปัญหาในเรดาร์ของฉันนั้นใหญ่มาก”

ที่เกี่ยวข้อง

กังวลเกี่ยวกับคำเตือนปลอมๆ ของ FBI หรือไม่? ปฏิบัติตามคำแนะนำจากผู้เชี่ยวชาญเหล่านี้
แอป ChatGPT ใหม่ของ OpenAI ให้บริการฟรีสำหรับ iPhone และ iPad

ตอนนี้คุณสามารถวิดีโอแชทด้วย ChatGPT AI ได้แล้ว หน้าตาเป็นแบบนี้

Apple AirPods Pro และ Samsung Galaxy Buds Live — Jaron Schneider / เทรนด์ดิจิทัล

หูฟังถือเป็นตลาดใหญ่อยู่แล้ว แอปเปิ้ล แอร์พอดซึ่งเป็นกลุ่มผลิตภัณฑ์หูฟังไร้สายมียอดขาย 60 ล้านเครื่องในปี 2562 เพียงปีเดียว ปีที่แล้วเลขนี้ก็คือ คาดว่าจะเพิ่มขึ้นเป็น 85 ล้านคน. ปัจจุบัน หลายบริษัทกำลังผลิตหูฟังอัจฉริยะที่มีระบบตัดเสียงรบกวนแบบแอคทีฟ A.I. ผู้ช่วยอัจฉริยะ และอื่นๆ อีกมากมาย

หลายทศวรรษก่อน AirPods ย้อนกลับไปในทศวรรษ 1980 มี Walkman ซึ่งอาจเป็นเทคโนโลยีอุปกรณ์สวมใส่สมัยใหม่ชิ้นแรกที่ช่วยให้ผู้ใช้สามารถนำเพลงติดตัวไปได้ทุกที่ Walkman ไม่เพียงแต่ให้อำนาจแก่ผู้ใช้ในสิ่งที่พวกเขาฟัง (เช่น The Smiths) เท่านั้น แต่ยังรวมถึงสิ่งที่พวกเขาไม่ฟังด้วย (เช่น พ่อแม่ของพวกเขา) มันทำให้ผู้คนสามารถสร้างและออกแรงควบคุมเพลงประกอบในชีวิตของพวกเขาได้ ทำให้เราแต่ละคนมีฟองอากาศแห่งความหมายเป็นของตัวเอง แม้ว่า Boombox จะเกี่ยวกับการปล่อยให้ — หรือในบางกรณี เป็นการบังคับ — ผู้อื่นให้ฟังเพลงของเรา แต่ Walkman ก็ได้มอบประสบการณ์การฟังที่แยกตัวเป็นส่วนตัวโดยพื้นฐาน

แต่ Roy Choudhury และทีมของเขาต้องการไปไกลกว่านั้น พวกเขาพยายามเปลี่ยนหูฟังเอียร์บัดในปัจจุบันให้เป็นแพลตฟอร์มคอมพิวเตอร์ใหม่ ซึ่งในบางกรณีสามารถทดแทนความต้องการในการเข้าถึงของคุณ สมาร์ทโฟน หรือคอมพิวเตอร์ ถ้า Walkman สร้างฟองเสียงส่วนตัวให้ทุกคนได้เพลิดเพลินขณะเดินไปตามถนนในยุคนี้ เทคโนโลยีและการปรับเปลี่ยนในแบบที่ชาญฉลาดยิ่งขึ้น ฟองสบู่แบบเดียวกันนี้สามารถถูกควบคุมในรูปแบบใหม่ที่น่าตื่นเต้น และในบางครั้ง ก็แปลกเล็กน้อย วิธี

หูฟังอ่านใจ?

“ตลาดคอมพิวเตอร์ที่สวมใส่ได้ส่วนใหญ่ [จนถึง] มุ่งเน้นไปที่อุปกรณ์ที่สวมใส่ที่ส่วนล่างของร่างกาย ส่วนใหญ่อยู่ในกระเป๋าเสื้อหรือบนข้อมือของคุณ อาจจะเป็นในรองเท้าของคุณ” Roy Choudhury กล่าว “นั่นหมายความว่าคุณจะได้สัมผัสถึงส่วนล่างของร่างกาย เช่น สิ่งที่คุณทำด้วยมือ ข้อมือ และขา แต่มีข้อมูลมากมายที่สร้างขึ้นที่ส่วนบนของร่างกาย โดยเฉพาะศีรษะของคุณ เช่น การฟัง การพูด การรับประทานอาหาร อารมณ์ทางใบหน้า อาจเป็นเบาะแสสำหรับข้อมูลทางการแพทย์ — นั่นอาจเป็นได้ ล้ำค่า. จอกศักดิ์สิทธิ์ พรมแดนสุดท้ายของสิ่งนี้ อาจเป็นได้ การรับรู้สัญญาณสมอง จากใกล้กับศีรษะของคุณ”

แนวคิดที่ไม่เพียงแต่สามารถฟังอุปกรณ์อินเอียร์แบบพาสซีฟเท่านั้น แต่ยังพูดคุยกับอุปกรณ์ดังกล่าวได้ด้วย ถือเป็นพื้นฐานเบื้องหลังผู้ช่วยอัจฉริยะอย่าง Siri แต่คำพูดที่ใช้ใน A.I. ในปัจจุบัน ผู้ช่วยมีเจตนาตื้น เมื่อเปรียบเทียบกับรูปภาพ (มูลค่านับพันคำ) แล้ว Siri ทำได้ดีที่สุดด้วยข้อมูลที่รวดเร็ว เช่น การค้นหาพยากรณ์อากาศ หรือการตั้งเวลาในห้องครัว แต่นั่นก็เกี่ยวกับขีดจำกัด แนวคิดของการใช้คอมพิวเตอร์แบบ Earable คือการหาวิธีที่จะกำจัดสิ่งอื่นๆ ที่เราต้องจ้องมองที่หน้าจอและวางไว้บนหูของเรา (และ)

“ทุกสิ่งที่คุณทำบนหน้าจอ คุณกำลังใส่ความสนใจด้านการรับรู้ทั้งหมดลงไป” เขากล่าว “การอ่าน — ถึงแม้จะเป็นเรื่องตลกไร้สาระที่คุณอ่านบนหน้าจอ — คุณไม่สามารถมุ่งความสนใจไปที่สิ่งอื่นใดได้ การอ่านจะดึงความสนใจด้านความรู้ความเข้าใจของคุณอย่างสมบูรณ์ ความเชื่อของฉันคือมีหลายสิ่งที่ไม่สมควรได้รับความสนใจจากความรู้ความเข้าใจของคุณอย่างเต็มที่ เราสามารถดึงสิ่งเหล่านั้นออกจากขอบเขตการมองเห็น และผลักดันพวกเขาไปยังขอบเขตเสียงที่ยังไม่ได้ใช้และไม่มีการผูกขาด ซึ่งสมองของมนุษย์มีการพัฒนาตามธรรมชาติได้เป็นอย่างดี มัลติเพล็กซ์ระหว่างข้อมูลเสียงดังกล่าว … ทำไมไม่นำสิ่งง่ายๆ เหล่านี้ไปใช้ และย้ายสิ่งเหล่านั้นออกจากช่องทางการรับรู้และการรับรู้ทางภาพของคุณและเข้าสู่อะคูสติก แบนด์วิธ?”

การทดลองล่าสุดที่ดำเนินการโดยทีมงานเกี่ยวข้องกับการสำรวจวิธีที่เราสามารถใช้ข้อความได้อย่างมีความหมายมากขึ้น ได้ยิน รูปร่าง. หากคุณกำลังอ่านบทความ คุณอาจเห็นคำหลักที่คุณสนใจ และเริ่มอ่าน ณ จุดนั้น อย่างไรก็ตาม ไม่มีวิธีง่ายๆ ในการทำเช่นนี้ เช่น เมื่อคุณกำลังฟังพอดแคสต์

“สิ่งหนึ่งที่เรากำลังพยายามทำในห้องทดลองของเราคือ [ถาม] ฉันสามารถเร่งการฟังบทความได้หรือไม่” รอย ชูดูรี่ กล่าว

ถ่ายจนหูอื้อ

ในการสาธิตการพิสูจน์แนวคิดของกลุ่ม ผู้ฟังมีหลายย่อหน้าในบทความที่อ่านให้ฟังพร้อมกัน เคล็ดลับในการทำงานนี้คือการใช้การประมวลผลสัญญาณเพื่อให้แต่ละย่อหน้าดูเหมือนมาจากทิศทางที่แตกต่างกัน – มันเหมือนกับการนั่ง ในร้านอาหารแห่งหนึ่งและสนทนากันอยู่ 4 รอบที่โต๊ะข้าง ๆ แต่กลับเป็นการสนทนาเดียวเพราะผู้นั่งพูดถึงคนที่คุณ ทราบ. เพื่อให้ทำงานได้ดีขึ้น ทีมงานได้แตะหน่วยวัดแรงเฉื่อย (IMU) ในเอียร์บัดเพื่อให้ ผู้ใช้สามารถขึ้นเสียงใดเสียงหนึ่ง (ส่วนหนึ่งของข้อความ) ได้โดยหันศีรษะไปทางนั้นเล็กน้อย ทิศทาง.

“ฉันเรียกโปรเจ็กต์นี้ว่า 'การอ่านในโดเมนอะคูสติก' โดยที่ฉันมองไปที่ทิศทางของเสียงของย่อหน้าที่สาม และเสียงนั้นก็จะดังขึ้นและเสียงอื่นๆ ก็เบาลง” เขากล่าว

มันไม่ได้เกี่ยวกับคำพูดเช่นกัน ทีมงานยังพบว่าทั้งไมโครโฟนและ IMU ในหูฟังสามารถใช้เพื่อรับการสั่นสะเทือนที่ละเอียดอ่อนอย่างเหลือเชื่อบนใบหน้าได้ ซึ่งมีขนาดเล็กเพียง คนพูดพล่อยฟัน หรือกล้ามเนื้อใบหน้าขมวดคิ้วหรือยิ้ม ไม่ คุณอาจจะไม่ต้องทิ้งสมาร์ทโฟนของคุณเพื่อส่งข้อความผ่านรหัสมอร์สด้วยฟันของคุณ แต่ความคิดที่ว่าการบิดเบี้ยวของใบหน้าเล็กๆ น้อยๆ เหล่านี้ เช่น การเลื่อนฟันด้านขวาของคุณ ก็สามารถนำมาใช้ได้ ดำเนินการคำสั่ง — หรือแม้แต่ทำหน้าที่เป็นการยืนยันตัวตนสำหรับการตรวจสอบสิทธิ์แบบสองปัจจัย — อย่างแน่นอน น่าสนใจ.

“ทุกคนคุ้นเคยกับ Siri แต่ลองจินตนาการดูว่า Siri จะสามารถนำไปใช้ประโยชน์ได้มากเพียงใด หาก Siri มีมิติเชิงพื้นที่ เช่น นักพากย์เสียงที่สามารถเปล่งเสียงของเธอได้”

นอกจากนี้ยังอาจเป็นประโยชน์ในการเก็บข้อมูลตามยาวสำหรับสิ่งต่างๆ เช่น การวินิจฉัยทางการแพทย์ ตัวอย่างเช่น โรควิตกกังวลอาจวินิจฉัยได้จากรูปแบบบางอย่างที่ตรวจพบในการเคลื่อนไหวของฟัน Roy Choudhury ยังตั้งข้อสังเกตอีกว่ามีนักวิจัยที่ทำงานเกี่ยวกับปัญหาต่างๆ เช่น การวัดการไหลเวียนของเลือดผ่านหูเพื่อวัดอัตราการเต้นของหัวใจ ระดับกลูโคส กิจกรรมของกล้ามเนื้อ และอื่นๆ

ต้องการการใช้งานที่เป็นไปได้อื่นหรือไม่? เกี่ยวกับ ความเป็นจริงเสริมที่ได้ยิน? ปัจจุบันความเป็นจริงเสริมเป็นที่รู้จักกันเป็นอย่างดีในการซ้อนทับวัตถุที่สร้างด้วยคอมพิวเตอร์บนโลกแห่งความเป็นจริง แต่ไม่มีเหตุผลว่าทำไมการเสริมจึงควรเกิดขึ้นเฉพาะในสเปกตรัมการมองเห็นเท่านั้น ทีมงานของ Roy Choudhury รู้สึกตื่นเต้นกับโอกาสที่จะใช้เทคโนโลยีการประมวลผลสัญญาณเพื่อสร้างเสียงบางอย่างให้กับภูมิทัศน์ของคุณ เพื่อนำทางคุณผ่าน สนามบิน พิพิธภัณฑ์ หรือพื้นที่สาธารณะอื่นๆ อาจเกี่ยวข้องกับการเดินไปตามเสียงที่พูดว่า “ตามฉันมา” ซึ่งดูเหมือนว่าจะมาจากทิศทางที่คุณต้องมุ่งหน้าไป ใน.

ทุกคนคุ้นเคยกับ Siri แต่ลองจินตนาการดูว่า Siri จะสามารถนำไปใช้ประโยชน์ได้มากเพียงใด หาก Siri มีมิติเชิงพื้นที่ เช่น นักพากย์เสียงที่สามารถเปล่งเสียงของเธอได้ การเพิ่มพื้นที่นี้ยังสามารถช่วยปรับปรุงการประชุมเสมือนจริงขนาดใหญ่ โดยเสียงของแต่ละคนจะถูกแมปไปยังสถานที่เฉพาะ ทำให้บอกได้ง่ายขึ้นทันทีว่าใครกำลังพูด

แน่นอนว่าสิ่งเหล่านี้จะไม่เกิดขึ้นทั้งหมด เป็นเวอร์ชันทางวิศวกรรมของนักเขียนคำโฆษณาที่คอยเขียนไอเดียสำหรับโฆษณา หลายๆ คนอาจไม่ได้ทำแบบนั้น แต่ตัวอย่างหนึ่งหรือสองตัวอย่างอาจมีประโยชน์อย่างยิ่ง

กฎของดอร์เมล

นี่เป็นอีกเหตุผลหนึ่งที่ Roy Choudhury รู้สึกกระตือรือร้นอย่างมากเกี่ยวกับศักยภาพของการประมวลผลที่สามารถรับฟังได้อย่างต่อเนื่อง และโอกาสในการประสบความสำเร็จในโลกแห่งความเป็นจริง การตอบสนองของสังคมเป็นตัวกำหนดว่าเทคโนโลยีใดบ้างที่จับต้องได้มากกว่าที่นักเทคโนโลยีจะต้องการ เทคโนโลยีใหม่ตามคำจำกัดความถือเป็นสิ่งใหม่ ใหม่อาจเทียบได้กับความแปลก หากต้องการใช้สูตรของตัวเอง (เรียกว่ากฎของ Dormehl เพื่อการแทงคนรุ่นหลัง) การใช้ประโยชน์นอกกรอบของเทคโนโลยีใหม่ใดๆ จะต้องชดเชยความโง่เขลาโดยธรรมชาติของการใช้งานเป็นสองเท่า

“นี่เป็นปัญหาเนื่องจากมีเทคโนโลยีน้อยมากที่เกิดขึ้นอย่างสมบูรณ์”

คอมพิวเตอร์ส่วนบุคคลที่ผู้คนใช้ในบ้านสามารถนำไปใช้ประโยชน์ได้เพียงเล็กน้อยในช่วงปีแรกๆ ที่ออกสู่ตลาด เนื่องจากความเสี่ยงทางสังคมในการใช้งานมีน้อยมาก แล็ปท็อปซึ่งใช้ในที่สาธารณะมีเดิมพันสูงกว่าเล็กน้อย อุปกรณ์สวมใส่ซึ่งมีความโดดเด่นเป็นพิเศษเนื่องจากการสวมใส่บนร่างกายนั้นดูแปลกกว่าเทคโนโลยีส่วนใหญ่อย่างเห็นได้ชัด เทคโนโลยีชิ้นหนึ่งที่จะติดอยู่บนหัว ดูเหมือนการฝังไซเบอร์เนติกส์บนโดรนของ Borg จะต้องเป็น ยอดเยี่ยมและมีประโยชน์ทันทีหากผู้ใช้พิจารณาว่าคุ้มค่ากับผลกระทบทางสังคมที่เป็นอันตรายจากการถูกมองเห็น สวมใส่มัน

นี่เป็นปัญหาเนื่องจากมีเทคโนโลยีน้อยมากที่เกิดขึ้นอย่างสมบูรณ์ ในกรณีส่วนใหญ่ ผลิตภัณฑ์สองสามเจเนอเรชันแรกสร้างขึ้นจากคำมั่นสัญญาที่มีข้อบกพร่อง ก่อนที่ข้อเสนอที่น่าสนใจยิ่งขึ้นจะเกิดขึ้นที่ไหนสักแห่งในการทำซ้ำครั้งที่สาม หากผลิตภัณฑ์ที่มองเห็นได้ชัดเจนไม่สามารถส่งมอบได้ตั้งแต่วันแรก โอกาสในการประสบความสำเร็จในระยะยาวอาจถูกขัดขวาง แม้ว่าในที่สุดจะกลายเป็นผลิตภัณฑ์ที่ดีก็ตาม สำหรับแฟนเทคโนโลยีรุ่นเก่า ลองพิจารณาอุปกรณ์ Apple Newton แบบพกพาและการจดจำลายมือในช่วงแรกๆ สำหรับแฟนๆ รุ่นเยาว์ กฎของ Dormehl อาจอธิบายความล้มเหลวของ Google Glass ซึ่งมาพร้อมกับการตีตราและการตัดสินทางสังคมอย่างมาก และได้ผล … เกือบจะโอเค

หูฟังเอียร์บัดดังที่ Roy Choudhury กล่าวไว้ว่ามีความแตกต่างกัน ไม่ว่าการต่อสู้ใด ๆ ที่เคยเกิดขึ้นเกี่ยวกับพวกเขานั้นไม่มากก็น้อยที่ได้รับชัยชนะไปแล้ว “สังคมยอมรับผู้คนที่ใส่หูฟังแล้ว” เขากล่าว “… ในแง่หนึ่ง มันเป็นเพียงอัลกอริธึม เซ็นเซอร์ และฮาร์ดแวร์ที่ต้องอัพเกรดในตอนนี้ มันเป็นเพียงคอขวดทางเทคโนโลยี และไม่ใช่คอขวดทางสังคมและจิตใจอีกต่อไป”

คำมั่นสัญญาของอุปกรณ์สวมใส่

ความจริงที่ว่าเอียร์บัดได้รับการยอมรับจะช่วยลดเดิมพัน และหมายความว่าไม่จำเป็นต้องเป็นผลไบนารีทันทีอีกต่อไป แม้ว่าเป้าหมายที่สูงส่งที่สุดที่ Roy Choudhury อธิบายไว้นั้นไม่บรรลุผลมาเป็นเวลานาน การปรับปรุงแบบค่อยเป็นค่อยไปจะเพิ่มประโยชน์ใช้สอยให้กับฟอร์มแฟคเตอร์ที่ได้รับการพิสูจน์แล้ว

“ผลไม้ห้อยสูง [ได้แก่] ‘จากท่าทางฟันของฉัน ฉันตรวจพบอาการชักได้’ หรือ ‘จากของฉัน การแสดงสีหน้าทำให้ฉันเข้าใจอารมณ์ของบุคคลนั้นจนกลายเป็นเหมือนอารมณ์ของ Fitbit” พูดว่า. “แต่ถึงแม้จะล้มเหลว แต่ก็ไม่ได้ขัดขวางขั้นตอนการผลิต อย่างไรก็ตาม หากพวกเขาประสบความสำเร็จ มันก็เพียงเปลี่ยนผลิตภัณฑ์ให้เป็นสิ่งที่น่าอัศจรรย์”

Roy Choudhury เชื่อว่าศักยภาพของคอมพิวเตอร์ที่สามารถรับฟังได้นั้นแทบจะไร้ขีดจำกัด “ผมคิดว่าหนทางข้างหน้าไปไกลเกินกว่าคำพูด” เขากล่าว “ฉันจะบอกว่าคำพูดนั้นเป็นวงกลมที่อยู่ด้านในสุดซึ่งเป็นหัวใจหลัก [ของเทคโนโลยีนี้] ภายนอกการโต้ตอบนั้นเป็นเรื่องเสียงโดยทั่วไป และเสียงภายนอกก็เป็นเซ็นเซอร์และความสามารถอื่นๆ ทุกประเภท หากคุณคิดว่าเราจะเริ่มสร้างแพลตฟอร์มนี้อย่างไร สิ่งสำคัญก็คือ การโต้ตอบตามคำพูด: 'ตั้งเวลา' 'เฮ้ Siri วันนี้อากาศเป็นอย่างไรบ้าง' แต่มันสามารถไปได้ไกล นอกเหนือจากนั้น”

นักวิจัยคนอื่นๆ ที่ทำงานเกี่ยวกับคอมพิวเตอร์แบบสวมใส่ร่วมกับ Roy Choudhury ได้แก่ จือเจียน หยาง, ยู่หลินเว่ย, เจย์ ปรากาช, และ จือเยว่ ลี่.

คำแนะนำของบรรณาธิการ

ตอนนี้แอป iPhone ของ ChatGPT มี Bing ในตัวแล้ว
Apple ไม่ได้ทำให้ Siri กลายเป็นนักฆ่า ChatGPT ที่ WWDC — และนั่นทำให้ฉันกลัว
ลืม ChatGPT ไปเลย — Siri และ Google Assistant ทำ 4 สิ่งนี้ได้ดีขึ้น
Apple สร้างโค้ชด้านสุขภาพ AI สำหรับ Apple Watch รายงานการอ้างสิทธิ์
อุปกรณ์ AI ที่แปลกประหลาดนี้อาจเข้ามาแทนที่สมาร์ทโฟนของคุณในอนาคต

อนาคตของ AR คือหูฟัง ไม่ใช่แว่นตา

หูฟังอ่านใจ?

ถ่ายจนหูอื้อ

กฎของดอร์เมล

คำมั่นสัญญาของอุปกรณ์สวมใส่

คำแนะนำของบรรณาธิการ

หมวดหมู่

ล่าสุด

วิธีที่รถจักรยานยนต์ดูคาติเปลี่ยนจากแบบร่างไปสู่การผลิต

พรีวิว Polestar 3 Electric SUV: ออกจากรัง

การทดลองขับ Mercedes Drive Pilot: นุ่มนวลกว่ามนุษย์ส่วนใหญ่