Romit Roy Choudhury เป็นคนเข้าหูมาก แต่ไม่เข้า. ที่ ทาง. รอย ชูดูรี่ศาสตราจารย์ด้านวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ที่ University of Illinois at Urbana-Champaign เป็นผู้ศรัทธาอย่างแรงกล้าในศักยภาพในการเปลี่ยนกระบวนทัศน์ของสิ่งที่เขาเรียกว่า คอมพิวเตอร์ที่สามารถฟังได้ (ไม่ใช่ และสวมใส่ไม่ได้).
สารบัญ
- หูฟังอ่านใจ?
- ถ่ายจนหูอื้อ
- กฎของดอร์เมล
- คำมั่นสัญญาของอุปกรณ์สวมใส่
นั่นหมายถึงการเสียบเข้ากับความเป็นไปได้มหาศาลสำหรับฮาร์ดแวร์และซอฟต์แวร์ที่ทำงานโดยใช้ช่องฟังแฟนซีสองช่องที่ด้านข้างของศีรษะของคุณ และเพื่อช่วยในการพัฒนาทุกอย่างตั้งแต่แอปพลิเคชันด้านความเป็นส่วนตัวและความปลอดภัยไปจนถึงการวินิจฉัยทางการแพทย์ เครื่องมือที่เน้นไปที่อนาคตของความเป็นจริงเสริม เขารวบรวมทีมผู้เชี่ยวชาญเพื่อช่วยเหลือเขา
วิดีโอแนะนำ
“ฉันใช้ได้กับใครก็ได้ในสาขาวิทยาการคอมพิวเตอร์และวิศวกรรมไฟฟ้า” เขาบอกกับ Digital Trends “ขอบเขตของปัญหาในเรดาร์ของฉันนั้นใหญ่มาก”
ที่เกี่ยวข้อง
- กังวลเกี่ยวกับคำเตือนปลอมๆ ของ FBI หรือไม่? ปฏิบัติตามคำแนะนำจากผู้เชี่ยวชาญเหล่านี้
- แอป ChatGPT ใหม่ของ OpenAI ให้บริการฟรีสำหรับ iPhone และ iPad
- ตอนนี้คุณสามารถวิดีโอแชทด้วย ChatGPT AI ได้แล้ว หน้าตาเป็นแบบนี้
หูฟังถือเป็นตลาดใหญ่อยู่แล้ว แอปเปิ้ล แอร์พอดซึ่งเป็นกลุ่มผลิตภัณฑ์หูฟังไร้สายมียอดขาย 60 ล้านเครื่องในปี 2562 เพียงปีเดียว ปีที่แล้วเลขนี้ก็คือ คาดว่าจะเพิ่มขึ้นเป็น 85 ล้านคน. ปัจจุบัน หลายบริษัทกำลังผลิตหูฟังอัจฉริยะที่มีระบบตัดเสียงรบกวนแบบแอคทีฟ A.I. ผู้ช่วยอัจฉริยะ และอื่นๆ อีกมากมาย
หลายทศวรรษก่อน AirPods ย้อนกลับไปในทศวรรษ 1980 มี Walkman ซึ่งอาจเป็นเทคโนโลยีอุปกรณ์สวมใส่สมัยใหม่ชิ้นแรกที่ช่วยให้ผู้ใช้สามารถนำเพลงติดตัวไปได้ทุกที่ Walkman ไม่เพียงแต่ให้อำนาจแก่ผู้ใช้ในสิ่งที่พวกเขาฟัง (เช่น The Smiths) เท่านั้น แต่ยังรวมถึงสิ่งที่พวกเขาไม่ฟังด้วย (เช่น พ่อแม่ของพวกเขา) มันทำให้ผู้คนสามารถสร้างและออกแรงควบคุมเพลงประกอบในชีวิตของพวกเขาได้ ทำให้เราแต่ละคนมีฟองอากาศแห่งความหมายเป็นของตัวเอง แม้ว่า Boombox จะเกี่ยวกับการปล่อยให้ — หรือในบางกรณี เป็นการบังคับ — ผู้อื่นให้ฟังเพลงของเรา แต่ Walkman ก็ได้มอบประสบการณ์การฟังที่แยกตัวเป็นส่วนตัวโดยพื้นฐาน
แต่ Roy Choudhury และทีมของเขาต้องการไปไกลกว่านั้น พวกเขาพยายามเปลี่ยนหูฟังเอียร์บัดในปัจจุบันให้เป็นแพลตฟอร์มคอมพิวเตอร์ใหม่ ซึ่งในบางกรณีสามารถทดแทนความต้องการในการเข้าถึงของคุณ สมาร์ทโฟน หรือคอมพิวเตอร์ ถ้า Walkman สร้างฟองเสียงส่วนตัวให้ทุกคนได้เพลิดเพลินขณะเดินไปตามถนนในยุคนี้ เทคโนโลยีและการปรับเปลี่ยนในแบบที่ชาญฉลาดยิ่งขึ้น ฟองสบู่แบบเดียวกันนี้สามารถถูกควบคุมในรูปแบบใหม่ที่น่าตื่นเต้น และในบางครั้ง ก็แปลกเล็กน้อย วิธี
หูฟังอ่านใจ?
“ตลาดคอมพิวเตอร์ที่สวมใส่ได้ส่วนใหญ่ [จนถึง] มุ่งเน้นไปที่อุปกรณ์ที่สวมใส่ที่ส่วนล่างของร่างกาย ส่วนใหญ่อยู่ในกระเป๋าเสื้อหรือบนข้อมือของคุณ อาจจะเป็นในรองเท้าของคุณ” Roy Choudhury กล่าว “นั่นหมายความว่าคุณจะได้สัมผัสถึงส่วนล่างของร่างกาย เช่น สิ่งที่คุณทำด้วยมือ ข้อมือ และขา แต่มีข้อมูลมากมายที่สร้างขึ้นที่ส่วนบนของร่างกาย โดยเฉพาะศีรษะของคุณ เช่น การฟัง การพูด การรับประทานอาหาร อารมณ์ทางใบหน้า อาจเป็นเบาะแสสำหรับข้อมูลทางการแพทย์ — นั่นอาจเป็นได้ ล้ำค่า. จอกศักดิ์สิทธิ์ พรมแดนสุดท้ายของสิ่งนี้ อาจเป็นได้ การรับรู้สัญญาณสมอง จากใกล้กับศีรษะของคุณ”
แนวคิดที่ไม่เพียงแต่สามารถฟังอุปกรณ์อินเอียร์แบบพาสซีฟเท่านั้น แต่ยังพูดคุยกับอุปกรณ์ดังกล่าวได้ด้วย ถือเป็นพื้นฐานเบื้องหลังผู้ช่วยอัจฉริยะอย่าง Siri แต่คำพูดที่ใช้ใน A.I. ในปัจจุบัน ผู้ช่วยมีเจตนาตื้น เมื่อเปรียบเทียบกับรูปภาพ (มูลค่านับพันคำ) แล้ว Siri ทำได้ดีที่สุดด้วยข้อมูลที่รวดเร็ว เช่น การค้นหาพยากรณ์อากาศ หรือการตั้งเวลาในห้องครัว แต่นั่นก็เกี่ยวกับขีดจำกัด แนวคิดของการใช้คอมพิวเตอร์แบบ Earable คือการหาวิธีที่จะกำจัดสิ่งอื่นๆ ที่เราต้องจ้องมองที่หน้าจอและวางไว้บนหูของเรา (และ)
“ทุกสิ่งที่คุณทำบนหน้าจอ คุณกำลังใส่ความสนใจด้านการรับรู้ทั้งหมดลงไป” เขากล่าว “การอ่าน — ถึงแม้จะเป็นเรื่องตลกไร้สาระที่คุณอ่านบนหน้าจอ — คุณไม่สามารถมุ่งความสนใจไปที่สิ่งอื่นใดได้ การอ่านจะดึงความสนใจด้านความรู้ความเข้าใจของคุณอย่างสมบูรณ์ ความเชื่อของฉันคือมีหลายสิ่งที่ไม่สมควรได้รับความสนใจจากความรู้ความเข้าใจของคุณอย่างเต็มที่ เราสามารถดึงสิ่งเหล่านั้นออกจากขอบเขตการมองเห็น และผลักดันพวกเขาไปยังขอบเขตเสียงที่ยังไม่ได้ใช้และไม่มีการผูกขาด ซึ่งสมองของมนุษย์มีการพัฒนาตามธรรมชาติได้เป็นอย่างดี มัลติเพล็กซ์ระหว่างข้อมูลเสียงดังกล่าว … ทำไมไม่นำสิ่งง่ายๆ เหล่านี้ไปใช้ และย้ายสิ่งเหล่านั้นออกจากช่องทางการรับรู้และการรับรู้ทางภาพของคุณและเข้าสู่อะคูสติก แบนด์วิธ?”
การทดลองล่าสุดที่ดำเนินการโดยทีมงานเกี่ยวข้องกับการสำรวจวิธีที่เราสามารถใช้ข้อความได้อย่างมีความหมายมากขึ้น ได้ยิน รูปร่าง. หากคุณกำลังอ่านบทความ คุณอาจเห็นคำหลักที่คุณสนใจ และเริ่มอ่าน ณ จุดนั้น อย่างไรก็ตาม ไม่มีวิธีง่ายๆ ในการทำเช่นนี้ เช่น เมื่อคุณกำลังฟังพอดแคสต์
“สิ่งหนึ่งที่เรากำลังพยายามทำในห้องทดลองของเราคือ [ถาม] ฉันสามารถเร่งการฟังบทความได้หรือไม่” รอย ชูดูรี่ กล่าว
ถ่ายจนหูอื้อ
ในการสาธิตการพิสูจน์แนวคิดของกลุ่ม ผู้ฟังมีหลายย่อหน้าในบทความที่อ่านให้ฟังพร้อมกัน เคล็ดลับในการทำงานนี้คือการใช้การประมวลผลสัญญาณเพื่อให้แต่ละย่อหน้าดูเหมือนมาจากทิศทางที่แตกต่างกัน – มันเหมือนกับการนั่ง ในร้านอาหารแห่งหนึ่งและสนทนากันอยู่ 4 รอบที่โต๊ะข้าง ๆ แต่กลับเป็นการสนทนาเดียวเพราะผู้นั่งพูดถึงคนที่คุณ ทราบ. เพื่อให้ทำงานได้ดีขึ้น ทีมงานได้แตะหน่วยวัดแรงเฉื่อย (IMU) ในเอียร์บัดเพื่อให้ ผู้ใช้สามารถขึ้นเสียงใดเสียงหนึ่ง (ส่วนหนึ่งของข้อความ) ได้โดยหันศีรษะไปทางนั้นเล็กน้อย ทิศทาง.
“ฉันเรียกโปรเจ็กต์นี้ว่า 'การอ่านในโดเมนอะคูสติก' โดยที่ฉันมองไปที่ทิศทางของเสียงของย่อหน้าที่สาม และเสียงนั้นก็จะดังขึ้นและเสียงอื่นๆ ก็เบาลง” เขากล่าว
มันไม่ได้เกี่ยวกับคำพูดเช่นกัน ทีมงานยังพบว่าทั้งไมโครโฟนและ IMU ในหูฟังสามารถใช้เพื่อรับการสั่นสะเทือนที่ละเอียดอ่อนอย่างเหลือเชื่อบนใบหน้าได้ ซึ่งมีขนาดเล็กเพียง คนพูดพล่อยฟัน หรือกล้ามเนื้อใบหน้าขมวดคิ้วหรือยิ้ม ไม่ คุณอาจจะไม่ต้องทิ้งสมาร์ทโฟนของคุณเพื่อส่งข้อความผ่านรหัสมอร์สด้วยฟันของคุณ แต่ความคิดที่ว่าการบิดเบี้ยวของใบหน้าเล็กๆ น้อยๆ เหล่านี้ เช่น การเลื่อนฟันด้านขวาของคุณ ก็สามารถนำมาใช้ได้ ดำเนินการคำสั่ง — หรือแม้แต่ทำหน้าที่เป็นการยืนยันตัวตนสำหรับการตรวจสอบสิทธิ์แบบสองปัจจัย — อย่างแน่นอน น่าสนใจ.
“ทุกคนคุ้นเคยกับ Siri แต่ลองจินตนาการดูว่า Siri จะสามารถนำไปใช้ประโยชน์ได้มากเพียงใด หาก Siri มีมิติเชิงพื้นที่ เช่น นักพากย์เสียงที่สามารถเปล่งเสียงของเธอได้”
นอกจากนี้ยังอาจเป็นประโยชน์ในการเก็บข้อมูลตามยาวสำหรับสิ่งต่างๆ เช่น การวินิจฉัยทางการแพทย์ ตัวอย่างเช่น โรควิตกกังวลอาจวินิจฉัยได้จากรูปแบบบางอย่างที่ตรวจพบในการเคลื่อนไหวของฟัน Roy Choudhury ยังตั้งข้อสังเกตอีกว่ามีนักวิจัยที่ทำงานเกี่ยวกับปัญหาต่างๆ เช่น การวัดการไหลเวียนของเลือดผ่านหูเพื่อวัดอัตราการเต้นของหัวใจ ระดับกลูโคส กิจกรรมของกล้ามเนื้อ และอื่นๆ
ต้องการการใช้งานที่เป็นไปได้อื่นหรือไม่? เกี่ยวกับ ความเป็นจริงเสริมที่ได้ยิน? ปัจจุบันความเป็นจริงเสริมเป็นที่รู้จักกันเป็นอย่างดีในการซ้อนทับวัตถุที่สร้างด้วยคอมพิวเตอร์บนโลกแห่งความเป็นจริง แต่ไม่มีเหตุผลว่าทำไมการเสริมจึงควรเกิดขึ้นเฉพาะในสเปกตรัมการมองเห็นเท่านั้น ทีมงานของ Roy Choudhury รู้สึกตื่นเต้นกับโอกาสที่จะใช้เทคโนโลยีการประมวลผลสัญญาณเพื่อสร้างเสียงบางอย่างให้กับภูมิทัศน์ของคุณ เพื่อนำทางคุณผ่าน สนามบิน พิพิธภัณฑ์ หรือพื้นที่สาธารณะอื่นๆ อาจเกี่ยวข้องกับการเดินไปตามเสียงที่พูดว่า “ตามฉันมา” ซึ่งดูเหมือนว่าจะมาจากทิศทางที่คุณต้องมุ่งหน้าไป ใน.
ทุกคนคุ้นเคยกับ Siri แต่ลองจินตนาการดูว่า Siri จะสามารถนำไปใช้ประโยชน์ได้มากเพียงใด หาก Siri มีมิติเชิงพื้นที่ เช่น นักพากย์เสียงที่สามารถเปล่งเสียงของเธอได้ การเพิ่มพื้นที่นี้ยังสามารถช่วยปรับปรุงการประชุมเสมือนจริงขนาดใหญ่ โดยเสียงของแต่ละคนจะถูกแมปไปยังสถานที่เฉพาะ ทำให้บอกได้ง่ายขึ้นทันทีว่าใครกำลังพูด
แน่นอนว่าสิ่งเหล่านี้จะไม่เกิดขึ้นทั้งหมด เป็นเวอร์ชันทางวิศวกรรมของนักเขียนคำโฆษณาที่คอยเขียนไอเดียสำหรับโฆษณา หลายๆ คนอาจไม่ได้ทำแบบนั้น แต่ตัวอย่างหนึ่งหรือสองตัวอย่างอาจมีประโยชน์อย่างยิ่ง
กฎของดอร์เมล
นี่เป็นอีกเหตุผลหนึ่งที่ Roy Choudhury รู้สึกกระตือรือร้นอย่างมากเกี่ยวกับศักยภาพของการประมวลผลที่สามารถรับฟังได้อย่างต่อเนื่อง และโอกาสในการประสบความสำเร็จในโลกแห่งความเป็นจริง การตอบสนองของสังคมเป็นตัวกำหนดว่าเทคโนโลยีใดบ้างที่จับต้องได้มากกว่าที่นักเทคโนโลยีจะต้องการ เทคโนโลยีใหม่ตามคำจำกัดความถือเป็นสิ่งใหม่ ใหม่อาจเทียบได้กับความแปลก หากต้องการใช้สูตรของตัวเอง (เรียกว่ากฎของ Dormehl เพื่อการแทงคนรุ่นหลัง) การใช้ประโยชน์นอกกรอบของเทคโนโลยีใหม่ใดๆ จะต้องชดเชยความโง่เขลาโดยธรรมชาติของการใช้งานเป็นสองเท่า
“นี่เป็นปัญหาเนื่องจากมีเทคโนโลยีน้อยมากที่เกิดขึ้นอย่างสมบูรณ์”
คอมพิวเตอร์ส่วนบุคคลที่ผู้คนใช้ในบ้านสามารถนำไปใช้ประโยชน์ได้เพียงเล็กน้อยในช่วงปีแรกๆ ที่ออกสู่ตลาด เนื่องจากความเสี่ยงทางสังคมในการใช้งานมีน้อยมาก แล็ปท็อปซึ่งใช้ในที่สาธารณะมีเดิมพันสูงกว่าเล็กน้อย อุปกรณ์สวมใส่ซึ่งมีความโดดเด่นเป็นพิเศษเนื่องจากการสวมใส่บนร่างกายนั้นดูแปลกกว่าเทคโนโลยีส่วนใหญ่อย่างเห็นได้ชัด เทคโนโลยีชิ้นหนึ่งที่จะติดอยู่บนหัว ดูเหมือนการฝังไซเบอร์เนติกส์บนโดรนของ Borg จะต้องเป็น ยอดเยี่ยมและมีประโยชน์ทันทีหากผู้ใช้พิจารณาว่าคุ้มค่ากับผลกระทบทางสังคมที่เป็นอันตรายจากการถูกมองเห็น สวมใส่มัน
นี่เป็นปัญหาเนื่องจากมีเทคโนโลยีน้อยมากที่เกิดขึ้นอย่างสมบูรณ์ ในกรณีส่วนใหญ่ ผลิตภัณฑ์สองสามเจเนอเรชันแรกสร้างขึ้นจากคำมั่นสัญญาที่มีข้อบกพร่อง ก่อนที่ข้อเสนอที่น่าสนใจยิ่งขึ้นจะเกิดขึ้นที่ไหนสักแห่งในการทำซ้ำครั้งที่สาม หากผลิตภัณฑ์ที่มองเห็นได้ชัดเจนไม่สามารถส่งมอบได้ตั้งแต่วันแรก โอกาสในการประสบความสำเร็จในระยะยาวอาจถูกขัดขวาง แม้ว่าในที่สุดจะกลายเป็นผลิตภัณฑ์ที่ดีก็ตาม สำหรับแฟนเทคโนโลยีรุ่นเก่า ลองพิจารณาอุปกรณ์ Apple Newton แบบพกพาและการจดจำลายมือในช่วงแรกๆ สำหรับแฟนๆ รุ่นเยาว์ กฎของ Dormehl อาจอธิบายความล้มเหลวของ Google Glass ซึ่งมาพร้อมกับการตีตราและการตัดสินทางสังคมอย่างมาก และได้ผล … เกือบจะโอเค
หูฟังเอียร์บัดดังที่ Roy Choudhury กล่าวไว้ว่ามีความแตกต่างกัน ไม่ว่าการต่อสู้ใด ๆ ที่เคยเกิดขึ้นเกี่ยวกับพวกเขานั้นไม่มากก็น้อยที่ได้รับชัยชนะไปแล้ว “สังคมยอมรับผู้คนที่ใส่หูฟังแล้ว” เขากล่าว “… ในแง่หนึ่ง มันเป็นเพียงอัลกอริธึม เซ็นเซอร์ และฮาร์ดแวร์ที่ต้องอัพเกรดในตอนนี้ มันเป็นเพียงคอขวดทางเทคโนโลยี และไม่ใช่คอขวดทางสังคมและจิตใจอีกต่อไป”
คำมั่นสัญญาของอุปกรณ์สวมใส่
ความจริงที่ว่าเอียร์บัดได้รับการยอมรับจะช่วยลดเดิมพัน และหมายความว่าไม่จำเป็นต้องเป็นผลไบนารีทันทีอีกต่อไป แม้ว่าเป้าหมายที่สูงส่งที่สุดที่ Roy Choudhury อธิบายไว้นั้นไม่บรรลุผลมาเป็นเวลานาน การปรับปรุงแบบค่อยเป็นค่อยไปจะเพิ่มประโยชน์ใช้สอยให้กับฟอร์มแฟคเตอร์ที่ได้รับการพิสูจน์แล้ว
“ผลไม้ห้อยสูง [ได้แก่] ‘จากท่าทางฟันของฉัน ฉันตรวจพบอาการชักได้’ หรือ ‘จากของฉัน การแสดงสีหน้าทำให้ฉันเข้าใจอารมณ์ของบุคคลนั้นจนกลายเป็นเหมือนอารมณ์ของ Fitbit” พูดว่า. “แต่ถึงแม้จะล้มเหลว แต่ก็ไม่ได้ขัดขวางขั้นตอนการผลิต อย่างไรก็ตาม หากพวกเขาประสบความสำเร็จ มันก็เพียงเปลี่ยนผลิตภัณฑ์ให้เป็นสิ่งที่น่าอัศจรรย์”
Roy Choudhury เชื่อว่าศักยภาพของคอมพิวเตอร์ที่สามารถรับฟังได้นั้นแทบจะไร้ขีดจำกัด “ผมคิดว่าหนทางข้างหน้าไปไกลเกินกว่าคำพูด” เขากล่าว “ฉันจะบอกว่าคำพูดนั้นเป็นวงกลมที่อยู่ด้านในสุดซึ่งเป็นหัวใจหลัก [ของเทคโนโลยีนี้] ภายนอกการโต้ตอบนั้นเป็นเรื่องเสียงโดยทั่วไป และเสียงภายนอกก็เป็นเซ็นเซอร์และความสามารถอื่นๆ ทุกประเภท หากคุณคิดว่าเราจะเริ่มสร้างแพลตฟอร์มนี้อย่างไร สิ่งสำคัญก็คือ การโต้ตอบตามคำพูด: 'ตั้งเวลา' 'เฮ้ Siri วันนี้อากาศเป็นอย่างไรบ้าง' แต่มันสามารถไปได้ไกล นอกเหนือจากนั้น”
นักวิจัยคนอื่นๆ ที่ทำงานเกี่ยวกับคอมพิวเตอร์แบบสวมใส่ร่วมกับ Roy Choudhury ได้แก่ จือเจียน หยาง, ยู่หลินเว่ย, เจย์ ปรากาช, และ จือเยว่ ลี่.
คำแนะนำของบรรณาธิการ
- ตอนนี้แอป iPhone ของ ChatGPT มี Bing ในตัวแล้ว
- Apple ไม่ได้ทำให้ Siri กลายเป็นนักฆ่า ChatGPT ที่ WWDC — และนั่นทำให้ฉันกลัว
- ลืม ChatGPT ไปเลย — Siri และ Google Assistant ทำ 4 สิ่งนี้ได้ดีขึ้น
- Apple สร้างโค้ชด้านสุขภาพ AI สำหรับ Apple Watch รายงานการอ้างสิทธิ์
- อุปกรณ์ AI ที่แปลกประหลาดนี้อาจเข้ามาแทนที่สมาร์ทโฟนของคุณในอนาคต