يمكن أن يقلد صوت بايدو العميق 2 صوتًا بشريًا

بايدو
تستثمر بايدو ، القوة العملاقة التي تتخذ من بكين مقراً لها والتي تسيطر على 80 في المائة من سوق البحث على الإنترنت الصيني ، بكثافة في الذكاء الاصطناعي. في عام 2013 ، افتتحت معهد التعلم العميق ، وهو مركز للبحث والتطوير يركز على التعلم الآلي. وفي أيار (مايو) ، سلبت أحدث نسخة من صوت عميق، محرك تحويل النص إلى كلام الذي يعمل بالذكاء الاصطناعي.

صوت عميق 2، الذي يأتي في أعقاب الظهور العام لـ Deep Voice في وقت سابق من هذا العام ، يمكن أن ينتج خطابًا في الوقت الفعلي لا يمكن تمييزه تقريبًا عن الصوت البشري. الأمر الأكثر إثارة للإعجاب ، أنه يحتاج إلى ثلاثين دقيقة فقط من الصوت لبناء نموذج عمل ، ويمكنه تقليد اللهجات الإقليمية لمئات من مكبرات الصوت المختلفة.

مقاطع الفيديو الموصى بها

وهذا أفضل من الإصدارات القديمة من Deep Voice ، التي استغرقت عدة ساعات لتعلم صوت واحد.

المفتاح هو قدرة Deep Voice 2 على تحديد أوجه التشابه بين مئات من المتحدثين المختلفين لبناء نموذج عملي للصوت البشري. بعد ذلك ، تستمد الأصوات الفريدة من هذا النموذج بشكل مستقل - على عكس المساعدين الصوتيين مثل Siri من Apple ، والتي تتطلب ذلك سجل الإنسان آلاف الساعات من الكلام التي لحنها المهندسون يدويًا ، ولا يتطلب Deep Voice 2 توجيهًا أو يدويًا تدخل.

بايدو (علامة)

قال أندرو جيبانسكي ، عالم أبحاث في مختبر الذكاء الاصطناعي في وادي السيليكون في بايدو ، لموقع The Verge: "امنحها البيانات الصحيحة ، ويمكنها أن تتعلم بمفردها نوع الميزات المهمة".

بايدو ليست الشركة الوحيدة التي تستثمر في تقنية تحويل النص إلى كلام عالية الجودة. تنتج WaveNet من Google ، وهي أحد منتجات قسم DeepMind التابع للشركة ، الأصوات من خلال أخذ عينات من الكلام البشري الحقيقي وإنشاء أصواتها الخاصة في مجموعة متنوعة من الأصوات بشكل مستقل. يقوم مشروع Adobe's Project VoCo بتحويل الكلام البشري إلى نص قابل للتحرير في الوقت الفعلي. وترخص شركة Lyrebird ، وهي شركة كندية ناشئة في مجال الذكاء الاصطناعي ، خوارزميات يمكنها تقليد أي صوت بدقيقة واحدة فقط من عينة الصوت ، ألف جملة في أقل من نصف ثانية ، ويمكن أن يبث الكلام الذي يخلقه بمشاعر مثل الغضب والتعاطف و ضغط.

لكن لا تتوقع أن يحل Deep Voice 2 أو WaveNet محل Siri ، و مساعد جوجل، أو Amazon's أليكسا في أي وقت قريبًا - تتطلب تطبيقات الترجمة التي تعمل بالذكاء الاصطناعي موارد أكثر مما توفره هواتف اليوم بشكل معقول. لكن بايدو ترى إمكانات في تطبيقات مثل تطبيقات تحويل النص إلى كلام والمساعدات الصوتية. "إن القدرة على التوليف السريع لأصوات بشرية متعددة سيكون لها تأثير كبير على منتجات مثل المساعدين الشخصيين وقارئي الكتب الإلكترونية في المستقبل. على سبيل المثال ، يمكن أن يكون لكل شخصية في كتابك الإلكتروني صوت فريد عندما تستمع إلى الكتاب الإلكتروني ".

ترقية نمط حياتكتساعد Digital Trends القراء على متابعة عالم التكنولوجيا سريع الخطى من خلال أحدث الأخبار ومراجعات المنتجات الممتعة والافتتاحيات الثاقبة والنظرات الخاطفة الفريدة من نوعها.