Detta realistiska syntetiserade tal kan bli framtiden för ljudböcker

Syntetiserade röster som de som används av Siri och Alexa är bra för att berätta dagens väderprognos eller hur många minuter återstår på en matlagningstimer, men skulle du verkligen vilja att deras platta, monotona toner läser dig ljudböcker? Förmodligen inte, vilket är anledningen till att de flesta av oss vänder sig till tjänster med mänskliga röster som Audible för att fixa vår ljudbok. Mänskliga röstskådespelare kanske inte får nicken för mycket längre, på grund av pionjärarbetet av en London-baserad startup som heter DeepZen.

Använder artificiell intelligens algoritmer, förstärkta av den tekniska eldkraften av IBMs Power A.I. och Watsons teknologier, DeepZen har utvecklat text-till-tal-verktyg som inte bara låter mänskligt vid första lyssning, utan också kan fånga upp de känslomässiga signaler som behövs för att läsa text på ett övertygande sätt. Därmed hävdar företaget att det kan minska tiden och kostnaderna för att producera ljudböcker med upp till 90 %.

Rekommenderade videor

"Vårt system är verkligen revolutionerande," sa Taylan Kamis, VD och medgrundare av DeepZen, till Digital Trends. "Det fungerar med hjälp av djupinlärning och neurala nätverk för att förstå hur en människa pratar och läser. Vi tränar sedan systemet så att det kan känna igen var man ska tillämpa rätt känslor och intonation när man läser en text. Resultatet är mänskligt tal som mycket liknar den verkliga varan.”

Relaterad

  • Optiska illusioner kan hjälpa oss att bygga nästa generations AI
  • Finishing touch: Hur forskare ger robotar mänskliga taktila sinnen
  • Läs den kusligt vackra "syntetiska skriften" av en A.I. som tror att det är Gud

Oundvikligen kan arbete som detta gjutas som ännu ett exempel på banbrytande A.I. verktyg hotar ett mänskligt yrke. I det här fallet involverar det yrket skådespelare som, trots vad några få högprofilerade figurer kan åstadkomma, inte har den mest stabila, stabila karriären som den är. Det skulle vara naivt att tro att programvara som denna inte kommer att påverka framtiden för röstskådespelare, men som Kamis påpekar att det finns många scenarier där verktyg som DeepZens kan vara positivt för mänskligheten.

Det kan till exempel göra det möjligt att skapa ljudböcker baserade på verk av nya och framväxande författare, eller från förlag som inte har lyxen att ha stora budgetar. Det kan också användas för att utveckla överlägsna text-till-tal-verktyg för personer som har dyslexi eller på annat sätt har svårt att läsa.

"När det gäller framtiden tittar vi också på att producera voice-overs för videoproduktionsindustrin, som såväl som spel, där det finns ett behov av text-till-tal i realtid för att förbättra spelarupplevelsen,” Kami sa. "Vi tittar också på andra språk."

Du kan kolla in ett exempel på systemet här.

Redaktörens rekommendationer

  • Säkerhetsrobotar kan komma till en skola nära dig
  • Hur ska vi veta när en AI faktiskt blir kännande?
  • Analog A.I.? Det låter galet, men det kanske är framtiden
  • Framtiden för A.I.: 4 stora saker att titta på under de närmaste åren
  • Den här tekniken var science fiction för 20 år sedan. Nu är det verklighet

Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.