Denna AI kan förfalska din röst efter bara tre sekunder

Artificiell intelligens (AI) är har en stund just nu, och vinden fortsätter att blåsa i sina segel med nyheten att Microsoft arbetar på en AI som kan imitera vem som helsts röst efter att ha matats med ett kort prov på tre sekunder.

Det nya verktyget, kallat VAL-E, har tränats på ungefär 60 000 timmar röstdata på engelska, vilket Microsoft säger är "hundratals gånger större än befintliga system". Med hjälp av den kunskapen hävdar dess skapare att det bara behöver en liten bit av röstinmatning för att förstå hur man replikerar en användares röst.

man talar i telefonen — Fizkes/Shutterstock

Mer imponerande är att VALL-E kan återge känslorna, rösttonerna och den akustiska miljön som finns i varje prov, något som andra röst-AI-program har kämpat med. Det ger den en mer realistisk aura och för dess resultat närmare något som kan ses som äkta mänskligt tal.

Relaterad

GPT-4: hur man använder AI-chatboten som gör ChatGPT på skam
Google Bard kan nu tala, men kan det överrösta ChatGPT?
Elon Musks nya AI-företag syftar till att "förstå universum"

Jämfört med andra text-till-tal-konkurrenter (TTS) säger Microsoft att VALL-E "avsevärt överträffar det toppmoderna zero-shot TTS-systemet när det gäller tal naturlighet och talarlikhet.” Med andra ord låter VALL-E mycket mer som riktiga människor än rivaliserande AI: er som stöter på ljudingångar som de inte har tränats på på.

Rekommenderade videor

På GitHub har Microsoft skapat en litet bibliotek med prover skapad med ALL-E. Resultaten är för det mesta mycket imponerande, med många samplingar som återger känslan och accenten i högtalarnas röster. Några av exemplen är mindre övertygande, vilket indikerar att VALL-E förmodligen inte är en färdig produkt, men totalt sett är resultatet övertygande.

Stor potential – och risker

En person som för ett videosamtal på en Microsoft Surface-enhet som kör Windows 11. — Microsoft/Unsplash

I en papper som introducerar ALL-E, förklarar Microsoft att VAL-E "kan medföra potentiella risker vid missbruk av modellen, såsom falsk röst identifiera eller utge sig för att vara en specifik talare." Ett sådant kapabelt verktyg för att generera realistiskt klingande talhöjningar spöket av allt mer övertygande deepfakes, som kan användas för att efterlikna allt från en före detta romantisk partner till en framstående internationell personlighet.

För att mildra det hotet säger Microsoft "det är möjligt att bygga en detektionsmodell för att urskilja om ett ljudklipp syntetiserades av VALL-E." Företaget säger att det också kommer att använda sina egna AI-principer när man utvecklar sitt arbete. Dessa principer omfattar områden som rättvisa, säkerhet, integritet och ansvarsskyldighet.

VALL-E är bara det senaste exemplet på Microsofts experiment med AI. Den senaste tiden har företaget arbetat med integrera ChatGPT i Bing, använder AI för att sammanfatta dina Teams-möten, och ympa avancerade verktyg i appar som Outlook, Word och PowerPoint. Och enligt Semafor är Microsoft ute efter investera 10 miljarder dollar i ChatGPT-tillverkaren OpenAI, ett företag som det redan har plöjt betydande medel in i.

Trots de uppenbara riskerna kan verktyg som VALL-E vara särskilt användbara inom medicin, till exempel, för att hjälpa människor att återfå sin röst efter en olycka. Att kunna replikera tal med en så liten ingångsuppsättning kan vara oerhört lovande i dessa situationer, förutsatt att det görs rätt. Men med alla pengar som spenderas på AI – både av Microsoft och andra – är det uppenbart att det inte försvinner snart.

Redaktörens rekommendationer

Toppförfattare kräver betalning från AI-företag för att de använder deras arbete
De bästa AI-videoredigeringsverktygen
ChatGPT-tillverkaren OpenAI står inför FTC-utredning över konsumentskyddslagar
AI-genombrott kan komma via binas hjärnor, säger forskare
OpenAI bygger ett nytt team för att förhindra att superintelligent AI blir oseriöst

Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.

Denna AI kan förfalska din röst efter bara tre sekunder

Stor potential – och risker

Redaktörens rekommendationer

Kategorier

Nyligen

Två Blake Shelton Amazon Alexa-larmtoner släpptes

Airbus udda BelugaXL-plan är ett steg närmare Maiden Flight

Skype får samtalsinspelning för röst och video