Ta AI lahko ponaredi vaš glas že po treh sekundah

Umetna inteligenca (AI) je imeti trenutek prav zdaj, veter pa še naprej piha v jadra z novicami, da Microsoft dela na AI, ki lahko posnema glas kogar koli, potem ko mu je vdan kratek trisekundni vzorec.

Novo orodje, poimenovano VALL-E, je bilo usposobljeno na približno 60.000 urah glasovnih podatkov v angleškem jeziku, za katere Microsoft pravi, da so "stokrat večji od obstoječih sistemov". S pomočjo tega znanja njeni ustvarjalci trdijo, da potrebuje le majhen del glasovnega vnosa, da razume, kako posnemati uporabnikov glas.

človek, ki govori v telefon — Fizkes/Shutterstock

Še bolj impresivno je, da lahko VALL-E reproducira čustva, vokalne tone in akustično okolje, ki ga najdemo v vsakem vzorcu, s čimer so se borili drugi glasovni programi AI. To mu daje bolj realističen pridih in njegove rezultate približa nečemu, kar bi lahko veljalo za pristen človeški govor.

Povezano

GPT-4: kako uporabljati klepetalni robot AI, ki osramoti ChatGPT
Google Bard lahko zdaj govori, a ali lahko preglasi ChatGPT?
Novo podjetje Elona Muska z umetno inteligenco želi "razumeti vesolje"

V primerjavi z drugimi konkurenti za pretvorbo besedila v govor (TTS) Microsoft pravi, da VALL-E »znatno prekaša najsodobnejši zero-shot sistem TTS v smislu govora naravnost in podobnost govorcev.« Z drugimi besedami, VALL-E zveni veliko bolj kot pravi ljudje kot konkurenčni AI, ki naletijo na zvočne vnose, za katere niso bili usposobljeni na.

Priporočeni videoposnetki

Na GitHubu je Microsoft ustvaril majhna knjižnica vzorcev ustvarjen s pomočjo VALL-E. Rezultati so večinoma zelo impresivni, s številnimi vzorci, ki reproducirajo zvok in naglas glasov govorcev. Nekateri primeri so manj prepričljivi, kar kaže, da VALL-E verjetno ni končni izdelek, vendar je rezultat na splošno prepričljiv.

Velik potencial — in tveganja

Oseba, ki vodi videoklic v napravi Microsoft Surface z operacijskim sistemom Windows 11. — Microsoft/Unsplash

V papir, ki predstavlja VALL-E, Microsoft pojasnjuje, da VALL-E »lahko nosi potencialna tveganja pri zlorabi modela, kot je lažno predvajanje glasu identifikacija ali lažno predstavljanje določenega govorca.« Tako zmogljivo orodje za ustvarjanje realistično zvenečih govornih dvigov spekter vedno bolj prepričljive deepfake, ki se lahko uporablja za posnemanje česar koli, od nekdanjega romantičnega partnerja do ugledne mednarodne osebnosti.

Da bi ublažili to grožnjo, Microsoft pravi, da je "mogoče zgraditi model zaznavanja za razlikovanje, ali je zvočni posnetek sintetiziral VALL-E." Podjetje pravi, da bo uporabljalo tudi svoje Načela AI pri razvoju svojega dela. Ta načela zajemajo področja, kot so pravičnost, varnost, zasebnost in odgovornost.

VALL-E je le zadnji primer Microsoftovega eksperimentiranja z umetno inteligenco. V zadnjem času je podjetje delalo na integracija ChatGPT v Bing, z uporabo AI za ponovite svoje sestanke Teams, in cepljenje naprednih orodij v aplikacije, kot je Outlook, Word in PowerPoint. In glede na Semafor, Microsoft želi vložite 10 milijard dolarjev v izdelovalca ChatGPT OpenAI, podjetje, v katerega je že vložil znatna sredstva.

Kljub navideznim tveganjem bi lahko bila orodja, kot je VALL-E, še posebej uporabna v medicini, na primer za pomoč ljudem, da si po nesreči povrnejo glas. Možnost posnemanja govora s tako majhnim vhodnim nizom bi lahko bila v teh situacijah izjemno obetavna, če bi bila izvedena pravilno. Toda z vsem denarjem, ki ga Microsoft in drugi porabijo za AI, je jasno, da ne bo kmalu izginilo.

Priporočila urednikov

Najboljši avtorji zahtevajo plačilo od podjetij AI za uporabo njihovega dela
Najboljša orodja za urejanje videa z umetno inteligenco
Izdelovalec ChatGPT OpenAI se sooča s preiskavo FTC zaradi zakonov o varstvu potrošnikov
Preboji umetne inteligence bi lahko prišli prek možganov čebel, pravijo znanstveniki
OpenAI ustvarja novo ekipo, ki bo preprečila, da bi superinteligentni AI postal lopov

Nadgradite svoj življenjski slogDigitalni trendi bralcem pomagajo slediti hitremu svetu tehnologije z vsemi najnovejšimi novicami, zabavnimi ocenami izdelkov, pronicljivimi uvodniki in enkratnimi vpogledi v vsebine.

Ta AI lahko ponaredi vaš glas že po treh sekundah

Velik potencial — in tveganja

Priporočila urednikov

Kategorije

Nedavno

Alienware se igra sramežljivo s svojima novima monitorjema QD-OLED

NYT Connections danes: odgovori in namigi za ponedeljek, 23. oktober

Wordle danes (#856): Wordle odgovor in namigi za 23. oktober