Umetna inteligenca (AI) je imeti trenutek prav zdaj, veter pa še naprej piha v jadra z novicami, da Microsoft dela na AI, ki lahko posnema glas kogar koli, potem ko mu je vdan kratek trisekundni vzorec.
Novo orodje, poimenovano VALL-E, je bilo usposobljeno na približno 60.000 urah glasovnih podatkov v angleškem jeziku, za katere Microsoft pravi, da so "stokrat večji od obstoječih sistemov". S pomočjo tega znanja njeni ustvarjalci trdijo, da potrebuje le majhen del glasovnega vnosa, da razume, kako posnemati uporabnikov glas.
Še bolj impresivno je, da lahko VALL-E reproducira čustva, vokalne tone in akustično okolje, ki ga najdemo v vsakem vzorcu, s čimer so se borili drugi glasovni programi AI. To mu daje bolj realističen pridih in njegove rezultate približa nečemu, kar bi lahko veljalo za pristen človeški govor.
Povezano
- GPT-4: kako uporabljati klepetalni robot AI, ki osramoti ChatGPT
- Google Bard lahko zdaj govori, a ali lahko preglasi ChatGPT?
- Novo podjetje Elona Muska z umetno inteligenco želi "razumeti vesolje"
V primerjavi z drugimi konkurenti za pretvorbo besedila v govor (TTS) Microsoft pravi, da VALL-E »znatno prekaša najsodobnejši zero-shot sistem TTS v smislu govora naravnost in podobnost govorcev.« Z drugimi besedami, VALL-E zveni veliko bolj kot pravi ljudje kot konkurenčni AI, ki naletijo na zvočne vnose, za katere niso bili usposobljeni na.
Priporočeni videoposnetki
Na GitHubu je Microsoft ustvaril majhna knjižnica vzorcev ustvarjen s pomočjo VALL-E. Rezultati so večinoma zelo impresivni, s številnimi vzorci, ki reproducirajo zvok in naglas glasov govorcev. Nekateri primeri so manj prepričljivi, kar kaže, da VALL-E verjetno ni končni izdelek, vendar je rezultat na splošno prepričljiv.
Velik potencial — in tveganja
V papir, ki predstavlja VALL-E, Microsoft pojasnjuje, da VALL-E »lahko nosi potencialna tveganja pri zlorabi modela, kot je lažno predvajanje glasu identifikacija ali lažno predstavljanje določenega govorca.« Tako zmogljivo orodje za ustvarjanje realistično zvenečih govornih dvigov spekter vedno bolj prepričljive deepfake, ki se lahko uporablja za posnemanje česar koli, od nekdanjega romantičnega partnerja do ugledne mednarodne osebnosti.
Da bi ublažili to grožnjo, Microsoft pravi, da je "mogoče zgraditi model zaznavanja za razlikovanje, ali je zvočni posnetek sintetiziral VALL-E." Podjetje pravi, da bo uporabljalo tudi svoje Načela AI pri razvoju svojega dela. Ta načela zajemajo področja, kot so pravičnost, varnost, zasebnost in odgovornost.
VALL-E je le zadnji primer Microsoftovega eksperimentiranja z umetno inteligenco. V zadnjem času je podjetje delalo na integracija ChatGPT v Bing, z uporabo AI za ponovite svoje sestanke Teams, in cepljenje naprednih orodij v aplikacije, kot je Outlook, Word in PowerPoint. In glede na Semafor, Microsoft želi vložite 10 milijard dolarjev v izdelovalca ChatGPT OpenAI, podjetje, v katerega je že vložil znatna sredstva.
Kljub navideznim tveganjem bi lahko bila orodja, kot je VALL-E, še posebej uporabna v medicini, na primer za pomoč ljudem, da si po nesreči povrnejo glas. Možnost posnemanja govora s tako majhnim vhodnim nizom bi lahko bila v teh situacijah izjemno obetavna, če bi bila izvedena pravilno. Toda z vsem denarjem, ki ga Microsoft in drugi porabijo za AI, je jasno, da ne bo kmalu izginilo.
Priporočila urednikov
- Najboljši avtorji zahtevajo plačilo od podjetij AI za uporabo njihovega dela
- Najboljša orodja za urejanje videa z umetno inteligenco
- Izdelovalec ChatGPT OpenAI se sooča s preiskavo FTC zaradi zakonov o varstvu potrošnikov
- Preboji umetne inteligence bi lahko prišli prek možganov čebel, pravijo znanstveniki
- OpenAI ustvarja novo ekipo, ki bo preprečila, da bi superinteligentni AI postal lopov
Nadgradite svoj življenjski slogDigitalni trendi bralcem pomagajo slediti hitremu svetu tehnologije z vsemi najnovejšimi novicami, zabavnimi ocenami izdelkov, pronicljivimi uvodniki in enkratnimi vpogledi v vsebine.