Ez a mesterséges intelligencia már három másodperc után meghamisítja a hangját

A mesterséges intelligencia (AI) az most van egy pillanat, és a szél tovább fúj a vitorláiban azzal a hírrel, hogy a Microsoft egy olyan mesterséges intelligencia kifejlesztésén dolgozik, amely képes utánozni bárki hangját egy rövid, három másodperces minta beadása után.

A VALL-E névre keresztelt új eszközt nagyjából 60 000 órányi hangadatra képezték ki angol nyelven, ami a Microsoft szerint „több százszor nagyobb, mint a meglévő rendszerek”. Ezt a tudást felhasználva az alkotók azt állítják, hogy csak egy kis vokális bemenetre van szükség ahhoz, hogy megértsék, hogyan lehet lemásolni a felhasználó hangját.

férfi beszél a telefonba — Fizkes/Shutterstock

Még lenyűgözőbb, hogy a VALL-E képes reprodukálni az egyes mintákban található érzelmeket, énekhangokat és akusztikus környezetet, amivel más hangos AI programok küzdöttek. Ez valósághűbb aurát ad neki, és eredményeit közelebb viszi valamihez, ami valódi emberi beszédnek mondható.

Összefüggő

GPT-4: hogyan kell használni az AI chatbotot, amely megszégyeníti a ChatGPT-t

A Google Bard már beszélni tud, de ki tudja-e fojtani a ChatGPT-t?
Elon Musk új mesterséges intelligencia-cégének célja, hogy „megértse az univerzumot”

Más text-to-speech (TTS) versenytársakkal összehasonlítva a Microsoft szerint a VALL-E „jelentősen felülmúlja a legmodernebb nulla-shot TTS rendszert a beszéd tekintetében természetesség és a beszélő hasonlósága.” Más szavakkal, a VALL-E sokkal inkább úgy hangzik, mint egy valódi ember, mint a rivális mesterséges intelligencia, amely olyan hangbemenettel találkozik, amelyet nem képeztek ki. tovább.

Ajánlott videók

A GitHubon a Microsoft létrehozott egy kis mintakönyvtár VALL-E segítségével készült. Az eredmények többnyire nagyon lenyűgözőek, sok mintával, amelyek visszaadják a beszélők hangjának könnyedségét és akcentusát. Néhány példa kevésbé meggyőző, ami azt jelzi, hogy a VALL-E valószínűleg nem késztermék, de összességében a teljesítmény meggyőző.

Hatalmas potenciál és kockázatok

Egy személy, aki videohívást folytat Windows 11 rendszert futtató Microsoft Surface-eszközön. — Microsoft/Unsplash

Az a VALL-E-t bemutató papír, a Microsoft kifejti, hogy a VALL-E „potenciális kockázatot rejthet magában a modellel való visszaélés során, például hamisítással. egy adott beszélő azonosítása vagy megszemélyesítése." Ilyen alkalmas eszköz a valósághű hangzású beszédemelések generálására a kísértete egyre meggyőzőbb mélyhamisítások, amivel bármit le lehet utánozni egykori szerelmes partnertől a kiemelkedő nemzetközi személyiségig.

A fenyegetés mérséklése érdekében a Microsoft szerint „lehetséges olyan észlelési modell felépítése, amely megkülönbözteti, hogy egy hangfelvételt a VALL-E szintetizált-e”. A cég azt állítja, hogy a sajátját is használni fogja AI alapelvek munkájának fejlesztése során. Ezek az elvek olyan területekre vonatkoznak, mint a méltányosság, a biztonság, a magánélet védelme és az elszámoltathatóság.

A VALL-E csak a Microsoft mesterséges intelligencia-kísérleteinek legújabb példája. A közelmúltban a cég azon dolgozik a ChatGPT integrálása a Bingbe, mesterséges intelligencia használatával foglalja össze a Teams értekezleteit, és fejlett eszközök beoltása olyan alkalmazásokba, mint Outlook, Word és PowerPoint. A Semafor szerint pedig a Microsoft arra törekszik fektessen be 10 milliárd dollárt a ChatGPT-t gyártó OpenAI-ba, amelybe már jelentős forrásokat szántott.

A látszólagos kockázatok ellenére az olyan eszközök, mint a VALL-E, különösen hasznosak lehetnek az orvostudományban, például abban, hogy baleset után visszanyerjék hangjukat. A beszéd replikálása ilyen kis bemeneti készlettel rendkívül ígéretes lehet ezekben a helyzetekben, feltéve, hogy helyesen teszik. De mivel az összes pénzt mesterséges intelligenciára költik – a Microsoft és mások is – egyértelmű, hogy ez nem fog egyhamar elmúlni.

Szerkesztői ajánlások

A legjobb szerzők fizetést követelnek az AI-cégektől munkájuk felhasználásáért
A legjobb AI videószerkesztő eszközök
A ChatGPT-t gyártó OpenAI-t az FTC vizsgálja a fogyasztóvédelmi törvényekkel kapcsolatban
A mesterséges intelligencia áttörései a méhek agyán keresztül jöhetnek létre a tudósok szerint
Az OpenAI új csapatot épít, hogy megakadályozza a szuperintelligens mesterséges intelligencia szélhámosságát

Frissítse életmódjátA Digital Trends segítségével az olvasók nyomon követhetik a technológia rohanó világát a legfrissebb hírekkel, szórakoztató termékismertetőkkel, éleslátó szerkesztőségekkel és egyedülálló betekintésekkel.

Ez a mesterséges intelligencia már három másodperc után meghamisítja a hangját

Hatalmas potenciál és kockázatok

Szerkesztői ajánlások

Kategóriák

Friss

A Facebook figyelmeztetést biztosít azokról a történetekről, amelyekről esetleg hiányzik

A Facebook-bejegyzések szerkesztése folyamatban van

A Rhizome együttműködik a Tumblr-rel, hogy támogatásokat ítéljen oda internetes művészeknek