Kunstig intelligens (AI) er har et øyeblikk akkurat nå, og vinden fortsetter å blåse i seilene med nyheten om at Microsoft jobber med en AI som kan imitere hvem som helst etter å ha blitt matet med en kort prøve på tre sekunder.
Det nye verktøyet, kalt VALL-E, har blitt trent på omtrent 60 000 timer med taledata på engelsk, som Microsoft sier er "hundrevis av ganger større enn eksisterende systemer". Ved å bruke denne kunnskapen, hevder skaperne at den bare trenger en liten snert av vokal input for å forstå hvordan man replikerer en brukers stemme.

Mer imponerende, VALL-E kan gjengi følelsene, vokaltonene og det akustiske miljøet som finnes i hver prøve, noe andre stemme-AI-programmer har slitt med. Det gir den en mer realistisk aura og bringer resultatene nærmere noe som kan passere som ekte menneskelig tale.
I slekt
- GPT-4: hvordan bruke AI-chatboten som gjør ChatGPT til skamme
- Google Bard kan nå snakke, men kan det overdøve ChatGPT?
- Elon Musks nye AI-selskap har som mål å "forstå universet"
Sammenlignet med andre tekst-til-tale (TTS)-konkurrenter, sier Microsoft at VALL-E "betraktelig overgår det toppmoderne zero-shot TTS-systemet når det gjelder tale naturlighet og talerlikhet." Med andre ord, VALL-E høres mye mer ut som ekte mennesker enn rivaliserende AI-er som møter lydinnganger som de ikke har blitt trent på.
Anbefalte videoer
På GitHub har Microsoft laget en lite bibliotek med prøver opprettet ved hjelp av ALL-E. Resultatene er for det meste veldig imponerende, med mange samples som gjengir stivheten og aksenten til høyttalernes stemmer. Noen av eksemplene er mindre overbevisende, noe som indikerer at VALL-E sannsynligvis ikke er et ferdig produkt, men totalt sett er resultatet overbevisende.
Stort potensial – og risiko

I en papir som introduserer ALL-E, forklarer Microsoft at VAL-E «kan medføre potensielle risikoer ved misbruk av modellen, for eksempel falsk stemme identifikasjon eller etterligning av en spesifikk taler." Et slikt kapabelt verktøy for å generere realistisk klingende taleløft spekteret av stadig mer overbevisende deepfakes, som kan brukes til å etterligne alt fra en tidligere romantisk partner til en fremtredende internasjonal personlighet.
For å dempe denne trusselen, sier Microsoft at "det er mulig å bygge en deteksjonsmodell for å diskriminere om et lydklipp ble syntetisert av VALL-E." Selskapet sier at de også vil bruke sin egen AI-prinsipper når man utvikler sitt arbeid. Disse prinsippene dekker områder som rettferdighet, sikkerhet, personvern og ansvarlighet.
VALL-E er bare det siste eksemplet på Microsofts eksperimentering med AI. Den siste tiden har selskapet jobbet med integrere ChatGPT i Bing, bruker AI til oppsummere Teams-møtene dine, og poder avanserte verktøy inn i apper som Outlook, Word og PowerPoint. Og ifølge Semafor ser Microsoft etter investere 10 milliarder dollar i ChatGPT-produsenten OpenAI, et selskap det allerede har pløyd betydelige midler inn i.
Til tross for de tilsynelatende risikoene, kan verktøy som VALL-E være spesielt nyttige innen medisin, for eksempel for å hjelpe folk til å gjenvinne stemmen etter en ulykke. Å kunne replikere tale med et så lite inngangssett kan være utrolig lovende i disse situasjonene, forutsatt at det gjøres riktig. Men med alle pengene som brukes på kunstig intelligens – både av Microsoft og andre – er det klart at det ikke forsvinner med det første.
Redaktørenes anbefalinger
- Toppforfattere krever betaling fra AI-firmaer for å bruke arbeidet deres
- De beste AI-videoredigeringsverktøyene
- ChatGPT-produsenten OpenAI står overfor FTC-undersøkelse over forbrukerbeskyttelseslover
- AI-gjennombrudd kan komme via hjernen til bier, sier forskere
- OpenAI bygger et nytt team for å stoppe superintelligent AI fra å bli useriøs
Oppgrader livsstilen dinDigitale trender hjelper leserne å følge med på den fartsfylte teknologiverdenen med alle de siste nyhetene, morsomme produktanmeldelser, innsiktsfulle redaksjoner og unike sniktitter.