Så här lärde Facebook ut sin Portal A.I. att tänka som en Hollywoodfilmare

Facebook Portal+ recension
Dan Baker/Digitala trender

När Mark Zuckerberg byggde den första versionen av Facebook i sitt studentrum på Harvard, föreställde han sig det som ett fönster som skulle tillåta människor att se in i andra användares liv. Om Google var en sökmotor för information så var Facebook däremot en sökmotor för människor. Femton år senare har Facebook tagit denna ambition till nästa nivå. Genom att skapa Portal och Portal+, dess linje av skärmförbättrade smarta högtalare, som lanserades i november 2018, sociala mediejätten har skapat ett mycket mer bokstavligt fönster som låter Facebook-användare ringa videosamtal till en annan.

Innehåll

  • Gör kameror smartare
  • Tekniska utmaningar
  • En växande marknad
  • Integritetsutmaningar framöver?

Portals smarta högtalare förvandlar en annan Facebook dröm också. Där Facebook i grunden var en sökmotor för människor, Portal faktiskt gör leta upp dem: med en rörlig 12-megapixelkamera, med ett 140-graders synfält, som följer dig runt i rummet för att se vad du gör. Som digitala trender

lägg det i vår recension, "om du är upptagen med att röra dig i köket medan du frågar mormor hur man gör sina berömda köttbullar, kan du hålla dig sysselsatt medan du lyssnar på hennes samtal."

Rekommenderade videor

Vad är egentligen den smarta tekniken som driver Portal? Och hur tror Facebook att det har klarat utmaningen att få vanlig videochatt att kännas lika personlig som att sitta ner för en riktig konversation? Svaret involverar imponerande artificiell intelligens - och en extra mänsklig touch.

Relaterad

  • Känslokännande A.I. är här, och det kan vara i din nästa anställningsintervju
  • Eftersom 2020 inte är tillräckligt galet, sjunger en robotmun A.I. böner i Paris
  • A.I. uppskalning får den här filmen från 1896 att se ut som om den spelades in i bländande 4K
Facebook Portal+ recension
Dan Baker/Digitala trender

Gör kameror smartare

Redan från början visste Facebook att kärnan i dess portalupplevelse skulle vara det så kallade "Smart Camera"-systemet. Tanken med den smarta kameran var att gå bortom den typ av statisk bild som tjänster som Skype har erbjudit oss i flera år, och att spela en mer kreativ roll i processen. Precis som en filmregissör eller filmfotograf vet när man ska använda en bredbild eller när man ska zooma in för en intim närbild, så Facebook utmanade sina ingenjörer att imitera samma förmåga med Portal.

För att ge den här kameran den nödvändiga mänskliga touchen arbetade Facebook med filmskapare för att ta reda på det bästa sättet att destillera sin visdom till maskininlärningsbara insikter. I ett fall bad den dem att demonstrera hur de kunde filma en scen där det var omöjligt att fånga all relevant information från en fast vinkel.

Portal består av ett extremt vidvinkelobjektiv där alla rörelse- och redigeringsbeslut fattas helt digitalt.

I en annan tittade Facebooks ingenjörer på de olika fotografiska element som kameraoperatörer prioriterar i porträtt- och landskapsbilder. Dessa observationer utgjorde grunden för mjukvarumodeller som försöker genomsyra Portal med några av de beslutsunderlag som vi normalt skulle tillskriva mänsklig kreativitet.

"Vi ville skapa en handsfree-videosamtalsupplevelse som tar bort känslor av fysiskt avstånd och är mer som att umgås tillsammans”, förklarade Eric Hwang, en av ingenjörerna bakom Portal, för Digital Trends.

Det resulterande systemet - som Facebook säger tog det "under två år" att skapa från grunden - tillåter Portal att fatta beslut som är utformade för att förbättra flödet av en konversation. I en nyligen publicerat blogginlägg, den beskriver några av illustrationerna av varför detta kan vara nödvändigt. Om du till exempel är i ett trångt rum, fullt av människor som interagerar med varandra, måste den välja när den ska följa en individ utanför bildruta eller när den ska zooma ut för att passa nya motiv.

Facebooks mjukvaruingenjörer Eric Hwang (som sitter i stolen till en början) och Arthur Cavalcanti demonstrerar Portalens filmiska kameraliknande spårning och inramning.

På samma sätt måste den lära sig att hantera föränderliga ljussituationer i realtid. Vad gör du om ditt motiv ligger i ett mörkt rum, halvt täckt av en filt, men det finns barn som springer runt i bakgrunden och orsakar rörelseoskärpa? Portal väger all denna information på mindre än ett ögonblick och försöker fastställa det bästa resultatet. (Om du vill manuellt styra vem det fokuserar på, det är nu också möjligt.)

Tekniska utmaningar

Ur ett tekniskt perspektiv gör ett par saker Portals teknik imponerande. Den första är att den kan göra allt detta utan att använda en faktisk rörlig kamera. Tidigt i utvecklingsprocessen testade Portals ingenjörer prototyper som använde en motoriserad kamera, som svängdes för att möta motiv. Detta beslutades dock emot på grundval av att det orsakade en fördröjning och en punkt med potentiellt mekaniskt fel. Istället består Portal av ett extremt vidvinkelobjektiv där alla rörelse- och redigeringsbeslut fattas helt digitalt.

För det andra hittade teamet som arbetade på Portal ett sätt att uppnå sina beslutsprocesser utan att behöva förlita sig på cloud computing. Enligt Hwang uppnås all beräkningseldkraft i enheten.

Utvecklingen av Facebook-portalen
Tidiga portalprototyper förlitade sig på en motor för att fysiskt flytta kameran.Facebook Engineering

"Att fånga alla i en videoram är inte ett svårt tekniskt problem, eftersom många ingenjörer kan göra det med dagens framsteg i datorseendet", sa han. "Innovationen är att fånga relevanta personer eller personer i realtid, på enheten, med bara det lilla mobila chippet inuti Portal som processorkraft. Vanligtvis är dessa typer av A.I. uppgifter kräver dedikerade, stora servrar. [Vi] övervann det hindret genom att komprimera komplexa datorseendemodeller tills de kunde passa på chipet vi använder för Portal och fortfarande köras exakt och tillförlitligt."

För att göra detta använder Portal Facebooks långsiktiga investering i artificiell intelligens. Den använder ett 2D-positionsdetekteringssystem som körs med 30 bilder per sekund. Avsikten med dessa poser hjälper Portal att ta kontinuerliga beslut om vad dess motiv gör – och när den kan behöva panorera eller zooma digitalt som ett resultat. Den använder dessutom forskning om djupkameror utvecklade av Facebook Reality Labs som en del av sociala mediejättens virtuella verklighetsansträngningar.

En växande marknad

Facebook är övertygat om att det är en vinnare med Portal. Det är lätt att se var dess självförtroende kommer ifrån. Just nu blomstrar marknaden för smarta högtalare. Även om det till stor del domineras av marknadsledaren Amazon är det det växa med mer än 100 procent från år till år. Det är goda nyheter för teknikföretag som letar efter nästa stora sak i en tid av tillplattadhet smartphone försäljning.

Facebook Portal+ recension
Dan Baker/Digitala trender

Medan Facebook var den sista av de fyra stora teknikjättarna (Amazon, Alphabet, Facebook och Apple) för att hoppa på tåget, är det fortfarande en av de första våg av smarta högtalare centrerade runt skärmen som en kommunikationsenhet.

"Portal är den enda produkten i sitt slag på marknaden," sa Hwang. "Idag är smarta högtalare och skärmar byggda kring information och handel. Portalen är byggd för att göra det lättare att få kontakt med de människor som betyder mest: våra närmaste vänner och familj. Och Portal är fokuserad på att koppla samman människor – en del av Facebooks uppdrag – som för närvarande inte betjänas väl av marknaden för hemenheter.”

Integritetsutmaningar framöver?

Så vad är det som stoppar Facebook? Tja, potentiellt integritet. Användare har visat sig förvånansvärt villiga att ta till sig "alltid lyssnande" prylar från företag som Google med ett egenintresse av användardata. Men en enhet som både tittar och lyssnar på dig är fortfarande mer invasiv. Dessutom lider Facebooks rykte fortfarande efter förra årets Cambridge Analytica-skandal.

Lägga till smarta funktioner till Portal videochattkamera (Facebook)

Bara några dagar innan just denna artikel publicerades, Washington Post rapporterad att Facebook förhandlar fram en rekordstor uppgörelse på flera miljarder dollar med FTC för sina integritetsförseelser. Med en växande motreaktion från många tidigare användare, är det ännu inte avslöjat om Facebook har en Amazon Echo-stil hit på händerna - eller en Amazon Fire Phone-stil flopp.

Facebook försäkrade oss om att de inte lyssnar på, tittar på eller behåller innehållet i portalvideosamtal, som dessutom är krypterade för att undvika avlyssning. Det faktum att Portals A.I. smarts körs lokalt på enheten och inte på Facebook servrar, innebär också att denna information inte lämnar ditt hem. Röstkommandon skickas till företaget först efter att du säger "Hey Portal", och användare kan när som helst radera sin rösthistorik i Facebooks aktivitetslogg.

Men det går inte att komma runt det faktum att det fortfarande pågår en viss grad av datainsamling. "Även om vi inte lyssnar på, tittar på eller behåller innehållet i dina portalvideosamtal, eller använder denna information för att rikta in annonser, bearbeta viss enhetsanvändningsinformation för att förstå hur Portal används och för att förbättra produkten”, noterar Facebook. (Portalens integritetspolicy kan läsas här.)

Portal erbjuder mycket smart teknik med enorma konsekvenser för framtiden för videochatt. Det råder ingen tvekan om att företaget har lyckats åstadkomma något mycket imponerande ur teknisk synvinkel. Men om det kan övertyga potentiella kunder om att detta är en lösning de behöver i sina liv kommer i slutändan att visa sig vara den verkliga bedriften.

Redaktörens rekommendationer

  • Läs den kusligt vackra "syntetiska skriften" av en A.I. som tror att det är Gud
  • Språksupermodell: Hur GPT-3 tyst inleder A.I. rotation
  • Vi använde en A.I. designverktyg för att komma med en ny logotyp. Här är vad som hände
  • Neurosymbolisk A.I. är framtiden för artificiell intelligens. Så här fungerar det
  • Återbesök till uppkomsten av A.I.: Hur långt har artificiell intelligens kommit sedan 2010?