So hat Facebook seiner Portal-KI beigebracht, wie ein Hollywood-Filmemacher zu denken

Rezension zum Facebook-Portal+
Dan Baker/Digitale Trends

Als Mark Zuckerberg in seinem Studentenwohnheimzimmer in Harvard die erste Version von Facebook baute, stellte er sich das als ein Fenster vor, das es den Menschen ermöglichen würde, einen Einblick in das Leben anderer Nutzer zu erhalten. Wenn Google eine Suchmaschine für Informationen war, war Facebook im Gegensatz dazu eine Suchmaschine für Menschen. Fünfzehn Jahre später hat Facebook diesen Ehrgeiz auf die nächste Stufe gehoben. Durch die Entwicklung von Portal und Portal+, seiner im November 2018 eingeführten Reihe intelligenter Lautsprecher mit Bildschirmoptimierung, hat das Der Social-Media-Riese hat ein weitaus wortwörtlicheres Fenster eingerichtet, über das Facebook-Nutzer Videoanrufe mit einem solchen Fenster tätigen können ein anderer.

Inhalt

  • Kameras intelligenter machen
  • Technische Herausforderungen
  • Ein wachsender Markt
  • Stehen Sie vor datenschutzrechtlichen Herausforderungen?

Die intelligenten Lautsprecher des Portals bedeuten im wahrsten Sinne des Wortes etwas anderes

Facebook auch träumen. Wo Facebook im Wesentlichen eine Suchmaschine für Menschen war, ist Portal eigentlich eine tut Suchen Sie nach ihnen: mit einer beweglichen 12-Megapixel-Kamera mit einem 140-Grad-Sichtfeld, die Ihnen durch den Raum folgt, um zu sehen, was Sie tun. Als digitale Trends Schreiben Sie es in unsere Rezension„Wenn Sie damit beschäftigt sind, in der Küche herumzulaufen und Oma zu fragen, wie sie ihre berühmten Fleischbällchen zubereiten soll, können Sie sich beschäftigen, während Sie ihr beim Reden zuhören.“

Empfohlene Videos

Was genau ist die intelligente Technologie, die Portal antreibt? Und wie glaubt Facebook, dass es die Herausforderung gemeistert hat, einen normalen Video-Chat so persönlich zu gestalten, wie wenn man sich zu einem echten Gespräch hinsetzt? Die Antwort erfordert beeindruckende künstliche Intelligenz – und eine zusätzliche menschliche Note.

Verwandt

  • Emotionserfassende KI ist hier, und es könnte in Ihrem nächsten Vorstellungsgespräch sein
  • Weil das Jahr 2020 nicht verrückt genug ist, singt ein Robotermund die K.I. Gebete in Paris
  • K.I. Durch die Hochskalierung sieht dieser Film aus dem Jahr 1896 so aus, als wäre er in atemberaubendem 4K gedreht worden
Rezension zum Facebook-Portal+
Dan Baker/Digitale Trends

Kameras intelligenter machen

Facebook wusste von Anfang an, dass der Kern seines Portal-Erlebnisses das sogenannte „Smart Camera“-System sein würde. Die Idee der Smart Camera bestand darin, über die Art der statischen Aufnahme, die uns Dienste wie Skype seit Jahren bieten, hinauszugehen und dabei eine kreativere Rolle zu spielen. So wie ein Filmregisseur oder Kameramann weiß, wann er eine Weitwinkelaufnahme verwenden oder wann er für eine intime Nahaufnahme heranzoomen muss, so ist es auch Facebook forderte seine Ingenieure dazu auf, dieselbe Fähigkeit mit Portal nachzuahmen.

Um dieser Kamera die nötige menschliche Note zu verleihen, hat Facebook mit Filmemachern zusammengearbeitet, um herauszufinden, wie sich ihr Wissen am besten in maschinell erlernbare Erkenntnisse umwandeln lässt. In einem Fall wurden sie gebeten, zu demonstrieren, wie sie eine Szene drehen könnten, in der es unmöglich war, alle relevanten Informationen aus einem festen Winkel zu erfassen.

Portal umfasst ein extrem weitwinkliges Objektiv, bei dem alle Bewegungs- und Bearbeitungsentscheidungen vollständig digital getroffen werden.

In einem anderen Fall untersuchten Facebook-Ingenieure die verschiedenen fotografischen Elemente, die Kameraleute bei Porträt- und Landschaftsaufnahmen priorisieren. Diese Beobachtungen bildeten die Grundlage für Softwaremodelle, die versuchen, Portal mit einigen der Entscheidungsfreudigkeiten zu versehen, die wir normalerweise der menschlichen Kreativität zuschreiben würden.

„Wir wollten ein freihändiges Videoanruferlebnis schaffen, das das Gefühl der physischen Distanz beseitigt und ist eher so, als würde man zusammen rumhängen“, erklärte Eric Hwang, einer der Ingenieure hinter Portal, gegenüber Digital Trends.

Das daraus resultierende System – dessen völlige Erstellung laut Facebook „weniger als zwei Jahre“ gedauert hat – ermöglicht es Portal, Entscheidungen zu treffen, die den Gesprächsfluss verbessern sollen. In einem neu veröffentlichter BlogbeitragDort werden einige Beispiele dafür aufgeführt, warum dies notwendig sein könnte. Wenn Sie sich beispielsweise in einem überfüllten Raum befinden, in dem viele Menschen miteinander interagieren, muss das System entscheiden, wann es einer Person außerhalb des Bildes folgt oder wann es herauszoomt, um neue Motive aufzunehmen.

Die Facebook-Softwareentwickler Eric Hwang (zunächst im Stuhl sitzend) und Arthur Cavalcanti demonstrieren das filmische, kameraähnliche Tracking und Framing des Portals.

Ebenso muss es lernen, in Echtzeit mit wechselnden Lichtsituationen umzugehen. Was machen Sie, wenn Ihr Motiv in einem dunklen Raum liegt, halb von einer Decke bedeckt, aber Kinder im Hintergrund herumlaufen und Bewegungsunschärfe verursachen? Portal wägt all diese Informationen in weniger als einem Wimpernschlag ab und versucht, das beste Ergebnis zu ermitteln. (Wenn Sie manuell steuern möchten, auf wen es sich konzentriert, das ist jetzt auch möglich.)

Technische Herausforderungen

Aus technischer Sicht machen einige Dinge die Technologie von Portal beeindruckend. Erstens ist dies alles ohne den Einsatz einer tatsächlich beweglichen Kamera möglich. Zu Beginn des Entwicklungsprozesses probierten die Ingenieure von Portal Prototypen aus, die eine motorisierte Kamera verwendeten, die sich drehte, um Motive anzuschauen. Dagegen wurde jedoch mit der Begründung entschieden, dass dies zu einer Verzögerung und einem möglichen mechanischen Versagen führte. Vielmehr handelt es sich bei Portal um ein extrem weitwinkliges Objektiv, bei dem alle Bewegungs- und Bearbeitungsentscheidungen vollständig digital getroffen werden.

Zweitens hat das Team, das an Portal arbeitet, einen Weg gefunden, seine Entscheidungsprozesse zu erreichen, ohne auf Cloud Computing angewiesen zu sein. Laut Hwang wird die Rechenleistung vollständig im Gerät erreicht.

Entwicklung des Facebook-Portals
Frühe Portal-Prototypen nutzten einen Motor, um die Kamera physisch zu bewegen.Facebook-Engineering

„Das Erfassen aller Personen in einem Videobild ist kein schwieriges technisches Problem, da dies vielen Ingenieuren mit den heutigen Fortschritten im Bereich Computer Vision gelingt“, sagte er. „Die Innovation besteht darin, die relevanten Personen oder Personen in Echtzeit auf dem Gerät zu erfassen und dabei nur den kleinen mobilen Chip im Portal als Rechenleistung zu nutzen. Normalerweise sind diese Arten von K.I. Aufgaben erfordern dedizierte, große Server. [Wir] haben dieses Hindernis überwunden, indem wir komplexe Computer-Vision-Modelle komprimiert haben, bis sie auf den Chip passen, den wir für Portal verwenden, und trotzdem präzise und zuverlässig laufen.“

Dabei greift Portal auf die langfristige Investition von Facebook in künstliche Intelligenz zurück. Es verwendet ein 2D-Posenerkennungssystem, das mit 30 Bildern pro Sekunde läuft. Die Absicht dieser Posen hilft Portal dabei, kontinuierlich Entscheidungen darüber zu treffen, was seine Probanden tun – und wann es infolgedessen möglicherweise digital schwenken oder zoomen muss. Darüber hinaus werden Untersuchungen zu Tiefenkameras genutzt, die von Facebook Reality Labs im Rahmen der Virtual-Reality-Bemühungen des Social-Media-Riesen entwickelt wurden.

Ein wachsender Markt

Facebook ist überzeugt, mit Portal auf der Gewinnerseite zu sein. Es ist leicht zu erkennen, woher sein Selbstvertrauen kommt. Derzeit boomt der Markt für intelligente Lautsprecher. Obwohl es weitgehend vom Marktführer Amazon dominiert wird, ist es so wächst im Jahresvergleich um mehr als 100 Prozent. Das sind gute Nachrichten für Technologieunternehmen, die in einer Zeit der Abflachung nach dem nächsten großen Ding suchen Smartphone Verkäufe.

Rezension zum Facebook-Portal+
Dan Baker/Digitale Trends

Während Facebook der letzte der vier großen Technologieriesen (Amazon, Alphabet, Facebook und Apple) auf den Zug aufzuspringen, ist noch nicht abgeschlossen einer der Ersten Welle intelligenter Lautsprecher, die als Kommunikationsgerät um den Bildschirm herum angeordnet sind.

„Portal ist das einzige Produkt seiner Art auf dem Markt“, sagte Hwang. „Heutzutage basieren intelligente Lautsprecher und Displays auf Informationen und Handel. Das Portal wurde entwickelt, um es einfacher zu machen, mit den Menschen in Kontakt zu treten, die uns am wichtigsten sind: unseren engsten Freunden und unserer Familie. Und Portal konzentriert sich darauf, Menschen zu verbinden – ein Teil der Mission von Facebook –, was derzeit vom Markt für Heimgeräte nicht gut bedient wird.“

Stehen Sie vor datenschutzrechtlichen Herausforderungen?

Was hält Facebook also davon ab, es zu stoppen? Nun, möglicherweise Privatsphäre. Benutzer haben sich als überraschend bereit erwiesen, „immer zuhörende“ Gadgets von Unternehmen wie Google anzunehmen, die ein berechtigtes Interesse an Benutzerdaten haben. Aber ein Gerät, das Sie sowohl beobachtet als auch zuhört, ist noch invasiver. Darüber hinaus leidet der Ruf von Facebook immer noch Der Skandal um Cambridge Analytica im letzten Jahr.

Hinzufügen von Smarts zur Portal-Video-Chat-Kamera (Facebook)

Nur wenige Tage vor der Veröffentlichung dieses Artikels wurde der Washington Post gemeldet dass Facebook mit der FTC eine rekordverdächtige, milliardenschwere Einigung wegen seiner Datenschutzvergehen aushandelt. Angesichts der wachsenden Gegenreaktion vieler ehemaliger Benutzer ist noch nicht bekannt, ob dies der Fall ist Facebook hat einen Hit im Amazon Echo-Stil vor sich – oder einen Flop im Amazon Fire Phone-Stil.

Facebook versicherte uns, dass es die Inhalte von Portal-Videoanrufen nicht abhört, ansieht oder speichert, da diese zusätzlich verschlüsselt sind, um ein Abhören zu verhindern. Die Tatsache, dass Portals K.I. smarts laufen lokal auf dem Gerät und nicht auf Facebook Servern bedeutet auch, dass diese Informationen Ihr Zuhause nicht verlassen. Sprachbefehle werden erst an das Unternehmen gesendet, nachdem Sie „Hey Portal“ gesagt haben, und Benutzer können ihren Sprachverlauf jederzeit im Aktivitätsprotokoll von Facebook löschen.

Es lässt sich jedoch nicht ignorieren, dass immer noch ein gewisses Maß an Datenerhebung stattfindet. „Obwohl wir die Inhalte Ihrer Portal-Videoanrufe nicht abhören, ansehen oder speichern oder diese Informationen für gezielte Werbung verwenden, tun wir das Wir verarbeiten einige Informationen zur Gerätenutzung, um zu verstehen, wie das Portal genutzt wird, und um das Produkt zu verbessern“, stellt Facebook fest. (Datenschutzerklärung des Portals kann hier nachgelesen werden.)

Portal bietet eine sehr intelligente Technologie mit enormen Auswirkungen auf die Zukunft des Video-Chats. Es besteht kein Zweifel, dass dem Unternehmen aus technologischer Sicht etwas sehr Beeindruckendes gelungen ist. Aber ob es potenzielle Kunden davon überzeugen kann, dass dies eine Lösung ist, die sie in ihrem Leben brauchen, wird sich letztendlich als der wahre Erfolg erweisen.

Empfehlungen der Redaktion

  • Lesen Sie die unheimlich schöne „synthetische Schrift“ einer KI. das denkt, es sei Gott
  • Sprach-Supermodel: Wie GPT-3 still und leise die KI einleitet Revolution
  • Wir haben eine KI verwendet. Design-Tool zur Entwicklung eines neuen Logos. Hier ist, was passiert ist
  • Neurosymbolische K.I. ist die Zukunft der künstlichen Intelligenz. So funktioniert das
  • Rückblick auf den Aufstieg der KI: Wie weit ist die künstliche Intelligenz seit 2010 gekommen?