MIT: s senaste A.I. är fantastisk på att avgöra vad som händer i videor

Hur ett Temporal Relation Network förstår vad som händer där

Bara några få ramar av information som berättar en historia är allt vi behöver för att förstå vad som pågår. Detta är trots allt grunden för serietidningar - som ger precis tillräckligt med viktiga berättelser för att vi ska kunna följa vad som har hänt. Tyvärr kämpar robotar utrustade med datorseendeteknik för att göra detta. Tills nu, åtminstone.

Rekommenderade videor

Nyligen visade Massachusetts Institute of Technology (MIT) en ny typ av artificiell intelligens system som använder ett neuralt nätverk för att fylla i tomrummen i videorutor för att räkna ut vilken aktivitet som tar plats. Resultaten gör den häpnadsväckande bra på att avgöra vad som händer i en video.

"De nyutvecklade temporala relationsmodulerna gör det möjligt för A.I. system för att analysera några nyckelramar och uppskatta den tidsmässiga förhållandet mellan dem, för att förstå vad som händer i videon – som att en hög med föremål [blir] omkullkörda.” Bolei Zhou

, en före detta Ph.D. Student vid MIT: s datavetenskap och artificiell intelligens Laboratory (CSAIL), som nu är biträdande professor i datavetenskap vid det kinesiska universitetet i Hong Kong, berättade för Digital Trends. "Eftersom modellen fungerar med nyckelbildrutor sparsamt samplade från den inkommande videon, förbättras bearbetningseffektiviteten avsevärt, vilket möjliggör aktivitetsigenkänning i realtid."

En annan spännande egenskap hos A.I. modell är att den kan förutse och förutsäga vad som kommer att hända tidigt genom att titta på bildrutor. Om den till exempel ser en person som håller i en flaska, förutser algoritmen att de kan ta en drink eller eventuellt pressa den. Sådana förutseende förmågor kommer att vara avgörande för artificiell intelligens som används i domäner som autonom körning, där det proaktivt skulle kunna förhindra olyckor genom att gissa vad som kommer att hända från ögonblick till ögonblick.

"Det [kan också] användas för att övervaka mänskliga beteenden, till exempel en hemrobotassistent som kunde förutse din avsikt genom att leverera saker i förväg," fortsatte Zhou. "Det [kan dessutom användas] för att analysera det enorma [antal] videor online, för att göra bättre videoförståelse och videohämtning."

Nästa steg i projektet kommer att innebära att öka A.I: s förmåga att känna igen ett bredare antal objekt och aktiviteter. Teamet arbetar också med robotforskare för att distribuera denna aktivitetsigenkänning i robotsystem. Dessa kunde se förbättrad perception och visuell resonemang som ett resultat.

Redaktörens rekommendationer

  • Ingen vill köpa AMD: s Zen 4-chips - vad händer?
  • Zooms A.I. teknik för att upptäcka känslor under samtal upprör kritiker
  • Den roliga formeln: Varför maskingenererad humor är A.I.s heliga gral.
  • Nvidia sänker barriären för inträde i A.I. med Fleet Command och LaunchPad
  • IBMs A.I. Mayflower-skeppet korsar Atlanten och du kan se det live

Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.