MIT's nieuwste AI is geweldig in het bepalen van wat er in video's gebeurt

Hoe een Temporal Relation Network begrijpt wat daar aan de hand is

Slechts een paar informatieframes die een verhaal vertellen, zijn alles wat we nodig hebben om te begrijpen wat er aan de hand is. Dit is tenslotte de basis voor stripboeken – die net genoeg van de belangrijke verhaallijnen bieden om te kunnen volgen wat er is gebeurd. Helaas hebben robots die zijn uitgerust met computervisietechnologie hier moeite mee. Tot nu toe tenminste.

Aanbevolen video's

Onlangs heeft het Massachusetts Institute of Technology (MIT) een nieuw type kunstmatige intelligentie gedemonstreerd systeem dat een neuraal netwerk gebruikt om de lege plekken in videoframes in te vullen om erachter te komen welke activiteit er plaatsvindt plaats. De resultaten maken het verbazingwekkend goed om te bepalen wat er in een video gebeurt.

“De nieuw ontwikkelde temporele relatiemodules stellen de A.I. systeem om enkele sleutelframes te analyseren en de tijd te schatten relatie tussen hen, om te begrijpen wat er in de video aan de hand is – zoals een stapel voorwerpen die [worden] omvergeworpen,”

Bolei Zhou, een voormalige Ph. D. student aan het Computer Science and Artificial Intelligence Laboratory (CSAIL) van MIT, die nu assistent-professor computerwetenschappen is aan de Chinese Universiteit van Hong Kong, vertelde Digital Trends. “Omdat het model werkt met keyframes die spaarzaam zijn bemonsterd uit de binnenkomende video, wordt de verwerkingsefficiëntie aanzienlijk verbeterd, waardoor realtime activiteitsherkenning mogelijk wordt.”

Nog een opwindende eigenschap van de A.I. Het model is dat het in een vroeg stadium kan anticiperen en voorspellen wat er zal gebeuren door videoframes te bekijken. Als het bijvoorbeeld ziet dat iemand een fles vasthoudt, verwacht het algoritme dat hij of zij iets te drinken zal nemen of er mogelijk in zal knijpen. Dergelijke anticipatievermogens zullen essentieel zijn voor kunstmatige intelligentie die wordt gebruikt in domeinen zoals autonoom rijden, waar het proactief ongelukken kan voorkomen door te raden wat er van moment tot moment zal gebeuren.

“Het [zou ook] kunnen worden gebruikt om menselijk gedrag te monitoren, zoals een thuisrobotassistent die op je intentie kan anticiperen door dingen van tevoren af ​​te leveren”, vervolgde Zhou. "Het [zou ook kunnen worden gebruikt] om het enorme [aantal] video's online te analyseren, om video's beter te begrijpen en video's op te halen."

De volgende stap van het project zal bestaan ​​uit het vergroten van het vermogen van de AI om een ​​breder aantal objecten en activiteiten te herkennen. Het team werkt ook samen met robotica-onderzoekers om deze activiteitsherkenning in robotsystemen in te zetten. Deze zouden als resultaat een verbeterde perceptie en visuele redeneervaardigheden kunnen zien.

Aanbevelingen van de redactie

  • Niemand wil AMD’s Zen 4-chips kopen – wat is er aan de hand?
  • Zoom's AI technologie om emoties te detecteren tijdens gesprekken maakt critici van streek
  • De grappige formule: waarom door machines gegenereerde humor de heilige graal is van A.I.
  • Nvidia verlaagt de drempel voor toegang tot AI. met Fleet Command en LaunchPad
  • IBM's AI Het Mayflower-schip steekt de Atlantische Oceaan over en je kunt het live bekijken

Upgrade uw levensstijlMet Digital Trends kunnen lezers de snelle technische wereld in de gaten houden met het laatste nieuws, leuke productrecensies, inzichtelijke redactionele artikelen en unieke sneak peeks.