MITs siste A.I. er fantastisk til å bestemme hva som skjer i videoer

Hvordan et Temporal Relation Network forstår hva som skjer der

Bare noen få rammer med informasjon som forteller en historie er alt vi trenger for å forstå hva som skjer. Dette er tross alt grunnlaget for tegneserier – som gir akkurat nok av de viktige historieslagene til at vi kan følge med på hva som har skjedd. Dessverre sliter roboter utstyrt med datasynsteknologi med å gjøre dette. Inntil nå, i alle fall.

Anbefalte videoer

Nylig demonstrerte Massachusetts Institute of Technology (MIT) en ny type kunstig intelligens system som bruker et nevralt nettverk for å fylle ut de tomme feltene i videorammer for å finne ut hvilken aktivitet som tar plass. Resultatene gjør den forbløffende god til å bestemme hva som foregår i en video.

"De nyutviklede modulene for tidsrelasjon gjør det mulig for A.I. system for å analysere noen få nøkkelrammer og estimere det tidsmessige forholdet mellom dem, for å forstå hva som skjer i videoen – for eksempel en stabel med gjenstander som [blir] slått ned,» Bolei Zhou

, en tidligere Ph.D. student ved MITs Computer Science and Artificial Intelligence Laboratory (CSAIL), som nå er assisterende professor i informatikk ved det kinesiske universitetet i Hong Kong, fortalte Digital Trends. "Fordi modellen fungerer med nøkkelbilder sparsomt samplet fra den innkommende videoen, er prosesseringseffektiviteten betydelig forbedret, noe som muliggjør sanntidsaktivitetsgjenkjenning."

En annen spennende eiendom til A.I. modellen er at den kan forutse og forutsi hva som vil skje tidlig ved å se på videobilder. For eksempel, hvis den ser en person som holder en flaske, forventer algoritmen at de kan ta en drink eller muligens klemme den. Slike forventningsevner vil være avgjørende for kunstig intelligens brukt i domener som autonom kjøring, der den proaktivt kan forhindre ulykker ved å gjette hva som vil skje fra øyeblikk til øyeblikk.

"Det [kan også] brukes til å overvåke menneskelig atferd, for eksempel en hjemmerobotassistent som kan forutse intensjonen din ved å levere ting på forhånd," fortsatte Zhou. "Det [kan i tillegg brukes] til å analysere det enorme [antall] videoer på nettet, for å gjøre videoforståelse og videohenting bedre."

Det neste trinnet i prosjektet vil innebære å øke A.I.s evne til å gjenkjenne et bredere antall objekter og aktiviteter. Teamet jobber også med robotforskere for å distribuere denne aktivitetsgjenkjenningen i robotsystemer. Disse kunne se forbedret persepsjon og visuelle resonnementferdigheter som et resultat.

Redaktørenes anbefalinger

  • Ingen vil kjøpe AMDs Zen 4-brikker - hva skjer?
  • Zooms A.I. teknologi for å oppdage følelser under samtaler opprører kritikere
  • Den morsomme formelen: Hvorfor maskingenerert humor er den hellige gral til A.I.
  • Nvidia senker barrieren for inntreden i A.I. med Fleet Command og LaunchPad
  • IBMs A.I. Mayflower-skipet krysser Atlanterhavet, og du kan se det live

Oppgrader livsstilen dinDigitale trender hjelper leserne å følge med på den fartsfylte teknologiverdenen med alle de siste nyhetene, morsomme produktanmeldelser, innsiktsfulle redaksjoner og unike sniktitter.