Flickr 'Park or Bird' viser frem programvare for bildegjenkjenning

flickrs enkelt park fugleverktøy faktisk demo kompleks bildegjenkjenning flickr
Årsaken til å lage dette nye verktøyet stammer fra dette xkcd tegneserie, som ga Flickrs ingeniører en utfordring.

Flickrs ingeniører har jobbet veldig hardt med å utvikle et nytt verktøy som kan fortelle om et bilde er tatt i en nasjonalpark, og om det inneholder en fugl. Du laster bare opp et bilde, og innen et par sekunder returnerer Flickr resultatene. Du må spørre hvorfor Flickr ville bruke penger, tid og ressurser på noe øynene våre lett kan velge ut? Mens den nye "Flickr Park eller Birdfunksjonen virker meningsløs, den demonstrerer faktisk kompleks bildegjenkjenningsprogramvare som Flickr bruker i sine søkealgoritmer. Det som kan virke lett for oss mennesker å skjønne er litt mer komplisert for datamaskiner, men funksjonen viser hvor langt programvare har kommet og hvordan fremtiden for bildesøk vil bli.

Anbefalte videoer

Det er relativt enkelt å finne ut om et bilde ble tatt i en park, så lenge GPS-data er innebygd. Flickr matcher GPS-informasjonen med registreringer i en database, og kan fortelle deg det nøyaktige navnet på parken der bildet ble tatt. Hvis det ikke er informasjon, returneres resultatene som spørsmålstegn; i ett bilde vi lastet opp, hadde Flickr ingen GPS-data å jobbe med, men det var i stand til å fortelle at det var tatt innendørs.

I slekt:Yahoo lanserer endelig Flickr for iPad

Å gjenkjenne en fugl (eller noe annet for den saks skyld) i et bilde er mer involvert. Flickr sier at Vision-teamet "har jobbet det siste året eller så for å kunne gjenkjenne mer enn 1000 ting i bilder ved hjelp av dype konvolusjonelle nevrale nett,” og en av tingene programvaren er god på er å finne fugler. Metoden er litt teknisk å forklare (du kan lese mer om den her), men enkelt sagt, programvaren matcher et inngangsbilde (bilde av en fugl) mot lag og lag med bilder; ett lag "kan gjenkjenne de mest grunnleggende bildefunksjonene, for eksempel korte rette linjer, hjørner og små sirkelbuer," mens et annet lag har mer komplekse former, og "ytterligere lag kan gjenkjenne konsepter på høyere nivå, som øyne og nebb."

Flickr sier at dets Vision-team "allerede bruker dette dype nettverket på Flickr-bilder for å hjelpe folk lettere å finne hva de leter etter via Flickr-søk, og vi planlegger å integrere det i Flickr på andre kule måter i framtid. Vi jobber også med andre innovative datasyns- og bildegjenkjenningsteknologier som vil gjøre det enklere for Flickr-medlemmer å finne og organisere bildene sine.» Av Ved å gjenkjenne hva som er på et bilde, trenger ikke brukere i fremtiden å merke det som er i dem manuelt ved å bruke tekst, siden programvaren vil kunne velge disse tingene automatisk.

Det er ikke perfekt, som denne bildeopplastingen viser. Flickr kunne ikke fastslå hvor den ble skutt på grunn av manglende GPS-informasjon, men den trodde også at denne berømte Internett-katten var en fugl.
Det er ikke perfekt, som denne bildeopplastingen viser. Flickr kunne ikke fastslå hvor den ble skutt på grunn av manglende GPS-informasjon, men den trodde også at denne berømte Internett-katten var en fugl.

Oppgrader livsstilen dinDigitale trender hjelper leserne å følge med på den fartsfylte teknologiverdenen med alle de siste nyhetene, morsomme produktanmeldelser, innsiktsfulle redaksjoner og unike sniktitter.