Flickr "Park or Bird" visar upp programvara för bildigenkänning

flickrs enkla park fågelverktyg faktiskt demo komplex bildigenkänning flickr
Anledningen till att skapa detta nya verktyg härrör från detta xkcd serie, vilket ställde Flickrs ingenjörer inför en utmaning.

Flickrs ingenjörer har arbetat riktigt hårt med att utveckla ett nytt verktyg som kan avgöra om ett foto togs i en nationalpark och om det innehåller en fågel. Du laddar bara upp en bild och inom ett par sekunder returnerar Flickr resultatet. Du måste fråga varför Flickr skulle ägna pengar, tid och resurser till något som våra ögon lätt kan välja ut? Medan den nya "Flickr Park eller BirdFunktionen verkar meningslös, den visar faktiskt komplex bildigenkänningsprogramvara som Flickr använder i sina sökalgoritmer. Det som kan tyckas vara lätt för oss människor att urskilja är något mer komplicerat för datorer, men funktionen visar hur långt mjukvaran har kommit och hur framtiden för bildsökning kommer att se ut.

Rekommenderade videor

Att avgöra om en bild togs i en park är relativt enkelt, så länge GPS-data är inbäddad. Flickr matchar GPS-informationen med uppgifter i en databas och kan berätta det exakta namnet på parken där bilden togs. Om det inte finns någon information returneras resultaten som frågetecken; i en bild vi laddade upp hade Flickr ingen GPS-data att arbeta med, men den kunde berätta att den var tagen inomhus.

Relaterad:Yahoo rullar äntligen ut Flickr för iPad

Att känna igen en fågel (eller något annat för den delen) i en bild är mer involverat. Flickr säger att dess Vision-team "har arbetat det senaste året eller så för att kunna känna igen mer än 1 000 saker i bilder med hjälp av djupa konvolutionella neurala nät,” och en av de saker som dess mjukvara är bra på är att hitta fåglar. Metoden är lite teknisk att förklara (du kan läsa mer om den här), men enkelt uttryckt matchar programvaran en ingångsbild (bild av en fågel) mot lager och lager av bilder; ett lager "kan känna igen de mest grundläggande bildegenskaperna, såsom korta raka linjer, hörn och små cirkelbågar," medan ett annat lager har mer komplexa former, och "ytterligare lager kan känna igen begrepp på högre nivå, som ögon och näbbar.”

Flickr säger att dess Vision-team "tillämpar redan detta djupa nätverk på Flickr-foton för att hjälpa människor att lättare hitta vad de letar efter via Flickr-sökning, och vi planerar att integrera det i Flickr på andra coola sätt i framtida. Vi arbetar också med andra innovativa datorseende- och bildigenkänningstekniker som kommer att göra det lättare för Flickr-medlemmar att hitta och organisera sina foton." Förbi Genom att känna igen vad som finns i ett foto, kommer användare i framtiden inte att behöva tagga det som finns i dem manuellt med hjälp av text, eftersom programvaran kommer att kunna välja ut dessa saker automatiskt.

Det är inte perfekt, vilket den här bilduppladdningen visar. Flickr kunde inte avgöra var den sköts på grund av saknad GPS-information, men den trodde också att den här berömda internetkatten var en fågel.
Det är inte perfekt, som den här bilduppladdningen visar. Flickr kunde inte avgöra var den sköts på grund av saknad GPS-information, men den trodde också att den här berömda internetkatten var en fågel.

Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.