A Flickr „Park or Bird” bemutatja a képfelismerő szoftvert

flickrs egyszerű park madár eszköz valójában demó komplex képfelismerő flickr
Az új eszköz létrehozásának oka ebből fakad xkcd képregény, amely kihívás elé állította a Flickr mérnökeit.

A Flickr mérnökei nagyon keményen dolgoztak a fejlesztésen egy új eszköz ez meg tudja mondani, hogy egy fényképet nemzeti parkban forgattak-e, és hogy van-e rajta madár. Egyszerűen feltölt egy képet, és a Flickr néhány másodpercen belül visszaadja az eredményeket. Biztosan felteszi a kérdést, hogy a Flickr miért áldoz pénzt, időt és erőforrásokat olyasmire, amit a szemünk könnyen észrevesz? Míg az új „Flickr Park vagy Bird” funkció értelmetlennek tűnik, valójában azt mutatja be, hogy a Flickr keresőalgoritmusaiban összetett képfelismerő szoftvert alkalmaz. Amit nekünk, embereknek könnyű felismerni, az a számítógépeknél valamivel bonyolultabb, de a funkció megmutatja, meddig jutottak el a szoftverek, és milyen lesz a képkeresés jövője.

Ajánlott videók

Viszonylag egyszerű meghatározni, hogy a kép egy parkban készült-e, ha be vannak ágyazva a GPS adatok. A Flickr összeegyezteti a GPS-információkat az adatbázisban lévő rekordokkal, és meg tudja mondani a park pontos nevét, ahol a fotó készült. Ha nincs információ, az eredmények kérdőjelként jelennek meg; Az egyik általunk feltöltött képen a Flickr nem rendelkezett GPS-adatokkal, de ki tudta deríteni, hogy beltérben készült.

Összefüggő:A Yahoo végre kiadja a Flickr-t iPadre

Egy madár (vagy bármi más) felismerése a képen sokkal fontosabb. A Flickr szerint a Vision csapata „az elmúlt egy évben azon dolgozik, hogy képes legyen rá több mint 1000 dolgot felismer képekben használva mély konvolúciós neurális hálók”, és az egyik dolog, amiben a szoftvere jó, az a madarak keresése. A módszer magyarázata kissé technikai jellegű (erről bővebben olvashat itt), hanem leegyszerűsítve, a szoftver a bemeneti képet (egy madár képét) a képrétegekkel és rétegekkel párosítja; az egyik réteg „felismerheti a legalapvetőbb képjellemzőket, például rövid egyenes vonalakat, sarkokat és kis köríveket”, míg egy másik réteg összetettebb formákkal rendelkezik, és „további rétegek felismerhetnek magasabb szintű fogalmakat, mint a szemek és csőrök.”

A Flickr szerint a Vision csapata „már alkalmazza ezt a mély hálózatot a Flickr-fotóknál, hogy az emberek könnyebben megtalálhassák őket amit keresnek a Flickr-keresésen keresztül, és azt tervezzük, hogy más nagyszerű módokon integráljuk a Flickrbe. jövő. Dolgozunk más innovatív számítógépes látás- és képfelismerő technológiákon is, amelyek megkönnyítik a Flickr-tagok számára a fényképeik megtalálását és rendszerezését.” Által A felhasználóknak a jövőben nem kell manuálisan, szöveggel megjelölniük a rajtuk lévő tartalmat, mivel felismerik, mi van a fotón, mivel a szoftver automatikusan ki tudja majd venni ezeket a dolgokat.

Nem tökéletes, ahogy ez a képfeltöltés is mutatja. A Flickr nem tudta meghatározni, hol lőtték le, mert hiányzott a GPS-információ, de azt is gondolta, hogy ez a híres internetes macska egy madár.
Nem tökéletes, ahogy ez a képfeltöltés is mutatja. A Flickr nem tudta megállapítani, hol lőtték le, mert hiányzott a GPS-információ, de azt is gondolta, hogy ez a híres internetes macska egy madár.

Frissítse életmódjátA Digital Trends segítségével az olvasók nyomon követhetik a technológia rohanó világát a legfrissebb hírekkel, szórakoztató termékismertetőkkel, éleslátó szerkesztőségekkel és egyedülálló betekintésekkel.