Xerox: láss is, ne csak nézz!

Egy kép gyakran többet mond száz szónál – ezt az igazságot a sajtóban (is) mindenki ismeri és alkalmazza; annál is inkább, mivel a modern informatikai háttér a felhalmozott fotók, illusztrációk tárolására, kezelésére és továbbítására is nagyszerű lehetőséget biztosít. Egy ponton túl azonban nehézkessé válik a képek közötti eligazodás, ezért a fájlokat valahogyan rendszerezni kell, hogy kereshetővé váljanak.

Hirdetés

Alapvető, hogy az egyes állományok a keletkezési körülményekkel, a szerzői jogokkal, netán a tárggyal kapcsolatos metainformációkat tartalmaznak, de persze bevett szokás a képek indexálása is, amelynek során a szükséges adatokat és a besorolási kategóriákat egy adatbázisban rendelik hozzá a fájlokhoz. Ezen műveletek manuális elvégzése egy kiterjedt gyűjtemény esetében nagyon hosszú és igen költséges lehet, így a profik ahol lehet, az automatizálás eszközéhez nyúlnak. A gépek ma már sok munkát levesznek az ember válláról, de hogyan birkóznak meg azzal a – számunkra – triviális feladattal, hogy tartalmuk szerint csoportosítsák a fotókat? Az európai Xerox Research Centre új szoftvere erre kínál egy lehetséges megoldást.

Az eljárás négy lépcsőből áll. Elsőként a program elemzi a képet, és jellegzetes pontokat, kulcsformákat igyeszik rajta azonosítani. Ezután ezeket az úgynevezett keypatcheket egy „vizuális szótárral” hasonlítja össze, amely segít neki a keypatchek számának a szükséges minimumra való redukálásában. Egy autó képén például a körvonalon és az egyes felületek találkozásánál több ezer keypatch keletkezhet, az autó azonosításához azonban többnyire elegendő néhány markáns jegy, például a kerekek, a fényszórók, a szélvédő felismerése. Ezek a „vizuális szavak” már elegendők a tárgy megfelelő megnevezéséhez és kategorizálásához.


Keypatchek [+]


Vizuális szavak [+]

A harmadik lépésben az algoritmus megszámolja, hogy az egyes vizuális szavakból mennyit talált, ami után már képes besorolni tartalom alapján a képet. A szoftver természetesen nem magától találja ki, hogy milyen nevet adjon az egyes mintázatoknak – ahogy a vizuális szavak fellelésében, úgy a besorolásban is egy előre definiált adatbázist vesz igénybe. A fejlesztők állítása szerint azonban ezzel a segítséggel nagyon is autonóm módon bánik: a tárgyak túlnyomó többségét szokatlan szögekből és részleges takarásban is képes felismerni.

Az egész folyamat – nagy felbontású képeknél – mindössze két másodpercet vesz igénybe, a találati pontosság jelenleg kategóriától függően 80 és 99 százalék között van. A kutatók számára most a vizuális szótár bővítése az elsődleges feladat, hogy mielőbb piacra dobhassák a terméket. Középtávon még nagyratörőbb célt tűztek ki: lehetővé szeretnék tenni mozgóképek tartalmának felismerését is, hogy így a videók kategorizálására alkalmas eszközt adjanak a felhasználók kezébe.

  • Kapcsolódó cégek:
  • Xerox

Azóta történt