Forradalmasították a képkeresést

Hirdetés

Képeket keresni a weben manapság egyszerű: vegyük például a kerékpár szót, gépeljük be a Google, a Yahoo! vagy a Bing felületére, majd próbáljunk eligazodni a találatok milliói között. Természetesen szűkíthetjük is a listát a megfelelő nyelvi kiegészítések betoldásával (hegyi, egykerekű, régi, piros stb.), de bármilyen adalékkal is egészítjük ki az eredeti szavunkat, minden esetben ugyanaz történik: a keresőalkalmazás azokat a weblapokat fog feldobálni, amelyeken szerepel a keresési kifejezés – függetlenül attól, hogy a jobb vizuális áttekinthetőség érdekében a szoftver képes formában tárja elénk az eredményt. Amerikai kutatók úgy gondolták, a szövegalapú kutakodást kiegészíthetjük mintákra épülő keresésekkel: megtaníthatjuk a szoftvernek, mit lát a képeken és arra utasíthatjuk, keressen hasonló objektumokat a weben.

A gépek nem látnak, hanem néznek – így is kifejezhetjük az informatikai berendezések azon hiányosságát, miszerint nem képesek megállapítani egy tárgyról, hogy mit ábrázol. Csakis a megfelelő programozási eljárással tanítható meg a számítógép objektumok felismerésére, csoportosítására és kiértékelésére. Nemrégiben beszámoltunk például egy hazai fejlesztésű technológiájáról, az Intellio intelligens arcfelismerő rendszeréről, mely felismeri és azonosítja az emberi arcot, megállapítja a személy nemét és korát. Hasonló elven gondolkodik Peyman Milanfar professzor is, azonban a gyakran igen hosszadalmas tréningfázist mintaalapú megoldásra cserélte: a programnak elegendő egyetlen képet vagy videofelvételt megtekintenie, és máris tengernyi tartalom között képes megtalálni azt a képet, ami a mintára a legjobban hasonlít. Ne csak olyan helyzetre gondoljunk, amikor szemmel láthatólag is tökéletes a hasonlóság – a szoftvernek mindegy, hogy a keresett ábra az előtérben vagy a háttérben található, elmosódott vagy éles, világos vagy sötét.

Milanfar-féle képkereső technológia
Talált, süllyedt (Forrás: P. Milanfar)

Peyman Milanfar és Hae Jong Seo technológiája egy képet vagy videót úgy elemez ki, hogy az objektum vagy egy adott mozgássorozat legfontosabbnak ítélt alkotórészeit karakterizálja, majd ugyanezeket a komponenseket keresi meg adatbázisokban. A kép pixelek halmaza, a szoftver közvetlenül a képpontokat vizsgálja meg, illetve azok egymáshoz való viszonyát – egyszerűen szólva, mennyire hasonlít egy bizonyos pixel a körülötte lévőkhöz az elhelyezkedés, a színek és színárnyalatok szempontjából. A mozgóképek elemzése ugyanígy megy végbe, csupán kiegészül a képpontok helyzetének változásával. A kerékpárt például a kerekek alakja és a vázhoz történő csatlakozás sajátosságai emelik ki, ezek az attribútumok nem függnek az objektum mértétől, a háttértől vagy a minőségtől. Éppen ezért lényegtelen körülmény, hogy a minta milyen beállításban jelenik meg: egy kerékpár este készült felvétele napfényben úszó biciklik azonosítására is alkalmas, hasonlóképpen a többszörös Tour de France-győztes Lance Armstrongról rögzített képsor átlagos utcai bringázókról is eredményez találatot.

Azóta történt

Előzmények