A szkennelt fájlokba is belelát a Google

A Google ambiciózus célkitűzése, hogy idővel a világon elérhető összes információt indexelni akarja – a vállalat most egy kis lépéssel közelebb jutott ehhez. Tegnap Evin Levey termékmenedzser a cég hivatalos blogjában írta meg, hogy mostantól a kereső képes az internetre feltöltött szkennelt dokumentumokban is keresni. Mindezt úgy – és ez sokat elmond a Google rendelkezésére álló számítógépes erőforrásokról –, hogy ráeresztenek egy karakterfelismerő (OCR) programot minden olyan, Adobe PDF formátumba mentett szkennelt képre, amelybe a keresőrobotok belefutnak.

Korábban az ilyen, képet tartalmazó dokumentumokban a Google nem tudott keresni, jobb esetben a cím alapján indexelte és ezt figyelembe véve a találtok között megjelenítette a fájlt, de nem ez volt a jellemző. Mostantól viszont tud. Persze az optikai karakterfelismerésnek vannak jól ismert korlátai, így a digitalizált szöveg aligha lesz százszázalékos pontosságú, de mivel a vállalatnak a könyvtárdigitalizálási projekteknek köszönhetően hatalmas tapasztalata van e területen, bízhatunk a a dokumentumok használhatóságában.

A szkennelt PDF-ek szöveges tartalmát – akárcsak a hagyományos PDF-dokumentumokét – a „View as HTML” (a magyar oldalon „HTML-változat”) linkre kattintva lehet megnézni.

Azóta történt

Előzmények