Mindroom: beszédfelismerés magyarul

Tavaly novemberben írtunk arról, hogy a YouTube-on elérhetővé vált a beszédfelismerésen alapuló automatikus feliratozás lehetősége: az oldalra feltöltött angol nyelvű videókhoz – legalábbis bizonyos kategóriák esetében – a rendszer egy gombnyomásra magától elkészíti az elhangzó beszéd átiratát. Hasonló technológiát Magyarországon is fejlesztenek, egy 2006-ban gründolt, ma is csupán tíz főt foglalkoztató vállalkozás, a Digital Natives Kft. évek óta dolgozik a kifejezetten magyar nyelvre szabott videofeliratozó megoldása tökéletesítésén.

A cég Somos Sándor ügyvezető meghatározása szerint általában „új, innovatív technológiákra épülő internetes szolgáltatásokat fejleszt”, de – alighanem a méretéből fakadóan is – mégis elsősorban egy fő termékre, a Mindroom videokereső rendszerre összpontosít. Ez a szoftver a zászlóshajó, amely a kezdetektől fogva keresettnek mondható, egy korai verzióját használja a két évvel ezelőtt viharos körülmények között elindított kormanyszovivo.hu oldal videoarchívuma is.

A szoftver kifejlesztésébe azért fogott annak idején a Digital Natives, mert úgy látták: komoly igény lenne egy magyar nyelvű videokereső megoldásra. Az elérhető beszédfelismerő technológiák számbavétele után az AITIA International Zrt. technológiáját választották, mert – meséli Somos – „úgy láttuk, az kiváló alapot nyújthat a rendszerünkhöz. Ezt velük közösen elkezdtük a Mindroom igényeinek figyelembevételével továbbfejleszteni”. Ma a rendszer a stúdiókörülmények között rögzített magyar nyelvű tartalmak esetében 80 százalék feletti karakterpontossággal és 60-70 százalékos szópontossággal dolgozik. Az ügyvezető szerint már ez is jónak számít ebben a műfajban, de dolgoznak a felismerési arány javításán.

A szoftver képességeinek bemutatására hozták létre a mindroom.hu weboldalt, ami mára egy publikus híradókereső szolgáltatássá nőtt, melyen a felhasználók az elhangzott szavak alapján kereshetnek videofelvételeket televíziós csatornák hírműsorainak anyagaiban. Ez a rendszer 51 műsort, naponta 13 órányi felvételt ír át, és tesz az elhangzott szavak alapján kereshetővé úgy, hogy a találatokként megjelenő anyagokban a keresőszó elhangzásától indítható a lejátszás. Magától értetődő, hogy a megoldás iránt elsősorban a médiavállalatok, a tévétársaságok és archívumok érdeklődnek, számukra a korábban csak licencként megvásárolható szoftverre építve egyre több szolgáltatást is kínálnak.

Kérdés, hogy egy ilyen apró vállalkozás képes lesz-e versenyezni a Google, a Microsoft, a Nuance és a többi nagy multi beszédfelismerő technológiáival. Az ügyvezető és Bárdos Kristóf account manager – aki a mellékelt videón bemutatja a megoldás működését – egyaránt azt mondja: a helyzeti előnyük néhány évig biztosan megmarad, hiszen a nagy nemzetközi vállalatok elsősorban a világnyelvekre összpontosítanak elsőként, Magyarország pedig szerény méretű piac. „A magyar toldalékoló nyelv, a beszédfelismerés itt nem egészen úgy működik, mint ahogy – feltételezésünk szerint – a Google-é: mi nem szavakra, hanem szótöredékekre bontjuk a szöveget. Magyar nyelvre jelenleg a Mindroom a legjobb nagyszótáras beszédfelismerő rendszer” – állítja Somos Sándor.

A szoftver képes valós idejű beszédfelismerésre is, ami alkalmassá teszi a tévéadások feliratozására. A médiatörvény szerint 2015-ig az országos sugárzású adóknak a hallássérült emberek tájékoztatása érdekében fokozatosan – évente növelve a feliratos adások arányát – be kell vezetnie a műsorok feliratozását, és a Digital Natives azt reméli, e folyamatban a Mindroomnak kulcsszerepe lesz majd. Ehhez azonban 90 százalék feletti karakterpontosságra lesz szükség, szóval maradt még fejlesztenivaló.

Azóta történt

Előzmények