Legyél Te (is) Magyarország hangja!

A Mozilla új kezdeményezése a szabadon elérhető, helyi beszélő számára természetesnek ható számítógépes hang megalkotását tűzte ki célul.

Újabb projekttel jelentkezik a Mozilla, a szabad internet szószólója: a Common Voice célja a hangalapú ember-gép kommunikáció megkönnyítése a helyi nyelvi közösségeknek. A manapság népszerű számítógépes tanulást felhasználva a Mozilla mérnökei szeretnének olyan könnyen felhasználható mintákat előállítani, amelyeket aztán más projektek beépíthetnek az alkalmazásaikba.

Így az alkalmazásokat fel lehetne ruházni a helyi beszélőnek kellemes és könnyen érthető honosított hangalapú kommunikációval. Ez a sok beszélővel rendelkező nyelvek esetén megoldott, de az olyan kevés ember által beszélt nyelvek esetén, mint amilyen a magyar nyelv is, csak meglehetősen kezdetleges megoldások állnak rendelkezésre. Ráadásul ezek a megoldások minden nyelv esetén jellemzően zárt, kereskedelmi termékek.

A Mozilla célja a beszélt nyelveken – ahol elegendő hozzájárulás lesz – használható nyelvi hangcsomagok előállítása.

Ehhez keresünk most a magyar nyelvű önkénteseket is. Most bárki adhatja a hangját, hogy segítsen nekünk egy nyílt forrású hang adatbázist építeni, amit bárki szabadon használhat arra, hogy innovatív alkalmazásokat készítsen eszközökre és a webre.

Mit kell tenni?

Olvasson fel egy mondatot, vagy írjon magyar nyelvű mondatokat, hogy segítse a gépeket megtanulni, hogyan beszélnek a magyar emberek. Ellenőrizze mások hozzájárulásait, javítva a minőséget. Ilyen egyszerű!

A Mozilla Voice már elérhető magyar nyelven is, de a munka oroszlánrésze még csak most jön!

Először is szövegeket kell gyűjteni, melyeket az önkéntesek majd felolvashatnak. Nagyon fontos, hogy csak közkincsnek minősülő, azaz Public Domain vagy CC0 szövegeket, saját szövegeket lehet használni, semmilyen jogvédett tartalmat, például: kedvenc könyv, szám szövegét nem. Emlékeztetőül a Wikipédiáról, hogy mi is az a közkincs: A közkincs egy szellemi alkotásokra vonatkozó (leggyakrabban szerzői jogi) fogalom, mely olyan művet, alkotást jelent, amelynek felhasználására a szerző nem ír elő korlátozást. „A szellemi tulajdon tárgyai azok a szellemi javak (műszaki szellemi alkotások, árujelzők, művek, szomszédos jogi teljesítmények), amelyeket a jogi szabályozás – speciális oltalmi formák révén, előre megszabott feltételekkel – a közkincs köréből időlegesen kivon.”

Ezeket a szövegeket itt lehet beküldeni, maximum ötven mondatonként. A beküldött szövegeknek 5-10 másodperc alatt felolvashatóknak kell lenniük, ez gyakorlatban 5-10 szavas mondatokat jelent. Lehetőleg minél változatosabb szóhasználattal kell a mondatokat beküldeni. A mondatokban lehetnek tulajdonnevek, keresztnevek is. Ha a mondatokban számok vannak, azok legyenek szavakkal, helyesen leírva.

Emellett lehet még segíteni a már meglévő korpusz magyar nyelvűre fordításában is. Felvettem a kapcsolatot könyvtárakkal így a Magyar Elektronikus Könyvtárral, illetve hangoskönyvkészítőkkel. Ha te is tudsz ilyen lehetőségekről, összeköttetésekről, akkor arra kérlek, vedd fel a hír készítőjével a kapcsolatot. Ti merre keresnétek közkincsnek minősülő könyveket, írásokat?

Hamarosan lehetőség lesz a hangalapú segítségre is a fenti mondatok felolvasásával. A magyar nyelvű adatbázis fejlődését itt lehet majd nyomonkövetni.

Az eddig elkészült adatok itt tölthetők le. Ez használható fel a Mozilla DeepSpeech projektjén keresztül szövegfelolvasó alkalmazásokhoz.

Minden segítséget előre is köszön a Mozilla!

Azóta történt

Előzmények