Google: az internet fordítva jó

Szöveggel táplálják

Franz Josef Och
Franz Josef Och

A Google azt mondja, hogy a világon létező összes információt össze akarja gyűjteni és elérhetővé akarja tenni mindenki számára. A rendkívül ambiciózus küldetés teljesítésén kétségtelenül dolgozik a vállalat, a nyelvi korlátokat például úgy próbálja lerombolni vagy legalábbis megkerülni, hogy lefordítja nekünk az általunk nem értett nyelveken írt szövegeket, hang- és videofelvételeket.

Igaz, ma még többnyire ügyetlenül, de Franz Och, a cég gépi fordítási csoportjának vezetője hisz abban, hogy az általuk fejlesztett fordítómotor idővel egyre jobb lesz, csak megfelelő mennyiségű szöveggel kell táplálni. A szakembert az ingyenes fordító működéséről, fejlesztéséről és jövőjéről kérdeztük e-mailes interjúnkban.

„To be or not to be: here’s the question” – így fordítja vissza angolra a Google Translate Hamlet híres szavainak Arany János-i magyarítását. Majdnem pontosan stimmel. De hasonló példákba ritkán futunk bele ma még, az önök által fejlesztett motor magyarról vagy magyarra az esetek nagy többségében messze nem fordít ilyen költőien, gyakoriak a nyelvtanilag hibás vagy éppen teljesen értelmetlen mondatok. Gyanítom, hogy a magyar a gépi fordítás szempontjából a problémásabb nyelvek közé tartozik.

Az, hogy egy adott nyelven milyen fordítási minőséget tudunk elérni, inkább attól függ, hogy mennyi adat áll rendelkezésünkre az adott nyelven. Statisztikai modelljeink ezekből az adatbázisokból „tanulnak” és ezáltal javul a program minősége.

Folyamatosan dolgozunk a fordításaink minőségének javításán, minden általunk támogatott nyelv esetében. De be kell látni, hogy még a mai legokosabb szoftverek sem képesek akár csak a közelébe érni annak, ahogy az anyanyelvi beszélők vagy a profi fordítók használják a nyelvet. Az automatikus fordítás rendkívül nehéz, hiszen a szavak jelentése függ a szövegkörnyezettől. Dolgozunk a probléma megoldásán, de valószínűleg sok idő eltelik még addig, amíg az emberi fordítások minőségét elérjük. Addig is azt reméljük, hogy a szolgáltatásunkat az emberek számos okból hasznosnak találják majd.

Ahhoz, hogy a minőséget javíthassunk, rengeteg kétnyelvű szövegre van szükségünk. Két- vagy több nyelven elérhető szövegeket egyébként mindig szívesen veszünk, ha valaki ezek felajánlásával segíteni szeretne, ezen az oldalon megteheti.

Szemben a piacon elérhető fordítószoftverek többségével a Google Translate egy statisztikai fordító. Mit jelent ez? És miért döntöttek e módszer mellett például a szabályalapú megközelítés helyett?

Ma a legtöbb fejlett, kereskedelmi forgalomban elérhető gépi fordító szabályalapú megközelítésre épül, amelyben a szótárak és a grammatikai szabályok definiálása rendkívül munkaigényes.

Mi más módszert alkalmazunk. Mi kész szövegeket dolgozunk fel a számítógéppel, szavak milliárdjait, úgy, hogy a célnyelven meglévő szöveg mellé betápláljuk annak emberek által készített, párhuzamos fordításait, aztán pedig statisztikai tanulóalgoritmusokkal építünk fel egy fordítási modellt.

Ennek számos előnye van. Például úgy tudunk egy új nyelvhez gépi fordítórendszert építeni, hogy egyszerűen új adatokat táplálunk be. Ennek köszönhető, hogy ilyen sok nyelvet – jelenleg 51-et – támogatunk. Emiatt nincs szükségünk minden nyelvpár esetében a szóban forgó két nyelvet jól ismerő szakemberekre sem. E statisztikai módszer gyakran ad jó minőségű fordításokat, ha nagy mennyiségű párhuzamos adatot bocsátunk a rendelkezésére.

Ez elméletben azt jelenti, hogy a gépi fordítójuk akkor működik majd tökéletesen, ha a támogatott nyelveken leírható összes szöveget feldolgozzák – csakhogy ez lehetetlen. Támaszkodnak a grammatikára is? Például szintaktikai szabályokkal, szótárral támogatják a statisztikai motort?

A tanulási algoritmusaink egyik fontos feladata a jó általánosítás: azt szeretnénk, hogy a rendszer olyan szövegeket is képes legyen jól lefordítani, amelyekre nem tanítottuk meg, vagyis nincs benne az adatbázisban. Erre az általánosításra azért képesek a tanulási algoritmusaink, mert kihasználják a nyelv szabályokkal leírható – például morfológiai és szintaktikai – struktúráit.

A cikk még nem ért véget, kérlek, lapozz!

Azóta történt

Előzmények