Hirdetés

Google: az internet fordítva jó

1. Szöveggel táplálják
1. Szöveggel táplálják 2. Marad ingyenes
Írta: Barna József
2009-11-26 15:10

Szöveggel táplálják

Franz Josef Och

A Google azt mondja, hogy a világon létező összes információt össze akarja gyűjteni és elérhetővé akarja tenni mindenki számára. A rendkívül ambiciózus küldetés teljesítésén kétségtelenül dolgozik a vállalat, a nyelvi korlátokat például úgy próbálja lerombolni vagy legalábbis megkerülni, hogy lefordítja nekünk az általunk nem értett nyelveken írt szövegeket, hang- és videofelvételeket.

Igaz, ma még többnyire ügyetlenül, de Franz Och, a cég gépi fordítási csoportjának vezetője hisz abban, hogy az általuk fejlesztett fordítómotor idővel egyre jobb lesz, csak megfelelő mennyiségű szöveggel kell táplálni. A szakembert az ingyenes fordító működéséről, fejlesztéséről és jövőjéről kérdeztük e-mailes interjúnkban.

„To be or not to be: here’s the question” – így fordítja vissza angolra a Google Translate Hamlet híres szavainak Arany János-i magyarítását. Majdnem pontosan stimmel. De hasonló példákba ritkán futunk bele ma még, az önök által fejlesztett motor magyarról vagy magyarra az esetek nagy többségében messze nem fordít ilyen költőien, gyakoriak a nyelvtanilag hibás vagy éppen teljesen értelmetlen mondatok. Gyanítom, hogy a magyar a gépi fordítás szempontjából a problémásabb nyelvek közé tartozik.

Az, hogy egy adott nyelven milyen fordítási minőséget tudunk elérni, inkább attól függ, hogy mennyi adat áll rendelkezésünkre az adott nyelven. Statisztikai modelljeink ezekből az adatbázisokból „tanulnak” és ezáltal javul a program minősége.

Folyamatosan dolgozunk a fordításaink minőségének javításán, minden általunk támogatott nyelv esetében. De be kell látni, hogy még a mai legokosabb szoftverek sem képesek akár csak a közelébe érni annak, ahogy az anyanyelvi beszélők vagy a profi fordítók használják a nyelvet. Az automatikus fordítás rendkívül nehéz, hiszen a szavak jelentése függ a szövegkörnyezettől. Dolgozunk a probléma megoldásán, de valószínűleg sok idő eltelik még addig, amíg az emberi fordítások minőségét elérjük. Addig is azt reméljük, hogy a szolgáltatásunkat az emberek számos okból hasznosnak találják majd.

Ahhoz, hogy a minőséget javíthassunk, rengeteg kétnyelvű szövegre van szükségünk. Két- vagy több nyelven elérhető szövegeket egyébként mindig szívesen veszünk, ha valaki ezek felajánlásával segíteni szeretne, ezen az oldalon megteheti.

Szemben a piacon elérhető fordítószoftverek többségével a Google Translate egy statisztikai fordító. Mit jelent ez? És miért döntöttek e módszer mellett például a szabályalapú megközelítés helyett?

Ma a legtöbb fejlett, kereskedelmi forgalomban elérhető gépi fordító szabályalapú megközelítésre épül, amelyben a szótárak és a grammatikai szabályok definiálása rendkívül munkaigényes.

Mi más módszert alkalmazunk. Mi kész szövegeket dolgozunk fel a számítógéppel, szavak milliárdjait, úgy, hogy a célnyelven meglévő szöveg mellé betápláljuk annak emberek által készített, párhuzamos fordításait, aztán pedig statisztikai tanulóalgoritmusokkal építünk fel egy fordítási modellt.

Ennek számos előnye van. Például úgy tudunk egy új nyelvhez gépi fordítórendszert építeni, hogy egyszerűen új adatokat táplálunk be. Ennek köszönhető, hogy ilyen sok nyelvet – jelenleg 51-et – támogatunk. Emiatt nincs szükségünk minden nyelvpár esetében a szóban forgó két nyelvet jól ismerő szakemberekre sem. E statisztikai módszer gyakran ad jó minőségű fordításokat, ha nagy mennyiségű párhuzamos adatot bocsátunk a rendelkezésére.

Ez elméletben azt jelenti, hogy a gépi fordítójuk akkor működik majd tökéletesen, ha a támogatott nyelveken leírható összes szöveget feldolgozzák – csakhogy ez lehetetlen. Támaszkodnak a grammatikára is? Például szintaktikai szabályokkal, szótárral támogatják a statisztikai motort?

A tanulási algoritmusaink egyik fontos feladata a jó általánosítás: azt szeretnénk, hogy a rendszer olyan szövegeket is képes legyen jól lefordítani, amelyekre nem tanítottuk meg, vagyis nincs benne az adatbázisban. Erre az általánosításra azért képesek a tanulási algoritmusaink, mert kihasználják a nyelv szabályokkal leírható – például morfológiai és szintaktikai – struktúráit.

A cikk még nem ért véget, kérlek, lapozz!

Kapcsolódó cégek:
Google

Azóta történt

A Google beszáll a DNS-bizniszbe

A Google-polip újabb karja ezúttal a DNS-műveleteket ragadta meg.

Közösségi média 2009-12-04 23
Újabb Google-robbantás január 5-én

A keresőcég vett egy nagy levegőt, és az őszi dömping után a jövő év elején is ők akarnak az IT-hírek főszereplői lenni.

Mérleg 2009-12-30 199
Német kormányzati támadás a Google ellen

A német igazságügy-miniszter szerint veszélyes a Google üzleti stratégiája, valamint nem eléggé átlátható, hogy miképp bánnak a felhasználók adataival.

Mérleg 2010-01-11 16
A Google írni is segít nekünk

A Scribe a cég hatalmas webes adatbázisa alapján javasol gyakori kifejezéseket a szövegdobozokban.

Tech 2010-09-08 17

Előzmények

Az IBM saját fordítóprogramot fejlesztett

Kevesen tudnak az óriáscég tolmácsszoftverének létezéséről, holott a program már több mint 40 millió szót fordított le 12 nyelven.

Tech 2009-11-24 7
Magától feliratozza a videókat a YouTube

A cél szokás szerint nagyralátó: minden videót mindenki számára érthetővé tenni. Elkezdték.

Tech 2009-11-20 10
Egyre okosabb a Google ingyenes fordítógépe

A magyart még mindig erősen töri a statisztikai fordító, de egyre jobb extrákat kínál.

Közösségi média 2009-11-17 4
Feltalálták a „fordítószemüveget”

Közvetlenül a felhasználó retinájára vetíti az idegen nyelvű társalgás fordítását a NEC újdonsága.

Tech 2009-11-05 17

Percről percre

Borongós őszt felvidító hardverportfólió

ph A napokig tartó esőzés komorságát desktop PC-k, többféle periféria, hűtések, toner és egy minőségi tápegység igyekeznek feldobni.

The Legend of Zelda: Echoes of Wisdom teszt

gp Elérkezett a várva várt pillanat! Végre Zelda hercegnőt irányíthatjuk a róla elnevezett történetben, ahol legjobb barátunk kreativitásunk lesz, no meg egy bot, ágyak hada, illetve egy repülő cuki jószág.