Lingea Translator - najčastejšie otázky

Ako funguje frázový prekladač?

Ide o prístup, ktorý je založený na veľkých korpusoch paralelných aj jednojazyčných údajov a na matematických vzorcoch. Označuje sa tiež ako štatistický strojový preklad. Preklady viet sa vytvárajú skladaním z prekladov fráz nájdených v zdrojovej vete. Fráza je sekvencia slov, ktorá sa objavila v trénovacích údajoch, a pre ktorú poznáme sekvenciu slov, ktorá je jej prekladom. Výber a usporiadanie prekladov fráz v preloženej vete ovplyvňuje niekoľko štatistických modelov, ktoré modelujú najmä pravdepodobnosť, že zdrojová fráza sa preloží konkrétnym spôsobom a pravdepodobnosť, že sa v danom kontexte v preloženej vete bude vyskytovať práve daný text frázy. Keďže niektoré slová sú viacvýznamové (majú viac významov a v rôznych kontextoch sa prekladajú inak) a u iných nájdeme ustálené slovné spojenia alebo frázy, tak čím viac dvojjazyčných textov máme k dispozícii, tým je väčšia pravdepodobnosť, že text bude preložený správne.

Ako funguje neurónový prekladač?

Text v zdrojovom jazyku sa rozdelí na vety, vety sa rozdelia na slová, slová sa rozdelia na podslová. Sekvencie podslov zodpovedajúce jednotlivým vetám vstúpia do neurónovej siete, ktorá z nich vytvorí reprezentáciu celej vety a tú následne prevedie na sekvenciu podslov v cieľovom jazyku. Podslová sa spájajú do slov, slová do vety, a tie sa spájajú do preloženého textu. Alternatívne sa počas tohto postupu môžu uskutočňovať ďalšie kroky, ktorých cieľom môže byť napríklad zachovanie formátovania v cieľovom dokumente.

Čo je neurónová sieť?

Ide o jeden z výpočtových modelov, ktoré sa používajú v umelej inteligencii. Neurón je výpočtová jednotka, ktorá má veľké množstvo vstupov a jeden výstup, ktorý zase môže byť vstupom mnohých ďalších neurónov. Neurónovú sieť potom tvorí skupina týchto umelých neurónov, ktoré sú navzájom prepojené obrovským množstvom spojení medzi výstupmi a vstupmi.

Neurónová sieť sa môže naučiť všeobecný vzťah medzi vstupom a výstupom prostredníctvom prezentovania vstupov a k nim požadovaných výstupov. Naučená neurónová sieť je potom použiteľná na odhadovanie správnych výstupov aj pre vstupy, ktoré neboli pri tréningu použité. Neurónový prekladač sa na veľkom množstve paralelného textu (text v jednom jazyku a jeho preklad do druhého jazyka) učí, ako preložiť zadaný text, aby čo najlepšie zodpovedal tréningovým údajom (paralelnému textu použitému na učenie).

Na čo je dobrá grafická karta?

Grafické karty sa v preklade používajú na výpočet neurónových sietí. Využíva sa tu skutočnosť, že v neurónovej sieti je možné robiť paralelne veľké množstvo výpočtov, a tak môžu výkonné grafické karty v tejto činnosti dosahovať výkon porovnateľný s desiatkami procesorov. Vďaka grafickým kartám sú teda neurónové prekladače mnohokrát rýchlejšie, ako by boli bez nich, čo sa prejavuje najmä v urýchlení reakcie, schopnosti preložiť za rovnaký čas viac textu, a pri danom výkone v úsporách za hardvér.

Aké sú výhody vášho riešenia oproti konkurencii?

Lingea Translator ponúka v porovnaní s inými dostupnými prekladačmi tieto výhody:

  • Na dosiahnutie lepších výsledkov využívame vlastné jazykové údaje a technológie: paralelné a jednojazyčné korpusy, slovníky, ďalšie údaje a morfologické a iné nástroje.
  • Prekladače môžu fungovať na (offline) serveri priamo u zákazníka – zabezpečí sa tak bezpečnosť citlivých údajov – údaje kvôli prekladu nie sú zverené nikomu inému.
  • Malé jazyky používané v strednej Európe sú pre nás rovnako dôležité ako jazyky, ktorými hovoria stovky miliónov ľudí, preto aj im venujeme maximálnu pozornosť a úsilie, zatiaľ čo napríklad Google rieši predovšetkým západoeurópske a ázijské jazyky.
  • Umožňujeme natrénovanie prekladača na určitú doménu (automobilový priemysel, strojárstvo, bankovníctvo, farmaceutika atď.) – takýto špecializovaný prekladač väčšinou dosahuje výrazne lepšie výsledky ako bežný prekladač.
  • Pri preklade môžeme zabezpečiť zachovanie formátovania pôvodného dokumentu. Preklad tak môže mať rovnaké formátovanie (nadpisy, odseky, slová tučným písmom alebo kurzívou, odkazy atď.), ako pôvodný text, len v inom jazyku. Je možné nastaviť podporu rôznych formátov. Napríklad je možné v XML dokumente prekladať iba určité časti a iné nechať bez zmien, prípadne na rôzne časti dokumentov použiť rôzne prekladače.
  • Môžeme kombinovať prekladače so slovníkom alebo ďalšími jazykovými nástrojmi – napríklad pred prekladom do textu automaticky doplniť chýbajúcu diakritiku (relevantné napríklad pre e-maily a diskusie), potom text preložiť, a pri čítaní kliknutím vyhľadávať slová v slovníku.

Čo sa stane, ak prekladač preloží niečo zle?

Prekladač nikdy nemôže preložiť všetko správne z jedného veľmi prozaického dôvodu, a to, že vstupná veta nie je jednoznačná. V každom jazyku sú viacvýznamové slová, pri mnohých vetách je potrebná určitá znalosť kontextu, buď z predchádzajúceho odseku, alebo článku, alebo jednoducho zo všeobecných vedomostí. Môže dôjsť k zámene podmetu a predmetu, aktíva a pasíva slovies, nesprávnemu pochopeniu štruktúry vety alebo nesprávnemu pochopeniu významu konkrétneho slova. Mnohé vety je ťažké správne pochopiť a preložiť aj pre skúseného človeka ovládajúceho zdrojový i cieľový jazyk, pretože zdrojová veta nemusí vždy obsahovať všetky informácie potrebné pre správny preklad. Väčšinu viet je možné preložiť niekoľkými rôznymi spôsobmi a všetky sú správne, len niektoré sú napríklad menej vhodné v danom kontexte alebo menej vhodné štylisticky. Prekladač nie je náhradou za ľudského prekladateľa. Prekladač je nástroj vykonávajúci nejakú konkrétnu úlohu, na ktorú je pripravený. Napríklad môže uľahčiť prácu ľudskému prekladateľovi (ktorému ušetrí čas) alebo umožniť človeku, ktorý nepozná zdrojový jazyk zistiť nejakú informáciu z textu. Na tento účel sa veľmi hodí integrovaný slovník pre kontrolu správnosti dôležitých častí prekladu používateľom. Používateľ bez znalosti zdrojového jazyka je pri použití prekladača a slovníka schopný si z textu s primeranou istotou rýchlo zistiť potrebné informácie bez zadávania práce prekladateľovi a čakania na preklad.

Je možnosť offline nasadenia?

Ak pracujete s citlivými údajmi (napríklad e-maily od klientov alebo ich dokumenty), určite riešite ich bezpečnosť a kopírovanie dôverných textov do online prekladateľov je pravdepodobne neprípustné. Pre tento prípad umožňujeme nasadenie prekladačov priamo do infraštruktúry klienta (offline) – citlivé údaje tak nikdy neopustia vašu sieť. Toto riešenie si však vyžaduje ďalšiu investíciu do prekladového servera. Hardvérové nároky sa líšia podľa nasadených technológií, prekladových smerov (z ktorého jazyka sa prekladá) a požadovanej rýchlosti prekladu. Orientačne možno povedať, že ceny použiteľného hardvéru začínajú okolo 800 eur, napriek tomu sú veľmi závislé od nasadených technológií, požadovanej rýchlosti prekladu a predpokladanej záťaže, a môžu sa vyšplhať aj na niekoľkonásobok tejto sumy. Konfigurácia je teda založená na ďalšej diskusii, výrazne sa líši podľa toho, či si zvolíte tradičné riešenie štatistického prekladu, ktoré je náročné najmä na pamäť, alebo použijete neurónový preklad, ktorý nie je taký náročný na pamäť, ale vyžaduje výkonné grafické karty.

Ako sa môže neuronový prekladač „natrénovať“?

Vhodnou voľbou tréningových údajov a ich použitia v rôznych fázach tréningu dokážeme pripraviť prekladače na mieru určitej problematike. Takto sa postupovalo napríklad pre oblasť verejného zdravia v PROJEKTE EU Himl alebo pri preklade textov z oblasti cestovného ruchu pre vnútorné lokalizácie turistických sprievodcov. Týmto spôsobom je možné pripraviť kvalitnejšie prekladače, ktoré poskytujú v danej tematickej a štýlovej oblasti (t. j. doméne) lepší výstup ako prekladače obyčajné (nešpecializované) a lepšie zachovávajú sémantickú presnosť. Kvalita výsledku závisí od zložitosti domény a množstva pre danú doménu špecifických údajov, ktoré bolo možné použiť. Najužitočnejšie sú tzv. paralelné údaje, teda originálne texty spolu s ich prekladmi. Veľmi užitočné sú ale aj doménovo špecifické texty v cieľovom jazyku a môžu sa použiť aj texty v zdrojovom jazyku. Pri všetkých troch druhoch dát platí, že čím viac, tým lepšie. Užitočné sú tiež špecializované slovníky, kde je ale dôležitejšia kvalita ako množstvo údajov. Kvalita výsledného prekladača teda býva dosť závislá od možností a ochoty zákazníka poskytnúť (samozrejme na základe zmluvy) údaje vhodné na tréning týchto špecifických modelov, alebo aspoň ich opis, ktorý možno následne použiť na získanie údajov z iných zdrojov.

Je slovník, ktorý sa dá pridať, výkladový alebo prekladový?

Hoci prekladače využívajúce neurónové siete zaznamenali výrazný posun v kvalite prekladu, ešte to neznamená, že je preklad vždy vecne správny. Jazyky obsahujú veľké množstvo nejednoznačností, idiómov, odborných výrazov a bežných ustálených fráz a nemusíte si byť istí, či je použitý preklad skutočne správny. Naopak, prekladové slovníky stále vytvárajú ľudia, lingvisti a skúsení prekladatelia, takže všetky uvedené preklady sú zaručené správne a stačí si vybrať ten, ktorý je vhodný v danom kontexte. Ak si teda chcete overiť správnosť alebo opraviť výsledok z prekladača, môžete si zobraziť plné slovníkové heslo zo zdrojového textu alebo z prekladu (možno oboje) v prekladovom alebo výkladovom (opäť možno oboje) slovníku, ktorý môže byť súčasťou používateľského rozhrania prekladača.