Prekladače pre slovanské jazyky

Neurónové prekladače fungujú výborne, ak majú k dispozícii dostatok cvičných dát, teda niekoľko miliónov paralelných viet v požadovanom jazykovom páre. S takým množstvom dát je možné natrénovať jednoduchý prekladový model a dosiahnuť vysokú kvalitu prekladu – môžete vyskúšať napríklad náš prekladač z angličtiny do španielčiny, ktorý sa učil z 80 miliónov dvojíc viet. Bohužiaľ, takéto množstvo dát je k dispozícii iba pre zopár jazykových párov, ako je napríklad angličtina s nemčinou, francúzštinou, španielčinou alebo slovenčinou. Pre kvalitný preklad medzi ostatnými jazykmi je potrebné používať špeciálne techniky.

Najjednoduchšou možnosťou je využitie tzv. pivotu – veta sa najskôr preloží do nejakého „prostredného“ jazyka (väčšinou angličtiny) a z neho potom do požadovaného cieľového jazyka. Výhodou tohto prístupu je jednoduchosť a možnosť prekladať veľa jazykových kombinácií pomocou malého počtu modelov. Tento spôsob avšak vedie ku kumulovaniu chýb a navyše je stále potrebné, aby oba jazyky mali dostatočne veľké paralelné korpusy pre „prostredný“ jazyk.

Ďalšou možnosťou je využitie špeciálnych prístupov k trénovaniu neurónových modelov na malom množstve dát. Populárnou je napríklad tzv. transfer learning. Najskôr sa na nejakom jazykovom páre s veľkým množstvom dostupných dát natrénuje rodičovský model. Tento model sa potom adaptuje na menší jazykový pár.

Trochu iný prístup je kombinovanie viacerých prekladových smerov v jednom modeli. To dosiahneme tak, že model cvičíme na dátach pre všetky požadované jazykové páry. Tým umožníme prekladaču kombinovať vedomosti získané z jedného jazykového páru so znalosťami z iných jazykových párov.

Problém nastáva, ak máme viacero cieľových jazykov – prekladaču musíme dodať informáciu, do ktorého jazyka chceme prekladať. Riešenie je jednoduché – na začiatok zdrojových viet v cvičných dátach pridáme symbol označujúci cieľový jazyk – napr. <sk> pre slovenčinu. Model sa naučí, že ak veta začína touto značkou, ma nasledujúci text prekladať práve do slovenčiny. Potom stačí rovnakú značku pripojiť pred každú vetu, ktorú chceme preložiť.

Vďaka podobnému kombinovaniu prekladových smerov a ďalším technikám sme boli schopní výrazne vylepšiť preklady medzi slovanskými jazykmi a angličtinou, rovnako tak medzi slovanskými jazykmi medzi sebou navzájom. Vyskúšať si všetko môžete na stránkach https://prekladac.lingea.sk/ alebo https://translator.lingea.com/