Rozpoznanie jazyka

Pre vyhľadávanie vo viacjazyčných textoch na internete aj v databázach je vhodné vedieť, v akom jazyku je určitá časť textu (napr. veta, odsek) napísaná. Automatické rozpoznanie jazyka je dôležité pre ďalšiu prácu s textom, napríklad pre jeho indexáciu, lemmatizáciu, značenie, vyhľadávanie, atď. Vyhľadávač potom môže jednoducho odporučiť vhodné nástroje na ďalšie spracovanie. Detekcia jazyka je prvým krokom pri práci s textom pre firmy a inštitúcie, ktoré pracujú s viacerými jazykmi, vyhľadávajú vo veľkom množstve textových alebo zvukových údajov, spracuvávajú ich a prípadne ich ďalej analyzujú.

Jazyková časť

Niektoré jazyky možno rozoznať aj podľa typického písma alebo znakov, ktoré sú špecifické pre daný jazyk. Väčšinou sa však pre rozoznanie používajú morfologické informácie. Spolu dokáže tento komponent správne rozoznať viac ako 40 svetových jazykov.

Programové riešenie

Modul Rozpoznanie Jazyka pracuje s úsekom textu od niekoľkých slov až po celé dokumenty. Je to preto, že čím dlhší text zadáte na jeho vyhodnotenie, tým spoľahlivejšie program určí východiskový jazyk. Vezmite si napríklad spojenie Je Mine, ktoré je správne po česky, slovensky aj po francúzsky. Ak si odmyslíme tieto umelé prípady, veta v rozsahu 10-20 slov by mala na rozoznanie správneho jazyka stačiť. 

Dostupné funkcie

  • Rozpoznanie hlavného jazyka v texte.
  • Rozpoznanie všetkých nájdených jazykov v texte a ich označenie.