Fulltextové vyhľadávanie

Na spoľahlivé fulltextové vyhľadávanie sa hodí lemmatizátor – komponent, ktorý Vám umožní vyhľadať slová bez ohľadu na to, v akom tvare sa v texte nachádzajú. Ak hľadáte kurzy akcií, určite budete radi, keď program nájde aj článok obsahujúci výraz vývoja kurzu akcií alebo len akcie.

Pod základným tvarom slova (lemmou) rozumieme väčšinou 1. pád jednotného čísla, teda napr. slovo akcia. V prípade slovies sa pod základným tvarom rozumie infinitív, napr. hľadať. V niektorých jazykoch však existujú výnimky. Napr. bulharčina, ktorá infinitív vôbec nemá, chápe ako základný tvar 1. os jednotného čísla. Maďarčina, aj keď má infinitív slovies, používa ako lemmu tvar 3. os jednotného čísla.

Jazyková časť

Základom celého riešenia je rovnako ako v prípade korektora preklepov formálny opis morfológie, obohatený o ďalšie informácie. Ide najmä o informácie ako sú slovné druhy a gramatické kategórie:

  • pád, číslo a rod podstatných mien
  • osoba, číslo, spôsob, čas a vid slovies
  • kategórie zámen, čísloviek, prísloviek alebo spojok

Určiť základný tvar slova nie je tak jednoduché, ako by sa na prvý pohľad mohlo zdať. Okrem pravidelných tvarov slov je totiž potrebné riešiť aj rôznorodé alternácie koreňa, ktoré sa vyskytujú v mnohých slovenských slovách. Máme na mysli dvojice ako napríklad mráz-mrazu, stôl-stola, Brontosaurus - Brontosauripiecť - pečie, či dokonca prípady ako hnať - ženiem, Zeus – Dia, česť – чест, atď., kde sa mení hneď prvé písmeno slova. Podobné prípady sa vyskytujú vo všetkých jazykoch. Aj v pomerne jednoduchej angličtine nájdeme prípady typu come – came, break – broken, či dokonca go – went.

Druhým problémom je homonymia. Pri mnohých tvaroch slov totiž nie je jednoznačné, od ktorého základu sú odvodené. Napríklad plní môže byť odvodená buď od slova plniť (3. os. jednotného čísla), alebo od slova plný (1. os. množného čísla). Podobných prípadov je naozaj veľa, takže niet divu, keď Vám program v niektorých prípadoch nájde viac výsledkov. Verte, že všetky sú správne.

Programové riešenie

Programové riešenie je veľmi úsporné. V slovenčine je viac než 6, 7 milióna tvarov slov a všetky sú zhrnuté v súbore s veľkosťou 1 MB. Dokonca aj s príslušnými morfologickými informáciami. Trochu zveličene môžeme povedať, že nám stačí jeden bit na tri slovenské slová.

Dostupné funkcie

  • Návrat k základnému tvaru slova.
  • Návrat všetkých morfologicky príbuzných tvarov daného slova.
  • Užívateľský slovník.
  • Heuristika pre automatickú lemmatizáciu neznámych slov.

V súčasnosti ponúkame podporu fulltextového vyhľadávania pre širokú škálu jazykov (pozri tabuľku) a platforiem. Ak chcete vyhľadávanie používateľsky ešte viac spríjemniť, odporúčame vám náš ďalší komponent – Slovník Synoným. Pre viacjazyčné vyhľadávanie je možné ďalej kombinovať tieto komponenty s našimi prekladovými technológiami, pre vyhľadávanie v audio a video súboroch s rečovými technológiami.

Referencie

Možnosti morfologického vyhľadávania pre rôzne jazyky vyskúšate najlepšie v aplikáciách Lingea Lexicon. Ich hlavné využitie je však vo vyhľadávacích systémoch rôznych produktov alebo vo firemných systémoch.