syntéza reči – najčastejšie otázky

Čo je to syntéza reči?

Syntéza reči alebo TTS (Text To Speech) je spôsob, ako previesť text na ľudskú reč. Jednoducho povedané, počítač text nahlas prečíta a zvuk uloží. Význam má hlavne tam, kde nie je k dispozícii človek, ktorý by text (správne) prečítal. Používa sa napríklad v systémoch pre nevidiacich alebo v situáciách, keď človek potrebuje poznať obsah textu, ale nemôže venovať pozornosť čítaniu, napríklad vodič pri vedení vozidla. S rastom kvality syntézy reči sa potom otvárajú nové oblasti jej využitia, ako napríklad jazyková výučba, najmä počúvanie a výslovnosť.

Aký je rozdiel medzi metódou výberu jednotiek a neurónovými sieťami?

Metóda výberu jednotiek pracuje s veľkou databázou fragmentov reči, z ktorých vytvára syntetizovanú reč. Aby výsledná reč znela prirodzene, musí byť databáza pomerne veľká a jej vytvorenie je technicky, časovo a finančne veľmi náročné. Výsledná reč býva väčšinou pomerne monotónna.

Metóda využívajúca neurónové siete generuje priamo zvukový signál. Dokáže teda teoreticky produkovať akýkoľvek zvuk, nielen reč. Výsledky neskladá z fragmentov zvukov, ktoré sa použili na jej prípravu, ale učí sa produkovať zvuky zodpovedajúce vstupnému textu. Výstup tejto metódy je prirodzenejší ako výstup metódy výberu jednotiek. Jednoducho sa dá povedať, že neurónová sieť dokáže produkovať aj zvuk, s ktorým sa nikdy nestretla, čo pri metóde výberu jednotiek nie je možné.

Čo je neurónová sieť?

Ide o jeden z výpočtových modelov, ktoré sa používajú v umelej inteligencii. Neurón je výpočtová jednotka, ktorá má veľké množstvo vstupov a jeden výstup, ktorý zase môže byť vstupom mnohých ďalších neurónov. Neurónovú sieť potom tvorí skupina týchto umelých neurónov, ktoré sú navzájom prepojené obrovským množstvom spojení medzi výstupmi a vstupmi.
K jednotlivým neurónom sú priradené matematické funkcie, ktoré na základe hodnôt jednotlivých vstupov vypočítajú výstupnú hodnotu. Tieto funkcie sú závislé od tzv. váh, čo sú parametre viazané s jednotlivými vstupmi. Aby bola neurónová sieť užitočná, musia sa matematické funkcie neurónov (vlastne váhy ich vstupov) nastaviť tak, aby pre relevantné vstupy poskytovali správne výstupy. Proces nastavovania týchto váh sa nazýva "tréning" alebo "učenie" neurónovej siete. To prebieha tak, že sa neurónovej sieti predkladajú príslušné vstupy, sieť vykoná výpočet podľa aktuálneho nastavenia a vypočíta výsledok. Vypočítaný výsledok je porovnaný s tým, čo sa sieť mala naučiť, a váhy sú mierne upravené tak, aby pri opakovanom výpočte bol výsledok o niečo lepší. Veľkým množstvom takto spracovaných príkladov a vykonaných úprav váh sa neurónová sieť postupne približuje k želaným výsledkom, až ich v prípade úspešného učenia aj dosiahne.

Aké sú výhody vášho riešenia oproti konkurencii?

Syntéza reči Lingea bola vytvorená na účely výučby, čo kladie veľké požiadavky na kvalitu, ako aj na možnosti pracovať s hlasom. Jednou z výhod je aj to, že pre každý jazyk máme k dispozícii niekoľko hlasov. Tieto hlasy sú pripravené s dôrazom na vysokú kvalitu z veľkých tréningových údajov, aby bolo pokrytie reálneho jazyka skutočne perfektné. Využitie syntézy reči od spoločnosti Lingea vám prinesie veľmi kvalitné a prirodzené ozvučenie vašich textov kedykoľvek a kdekoľvek.