Hlasem.com chce umožnit snadnout tvorbu audioknih nebo videoprůvodců
Jak sehnat herce, který by namluvil propagační video v belgické francouzštině? Tento problém nyní odpadá díky novému nástroji www.hlasem.com, za kterým stojí čerstvý absolvent FaVU Šimon Bařák. Protože ho vždy bavily audioknihy, zvolil si jako téma své bakalářeské práce zpřístupnění umělé inteligence pro převod textu do řeči. Muzea, obce i široká veřejnost si tak díky němu mohou snadno vytvořit hlasovou nahrávku z textů hned v několika desítkách jazyků.
„Představte si, že firma plánuje uvést nový produkt a chce jej vystavit třeba na veletrhu. Natočí jedno propagační video a díky nástroji Hlasem jej nechá namluvit hned do několika světových jazyků, aniž by museli hledat profesionální herce pro každou řeč zvlášť,“ vysvětluje Šimon Bařák, který donedávna studoval v Ateliéru grafického designu I. Pracuje na editoru pro technologii Microsoft Cognito, která nabízí 250 hlasů a 70 jazyků. Hlasem se ale zatím soustředí jen na 5 nejdůležitějších, mimo jiné na francouzštinu a němčinu.
Zatímco dříve strojově čtený text nezněl lidskému uchu moc lahodně, postupně se technologie vytrénovala natolik, že dnes v některých obratech může konkurovat lidskému přednesu. Podle Šimona se ale profesionální herci zatím o práci bát nemusí: „Velký potenciál vidím v prototypování videí, ať už jde o vysvětlující video, návod, audioprůvodce pro muzeum nebo vícejazyčný tutorial. Takhle si tvůrce může text napsat, poslechnout a až poté udělat finální video, protože bude vědět, jak text zní. Může v průběhu přehodit odstavec, zkrátit věty a podobně. I když na konci bude video možná namlouvat profesionální herec, tak předtím mohl dotyčný text pětkrát snadno přepsat díky Hlasem. Zatím jsme daleko tomu, aby umělá inteligence zcela nahradila profesionálního řečníka nebo práci na scénáři od dobrého režiséra,“ mírní futuristické vize čerstvý absolvent VUT.
Potenciál ale vidí třeba u audioknih, kdy některá odbornější literatura, třeba z oblasti architektury či filozofie, není natolik populární, aby měla potenciál stát se profesionální audioknihou namluvenou školeným hercem. Ale po převodu Hlasem se dá takový text velmi příjemně poslouchat, takže i někteří studenti mohou jeho nástroj využít třeba při studiu, pokud si nechají své zápisky či skripta „nadabovat“.
Podobné technologie pak běžně slouží pro převod textu z webových stránek do audia pro nevidomé. Některé internetové prohlížeče už mají tento nástroj v sobě přímo implementovaný. „Hodně se převod textu do řeči využívá také v herním designu, kdy vývojáři dělají demoverzi hry, postupně ji testují a kvůli rychlosti potřebují rychle převést text do řeči, aby mohli kromě grafiky pracovat i na zvukové stopě příběhu,“ vysvětlil Bařák.
Hlasem denně navštíví zhruba 70 uživatelů, v beta verzi je kvůli cenné zpětné vazbě přístupné zdarma. V budoucnu jej ale autor plánuje zpoplatnit. Testování ladil také s některými institucemi, kupříkladu s Moravskou zemskou knihovnou. „Už během studia na FaVU jsem se věnoval samostudiu programování. Neříkám, že jsem expertní frontend vývojář, ale snažím se ovládat technologii, abych mohl efektivněji designovat. Díky tomu mi trvalo vytvořit Hlasem asi jen půl roku,“ popsal svou víru ve spojení humanitních věd a moderních technologií Šimon Bařák, který si právě pro tuto kombinaci zvolil ke studiu FaVU VUT.