Hlasové ovládání - hudba velmi blízké budoucnosti

Jedním z výrazných trendů letošního CeBITu byly první pokusy o hlasové ovládání nejrůznějších aplikací, přístrojů či dokonce celých systémů. Jde přitom o trend, který by mohl způsobit skutečnou revoluci jak v oblasti výpočetní techniky, tak především v oblasti spotřební elektroniky, které se ovládání hlasem také týká.

Ovládání lidským hlasem bylo až doposud spíše doménou žánru sci-fi, kde se to jen hemžilo nejrůznějšími zařízeními, se kterými jejich uživatelé rozmlouvali lidským hlasem a dávali jim své hlasové příkazy. Snad ani není třeba naznačovat například výtah, kterému cestující stručně a jasně řekne: "dvanácté patro". Nebo třeba videorekordér, kterému uživatel nadiktuje: "nahraj mi pořad, který bude vysílat stanice XY v době od ... do ...". Je ale něco takového v reálné praxi vůbec zapotřebí, když snad každý dokáže zmáčknout příslušné tlačítko patra, či naprogramovat si své video klasickým způsobem? Kupodivu je, a velmi! Dokonce z několika důvodů současně.

Prvním důvodem pro možnost hlasového ovládání je jeho velká intuitivnost a přirozenost. Vždyť kolik lidí má dnes naprostou averzi k čemukoli, co jen trochu připomíná počítač a jeho způsob fungování! Pro kolik lidí je dnes ovládání nejrůznějších spotřebičů doslova nad jejich síly! Například v USA výzkumy ukazují, že cca 80% všech majitelů videorekorderů nedokázalo své video nikdy naprogramovat, protože je to na ně příliš složité. Jeden otřepalý vtip dokonce říká, že příliš složité je všechno, co má více jak jedno tlačítko (na zapnutí). No a právě tyto problémy by hlasové ovládání mohlo pomoci řešit - samozřejmě pokud dokáže fungovat dostatečně spolehlivě a účinně.

Vedle velké intuitivnost hlasového ovládání a jeho schopnosti vyjít vstříc i velmi laickým uživatelům je zde ale ještě jeden, také velmi pádný důvod. Jde o postupující miniaturizaci nejrůznějších zařízení, která si již nemohou dovolit dostatečně velké ovládací panely, uzpůsobené velikosti lidských prstů, či rozlišovací schopnosti lidského oka (dimenzováním svých displejů). Již dnes se k této hranici dostaly například mobilní telefony a počítače do ruky, a v blízké budoucnosti se nejspíše dočkáme ještě miniaturnějších zařízení, například celých počítačů v náramkových hodinkách apod.

Zapomínat bychom samozřejmě neměli ani na lidi s nejrůznějšími tělesnými handicapy, ani na situace, kdy klasické "ruční" ovládání není použitelné - například při jízdě autem, kdy by řidič měl mít ruce na volantu, a oči na silnici. A kromě toho, již hodně dávno jeden učený pán správně upozornil na to, že lidé by měli zapojit do svých intelektuálních aktivit co možná nejvíce smyslů.

Co je nutné pro hlasové ovládání?

Myšlenka hlasového ovládání není zase až tak velkou novinkou - první pokusy o ovládání počítačů a konkrétních programů hlasem jsou již poněkud staršího data, a jejich hlavní motivací bylo umožnit použití výpočetní techniky i lidem s vážným tělesným postižením. Byly to ale první vlaštovky, které stály a padaly s účinností technik rozpoznávání lidského hlasu. Právě to je totiž alfou a omegou možnosti ovládat cokoli lidským hlasem.

Ještě do nedávné doby byly techniky rozpoznávání lidského hlasu spíše technikami rozpoznávání hlasových povelů - šlo o řešení, která se snažila zachytit určité zvukové sekvence, porovnávat je se zásobou předem připravených vzorků (reprezentujících konkrétní povely), a v případě shody iniciovat určitou konkrétní akci. Bylo to hodně nepraktické, nešlo zde o žádnou interpretaci (pochopení) toho, co kdo říká, a navíc to bylo velmi silně závislé na konkrétním řečníkovi, intonaci jeho hlasu, výslovnosti apod.

Dnešní systémy pro rozpoznávání hlasu se již dostaly mnohem dále - dokáží se vyrovnat s různou výslovností a různými řečníky (není nutné je "zaučovat" na hlas konkrétní osoby), dokáží pracovat s mnohem větší slovní zásobou, a díky možnostem současné výpočetní techniky dokáží fungovat i v reálném čase (a není tedy nutné mezi jednotlivými větami dělat prodlevy). Díky svému zdokonalení tedy již začínají nabízet skutečné rozpoznávání lidské řeči, a ne pouze rozpoznávání hlasových povelů - uvědomme si ale dobře, že to stále ještě neznamená strojovou interpretaci, neboli pochopení obsahu a významu toho, co člověk říká (protože to by vyžadovalo existenci skutečné umělé inteligence, a k té má dnešní věda stále ještě velmi daleko). Rozdíl lze asi nejlépe dokumentovat na příkladu využití: rozpoznávání lidského hlasu stačí například k tomu, aby uživatel mohl diktovat text počítači stejně, jako kdyby jej diktoval skutečné lidské sekretářce (i s tím, že konkrétní aplikace dokáže rozpoznat, kdy jde o povel, například k ukončení odstavce a k začátku odstavce nového, a kdy jde o text, který má být napsán). Pochopení obsahu by bylo nutné například k tomu, aby uživatelé mohli zadávat dotazy typu: "vyhledej mi všechny texty, ve kterých se o naší firmě mluví ve špatném světle."

První produkty

První produkty z oblasti hlasového ovládání byly k vidění již na loňském CeBITu (a také na podzimním Invexu). Šlo o první systémy pro diktování (dictation systems), a určené především ke vstupu textů. Letos bylo takovýchto systémů k vidění již celá řada, a začaly se objevovat dokonce i první systémy pro diktování, uzpůsobené specifickým aplikacím (hlavně textovým editorům) a vybavené i skutečným hlasovým ovládáním - v tom smyslu, že hlasem bylo možné nejen zadávat vlastní text do právě vytvářeného dokumentu, ale hlasem bylo možné i ovládat funkce editoru, například řídit formátování vznikajícího dokumentu. Takovéto řešení, uzpůsobené editoru MS Word, předváděla na letošním CeBITu firma Lernout&Houspie - v angličtině i v němčině. Na českou verzi si ale zřejmě ještě nějakou chvilku počkáme.

Mimochodem, právě belgická firma Lernout&Houspie, známá dříve spíše pro svou technologii kompresi hlasu v souvislosti s Internetovou telefonií, je zřejmě nejznámějším průkopníkem na poli rozpoznávání lidského hlasu a následného hlasového ovládání. Všimla si toho i firma Microsoft, která do firmy Lernout&Houspie investovala nemalé finanční prostředky. Budou to zřejmě hlasové technologie firmy Lernout&Houspie, které Microsoft použije ve svém projektu s názvem Auto PC - půjde o celý systém hlasového řízení doplňků v automobilu, od radiopřijímače, přes CD přehrávač, až po navigační systém automobilu, mobilní telefon, či dokonce palubní počítač napojený na Internet a schopný kupř. pracovat s elektronickou poštou. Zde je například představa taková, že řidič by si nechal předčítat obsah jednotlivých emailů, a stejně tak by pomocí hlasu mohl zadávat akce které mají být s jednotlivými zprávami provedeny (třeba: "tohle smaž"), či diktoval text odpovědi nebo zcela nové zprávy.

Osobně jsem na letošním CeBIT-u ještě nezaznamenal žádné produkty z oblasti spotřební elektroniky, které by ovládání hlasem již nabízely - například již dříve citované videorekordéry, které by tuto možnost velmi potřebovaly, či obyčejné televize apod. Pravdou je, že CeBIT není veletrhem spotřební elektroniky, ale hlavní příčina asi bude přeci jen někde jinde. Technologie pro rozpoznávání hlasu a hlasové ovládání jsou stále ještě příliš mladé na to, než aby je bylo možné sériově zabudovávat do produktů spotřební elektroniky, určené pro masové nasazení. Ale vzhledem k rychlosti vývoje v oblasti technologií to jistě nebude dlouho trvat.