Co je rozpoznávání řeči?

Použití hlasu jako metody zadávání

Rozpoznávání řeči je technologie, která umožňuje mluvený vstup do systémů. Mluvíte s počítačem, telefonem nebo přístrojem a používá to, co jste řekli jako vstup, abyste spustili nějakou akci. Tato technologie se používá k nahrazení dalších metod vstupu, jako je psaní, kliknutí či výběru jinými způsoby. Je to způsob, jak zařízení a software lépe využívat a zvýšit produktivitu.

Existuje spousta aplikací a oblastí, kde se používá rozpoznávání řeči, včetně armády, jako pomoc pro zhoršené osoby (představte si člověka se zmrzačenými nebo bez rukou nebo prstů), v oblasti medicíny, v robotice apod. téměř všichni budou vystaveni rozpoznávání řeči kvůli jeho šíření mezi běžnými zařízeními, jako jsou počítače a mobilní telefony.

Některé smartphony dělají zajímavé využití rozpoznávání řeči. Zařízení iPhone a Android jsou příkladem toho. Prostřednictvím nich můžete zahájit volání na kontakt, a to pouze tak, že dostanete mluvené pokyny, jako je například telefonní linka. Mohou se také bavit další příkazy, například "Zapnout Bluetooth".

Problémy s rozpoznáním řeči

Rozpoznávání řeči, ve své verzi známé jako řeč do textu (STT), bylo také dlouhou dobu používáno k překladu mluvených slov do textu. "Ty mluvíš, typuje", jak říká ViaVoice na krabici. Existuje však jeden problém se STT, jak ji známe. Více než 10 let zpět jsem se snažil ViaVoice a netrval týden na mém počítači. Proč? Byl to hrubě nepřesný a skončil jsem tím, že jsem strávil více času a energie mluvit a opravovat než psát vše. ViaVoice je jedním z nejlepších v oboru, takže si představte zbytek. Technologie se zrodila a vylepšila, ale řeč do textu stále přiměje lidi klást otázky. Jedním z jeho hlavních obtíží jsou obrovské rozdíly mezi lidmi při vyslovování slov.

Ne všechny jazyky se předpokládají v rozpoznávání řeči, a ty, které se často nepodporují, stejně jako angličtina. Výsledkem je, že většina zařízení, která spouštějí software rozpoznávání řeči, funguje rozumně pouze s angličtinou.

Sada hardwarových požadavků činí rozpoznávání řeči v určitých případech obtížné. Potřebujete mikrofon, který je dostatečně inteligentní k odfiltrování šumu v pozadí, ale zároveň dostatečně výkonný, aby přirozeně zachytil hlas.

Mluvit o hluku v pozadí může způsobit selhání celého systému. Výsledkem je, že rozpoznávání řeči v mnoha případech selhává kvůli zvukům, které jsou mimo kontrolu uživatele.

Rozpoznávání řeči se ukázalo být lepší jako vstupní metoda pro nové telefonní a komunikační technologie, jako je VoIP, než jako nástroj produktivity pro hromadné zadávání textu.

Aplikace rozpoznávání řeči

Technologie získává popularitu v mnoha oblastech a byla úspěšná v následujících oblastech:

- Ovládání zařízení. Prostě říkáte "OK Google" na telefon Android se systémem, který je všechny vaše hlasové příkazy.

- Systémy Bluetooth pro automobily. Mnoho vozů je vybaveno systémem, který spojuje svůj radiový mechanismus se smartphonem prostřednictvím technologie Bluetooth. Pak můžete volat a přijímat hovory, aniž byste se dotýkali svého smartphonu, a dokonce můžete vytočit čísla pouze tím, že je budete říkat.

- Hlasový přepis. V oblastech, kde lidé musí mnoho psát, nějaký inteligentní software zachycuje své mluvené slova a přepisuje je do textu. Toto je aktuální v některých software pro zpracování textu. Hlasový přepis také pracuje s vizuální hlasovou schránkou .