Kategorie: AlgorytmikaProgramowanieProgramowanie webowe

Ciąg dalszy Audio – rozpoznawanie mowy

Cześć! Cieszę się, że mnie odwiedziłeś/aś. Zanim przejdziesz do artykułu chciałbym zwrocić Ci uwagę na to, że ten artykuł był pisany kilka lat temu (2016-02-20) miej więc proszę na uwadzę że rozwiązania i przemyślenia które tu znajdziesz nie muszą być aktualne. Niemniej jednak zachęcam do przeczytania.

Witam ponownie ;)

Przy okazji zbierania materiałów na poprzedni wpis natknąłem się na możliwość rozpoznawania mowy. To na tyle fajne zagadnienie że postanowiłem napisać osobny wpis na ten temat.

A więc specyfikację możecie sobie zobaczyć tutaj.

Od razu zaznaczę iż używać tego możemy na razie tylko w Google Chrome – zerknij na Can I use.

Zacznijmy od kawałka HTMLa:

1
2
3
4
5
6
7
8
9

Wynik rozpoznawania będziemy pisać do tego diva #result.

I kawałek JSa:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

var resultElement = document.getElementById("result");

var handleResult = function(results){
var result = results[results.length-1];
resultElement.innerHTML = result[0].transcript;
}

var recognition = new webkitSpeechRecognition();
recognition.lang = "pl-PL";
recognition.continuous = true;
recognition.interimResults = true;
recognition.onresult = function(event) {
console.log(event)
handleResult(event.results);
}
recognition.start();

Używamy obiektu klasy webkitSpeechRecognition. Ustawiamy mu język polski. Opcja continuous pozwala na ciągłe przetwarzanie głosu – tzn będzie przetwarzać głos mimo odebrania pierwszego finalnego rezultatu. Ustawienie pola interimResults pozwala nam uzyskiwać nie ostateczne rezultaty. Czyli będziemy na ekranie widzieć cały proces dopasowywania dźwięku, przykładowo jeśli powiemy np. słowo „motor” to pierwszym słowem które znajdzie będzie słowo „moto” a następnym już „motor” i słowo „motor” będzie słowem finalnym a słowo „moto” słowem w procesie dopasowywania które będzie widoczne na ekranie dzięki własnie opcji interimResults .

Hahahah całkiem ciekawą rzeczą jest że on cenzuruje bluźnierstwa ;) co znaczy że jeśli powiem mu brzydkie słowo na „k” to rezultat będzie „k****”.

Zapraszam do pobawienia się:

DEMO

Dzięki za wizytę,
Mateusz Mazurek

Tagi: recognitionspeechvoice

10 lat ago

Mateusz M.

Dalej Python, pip i virtualenvy »

Wstecz « Manipulacja Audio w HTML5

Pokaż komentarze

lustfingers says:

01/05/2016 at 07:54

Całkiem fajnie to wygląda, mam tylko jedno pytanie czy jest możliwość zrobienia przycisku który to będzie uruchamiał? Wyobrażam sobie sytuację że ktoś to zaimplementuje na swojej stronie w wyszukiwarce, osoba przeglądająca taką stronę dostając od razu komunikat o tym że chcemy dostępu do mikrofonu po prostu ucieknie nie wiedząc po co to nam. taki przycisk np. przy wyszukiwarce coś jak w google byłby super dopełnieniem całości.

Zostaw komentarz

Ostatnie wpisy

Felietony/inne

Podsumowanie roku 2025

Cześć! Lećmy z podsumowaniem roku. Książki To był bardzo nierówny rok. Zauważyłem, że czytam "falami", tzn że przez 3 tyg… Read More

2 tygodnie ago

Programowanie

Python 1.0 vs. 3.13: Co się zmieniło?

Cześć. Dziś luźny artykuł, bo dziś pobawimy się jedną z pierwszy wersji Pythona. Skompilujemy go i zobaczymy co tam w… Read More

11 miesięcy ago

Felietony/inne

Podsumowanie: styczeń i luty 2025

Nowy rok czas zacząć! Więc lećmy z podsumowaniem. Nowy artykuł Nie uwierzycie, ale pojawił się na blogu nowy artykuł! Piszę… Read More

11 miesięcy ago

Programowanie

Just-in-time compiler (JIT) w Pythonie

Cześć! W Pythonie 3.13 dodano JITa! JIT, czyli just-in-time compiler to optymalizacja na która Python naprawdę długo czekał. Na nasze… Read More

12 miesięcy ago

Felietony/inne

Podsumowanie roku 2024

Cześć! Zapraszam na podsumowanie roku 2024. Książki W sumie rok 2024 był pod względem ilości książek nieco podobny do roku… Read More