Skocz do zawartości

[delphi] Sterowanie głosem


Max1414

Polecane posty

czyli nici :P ja to wymyśliłem jak usypiałem, haha :P

CA konkretnie miałem pomysł na przerabianie dźwięku na tekst... mówisz a komp ci pisze :), no ale cóóóż... miliony zarobione dzięki temu odpływają, haha- joke

 

ps. żeby była jasność - nie liczyłem, że to zrobię :P ale myślałem, że dałoby się, żeby np. jak powiem "a" napisało to "a" - jakiś zakres dopuszczalnej róznicy zrobić czy coś, no nie wiem, dlatego pytałem :P

Moje projekty: http://wojciechkulik.pl

Link do komentarza
Udostępnij na innych stronach

ja to wymyśliłem jak usypiałem, haha :P

 

A ja jak moja siostra chciała grać w Simsy przy pomocy ekranu dotykowego :)

 

PS. Zauważyłem, że odkąd Brainer napisał temat o własnym podpisie pod avatarem wszyscy sobie jakiś ustawili xD

Link do komentarza
Udostępnij na innych stronach

1. Musiałbyś odczytać dany format dźwiękowy (na pewno jest pełno bibliotek).

2. Zaprojektować, stworzyć i nauczyć sieć neuronową do rozpoznawania danych liter/słów.

 

ale coś nie bardzo mi się wydaje to prawdopodobne do zrobienia, przynajmniej przeze mnie... bo jeżeli nawet otrzymam załóżmy coś w stylu fali dzwiękowej czy jak to się nazywa to i tak nic z tego nie wyjdzie, bo każde przykładowe "a" inaczej zaintonowane lub wypowiedziane przez kogo innego będzie inaczej wyglądać :)

Moje projekty: http://wojciechkulik.pl

Link do komentarza
Udostępnij na innych stronach

Oglądnijcie ten link:

http://www.blong.com/Conferences/DCon2002/Speech/Speech.htm

 

Może się na coś przydać. :)

 

PS. Zauważyłem, że odkąd Brainer napisał temat o własnym podpisie pod avatarem wszyscy sobie jakiś ustawili xD

 

Hehe! xD Też ustawiłbym sobie, ale brakuje mi trochę postów. :)

Link do komentarza
Udostępnij na innych stronach

hmmm.... czy format dzwiekowy jest bardziej skomplikowany od formatu graficznego, no tego to bym nie powiedzial, rozpoznawanie mowy mogbym porownac do rozpoznawania ruchow na jakims filmie, co tez nie jest proste.

No wiesz, w obrazie masz współrzędne x,y i kolor w danym punkcie i to jest cała filozofia, a jak byś ukazał dźwięk :D ??

Rozdzielczość, ilość kolorów itp. jeszcze jakoś potrafię pojąć, ale dźwięk <_ mo to przez nigdy si nie bawi bardziej z d>

Ale wydaje mi się, że łatwiej wczytać nieskompresowany avi (bez dźwięku), niż nieskompresowany wav ;)

Link do komentarza
Udostępnij na innych stronach

CYTAT(Jason @ czw, 23 sie 2007 - 20:06) No wiesz, w obrazie masz współrzędne x,y i kolor w danym punkcie i to jest cała filozofia, a jak byś ukazał dźwięk :D ??

Rozdzielczość, ilość kolorów itp. jeszcze jakoś potrafię pojąć, ale dźwięk <_ mo to przez nigdy si nie bawi bardziej z d>

Ale wydaje mi się, że łatwiej wczytać nieskompresowany avi (bez dźwięku), niż nieskompresowany wav ;)

 

 

A jak byś tego dokonał :D ??

 

nie wiem :D Rejestrator dźwięku windowsa chyba coś takiego ma :P

Moje projekty: http://wojciechkulik.pl

Link do komentarza
Udostępnij na innych stronach

Co do sieci neuronowych to ktoś tu poleciał po fantazji bo jeśli mnie pamięć nie myli to sieci neuronowe to takie cudo które teoretycznie samo się uczy, czyli początki SI.

 

Co do dźwięku to tutaj liczą się graniczne częstotliwości, fale dźwiękową można zobrazować jak byś ołówkiem robił kreski góra dół na przesuwającej się kartce bierzesz punkty graniczne z góry i z dołu powstają ci 2 wykresy i ich kształt się interpretuje.

 

Oczywiście to jest tylko jedna z metod, bo ich jest mnóstwo (można tez zamiast pkt granicznych interpretować sama częstotliwość fali dźwiękowej, podobno prostsze), sumą sumarów, jeśli potrafisz wyciągnąć częstotliwość dźwięku z sygnału jaki dostajesz przez mikrofon możesz się próbować w to bawić.

"Bogowie to bugi ludzkich umysłów" Gifanonim ®

Link do komentarza
Udostępnij na innych stronach

kilka lat temu pisalem znajomej na zalke program ktory byl sterowany glosem. Jest gotowa biblioteka m$ ktora to robi, nie pamietam niestety nazwy. Ogolnie byla chyba COM albo ActiveX albo cos w ten desen. Instalowalo sie to na kompie i dodawalo komponent. a pozniej robilo sie tak

 

s := MSSpeech.GetSpeach;

i w zmiennej string bylo to co zrozumial komponent.

 

poszukaj na sieci M$ speech albo cos w ten desen.

Always Dark<br />u1_tt_logo.png banner-1.pngexFabula-banner.pngson_banner_ubersmall.jpg

Link do komentarza
Udostępnij na innych stronach

Co do sieci neuronowych to ktoś tu poleciał po fantazji bo jeśli mnie pamięć nie myli to sieci neuronowe to takie cudo które teoretycznie samo się uczy, czyli początki SI.

Nie widzę tu żadnych fantazji. Właśnie do takich rzeczy idealnie nadają się sieci neuronowe. Gdy nauczysz sieć, to będzie potrafiła rozpoznawać podobne słowa/litery/cokolwiek do tych, których nauczyłeś.

҉

Link do komentarza
Udostępnij na innych stronach

Widac nei tylko ja nad tym rozmyslalem :P.

Załozenia do mojego rysunku :

1. zólte kreski sa rowne i oznaczaja jakas czesc czasu.

2. zielona linia jest "fala zrodlowa"

3. czerwona linia obrazuje granice błedu.

 

4. oto rysunek :P

Obrazek

 

Wiec tak :

zczytujemy dzwiek jako fale.

porownujemy pierwsza ustalona czesc fali z zapisanym wzorem. jezeli sie zgadza jedziemy dalej, jezeli drazniaco sie rozni szukamy nastepnego wzoru :P.

 

Taki mialem pomysl na rozwiazanie tego problem, ale wiem ze jest straaaaaaaasznie niewydajny. NC ale checi sie licza ;p

"(2b || !(2b)) == question" W. Shakespeare

http://jakubniwa.pl - świat sztucznej inteligencji

Link do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat jest archiwizowany i nie można dodawać nowych odpowiedzi.

×
×
  • Utwórz nowe...