[delphi] Sterowanie głosem

Max1414 · Sierpień 23, 2007

Hehe Tak sobie pomyślałem, że fajnie byłoby zrobić sterowanie głosem, wie ktoś z czego skorzystać od czego się zabrać? W jaki sposób porównywać dźwięki?

Nvm · Sierpień 23, 2007

No patrz, wczoraj mi wpadł do głowy ten sam pomysł Ale uznałem, że to dla mnie niewykonalne. To porównywanie dźwięków i w ogóle. To bardzo trudne zadanie nawet dla bardzo doświadczonego programisty...

Jason · Sierpień 23, 2007

True, true... format dźwiękowy jest nawet bardziej skomplikowany od formatu obrazu - przynajmniej jak dla mnie

Max1414 · Sierpień 23, 2007

czyli nici ja to wymyśliłem jak usypiałem, haha

CA konkretnie miałem pomysł na przerabianie dźwięku na tekst... mówisz a komp ci pisze , no ale cóóóż... miliony zarobione dzięki temu odpływają, haha- joke

ps. żeby była jasność - nie liczyłem, że to zrobię ale myślałem, że dałoby się, żeby np. jak powiem "a" napisało to "a" - jakiś zakres dopuszczalnej róznicy zrobić czy coś, no nie wiem, dlatego pytałem

KKKas · Sierpień 23, 2007

1. Musiałbyś odczytać dany format dźwiękowy (na pewno jest pełno bibliotek).

2. Zaprojektować, stworzyć i nauczyć sieć neuronową do rozpoznawania danych liter/słów.

Nvm · Sierpień 23, 2007

ja to wymyśliłem jak usypiałem, haha

A ja jak moja siostra chciała grać w Simsy przy pomocy ekranu dotykowego

PS. Zauważyłem, że odkąd Brainer napisał temat o własnym podpisie pod avatarem wszyscy sobie jakiś ustawili xD

Max1414 · Sierpień 23, 2007

1. Musiałbyś odczytać dany format dźwiękowy (na pewno jest pełno bibliotek).
2. Zaprojektować, stworzyć i nauczyć sieć neuronową do rozpoznawania danych liter/słów.

ale coś nie bardzo mi się wydaje to prawdopodobne do zrobienia, przynajmniej przeze mnie... bo jeżeli nawet otrzymam załóżmy coś w stylu fali dzwiękowej czy jak to się nazywa to i tak nic z tego nie wyjdzie, bo każde przykładowe "a" inaczej zaintonowane lub wypowiedziane przez kogo innego będzie inaczej wyglądać

Jason · Sierpień 23, 2007

Skoro chcesz tylko wczytywać 'a' to program by wyglądał tak:

KODprint "Powiedz A";

if (powiedział coś) print "brawo";

KKKas · Sierpień 23, 2007

Pewnie, że nie zrobisz: 'if wypowiedziano('a') then ...'. Jak napisałem wcześniej, najlepiej do takiego rozpoznawania mowy nadają się IMO sieci neuronowe.

Blind · Sierpień 23, 2007

hmmm.... czy format dzwiekowy jest bardziej skomplikowany od formatu graficznego, no tego to bym nie powiedzial, rozpoznawanie mowy mogbym porownac do rozpoznawania ruchow na jakims filmie, co tez nie jest proste.

Brainer · Sierpień 23, 2007

Oglądnijcie ten link:

http://www.blong.com/Conferences/DCon2002/Speech/Speech.htm

Może się na coś przydać.

PS. Zauważyłem, że odkąd Brainer napisał temat o własnym podpisie pod avatarem wszyscy sobie jakiś ustawili xD

Hehe! xD Też ustawiłbym sobie, ale brakuje mi trochę postów.

Jason · Sierpień 23, 2007

hmmm.... czy format dzwiekowy jest bardziej skomplikowany od formatu graficznego, no tego to bym nie powiedzial, rozpoznawanie mowy mogbym porownac do rozpoznawania ruchow na jakims filmie, co tez nie jest proste.

No wiesz, w obrazie masz współrzędne x,y i kolor w danym punkcie i to jest cała filozofia, a jak byś ukazał dźwięk ??

Rozdzielczość, ilość kolorów itp. jeszcze jakoś potrafię pojąć, ale dźwięk <_ mo to przez nigdy si nie bawi bardziej z d>

Ale wydaje mi się, że łatwiej wczytać nieskompresowany avi (bez dźwięku), niż nieskompresowany wav

Max1414 · Sierpień 23, 2007

ja bym ukazał dźwięk jako fale dźwiękową ;]

Jason · Sierpień 23, 2007

ja bym ukazał dźwięk jako fale dźwiękową ;]

A jak byś tego dokonał ??

Max1414 · Sierpień 23, 2007

CYTAT(Jason @ czw, 23 sie 2007 - 20:06) No wiesz, w obrazie masz współrzędne x,y i kolor w danym punkcie i to jest cała filozofia, a jak byś ukazał dźwięk ??

Rozdzielczość, ilość kolorów itp. jeszcze jakoś potrafię pojąć, ale dźwięk <_ mo to przez nigdy si nie bawi bardziej z d>

Ale wydaje mi się, że łatwiej wczytać nieskompresowany avi (bez dźwięku), niż nieskompresowany wav

A jak byś tego dokonał ??

nie wiem Rejestrator dźwięku windowsa chyba coś takiego ma

Gifanonim · Sierpień 23, 2007

Co do sieci neuronowych to ktoś tu poleciał po fantazji bo jeśli mnie pamięć nie myli to sieci neuronowe to takie cudo które teoretycznie samo się uczy, czyli początki SI.

Co do dźwięku to tutaj liczą się graniczne częstotliwości, fale dźwiękową można zobrazować jak byś ołówkiem robił kreski góra dół na przesuwającej się kartce bierzesz punkty graniczne z góry i z dołu powstają ci 2 wykresy i ich kształt się interpretuje.

Oczywiście to jest tylko jedna z metod, bo ich jest mnóstwo (można tez zamiast pkt granicznych interpretować sama częstotliwość fali dźwiękowej, podobno prostsze), sumą sumarów, jeśli potrafisz wyciągnąć częstotliwość dźwięku z sygnału jaki dostajesz przez mikrofon możesz się próbować w to bawić.

Max1414 · Sierpień 23, 2007

no wiem jak zobrazować w rzeczywistości (miałem na fizyce ), ale chodziło mi że nie wiem jak programowo jedyna procka odnosnie dźwięku jaką pamiętam to PlaySound , lol ;p

Toster · Sierpień 23, 2007

kilka lat temu pisalem znajomej na zalke program ktory byl sterowany glosem. Jest gotowa biblioteka m$ ktora to robi, nie pamietam niestety nazwy. Ogolnie byla chyba COM albo ActiveX albo cos w ten desen. Instalowalo sie to na kompie i dodawalo komponent. a pozniej robilo sie tak

s := MSSpeech.GetSpeach;

i w zmiennej string bylo to co zrozumial komponent.

poszukaj na sieci M$ speech albo cos w ten desen.

KKKas · Sierpień 23, 2007

Co do sieci neuronowych to ktoś tu poleciał po fantazji bo jeśli mnie pamięć nie myli to sieci neuronowe to takie cudo które teoretycznie samo się uczy, czyli początki SI.

Nie widzę tu żadnych fantazji. Właśnie do takich rzeczy idealnie nadają się sieci neuronowe. Gdy nauczysz sieć, to będzie potrafiła rozpoznawać podobne słowa/litery/cokolwiek do tych, których nauczyłeś.

KaYou · Sierpień 23, 2007

Widac nei tylko ja nad tym rozmyslalem .

Załozenia do mojego rysunku :

1. zólte kreski sa rowne i oznaczaja jakas czesc czasu.

2. zielona linia jest "fala zrodlowa"

3. czerwona linia obrazuje granice błedu.

4. oto rysunek

Wiec tak :

zczytujemy dzwiek jako fale.

porownujemy pierwsza ustalona czesc fali z zapisanym wzorem. jezeli sie zgadza jedziemy dalej, jezeli drazniaco sie rozni szukamy nastepnego wzoru .

Taki mialem pomysl na rozwiazanie tego problem, ale wiem ze jest straaaaaaaasznie niewydajny. NC ale checi sie licza ;p

Max1414 · Sierpień 23, 2007

tylko jak tą fale narysować z podanego zrodla

KaYou · Sierpień 23, 2007

wlkasnie sie dlugo zastanawialem jak odczytac czestotliwosc..

Max1414 · Sierpień 23, 2007

wlkasnie sie dlugo zastanawialem jak odczytac czestotliwosc..

ogólnie nigdy nie operowałem dźwiękiem więc nie mam bladego pojęcia o tym jak już wspominałem - only PlaySound

krajew4 · Sierpień 23, 2007

ogólnie nigdy nie operowałem dźwiękiem więc nie mam bladego pojęcia o tym smile.gif

I chcesz pisac rozpoznawanie mowy? :>

Max1414 · Sierpień 24, 2007

nie chce - teoretycznie taki temat rzuciłem bo ciekawy byłem co z tym można zrobić, ale tak bez niczego konkretnego to kicha (konkretnego w sensie jakaś dll czy coś - jakieś funkcje z których można skorzystać do narysowania choćby tej fali)

Zaloguj się

[delphi] Sterowanie głosem

Polecane posty

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Link do komentarza

Udostępnij na innych stronach

Zarchiwizowany