Temat - Audytywna analiza mowy.docx

(2743 KB) Pobierz

AUDYTYWNA ANALIZA MOWY

Za pomocą analizy instrumentalnej można poznać wszystkie szczegóły artykulacyjnej lub akustycznej budowy odcinków wypowiedzi, funkcjonujących jako elementy określonego kodu językowego, ale nie można dowiedzieć się, które z tych szczegółów są dla słuchowej identyfikacji poszczególnych elementów niezbędne, a które mają znaczenie drugorzędne.

Jak wiadomo człowiek, o niewyszkolonym fonetycznie słuchu, słyszy fonematycznie: w głosowej strukturze znanego mu języka dostrzega tylko cechy istotne dla zrozumienia komunikatu. Liczba różnych głosek używanych w tym języku będzie w jego odczuciu równa liczbie jednostek funkcjonalnych – fonemów. Różnice zachodzące między głoskami należącymi do tej samej klasy, czyli różnice między wariantami danego fonemu, pozostaną nie zauważone, mimo iż w wielu wypadkach są przez normalnie działający organ słuchu wykrywalne.

Do zjawisk głosowych obiektywnie zauważalnych za pomocą słuchu, ale tylko w niektórych społecznościach językowych zauważalnych, należą bezdźwięczne wokoidy nazywane przydechem oraz zwarcie krtaniowe, tj. kontoid krtaniowy zwarto-wybuchowy. Zwarcie krtaniowe występuje między innymi w dialektach arabskich i w języku polskim, ale w tych pierwszych jest to element funkcjonalnie znaczący, natomiast w polszczyźnie nie jest wykorzystywany fonologicznie, toteż na ogół użytkownicy języka polskiego nie uświadamiają sobie jego obecności. Bez specjalnego przygotowania nie zdają sobie też najczęściej sprawy z polisegmentalnej struktury wielu głosek polskich, na przykład spółgłosek zwarto-wybuchowych, samogłosek nosowych itd.

Szczegóły artykulacyjno-akustycznej budowy elementów mowy, niemożliwe lub trudne do ustalenia w normalnych warunkach nadawczo-odbiorczych, podlegają obserwacji i ocenie w warunkach zmienionych, stosownie do założonego celu. Świadczą o tym między innymi opisanych w tym rozdziale doświadczeń. (W większości są to doświadczenia wykonane przez autorkę lub z jej udziałem.) W eksperymentach tego rodzaju można się posłużyć mową naturalną lub sztuczną. Syntetyczne wypowiedzi posiadają cechy wypowiedzi naturalnych, ale z pewnymi zaplanowanymi ograniczeniami lub przekształceniami. Tworzy się, na przykład samogłoski z inną w porównaniu z ich naturalnymi odpowiednikami liczba formantów, zmieniają się naturalne stosunki intensywności między formantami, ogranicza zakres widma mowy itd., a efekt takiego działania poddaje się osądowi słuchaczy. Doświadczenia omówione poniżej dokonywane były w mowie naturalnej. Niektóre realizowano za pomocą bardzo prostych środków, inne wymagały użycia mniej lub bardziej skomplikowanej aparatury.

Spektrograficzna analiza mowy umożliwia wizualna identyfikację każdego jej elementu, ale nie informuje, jakie zakresy widma są ważne dla rozpoznawania poszczególnych elementów za pomocą słuchu. Rozwiązanie zagadnienia wymaga podziału widma mowy na pasma o określonych częstotliwościach granicznych i poddania wydzielonych pasm ocenie słuchowej. Najprostszą techniką takiej pasmowej analizy widma jest użycie filtrów elektrycznych. Mogą to być filtry dolno lub górnoprzepustowe, przepuszczające tylko częstotliwości niższe lub wyższe od przyjętej wartości granicznej albo filtry środkowoprzepustowe, eliminujące zarówno częstotliwości niższe, jak i wyższe od granicznych. W Polsce przeprowadzono badania za pomocą tych wszystkich rodzajów filtrów. Dotyczyły one tak zwanej wyrazistości głoskowej i rozróżnialności głosek polskich (Dukiewicz, Piela 1961, 1962; Piela, Dukiewicz 1962; Dukiewicz 1963, 1967; Piela 1964 i in.). Wyrazistość głoskową określa stosunek głosek odebranych prawidłowo w danych warunkach przenoszenia do głosek nadanych. W badaniach rozróżnialności głosek uwzględnia się wszystkie dokonane przez odbiorców oceny każdej głoski, zarówno prawidłowe, jak nieprawidłowe. Oceny nieprawidłowe wskazują, jakim zmianom ulega barwa poszczególnych głosek w określonych warunkach przekazu. W badaniach tego rodzaju sygnały mowy nadaje się zwykle w postaci logatomów. Logatomy są to „wyrazy” pozbawione znaczenia, qa więc na prawidłowy odbiór tworzących je głosek nie wpływa czynnik domyślania się, jak to się zdarza w przypadku jednostek znaczących. Jeżeli odbiorca tekstu znaczącego poddanego filtracji usłyszy wyraźnie, takie na przykład fragmenty dwusylabowych wyrazów, jak ….idły, a...tma, to prawdopodobnie zidentyfikuje całość jako widły, astma, choćby spółgłoski w i s były w danych warunkach nadawania nierozpoznawalne. Takiego niebezpieczeństwa unika się, dzięki użyciu tekstów logatomowych.

Teksty logatomowe powinny być w miarę możliwości zróżnicowane fonetycznie i strukturalnie, to znaczy poszczególne głoski powinny występować w nich z częstością odpowiadającą ich procentowemu udziałowi w mowie normalnej, a struktura logatomów powinna odzwierciedlać strukturę wyrazów badanego języka. W logatomach skonstruowanych dla języka polskiego brak więc będzie na przykład samogłosek nosowych w pozycji nagłosowej i przed spółgłoskami innymi niż trące, nie będzie dźwięcznych spółgłosek zwartych, trących i zwarto-trących w pozycji wygłosowej i przed spółgłoskami tego samego typu, ośrodkiem sylaby będzie zawsze samogłoska itd. Przykłady polskich tekstów logatomowych zrównoważonych fonetycznie lub zarówno fonetycznie, jak i strukturalnie, podaje Jassem (1974).

Do badań wyrazistości i rozróżnialności głosek polskich użyto kilku wariantów obydwu rodzajów tekstów logatomowych oraz filtrów o częstotliwościach granicznych 256 Hz, 512 Hz, 1024 Hz, 2048 Hz, 4096 Hz i 8192 Hz. Częstotliwości te tworzą w muzyce, tzw. szereg C. Przyjęto je za podstawę badań audiometrycznych. Jak widać, częstotliwość każdego następnego filtru w tym szeregu jest większa od częstotliwości filtru poprzedzającego o oktawę. Stosując filtracje górno lub dolnoprzepustową, poszerzono pasmo przenoszonych częstotliwości widma kolejnych, utrwalonych na taśmie magnetycznej zestawów sygnałów logatomowych każdorazowo o oktawę. Podczas filtracji dolnoprzepustowej pierwszego tekstu logatomowego przepuszczono wszystkie częstotliwości składowe poniżej 256 Hz, w czasie nadawania drugiego tekstu poszerzono pasmo przepuszczania do 512 Hz, przy następnym przepuszczono wszystkie częstotliwości poniżej 1024 Hz itd., aż do 8192 Hz. Filtracja górnoprzepustowa przebiegała w odwrotnym kierunku. Filtry środkowoprzepustowe obejmowały zawsze tylko jedną oktawę o następujących częstotliwościach granicznych:

256-512 Hz

512-1024 Hz

1024-2048 Hz

2048-4096 Hz

4096-8192 Hz

$C:\Users\Beata\Desktop\zdjęcie 3.png$

Ryc. Wyrazistość głoskowa w funkcji częstotliwości granicznej filtrów górno- i dolnoprzepustowych (wg. R.Pieli). Krzywa przerywana – filtry górnoprzepustowe, krzywa ciągła – nfiltry dolnoprzepustowe

Wyniki tego rodzaju badań mają znaczenie nie tylko czysto poznawcze, ale także praktyczne. Są lub powinny być wykorzystywane przez projektantów i konstruktorów wszelkich urządzeń transmitujących mowę, zarówno tych, którym zależy na zachowaniu naturalnego brzmienia jej elementów, jak i tych, którym chodzi o zawężenie pasma przenoszonych częstotliwości do szerokości wystarczającej dla określonych celów. Mogą być także pomocne w badaniach słuchu. Uszkodzony organ słuchu pełni funkcję filtru akustycznego. Reakcje pacjenta na przekazywane mu sygnały mowy, rodzaje zniekształceń, jakimi podlegają w jego odbiorze, informują o stopniu redukcji pola słuchowego.

W rezultacie badań wyrazistości rozróżnialności głosek polskich ustalono m.in., że:

Poszerzenie pasma przepustowego w kierunku częstotliwości wyższych (filtracja dolnoprzepustowa) powoduje szybki wzrost wyrazistości do ponad 90% przy częstotliwości 2048 Hz. W wyniku przesuwania granicy przepuszczania od 8192 Hz w kierunku częstotliwości niższych (filtracja górnoprzepustowa) wyrazistość osiąga ponad 90% już przy częstotliwości granicznej 1024 Hz (por. ryc. 29).
Spośród pasm jednooktawowych (filtracja środkowoprzepustowa) najwyższą wyrazistość zapewnia pasmo obejmujące częstotliwość od 1024 do 2048 Hz. Osiąga ona w tych warunkach 65% (ryc. 30).

Warto tu przypomnieć, że według Millera (1951) w warunkach, w których dwie trzecie logatomów zostało odebranych prawidłowo, mowa normalna jest w pełni zrozumiała.

Na ryc. 31 pokazano wyrazistość poszczególnych typów głosek przy uwzględnieniu omawianego jednooktanowego pasma przenoszenia. Z wykresu wynika, że wyrazistość jest tym wyższa, im więcej energii widma skupia się w paśmie od 1024 do 2048 Hz.

Uwzględnienie pasma przesyłowego obejmującego częstotliwość od około 200 Hz do około 8000 Hz zapewnia stuprocentową wyrazistość głosek polskich.

$C:\Users\Beata\Desktop\zdjęcie 1.png$

Ryc. Wyrazistość głoskowa w pasmach oktawowych (wg. L.Dukiewicz)

$C:\Users\Beata\Desktop\zdjęcie 2.png$

Ryc. Wyrazistość sześciu typów głosek polskich w paśmie 1024-2048 Hz (wg L.Dukiewicz)

T – spółgłoski zwarto-wybuchowe

S – spółgłoski szczelinowe

TS – spółgłoski zwarto-szczelinowe

L – spółgłoski półotwarte

W – samogłoski niezgłoskotwórcze

V – samogłoski zgłoskotwórcze

Rozróżnialności głosek – z wyjątkiem spółgłosek nosowych – badana była jedynie za pomocą filtrów dolnoprzepustowych.

Rozróżnialności poszczególnych samogłosek zależy przede wszystkim od zakresu częstotliwości, w którym występuje ich drugi formant. (Najniższą wartość, około 1000 Hz, przyjmuje on w widmie [u], najniższą, powyżej 2000 Hz, w widmie [i]).
Przy użyciu filtru dolnoprzepustowego o górnej częstotliwości granicznej 256 Hz wszystkie samogłoski odbierane są w wysokim procencie jako dźwięk podobny do [i].
Samogłoski nosowe odbierane są do górnej częstotliwości granicznej 512 Hz w 100% jako ustne. Ten fakt przeczy dość rozpowszechnionej opinii, że o nosowym brzmieniu sygnałów mowy – zarówno samogłosek, jak spółgłosek – decyduje występująca w ich widmach koncentracja energii około 250 Hz.
W zasadzie odbiorcy nie mylą, nawet przy zastosowaniu filtru przepuszczającego częstotliwości poniżej 256 Hz, spółgłosek bezdźwięcznych z dźwięcznymi. Jest to cecha dystynktywna zdecydowanie odporna na zniekształcenia.
Spółgłoski trące i zwarto-trące wykazują do górnej wartości granicznej filtru dolnoprzepustowego wynoszącej 512 Hz wyraźną skłonności do przekształcania się w spółgłoski zwarto-wybuchowe.
Spółgłoski zwarto-wybuchowe rzadko odbierane są jako spółgłoski innego typu. W stosunkowo nielicznych wypadkach oceniane są jako spółgłoski trące lub zwarto-trące.
Pomyłki w ocenie spółgłosek półotwartych z reguły polegają na zastępowaniu danej półotwartej inną tego samego typu. W tej grupie spółgłosek szczególną uwagę poświęcono spółgłoskom nosowym, poddając je filtracji dolno-, górno- i środkowoprzepustowej (Dukiewicz 1967). Stwierdzono, że przy uwzględnieniu pasma częstotliwości poniżej 256 Hz spółgłoski [m n ƞ ] są praktycznie nierozróżnialne i w wysokim procencie oceniane są jako nosowe. Poszerzenie pasma dolnoprzepustowego o oktawę, tj. do 512 Hz, powoduje poprawę percepcji rezonansu nosowego, a prawidłowe oceny [m] i [n] zyskują przewagę nad błędami. Przy częstotliwości granicznej filtru dolnoprzepustowego 1024 Hz [m] osiąga prawie 90% rozróżnialności. Spółgłoski [n] i [ɲ] stają się w 90% rozróżnialne po podniesieniu częstotliwości granicznej do 2048 Hz. Największe trudności sprawia identyfikacja spółgłoski nosowej tylnojęzykowej.

W przypadku filtracji górnoprzepustowej ograniczenie pasma przepustowego do częstotliwości wyższych od 4096 Hz uniemożliwia rozróżnienie głosek nosowych. Obniżenie dolnej granicy przepuszczania do 2048 Hz powoduje gwałtowny wzrost ich rozpoznawalności, zwłaszcza spółgłoski [ƞ], która w tych warunkach zyskuje prawie 90% prawidłowych ocen. Spółgłoski [m] i [n] osiągają niemal pełną rozróżnialność przy dolnej wartości granicznej filtru górnoprzepustowego wynoszącej 1024 Hz. Spółgłoska [ƞ] osiąga najwyższą rozpoznawalność – około 80% po przesunięciu dolnej granicy filtru górnoprzepustowego do 256 Hz.

Zależność między częstotliwościami granicznymi filtrów środkowoprzepustowych jednooktawowych a maksymalną rozróżnialnością poszczególnych spółgłosek nosowych przedstawia się następująco:

[m], 512 – 1024 Hz, 80%

[n], 1024 – 2048 Hz, 80%

[ɲ], 1024 – 2048 Hz, 70%

[ƞ], 1024 – 2048 hz, 30%

Na różnice w lokalizacji skupisk energii odgrywających istotną rolę w rozróżnieniu [n], [ɲ], [ƞ] wskazuje porównanie z ich rozróżnialnością w sąsiednich pasmach. W przypadku [n] wynosi ona w paśmie niższym 20%, [ɲ] zidentyfikowano prawidłowo w paśmie niższym w 20%, w wyższym – w około 60%. Rozróżnialność [ƞ], ogólnie bardzo niska, nie przekracza w sąsiadujących pasmach częstotliwości 20%. W tym wypadku różnica między rozróżnialnością wynoszącą 30 i 20% może być przypadkowa.

C z ę s t o t l i w o ś c i o w a filtracja połączona z audytywną oceną sygnałów wyjściowych służy do wykrywania zakresów widma istotnych dla percepcji badanych jednostek.

Dla celów analizy struktury czasowej elementów mowy i wpływu różnych jej składników na percepcję wykorzystywane są urządzenia elektroniczne, pełniące rolę filtrów czasowych górno-dolno- i środkowoprzepustowych o różnych czasach granicznych (por. K. Dukiewicz, L. Dukiewicz 1964; Dukiewicz, Kubzdela 1973; Dukiewicz 1967, 1976 i in.). Niektóre wyniki audytywnej analizy wypowiedzi poddanych filtracji czasowej przedstawiono w rozdziale 3. Dotyczą one czasowej struktury samogłosek nosowych. W rezultacie zastosowania tej metody otrzymano też m.in. informacje o istotnej cesze czasowej struktury połączeń typu spółgłoska zwarta + spółgłoska trąca (T + S), spółgłoska zwarto-trąca (TS) i spółgłoska zwarto-wybuchowa (T). Poddawanie spółgłosek trących [s z ∫ ʓ ç ʐ] (typ S) filtracji czasowej górnoprzepustowej, polegającej na ich skracaniu od strony nagłosowej począwszy, powodowało następujące zmiany w percepcji:

S T + S TS T

Znaczy to, że na przykład głoska [z] odbierana była w pierwszej fazie skracania jako połączenie dwu spółgłosek: [d] i [z], potem jako afrykata [dz], zaś w końcowej fazie jako [d]. Jedyną cechą różniącą trzy rodzaje sygnałów powstałych w wyniku filtracji poszczególnych spółgłosek trących był czas trwania segmentu szumowego następującego po segmencie zwarcia. Na początku filtracji nie odbiegał on od czasu trwania spółgłoski trącej, następnie od czasu trwania segmentu szumowego spółgłoski zwarto-trącej i wreszcie przypominał krótki szum impulsowy charakteryzujący stadium końcowe spółgłosek zwarto-wybuchowych.

Efekt zwarcia wprowadzony był do sygnału mowy sztucznie. Był wynikiem zastosowanej metody „obcinania”, która powodowała zmianę narastania widma szumu analogiczną do zmiany wynikającej z sąsiedztwa spółgłoski zwarto-wybuchowej.

Elektroniczne filtry czasowe znalazły także zastosowanie w badaniach intonacji. (Dukiewicz 1978). Użyto ich w celu sprawdzenia możliwości rozpoznania typu wypowiedzi – pytajnej, kontynuatywnej lub oznajmującej – na podstawie przebiegu częstotliwości podstawowej występującego w różnych jej odcinkach. Izolowane drogą filtracji czasowej fragmenty wypowiedzi poddawano ocenie audytywnej. Wyniki wskazują, że informacja o typie wypowiedzi zawarta jest nie tylko w części rozpoczynającej się od sylaby nuklearnej, lecz także na odcinku poprzedzającym tę sylabę.

Jeden z bardzo prostych sposobów badania czasowej struktury mowy polega na audytywnej ocenie wypowiedzi utrwalonych na taśmie magnetycznej i odtwarzanych w kierunku odwrotnym (Meyer-Eppler, Dukiewicz 1958). W ten sposób zamaskowana zostaje warstwa semantyczna tekstu, utrudniająca odbiorcom obiektywne, fonetyczne słyszenie. Jak już wspomniano w rozdziale 1 i 3, metoda ta posłużyła między innymi do udowodnienia rozpoznawalnej słuchem polisegmentalnej struktury szeregu głosek polskich. Na przykład tak zwane miękkie spółgłoski wargowe zapisywane były przez odbiorców „mowy odwróconej” jako [jp jb jm jf jv], z czego wynika, że wymawiane były jako [pj bj mj fj vj], zaś zapisy samogłosek nosowych wskazywały bez wyjątku na ich asynchroniczną, najczęściej dyftongiczną, niekiedy tryftongiczną strukturę.

Spośród innych wyników warto odnotować, że po samogłoskach kończących wypowiedzi odwrócone, a więc w rzeczywistości wymawianych na początku wyrazu po pauzie akustycznej, usłyszano we wszystkich wypadkach zwarcie krtaniowe. Było ono także zauważalne w tekście odtwarzanym w kierunku normalnym, który również podlegał analizie audytywnej, ale nie zostało przez odbiorców zauważone.

Aby udowodnić, że częstotliwość podstawowa nie jest jedynym parametrem intonacji i opozycji dźwięczność: bezdźwięczność, można się posłużyć pozbawionymi tej cechy wypowiedziami syntetycznymi lub po prostu mową szeptaną. W doświadczeniu przeprowadzonym na polskim materiale językowym (Dukiewicz 1978) ocenie słuchowej poddane zostały między innymi dwa teksty szeptane, z których jeden składał się z wielokrotnie powtórzonych wypowiedzi bez trudu i bez drutu, drugi – z szeregu wyrazów zamierzonych jako pytania i odpowiedzi, tworzących pary w rodzaju:

Ty? – Ty. Pić? – Pić. Taka? – Taka.

Wszystkie wypowiedzi nadawane były w kolejności losowej. Wyniki wskazują na rozróżnialność wyższą niż przypadkową, wynoszącą w obydwu wypadkach około 80%. Uczestnicy tych i jeszcze innych doświadczeń z mową szeptaną twierdzili, że dźwięczność spółgłoski sygnalizowana jest w szepcie mniejszą w porównaniu ze spółgłoską normalnie bezdźwięczną siłą i że czynnikiem ułatwiającym rozpoznanie pytań i odpowiedzi są różnice czasu trwania i siły. Wyniki analizy instrumentalnej potwierdzają te opinie. Szeptane wypowiedzi pytajne są, podobnie jak w mowie normalnej, zawsze dłuższe od szeptanych wypowiedzi oznajmujących, a widmo szeptanych pytań ma w końcowej fazie wyższą intensywność niż widmo szeptanych oznajmień.

Opracowanie na podstawie „Fonetyka i fonologia” pod redakcją Henryka Wróbla

Temat - Audytywna analiza mowy.docx

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: