Temat - Audytywna analiza mowy.docx

(2743 KB) Pobierz

AUDYTYWNA  ANALIZA  MOWY

Za pomocą analizy instrumentalnej można poznać wszystkie szczegóły artykulacyjnej lub akustycznej budowy odcinków wypowiedzi, funkcjonujących jako elementy określonego kodu językowego, ale nie można dowiedzieć się, które z tych szczegółów są dla słuchowej identyfikacji poszczególnych elementów niezbędne, a które mają znaczenie drugorzędne.

Jak wiadomo człowiek, o niewyszkolonym fonetycznie słuchu, słyszy fonematycznie: w głosowej strukturze znanego mu języka dostrzega tylko cechy istotne dla zrozumienia komunikatu. Liczba różnych głosek używanych w tym języku będzie w jego odczuciu równa liczbie jednostek funkcjonalnych – fonemów. Różnice zachodzące między głoskami należącymi do tej samej klasy, czyli różnice między wariantami danego fonemu, pozostaną nie zauważone, mimo iż w wielu wypadkach są przez normalnie działający organ słuchu wykrywalne.

Do zjawisk głosowych obiektywnie zauważalnych za pomocą słuchu, ale tylko w niektórych społecznościach językowych zauważalnych, należą bezdźwięczne wokoidy nazywane przydechem oraz zwarcie krtaniowe, tj. kontoid krtaniowy zwarto-wybuchowy. Zwarcie krtaniowe występuje między innymi w dialektach arabskich i w języku polskim, ale w tych pierwszych jest to element funkcjonalnie znaczący, natomiast w polszczyźnie nie jest wykorzystywany fonologicznie, toteż na ogół użytkownicy języka polskiego nie uświadamiają sobie jego obecności. Bez specjalnego przygotowania nie zdają sobie też najczęściej sprawy z polisegmentalnej struktury wielu głosek polskich, na przykład spółgłosek zwarto-wybuchowych, samogłosek nosowych itd.

Szczegóły artykulacyjno-akustycznej budowy elementów mowy, niemożliwe lub trudne do ustalenia w normalnych warunkach nadawczo-odbiorczych, podlegają obserwacji i ocenie w warunkach zmienionych, stosownie do założonego celu. Świadczą o tym między innymi opisanych w tym rozdziale doświadczeń. (W większości są to doświadczenia wykonane przez autorkę lub z jej udziałem.) W eksperymentach tego rodzaju można się posłużyć mową naturalną lub sztuczną. Syntetyczne wypowiedzi posiadają cechy wypowiedzi naturalnych, ale z pewnymi zaplanowanymi ograniczeniami lub przekształceniami. Tworzy się, na przykład samogłoski z inną w porównaniu z ich naturalnymi odpowiednikami liczba formantów, zmieniają się naturalne stosunki intensywności między formantami, ogranicza zakres widma mowy itd., a efekt takiego działania poddaje się osądowi słuchaczy. Doświadczenia omówione poniżej dokonywane były w mowie naturalnej. Niektóre realizowano za pomocą bardzo prostych środków, inne wymagały użycia mniej lub bardziej skomplikowanej aparatury.

Spektrograficzna analiza mowy umożliwia wizualna identyfikację każdego jej elementu, ale nie informuje, jakie zakresy widma są ważne dla rozpoznawania poszczególnych elementów za pomocą słuchu. Rozwiązanie zagadnienia wymaga podziału widma mowy na pasma o określonych częstotliwościach granicznych i poddania wydzielonych pasm ocenie słuchowej. Najprostszą techniką takiej pasmowej analizy widma jest użycie filtrów elektrycznych. Mogą to być filtry dolno lub górnoprzepustowe, przepuszczające tylko częstotliwości niższe lub wyższe od przyjętej wartości granicznej albo filtry środkowoprzepustowe, eliminujące zarówno częstotliwości niższe, jak i wyższe od granicznych. W Polsce przeprowadzono badania za pomocą tych wszystkich rodzajów filtrów. Dotyczyły one tak zwanej wyrazistości głoskowej i rozróżnialności głosek polskich (Dukiewicz, Piela 1961, 1962; Piela, Dukiewicz 1962; Dukiewicz 1963, 1967; Piela 1964 i in.). Wyrazistość głoskową określa stosunek głosek odebranych prawidłowo w danych warunkach przenoszenia do głosek nadanych. W badaniach rozróżnialności głosek uwzględnia się wszystkie dokonane przez odbiorców oceny każdej głoski, zarówno prawidłowe, jak nieprawidłowe. Oceny nieprawidłowe wskazują, jakim zmianom ulega barwa poszczególnych głosek w określonych warunkach przekazu. W badaniach tego rodzaju sygnały mowy nadaje się zwykle w postaci logatomów. Logatomy są to „wyrazy” pozbawione znaczenia, qa więc na prawidłowy odbiór tworzących je głosek nie wpływa czynnik domyślania się, jak to się zdarza w przypadku jednostek znaczących. Jeżeli odbiorca tekstu znaczącego poddanego filtracji usłyszy wyraźnie, takie na przykład fragmenty dwusylabowych wyrazów, jak ….idły, a...tma, to prawdopodobnie zidentyfikuje całość jako widły, astma, choćby spółgłoski w i s były w danych warunkach nadawania nierozpoznawalne. Takiego niebezpieczeństwa unika się, dzięki użyciu tekstów logatomowych.

Teksty logatomowe powinny być w miarę możliwości zróżnicowane fonetycznie i strukturalnie, to znaczy poszczególne głoski powinny występować w nich z częstością odpowiadającą ich procentowemu udziałowi w mowie normalnej, a struktura logatomów powinna odzwierciedlać strukturę wyrazów badanego języka. W logatomach skonstruowanych dla języka polskiego brak więc będzie na przykład samogłosek nosowych w pozycji nagłosowej i przed spółgłoskami innymi niż trące, nie będzie dźwięcznych spółgłosek zwartych, trących i zwarto-trących w pozycji wygłosowej i przed spółgłoskami tego samego typu, ośrodkiem sylaby będzie zawsze samogłoska itd. Przykłady polskich tekstów logatomowych zrównoważonych fonetycznie lub zarówno fonetycznie, jak i strukturalnie, podaje Jassem (1974).

Do badań wyrazistości i rozróżnialności głosek polskich użyto kilku wariantów obydwu rodzajów tekstów logatomowych oraz filtrów o częstotliwościach granicznych 256 Hz, 512 Hz, 1024 Hz, 2048 Hz, 4096 Hz i 8192 Hz. Częstotliwości te tworzą w muzyce, tzw. szereg C. Przyjęto je za podstawę badań audiometrycznych. Jak widać, częstotliwość każdego następnego filtru w tym szeregu jest większa od częstotliwości filtru poprzedzającego o oktawę. Stosując filtracje górno lub dolnoprzepustową, poszerzono pasmo przenoszonych częstotliwości widma kolejnych, utrwalonych na taśmie magnetycznej zestawów sygnałów logatomowych każdorazowo o oktawę. Podczas filtracji dolnoprzepustowej pierwszego tekstu logatomowego przepuszczono wszystkie częstotliwości składowe poniżej 256 Hz, w czasie nadawania drugiego tekstu poszerzono pasmo przepuszczania do 512 Hz, przy następnym przepuszczono wszystkie częstotliwości poniżej 1024 Hz itd., aż do 8192 Hz. Filtracja górnoprzepustowa przebiegała w odwrotnym kierunku. Filtry środkowoprzepustowe obejmowały zawsze tylko jedną oktawę o następujących częstotliwościach granicznych:

256-512 Hz

512-1024 Hz

1024-2048 Hz

2048-4096 Hz

4096-8192 Hz

 

C:\Users\Beata\Desktop\zdjęcie 3.png

 

Ryc. Wyrazistość  głoskowa w funkcji częstotliwości granicznej filtrów górno- i  dolnoprzepustowych (wg. R.Pieli). Krzywa  przerywana – filtry  górnoprzepustowe, krzywa  ciągła – nfiltry  dolnoprzepustowe

Wyniki tego rodzaju badań mają znaczenie nie tylko czysto poznawcze, ale także praktyczne. Są lub powinny być wykorzystywane przez projektantów i konstruktorów wszelkich urządzeń transmitujących mowę, zarówno tych, którym zależy na zachowaniu naturalnego brzmienia jej elementów, jak i tych, którym chodzi o zawężenie pasma przenoszonych częstotliwości do szerokości wystarczającej dla określonych celów. Mogą być także pomocne w badaniach słuchu. Uszkodzony organ słuchu pełni funkcję filtru akustycznego. Reakcje pacjenta na przekazywane mu sygnały mowy, rodzaje zniekształceń, jakimi podlegają w jego odbiorze, informują o stopniu redukcji pola słuchowego.

W rezultacie badań wyrazistości rozróżnialności głosek polskich ustalono m.in., że:

 

      1. Poszerzenie pasma przepustowego w kierunku częstotliwości wyższych (filtracja dolnoprzepustowa) powoduje szybki wzrost wyrazistości do ponad 90% przy częstotliwości 2048 Hz. W wyniku przesuwania granicy przepuszczania od 8192 Hz w kierunku częstotliwości niższych (filtracja górnoprzepustowa) wyrazistość osiąga ponad 90% już przy częstotliwości granicznej 1024 Hz (por. ryc. 29).
      2. Spośród pasm jednooktawowych (filtracja środkowoprzepustowa) najwyższą wyrazistość zapewnia pasmo obejmujące częstotliwość od 1024 do 2048 Hz. Osiąga ona w tych warunkach 65% (ryc. 30).

       Warto tu przypomnieć, że według Millera (1951) w warunkach, w których dwie trzecie logatomów zostało odebranych prawidłowo, mowa normalna jest w pełni zrozumiała.

       Na ryc. 31 pokazano wyrazistość poszczególnych typów głosek przy uwzględnieniu omawianego jednooktanowego pasma przenoszenia. Z wykresu wynika, że wyrazistość jest tym wyższa, im więcej energii widma skupia się w paśmie od 1024 do 2048 Hz.

      1. Uwzględnienie pasma przesyłowego obejmującego częstotliwość od około 200 Hz do około 8000 Hz zapewnia stuprocentową wyrazistość głosek polskich.

C:\Users\Beata\Desktop\zdjęcie 1.png

Ryc. Wyrazistość  głoskowa w pasmach oktawowych (wg. L.Dukiewicz)

           C:\Users\Beata\Desktop\zdjęcie 2.png

Ryc. Wyrazistość sześciu typów głosek polskich w paśmie 1024-2048 Hz (wg L.Dukiewicz)

 

T – spółgłoski zwarto-wybuchowe

S – spółgłoski szczelinowe

TS – spółgłoski  zwarto-szczelinowe

L – spółgłoski półotwarte

W – samogłoski niezgłoskotwórcze

V – samogłoski zgłoskotwórcze

Rozróżnialności głosek – z wyjątkiem spółgłosek nosowych – badana była jedynie za pomocą filtrów dolnoprzepustowych.

      1. Rozróżnialności poszczególnych samogłosek zależy przede wszystkim od zakresu częstotliwości, w którym występuje ich drugi formant. (Najniższą wartość, około 1000 Hz, przyjmuje on w widmie [u], najniższą, powyżej 2000 Hz, w widmie [i]).
      2. Przy użyciu filtru dolnoprzepustowego o górnej częstotliwości granicznej 256 Hz wszystkie samogłoski odbierane są w wysokim procencie jako dźwięk podobny do [i].
      3. Samogłoski nosowe odbierane są do górnej częstotliwości granicznej 512 Hz w 100% jako ustne. Ten fakt przeczy dość rozpowszechnionej opinii, że o nosowym brzmieniu sygnałów mowy – zarówno samogłosek, jak spółgłosek – decyduje występująca w ich widmach koncentracja energii około 250 Hz.
      4. W zasadzie odbiorcy nie mylą, nawet przy zastosowaniu filtru przepuszczającego częstotliwości poniżej 256 Hz, spółgłosek bezdźwięcznych z dźwięcznymi. Jest to cecha dystynktywna zdecydowanie odporna na zniekształcenia.
      5. Spółgłoski trące i zwarto-trące wykazują do górnej wartości granicznej filtru dolnoprzepustowego wynoszącej 512 Hz wyraźną skłonności do przekształcania się w spółgłoski zwarto-wybuchowe.
      6. Spółgłoski zwarto-wybuchowe rzadko odbierane są jako spółgłoski innego typu. W stosunkowo nielicznych wypadkach oceniane są jako spółgłoski trące lub zwarto-trące.
      7. Pomyłki w ocenie spółgłosek półotwartych z reguły polegają na zastępowaniu danej półotwartej inną tego samego typu. W tej grupie spółgłosek szczególną uwagę poświęcono spółgłoskom nosowym, poddając je filtracji dolno-, górno- i środkowoprzepustowej (Dukiewicz 1967). Stwierdzono, że przy uwzględnieniu pasma częstotliwości poniżej 256 Hz spółgłoski [m n ƞ ] są praktycznie nierozróżnialne i w wysokim procencie oceniane są jako nosowe. Poszerzenie pasma dolnoprzepustowego o oktawę, tj. do 512 Hz, powoduje poprawę percepcji rezonansu nosowego, a prawidłowe oceny [m] i [n] zyskują przewagę nad błędami. Przy częstotliwości granicznej filtru dolnoprzepustowego 1024 Hz [m] osiąga prawie 90% rozróżnialności. Spółgłoski [n] i [ɲ] stają się w 90% rozróżnialne po podniesieniu częstotliwości granicznej do 2048 Hz. Największe trudności sprawia identyfikacja spółgłoski nosowej tylnojęzykowej.

W przypadku filtracji górnoprzepustowej ograniczenie pasma przepustowego do częstotliwości wyższych od 4096 Hz uniemożliwia rozróżnienie głosek nosowych. Obniżenie dolnej granicy przepuszczania do 2048 Hz powoduje gwałtowny wzrost ich rozpoznawalności, zwłaszcza spółgłoski [ƞ], która w tych warunkach zyskuje prawie 90% prawidłowych ocen. Spółgłoski [m] i [n] osiągają niemal pełną rozróżnialność przy dolnej wartości granicznej filtru górnoprzepustowego wynoszącej 1024 Hz. Spółgłoska [ƞ] osiąga najwyższą rozpoznawalność – około 80% po przesunięciu dolnej granicy filtru górnoprzepustowego do 256 Hz.

Zależność między częstotliwościami granicznymi filtrów środkowoprzepustowych jednooktawowych a maksymalną rozróżnialnością poszczególnych spółgłosek nosowych przedstawia się następująco:

 

[m], 512 – 1024 Hz, 80%

[n], 1024 – 2048 Hz, 80%

[ɲ], 1024 – 2048 Hz, 70%

[ƞ], 1024 – 2048 hz, 30%

Na różnice w lokalizacji skupisk energii odgrywających istotną rolę w rozróżnieniu [n], [ɲ], [ƞ] wskazuje porównanie z ich rozróżnialnością w sąsiednich pasmach. W przypadku [n] wynosi ona w paśmie niższym 20%, [ɲ] zidentyfikowano prawidłowo w paśmie niższym w 20%, w wyższym – w około 60%. Rozróżnialność [ƞ], ogólnie bardzo niska, nie przekracza w sąsiadujących pasmach częstotliwości 20%. W tym wypadku różnica między rozróżnialnością wynoszącą 30 i 20% może być przypadkowa.

C z ę s t o t l i w o ś c i o w a filtracja połączona z audytywną oceną sygnałów wyjściowych służy do wykrywania zakresów widma istotnych dla percepcji badanych jednostek.

Dla celów analizy struktury czasowej elementów mowy i wpływu różnych jej składników na percepcję wykorzystywane są urządzenia elektroniczne, pełniące rolę filtrów czasowych górno-dolno- i środkowoprzepustowych o różnych czasach granicznych (por. K. Dukiewicz, L. Dukiewicz 1964; Dukiewicz, Kubzdela 1973; Dukiewicz 1967, 1976 i in.). Niektóre  wyniki  audytywnej  analizy  wypowiedzi  poddanych  filtracji  czasowej przedstawiono  w rozdziale 3. Dotyczą one czasowej struktury samogłosek nosowych. W rezultacie  zastosowania  tej  metody  otrzymano  też  m.in.  informacje  o  istotnej  cesze  czasowej  struktury połączeń typu spółgłoska zwarta + spółgłoska trąca (T + S),  spółgłoska zwarto-trąca (TS)  i  spółgłoska zwarto-wybuchowa (T). Poddawanie spółgłosek trących [s z ∫ ʓ ç ʐ]  (typ S) filtracji czasowej górnoprzepustowej, polegającej na ich skracaniu od strony  nagłosowej począwszy, powodowało następujące zmiany w percepcji:







S       T + S        TS       T

              Znaczy to,  że  na  przykład  głoska  [z]  odbierana  była  w  pierwszej  fazie  skracania  jako połączenie dwu spółgłosek: [d] i [z], potem jako afrykata [dz],  zaś w końcowej fazie  jako [d]. Jedyną cechą różniącą trzy rodzaje sygnałów powstałych w wyniku filtracji  poszczególnych  spółgłosek  trących  był  czas  trwania  segmentu szumowego  następującego  po segmencie zwarcia. Na początku filtracji nie odbiegał on od czasu trwania spółgłoski  trącej, następnie od czasu trwania segmentu  szumowego  spółgłoski zwarto-trącej  i  wreszcie  przypominał krótki szum impulsowy charakteryzujący stadium końcowe spółgłosek zwarto-wybuchowych.

              Efekt zwarcia wprowadzony był do sygnału mowy sztucznie. Był wynikiem  zastosowanej metody „obcinania”, która powodowała zmianę narastania widma szumu  analogiczną do zmiany wynikającej z sąsiedztwa spółgłoski zwarto-wybuchowej.

              Elektroniczne filtry czasowe znalazły także zastosowanie w badaniach intonacji. (Dukiewicz 1978). Użyto ich w celu sprawdzenia możliwości  rozpoznania  typu  wypowiedzi – pytajnej, kontynuatywnej lub oznajmującej – na podstawie przebiegu częstotliwości  podstawowej występującego w różnych jej odcinkach. Izolowane drogą filtracji czasowej  fragmenty wypowiedzi poddawano ocenie audytywnej. Wyniki wskazują, że informacja o  typie wypowiedzi zawarta jest nie tylko w części rozpoczynającej się od sylaby nuklearnej,  lecz także na odcinku poprzedzającym tę sylabę.

              Jeden  z  bardzo  prostych  sposobów  badania  czasowej  struktury  mowy  polega  na  audytywnej  ocenie  wypowiedzi  utrwalonych  na  taśmie  magnetycznej  i  odtwarzanych  w  kierunku odwrotnym (Meyer-Eppler, Dukiewicz 1958). W ten  sposób zamaskowana zostaje  warstwa semantyczna tekstu, utrudniająca odbiorcom obiektywne, fonetyczne słyszenie. Jak  już wspomniano w rozdziale 1 i 3, metoda ta posłużyła między innymi do udowodnienia  rozpoznawalnej słuchem polisegmentalnej struktury szeregu głosek polskich. Na przykład tak  zwane miękkie spółgłoski wargowe zapisywane były przez odbiorców „mowy  odwróconej”  jako  [jp  jb  jm  jf  jv],  z czego wynika, że wymawiane były jako [pj  bj  mj  fj  vj],  zaś  zapisy samogłosek nosowych wskazywały bez wyjątku na ich asynchroniczną, najczęściej  dyftongiczną, niekiedy tryftongiczną strukturę.

              Spośród innych wyników warto odnotować, że po samogłoskach kończących  wypowiedzi  odwrócone,  a  więc  w rzeczywistości  wymawianych  na  początku  wyrazu  po pauzie akustycznej, usłyszano we wszystkich wypadkach zwarcie krtaniowe. Było ono także  zauważalne w tekście odtwarzanym w kierunku normalnym, który również podlegał analizie  audytywnej, ale nie zostało przez odbiorców zauważone.

              Aby udowodnić, że częstotliwość podstawowa nie jest jedynym parametrem intonacji  i opozycji dźwięczność: bezdźwięczność, można się posłużyć pozbawionymi tej cechy  wypowiedziami syntetycznymi lub po prostu mową szeptaną. W doświadczeniu  przeprowadzonym na polskim  materiale językowym (Dukiewicz  1978) ocenie słuchowej  poddane zostały między innymi dwa teksty szeptane, z których jeden składał się z  wielokrotnie powtórzonych wypowiedzi bez trudu i bez drutu, drugi – z szeregu wyrazów  zamierzonych jako pytania  i  odpowiedzi,  tworzących  pary  w  rodzaju:

Ty? – Ty.  Pić? – Pić.  Taka? – Taka.

              Wszystkie wypowiedzi nadawane  były  w  kolejności  losowej.  Wyniki wskazują  na  rozróżnialność  wyższą niż  przypadkową,  wynoszącą  w  obydwu  wypadkach  około  80%.  Uczestnicy  tych  i  jeszcze  innych  doświadczeń  z  mową  szeptaną  twierdzili, że  dźwięczność  spółgłoski  sygnalizowana  jest  w  szepcie  mniejszą  w  porównaniu  ze  spółgłoską  normalnie  bezdźwięczną  siłą  i  że  czynnikiem  ułatwiającym  rozpoznanie  pytań  i  odpowiedzi  są  różnice  czasu  trwania  i  siły.  Wyniki  analizy  instrumentalnej  potwierdzają  te  opinie.  Szeptane  wypowiedzi  pytajne  są,  podobnie  jak  w mowie  normalnej,  zawsze  dłuższe  od szeptanych  wypowiedzi  oznajmujących,  a  widmo  szeptanych  pytań  ma  w  końcowej  fazie  wyższą  intensywność  niż  widmo  szeptanych  oznajmień.

 

 

Opracowanie na  podstawie „Fonetyka i fonologia” pod redakcją Henryka Wróbla

 

7

 

Zgłoś jeśli naruszono regulamin