AUDYTYWNA ANALIZA MOWY
Za pomocą analizy instrumentalnej można poznać wszystkie szczegóły artykulacyjnej lub akustycznej budowy odcinków wypowiedzi, funkcjonujących jako elementy określonego kodu językowego, ale nie można dowiedzieć się, które z tych szczegółów są dla słuchowej identyfikacji poszczególnych elementów niezbędne, a które mają znaczenie drugorzędne.
Jak wiadomo człowiek, o niewyszkolonym fonetycznie słuchu, słyszy fonematycznie: w głosowej strukturze znanego mu języka dostrzega tylko cechy istotne dla zrozumienia komunikatu. Liczba różnych głosek używanych w tym języku będzie w jego odczuciu równa liczbie jednostek funkcjonalnych – fonemów. Różnice zachodzące między głoskami należącymi do tej samej klasy, czyli różnice między wariantami danego fonemu, pozostaną nie zauważone, mimo iż w wielu wypadkach są przez normalnie działający organ słuchu wykrywalne.
Do zjawisk głosowych obiektywnie zauważalnych za pomocą słuchu, ale tylko w niektórych społecznościach językowych zauważalnych, należą bezdźwięczne wokoidy nazywane przydechem oraz zwarcie krtaniowe, tj. kontoid krtaniowy zwarto-wybuchowy. Zwarcie krtaniowe występuje między innymi w dialektach arabskich i w języku polskim, ale w tych pierwszych jest to element funkcjonalnie znaczący, natomiast w polszczyźnie nie jest wykorzystywany fonologicznie, toteż na ogół użytkownicy języka polskiego nie uświadamiają sobie jego obecności. Bez specjalnego przygotowania nie zdają sobie też najczęściej sprawy z polisegmentalnej struktury wielu głosek polskich, na przykład spółgłosek zwarto-wybuchowych, samogłosek nosowych itd.
Szczegóły artykulacyjno-akustycznej budowy elementów mowy, niemożliwe lub trudne do ustalenia w normalnych warunkach nadawczo-odbiorczych, podlegają obserwacji i ocenie w warunkach zmienionych, stosownie do założonego celu. Świadczą o tym między innymi opisanych w tym rozdziale doświadczeń. (W większości są to doświadczenia wykonane przez autorkę lub z jej udziałem.) W eksperymentach tego rodzaju można się posłużyć mową naturalną lub sztuczną. Syntetyczne wypowiedzi posiadają cechy wypowiedzi naturalnych, ale z pewnymi zaplanowanymi ograniczeniami lub przekształceniami. Tworzy się, na przykład samogłoski z inną w porównaniu z ich naturalnymi odpowiednikami liczba formantów, zmieniają się naturalne stosunki intensywności między formantami, ogranicza zakres widma mowy itd., a efekt takiego działania poddaje się osądowi słuchaczy. Doświadczenia omówione poniżej dokonywane były w mowie naturalnej. Niektóre realizowano za pomocą bardzo prostych środków, inne wymagały użycia mniej lub bardziej skomplikowanej aparatury.
Spektrograficzna analiza mowy umożliwia wizualna identyfikację każdego jej elementu, ale nie informuje, jakie zakresy widma są ważne dla rozpoznawania poszczególnych elementów za pomocą słuchu. Rozwiązanie zagadnienia wymaga podziału widma mowy na pasma o określonych częstotliwościach granicznych i poddania wydzielonych pasm ocenie słuchowej. Najprostszą techniką takiej pasmowej analizy widma jest użycie filtrów elektrycznych. Mogą to być filtry dolno lub górnoprzepustowe, przepuszczające tylko częstotliwości niższe lub wyższe od przyjętej wartości granicznej albo filtry środkowoprzepustowe, eliminujące zarówno częstotliwości niższe, jak i wyższe od granicznych. W Polsce przeprowadzono badania za pomocą tych wszystkich rodzajów filtrów. Dotyczyły one tak zwanej wyrazistości głoskowej i rozróżnialności głosek polskich (Dukiewicz, Piela 1961, 1962; Piela, Dukiewicz 1962; Dukiewicz 1963, 1967; Piela 1964 i in.). Wyrazistość głoskową określa stosunek głosek odebranych prawidłowo w danych warunkach przenoszenia do głosek nadanych. W badaniach rozróżnialności głosek uwzględnia się wszystkie dokonane przez odbiorców oceny każdej głoski, zarówno prawidłowe, jak nieprawidłowe. Oceny nieprawidłowe wskazują, jakim zmianom ulega barwa poszczególnych głosek w określonych warunkach przekazu. W badaniach tego rodzaju sygnały mowy nadaje się zwykle w postaci logatomów. Logatomy są to „wyrazy” pozbawione znaczenia, qa więc na prawidłowy odbiór tworzących je głosek nie wpływa czynnik domyślania się, jak to się zdarza w przypadku jednostek znaczących. Jeżeli odbiorca tekstu znaczącego poddanego filtracji usłyszy wyraźnie, takie na przykład fragmenty dwusylabowych wyrazów, jak ….idły, a...tma, to prawdopodobnie zidentyfikuje całość jako widły, astma, choćby spółgłoski w i s były w danych warunkach nadawania nierozpoznawalne. Takiego niebezpieczeństwa unika się, dzięki użyciu tekstów logatomowych.
Teksty logatomowe powinny być w miarę możliwości zróżnicowane fonetycznie i strukturalnie, to znaczy poszczególne głoski powinny występować w nich z częstością odpowiadającą ich procentowemu udziałowi w mowie normalnej, a struktura logatomów powinna odzwierciedlać strukturę wyrazów badanego języka. W logatomach skonstruowanych dla języka polskiego brak więc będzie na przykład samogłosek nosowych w pozycji nagłosowej i przed spółgłoskami innymi niż trące, nie będzie dźwięcznych spółgłosek zwartych, trących i zwarto-trących w pozycji wygłosowej i przed spółgłoskami tego samego typu, ośrodkiem sylaby będzie zawsze samogłoska itd. Przykłady polskich tekstów logatomowych zrównoważonych fonetycznie lub zarówno fonetycznie, jak i strukturalnie, podaje Jassem (1974).
Do badań wyrazistości i rozróżnialności głosek polskich użyto kilku wariantów obydwu rodzajów tekstów logatomowych oraz filtrów o częstotliwościach granicznych 256 Hz, 512 Hz, 1024 Hz, 2048 Hz, 4096 Hz i 8192 Hz. Częstotliwości te tworzą w muzyce, tzw. szereg C. Przyjęto je za podstawę badań audiometrycznych. Jak widać, częstotliwość każdego następnego filtru w tym szeregu jest większa od częstotliwości filtru poprzedzającego o oktawę. Stosując filtracje górno lub dolnoprzepustową, poszerzono pasmo przenoszonych częstotliwości widma kolejnych, utrwalonych na taśmie magnetycznej zestawów sygnałów logatomowych każdorazowo o oktawę. Podczas filtracji dolnoprzepustowej pierwszego tekstu logatomowego przepuszczono wszystkie częstotliwości składowe poniżej 256 Hz, w czasie nadawania drugiego tekstu poszerzono pasmo przepuszczania do 512 Hz, przy następnym przepuszczono wszystkie częstotliwości poniżej 1024 Hz itd., aż do 8192 Hz. Filtracja górnoprzepustowa przebiegała w odwrotnym kierunku. Filtry środkowoprzepustowe obejmowały zawsze tylko jedną oktawę o następujących częstotliwościach granicznych:
256-512 Hz
512-1024 Hz
1024-2048 Hz
2048-4096 Hz
4096-8192 Hz
Ryc. Wyrazistość głoskowa w funkcji częstotliwości granicznej filtrów górno- i dolnoprzepustowych (wg. R.Pieli). Krzywa przerywana – filtry górnoprzepustowe, krzywa ciągła – nfiltry dolnoprzepustowe
Wyniki tego rodzaju badań mają znaczenie nie tylko czysto poznawcze, ale także praktyczne. Są lub powinny być wykorzystywane przez projektantów i konstruktorów wszelkich urządzeń transmitujących mowę, zarówno tych, którym zależy na zachowaniu naturalnego brzmienia jej elementów, jak i tych, którym chodzi o zawężenie pasma przenoszonych częstotliwości do szerokości wystarczającej dla określonych celów. Mogą być także pomocne w badaniach słuchu. Uszkodzony organ słuchu pełni funkcję filtru akustycznego. Reakcje pacjenta na przekazywane mu sygnały mowy, rodzaje zniekształceń, jakimi podlegają w jego odbiorze, informują o stopniu redukcji pola słuchowego.
W rezultacie badań wyrazistości rozróżnialności głosek polskich ustalono m.in., że:
Warto tu przypomnieć, że według Millera (1951) w warunkach, w których dwie trzecie logatomów zostało odebranych prawidłowo, mowa normalna jest w pełni zrozumiała.
Na ryc. 31 pokazano wyrazistość poszczególnych typów głosek przy uwzględnieniu omawianego jednooktanowego pasma przenoszenia. Z wykresu wynika, że wyrazistość jest tym wyższa, im więcej energii widma skupia się w paśmie od 1024 do 2048 Hz.
Ryc. Wyrazistość głoskowa w pasmach oktawowych (wg. L.Dukiewicz)
Ryc. Wyrazistość sześciu typów głosek polskich w paśmie 1024-2048 Hz (wg L.Dukiewicz)
T – spółgłoski zwarto-wybuchowe
S – spółgłoski szczelinowe
TS – spółgłoski zwarto-szczelinowe
L – spółgłoski półotwarte
W – samogłoski niezgłoskotwórcze
V – samogłoski zgłoskotwórcze
Rozróżnialności głosek – z wyjątkiem spółgłosek nosowych – badana była jedynie za pomocą filtrów dolnoprzepustowych.
W przypadku filtracji górnoprzepustowej ograniczenie pasma przepustowego do częstotliwości wyższych od 4096 Hz uniemożliwia rozróżnienie głosek nosowych. Obniżenie dolnej granicy przepuszczania do 2048 Hz powoduje gwałtowny wzrost ich rozpoznawalności, zwłaszcza spółgłoski [ƞ], która w tych warunkach zyskuje prawie 90% prawidłowych ocen. Spółgłoski [m] i [n] osiągają niemal pełną rozróżnialność przy dolnej wartości granicznej filtru górnoprzepustowego wynoszącej 1024 Hz. Spółgłoska [ƞ] osiąga najwyższą rozpoznawalność – około 80% po przesunięciu dolnej granicy filtru górnoprzepustowego do 256 Hz.
Zależność między częstotliwościami granicznymi filtrów środkowoprzepustowych jednooktawowych a maksymalną rozróżnialnością poszczególnych spółgłosek nosowych przedstawia się następująco:
[m], 512 – 1024 Hz, 80%
[n], 1024 – 2048 Hz, 80%
[ɲ], 1024 – 2048 Hz, 70%
[ƞ], 1024 – 2048 hz, 30%
Na różnice w lokalizacji skupisk energii odgrywających istotną rolę w rozróżnieniu [n], [ɲ], [ƞ] wskazuje porównanie z ich rozróżnialnością w sąsiednich pasmach. W przypadku [n] wynosi ona w paśmie niższym 20%, [ɲ] zidentyfikowano prawidłowo w paśmie niższym w 20%, w wyższym – w około 60%. Rozróżnialność [ƞ], ogólnie bardzo niska, nie przekracza w sąsiadujących pasmach częstotliwości 20%. W tym wypadku różnica między rozróżnialnością wynoszącą 30 i 20% może być przypadkowa.
C z ę s t o t l i w o ś c i o w a filtracja połączona z audytywną oceną sygnałów wyjściowych służy do wykrywania zakresów widma istotnych dla percepcji badanych jednostek.
Dla celów analizy struktury czasowej elementów mowy i wpływu różnych jej składników na percepcję wykorzystywane są urządzenia elektroniczne, pełniące rolę filtrów czasowych górno-dolno- i środkowoprzepustowych o różnych czasach granicznych (por. K. Dukiewicz, L. Dukiewicz 1964; Dukiewicz, Kubzdela 1973; Dukiewicz 1967, 1976 i in.). Niektóre wyniki audytywnej analizy wypowiedzi poddanych filtracji czasowej przedstawiono w rozdziale 3. Dotyczą one czasowej struktury samogłosek nosowych. W rezultacie zastosowania tej metody otrzymano też m.in. informacje o istotnej cesze czasowej struktury połączeń typu spółgłoska zwarta + spółgłoska trąca (T + S), spółgłoska zwarto-trąca (TS) i spółgłoska zwarto-wybuchowa (T). Poddawanie spółgłosek trących [s z ∫ ʓ ç ʐ] (typ S) filtracji czasowej górnoprzepustowej, polegającej na ich skracaniu od strony nagłosowej począwszy, powodowało następujące zmiany w percepcji:
S T + S TS T
Znaczy to, że na przykład głoska [z] odbierana była w pierwszej fazie skracania jako połączenie dwu spółgłosek: [d] i [z], potem jako afrykata [dz], zaś w końcowej fazie jako [d]. Jedyną cechą różniącą trzy rodzaje sygnałów powstałych w wyniku filtracji poszczególnych spółgłosek trących był czas trwania segmentu szumowego następującego po segmencie zwarcia. Na początku filtracji nie odbiegał on od czasu trwania spółgłoski trącej, następnie od czasu trwania segmentu szumowego spółgłoski zwarto-trącej i wreszcie przypominał krótki szum impulsowy charakteryzujący stadium końcowe spółgłosek zwarto-wybuchowych.
Efekt zwarcia wprowadzony był do sygnału mowy sztucznie. Był wynikiem zastosowanej metody „obcinania”, która powodowała zmianę narastania widma szumu analogiczną do zmiany wynikającej z sąsiedztwa spółgłoski zwarto-wybuchowej.
Elektroniczne filtry czasowe znalazły także zastosowanie w badaniach intonacji. (Dukiewicz 1978). Użyto ich w celu sprawdzenia możliwości rozpoznania typu wypowiedzi – pytajnej, kontynuatywnej lub oznajmującej – na podstawie przebiegu częstotliwości podstawowej występującego w różnych jej odcinkach. Izolowane drogą filtracji czasowej fragmenty wypowiedzi poddawano ocenie audytywnej. Wyniki wskazują, że informacja o typie wypowiedzi zawarta jest nie tylko w części rozpoczynającej się od sylaby nuklearnej, lecz także na odcinku poprzedzającym tę sylabę.
Jeden z bardzo prostych sposobów badania czasowej struktury mowy polega na audytywnej ocenie wypowiedzi utrwalonych na taśmie magnetycznej i odtwarzanych w kierunku odwrotnym (Meyer-Eppler, Dukiewicz 1958). W ten sposób zamaskowana zostaje warstwa semantyczna tekstu, utrudniająca odbiorcom obiektywne, fonetyczne słyszenie. Jak już wspomniano w rozdziale 1 i 3, metoda ta posłużyła między innymi do udowodnienia rozpoznawalnej słuchem polisegmentalnej struktury szeregu głosek polskich. Na przykład tak zwane miękkie spółgłoski wargowe zapisywane były przez odbiorców „mowy odwróconej” jako [jp jb jm jf jv], z czego wynika, że wymawiane były jako [pj bj mj fj vj], zaś zapisy samogłosek nosowych wskazywały bez wyjątku na ich asynchroniczną, najczęściej dyftongiczną, niekiedy tryftongiczną strukturę.
Spośród innych wyników warto odnotować, że po samogłoskach kończących wypowiedzi odwrócone, a więc w rzeczywistości wymawianych na początku wyrazu po pauzie akustycznej, usłyszano we wszystkich wypadkach zwarcie krtaniowe. Było ono także zauważalne w tekście odtwarzanym w kierunku normalnym, który również podlegał analizie audytywnej, ale nie zostało przez odbiorców zauważone.
Aby udowodnić, że częstotliwość podstawowa nie jest jedynym parametrem intonacji i opozycji dźwięczność: bezdźwięczność, można się posłużyć pozbawionymi tej cechy wypowiedziami syntetycznymi lub po prostu mową szeptaną. W doświadczeniu przeprowadzonym na polskim materiale językowym (Dukiewicz 1978) ocenie słuchowej poddane zostały między innymi dwa teksty szeptane, z których jeden składał się z wielokrotnie powtórzonych wypowiedzi bez trudu i bez drutu, drugi – z szeregu wyrazów zamierzonych jako pytania i odpowiedzi, tworzących pary w rodzaju:
Ty? – Ty. Pić? – Pić. Taka? – Taka.
Wszystkie wypowiedzi nadawane były w kolejności losowej. Wyniki wskazują na rozróżnialność wyższą niż przypadkową, wynoszącą w obydwu wypadkach około 80%. Uczestnicy tych i jeszcze innych doświadczeń z mową szeptaną twierdzili, że dźwięczność spółgłoski sygnalizowana jest w szepcie mniejszą w porównaniu ze spółgłoską normalnie bezdźwięczną siłą i że czynnikiem ułatwiającym rozpoznanie pytań i odpowiedzi są różnice czasu trwania i siły. Wyniki analizy instrumentalnej potwierdzają te opinie. Szeptane wypowiedzi pytajne są, podobnie jak w mowie normalnej, zawsze dłuższe od szeptanych wypowiedzi oznajmujących, a widmo szeptanych pytań ma w końcowej fazie wyższą intensywność niż widmo szeptanych oznajmień.
Opracowanie na podstawie „Fonetyka i fonologia” pod redakcją Henryka Wróbla
7
monisia012