1.1 Frekvencijska interpretacija greške predikcije

Do ovog poglavlja, metode linearne predikcije su uglavnom bile prezentirane pomoću jednadžbi diferencija i pomoću korelacijskih funkcija, dakle njihove reprezentacije u vremenskoj domeni. Dakako na samom početku diskusija vezanih uz postupke linearne predikcije naglašeno je da koeficijenti linearnog prediktora predstavljaju koeficijente nazivnika funkcije sustava kojom se modeliraju zajednički efekti frekvencijske karakteristike vokalnog trakta, oblika pobudnog pulsa vokalnog trakta (engl. glottal pulse) i zračenja na usnicama. Dakle, uz poznati skup prediktorskih koeficijenata moguće je odrediti frekvencijsku karakteristiku modela govornog sustava jednostavnom evaluacijom prijenosne funkcije H(z) za , tj. za z na jediničnoj kružnici:

(9.151)

U amplitudno frekvencijskoj karakteristici sustava, || moguće je očekivati izdignuća (rogove) na formantnim frekvencijama, baš kao što bi se i dobilo vremenski kratkotrajnom Fourier-ovom analizom promatranog odsječka. Dakle linearna prediktivna analiza se može promatrati i kao metoda određivanja kratkotrajnog spektra. Uistinu takve tehnike su široko korištene izvan područja obrade govora samo za ovu ulogu. U narednom poglavlju biti će predstavljena interpretacija srednje kvadratne pogreške predikcije u frekvencijskoj domeni.

1.1.1 Interpretacija srednje kvadratne pogreške predikcije u frekvencijskoj domeni

Ako se određivanje koeficijenata prediktora provede autokorelacijskim LPC postupkom, tada se srednja kvadratna pogreška predikcije može izraziti u vremenskoj domeni kao:

(9.152)

ili u frekvencijskoj domeni (korištenjem Parsevalovog teorema) kao:

(9.153)

gdje je Sn(ejw) Fourier‑ova transformacija segmenta govora sn(m), a  A(ejw) je frekvencijska karakteristika inverznog filtra A(z):

(9.154)

Obzirom da je frekvencijska karakteristika modela govornog sustava dana izrazom:

(9.155)

tada se jednadžba (9.15‑3) može izraziti i kao:

(9.156)

Obzirom da je podintegralna funkcija u jednadžbi (9.15‑6) pozitivna, slijedi da je minimizacija En ekvivalentna minimizaciji integrala odnosa spektra snage segmenta govora i kvadrata amplitudno frekvencijske karakteristike linearnog sustava, tj. modela govornog trakta.

U poglavlju 9.4 pokazano je da su autokorelacijska funkcija Rn(m), segmenta govora sn(m) i autokorelacijska funkcija R(m) impulsnog odziva h(m) pripadnog LPC sustava H(z), jednake u prvih (p+1) vrijednosti, tj. za m=0,1,2...p. Dakle, kad  autokorelacijske funkcije su identične za sve vrijednosti indeksa m. Obzirom da je Fourierova transformacija autokorelacije Rn(m) jednaka spektru snage |Sn(ejw)|2 segmenta govornog signala sn(m) i obzirom da se Fourier-ovom transformacijom autokorelacije impulsnog odziva sustava h(m) dobiva kvadrat amplitudno frekvencijske karakteristike sustava |H(ejw)|2, ekvivalencija u vremenskoj domeni se može zapisati i u frekvencijskoj domeni kao:

(9.157)

To znači da je uz dovoljno velik red LPC modela p, moguće aproksimirati spektar signala s filtrom bez nula H(z) i to uz proizvoljno malu pogrešku modeliranja.

Prema jednadžbi (9.15‑7) je vidljivo da je uz dovoljno visok stupanj prediktora p, modul spektra govornog signala jednak modulu amplitudno frekvencijske karakteristike sustava H(z), tj. |H(ejw)|=|Sn(ejw)|. Međutim ova ekvivalencija ne povlači nužno za sobom identičnost frekvencijskih karakteristika H(ejw)=Sn(ejw), tj. LPC modelom se modelira isključivo modul spektra signala, ali ne i njegova faza. Obzirom da je sustav H(z) stabilan sa svim polovima unutar jedinične kružnice i obzirom da H(z) nema nule, H(ejw) je prijenosna funkcija minimalne faze, što općenito ne mora vrijediti za Sn(ejw).

U svrhu ilustracije mogućnosti spektralnog modeliranja linearnom predikcijom, slika 9.15‑1 prikazuje usporedbu između spektra signala i njegovog LPC modela u dB mjerilu, tj. između 10log10(|H(ejw)|2) i 10log10(|Sn(ejw)|2). Spektar signala je dobiven FFT analizom segmenta govora trajanja 20 ms (otipkanog sa 20kHz), pomnoženog Hamming‑ovim otvorom. Promatrani segment dobiven je na osnovu glasa za samoglasnik /ae/. Segment je obrađen autokorelacijskim LPC postupkom sa redom prediktora p=28, a frekvencijska karakteristika LPC filtra H(z) prikazana je na slici 9.15‑1 zajedno s spektrom signala. Harmonijska (periodička) struktura spektra signala je jasno vidljiva na slici. Na slici je vidljivo i jedno vrlo važno svojstvo spektralnog modeliranja primjenom LPC postupka. Riječ je o tome da se frekvencijska karakteristika LPC modela mnogo bolje poklapa sa spektrom signala u područjima sa velikom energijom signala (oko vrhova spektra) nego u područjima sa niskom energijom signala (oko udolina u spektru signala). Opisano svojstvo prepoznatljivo je i u jednadžbi (9.15‑6) jer područja gdje |H(ejw)|<|Sn(ejw)| više pridonose ukupnoj pogrešci nego područja u kojima |H(ejw)|>|Sn(ejw)|. Dakle kriterij pogreške LPC spektra favorizira dobro poklapanje u blizini vrhova spektra, dok poklapanje u spektralnim udolinama nije ni približno tako dobro.

Gornje razmatranje pokazuje da se redom linearne prediktivne analize p, može kontrolirati stupanj glatkoće rezultirajućeg spektra LPC modela. To je prikazano na slici 9.15‑2 koja prikazuje ulazni segment govora, Fourier‑ovu transformaciju tog segmenta i amplitudno frekvencijsku karakteristiku LPC modela za različite redove prediktora. Jasno je da kako p raste, sve više spektralnih detalja ostaje sačuvano. Prilikom analize govora LPC postupkom, LPC filtar svojom frekvencijskom karakteristikom mora reprezentirati samo produkt spektra glotalnog pulsa, frekvencijske karakteristike vokalnog trakta i zračenja na usnicama, ali ne i spektar pobudnog signala. Prema tome, kao što je već diskutirano, red LPC filtra mora biti tako odabran da formantna struktura i opći oblik spektra budu što vjernije reprezentirani, dok spektralna struktura pobudnog signala mora preostati u rezidualnom signalu predikcije.

Slika

9.151

LPC spektar 28-polnog prediktora u usporedbi sa spektrom polaznog segmenta govornog signala

 

Slika

9.152

Spektar za samoglasnik /a/ otipkan uz fs=8kHz i frekvencijske karakteristike LPC modela za nekoliko različitih redova prediktora p

 

Treba naglasiti da je u okviru dosadašnjih razmatranja pretpostavljeno da se izračunavanje koeficijenata prediktora provodi autokorelacijskim LPC postupkom, jer je samo u tom slučaju Fourierova transformacija vremenski kratkotrajne autokorelacijske funkcije signala jednaka kvadratu amplitude vremenski kratkotrajne Fourierove transformacije promatranog segmenta govornog signala. Međutim, to ne sprečava da se H(ejw) koristi u svrhu spektralnog modeliranja čak i kad su prediktorski koeficijenti dobiveni metodom kovarijance.