1

1.1 Usporedba postupaka linearne predikcije

U prethodnim poglavljima već su razmotrene teoretske razlike u formulacijama jednadžbi linearne prediktivne analize za autokorelacijsku metodu, za metodu kovarijance i metodu pomoću mrežaste (lattice) strukture. U ovom poglavlju razmotrit će se razlike vezane uz praktičnu primjenu jednadžbi prediktivne analize. U to su uključena razmatranja numeričke složenosti postupaka, stabilnost rješenja, kao i pitanje kako odabrati red prediktora i duljinu govornog segmenta korištenog za analizu. Prvo će biti razmotren problem numeričke složenosti postupka određivanja prediktorskih koeficijenata iz valnog oblika govora.

Dva glavna aspekta pri proračunu prediktorskih koeficijenata su potrebna količina memorije i ukupan broj množenja. Tablica 9.9‑1 prikazuje potrebne proračunske zahtjeve za kovarijancijsku, autokorelacijsku i metodu s mrežastom strukturom. Što se tiče memorijskog prostora za metodu kovarijance je u osnovi potrebno N₁ lokacija za podatke, i reda veličine p²/2 lokacija za korelacijsku matricu, gdje je N₁ broj uzoraka analiziranog segmenta govora, a p red predikcije. Za autokorelacijsku metodu potrebno je N₂ lokacija i za podatke i za vremenski otvor, a broj lokacija potreban za pohranu autokorelacijske matrice iznosi p+1. Za analizu mrežastom strukturom potrebno je 3N₃ lokacija za podatke i unaprijednu i unazadnu pogrešku predikcije (engl. forward and backward prediction errors). Treba istaknuti da broj uzoraka signala: N₁ za kovarijancijsku, N₂za autokorelacijsku i N₃ za mrežastu metodu, ne moraju nužno biti jednaki. Ovo pitanje će biti razmotreno kasnije u ovom poglavlju. Dakle, po pitanju potrebnog memorijskog prostora (uz pretpostavku da su N₁, N₂i N₃ sumjerljivi) kovarijancijska i autokorelacijska metoda trebaju nešto manje prostora nego metoda pomoću mrežaste strukture.

Tablica

9.9‑1

Usporedba tri LPC postupka obzirom na utrošak memorije i numeričku složenost

		Kovarijancijska metoda		Autokorelacijska metoda		Mrežasta (lattice) metoda
izračunavanje prediktora		(Cholesky dekompozicija)		(Durbin‑ova metoda)		(Burg‑ova metoda)
	memorijski prostor		Podaci		N₁		N₂	3N₃
			Matrica		~ p²/2		~ p	-
			Vremenski otvor		0		N₂	-
	broj množenja		Vremenski otvor		0		N₂	-
			Korelacija		~ N₁p		~ N₂p	-
			Rješavanje matrice		~ p³		~ p²	5N₃p

Numerička složenost izražena u broju množenja, za svaku od te tri metode prikazana je pri dnu tablice 9.9‑1. Za metodu kovarijance, proračun korelacijske matrice zahtijeva oko N₁p množenja, dok samo rješavanje matrične jednadžbe (koristeći Cholesky dekompoziciju) zahtijeva broj množenja proporcionalan sa p³. Za autokorelacijsku metodu proračun korelacijske matrice zahtijeva oko N₂p množenja, dok je rješavanje matrične jednadžbe jednostavnije nego kod metode kovarijance i zahtijeva oko p² množenja. Dakle ako su N₁ i N₂ približno jednaki, a N₁>>p, N₂>>p, tada autokorelacijska metoda zahtijeva nešto manji broj operacija nego kovarijancijska metoda. Dakako, pošto je u većini problema vezanih uz govor broj množenja potrebnih da se izračunaju elementi korelacijske matrice daleko veći od broja množenja potrebnih da se riješi matrična jednadžba, trajanje proračuna za obje ove metode je približno jednako. Za mrežastu strukturu potrebno je ukupno 5N₃p množenja da se izračuna skup koeficijenata parcijalne korelacije (engl. PARCOR coefficients), koji se još često naziva skup k-koeficijenata. Dakle kod metode mrežaste strukture rješavanje LPC jednadžbi je najsporije. Naravno, na umu treba imati neke druge prednosti mrežaste metode kada se razmatra mogućnost njene upotrebe.

Drugi problem pri usporedbi ovih triju formulacija je stabilnost dobivenog sustava.

(9.9‑1)

Taj sustav je stabilan ako svi polovi leže strogo unutar jedinične kružnice u z-ravnini. Polovi sustava H(z), su nule polinoma u nazivniku, A(z), gdje:

(9.9‑2)

Kao što je već prije navedeno, za autokorelacijsku metodu sve nule A(z) uvijek leže unutar jedinične kružnice - dakle, H(z) je garantirano stabilan. Potrebno je uočiti da ova teoretska garancija stabilnosti za autokorelacijsku metodu neće biti ostvarena u praksi ako autokorelacijska funkcija nije izračunata sa dovoljnom preciznošću. Tako npr. u slučaju izvedbe na procesorima s cjelobrojnom aritmetikom zaokruživanje pri računanju autokorelacije može dovesti do toga da matrica bude blizu singulariteta, tj. da nema dobro definiran inverz (engl. ill‑conditioned). Markel i Gray su pokazali da ti neželjeni efekti mogu biti umanjeni tako da se spektar govora prije primjene LPC postupaka učini što je moguće ravnijim. Taj postupak poravnavanja spektra se provodi filtracijom ulaznog govornog signala filtrom za pred-naglašavanje (engl. preemphasis filter). U slučaju upotrebe takvog pred-filtra mogu biti korištene i riječi sa manjim bojem bita, a da rezultirajući prediktorski polinom uglavnom uvijek ostane stabilan. Durbinov algoritam daje dobar test stabilnosti, jer je nužno i dovoljno da parametri k_i zadovoljavaju uvjet:

(9.9‑3)

Dakle, ako u procesu određivanja prediktorskih koeficijenata {a_i}, bilo koji od k_i prekrši jednadžbu (9.9‑3) to znači da postoje korijeni A(z) koje leže izvan jedinične kružnice.

Za metodu kovarijance stabilnost prediktorskog polinom se ne može garantirati. Naravno, u praksi, ako je broj uzoraka u segmentu dovoljno velik, tada će dobiveni prediktorski polinom gotovo uvijek biti stabilan. To je zbog činjenice što za velike brojeve uzoraka u analiziranom segmentu, kovarijancijska i autokorelacijska metoda daju gotovo identične rezultate.

Za metodu pomoću mrežaste strukture prediktorski polinom je garantirano stabilan jer su prediktorski koeficijenti dobiveni iz koeficijenata parcijalne korelacije koji, po definiciji, zadovoljavaju jednadžbu (9.9‑3). Nadalje, stabilnost je očuvana čak i kada je proračun izveden uz korištenje aritmetike s konačnom duljinom riječi.

U slučaju korištenja LPC postupaka kod kojeg stabilnost nije garantirana, potrebno je odrediti polove sustava H(z) i provjeriti da li se svi polovi nalaze unutar jedinične kružnice. Za polove sa radijusom r>1 moguće je provesti postupak stabilizacije, kojim se taj pol reflektira unutar kružnice na radijus 1/r, a uz isti kut . Takvim postupkom dobiva se sustav H'(z) s jednakom amplitudno frekvencijskom karakteristikom kao i sustav H(z), ali kod kojeg su svi polovi unutar jedinične kružnice.

Druga dva aspekta u usporedbi tih triju formulacija LPC postupaka su izbor reda polinoma A(z), koji je označen sa p i izbor širine vremenskog otvora, tj. duljine segmenta govornog signala, N, nad kojim se provodi LPC postupak. Izbor za p ovisi najviše o frekvenciji otipkavanja i u osnovi ne ovisi o tipu LPC postupka koji se koristi. Sustav H(z) modelira združeno djelovanje frekvencijske karakteristike vokalnog trakta, spektra pobudnog signala, kao i frekvencijske karakteristike zračenja na usnicama. Što se tiče utjecaja vokalnog trakta može se pretpostaviti da će govorni signal otipkan s frekvencijom otipkavanja f_s imati u prosjeku f_s/1000 formantnih (rezonantnih) karakteristika, tj. jednu po svakom kHz frekvencije otipkavanja. Tako npr. uz f_s=10kHz, u području od 0 do f_s/2=5kHz govorni signal će imati u prosjeku oko 5 formanata. Obzirom da je svaki formant opisan jednim konjugirano kompleksnim parom polova, potrebni red LPC sustava za vjernu reprezentaciju ovih karakteristika iznosi p=2x5=10. Na ovo je potrebno dodati još tri do četiri pola za reprezentaciju spektra pobudnog signala i frekvencijske karakteristike zračenja na usnicama. Dakle za f_s=10kHz potreban iznos za p je oko 13 do 14. Potvrda ovog zaključka vidljiva je na slici 9.9‑1 koja prikazuje normalizirane efektivne vrijednosti pogreške predikcije u odnosu na red prediktora p i to za zvučni i bezvučni govor uz frekvenciju otipkavanja 10 kHz. Iako se pogreška predikcije lagano smanjuje kako p raste, za p reda 13-14 krivulja se u osnovi izravnava i pokazuje samo malo smanjenje kako p dalje raste. Iz ove slike se može primijetiti da je normalizirana pogreška predikcije za bezvučni govor znatno viša nego za zvučni govor. To je naravno bilo očekivano jer model za bezvučni govor nije ni približno tako točan kao za zvučni govor.

Slika

9.9‑1

Promjena efektivne vrijednosti predikcijske pogreške sa redom prediktora

Pravilni izbor duljine segmenta N vrlo je značajan za većinu sustava temeljenih na postupku linearne predikcije (LPC). Naravno, pogodno je odabrati N što je moguće manji jer je ukupno računsko opterećenje, za sve tri metode, u osnovi proporcionalno s N. Za autokorelacijsku metodu je pokazano da N mora biti reda veličine nekoliko perioda osnovne frekvencije titranja glasnica da se osiguraju pouzdani rezultati. Kako se u autokorelacijskoj metodi koristi množenje segmenta vremenskim otvorom, duljina odsječka mora biti dovoljno velika da efekti odsijecanja, odnosno prigušenja rubova otvorom (engl. tapering effects) ne utječu ozbiljnije na rezultate. Dakle, u LPC primjenama autokorelacijske metode koriste se širine segmenta od N=100 do N=400 uzoraka (pri f_s=10kHz), a kod većine sustava broj uzoraka N je bliži gornjoj granici. I za metodu kovarijance i za metodu mrežastom strukturom izbor duljine segmenta je određen sa sljedećih nekoliko razmatranja. Kako nema potrebe za množenjem s vremenskim otvorom, nema stvarnog ograničenja na minimalnu širinu odsječka. Ako se analiza provede na osnovu uzoraka govornog signala između dva glotalna pulsa, tj. unutar jedne periode osnovne frekvencije (npr. korištenjem analize sinkrone s osnovnom frekvencijom glasnica), tada se već i sa širinama N reda veličine 2p mogu ostvariti zadovoljavajući rezultati. To znači da vremenski otvor mora biti tako pozicioniran u odnosu na govorni signal da u njemu bude sadržano prigušeno istitravanje vokalnog trakta na pobudni glotalni puls, dakle signal koji prema kraju intervala analize eksponencijalno trne. Naravno ako se koristi tako malen N i ako se glotalni puls (engl. pitch pulse) pojavi unutar otvora analize (signal prvo raste a zatim pada) neće se dobiti zadovoljavajući rezultati. Dakle u većini praktičnih sustava u kojima nije moguće upotrijebiti postupak sinkroniziran sa osnovnom frekvencijom glasnica, širina vremenskog otvora analize za kovarijancijsku i mrežastu metodu odabere se na isti način kao kod autokorelacijske metode.