1.1 Kvantizacija parametara prediktora

Jedna od najznačajnijih primjena linearne predikcije jest područje kodiranja govora za potrebe digitalnih komunikacijskih sustava s malom brzinom prijenosa (npr. LPC vokoder), ili pak za potrebe digitalne pohrane glasa. Slika 9.14‑1 prikazuje blok dijagram LPC vokodera. Vokoder čine tri osnovna dijela:

1)   odašiljač ili predajnik koji provodi LPC analizu, određuje karakter govornog signala (zvučan ili bezvučan), određuje period osnovne frekvencije titranja glasnica (pitch-period) za zvučne glasove i konačno kodira sve određene parametre za potrebe prijenosa,

2)   kanal kojim se parametri šalju,

3)   prijemnik koji dekodira parametre i iz njih obrnutim postupcima sintetizira govor.

Postupci analize i sinteze su već izloženi u osnovnim crtama u prošlim poglavljima no o postupcima kvantizacije i kodiranja parametara još nije bilo riječi. Upravo u ovom poglavlju analizirati će se osnovni postupci kodiranja i dekodiranja, te utvrditi koja skupina parametara za opis vokalnog trakta je najpogodnija za kodiranje ako se želi ostvariti što veća kvaliteta uz što manju brzinu prijenosa. Radi pojednostavljenja, koristi se pretpostavka da je digitalni kanal kojim se vrši prijenos idealan (ne unosi pogreške).

Osnovni parametri Vokodera koje je potrebno odrediti u postupku LPC analize, te zatim kodirati i prenijeti na prijemnu stranu su:

1)   skup od p LPC koeficijenata, odnosno koeficijenata prediktora P(z),

2)   period osnovne frekvencije titranja glasnica (pitch-period),

3)   binarna informacija o zvučnosti (zvučni ili bezvučni glas),

4)   i parametar pojačanja (informacija o energiji pobudnog signala).

Postupci pravilnog kodiranja pitch-perioda, binarne informacije o zvučnosti glasa, kao i parametra pojačanja su relativno jednostavni. Za kodiranje pitch-perioda uglavnom je dovoljno 6 bita (odabir jednog od 64 moguća perioda), za odluku o zvučnosti 1 bit, a za pojačanje 5 bita raspodijeljenih na logaritamskoj skali (jedan od 32 moguća nivoa).

Slika

9.141

Blok dijagram LPC vokodera

Što se tiče kvantizacije parametara LPC prediktora, stvar je složenija. Iako prva ideja koja se sama po sebi nameće je direktna kvantizacija koeficijenata prediktora, takav pristup se ne preporučuje. Uslijed kvantizacije koeficijenata dolazi do promjene prijenosne funkcije prediktora, odnosno promjene pozicije polova LPC filtra H(z). Ta promjena može uzrokovati izlazak pojedinih polova van jedinične kružnice, tj. nestabilnost LPC filtra. Sigurna stabilnost LPC filtra zahtjeva relativno visoku točnost kvantizacije (8-10 bita po LPC koeficijentu). Razlog ovome jest u činjenici da male promjene koeficijenata prediktora vode u relativno velike promjene položaja polova, pa se direktna kvantizacija koeficijenata prediktora općenito izbjegava.

Navedeni zaključci biti će ilustrirani na jednom malom primjeru. Idealni ak koeficijenti dobiveni LPC analizom govornog signala prikazani su u prvom retku tablice 9.14‑1. za jedan konkretni slučaj. Prvo je provedena normalizacija ovih koeficijenata, tj. dijeljenje s koeficijentom najvećim po apsolutnoj vrijednosti. Zatim je provedena kvantizacija sa B=6 bitnim uniformnim kvantizatorom, tako što su normalizirani koeficijenti pomnoženi sa 2B-1 i zatim zaokruženi na najbliže cijele brojeve. Pretpostavljajući idealni prijenosni kanal na prijamnoj se strani vrši dekodiranje pristigle poruke, dijeleći cjelobrojne koeficijente sa 2B-1, te množeći ih s faktorom skale koji je korišten kod normalizacije na predajnoj strani. Rezultati svakog pojedinog koraka opisanog postupka prikazani su u tablici 9.14‑1.

 

Tablica

9.141

Ilustracija direktne kvantizacije a-koeficijenata s 6‑bitnim uniformnim kvantizatorom

 

 

Nekvant. koeficijenti

1.899

-1.198

0.619

-0.744

-0.203

0.715

0.073

-0.286

-0.130

0.104

Normalizir. koeficijenti

1.000

-0.630

0.325

-0.392

-0.107

0.376

0.038

-0.150

-0.068

0.054

Zaokruženi

32

-20

10

-13

-3

12

1

-5

-2

2

koeficijenti
na prijemu

1.000

-0.625

0.312

-0.406

-0.093

0.375

0.031

-0.156

-0.062

0.062

krajnji rezultat
 kodiranja

1.899

-1.187

0.593

-0.771

-0.178

0.712

0.059

-0.296

-0.118

0.118

 

Uspoređujući na kraju prijenosne funkcije LPC filtra H(z) prikazane na slici 9.14‑2, koje odgovaraju nekvantiziranim, odnosno kvantiziranim koeficijentima prediktora uočavaju se velika odstupanja.

Slika

9.142

Prikaz odstupanja prijenosne funkcije LPC filtra
uzrokovanog kvantizacijom koeficijenata prediktora

Objašnjenje ove velike razlike između idealne i kvantizirane karakteristike najbolje daje slika 9.14‑3 na kojoj su prikazani položaji polova LPC filtra prije i poslije kvantizacije ak koeficijenata. Vidljivo je da jedan konjugirano-kompleksni par polova koji odgovara kvantiziranim koeficijentima čak izlazi iz jedinične kružnice, što potpuno potvrđuje gornje zaključke.

Slika

9.143

Utjecaj kvantizacije na poziciju polova LPC filtra

Ovaj zaključak otvara pitanje koji su parametri najpogodniji za kvantizaciju i prijenos. Najprirodniji sljedeći kandidati su korijeni polinoma prediktora i koeficijenti refleksije. U slučaju kvantizacije korijena prediktora, pozicija svakog konjugirano kompleksnog para polova kodira se u polarnim koordinatama, tj. tako da se posebno kodira kut pola, a posebno njegov radijus. Kut pola određuje centralnu frekvenciju formanta, dok njegov radijus određuje širinu pojasa. Stabilnost je vrlo lako osigurati, tako da se prilikom kvantizacije osigura da radijus pola nikada ne dosegne jedinicu. Koristeći opisani pristup u literaturi je pokazano da je 5 bita po korijenu (tj. 5 bita za centralnu frekvenciju pola i 5 bita za njegovu širinu pojasa) dovoljno da sačuva kvalitetu sintetiziranog govora gotovo jednaku govoru sintetiziranom korištenjem idealnih, nekvantiziranih parametara. Glavni nedostatak korištenja ovog skupa parametara je prevelika složenost njihovog izračunavanja. Obzirom da ne postoji analitički izraz za određivanje korijena polinoma stupnja većeg od 4, potrebno je primjenjivati složene numeričke postupke određivanja korijena.

Uz opisane postupke kodiranja i uz 12. red LPC analize ukupni broj bita za kodiranje svih parametara jednog okvira analize iznosi (12x5 + 6 + 5 + 1) = 72 bita po okviru. Prema, tome ukupna potrebna brzina prijenosa iznosi 72Fr bita u sekundi gdje je Fr učestalost analize koja se izražava u broju okvira u sekundi. Tipične vrijednosti za Fr su 100, 67, 50 i 33 okvira/s što daje brzine prijenosa od 7200, 4800, 3600 i 2400 bita u sekundi.

Sljedeća skupina parametara koja pokazuje dobra kvantizacijska svojstva i kod koje je lako moguće osigurati stabilnost LPC filtra su PARCOR koeficijenti, ki. Uvjet stabilnosti za ove parametre je |ki|<1, što je jednostavno očuvati i nakon kvantizacije. Primjena ovih parametara ilustrirana je na istom primjeru danom u tablici 9.14‑1. U prvom koraku postupka su na osnovu idealnih koeficijenata prediktora a1 do a10 izračunati idealni PARCOR koeficijenti k1 do k10. U ovom slučaju normalizaciju nije potrebno provoditi jer su svi koeficijenti po modulu već manji od 1, (|ki|<1).

 

Tablica

9.142

Prikaz dobivenih rezultata prilikom kvantizacije k‑parametara 6-bitnim uniformnim kvantizatorom

 

 

k1

k2

K3

k4

k5

k6

k7

k8

k9

k10

Nekvant.
koeficijenti

-0.898

0.8954

-0.059

0.431

-0.612

-0.082

0.530

0.287

-0.067

-0.104

Zaokruženi

-29

29

-2

14

-20

-3

17

9

-2

-3

krajnji rezultat
 kodiranja

-0.906

0.906

-0.062

0.437

-0.625

-0.093

0.531

0.281

-0.062

-0.093

 

 

Slika

9.144

Prikaz prijenosne funkcije LPC filtra prije i nakon kvantizacije PARCOR koeficijenata

Provodeći identičan postupak kvantizacije sa 6‑bitnim uniformnim kvantizatorom dobivena je tablica 9.14‑2 i slike 9.14‑4 i 9.14‑5 na kojima se vide neznatna odstupanja polova uslijed provedene kvantizacije, a time i dobro poklapanje prijenosnih funkcija.

Slika

9.145

Prikaz polova prijenosne funkcije LPC filtra prije i nakon kvantizacije PARCOR koeficijenata

U literaturi je pokazano da je statistička razdioba ovih PARCOR koeficijenata nejednolika, tj. da su neke vrijednosti češće (vjerojatnije) od drugih. Ovo predstavlja problem kod projektiranja kvantizatora, kojeg je moguće riješiti korištenjem dodatne nelinearne transformacije. Ako se želi postići minimalna spektralna osjetljivost na promjene parametara uslijed kvantizacije, tada se pokazalo da je optimalna transformacija k-parametara sljedećeg oblika:

(9.141)

Dakle, optimalni parametri za kvantizaciju s uniformnim kvantizatorom, koji ima jednolik razmak između kvantizacijskih nivoa su LAR parametri. Kao što je već opisano u poglavlju 9.13.3, LAR parametri su jednaki logaritmu omjera poprečnih presjeka Ai dva susjedna segmenata modela sa cijevima bez gubitaka koji modelira vokalni trakt. Promatrajući izraz (9.14‑1), lako je pokazati da se područje  ovom nelinearnom transformacijom preslikava u . Utvrđeno je da gi koeficijenti imaju približno jednoliku razdiobu, i malu među-parametarsku korelaciju, što ih čini vrlo pogodnim za kvantizaciju i digitalni prijenos. Kvantizacijom LAR parametara uz 5 do 6 bita po parametru, postiže se kvaliteta signala takva da ga više nije moguće razlučiti od signala koji nastaje sintezom sa idealnim (nekvantiziranim) parametrima.

Bez obzira koji se parametri kvantizirali, jasno je da se događa bespovratni gubitak dijela informacije. Točnost koju je potrebno ostvariti prilikom kvantizacije određena je s perceptualnim zahtjevima, tj. utjecaj kvantizacije ne smije biti čujan. Naravno, kod projektiranja kodera i njihove međusobne usporedbe značajno je ostvariti mogućnost objektivnog, a ne subjektivnog vrednovanja. U tu svrhu najčešće se koristi numerički parametar spektralnog izobličenja koji opisuje koliko se dobro poklapaju prijenosne funkcije dva filtra: onog sa idealnim koeficijentima i onog sa kvantiziranim. U stvari se radi o efektivnoj vrijednosti razlike između amplitudno frekvencijskih karakteristika ta dva filtra, || i ||, u logaritamskom mjerilu, tj. prema izrazu:

(9.142)

Vidljivo je da se usrednjavanje provodi preko cijelog frekvencijskog područja (0 do 2p). Ako se postupkom kvantizacije osigura da prosječno spektralno izobličenje ne bude veće od 1 dB, tada ljudskim uhom nije moguće razlučiti razliku između govora koji nastaje sintezom s originalnim parametrima, i onoga koji se sintetizira na osnovu kvantiziranih parametara. Takav slučaj se u literaturi naziva 'transparentnim kodiranjem'. Postoji još jedan dodatni uvjet za ostvarenje transparentnog kodiranja. Ljudsko uho je posebno osjetljivo na povremena velika izobličenja, tj. čak i  kada je srednje spektralno izobličenje  manje od 1 dB, učestala pojava okvira s izobličenjem većim od 2 ili 4 dB može biti posebno čujna i ometajuća. Radi toga se dodatno zahtijeva da postotak okvira analize kod kojih je spektralno izobličenje prouzročeno kvantizacijom veće od 2dB bude manji od 2%, dok onih sa izobličenjem većim od 4dB uopće ne smije  biti.

U svim gore navedenim postupcima kodiranja, parametri se kodiraju pomoću PCM postupaka kodiranja, tj. svaki za sebe nezavisno i to tako da se nekom intervalu ulazne realne veličine pridijeli neki kod. U slučaju korištenja ADPCM tehnika, gdje bi se ti parametri kodirali zavisno jedan o drugom, mogle bi se postići dodatne uštede u brzini prijenosa.