1. Vremenski diskretni akustički model

U prethodim poglavljima pokazano je kako je moguće korištenjem relativno jednostavnog matematičkog modela opisati proces nastajanja govornog signala. Uveden je model s spojenim cijevima kojima se aproksimira stvarni oblik vokalnog trakta, te su određene prijenosne funkcije takvih modela. Cijela analiza je provedena uz pretpostavku da su svi signali u sustavu vremenski kontinuirani. Sa stanovišta stvarne primjene, mnogo je interesantnije odrediti sličan model, ali za slučaj vremenski diskretnih signala. Za bilo kakvu digitalnu obradu potrebno je otipkati govorni signal. Modeliranje u vremenski diskretnoj domeni vodit će na određivanje vremenski diskretne pobude koja propuštena kroz vremenski diskretni rekurzivni filtar s pogodno odabranim koeficijentima producira izlazni vremenski diskretni signal koji se što bolje poklapa sa stvarnim otipkanim govornim signalom. U narednim poglavljima biti će ilustrirano kako je moguće prijeći na taj vremenski diskretni model.

1.1 Veza akustičkog modela i vremenski diskretnih filtara

Oblik prijenosne funkcije sustava sa spojenim cijevima bez gubitaka Va(s) upućuje na sličnost sa vremenski diskretnim filtrima, koji se u žargonu često nazivaju i digitalnim filtrima. Da bi to zornije prikazali razmotrimo sustav od N cijevi bez gubitaka od kojih je svaka dužine Dx=L/N gdje je L ukupna duljina vokalnog trakta. Takav sustav prikazan je na slici 7.1‑1 za N=7.

Slika

7.11

Primjer sustava od 7 povezanih cijevi bez gubitaka

Širenje zvučnog vala kroz takav sustav može se modelirati pomoću blok dijagrama prikazanih na slikama 6.3‑3, 6.4‑1 i 6.4‑2. Vrijeme propagacije signala kroz svaku cijev je jednako i iznosi t=Dx/c gdje je c brzina širenja zvuka. Interesantno je promotriti što se zbiva kada se takav sustav pobudi s delta funkcijom, tj. uG(t)=d(t). Taj se pobudni impuls širi kroz niz cijevi, a na svakom spoju biva djelomično propušten i djelomično reflektiran unazad. Može se pokazati da će impulsni odziv takvog sustava bit će oblika:

(7.11)

Iz formule (7.1‑1) vidljivo je da će prvi impuls do izlaza stići za Nt sekundi, a svaki sljedeći impuls dolazit će na izlaz sa dodatnim kašnjenjem od 2t sekundi što je posljedica refleksija na granicama cijevi. Pošto svaki reflektirani val mora na svom putu prema izlazu najmanje dva puta proći kroz svaku cijev (unazad, pa zatim ponovno unaprijed), svi reflektirani valovi se pojavljuju s vremenskim kašnjenjima koja su cjelobrojni višekratnici od 2t. Prebacivanje impulsnog odziva (7.1‑1) u Laplace-ovu domenu dobiva se prijenosna funkcija takvog sustava slijedećeg oblika

(7.12)

Zajednički faktor  predstavlja kašnjenje signala zbog prolaska kroz svih N cijevi, dok će desna suma u izrazu (7.1‑2) biti označena sa , tj. :

(7.13)

Upravo taj član određuje rezonantna svojstva sustava, jer je zajednički faktor  jednak za sve sustave sa istim brojem segmenata, tj. ne ovisi o poprečnim presjecima cijevi. To pokazuje da se model Va(s) može rastaviti na dva dijela: na čisto kašnjenje od Nt sekundi i sustav  s nultim kašnjenjem i impulsnim odzivom =va(t+Nt), kao što je prikazano na slici 7.1‑2 a). Frekvencijska karakteristika  tog sustava s nultim kašnjenjem je:

(7.14)

Lako je pokazati da je  periodična po W, i to s periodom 2p/2t, tj. vrijedi:

(7.15)

Svojstvo periodičnosti frekvencijske karakteristike je karakteristično za vremenski diskretne sustave, kod kojih taj period iznosi 2p/T, gdje je T period frekvencije otipkavanja. Ako bi se prilikom vremenske diskretizacije originalnog kontinuiranog modela Va(s) odabrao period otipkavanja T=2t, tada takva vremenska diskretizacija ne bi unijela nikakav gubitak informacije, tj. frekvencijske karakteristike vremenski kontinuiranog i diskretnog sustava bile bi jednake. To naravno vrijedi samo pod uvjetom da je ulazni signal imao ograničen spektar, tj. da nije imao frekvencijske komponente iznad polovine frekvencije otipkavanja. Uz tako odabran period otipkavanja, kašnjenje od Nt sekundi odgovara pomaku od N/2 uzorka, dok ekvivalentni vremenski diskretni filtar ima impulsni odziv  koji se dobiva otipkavanjem vremenski kontinuiranog impulsnog odziva  s periodom T, tj.:

(7.16)

Taj vremenski diskretni sustav prikazan je na slici 7.1‑2 b), a opisana transformacija vremenski kontinuiranog sustava u diskretni se naziva metoda jednakog impulsnog odziva. U slučaju kada je broj cijevi N paran broj, tada se odziv uL(nT) dobiva običnim pomakom odziva sustava  na pobudu uG(nT) za N/2 koraka. U slučaju da je N neparan, mora se provoditi interpolacija, no vrlo često se to kašnjenje u oba slučaja zanemaruje, jer je za većinu primjena nebitno.

Slika

7.12

Blok dijagram akustičkog modela sa spojenim cijevima bez gubitaka u vremenski kontinuiranoj (a) i diskretnoj (b) domeni

Prema pravilima koja vrijede za transformaciju s jednakim impulsnim odzivom, z‑transformacija od , označena sa, može se odrediti direktno na osnovu  supstitucijom esT sa z odnosno:

(7.17)

Slika

7.13

(a) Shema toka signala za model vokalnog trakta sa cijevima bez gubitaka; (b) ekvivalentan vremenski diskretan sustav; (c) ekvivalentan vremensko diskretni sustav sa cjelobrojnim kašnjenjima u ljestvičastoj strukturi

Shema toka signala za vremenski diskretni akustički model može se dobiti analognim načinom iz toka signala vremenski kontinuiranog modela. Vremenski kontinuirane varijable u svim čvorovima zamjenjuju se odgovarajućim diskretnim nizovima. Također svako kašnjenje od t sekundi zamjenjuje se sa pomakom od pola koraka, budući je t=T/2. Primjer je dan na slici 7.1‑3 za sustav sa tri cijevi. Kašnjenje signala kroz jednu cijev je na slici 7.1‑3 b) predstavljeno prijenosnom funkcijom z.

Pomak za ½ uzorka zahtjeva interpolaciju na sredini između dva uzorka. Promatranjem ljestvičaste strukture na slici 7.1‑3 b) može se uočiti da, ukoliko se kašnjenja iz donjih grana prebaci u pripadajuće gornje grane, kašnjenje unutar bilo kojeg zatvorenog kruga u strukturi ostaje nepromijenjeno. Ukupno kašnjenje od ulaza do izlaza je sada izmijenjeno, ali to nema nekog većeg značenja u praksi, a teoretski bi se moglo ispraviti umetanjem sklopa za prethođenje za N/2 koraka na samom izlazu, kao što je prikazanom sklopom zN/2 na slici 7.1‑3 c). Ovakvom strukturom izbjegnute su poteškoće vezane uz interpolaciju u strukturi 7.1‑3 b). Još jedna prednost strukture 7.1‑3 c) je u činjenici da se takav sustav može zapisati u obliku jednadžbi diferencija koje se onda mogu koristiti za iterativno izračunavanje izlaznih uzoraka na osnovu zadane pobude.

Slika

7.14

Varijante spoja cijevi bez gubitaka sa 4 množenja (a), sa 2 množenja (b) i sa samo 1 množenjem (c)

Digitalne mreže kao ona na slici 7.1‑3 c) mogu se upotrijebiti za izračunavanje sintetičkog govornog signala iz odgovarajuće odabranog pobudnog signala. Kod takvih primjena struktura mreže određuje složenost operacija potrebnih za proračun svakog izlaznog uzorka. U modelu sa slike 7.1‑3 na svakom spoju dviju cijevi potrebno je izvršiti 4 množenja i 2 zbrajanja dakle ukupno 4N množenja i 2N zbrajanja za N cijevi. Kako je množenje vremenski najzahtjevnije bilo bi pogodno kada bi se koristile strukture koje uključuju manji broj množenja. Do takvih struktura može se doći izmjenama strukture svakog spojnog mjesta prikazanog na slici 7.1‑4 a) prema pravilima o transformacijama toka signala. Spojno mjesto susjednih cijevi definirano je jednadžbama diferencija :

(7.18)

(7.19)

koje su grafički predočene strukturom 7.1‑4 a). Modifikacijama ovih jednadžbi diferencija, spojno mjesto se može izvesti i uz upotrebu dva množenja, ili čak sa samo jednim množenjem. U oba izraza (7.1‑8) i (7.1‑9) pojavljuju se članovi rw+(n) i ru(n), pa ih je dovoljno izračunati samo u jednom izrazu, te zatim iskoristiti u drugom, što vodi na strukturu 7.1‑4 b). Slično tome ako bi se u oba izraza grupirali članovi koji su množeni sa r, dobiva se slijedeći par jednadžbi diferencija:

(7.110)

(7.111)

Iz izraza (7.1‑10) i (7.1‑11) je vidljivo da je moguće prvo zbrojiti w+(n) i u(n), sumu pomnožiti sa r, te zatim taj član iskoristiti u obje jednadžbe, što vodi na strukturu prikazanu na slici 7.1‑4 c).

1.2 Prijenosna funkcija vremenski diskretnog modela u z-domeni

U prošlom poglavlju pokazano je kako je moguće odrediti prijenosnu funkciju vremenski diskretnog modela govornog trakta V(z). Impulsni odziv vremenski kontinuiranog modela va(t) otipkan je s periodom T=2t, te su tako dobiveni uzorci v(n) z‑transformacijom prebačeni u z‑domenu, čime je dobiven V(z). Konkretno, V(z) se nalazi tako da se  iz izraza (7.1‑7) pomnoži sa z‑N/2.

Tako dobiveni V(z) je funkcija uzoraka impulsnog odziva, no mnogo je interesantnije odrediti V(z) kao funkciju koeficijenata refleksije rG, r1 do rN-1 i rL. Obzirom da je za općenit slučaj impulsni odziv va(t) beskonačnog trajanja (signal se beskonačno puta reflektira na svim spojevima) impulsni odziv diskretnog modela v(n) će također biti beskonačan, pa suma u izrazu (7.1‑7) stvarno mora ići do beskonačnosti. Po tom svojstvu beskonačnog trajanja, takav impulsni odziv je sličan impulsnom odzivu rekurzivnog digitalnog filtra (IIR filtar). Poznato je da se prijenosna funkcija IIR filtara može prikazati u kompaktnoj formi u obliku razlomljene racionalne funkcije od z, koja u brojniku i nazivniku ima polinom u varijabli z konačnog stupnja. Po analogiji sa IIR filtrima, interesantno je i za vremenski diskretni model vokalnog trakta odrediti takvu 'kompaktnu' prijenosnu funkciju, jer je iz tog oblika moguće odrediti brojna svojstva modela (npr. centralne frekvencije i širine rezonantnih karakteristika itd.). Očekuje se da bi koeficijenti polinoma u brojniku i nazivniku trebali biti isključivo funkcija koeficijenata refleksije.

Dijagram toka signala vremenski diskretnog modela vokalnog trakta koji je prikazan na slici 7.1‑3 c) može se rastaviti na kaskadu više segmenata, kao što je prikazano na slici 7.2‑1. Prva sekcija te kaskade prikazana na 7.2‑1 a) određena je rubnim uvjetom na glasnicama. Iza nje slijede N-1 sekcija 7.2‑1 b) koje su određene koeficijentima refleksije na svakom od N-1 spojeva cijevi. Zadnja sekcija je prikazana na 7.2‑1 c), a određena je rubnim uvjetom na usnicama. Na slici 7.2‑1 uvedene su i oznake za z-transformacije signala u svim čvorovima te strukture. Prijenosna funkcija V(z) ovog modela definirana je kao kvocijent UL(z) i UG(z), pa je prema tome potrebno nekako dovesti u vezu te dvije veličine. Do ove veze je najlakše doći raspisivanjem prijenosnih funkcija sekcija od izlaza prema ulazu. Analizom strukture na 7.2‑1 c) slijedi par jednadžbi:

,         

(7.21)

Ako bi iz ove dvije jednadžbe izrazili  i , kao funkciju izlaza sustava UL(z) dobiva se slijedeći odnos:

,         

(7.22)

Slika

7.21

Blok shema vremenski diskretnog modela vokalnog trakta u z‑domeni razbijena na kaskadu sekcija

U nastavku ove analize će uvijek par signala  i  biti izražen kao funkcija ulaznih signala slijedeće sekcije  i , pa je zbog toga je pogodno svaki par signala ujediniti u dvodimenzionalne vektore, koji će biti označeni kao , odnosno . Koristeći takav način označavanja, jednadžba (7.2‑2) se može zapisati kao:

(7.23)

Slično opisanom postupku, analiza sekcije 7.2‑1 b) daje slijedeći par jednadžbi:

,    

(7.24)

Ako izrazimo  i  kao funkciju  i  dobiva se par jednadžbi u matričnoj formi oblika:

(7.25)

Izraz (7.2‑5) se primjenjuje unazad preko svih N-1 sekcija b) sve do prve sekcije koja povezuje  sa  uz pomoć matrice Q1. Da bi konačno doveli u vezu UL(z) i UG(z), potrebno je izraziti ulazni signal UG(z) kao funkciju , što se postiže analizom ulazne sekcije 7.2‑1 a), koja daje slijedeću jednadžbu:

(7.26)

odnosno u matričnoj formi:

(7.27)

Kombiniranjem izraza (7.2‑7), (7.2‑5) i (7.2‑3) konačno slijedi željena veza:

(7.28)

Na osnovu izraza (7.2‑8) moguće je zaključiti da se općenita prijenosna funkcija vremenski diskretnog modela sa cijevima bez gubitaka može se prikazati u obliku :

(7.29)

gdje je D(z) polinom od z‑1 koji se dobije umnoškom matrica :

(7.210)

Obzirom da su svi elementi matrica Qk ili konstanta ili konstanta množena sa z‑1 nije teško pokazati da će produkt matrica iz izraza (7.2‑10) biti polinom N-tog stupnja u varijabli z‑1 , tj. oblika:

(7.211)

Razmatrajući jednadžbe (7.2‑9) i (7.2‑11) može se zaključiti da model sa cijevima bez gubitaka ima kašnjenje proporcionalno broju segmenata (cijevi), te da prijenosna funkcija nema nule nego isključivo polove (engl. all-pole system). U brojniku se nalazi konstanta pomnožena sa z-N/2 što odgovara običnom pomaku za N/2 koraka, tj. brojnik će biti jednak nuli samo u trivijalnom slučaju kada z teži u beskonačno. Za razliku od toga, polovi postoje i njihove pozicije su određene korijenima polinoma D(z), čime su ujedno određene i rezonantne (formantne) karakteristike modela vokalnog trakta.

Gubitci u modelu vokalnog trakta sa idealnim cijevima bez gubitaka određeni su isključivo sa zaključnim impedancijama ZG, odnosno ZL. Na osnovu njih su izračunati faktori refleksije rG i rL, koji figuriraju u modelu na slikama 7.1‑3 i 7.2‑1. U slučaju kad su ovi faktori po modulu jednaki jedan, tada ne postoje realni gubitci u modelu, pa se signal u vokalnom traktu beskonačno puta reflektira sa ulaza na izlaz bez gubitka energije. U tom slučaju će sve rezonantne karakteristike biti neprigušene, tj. širine formanata biti će jednake nuli. Radi jednostavnosti, moguće je pretpostaviti da je ulazni faktor refleksije rG jednak 1, te zatim gubitke regulirati isključivo sa rL. Ovu zaključnu impedanciju odnosno pripadni faktor refleksije na usnicama moguće je modelirati tako da se na sustav od N cijevi doda još jedna cijev beskonačne dužine, poprečnog presjeka AN+1, kojom se modelira slobodni prostor ispred usnica. Obzirom da je ova cijev beskonačne dužine, neće biti niti povratnog vala, što je u skladu s blok shemom 7.2‑1 c). Odabirom površine AN+1, moguće je podesiti da taj zadnji faktor refleksije rN=rL uzrokuje gubitke odnosno širine formanata koje su bliske stvarnima. Ukoliko se, na primjer, odabere AN+1=¥ tada je rN=rL=1 što predstavlja akustički kratki spoj na izlazu i samim time model bez gubitaka.

Slika

7.22

Poprečni presjeci deset segmenata za samoglasnik 'a' zaključeni sa zaključnim segmentom površine AN+1=30cm2 (a) koeficijenti refleksije za 10 segmentnu cijev, (b); frekvencijska karakteristika 10 segmentne cijevi (crtkana krivulja odgovara uvjetima pod b), dok puna krivulja odgovara slučaju rL=1), (c)

Izbor broja segmenata ovisi o odabranoj frekvenciji otipkavanja fs vremenski diskretnog modela. Obzirom da je frekvencijska karakteristika modela sa cijevima bez gubitaka periodična, modelom je moguće aproksimirati ponašanje vokalnog trakta samo u frekvencijskom pojasu od 0 do fs /2. Period otipkavanja T=1/fs, već je prije odabran da iznosi T=2t, gdje je t vrijeme propagacije kroz jednu cijev u jednom smjeru. Ukoliko model ima N segmenata, a ukupna duljina trakta iznosi l, tada je t =l/(cN). Ukoliko se za primjer odabere l=0.175 m i c=350m/s proizlazi da je

(7.212)

To znači da uz tipičnu dužinu vokalnog trakta i poznatu frekvenciju otipkavanja, broj segmenata N se nalazi tako da se fs podijeli sa 1kHz. Budući je polinom u nazivniku prijenosne funkcije D(z) stupnja N, to znači da sustav može imati najviše N/2 konjugirano kompleksnih parova polova od kojih svaki par formira jednu rezonantnu karakteristiku u pojasu 0 do fs /2. Tako npr. ukoliko je fs=10 kHz, tada je frekvencijski pojas signala od 0 do 5 kHz, a obzirom da je N=10, to ujedno povlači da će biti 5 rezonantnih karakteristika u tom frekvencijskom području. Što je manja ukupna duljina vokalnog trakta l, to je manji broj rezonancija po kHz frekvencijskog pojasa signala, pa i broj segmenata N uz istu frekvenciju otipkavanja može biti manji.

Slika 7.2‑2 prikazuje primjer određivanja frekvencijske karakteristike vremenski diskretnog modela uz poznate površine poprečnih presjeka, za N=10 i fs=10 kHz. Na slici 7.2‑2 a) prikazane su površine poprečnih presjeka segmenata za samoglasnik 'a'. Slika 7.2‑2 b) prikazuje odgovarajuće koeficijente refleksije. Uz odabrani zaključni segment AN+1=A11=30cm2, koeficijent refleksije na usnicama iznosi rL=rN=0.714. Najveći koeficijenti refleksije po modulu nalaze se na spojevima gdje je promjena površine najveća. Slika 7.2‑2 c) prikazuje frekvencijske karakteristike za rL=1 (puna linija) i rL=0.714 (crtkano). Usporedbom crtkane karakteristike i karakteristike detaljnijih modela vokalnog trakta može se primijetiti da su oni dosta slični odnosno da model vokalnog trakta sa cijevima bez gubitaka, a s gubitkom samo na usnicama dosta dobro aproksimira stvarnu frekvencijsku karakteristiku vokalnog trakta.