5. analiza spectralĂ a semnalului vocal
DESCRIPTION
5. ANALIZA SPECTRALĂ A SEMNALULUI VOCAL. urechea realizează o analiză spectrală a undei acustice recepţionate. Metodele de analiză spectrală au ca obiective : analiza spectrală continuă a semnalului vocal (necesară în procesul recunoaşterii vorbirii sau a vorbitorului); - PowerPoint PPT PresentationTRANSCRIPT
5. ANALIZA SPECTRALĂ A SEMNALULUI VOCAL
• urechea realizează o analiză spectrală a undei acustice recepţionate
0 0.2 0.4 0.6 0.8 1
-1
0
1T0=0.1
0 0.2 0.4 0.6 0.8 1
-1
0
1
T0=0.2
0 0.2 0.4 0.6 0.8 1
-1
0
1
T0=0.5
t
0 0 00
2sin , ,s t t T
T
Metodele de analiză spectrală au ca obiective:• analiza spectrală continuă a semnalului vocal (necesară în procesul recunoaşterii vorbirii sau a vorbitorului);• utilizarea rezultatelor analizei spectrale în tehnicile de sinteză a semnalului vocal (bazate pe prelucrarea în domeniul frecvenţă).
Principalele metode de analiză spectrală:
• analiza cu ajutorul densităţii spectrale pe termen scurt, pornind de la definirea transformatei Fourier pe termen scurt;
• analiza spectrală cu ajutorul bancului de filtre;
• analiza parametrică – parametrizarea semnalului vocal pe baza modelării autoregresive (codarea prin predicţie liniară) si a analizei cepstrale (homomorfice).
Analiza homomorfică (cepstrală) a semnalului vocal
• semnalul x analizat provine din convoluţia a două semnale.
• semnalului vocal x[n] se obţine ca o convoluţie între excitaţia la nivel glotal, e[n] şi funcţia pondere a tractului vocal, h[n].
x n e n h n
• separarea celor două semnale nu este posibilă prin filtrare deoarece ele ocupă în general aceeaşi bandă de frecvenţă.
• analiza homomorfică, ce are la bază noţiunea de cepstru, permite în anumite condiţii separarea celor două semnale.
• se realizează deconvoluţia semnalului x[n].
• cepstrum (engleză), reprezintă anagrama cuvântului spectrum.
n
n
X z x n z
ˆ ˆln n
n
X z X z x n z
1 1ˆˆ lnx n Z X z Z X z
x n x nH
ln ln ln lnX z E z H z E z H z
ˆˆ ˆx n e n h n
Transformare homomorfică
Z{} Z-1{}
Z{} Z-1{}
ln{}
exp{}
Bloc de prelucrare
liniară (“lifter”-engl.)
x[n]
h[n]H(z)
X(z)
{}
-1{}
*
*
Schema bloc de realizare a unei prelucrări homomorfice
• în cazul în care prelucrarea liniară este realizată în domeniul frecvenţă, blocurile marcate cu `*` lipsesc.
Proprietăţile cepstrului complex
1 2 1 2ˆ ˆ ˆx n x n x n x n x n x n 1.
2.
1
1 1
1
1 1
1 1
1 1
A B
i ii iC D
i ii i
a z b z
X z K
c z d z
1, 1, 1, 1.i i i ia b c d
1 1
1 1 1 1
ˆ ln
ln ln 1 ln 1 ln 1 ln 1
ˆ
A B C D
i i i ii i i i
n
n
X z X z
K a z b z c z d z
x n z
1 1
1 1
ln pentru 0
pentru 0ˆ
pentru 0
C An ni i
i i
B Dn ni i
i i
K n
c an
x n n n
b d
nn n
2
2 3 4
1
' 0 '' 0 0ln 1 0
1! 2! !
11 1 1
2 3 4
nn
nn
n
f f ff x x f x x x
n
x x x x xn
3. Dacă funcţia X(z) este stabilă şi de fază minimă atunci cepstrul va fi cauzal ˆ 0 pentru 0x n n
ˆ pentru 0
ˆ ˆ2 pentru 0
0 pentru 0
ˆ ˆ ˆ0 2 1
par
par
par par
x n n
x n x n n
n
x n x n x n u n
1
1
ˆ ˆ ˆ ln ln arg
ˆ ln
j j jpar impar
jpar
x n x n x n X e X e j X e
x n X e
F
F
F
F
4. Cepstrul unei succesiuni de impulsuri Dirac periodice (de perioadă N şi amplitudine C):
0l
x n C n lN
2 11
1n N N
Nn
X z x n z C z z Cz
1 2ˆ ˆ ˆln ln 1 NX z C z X z X z
ln pentru 0
1ˆ pentru , cu 1,2, ,
0 in rest
C n
x n n kN kk
1
20
10 20l
x n u n
x n n l
1 2 1 2ˆ ˆ ˆx n x n x n x n x n x n
1
ln1 0 pentru 0
1ˆ pentru 0
0 in rest
n
x n nn
2
ln10 2,3 pentru 0
1ˆ pentru 20 , cu 1,2, ,
0 in rest
n
x n n k kk
Exemplu:
0 10 20 30 40 50 600
0.5
1
1.5
2
2.5
n
Cepstrele corespunzătoare celor două secvenţe din exemplu
pt. x1[n]
pt. x2[n]
Cepstrul real
1
2
1ˆ ˆ ln ln d
2j j j n
parc n x n X e X e e
F
DFT ln{|●|} DFT-1x[n] X[k] ln|X[k]|
Evaluarea cepstrului real cu ajutorul DFT
Utilizarea analizei cepstrale în prelucrarea semnalului vocal
tx n e n g n h n r n w n
- pentru o transa sonora de semnal vocal:
- e[n] = excitaţia idealizată formată din impulsuri unitate cu perioada P;
- g[n] = funcţia pondere a filtrului trece jos (FTJ) ce simulează forma impulsurilor glotale;
- ht[n] = funcţia pondere a tractului vocal;
- r[n] = răspunsul la impuls al filtrului ce modelează regiunea buzelor;
- w[n] = fereastră de ponderare.
Estimarea frecvenţei fundamentale
• perioada T0 este în general cuprinsă între limitele 2 ms – 17 ms;• frecvenţa fundamentală F0 variază între: - 60 Hz – 250 Hz pentru voci masculine; - 150 Hz – 500 Hz pentru voci feminine.
• estimarea frecvenţei fundamentale este legată de tranşele sonore.
• atunci când o metodă de determinare nu furnizează o valoare plauzibilă pentru perioada fundamentală P se decide că tranşa respectivă este nesonoră.
0 0/ /e eP F F T T
1. Metoda autocorelaţiei
- evaluarea funcţiei de autocorelaţie pentru tranşa de N eşantioane ce acoperă mai multe perioade ale fundamentalei:
1
0
N k
n
r k x n x n k
- nu este necesară evaluarea funcţiei de autocorelaţie pentru toate valorile lui k, ci doar pentru un interval:
min maxP k P
min0 max
800016
500eF
PF
max0 min
8000133
60eF
PF
- se caută maximul cel mai pronunţat al funcţiei de autocorelaţie cuprins în acest interval.
Exemplu: 80k P
00
1 1 8000100 Hz
80e
e
FF
T P T P
- o reducere a timpului de calcul se poate realiza dacă reţinem din fiecare eşantion x[n] doar partea care depăşeşte un anumit prag L:
1
pentru
pentru
0 pentru
x n L x n L
x n x n L x n L
x n L
1
1 1 10
N k
n
r k x n x n k
2
1 pentru
1 pentru
0 pentru
x n L
x n x n L
x n L
1
2 2 20
N k
n
r k x n x n k
- o altă posibilitate constă în a substitui toate eşantioanele ce depăşesc pragul L prin eşantioane de valoare fixă (de exemplu egale cu +/-1)
2. Metoda AMDF
Average Magnitude Difference Function = metoda funcţiei medie a diferenţei modulelor
1
0
N k
n
D k x n x n k
min max;k P P
- estimarea frecvenţei fundamentale se face prin găsirea indicelui k = P din intervalul menţionat, pentru care D[k] este minim posibil.
00
1 1 [Hz]e
e
FF
T P T P
3. Metoda filtrului invers
H(z) = Ap(z)x[n]
n Ke n
Eroarea de predicţie
Filtrul invers
Semnalul original
- pentru o tranşă sonoră, acest filtru produce eroarea de predicţie, ce reprezintă excitaţia cvasiperiodică aplicată tractului vocal (multiplicată cu o constantă).
- “perioada” P a poate fi determinată direct în domeniul timp.
- rezultatele se îmbunătăţesc dacă se aplică metoda autocorelaţiei, considerând în locul semnalului x[n] secvenţa de eroare de la ieşirea filtrului invers.
4. Metoda cepstrală
ˆˆ ˆx n e n h n x n e n h n
ˆ ˆh n x n w n 01 pentru
0 in rest
n nw n
ˆˆ ˆe n x n h n
min max;n P P P e npentru care = max.
00
1 1 [Hz]e
e
FF
T P T P