dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p...

61
1 Dezvoltarea de algoritmi robusti pentru imbunatatirea semnalului vocal cu mai multe microfoane pentru sistemele de comunicatie din automobil Grant de cercetare UEFISCDI nr. PN-II-RU-TE-2014-4-1880 - Raport științific - OBIECTIVE A. Dezvoltarea tehnicilor de formare a caracteristicii de directivitate (FCD) pentru accentuarea spațială a sursei de semnal I. Extinderea metodelor de proiectare a FCD care lucrează la o distanță specifică pentru surse în apropiere II. Crearea unei platforme de simulare folosind mediul Matlab și o platformă de achiziție hardware pentru testarea metodelor propuse III. Diseminarea rezultatelor cercetării prin participarea la conferințe naționale și internaționale În cadrul acestei etape de cercetare, au fost studiate tehnicile bazate pe ariile de microfoane, intrate în literatura de specialitate sub denumirea de beamforming. De la introducerea lor de către J. Perrin, ariile de senzori sunt utilizate în domeniul electromagnetic (șiruri sau arii de antene stând la baza conceptului “Smart Antenna”) cât și în domeniul acustic (arii de microfoane) într-un spectru larg de aplicații, ce includ RADAR și controlul traficului aerian, SONARELE și comunicațiile wireless și prin satelit, sisteme de teleconferință, ultrasunete și procesare de imagini, proteze auditive, etc. Metodele ce vor fi prezentate în continuare utilizează arii de microfoane, cu scopul de a realiza o filtrare spațială. Spre deosebire de filtrele “temporale” ce procesează datele achiziț ionate pe durata unui interval de timp, un filtru “spațial” procesează datele achiziționate într-o anumită zonă din spațiu, separând astfel semnalele și interferențele în funcț ie de locația spațială. Modelele dezvoltate teoretic au fost testate folosind o platformă de simulare în mediul Matlab, folosind o bază de date cu semnale acustice înregistrate (secvențe vocale, zgomot de motor, muzică, etc.) și zgomot generat în limbajul Matlab pentru diferite valori RSZ. Au fost aplicate mai multe metode pentru detecția direcției de incidență cu ajutorul sistemelor de microfoane. De asemenea, platforma a fost extinsă pentru a simula efectele preciziei finite asupra performanțelor algoritmilor testați. Modelul observațional folosit în studiul ariilor de microfoane este: y m ( t ) = g m ( t ) * s( t ) + b m (t ), m = 1,..., M , (1.1) unde bm(t) este zgomotul aditiv recepț ionat de senzorul m, gm(t) este răspunsul la impuls al încăperii convoluat cu semnalul vocal s(t) și ym(t ) este semnalul captat de microfonul m din cele M utilizate. Eșantionând semnalele folosind mai multe microfoane, informaț ia spaț ială va fi explorat ă de filtrarea spațială (ca de exemplu, separarea semnalelor în funcție de locația fizică a surselor de semnal). Astfel, dacă un semnal vocal este corupt prin interferența cu un alt semnal vocal ce provine de la un alt vorbitor generat dintr-o locație diferită decât a celui dorit, atunci aceast ă situație poate fi exploatată de filtrarea spațială, crescând astfel inteligibilitatea vorbitorului. Filtrarea spațială necesită ca datele să fie eșantionate spaț ial, iar în cadrul sistemelor de

Upload: others

Post on 21-Jan-2021

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

1

Dezvoltarea de algoritmi robusti pentru imbunatatirea semnalului

vocal cu mai multe microfoane pentru sistemele de comunicatie din

automobil

Grant de cercetare UEFISCDI nr. PN-II-RU-TE-2014-4-1880

- Raport științific -

OBIECTIVE

A. Dezvoltarea tehnicilor de formare a caracteristicii de directivitate (FCD) pentru

accentuarea spațială a sursei de semnal

I. Extinderea metodelor de proiectare a FCD care lucrează la o distanță specifică pentru surse în apropiere

II. Crearea unei platforme de simulare folosind mediul Matlab și o platformă de achiziție

hardware pentru testarea metodelor propuse III. Diseminarea rezultatelor cercetării prin participarea la conferințe naționale și

internaționale

În cadrul acestei etape de cercetare, au fost studiate tehnicile bazate pe ariile de

microfoane, intrate în literatura de specialitate sub denumirea de beamforming. De la introducerea lor de către J. Perrin, ariile de senzori sunt utilizate în domeniul electromagnetic (șiruri sau arii de antene stând la baza conceptului “Smart Antenna”) cât și în domeniul acustic (arii de microfoane) într-un spectru larg de aplicații, ce includ RADAR și controlul traficului aerian, SONARELE și comunicațiile wireless și prin satelit, sisteme de teleconferință, ultrasunete și procesare de imagini, proteze auditive, etc.

Metodele ce vor fi prezentate în continuare utilizează arii de microfoane, cu scopul de a realiza o filtrare spațială. Spre deosebire de filtrele “temporale” ce procesează datele achiziționate pe durata unui interval de timp, un filtru “spațial” procesează datele achiziționate într-o anumită zonă din spațiu, separând astfel semnalele și interferențele în funcție de locația spațială.

Modelele dezvoltate teoretic au fost testate folosind o platformă de simulare în mediul Matlab, folosind o bază de date cu semnale acustice înregistrate (secvențe vocale, zgomot de motor, muzică, etc.) și zgomot generat în limbajul Matlab pentru diferite valori RSZ. Au fost aplicate mai multe metode pentru detecția direcției de incidență cu ajutorul sistemelor de microfoane. De asemenea, platforma a fost extinsă pentru a simula efectele preciziei finite asupra performanțelor algoritmilor testați.

Modelul observațional folosit în studiul ariilor de microfoane este:

ym (t) = gm (t) ∗ s(t) + bm (t), m =1,..., M , (1.1)

unde bm(t) este zgomotul aditiv recepționat de senzorul m, gm(t) este răspunsul la impuls al încăperii convoluat cu semnalul vocal s(t) și ym(t) este semnalul captat de microfonul m din cele M

utilizate. Eșantionând semnalele folosind mai multe microfoane, informația spațială va fi explorată de filtrarea spațială (ca de exemplu, separarea semnalelor în funcție de locația fizică a surselor de semnal). Astfel, dacă un semnal vocal este corupt prin interferența cu un alt semnal vocal ce provine de la un alt vorbitor generat dintr-o locație diferită decât a celui dorit, atunci această situație poate fi exploatată de filtrarea spațială, crescând astfel inteligibilitatea vorbitorului.

Filtrarea spațială necesită ca datele să fie eșantionate spațial, iar în cadrul sistemelor de

Page 2: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

îmbunătățire a vorbirii o arie de mconsidera cazul unei arii liniare de

dintre microfoane fiind constantă Fig.

Fig. 1

Pentru o singură sursă, sit

valabilă ipoteza de undă plană. Pozde propagare și direcția șirulumicrofoane alăturate. Unghiul θ determinmicrofoane vecine, fiind astfel denumit

timpul de eșantionare spațială τθ poate fi exprimat

mediul de propagare, ( c = 340 m/s pSemnalul incident este pre

spațială τθ . Dacă semnalul de in

schimbare de fază. Defazajul φ nfrecvența semnalului. Fie pulsația ace

Pentru a evita fenomenul iar unghiul de incidență al semnalconduc la:

Pentru a evita fenomenul

pe intervalul corespunzător lungimiifiind în intervalul 300 Hz până la 3400necesară o distanță maximă de 5 cnecesar ca semnalele să provină poate fi rezolvată prin utilizarea de

2

microfoane este utilizată pentru achiziționarea semde microfoane identice (Uniform Linear Array - Uig. 1.

1 Descrierea unei arii de microfoane

tuată la sistanță suficient de mare de șirul de miziția acesteia poate fi caracterizată de unghiul θ ui de microfoane. Fie ym(t), m=1,..., M și d distan

determină întârzierea τθ cu care unda sonoră se propag

ind astfel denumit timpul de eșantionare spațială. Din figură se observ

poate fi exprimat τθ=dcos(θ)/c, unde c este vitez

pentru aer la o temperatură de 20° Celsius). elevat la o distanță corespunzătoare, cu timpul de

intrare este sinusoidal, atunci acestei întârzieri îi

nu depinde numai de timpul de eșantionare spaacestuia ω, defazajul φ este dat de următoarea relație:

φ=ωτθ= ωdcos(θ)/c

de aliere spațială, defazajul φ nu trebuie să deplului de intrare trebuie limitat la 0 ≤ θ ≤ π rad . A

π > ωd/c, c/2f > c, d < λ/2

de aliere spațială, undele trebuie eșantionate cel puimii de undă. Întrucât spectrul semnalului vocal poat

3400 Hz, prin utilizarea unei frecvențe maxime de cm între microfoane, pentru a evita alierea spațială

din fața seriei de microfoane, 0 ≤ θ ≤ π . Aceastde microfoane direcționale.

mnalelor. Se va ULA), distanța

icrofoane, este dintre direcția

distanța dintre două

se propagă între două . Din figură se observă că

eza sunetului în

de eșantionare corespunde o

ațială, ci și de :

(1.2)

pășească π rad ,

Aceste condiții

(1.3)

puțin de 2 ori te fi definit ca 3400 Hz, este ă. În plus, este tă constrângere

Page 3: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

Aria de microfoane “întâr

Una dintre cele mai sim“întârziere și adunare” (delay-and

observațiile sunt aliniate în timp/realizează prin introducerea unor înîncât să compenseze diferențele întâo singură direcție, accea pe care timp/fază, sunt apoi însumate. În intensificate. Semnalul de ieșire eseste reprezentată aria de microfoane

Avantajul ariei de microfoane DS este simplitatea sa, singura estimare necesarestimarea corectă a întârzierii. Acest lucru se realizeazcare maximizează corelația obținutîntre sursă și microfoane pentru a estima timpul de întmai mici valori proprii a matricei de corelaimpuls. Calea directă de la sursă pânrăspunsul la impuls de pe poziția mmicrofonului m poate fi estimată. Un avantaj al sistemului este circuitele de întârziere pot fi realizate astfel încât sbandă largă (independent de frecvenmicrofoane necesar pentru a îmbunăideal, o creștere de 3 dB în SNR.

Fig. 2 Descrierea unei arii de microfoane ”întârziere

A fost simulată o arie cu un numunidimensională, fiind situată de-a lungul axei echidistante (ULA). În figura 3 sunt prezentate rezultate oblocalizării unei surse de semnal. În figura cu aria de microfoane, în timp ce în figura unghi de incidență de 45°.

3

rziere și adunare”

mple implementări este aria de microfoane conve

and-sum-DS). Aceasta folosește tehnica de însumare c/fază și apoi adunate și opțional, normalizate. Antârzieri pe fiecare dintre semnalele generate de micârzierii de propagare. Condiția aceasta poate fi înd

se situează sursa utilă. Semnalele întârziate, care s acest mod, semnalele provenite de pe direcția seste apoi normalizat în raport cu numărul de microfoe “întârziere și adunare”.

Avantajul ariei de microfoane DS este simplitatea sa, singura estimare necesar a întârzierii. Acest lucru se realizează de obicei prin găsirea intervalului de timp

ținută pe cele M căi. O altă metodă folosește răspunsurile la impuls i microfoane pentru a estima timpul de întârziere. Vectorul propriu corespunz

matricei de corelație a semnalelor de intrare va conține aceste ră până la microfonul m va fi reprezentată ca un vârf dominant în

m. Astfel, prin detectarea poziției acestui vârf, întârzierea aferentmicrofonului m poate fi estimată. Un avantaj al sistemului este și faptul că, în măcircuitele de întârziere pot fi realizate astfel încât să nu depindă de frecvență, sistemul va func

(independent de frecvență). Dezavantajul beamformer-ului DS este numămicrofoane necesar pentru a îmbunătăți SNR. O dublare a numărului de microfoane va oferi în mod

Descrierea unei arii de microfoane ”întârziere și adunare” și efectul alinierii în timp a semnalelor

o arie cu un număr variabil de microfoane. Aria s-a considerat a fi a lungul axei oX, în timp ce elementele ariei s-au presupus a fi

sunt prezentate rezultate obținute în urma simulărilor, în vederea rii unei surse de semnal. În figura 3.a) direcția de incidență a sursei formează un unghi de 90°

crofoane, în timp ce în figura 3.b) se s-a testat detecția direcției de inciden

vențională sau coerentă, adică Acest lucru se crofoane, astfel

ndeplinită pentru sunt aliniate în electată vor fi

foane. În Fig. 2

Avantajul ariei de microfoane DS este simplitatea sa, singura estimare necesară fiind doar sirea intervalului de timp

spunsurile la impuls ârziere. Vectorul propriu corespunzător celei

ine aceste răspunsuri la ca un vârf dominant în

iei acestui vârf, întârzierea aferentă , în măsura în care

, sistemul va funcționa în ului DS este numărul mare de

rului de microfoane va oferi în mod

i efectul alinierii în timp a semnalelor

a considerat a fi au presupus a fi ărilor, în vederea ă un unghi de 90°

iei de incidență pentru un

Page 4: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

4

Fig. 3.a) Estimarea DOA folosind metoda DAS - 90°

Fig. 3.b) Estimarea DOA folosind metoda DAS - 45°

Tipul de semnal: Pentru simulări, s-au considerat două cazuri pentru tipul semnalului folosit: prima dată s-a considerat un semnal sinusoidal (albastru), în timp ce in al doilea caz, semnalul folosit este unul vocal (roșu). În figura 4 sunt prezentate rezultatele obținute în urma simulării :

Fig. 4.a) Influența tipului de semnal (coordonate polare) – fără zgomot adăugat; DAS

Page 5: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

5

Fig. 4.b) Influența tipului de semnal – fără zgomot adăugat; DAS

Se poate observa că în cazul semnalului sinusoidal, lățimea lobului este mai îngustă decât în cazul în care se folosește un semnal vocal (direcția de incidență este mai precis estimată). S-au folosit :

• Arie cu 8 microfoane. • Distanța dintre două microfoane succesive: 0.4 m. • Unghiul de incidență al sursei de 90°.

Experimentele au fost repetate în cazul apariției zgomotului alb gausian aditiv (ZAGA), de

medie nulă, suprapus peste semnalul util. În figura 5 sunt prezentate rezultatele obținute în urma simulării a trei situații : inițial, în graficul albastru, s-a considerat semnalul vocal, fără zgomot, în cea de a doua situație, reprezentată cu roșu, s-a adăugat un zgomot corespunzător unui raport semnal-zgomot de 20 dB, iar în final, în graficul verde, este reprezentată situația în care raportul semnal-zgomot este de 0 dB.

Fig.5.a) Influența zgomotului (coordonate polare) - DAS

Page 6: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

6

Fig.5.b) Influența zgomotului - DAS

Se poate observa, din rezultatele simulării, că odată cu adăugarea zgomotului, performanțele

sistemului se reduc. Pe măsură ce zgomotul se mărește, direcția de incidență devine mai greu de estimat.

Influența numărului de microfoane: Cea de a doua simulare evidențiază influența pe care o are numărul de microfoane asupra performanțelor sistemului. Rezultatele simulării sunt prezentate in figurile 6.a), respectiv 6.b). S-au considerat trei cazuri, în care s-au păstrat nemodificați toti parametrii, cu excepția numărului de microfoane:

• Cu albastru, s-a reprezentat direcția de incidență folosind un sistem cu două microfoane. • Cu roșu, s-a reprezentat direcția de incidență folosind un sistem cu patru microfoane. • Cu verde, s-a reprezentat direcția de incidență folosind un sistem cu opt microfoane.

Odată cu creșterea numărului de microfoane al ariei, lățimea lobului de estimare a direcției de incidență devină mai ingustă, deci directivitatea se îmbunătățește. Prin urmare, crește capacitatea sistemului de a distinge semnalele, performanțele fiind mai mari. Pentru o spațiere între două microfoane consecutive egală cu 0.4, apar lobi secundari pe direcțiile de 0°, respectiv 180°. Când se micșorează această distanță, în urma unei noi simulări a celor trei situații prezentate, se observă, în figurile 7. a) și 7. b) că lobii secundari dispar. Deși estimările devin mai precise, pe măsură ce numărul de microfoane crește, va crește și volumul de date ce trebuie procesate, iar viteza de lucru a sistemului va scădea. Este important compromisul între precizia rezultatelor și viteza de prelucrare/complexitatea aritmetică a sistemelor.

Page 7: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

7

Fig.6.a) Influența numărului de microfoane (coordonate polare) - DAS

6.b) Influența numărului de microfoane - DAS

Fig.7.a) Influența numărului de microfoane după micșorarea distanței (coordonate polare) - DAS

Page 8: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

8

Fig.7.b) Influența numărului de microfoane după micșorarea distanței – DAS

METODA MUSIC Cea de-a doua metodă folosită pentru estimarea direcției de incidență în simulatorul Matlab este metoda MUSIC. S-a implementat o arie de microfoane unidimensională, cu elemente echidistante. Prima simulare arată cum algoritmul MUSIC recunoaște un semnal care formeaza un unghi de incidență de 45° cu aria de microfoane. Zgomotul suprapus peste semnalul util este zgomot alb gaussian ideal. Pentru simulare s-a ales RSZ=20 dB, o distanța între două elemente consecutive egală cu jumătate din lungimea de undă corespunzătoare semnalului de intrare, un număr de 8 microfoane și 200 de segmente. Rezultatele sunt prezentate în figurile 9 și 10 pentru una, și respectiv două surse de semnal.

Fig.9. Estimarea DOA a unei surse cu metoda MUSIC – unghi incidență 45°

Page 9: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

9

Fig. 10. Estimarea DOA a surselor multiple cu metoda MUSIC; unghiuri de incidență: 0°, 45° cu aria de microfoane

În figura 10 cele două surse sunt considerate independente. Se poate observa că, folosind algoritmul MUSIC se pot construi mai multe maxime spectrale. Acestea pot estima atât numărul semnalelor, cât și direcțiile lor de incidență. Metoda MUSIC este mai atractivă din punct de vedere al performanțelor. Influența tipului de semnal Se consideră cazul cu o singură sursă de semnal. Se iau în considerare două situații : una în care semnalul dorit este un semnal sinusoidal, și o situație în care semnalul dorit este un semnal vocal. În cele două situații s-au păstrat nemodificați ceilalți parametri ai sistemului, pentru a se sublinia diferențele dintre performanțele oferite de sistem, în funcție de tipul de semnal. Parametri pe baza cărora s-a realizat această simulare sunt :

• numărul de elementele al ariei egal cu 8 • spațierea dintre microfoane egală cu jumătate din lungimea de undă • un SNR de 20 dB • un număr de 200 de segmente • unghiul de incidență al sursei egal cu 45°

În aceste condiții, în urma simulării, se vor obține rezultatele prezentate în figura 11. Se poate observa cu ușurință faptul că, în momentul în care la intrare este un semnal vocal, performanțele sistemului scad foarte mult, comparativ cu situația în care semnalul este de tip sinusoidal. Maximul spectral nu mai este la fel de pronunțat, iar lățimea lobului se mărește. În concluzie, precizia cu care algoritmul MUSIC estimează direcția de incidență a unei surse de semnal vocal este redusă.

Fig.11. Influența tipului de semnal (MUSIC)

Page 10: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

10

Influența numărului de microfoane Al doilea parametru care influențează precizia estimării direcției de incidență este numărul de elemente al ariei. Se vor considera două surse de semnal, independente, care formează un unghi de 0°, respectiv de 45° cu sistemul. Toți ceilalți parametri rămân neschimbați, cu excepția numărului de microfoane. Rezultatele obținute în urma simulării, sunt prezentate în figura 12. Se pot observa în această figură cele trei situații: graficul albastru este pentru un număr de 10 microfoane, cel roșu, pentru 50 de microfoane, iar cel negru, pentru 100 de microfoane. Cu toți ceilalți parametri neschimbați, lățimea lobului spectral al estimării direcției de incidență devine mai îngust pe măsură ce numărul de microfoane crește. Prin urmare, creșterea numărului de microfoane din arie conduce la mărirea abilității de a distinge semnalele. Insă, acest lucru, va conduce și la creșterea volumului de date procesate, deci într-un final la micșorarea vitezei de prelucrare a semnalelor. Din figura 12. se mai poate observa că, pentru 50 de microfoane, respectiv pentru 100 de microfoane, lățimea lobului este aproape identică. Deci în practică, se va alege numărul de microfoane ținând cont de anumite condiții, și făcând un compromis între precizia estimării și volumul necesar de date. Dintre aceste trei situații, cea mai convenabilă ar fi cea în care se folosesc 50 de microfoane. Minimizând pierderea resurselor și mărind viteza cu care sunt efectuate operațiile de prelucrare a semnalelor, se poate imbunătăți eficiența sistemului.

Fig. 12. Influența numărului de microfoane (MUSIC)

Influența spațierii dintre microfoane

În cea de a treia simulare, se consideră, de asemenea, două surse de semnal, independente, formând unghiurile de incidență de 0°, respectiv 45°. Toți parametri rămân nemodificați, cu excepția distanței dintre două microfoane consecutive, care va fi, pe rând, egală cu λ/6, λ/2, respectiv λ ( unde λ reprezintă lungimea de undă a semnalului de la intrare ) . Și la algoritmul MUSIC, ca și la metoda Delay-and-Sum, poate sa apară fenomenul de aliere, în cazul în care distanța dintre microfoane depășește jumătate din lungimea de undă. Acest fenomen poate fi observat și în figura 13. În această figură se pot observa reprezentate cele trei cazuri : cu albastru, distanța este egală cu λ/6, cu roșu, distanța este jumătate din lungimea de undă, iar cu verde, distanța este egală cu lungimea de undă. Dacă toți ceilalți parametri rămân neschimbați, se poate observa că, pentru distanțe mai mici decât jumătate din lungimea de undă, lățimea lobului spectral se micșorează odată cu

Page 11: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

11

creșterea distanței dintre două microfoane consecutive. Astfel estimarea direcției de indicență a surselor este din ce în ce mai precisă. În momentul în care spațierea devine mai mare decât jumătate din lungimea de undă, apare fenomenul de aliere spectrală. Astfel, pe lângă maximele spectrale de pe direcțiile de incidență ale surselor de semnal, mai apar în spectru și maxime false, iar acuratețea estimării se pierde. Prin urmare, în practică, trebuie acordată o atenție deosebit de mare spațierii dintre două elemente consecutive din arie. Aceasta poate fi mărită, dar până la limita superioră egală cu jumătatea lungimii de undă. Cea mai potrivită spațiere este cea egală cu jumatate de lungime de undă ( în acest caz, graficul roșu din figura 13).

Fig. 13. Influența spațierii dintre microfoane (MUSIC)

Influența numărului de segmente A patra simulare arată cum sunt recunoscute două semnale, cu ajutorul algoritmului MUSIC, în situația în care se păstrează constanți toți parametri, cu excepția numărului de segmente . Cele două semnale sunt independente și se află pe aceleași direcții ca în cazul simulărilor anterioare. Spațierea dintre două microfoane succesive este considerată ca fiind jumătate din lungimea de undă a semnalului de intrare, iar numărul de segmente este considerat a fi egal cu 5, 50, respectiv 200. În figura 13. se pot observa rezultatele obținute în urma simulării, unde graficul albastru reprezintă performanțele estimării realizate cu doar 5 segmente, cel cu roșu corespunde unui număr de 50 de segmente, iar graficul verde reprezintă performanțele unui sistem cu 200 de segmente.

Page 12: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

12

Fig.14. Influența numărului de segmente (MUSIC)

Din această figură se poate observa că, odată cu creșterea numărului de segmente, estimarea direcției se îmbunătățește, iar precizia algoritmului MUSIC crește. Dacă pentru un număr de segmente egal cu 5, diferența dintre nivelul puterii de pe direcția de incidență a sursei de semnal și cel al puterii de pe direcțiile nedorite este de doar 5 dB, atunci când numărul de segmente crește la 200, această diferență se mărește considerabil, ajungând la 50 dB. Prin urmare, numărul de segmente poate fi mărit pentru a crește precizia estimării direcției de incidență, dar, ca și în cazul numărului de microfoane, cu cât acesta este mai mare, va crește și volumul de date prelucrate, deci viteza va scădea. În concluzie, în aplicațiile actuale se alege un număr rezonabil de segmente care să asigure atât o bună precizie a estimării, cât și o minimizare a volumului de date. Influența Raportului Semnal Zgomot Pentru a evidenția modul în care raportul semnal-zgomot influențează estimarea direcției de incidență a sursei de semnal, se consideră nemodificați toți parametri cu excepția RSZ-ului, care va lua pe rând valorile -20 dB, 0 dB și respectiv 20 dB. Rezultatele simulării celor trei situații sunt arătate în figura 15, unde graficul albastru corespunde unui RSZ de -20 dB, cel roșu, unui RSZ de 0 dB, iar cel verde corespunde unui RSZ de 20 dB. Se poate observa că, odată cu creșterea RSZ-ului, lățimea lobului spectral corespunzător direcției de incidență devine mai îngustă, direcția semnalului util este mai clară, iar acuratețea algoritmului MUSIC crește. Valoarea raportului semnal-zgomot afectează în mod direct algoritmii de estimare a direcției de incidență. Pentru rapoarte reduse, performanțele algoritmului MUSIC sunt foarte scăzute. Îmbunătățirea estimării în prezența unui RSZ mic reprezintă un subiect actual de cercetare.

Page 13: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

13

Fig.15. Influența RSZ-ului (MUSIC)

Separarea surselor de semnal multiple Această simulare are ca scop separarea a două surse de semnal. Pentru asta, se consideră două semnale audio, suprapuse, unul din ele fiind considerat semnal util, iar cel de-al doilea fiind considerat zgomot pentru sursa utilă. Pentru a putea separa cele două surse, se va folosi o arie de microfoane, liniară, cu elementele echidistante. Aceasta arie este plasată pe axa oX, în timp ce sursele de semnal sunt considerate a fi situate în punctul de coordonate (2, 0.5, 0), respectiv (-1.5, 2, 0). Codul utilizat este prezentat în Anexa 4. În prima situație s-a considerat ca sursă utilă, sursa de la capătul îndepărtat al șirului de microfoane, și anume cea din punctul (2, 0.5, 0). Pentru a putea păstra sursa de semnal dorită, lobul principal al diagramei de directivitate al ariei de microfoane trebuie îndreptat în direcția sursei respective. În plus, pentru a atenua cât mai bine cea de a doua sursă, aceasta ar trebui să fie situată pe direcția unui nul al diagramei de directivitate. Pentru a exemplifica, s-a considerat un șir de 7 microfoane, cu o spațiere de 0.5 metri între două elemente consecutive. În figura 16 este prezentată configurația obținută pentru această arie, iar în figura 17 se poate observa diagrama de directivitate a șirului de microfoane.

Fig. 16. Configurația ariei de microfoane

Page 14: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

14

Fig. 17. Diagrama de directivitate a ariei de microfoane

Fig. 18. Ieșirile microfoanelor

Page 15: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

15

Fig.19. Comparație semnal curat și semnal distorsionat neamplificat

Fig. 20. Comparație semnal curat și semnal distorsionat amplificat

Sursa de semnal util este situată în dreptul ultimului microfon, motiv pentru care se poate observa în figura 18. că nivelul semnalului de la ieșirea acestui microfon este mai mare decât nivelul de la primul microfon. După ce se aplică beamformer-ul Delay-and-Sum, se obține semnalul din figura 19. Se poate observa că, datorită atenuării suferite de semnal, nivelul semnalului de la ieșirea sistemului este mic comparativ cu nivelul semnalului de la intrare. După amplificarea acestuia, se obține graficul din figura 20. În această figură se poate observa că forma celor două semnale, cel dorit, respectiv cel obținut la ieșirea sistemului, sunt aproape identice. Scopul inițial, de a păstra doar sursa dorită și de a elimina cea de a doua sursă de semnal, a fost atins. Pentru a evalua calitatea semnalului obținut se folosesc parametrii obiectivi pentru măsura a calitatății globale a semnalului vocal. În continuare, s-a calculat mărimea PESQ, pentru diverse geometrii ale ariei de microfoane. S-a dorit evaluarea calității semnalului atât de la ieșirea microfonului cel mai apropiat de sursa utilă, cât și de la ieșirea microfonului cel mai apropiat de sursa de zgomot, și respectiv calitatea semnalului îmbunătățit, de la ieșirea sistemului. În tabelul 1. este aratată influența pe care o are modificarea numărului de microfoane asupra valorilor parametrului PESQ pentru cele trei semnale precizate. Pentru aceasta, se consideră spațierea constantă, egală cu 0.5 metri.

Page 16: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

16

Tabel 1. PESQ în funcție de numărul de microfoane

Semnalul Nr.micr.

Microfonul de lângă sursă

Microfonul de lângă zgomot

Ieșirea sistemului

3 1.91 1.6 2.1 7 2.18 1.46 2.31 9 2.29 1.41 2.38

În tabelul 2. sunt variațiile valorilor parametrului PESQ, în funcție de distanța dintre două microfoane consecutive din arie. De această dată se consideră constant numărul de microfoane din arie, acesta fiind egal cu 7.

Tabel 2. PESQ în funcție de spațierea dintre microfoane

Semnalul Spațierea

Microfonul de lângă sursă

Microfonul de lângă zgomot

Ieșirea sistemului

0.25 1.98 1.57 2.34 0.5 2.18 1.46 2.31 0.75 2.28 1.45 2.35

Se poate observa că, în orice situație, valoarea parametrului PESQ pentru microfonul cel mai apropiat de sursa de zgomot și cel mai îndepărtat de sursa de semnal este cea mai mică dintre cele trei valori considerate, în timp ce valoarea corespunzătoare semnalului îmbunătățit de la ieșirea sistemului este cea mai ridicată valoare. În cea de a doua situație, se permută cele două surse și astfel sursa de semnal util se va afla în punctul de coordonate (-1.5, 2, 0), iar sursa de zgomot va fi în punctul (2, 0.5, 0). Rezultatele obținute în urma simulării acelorași geometrii ca și în prima situație, sunt prezentate în tabelele 3, respectiv 4.

Tabel 3. PESQ în funcție de numărul de microfoane – situația a doua Semnalul Nr.micr.

Microfonul de lângă sursă

Microfonul de lângă zgomot

Ieșirea sistemului

3 1.91 1.6 2.1 7 1.75 1.09 2.09 9 1.58 1.37 1.85

Tabel 4. PESQ în funcție de spațierea dintre microfoane – situația a doua Semnalul Nr.micr.

Microfonul de lângă sursă

Microfonul de lângă zgomot

Ieșirea sistemului

0.25 1.62 1.29 2.25 0.5 1.75 1.09 2.09 0.75 1.77 1.06 2.1

Rezultatele obținute în cea de a doua situație sunt mai slabe, deoarece în momentul în care cele două surse au permutat, sursa de zgomot a ajuns să fie apropiată de sistem, fiind situată la doar jumătate de metru de acesta, în timp ce sursa utilă se află la doi metri. Poziția surselor și distanța dintre ele și aria de microfoane influențează calitatea semnalului obținut la ieșirea sistemului. Cu cât sursa de zgomot este mai apropiată, cu atât performanțele scad, deci și valorile parametrului PESQ. Același lucru se întâmplă și în cazul în care sursa de semnal util este mai depărtată. Un alt caz

Page 17: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

17

defavorabil este cel în care sursa de zgomot și cea de semnal util se află pe aceeași direcție. Dacă se consideră doar unul din cazurile anterioare, se obțin valorile:

Tabel 5 PESQ în situația în care sursele sunt pe aceeași direcție

Nr. microfoane Spațiere PESQ pentru

primul microfon PESQ pentru

ultimul microfon

PESQ pentru semnalul de la

ieșire

7 0.5 1.09 1.34 1.96

Se poate observa că, deși geometria ariei de microfoane s-a păstrat, calitatea semnalului scade. Cele două surse se află în dreptul primului microfon, motiv pentru care valoarea parametrului PESQ este mai mare la ieșirea ultimului microfon, aflat cel mai departe de cele două surse.

Arii de microfoane “super-directive”

Unul dintre principalele dezavantaje ale ariei de microfoane ”întârziere și adunare” este acela că nu are capacitatea de a elimina o sursă de zgomot dintr-o anumită direcție. Însă o arie de microfoane “super-directivă”, oferă posibilitatea de a forma o caracteristică de directivitate dorită (beam pattern), suprimând astfel orice sursă de zgomot dintr-o direcție cunoscută. Mai mult, o arie de microfoane super- directivă poate fi folosită, prin utilizarea tehnicii filtrării temporale și spațiale, și în cazul sistemelor de bandă largă. Astfel, înlocuind liniile de întârziere cu “coeficienți pondere”, aria de microfoane DS poate fi privită ca un filtru FIR spațial ale cărui caracteristici depind de direcția din care vine semnalul. Fig. 21 prezintă o astfel de arie de microfoane de bandă îngustă “ponderare și însumare” (Weighted and Sum), unde coeficienții

pondere w=[w1, w2, …, wM ]T descriu un filtru FIR spațial. Semnalele de la ieșirea microfoanelor

pot fi văzute ca o eșantionare spațială a semnalului de intrare y(t). Fig. 22 reprezintă caracteristica de directivitate a unei arii liniare de microfoane, cu elemente

egal distanțate cu zece senzori de același tip, d=8cm, și f=2 kHz, cu coeficienți reali. Ea constă într-un număr de 9 lobi (numărul de lobi este egal cu M-1). Lățimea lobului principal variază invers proporțional cu numărul de senzori, frecvența semnalului și distanța dintre elemente. De remarcat că lărgimea acestui lob variază invers proporținal cu dimensiunea șirului de microfoane, Md. Întrucât semnalul vocal este un semnal de bandă largă, aria de microfoane de bandă îngustă poate fi extinsă astfel încât să proceseze și semnale de bandă largă, prin introducerea pe lângă filtrarea spațială și a unei filtrări temporale. Aceasta se obține prin atașarea unui filtru fiecărui microfon. O astfel de arie de microfoane de bandă largă este prezentată în Fig. 23. Semnalul de intrare, eșantionat folosind cele M microfoane cu L eșantioane per microfon, este astfel întârziat cu L·Ts sec., unde Ts reprezintă perioada de eșantionare.

Page 18: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

Fig. 21. Descr

Fig. 22. Caracteristica de directivitate a unui arii de zece senzori pentru d=8cm w*=1 / 10

b) în coordonate polare pt.

18

rierea ariei de microfoane de bandă îngustă “Ponderare și însumare”

Caracteristica de directivitate a unui arii de zece senzori pentru d=8cm w*=1 / 10; a) în coordonate carteziene pt. f=2kHz;

b) în coordonate polare pt. f=2kHz; c) în coordonate carteziene pt. 300Hz ≤ f ≤ 4000 Hz

în coordonate carteziene pt. f=2kHz;

Page 19: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

Fig. 23

Coeficienții pondere pot fi alebeamformer-ului. O arie de microfoane (Linearly Constrained Minimum Variance

minimizeze varianța ieșirii sistemului dar constrânanumită fază și amplificare.

Aria de microfoane cu pond

Descrierea arie de microsistemului GSC (Generalised Sidelobe

capitol, fiind mai adecvat pentruminimizează varianța semnaluluamplitudine semnalului de interajutorul multiplicatorilor Lagranconstrângerii liniare pentru o singurarii de senzori. Algoritmul LCMV poate fi u

19

Descrierea arie de microfoane “de bandă largă”

ii pondere pot fi aleși în mai multe feluri, rezultând diferite caracteristici aleului. O arie de microfoane cu ponderare adaptivă studiată în detaliu este aria LCMV

Linearly Constrained Minimum Variance), unde coeficienții pondere sunt aleși astfel încât sirii sistemului dar constrânși ca semnalul din direcția de interes s

ponderi adaptive LCMV

ofoane cu ponderi adaptive LCMV are ca scop idelobe Canceller) ce face obiectul unui studiu exu o implementare în sisteme de timp real. Algoritui de ieșire, prin aplicarea unor constrângeri eres. Această problemă de optimizare poate fi nge. Constrângerile liniare multiple sunt o generalizare a

constrângerii liniare pentru o singură direcție, fiind introduse în algoritmul adaptiv recursiv pentru arii de senzori. Algoritmul LCMV poate fi ușor extins prin adăugare de constrângeri multiple

i în mai multe feluri, rezultând diferite caracteristici ale în detaliu este aria LCMV

și astfel încât să ia de interes să treacă cu o

introducerea xtins în acest tmul LCMV de fază și

rezolvată cu Constrângerile liniare multiple sunt o generalizare a

ie, fiind introduse în algoritmul adaptiv recursiv pentru ugare de constrângeri multiple.

Page 20: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

20

B. Dezvoltarea tehnicilor cu mai multe microfoane de îmbunătățire a semnalului bazate pe

Generalized Singular Value Decomposition (GSVD)

I. Extinderea tehnicilor de îmbunătățire cu un singur microfon a semnalului vocal pentru

tehnici de filtrare optimală cu mai multe microfoane II. Reducerea complexității aritmetice pentru metoda de filtrare optimală bazată pe GSVD

III. Integrarea filtrării optimale bazate pe GSVD într-o structură de Generalised Sidelobe

Canceller (GSC) urmată de anularea adaptivă a zgomotului IV. Analiza performanței tehnicii de filtrare optimală bazată pe GSVD pentru mai multe

medii acustice simulate și pentru înregistrări reale utilizând platforma de simulare

V. Diseminarea rezultatelor cercetării prin participarea la conferințe naționale și internaționale și publicarea a unui articol în reviste cotate ISI

Implementarea în timp real a ariei de microfoane ce utilizează algoritmul LCMV este dificil de realizat, datorită nivelului computațional ridicat. O implementare adaptivă, cunoscută și sub denumirea de ariei de microfoane cu ponderi adaptive GSC (Generalized Sidelobe Canceller), ce presupune un nivel computațional mai redus, este descrisă în paragraful următor.

Arie de microfoane direcționale GSC (Generalized Sidelobe Canceller)

O implementare adaptivă este obținută prin utilizarea ariei de microfoane direcționale folosind structura GSC. Aceasta este o metodă ce se bazează pe înlocuirea problemei de minimizare cu constrângeri într-o formă fără constrângeri. Astfel structura GSC rezolvă exact aceeași problemă ca și algoritmul LCMV, prin descompunerea vectorului filtrului ws în două componente, ce operează pe spații ortogonale, o parte cu restricții și o alta fără restricții.

Constrângerea liniară multiplă este folosind J contrângeri liniare independente care formează

o matrice de constrângere C, de dimensiune ( )L M J⋅ × şi de rang J . Dacă J L M< ⋅ , problema

este nedeterminată şi va avea o infinitate de soluţii. Definind o matrice de proiecţie ortogonală, cP , ce

proiectează vectorul ws pe spaţiul liniilor matricei HC şi ( )c−I P matricea de proiecţie ortogonală

complementară ce proiectează ws pe spaţiul nul al matricei HC , coeficienţii filtrului ws pot fi descompuşi pe cele două proiecții astfel:

( )s c s c s= + −w P w I P w (2.1)

( ) ,s q c s= + −w w I P w (2.2)

unde:

.q c s=w P w (2.3)

Matricea de proiecţie c

P este defini ca în:

( )1

,H H

c

=P C C C C (2.4)

unde H

c c c=P P P . Utilizând descompunerea în valori singulare a matricei de constrângere H= ΣC U V

, matricea de proiecţie poate fi exprimată ca:

( )1

H H H

c

= = P C C C C UU (2.5)

Astfel, matricea de proiecție ortogonală complementară c−I P devine:

Page 21: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

21

H

c− = −I P I UU (2.6)

unde H

H− =I UU UUɶ ɶ este matricea ortogonală complementară matriceiH

UU . Astfel:

H

s q s= +w w UU wɶ ɶ (2.7)

Notând a− =C Uɶ şi H

a s=w U wɶ , unde a

C este o matrice ortogonală matricei C (

0H

a =C C ) de dimensiune ( )( )L M L M J⋅ × ⋅ − iar a

w este un vector de dimensiune

( ) 1L M J⋅ − × , se obține:

.s q a a= −w w C w (2.8)

Înlocuind (2.8) în ecuația (2.7), constrîngerea liniară multiplă devine:

( )

.

H

q a a

H H

q a a

H

q

− =

− =

=

C w C w g,

C w C C w g,

C w g

(2.9)

Astfel, rezultă că aw nu depinde de constrângerile impuse prin matricea de constrângeri C,

fiind proiecția pe spațiul null al acesteia, compatativ cu qw ce este proiectat pe spațiul rândurilor

matricei C.

Problema de minimizare descrisă pentru algoritmul LCMV, poate fi exprimată și pentru GSC utilizând coeficienţii de filtrare descompuşi pe cele două direcții ortogonale, rezultând:

( ) ( ) ( )( )min mina a

HH

s s q a a q a a= − −y y y yw w

w R w w C w R w C w (2.10)

Soluția optimă este dată de relația:

( )11 1o H H

GSC yy a a yy a q

−− −=w R C C R C w . (2.11)

O interpretare grafică a ecuației de separare a coeficienților filtrului ws (2.8), este prezentată în Fig. 24, ce descrie diagrama bloc a structurii GSC. Acesta poate fi văzut ca o arie de microfoane cu ponderi fixe wq

cu o parte de anularea adaptivă a zgomotului (Adaptive Inferference Canceller - AIC),

definită prin aC şi wa, unde a

C este cunoscută sub de numirea de Matrice de Blocare (Blocking

Matrix). Aceasta are ( )L M J⋅ − linii linear independente, a căror sumă este zero, încearcând să

blocheze semnalul de interes, oferind astfel o referință a zgomotului.

Page 22: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

22

Fig. 24. Reprezentarea grafică a beamformer-ului GSC

Definind semnalul de eroare, care este și semnalul de ieșire al beamformer-ului ˆGSC

s k( ) , ca

fiind diferența dintre ieșirile celor două filtre wq și a aC w :

ˆ( ) ( )

( )

( ) ( ),

H

GSC s

H

q a a

H H H

q a a

e k s k k

k

k k

= ( ) =

= ( − )

= −

w y

w C w y

w y w C y

(2.12)

unde y(k) reprezintă observaţiile semnalului de intrare, H

qw y reprezintă semnalul vocal de referință,

iar H H

a aw C y este referința zgomotului. Definind:

( ) ( )H

qd k k= w y (2.13)

( ) ( )H

ak k=x C y (2.14)

și înlocuindu-le în (2.12) se obține formularea adaptivă clasică:

ˆ( ) ( ) ( )

ˆ( ) ( ),

H

GSC ae k s k d k k

d k y k

= ( ) = −

= −

w x (2.15)

unde ˆ( ) ( ) ( )H

ay k k k= w x este ieșirea filtrului adaptiv.

Prin aplicarea tehnicilor de filtrare adaptivă, cum ar fi algoritmii de gradient stohastic, ponderile filtrului adaptiv se pot actualiza în sens LMS astfel:

ˆ1 ( ) ( ) ( )a a GSC

k k k s kµ( + ) = +w w x (2.16)

unde µ este pasul de adaptare, a carui valoare poate fi normalizată cu valoarea semnalului de

referință:

2ˆ( )

( )k

k

µµ =

x (2.17)

aC

ˆ ( )GSC

s k

qw

aw

Page 23: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

23

Algoritmul NPVSS-APA pentru structura GSC

O structură echivalentă a celei GSC prezentate este prezentată în Fig. 25. Acesta este alcătuit dintr-o arie de microfoane cu ponderi fixe (weighted and sum) și o cale de anulare adaptivă a

interferențelor (AIC) ce dă posibilitatea sistemului de microfoane să se adapteze la diferite tipuri de zgomot, furnizând astfel o reducere a puterii zgomotului la iesirea sistemului.

Matricea de blocare Ca, cu M-1 rânduri liniar independente a căror sumă este zero (cum ar fi structura pentru M=4):

1 1 0 0

0 1 1 0

0 0 1 1

T

a

− = − −

C (2.18)

rejectează semnalul de interes lasând să treacă numai semnalele de interferență din alte direcții decât cea a semnalului util. Astfel, arie de microfoane cu ponderi fixe îmbunătățește semnalul dorit d(k) pe direcția de incidență, fiind obținut direct de la cele M microfoane prin însumare ponderată:

1

( ) ( ),M

qi ii

d k w y k=

=∑ (2.19)

unde:

( ) ( ) ( ),i iy k s k n k= + (2.20)

cu s(k) reprezentând semnalul dorit și ni(k) reprezentând semnalul perturbator captat de microfonul i. Considerând sursa semnalului util ca fiind perpendiculară pe aria de microfoane, ieșirea acesteia se obține prin medierea semnalelor yi(k).

Calea de anulare adaptivă a interferențelor (AIC) poate fi vazută ca un sistem MISO (Multiple

Input Single Output), fiind alcătuit dintr-un banc de filtre adaptive definite prin coeficienții pondere wi. Scăzând ieșirea fiecărui filtru din semnalul de referință, rezultă atât o estimare a zgomotului ��(�) cât și a ieșirii sistemului ��(�).

Fig. 25 Reprezentarea grafică a arie de microfoane GSC integrată cu un sistem de detecție a prezenței semnalului vocal

Pentru a respecta condiția de cauzalitate a sistemului, o linie de întârziere de LF/2 eșantioane

este introdusă în calea de referință, unde LF este lungimea filtrelor adaptive corespunzătoare sistemului AIC. În aplicațiile de îmbunătățire a semnalului vocal, filtrul adaptiv poate avea un ordin mare, ceea ce conduce la un cost computațional ridicat. Ținând cont ce cerintele de implementare folosind sisteme de timp real, utilizarea unor algoritmi adaptivi de complexitate ridicată, i.e. RLS (Recursive Least Squeres) ar trebui evitată. Pe de altă parte, algoritmi de complexitate scăzută, i.e LMS (Least Mean Squares), au o convergență scăzută în special în prezența semnalului vocal. În

aC

ˆ ( )GSC

s k

ˆ ( )y k

/2FLz

Page 24: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

24

anumite situații, se poate realiza un compromis la nivel de complexitate/performanțe prin utilizarea algoritmilor APA (Affine Projection Algorithm).

Structura matricei de blocare a

C deține un rol foarte important în configurația sistemului-

ului GSC, alegerea sa influențând complexitatea de calcul a întregului algoritm. În anumite cazuri aceasta protejază împotriva instabilitățiilor numerice ale sistemului. Proiectarea adecvată a matricei

de blocare (BM) poate fi obținută fie prin utilizarea metodei coloanelor înlănțuite de diferențiere CCD (Cascaded Columns of Differencing) sau a metodei descompunerii în valori singulare SVD (singular value decomposition).

Proiectarea matricei de blocare folosind metoda descompunerii în valori singulare

(SDV)

Aplicarea SVD în cazul GSC are rolul de a determina matricea de blocare și vectorul pondere al ariei de microfoane cu ponderi fixe wq (quiescent vector). Teorema SVD presupune că pentru o matrice A, există două matrici unitare U și V, astfel încât avem:

0,

0 0H

r∑ =

A U V (2.21)

unde r∑ este o matrice diagonală r x r, care conține valorile singulare ordonate. Variabila r definește rangul matricei A și reprezintă numărul de coloane liniar independente. Separând matricea U în două părți:

r r = U U Uɶ (2.22)

unde rU este formată din primele r coloane ale matricei U , în timp ce

rUɶ conține restul coloanelor

lui U, se poate observa că:

0H

r =U A (2.23)

Abordarea SVD nu se limitează numai la cazul ariei de microfoane cu ponderi adaptive de bandă largă, ea se poate aplica oricărei matrice de constrângere C. Prin urmare, aceasta metoda poate fi considerată o metodă generală de obținere a matricei de blocare pentru a sistemului GSC.

Metoda CCD a fost propusă pentru a obține o matrice de blocare pentru constrângeri derivative. Constrângerile derivative adaugă o robustețe crescută împotriva erorilor de directivitate prin mărirea razei unghiulare a constrângerilor direcționale. Cu cât este mai mare ordinul constrângerilor derivative cu atât este mai mare lobul principal al ariei de microfoane direcționale, îndreptat în direcția dorită. În metoda CCD, matricea de blocare este formată prin S operații de înlănțuire a coloanelor de diferențiere, așa cum este prezentat în Fig. 26.

Pentru o constrângere de ordin zero, matricea de blocare devine:

1

1 1 0

. .

. .

0 1 1

H

M M M

aR × −

− = ∈

C (2.24)

iar pentru constrângeri de ordin 1, matricea de blocare este implementată printr-o matrice de ordin � × � − 2 , ��

� = ����� × ��

���, așa cum se poate deduce din Fig. 26.

Page 25: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

25

Fig. 26. Metoda coloanelor cascadate de diferențiere (CCD) de ordin S.

Proiectarea matricei de blocare folosind metoda Walsh-Hadamard

Matricea Hadamard este o matrice pătratică cu elemente având valorile {-1;1}. Metoda originală de construcție a matricelor Hadamard, propusă de Sylvester, este echivalentă cu a găsi funcțiile Walsh, care sunt de fapt o variantă discretă echivalentă seriilor Fourier. Astfel, o matrice Hadamard de dimensiune n×n Hn va avea n(n-1)/2 valori de “-1” și n(n+1)/2 valori de “1”. Dacă se cunosc Hn și Hm atunci Hnm se obține înlocuind toate valorile de “1” din Hm prin Hn și toate valorile del “-1” prin -Hn, cum este exemplificat mai jos:

2

2 24

2 2

4

1 1

1 1

1 1 1 1

1 1 1 1

1 1 1 1

1 1 1 1

1 1 1 1

1 1 1 1.

1 1 1 1

1 1 1 1

= −

− − = = − − − − −

− − = − −

− −

H

H HH

H H

H

(2.25)

Așa cum se poate observa, matricea Walsh-Hadamard este o matrice ortogonală (coloanele fiind liniar independente) ce poate fi folosită ca o matrice de blocare, în structura sistemului GSC. Întrucât matricea de blocare este o matrice de dimensiune M-1xM (M-numărul de microfoane), aceasta de poate obține din matricea Walsh-Hadamard prin eliminarea primei coloane. În (2.26) este descrisă matricea de blocare corespunzătoare unei arii de senzori cu 4 elemente:

Page 26: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

26

1 1 1

1 1 1

1 1 1

1 1 1

− − = − − − −

BM (2.26)

Funcționarea ariei de microfoane GSC în cazul surselor de semnal apropriate (“Near Field”)

În majoritatea cazurilor, undele considerate sunt unde plane, generate de surse îndepărtate (far field). În cazul în care sursa de semnal este apropriată de aria de microfoane, undele generate de aceasta devin unde sferice. Toate presupunerile legate de unde plane nu mai sunt valabile atunci când:

2 2 2max2 2

,total total total sd d f d f

rc cλ

< = ≃ (2.27)

unde, dtotal este lungimea totală a ariei de microfoane, fs=frecvența de eșantionare, c este viteza de propagare a sunetului. De exemplu, pentru o lungime a arie de microfoane de dtotal=0.15cm și o frecvență de eșantionare de fs=16kHz, distanța minima a sursei de zgomot fată de centrul ariei de microfoane, pentru a considera o aproximare de unde plane este r=1.06 m.

După cum s-a prezentat în paragrafele anterioare, în cazul undelor plane (Fig. 27. a) ), distanța

parcursă de unde între doi senzori alăturați este ' cos( )d d θ= sau pentru cazul general de la senzorul

1 la senzorul m aceasta este ' ( 1) cos( )d m d θ= − . Fig. 27. b). prezintă incidența undelor sferice la

aria de microfoane. Distanța parcursă de undele sferice între două elemente alăturate este dată de:

2 1( , ) ( , ),d d r d rθ θ′ = − (2.28)

sau în cazul general până la senzorul m:

1( , ) ( , ),m

d d r d rθ θ′ = − (2.29)

unde ( , )m

d r θ reprezintă distanța de la sursă la cel de-al m-lea senzor, exprimată ca o funcție în

coordonate sferice, cu referire la microfonul de referință. Pentru o arie de microfoane liniare egal distanțate, aceasta este dată de relația:

2 22 ( 1) cos (( 1) )m

d r r m d m dθ= + − + − (2.30)

Page 27: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

27

Fig. 27. Incidența undelor sonore la aria de microfoane a) de la o sursă îndepartată (unde plane) b) de la o sursă apropriată (unde

sferice)

Caracteristica de directivitate a arie de microfoane pentru cazul undelor sferice se obține prin înlocuirea în caracteristica de directivitate a ariei de senzori pentru unde plan, a termenului

( 1) cos( )m d θ− , ce corespunde distanței parcurse de undele plane între senzorul de referință și cel

de-al m-lea senzor, cu cel aferent undelor sferice:

( )12

( , ) ( , )*1

1

( , )( , ) .

( , )

m

fM j d r d rc

m

m m

d rD f w e

d r

πθ θθ

θθ

− −

=

′ =∑ (2.31)

Relația ce definește caracteristica de directivitate a arie de microfoane pentru cazul undelor

sferice, conține și dependența amplitudii undelor sferice de distanța parcursă, normalizată astfel încât să se obțină o amplitudine unitară la senzorul de referință.

Prin analogie cu cazul undelor plane se poate defini vectorul de directivitate pentru undele sferice:

1 2( , ) ( , ) ( , )1 2( , , ) , ,..., ,M

Tj r j r j r

Mr a e a e a eωτ θ ωτ θ ωτ θω θ − − − = d

(2.32)

cu �� = ��(�, �)/��(�, �) și ��(�, �) = (��(�, �) − ��(�, �))/�.

Dacă aria de microfoane este proiectată să funcționeze cu unde sferice, caracteristica de directivitate a acesteia poate fi reglată astfel încât să corespundă caracteristicii de directivitate pentru unde plane prin compensarea vectorului ponderilor wm după următoarea relație:

( )12

( , ) ( , ) ( 1) cos

1

( , ).

( , )

m

fj d r d r m d

m cm m

d rw e w

d r

πθ θ θθ

θ

− + −

′ = (2.33)

Astfel, caracteristica de directivitate pentru unde sferice se va potrivi cu cea corespunzătoare undelor

plane.

a)

b)

Page 28: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

28

Rezultate experimentale

Experimentele efectuate au ca scop identificarea performanțelor sistemelor de reducere a zgomotului ce folosesc arii de microfoane în configurație GSC, în condiții de mediu diferite (diferite tipuri de semnale perturbatoare). Structura sistemului de reducere a zgomotului multi-microfon utilizat în experimentele efectuate este prezentat în Fig. 28.

Fig. 28. Reprezentarea grafică a arei de microfoane direcționale GSC integrată cu un sistem VAD

Astfel, microfoanele utilizate sunt de tip omnidirecțional, numarul lor variind de la 2 la 8,

distanța dintre microfoane fiind de 2.5 cm. Sursa utilă (vorbitorul) este orientată perpendicular pe aria de microfoane. Considerând cazul undelor plane, semnalul vocal ajunge la aria de microfoane în fază, neexistând nici o întârziere între microfoane. Semnalul de zgomot este întârziat cu un eșantion, ceea ce corespunte unui timp de eșantionare spațială egal cu timpul de eșantionare discret Ts. Pentru o frecvență de esantionare de Fs = 16KHz rezultă un unghi de incidență al semnalului de zgomot de:

arccos sT c

⋅ = 31.8°

≃ . (2.34)

Simulările experimentale se bazează pe folosirea unui VAD tip “Log Energy” pentru

controlul adaptării sistemului AIC (Adaptive Interference Canceller). Semnalul de referință al VAD-ului poate fi achiziționat fie de la ieșirea sistemului GSC, detecția realizându-se folosind semnalul ��(�), fie de la ieșirea ariei de microfoane cu ponderi fixe, detecția realizându-se folosind semnalul de referință �(�). În primul caz următoarele constrângeri ar trebui considerate:

• pe durata primelor cadre de semnal (până când algorithmul adaptiv ajunge într-o stare staționară), VAD-ul ar putea să genereze decizii greșite, încetinind astfel procesul de adaptare. Pentru a evita această situație, pe durata fazei inițiale, VAD-ul va folosi semnalului de la ieșirea ariei de microfoane cu ponderi fixe�(�) ca semnal de referință în generarea deciziilor.

• întârzierea introdusă de VAD ar trebui sa fie minimă astfel încât să nu afecteze cerințele legate de inteligibilitatea semnalului redat (întârzierea maximă a sistemului de redare și amplificare să nu depășească 10ms)

Pentru a îmbunătăți performanțele VAD-ului și ale sistemului adaptiv AIC, metoda de determinare a tipului de cadru, de zgomot sau de voce este una iterativă, în doi pași, după cum urmează:

• Eșantioanele atât de la ieșirea ariei de microfoane cu ponderi fixe, �(�), cât și cele de la ieșirea matricei de blocare, � (�), sunt grupate în frame-uri de lungime LF=160 eșantioane (10 ms pentru Fs=16kHz), suprapuse 50% sau 75%. În prima etapă, se generează semnalul de ieșire al sistemului GSC, ��(�) din �(k − "/2) și ��(�), unde

aC

ˆ ( )GSC

s k

ˆ ( )y k

Page 29: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

29

��(�) este generat folosind valorile anterioare ale coeficienților filtrelor adaptive (parte a sistemului AIC) fără să existe o actualizare a acestora (nefiind cunoscut tipul de cadru – voce sau zgomot). Eșantioanele ��(�) corespunzătoare frame-ului curent sunt folosite numai pentru calculul deciziei VAD-ului, nefiind transmise la ieșirea sistemului.

• În cea de-a doua fază, pentru același cadru de date, procesul se reia, cu diferența că, pe baza deciziei VAD-ului, dacă cadrul este unul zgomot, semnalul ��(�) este obținut ca urmare a procesului adaptiv (coeficienții filtrelor adaptive fiind actualizate în conformitate cu algoritmul adaptiv folosit), semnalul ��(�) devenind semnal de ieșire, nemaifiind utilizat ca semnal de referința al VAD-ului.

Astfel, folosirea algoritmului iterativ are ca efect atât îmbunătățirea performanțelor VAD-ului, întrucât semnalul folosit în luarea deciziile acestuia are o componentă de zgomot redusă comparativ cu semnalul de la ieșirea ariei de microfoane cu ponderi fixe. De asemenea se realizează și o îmbunătățire a performanțelor sistemului adaptiv AIC. Acest algoritm iterativ are ca efect reducerea riscului unei false clasificări a semnalului vocal ca zgomot (ce contribuie la o atenuare a semnalului vocal).

De asemenea, cea de a doua iterație permite reducerea sensitivitătii VAD-ului (parametriilor statistici ai zgomotului utilizați pentru a calculul pragurile decizionale ale semnalului vocal), permițându-se astfel algoritmului să opereze mai rubust pentru o mai mare plaje de valori ale SNR-ului semnalului de intrare.

Filtrele adaptive corespunzătoare blocului AIC sunt implementate folosind structuri FIR de lungime L=128 sau L=256. Mai multe tipuri de algoritmi adaptivi fiind utilizați NLMS, NPVSS-NLMS-1 (VSS-NLMS), FBNLMS, APA, NPVSS-APA-1 (VSS-APA). Astfel se realizează o evaluare comparativă a performațelor sistemului GSC în funcție de tipul de algoritm utilizat. De asemenea, în analiză comparativă a performațelor s-au introdus și rezultatele obținute folosind o arie de microfoane cu ponderi fixe DS (delay and sum)

Semnalul de test este concatenat cu ~4s de semnal de zgomot, pentru a asigura o convergență suficiență a filtrelor adaptive (aproape de starea staționară), semnalul de zgomot adaugat nefăcând parte din semnalul folosit în evaluarea beamformer-ului GSC. Tipurile de zgomot folosite sunt aceleași ca cele folosite în evaluarea sistemelor cu un singur microfon și anume: zgomot alb (white

noise),zgomot colorat (pink noise), zgomot convolutiv (babble noise), zgomot nestaționar (car engine

noise) și zgomot de avion (airplane noise).

Evaluarea performanțele sistemului GSC în contexul undelor plane (“Far Field”).

Evaluarea perfomanțelor sistemului (și implicit a semnalului vocal estimat) se face folosind patru măsuri: raportul semnal-zgomot de bandă largă (SNR), raportul semnal zgomot segmental (SNRSEG), anvelopa spectrală ponderată (WSS) și evaluarea perceptuală a calității semnalului vocal (scorul MOS-LQO). Evaluarea performanțelor sistemului în funcție de următorii parametrii variabili:

• Numărul de microfoane: 2, 4, 8. • Tipul de zgomot: zgomot alb (white noise), zgomot colorat (pink noise), zgomot convolutiv

(babble noise), zgomot nestaționar (car engine noise) și zgomot de avion (airplane noise) • Tipul de algoritm adaptiv: NLMS, NPVSS-NLMS-1, FBNLMS, APA, NPVSS-APA-1 • Lungimea filtrului adaptiv L=128 sau L=256 • Semnalul de intare al VAD-ului: semnalul de ieșire a sistemului GSC ��(�) sau semnalul

de la ieșirea ariei de microfoane cu ponderi fixe d(k) • Numărul de eșantioane suprapuse folosite în alcătuirea cadrelor de date supuse evaluarii

VAD-ului (suprapunere de 50% sau 75%) • Cu și fără reverberație.

Page 30: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

30

Algoritmii adaptivi folosiți au următorii parametrii: • NLMS: valoarea pasului de adaptare fix: #=0.4 și a factorului de regularizare δ=10-5

. • NPVSS-NLMS-1 (VSS-NLMS): valoarea pasului de adaptare fix: #=0.4, a factorului de

regularizare δ=10-5, a factorului de uitare λ folosit pentru estimarea puterilor semnalelor ��(�) și d(k): % = 1 − 1/('"); K=8;

• FBNLMS: valoarea pasului de adaptare fix: #=0.025, a factorului de regularizare δ=10-5, a factorului de uitare λ folosit pentru estimarea puterilor semnalelor de referență xi(k): % =

0.95, numărul de puncte folosite pentru calculul FFT: 256, cu o suprapunere de 50% a frame-urilor de date.

• APA: valoarea pasului de adaptare fix: #=0.05, a factorului de regularizare δ=10-5, ordinul proiecție P=2,4,8

• NPVSS-APA-1 (VSS-APA): valoarea factorului de regularizare δ=10-5, a factorului de uitare λ folosit pentru estimarea puterilor semnalelor ��(�) și d(k): % = 1 − 1/('"); K=8; ordinul proiecție P=2,4,8.

Fig. 29-31 prezintă variația comparativă ∆SNR[dB]=SNROUT-SNRIN, a SNRSEG respectiv a

scorului MOS-LOQ în funcție de tipul algoritmului adaptiv utilizat, pentru diferite tipuri de zgomot, folosind următorii parametrii comuni simulărilor: fără reverberație, L=256, P=4, semnalul folosit de VAD în luarea deciziei este ��(�), numărul de microfoane N=4, dimensiunea frame-ului este de 10ms cu o suprapunere de 75%. După cum se observă, performanțele sistemului, atât din punct de vedere al gradului de eliminare a zgomotului cât și din punct de vedere al distorsiunilor introduse, sunt mai bune în cazul utilizării algoritmilor cu pas variabil de adaptare (VSS-APA/VSS-NLMS) comparativ cu variantele ce folosesc un pas de adaptare fix, în special datorită performanțelor acestora în cazul unor decizii eronate a VAD-ului (semnal vocal clasificat ca zgomot).

Page 31: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

31

Fig. 29 Variația ∆SNR–ului în funcție de algoritmul utilizat, pentru diferite tipuri de zgomot: (a) zgomot alb (white noise),

(b)zgomot colorat (pink noise), (c) zgomot convolutiv (babble noise), (d) zgomot nestaționar (car engine noise) și (e) zgomot de avion

(airplane noise)

e)

a)

a

b)

c) d)

Page 32: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

32

Fig. 30 Variația SNRSEG în funcție de algoritmul utilizat, pentru diferite tipuri de zgomot: (a) zgomot alb (white noise), (b)zgomot

colorat (pink noise), (c) zgomot convolutiv (babble noise), (d) zgomot nestaționar (car engine noise) și (e) zgomot de avion (airplane

noise)

e)

a)

a

b)

c) d)

Page 33: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

33

Fig. 31 Variația scorului MOS-LQO în funcție de algoritmul utilizat, pentru diferite tipuri de zgomot: (a) zgomot alb (white noise),

(b)zgomot colorat (pink noise), (c) zgomot convolutiv (babble noise), (d) zgomot nestaționar (car engine noise) și (e) zgomot de avion

(airplane noise)

e)

a)

a

c) d)

b)

Page 34: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

34

Fig. 32 prezintă variația comparativă ∆SNR[dB]=SNROUT-SNRIN respectiv a scorului MOS-LOQ cu lungimea L a filtrului adaptiv pentru algoritmul NPVSS-APA-1, pentru diferite tipuri de zgomot, folosind următorii parametrii comuni simulărilor: fără reverberație, P=4, semnalul folosit de VAD în luarea deciziei este ��(�), numărul de microfoane N=4, dimensiunea frame-ului este de 10ms cu o suprapunere de 75%.

Fig. 32 Variația ∆SNR–ului și a scorului MOS-LQO în funcție de lungimea L a filtrului adaptiv utilizat, pentru algoritmul adaptiv

NPVSS-APA-1 și pentru diferite tipuri de zgomot: (a) zgomot alb (white noise), (b) zgomot convolutiv (babble noise) și (c) zgomot

nestaționar (car engine noise).

c)

a)

a

b)

Page 35: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

35

În Fig. 33 este prezentată variația comparativă a ∆SNR[dB]=SNROUT-SNRIN respectiv a scorului MOS-LOQ în funcție de ordinul proiecției P a algoritmului NPVSS-APA-1, pentru diferite tipuri de zgomot, folosind următorii parametrii comuni simulărilor: fără reverberație, L=256, semnalul folosit de VAD în luarea deciziei este ��(�), numărul de microfoane N=4, dimensiunea frame-ului este de 10ms cu o suprapunere de 75%.

Fig. 33 Variația ∆SNR–ului și a scorului MOS-LQO cu ordinul proiecției P a algoritmul adaptiv NPVSS-APA-1, pentru diferite

tipuri de zgomot: (a) zgomot alb (white noise), (b) zgomot convolutiv (babble noise) și (c) zgomot nestaționar (car engine noise)

c)

a)

a

b)

Page 36: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

36

În Fig. 34 este prezentată variația comparativă a ∆SNR[dB]=SNROUT-SNRIN în funcție de gradul de suprapunere al frame-urilor de date folosite de VAD, pentru algoritmul NPVSS-APA-1 și pentru diferite tipuri de zgomot, folosind următorii parametrii comuni tuturor simulărilor: fără reverberație, L=256, semnalul folosit de VAD în luarea deciziei este ��(�), numărul de microfoane N=4, P=4, dimensiunea frame-ului este de 10ms.

Fig. 34 Variația ∆SNR–ului și a scorului MOS-LQO în funcție de gradul de suprapunere al frame-urilor de date folosite de VAD,

pentru algoritmul adaptiv NPVSS-APA-1, pentru diferite tipuri de zgomot: (a) zgomot alb (white noise), (b) zgomot convolutiv

(babble noise) și (c) zgomot nestaționar (car engine noise)

a)

a

c)

b)

Page 37: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

37

După cum se poate observa, rezultatele sunt comparative, perfomanțe ceva mai bune din punct de vedere al raportului semnal-zgomot SNR se obțin pentru o suprapunere de 75%, însă acestea sunt insesizabile din punct de vedere al percepției auditive.

O analiză comparativă a performanțelor VAD-ului în funcție de semnalul utilizat (��(�)sau�(�)) în determinarea deciziilor acestuia este prezentată în Fig. 35. Performanțe superiore se observă pentru cazul algoritmului iterativ, în care semnalul folosit este cel de la ieșirea sistemului GSC.

Fig. 35. Variația ∆SNR–ului și a scorului MOS-LQO în funcție semnalul de referință al VAD-ului, pentru algoritmul NPVSS-APA-1

și zgomot combinat (babble + car engine): cu albastru pentru cazul în care în care semnalul de referință al VAD-ului este semnalul

de la ieșirea beamformer-ului GSC (0�123(4)), cu verde pentru cazul în care semnalul de referință al VAD-ului este cel de la iesirea

beamformer-ului fix d(k).

Comportamentul beamformer-ului GSC în timp/frecvență este evidențiat prin utilizarea spectrogramei. După cum se poate observa din Fig. 36 (așa cum era și de asteptat), sistemul GSC suferă de abilitatea de a elimina zgomotul de joasă frecvență.

Fig. 36 Spectrograma semnalelor utilizate în testarea sistemului GSC: (a)semnal vocal curat; (b) semnal vocal și zgomot zgomot

nestaționar (car engine noise) SNR=10dB; (c) semnalul la ieșirea sistemului GSC ( 0�123(4)).

Page 38: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

38

Performanțele sistemului GSC în medii reverberante

În simulările realizate până în present, răspunsul la impuls al încăperii constă numai în calea directă, ce corespunde unei camere anecoice. Această configuratie nu este una reală, de aceea performanțele sistemului GSC sunt studiate și în medii reverberații. Vorbitorul se află în fața ariei de microfoane la 70cm, iar zgomotul este generat din partea dreaptă la un unghi de incidență de 31.8°. În Fig. 37, prin utilizarea spectrogramei, este evidențiat efectul reverberației asupra semnalului vocal, cât și performanțele sistemului GSC.

Fig. 37 Spectrograma semnalelor semnalelor utilizate în testarea sistemului GSC, în prezența unei reverberații de T60=400ms și pentru un zgomot nestaționar (car engine noise): (a) semnal vocal curat; (b) semnal vocal afectat de reverberatie; (c)semnal vocal cu

reverberație și zgomot SNR=10dB; (d) semnalul la iesirea sistemului GSC (0�123(4)).

În Tabel 7-9 sunt prezentate performanțele sistemului GSC pentru diferite valori ale timpului

de reverberație, în condițiile utilizării algoritmul NPVSS-APA-1, cu P=4, L=256, factorul de

regularizare δ=10-5, Log-energy VAD și Matrice de Blocare tip Griffith-Jim.

Tabel 7 Variația indicatorilor de performanță a sistemului GSC, pentru iSNR=5dB și zgomot alb gaussian

Rev. Time T60 [ms]

∆SNR [dB] SNR_SEG

[dB] MOS-LQO WSS [dB] ISS[dB]

100 16.0280 6.4710 2.8390 63.6501 7.6696 200 8.1915 3.1162 2.5960 49.6326 8.0997 300 5.7846 1.8063 2.3670 46.3388 8.2855 400 5.0516 1.2067 2.2340 45.6207 8.2146 500 4.4976 0.6905 2.1180 44.8370 8.1005 600 4.5842 0.5740 2.0350 43.2341 7.9884

a)

b)

c)

d)

Page 39: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

39

Tabel 8 Variația indicatorilor de performanță a sistemului GSC, pentru iSNR=5dB și zgomot convolutiv (babble noise)

Rev. Time

T60 [ms] ∆SNR [dB]

SNR_SEG

[dB] MOS-LQO WSS [dB] ISS [dB]

100 15.4499 6.3608 3.0660 57.0123 4.6215 200 5.8635 1.8676 2.6950 50.5307 5.0704 300 3.1433 -0.0190 2.4290 56.5190 5.3752 400 2.2823 -0.8903 2.1060 59.7157 6.3395 500 2.0500 -1.4403 1.9430 59.2228 5.7380 600 1.5577 -1.7624 1.8880 56.9213 5.7612

Tabel 9 Variația indicatorilor de performanță a sistemului GSC, pentru iSNR=5dB și (c) zgomot nestaționar (car engine noise)

Rev. Time

T60 [ms] ∆SNR [dB]

SNR_SEG

[dB] MOS-LQO WSS [dB] ISS [dB]

100 14.2291 5.8704 2.8060 67.8129 5.8736 200 6.7915 2.5546 2.4660 52.3914 6.5559 300 4.6856 1.1906 2.1420 53.1496 7.0338 400 4.0175 0.4519 1.9540 53.7052 7.3820 500 3.5541 -0.0888 1.8120 55.2246 7.8057 600 3.1699 -0.3786 1.7350 53.8451 7.7844

După cum se poate observa, în prezența reverberației, beamformer-ul nu mai este capabil să elimine zgomotul și nici distorsiunile semnalului vocal. O posibilă explicație este accea că matricea de blocare nu poate elimina complet semnalul vocal, furnizând blocului AIC referințe proaste ale zgomotului ceea ce nu se întâmplă în lipsa reverberației. În prezența reverberației, semnalul vocal este reflectat de pereții încăperii, undele sonore ajung la microfon și din alte direcții decât direcția de interes, referințele zgomotului conțin componente ale semnalului vocal, rezultând astfel o reducere a performanțelor sub-sistemului AIC datorită corelație între semnalul de referință xi(k) și semnalul dorit d(k).

Performanțele algoritmului GSC în contexul undelor sferice (“Near Field”)

Experimentele efectuate au ca scop studierea efectelor undelor sferice asupra performanțelor sistemului GSC. Astfel, ținând cont de relația ce definește distanța parcursă de undele sferice, pentru cazul unie arii de 4 microfoane, în care sursa și microfoanele se află în plan orizontal, distanțele parcurse de unde devin:

Fig. 38 Incidența undelor sonore sferice la o arie de 4 microfoane, în plan orizontal a) prezentarea distanțelor, b) configuratia de

testare

d

31.8°

Page 40: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

40

2 21

2 22

2 23

2 24

(3 / 2) 3 cos

( / 2) cos

( / 2) cos

(3 / 2) 3 cos .

d r d dr

d r d dr

d r d dr

d r d dr

θ

θ

θ

θ

= + −

= + −

= + +

= + +

(2.35)

Configuratia de testare are următorii parametrii principali: - Algoritm APA, P=4, L=256, pas adaptare fix: #=0.05, factorul de regularizare δ=10-5, - VAD ideal, matrice de blocare tip Griffith-Jim - Sursa semnalului vocal este perpendiculară pe centrul axei ariei de microfoane liniare θ=90°

la o distanță r=1m respectiv r=0.5m, undele generate de aceasta fiind unde sferice. - Unghiul de incidență al sursei de zgomot este de 31.8°, undele acestuia fiind considerate unde

plane, diferite tipuri de zgomot fiind folosite. - Distanța dintre microfoane este de d=2.5cm respectiv d=5cm. - Frecvența de eșantionare Fs=16kHz. (ținând cont că timpul parcurs de undele sferice între 2

microfoane adiacente este mai mic decât periaoda de eșantionare, această întârziere a fost simulată prin proiectarea unui filtru tip “fractional delay” de ordin 3 prin metoda Lagrange –Farrow fractional delay structure.1

De exemplu, pentru Fs=16kHz, c=340ms, r=1m, d=0.025m, întârzierile aferente microfoanelor 1 și 2 sunt:

( ) ( )1 1 2 2( , ) / 2.0673 us, ( , ) / 0.2997 usr d r c r d r cτ θ τ θ= − = = − = (2.36)

Fig. 39-43 descriu rezultatele comparative, unde plane vs. unde sferice, ale performanțelor sistemului GSC, pentru diferite tipuri de zgomot și diferite distanțe ale sursei de semnal față de centrul ariei de microfoane.

Fig. 39 Rezultatele comparative unde plane vs unde sferice ale performanțelor sistemului GSC pentru zgomot alb (white noise),

d=2.5cm, r=1m (a) variația raportului semnal-zgomot de banda largă ∆SNR; (b) scorul MOS-LQO.

1 www.matworks.co.uk/help/dsp/ref/fdesign.fracdelay.html

a) b)

Page 41: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

41

Fig. 40 Rezultatele comparative unde plane vs unde sferice ale performanțelor sistemului GSC pentru zgomot “babble”, d=2.5cm,

r=1m (a) variația raportului semnal-zgomot de banda largă ∆SNR; (b) scorul MOS-LQO.

Fig. 41 Rezultatele comparative unde plane vs unde sferice ale performanțelor sistemului GSC pentru zgomot alb , d=5cm, r=1m: (a)

variația raportului semnal-zgomot de banda largă ∆SNR; (b) scorul MOS-LQO.

a) b)

a) b)

Page 42: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

42

Fig. 42 Rezultatele comparative unde plane vs unde sferice a performanțelor sistemului GSC pentru zgomot convolutiv (babble

noise), d=5cm, r=1m (a) variația raportului semnal-zgomot de banda largă ∆SNR; (b) Scorul MOS-LQO

Fig. 43 Rezultatele comparative unde plane vs unde sferice a performanțelor beamformer-ului GSC pentru zgomot alb (white noise),

d=5cm, în funcție de distanța față de centrul ariei de microfoane r=0.5m și r=1m: (a) variatia raportului semnal-zgomot de banda

largă ∆SNR; (b) Scorul MOS-LQO.

Rezultatele experimentale arată că, atât din punct de vedere al gradului de reducere al zgomotului (evaluat prin măsura SNR de bandă largă) cât și din punt de vedere al distorsiunilor introduse (evaluate folosind scorurile MOS-LQO), diferențele sunt imperceptibile/insesizabile. Astfel, utilizarea unor metodele de compensare a efectelor undelor sferice, în cazul sistemelor de redare/amplificare, este nejustificată din punct de vedere al câștigului adus în raport cu complexitatea introdusă.

a) b)

a) b)

Page 43: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

43

C. Analiza și dezvoltarea algoritmilor adaptivi pentru anularea reacției acustice în sistemele

audio din automobile

I. Studiul metodelor clasice de anulare a reacției acustice bazate pe adaptare continuă în

buclă (CAF) II. Estimarea funcției de transfer a căii de reacție acustică III. Evaluarea algoritmilor adaptivi în situația impunerii de constrângeri asupra

coeficienților filtrului adaptiv al sistemului CAF IV. Simularea și implementarea în timp real a sistemului de anulare a reacției acustice în

sistemele de amplificare audio din automobil

V. Diseminarea rezultatelor cercetării prin participarea la conferințe naționale și internaționale și prin depunerea unei cereri de brevet pentru sistemul propus

Definirea reacției acustice.

În continuare se vor folosi următoarele notații (preluate din teoria identificării sistemelor: • n – timpul discret • q – reprezinta operatorul de întarziere discret; q

-1 – reprezintă întarzierea cu un tact, astfel încat:

q-1

u(n) = u(n-1) (3.1)

• f = [f0, f1, ..., fLF-1]T – vectorul coeficienților unui filtru FIR de lungime LF a carui reprezentare

polinomială în q este:

F(q) = f0q-0

+ f1q-1

+ ... + fL-1q-L

F+1

= fTq, (3.2)

unde q = [1, q-1,..., q-LF

+1], astfel încat, filtrarea unui semnal u(n) prin F(q) se poate reprezenta ca:

F(q)u(n)= fTu(n), (3.3)

unde u(n) = [u(n), u(n-1), ..., u(n-LF+1)]T.

Fig. 44 Reacția acustică

• F(q,n) – reprezintă un filtru FIR discret, variabil în timp, ai cărui coeficienți sunt f(n).

Fig. descrie problema feedback-ului acustic într-un sistem unde:

Page 44: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

44

• d(n) – reprezintă semnalul de intrare al sistemului (ieșirea convertorului AD asociat microfonului)

• u(n) – reprezintă semnalul de la ieșirea sistemului (intrare pentru convertorul DA asociat difuzorului)

• s(n) – reprezintă semnalul dorit • y(n) – semnalul de reacție • G(q) – reprezintă caracteristica căii directe (forward path) și este utilizată pentru a ajusta

semnalul de intrare astfel încat imperfecțiunile auditive să poată fi compensate. În principal ea cuprinde o amplificare dependentă de frecvență și o întarziere dG de cel puțin un eșantion (datorită prezentei convertorului analog-digital).

• G(e-jω) – definește reprezentarea spectrală a lui G(q) • F(q,n) – descrie calea de reacție (feedback path), variabilă în timp, de la microfon la difuzor,

ce include caracteristica de frecvență a difuzorului, caracteristica de frecvență a microfonului precum și a convertoarelor AD/DA.

În mod ideal, semnalul de la difuzor u(n) este semnalul dorit s(n) procesat prin calea directă G(q):

u(n) = G(q)s(n). (3.4)

Însa, din cauza reacției acustice, ca urmare a cuplajului dintre microfon și difuzor, o parte din semnalul difuzorului este re-achiziționat de microfon:

d(n) = s(n) + y(n)

= s(n) + F(q,n)u(n). (3.5)

Funcția de transfer a sistemului în buclă închisă, de la semnalul dorit s(n) la semnalul de ieșire al difuzorului u(n), este:

( )( ) .

1 ( ) ( , )

G qC q

G q F q n=

− (3.6)

Tinând cont de criteriul de stabilitate Nyquist, sistemul devine instabil dacă, pentru orice componentă în frecvență a semnalului de reacție, sunt îndeplinite simultan următoarele condiții:

( , ) ( ) 1.

( , ) ( ) 2 ,

j j

j j

F e n G e

F e n G e m m

ω ω

ω ω π

∠ = ∈ Ζ (3.7)

Altfel spus, când o componenta în frecvență a semnalului de reacție ajunge la microfon în fază și cu o amplitudine egală sau mai mare decât sunetul care a produs-o, atunci sistemul devine oscilant.

Pentru a evita o degradare puternică a semnalului de ieșire, este necesară o margine de câstig în buclă deschisă de cel puțin ~6dB. În acest caz, funcția de transfer a sistemului în bucla închisă este constrânsă la:

2( ) ( ) 2 ( ) .

3j j j

G e C e G eω ω ω≤ ≤ (3.8)

Anularea reacției acustice

O solutie alternativă la metodelele clasice de suprimare a reacției acustice este utilizarea algoritmilor de anulare a reacției acustice, așa cum este prezentat în Fig 45Fig. . Sistemul 56(7, 8)

Page 45: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

45

generează un estimat ��(8) al căii de reacție �(8) = 5(7, 8)9(8), pe care îl scade din semnalul recepționat la microfon d(n), încercând astfel să minimizeze efectul reacției acustice.

Fig. 45 Anularea reacției acustice

În acest caz, funcția de transfer în buclă închisă de la semnalul dorit s(n) la semnalul de ieșire u(n) devine:

( )( ) .

ˆ1 ( )[ ( , ) ( , )]

G qC q

G q F q n F q n=

− − (3.1)

În mod ideal, atunci când calea de reacție este perfect identificată, 56(7, 8) = 5(7, 8), funția de transfer în buclă închisă devine egală cu câștigul căii principale C(q)=G(q).

Metode clasice de anulare a reacției acustice

În cazul sistemelor de adaptare discontinue, descrise în Fig. 46, calea directă a sistemului este întreruptă la anumite momente de timp, pentru a actualiza coeficienții filtrului adaptiv, prin injectarea unui zgomot de banda largă t(n). Decizia de întrerupere este luată atunci când sunt detectate osciații puternice sau când este atins un anumit nivel al semnalului în calea directă. Datorită faptului că aceste sisteme sunt reactive și ținând cont de faptul că precesarea în calea directă a aparatului auditiv este temporar întreruptă, generând disconfort pentru utilizatori, răspandirea acestor metode este limitată. Pe de altă parte, în cazul sistemelor bazate pe adaptare continuă, coeficienții filtrului adaptiv sunt actualizați la fiecare iterație. Aceste sisteme au fost îndelung studiate în contextul aparatelor auditive fiind prezentate și în paragrafele urmatoare.

Page 46: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

46

Fig. 46 Anularea reacției acustice

a) adaptare discontinuă; b) adaptare continuă (CAF)

Adaptarea sistemelor CAF

În cazul CAF, coeficienții filtrului adaptiv:

0 1 1ˆ ˆ ˆˆ ( ) = [ ( ), ( ), ..., ( )],

FLn f n f n f n−f (3.2)

sunt actualizați în mod continuu (Fig. 46 b) pe baza procedurii standard de filtrare adaptivă (filtrare Wiener). Sistemele CAF minimizează energia :{|=(8)|�} a semnalului eroare e(n) :

ˆ( ) ( ) ( , ) ( ),e n d n F q n u n= − (3.3)

2Tˆ ˆ( ( )) E ( ) ( ) ( ) ,J n d n n n

= −f f u (3.4)

rezultând ecuație normală (solutia Wiener-Hoff):

{ } { }1Tˆ( ) E ( ) ( ) E ( ) ( ) .n n n n d n

−=f u u u (3.5)

Ținând cont de faptul că semnalul de intrare este definit ca:

T( ) ( ) ( ) ( ),d n n n s n= +f u (3.6)

și înlocuindu-l în (3.13), aceasta devine:

{ } { } { } { }

{ } { }

T1 1T T

1T( ) .

ˆ( ) E ( ) ( ) E ( ) ( ) ( ) E ( ) ( ) E ( ) ( )

E ( ) ( ) E ( ) ( )n

n n n n n n n n n s n

n n n s n

− −

+

= +

=

f

f u u u u f u u u

u u u (3.7)

Așa cum se poate observa din (3.15), estimarea căii de reacție nu este perfectă ci are un

offset (“bias”) iar semnalul util acționează ca o perturbație pentru sistemul adaptiv.

Sistemul în buclă închisă G(q), în condițiile în care semnalul util este colorat (semnal vocal sau muzică), introduce o puternică corelare a semnalelor folosite în procesul de adaptare a sistemul CAF. Ca atare, performanțele acestuia sunt diminuate, acesta nereușind să estimeze perfect calea de reacție.

Presupunând că sistemul adaptiv are un ordin suficient de mare "?6 = "? , conform (3.15), coeficienții filtrului adaptiv, ce estimează calea de reacție, se pot scrie ca:

Page 47: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

47

{ } { }1

T .ˆ( ) ( ) E ( ) ( ) E ( ) ( )

offset

n n n n n s n−

+=f f u u u���������������

(3.8)

Dacă :{@(8)�(8)} = 0, atunci se realizează o estimare perfectă. Însă, datorită existenței căii de transfer directe G(q), semnalul de referință al filtrului adaptiv F(q,n) este corelat cu semnalul dorit s(n):

( ) ( , ) ( )u n C q n s n= (3.9)

unde C(q,n) este definit de (3.1). Din (3.15) se observă că offsetul estimării este cu atât mai mic cu cât energia semnalului de

reacție y(n) (semnal ce trebuie identificat și anulat) este mai mare. Întrucât:

( , ) ( )

( ) ( ),ˆ1 ( )[ ( , ) ( , )]

F q n G qy n s n

G q F q n F q n=

− − (3.10)

pot fi emise următoarele concluzii: • Offset-ul estimării AB(8) este invers proporțional cu câștigul în buclă deschisă |5(7, 8)C(7)| • Offset-ul va fi mai mic pentru acele frecvențe ale semnalului de reacție apropriate de limita de

instabilitate. Presunând că F6(7, 8), 5(7, 8) și G(q) sunt sisteme cauzale invariante în timp și că G(q) conține o

înterziere dG ≥ 1 (condiție îndeplinită ținând cont de existența întazierii introduse de convertoarele AD/DA de cel puțin un tact), atunci C(q,n) poate fi aproximată ca:

G G

G G cd d 1

C

-d d 1 -L +1L 1 ....( ) q q qC q c c c+ −

− −+ + += (3.11)

În aceste condiții (3.9) devine:

( )c G

CG G

+-L d +11L 1 Gd d 1 ...( ) ( d ).c c q c qu n s n−

−++ + += − (3.12)

Din (3.2) resultă că :{@(8)�(8)} = 0 dacă și numai dacă:

{ } G C F. 2E ( ) ( ) 0, d L Ls n s n ≤ ∆ ≤ + −− ∆ = (3.13)

Analiza stării staționare poate fi discutată în următoarele situații:

A. Semnalul util tip zgomot alb

Dacă semnalul util s(n) este un zgomot alb de varianță EF� atunci:

{ } 2 ( ),E ( ) ( ) Ss n s n σ δ ∆−∆ = (3.14)

unde G(∆), reprezintă impulsul Dirac. Dacă eșantioanele semnalului s(n) sunt necorelate și uniform distribuite, atunci folosind (3.16) și (3.22) varianța erorii de estimare este:

( )( ){ } { }21T .ˆ ˆ( ) ( ) ( ) ( ) E ( ) ( )E Sn n n n n nσ

−− − =Tf f f f u u (3.15)

B. Semnal util colorat În cele mai multe cazuri, semnalul util este un semnal colorat (semnal vocal, muzică) ce poate

fi aproximat folosind un sistem auto-regresiv AR, variabil în timp:

Page 48: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

48

1( ),

( , )( ) ( , ) ( ) w q

A q ns n H q n w q= = (3.16)

unde, w(q) reprezintă un zgomot alb, iar A(q,n) un filtru FIR cu a0=1. Modelul semnalului H(q), este un filtru IIR (ce poate fi aproximat printr-un filtru FIR de ordin mare) a cărui lungime LH, în anumite cazuri, poate să depasească dG. În aceste condiții:{I(8)�(8)} ≠ 0 iar sistemul adaptiv anulează semnalul util s(n) în locul semnalului de reactie y(n), rezultând astfel o degradare semnificativă a calității semnalului de la ieșirea u(n). Metode de reducere a offset-ului sistemelor CAF

Diferite metode au fost propuse în literatură pentru reducerea offset-ul în estimarea căii de reacție, atunci când semnalul dorit/util s(n) este colorat spectral, cum ar fi: decorelara semnalului dorit s(n) și a intrării filtrului adaptiv u(n), utilizarea unui semnal de probă (zgomot) r(n) sau controlul adaptării algoritmului prin anumite constrangeri.

Fig. 47 CAF cu elemente pentru decorelarea semnalelor

Reducerea corelării semnalelor

A. Decorelare prin întarziere Metoda clasică presupune introducerea unui bloc de întîrziere în calea directă dG sau în

anumite cazuri în calea de anulare a reacție acustice dC , așa cum este arătat în Fig. 47. Această metodă porneste de la premiza că, pentru anumite semnale, secvența de autocorelatie E{�(8)�(8 −

∆)} descrește proporțional cu creșterea întârzierii între semnale. Însă, valoarea întârzierii ce poate fi introdusă este limitată. Mai multe studii au evidențiat faptul că o întârziere mai mare de 10ms afecteaza inteligibilitatea semnalului receptionat.

Introdurea întarzierii în calea de reglare a reacției acustice este echivalentă cu aproximarea primilor coeficienți ai filtrului adaptiv cu zero. În acest caz, reducerea ofset-ului reacției acustice se se realizează numai dacă primii coeficienți ai răspunsului la impuls al căii de reacție sunt zero. Ținând cont de caracteristicile căii de transfer a aparatelor auditive (foarte scurte cu un numar mic de primi coeficienți avand valoare zero), acestă soluție nu este aplicabilă în astfel de cazuri. O aplicabilitate a acestei metode ar putea fi în cadrul sistemelor de amplificare/redare a semnalului vocal (speech reinforcement) în mașini/încaperi, având în vedere răspunsul la impuls al acestora.

++

e(n)

G(q)

d(n)

u(n)

y(n)

s(n)

F(q,n)

+-

F(q,n)^

y(n)

Decorr. Decorr.

r(n)

Page 49: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

49

B. Decorelare prin adaugare de neliniarități Decorelarea semnalolor prin distorsionare a fost studiată și aplicată în reducerea ecoului

acustic în sistemele stereofonice. Una din metodele de distorsionare des folosite se bazează pe utilizarea unei transfomate tip “half-wave rectifier”:

( ) ( )( ) ( ) ,

2R

u n u nu n u n α

+′ = + (3.17)

unde LM denumit si factor de distorsionare, controlează nivelul distorsiunilor introduse. Blocul de distorsionare se adaugă în calea de transfer directă a sistemului de reducere a reactiei acustice. Decorelarea semnalelor este direct proporțională cu LM, însa o valoare mare a distorsiunilor afectează puternic calitatea semnalului de iesire.

C. Decorelare prin utilizarea unui semnal de probă (probe noise) O altă metodă alternativă de reducere a corelației dintre s(n) și u(n) este introducerea unui

semnal de probă r(n) (noise probe) la intrarea u(n) a difuzorului (Fig. 47). În general, semnalul r(n) este un zgomot necorelat cu semnalul de intrare. Pentru a minimiza

degradarea raportului semnal/zgomot la ieșire, zgomotul r(n) trebuie să aibă un nivel redus și să fie imperceptibil.

Mai multe metode de generare a unui astfel de zgomot au fost propuse în literatură, fie derivate din metode de codare bazate pe principiul psihoacustic (cum ar fi MPEG - Moving Pictures Expert Group, unde principiul psiho-acustic al codecului MPEG este utilizat pentru a calcula un nivel al zgomotului astfel încât acesta să fie imperceptibil), fie derivate din codec-uri ce folosesc predicția liniară, a căror principiu este de a colora un zgomot alb pe baza modelului semnalului, crescând astfel nivelul zgomotului ce poate fi injectat.

D. Decorelarea prin pre-filtrare O metodă care încearca sa elimine o parte din inconveniențele metodelor prezentate anterior,

crescând astfel viteza de convergență și performanțele sistemului AFC, este folosirea unor pre-filtre, cu rol de filtre de decorelare, aplicate în mod simetric, atât semnalului de eroare e(n) cât și semnalului de referință u(n), asa cum este prezentat înFig. Fig. 48.

Filtrul Wiener obținut folosind semnalele{e(n), u(n)} este identic cu cel obținut folosind perechea de semnale {ep(n), up(n)}, daca E{u(n), s(n)}=0. Pentru a respecta aceasta condiție este necesară o decorelare prin întârziere, introdusa în calea principală

Așa cum se poate observa din Fig. 48, filtrele liniare N(8) = [��, ��, … , �QR]T , de ordin LP ≤

LF, sunt aplicate perechii de semnale {e(n), u(n)} înaintea procesului de adaptare.

P

P

P L

P L

( ) ( ) ( ) ( 1),

( ) ( ) ( ) ( 1)

T

T

e n e n n n

u n u n n n

= − −

= − −

a e

a u (3.18)

unde UVW(8 − 1) = [=(8 − 1), =(8 − 2)… , =(8 − LY)]Z, @VW

(8 − 1) = [9(8 − �1), 9(8 −

2)… , 9(8 − LY)]Z .

Page 50: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

50

Fig. 48 CAF cu decorelare prin pre-filtrare

Una dintre cele mai folosite metode de pre-filtare (decorelare) se bazează pe predicția liniară,

cunoscându-se că filtrele predictoare sunt larg utilizate ca și filtre de albire. În acest caz, N(8) este filtrul predicție liniare, coeficienții acestuia fiind în prealabil obținuți prin metode recursive.

Reducerea offest-ului prin constrângeri impuse algoritmului adaptiv.

Metoda presupune reducerea offset-ului estimării prin impunerea anumitor constrângeri algoritmului adaptiv (C-CAF – Constrained CAF): coeficienții filtrului adaptiv AB(8) sunt constrânși să nu devieze față de valoarea lor de referință fref(n) (măsurată în faza de inițializare sau în prealabil) decât în anumite limite, funcția cost a acesteia fiind:

( )( )ref ref

2T .ˆ ˆ( ) ( ) ( ) ( )ˆ ˆ( ( )) E ( ) ( ) ( ) n n n nJ n d n n n η

− − −= − Tf f f ff f u (3.19)

Din (3.27) rezultă următoarele relații de actualizare a coeficienților filtrului adaptiv, corespunzatoare algoritmului LMS:

( )ref .ˆ ˆ ˆ( 1) ( ) ( ) ( ) ( ) ( ) ( ) ( )n n n n e n n n nµ η µ η+ + − −=f f u f f (3.28)

sau corespunzatoare algoritmului MLMS:

( )( )ref2 2,

ˆ ˆˆ ˆ ˆ( 1) ( ) ( ) ( ) ( ) ( )

F e uLn n n e n n n

σ σ

µη

η δ + + + + − −

+=f f u f f (3.29)

unde η este un factor de compromis (“trade-off factor”) între abilitatea sistemului AFC de a devia de la valoarea de referință și reducerea distorsiunilor semnalului, iar E�[

�, E�\� reprezintă o estimare a

puterii semnalului de eroare respectiv de ieșire (referință pentru filtrului adaptiv).

e(n)

G(q)

d(n)

u(n)

y(n)

s(n)

F(q,n)

+-

y(n)

Z-∆

Pre-filter

A(q,n)

Pre-filter

A(q,n)

Algoritm

Adaptiv F(q,n)^

ep(n)

up(n)

Page 51: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

51

D. Integrarea prelucrării semnalului cu mai multe microfoane cu scăderea spectrală pentru

fiecare microfon

I. Studiul metodelor de integrare a scăderii spectrale (SS) într-o schemă de FCD

întârziere-sumare (DS) II. Studiul diferențelor de aplicare a SS înainte sau după DS

III. Ajustarea adaptivă a parametrilor de scădere pentru scăderea spectrală adaptivă

multicanal IV. Simularea și analiza performanțelor soluțiilor propuse pentru SS și DS cu mai multe

microfoane

V. Implementarea sistemului de îmbunătățire a semnalului cu mai multe-microfoane integrând scăderea spectrală

VI. Diseminarea rezultatelor cercetării prin participarea la conferințe naționale și internaționale și publicarea a unui articol în reviste cotate ISI

Scopul metodelor de îmbunătățire a semnalului vocal este de a estima cât mai bine semnalul vocal s(t), dintr-un set de observații ym(t), fiecare dintre acestea fiind alterată de un zgomot de fond bm(t) și convoluate cu răspunsul la impuls al încăperii gm(t). În cadrul acestui obiectiv se vor prezenta tehnici ce folosesc un singur microfon al căror scop este eliminarea zgomotului de fond (background

noise). Astfel relația ce descrie modelul observațional general devine:

( ) ( ) ( )y t s t b t= + (4.20)

Cea mai utilizată metodă de eliminare a zgomotului aditiv, datorită simplicității și complexității sale reduse, prezentată pe larg în acest capitol, este metoda de scădere spectrală propuse de Berouti și Boll, ce realizează o scădere spectrală atât la nivel de putere cât și la nivel de amplitudine. Ca dezavantaj, această metodă introduce o distorsionare a semnalului vocal, cunoscută și sub denumirea de zgomot muzical (musical noise). Distorsiunea apare atunci când estimatul spectrului de putere a zgomotului este scăzut din valoarea instantanee a acestuia. Mai multe metode, văzute ca extensii ale metodei de scădere spectrală, au fost propuse în încercarea de a minimiza efectul zgomotului “muzical”.

Prima secțiune prezintă tehnica de scădere spectrală. Cea de a doua secțiune detaliază un detector de semnal vocal robust și usor implementabil în sistemele de timp real bazat pe logaritmul energie. Discuțiile ca urmare a experimentelor realizate cât și câteva concluzii sunt prezentate în final. METODA SCĂDERII SPECTRALE.

Scăderea spectrală se bazează pe o idee aparent simplă. Pentru a recupera semnalul vocal se transformă modelul observațional, definit de (4.20), în domeniul frecvență. Procesarea este făcută cadru cu cadru, prin înmulțirea semnalului segmentat cu fereastra w(n) de suport finit. Aplicând transformata Fourier discretă semnalului y(n) se obține:

21( )

0

( ) ( ) ( ) ,y

N j kn j kN

k

Y k y n e Y k e

πφ

− −

=

= =∑ (4.21)

unde ]^(�) reprezintă faza semnalului afectat de zgomot, iar N este lungimea ferestrei. Astfel, relația (4.20) în domeniu frecvență devine:

( ) ( ) ( )( ) ( ) ( )y s bj k j k j k

Y k e S k e B k eφ φ φ= + (4.22)

Ideea de bază a fost să se renunțe la informațiile cu privire la fază și să de definească, într-o primă etapă, scăderea spectrală numai pe baza spectrului puterii:

Page 52: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

52

2 2 2( ) ( ) ( ) ,Y S Bω ω ω= + (4.23)

Valoarea estimată a semnalului vocal “curat” devenind:

( )

{ }

2 2 2

1

ˆ( ) ( ) ( ) ,

ˆ ˆ( ) ( ) ,

ˆˆ( ) ( ) .

S S B

S S Y

s t F S

ω ω ω

ω ω ω

ω−

= −

= ∠

=

(4.24)

După cum se poate observa, estimarea magnitudinii spectrale a semnalului vocal ˆ( )S ω este

recombinată cu faza semnalului observat ( )Y ω∠ , rezultând astfel o aproximare a semnalului vocal ”curat”. Acest lucru va conduce în mod normal la o distorsiune cauzată de faza semnalului de zgomot.

Una din principalele probleme ale acestei metode este obținerea unei aproximații a

zgomotului 2

( )B ω . Un impediment îl reprezintă caracteristicile parametrilor folosiți în aproximarea

zgomotului, în principal offset-ul (bias) și varianța, iar un alt impediment ar fi modul de observare al semnalului de zgomot. Una din metodele inițiale pornește de la premiza că prima secundă din semnalul recepționat reprezintă doar zgomot, estimându-se intensitatea zgomotului din acest semnal. Dezavantajele acestei metode ar fi înlăturarea eronată a anumitor componente ale semnalului vocal, presupunând că zgomotul ar fi trebuit să fie staționar pentru întreaga perioadă de operare.

O alternativă, poate cea mai utilizată, este folosirea unui detector vocal (VAD), pentru a putea detecta cadrele dominate de sunet și cele dominate de zgomot, estimarea zgomotului realizându-se numai pentru acele cadre de zgomot. Provocarea în cadrul acestei metode este dezvoltarea unor VAD-uri cât mai fiabile.

De asemenea, metodele propuse de Martin și Cohen au fost acceptate ca și metode moderne ce realizează o estimare a zgomotului, fără folosirea unui VAD explicit, însă ambele metode s-au dovedit a fi ineficiente în momentul aplicării lor într-un mediu cu zgomot non-staționar.

Astfel, metoda de scădere spectrală poate fi descrisă folosind scăderea spectrală generalizată, descrisă prin următoarele relații:

( )

( )

1 1

( ) ( ) ( ) ,

( ) ( )ˆ( ) ,

D Y B

D dacă D BS

B în restul cazurilor

ω ω α ω

ω ω β ωω

β ω

γ γ

γ γ

= −

>=

(4.25)

unde, 1α ≥ este un factor de scădere spectrală și , 0 1,β β≤ ≪ este un parametru ce determină

nivelul de scădere spectrală (spectral floor parameter). Semnalul vocalului poate fi obținut folosind (4.24). Exponentul 2γ = corespunde scăderii spectrale a puterilor și 1γ = corespunde scăderii

spectrale a magnitudinilor.

DETECȚIA ACTIVITĂȚII VOCALE PE BAZA LOGARITMULUI ENERGIE SEMNALULUI.

Anterior s-a introdus scăderea spectrală ca tehnică pentru reducerea zgomotului. Inițial, zgomotul a fost estimat folosind o mediere recursivă a eșantioanelor de zgomot prin identificarea segmentelor de semnal dominate de zgomot, folosind VAD-ul ideal ce a fost generat utilizând un semnal vocal nealterat de zgomot.

Page 53: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

53

În continuare se va investiga un algoritm VAD de complexitate redusă și cu performanțe satisfăcătoare în cazul semnalelor ne-staționare, ce va fi ulterior folosit atât în cadrul tehnicilor cu un singur microfon cât și a celor bazate pe arii de microfoane. Acest VAD a fost propus de Van Gerven și Xie și se bazează pe o mediere a estimării logaritmului energiei semnalului, pe segmente de timp reduse (short time log-energy VAD). Folosind parametrii statistici ai semnalului (valoarea medie și varianța), se poate realiza o diferențiere a logaritmului energiei instantanee de cea mediată, pe baza unui a două praguri: unul pentru voce TS (speech onset) și altul pentru zgomot TN (speech offset) definite ca:

ˆ ˆ( ) ( ) ( )

ˆ ˆ( ) ( ) ( ) ,S N N

N N N

T m m m

T m m m

µ ασ

µ βσ

= +

= + (4.26)

unde ˆ ( )N mµ și 2ˆ ( )N

mσ reprezintă o estimare a valorii medii respectiv a varianței zgomotului

corespunzător frame-ului m, fiind actualizate numai pe durata lipsei semnalului vocal. 4α = și 1.2β = sunt parametrii folosiți în definirea celor două praguri ale semnalulu vocal “onset”, respectiv

“offset”. Definind logaritmul energiei semnalului observațional y(k) ca fiind:

1

210

0

1( ) log ( ) ,

N

y

i

E m y Nm iN

=

= +

∑ (4.27)

algoritmul VAD este sumarizat în Algoritm 4.1. O metodă alternativă de calcul a energiei semnalului (4.27) este utilizarea transformatei Fourier de timp scurt (STFT) aplicată semnalului ce a fost ferestruit.

Algoritm 4.1 Algoritmul Log-energy VAD

1. calculează energia semnalului ( )y

E m folosind (4.27) coresp. frame m

2. if ( ( ) ( 1)y S

E m T m≥ − ),

speech onset detectat => detecție semnal vocal onset=1; else onset=0;

3. if ( ( ) ( 1)x NE m T m≤ − ) speech offset detectat => actualizare parametrii statistici ai zgomotului

offset=1; else offset=0;

4. if (offset==1 && onset==0)) actualizare parametrii statistici ai zgomotului prin mediere recursivă

( ) ( 1)

( ) ( 1) ( )

ˆ ˆ (1 )

ˆ ˆ ˆ(1 )

( )

( )

y

y

m m

m m m

N N

N N N

E m

E m

µ µ

σ σ

µ γ µ γ

σ γ σ γ µ

= + −

= + − −

else

( ) ( 1)

( ) ( 1)

m m

m m

N N

N N

µ µ

σ σ

=

=

5. calcul TS și TN folosind (4.26)

6. Decizie VAD_Out = onset

Page 54: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

54

Întrucât marcarea cadrelor de voce ca zgomot are un efect mult mai dăunător decât marcarea cadrelor de zgomot ca voce, algoritmul poate fi îmbunătățit minimizând numărul de tranziții dintre cele două praguri (hangover) astfel: atunci când un eveniment tip speech onset a fost detectat, frame-ul corespunzător nu este marcat imediat ca și cadru de zgomot, ci după un număr de ms (frame-uri), timp în care ieșirea sistemului indică în continuare frame-ul respectiv ca fiind de voce.

REZULTATE EXPERIMENTALE. DISCUȚII

Experimentele efectuate au ca scop identificarea performanțelor sistemelor de detectare a semnalului vocal cât și a algoritmilor de reducere a zgomotului cu un singur microfon în condiții de mediu diferite (diferite tipuri de semnale perturbatoare).

Analiza performanțelor VAD-ului

Funcționalitatea VAD-ului, descris de Algoritm 4.1 a fost testată folosind mai multe tipuri de zgomot. Astfel semnalul vocal “clar” este perturbat de mai multe tipuri de zgomot, cu un raport semnal zgomot de SNR=5dB. Algoritmul de detecție a semnalului vocal folosește următorii parametrii:

• semnalul observațional este împărțit în cadre de 160ms, ferestruite cu o fereastră tip Hanning, • energia semnalului ( )

yE m se calculează folosind o suprapunere de 50% a acestora.

• parametrii folosiți în definirea cele două praguri ale semnalului vocal “onset” respective “offset” sunt 5α = și 1.3β = .

• parametrii statistici ai zgomotului sunt calculați folosind următoarele constante empirice: 0.76µγ =

și 0.97σγ =

Pentru fiecare tip de zgomot se vor prezenta, caracteristica spectrală a acestuia, “decizia” VAD-ului prin comparație cu cea a unui VAD ideal precum și distribuția energiei logaritmice și a pragurilor TS și TN .

Spectrul mediu de amplitudini a semnalului de zgomot s-a calculat cu formula:

1

0

1ˆ ( ) ( ) ,L

w i

i

E k Y kL

=

= ∑ (4.28)

unde L=50 reprezintă numărul de cadre, iar ( )iY k este spectrul aferent cadrului i de semnal.

Page 55: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

55

a.a.a.a.

ZZZZggggomot Albomot Albomot Albomot Alb

„White Noise”„White Noise”„White Noise”„White Noise”

b.b.b.b.

ZZZZgomot Coloratgomot Coloratgomot Coloratgomot Colorat

„„„„PinkPinkPinkPink Noise”Noise”Noise”Noise”

Page 56: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

56

c.c.c.c.

ZZZZggggomot omot omot omot Conv.Conv.Conv.Conv.

„„„„BabbleBabbleBabbleBabble Noise”Noise”Noise”Noise”

d.d.d.d.

ZZZZgomot Negomot Negomot Negomot Ne----

stastastastaționarționarționarționar

„„„„EngineEngineEngineEngineNoise”Noise”Noise”Noise”

Page 57: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

57

Fig. 49 Performanțele VAD-ului “Log-Energy” pentru diferite tipuri de semnal de intrare.

În acest paragraf s-au prezentat performanțele algoritmului de detecție a activității vocale bazat pe logaritmul energie (Log-Energy VAD), în condițiile unor semnale observaționale reale. După cum se poate observa, performanțele acestui algoritm sunt satisfăcătoare atât în condițiile unui zgomot alb cât și în situația aplicării unui zgomot real nestaționar (motor/avion).

Pasul următor constă în folosirea VAD-ului împreună cu tehnicile de reducere a zgomotului folosind un singur microfon, bazate pe algoritmul de scădere spectrală, analizându-se performanțele acestora în condițiile semnalelor de test de mai sus, pentru diferite valori ale SNR-ului.

Performanțele algoritmului de scădere spectrală în combinație cu VAD-ul Log-Energy

Pentru a compara performanțele VAD-ului “log-energy” cu cele ale VAD-ului ideal,

s-au repetat experimentele din paragraful anterior. Pe durata cadrelor de zgomot se va aplica metoda de scădere spectrală (4.25) cu următorii parametrii empirici: factorul de scădere

spectrală 5α = , nivelul de scădere spectrală 0.01β = , 2γ = (scădere a spectrului de putere), semnalului vocal alterat cu un zgomot aditiv, SNR=5dB. Rezultatele sunt sumarizate în Tab. 10 și Tab. 11..

Tab. 10. Variația indicatorilor de performanță pentru algoritmul de scădere spectrală SNR=5dB, zgomot alb gaussian

SNR[dB] ∆SNR[dB] SNRSEG[dB] WSSM MOS−LQO IS

VAD Ideal 13.64423 8. 64423 1.016603 30.70301 1.946 9.199001

VAD Log-Energy 13.54367 8.54367 0.952079 31.64209 1.909 9.193795

e.e.e.e.

ZZZZggggomot omot omot omot Avion.Avion.Avion.Avion.

„„„„AirPlaneAirPlaneAirPlaneAirPlane Noise”Noise”Noise”Noise”

Page 58: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

58

Tab. 11. Variația indicatorilor de performanță pentru algoritmul de scădere spectrală SNR=5dB, zgomot de motor

SNR[dB] ∆SNR[dB] SNRSEG[dB] WSSM MOS−LQO IS

VAD Ideal 11.49464 8.54367 -0.04734 53.31638 1.556 8.810902 VAD Log-Energy 10.134937 8.54367 -1.82329 60.62349 1.432 8.950937

După cum se poate observa, performanțele algoritmului de scădere spectrală, pentru cazul

zgomotului alb par să fie comparabile. Diferențe ceva mai semnificative (performanțe îmbunătățite pentru cazul VAD ideal) se pot

observa în cazul utilizării unui zgomot nestaționar (de exemplu: zgomot motor), cauzate de performanțele VAD-ului. Experimental s-a constatat o îmbunătățire a performanțelor VAD-ului bazat pe logaritmul energiei prin micsorarea segmentelor (numărului de eșantioane) folosite în calcului deciziei acestuia.

Fig. 50 și Fig. 51 prezintă o evaluare a performanțelor algoritmului de scădere spectrală folosind cele 2 tipuri de VAD-uri, atât din punct de vedere al măsurilor de reduce a zgomotului cât și al celor ce evaluează distorsionarea semnalelor (WSS/MOS-LQO/IS).

Metoda de scădere spectrală este o metoda relativ simpla de reducere a zgomotului aditiv, staționar și ne-staționar. Asa cum se poate observa, estimarea zgomotului are un rol foarte important pentru funcționalitatea eficientă algoritmului de scădere spectrală.

Reducerea zgomotului cu caracteristici ne-staționare (muzică/trafic) va diminua performanțele scăderii spectrale (după cum se poate observa prin analiză comparativă a rezultatelor prezentare în Fig. 50 și Fig. 51), deoarece estimarea zgomotului este mai dificilă. În cazul studiurilor de caz efectuate, estimarea zgomotului este realizată folosind tehnica de mediere recursivă pe segmente tip zgomot dominant, identificarea acestora făcându-se folosind VAD-uri.

Fig. 50. Performanțele algoritmului de scădere spectrală pentru cele două tip-uri de VAD-uri în

condițiile utilizării unui zgomot alb

Page 59: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

59

Fig. 51. Performanțele algoritmului de scădere spectrală pentru cele două tip-uri de VAD-uri în condițiile utilizării unui zgomot nestaționar (de motor)

Diseminarea rezultatelor cercetării CAPITOL CARTE

1. C. Anghel, C. Stanciu, and C. Paleologu, “Efficient FPGA implementation of a CTC turbo

decoder for WiMAX/ LTE mobile systems,” in Field-Programmable Gate Array. George Dekoulis (Editor), InTech, Rijeka, Croatia, 2017.

ARTICOLE REVISTE ISI

1. J. Benesty, C. Paleologu, and S. Ciochina, “On the identification of bilinear forms with the Wiener filter,” IEEE Signal Processing Lett., vol. 24, pp. 653-657, May 2017.

2. C. Anghel, C. Stanciu, and C. Paleologu, “LTE turbo decoding parallel architecture with single interleaver implemented on FPGA,” Circuits, Systems & Signal Processing, vol. 36, pp. 1455-1475, Apr. 2017.

3. C. Paleologu, S. Ciochina, J. Benesty, and S. L. Grant, “An overview on optimized NLMS algorithms for acoustic echo cancellation,” EURASIP Journal Advances Signal Processing, 2015, 2015:97 (19 pages).

ARTICOLE CONFERINŢE

1. C. Paleologu, J. Benesty, and S. Ciochina, “An NLMS algorithm for the identification of bilinear forms,” in Proc. European Signal Processing Conference (EUSIPCO), 2017, pp. 2689-2693, Kos, Greece.

Page 60: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

60

2. S. Ciochina, C. Paleologu, and J. Benesty, “Analysis of an LMS algorithm for bilinear forms,” in Proc. IEEE International Conference on Digital Signal Processing (DSP), 2017 (5 pages), London, UK.

3. L. Dogariu, S. Ciochina, C. Paleologu, J. Benesty, and P. Piantanida, “An adaptive solution for nonlinear system identification,” in Proc. IEEE International Symposium on Signals,

Circuits and Systems (ISSCS), 2017 (4 pages), Iasi, Romania. 4. R. A. Dobre, V. A. Nita, S. Ciochina, and C. Paleologu, “Improved convergence model of the

affine projection algorithm for system identification,” in Proc. IEEE International Symposium

on Signals, Circuits and Systems (ISSCS), 2017 (4 pages), Iasi, Romania. 5. R. A. Dobre, C. Paleologu, S. Ciochina, C. Negrescu, and D. Stanomir, “Investigation on the

performances of APA in forensic noise reduction,” in Proc. IEEE International Conference

on Speech Technology and Human-Computer Dialogue (SpeD), 2017 (6 pages), Bucharest, Romania.

6. I. Albu, C. Anghel, and C. Paleologu, “Adaptive filtering in acoustic echo cancellation systems – A practical overview,” in Proc. IEEE International Conference on Electronics,

Computers and Artificial Intelligence (ECAI), 2017 (6 pages), Targoviste, Romania. 7. C. Elisei-Iliescu and C. Paleologu, “Recursive least-squares algorithms for echo cancellation -

An overview and open issues,” in Proc. International Conference on Networks (ICN), 2017, pp. 87-91, Venice, Italy. *Paper Award*

8. C. Elisei-Iliescu, C. Stanciu, C. Paleologu, J. Benesty, C. Anghel, and S. Ciochina, “Robust variable-regularized RLS algorithms,” in Proc. IEEE HSCMA, 2017, pp. 171-175, San Franciso, USA.

9. C. Stanciu, C. Anghel, C. Paleologu, S. Ciochina, and J. Benesty, “FPGA implementation of an optimized NLMS algorithm,” in Proc. IEEE International Symposium on Electronics and

Telecommunications (ISETC), 2016 (4 pages), Timisoara, Romania. 10. R. A. Dobre, C. Elisei-Iliescu, C. Paleologu, C. Negrescu, and D. Stanomir, “Robust audio

forensic software for recovering speech signals drowned in loud music,” in Proc. IEEE

SIITME, 2016 (4 pages), Oradea, Romania. 11. S. Ciochina, C. Paleologu, J. Benesty, S. L. Grant, and A. Anghel, “A family of optimized

LMS-based algorithms for system identification,” in Proc. European Signal Processing

Conference (EUSIPCO), 2016, pp. 1803-1807, Budapest, Hungary. 12. C. Elisei-Iliescu, C. Paleologu, and R. Tamas, “On the performance of variable forgetting

factor recursive least-squares algorithms,” in Proc. SPIE ATOM-N, 2016 (6 pages), Constanta, Romania.

13. C. Paleologu, J. Benesty, C. Stanciu, C. Anghel, and M. Stenta, “Robust regularization of the recursive least-squares algorithm,” in Proc. IEEE International Conference on Electronics,

Computers and Artificial Intelligence (ECAI), 2016 (4 pages), Ploiesti, Romania. *Invited

Paper* 14. C. Stanciu, C. Anghel, C. Paleologu, S. Ciochina, and J. Benesty, “On the numerical

properties of an optimized NLMS algorithm,” in Proc. IEEE International Conference

COMMUNICATIONS (COMM), 2016 (4 pages), Bucharest, Romania. 15. R. M. Udrea, C. C. Oprea, and C. Stanciu, “Multi-microphone Noise Reduction System

Integrating Nonlinear Multi-Band Spectral Subtraction”, in Proc. 2nd EAI International

Conference on Future Access Enablers of Ubiquitous and Intelligent Infrastructures (FABULOUS) 2016, Belgrad, Serbia.

Page 61: Dezvoltarea de algoritmi robusti pentru imbunatatirea ... · mediul de propagare, ( c = 340 m/s p Semnalul incident este pre ... a sunetului în eșantionare corespunde o țială,

61

16. C. Stanciu, M. Udrea, and C. Anghel, “Improved Regularization for a Low Complexity RLS Algorithm,” in Proc. 24th Telecommunications Forum (TELFOR) 2016, Belgrad, Serbia.