cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf ·...

26
Universitatea Tehnic˘ a din Cluj-Napoca Facultatea de Electronic˘ si Telecomunicat ¸ii REZUMAT AL TEZEI DE DOCTORAT Annamaria Mesaro¸ s Cercet˘ ari privind elaborarea unui model pentru caracterizarea timbrului semnalelor muzicale Conduc˘ator¸ stiint ¸ific: Prof. Dr. Ing. Corneliu Rusu Cluj-Napoca 2007

Upload: others

Post on 07-Sep-2019

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

Universitatea Tehnica din Cluj-NapocaFacultatea de Electronica si Telecomunicatii

REZUMAT AL TEZEI DE DOCTORAT

Annamaria Mesaros

Cercetari privind

elaborarea unui model

pentru caracterizarea

timbrului semnalelor muzicale

Conducator stiintific: Prof. Dr. Ing. Corneliu Rusu

Cluj-Napoca 2007

Page 2: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

Introducere

Timbrul muzical descrie acele caracteristici care permit urechii sa distinga sunetele

diferite. Notiunea de timbru este folosita ın general pentru a include toate caracteristicile

diferite de frecventa si de intensitate [95], fara a da ınsa o lista completa a acestora.

Ca oameni, putem distinge sunetul tunetului de sunetul unei usi trantite, sunetul unei

viori fata de sunetul unui flaut, sunetul unei voci fata de o alta voce. Timbrul permite

identificarea si urmarirea sursei unui sunet, iar instrumentele muzicale le recunoastem cu

usurinta fara a avea studii muzicale de specialitate.

Vocea cantata este cel mai vechi instrument muzical, ınsa versatilitatea si puterea ei

emotionala sunt neegalabile. Prin combinatia realizata de muzica, versuri si expresie,

vocea cantata ne afecteaza ıntr-un mod special fata de celelalte instrumente. Faptul

ca muzica vocala este prezenta ın toate culturile este un indicator al apelului sau la

estetica umana. Vocea cantata penetreaza de asemenea majoritatea genurilor muzicale,

dovada a gamei largi de sunete pe care vocea umana poate sa le produca. Ca ascultatori

suntem imediat atrasi de sunetul vocii cantate, care, atunci cand este prezenta ıntr-un

cantec, devine imediat punctul principal al atentiei. Aceasta lucrare propune un studiu

al calitatilor care fac vocea cantata atat de deosebita.

Vocile individuale sunt ın mare masura distinctive si reflecta identitatea persoanei

care canta. Odata familiari cu vocea unui cantaret, putem sa ıl identificam usor ın alte

piese muzicale. Abilitatea noastra de a recunoaste vocile este independenta de muzica ın

sine, deoarece suntem capabili sa identificam cantaretii preferati chiar si ın piese pe care

nu le-am auzit niciodata. De asemenea, avem nevoie de foarte putina informatie pentru

a realiza identificarea, uneori o secunda sau doua, iar familiaritatea cu o anumita voce se

realizeaza dupa expunere redusa la aceasta [97]. Dupa ascultarea unei fraze sau a unui

vers al unui cantec, avem deja o idee suficient de completa despre caracteristicile esentiale

ale acelei voci.

Abilitatea umana de a face conexiunea ıntre sunetul unei voci si identitatea cantaretului

se bazeaza pe doua sisteme principale: sistemul auditiv uman si fiziologia aparatului vo-

cal. Data fiind importanta comunicarii vocale, nu este deloc surprinzator ca fiziologia

aparatului auditiv uman si mecanismul perceptual au evoluat spre a fi atat de specia-

2

Page 3: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

lizate pentru vocea umana. Prin acest sistem relativ simplu din punct de vedere fizic, o

vibratie si o rezonanta, se poate produce o varietate nemasurata de sunete.

Descrierea caracterului distinctiv al unei voci este totusi dificila fara a apela la ter-

meni vagi si subiectivi (”aspra”, ”stridenta”, etc.) care nu au un corespondent obiectiv.

Calitatile vocii sunt o combinatie de factori fizici, cum ar fi marimea tractului vocal, si fac-

tori ınvatati de expresivitate, cum ar fi de exemplu accentul [91]. Cuantizarea, extragerea

si modelarea acestor trasaturi s-a dovedit a fi o problema deosebit de complicata [99].

Algoritmii standard de analiza pentru procesarea semnalelor audio nu sunt ıntotdeauna

potriviti pentru a modela vocea cantata.

In mod similar, ıntelegerea trasaturilor perceptuale care permit vocii sa penetreze

sunetele altor instrumente muzicale, este si ea dificila. Chiar identificarea prezentei vocii

ıntr-o mixtura de instrumente, lucru pe care omul ıl face din reflex, este dificil de realizat

prin metode computationale, iar aceasta dificultate se extinde si pentru alte clase de

sunete. Intr-un fel, stim mai putin despre trasaturile importante din punct de vedere

perceptual ale vocii decat stim despre modelarea aparatului vocal.

Vocea cantata prezinta o provocare deosebita datorita variatiei sale fizice atat de

ınsemnate, comparativ cu alte instrumente. Pentru a realiza pronuntia diferitelor cuvinte,

o persoana trebuie sa ısi miste maxilarul, mandibula, limba, modificand forma si deci

proprietatile mecanismului vocal [91]. Acest domeniu de variatie acustica este greu de

capturat ıntr-un model de dimensiuni mici. Nici un alt instrument nu dezvolta cantitatea

de variatie fizica a vocii umane, din aceasta cauza tehnicile de analiza a semnalului folosite

pentru alte instrumente deseori nu pot fi aplicate cu succes vocii cantate.

Aceasta teza propune un studiu al timbrului semnalelor muzicale ın vederea carac-

terizarii identitatii sursei acestora. Datorita caracteristicilor particulare ale vocii cantate,

studiul este directionat catre analiza vocii cantate si identificarea solistului unei melodii.

Studiul se bazeaza pe ipoteza ca trasaturile fizice si cele expresive, ca factori primari ın

determinarea sunetului unic al unei voci, pot fi reprezentate numeric printr-o serie de

trasaturi care sa permita distinctia vocilor ıntr-un spatiu de trasaturi, folosind tehnici de

clasificare.

3

Page 4: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

Organizarea tezei

Prima faza a studiului consta ın identificarea si extragerea parametrilor specifici, luand

ın considerare trasaturile fizice ale vocii. Acesti parametri sunt estimati din ınregistrari ale

vocii cantate folosind tehnici clasice de prelucrare a semnalelor. In a doua faza a analizei,

parametrii sunt modelati pentru a captura variatia calitatilor vocii, folosind algoritmi de

clasificare si de ınvatare automata. Intregul procedeu de analiza este organizat conform

acestor doua etape.

In conformitate cu acestea, teza este organizata dupa cum urmeaza. Capitolul 2

prezinta informatii de baza despre trasaturile semnalelor muzicale. Acesta include o

privire de ansamblu a anatomiei si fiziologiei sistemului auditiv si a sistemului de pro-

ducere a vorbirii. Sunt prezentate de asemenea trasaturi generale ale sunetelor instru-

mentelor muzicale, precum si legatura ıntre principalele trasaturi obiective (masurabile

fizic) si subiective (perceptuale) ale semnalelor muzicale.

In capitolul 3 sunt prezentate elemente de prelucrare a semnalelor muzicale. Capitolul

include metode generale de prelucrare numerica a semnalului, precum si metode specifice

aplicabile semnalului vocal. Capitolul prezinta o descriere detaliata a metodelor folosite

ın estimarea parametrilor din ınregistrari acustice ale vocii cantate.

Capitolul 4 prezinta metode de clasificare generale ce pot fi aplicate ın clasificarea

vocilor cantate pe baza trasaturilor extrase. Capitolul introduce notiuni necesare din

prelucrarea statistica a semnalelor si metode de clasificare consacrate: functii de dis-

criminare, distante, retele neuronale, mixturi gaussiene. Se ofera de asemenea motivatia

pentru testarea mai multor clasificatoare si a mai multor seturi de trasaturi ın aceeasi

problema de clasificare.

Capitolul 5 detaliaza contributiile aduse la dezvoltarea modelului vocii cantate. Este

dezoltat ın trei directii: un studiu al corelatiei existente ıntre trasaturi extrase din spectrul

semnalului vocal, o dezvoltare a separarii componentelor modelului sursa filtru de pro-

ducere a vorbirii si clasificarea vocilor cantate pe baza coeficientilor cepstrali pe scala Mel,

considerati a fi trasaturi timbrale. Experimentele examineaza performantele metodelor si

modelelor propuse ın contextul identificarii unei voci pe baza caracterizarii sale numerice.

Capitolul 6 este dedicat concluziilor si evaluarii contributiilor autorului.

4

Page 5: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

Contributii la dezvoltarea cercetarii ın domeniu

O contributie majora a acestei teze este studiul caracteristicilor spectrale ale vocii

cantate, ın comparatie cu instrumentele muzicale si cu vocea vorbita. Este studiata

corelatia ıntre trasaturi spectrale folosite pentru descrierea caracteristicilor vocii. Ca-

racteristicile vocii cantate sunt puternice, vocea penetreaza cu usurinta acompaniamentul

instrumental prezent ıntr-un cantec si atrage imediat atentia ascultatorului. Acest fapt

motiveaza alegerea vocii cantate ca semnal principal pentru studiul timbrului semnalelor

muzicale.

In ideea de a realiza o caracterizare completa a vocii cantate prin trasaturi exprimate

numeric, se pot combina metodele utilizate ın analiza vorbirii cu metodele utilizate ın

analiza sunetelor instrumentelor muzicale. Dinamica vocii cantate este diferita de cea a

vocii vorbite [91]. Partile ce constituie note sustinute ın vocea cantata sunt asemanatoare

cu sunetele instrumentelor muzicale. In studiul instrumentelor muzicale au aparut tehnici

de prelucrare specifice care tin cont de particularitatile semnalului. Primele studii cu

rezultate notabile ın identificarea instrumentelor muzicale prin prelucrarea semnalului

sonor au fost facute pe tonuri izolate si pe seturi constand dintr-un numar redus de

instrumente [37]. Cele mai des folosite trasaturi sunt coeficientii cepstrali calculati prin

diferite metode [7], [12], [42]. Alte seturi de trasaturi includ caracteristici spectrale si

temporale masurabile din semnalul analizat [38].

Ca prim pas ın analiza vocii cantate am ales studierea spectrului acesteia. Am calculat

ın acest scop trasaturi spectrale definite ın literatura de specialitate: centroidul spectral,

iregularitatea spectrala, tristimulus, raportul ıntre efectul armonicelor pare si impare.

Aceste trasaturi au fost studiate de diferiti autori ın contextul sintezei sunetelor instru-

mentelor muzicale si au fost folosite cu succes ın discriminarea instrumentelor [30]. Anal-

iza ın detaliu a evolutiei acestor trasaturi ın functie de frecventa a determinat obtinerea

unor sunete sintetizate cu sunet natural. Vocea cantata nu a fost un subiect important

ın [30], scopul autorului fiind caracterizarea sunetelor instrumentelor muzicale pentru o

sinteza naturala. Autorul aminteste doar ca trasaturile calculate pentru vocea cantata

soprano nu au aceleasi proprietati ca cele calculate ın cazul instrumentelor muzicale stu-

diate.

5

Page 6: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

Aceasta teza completeaza studiul sunetelor instrumentelor muzicale prin adaugarea

vocii cantate ca instrument studiat ın contextul determinarii unei caracterizari numerice a

spectrului acesteia. In acest sens, sectiunea 2 din capitolul 5 al tezei prezinta amanuntit

estimarea trasaturilor spectrale definite ın literatura de specialitate, calculate pentru

vocea cantata. Studiul foloseste voci diferite cantand aceeasi fraza muzicala. Scopul

studiului este combinarea tehnicilor de prelucrare a semnalului cu cunostinte privind

teoria muzicala si tehnicile de antrenare a vocii, pentru a analiza si a explica dependentele

ıntre diversi factori ce caracterizeaza identitatea vocii cantate.

Este prezentata definirea trasaturilor spectrale folosite ın acest studiu, conform au-

torilor din domeniu. Metodele de calcul a acestora sunt descrise amanuntit, ıncepand

cu preprocesarea semnalului. Dupa o detectie generala sonor/nesonor cu decizie bazata

pe valoarea energiei semnalului, portiunile sonore sunt analizate ın frecventa. Spectrul

semnalului este calculat folosind transformata Fourier, urmata de ajustari necesare de-

terminarii pozitiei exacte a armonicelor extrase. Structura armonica a ıntregului semnal

constituie o matrice de valori de amplitudine indexata ın frecventa. Dupa obtinerea

descrierii structurii armonice a semnalului, trasaturile definite se calculeaza pe baza for-

mulelor. Variatia ın timp a trasaturilor este analizata din punct de vedere al corelatiei

ıntre marimile calculate folosind coeficientul de corelatie Spearman.

Rezultatele obtinute indica o dependenta importanta ıntre valorile trasaturilor spec-

trale analizate si modul de articulatie, mai exact pozitionarea formantilor. Cantaretii

profesionisti ısi antreneaza vocea ın functie de mai multe elemente legate de fiziologie

si teorie muzicala. Astfel, pozitia primului formant este dependenta de frecventa fun-

damentala. Vocile soprano pozitioneaza primul formant cel putin la valoarea frecventei

fundamentale, care deseori depaseste valorile normale definite pentru formant ın vorbire.

Calitatea vocii este determinata de formantii mai ınalti, deoarece formantii F1 si F2

au pozitii limitate pentru inteligibilitate. Pozitia primului formant influenteaza puternic

trasaturile studiate. Astfel, aceste trasaturi nu pot fi folosite pentru discriminarea vocilor

cantate ın acelasi fel ın care sunt folosite ın discriminarea instrumentelor muzicale. O

explicatie plauzibila pentru aceasta este faptul ca ın cazul vocii umane, legatura dintre

frecventa fundamentala si formanti nu este atat de stransa ca ın cazul instrumentelor

muzicale. Primul formant are o pozitie influentata de frecventa fundamentala, ınsa ın

6

Page 7: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

principiu regiunile formantice sunt caracteristice vocalei rostite [81]. In instrumentele

muzicale, rezonantele se stabilesc la multiplii ıntregi ai frecventei fundamentale, datorita

constructiei acestora [95].

Formantii caracterizeaza forma tractului vocal, raspunsul acestuia la frecventa. In

mecanismul de producere a vorbirii sunt implicate doua parti ce au fost ıntotdeauna

analizate separat: unda glotala ca semnal sursa si tractul vocal ca filtru ce modifica

semnalul sursa pentru a produce semnalul vocal. Acesta este semnalul acustic la iesirea

sistemului. Forma undei glotale ofera informatii importante despre starea de sanatate a

vorbitorului, alaturi de informatii legate de identitatea acestuia.

Contributia acestei teze la caracterizarea componentelor modelului sursa-filtru al vor-

birii este prezentata ın sectiunea 3, capitolul 5. In aceasta directie, teza propune doua

metode de determinare a fazei glotale ınchise folosind numai informatia oferita de sem-

nalul acustic.

Obtinerea formei de unda glotale este teoretic simpla: avand dat modelul de produ-

cere a vorbirii, se poate construi sistemul invers. Semnalul acustic trebuie filtrat printr-un

filtru invers celui ce modeleaza comportamentul tractului vocal. Tractul vocal este mo-

delat ın analiza semnalului vocal printr-un filtru numai cu poli, ai carui parametri se

obtin prin predictie liniara, algoritm prezentat ın capitolul 3 al tezei.

Un ciclu glotal este alcatuit din doua faze: perioada cat glota este ınchisa si perioada

deschisa. In timpul unui ciclu glotal complet, caracteristicile sistemului se schimba. Cat

timp glota este ınchisa, tractul vocal se comporta ca un tub ınchis la un capat iar semnalul

vocal consta ın rezonantele libere ale acestuia. Cand glota este deschisa, traheea, coardele

vocale si tractul vocal sunt cuplate acustic, cuplajul fiind neliniar [83]. Caracteristicile

sistemului ın faza deschisa sunt dependente de semnal.

Rezonantele libere din faza ınchisa pot fi modelate printr-un filtru numai cu poli.

Pentru faza deschisa, cuplajul neliniar introduce poli si zerouri ın functia de transfer,

pentru modelarea deplasarii si a atenuarii accentuate a formantilor [90]. Daca analiza prin

predictie liniara este realizata pe un numar de cicluri glotale consecutive, caracteristicile

determinate pentru sistem vor fi o mediere a caracteristicilor din perioada ınchisa si din

perioada deschisa. Estimarea caracteristicilor sistemului strict ın perioada glotala ınchisa

ofera acuratete ın caracterizarea obiectiva a sistemului, modelul obtinut pentru filtru fiind

7

Page 8: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

mai exact [98].

In aplicatiile realizate ın cercetare medicala, deodata cu semnalul acustic se ınregistrea-

za un semnal de la electroglotograf (EGG), ca informatie suplimentara. In semnalul EGG,

momentele de ınchidere a glotei pot fi determinate cu usurinta. Perioada glotala ınchisa

poate fi de asemenea estimata ın acest semnal. Dupa etichetare manuala a acesteia, se

poate construi filtrul invers pentru obtinerea undei glotale. Prin filtrarea semnalului vo-

cal prin filtrul invers estimat, se obtine unda glotala care poate fi apoi parametrizata.

Inregistrarea EGG nu este posibila ın afara laboratorului, astfel ca este necesara o metoda

numerica de estimare automata a fazei glotale ınchise folosind numai semnalul vocal.

O abordare pas cu pas a acestei probleme este determinarea momentului de ınchidere

a glotei, estimarea fazei glotale ınchise, apoi filtrarea inversa. Teza propune o metoda

de localizare a fazei ınchise a glotei folosind informatie oferita de variatia frecventei

formantilor. Pentru detectia momentului de ınchidere a glotei sunt utilizate doua metode

numerice ıntalnite ın studiile realizate de alti autori, ıntarzierea medie de grup si norma

Frobenius a matricii de covarianta, calculate din semnalul vocal [1], [50], [99].

Unii autori considera un coeficient de ınchidere prestabilit dupa detectia momentului

de ınchidere a glotei, luand ın considerare ca faza glotala ınchisa o portiune presta-

bilita, imediat urmatoare momentului de ınchidere detectat [1], [50]. Aceasta varianta

este lipsita de acuratete. Vocile ınalte, ın general vocea vorbita feminina si ın special

vocea cantata, pot avea faza glotala ınchisa foarte scurta. In cazul vocilor patologice,

se ıntampla de asemenea ca glota sa ınceapa sa se deschida imediat dupa ınchidere. In

asemenea cazuri nu exista o perioada ınchisa propriu-zisa. Pentru a determina exact pe-

rioada glotala ınchisa, prima metoda propusa foloseste modulatia prezenta ın traiectoria

formantilor, dupa cum urmeaza.

In faza glotala ınchisa, tractul vocal se comporta ca un tub, rezonantele fiind libere

si stabile. Frecventele formantilor sunt relativ constante, iar amplitudinea lor este mare.

In faza glotala deschisa, datorita cuplajului neliniar, sistemul ısi schimba caracteristicile.

Frecventele formantilor pot avea salturi importante, de asemenea va apare o atenuare

puternica a acestora de la o frecventa la alta [1]. Aceasta schimbare a proprietatilor

sistemului este deosebit de evidenta ın traiectoria primului si a celui de-al treilea formant

[90].

8

Page 9: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

Tractul vocal este modelat ca un sistem liniar invariant ın timp a carui functie de

transfer contine numai poli. Pentru determinarea functiei de transfer se foloseste un

model autoregresiv, din care se pot calcula polii corespunzatori rezonantelor, respectiv

frecventele formantilor. Repetarea acestui calcul la fiecare esantion ofera variatia ın timp

a frecventei formantilor. Faza glotala ınchisa poate fi estimata din traiectoria formantu-

lui ca fiind alcatuita din acele esantioane consecutive care rezulta ıntr-o valoare relativ

constanta a frecventei primului formant, analiza fiind realizata prin deplasarea esantion

cu esantion a ferestrei de analiza. Determinarea acestei portiuni se face iterativ, pornind

de la un moment de ınchidere a glotei, prin includerea esantioanelor consecutive conform

unui prag predeterminat de variatie maxima permisa a frecventei.

Metoda propusa da rezultate bune pentru vocea cantata la frecvente relativ joase.

Pentru vocile ınalte este necesara regandirea algoritmului din punct de vedere a analizei

formantilor. Pentru a determina frecventa formantilor cu acuratete, algoritmul necesita

o fereastra de analiza cat mai mare. Din considerente de reprezentare numerica, legate

de frecventa de esantionare, vocile ınalte pot avea faza glotala ınchisa reprezentata prin

doar cateva esantioane, insuficienta pentru modelarea fara erori a tractului vocal. Astfel,

folosirea modulatiei formantilor este inutila, deoarece nu exista siguranta estimarii corecte

a acestora.

Pe baza observatiilor ın urma simularilor realizate conform metodei propuse, pentru

vocea cantata puternica apare o metoda simpla de estimare a fazei ınchise. Conform

simularilor, rezulta ca norma Frobenius a matricii de covarianta a semnalului vocal ofera

informatie suficienta pentru detectarea fazei glotale ınchise, daca fereastra de analiza este

pozitionata ın mod corespunzator. Ambele metode necesita ınsa interventia umana ın

stabilirea ferestrei de analiza. Metoda nu poate fi automatizata, fiind dependenta de

natura semnalului analizat.

O a treia contributie importanta a acestei teze este construirea unor sisteme de

identificare a cantaretului ın ınregistrari monofonice. Teza propune folosirea diferitelor

combinatii de coeficienti cepstrali ın identificare. Coeficientii cepstrali sunt un set de

trasaturi raportate ca fiind robuste ın diferite aplicatii de identificare ın ceea ce priveste

vocea. Sunt trasaturile cu cel mai mare succes ın identificarea vorbitorului si sunt folosite

de asemenea si ın recunoasterea vorbirii. Odata cu dezvoltarea aplicatiilor muzicale,

9

Page 10: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

coeficientii cepstrali s-au dovedit a fi folositori si pentru identificarea instrumentelor muz-

icale [7], [12].

Sistemele uzuale de identificare a vorbitorului bazate pe coeficienti cepstrali folosesc

doar informatia despre tractul vocal, continuta ın coeficientii de ordin inferior. Vocea

cantata are un domeniu de variabilitate a parametrilor mult mai mare decat vocea vorbita,

ıncepand cu variabilitatea deosebit de mare a frecventei fundamentale care poate atinge

si 1200 Hz la vocile soprano, pana la controlul modului de articulatie care determina

modificarea structurii formantice a sunetelor fata de vorbire. Din acest motiv, studiul

propune o identificare a vocilor folosind atat setul de coeficienti cepstrali inferiori, cat

si o varianta folosind coeficienti de ordin superior, care caracterizeaza variatia sursei

sunetului.

O prima faza a studiului este verificarea informatiei legate de identitate, ın ce masura

aceasta este continuta ın coeficientii de ordin superior. Desi toate studiile anterioare

au folosit mereu doar coeficientii de ordin inferior, am considerat ca exista posibilitatea

caracterizarii vocii prin trasaturi legate de sursa acesteia. Rezultatele experimentelor

demonstreaza ca ın unele cazuri coeficientii cepstrali de ordin superior pot fi mai eficienti

ın caracterizarea identitatii vocii [65]. Experimentele folosesc un set de 30 coeficienti

cepstrali calculati pe scala Mel si ıi ımparte ın doua seturi de cate 15. Etapa de identificare

a fost realizata folosind retele neuronale. Pe baza acestor rezultate, teza propune cateva

metode de construire a unor sisteme de identificare a vocii cantate solo.

Retelele neuronale sunt o unealta puternica ın aplicatiile de clasificare, ınsa rezultatele

sunt destul de greu de evaluat datorita lipsei oricarei informatii despre metodologia de

decizie a acestora. Exista algoritmi de clasificare puternici, tractabili matematic. Din

randul acestora, am utilizat ın construirea sistemelor de identificare functii de discri-

minare liniare si patratice, regula celui mai apropiat vecin pe baza distantelor si mixturi

gaussiene.

Rezultatele obtinute folosind diferite metode de clasificare variaza de la 50% la 100%

rata de identificare corecta. Pentru a permite generalizarea rezultatelor, toate expe-

rimentele de identificare au fost realizate folosind metoda de validare m-fold, conform

motivatiei date ın finalul capitolului 4 pentru alegerea unui clasificator. In acest scop,

am realizat 4 ımpartiri diferite a datelor disponibile ın set de antrenare a sistemului de

10

Page 11: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

clasificare si set de testare. Metoda ne asigura ca nu folosim ın testare date comune

cu cele folosite ın antrenare. Asfel, fiecare melodie a fost pe rand exclusa din setul de

antrenare pentru a fi folosita ın testare.

Metodele de clasificare testate includ functii de discriminare liniare si patratice, distante

si modele de mixturi gaussiene. Cea mai puternica metoda de clasificare se dovedeste a a

fi cea probabilistica, modelele folosind mixturi gaussiene si decizie pe baza verosimilitatii

maxime. In functie de numarul de componente utilizate ın construirea modelelor, sistemul

ofera acuratete de pana la 100% ın configuratii particulare ale setului de antrenare/testare,

cu o performanta medie de peste 90%.

Lucrari reprezentative ın domeniu sunt [63], [56], [61], [64], [65], [67], [68], [69], alaturi

de rapoarte de cercetare si referate de specialitate.

Concluzii

Aceasta teza prezinta un studiu al caracteristicilor semnalelor muzicale ın contex-

tul identificarii sursei semnalului pe baza timbrului muzical. Principalul semnal studiat

este vocea cantata, datorita complexitatii caracteristicilor sale spectrale. Teza prezinta

e-lementele legate de perceptie si mod de producere a vorbirii, acestea fiind elemente

definitorii ale metodelor de prelucrare folosite. Sunt prezentate metodele de analiza si

metode specifice aplicabile semnalului vocal.

O contributie a acestei teze la dezvoltarea cercetarii ın domeniu este studiul caracte-

risticilor spectrale ale vocii cantate, ın comparatie cu instrumentele muzicale si cu vocea

vorbita. Se remarca o dependenta puternica fata de pozitia primului formant a tuturor

trasaturilor spectrale. Pentru inteligibilitatea vorbirii este important ca formantii sa aiba

anumite pozitii ın frecventa. In vocile ınalte, este necesara ajustarea pozitiei formantilor

ın mod controlat, acesta fiind un rezultat al educarii muzicale a vocii.

O alta contributie este adusa la separarea caracteristicilor vocii ın cele doua compo-

nente implicate ın producerea vorbirii: unda glotala si tractul vocal. Pentru obtinerea

undei glotale prin filtrare inversa, teza propune doua metode numerice de estimare a fazei

glotale ınchise. O metoda se bazeaza pe modulatia formantilor ın cursul unui ciclu glotal

complet, acestia avand frecvente stabile ın perioada glotala ınchisa. A doua metoda se

11

Page 12: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

bazeaza pe determinarea maximelor locale ın norma Frobenius a matricii de covarianta

a semnalului.

Ca alta contributie, teza propune si primul pas ın construirea unui sistem de identifi-

care a solistului, introducand construirea unor sisteme de identificare monofonice. Sunt

folosite ınregistrari solo ale vocilor pentru a realiza identificarea automata a solistului.

Sistemele construite realizeaza performante de pana la 100% ın identificare.

Teza trateaza o problema particulara interesanta: ce trasaturi definesc sunetul unic

al vocii unui cantaret? Succesul limitat al modelelor si metodelor propuse nu este usor de

evaluat ın mod obiectiv. Cu un set limitat de date de antrenare, metodele propuse sunt

suficient de performante ın a trasa distinctii ıntre voci diferite si pentru a captura trasaturi

importante pentru definirea identitatii vocii, ınsa nu permit generalizarea rezultatelor.

Viitorul acestui domeniu de cercetare este ınca deschis.

12

Page 13: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

Bibliografie

[1] T.V. Ananthapadmanabha and B. Yegnanarayana. Epoch extraction from linear

prediction residualfor identification of closed glottis interval. IEEE Transactions

on Acoustics, Speech and Signal Processing, ASSP-27(4), 1979.

[2] J. Barnes, P. Davis, J. Oates, and J. Chapman. The relationship between profes-

sional operatic soprano voice and high range spectral energy. The Journal of the

Acoustical Society of America, 116(1), 2004.

[3] Mark Bartsch. Automatic singer identification in polyphonic music. PhD thesis,

Universiy of Michigan, 2004.

[4] A. Berenzweig and D. Ellis. Locating singing voice segments within music signals. In

Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

(WASPAA), 2001.

[5] Adam Berenzweig, Dan Ellis, and Steve Lawrence. Using voice segments to im-

prove artist classification of music. In AES 22nd International Conference, Espoo,

Finland, 2002.

[6] J. Bonada, O. Celma, A. Loscos, J. Ortol, and X. Serra. Singing voice synthe-

sis combining excitation plus resonance and sinusoidal plus residual models. In

Proceedings of International Computer Music Conference, 2001.

[7] J. C. Brown. Computer identification of musical instruments using pattern recog-

nition with cepstral coefficients as features. The Journal of the Acoustical Society

of America, 105, 1999.

13

Page 14: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

[8] R. Dannenberg and N. Hu. Pattern discovery techniques for music audio. In

International Conference on Music Information Retrieval ISMIR, Paris, France,

2002.

[9] Diana Deutsch. Psychology and music. Psychology and its Allied Disciplines, 1984.

[10] W. D’haes, D. Van Dyck, and X. Rodet. Discrete cepstrum coefficients as perceptual

features. In Proc. of the ICMC, 2003.

[11] R. O. Duda, P. E. Hart, and D. G. Stork. Pattern Classification. John Wiley and

Sons, Inc., New York, 2000.

[12] A. Eronen and A.; Klapuri. Musical instrument recognition using cepstral coeffi-

cients and temporal features. IEEE International Conference on Acoustics, Speech,

and Signal Processing, 2, 2000.

[13] J. Foote. Content-based retrieval of music and audio. In Multimedia Storage and

Archiving Systems II, Proceedings of SPIE, 1997.

[14] Jonathan Foote. An overview of audio information retrieval. Multimedia Systems,

7(1), 1999.

[15] S.E. Fredrickson and L. Tarassenko. Text-independent speaker recognition using

neural network techniques. Fourth International Conference on Artificial Neural

Networks, June 1995.

[16] D. Gerhard. Audio signal classification: an overview. In Canadian Artificial Intel-

ligence, 45:4–6., 2000.

[17] D. Gerhard. Pitch-based acoustic feature analysis for the discrimination of speech

and monophonic singing. In Journal of the Canadian Acoustical Association, CAA,

2002.

[18] M. Goodwin and M. Vetterli. Time-frequency signal models for music analysis,

transformation, and synthesis. In Proceedings of the IEEE-SP International Sym-

posium on Time-Frequency and Time-Scale Analysis, 1996.

14

Page 15: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

[19] Mary Harper. Introducing speech and language processing. Comput. Linguist.,

32(1), 2006.

[20] S. Hayakawa and F. Itakura. Text-dependent speaker recognition using the infor-

mation in the higher frequency band. IEEE International Conference on Acoustics,

Speech, and Signal Processing, 1, 1994.

[21] Monson Hayes. Schaum’s outline of theory and problems of digital signal processing.

McGraw-Hill, New York, 1999.

[22] Simon Haykin. Neural Networks: A Comprehensive Foundation. Prentice-Hall,

1998.

[23] H.L.F. Helmholtz. On the Sensations of Tone as a Physiological Basis for the

Theory of Music. Dover Publications, 1954.

[24] N. Henrich. Etude de la Source Glottique en Voix Parlee et Chantee: Modelisation et

Estimation, Mesures Acoustiques et Electroglottographiques. PhD thesis, Universite

Paris 6, 2001.

[25] P. Herrera. Setting up an audio database for music information retrieval bench-

marking. In Proceedings of ISMIR 2002 - 3rd International Conference on Music

Information Retrieval, Paris, France, 2002.

[26] Zhihong Hu and Etienne Barnard. Efficient estimation of perceptual features for

speech recognition. In Proc. Eurospeech ’97, Rhodes, Greece, 1997.

[27] Naoki Itou and Kazushi Nishimoto. A voice-to-midi system for singing melodies

with lyrics. In ACE ’07: Proceedings of the international conference on Advances

in computer entertainment technology, Salzburg, Austria, 2007.

[28] Jyh-Shing Roger Jang and Hong-Ru Lee. Hierarchical filtering method for content-

based music retrieval via acoustic input. In MULTIMEDIA ’01: Proceedings of the

ninth ACM international conference on Multimedia, Ottawa, Canada, 2001.

[29] K. Jensen. Envelope model of isolated musical sounds. In Proceedings of the 2nd

COST G-6 Workshop on Digital Audio Effects (DAFx99), Dec. 1999., 1999.

15

Page 16: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

[30] K. Jensen. Timbre models of musical sounds: from the model of one sound to the

model of one instrument. Phd. dissertation, DIKU, 1999.

[31] K. Jensen. The timbre model. In Proc. Workshop on current research directions in

computer music,, 2001.

[32] T. Joachims. Making large-Scale SVM Learning Practical. Advances in Kernel

Methods - Support Vector Learning. B. Schlkopf and C. Burges and A. Smola (ed.),

MIT-Press, 1999.

[33] E. Joliveau, J. Smith, and J. Wolfe. Vocal tract resonances in singing: the soprano

voice. J. Acoust. Soc. America, 116, 2004.

[34] Steven M. Kay. Fundamentals of Statistical Signal Processing: Estimation Theory.

Prentice-Hall, 1993.

[35] A. Klapuri. Signal processing methods for the automatic transcription of music.

PhD thesis, Tampere University ofTechnology, 2004.

[36] A. Klapuri and M. Davy (Editors). Signal Processing Methods for Music Transcrip-

tion. Springer, New York, 2006.

[37] B. Kostek and A. Czyzewski. Representing musical instrument sounds for their

automatic classification. J. Audio Eng. Soc, 49(9), 2001.

[38] R. Kronland-Martinet, Ph. Guillemain, and S. Ystad. Timbre modeling and

analysis-synthesis of sounds. Technical report, MOSART midterm meeting.

[39] T. Li and M. Ogihara. Detecting emotion in music. Technical report, Johns Hopkins

University, 2003.

[40] Mingchun Liu and Chunru Wan. Feature selection for automatic classification of

musical instrument sounds. In JCDL ’01: Proceedings of the 1st ACM/IEEE-CS

joint conference on Digital libraries, Roanoke, Virginia, United States, 2001.

[41] B. Logan and A. Salomon. A content-based music similarity function. Technical

report, Compaq Cambridge Research Laboratory, 2001.

16

Page 17: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

[42] Beth Logan. Mel frequency cepstral coefficients for music modeling. In Proceedings

of the First International Symposium on Music Information Retrieval (ISMIR),

Plymouth, Massachusetts, 2000.

[43] E. Lupu, A. Mesaros, and A.F. Suciu. Microprocessors - Architectures and Appli-

cations. Risoprint, Cluj-Napoca, 2003.

[44] Eugen Lupu and Petre G. Pop. Prelucrarea numerica a semnalului vocal. Risoprint,

Cluj-Napoca, 2004.

[45] C. Ma, Y. Kamp, and L.F. Willems. A Frobenius norm approach to glottal clo-

sure detection from the speech signal. IEEE Transactions on Speech and Audio

Processing, 2(2), 1994.

[46] A.T. Mafra and M.G. Simoes. Text independent automatic speaker recognition

using selforganizing maps. 39th IAS Annual Meeting Conference Record of the

Industry Applications Conference, 3, 2004.

[47] J. Marques and P. Moreno. A study of musical instrument classification using gaus-

sian mixture models and support vector machines. Technical report, Cambridge,

US, 1999.

[48] K. Martin. Musical instrument identification: A pattern-recognition approach. In

136 th meeting of the Acoustical Society of America., 1998.

[49] K. Martin. Sound Source Recognition: A Theory and Computational Model. PhD

thesis, MIT, 1999.

[50] M.R. Matausek and V.S. Batalov. A new approach to the determination of the

glottal waveform. IEEE Transactions on Acoustics, Speech and Signal Processing,

ASSP-28(6), 1980.

[51] Martin F. McKinney and Jeroen Breebaart. Features for audio and music classifi-

cation. In Proceedings of the 4th International Conference on Music Information

Retrieval, 2003.

17

Page 18: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

[52] Rodger J. McNab, Lloyd A. Smith, Ian H. Witten, Clare L. Henderson, and Sally Jo

Cunningham. Towards the digital music library: tune retrieval from acoustic in-

put. In DL ’96: Proceedings of the first ACM international conference on Digital

libraries, Bethesda, Maryland, United States, 1996.

[53] A. Mesaros. Contributii la elaborarea unui model privind caracterizarea timbrului

semnalelor muzicale - raport faza unica an 1. Technical report, Grant CNCSIS tip

TD, 2004.

[54] A. Mesaros. Trasaturi obiective si subiective ale semnalelor muzicale - referat I.

Technical report, Universitatea Tehnica Cluj-Napoca, 2004.

[55] A. Mesaros. Contributii la elaborarea unui model privind caracterizarea timbrului

semnalelor muzicale - raport faza unica an 2. Technical report, Grant CNCSIS tip

TD, 2005.

[56] A. Mesaros. Modelarea individualitatii vocii cantate prin coeficienti cepstrali si

retele neuronale. Workshop Verificatori Biometrici, 2005.

[57] A Mesaros. Singing voice identity characterization. Technical report, CIMO schol-

arship final report, Tampere University of Technology, 2005.

[58] A. Mesaros. Caracteristici acustice si estetice ale semnalelor muzicale - referat II.

Technical report, Universitatea Tehnica Cluj-Napoca, 2006.

[59] A. Mesaros. Cercetari privind timbrul semnalelor muzicale - referat III. Technical

report, Universitatea Tehnica Cluj-Napoca, 2006.

[60] A. Mesaros. Contributii la elaborarea unui model privind caracterizarea timbrului

semnalelor muzicale - raport final. Technical report, Grant CNCSIS tip TD, 2006.

[61] A. Mesaros. Estimation of closed glottis phase in professional singing voice using

the frobenius norm. Analysis of Biomedical Signals and Images, Proceedings of 18th

Biennial International EURASIP Conference Biosignal 2006, 2006.

[62] A. Mesaros. On the use of genetic algorithms in molecular modeling. International

Conference on Computers, Communications and Control, ICCCC, 2006.

18

Page 19: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

[63] A. Mesaros. Spectrum characteristics of singing voice signals and their usefulness in

singer identification. 6th Communications International Conference, COMM2006,

2006.

[64] A. Mesaros and J. Astola. Inter-dependence of spectral measures for the singing

voice. In International Symposium on Signals, Circuits and Systems, Iasi, Romania,

2005.

[65] A. Mesaros and J. Astola. The mel-frequency cepstral coefficients in the context of

singing voice. International Conference on Music Information Retrieval, 2005.

[66] A. Mesaros and E. Lupu. Musical instrument class identification using cepstral

coefficients derived from a constant Q transform. Acta Technica Napocensis, 45/1,

2004.

[67] A. Mesaros and E Lupu. Closed phase detection in the singing voice using infor-

mation about formant frequencies during one glottal cycle. In Proceedings of 10th

International Conference on Speech and Computer, Patras, Greece, 2005.

[68] A. Mesaros and S. Moldovan. Methods for singing voice identification using energy

coefficients as features. 2006 IEEE-TTTC International Conference on Automa-

tion, Quality and Testing, Robotics AQTR 2006 (THETA 15), 2006.

[69] A. Mesaros and S. Moldovan. Methods for singing voice identification using energy

coefficients as features, acceptata pentru publicare. Acta Technica Napocensis, 48/3,

2007.

[70] A. Mesaros, S. Moldovan, and E. Lupu. Band decomposition of voice signals using

wavelets defined from fractional B-spline functions. 48-th International Symposium

ELMAR-2006 focused on Multimedia Signal Processing and Communications, 2006.

[71] A. Mesaros and C. Rusu. An exploration of singing voice individuality. Analy-

sis of Biomedical Signals and Images, Proceedings of 17th Biennial International

EURASIP Conference Biosignal 2004, 2004.

19

Page 20: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

[72] A. Mesaros, C. Rusu, and E. Lupu. Singing voice features by time-frequency rep-

resentations. 3rd International Symposium on Image and Signal Processing and

Analysis, ISPA 2003, 1, 2003.

[73] A. Mesaros, T. Virtanen, and A. Klapuri. Singer identification in polyphonic music

using vocal separation and pattern recognition methods, acceptata pentru publi-

care. International Conference on Music Information Retrieval, 2007.

[74] S. Molau, M. Pitz, R. Schluter, and H. Ney. Computing melfrequency cepstral

coefficients on the power spectrum. In Proc. Int. Conf. on Acoustic, Speech and

Signal Processing, Salt Lake City, UT, 2001.

[75] I. Nafornita, A. Campeanu, and A. Isar. Semnale, circuite si sisteme, partea I.

Universitatea Politehnica Timisoara, 1995.

[76] R. Neumayer, T. Lidy, and A. Rauber. Content-based organization of digital audio

collections. In 5th Open Workshop of MUSICNETWORK, 2005.

[77] Tin Lay Nwe and Haizhou Li. Exploring vibrato-motivated acoustic features for

singer identification. IEEE Transactions on Audio, Speech and Language Process-

ing, 15(1), 2007.

[78] Tin Lay Nwe, Arun Shenoy, and Ye Wang. Singing voice detection in popular

music. In MULTIMEDIA ’04: Proceedings of the 12th annual ACM international

conference on Multimedia, New York, NY, USA, 2004.

[79] William Oliver, John Yu, and Eric Metois. The singing tree:: design of an interactive

musical interface. In DIS ’97: Proceedings of the conference on Designing interactive

systems, Amsterdam, The Netherlands, 1997.

[80] E. Pampalk, S. Dixon, and G. Widmer. On the evaluation of perceptual similarity

measures for music. In Proceedings of the 6th International Conference on Digital

Audio Effects, 2003.

[81] L. Rabiner and B-H. Juang. Fundamentals of speech recognition. PTR Prentice

Hall, Englewood Cliffs, New Jersey, 1993.

20

Page 21: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

[82] X. Rodet. Synthesis and processing of the singing voice. In Proc. 1st IEEE Benelux

Workshop on Model based Processing and Coding of Audio (MPCA-2002., 2002.

[83] M. Rothenberg. Research aspects of singing. Royal Swedish Academy of Music,

1981.

[84] P. Satyanarayana Murthy and B. Yegnanarayana. Robustness of group delay based

methods for extraction of significant instants of excitation from speech signals.

IEEE Transactions on Speech and Audio Processing, 7(6), 1999.

[85] J. R. Sawusch. Effects of duration and formant movement on vowel perception. In

Proc. ICSLP ’96, volume 4, Philadelphia, PA, 1996.

[86] Diemo Schwarz and Xavier Rodet. Spectral Envelope Estimation and Representa-

tion for Sound Analysis-Synthesis. In Proceedings of the International Computer

Music Conference (ICMC), Beijing, China, 1999.

[87] H. Seddik, A. Rahmouni, and M. Sayadi. Text independent speaker recognition

using the mel frequency cepstral coefficients and a neural network classifier. First

International Symposium on Control, Communications and Signal Processing, 2004.

[88] H. W. Strube. Determination of the instant of glottal closure from the speech wave.

Journal of Acoustical Society of America, 56, 1974.

[89] F. Sun, B. Li, and H. Chi. Some key factors in speaker recognition using neural

networks approach. IEEE International Joint Conference on Neural Networks, 3,

1991.

[90] J Sundberg. Research on the singing voice in retrospect. TMH-QPSR Speech, Music

and Hearing, 45, 2003.

[91] Johan Sundberg. The Science of the Singing Voice. Northern Illinois University

Press, 1987.

[92] D Tarniceriu. Bazele prelucrarii numerice a semnalelor. Vasiliana, Iasi, 2001.

21

Page 22: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

[93] I.R. Titze. A theoretical study of F0-F1 interaction with application to resonant

speaking and singing voice. Journal of Voice, 18(3), 2003.

[94] G. Toderean and A. Caruntu. Metode de recunoastere a vorbirii. Risoprint, Cluj-

Napoca, 2005.

[95] Dem Urma. Acustica si muzica. Editura Stiintifica si Enciclopedica, 1982.

[96] T. Viitaniemi, A. Klapuri, and A. Eronen. A probabilistic model for the transcrip-

tion of single-voice melodies. In Proceedings of The 2003 Finnish Signal Processing

Symposium, Finsig’03, Tampere, Finland, 2003.

[97] G. H. Wakefield and M. A. Bartsch. Where’s Caruso? Singer identification by

listener and machine. In Cambridge University Music Processing Colloquium, 2003.

[98] B. Yegnanarayana and H. A. Murthy. Significance of group delay functions in

spectrum estimation. IEEE Transactions on Signal Processing, 40(9), 1992.

[99] B. Yegnanarayana and R.N.J. Veldhuis. Extraction of vocal tract system charac-

teristics from speech signals. IEEE Transactions on Speech and Audio Processing,

6(4), 1998.

[100] Chi Lap Yip and Ben Kao. A study of musical features for melody databases. In

Database and Expert Systems Applications, 1999.

[101] E.K. Youngmoo. Singing voice analysis/synthesis. PhD thesis, Massachusetts in-

stitute of Technology, 2003.

[102] Yongwei Zhu, Kai Chen, and Qibin Sun. Multimodal content-based structure anal-

ysis of karaoke music. In MULTIMEDIA ’05: Proceedings of the 13th annual ACM

international conference on Multimedia, Hilton, Singapore, 2005.

22

Page 23: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

Curriculum Vitae – Mesaros Annamaria

Noiembrie 2007

Cluj-Napoca Annamaria Mesaroş Data naşterii: 13.03.1978

Locul naşterii: Baia Mare, Romania

email: [email protected]

Educaţie: 2006 – 2007 – Doctorand

Institute of Signal Processing, Tampere University of Technology, Tampere, Finland

2005 – 2006 – Asistent universitar, Catedra de Comunicaţii Doctorand domeniul Inginerie Electronică şi Telecomunicaţii

Facultatea de Electronică, Telecomunicaţii şi Tehnologia Informaţiei, Universitatea Tehnică Cluj-Napoca, Romania

2002 – 2005 – Preparator universitar, Catedra de Comunicaţii Doctorand domeniul Inginerie Electronică şi Telecomunicaţii

Facultatea de Electronică, Telecomunicaţii şi Tehnologia Informaţiei, Universitatea Tehnică Cluj-Napoca, Romania

2001 – 2002 – Studii aprofundate, Tehnici Moderne în Telecomunicaţii

Facultatea de Electronică, Telecomunicaţii şi Tehnologia Informaţiei, Universitatea Tehnică Cluj-Napoca, Romania

2001 – Absolventă Secţia Reţele Digitale în Telecomunicaţii

Facultatea de Electronică, Telecomunicaţii şi Tehnologia Informaţiei, Universitatea Tehnică Cluj-Napoca, Romania

Arii de interes: Prelucrarea numerică a semnalelor, Semnale muzicale, Vocea umană, Percepţie auditivă

Page 24: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

Curriculum Vitae – Mesaros Annamaria

Activitate de cercetare: Burse de cercetare în străinătate: Din Nov 2006 – Tampere University of Technology, Tampere, Finland, GETA (Graduate School in Electronics, Telecommunications and Automation, Helsinki, Finland), 4 ani Sept 2004 – Mai 2005 – Tampere International Centre for Signal Processing, Tampere University of Technology, Tampere, Finland, CIMO (Centre for International Mobility, Helsinki, Finland), 9 luni Participare în granturi de cercetare: Contribuţii la elaborarea unui model privind caracterizarea timbrului semnalelor muzicale, director grant CNCSIS tip TD, 235/2004 (director proiect Annamaria Mesaros) Sisteme biometrice pentru controlul accesului pe baza amprentei vocale, membru grant CNCSIS tip A, 1027/2004 (director proiect prof.dr.ing.Eugen Lupu) Mecanisme moleculare ale recunoaşterii şi adeziunii celulare mediate de interactiuni glican-glican, membru grant CNCSIS tip AC-10/2005 (director proiect prof.dr.ing.Eugen Lupu) Bioinformatica secventelor genice implicate in diviziunea celulara la procariote, membru grant PNCDI CEx-050D11-52/2005 (director proiect conf.dr.Petre Pop ) Membru în colectivul editorial al revistei “Novice Insights in Electronics, Communi-cations and Information Technology”, Facultatea de Electronică, Telecomunicaţii şi Teh-nologia Informaţiei, Universitatea Tehnică Cluj-Napoca, http://www.bel.utcluj.ro/novice/ Limbi străine cunoscute: engleză, franceză

Page 25: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

Ing. Annamaria MESAROŞ Lista de publicaţii 1. Mesaros, A., Lupu, E., Rusu, C. – Singing voice features by time-frequency

representations, Proceedings of the 3rd International Symposium on Image and Signal Processing and Analysis, ISPA 2003, Rome, Italy, 2003

2. Mesaros, A. , Lupu, E. – Musical instrument class identification using cepstral

coefficients derived from a constant Q transform, Acta Technica Napocensis nr.45, vol. 1, 2003

3. Mesaros, A., Rusu, C. – An exploration of singing voice individuality, Analysis of

Biomedical Signals and Images, Proceedings of 17th Biennial International EURASIP Conference Biosignal 2004, Brno, Czech Republic, 2004

4. Mesaros, A., Astola, J. – Inter-dependence of Spectral Measures for the Singing

Voice, International Symposium on Signals, Circuits and Systems, ISSCS 2005, Iasi, Romania, 2005

5. Mesaros, A., Astola, J. – The Mel-Frequency Cepstral Coefficients in the Context of

Singing Voice, 6th International Conference on Music Information Retrieval, ISMIR 2005, London, UK, 2005

6. Mesaros, A., Lupu, E. – Closed Phase Detection in the Singing Voice Using

Information About Formant Frequencies During One Glottal Cycle, 10th International Conference on Speech and Computer, SPECOM 2005, Patras, Greece, 2005

7. Mesaros, A – Modelarea vocii cantate prin coeficienti cepstrali si retele neuronale,

Workshop Verificatori Biometrici, Cluj Napoca, Romania, 2005 8. Mesaros, A. – On the Use of Genetic Algorithms in Molecular Modeling, International

Conference on Computers, Communications and Control, ICCCC 2006, Oradea, Romania, 2006

9. Mesaros, A. – Estimation of Closed Glottis Phase in Professional singing Voice

Using the Frobenius Norm, Analysis of Biomedical Signals and Images, Proceedings of 18th Biennial International EURASIP Conference Biosignal 2006, Brno, Czech Republic, 2006

Page 26: Cercet˘ari privind elaborarea unui model pentru ...el.el.obs.utcluj.ro/site/29_nov.07.pdf · Timbrul muzical descrie acele caracteristici care permit urechii s˘a disting˘a sunetele

10. Mesaros, A. – Spectrum characteristics of singing voice signals and their usefulness in singer identification, 6th Communications International Conference, COMM2006, Bucharest, Romania, 2006

11. Mesaros, A., Moldovan, S. – Methods for singing voice identification using energy

coefficients as features, 2006 IEEE-TTTC International Conference on Automation, Quality and testing Robotics AQTR 2006 (THETA 15), Cluj-Napoca, Romania, 2006

12. Mesaros, A., Moldovan, S., Lupu, E. – Band decomposition of voice signals using

wavelets defined from fractional B-spline functions, 48-th International Symposium ELMAR-2006 focused on Multimedia Signal Processing and Communications, Zadar, Croatia, 2006

13. Mesaros, A., Moldovan, S. – Methods for singing voice identification using energy

coefficients as features, va aparea in Acta Technica Napocensis, nr 48, 2007 14. Mesaros, A., Virtanen, T, Klapuri, A. – Singer identification in polyphonic music using

vocal separation and pattern recognition methods, 8-th International Conference on Music Information Retrieval ISMIR 2007, Vienna, Austria, 2007

Contribuţii la cărţi: 15. Lupu, E., Mesaros, A., Suciu, A.F., Microprocessors – Architectures and

Applications, RISOPRINT Publishing, Cluj-Napoca, 2003 16. Lupu, E., Mesaros, A., Moldovan, S., Programming in x86 Assembly Language (in

romanian), RISOPRINT Publishing, Cluj-Napoca, 2006