introducere prelucrari voce

Upload: eugen-lupu

Post on 02-Jun-2018

251 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/11/2019 Introducere Prelucrari Voce

    1/28

    curs1

    Motto:

    http://mirlab.org/jang/books/audioSignalProcessing/

    http://www.speech.cs.cmu.edu/comp.speech/index.html

    http://www.phys.unsw.edu.au/music/

    http://mirlab.org/jang/books/audioSignalProcessing/index.asp

    http://mirlab.org/jang/matlab/toolbox/asr/html/index.html

    http://scgwww.epfl.ch/courses/Traitement_de_la_parole-2009-2010-pdf/

    http://www.mathworks.com/products/signal/demos.html?file=/products/demos/shipping/signal/lpcardemo.html

    http://mirlab.org/jang/books/audioSignalProcessing/http://www.speech.cs.cmu.edu/comp.speech/index.htmlhttp://www.phys.unsw.edu.au/music/http://mirlab.org/jang/books/audioSignalProcessing/index.asphttp://mirlab.org/jang/matlab/toolbox/asr/html/index.htmlhttp://scgwww.epfl.ch/courses/Traitement_de_la_parole-2009-2010-pdf/http://www.mathworks.com/products/signal/demos.html?file=/products/demos/shipping/signal/lpcardemo.htmlhttp://www.mathworks.com/products/signal/demos.html?file=/products/demos/shipping/signal/lpcardemo.htmlhttp://scgwww.epfl.ch/courses/Traitement_de_la_parole-2009-2010-pdf/http://scgwww.epfl.ch/courses/Traitement_de_la_parole-2009-2010-pdf/http://scgwww.epfl.ch/courses/Traitement_de_la_parole-2009-2010-pdf/http://scgwww.epfl.ch/courses/Traitement_de_la_parole-2009-2010-pdf/http://scgwww.epfl.ch/courses/Traitement_de_la_parole-2009-2010-pdf/http://scgwww.epfl.ch/courses/Traitement_de_la_parole-2009-2010-pdf/http://scgwww.epfl.ch/courses/Traitement_de_la_parole-2009-2010-pdf/http://mirlab.org/jang/matlab/toolbox/asr/html/index.htmlhttp://mirlab.org/jang/books/audioSignalProcessing/index.asphttp://www.phys.unsw.edu.au/music/http://www.speech.cs.cmu.edu/comp.speech/index.htmlhttp://mirlab.org/jang/books/audioSignalProcessing/
  • 8/11/2019 Introducere Prelucrari Voce

    2/28

  • 8/11/2019 Introducere Prelucrari Voce

    3/28

    2. Notiuni despre procesul vorbirii

    Prin intermediul vorbirii se transmit mai multe tipuri de informaii :

    informaii lingvistice, care reprezint mesajul sec, independentde cine l transmite

    informaii legate de vorbitor (locutor), care dau indicii despreidentitatea celui care vorbete

    informaii afective, legate de starea emoional a vorbitorului(emoie, stress, sntate etc.)

    Vorbire

    Informatii lingvistice ~ textInformatii extralingvistice

    Vorbire

  • 8/11/2019 Introducere Prelucrari Voce

    4/28

    Vorbitor

    (emitator)

    Ascultator

    (receptor)

    Nivel

    Lingvistic

    Nivel

    Fiziologic

    Nivel

    Acustic

    Nivel

    Fiziologic

    Nivel

    Lingvistic

    Canalul Semnalului Vocal (Producere-Propagare- Receptie)

    DISCRET CONTINUU DISCRET

    (Denes and Pinson)

  • 8/11/2019 Introducere Prelucrari Voce

    5/28

    Procesul de producere-transmisie-percepie a vorbirii

  • 8/11/2019 Introducere Prelucrari Voce

    6/28

    Limbareprezintmodul de percepieal lumiinconjurtoareieste formatdin cuvinte legate prin reguli gramaticale(sintactice)

    Ideea >>>> propoziii >>>>> cuvinte >>> silabe >>>> foneme Ideea(mesajul) se exprimprin propoziii Cuvintelesunt purttoriide informaie Silabelereprezintunitatea de articulare

    Fonemelereprezintalfabetul lingvistic al unei limbi- un cod al unui set unic de micriarticulare care include tipul ilocaiaexcitaieila fel ca ipoziiasau micareaelementelor articulareale tractului vocal

    - Fonemele definesc un grup de sunete similare, dar nu identice care

    diferntreele datoritmai multor factori (accent, vrst, sex, efecte decoarticulare)- o fonemnu este un sunet ci o abstractizarecare acoperoclasde sunete care exprimacelaisens

    LIMBA SCRISA ~ LIMBII VORBITE

  • 8/11/2019 Introducere Prelucrari Voce

    7/28

    sunete

    text

  • 8/11/2019 Introducere Prelucrari Voce

    8/28

    Semnal vocal sonor si nesonor

    (Voiced and Unvoiced Speech)

    0 100 200 300 400 500 600 700 800 900 1000-0.3

    -0.2

    -0.1

    0

    0.1

    0.2

    0.3

    0.4

    Liniste nesonorsonor

  • 8/11/2019 Introducere Prelucrari Voce

    9/28

    Corespondentul fonemei(care este unitate lingvistic), din punct devedere fizic (sonor) este fonu l ,care reflect micrile i poziiileorganului fonator

    fiecrei foneme i este asociat o colecie de alofoni care

    reprezint variante ale fonilorAlofon i i sunt elemente de trecere lin de la un fonem (fon) laaltul, care se modific n funcie de fonemele (fonii) care l precedsau l succed (exemplualofoni din arama)

  • 8/11/2019 Introducere Prelucrari Voce

    10/28

    Limba Consoane Vocale

    Romn 20 7

    Englez 24 12

    Japonez 20 5

    Francez 20 16

    Fonemele pentru diferite limbi

    Pentru a standardizarea transcrierii fonetice s-a dezvoltatalfabetul fonetic internaional IPA (1888)care este ncrspndit i utilizat. Un inconvenient - mainile de scris itastaturile calculatoarelor nu pot imprima toate caracterele IPA.

    United States Advanced Research Projects Agency (ARPA) aanumitul ARPAbet care are dou variante

    SAMPA(Speech Assessment Methods Phonetic Alphabet) care

    n principal const n maparea simbolurilorIPA pe codurile ASCIIn gama 30-127 (pe primii 7 bii printabili).

  • 8/11/2019 Introducere Prelucrari Voce

    11/28

  • 8/11/2019 Introducere Prelucrari Voce

    12/28

    SAMPA (Speech Assessment Methods Phonetic Alphabet):

    @ pentru ;

    t, pentru ;

    s, pentru ;

    1 pentru

  • 8/11/2019 Introducere Prelucrari Voce

    13/28

    Fonemele limbii romne

  • 8/11/2019 Introducere Prelucrari Voce

    14/28

    3. Mecanismul fonaiei. Parametrii semnalului vocal

    Vorbireaeste un proces complex care implic un mecanism anatomo-fiziologic ct i memorie i inteligencapabile s gndeasc ideile ce vor fitransmise

    Fonaiareprezint proc esul de producere a sun etelor caracter ist ice voci iumaneplecnd de la procesele corticale pn la generarea fizic a sunetului lanivelul buzelor

  • 8/11/2019 Introducere Prelucrari Voce

    15/28

    http://www.youtube.com/watch?v=rkZxYjl_D48

    http://www.youtube.com/watch?v=v9Wdf-RwLcs

    http://auditoryneuroscience.com/vocal_folds

    Sectiune prin laringevedere de sus

    http://www.youtube.com/watch?v=rkZxYjl_D48http://www.youtube.com/watch?v=v9Wdf-RwLcshttp://auditoryneuroscience.com/vocal_foldshttp://auditoryneuroscience.com/vocal_foldshttp://www.youtube.com/watch?v=v9Wdf-RwLcshttp://www.youtube.com/watch?v=v9Wdf-RwLcshttp://www.youtube.com/watch?v=v9Wdf-RwLcshttp://www.youtube.com/watch?v=rkZxYjl_D48
  • 8/11/2019 Introducere Prelucrari Voce

    16/28

    Mecanismul fiziologic de producere a vorbirii

  • 8/11/2019 Introducere Prelucrari Voce

    17/28

    Amplitudine

    Timp (ms)

    50 ms

    Fazadeschidere

    Faza

    inchidere

    Inchidere

    Perioada = 12.5ms

    FF = 1/0.0125 = 80Hz

    Impulsurile Glotale

    Frecventa fundamentala a SV (F0)frecventa de oscilatie a corzilor vocale

    Obs. Frecventa perceputa (pitch) poate fi diferita de cea fizicaex. La telefon Banda 0,3-3,4 kHz, deci frecventa de 110Hz (a corzilor vocalefizica)nu trece, dar totusi e perceputa, deci pitch=110Hz.

    Cea mai mica frecventa fizica care trece e armonica a III-a de 330Hz.

  • 8/11/2019 Introducere Prelucrari Voce

    18/28

    Pitch este senzatia mentala sau de perceptuala corelata cu F0 Relaia dintre pitch i F0 nu este liniar; percepia umana a pitch-ului este mai precis ntre 100Hz i 1000Hz (liniar n acest

    interval si peste 1000Hz, logaritmic)

    Scar Mel este un model de corelare a F0 cu pitch 1 Mel este o unitate de pitch definita astfel nct perechi de sunete care sunt

    percepute echidistante n pitch sunt separate printr-un numr egal de Mels Frecventa n Mels = 1127 ln (1 + f / 700)

    Spectrul impulsurilor glotaleIntensitate

    Frecventa(Hz)

    armonicile spectrului distantate la 80 Hz, corespund la operioada a FF de 12.5ms

    tipuri de excitaie : mixt, ploziv, optit i linite

  • 8/11/2019 Introducere Prelucrari Voce

    19/28

    Forma si dimensiunea tractului vocal pot fi schimbate de organele articulatoare:- buze, dinti, palat, velum, limba, falci, cutele alveolare, cavitatea nazala

    http://www.exploratorium.edu/exhibits/vocal_vowels/vocal_vowels.htmlhttp://www.chass.utoronto.ca/~danhall/phonetics/sammy.html

    Modelul de producere a vorbirii sursa-filtru

    Excitatia Filtru Semnal vocal

    Spectru glotal Raspunsul in frecventa

    a tractului vocal

    Sursa si filtrul sunt independente, astfel:Vocale diferite pot avea acelasi pitch

    Aceeiasi vocala poate avea pitch diferit

    Spectrul semnalului vocal

  • 8/11/2019 Introducere Prelucrari Voce

    20/28

  • 8/11/2019 Introducere Prelucrari Voce

    21/28

    4 C t i ti i bi ti i bi ti l SV

  • 8/11/2019 Introducere Prelucrari Voce

    22/28

    4. Caracteristici obiective si subiective ale SV

    -nlimea-care este corespondentul subiectiv al frecveneisemnalului.Vocalele sunt sunete armonice cu spectru dominantndomeniul frecvenelor

    joase, iar consoanele prezint caracteristici de zgomot cu amplitudini spectraleimportantenpartea superioara spectrului

  • 8/11/2019 Introducere Prelucrari Voce

    23/28

    -intensitatea (tria)- care este echivalentul subiectiv al intensitiiacustice,fiind datde amplitudinea undei acustice. Se tiecurechea este capabilsperceapanumite sunete numai dac intensitatea lor depeteo anumitvaloare, prag de audibilitate, care depinde de asculttorieste stabilit la10-16 W/cm2 la o frecvende 1kHz

    -timbrul sonor(calitatea) - corespunde caracteristicilor care conferindividualitate sunetelor, pebaza lor urechea putndrecunoatesunetele chiar dac prezinto serie de caracteristicicomune.ngeneral timbrul se referla compoziiaspectral(continutul armonic) si caracteristiciledinamice ca vibrato si cresterea-descresterea (attack-decay) anvelopei

    5 M d l d d SV

    http://hyperphysics.phy-astr.gsu.edu/hbase/sound/timbre.htmlhttp://hyperphysics.phy-astr.gsu.edu/hbase/sound/timbre.htmlhttp://hyperphysics.phy-astr.gsu.edu/hbase/sound/timbre.htmlhttp://hyperphysics.phy-astr.gsu.edu/hbase/sound/timbre.html
  • 8/11/2019 Introducere Prelucrari Voce

    24/28

    5. Modele de producere a SV

    - mecanice, modele hidrodinamice imodele electrice.

  • 8/11/2019 Introducere Prelucrari Voce

    25/28

    - Av este amplitudinea vocii

    - F0 frecventa fundamentala

    - Fi,Bi (I1...5) reprezinta formantii si benzile lor pentru tractul vocal

    - AK, Ac amplitudinile zgomotelor fricative

    - K1, K2 frecventele zgomotelor fricative- AH - amplitudinea aspiratiei

    - AN - amplitudinea componentei nazale

    - N1 - formantul nazal (~250Hz).

    Model simplificat de producere a vorbirii (LPC)

    6 Incadrarea SV intre semnale

  • 8/11/2019 Introducere Prelucrari Voce

    26/28

    6. Incadrarea SV intre semnale

    Pe termen lungsemnalul vocal este un semnal continuu nestaionarproprietile luivariind dup o lege oarecare.

    Pe perioade scurtede timp (10-30ms) el poate fi considerat cvasistaionar

  • 8/11/2019 Introducere Prelucrari Voce

    27/28

    7. APLICATII ALE PRELUCRARII SV

  • 8/11/2019 Introducere Prelucrari Voce

    28/28

    Referinte suplimentare:

    http://www.phys.unsw.edu.au/~jw/dB.html

    Introduction to the definition of Decibels for measuring energy/volume of speech/audio

    signals.

    http://www.phys.unsw.edu.au/~jw/hearing.html

    Introduction (including interactive demos) to curves of equal loudness.

    http://www.phys.unsw.edu.au/music/

    Homepage for "Music Acoustics".

    http://www.phys.unsw.edu.au/~jw/musFAQ.html

    FAQ for "Music Acoustics".http://www.wotsit.org

    File formats for various kinds, including audio and music.

    http://www.speech.cs.cmu.edu/comp.speech/index.html

    FAQ for the newsgroup "Comp.Speech".

    http://www.bdti.com/faq/dsp_faq.htm

    FAQ for the news group "Comp.DSP".http://www.harmony-central.com/Effects/effects-explained.html

    Introduction to audio effects, including many examples.

    http://www.phys.unsw.edu.au/~jw/dB.htmlhttp://www.phys.unsw.edu.au/~jw/hearing.htmlhttp://www.phys.unsw.edu.au/music/http://www.phys.unsw.edu.au/~jw/musFAQ.htmlhttp://www.wotsit.org/http://www.speech.cs.cmu.edu/comp.speech/index.htmlhttp://www.bdti.com/faq/dsp_faq.htmhttp://www.harmony-central.com/Effects/effects-explained.htmlhttp://www.harmony-central.com/Effects/effects-explained.htmlhttp://www.harmony-central.com/Effects/effects-explained.htmlhttp://www.harmony-central.com/Effects/effects-explained.htmlhttp://www.harmony-central.com/Effects/effects-explained.htmlhttp://www.harmony-central.com/Effects/effects-explained.htmlhttp://www.bdti.com/faq/dsp_faq.htmhttp://www.speech.cs.cmu.edu/comp.speech/index.htmlhttp://www.wotsit.org/http://www.phys.unsw.edu.au/~jw/musFAQ.htmlhttp://www.phys.unsw.edu.au/music/http://www.phys.unsw.edu.au/~jw/hearing.htmlhttp://www.phys.unsw.edu.au/~jw/dB.html