tehnici și tehnologii tv și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/curs tttvmm -...

102
IV - ISM Tehnici și tehnologii TV și multimedia Partea I Ș.l. dr. Ing. Ionuț Reșceanu

Upload: others

Post on 03-Sep-2019

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

IV - ISM

Tehnici și tehnologii TV și multimedia

Partea I

Ș.l. dr. Ing. Ionuț Reșceanu

Page 2: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Cap.1. Sisteme multimedia pentru prelucrarea

semnalelor

1.1 Introducere

Multimedia a deschis noi servicii care asigura o mai convenabila si usoara folosire a

mediilor, precum realitatea virtuala pentru sistemele complexe si pentru sistemele

educationale, serviciile de televiziune interactiva cu utilizatori multipli, teatrul tridimensional

la domiciliu. Nu este exagerat sa afirmam ca intrarea in lumea comunicatiilor, a

calculatoarelor si a radiodifuziunii a audioului si a videoului inseamna inceputul multimediei.

Adaugind mediile audio si video la serviciile conventionale bazate pe text ele devin mai

atractive pentru multi utilizatori. Prin urmare, realizarea unei conexiuni si/sau fuziuni intre

lumea calculatoarelor, a comunicatiilor si a radiodifuziunii asa cum este prezentat in Fig. 1.1

conduce la schimbari dramatice in viata noastra. Functia cheie aici este digitizarea eficienta

pentru video si audio, pentru ca in acest format informatiile video si audio pot fi folosite in

calculatoare si in retelele digitale de comunicatii.

Totusi aceste trei lumi impun cerinte diferite pentru digitizarea informatiilor video si

audio, datorate evolutiilor diferite in cele trei lumi. De asemenea, digitizarea directa a

informatiilor audio si video conduc la fisiere de date mult mai mari decit fisierele

conventionale bazate pe text. In consecinta capacitatea mare de stocare, retelele de mare

viteza si tehnologiile de compresie pentru audio si video joaca un rol importanta in lumea

multimedia.

Page 3: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Prin urmare, pentru dezvoltarea domeniului multimedia este necesaradezvoltarea

elementelor hardware ieftine pentru compresie si transmisie/stocare. In acest sens dezvoltarea

metodologiilor de proiectare VLSI pentru circuite de consum redus si la un pret de cost redus

a avut un rol important. In continuare vor fi analizate prelucrarile semnalelor multimedia si

implementarile hardware pentru acestea.

1.1.1 Domeniul calculatoarelor

Datele din calculatoare au fost initial constituite din datele de prelucrat. In mod

curent, datele din documente incluzind text, tabele si figuri sunt parti ale datelor

calculatorului. Volumul de date cu care lucreaza calculatoarele creste de la zi la zi, in special

de cind calculatoarele personale au devenit foarte raspindite. De exemplu, inprezent este

foarte greu sa publici documente si carti fara a folosi programe de procesare a textelor pentru

PC sau statii de lucru. Mai recent, semnalele audio si video ca si fotografiile au aparut printre

datele calculatoarelor. Aceasta inseamna ca datele audio si video pot fi tratate asemenea

textelor de catre procesoarele de texte. Editarea documentelor audio si video prin tehnica

“taie si lipeste” (cut and paste) devine astfel posibila pentru a creea prezentari multimedia

atractive pe calculatoare PC. Exemple de acest gen pot fi vazute intr-o pagina de pe web.

Un alt factor important este acela ca procesoarele performante au atins nivelul la care

pot executa decompresia (decodarea) documentelor video comprimate prin software in timp

real. Totusi compresia video prin software in timp real ramine departe de posibilitatile

microprocesoarelor actuale; pe masura ce se imbunatateste tehnologia VLSI cu arhitecturi

avansate, proiectate pentru consum redus si viteza mare, cu siguranta ca va scadea si

gabaritul super-mini calculatoarelor la nuivelul calculatoarelor PC, ceea ce va accelera

dezvoltarea aplicatiilor multimedia. De aceea arhitecturile de procesoare multimedia sunt

unul din preocuparile acestei prezentari.

1.1.2 Domeniul comunicatiilor

Desi inovatiile anterioare au aparut in lumea calculatoarelor, conceptul “multimedia”

a aparut intii in secorul comunicatiilor, cind pe aceleasi linii de comunicatie au inceput sa fie

transmise semnale vocale codate PCM (Pulse Code Modulation) si date de calculator.

Codarea digitala PCM a vorbirii are o istorie mai lunga deoarece digitizarea asigura o

calitate inalta a semnalelor chiar atunci cind sunt transmise la mare distanta. Acest lucru este

greu de obtinut pentru o transmisie analogica, datorita atenuarii senmnalului, contaminarii cu

zgomot de natura termina sau interferentelor. Cind transmisia digitala de voce adevenit

Page 4: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

populara a fost natural ca datele pentru calculatoare sa fie transmise pe canalele sa fie

tranmise pe canalele dentru comunicatie digitala de voce. Astfel multimedia inseamna

multiplexarea flexibila si la un pret de cost redus a transmisiunilor de date.

Acest fapt indica doua importante aspecte pentru retelele multimedia. Primul se refera

la includerea datelor pentru calcuulatoare in liniile pentru transmiterea digitala a vocii; ceea

ce inseamna coexistenta datelor reprezentind semnale vocale dependente de timp si a datelor

calculatoarelor independente de timp. Acesta este inceputul conexiunii si/sau fuziunii dintre

calculatoare, comunicatii si radiodifuziune. Treptat barierele dintre aceste domenii separate

au disparut dar diferentele intre datele dependente de timp si datele independente de timp

produc unele dificultati la operarea in timp real. Exemple sunt date de transmisiile video pe

Internet, unde largimea de banda necesara pentru transmisiile video in timp real este greu de

realizat. Transmisia la o calitate constanta a serviciilor (QOS- Quality of Service) este o

bariera si pentru urmatoarea generatie de retele multimedia.

Celalalt aspect se refera la reducerea costului pentru implementarea retelei pentru

comunicatii, pentru calculator si pentru radiodifuziune pe o singura linie de comunicatie, in

special pentru cresterea largimii de banda a liniei abonatului. Cind folosim linia telefonica

analogica a abonatului ca o linie multimedia digitala costul implementarii este redus si ajuta

la proliferarea aplicatiilor multimedia. Rata de bit disponibila pe o singura linie de abonat a

crescut rapid, in special datorita unor tehnologii avansate de prelucrare a semnalelor in

modeburile pentru banda vocala. Calculatoarele PC actuale au modemuri incorporate care

lucreaza cu rate de bit de 28,8 Kb/s, 33,6 Kb/s sau 57,6 Kb/s pentru transmiterea pe linia

telefonica. Legaturile ISDN (Integrated Services Digital Network) permit obtinerea unor rate

de transmitere pe liniile de abonat de 144 Kb/s. Totusi, pentru a avea o calitate video

acceptabila este necesara o rata de bit de cel putin 1 Mb/s. Acesta este una din problemele

care vor fi discutate in Capitolul 2 – Compresia video.

1.1.3 Domeniul radiodifuziunii

Documentele audio si video reprezinta continutul de baza al radiodifuziunii. Totusi

digitizarea acestor semnale este de data mai recenta cu exceptia editarii si stocarii acestor date

in statiile de radiodifuziune. Motivul este acela ca, pentru a atrage clientii, pentru filmele de

reclama este ceruta o foarte buna calitate a semnalelor radiodifuzate. O mica degradare a

calitatii datorita digitizarii poate duce la pierderea clientilor. Totusi, televiziunea prin cablu

(CATV) si prin satelit apartine unei alte categorii, deoarece aici pot fi colectate taxe de la

multi abonati. In aceste domenii digitizarea a inceput atunci cind a fost elaborat standardul

Page 5: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

MPEG-2. Motivul digitizarii a fost de a creste numarul de canale la televiziunea prin cablu si

prin satelit, asigurind totodata o calitate rezonabila. Aceasta pentru ca MPEG-2 permite

obtinerea unor rapoarte de compresie ridicate, iar pretul modemurilor digitale de mare viteza

pentru cablurile coaxiale a ajuns la nivelul produselor de consum. De asemenea calitatea

televiziunii analogice prin cablu este neuniforma la abonati, datorita structurii arborescente a

retelei; in schimb transmisia digitala asigura o calitate identica la toti abonatii. Datorita

acestor calitati ale radiodifuziunii digitale ea tinde sa se extinda teritorial. Proiectele ATV

(advanced TV) si HDTV (high definition TV) de transmisie digitala au inceput in anul 1999.

Implementarea modemurilor de cablu si noile servicii denumite VOD (video on demand)

impreuna cu teminalele lor STB (set-top box)vor fi analizate mai tirziu.

1.2 Digitizarea audio si video

1.2.1 Cantitatea de informatie

Problema esentiala la prelucrarile audio si video este legata de catitatea mare de

informatie pe care o cer. Sa analizam cantitatea de informatie pentru fiecare mediu. O litera a

alfabetului este reprezentata cu un octet in cod ASCII. Atunci o pagina continind 60 litere x

50 rinduri necesita 3 Kbytes. Deci pentru stocarea unei carti de 300 pagini text este necesara

o capacitate de stocare de 1 Mbyte. Deci o carte poate fi stocata pe o discheta floppy de 1,44

Mbytes. Din contra, un document audio Hi-Fi este compus din doua canale de semnal pentru

redare stereo. Fiecare canal este esantionat la o rata de 44,1 kHz, pentru inregistrarea pe CD,

sau la o rata de 48 kHz la inregistrarea pe banda magnetica digitala. Aceste esantioane

asigura reconstructia semnalelor din benda audio de pina la 20 kHz. Fiecare esantion este

reprezentat digital pe 16 biti, deci cite doi octeti pentru un esntion. Prin urmare pentru o

secunda de redare stereo sunt necesari 200 Kbytes de informatie. Aceasta inseamna ca la

fiecare 5 secunde este necesara tot atita informatie cit este continuta intr-o carte cu 330 file de

text. Sa consideram acum semnalele video. In fiecare secunda televiziunea NTSC prelucreaza

30 de cadre de imagine. Un cadru in formatul NTSC este constituit din 720x480 pixeli.

Fiecare pixel este reprezentat cu 24 de biti (cite opt biti pentru fiecare culoare) sau 16 biti

pentru luminanta/crominanta. Drept urmare, informatia NTSC pentru o secunda contine cel

putin 20 Mbytes. Deci continutul a 20 de carti pentru o secunda de semnal video. Mai mult,

semnalele HDTV in ATV contin 1920x1080 pixeli per cadru, la o frecventa de cadru de 60

Hz. In acest caz cantitatea de informatie pe secunda este de 240 Mbytes.

Page 6: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Fig. 1.2

In Fig. 1.2 sunt prezentate aceste comparatii. Este evident ca documentele audio si video

necesita capacitati de memorie cu citeva ordine de marime mai mari decit documentele text.

Deci pentru a manipula semnalele audio si video ca si datele text tehnologiile de compresie

sunt esentiale.

De remarcat ca stocarea sau redarea semnalelor digitale audio a fost disponibila pe

piata sub forma discurilor compacte inca de la inceputul anilor 80, dar stocarea digitala video

a fost restrinsa doar la utilizarile profesionale pentru un timp lung. Discurile video si discurile

digitale versatile (DVD), disponibile acum pe piata, folosesc tehnologiile de compresie

MPEG care vor fi prezentate mai tirziu. In general, semnalele video digitale fara compresie

nu sunt mai avantajoase economic fata de cele analogice, cu toate ca semnalele digitale au

avantajul robustetii la zgomotul extern. Toate aceste tehnologii sunt bazate pe prelucrarea

digitala a semnalelor si deci prelucacrea semnalelor multimedia si implementarile lor VLSI

sunt de mare interes.

1.2.2 Tehnologia compresiei

In Fig. 1.3 sunt prezentate cerintele reciproce pentru cele trei domenii care formeaz

multimedia. Intrucit multimedia este sustinuta de trei domenii diferite si deoarece aceste

domenii s-au dezvoltat independent, exista citeva contradictii intre cerintele lor. Aceste

contradictii sunt datorate in special formatelor digitale video utilizate sau functiunilor cerute

pentru semnalul video. In continuare vor fi examinate aceste probleme considerind

algoritmul de codare in ordine cronologica.

Page 7: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Tehnologia compresiei a debutat in domeniul comunicatiilor pentru transmisia semnalului

vocal codat PCM prin anul 1960 cind a fost studiata compandarea nelinara (compresia si

decompresia) a datelor esantionate. In acelasi timp au fost compresate imaginile statice cu

ocazia transmiterii imaginilor de pe suprafata lunii catre pamint.

Dupa aceste activitati compresia video a fost utilizata la transmiterea in timp real a

programelor TV intre statii, folosind codarea PCM si o rata de transmitere de 45 Mbytes/s.

Cea mai importanta cerinta pentru domeniul radiodifuziunii este de a obtine cit mai aproape

posibil calitatea NTSC. Aceasta inseamna ca fiecare semnal video ar trebui sa aiba 30 cadre

intr-o secunda si fiecare cadru ar trebui sa aiba 720 x 480 pixeli. Din contra, sistemele de

teleconferinta si sistemele telefonice au debutat “soleley” in sectorul comunicatiilor. In

consecinta prima lor cerinta este costul comunicatiilor in locul calitatii imaginii. Pentru

sistemele de videotelefon sau teleconferinta este suficient un singur canal PCM de 64

kbit/sec sau o linie PCM multiplexata de 1,544 Mb/s. In consecinta algoritmii de compresie

pentru aceste scopuri folosesc imagini de rezolutie joasa si un numar redus de cadre pe

secunda. Standardul pentru algoritmul de compresie video specificat de standardul H.261 lal

ITU-T (International Telecommunication Union – Telecommunication standardization

sector) foloseste formatele CIF (Common intermediate format) si QCIF (quarter CIF) care

necesita un sfert si respectiv 1/16 din rezolutia NTSC. De asemenea se folosesc cietva cadre

pe secunda in loc de 30 cadre/sec. De exemplu, o imagine in miscare avind 7,5 cadre/s cu

QCIF poate fi transmisa la 64 kbit/s. Atunci semnalul video in acest format contine numai

1/54 din informatia semnalului NTSC original. Alt factor important in sistemele de

telecomunicatii este necesitatea de a asigura o intirziere mica la codare. Pe durata

standardizarii H.261 diferentele de intre cerintele comunicatiilor si ale radiodifuziunii au

Page 8: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

devenit clare. ITU-R (International Telecommunication Union – Radio communication

sector) a hotarit sa elaboreze un standard propriu, rezultind Recomandarea 723, chiar daca

algoritmul de compresia folosit este acelasi: codarea hibrida intre DPCM (differential PCM)

cu compensarea miscarii (MC – motion compensation) si codarea DCT (discrete cosine

transform) cu codare cu lungime de biti variabila.

A consideram domeniul comun dintre radiodifuziune si calculatoare. Din punctul de

vedere al radiodifuziunii, pentru o larga raspindire a programelor video sunt necesari

algoritmi satandard de compresie larg acceptati. Din partea calculatoarelor o cerinta

dominanta este posibiltatea de aces aleator la fisierele audio si video. Aceasta pentru ca

utilizatorii calculatorului doresc sa acceseze doar o anumita parte a secventei video in loc de

a vedea intreagul document de la inceput. Din pacate, pentru ca standardele ITU H.261 si

recomandarea 723 nu prevad acest gen de functionalitate, ISO (International Standards

Organization) si IEC (International Electrotechnical Commission) au decis sa coopereze

pentru a face un standard mondial care sa acopere cerintele pentru radiodifuziune,

comunicatii si lumea calculatoarelor. Pe baza algoritmilor H.261 si G.723, cu o

functionalitate extinsa, au fost standardizatii algoritmii MPEG-1/2. Ei sunt denumiti MPEG

ca o codare generica. Chiar daca MPEG a fost proiectat sa fie o codare generica citiva

parametri sunt specifici diferitelor aplicatii. De exemplu rezolutia imaginii este selectata din

citeva “nivele” (levels) si o mica modificare a algoritmului poate fi aleasa din citeva

“profile” (profiles).

Importanta sactivitatilor MPEG poate fi ilustrata cu citeva exemple. Standardul

MPEG-2 care a fost creeeat initial pentru domeniul calculatoarelor este folosit si in

standardul de comunicatie H.262 care este o parte comuna si pentru specificarea MPEG. In

1996 activitatile MPEG au fost distinse cu premiul Emmy pentru domeniul radiodifuziunii.

Aceastea arata ca MPEG a devenit liantul pentru cele trei domenii. Din acest motiv in

continuare vor fi analizati algoritmii de compresie audio si video precum si abordarile de

implementare pentru DCT, compensarea miscarii si codarea cu lungime de bit variabila

(codarea fara pierderi). Ca o completare pentru algoritmii de compesie pentru audio si video,

in sistemele pentru stocare multimedia si in retelele pentru comunicatii multimedia a fost

introdusa corectia erorilor la codare si decodare. Aceasta pentru ca sistemele de stocare si de

comunicatie nu sunte perfecte in sensul ca introduc erori in secventa compresata de date,

chiar daca rate erorilor este foarte mica. Deoarece datele comprimate contin doar

componentele esentiale, chiar numai daca un bit este eronat apar deteriorari esentiale in

procesul de decodare. Legatura dintre compresie si corectia erorii este aratata in Fig. 1.4

Page 9: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

In Fig. 1.4 partea de compresie este indicata drept codarea sursei si partea de corectie

a erorii drept codarea canalului, doarece functioa de compresie inlatuar partea redundanta

din datele sursei, iar functia de corectie a eroriia informatie pentru a proteja datele audio si

video comprimate de erori datorate canalelor. Corectia erorii ar trebui sa fie eficienta pentru

erorile aleatoare produse atit de zgomotul extern cit si de erorile produse de unele distorsiuni

continue (burst errors). Codarea sursei este ccunoscuta drept codare la rata de bit joasa. In

multe sitatiisunt folosite doua tipuri diferite de codoare pentru corectia erorilor inseriate.

Promul este un codor de bloc unde domeniul de corectie a erorii este limitat la un anumit

bloc. De xeemplu datele comprimate ar trebui puse intr-un format pentru o manipulare

usoara. Formatul celular (cell format) sau formatul pachet (packet format) din retelele ATM

(Asynchronous Transfer Mode) sunt exemple in acest sens. Codarea bloc este efectiva numai

in domeniul formatului. In aces scopsete folosit codul Reed-Solomon bazat pe aritmetica

cimpului finit.

Dupa ce datele comprimate sunt formatate si codate folosind codarea bloc, ele sunt

stocate si transmise serial. In acest caz partea hardware a sistemului de stocare sau/si de

transmisie nu cunoaste continutul lor. Continutul nu este altceva decit un singur sir de biti. In

aceste cazuri codarea convolutionala asigura protectia fata de erorile introduse de canale.

Daca datele seriale contin si informatiile pentru protectie introduse prin convolutie, procesul

de decodare este un proces de deconvolutie, si deci este putin mai complex. Pentru decodare

se folosec decodoare Viterbi care sunt eficiente. In cursul expunerii vor fi prezentate si

implemantari pentru decodoarele Viterbi.

Page 10: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Algoritmul standard folosit pentru codarea sursei este DCT . Aceasta pentru ca

functiile baza in transformata cosinus sunt foarte asemanatoare cu acelea din transformata

KL (Karhunen Loeve) optimala pentru imagini. O noua transformata, denumita transformata

wevelet (WT), are o functionare similara cu cea a sistemului ochiului uman: descompunerea

multirezolutie. In perioada de elaborare a MPEG-2 unele institutii si companii au propus

aceasta noua transformata in locul DCT. Chiar daca aceasta propunere nu a fost acceptata la

MPEG-2 pentru a asigura o tranzitie mai usoara de la MPEG-1, standardul MPEG-4 include

WT in domeniul graficii computerizate.

1.2.3 Stocarea pentru aplicatiile multimedia

CD-ROM-ul si aplicatia sa pentru stocarea video precum si mai nou aparutul DVD

unesc lumea calculatoarelor si a radiodifuziunii prin stocarea filmelor si a documentelor

video de mare capacitate. Capacutatea de stocare pentru CD-Rom a crescut la 780 Mbytes

pentru un disc de 12 cm diametru prin folosirea metodelor optice pentru citire. In mod normal

rata de bit pentru CD-ROM este de 1,128 Mb/s excluzind informatia suplimentara pentru

corectia erorilor, care va fi prezentata ulterior. De la inceputul anului 1980 viteza de acces

pentru CD-ROM a crescut, fiind disponibile in prezent CD-ROM de 16 sau 32 de ori mai

rapide, dar capacitatea a ramas neschimbata. Cerintele MPEG-1 pentru audio si video,

specificate la inceputul elaborarii standardului, au fost determinate de faptul ca un CD-ROM

normal poate stoca o ora de program TV cu un sfert din rezolutia NTSC denumit SIF

(standard image format, de altfel egal cu CIF), si au fost alocate rate de bit de 1 Mb/s pentru

video si 128 Kbit/sec pentru audio.

Specificatia DVD (initial abrevierea de la Digital Video Disk, denumite mai recent

Digital Versatile Disk) este acum disponibila ca standard, iar capacitatea a crescut la cca 4,7

Gbyte. Aceasta capacitate mare de stocare este rezultatul folosirii diodelor laser cu lungime

de unda mica si unui mecanism de control precis bazat pe prelucrarea digitala a semnalului.

Sistemul DVD care foloseste algoritmul MPEG-2 pentru compresia video promite obtinerea

unei rezolutii NTSC complete. Rata de bit folosita pentru compresia video este variabila; 4

Mb/s in medie, si pina la 9 Mb/s maximum este posibila. Ratiunea pentru care CD si DVD

folosesc sandardul de compresie MPEG este posibilitatea de accesare pseudo-aleatoare si de

redare rapida oferita de procesul de codare.

Page 11: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

1.2.4 Comunicatiile multimedia

Sa abordam acum domeniul comun pentru comunicatii si calculatoare. Sistemele de

calcul folosesc comunicatiile de pachete atunci cind acestea sunt legate in retele lucale cum

este Ethernet. In retelele de comunicatie de banda larga a fost introdus ATM care foloseste

un set de celule, similar cu pachetele. In retelele de comunicatie cu celule si pachete,

comunicatiile in timp real sunt citeodata gituite cnd traficul este intens. De exemplu,

pachetele sunt citeodata retinute in buffere-ul de iesire a sistemului cind apar congestionari

de trafic in retea. In ATM celulele sunt automat eliminate cind buffer-ul din sistemul de

comunicatie devine plin. Punctul fierbinte in retelele de comunicatie bazate pe celule sau

pachete apare la transmisiunile video pe Internet. Sunt trei chesiuni importante: largimea de

banda rezervata pentru transmisiile video prin retele, volumul mare de date video continue si

sincronizarea corecta la 30 cadre/s in reconstructia video.

Totusi algoritmii MPEG sunt robusti la pierderea de celule/pachete. Capacitatea de

acces pseudoaleator a structurii cadrelor in algoritmii MPEG opreste propagarea erorii de

pierdere a celulelor/pachetelor. De asemenea, nivelul de transport al MPEG permite

cecuperarea precisa a tactului in retelele ATM care contin mecanism digital de calare pe faza

(phase-lock). Aspectele sistemului la nivelul de transport MPEG vor fi prezentate ulterior.

O abordare mai convenabila dependenta de trafic este cea de al MPEG-4 unde proceul

de codare este realizat in functie de obiectele din secventa video. Fiecare imagine video este

structurata in obiecte si apoi obiectele sunt codate. Cind traficul prin retea devine dificil sunt

transmise numai obiectele cele mai importante.

In retelele de comunicatii de banda larga, ATM este folosit in retelele magistrale care

sunt constituite din linii de transmisie cu fibra optica. Totusi conectarea directa la aceste

retele de fibra optica a birourilor mici sau a abonatilor este inca o perspectiva departata

datorita costurilor implicate. Digitizarea liniilor de abonat existente este o cale buna de

urmat si aceasta a condus la aparitia standardului ISDN (Integrated Service Digital

Network). Totusi iSDN suporta numai viteze de numai 128 Kb/s pentru date plus 16 Kb/s

canalul de pachete. In aceasta gama de rate de bit sunt disponibile terminale multimedia cu

rata de bit joaja care folosesc codecuri video H.263, codecuri vocale G.723 sau MPEG-4,

insa aceasta rata de bit este prea redusa pentru transmisia si receptia calitatii video MPEG-

1/2, care este inclusa in documentele www.

O abordare posibila pentru a creste rata de bit disponibila la abonati pe liniile

existente ester numita xDSL. Aceasta tehnologie foloseste tehnologiile moderne de

multiplexare a multipurtatoarelor cu divizare ortogonala de frecventa. Aceasta tehnlogie

Page 12: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

depaseste imperfectiunile liniile de transmisiune cum ar fi interferentele si caracteristicile de

frecventa non-plate ale liniilor de abonat pentru a obtine viteza mare de transmitere de citiva

megabiti pe secunda rata de bit.

O alta abordare pentru cresterea ratei de bit cu investitii rezonabile pentru utilizatori

este de a folosi cablurile coaxiale folosite pentru CATV. Daca semnalul audio si video este

digitizat folosirea modulatiei digitale in CATV devine naturala. Deoarece semnalele digitale

audio si video sunt compresate, CATV digitala poate suporta mai multe canale de semnal

fata de CATV analogic. Unele dintre aceste canale digitale pot fi utilizate pentru nevoi de

comunicatie sau pentru aplicatii www. Cea mai folosita tehnica de catre modemurile de

cablu este QAM (Quadrature Amplitude Modulation) care a fost initial folosita la

transmisiunile de date pe microunde sau la comunicatiile prin satelit.

Domeniul comunicatiilor digitale fara fir, incluzind comunicatiile pe microunde sau

prin satelit, este foarte catual. Alaturi de ele sistemele digitale celulare sunt de mare interes.

Sistemele digitale celulare acopera aria lor de serviciu cu unitati mici, unde sunt folosite

unde electromagnetice purtatoare de putere redusa. Datorita puterii reduse aceiasi frecventa

de purtatoare poate fi folosita repetat de catre unitati care nu sunt adiacente. Dearece

acoperirea unei unitati este mica, un terminal de abonat nu trebuie sa emita o unda

electromagnetica de mare putere. De aceea terminalele pentru telefoanele digitale celulare

devin din ce in ce mai mici. Pentru a reduce blocarea apelurilor intr-o unitate se foloseste

tehnica CDMA (Code Division Multiple Access) unde apelurile excesive produc numai o

degradare a raportului S/Z a canalelor multiple. Degradarea raportului S/Z pentru semnalele

receptionate afecteaza usor cresterea ratei erorii de bit, dar nu se produce blocarea.

In birourile mici, retelele locale interne ar fi suficiente pentru scaderea costului.

Perechide de linii de comunicatie torsadate (twisted pair) pot suporta de asemenea o mare

cantitate de informatie digitala, daca aria de coperire este de citeva sute de metri. Toate

tehnicile de modulatie amintite sunt puternic legate de prelucrari digitale ale semnalului.

1.3 Servicii multimedia

Lumea multimedia reclama servicii si aplicatii care folosesc efectiv posibilitatile

multmedia. Multe dintre exemplele date pina acum reprezinta exemple de astfel de servicii.

In continuare vom face o trecere in revista a acestor servicii care vor fi analizate apoi separat.

Fig. 1.5 prezinta localizarea sistemelor multimedia noi si a serviciilor in raport cu domeniile

Page 13: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

din Fig. 1.1. Internetul si www este acum foarte raspindit in toate domeniile legate de

fuziunea dintre calculatoare, comunicatii si radiodifuziune. Internetul a debutat cu

transmiterea mesajelor prin reteaua de calculatoare cu protocol standardizat de Internet.

Multe aplicatii interesante au fost posta electronica si transferul de fisiere. Dupa introducerea

web-ului Internetul a devenit leader-ul lumii multimedia. www a asigurat un sistem

simplificat si unitar de comanda prin introducerea URL (Unified Resource Locator) si de

asemenea imbunatatirea capacitatii de hyperlink intr-un document scris in HTML (Hyper

Text Makeup Language). Alaturui de texte documentele HTML pot include grafica,

fotografii, informatii video si audio. Deaoarece toata lumea doreste sa se bucure de resviciile

www pe Internet mai confortabil, a fost accelerata introducerea modemurilor ISDN si xDSL

pentru liniile telefonice. De asemenea s-a extins piata motoarelor de cautare (browser) pentru

PC si statii de lucru. Comunicatiile fara fir s-au extins catre Internet, chiar daca rata de bit

disponibila este inca joasa: de la 9,8 Kbiti/s pina la 64 Kbiti/s. Aceste canale fara fir au fost

acum combinate cu calculatoarele portabile si PDA (Personal Digital Assistant). Aceasta a

condus la inceputul calculului mobil.

In ceea ce priveste comunicatiile, introducerea documentelor audio si video digitale a

creat noi oportunitati de afaceri. Un singur canal analogic de TV NTSC cu largime de banda

de 6 Mhzpoate transporta in jur de 20 Mb/s folosind modemuri digitale, in timp ce compresi

MPEG-2 necesita intre 4 si 9 Mb/s pentru un singur canal video. Rezulta ca pe largimea de

banda corespunzatoare unui canal analogic conventional devin disponibile in medie 3-4

canale suplimentare. Folosind compresia digitala devin disponibile multe canale video noi. In

anumite conditii un emitator de satelit poate transmite in jur de 30 Mb/s. Prin urmare cind

este folosita transmisia digitala poate fi realizata si CATV prin satelit. Mai mult, odata cu

realizarea emisiunilor in format digital realizarea programelor HDTV devine mai simpla,

folosind citeva canale TV digitale.

Sistemul VOD (Video-on Demand) creeaz noi servicii la interferenta celor trei

domenii. In cadrul sistemului, masina server este chiar un sistem de calculatoare care

gestioneaza bibliotecile video aflate intr-un numar de sistele mari de stocare. Canale de

comunicatie de banda larga conecteaza serverul de clienti. Serverul video trimite documentul

video ales de client la cererea acestuia. Deoarece canalul de conectare a clientului cu serverul

este numai pentru un client, terminalul clientului poate solicita serverului servicii comune

pentru terminale video cum ar fi comenzi de pauza, reluare, derulare rapida inainte, cautare si

altele.

Page 14: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

O problema importanta a serviciilor multimedia este protectia proprietatii intelectuale

(copy-right). Documentele visdeo si audio sunt livrate prin reteaua multimedia si prin

discurile DVD. In viitorul apropiat calculatoarele pC vof fi suficient de puternice pentru a

putea edita documente audo si video. Atunci va fi normal de a folosi parti din materialele

existente pentru crearea unor noi materiale multimedia. Pentru a sigura originalitatea

matrialelor multimedia trebuie introduse anumite semne pentru marcare. Marcarea

documentelor audio si video (watermark) devine o problema importanta pentru a asigura

protectia drepturilor autorului. Tehnologiile recente de prelucrare a semnalelor permit

marcarea documentelor fara o degradare evidenta. Semnatura autorului poate fi introdusa in

documentele audio/video folosind de exemplu tehnici de imprastiere a spectrului. Cu toate ca

tehnologiile de marcare sunt foarte importante ele ramin inttr-un stadiu incipient. Citeva

tehnici de marcare vor fi prezentate in continuare.

1.4 Implementarea hardware

Implementarile hardware ieftine ale terminalelor multimedia este o problema

importanta. Multumita progresului tehnologiei VLSI pretul de cost al hardware-lui scade

astfel ca proliferarea domeniului multimedia devine o realitate. Totusi astazi numai

microprocesoarele puternice au posibilitati de a decoda MPEG-2 siruri de biti in timp real. In

Fig. 1.6 este data o clasifiacre a unor circuite programabile recente si posibilitatile lor de

prelucrare. Directia superioara arata circuitele RISC de uz general pentru statii de lucru, iar

directia-stinga sus prezinta procesoare CISC de uz general pentru aplicatii PC. Directia

stinga-jos este pentru procesoare RISC imbunatatite pentru PDA si masini pentru jocuri.

Directia jos indica circuite DSP programabile. Directia dreapta-jos este pentru calculatoare

PC cu procesoare de mediu. Dupa aparitia procesorului Pentium diferentele dintre circuitele

RISC si CISC s-au redus. Aceasta deaoarece Pentium foloseste unitati pipe-line si

superscalara su executie out-of-order, introdusa prima data la procesoarele RISC pentru

imbunatatirea posibilitatilor de prelucrare. Penalizarea unei astfel de abordari o reprezinta

complexitatea unitatii de control a circuitului. Mai mult de 50% din suprafata cipului este

destinata pentru aceste unitati. Puterea disipata este in jur de 20-30 wati.

Decodarea MPEG-2 in timp real necesita in jur de 1 giga operatii pe secunda si deci

este imposibil de a executa decodarea cu procesoare cu arhitectura conventionala care au mai

putin de 1 GIPS. Unele cipuri folosesc un ALU modular pentru decodarea MPEG-2 in timp

real, unde ALU de 64 de biti este impartit in 4 unitati ALU de 16 biti cu functionare SIMD.

Un procesor RISC imbunatatit creat recent foloseste un ALU modular pentru realizarea

Page 15: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

codarii MPEG-1 sau a decodarii MPEG-2 in timp real. Daca nu sunt folosite unitati de

comanda complexe puterea disipata de aceste circuite poate fi redusa pina la 1,5 wati.

Circuitele DSP sunt folosite in special la terminalele de comunicatie fara fir pentru codarea

vocii la rate de bit joase. Aceasta pentru ca circuitele DSP au o putere disipata foarte redusa,

in jur de 100 mW. Din pacate posibilitatile lor de prelucrare nu permit decodarea MPEG-2 in

timp real. Pentru PDA comunicatiile video care folosesc MPEG-4 sunt posibile la un pret de

cost redus. Comunicatiile fara fir discutate in IMT-2000 (future mobile communicatios

system) pot avea in jur de 64 Kb/s. Prin urmare formatele QCIF (1/16 din rezolutia NTSC) si

7,5 pina la 15 cadre pe secunda pot fi comprimate cu aceasta rata de bit. In acest caz

circuitele DSP de consum redus pot asigura functia de decodare MPEG-4 datorita

continutului de informatie redus. Procesoarele de mediu sunt o extindere a circuitelor DSP

programabile pentru PC, incluzind decodarea MPEG-2 in timp real. Ele folosesc un numar

mare de unitati de prelucrare care sunt comandate prin tehnica VLIW (very long instruction

word). Daca frecventa lor de lucru este relativ scazuta puterea disipata este de circa 4 wati.

Chiar daca circuitele programabile au capacitatea de prelucrare in jur de 1 GOPS,

suficienta pentru decodarea MPEG-2 in timp real, codarea MPEG-2 in timp real depaseste cu

mult posibilitatile lor. Sa evaluam de exemplu complexitatea operatiei de estimare a miscarii

la codarea video. Codarea compresiei este executata prin extragerea prin extragerea iformatiei

despre ultima imagine din imaginea curenta. Sunt codate numai componentele reziduale

dintre doua imagini. Estimarea miscarii este folosita pentru a imbunatati extragerea

informatiei despre ultima imagine prin compensarea miscarii preestimate in ultima imagine,

daca este aceasi miscare. Functia de estimare a miscarii este un proces de imperechere a

setului de secvente intre un segment de 16 x 16 pixeli din cadrul curent de imagine si o

anumita imagine de referinta (in multe cazuri, ultima imagine) pentru a gasi cele mai

similare segmente de 16 x 16 pixeli. Informatia despre miscare este obtinuta ca distanta in

locatii dintre segmentul curent si segmentul detectat. La un cadru de 720 x 480 de pixeli

exista 1350 de segmente diferite de 16 x 16 pixeli, 45 de segmente pe orizontala si 30 de

segmente pe verticala. In fig. 1.7 aria de cautare in ultima imagine este de limitata la o

regiune patrata care acopera o miscare intre –16 si +16 pozitii de pixeli in ambele directii,

pentru fiecare segment de 16 x 16 pixeli. Aceasta limitare a ariei de miscare poate fi

rezonabila daca imaginea se refera la o comunicare fata in fata. Deoarece MPEG-2 permite si

miscari de ½ pixeli segmentul curent de 16 x 16 ar trebui comparat cu 64 pozitii diferite pe

ambele directii. Masura L1 a distantei, unde diferenta absoluta dintre pixelii corspunzatori

dintre segmente este acumulata, este folosita pentru criteriul celei mai bune imperecheri. Prin

Page 16: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

urmare, sunt necesare 16x16 operatii absolute pentru o posibila evaluare a miscarii. In

consecinta numarul total de operatii care trebuie efectuate intr-o secunda poate fi calculat

astfel:

1350 x (64 x 64) x (16 x 16) x 30 = 40 GOPS

Aceasta arata ca pentru limitarea aleasa pentru regiunea de miscare estimarea miscarii

necesita mai mult de 40 GOPS, la care trebuie adaugate si operatiile pentru calculul

DCT/IDCT si a codatrii cu lungime de bit variabila. Conform standardului MPEG-2

regiunile de cautare pot fi extinse la intregul cadru. Deci prelucrarea va depasi 10 Tera

operatii pe secunda. Acesti factori impun folosirea unor sisteme dedicate aplicatiilor.

Cind este proiectat un circuit LSI pentru o aplicatie specifica , de exenplu pentru un

codor MPEG-2, capacitatea de prelucrare ceruta depinde de algoritmul folosit. Exosta o

categorie de algoritmi simplificati pentru estimarea miscarii, insa simplificarea algoritmului

produce o anumita degradare a imaginii reconstruite. Compromisul dintre complexitate

hardware si calitate este o problema importanta a metodologiei de proiectare a circuitelor

specifice aplicatiei.

La proiectarea arhitecturii, hardware-ul pentru pipe-line sporeste posibilitatile de

prelucrare cu o mica penalizare datorata introducerii registrelor. De exemplu, daca o

prelucrare este mpartita in doua prin introducerea registrelor, prima prelucrare poate fi

activata chiar dupa ce a doua prelucrare incepe. Introducerea registrelor poate dubla chiar

viteza de prelucrare. In cazul estimarii miscarii descrise anterior sau pentru calculul

produsului unor matrici sau vectori poate fi utilizata o structura pipe-line denumita arie

sistolica (Systolic Array). Multe circuite pentru compensarea miscarii si/sau circuite codec

incluzind compensarea miscarii au folosit arii sistolice, datorita regularitatii si a simplitatii in

prelucrarea de mare viteza. Unele arii sistolice avansate vor fi prezentate mai tirziu.

Pentru partea de codare a canalului din Fig. 1.4 unele operatii trebuie efctuate in cimpuri

finite si operatiile cerute sunt putin diferite fata de ALU conventional.

Proiectarea pentru consum redus este o alta problema importanta a implemantarii

hardware, pentru ca realizarea functiilor multimedia cu sisteme de consum redus asigura

prelungirea duartei de viata a bateriilor pentru aplicatiile portabile. Probabil ca cea mai

importanta piata pentru aplicatiile multimedia va fi cea a terminalelor portabile. In Fig. 1.8

este prezentat un echipament multimedia experimental care permite descarcarea in calculator

a noutatilor video in fiecare dimineata. In acest sistem noutatile video sunt stocate intr-o

Page 17: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

cartela PCMCIA in format MPEG-1. Calitatea audio este comparabila cu aceea a discului

compact si calitatea MPEG-1 este putin rezonabila pentru ecranele mici. Chiar daca acest

sistem nu include capacitati de comunicare fara fir in acest moment, viitoarele versiuni vor

include functiuni pentru cautarea pe web. Cind un astfel de terminal compact receptioneaz si

transmite informatii video cu Mb/s sisteme de antene adaptive ar putea fi utilizate pentru a

capta semnalul dorit in mediu zgomotos.

Multe operatii aritmetice precum impartirea si extragerea radacinii patrate, precum si

functii primare ca sin, cos, log si exp pot fi incluse in astfel de sisteme pentru aplicatii de

grafica pe calculator. Operatiile de impartire si de extragere a radacinii patrate pot fi

executate cu algoritmul CORDIC.

Page 18: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Cap.2. Compresia video

2.1 Introducere

Semnalul video digital prezinta multe avantaje in comparatie cu semnalul video analogic.

Totusi, cand semnalul video este reprezentat in format digital, largimea de banda creste

considerabil. De exemplu, un singur cadru in format HDTV (televiziunea de inalta definitie),

avand o dimensiune a cadrului de 19201250 pixeli si o rata de 50 cadre/sec cere o

dimensiune de stocare de 57.6 MB si o rata a sursei de date video de 2.88 GB/s. Un film de 2

ore in format HDTV are nevoie de aproximativ 414 GB. Chiar si cu un dispozitiv performant

de memorare, nu exista inca suportul tenologic care sa permita transmisia si procesarea

semnalului la viteze atat de mari. Pentru a depasi problema largimii benzii ocupate, in

contextul pastrarii avantajelor conferite de catre semnalul digital in televiziune, au fost

dezvoltate diferite tehnici de compresie a semnalului video. Acest capitol face o sinteza a

conceptelor de baza care intervin in studiul compresiei video si prezinta cunostiintele de baza

necesare pentru implementarea acestor tehnici de codare foarte intens utilizate.

Capitolul este organizat astfel: sectiunea 2.2 recapituleaza conceptele de baza ale codarii fara

pierderi, algoritmi de codare cum ar fi codoarele Huffman si codarea aritmetica. Ratele de

compresie utilizate de algoritmii de compresie fara pierderi sunt limitate. Spre deosebire,

algoritmii de compresie cu pierderi, discutati in sub-capitolele 2.4 si 2.5, nu fac o

reconstructie perfecta a semnalului dupa decodare, dar au o rata de compresie excelenta.

Tehnicile de codare bazate pe transformari sunt prezentate in capitolul 2.3. Teoria din acest

capitol contine informatii despre transformata cosinus discreta, cuantizarea vectoriala si

reordonarea coeficientilor cuantizati ai transformarii. Algoritmul cheie utilizat in compresia

video este studiat in capitolul 2.4. Capitolul 2.5 prezinta o privire de ansamblu asupra unor

caracteristici de baza ale standardului de compresie video MPEG-2. In final sunt discutate

dificultatile ridicate de complexitatea algoritmilor de codare video, in capitolul 2.6.

2.2 Tehnici de codare entropica

Entropia H de ordinul intai a unei surse discrete fara memorie, continand L simboluri,

este definita astfel :

Page 19: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

L

i

ii ppH1

]log[ (1)

unde pi este probabilitatea de aparitie a simbolului de ordin i. Entropia sursei se masoara in

biti/simbol, si este marginita inferior de lungimea medie a cuvantului de cod necesar pentru a

reprezenta simbolurile sursei. Aceasta margine inferioara poate fi obtinuta daca lungimea

cuvantului de cod pentru simbolul i este aleasa a fi - ip2log biti astfel incat sunt desemnate

cuvinte de cod mai scurte pentru simboluri mai probabile si cuvinte de cod mai lungi pentru

simboluri mai putin probabile. Desi valoarea - ip2log biti/simbol poate sa nu fie obtinuta

practic deoarece - ip2log poate sa nu fie intreg, ideea unei lungimi de codare variabile, care

sa reprezinte simbolurile cel mai frecvent aparute utilizand cuvinte de cod mai scurte si

simbolurile mai putin frecvente utilizand cuvinte de cod mai lungi, poate fi aplicata pentru a

obtine compresia de date. Algoritmii de compresie a datelor care utilizeaza datele statistice

ale sursei pentru a obtine rata de biti/simbol apropiata de valoarea entropiei sunt cunoscuti in

general ca algoritmi de codare entropica. Codarea entropica este lipsita de pierderi deoarece

datele initiale pot fi reconstruite exact utilizand datele compresate.

Acest capitol recapituleaza pe scurt cei mai frecvent utilizati 2 algoritmi de codare entropica:

codarea Huffman si codarea aritmetica. Acest capitol include de asemenea inca un tip de

algoritm de codare a sursei fara pierderi, codarea run-length. El converteste un sir de

simboluri identice intr-o secventa de lungime intermediara de simboluri denumite coduri run-

length si este des utilizat impreuna cu algoritmii de codare entropica pentru a imbunatati rata

de compresie a datelor.

2.2.1 Codarea Huffman

Cand este cunoscuta distributia de probabilitati a unei surse discrete, algoritmul de

codare Huffman furnizeaza o procedura sistematica de proiectare pentru a obtine lungimea

optima a cuvantului de cod. Proiectarea codurilor Huffman implica 2 pasi: generarea

simbolurilor si asignarea codurilor. Acesti pasi sunt descrisi in continuare:

1. Generarea simbolurilor; se formeaza arborele de codare Huffman astfel:

a. Aranjarea probabilitatii simbolurilor pi in ordine descrescatoare si stabilirea

acestora ca fiind frunzele arborelui.

b. Repetarea urmatorilor pasi pana cand ramurile se strang intr-un nod:

Page 20: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

i. Cele doua noduri cu cele mai mici probabilitati converg si formeaza

un nou nod cu probabilitatea egala cu suma probabilitatilor celor

doua noduri.

ii. Se asigneaza „1” si „0” perechii de ramuri care converge intr-un nod.

2. Asignarea codurilor; cuvantul de cod pentru fiecare simbol este o secventa binara de

la radacina arborelui catre frunza in care probabilitatea simbolului este localizata.

Exemplul 2.2.1 Se considera o sursa discreta continand 5 simboluri {a, b, c, d, e} cu o

probabilitate de distributie {0.4, 0.14, 0.2, 0.2, 0.06}. Procedura de codare Huffman si

rezultatele acestei codari sunt ilustrate in fig. 2.1. Se observa ca in timpul procesului de

convergenta poate aparea posibilitatea ca doua sau mai multe probabilitati sa fie egale. De

exemplu, la pasul 2 in fig. 2.1(a), probabilitatea simbolurilor d si e este egala cu

probabilitatea simbolurilor b si c. In caz de egalitate alegerea convergentei poate fi

arbitrara, iar codurile rezultate pot fi diferite, avand aceeasi rata medie de bit si aceeasi rata

de compresie dupa cum poate fi verificat utilizand exemplele de coduri din fig. 2.1(a) si (b).

Codul Huffman este unic decodabil. O data generat codul, procedura de codare poate fi

realizata prin alocarea fiecarui simbol de intrare catre cuvantul de cod corespondent, care

poate fi stocat intr-un tabel. Procedura de decodare include extragerea cuvintelor de cod

Page 21: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

dintr-un sir de cuvinte de cod concatenate si asignarea fiecarui cuvant de cod simbolului

corespunzator, utilizandu-se respectivul cod Huffman. O proprietate importanta a codurilor

Huffman este aceea ca nici un cod sau vreo combinatie de coduri nu reprezinta prefixul

vreunui alt cod. Conditia de prefix permite extragerea cuvintelor de cod dintr-un cuvant de

cod concatenat si elimina surplusul pozitiior transmise. Conceptual, cuvantul de cod extras

poate fi obtinut bit cu bit prin transversalizarea arborelui de codare Huffman. Se incepe de la

radacina arborelui; la fiecare nod intermediar, se ia o decizie in concordanta cu bitul

receptionat, pana cand se ajunge la nodul terminal (frunza); se gaseste , astfel, cuvantul de

cod, iar bitii corespunzatori sunt extrasi din sirul de biti.

Exemplul 2.2.2 Acest exemplu ilustreaza procedurile de codare si de decodare a

codurilor Huffman generate in Exemplul 2.2.1 ((fig. 2.1(a)), prezentate in tabelul de codare

Tabelul 2.1. Se considera secventa de date sursa dbaaec.Utilizand tabelul de codare,

cuvantul de cod corespunzator se calculeaza ca fiind 11101000 1111110. La decodare,

aceasta secventa de biti poate fi impartita astfel: 1110, 10, 0, 0, 1111, 110; apoi se

reconstitue secventa initiala de simboluri, dbaaec.

2.2.2 Codarea aritmetica

In cazul codarii aritmetice probabilitatile simbolurilor pi ar trebui, cunoscute apriori

sau estimate. Cunoscand distributia de probabilitate a datelor sursa, codarea aritmetica

imparte intervalul de probabilitate 0 si 1 in sub-intervale, conform cu probabilitatile

simbolurilor, si reprezinta simbolurile prin valorile medii ale sub-intervalelor.

Se considera cazul codarii aritmetice bazate pe un singur simbol ales din setul de

simboluri considerat {ai ,1 i L} cu distributia de probabilitate {pi}. Fie Pi suma

probabilitatilor de la primul simbol pana la simbolul de indice i, adica:

ik

k ki pP1

. La

codarea aritmetica, intervalul [0,1] este impartit in L sub-intervale {[0,P1], [P1,P2],…,[ PL-1,

PL=1]}, iar sub-intervalul de ordinul i, definit ca I(ai)= [ Pi-1, Pi] este asignat simbolului ai

(pentru 1 i L), ca in fig. 2.2 (a). Este apoi calculata reprezentarea binara a mijlocului sub-

Page 22: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

intervalului i si primii W(ai) biti (dupa punctul de mijloc), reprezinta cuvantul de cod

aritmetic pentru simbolul ai (pentru 1 i L), unde 1]1([log)( 2 ii paW .

Exemplul 2.2.3 Pentru setul de simboluri {a,b} si distributiile de probabilitate p0=1/4 si

p1=3/4, intervalul [0,1] este impartit in doua sub-intervale I(a)=[0, 1/4] si I(b)=[1/4, 1]. Cum

W(a)=[log24]+1=3 si W(b)=[log24/3]+1=2, codurile aritmetice pentru simbolurile a si b sunt

001 si 10, valori care reprezinta primii 3 biti din reprezentarea binara a valorii 1/8 (mijlocul

intervalului I(a)), respectiv primii 2 biti din reprezentarea binara a 5/8 (mijlocul intervalului

I(b)). Aceste lucruri sunt ilustrate in fig. 2.2(b).

Codarea aritmetica are ca rezultat un sir de simboluri care permite obtinerea unor rate de

compresie mult mai bune. De obicei este mai performanta decat codarea Huffman din acest

punct de vedere. Codarea aritmetica a unui sir de simboluri de lungime l, S={s1, s2,…, sl} este

obtinuta prin l impartiri iterative in sub-intervale, partitionari facute pe baza proprietatilor

statistice ale setului de simboluri considerat, adica distributia de probabilitate si

probabilitatile conditionate. Lungimea fiecarui sub-interval este egala cu probabilitatea sirului

de simboluri care ii corespunde. Cuvantul de cod aritmetic pentru un sir de simboluri S este

format din primii W biti din reprezentarea binara a valorii de mijloc a sub-intervalului

corespunzator, I(S), unde W=[log21/|I(S)|]+1, iar |I(S)| este lungimea intervalului I(S).

Page 23: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Exemplul 2.2.4 Acest exemplu ilustreaza procesul de codare aritmetica pentru un sir

de simboluri ales din setul de simboluri din exemplul 2.2.3. Se presupune ca simbolurile din

secventa sursa sunt independente si identic distribuite (iid). Se considera sirul de patru

simboluri S=bbab. Codarea aritmetica a acestuia cuprinde cinci pasi, dupa cum se prezinta

in fig. 2.3. La primul pas, intervalul [0,1] este impartit in doua sub-intervale pe baza

probabilitatilor lui a si b, iar I(a)=[0,1/4] si I(b)=[1/4,1]. Pentru ca primul simbol din sirul S

este b, al doilea sub-interval este retinut si transmis la urmatoarea iteratie. La pasul al

doilea, sub-intervalul I(b) este impartit in doua sub-intervale: I(ba)=[1/4,7/16] si

I(bb)=[7/16,1] pe baza probabilitatilor conditionate p(a|b) si p(b|a), care sunt egale cu p(a)

si p(b) pentru surse iid. In conformitate cu valoarea celui de-al doilea simbol, sub-intervalul

I(bb) este retinut si transmis la urmatoarea iteratie. In mod similar, la pasul al treilea, sub-

intervalul I(bba) = [7/16,121/256] este retinut si transmis in iteratia a patra; sub-intervalul

I(bbab) = [121/256 , 37/64] obtinut la pasul 4 este sub-intervalul final pentru sirul de

simboluri S=bbab. In cele din urma, la pasul 5, reprezentarea binara a mijlocului sub-

intervalului I(bbab)=[ 121/256 , 37/64], adica a valorii 269/512 este calculata, iar primii

biti, respectiv 10000 constituie cuvantul de cod aritmetic al sirului S=bbab.

[log 2 (1/ | I(bbab)|)] +1 = [log 2256/27]+1=5 (2)

Page 24: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

2.2.3 Codarea run-length

In codarea run-length, un sir de simboluri identice este reprezentat utilizand un

indicator de lungime a simbolului si un indicator de valoare a acestuia. De exemplu, codul

run-length pentru secventa de simboluri sursa {0, 0, 0, 0, 0, 3, 0, 0, 0, 5, 6} este {(#5,0),

(#1,3), (#3,0), (#1,5), (#1,6)}, unde valoarea ce are anterior simbolul # reprezinta indicatorul

de lungime. Acesti indicatori de lungimile si de valoare a simbolurilor in run-length pot fi

codati utilizand algoritmii de codare entropici. Pentru secvente binare, sirurile consecutive

sunt formate din valorile alternate 1 si 0, aceste valori putand sa nu fie explicit prezentate.

Astfel, doar simbolul de indicare a lungimii si prima valoare a intregii secvente sunt necesare

in cazul codarii run-length pentru siruri binare. De exemplu, secventa binara {0, 0, 0, 0, 1, 1,

1, 0, 0, 1, 1, 1} poate fi codata astfel: {0, #4, #3, #2, #3}.

Pentru secventele de date corespunzand imaginilor digitale, exista simboluri cu o

mare probabilitate de aparitie, care apar consecutiv, cum ar fi zeo-urile. In acest caz, doar

aceste siruri de simboluri sunt codate run-length in simboluri intermediare, iar aceste

simboluri intermediare, alturi de restul simbolurilor sursa originale, sunt codate apoi utilizand

scheme de codare entropica. De exemplu, secventa {0, 0, 0, 0, 0, 3, 0, 0, 0, 5, 6} poate fi mai

intai codata run-length ca {(#5,3), (#3,5), (#0,6)}, unde a doua valoare din paranteza rotunda

reprezinta valoarea numarului de simboluri succesive diferite de zero, iar prima valoare din

paranteza rotunda indica numarul de simboluri anterioare consecutive zero.

2.3 Tehnici de codare a transformatei

Tehnicile de codare a transformatei au tendinta de a impacheta o mare parte din

energia medie a imaginii intr-o componenta relativ mica data de coeficientii transformatei,

care, dupa cuantizare, va contine siruri lungi de zerouri. Un sistem de codare pe baza de

transformate contine urmatorii pasi: transformarea (descompunerea) blocurilor de imagine

(sau a imaginii), cuantizarea coeficientilor rezultati, reordonarea coeficientilor cuantizati si

formarea fluxurilor de biti de iesire; aceste tehnici sunt prezentate in acest capitol. Doua

dintre cele mai cunoscute transformate sunt transformata cosinus discreta si transformata

wavelet.

2.3.1 Transformata cosinus discreta

Transformata cosinus discreta (DCT - Discrete Cosine Transform) a fost prima

transformare introdusa pentru recunoasterea formelor prin prelucrarea imaginilor si pentru

Page 25: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

filtrarea Wiener [3]. DCT este o transformare ortogonala care “decoreleaza” semnalele intr-

un singur bloc de imagine si compacteaza energia intregului bloc de imagine in cativa

coeficienti DCT de frecventa joasa. Aceasta metoda este introdusa in ambele standarde de

compresie video si a imaginii. Acest capitol introduce varianata simetrica unidimensionala 1-

D DCT pentru secvente pare.

Consideram o secventa de N puncte x(n), astfel incat x(n)=0 pentru n<0 si pentru n>N-

1. Transformatele-pereche DCT si IDCT (transformata inversa a DCT) pentru aceasta

secventa sunt:

1,....,1,0],2

)12(cos[)()()(

1

0

NkN

knnxkekX

N

n

(3)

1,....,1,0],2

)12(cos[)()(

2)(

1

0

NnN

knkXke

Nnx

N

n

(4)

unde:

altfel

kdacake

,1

0,2

1

)( (5)

Cele N puncte ale transformatelor pereche DCT si ale IDCT pot fi obtinute folosind perechea

de transformate Fourier discreta (DFT) in 2N puncte. Construim secventa de 2N puncte, y(n),

folosind pe x(n) si imaginea ei in oglinda, dupa cum urmeaza:

12),12(

10),()12()()(

NnNnNx

NnnxnNxnxny (6)

Secventa y(n) prezinta simetrie fata de punctul de mijloc n=N-1/2. Fig. 2.4 prezinta un

exemplu pentru N=5.

Page 26: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Cele 2N puncte ale DFT ale lui y(n) sunt date de:

knN

jknN

j

enNxenxenykYN

Nn

N

n

knN

jN

n

D

2

2

2

2 121

0

2

212

0

)12()()()(

(7)

pentru 0 k 2N-1. Inlocuind n=2N-n’-1 in relatia (7) vom obtine:

1

0'

2

2'

2

20

1'

)12(2

212

0

2

2

.)'()'()12(N

n

kN

jknN

j

Nn

nNkN

jN

n

knN

j

eenxenxenNx

(8)

Din (7) si (8) putem scrie:

1

0

1

0

2

)12(

2

)12(

2

1

0

1

0

2

2

2

2

2

2

)()((

)()()(

N

n

N

n

kN

njk

N

nj

kN

j

N

n

N

n

kN

jknN

jknN

j

D

enxenxe

eenxenxkY

(9)

]2

)12(cos[)(2

1

0

2

N

n

kN

j

N

knnxe

Definim:

altfel

NkekYkXN

kj

D

0

10)()(ˆ)

2(

(10)

Page 27: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Cele N puncte ale DCT pot fi determinate utilizand expresia 2/)(ˆ)()( kXkekX .

Transformata inversa a DCT este dedusa raportand YD(k) la X(k), calculand y(n) din

YD(k) folosind transformata inversa a DFT si reconstruind x(n) din y(n). Desi YD(k) este o

secventa de lungime 2N , iar X(k) o secventa de lungime N , redundanta secventei simetrice

y(n) permite ca YD(k) sa poata fi scrisa utilizand X(k). Pentru 0 k N-1,

)(ˆ)( 2 kXekYk

Nj

D

, iar YD(N)=0 pentru N+1 k 2N-1 si 1 2N-k N-1. De aici,

)-(2X̂)-(2X̂)2( 22

)2(

kNekNekNY N

kj

N

kNj

D

(11)

Cu alte cuvinte, inlocuind in (9):

)(

)2

)12(cos()(2

)2

)12(cos()(2

)2

)2)(12(cos()(2)2(

2

2

1

0

22

2

1

0

22

2

1

0

2

)2(

kYe

N

knnxee

N

knnxee

N

kNnnxekNY

DN

kj

N

n

N

kj

N

kj

N

n

N

kj

N

Nj

N

n

N

kNj

D

(12)

Cum,

)-(2ˆ )-(2ˆ)2()( 222

2

2

2

kNXekNXeekNYekY N

kj

N

kj

N

kj

DN

kj

D

(13)

pentru N+1 k 2N-1. De aici putem avea:

121)2(ˆ

0

10),(ˆ

)(

2

2

NkNkNXe

Nk

NkkXe

kY

N

kj

N

kj

D

(14)

Page 28: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Transformata inversa a DFT pentru YD(k) este:

))((2

1)(

12

0

2

2N

k

knN

j

D ekYN

ny

(15)

)))2(ˆ()(ˆ(

2

1 12

1

2

2

2

1

0

2

)12(

N

Nk

knN

jN

kjN

k

kN

nj

ekNXeekXN

(16)

Dupa schimbarea variabilei in al doilea termen si folosind relatiile )0(2)0(1 ee si

)()(1 keke , pentru k0, relatia (16) poate fi scrisa astfel:

))2

)12(cos()()()0()0((

2

))2

)12(cos()(ˆ2)0(ˆ(

2

1

))(ˆ)(ˆ(2

1)(

1

1

1

1

1

1

2

)12(1

0

2

)12(

N

k

N

k

N

k

kN

njN

k

kN

nj

N

knkekXXe

N

N

knkXX

N

ekXekXN

ny

(17)

pentru 0 n 2N-1. Transformata inversa IDCT, obtinuta retinind primele N valori ale lui

y(n) se obtine cu relatia urmatoare:

)2

)12(cos()()(

2)()(

1

0

N

k N

knkXke

Nnynx

(18)

pentru 0 n N-1

Expresiile secventelor de lungime N pentru x(n) si pentru X(k) pot fi grupate ca vector astfel:

)1(

)1(

)0(

,

)1(

)1(

)0(

NX

X

X

Nx

x

x

Xx (19)

Page 29: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

iar transformata DCT poate avea urmatoarea forma matriciala :

=

)2

)1)(12(cos(.......)

2

)1(3cos()

2

)1(cos(

............................

)2

)12(cos(.......)

2

3cos()

2cos(

21.......2121

N

NN

N

N

N

N

N

N

NN

(20)

Coeficientii transformatelor DCT si IDCT pot fi compusi astfel :

XΛxΛx,XT

N

2 (21)

De aici, obtinem ca T= NN

NI

2 unde INN este matricea unitate de dimensiune NxN. Deci

DCT este o transformare ortogonala.

In procesarea imaginilor, un cadru este divizat in NN blocuri si fiecarui bloc ii este

aplicata o transformata 2D-DCT. O transformare DCT unidimensionala in N puncte relatia

(3) presupune N2 operatii de multiplicare si adunare. De aici rezulta ca, pentru 2D-DCT sunt

necesare N4 operatii de multiplicare si adunare. Pe de alta parte, transformarea 2D-DCT poate

fi calculata cu ajutorul a N transformate 1D-DCT considerind cele N linii din blocul de

imagine, si apoi efectuind N transformate 1D-DCT considerind cele N coloane ale blocului

[4]. Cu aceasta simplificare, calculul transformatei 2D-DCT pentru blocul de dimensiune

NN necesita 2 N3 operatii de multiplicare si adunare sau 4N

3 operatii aritmetice.

2.3.2 Compresia imaginii cu transformata Wavelet

Transformata Wavelet este o transformare ortonormala multirezolutie [5]-[7]. Aceasta

transformare descompune semnalul intr-o banda de energie care este esantionata cu diferite

rate. Aceste rate sunt determinate pentru maximizarea informatiei semnalului in timpul

minimizarii ratei de esantionare sau a rezolutiei pentru fiecare sub-banda.

In analiza wavelet, semnalele sunt reprezentate utilizand un set de functii de baza

(numite functii wavelet) obtinute prin deplasarea si scalarea unei singure functii prototip,

Page 30: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

denumita „functia wavelet mama”, in timp. Transformata Wavelet unidimensionala discreta

(DWT) pentru secventa x(n) este definita astfel:

k

i

ii knhkxny )2()()( 1 , pentru 0 i m-2

k

m

mm knhkxny )2()()( 1

11 , pentru i=m-1 (22)

unde versiunile deplasate si scalate ale functiei „ wavelet mama”, h(n) , )2( 1 knh i

i

pentru

0 i m-1 si - k , sunt functii baza , iar yi(n) sunt coeficientii Wavelet. Transformata

inversa poate fi calculata astfel :

k

m

mm

k

i

ii

m

i

knfkyknfkynx )2()()2()()( 1

11

12

0

(23)

unde { )2( 1 knf i

i

}este desemnata astfel incat relatia (23) permita reconstruirea perfecta a

semnalului original x(n). Se observa ca evaluarea transformatelor DWT si IDWT este

similara operatiilor de convolutie. De fapt, transformatele DWT si IDWT pot fi calculate

recursiv printr-o serie de convolutii si decimari si pot fi implementate utilizand bancuri de

filtre.

Un banc de filtre digital este un ansamblu de filtre avand intrarea comuna (cind ne

referim la banc de filtre de analiza) sau iesirea comuna (cind ne referim un banc de filtre de

sinteza). Bancurile de filtre sunt folosite in general pentru codarea pe sub-benzi, unde un

singur semnal x(n) este impartit in m sub-benzi cu bancul de filtre de analiza; in cazul

bancului de filtre de sinteza, semnalele de pe cele m sub-benzi de intrare sunt combinate

pentru reconstructia semnalului y(n).

Daca se considera calculul transformatei discrete Wavelet pentru m=4, folosind

bancuri de filtre, coeficientii Wavelet sunt urmatorii:

Page 31: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

k

k

k

k

knhkxny

knhkxny

knhkxny

knhkxny

)8()()(

,)8()()(

,)4()()(

,)2()()(

33

22

11

00

(24)

si pot fi calculati folosind bancul de filtre de analiza cu decimatori ca in fig. 2.5 (a).

Semnalul x(n) poate fi reconstituit prin transformata inversa Wavelet folosind intepolarea cu

bancul de filtre pentru sinteza, cum se observa si in fig. 2.5 (b).

In practica, transformata discreta wavelet prelucreaza M esantioane de intrare periodice in

fiecare moment si genereaza M esantioane de iesire pentru benzi de frecvente diferite, unde

M=2m

, iar m este numarul de benzi sau de nivele ale functiei wavelet. Aceasta metoda este

adesea implementata folosind o structura de arbore a bancului de filtre, unde cei M coeficienti

wavelet sunt calculati pentru log2M nivele de octave, si fiecare octava are in componenta

operatii de filtrare la frecventa joasa si la frecventa inalta. La fiecare nivel al octavei j, o

secventa de intrare sj-1(n) este trecuta prin filtre trece jos si respectiv trece sus, date de

functiile g(n) si f(n). Iesirea de la FTS, h(n), reprezinta informatia de detaliu din semnalul

original la nivel j, care este notata prin wj(n), iar iesirea FTJ, g(n) reprezinta informatia

ramasa in semnalul original, care este notata cu sj(n). Calculul pentru octava j poate fi

exprimat astfel:

Page 32: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

k

j

k

jj

k

j

k

jj

knskhknhksnw

knskgkngksns

)2()()2()()(

)2()()2()()(

11

11

(25)

unde n este indicele esantionului, iar j este indicele octavei. Initial s0(n)=x(n). Fig. 2.6

prezinta diagrama bloc a unei structuri arbore pentru calculul DWT cu 3 octave.

Transformata discreta wavelet bidimensionala poate fi utilizata pentru a descompune o

imagine intr-un set de imagini succesive mai mici, ca in fig. 2.7. Suma dimensiunilor ale

imaginilor mai mici este aceeasi cu a imaginii originale; oricum, energia imaginii originale

este compactata in imagini mici la frecventa joasa in coltul din stanga sus in fig. 2.7.

Page 33: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

2.3.3 Cuantizarea vectoriala

Procesul de cuantizare proiecteaza valorile continue ale coeficientilor transformati

rezultati intr-un set finit de simboluri, fiecare aproximand cel mai bine valoarea originala a

coeficientului corespunzator. Acest singur coeficient din procesul de cuantizare reprezinta

cuantizarea scalara. In contrast, cuantizarea vectoriala mapeaza seturi de valori (de forma

vectorilor), intr-un set predefinit de simboluri. Cuantizarea vectoriala este mai performanta

decat cuantizarea scalara, insa este mai greu de implementat. In acest capitol sunt prezentati

algoritmii fundamentali si modalitatile de implementare a cuantizarii vectoriale.

Intr-un sistem VQ (Vector Quantization), este necesara o definitie comuna pentru

caracteristica de codare atat pe partea transmitatorului (continand un vector de codare sau de

cuantizare), cat si pe partea receptorului (continand un vector de decodare sau de

decuantizare). Vectorul de cuantizare transmite indexul cuvintelor de cod mai repede decat

cuvintele de cod propriu-zise. Fig. 2.8 ilustreaza procesul VQ de codare si de decodare.

Pe partea de codare, vectorul de cuantizare ia un grup de esantioane de intrare (coeficientii

transformatei), compara acest vector de intrare cu cuvintele de cod din cartea de codare

(codebook) si selecteaza cuvantul de cod cu deviatia minima. S-a presupus ca vectorii au

dimensiunea k, iar dimensiunea cartii de codare este N. Daca lungimea elementelor vectorului

este W, iar N=2m, atunci este transmisa adresa de m biti din cartea de codare in loc de kW biti.

Acest lucru conduce la un factor de compresie m/kW. Decodorul receptioneaza in mod simplu

indexul de m biti ca adresa in cartea de codare si retransmite cel mai potrivit cuvant de cod

pentru reconstituirea cuvantului de intrare. In fig. 2.8, fiecare vector contine k=16 pixeli, la o

lungime a cuvantului de W=8. Cartea de codare contine N=256 cuvinte de cod, iar m=8. De

aceea, vectorul cuntizat din fig. 2.8 permite un factor de compresie de 1/16.

Algoritmul de codare pentru cuantizarea vectoriala poate fi privit ca un algoritm

exhaustiv de cautare, in care calculul deviatiei executat secvential, pentru fiecare vector

cuvant de cod din cartea de codare, urmarind obtinerea deviatiei minime si continuand pana

Page 34: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

cand a fost testat fiecare vector cuvant de cod. In general, ca masura a distrorsiunii este

folosita distanta euclidiana dintre doi vectori (cunoscuta ca eroarea patratica):

1

0

22)()(

k

i

ii yxd yxyx, (26)

In implementarile practice, deviatia dintre vectorul de intrare x si vectorul cuvant de cod cj de

rang j (0 j N-1) este calculata ca un produs scalar, si nu direct cu operatii de ridicare la

patrat [8]. Extinzand (26), vom obtine:

)(2)(2

jj ed xcxcx, j (27)

unde

1

0

22

2

1

2

1 k

i

jijj ce c (28)

unde produsul scalar este dat de relatia

1

0

k

i

jiicxjxc (29)

Deoarece ej depinde numai de vectorul cuvant de cod cj si este o constanta, poate fi

precalculat si tratat ca o componenta aditionala a vectorului cj .De aceea, pentru un vector de

intrare fix x, minimizarea deviatiei cu (27) pentru toti cei N vectori cuvinte de cod este

echivalenta cu maximizarea cantitatii x cj +ej , unde 0 j N-1. Prin urmare, procesul de

cautare in VQ poate fi descris astfel:

11

010

1

10))(max()min(

k

i

jji

n

iNj

jNj

n ecxdind (30)

unde inversa reprezinta „iesirea indexului indn, care atinge minimul sau maximul”, iar n este

un moment de timp. Procesul de cautare poate fi descris in mod echivalent cu o forma de

multiplicare matrice-vector descrisa in [9], astfel:

Page 35: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

eCxDMAX

1)(

110

in dind

T

Nddd (31)

unde C={cji}este o matrice Nk, iar cuvantul de cod de rang j, vectorul cjT este linia j, x fiind

vectorul de intrare de dimensiune k, si e=[e0 ….. eN-1]T.

Algoritmul de cautare anterior care calculeaza deviatia dintre dintre vectorul de intrare si

fiecare intrare din cartea de coduri, si este denumit cuantizare vectoriala full-search. Fiecare

operatie de tip full-search (cautare completa) necesita calculul a N deviatii, iar fiecare calcul

de deviatie implica k operatii de multiplicare si de adunare. De aceea, determinarea indexului

pentru un vector de dimensiune k sunt necesare Nk operatii de multiplicare si adunare si N-1

comparatii, fara a include operatiile de acceare a memoriei. Acest algoritm nu poate fi utilizat

cu performane bune cind N are valoare mare. In acest caz, metoda de cuantizare vectoriala

este structurata arborescent si are o complexitate proportionala cu log2N. Ideea de baza este

de a prelucra o secventa binara de cautare in locul unei cautari exhaustive, dupa cum se

observa in fig. 2.9. La fiecare nivel al arborelui, vectorul de intrare este comparat cu 2 vectori

cuvinte de cod si sunt executate 2 calcule de deviatii. Acest proces se repeta pana cand fiecare

frunza a arborelui a fost atinsa. De exemplu, in fig. 2.8, arborele de cautare necesita 16

calcule de deviatii, comparativ cu o cautare de 256 de elemente. Arborele de cautare VQ este

un cuantificator sub-optimal, fapt care rezulta tipic din gradul mai mic de performanta. Totusi

cu procedura anterioara pentru designul cartii de coduri, nivelul de performanta poate fi

imbunatatit.

2.3.4 Reordonarea coeficientilor transformatei cuantizate

Deoarece valorile diferite de 0 se afla in pozitiile de frecventa joasa, coeficientii transformatei

cuantizate pot fi reordonati astfel incat secventa rezultata contine siruri lungi de zero, care pot

Page 36: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

fi compresate eficient folosind metoda run-length sau schema de codare entropica. Cea mai

cunoscuta metoda de reordonare a coeficientilor DCT este incrementarea in zigzag incepand

de la frecventa 0 (componenta DC) pana la componenta de cea mai inalta frecventa.

2.4 Estimarea/compensarea miscarii

Pentru esantioane de intrare strins corelate, o estimare relativ exacta a esantionului curent

poate fi facuta pe baza esantioanelor anterioare; sau alternativ, esantioanele trecute pot fi

folosite pentru a previziona esantionul curent. Aceasta proprietate a condus la aparitia

schemei de codare predictiva. Fig. 2.10 prezinta diagrama bloc a unui sistem de codare de tip

predictiv, unde diferentele de predictie sunt codate si transmise. Cea mai cunoscuta forma de

codare predictiva pentru imagini este modularea diferentiala a impulsurilor in cod (DPCM).

Pentru compresia imaginilor statice, se folosesc pixelii vecini ca predictori si se exploateaza

corelatia spatiala pentru a obtine compresia. In ceea ce priveste secventele video, cadrele

consecutive contin foarte multe asemanari. Aceste redundante temporale pot fi indepartate

prin codarea DPCM dintre cadre, codare care utilizeaza cadrele anterioare ca predictoare si se

bazeaza pe o predictie compensata a miscarii dintre cadrele succesive.

Predictia pentru compensrse miscarii include estimari si compensari ale miscarii, in afara de

estimarea propriu-zisa a miscarii care reprezinta partea de calcul intensiv. In estimarea

miscarii, cadrele succesive a unei secventa video sunt analizate in raport cu estimarea

miscarii (sau a localizarii) vectorilor de pixeli sau a blocurilor de pixeli. Vectorii miscarii si

diferentele dintre cadrul cu miscarea compensata si cadrul original este codata si transmisa

mai departe.

Algoritmul de imperechere de blocuri (BMA) este de preferat fata de schemele de estimare a

miscarii datorita simplitatii relative. In BMA, fiecare cadru este partitionat in blocuri de

dimensiune NxN si presupune ca toti pixelii dintr-un bloc sunt caracterizati de aceeasi

miscare. Fiecare bloc de referinta din cadrul curent este comparat cu blocurile deplasate din

cadrul anterior, iar diferentele dintre cel mai potrivit bloc candidat si blocul referinta este

Page 37: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

definit ca vector al miscarii. Intervalul de cautare in cadrul anterior defineste fereastra de

cautare si este data de +/- p pixeli pe directii orizontala si verticala, relativ fata de pozitia

blocului de referinta. De aceea, fereastra de cautare contine (N+2p)2 pixeli. Algoritmul de

imperechere a blocurilor este ilustrat in fig. 2.11.

Pot fi utilizate cateva criterii de cautare pentru a defini potrivirea perfecta, incluzand functiile

de inter-corelatie (CCF-Cross-Correlation Function), eroarea medie patratica (MSE mean-

square error) si diferenta medie absoluta (MAD mean-absolute-difference). Criteriul MAD

este cel mai des intalnit in implementarile practice datorita simplitatii si performantelor

satisfactatoare. Blocul diferenta deplasat s(m,n) cu deplasare (m,n) utilizind criteriul MAD

este definit astfel:

1

0

1

0

)),(),((),(N

i

N

j

njmiyjixnms , pentru –p m, n p (32)

unde x(i , j) si y(i+m , j+n) corespund valorilor pixelilor din blocul de referinta din cadrul

curent si respectiv blocului candidat din fereastra de cautare din cadrul anterior. De observat

ca relatia (32) necesiat 3N2 operatii de calcul (o diferenta, o valoare absoluta si o adunare ce

sunt necesare pentru fiecare determinare de diferenta absoluta). Cateva strategii ce pot fi

folosite pentru determinarea blocurilor celor mai potrivite, in afara cautarii propriu-zise

(complete), este “metoda directa” (straight forward). Aceasta metoda cauta toate pozitiile

(2p+1)2 in fereastra de cautare si calculeaza vectorul de miscare v astfel:

u= min(m,n){s(m,n)} pentru –p m, n p

Page 38: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

v=(m,n)|u

De aici rezulta ca pentru un cadru NhNv (Nh pixeli pe linie si Nv linii pe cadru), o cautare

totala BMA implica:

vhv NNpNp

N

NN 222

2

h )12(33)12(

operatii pe cadru. Presupunand ca avem o rata de cadru de F cadre/sec, operatiile de calculare

in cautarea BMA sunt in numar de 3(2p+1)2 Nh NvF operatii/sec.

2.5 Standardul de codare video digitala MPEG-2

In general vorbind, secventele video contin amanunte semnificative redundante spatial

si temporal in interiorul unui singur cadru si intre cadre consecutive. MPEG este un standard

de comunicatie video dezvoltat de Moving Picture Experts Group, care reduce rata de bit prin

explorarea ambelor redundante spatiala si temporala prin tehnici de codare intra- si inter-

cadre. Scopul finat al standardului MPEG este de a optimiza calitatea imaginii si video pentru

rate de bit specificate folosind criterii de optimizare „obiectiva” sau „subiectiva” [10]. Fig.

2.12 ilustreaza diagrama bloc a procesuluide codare MPEG-2, unde predictia compnsata a

miscarii este urmata de transformarea codarii informatiei spatiale ramase; coeficientii

transformatei sunt apoi cuantizati, si codati entropic.

Acest capitol prezinta cateva dintre conceptele-cheie ale standardului MPEG-2; aceste

concepte includ sub-esantionarea semnalelor de diferenta de culoare, codarea dintre cadre si

Page 39: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

in interiorul lor a cadrelor I, P si B, tehnici de scanare intretesuta si progresiva. In cele din

urma, este prezentata structura generala a standardului MPEG-2 si sunt enumerate profilurile

si nivelurile acestuia.

2.5.1 Subesantionarea

O imagine color digitala contine elemente de imagine (pixeli), care sunt reprezentate utilizand

cele 3 culori primare: rosu (Red-R), verde (Green-R) si albastru (Blue-B). Reprezentarea

RGB este convertita intr-o reprezentare YUV bazata pe sistemul vizual uman, unde Y ofera

informatii despre luminanta, iar U si V sunt diferentele de culoare dintre Y si albastru,

respectiv Y si rosu, ambele numindu-se crominante. O esantionare completa a YUV este

denumita esantionare 4:4:4, iar pixelul rezultat este reprezentat utilizand 24 biti, respectiv cite

8 biti pentru fiecare variabila. Cu o esantionare 4:4:4, un cadru CIF (Common Intermediate

Format) cu o dimensiune a cadrului de 288 352 pixeli si cu o rata a cadrelor de 30 cadre/sec

necesita spatiu de stocare de 2.433 Mbits, rata sursei de date video fiind de 72.99 Mb/sec

pentru un singur cadru. Pentru semnalele video HDTV cu o marime a cadrului de 1920

1250 pixeli si avand o rata de 50 de cadre/sec, un cadru necesita un spatiu de stocare de 57.6

Mbiti la o rata a datelor video sursa de 2.88 Gbiti/sec. Pentru o secventa video continand sute

si mii de cadre, stocarea si transmisia in timp real este imposibila cu tehnologia actuala.

De fapt, cadrele video sunt mai intai subesantionate si cuantizate, pentru a fi codate utilizand

caracteristicile psihologice ale ochiului uman si renuntand la redundanta subiectiva continuta

in secventa video. Aceste caracteristici pot fi considerate unele dintre conceptele elementare

ale tehnicii de compresie. Ochiul uman are cativa receptori cu o rezolutie spatiala restransa

pentru luminanta. De aceea, crominanta poate fi subesantionata pentru a reduce rata datelor

sursa si dimensiunea de stocare. In general, se foloseste o esantionare 4:2:2 sau 4:2:0. In

cazul 4:2:2, luminanta Y este esantionata pentru fiecare pixel, in timp ce crominantele U si V

sunt esantionate fiecare la alt pixel orizontal, rezultand o imbunatatire cu 33%. In cazul 4:2:0,

U si V sunt sub-esantionate cu factorul 2 pe orizontala si pe verticala, rezultand o

imbunatatire cu 50%.

2.5.2 Codarea intre cadre si in cadre. Cadrele I, P si B

Compresia MPEG-2 defineste 3 tipuri de cadre de imagine pentru codare, respectiv

cadrul I, cadrul P si cadrul B. Schemele de codare pentru aceste 3 tipuri de cadre sunt ilustrate

in fig. 2.13 [12].

Page 40: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Cadrele I sunt codate ca imagini independente. Cadrul este spart in macroblocuri, fiecare

fiind compresat utilizand transformarea DCT, urmand apoi cuantizarea si codarea entropica.

Cadrul P este codat utilizand metoda anterioara de predictie a miscarii. Diferenta dintre

imaginea de intrare curenta si ultimul cadru I/P este compresata utilizand DCT; coficientii

DCT cuantizati si vectorii de miscare sunt codati entropic si transmisi. Cadrul B este codat

pebaza predictiei bidirectionale a miscarii (inainte si inapoi), unde ultimul cadru I /P si

urmatorul cadru I/P sunt folosite ca referinta pentru estimarea si compensarea miscarii. Acest

fapt este observat in fig. 2.13 unde ambele cadre I si P sunt reconvertite (decuantizate si

transformate IDCT) pentru a fi folosite drept cadre de referinta pentru predictie; cadrele B nu

sunt niciodata folosite pentru predictie.

Utilizand cadre P sau B va creste puternic nivelul compresiei; totusi ele pot aduce

unele inconveniente pentru afisarea si accesul arbitrar al secventei video. De vreme ce cadrele

B sunt codate si transmise intr-o ordine diferita de cea initiala, este nevoie de reordonarea lor,

cum se observa in fig. 2.14.

Page 41: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Mai mult cadrelor P presupune decodarea a cel putin 2 cadre incluzand cadrul de

referinta I si pe cel propriu, iar decodarea cadrelor B presupune decodarea a cel putin 3 cadre,

incluzand 2 cadre de referinta si pe cel propriu. Aplicatiile care necesita acces la oricare din

partile unei secvente video au rezultate arbitrare in ceea ce priveste complexitatea calculelor,

si din acest motiv, se mareste timpul de asteptare. Daca dorim sa decodam un sir de biti intr-

un punct arbitrar, este necesar sa folosim un anumit numar de cadre I codate independent din

secventa video.

2.5.1 Generarea sirului de biti din coeficientii DCT cuantizati

Compresia actuala a fiecarei imagini este bazata pe constituirea de macroblocuri, fiecare

continand n8 8 blocuri de date. Pentru esantionare 4 : 2: 0, aceste n8 8 blocuri includ 2m

blocuride luminanta si m blocuri de crominanta, unde n=3m. Aceste blocuri de 8 8 sunt

compresate individual folosind DCT, cuantizarea si codarea entropica.Cum s-a discutata in

capitolul 2.3.1, majoritatea energiei este stocata in mare parte intr-un bloc de imagine 8 8

prin coeficientii DCT de frecventa joasa, blocul fiind localizat in coltul din stanga sus, cum se

observa in fig. 2.15.

Page 42: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Coeficientii cuantizati 8 8 DCT sunt cititi in zig-zag, asatfel incat secventa rezultata contine

siruri lungi de zerouri, siruri care pot fi compresate eficient folosind codarea run-length si

scheme de codare entropica.

2.5.4 Scanarea intretesuta si neintretesuta

Un sistem de afisare/inregistrare a imaginilor scaneaza imaginile progresiv si uniform de la

stanga la dreapta, de sus pana jos. In general sunt folosite doua forme de scanare: scanarea

intretesuta si scanarea neintretesuta (progresiva). Tehnica de scanare intretesuta este folosita

de sistemul de afisare al camerei de luat vederi sau la televiziune, unde fiecare cadru este

scanat in 2 pasi succesiv, primul fiind campul impar (odd field), iar celalalat campul par

(even field), cum se observa in fig. 2.16. Pe de alta parte, imaginile video de pe computer

sunt scanate in mod progresiv, unde fiecare cadru contine toate liniile scanate in ordinea lor

proprie, ca in fig. 2.17.

Pentru procesarea miscarii imaginilor si pentru vizualizare, aspectele temporale ale perceptiei

umane vizuale sunt foarte importante. Este de observat ca ochiul uman poate distinge intre

flash-urile individuale si de o lumina flash cu caracteristica „lina” (slaba). In orice caz, rate de

flash cresc si devin nedestingtibile la o rata deasupra frecventei critica de fuziune. Aceasta

frecventa nu depaseste in general 50-60 Hz [13]. Bazandu-se pe aceasta proprietate, imaginile

sunt scanate la o rata de 30

Page 43: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

cadre/sec sau 60 de campuri/sec pentru modul de codare intretesut; imaginile sunt scanate la

o rata de 60 cadre/sec in modul de codare neintretesut (progresiv). Totusi rezolutia spatiala

este mai mica in codarea intretesuta, de vreme ce fiecare camp este o imagine esantionata, cu

un coeficient apropiat de rata de scanare, astfel incat, linia din cadru, ne poate oferi in modul

de codare intretesut aceeasi calitate subiectiva cu un necesar mai mic de banda pentru

transmiterea semnalelor. Oricum, tehnica intretesuta este folosita pentru vizualizarea

imaginilor de rezolutie mare generate de computer, acestea continand tranzitii si muchii

ascutite. Monitoarele computerelor sunt reimprospatate la o rata de 60 cadre/sec in modul de

codare intretesut pentu a permite perceptia oricarei clipiri (flash) si pentru a obtine rezolutia

mare a imaginilor.

Page 44: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

2.5.5 Profiluri si niveluri MPEG

Standardele MPEG au o structura generala si pot suporta o sfera larga de aplicatii.

Implementarea intregii sintaxe nu este folosita practic in majoritatea aplicatiilor. Din aceasta

cauza, MPEG-2 a introdus conceptele de „profil” si „nivel”, fiecare insemnand un sub-set de

definitii a sintaxei si a capabilitatilor necesare unui decodor de a decoda un flux de biti video

particular. Profilurile MPEG-2 sunt prezentate in Tabelul 2.2, iar in Tabelul 2.3 parametrii

fiecarui nivel al unui profil [10].

In general, fiecare profil defineste un set nou de algoritmi aditionali la algoritmii din profilul

inferior. Un nivel specifica marimea parametrilor, precum dimensiune, rata de cadru, rata de

bit, etc. Profilul MPEG-2 MAIN caracterizeaza codarea non-scalabila progresiva sau

Page 45: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

intretesuta pentru surse video. Un chip de codare MPEG2 MP@ML (Main Profile at Main

Level) este prezentat in [14].

2.6 Necesitati de calcul in prelucrarile video

Odata cu aparitia compresiei, largimea de banda necesara pentru transmisia si stocarea

secventelor video se reduce simtitor. Cresterea ulterioara a ratei de compresie a fost atinsa

prin adoptarea unor tehnici de compresie mai complicate. Aceste tehnici de compresie

sofisticate implica o cantitate substantiala de calcule la viteza mare si determina noi

competitii atat pentru designerii de hardware, cat si pentru cei de software pentru a

implementa aceste sisteme de inalta performanta la un cost eficient. De exemplu,

complexitatea unui algoritm de cautare bruta in blocuri este proportionala cu 3(2p+1)2 Nh

NvF operatii/sec, unde N Nv este dimensiunea cadrului, +/- p este aria de cautare, iar F rata

cadrelor in cadre/sec. Pentru un cadru CIF (Common Intermediate Format) cu o dimensiune

de 288 352 pixeli, o rata a cadrelor de 30 cadre/sec si avand o arie de cautare de +/- 7

pixeli, cautarea bruta BMA necesita 2 Giga de operatii/sec (Gops/sec). Numarul necesar de

operatii devine chiar mai mare pentru imagini de rezolutie mai mare cu rate mai mari ale

cadrelor si cu o arie de cautare mai mare. Pentru HDTV unde dimensiunea cadrului de 1920

1250 pixeli, o rata a cadrelor de 50 cadre/sec si avand o arie de cautare de +16/-15 pixeli,

cautarea bruta BMA necesita o rata de calculare de aproximativ 368.64 Gops/sec.

Transformarea DCT in comunicatiile video reprezinta de asemenea un bun indicator. 2D-

DCT de dimensiune NN necesita 2N3 operatii de multiplicare si aditionare si 4N

3 operatii

aritmetice. Pentru un cadru CIF (format de intermediere comun) cu blocuri de imagine de

dimensiune 88, calculul necesita pentru 2D-DCT 97.32 Mops/sec (mega operatii pe

secunda). Aceste cerinte inalte ale procesarii pot fi utilizate doar folosind tehnici paralele de

procesare care sunt proiectate hardware si software cu mare atentie. [15] Designul si

implementarea compresiei in sistemele de procesare a semnalelor video si multimedia sunt in

continua dezvoltare.

2.7 Concluzii

Capitolul a prezentat schemele de baza de codare video, mai ales pe acelea adoptate prin

standardul de compresie MPEG-2. Aceste tehnici de compresie sunt cheile in realizarea

procesarii digitale video de inalta calitate. Aceste scheme de codare din ce in ce mai

complexe ridica multe noi competitii intre designerii de hardware si software.

Page 46: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Bibliografie

[1] D. Huffman, „A method for the construction of minimum redundancy codes”, Proc. of

IRE, vol. 40, pag. 1098-1101, 1952.

[2] G. Langdon, „An introduction to arithmetic coding”, IBM J. Research Develop, vol. 28,

pag. 135-149, martie 1984.

[3] N. Ahmed, T. Natarajan, si K. R. Rao, „Discrete cosine transform”, IEEE Trans. On

Computers, pag. 90-93, ianuarie 1974.

[4] P. Pirsch, N. Demasieux si W. Cehrke, „VLSI architectures for video compression- a

survey”, Proceeding of the IEEE, pag. 220-245, februarie 1995.

[5] O. Rioul si M. Vetterli, „Wavelets and signal processing”, IEEE Signal Processing

Magazine, pag. 14-38, octombrie 1991.

[6] P. P. Vaidyanathan, Multirate Digital Signal Processing, Prentice Hall, Englewood Cliffs,

New Jersey, 1993.

[7] R. E. Crochiere si L. R. Rabiner, Multirate Digital Signal Processing, Prentice Hall,

Englewood Cliffs, New Jersey, 1983.

[8] G. A. Davidson, P. R. Cappello si A. Gersho, „Systolic architectures for vector

Quantization” , IEEE Trans. On Acoustic Speech, vol. 36, pag. 1651-1664, octombrie 1994.

[9] S. Y. Kung, VLSI Array Processors, Prentice Hall, Englewood Cliffs, New Jersey, 1988.

[10] T. Sikora, „MPEG digital video-coding standards”, IEEE Signal Processing Magazine,

pag. 82-100, septembriee 1997.

[11] B. Bhatt, D. Birks si D. Hermreck , „Digital television: Making it work”, IEEE

Spectrum, pag. 19-28, octombrie 1997.

[12] B. Furth, J. Greensberg si R. Westwater, Motion Estimation Algorithms for Video

Compression, Kluwer Academic Publishers, 1997.

[13] A. K. Jain, Fundamental of Digital Image Processing, Prentice Hall, Englewood Cliffs,

New Jersey, 1989.

[14] M. Muzino s.a., „A 1.5w single-chip mpeg2 MP@ML encoder with low-power motion

estimation and clocking”, in Proc. of ISSCC97, pag.256-257, februarie 1997.

[15] K. K. Parhi, VLSI Digital Siganl Processing Systems: Desing and Implementation, John

Wiley and Sons, 1999.

Page 47: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Cap.3. Compresia audio

3.1 Activitatile de standardizare pentru codarea audio Hi-Fi

In acest capitol va fi descris algoritmul de codare pentru semnalele audio pentru

standarul international ISO/IEC. Au fost stabiliti trei algoritmi standard pentru a fi utilizati in

functie de numarul de canale si de frecventa de esantionare: MPEG-1 audio, MPEG-2 si

MPEG-2 LSF. In functie de complexitatea si de calitatea realizata fiecare este clasificat in

Leyer I/II bazat pe codarea pe sub-benzi si Leyer III bazat pe o combinatie intre codarea pe

sub-benzi si codarea adaptiva a transformatei.

Transmisia eficienta si stocarea semnalelor audio sunt importante pentru citeva

aplicatii cum ar fi audio digital, radiodifuziunea digitala prin satelit (DSB – Digital Satellite

Broadcasting), stocarea semnalelor audio, conferinta la distanta si multimedia. ISO/IEC JTC

1/SC 29/WG 11 (the International Organization for Standardization/the International

Electrotechnical Commission, 1st Joint Technical Committee, 29

th Subcommittee, 11

th

Working Group) a studiat caile pentru proiectarea unui standard international pentru

compresia semnalelor audio impreuna cu semnalele video sub 1,5 Mb/s. Rezultatul studiului,

pentru doua canale de semnal cu frecventa de esantionare intre 32 kHz si 48 kHz, au fost

publicate de ISO/IEC pe 1 august 1993 dupa aprobarea prin vot de tarile participante.

Acesta este cunoscut ca MPEG/audio faza 1, sau MPEG-1/audio. O parte a

standardului MPEG-1 a fost stabilit ca standard ITU-R. De asemenea, au fost efectuate studii

pentru extensia standardului MPEG-1 audio si pentru sisteme multicanal si multilingvistice si

pentru o viitoare reducere a ratei de bit prin adoptarea unei frecvente joase de esantionare.

Acestea reprezinta faza 2 a standardului si este denumit MPEG-2 audio. MPEG-2/audio a fost

aprobat prin consens international la conferinta de la Singapore in noiembrie 1994 dupa care

a fost publicat ca standard in 1995.

3.2 Structura algoritmului MPEG audio

Algoritmul MPEG audio este constituit din trei algoritmi diferiti: Layer I, Layer II si

Layer III. Complexitatea creste de la Layer I la Layer III, cu o imbunatatire corespunzatoare

in calitatea sunetului. Acestea pot fi in plus clasificate in MPEG-1, MPEG-2 MC

(multichannel) si MPEG-2 LSF (low sampling frequency), in functie de numarul de canale

Page 48: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

codate si de frecventa de esantionare. Deoarece Layer I si Layer II sunt foarte asemanatoare,

ele vor fi prezentate impreuna.

Partea comuna intre Layer I/II si Layer III este aceea ca algoritmii lor au la baza

codarea pe sub-benzi cu 32 de benzi. Numarul de canale este doi, iar frecventa de esantionare

este de 32, 44,1 sau 48 kHz. Aceste caracteristici reprezinta algoritmul MPEG-1/audio care

reprezinta baza pentru toate codurile. Plecind de la algoritmul MPEG-1/audio, avind

frecventele de esantionare 32, 44,1 si 48 kHz, a fost elaborat standardul MPEG-2 LSF care

foloseste frecventele 16, 22,05 si 24 kHz. Crescind numarul de canale la 5 si prin

imbunatatirea canalului de joasa frecventa a fost elaborat standardul MPEG-2 MC. Numarul

de canale care pot fi manipulate de standardul MPEG-2/audio este denumit uneori 5,1,

considerind ca imbunatatirea canalului este 0,1. Cind se compara MPEG-2/audio cu MPEG-

1/audio ca standard, MPEG-1/audio ar putea fi numit MPEG-2 2C (doua canale) sau MPEG-

2 HSF (frecventa mare de esantionare). In Fig. 3.1 este prezentata structura de baza a

algoritmului MPEG audio. Din figura se vede clar ca MPEG-1/audio este nucleul algoritmilor

MPEG-2/audio.

In Fig. 3.2 este data schema bloc care descrie algoritmul MPEG-1/audio. Algoritmul

se bazeaza pe codarea pe sub-benzi, iar impartirea pe sub-benzi este obtinuta cu ajutorul unui

banc de filtrare polifazat (PFB – polyphase filter bank) cu un filtru in cuadratura in oglinada

(QMF – quadrature mirror filter). Un semnal de intrare cuantizat liniar PCM pe 16 biti este

translatat in domeniul frecventa in 32 de benzi. In acelasi timp limitele benzilor (denumite

nivele de mascare) sunt calculate printr-o analiza psihoacustica pentru a obtine eroarea de

cuantizare permisa. Semnalul divizat in sub-benzi este cuantizat si codat conform schemei de

Page 49: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

alocare a bitilor bazata pe modelul psihoacustic, este constituite in cadre, impreuna cu date

auxiliare (ancillary data). Aceste date suplimentare nu sunt folosite pentru operatia codare si

decodare, utilizatorul le poate folosi in alte scopuri. Pentru decodare, intii sunt separate datele

suplimentare si apoi este dezasamblat cadrul.

Apoi este efectuata decodarea si decuatizarea pe bzaa bitilor alocati pentru

informatie. Este refacut apoi semnalul temporal prine reunirea benzilor. In practica au fost

definite trei tipuri de algoritmi, Layer I, Layer II si Layer III, pe baza structurii din Fig. 3.2

(vezi Fig. 3.3). Codarea pe sub-benzi, ponderarea psyhoacustica, alocarea bitilor si

intensitatea stereo este folosita de toati algoritmii. Layer III foloseste in plus codarea

transformatei cu lungime adaptiva a blocului, codarea Huffman imbunatatirea calitatii codarii

pentru stereo.

Page 50: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Calitatea sunetului depinde nu numai de nivelul algoritmului ci si de rata de bit

folosita. Au fost specificate 14 feluri de rate de bit de la 32 kb/s pina la 448 kb/s, 384 kb/s si

320 kb/s, pentru Layer I pina la Layer III. Rata de bit pentru fiecare nivel este aratata in

Tabelul. 3.1.

Tabelul 3.1

Layer Target Bitrate (kb/s)

I 128, 192

II 96, 128

III 64, 96, 128

3.2.1 Tehnologii pentru codarea audio de baza

Algoritmii tipici pentru codarea audio sunt: codarea sub-benzilor (SBC – sub-band

coding)) si codarea adaptiva a transformatei (ATC – adaptive transform coding). Ambele pot

imbunatati eficienta codarii folosind neuniformitatea distributiei energiei semnalului. Chiar

daca semnalul audio are o largime de banda mai mare decit semnalul vocal.

Codarea pe sub-benzi imparte semnalul de intrare in mei multe benzi de frecventa si

realizeaza codarea independent pentru fiecare benda. Prin aceasta impartire in sub-benzi

neuniformitatea distributiei de energie este redusa la fiecare sub-benda, ceea ce reduce gama

dinamica. Alocarea bitilor se face in functie de energia semnalului din fiecare sub-banda.

Impartirea pe sub-benzi este obtinuta folosind o structura de tip arbore care imparte succesiv

semnalul in cite doua benzi si care foloseste filtre in cuadratura in oglinda (QMF).

Esantioanele semnalului impartit in benzi superioare si inferioare sunt decimate cu 2,

reducind frecventa de esantionare cu 21 .

Bancul de filtre care realizeaza divizarea/sinteza pe benzi prin QMF este denumit

banc de filtre QMF. Bancul de filtre cu structura arboresccenta poate fi numit “banc de filtre

structurat arborescent” (TSFB). Bancul de filtre polifazat (PFB) asigura o prezentare

echivalenta cu TSFB. Filtrele folosite pentru TSFB si PFB pot fi FIR (Finite Impulse

Response) sau IIR (Infinite Impulse Response). Presupunind ca sunt folosite filtre FIR, PFB

poate reduce complexitatea calculelor mai mult decit TSFB, avind avantajul unei structuri

Page 51: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

banc si pentru operatia de decimare. PFB ofera de asemenea un o intirziere mai mica decit

TSFB. De aceea in practica sunt folosire PFB cu filtre FIR.

In fig. 3.4 este dat un exemplu de impartire pe 4 sub-benzi. A fost stabilita procedura

de proiectare pentru bancurile de filtre QMF (TSFB/PFB) care poate reface complet semnalul

de intrare din benzi si pentru sinteza benzilor ca o operatie inversa.

Codarea transformatei imbunatateste eficienta codarii concentrind intensitatea puterii

prin aplicarea unei transformari liniare semnalului de intrare inainte de cuantizare. In

particular, este folosit algoritmul de codare care cuprinde alocarea adaptiva a bitilor, denumit

uzual codare adaptiva a transformatei. Conversia Fourier, conversia cosinus sunt uzual

folosite pentru transformare liniara. S-a aratat ca ATC, care aplica o transformare liniara dupa

multiplicarea cu o functie fereastra unui semnal de intrare suprapus (overlapped), este

echivalenta codarii pe sub-benzi. In Fig. 3.5 este un exemplu de unda in domeniul timp a unui

sunet de pian si forma de unda in domeniul frecventa obtinuta folosind o transformata cosinus

pe un bloc de lungime N=1024 esantioane. La forma de unda in domeniul timp energia este

distribuita relativ egal de la esantionul 1 la 1024. Pe alta parte, la forma de unda in domeniul

frecventa energia este concentrata la frecvente joase aratind ca este posibila o imbunatatire a

eficientei codarii.

Page 52: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

3.2.2 ATC cu lungime adaptiva a blocului

Codarea ATC cu lungime adaptiva a blocului realizeaza transformarea liniara pe mai

multe esantioane. In mod uzual rezulta un bloc mai lung la rezolutie inalta, prin aceasta

imbunatatindu-se calitatea codarii. Totusi, cind se alege o lungime mare a blocului intr-o

zona unde amplitudinea semnalului creste rapid si apare un pre-ecou. Aceasta deoarece in

timp ce distorsiunea de cuantizare datorata codarii este distribuita aproape uniform in bloc,

distorsiunea este mai clar perceputa cind amplitudinea semnalului este mica.

Fig. 3.10 prezinta diferentele in pre-ecou pentru diferitele lungiimi ale blocului. Fig.

3.6-a, b, c reprezinta ssunetul original, sunetul dupa codare/decodare, folosind blocuri de

lungime N=256 esantioane si respectiv N=1024 esantioane. In Fig. 3.6-c zgomotul este

generat in avans in partea de inceput a semnalului unde amplitudinea sa incepe sa creasca. In

Fig. 3.6-b timpul in care pre-ecoul apare este mai scurt decit in Fig. 3.6-c. Folosind blocuri de

lungime mai mica pre-ecoul poate fi eliminat.

Page 53: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Totusi cind folosim un bloc de lungime mica pentru un semnal relativ static, rezolutia

ca si eficienta codarii se reduc. In plus. Pentru fiecare bloc este nevoie de un set de informatii

suplimentare ceea ce arata ca folosind blocuri mai lungi rezulta o eficienta mai buna. Aceste

cerinte contradictorii legate de pre-ecou pot fi satisfacute modificind lungimea blocului in

acord cu proprietatile semnalului de intrare.

3.2.3 Transformata cosinus discreta modificata

O alta problema la ATC este distorsiunea de bloc. Din pacate pentru codarea pe bloc,

doua esantioane ale semnalului care sunt adiacente la limitele blocului sunt cuantizate cu

precizie diferita pentru ca ele apartin unor blocuri diferite uc toate ca de fapt ele au

coordonatele temporale apropiate. Prin urmare, in vecinatatea blocurilor apare o

discontinuitate a zgomotului de cuantizare. Pentru a rezolva aceasta problema este folosita o

metoda de ferestruire cu suprapunere partiala a blocurilor care reduce aceasta discontinuitate.

Aceasta inseamna ca portiunea suprapusa este in mod repetat codata in doua blocuri

Page 54: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

adiacente, riscind o degradare a eficientei codarii datorata unor blocuri mai lungi, efectul

fiind insa reducerea distorsiunii blocului. Aceasta problema poate fi insa rezolvata daca se

foloseste o transformata cosinus discreta modificata (MDCT), denumita si eliminare a alierii

in domeniul timp (TDAC – time-domain aliasing cancellation).

Intii MDCT face o transformare cu o suprapunere 50% a doua blocuri adiacente si o

filtrare cu o functie fereastra si introduce apoi un offset in timp pentru calculul DCT,

rezultind coeficienti simetrici. Numarul de coeficienti ai transformatei care va fi codata este

redus la 1/2 din lungimea blocului. Aceasta elimina ineficienta datorata de introducerea a

50% termeni noi in calculul transformatei. Aceasta procedura estre denumita transformata

cosinus discreta modificata – MDCT.

3.2.4 Combinarea MDCT cu lungimea adaptiva a blocului

Pentru a combina MDCT cu lungimea adaptiva a blocului trebuie acordata atentie

formei functiei fereastra deoarece MDCT a fost proiectata initial cu presupunerea ca blocurile

au lungimea egala. Cind lungimea blocului difera pentru doua ferestre succesivesunt necesare

anumite conditii asupra formei ferestrei pentru a elimina erorile (alierea in domeniul timp)

produsa de suprapunerea ferestrelor. O solutie posibila este de a folosi forma ferestrei pentru

a conecta ferestrele cu lungime diferita.

3.2.5 Cuantizarea cu ponderare psihoacustica

Atit pentru codarea pe sub-benzi cit si pentru codarea adaptiva a transformatei este

posibila o imbunatatire a calitatii codarii. O tehlogie consta in folosirea perceptiei

psihoacustice la detrminarea ponderilor folosite la alocarea bitilor pentru cuantizare in scopul

minimizarii degradarii semnalului in zona in care perceptibilitatea este mare.

3.3 Algoritmul MPEG-1 audio

3.3.1 Codarea Layer I/II

Frecvent Layer I/II are structura de baza din Fig. 3.2 si structura bloc din Fig. 3.7.

Semnalul de intrare cuantizat liniar cu 16 biti este divizat cu filtre de analiza pe sub-benzi in

32 de benzi de semnal. Filtrul consta intr-un PFB cu 512 de celule. Sistemul calculeaza

factorul de scala pentru semnalele sin fiecare sub-banda si aliniaza gamele dinamice. Calculul

factorului de scala este efectuat pentru fiecare 12 esantioane din fiecare sub-banda, de

exemplu pentru fiecare 384 de esantioane de intrare PCM la Layer I. Pentru Layer II calculul

Page 55: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

este efectuat pentru fiecare 384 esantioane din sub-benzi in timp ce un cadru are un numar

triplu de esantioane, respectiv 1152. La Layer II factorii de scala sunt apoi compresati pe baza

unei combinatii de 3 factori.

In acelasi timp sistemul calculeaza indicii de mascare folosind rezultatele FFT

aplicata semnalului de intrare si determina alocarea bitilor pentru fiecare sub-banda. Pentru

alocarea bitilor este folosita o ponderare psihoacustica. Semnalul din sub-benzi care a fost

cuantizat corespunzator alocarii bitilor realizata este constituit intr-un sir de biti, impreuna cu

un antet si alte informatii si este apoi furnizat la iesirea codorului.

Decodarea este realizata ca o operatie inversa a codarii. Semnalul comprimat este

descompus in antet, informatii suplimentare si semnalul cuantizat. Semnalul pe sub-benzi

este decuantizat pe baza numarului de biti alocat, refacut cu ajutorul unor filtre de sinteza pe

sub-benzi si furnizat la iesire.

In sinteza, operatie de codare parcurge urmatoarele etape:

1. Analiza pe sub-benzi.

Aceasta analiza este executata cu un PFB cu 512 prize.

2. Detectarea factorului de scala

Pentru Layer I factorul de scala este extras cu 12 esantioane dintr-o sub-banda,

ca un bloc pentru fiecare sub-banda. Pentru Layer II factorii de scala sunt

determinati pentru 3 blocuri consecutive de cite 12 esantioane pentru fiecare

Page 56: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

sub-banda si sunt reprezentati sub forma informatiei de selectie a factorului de

scala (2 biti) si factorul de scala care este transmis cu formatul selectat.

3. Analiza psihoacustica

In standard sunt prezentate modelul 1 si modelul 2 ca exemple pentru analiza

psihoacustica. In continuare este prezentat numai modelul 1. La modelul 1,

raportul semnal/nivel de mascare (SMR) este obtinut cu urmatoarea

procedura:

- Analiza FFT a semnalului de intrare

- Calculul presiunii sonore pe fiecare sub-banda

- Clasificarea componentelor tonale si non-tonale

- Integrarea componentelor tonale si non-tonale

- Calculul nivelelor de mascare individuale

- Cal;culul nivelului de mascare global

- Determinarea nivelului maxim de mascare

- Calculul raportului semnal/nivel de mascare

4. Alocarea bitilor

Alocarea bitilor este calculata pentru fiecare sub-banda pe baza SMR obtinut

prin analiza psihoacustica

5. Cuantizarea

Pentru esantioanele din sub-benzi este executata cuantizarea liniara. Valorile

cuantizate sunt calculate cu relatia A(n)X(n)+B(n), unde X(n) reprezinta

amplitudinea esantioanelor din fiecare sub-banda normata cu factorul de scala,

iar A(n) si B(n) sunt dat de numarul de biti alocat pentru fiecare sub-banda.

Sunt luati cei mai semnificativi N biti, inversind cel mai semnificativ bit unu.

6. Formarea sirului de biti

Datele cuantizate formeaz sirul de biti, impreuna cu alte informatii. In Fig. 3.8

este prezentat formatul sirului de biti pentru Layer I si Layer II. Foarmatele

din Layer I si Layer II difera in special in partea legata de factorul de scala.

Antetul dat in Fig. 3.8 include si cuvintul de sincronizare 1111 1111 1111,

urmat de configuratia de biti aratata in Tabelul. 3.8

Page 57: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Tabelul 3.2

Contents Number

of Bits

Definition

ID 1 0: MPEG-2/BC, 1: MPEG-1/audio

Layer 2 00: reserved, 01: layer III, 10 : layer II, 11: layer I

Protect-bit 1 0: error detection code added,

1: no error detection code added

Bitrate 4 Index to define bitrate

Sampling frequency 2 00: 44.1 kHz, 01: 48 kHz, 10: 32 kHz, 11: reserved

Padding bit 1 0: the frame that includes no additional slot

1: the frame that includes one additional slot

Private bit 1 Private use bit not used bit in coding

Mode 2 00: stereo, 01: joint stereo, 10: dual channel,

11: single channel

Mode extension 2 In Layer I/II the number of sub-bands for joint stereo

In Layer III the intensity and ms stereo configuration

Copyright 1 0: no copyright, 1: copyright protected

Original/copy 1 0: copy, 1: original

Emphasis 2 The type of emphasis to be used

3.3.2 Decodoarele Layer I/II

1. Sincronizarea

Sincronizarea este realizata prin cautarea cuvintului de sincronizare 1111 1111 1111.

Acesta este un pas comun pentru toate nivelele. Pozitia cuvintului continuu de sincronizare

poate fi identificata folosind cei 7 biti dupa care urmeaza bitul de protectie, numele, rata de

Page 58: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

bit, frecventa de esantionare si bitul tampon (padding bit). Lungimea cadrului curent intre

pozitiile de start a doua cuvinte de sincronizare consecutive poate fi calculata cu formula

][)())(x

( slotbitpaddingfrequencysampling

rateBitNiintN (1)

unde “slot” reprezinta unitatea minima de control a lungimii sirului de biti, si este echivalenta

cu 4 bytes in Layer I, respectiv 1 byte in Layer II/III. Pentru Layer I, Ni este 12, iar pentru

Layer II/III, Ni este 144. Cind numarul mediu de sloturi pe cadre nu este un numar intreg el

este trunchiat la o valoare intreaga. Valoarea actuala a numarului de sloturi este completata cu

bitul tampon.

Cind bitul de protectie este 0, imediat dupa antet este introdus un cod ciclic redundant (CRC).

Detectia erorii este realizata cu metoda CRC-16, bazata pe functia polinomiala:

1)( 31516 XXXxG (2)

2. Decodarea pentru Layer I

Secventa de baza consta in : citirea informatiei de alocare a bitilor pentru toete sub-

benzile, citirea factorilor de scala pentru toate sub-benzile unde bitul de alocare nu este zero,

decuantizarea esantioanelor sub-benzilor, sinteza semnalului audio de iesire cu esantioanle

din cele 32 sub-benzi folosind bancul de filtre.

a) Cuantizarea inversa a esantioanelor din sub-benzi

Corespunzator informatiei de alocarea a bitilor este citita secventa de biti

corespunzatoare fiecarui esantion si este inversat cel mai semnificativ bit (MSB).

Rezulta valoarea s’’’, in complement fata de doi. Este apoi calculata valoarea

decuantizata s’’ cu relatia

)2'''(x12

2'' 1

nb

nb

nb

ss (3)

folosind numarul de biti alocat, nb. Se inmulteste valoarea decuantizata s’’ cu factorul

de scala si se obtine valoarea semnalului , s’.

Page 59: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

b) Sinteza semnalelor din cele 32 de sub-benzi cu bancul de filtre

Se calculeaza cu filtrul de sinteza esantionul semnalului audio, Si, pe baza

esantioanelor din cele 32 de sub-benzi. Procedura este urmatoarea:

i. Se aplica o deplasare in frecventa esantioanelor Si din cele 32 de sub-benzi si

se obtin valorile Vi

32

0 64

)16)(12cos(

k

ki

ikSV

(4)

ii. Se calculeza sirul celor 512 esantioane Ui prin modificarea ordinii marimilor

Vi

jiix VU 128x46 (5)

jiji VU 96128x3264x (6)

iii. Se multiplica Ui cu functia fereastra Di

iii DUW x (7)

iv. Se calculeaza semnalul Sj prin adunare iterativa

15

0

x32

i

ijj WS (8)

3. Decodarea pentru Layer II

Procedura de baza include decodarea informatiei de alocare a bitilor pentru toate sub-

benzile, decodarea factorilor de scala pentru sub-benzile cu alocare non-zero a bitilor,

cuantizarea inversa a esantioanelor sub-benzilor, sinteza celor 32 de sub-benzi

folosind bancuri de filtre.

a) Decodarea informatiei de alocarea bitilor

Informatia de alocare a bitilor este stocata in bitii 2-4 pentru a arata nivelul de

cuantizare. Numarul de biti sunt definiti de numarul sub-benzii, rata de bit si frecventa

de esantionare.

Page 60: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

b) Decodarea informtiei de selectie a factorului de scala

Din sirul de biti sunt cititi coeficientii care contin informatia de alegere a

factorului de scala, denumit scfsi (scale factor selection information). Scfsi iste definit

ca in tabelul 3.3

Tabelul 3.3

SCFSI value Scale factor coding method

00 3 scale factors are transmitted

01 Two scale factors are transmitted: one is common to the first and the

second blocks, and the other is for the 3rd

block only

10 One scale factor that is common to all blocks is transmmited

11 Two scale factors are transmmited; one for the first block only, and the

other common to the second and the third blocks

c) Cuantizarea inversa a esantioanelor sub-benzilor

Conform numarului bitilor identificati in urma decodarii informatiei de alocare

a bitilor, sunt cititi bitii care corespund la trei esantioane consecutive. Cind sunt

grupate 3 esantioane, dupa decodare ele nu mai sunt grupate. Eset inversat MSB al

fiecarui esantion pentru a obtine valoarea s’’’, unde MSB reprezinta –1,0 in cod

complement fata de 2. Se calculeaza apoi valoarea s’’

)'''('' DsxCs (9)

folosind constantele C si D care sunt determinate pe baza numarului de biti alocati. Se

inmulteste apoi s’’ cu factorul de scala si se obtine valoarea s’.

d) Sinteza celor 32 de benzi cu bancuri de filtre

Se foloseste aceeasi metoda de sinteza ca cea de la Layer I.

3.3.3 Layer III

In Layer III au fost incorporate multe idei noi pentru a imbunatati calitatea codarii fata

de Layer I/II. In fig. 3.9 este prezentata schema bloc pentru Layer III. Comparativ cu Layer

I/II, Layer III foloseste transformata cosinus modificata cu lungime adaptiva a blocului

(MDCT), fluturele pentru reducerea distorsiunii de aliere (alias distortion reduction butterfly),

Page 61: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

cuantizarea neliniara si codarea cu lungime variabila (codarea Huffman). Toate acestea

contribuie la imbunatatirea rezolutiei in frecventa si la reducerea redundantei. In rest

procedura de baza se desfasoara ca la Layer I/II.

Semnalul cuantizat liniar PCM este impartit in 32 de benzi cu PFB si fiecare banda

este in continuareste transformata in linii spectrale de banda ingusta cu MDCT pe blocuri de

lungime adaptiva pentru reducerea ecoului. Blocurile de lungime 18 sau 6x3 sunt determinate

pe baza analizei psihoaustice. Folosirea bancului de filtre hibride mareste rezolutia in

frecventa de 32 de ori, la 32x18=576. Semnalul obtinut este prelucrat pentru reducerea

distorsiunii de aliere si este apoi cuantizat liniar. Cascada formata din bancul de filtre, MDCT

si reducerea distorsiunii de aliere este denumita banc de filtre hibrid (Hybrid Filter Bank –

HFB). Cuanizarea eset insotita de o bucla iterativa pentru alocarea bitilor. Rata de bit a

fiecarui cadru este variabila. Semnalul cuantizat este codat Huffman si organizat apoi intr-un

cadru. La decodare este dezasamblat intii primul cadru, este decodat indexul tabloului

Huffman si factorii de scala. Semnalul temporal este reconstruit pe baza semnalului cuantizat

cu bancuri de filtre hibride.

1. Analiza psihoacustica

Analiza psihoacustica este executata pentru a gasi nivelele de mascare pentru fiecare

componenta MDCT si pentru a determina lungimea blocurilor pentru MDCT. Se recomanda

folosirea versiunii modificate a modelului psihoacustic II pentru Layer II.

Page 62: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Lungimea blocului este selectata pe baza entropiei psihoacustice, folosind teoria

impredictibilitatii. Impredictibilitatea se masoara comparind spectrele cadrului temporal

curent si anterior. In vecinatatea atacului unde se produce pre-ecoul forma spectrului difera

intre doua cadre si entropia psihoacustica creste. Cind entropia depaseste o valoare

predeterminata sistemul o evalueaza ca un nou atac si comuta MDCT pentru micsorarea

blocurilor.

Sunt calculate nivelele de mascare schimbind parametrii interni in functie de

lungimea blocului. Pentru reducerea complexitatii de calcul se foloseste FFT cu lungime 256

pentru blocurile scurte si 1024 pentru cele lungi.

2. MDCT cu lungime adaptiva a blocului si forma ferestrei

La HFB, 576 esantioane ale semanlului de intrare reprezinta o granula. O granula este

un set de esantioane si reprezinta o componenta in formarea blocului. Doua granule, de

exemplu granula 0 si granula 1 sunt prelucrate ca un bloc constituit din 1152 esantioane. Cind

este executata analiza pe sub-benzi a esantioanelor PCM ale unei granule, fiecare sub-banda

are 18 esantioane.

Pentru blocuri lungi este executata MDCT in 36 de puncte. 18 esantioane ale unei

sub-benzi din granula cuernta sunt combinate cu 18 esantioane din granula precedenta.

Datorita simetriei coeficientilor, numarul de iesiri distincte ale MDCT sunt 36/2=18. Pentru

blocuri scurte numarul de esantioane de intrare ale MDCT este redus la 12 si intr-om granula

se aplica de trei ori mai multe MDCT. Primele 6 esantioane sunt combinate cu ultimele 6

esantioane din granula anterioara. Numarul de iesiri independente pentru MDCT pe blocuri

scurte este 18, la fel ca in cazul MDCT pentru blocuri lungi.

Page 63: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Sunt folosite patru feluri de functii fereastra: fereastra normala (Normal Window),

fereastra de inceput (Start Window), fereastra de sfirsit (Stop Window) si fereastra scurta

(Short Window). Pentru primele trei ferestre se aplica o MDCT in 36 puncte, iar pentru

ultima se aplica o MDCT in 12 puncte. Pentru a obtine o transforamre fara zgomot fereastra

de start trebuie plasata inaintea ferestrei scurte, iar fereastra de stop dupa fereastra scurta. In

fog. 3.10 este prezentat modul de folosire a functiilor fereastra.

3. Reducerea distorsiunii de aliere in domeniul frecventa

Coeficientii MDCT pentru blocurile lungi sunt prelucrati cu un circuit de tip fluture

(butterfly) pentru reducerea distorsiunii de aliere ca in Fig. 3.11. Aceasta operatie este

executata pe 32 de sub-benzi mutual adiacente, folosind 8 benzi de esantioane din vecinatatile

benzii. Coefiicentii circuitului fluture sunt dati de relatiile:

21

1

i

i

ccs

(10)

21 i

i

ic

cca

(11)

Valoarea lui ci este detrminata astfel incit ea devine mai mica cu cit distanta coeficientilor

MDCT folositi devine mai mare.

Page 64: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

4. Cuantizarea

In Layer III este folosita cuantizarea neliniara in locul celei liniare folosita in Layer

I/II. Relatia dintre coeficientul invers cuantizat MDCT, x, codul i si factorul de scala este

data de relatia

factorscalexixisignx 2)(3/4

(12)

5. Formarea sirului de biti

Formatul sirului de biti in Layer III este aproximativ la fel ca in Layer II, iar

dimensiunea cadrului este la fel. Fiecare cadru de 1152 esantioane este impartit in doua

granule de 576 esantioane. Dupa antetul cadrului urmeaza informatia care este comuna

ambelor granule si apoi informatia proprie fiecarei granule.

Dupa cum a fost aratat, psiho-entropia creste la cadrul care contine atacuri, iar cadrul

necesita un numar mai mare de biti. In acest scop a fost introdusa o tehnologie denumita

“rezervor de biti”. Aceasta tehnologie foloseste volumul de informatii care este produs de

fiecare cadru. Cind entropia creste intr-un cadru care contine un atac, sistemul foloseste bitii

de rezerva ca o completare la bitii normali si apoi incepe stocarea unui numar mic de biti in

cadrul urmator si ii pastreaza pina cind volumul ajunge aproape de nivelul maxim de stocare.

3.3.4 Codarea stereo

In standard, codarea stereo a fost specificata ca o optiune. Reducerea ratei de bit

folosind corelatia intre canalul din stinga si din dreapta este realizata in modul “joint stereo”.

Acest mod este indicat in tabelul 3.4, corespunzator fiecarui nivel. Layer I/II au numai

intensitate stereo, iar Layer III combina intensitatea stereo cu MS.

Tabelul 3.4

Layer Available stereo coding mode

Layer I/II Intensity stereo

Layer III Combined (intensity and MS) stereo

Intensitatea stereo foloseste aceeasi forma insa date cu amplitudini diferite in sub-

benzi intre semnalele stinga si dreapta, in locul semnalelor originale pe cele doua canale.

Page 65: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Sunt pregatite patru moduri pentru a schimba sub-benzile pentru folosirea ca intensitate

stereo, respectiv 4-31, 8-31, 12-31, 16-31. Sub-benzile dinaintea lor, cum sunt 0-3, 0-7, 0-11

si 0-15 sunt codte independent pentru fiecare canal.

MS stereo este cea mai simpla transformare ortogonala in doua puncte este folosita

suma diferentei a doua semnale in locul semnalelor originale. Atunci cind corelatia intre

ambele canale este mare este de asteptat un efect de compresie datorita distributiei

neuniforme a energiei. In cazul stereo-ului combinat sistemul aduna suma totala a fiecarei

FFT a ambelor canale, si o multiplica cu o constanta de valoare mare. Daca valoarea rezultata

este mai mare decit diferenta puterii spectrale a celor doua canale, atunci sistemul selecteaza

MS stereo. , si daca nu este sistemul selecteaza modul intensity stereo si executa codarea; de

exemplu, cind raportul dintre semnalul suma anterior si semnalul diferenta este mai mare

decit valoarea de prag prestabilita, sistemul selecteaza modul MS stereo.

3.3.5 Performanta standardului MPEG-1/audio

A fost facuta evaluarea subiectiva folosind hardware-ul pentru fiecare nivel, pentru

128, 96 si 64 kb/s, in mai 1991 la Stockholm si apoi reevaluarea pentru 64 kb/s in noiembrie

1991 la Hanovra. In Fig. 3.13 este prezentat rezultatul acestor evaluari subiective. In Fig. 3.12

fiecare nivel de performanta corespunde egalitatii din Tabloul 3.5. In practica , exista erori de

perceptie datorate evaluatorilor, si de aceea performanta pentru sunetul original nu depaseste

5,0. Dupa aceste doua sesiuni de evaluare subiectiva, cele doua nivele, Layer I si Layer II, au

fost aprobate pentru ca asigura o calitate suficienta pentru radiodifuziune la 128 kb/s pe canal.

Page 66: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Tabelul 3.5

Score Quality

5.0 Imperceptible

4.0 Perceptible, but not annoying

3.0 Silightly annoying

2.0 Annoying

1.0 Very annoying

3.4 Algoritmul MPEG-2/audio

Algoritmul de codare MPEG-2/audio faza 2, denumit uzual MPEG-2/audio, este

impartit in doi algoritmi pentru frecvente de esantionare reduse si pentru un numar mai mare

de canale pentru multicanal/multilingv Pentru sistemele audio diferenta intre algoritmul

MPEG-1 si MPEG-2 este mai mica decit in sistemele video. Se poate spune ca MPEG-2 este

o extensie a algoritmului MPEG-1. In continuare vor fi analizate aceste diferente.

3.4.1 Algoritmul de esantionare la frecventa joasa

Pentru a obtine o calitate inalta la rate de bit mai mici de 64 kb/s, in standardul

MPEG-2 au fost introduse trei variante de frecvente de esantionare. Acestea sunt 16 kHz,

22,05 kHz si 24 kHz in scopul de a depasi indicatorii calitativi specificati de recomandarea

G.722. Din punct de vedere a sintaxei sirului de biti frecventele de esantionare si ratele de bit

sunt modificate comparativ cu MPEG-1. Au fost efectuate si modificari ale tabelului de

alocare a bitilor si ale modelelor psihoacustice.

3.4.2 Facilitatea multicanal si multilingv

La MPEG-2, pot fi codate pina la 6 canale audio pentru sisteme multicanal si

multilingv, in timp ce la MPEG-1 pot fi codate unul sau doua canale audio. MPEG-2 este

compatibil cu MPEG-1.

1. Formatul multicanal

Cel mai respindit format multicanal audio, recomandat de ITU-T, este asanumitul 2/3

stereo. Aceset sistem plaseaza un difuzor central intre difuzoarele stinga si dreapta si de

Page 67: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

asemenea doua difuzoare de fond in partea stinga si cea dreapta din spate. In Fig. 3.13 este

prezentata pozitionarea difuzoarelor pentru 2/3 stereo. Acest aranjament a fost folosit pentru

evaluarea subiectiva din fabruarie 1994. Algoritmul MPEG-2 accepta formatele multicanal

prezentate in Tabelul 3.6. De mentionat ca sistemul permite mai multe feluri de format pentru

intrare decit pentru iesire. L este semnalul de canal, C este semnalul de canal central, LS este

semnalul de canal de fond stinga, L1 si L2 reprezinta semnalul de canal sting pentru prima

limba, respectiv semnalul de canal drept pentru a doua limba. Similar sunt descrise canalele

din partea dreapta.

In completarea acestor canale, sistemul permite si o imbunatatire adaugarea unei

optiuni de imbunatatire a frecventelor joase (LFE). Aceasta a fost adaugata pentru folositrea

canalului LFE in industria filmului. Canalul LFE contine informatia intre frecventele 15 Hz si

120 Hz, iar frecventa de santionare este 1/96 din frecventa canalelor normale.

Pentru a reduce redundanta in cazul canalelor multiple este folosita predictia

intercanal adaptiva. In interiorul fiecarei benzi de frecventa sunt calculate trei feluri de

semnale de predictie intercanal, dar numai eroarile de predictie pe canalul central si canalul

de fond sunt codate.

Page 68: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

2. Compatibilitatea cu MPEG-1

Este asigurata compatibilitatea in ambele sensuri. Compatibilitatea inversa arata ca un

decodor MPEG-1 poate decoda informatia stereo de baza constind din canalele stinga/dreapta

(Lo, Ro), din datele codate. Aceste semnale sunt obtinute cu relatiile:

LSyCxLL xx0

(13)

RSyCxRR xx0

(14)

Pentru valorile prestabilite x si y sunt pregatite patru moduri.

Compatibilitatea directa arata ca decodorul multicanal MPEG-2 poate decoda corect

un sir de biti codat MPEG-1. Combinatiile posibile sunt date in Tabelul 3.7.

3.4.3 Performantele MPEG-2/audio

Evaluarea subiectiva a standardului MPEG-2/audio a fost facuta de citeva ori intre

anii 1993 si 1996. In Fig. 3.14 sunt reprezentate rezultatele evaluarii subiective din 1996.

Criteriul de evaluare folosit aici este acelasi ca cel folosit pentru MPEG-1, reprezentat in Fig.

3.12 dar performantele difera. Calitatea sunetului original corespunde valorii 0.0 si nu 5.0.

Liniile verticale arata prin urmare diferenta de calitate dintre sunetul testat si sunetul original.

S-a confirmat ca pentru Layer II

Page 69: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

cu 640 kbps si Layer III cu 512 kbps performanta obtinuta este –1.0 sau ceea ce inseamna un

rezultat acceptabil.

3.5. Activitati viitoare

Activitatile de standardizare MPEG au condus la obtinerea unei transmisii/stocari

audio transparente de 96-128 kbps/canal. Numarul de canale suportate este 6. Aceste

tehnologii sunt acum prezente pe piata. De exemplu el este folosit in inregistrarile video pe

CD-ROM si in transmisiunile audio intre statiile de radiodifuziune. Dar piat continua sa

evolueze. In consecinta cerintele pentru algoritmi de compresie de mare eficienta se mentin si

in continuare. In acest scop MPEG dezvolta in prezent MPEG-2/AAC si MPEG-4 cu

obiectivul obtinerii unei codari transparente la 32kbps/canal.

Page 70: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Cap. 4. Principiul transmisiei informaţiei de culoare în

televiziune

4.1. Modele pentru reprezentarea culorii. Alegerea culorilor

primare

Asupra ochiului acţionează în fiecare moment radiaţii luminoase complexe, ale căror

componente cuprind, în general, toate lungimile de undă ale spectrului vizibil, adică toate

culorile spectrului. Ochiul nefiind în stare să perceapă separat fiecare componentă din

radiaţia luminoasă complexă, el percepe radiaţia luminoasă ca având o culoare bine

determinată. De aceea, două radiaţii luminoase cu componente spectrale diferite pot

provoca aceeaşi senzaţie de culoare. De exemplu, ochiul nu poate deosebi culoarea "galben"

a unei radiaţii monocromatice de o anumită lungime de undă, de aceeaşi culoare "galben"

obţinută prin amestecul radiaţiilor luminoase "roşu" şi "verde" de lungimile de undă 610 nm

şi, respectiv, 535 nm.

Capacitatea ochiului de a distinge culori este extrem de ridicată, putând fi

percepute şi identificate sute de mii de nuanţe, comparativ cu capacitatea redusă a

ochiului de a distinge niveluri acromatice, care este doar de câteva zeci de tonuri de gri.

Acest lucru impune realizarea unor sisteme TV la care transmisia şi redarea culorilor să

se facă cu mare precizie şi fără distorsiuni. Din punct de vedere tehnic, culoarea trebuie

definită prin parametri măsurabili, pe baza cărora să se determine semnalul electric ce

trebuie transmis şi care să permită, la recepţie, refacerea corectă a culorilor din imagine.

Pentru definirea culorii se folosesc mai multe modele, bazate pe seturi de trei parametri, ce

definesc, fiecare, o caracteristică a culorii.

Un model utilizat pentru definirea culorii este modelul RGB, bazat pe un set de 3

culori primare (de referinţă): R (red = roşu), G ( green = verde), B (blue = albastru). Acest

model se bazează pe efectul aditiv al culorilor primare la nivelul ochilor.

Efectul aditiv constă în faptul că orice culoare se poate obţine prin suprapunerea (prin

adunarea) în anumite proporţii a trei radiaţii monocromatice riguros definite, situate, în cazul

adoptat în televiziune, în domeniile de roşu, verde şi albastru (domeniile de sensibilitate ale

conurilor de pe retina ochiului). La alegerea celor 3 culori s-a avut în vedere ca, nici una

din ele, să nu poată fi obţinută ca rezultat al amestecului celorlalte două.

Page 71: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

În consecinţă, o imagine în culori este echivalentă cu trei imagini monocromatice, în

roşu, în verde şi, respectiv, în albastru.

Lungimile de undă dominante ale celor trei culori primare adoptate în televiziunea

în culori sunt: R = 610 nm pentru roşu (R), G = 535 nm pentru verde (G) si B = 470 nm

pentru albastru (B).

Efectul aditiv al culorilor primare la nivelul ochilor poate fi realizat în două

variante: amestec aditiv-local al culorilor şi amestec aditiv-spaţial al culorilor.

Dacă pe un ecran alb se proiectează simultan radiaţiile monocromatice R, G, B, are loc

un amestec aditiv-local al culorilor. In funcţie de proporţia fluxurilor luminoase R, G, B se

obţin culori noi, spre exemplu, prin amestecul aditiv de verde şi albastru se obţine culoarea

turcoaz, prin amestecul aditiv de roşu şi albastru se obţine culoarea mov, iar prin

amestecul aditiv de roşu şi verde se obţine culoarea galben. Aceste trei culori, turcoaz, mov

şi galben, poartă numele de culori complementare ale culorilor primare roşu, verde şi,

respectiv, albastru.

Culoarea alb se obţine prin amestecul aditiv, într-o anumită proporţie, fie a celor

trei culori primare, fie a celor trei culori complementare, fie a unei culori primare cu culoarea

ei complementară.

Pentru sinteza (redarea) imaginii de televiziune se foloseşte tubul cinescop tricrom, al

cărui ecran este format din grupe de câte trei luminofori de culoare, corespunzătoare fiecărui

element de imagine. Triada de luminofori R, G, B este dispusă pe ecran în triunghi, la tubul

cinescop "delta" (figura 4.1.a) sau în benzi verticale paralele, la tubul cinescop "în linie"

(figura 4.1.b). Aceşti luminofori, bombardaţi fiecare de un fascicul de electroni, emit

radiaţii luminoase în domeniul culorilor de roşu, verde şi, respectiv, albastru. Sinteza culorii

se realizează pe principiul de amestec aditiv-spaţial al culorilor. Privită de la o anumită

distanţă, fiecare triadă de luminofori va fi percepută ca având o singură culoare.

Fig. 4.1. Amestecul aditiv-spaţial al culorilor: a) la tubul cinescop "delta";

b) la tubul cinescop "în linie".

Page 72: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

In tehnica cinematografiei şi în practica fotografiei, pentru obţinerea culorilor se

foloseşte o metodă substractivă, care se bazează pe absorbţia unei părţi din spectrul radiaţiei

sursei luminoase, lăsând să treacă celelalte radiaţii. Se folosesc în acest scop trei filtre (medii

absorbante): turcoaz, mov şi galben, adică culorile complementare ale culorilor primare,

roşu, verde şi albastru. De exemplu, filtrul de galben absoarbe radiaţia de "albastru" şi

lasă să treacă radiaţiile de "verde" şi "roşu" (adică culoarea galben).

Ca urmare, la trecerea luminii albe prin filtrele de galben şi de mov se va obţine

culoarea roşie, deoarece filtrul de galben absoarbe radiaţia "albastră" iar filtrul de mov –

radiaţia "verde". Dacă lumina albă este trecută prin toate cele trei filtre, fiind absorbite toate

radiaţiile, va rezulta culoarea neagră.

Modelul RGB poate fi reprezentat simplificat prin triunghiul culorilor, dat în figura

4.2. Vârfurile triunghiului corespund celor trei culori primare (de referinţă), iar laturile

triunghiului corespund combinaţiilor, în anumite proporţii, a două culori primare. De

exemplu, pe latura dreaptă se succed culorile verde , verde gălbui, galben, roşu gălbui

(portocaliu), roşu. Interiorul triunghiului corespunde tuturor culorilor, rezultate prin

combinaţiile, în anumite proporţii, a celor trei culori primare. Sectorul reprezentat în

mijlocul triunghiului corespunde albului, obţinut prin însumarea, cu ponderi bine

precizate, a celor trei culori primare.

Fig. 4.2. Modelul RGB reprezentat simplificat prin triunghiul culorilor.

Cu cât o culoare se află mai departe de culoarea albă în planul triunghiului, cu atât

culoarea este mai saturată (mai vie), adică este mai puţin diluată cu lumină albă. Ca

urmare, culorile aflate pe laturile triunghiului sunt culori saturate, iar culorile din interiorul

triunghiului sunt culori nesaturate (diluate cu lumină albă, culori pastel).

Page 73: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

În concluzie, triunghiul culorilor evidenţiază următoarele aspecte:

• Prin parcurgerea circulară a planului culorilor, sunt descrise toate nuanţele

cromatice.

• Prin parcurgerea radială a unei nuanţe, sunt evidenţiate nivelurile de

saturaţie ale culorii. În figura 5.2 se exemplifică modificarea saturaţiei culorii de

galben. Nivelul saturat corespunde combinaţiei, în anumite proporţii, a culorilor primare

verde şi roşu, iar nivelul mai puţin saturat corespunde combinaţiei, în anumite proporţii, a

celor trei culori primare.

• Modificarea strălucirii culorilor primare poate fi descrisă prin plane paralele

cu planul analizat, rezultând alte niveluri de strălucire ale culorilor.

Întrucât modelul RGB echivalează imaginea în culori cu 3 imagini monocromatice,

rezultând în final 3 semnale video de culoare, fiecare având o lărgime de bandă de 6 MHz, se

constată necesitatea unei lărgimi de bandă a canalului video de 3 ori mai mare decât pentru

transmiterea unei imagini alb-negru. Din acest motiv, modelul RGB nu este folosit în

sistemul TV radiodifuzat. El este utilizat în echipamentele de studio TV, în sistemele de

prelucrare a imaginii şi în comanda monitoarelor de calculator, unde pe primul plan sunt

performanţele privind calitatea imaginii.

Un alt model utilizat pentru definirea culorii este modelul HSL, bazat pe un set de 3

parametri, ce definesc, fiecare, o caracteristică a culorii, aşa cum este aceasta percepută

de ochiul uman: H (hue = nuanţă), S (saturation =saturaţie), L (luminance = luminanţă sau

strălucire).

Acest model pune în evidenţă cele două componente ale imaginii în culori:

• luminanţa, ca purtătoare a informaţiei de strălucire a elementelor de

imagine;

• crominanţa, ca purtătoare a informaţiei de culoare, cu componentele sale:

nuanţa, dată de lungimea de undă, şi saturaţia, dată de conţinutul de alb.

În figura 4.3 se prezintă relaţia între cele două modele, RGB şi HSL.

Page 74: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Fig. 4.3. Modelul HSL corespunzător triunghiului culorilor.

Cele două componente ale imaginii în culori sunt reprezentate prin doi vectori:

vectorul crominanţă, plasat în planul culorilor, şi vectorul luminanţă, care stabileşte

nivelul planului de culoare, pe axa verticală, de la negru la alb. Vectorul crominanţă

defineşte nuanţa culorii, prin faza de rotaţie, şi saturaţia culorii, prin modulul vectorului.

Întrucât modelul HSL utilizează parametri ce necesită un anumit grad de prelucrare a

semnalelor video de culoare, acest model este folosit doar în interfeţele grafice, asigurând

un control simplu din partea utilizatorului. În sistemul de operare Windows alegerea culorii

(de exemplu, pentru fundal) se poate face atât în formatul RGB, cât şi în formatul HSL.

Un alt model utilizat pentru definirea culorii este modelul Y, R–Y, B–Y, care este

folosit în sistemele de televiziune analogice şi digitale. El a rezultat din necesitatea asigurării

compatibilităţii sistemelor de televiziune în culori şi în alb negru, fiind o combinaţie a

modelelor RGB şi HSL. Cei 3 parametri ce definesc modelul sunt:

• semnalul de luminanţă, Y, care reflectă informaţia de luminanţă din

imaginea în culori;

• semnalul diferenţă de culoare, R–Y, care reprezintă diferenţa dintre

componenta de roşu din imagine şi cea de luminanţă;

• semnalul diferenţă de culoare, B–Y, care reprezintă diferenţa dintre

componenta de albastru din imagine şi cea de luminanţă.

Componentele de roşu, de albastru şi, respectiv, de verde din imagine reprezintă, de fapt,

semnalele video de culoare ER , EB şi EG (v. fig. 1.7), care se notează în cele ce

urmează, în mod simplificat, prin R , B şi, respectiv, G.

Page 75: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Întrucât cel de-al treilea semnal diferenţă de culoare, G–Y, se poate obţine din celelalte două,

rezultă că semnalele diferenţă de culoare definesc împreună doar informaţia de crominanţă,

neconţinând şi informaţia despre luminanţa culorii.

Din felul cum s-au definit cele două componente, de luminanţă şi de crominanţă,

rezultă că ele pot fi tratate ca şi componente independente în semnalul de televiziune.

Această concluzie este folosită în televiziunea în culori, unde informaţia de imagine este

prelucrată separat pentru luminanţă (strălucire) şi pentru crominanţă (culoare). De fapt,

dezvoltarea principiului televiziunii în culori s-a bazat pe perceperea şi prelucrarea în mod

diferit a informaţiilor de strălucire şi de culoare de către sistemul vizual uman.

În concluzie, ochiul prezintă următoarele particularităţi:

• sensibilitate mare în perceperea strălucirii elementului de imagine, ceea ce

înseamnă că detaliile, contururile şi muchiile sunt percepute de ochi prin variaţia

strălucirii, adică în alb-negru;

• sensibilitate scăzută în perceperea culorii elementului de imagine, ceea ce

înseamnă că ochiul nu percepe culoarea detaliilor, ci doar culoarea suprafeţelor.

În aceste condiţii, un obiect foarte îndepărtat, este identificat de ochiul uman prin variaţia

strălucirii, fără a i se putea identifica culoarea.

Acest lucru permite alocarea unor benzi de frecvenţe diferite pentru transmiterea

optimă a acestor semnale. Semnalul de luminanţă, purtător al informaţiilor privind detaliile,

se transmite într-o bandă largă de frecvenţe (6 MHz), întrucât, cu cât frecvenţa video

maximă este mai mare, cu atât detaliile redate sunt mai mici. În ceea ce priveşte semnalul de

crominanţă, adică semnalele R–Y şi B–Y, acestea pot fi transmise cu bandă de frecvenţe

redusă (limitată la 1,5 MHz), întrucât culoarea detaliilor mici oricum nu poate fi percepută

de ochi.

4.2. Problema compatibilităţii sistemelor de televiziune in

culori şi în alb-negru

La realizarea sistemului de televiziune în culori s-a avut în vedere compatibilitatea

acestuia cu sistemul de televiziune în alb-negru, adică:

• posibilitatea de a recepţiona în alb-negru programele de televiziune emise

color, cu televizoare în alb-negru, fără modificarea lor;

• posibilitatea de a recepţiona în alb-negru cu televizoarele în culori,

programele de televiziune emise în alb-negru;

Page 76: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

• utilizarea infrastructurii (canalelor de comunicaţie) existente pentru

televiziunea în alb-negru (emiţătoare, linii de radiorelee, receptoare etc.), la transmiterea

programelor de televiziune în culori.

Avându-se în vedere semnalele video care se obţin la ieşirea unei camere de televiziune în

alb-negru şi, respectiv, în culori, prezentate în figura 4.4, precum şi condiţiile de

compatibilitate, au rezultat următoarele concluzii privind realizarea unui sistem de

televiziune în culori:

Y Normele de bază ale sistemului TV în culori să fie aceleaşi cu cele adoptate pentru

sistemul TV în alb-negru. În primul rând, s-a avut în vedere lărgimea de bandă a

semnalului de televiziune în culori, care trebuie să fie aceeaşi cu cea a semnalului de

televiziune în alb-negru, atât în videofrecvenţă cât şi în radiofrecvenţă. Cu alte cuvinte,

cele două semnale, de luminanţă şi de crominanţă, trebuie să se transmită în aceeaşi

bandă de frecvenţe, de 6 MHz.

Y Necesitatea transmiterii într-un sistem TV în culori a două semnale video:

• un semnal de luminanţă, Y, care să reflecte corect informaţia de luminanţă a

obiectului transmis şi care să fie identic cu cel care s-ar obţine dacă captarea şi

transmisia s-ar face în sistemul TV alb-negru;

• un semnal de crominanţă, C, purtător al informaţiei de culoare (nuanţă şi

saturaţie), şi care nu trebuie să conţină informaţia despre luminanţa culorii.

Semnalul de crominanţă trebuie astfel prelucrat încât să poată fi transmis în cadrul benzii

de frecvenţe a semnalului de luminanţă şi să nu perturbe recepţia pe televizorul în alb-

negru. În acest scop se foloseşte ca suport o subpurtătoare, numită de crominanţă, care este

modulată în amplitudine sau în frecvenţă de către semnalul de crominanţă, realizându-se,

de fapt, prin această modulaţie, o intercalare a spectrului de frecvenţe al semnalului de

crominanţă modulat, C, în spectrul de frecvenţe al semnalului de luminanţă, Y,

exploatându-se structura discretă a acestora.

Suma celor două semnale video, de luminanţă şi de crominanţă modulat, formează

semnalul video complex de culoare (SVCC).

Semnalul de crominanţă trebuie să fie "ignorat" de receptorul în alb-negru şi să fie "tradus" în

culoare de receptorul în culori.

Page 77: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Fig. 4.4. Semnalele video la ieşirea unei camere TV:

a) în alb-negru; b) în culori.

În televiziunea radiodifuzată se folosesc două norme de televiziune (norma

europeană cu 625 linii şi 25 cadre/secundă şi norma americană cu 525 linii şi 30

cadre/secundă) şi trei sisteme de televiziune în culori: NTSC (National Television

System Committee), PAL (Phase Alternation Line – alternarea fazei pe linii) şi SECAM

(Séquentiel Couleur à Mémoire – culoare secvenţială cu memorie).

Sistemul NTSC a apărut în 1953 în SUA şi este folosit astăzi într-o serie de ţări din

America de Nord şi de Sud, în Japonia etc. Sistemul foloseşte transmisia simultană a

semnalelor corespunzătoare culorilor primare. El se caracterizează prin utilizarea a două

semnale de crominanţă I şi Q, care corespund la două axe din diagrama colorimetrică: axa

de mare definiţie, I, pentru care ochiul distinge cel mai bine culorile şi axa de definiţie

redusă, Q, pentru care ochiul percepe mai slab variaţiile de culoare. Semnalele de

crominanţă I şi Q reprezintă combinaţii liniare ale semnalele diferenţă de culoare ponderate

R–Y şi B–Y.

Sistemul PAL a apărut în 1962 ca urmare a cercetărilor întreprinse de Walter Bruch cu

scopul de a face din sistemul NTSC un sistem insensibil la distorsiunile de fază, care au ca

efect introducerea unei distorsiuni importante de culoare. Cu alte cuvinte, sistemul PAL

constituie o variantă îmbunătăţită a sistemului NTSC. Sistemul PAL este deci un sistem cu

transmisie simultană a semnalelor corespunzătoare culorilor primare. El se caracterizează

prin faptul că subpurtătoarea de crominanţă este modulată în amplitudine simultan cu două

semnale video de culoare, de fapt, cu semnalele diferenţă de culoare R–Y şi B–Y, întrucât

semnalele folosite în televiziunea în culori sunt semnalele date de modelul Y, R–Y, B–Y.

Sistemul SECAM a apărut în Franţa în 1958, ca propunere a colectivului condus de

Henry de France. Sistemul a fost introdus în exploatare într-o serie de ţări din Europa după

1966, fiindu-i aduse ameliorări succesive. Sistemul SECAM este un sistem cu transmisie

secvenţială (din linie în linie) a semnalelor corespunzătoare culorilor primare. Pe o linie se

Page 78: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

transmite informaţia de roşu şi pe următoarea – cea de albastru. In acest caz subpurtătoarea

de crominanţă este modulată în frecvenţă, pe rând, cu unul dintre semnalele video de culoare.

Existenţa acestor trei sisteme diferite de televiziune şi a două norme de televiziune a

îngrădit la început schimbul internaţional de programe de televiziune. Ulterior, situaţia s-a

îmbunătăţit datorită introducerii metodelor digitale de prelucrare a semnalelor de televiziune

în culori.

În prezent există şi sisteme de televiziune în culori incompatibile cu televiziunea în alb-

negru. Spre exemplu, sistemul MAC (Multiplexed Analogue Components – componente

analogice multiplexate), care este un sistem de difuziune prin satelit, şi la care transmisia

se realizează prin multiplexarea în timp a semnalelor de luminanţă şi crominanţă. Sistemul

MAC este prezentat în cadrul volumul II.

4.3. Schema bloc simplificată a camerei TV tricrome

Transformarea imaginii optice plane în cele trei semnale video de culoare, denumite, în

cele ce urmează, semnale de culoare primare (R, G, B) are loc în camera TV tricromă, a

cărei schemă bloc simplificată este dată în figura 4.5.

Fig. 4.5. Schema bloc simplificată a camerei TV tricrome.

Page 79: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

În procesul de transformare a imaginii optice plane în cele trei semnale video de

culoare (semnale de culoare primare) se disting două etape esenţiale:

• descompunerea optică a imaginii color în trei imagini monocromatice,

corespunzătoare culorilor de referinţă R, G, B;

• transformarea fiecărei imagini monocromatice în semnal video de culoare.

Descompunerea fluxului luminos 0(x,y,λ,t) în cele trei fluxuri luminoase R ,

G şi B , corespunzătoare culorilor de referinţă R, G, B, se realizează cu ajutorul unui

sistem de oglinzi dicroice OD1 şi OD2.

Oglinda dicroică are proprietatea de a lăsa să treacă prin ea fluxul luminos

corespunzător unei anumite părţi din spectrul vizibil şi de a reflecta restul. Oglinda

dicroică OD1 lasă să treacă prin ea domeniile de verde şi albastru, adică fluxurile G şi

B , şi reflectă domeniul de roşu al spectrului vizibil, adică fluxul R , iar oglinda

dicroică OD2 lasă să treacă prin ea domeniul de verde, adică fluxul G , şi reflectă

domeniul de albastru, adică fluxul B . Oglinzile normale ON au rolul de a dirija

fluxurile luminoase selectate, de roşu şi, respectiv, de albastru, către dispozitivele

videocaptoare corespunzătoare.

Pe traseele celor trei fluxuri luminoase se introduce câte un filtru de lumină

selectiv (filtru de corecţie) FR , FG şi, respectiv, FB , centrate, fiecare, pe lungimea de

undă dominantă a culorii de referinţă respective. Ele au rolul de a corecta

caracteristicile spectrale ale dispozitivelor videocaptoare (figura 4.6) şi de a realiza o

echilibrare în ceea ce priveşte atenuarea fluxurilor luminoase pe cele trei trasee, avându-se în

vedere că o oglindă dicroică permite trecerea unei porţiuni a fluxului luminos în proporţie

de 95 % şi realizează un coeficient de reflexie a celeilalte porţiuni într-o proporţie de până la

85 %.

Dispozitivele videocaptoare DVCR , DVCG şi DVCB transformă fluxurile

luminoase R , G şi B în semnalele electrice R', G' şi, respectiv B', numite semnale de

culoare primare. Dispozitivele videocaptoare prezintă o caracteristică spectrală selectivă,

centrată pe lungimea de undă dominantă a culorii de referinţă, după cum se prezintă în

figura 4.6, spre deosebire de tuburile videocaptoare în alb-negru, DVCA/N , care prezintă o

caracteristică spectrală extinsă pe întregul spectru vizibil.

Page 80: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Fig. 4.6. Caracteristicile spectrale ale celor trei dispozitive videocaptoare.

După fiecare din dispozitivele videocaptoare se efectuează o corecţie de gamma

(cunoscută şi sub denumirea de corecţie de contrast), destinată să compenseze neliniaritatea

caracteristicii de transfer a sistemului de televiziune, în principal, neliniaritatea

caracteristicilor de transfer ale dispozitivului videocaptor şi ale dispozitivului de redare a

imaginii (în particular, a tubului cinescop).

Această corecţie este necesară deoarece transmiterea corectă a imaginilor de

televiziune este condiţionată de redarea corectă a gradaţiilor (nivelurilor) de luminanţă din

imaginea originală. Cu alte cuvinte, într-o transmisie TV se vor reda corect gradaţiile de

luminanţă din imaginea originală, atunci când, captând imaginea scării liniare de gri, se

obţine la recepţie, de asemenea, o scară liniară de gri (figura 4.7).

Neliniaritatea caracteristicii de transfer a unui sistem de televiziune influenţează şi

asupra saturaţiei culorilor reproduse. Principiul corecţiei de gamma este prezentat în

paragraful 4.3.1.

Amplificarea fiecăruia din amplificatoarele video AVR , AVG şi AVB se reglează

astfel încât, pentru lumina albă de referinţă, care prin definiţie reprezintă cea mai mare

strălucire care se poate întâlni într-o imagine, să fie satisfăcută condiţia:

R = G = B = 1 VVV (4.1)

operaţie care poartă numele de reglajul sau balansul albului.

Ca urmare, la captarea unei imagini acromatice (în alb-negru), amplitudinile celor trei

semnale video de culoare sunt egale, adică:

Page 81: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

R = G = B = (0 ÷ 1) VVV (4.2)

Codorul (circuitul de codare al canalului) asigură compatibilitatea între sistemele

TV în culori şi în alb-negru. La ieşirea codorului se obţine semnalul video complex de

culoare (SVCC), prin însumarea semnalului de luminanţă, Y, cu semnalul de crominanţă

modulat, C.

4.3.1. Principiul corecţiei de gamma

Corecţia de gamma este necesară deoarece transmiterea corectă a imaginilor de

televiziune este condiţionată de redarea corectă a gradaţiilor (nivelurilor) de luminanţă din

imaginea originală.

În acest scop, trebuie să existe o dependenţă liniară între variaţiile de luminanţă din

imaginea originală, Lo , şi variaţiile de luminanţă din imaginea redată, Lr, adică:

Lr = kLo (4.3)

Redarea necorectă a gradaţiilor de luminanţă din imaginea originală este determinată

de neliniaritatea caracteristicii de transfer a sistemului de televiziune, adică, în principal,

de neliniaritatea caracteristicilor de transfer ale dispozitivului videocaptor şi ale

dispozitivului de redare a imaginii (în particular, a tubului cinescop).

În aceste condiţii relaţia (4.3) devine:

(4.4)

unde γ este coeficientul de neliniaritate.

Cu alte cuvinte, dependenţa liniară, dată de relaţia (4.3), este afectată de:

• neliniaritatea caracteristicii de transfer radiaţie luminoasă – semnal electric

a dispozitivului videocaptor, care este de forma:

(4.5)

unde este

semnalul

vid

eo

la ieşirea dispozitivului videocaptor, adică semnalul

Page 82: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

e C

3

electric R', G', respectiv, B', iar coeficientul γ1 caracterizează neliniaritatea, fiind un

coeficient subunitar;

• neliniaritatea caracteristicii de transfer semnal electric – radiaţie luminoasă

a dispozitivului de redare a imaginii, care este de forma:

2

Lr k 2 eV 2 (4.6)

unde eV 2 este semnalul video de comandă a tubului cinescop, adică semnalul electric

R, G, respectiv, B, iar coeficientul γ2 caracterizată neliniaritatea, fiind un coeficient

supraunitar.

Din cele prezentate se constată că cele două caracteristici de transfer sunt oarecum

complementare, ceea ce compensează în parte redarea necorectă a gradaţiilor de luminanţă

din imagine.

Pentru îndeplinirea condiţiei (4.3), se introduce circuitul corector de gamma, cu

caracteristică de transfer neliniară, de forma:

eV 2 k 3

V 1

sau R k R'

C

(4.7)

în care

C

1

1 (4.8)

2

Posibilitatea de a controla forma caracteristicii de transfer a unui sistem de televiziune,

prin modificarea valorii coeficientului γ (cunoscut în literatură şi sub numele de

exponent de contrast al sistemului TV), unde:

1 2 C (4.9)

Page 83: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

prezintă interes practic prin faptul că problema celei mai bune reproduceri a gradaţiilor de

luminanţă depinde, în mare măsură, de conţinutul imaginii TV şi de destinaţia sistemului

TV.

În unele aplicaţii este util să se mărească contrastul într-un anumit domeniu al gradaţiilor de

luminanţă (de exemplu, în domeniul tonurilor închise, medii sau deschise), unde sunt

situate detaliile care prezintă cel mai mare interes pentru observator. Prin urmare,

printr-o redare neliniară a scării de gri se poate îmbunătăţii redarea unor detalii de interes

dintr-o imagine TV, după cum se prezintă în figura 4.7.

Dacă γ = 1, contrastul imaginii redate este egal cu contrastul imaginii originale. Sistemul

TV redă corect scara liniară de gri.

Dacă γ > 1, contrastul imaginii redate este mai mare decât contrastul imaginii originale în

domeniul tonurilor deschise şi medii, favorizând redarea detaliilor de interes din aceste

domenii. De asemenea, pentru γ > 1 are loc o creştere a saturaţiei culorii redate.

Dacă γ < 1, contrastul imaginii redate este mai mare decât contrastul imaginii originale în

domeniul tonurilor închise şi medii, favorizând redarea detaliilor de interes din aceste

domenii. De asemenea, pentru γ < 1 are loc o scădere a saturaţiei culorii redate.

Fig. 4.7. Posibilitatea de modificare controlată a scării liniare de gri.

Page 84: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

4.3.2. Principiul corecţiei distorsiunilor de apertură

Distorsiunile de apertură se manifestă, datorită dimensiunii finite a elementului de

explorare, prin atenuarea progresivă a componentelor de frecvenţă înaltă conţinute în

semnalul de imagine, fără a afecta faza acestor componente. Aceasta înseamnă că

detaliile fine din imagine, în raport cu detaliile mari, vor fi redate printr-un semnal cu

amplitudine mai mică, prezentând, astfel, un contrast mai scăzut. Cu alte cuvinte,

atenuarea frecvenţelor înalte are ca efect micşorarea rezoluţiei sistemului TV.

Principiul corecţiei distorsiunilor de apertură se bazează pe accentuarea progresivă

a componentelor de frecvenţă înaltă din semnalul video, fără a afecta faza acestor

componente. Cu alte cuvinte, circuitele corectoare de apertură asigură o mărire a amplitudinii

componentelor de frecvenţe înalte în raport cu cele de frecvenţe joase. În acest fel, corectorul

de apertură restabileşte amplitudinea corectă a componentelor de frecvenţă înaltă din

semnalul video furnizat de dispozitivul videocaptor şi, prin aceasta, valoarea corectă a

fronturilor din semnalul de imagine (v. fig. 3.2). Corecţia distorsiunilor de apertură are ca

efect accentuarea contururilor imaginii, atât în direcţie orizontală cât şi în direcţie verticală.

În figura 4.8 se prezintă efectul corecţiei distorsiunilor de apertură în domeniul timp (figura

4.8.a) şi în domeniul frecvenţă (figura 4.8.b). Semnalul de imagine eV 1 t

corespunde, spre exemplu, unei tranziţii negru-alb în imagine, fiind afectat frontul

semnalului de distorsiunile de apertură (v. fig. 3.2).

Acţiunea de compensare a distorsiunilor de apertură constă în obţinerea unui front ridicător

tr mai abrupt pentru semnalul de imagine, ceea ce echivalează cu creşterea amplitudinii

frecvenţelor înalte. Cu alte cuvinte, trebuie ca durata frontului

ridicător, tr 2 , pentru semnalul de imagine

corectat,

eV 2 t , să devină mai mică decât

durata frontului ridicător, tr1 , a semnalului de imagine iniţial, eV 1 t . În acest scop se

adaugă un semnal de corecţie eC t la semnalul de

imagine

eV 1 t , reprezentând

derivata de ordinul doi a acestuia, după cum se prezintă în figura 4.8.a. Pentru a se

asigura concordanţa de fază a celor două semnale ce se însumează, semnalul de imagine

trebuie întârziat în mod corespunzător.

Page 85: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Fig. 4.8. Efectul corecţiei distorsiunilor de apertură:

a) în domeniul timp; b) în domeniul frecvenţă.

Pentru a se obţine o corecţie bidimensională, se aplică o corecţie în direcţie orizontală,

în care caz întârzierea se alege de ordinul de mărime al duratei unui element de imagine, şi

o corecţie în direcţie verticală, în care caz se alege o întârziere egală cu durata unei linii.

În figura 4.8.b se scoate în evidenţă compensarea căderii caracteristicii de apertură a

dispozitivului videocaptor cu frecvenţa, reprezentată prin curba H(f). Se obţine o

caracteristică de frecvenţă corectată HC(f), prin însumarea cu caracteristica de frecvenţă a

corectorului de apertură hC(f), care asigură o redare corespunzătoare a frecvenţelor

înalte.

4.4. Semnalul de luminanţă

Având în vedere cele prezentate în paragraful 4.2 (v. fig. 4.4), se impune ca într-

un sistem TV în culori să se transmită semnalul de luminanţă Y, care să reflecte corect

luminanţa obiectului, adică, să fie identic cu cel care s-ar obţine dacă captarea şi transmisia

s-ar face în sistemul TV în alb-negru. Acest semnal nu se obţine direct din explorarea

imaginii electronice.

Captarea imaginii, la ieşirea dispozitivelor videocaptoare, se realizează conform

modelului RGB, iar semnalele folosite în televiziunea în culori sunt semnalele date de

modelul Y, R–Y, B–Y. Aceasta presupune obţinerea prin calcul a semnalului de luminanţă

şi a semnalelor diferenţă de culoare din semnalele de culoare primare.

Contribuţia celor trei semnale de culoare primare R, G, B la semnalul de

luminanţă Y, este dată de expresia:

Page 86: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Y = aR + bG + cB (4.10)

care precizează faptul că albul de referinţă se obţine dacă luminanţele culorilor de

sinteză R, G, B se amestecă în proporţiile date de coeficienţii a, b şi, respectiv, c.

Pentru a se determina contribuţia celor trei semnale de culoare primare la semnalul de

luminanţă, se au în vedere:

• caracteristica de sensibilitate spectrală relativă a ochiului, şi

• raportarea luminanţei oricărei culori la luminanţa albului de referinţă, care

generează un semnal video de amplitudine maximă, adică Y = 1 VVV, ceea ce este

echivalent cu:

a + b + c = 1 (4.11)

întrucât în acest caz R = G = B = 1 VVV .

Sistemul vizual uman, în faţa unei imagini color, face ponderarea luminanţei în

funcţie de lungimea de undă a radiaţiilor luminoase, conform curbei de sensibilitate

spectrală relativă prezentată în figura 4.9. Această curbă arată cum variază

sensibilitatea ochiului Sλ , adică senzaţia de strălucire, în funcţie de lungimea de undă a

radiaţiei luminoase monocromatice de intensitate energetică constantă. Se constată că, la

luminanţe egale, ochiul percepe strălucirea roşului mai redusă decât a verdelui sau a

galbenului, dar mai puternică decât cea a albastrului sau a negrului.

Fig. 4.9. Caracteristica de sensibilitate spectrală relativă a ochiului.

Page 87: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Într-un sistem TV în alb-negru, când pe ecran se reproduc doar informaţiile de luminanţă

ale imaginii, se pune problema ca detaliile colorate, de luminanţe egale, să fie reproduse

în alb-negru cu străluciri ponderate, în corelaţie cu caracteristica de sensibilitate

spectrală a ochiului, întrucât în faţa unui ecran alb-negru ochiul nu poate face ponderarea

menţionată. Acest deziderat se realizează prin faptul că dispozitivul videocaptor, în

televiziunea în alb-negru, prezintă o caracteristică spectrală asemănătoare cu

caracteristica de sensibilitate spectrală a ochiului (v. fig. 4.6). În acest caz, pe ecranul alb-

negru, detaliile colorate albastru şi roşu vor fi reproduse printr-un gri-negru, cele

colorate mov şi verde – printr-un gri mai deschis, iar cele colorate turcoaz şi galben –

printr-un gri şi mai deschis. Cu alte cuvinte, o miră cu bare color va fi redată pe ecranul

alb-negru printr-o miră cu bare de gri.

În sistemul TV în culori compatibil, dispozitivele videocaptoare nu mai

prezintă caracteristici spectrale asemănătoare cu caracteristica de sensibilitate spectrală a

ochiului (v. fig. 4.6). Ca urmare, dispozitivele videocaptoare nu mai ponderează

luminanţa detaliilor colorate, în funcţie de lungimea de undă a radiaţiilor luminoase.

Această ponderare se realizează în blocul denumit codor, folosindu-se o matrice de

formare a semnalului Y din cele trei semnale de culoare primare, pe baza relaţiei (4.10).

Coeficienţii a, b şi c precizează contribuţia celor trei semnale de culoare primare R,

G şi B la formarea semnalului de luminanţă. La determinarea lor s-a avut în vedere, pe de

o parte, valorile sensibilităţii relative a ochiului, kλ , pentru culorile primare R, G, B (v.

fig. 4.9) şi, pe de altă parte, realizarea condiţiei (4.11).

În aceste condiţii:

a k R

k R k G k B

b k G

k R k G k B

c k B

k R k G k B

0,46

0,46 0,9 0,17

0,9

0,46 0,9 0,17

0,17

0,46 0,9 0,17

0,30

0,59

0,11

şi, ca urmare, semnalul de luminanţă se obţine cu circuitul de matriciere MY din figura

4.10, pe baza relaţiei:

Page 88: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Y 0,30R 0,59G 0,11B (4.12)

În cazul transmisiei unor imagini acromatice (în alb-negru), semnalul de luminanţă

corespunzător tonurile de gri (de la negru la alb) este dat de relaţia:

Y = R = G = B = (0 1) VVV (4.13)

Fig. 4.10. Obţinerea semnalului de luminanţă.

Albul de referinţă se obţine pe ecranul tubului cinescop dacă luminanţele culorilor de

sinteză R, G, B se amestecă în raportul:

LR : LG : LB = 0,30 : 0,59 : 0,11 (4.14)

Relaţia (4.14) evidenţiază luminanţa unei culori în raport cu luminanţa albului de referinţă.

4.5. Semnalele diferenţă de culoare

Pentru a se respecta principiul luminanţei constante, întrucât semnalul de

luminanţă Y conţine toată informaţia referitoare la luminanţa culorii, trebuie să se înlăture

(să se scadă) această componentă din semnalele R, G, B. Din acest motiv se transmit aşa-

numitele semnale diferenţă de culoare, definite prin relaţiile:

R–Y = R – (0,30R + 0,59G + 0,11B) = 0,70R – 0,59G – 0,11B

G–Y = 0,30R + 0,41G – 0,11B (4.15)

B–Y = – 0,30R – 0,59G + 0,89B

Transmiterea semnalelor diferenţă de culoare în locul semnalelor de culoare primare

Page 89: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

prezintă şi următoarele avantaje:

• La transmisiuni în alb-negru (trepte tonale de gri, de la negru la alb) fiind

satisfăcută relaţia (4.13), rezultă:

R–Y = G–Y = B–Y = 0 (4.16)

Ca urmare, la transmisiuni în alb-negru, semnalele diferenţă de culoare fiind nule, nu au

nici o influentă la recepţie pe televizoarele în alb-negru sau în culori. În schimb, semnalul

de luminanţă Y va avea amplitudinea corespunzătoare nivelului de gri transmis, adică Y =

(01) VVV.

• Într-un sistem TV în culori nu este necesar să se transmită toate cele trei

semnale diferenţă de culoare, întrucât oricare din ele se poate obţine din celelalte două. La

alegerea celor două semnale diferenţă de culoare, care se transmit la recepţie, s-a avut

în vedere că semnalul G–Y are valoarea vârf-vârf cea mai mică din cele trei semnale

diferenţă de culoare, ceea ce însemnă că va fi cel mai expus la perturbaţii.

În concluzie, în sistemele de televiziune în culori se transmit trei semnale video:

semnalul de luminanţă Y şi semnalele diferenţă de culoare R–Y şi B–Y, cunoscute sub

denumirea de semnale primare de transmisie. Semnalul diferenţă de culoare G–Y se

reconstituie în receptorul TV pe baza expresiei:

G Y 0,51R Y 0,19B Y (4.17)

Semnalele diferenţă de culoare R–Y şi B–Y se obţin în codorul camerei TV cu

circuitele de matriciere MR -Y , respectiv, MB -Y (v. fig. 4.14), pe baza relaţiilor (4.15), iar

semnalul diferenţă de culoare G–Y se obţine în decodorul receptorului TV cu circuitul de

matriciere MG -Y (v. fig. 4.15), pe baza relaţiei (4.17).

Experienţele au arătat că acuitatea sistemului vizual uman, faţă de informaţia de

culoare, este de câteva ori mai redusă decât faţă de informaţia de luminanţă, mai ales

când trebuie identificate culorile detaliilor mici din imagine. Mai mult, detaliile fine ale

imaginilor sunt percepute de ochi prin variaţia luminanţei, adică în alb-negru. Ca urmare,

o imagine color bună se obţine şi în cazul în care banda de frecvenţe a semnalelor

diferenţă de culoare se reduce de 4÷5 ori faţă de banda de frecvenţe a semnalului de

luminanţă.

Page 90: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Întrucât banda de frecvenţe a semnalului de luminanţă este de 6 MHz, respectiv 5 MHz,

stabilită prin norma de bază a sistemului TV în alb-negru, rezultă că banda de frecvenţe a

semnalelor diferenţă de culoare poate fi redusă la (1,2÷1,5) MHz, fără a afecta calitatea

imaginii transmise.

4.5. Formele semnalelor de luminanţă şi de diferenţă de

culoare în cazul mirei electronice cu bare verticale color

Pentru reglarea aparaturii de televiziune se foloseşte generatorul electronic de miră

color, care generează semnalele video, pe baza cărora se obţin pe ecranul tubului cinescop

diferite modele, de exemplu, mira cu bare verticale color.

Această miră este formată din 6 bare verticale color şi două bare acromatice - alb şi negru,

de lăţimi egale, dispuse în ordinea prezentată în figura 4.11. Culorile alese sunt cele trei

culori de referinţă, roşu, verde şi albastru, şi culorile lor complementare, turcoaz (amestec

aditiv de verde şi albastru), mov (amestec aditiv de roşu şi albastru) şi, respectiv, galben

(amestec aditiv de roşu şi verde)

Pentru această miră se determină forma semnalelor R , G , B , Y , R–Y , G–Y şi

B–Y .

Având în vedere că albul de strălucire maximă se obţine pentru R = G = B = 1

Vvv şi luând drept referinţă aceste valori pentru generarea culorilor, se obţin pentru

semnalele Y , R–Y , B–Y şi G–Y valorile date în tabelul 4.1, calculate pe baza relaţiilor

(4.11) şi (4.15).

Tabelul 4.1

Culoarea R G B Y R–Y B–Y G–Y

Alb 1 1 1 1 0 0 0

Galben 1 1 0 0,89 0,11 - 0,89 0,11

Turcoaz 0 1 1 0,70 - 0,70 0,30 0,30

Verde 0 1 0 0,59 - 0,59 - 0,59 0,41

Mov 1 0 1 0,41 0,59 0,59 - 0,41

Roşu 1 0 0 0,30 0,70 - 0,30 - 0,30

Albastru 0 0 1 0,11 - 0,11 0,89 - 0,11

Negru 0 0 0 0 0 0 0

Pe baza datelor din tabelul 4.1, în figura 4.11 sunt prezentate formele semnalelor video

Page 91: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

pentru o linie a mirei cu bare verticale color. Succesiunea barelor color de la stânga la

dreapta s-a ales, astfel, ca aceste culori să fie dispuse în ordine descrescătoare a

luminanţei relative.

Fig. 4.11. Formele semnalelor video pentru mira cu bare verticale color.

Din tabelul 4.1 se constată că semnalele diferenţă de culoare variază în limitele R–Y

= 0,70 , B–Y = 0,89 , G–Y = 0,41 , ceea ce justifică afirmaţia făcută în paragraful

4.5 că semnalul G–Y are valoarea vârf-vârf cea mai mică din cele trei semnale

diferenţă de culoare.

Mira cu bare color, generată pe baza datelor din tabelul 4.1, produce culori cu

saturaţie maximă (100%) şi luminanţă maximă (100%). Întrucât asemenea culori se

întâlnesc rar în natură, s-a impus în practică mira cu bare color în care albul de

luminanţă maximă se obţine pentru R = G = B = 1 VVV, iar culorile barelor sunt

obţinute pentru R = G = B = 0,75 VVV (saturaţie de 75%), corespunzând cel mai bine

realităţii. Pentru acest caz valorile semnalelor Y , R–Y , B–Y şi G–Y sunt date în tabelul 4.2.

Page 92: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Tabelul 4.2

Culoarea

R

G

B

Y

R–Y

B–Y

G–Y

Alb 1 1 1 1 0 0 0

Galben 0,75 0,75 0 0,66 0,09 - 0,66 0,09

Turcoaz 0 0,75 0,75 0,53 - 0,53 0,22 0,22

Verde 0 0,75 0 0,44 - 0,44 - 0,44 0,31

Mov 0,75 0 0,75 0,31 0,44 0,44 - 0,31

Roşu 0,75 0 0 0,22 0,53 - 0,22 - 0,22

Albastru 0 0 0,75 0,09 - 0,09 0,66 - 0,09

Negru 0 0 0 0 0 0 0

4.5. Semnalul video complex de culoare

În televiziunea radiodifuzată, transmiterea celor trei semnale primare Y, R–Y şi B–Y

se face pe un singur canal de transmisie, caracterizat prin lărgimea de bandă stabilită

prin norma de televiziune adoptată (6 MHz, respectiv 5 MHz).

Întrucât cele trei semnale primare de transmisie ocupă un spectru de frecvenţe mai mare

decât cel alocat canalului video, pentru transmisia unui program TV, semnalele primare de

transmisie Y, R–Y şi B–Y sunt supuse unei operaţii de codare, astfel încât semnalul codat

obţinut, cunoscut sub denumirea de semnal video complex de culoare, să poată fi transmis

prin canalul alocat şi să poată fi decodat la recepţie, cu scopul de a se obţine semnalele

primare de transmisie, ce urmează să fie prelucrate pe căi distincte. De fapt, semnalele R–Y

şi B–Y (fără impulsuri de stingere şi sincronizare) se codează, rezultând semnale codate

NTSC, PAL, respectiv SECAM, care apoi se adaugă la semnalul video complex Y (care

conţine semnalul de stingere şi de sincronizare), rezultând, astfel, semnalul video complex

de culoare, SVCC.

Realizarea transmisiei celor trei semnale primare în lărgimea de bandă alocată

canalului video, se bazează pe observaţia că spectrele de frecvenţe ale semnalelor Y , R–Y

şi B–Y sunt spectre discrete, formate din pachete de linii spectrale centrate pe multipli ai

frecvenţei liniilor (figurile 4.12.a şi b). Mai mult, între pachetele de linii spectrale

alăturate ale semnalului de luminanţă, cu frecvenţă centrală relativ mare (peste 1,5

Page 93: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

MHz), există intervale libere, care se pot ocupa, prin intercalarea (întreţeserea) pachetelor

de linii spectrale ale semnalului de crominanţă modulat, C, adică limitat şi translatat în

domeniul frecvenţelor superioare, între pachetele de linii spectrale ale semnalului de

luminanţă Y (figurile 4.12. a, c şi d).

Ca urmare, semnalul video complex de culoare, Y+C, obţinut prin însumarea

semnalelor de luminanţă şi de crominanţă modulat, ocupă aceeaşi bandă de frecvenţe ca

semnalul video complex în sistemul TV în alb-negru.

Fig. 4.12. Intercalarea spectrelor de frecvenţe în sistemul TV în culori:

a) semnalul de luminanţă; b) semnalele diferenţă de culoare;

c) semnalul de crominanţă modulat; d) semnalul SVCC.

Semnalul de crominanţă modulat se obţine folosind ca suport o subpurtătoare, numită

de crominanţă, fsp , care este modulată în amplitudine şi în cuadratură cu cele două

semnale diferenţă de culoare (sistemele NTSC şi PAL), sau în frecvenţă, cu câte un semnal

diferenţă de culoare, şi transmiterea alternativă a acestora (sistemul SECAM). Prin

Page 94: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

modulaţie se asigură translatarea tuturor componentelor spectrale ale semnalelor diferenţă

de culoare în partea superioară a spectrului de frecvenţe al semnalului de luminanţă, cu

frecvenţa subpurtătoarei de crominanţă (figura 4.13).

fH fsp fH f

2fH 2fH

Fig. 4.13. Spectrul de frecvenţe al semnalului de crominanţă modulat în amplitudine (MA-

PS).

Dacă frecvenţa subpurtătoarei se alege egală cu un multiplu impar al jumătăţii

frecvenţei de linii fH , adică:

f H

f sp 2m 1

2

m 0,5f H (4.17)

pachetele de linii spectrale ale semnalului de crominanţă modulat, C (figura 4.13) se vor

plasa, la jumătatea intervalelor libere, între pachetele de linii spectrale ale semnalului de

luminanţă, Y (figura 3.12.d).

Semnalul video complex de culoare conţine şi un semnal pentru prelucrarea

corectă a informaţiei de culoare transmise. El este plasat pe palierul posterior al

impulsurilor de stingere.

În sistemul PAL acest semnal este cunoscut sub denumirea de semnal de

sincronizare a culorii (sau "burst"), SC , şi are rolul de a regenera în receptor

subpurtătoarea de crominanţă, adică un semnal sinusoidal cu frecvenţa fsp. Pentru

realizarea acestei cerinţe, în componenţa semnalului video complex de culoare se

transmite, pe palierul posterior al impulsurilor de stingere pe orizontală (palierul posterior

impulsului de sincronizare linii) un semnal, sub forma unei salve de sinusoide (tren de 8÷10

sinusoide), având frecvenţa subpurtătoarei fsp .

În sistemul SECAM, pe palierul posterior al impulsurilor de stingere pe orizontală

Page 95: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

se transmit semnale având frecvenţele subpurtătoare fOR, respectiv fOB, corespunzătoare

secvenţei liniilor ce se transmit, avându-se în vedere transmisia succesivă a semnalelor de

culoare. În sistemul SECAM, suplimentar, se transmite aşa- numitul semnal de

identificare a culorii, IC, pe durata a nouă linii a impulsului de stingere pe verticală,

care are rol în recunoaşterea ordinii de transmitere a semnalelor diferenţă de culoare.

4.5. Structura unui sistem TV în culori compatibil

4.5.1. Structura părţii de emisie

Cu toate că sistemele TV în culori sunt incompatibile între ele, toate sistemele de

televiziune în culori compatibile prezintă, în principiu, aceeaşi structură, atât la emisie

cât şi la recepţie, întrucât ele funcţionează după aceleaşi principii:

• achiziţia semnalului în formatul RGB de către camera TV;

• utilizarea semnalelor primare de transmisie Y, R–Y, B–Y ;

• formarea semnalului de crominanţă modulat C ;

• intercalarea spectrelor la formarea semnalului SVCC;

• separarea la recepţie a semnalelor de luminanţă şi de crominanţă modulat

şi prelucrarea lor separată;

• comanda tubului cinescop în unul din formatele: Y, R–Y, G–Y, B–Y sau

RGB.

În figura 4.14 se prezintă structura părţii de emisie a unui sistem TV în culori

compatibil. Ea funcţionează după principiile prezentate mai sus şi care sunt sintetizate în

descrierea ce urmează.

Fig. 4.14. Structura părţii de emisie a unui sistem TV în culori.

Page 96: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

Transformarea imaginii optice în semnalele de culoare primare R, G, B are loc în

camera TV tricromă, a cărui structură a fost prezentată în figura 4.5. Cu ajutorul

circuitelor de matriciere MY , MR-Y şi MB-Y se obţin semnalele primare de transmisie Y,

R–Y şi, respectiv, B–Y, pe baza relaţiilor (4.12) şi ( 4.15). Banda de frecvenţe a semnalelor

diferenţă de culoare este limitată de către filtrele trece-jos (FTJ) la cel mult 1,5 MHz.

Pentru a se realiza compatibilitate de transmisie, spectrele semnalelor diferenţă de culoare

trebuie translatate, din domeniul 0÷1,5 MHz, în regiunea superioară a spectrului de

frecvenţe al semnalului de luminanţă, pentru a se ocupa spaţiile libere existente. În acest

scop se modulează o subpurtătoare de crominanţă, de frecvenţă fsp, cu semnalele diferenţă

de culoare în blocul modulator (Mod.), rezultând semnalul de crominanţă modulat, C. Dacă

frecvenţa subpurtătoarei se alege egală cu un multiplu impar al jumătăţii frecvenţei de linii,

componentele spectrale ale semnalului de luminanţă modulat, C, se vor plasa între

componentele spectrale ale semnalului de luminanţă Y.

În sistemele NTSC şi PAL subpurtătoarea este modulată simultan cu cele două semnale

diferenţă de culoare, folosind o modulaţie în cuadratură, ce afectează doi parametri ai

purtătoarei, amplitudinea şi faza. În aceste condiţii, cele trei semnale, de luminanţă şi cele

două semnale diferenţă de culoare, se transmit simultan.

În sistemul SECAM se folosesc două subpurtătoare, care sunt modulate în frecvenţă cu

câte un semnal diferenţă de culoare, realizându-se o transmitere secvenţială a semnalelor

diferenţă de culoare (pe durata fiecărei linii se transmite un singur semnal diferenţă de

culoare). Ca urmare, în sistemul SECAM se asigură o transmitere simultană pentru

semnalul de luminanţă şi unul din semnalele diferenţă de culoare.

La ieşirea etajului sumator Σ se obţine semnalul video complex de culoare, Y+C, codat

NTSC, PAL sau SECAM, prin însumarea semnalului de crominanţă modulat cu semnalul

de luminanţă, căruia în prealabil i s-a adăugat semnalul de stingere şi sincronizare,

SH+V , şi semnalul pentru prelucrarea corectă a informaţiei de culoare transmise (semnalul

de sincronizare a culorii, SC , în sistemul PAL, respectiv, semnalul de sincronizare şi de

identificare a culorii, IC , în sistemul SECAM). Banda de frecvenţe a semnalului SVCC este

limitată superior, conform normei TV (6 MHz, respectiv 5 MHz), de către un filtru trece-

jos montat la ieşirea etajului sumator.

Procedeul prin care s-a realizat translatarea spectrelor semnalelor diferenţă de culoare,

intercalarea acestora în spectrul semnalului de luminanţă şi s-a obţinut semnalul video

complex de culoare poartă numele de codare. Blocul care efectuează aceste operaţii,

Page 97: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

asigurând compatibilitatea între sistemele TV în culori şi în alb-negru se numeşte codor.

Funcţie de sistemul TV în culori folosit, codorul poate să fie NTSC, PAL, respectiv

SECAM. El poate să fie încorporat în camerele TV sau poate să fie livrat ca unitate

separată.

Pentru a transmite semnalul video complex de culoare de la emisie la recepţie, se foloseşte un

emiţător de televiziune (numit şi emiţător de imagine). Semnalul SVCC modulează în

amplitudine o purtătoare de radiofrecvenţă, numită purtătoare de imagine (semnal sinusoidal

având frecvenţa postului de emisie, fpi). În acest fel se asigură ca semnalul de televiziune

(semnal RF-MA cu semnalul SVCC) să ocupe banda de frecvenţe alocată canalului TV.

Cu alte cuvinte, purtătoarea de radiofrecvenţă are doar rolul de suport. În cazul televiziunii

radiodifuzate, semnalul de televiziune se aplică antenei de emisie, pentru a se propaga la

distanţă prin unde radio terestre, iar în cazul televiziunii pe cablu, se transmite prin cablu

coaxial sau prin fibră optică direct la utilizator.

4.5.2. Structura părţii de recepţie

În figura 4.15 se prezintă structura părţii de recepţie a unui sistem TV în culori

compatibil. Ea funcţionează conform cu principiile prezentate la realizarea structurii părţii

de emisie şi care sunt sintetizate în descrierea ce urmează.

Fig. 4.15. Structura părţii de recepţie a unui sistem TV în culori.

Page 98: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

La recepţie, semnalul de radiofrecvenţă modulat în amplitudine cu semnalul video

complex de culoare se aplică la intrarea blocului de radiofrecvenţă, cunoscut şisub numele

de selector de canale. Acesta constă, în principal, dintr-un amplificator de radiofrecvenţă,

ARF, şi un etaj schimbător de frecvenţă, SF.

După selectorul de canale urmează calea comună imagine-sunet, care constă, în principal,

dintr-un amplificator de frecvenţă intermediară, AFIIS, şi un demodulator video, DV, care

au rolul de a amplifica semnalul de televiziune şi de a extrage din acesta semnalul video

complex de culoare, Y +C.

În decodor se realizează separarea semnalelor de luminanţă, Y, şi de crominanţă

modulat, C, din semnalul video complex de culoare, precum şi prelucrarea lor separată în

vederea asigurării comenzii tubului cinescop în unul din formatele: Y, R–Y, G–Y, B–Y sau

RGB.

Filtrul trece-jos, FTJ, separă din semnalul SVCC semnalul de luminanţă, Y, care,

după ce este amplificat, comandă, în catod, tubul cinescop al receptorului TV. Fie că se

foloseşte un filtru trece-jos, fie că se foloseşte un filtru de rejecţie centrat pe

subpurtătoarea fsp , cu rol de a elimina componentele de crominanţă, se elimină şi unele

componente din spectrul semnalului de luminanţă. Pentru a elimina numai componentele de

crominanţă, în decodoarele mai pretenţioase se foloseşte un filtru de tip pieptene, care

extrage pachetele de linii spectrale ale semnalului de luminanţă, atenuând în mod

corespunzător pachetele de linii spectrale ale semnalului de crominanţă modulat.

Filtrul trece-bandă, FTB, centrat pe frecvenţa subpurtătoarei de crominanţă, fsp,

separă din semnalul SVCC semnalul de crominanţă modulat, C. În acest circuit se

extrage şi semnalul de sincronizare a culorii, SC , în decodorul PAL, respectiv, semnalul de

identificare a culorii, IC , în decodorul SECAM.

Semnalul de crominanţă C este demodulat în circuitele demodulatoare (Demod.),

realizându-se, astfel, separarea semnalelor diferenţă de culoare R–Y şi B–Y din semnalul de

crominanţă modulat. Decodorul PAL conţine demodulatoare sincrone video, iar decodorul

SECAM – demodulatoare de frecvenţă. Subpurtătoarea de crominanţă este reconstituită

într-un oscilator local, sincronizat în fază şi frecvenţă de către semnalul de sincronizare al

culorii SC. Semnalul diferenţă de culoare G–Y se obţine în decodorul receptorului TV cu

circuitul de matriciere MG–Y , pe baza relaţiei (4.17).

Aplicând semnalul de luminanţă Y pe catozii celor trei tunuri electronice ale tubului

cinescop tricrom şi semnalele diferenţă de culoare pe grilele de comandă

Page 99: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

corespunzătoare, se modulează în intensitate cele trei fascicule de electroni cu semnalele

primare de culoare corespunzătoare R,, G şi, respectiv, B.

Semnalele R, G, B se pot obţine şi prin matricierea semnalelor Y, R–Y şi B–Y în

matricea MRGB . Comanda tubului cinescop cu semnalele R, G, B se poate face în două

variante:

• fie pe grilele de comandă ale tubului cinescop tricrom, catozii fiind

conectaţi la o tensiune fixă pozitivă;

• fie pe catozii tubului cinescop, în care caz polaritatea lor trebuie să fie

negativă, grilele de comandă fiind conectate la o tensiune fixă negativă.

Amplificatoarele finale video au rolul de a amplifica semnalele R, G, B de la ieşirea

matricei de decodare până la valoarea necesară funcţionării tubului cinescop (circa 100

VVV), asigurând şi polaritatea negativă a semnalelor. Amplificările în cele trei canale de

amplificare pot fi ajustate, pentru obţinerea impresiei de incolor în cazul redării tonurilor de

gri ale imaginii.

Blocarea tubului cinescop pe cursele de întoarcere pe orizontală şi pe verticală se

poate realiza prin blocarea amplificatoarelor finale video cu impulsuri de frecvenţa liniilor

şi a cadrelor. De asemenea, nivelul de curent continuu al fiecărui semnal de ieşire poate fi

prereglat individual.

Sistemul vizual uman va percepe culoarea rezultată din amestecul aditiv al

radiaţiilor luminoase de roşu, verde şi albastru emise de triada de luminofori excitată, într-o

proporţie bine precizată, de cele trei fascicule de electroni, comandate de semnalele primare

de culoare corespunzătoare R, G şi, respectiv, B.

Semnalul SVCC se transmite şi la blocul de baleiaj al receptorului TV, pentru a se extrage

semnalul complex de sincronizare, S(H)+S(V). Aceste semnale sunt necesare pentru a asigura

sincronizarea baleiajelor pe orizontală şi pe verticală.

Page 100: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

4.7. Întrebări şi probleme

1. Care sunt culorile complementare şi prin ce se caracterizează?

2. Cum se poate obţine albul într-un sistem TV în culori?

3. Care sunt principalele modele de reprezentare a culorilor şi prin ce se

deosebesc între ele?

4. Care sunt principalele cerinţe de compatibilitate impuse între sistemele de

televiziune în alb-negru şi în colori?

5. Care este efectul corecţiei de gamma asupra imaginii?

6. Ce sunt distorsiunile de apertură şi care este principiul corecţiei acestora?

7. Care sunt semnalele primare de transmisie într-un sistem de televiziune în

culori?

8. Să se reprezinte formele semnalelor primare de transmisie pentru o linie în

cazul unei imagini complet roşii, şi, respectiv, în cazul unei imagini formată din două bare

verticale, una albastră şi cealaltă mov.

9. Cum se obţine semnalul video complex de culoare şi care este criteriul de

alegere a frecvenţei subpurtătoarei semnalului de crominanţă?

10. Care sunt principiile care stau la baza funcţionării unui sistem TV în culori?

11. Cum poate fi comandat tubul cinescop tricrom în vederea refacerii imaginii?

12. Pe ţinta fotoconductoare a tubului vidicon a unei camere TV în alb-negru

(având caracteristica spectrală de forma celei prezentate cu linie întreruptă în figura 5.6)

se proiectează imaginea color din figura 5.16. Să se reprezinte la scară forma semnalului

video complex pentru linia de explorare x–x, obţinută la ieşirea camerei TV.

Fig. 4.16.

Page 101: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

R: Se are în vedere strălucirea barelor color din imagine.

13. Dacă imaginea din figura 4.16 este captată cu o cameră TV tricromă, să se

determine: a) valorile semnalelor video de la ieşirea camerei, corespunzătoare barelor ce

compun imaginea; b) să se reprezinte la scară forma semnalului de luminanţă şi a

semnalelor diferenţă de culoare de-a lungul liniei de explorare x–x.

R: a) Valorile semnalelor Y , R–Y , B–Y date în tabelul 4.2.

Page 102: Tehnici și tehnologii TV și - robotics.ucv.rorobotics.ucv.ro/carti/mtsa/current/Curs TTTvMM - Partea I.pdf · In acest caz cantitatea de informatie pe secunda este de 240 Mbytes

104