metode chemometrice
Post on 30-Jun-2015
156 Views
Preview:
TRANSCRIPT
Se dã conţinutul de etanol în vinurile Burgund obţinute prin diverse procese fermentative, la diferite perioade de timp, conform tabelului 1.
Timp (ore)
Conc. absolutã a etanolului
(mM/L)
0 4,56
12 16,78
24 17,33
36 29,89
0 7,60
12 18,32
24 23,96
36 31,20
0 4,56
12 20,15
24 26,22
36 38,17
0 4,35
12 21,34
24 26,04
36 29,67
0 4,35
12 22,67
24 27,18
36 37,15
In functie de aceste date sa se calculeze urmatoarele:
Reprezentare tip tulpinã/frunzã; Calculul median; Grafic cu puncte; IQR Histograma; Media; Deviaţia standard (SD); Varianta sistemului; Coeficient de variaţie (CV) ; Eroarea standard a mediei (SEM) ; Testul t; Regresia (scatter plot); HCA; PCA.
In Excel am folosit urmãtoarele formule:
Pt B2 am folosit urmatorul calcul : B2= INT (A2/10)
Pt C2 am folosit urmatorul calcul : C2= A2-B2*10
Rezultatul reprezentãrii este o histogramã întoarsã invers, construitã din cifre.
MEDIA ŞI CALCULUL MEDIAN
Media se calculează cu formula: ,n
XX i
57,20X
Mediana Reprezintã valoarea de mijloc a unei distribuţii, este definită drept cel mai mic număr astfel încât jumătate dintre valori să nu fie mai mari decât el. Me =22,01
Cu cât au valorile mai apropiate media şi mediana, cu atât este mai probabil că variabila este distribuită normal.
Grafic cu Puncte
0,00
5,00
10,00
15,00
20,00
25,00
30,00
35,00
40,00
45,00
0 0,2 0,4 0,6 0,8 1 1,2
co
ncen
trati
e a
bso
luta
a e
tan
olu
lui
(mM
/L)
Diagramele de tip Scatter mai sunt cunoscute şi sub numele de diagrame XY, datoritå faptului cå fiind adaptate reprezentårii fenomenelor continue, pot evidenţia relaţiile între douå fenomene dependente de acelaşi parametru.
HISTOGRAMA
O histogramă este o diagramă care rezumă distribuţia datelor.
Pornind de la o împărţire în intervale de clase, histograma este o mulţime de dreptunghiuri având ca baze intervalele de clase şi ariile proporţionale cu numărul de observaţii aparţinând intervalelor de clasă.
Ilustreaza grafic modificarile suferite in tmp, de diferitele date de reprezentant , precum si o comparatie intre anumite elemente analizate.
Se defineşte ca diferenţa dintre quartila a treia şi quartila întâia. Are semnificaţia lungimii unui interval pe care se distribuie 50% dintre observaţii.
Q0 este valoarea minimã: =QUARTILE(G:G,0) sau mai simplu =MIN(G:G),Q1 sau Q(0.25) este prima quartile sau 25% =QUARTILE(G:G,1), Q2 sau Q(0.5) este valoarea medie sau 50%=QUARTILE(G:G,2) sau
=MEDIAN(G:G), Q3 sau Q(0.75) este a treia quartilã sau: % =QUARTILE(G:G,3), Q4 este valoarea maximã =QUARTILE(G:G,4) sau mai simplu MAX(G:G). Dacã Q2-Q1 ~ Q3-Q2 distribuţia este simetricã Q2-Q1=7,5206; Q3-Q2=5,79538;
Q0 4,354354
Q1 14,4844
Q2 22,005
Q327,80038
Q4 38,17
IQR13,31598
Abatere standard (Standard Deviation – SD)
Abaterea standard a unei mulţimi de numere este rădăcina medie pătrată (RMS) a mulţimii abaterilor fiecărui element de la media mulţimii.
SD=10,82379
Daca are o valoare mica datele variaza putin in jurul mediei
Eroarea standard a mediei (SEM) Se calculează cu formula: = 2,420274n
SDSm
Coeficientul de variaţieEste o statistică relativă a dispersiei şi se foloseşte la compararea dispersiei diferitelor
variabile (caracteristici). Se calculează cu formula: Poate lua valori între 0 şi 100%.CV = = 52,607 populatia este eterogena, iar media nu este reprezentativa
100
x
SD
Analiza de regresie este, în esenţă, o metodă pentru a permite predicţii, adică să estimăm o valoare a unei variabile Y atunci când dispunem de o valoare a variabilei asociate X.
Pentru trasarea graficelor s-a folosit programul ANALISE-IT.
Dreapta de regresie obţinutã are ecuaţia: y = 1,195x – 6,591
Scatter Plot with Fit
-20
-10
0
10
20
30
40
50
60
0 10 20 30 40
conc etanol
timp
(h)
Linear f it (-6.591 +1.195x)
95% CI
95% Prediction interval
X Variable 1 Line Fit Plot
R2 = 0,8832
-50,00
0,00
50,00
100,00
150,00
200,00
0 10 20 30 40
X Variable 1
Y
Y
Predicted Y
Linear (Y)
R2= coeficientul de determinatie, ponderea din variatia lui y explicata de x
Testul ANOVAEste tot un test de comparare a mediilor, dar are avantajul ca poate compara în
acelasi timp mediile mai multor loturi.
P= 0,514771 nu se respinge H0, diferenţele sunt nesimificative la pragul de semnificaţie de 50%H0 – mediile populatiilor din care provin loturile sunt egale.
Se aplică un test t (Student) atunci când statistica testului se consideră repartizată Student. De regulă, testele t sunt utilizate pentru verificarea ipotezelor privind media populaţiei, atunci când eşantioanele sunt de dimensiuni reduse (<30) şi distribuţia populaţiei este cunoscută ca fiind aproape normală.
Aceasta metoda statistica este folosita pentru a grupa date multi-dimensionale (adica „puncte” ce reprezinta cazuri sau observatii) în grupe (clusters) definite algoritmic.
Row 2
Row 10
Row 14
Row 18
Row 5
Row 17
Row 12
Row 16
Row 13
Row 21
Row 20
Row 9
Row 11
Row 15
Row 19
Row 8
Row 3
Row 7
Row 4
Row 6
0,00 0,64
Rezultate obţinute cu ajutorul programului StatisticXLMatricea folositã:
Principal Component Plot
-1,0
-0,5
0,0
0,5
1,0
1,5
-4 -2 0 2 4
PCA 1 (50,8%)
PC
A 3
(10
,9%
)
Principal Component Plot
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
-4 -2 0 2 4
PCA 1 (50,8%)
PC
A 2
(29
,8%
)
Principal Component Plot
-1,0-0,8-0,6-0,4-0,20,00,20,40,60,81,01,2
-4 -2 0 2 4
PCA 1 (50,8%)
PC
A 4
(7,5
%)
Principal Component Plot
-1,0-0,8-0,6-0,4-0,20,00,20,40,60,81,01,2
-2 -1 0 1 2
PCA 2 (29,8%)
PC
A 4
(7,
5%)
Metoda consta în extragerea celui mai mic numar de componente care preiau cea mai mare parte a variantei datelor initiale, adica sumarizarea datelor initiale cu o pierdere minima de „informatie”.
top related