raport de cercetare -...

318
Raport de cercetare - lucrare în extenso - cuprinzând activităţile desfăşurate şi rezultatele obţinute în proiectul De la Chimia Matematică la Chimia Cuantică şi Chimia Medicală ÷ Număr proiect: ID-1051/2007; ÷ Competiţie: IDEI; ÷ Cod competiţie: PNII-PCE-2007-1; ÷ Cod program: 206/2007; ÷ Durata de desfăşurare: Octombrie 2007 - Septembrie 2010; ÷ Director de proiect: Lorentz JÄNTSCHI, conf. dr.; ÷ Contractor: Unitatea Executivă pentru Finanţarea Învăţământului Superior şi Cercetării Ştiinţifice Universitare (UEFISCSU); ÷ Contractant: Universitatea Tehnică din Cluj-Napoca (UTCN), prin reprezentanţii săi legali (Rector, Contabil Şef şi Jurist) şi subsemnatul (conf. dr. Lorentz JÄNTSCHI) în calitate de director de proiect; CUPRINS 1. Introducere .................................................................................................................................. 2 2. Scop şi obiective........................................................................................................................... 3 3. Activităţi şi rezultate ................................................................................................................... 8 4. Livrabile ................................................................................................................................... 306 5. Concluzii .................................................................................................................................. 318

Upload: vokien

Post on 06-Feb-2018

257 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Raport de cercetare - lucrare în extenso -

cuprinzând activităţile desfăşurate şi rezultatele obţinute în proiectul

De la Chimia Matematică la Chimia Cuantică şi Chimia Medicală

÷ Număr proiect: ID-1051/2007; ÷ Competiţie: IDEI; ÷ Cod competiţie: PNII-PCE-2007-1; ÷ Cod program: 206/2007; ÷ Durata de desfăşurare: Octombrie 2007 - Septembrie 2010; ÷ Director de proiect: Lorentz JÄNTSCHI, conf. dr.; ÷ Contractor: Unitatea Executivă pentru Finanţarea Învăţământului Superior şi Cercetării

Ştiinţifice Universitare (UEFISCSU); ÷ Contractant: Universitatea Tehnică din Cluj-Napoca (UTCN), prin reprezentanţii săi legali

(Rector, Contabil Şef şi Jurist) şi subsemnatul (conf. dr. Lorentz JÄNTSCHI) în calitate de director de proiect;

CUPRINS 1. Introducere .................................................................................................................................. 2 2. Scop şi obiective........................................................................................................................... 3 3. Activităţi şi rezultate................................................................................................................... 8 4. Livrabile................................................................................................................................... 306 5. Concluzii .................................................................................................................................. 318

Page 2: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

1. Introducere

Activităţile de cercetare prevăzute a se desfăşura la începutul proiectului (la faza de contractare) au suferit modificări pe parcursul derulării proiectului, şi au constituit obiectul unui şir de acte adiţionale consemnate între contractor (UEFISCSU) şi contractant (UTCN). Modificările suferite au avut ca obiect obiectivele, activităţile, livrabilele (cumulând rezultatele minimale aşteptate) cât şi sumele contractate pentru acestea. În forma sa finală (în urma modificărilor aduse) - şi finalizată a proiectului de cercetare - planul de activităţi este prezentat în tabelul următor (Tabelul 1).

Tabelul 1. Plan de realizare: Ani-Obiective-Activităţi-Livrabile Ani Obiective Activităţi Livrabile2007 Actualizare 1. Planificarea activităţilor experimentale; derularea experimentelor demonstrative (de

testare a metodelor de analiză) Site web

documentare proiect la nivelul 2. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi

dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate)

1 BDI anului 2007 1 ISI Management cunoştinţe 3. Selectare (abstracts), colectare (full text) informaţii private (pay per view), din publicaţii

Elsevier & Springer 4. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi

dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate)

5. Selectare (abstracts), colectare (full text) informaţii private (pay per view), din publicaţii Taylor&Francis & Wiley&Sons

6. Identificarea surselor de date şi metodologiilor de colectare (eşantionare, criterii de includere şi excludere în studiu), şi de experimentare

2008 Management 1. Identificarea metodelor de analiză 2 BDI cunoştinţe 2. Analiza rezultatelor obţinute şi interpretarea rezultatelor 1 ISI Management 3. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi

dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate)

resurse materiale Management 4. Stabilirea necesarelor de materiale şi consumabile, identificarea furnizorilor şi

condiţiilor de procurare, întocmirea documentaţiilor de procurare, derularea licitaţiilor pentru achiziţii

informaţie

5. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate)

6. Planificarea activităţilor experimentale; derularea experimentelor demonstrative (de testare a metodelor de analiză)

7. Proiectarea şi crearea bazelor de date pentru managementul cercetării şi a rezultatelor cercetării

8. Completarea bazelor de date cu cunoştinţele provenite din documentare şi actualizare documentare (O1/2007) şi respectiv managementul cunoştinţelor (O2/2007)

9. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate)

2009 Management 1. Crearea aplicaţiilor pentru interogarea bazei de date pentru managementul cercetării 2 BDI informaţie 2. Construirea modelelor moleculare (chimie cuantică) 1 ISI Partea 3. Colectarea informaţiei medicale de activitate terapeutică (chimie medicală) experimentală 4. Construirea modelelor Structură - Activitate folosind instrumentele specifice dezvoltate Integrarea 5. Obţinerea relaţiilor (semi)Cantitative Structură-Activitate, sQSARs cunoştinţelor 6. Validarea modelelor (TvT - Training versus Test, cv-loo - cross validation leave-one-

out, CCA - Correlated Correlations Analysis) 2010 "Drug 1. Aplicarea procedurilor QSAR şi colectarea informaţiei 2 BDI

Design" 2. Construirea librăriilor de compuşi chimici virtuali (chimie combinatorială) Realizarea 3. Interogarea bazelor de date internaţionale (Cambridge SDb, Protein Db, Visual Mol.

Dyn., MMDB - Mol. Mod. Db, PubChem Comp., PubChem Subst.), colectare informaţii, elaborarea modelelor moleculare compuşi virtuali (chimie computaţională)

spaţiului virtual Valorificarea 4. Obţinerea (Q)SRR, (Q)SPR, (Q)PAR, şi (Q)AAR (chimie farmaceutică) şi transferul 5. Construirea bazei de date cu cunoştinţe Compus chimic - Model cuantic 3D -

Descriptori moleculari - Proprietăţi fizico-bio-chimice - Activităţi terapeutice cercetării 6. Proiectarea portalului web, Implementarea algoritmilor de interogare, Publicarea

portalului web

2 ISI

2

Page 3: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

2. Scop şi obiective Scopul proiectului "De la chimia matematică la chimia cuantică şi chimia medicală" a fost integrarea de cunoştinţe specifice domeniului chimie matematică (şi anume elementele şi noţiunile de topologie moleculară) cu noţiunile de chimie cuantică (şi anume elementele şi noţiunile de modelare moleculară) având ca destinaţie realizarea de instrumente specifice chimiei medicale (şi anume relaţii cantitative între structura şi activitatea biologică de interes medical a seriilor de compuşi chimici). Pentru atingerea acestui scop s-au stabilit, urmărit şi atins o serie de obiective detaliate în continuare: ÷ Actualizare documentare la nivelul anului 2007

o Pornind de la faptul că evoluţia conceptelor specifice domeniilor de frontieră (cum este cazul celor 3 domenii de frontieră în cadrul cărora proiectul se situează - chimie matematică, chimie cuantică şi chimie medicală) se realizează rapid, şi cu atât mai mult dacă este implicată şi puterea de calcul - fiind cazul pentru toate cele trei domenii - chimia matematică necesitând calcule complexe, chimia cuantică necesitând atât calcule complexe cât şi volum mare de date de intrare, iar chimia medicală operând cu volum mare de date de intrare - necesitatea actualizării documentării la începutul şi pe parcursul desfăşurării proiectelor este şi a fost o necesitate;

o Actualizarea documentării s-a realizat prin accesul la baze de date de specialitate cuprinzând lucrări reprezentative specifice domeniilor vizate, acces care a fost realizat parte în instituţia gazdă (a directorului de proiect) pentru acele baze de date şi pentru acele perioade de timp la care accesul a fost posibil prin agrementurile instituţionale în care instituţia gazdă a fost parte, în parte în instituţia parteneră - UMF Cluj-Napoca prin coinvestigator Dr. Med. S. D. Bolboacă - membru al echipei de cercetare, şi ultima parte - prin accesul la bazele de date în instituţiile în care s-a participat la şcoli de vară, simpozioane, cursuri intensive, conferinţe, ş.a.m.d. prevăzute şi desfăşurate ca activităţi în cadrul proiectului de fată; bazele de date folosite în documentare au fost (în principal): ScienceDirect (Elsevier), SpringerLink (Springer), InterScience (Wiley-Blackwell), BenthamDirect (Bentham), JSTOR (ITHAKA).

÷ Management cunoştinţe o Analiza literaturii de specialitate a avut menirea de a oferi acele noţiunile specifice

cu ajutorul cărora scopul proiectului să fie atins; obiectivul managementul cunoştinţelor a vizat obţinerea principiilor cu ajutorul cărora să se realizeze organizarea şi sistematizarea cunoştinţelor, pe baza instrumentelor şi mijloacelor care au stat la baza obţinerii acestora, cu referire directă la criteriile de includere în studiu şi/sau excludere din studiu folosite în studiile colectate, modalităţile în care s-a realizat eşantionarea, tipul de experiment ştiinţific folosit şi designul experimental;

o Activităţile aferente obiectivului Management cunoştinţe au permis: stabilirea următoarelor principii şi clasificatori pentru acestea: Propoziţii,

ipoteze; Presupunerile ce trebuiesc făcute; Identificarea variabilei (variabilelor) dependente (sunt datele de ieşire, rezultate); Identificarea variabilelor independente (sunt datele de intrare care luate împreună formează spaţiul experimental); Care din variabilele independente pot fi controlate; Caracterul populaţiei; Talia populaţiei; Costul şi resursele necesare (umane, materiale, etc.) pentru observare; Obiectivele propuse; Tipul studiului; Modalităţile de alegere a obiectului de studiu; Timpul necesar; Resursele financiare şi umane implicate; Procedura folosită; Accesul la date; Designul experimentului (Analiză factorială completă - Fisher, metodă ortogonală - Taguchi, etc);

3

Page 4: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

obţinerea surselor de date care pot şi au fost folosite ulterior drept sursă primară de informaţie în ceea ce priveşte structura şi proprietăţile compuşilor chimici în asociere cu denumirea şi activităţile biologice ale acestora:

• Cambridge Structural Database o www.ccdc.cam.ac.uk/products/csd/;

• Protein Data Bank o www.pdb.org/;

• Visual Molecular Dynamics o www.ks.uiuc.edu/Research/vmd/;

• Molecular Modeling DataBase o http://130.14.29.110/Structure/MMDB/mmdb.shtml;

• PubChem Compounds o www.ncbi.nlm.nih.gov/pccompound;

• PubChem Substance o www.ncbi.nlm.nih.gov/sites/entrez?db=pcsubstance

identificarea metodelor de analiză în specificul Chimie matematică cu referire directă la fundamentele ştiinţifice ale acestui domeniu de preocupări - structura chimică ca un graf matematic, analiza structurii depletizate de atomii de hidrogen, graful molecular şi proprietăţi matematice stabilite pe baza acestuia, aplicaţiile topologiei moleculare în clasificarea şi caracterizarea compuşilor chimici;

identificarea metodelor de analiză în specificul Chimie cuantică cu referire directă la mecanica funcţiilor orbitale, modelele de aproximare, diferitele nivele de teorie a aproximării stării staţionare pentru atomii cu mai mulţi electroni şi pentru moleculele cu mai mulţi atomi;

identificarea metodelor de analiză în specificul Chimie medicală cu referire directă la relaţiile naturale care se stabilesc între structura şi proprietăţile substanţelor şi compuşilor chimici, modalităţile de observare şi experiment asupra acestor relaţii, şi informaţiile pe care relaţiile stabilite le aduc în caracterizarea compuşilor, proprietăţilor şi activităţilor cuprinse în relaţii;

÷ Management resurse materiale o Pornind de la o serie de principii cum sunt costul achiziţiei, eficienţa în utilizare

corelată cu costul de întreţinere şi importanţă a rezultatelor obţinute din exploatare, toate acestea în relaţie directă cu sfera de aplicabilitate în tematica proiectului s-au stabilit şi achiziţionat o serie de echipamente;

o Echipamentele achiziţionate şi rolul acestora în derularea proiectului a fost: Fluorometru - pentru analize în soluţie; Spectrofotometru - pentru analize de solide; Staţii meteo - pentru monitorizarea condiţiilor de experimentare şi a

parametrilor de mediu; Calculatoare tip Laptop - pentru a fi folosite împreună cu spectrofotometrul

(care este portabil) la analize "in situ"; Panouri fotovoltaice, acumulatori, regulator de încărcare, afişaj regulator,

invertor - cu ajutorul cărora s-a realizat un sistem energetic portabil autonom - pentru a fi folosit să se efectueze acele analize chimice instrumentale la care accesul la alte surse de tensiune nu este posibil (analiza "in situ" de soluri contaminate cu poluanţi chimici);

Sisteme de măsură şi transmisie a datelor (senzori de umiditate şi temperatură, repetitoare şi antene de transmisie);

Calculatoare tip server (pentru gestiunea bazelor de date) şi tip staţie (pentru analiza datelor);

Cărţi în problematica algoritmilor genetici - identificată drept soluţie de

4

Page 5: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

abordare integrată în căutarea relaţiilor structură-activitate; ÷ Management informaţie

o În dezvoltarea "top-down" (de sus în jos) Managementul informaţiei este următorul nivel de analiză şi a referit informaţiile acumulate prin parcurgerea activităţilor specifice atingerii obiectivelor de Actualizare documentare, Management cunoştinţe şi Management resurse materiale;

o Dacă Managementul cunoştinţelor sub eticheta cunoştinţe a referit piese complexe de informaţie de naturi diferite (de la modalitatea de experimentare şi colectare a datelor la tipul de date obţinute) managementul informaţiei referă informaţii cu structură bine definită (activitate biologică de interes, clasă de compuşi chimici cu potenţă biologică, structură la nivel topologic, structură la nivel geometric, descriptori moleculari, ecuaţii structură-activitate, analiză statistică; finalitatea managementului informaţiei a fost structura tabelelor ce stochează cunoştinţele şi rezultatele cercetării;

÷ Partea experimentală o Faza imediat următoare definirii structurii tabelelor ce stochează cunoştinţele şi

rezultatele cercetării are ca obiect realizarea aplicaţiilor care să permită operarea cu acestea; în fapt această fază se constituie într-un întreg ciclu de viaţă - creare şi utilizare de aplicaţii care operează cu cunoştinţele şi rezultatele cercetării;

o O serie de activităţi au fost derulate pentru a atinge acest obiectiv; a fost ales un set de date "şcoală" - suficient de simple pentru a permite dezvoltarea primei generaţii a aplicaţiilor astfel încât crearea şi utilizarea acestor informaţii să se facă în timpi rezonabili de calcul şi în acelaşi timp suficient de complexe pentru ca elementele esenţiale aşteptate de la aceste aplicaţii să se regăsească în structura naturală a datelor analizate; în acest sens a fost ales drept set de date "şcoală" un set de 31 de aminoacizi având ca proprietate observată punctul de topire; a fost parcurs un ciclu de viaţă în dezvoltarea aplicaţiilor care operează cu cunoştinţele şi rezultatele cercetării - proiectare, realizare, testare, modificare - ciclu de viaţă care a avut ca finalitate aplicaţii pentru obţinerea (procesarea) şi apoi stocarea cunoştinţelor cercetării, aplicaţii pentru obţinerea (procesarea) şi apoi stocarea rezultatelor cercetării, aplicaţii pentru analiza de validitate a rezultatelor cercetării; aplicaţii pentru interogarea şi vizualizarea cunoştinţelor şi rezultatelor cercetării; o altă componentă a părţii experimentale a constituit-o colectarea şi validarea pentru diferite seturi de compuşi chimici de interes a informaţiei medicale de natură terapeutică, folosind în acest sens sursele de date identificate, literatura de specialitate colectată şi aparatura experimentală achiziţionată;

÷ Integrarea cunoştinţelor o Cunoştinţele de natură chimică cuprinzând aspectul structurii topologice (şi

informaţiile aferente în specificul chimie matematică), aspectul structurii geometrice (şi informaţiile aferente în specificul chimie cuantică) cu cunoştinţele de natură medicală (cuprinzând aspectul potenţei biologice ale unui set de compuşi de interes) se integrează prin intermediul relaţiilor care se obţin între structura şi activitatea compuşilor;

o Obţinerea de relaţii structură-activitate pe o serie de compuşi şi analiza de detaliu a efectului pe care îl au diferite opţiuni de căutare a relaţiei optimale asupra evoluţiei către obiectivul de optimizare a relaţiei structură-activitate au asigurat atingerea obiectivului de integrare a cunoştinţelor;

÷ "Drug Design" o Seturile de compuşi chimici selectate, colectate şi validate în partea experimentală au

constituit materialul cercetării pentru atingerea obiectivului "drug design"; o Au fost raţionalizate prin aplicarea procedurilor QSAR şi colectarea informaţiei

implicând elaborarea modelelor moleculare şi construirea librăriilor de compuşi

5

Page 6: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

chimici virtuali un număr de 12 seturi de compuşi chimici de interes ce posedă potenţă biologică - în total peste 1000 de compuşi chimici, rezultatul raţionalizării aflându-se stocat în baza de date MDFV construită în acest sens (are 21.5 Gb la data de 26 Sept 2010);

÷ Realizarea spaţiului virtual o Spaţiul virtual de la chimia matematică la chimia cuantică şi la chimia medicală

oferă soluţii pe întreg parcursul traseului de la structura compuşilor chimici la potenţa biologică a acestora şi la relaţia care se stabileşte între acestea;

o Spaţiul virtual realizat cuprinde: Bazele de date MDF şi MDFV - stocate pe un server FreeBSD cu suport

MySQL Server din intranet (IP: 172.27.211.4) fiind distinctă de restul aplicaţiilor, soluţie de stocare aleasă pentru o serie de motive, dintre care descongestionarea reţelei, separarea spaţiului de stocare de unităţile de procesare, securitatea şi protecţia de exterior (Internet), nefiind necesar accesul "de la distanţă" la acestea;

Programele de calcul MDF şi MDFV - aplicaţii PHP stocate şi executate de pe un server FreeBSD cu suport MySQL Client din intranet (IP: 172.27.211.5) a căror misiune este calcularea familiei de descriptori şi astfel realizarea bazei de cunoştinţe aferentă unui set de compuşi pentru care se posedă o proprietate sau activitate biologică de interes; aceeaşi sumă de motive ca în cazul bazelor de date a făcut ca aceste aplicaţii să fie stocate şi executate în intranet;

Programele de analiză (analiza de regresie simplă, multiplă, multiplă perechi, programul evolutiv) preiau datele din baza de date în raport cu specificaţiile de intrare - set, proprietate, tip de regresie căutată - şi sunt aplicaţii client-server implementate în limbajul FreePascal şi compilate sub formă de binare executabile sub platformă Windows, efectuează căutarea relaţiilor structură-activitate folosind algoritmi de căutare de la cei clasici de tipul "fiecare cu fiecare", la generaţii hibride de tipul "fiecare cu fiecare în perechi de fiecare" şi până la generaţii euristice din care face parte algoritmul genetic implementat; oricare din aceste aplicaţii se execută pe orice calculator pe care este instalat MS Windows care este conectat la reţeaua intranet şi imediat obţinute relaţiile structură-activitate sunt salvate prin intermediul conexiunii pe server în baza de date MDF sau MDFV după caz; aceste aplicaţii sunt aplicaţii consumatoare de timp (o analiză poate dura două săptămâni) şi de resurse (o analiză poate consuma până la 2G de memorie internă), motiv pentru care soluţia de implementare a fost aleasă FreePascal, codul generat fiind cod binar optimizat (pe 3 nivele de optimizare de cod) iar execuţia fiind aproape de maxim posibil în ceea ce priveşte viteza de execuţie;

Programele de validare statistică (http://l.academicdirect.org/Statistics) şi de interogare a rezultatelor (http://l.academicdirect.org/Chemistry/SARs) sunt stocate pe un calculator accesibil pe Internet (IP: 193.226.7.203) care se conectează prin intermediul porţii (IP: 193.226.7.211) la reţeaua intranet (172.27.211.1) şi apoi la bazele de date MDF şi MDFV, au ca scop analiza şi prezentarea rezultatelor;

÷ Valorificarea şi transferul cercetării o Finalitatea proiectului "De la chimia matematică la chimia cuantică şi la chimia

medicală" o reprezintă transferul cercetării către acele domenii din care şi către care se îndreaptă;

o O serie de aplicaţii având ca scop valorificarea şi transferul cercetării către "Drug Design" au fost create; astfel:

http://l.academicdirect.ro/Chemistry/SARs/MDFV/?set=sulfon18&pdb=s001

6

Page 7: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

• cu acces parţial restricţionat; necesită instalarea aplicaţiei "MDLChime" - versiunea 2.6 disponibilă gratuit (căutare după "MDLChime26SP7.exe"); permite vizualizarea tridimensională a structurii moleculare folosind doar Internet Explorer (v. figura de mai jos);

http://l.academicdirect.org/Chemistry/SARs/MDF_SARs/k_browse_or_quer

y.php?database=MDFSARs • cu acces liber; oferă modelul structură-activitate în abordarea MDF,

ecuaţia de regresie (secvenţa "Browse") şi analiza acesteia (secvenţa "Query");

http://l.academicdirect.ro/Chemistry/SARs/MDFV/?set=sulfon18&property=

logKI&id=1&lori=descriptive_statistics • cu acces parţial restricţionat; oferă modelul structură-activitate în

abordarea MDFV, ecuaţia de regresie şi analiza descriptivă a acesteia;

7

Page 8: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

3. Activităţi şi rezultate ÷ 2007A1. Planificarea activităţilor experimentale; derularea experimentelor demonstrative (de

testare a metodelor de analiză) ÷ 2007A2. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri)

şi dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate) ÷ 2007A3. Selectare (abstracts), colectare (full text) informaţii private (pay per view), din

publicaţii Elsevier & Springer ÷ 2007A4. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri)

şi dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate) ÷ 2007A5. Selectare (abstracts), colectare (full text) informaţii private (pay per view), din

publicaţii Taylor&Francis & Wiley&Sons ÷ 2007A6. Identificarea surselor de date şi metodologiilor de colectare (eşantionare, criterii de

includere şi excludere în studiu), şi de experimentare ÷ 2008A1. Identificarea metodelor de analiză ÷ 2008A2. Analiza rezultatelor obţinute şi interpretarea rezultatelor ÷ 2008A3. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri)

şi dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate) ÷ 2008A4. Stabilirea necesarelor de materiale şi consumabile, identificarea furnizorilor şi

condiţiilor de procurare, întocmirea documentaţiilor de procurare, derularea licitaţiilor pentru achiziţii

÷ 2008A5. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate)

÷ 2008A6. Planificarea activităţilor experimentale; derularea experimentelor demonstrative (de testare a metodelor de analiză)

÷ 2008A7. Proiectarea şi crearea bazelor de date pentru managementul cercetării şi a rezultatelor cercetării

÷ 2008A8. Completarea bazelor de date cu cunoştinţele provenite din documentare şi actualizare documentare (O1/2007) şi respectiv managementul cunoştinţelor (O2/2007)

÷ 2008A9. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate)

÷ 2009A1. Crearea aplicaţiilor pentru interogarea bazei de date pentru managementul cercetării ÷ 2009A2. Construirea modelelor moleculare (chimie cuantică) ÷ 2009A3. Colectarea informaţiei medicale de activitate terapeutică (chimie medicală) ÷ 2009A4. Construirea modelelor Structură - Activitate folosind instrumentele specifice

dezvoltate ÷ 2009A5. Obţinerea relaţiilor (semi)Cantitative Structură-Activitate, sQSARs ÷ 2009A6. Validarea modelelor (TvT - Training versus Test, cv-loo - cross validation leave-one-

out, CCA - Correlated Correlations Analysis) ÷ 2010A1. Aplicarea procedurilor QSAR şi colectarea informaţiei ÷ 2010A2. Construirea librăriilor de compuşi chimici virtuali (chimie combinatorială) ÷ 2010A3. Interogarea bazelor de date internaţionale (Cambridge SDb, Protein Db, Visual Mol.

Dyn., MMDB - Mol. Mod. Db, PubChem Comp., PubChem Subst.), colectare informaţii, elaborarea modelelor moleculare compuşi virtuali (chimie computaţională)

÷ 2010A4. Obţinerea (Q)SRR, (Q)SPR, (Q)PAR, şi (Q)AAR (chimie farmaceutică) ÷ 2010A5. Construirea bazei de date cu cunoştinţe Compus chimic - Model cuantic 3D -

Descriptori moleculari - Proprietăţi fizico-bio-chimice - Activităţi terapeutice ÷ 2010A6. Proiectarea portalului web, Implementarea algoritmilor de interogare, Publicarea

portalului web

8

Page 9: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

2007A1. Planificarea activităţilor experimentale; derularea experimentelor demonstrative (de testare a metodelor de analiză)

Activităţile experimentale planificate au fost: ÷ Testarea metodelor de regresie simplă ÷ Testarea metodei de regresie multiplă ÷ Testarea metodei de identificare a dependenţei liniare ÷ Testarea metodei de predicţie bazată pe regresie Testarea metodelor de regresie simplă Au fost implementate module online pentru analiza de regresie simplă capitalizând cunoştinţele dintr-o serie de studii anterior derulate având ca subiect formularea de modele (Sârbu & Jäntschi, 1998; Naşcu & others, 1999; Jäntschi, 2002-FSD1; Jäntschi, 2002-ASSP), şi verificarea modelelor într-o serie de studii de regresie (Jäntschi, 2002-TRPI; Jäntschi, 2002-ACRA; Jäntschi & Diudea, 2003-DM1; Stoenoiu & others, 2007-CMST; Tăut & others, 2007-MMCP; Jäntschi & Bolboacă, 2007-JLRR) care au avut ca finalitate elaborarea modelelor de calcul în versiunea "release" a aplicaţiilor de regresie dezvoltate. Aceste module sunt înglobate în mai multe aplicaţii dezvoltate, una dintre acestea fiind disponibilă la adresa:

http://l.academicdirect.org/Statistics/regression_models/. Datele următoare au fost folosite pentru testarea metodelor de regresie simplă:

Valorile numerice reprezentate în graficul de mai sus sunt: Nr X Y 7 1.16 0.71 14 1.44 0.8 21 1.61 0.82 28 1.97 0.951 0.72 0.46 8 1.22 0.75 15 1.44 0.85 22 1.69 0.82 29 2.02 0.952 0.92 0.61 9 1.27 0.73 16 1.46 0.81 23 1.8 0.85 30 2.11 1 3 1 0.62 10 1.28 0.74 17 1.51 0.77 24 1.86 0.96 31 2.28 0.834 1 0.65 11 1.33 0.8 18 1.57 0.9 25 1.91 0.96 32 2.91 0.935 1.02 0.63 12 1.34 0.75 19 1.58 0.79 26 1.95 1 6 1.14 0.68 13 1.42 0.79 20 1.58 0.87 27 1.97 0.82

Următorul tabel centralizează rezultatele obţinute la testarea metodelor de regresie simplă:

Nr Metoda Varianta Ecuaţia Formula de calcul Analiza de regresie1 liniară 1 Y=aX a = M(Y)/M(X) a = 0.517

MSE = 0.146 MSE2 = 0.0213 r = 0.833 r2 = 0.694

(Y-aX)2 = min 2 liniară 2 Y=aX a = 0.495 MSE = 0.142 MSE2 = 0.0201 r = 0.833 r2 = 0.694

(X-Y/a)2 = min 3 liniară 3 Y=aX a = 0.511

9

Page 10: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

MSE = 0.144 MSE2 = 0.0207 r = 0.833 r2 = 0.694

a = √M(Y2)/M(X2) 4 liniară 4 Y=aX a = 0.503 MSE = 0.142 MSE2 = 0.0202 r = 0.833 r2 = 0.694

(aX/b-Y/b+1)2 = min

5 liniară 5 Y=aX+b a = 0.580 b = 0.149 MSE = 0.078 MSE2 = 0.0061 r = 0.833 r2 = 0.694

(Y-aX-b)2 = min 6 liniară 6 Y=aX+b a = 0.445 b = 0.229 MSE = 0.068 MSE2 = 0.0047 r = 0.833 r2 = 0.694

(X-Y/a+b/a)2 = min 7 liniară 7 Y=aX+b a = 0.289 b = 14.198 MSE = 22.34 MSE2 = 449 r = 0.833 r2 = 0.694

a = √M(Y2)/M(X2) 8 liniară 8 Y=aX+b a = 0.374 b= M(Y)-aM(X) b = 0.275

MSE = 0.071 MSE2 = 0.0051 r = 0.833 r2 = 0.694

9 hiperbolică 1 (X+a)(Y+b)-c=0 a, b şi c după a = -1336 formulele de mai jos b = 1410

c = -1112 MSE = 0.378 MSE2 = 0.1425 r = 0.833 r2 = 0.694

C(X,Y) M(XY) M(X)M(Y)= − c ab aM(Y) bM(X) M(XY), + + + =

( )( )

2 2

2 2

M(XY)C(X,XY) M(X )C(Y,XY) M(X)M(Y) M(XY ) M(X Y)a

M(Y )C(X,X) M(XY)C(X,Y) M(X)M(Y) M(XY) M(X )

− + −=

− + −

2

( )( )

2 2

2 2

M(XY)C(Y,XY) M(Y )C(X,XY) M(X)M(Y) M(X Y) M(XY )b

M(Y )C(X,X) M(XY)C(X,Y) M(X)M(Y) M(XY) M(X )

− + −=

− + −

2

Y=a+bX-1 (X(Y-a)-b)2 = min 10 hiperbolică 2 a = 0.855 b = -0.038 MSE = 0.119 MSE2 = 0.0142 r = 0.923

10

Page 11: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

r2 = 0.852 Y-1=a+bX-1 (Y-1-a-bX-1)2 = min 11 hiperbolică 3 a = -24.37

b = 40.237 MSE = 0.766 MSE2 = 0.586 r = -0.781 r2 = 0.610

Testarea metodei de regresie multiplă Au fost implementate module online pentru analiza de regresie multiplă capitalizând cunoştinţele dintr-o serie de studii anterior derulate având ca subiect verificarea modelelor într-o serie de studii de regresie (Jäntschi & Pică, 2003-CASS; Pică & Jäntschi, 2003-CSC1; Pică & Jäntschi, 2003-CSC2) şi formularea de rutine automate de calcul (Jäntschi, 2004-DCS), şi care au avut ca finalitate elaborarea modelelor de calcul în versiunea "release" a aplicaţiilor de regresie dezvoltate. Aceste module sunt înglobate în mai multe aplicaţii dezvoltate, una dintre acestea fiind disponibilă la adresa: http://l.academicdirect.ro/Statistics/multi_regression/. Datele următoare au fost folosite pentru testarea metodelor de regresie multiplă:

11

Valorile numerice reprezentate în graficul de mai sus sunt:

Mol ISDmsHt lADrtHg Y PCB001 151.28 -2.4129 0.0997 PCB002 150.54 -2.4752 0.1544 PCB003 150.89 -2.4799 0.1937 PCB004 147.93 -2.5878 0.2245 PCB005 148.27 -2.6449 0.2785 PCB006 146.92 -2.6610 0.2709 PCB007 147.28 -2.6499 0.2566 PCB008 147.40 -2.6659 0.2783 PCB009 146.92 -2.6638 0.257 PCB010 147.93 -2.5976 0.2243 PCB011 146.28 -2.7289 0.3238 PCB012 147.99 -2.7018 0.3298 PCB013 146.55 -2.7348 0.3315

PCB014 146.17 -2.7028 0.2373 PCB015 146.95 -2.7398 0.3387 PCB016 144.84 -2.8090 0.3625 PCB017 143.95 -2.8148 0.3398 PCB018 143.92 -2.8046 0.3378 PCB019 144.45 -2.7588 0.3045 PCB020 143.94 -2.8881 0.417 PCB021 145.59 -2.8521 0.4135 PCB022 144.33 -2.8943 0.4267 PCB023 144.26 -2.8423 0.377 PCB024 144.98 -2.7928 0.3508 PCB025 142.85 -2.8941 0.3937 PCB026 143.03 -2.8787 0.3911 PCB027 143.20 -2.8355 0.3521

120

135

150

-3.40

-2.40

0

1

Page 12: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

12

PCB028 143.38 -2.8993 0.4031 PCB029 144.72 -2.8430 0.382 PCB030 143.55 -2.8075 0.3165 PCB031 143.43 -2.8846 0.4094 PCB032 143.81 -2.8378 0.3636 PCB033 144.41 -2.8783 0.4163 PCB034 142.48 -2.8821 0.3782 PCB035 143.67 -2.9513 0.4738 PCB036 141.95 -2.9517 0.4375 PCB037 143.98 -2.9575 0.4858 PCB038 144.95 -2.9018 0.5102 PCB039 142.13 -2.9587 0.4488 PCB040 141.79 -3.0255 0.5102 PCB041 142.20 -3.0078 0.499 PCB042 140.81 -3.0324 0.487 PCB043 140.74 -3.0015 0.4587 PCB044 140.86 -3.0208 0.4832 PCB045 141.71 -2.9477 0.4334 PCB046 141.30 -2.9745 0.445 PCB047 139.96 -3.0381 0.4639 PCB048 141.30 -3.0027 0.4651 PCB049 139.89 -3.0274 0.461 PCB050 140.38 -2.9636 0.4007PCB051 140.51 -2.9777 0.4242 PCB052 139.93 -3.0156 0.4557 PCB053 140.35 -2.9670 0.4187 PCB054 141.12 -2.9114 0.38 PCB055 141.20 -3.0914 0.5562 PCB056 141.37 -3.1016 0.5676 PCB057 139.95 -3.0800 0.5515 PCB058 139.53 -3.1049 0.5267 PCB059 140.56 -3.0287 0.486 PCB060 141.20 -3.0914 0.5676 PCB061 142.89 -3.0272 0.5331 PCB062 142.20 -2.9831 0.4685 PCB063 140.25 -3.0872 0.529 PCB064 141.08 -3.0320 0.4999 PCB065 142.20 -2.9716 0.4671 PCB066 140.33 -3.1075 0.5447 PCB067 140.32 -3.0814 0.5214 PCB068 138.35 -3.1119 0.504 PCB069 139.06 -3.0453 0.451 PCB070 140.46 -3.0913 0.5407 PCB071 140.74 -3.0447 0.4989 PCB072 138.61 -3.0945 0.4984 PCB073 138.69 -3.0486 0.4554 PCB074 140.76 -3.0875 0.5341 PCB075 139.70 -3.0475 0.4643 PCB076 141.30 -3.0730 0.5408 PCB077 141.04 -3.1696 0.6295

PCB078 140.67 -3.1465 0.6024 PCB079 139.28 -3.1702 0.5894 PCB080 137.65 -3.1697 0.5464 PCB081 140.89 -3.1536 0.6149 PCB082 139.09 -3.2205 0.6453 PCB083 137.72 -3.2131 0.6029 PCB084 138.58 -3.1580 0.5744 PCB085 138.15 -3.2273 0.6224 PCB086 139.42 -3.1790 0.6105 PCB087 138.16 -3.2153 0.6175 PCB088 138.96 -3.1307 0.5486 PCB089 138.70 -3.1661 0.5779 PCB090 136.66 -3.2207 0.5814 PCB091 137.71 -3.1622 0.5549 PCB092 136.78 -3.2077 0.5742 PCB093 138.85 -3.1224 0.5437 PCB094 137.12 -3.1594 0.5331 PCB095 137.63 -3.1503 0.5464 PCB096 138.30 -3.0959 0.5057 PCB097 138.19 -3.2151 0.61 PCB098 137.18 -3.1758 0.5415 PCB099 137.26 -3.2215 0.588 PCB100 136.43 -3.1787 0.5212 PCB101 137.26 -3.2094 0.5816 PCB102 137.78 -3.1579 0.5431 PCB103 136.24 -3.1675 0.5142 PCB104 137.08 -3.1084 0.4757 PCB105 138.61 -3.3010 0.7049 PCB106 138.53 -3.2612 0.668 PCB107 137.32 -3.2890 0.6628 PCB108 136.74 -3.3048 0.6626 PCB109 137.73 -3.2154 0.6016 PCB110 138.04 -3.2333 0.6314 PCB111 135.57 -3.2916 0.6183 PCB112 137.81 -3.2023 0.5986 PCB113 136.08 -3.2367 0.5862 PCB114 138.87 -3.2683 0.6828 PCB115 138.28 -3.2186 0.6171 PCB116 140.69 -3.1448 0.6132 PCB117 138.24 -3.2065 0.615 PCB118 137.73 -3.2900 0.6693 PCB119 136.58 -3.2505 0.5968 PCB120 135.85 -3.2936 0.6256 PCB121 134.49 -3.2550 0.5518 PCB122 138.29 -3.2921 0.6871 PCB123 137.16 -3.2988 0.6658 PCB124 137.38 -3.2808 0.6584 PCB125 137.56 -3.2324 0.6142 PCB126 137.98 -3.3609 0.7512 PCB127 136.31 -3.3607 0.7078

Page 13: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

13

PCB128 136.38 -3.4116 0.7761 PCB129 136.34 -3.3870 0.7501 PCB130 134.97 -3.4039 0.7184 PCB131 135.78 -3.3375 0.6853 PCB132 135.93 -3.3453 0.7035 PCB133 133.67 -3.3952 0.6871 PCB134 135.77 -3.3282 0.6796 PCB135 134.43 -3.3376 0.6563 PCB136 135.51 -3.2748 0.6257 PCB137 135.48 -3.4055 0.7329 PCB138 135.48 -3.4055 0.7403 PCB139 134.95 -3.3413 0.6707 PCB140 134.57 -3.3634 0.6707 PCB141 135.40 -3.3811 0.72 PCB142 137.38 -3.2892 0.6848 PCB143 135.84 -3.3307 0.6789 PCB144 134.83 -3.3291 0.6563 PCB145 135.58 -3.2721 0.6149 PCB146 134.06 -3.3977 0.6955 PCB147 134.81 -3.3329 0.6608 PCB148 132.95 -3.3566 0.6243 PCB149 135.00 -3.3367 0.6672 PCB150 134.21 -3.2887 0.5969 PCB151 134.81 -3.3196 0.6499 PCB152 135.38 -3.2630 0.6062 PCB153 134.57 -3.3990 0.7036 PCB154 133.65 -3.3544 0.6349 PCB155 133.03 -3.3014 0.5666 PCB156 135.88 -3.4662 0.8105 PCB157 135.48 -3.4879 0.8184 PCB158 135.19 -3.4161 0.7429 PCB159 134.09 -3.4692 0.7655 PCB160 136.25 -3.3722 0.7396 PCB161 133.20 -3.4200 0.6968 PCB162 134.27 -3.4743 0.7737 PCB163 135.23 -3.4027 0.7396 PCB164 134.89 -3.4161 0.7399 PCB165 133.36 -3.4053 0.692 PCB166 136.72 -3.3762 0.7572 PCB167 134.60 -3.4758 0.7814 PCB168 133.35 -3.4347 0.7068 PCB169 134.95 -3.5475 0.8625 PCB170 133.57 -3.5738 0.874 PCB171 133.12 -3.5207 0.8089 PCB172 132.24 -3.5650 0.8278 PCB173 134.24 -3.4918 0.8152 PCB174 133.10 -3.5046 0.7965 PCB175 131.58 -3.5130 0.7611 PCB176 132.74 -3.4468 0.7305 PCB177 133.06 -3.5114 0.8031

PCB178 131.64 -3.5024 0.7537 PCB179 132.62 -3.4369 0.7205 PCB180 132.66 -3.5670 0.8362 PCB181 133.32 -3.4960 0.7968 PCB182 131.66 -3.5238 0.7653 PCB183 132.19 -3.5115 0.772 PCB184 131.49 -3.4607 0.7016 PCB185 133.28 -3.4826 0.7848 PCB186 133.94 -3.4240 0.7416PCB187 132.13 -3.5020 0.7654 PCB188 131.25 -3.4517 0.692 PCB189 132.78 -3.6479 0.9142 PCB190 133.66 -3.5688 0.874 PCB191 132.00 -3.5952 0.8447 PCB192 131.75 -3.5718 0.8269 PCB193 132.12 -3.5803 0.8397 PCB194 130.80 -3.7308 0.962 PCB195 131.52 -3.6711 0.9321 PCB196 130.24 -3.6759 0.8938 PCB197 129.97 -3.6147 0.8293 PCB198 130.07 -3.6621 0.8845 PCB199 131.14 -3.5940 0.8494 PCB200 129.81 -3.6048 0.8197 PCB201 130.07 -3.6621 0.8875 PCB202 129.77 -3.5937 0.8089 PCB203 130.59 -3.6610 0.8938 PCB204 129.80 -3.6087 0.8217 PCB205 130.50 -3.7430 0.9678 PCB206 128.67 -3.8212 1.0103 PCB207 128.32 -3.7579 0.9423 PCB208 128.24 -3.7470 0.932 PCB209 126.70 -3.8963 1.0496

Page 14: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Analiza de corelaţie pentru toate grupurile cu coeficient de corelaţie r > 0.95 a setului de date din tabelul de mai sus este redată în continuare:

ISDmsHt lADrtHg Y Equation Residue Correlation 0.12 0.97138 1 1 0 +ISDmsHt*1.00-

lADrtHg*1.69*101=+1.92*102

Page 15: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

ISDmsHt lADrtHg Y Equation Residue Correlation 1 1 0 -ISDmsHt*5.90*10-2+lADrtHg*1.00=-

1.13*101 0.30 0.97138

15

Page 16: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

ISDmsHt lADrtHg Y Equation Residue Correlation 0 1 1 +lADrtHg*1.00+Y*1.54=-2.28 0.21 0.98650

16

Page 17: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

ISDmsHt lADrtHg Y Equation Residue Correlation 0 1 1 +lADrtHg*0.64+Y*1.00=-1.47 0.70 0.98650

17

Page 18: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

ISDmsHt lADrtHg Y Equation Residue Correlation 1 1 1 +ISDmsHt*1.00-lADrtHg*4.05*101 3.94*10-2 0.99704

-Y*3.82*101=+2.44*102

18

Page 19: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

ISDmsHt lADrtHg Y Equation Residue Correlation 1 1 1 -ISDmsHt*2.46*10-2+lADrtHg*1.00 4.17*10-2 0.99947

+Y*0.94=-6.04

19

Page 20: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

ISDmsHt lADrtHg Y Equation Residue Correlation 1 1 1 -ISDmsHt*2.61*10-2+lADrtHg*1.05 0.22 0.99851

+Y*1.00=-6.40

Testarea metodei de identificare a modelului de dependenţă Au fost implementate module online pentru analiza de model capitalizând cunoştinţele dintr-o serie de studii anterior derulate având ca subiect diferite modalităţi de implementare a analizei de model (Jäntschi & Zaharieva-Stoyanova, 2003-MLPM), utilizarea în analiza de model a diferitelor măsurabile ale asocierii (Jäntschi & Bolboacă, 2006-PSKC) şi care au avut ca finalitate elaborarea modelelor de calcul în versiunea "release" a aplicaţiilor de regresie dezvoltate. Aceste module sunt înglobate în mai multe aplicaţii dezvoltate, una dintre acestea fiind disponibilă la adresa:

http://l.academicdirect.ro/Statistics/multi_regression/ De asemenea, această analiză a adus cunoştinţe noi capitalizate într-o serie de publicaţii având ca subiect identificarea modelului având la dispoziţie o serie de alternative (Jäntschi & others, 2007-NTCP; Jäntschi & Bolboacă, 2010-REBP), modalităţile de estimare a parametrilor de model (Jäntschi, 2009-DF1), utilizarea unei serii de măsuri a asocierii între observaţii şi model în analiza modelului (Jäntschi & Bolboacă, 2009-DF2), elaborarea algoritmilor de analiză de model în ipoteza distribuţie normală a erorii de observare (Bolboacă & Jäntschi, 2009-DF3) şi aplicaţii ale acestora (Bălan & others, 2010-ATSC; Jäntschi & Bolboacă, 2010-REBP).

20

Page 21: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Tabelul următor prezintă sintetic testarea metodelor de analiză a modelului de dependenţă: Experimente demonstrative pentru testarea metodei de identificare a dependenţei liniare

Coeficient de corelaţie

Definiţie Formule de calcul

( )( )m estm i est i

Pr s2 2

m em i est i

(Y Y )(Y Y )r

(Y Y ) (Y Y )

− −

− −

− −=

− − st

∑∑ ∑

unde Ym-i sunt valorile măsurate, iar mY este valoarea medie masurată;

Coeficient de corelaţie

Pearson

Masură a intensităţii şi direcţiei relatiei lineare a două variabile cantitative;

( )( )m estm i est i

m em i est i

Y YY YSpm

2 2Y YY Y

(R R )(R R )r

(R R ) (R R )− −

− −

− −=

− − st

∑∑ ∑

unde RYm-i este rangul activităţii măsurate pe componenta i , iar est iYR − este media activitaţiilor estimate;

Masură (neparametrică) a corelaţiei între două

variabile (care nu sunt neaparat cantitative) despre

a căror distribuţii de frecvenţe nu se face nici o

asumpţie;

Coeficient de corelaţie Spearman

2

Spm 2

6 Dr 1

n(n 1)= −

−∑

unde D = RYm-1 - RYest-1 (diferenţa oricăror două ranguri); n = volumul eşantionului

Masură (neparametrică) a corelaţiei între două variabile semi-cantitative; Coeficient

de corelaţie Spearman-

Pearson ( ) ( ) ( )( )m estm i est i

sQ

m em i est i

Y Ym est Y Ym i est i

2 2 2m est Ym i est i Y Y

(R R )(R R )(Y Y )(Y Y )r

(Y Y ) (Y Y ) (R R ) (R R )− −

− −

− −

− −

− −− −= ⋅

− − − −

∑∑∑ ∑ ∑ ∑ st

2Y

τKen,a = (C-D)/[n(n-1)/2] Masură (neparametrică) a

corelaţiei între două variabile ordinale;

τKen,b=(C-D)/√[(n(n-1)/2-t)(n(n-1)/2-u)] τKen,c = 2(C-D)/n2 Coeficient

de corelaţie Kendall-tau

unde - exista 3 coeficienţi de corelaţie Kendall: tau-a, tau-

b şi tau-c

C = numărul de perechi concordante; D = numărul de perechi disconcordante; E = numărulde perechi egale; Γ = (C-D)/(C+D), unde C = numărul perechi concordante (perechile (Ym-j; Yest-j) si (Ym-i; Yest-i) sunt concordante dacă diferenţele Ym-j - Ym-i şi Yest-j - Yest-i au acelaşi semn);

Coeficient de corelaţie

Gamma

Masură a asocierii între două variabile, care conţin

valori lipsă; D = numărul perechi disconcordante (dacă diferenţele Ym-j - Ym-i şi Yest-j - Yest-i au semne diferite)

1.a Interpretarea coeficientului de corelaţie Pearson: ÷ -1 ≤ rPrs ≤ 1; ÷ rPrs ≥ 0.80 indica o legatură puternică de directă proporţionalitate între cele două variabile după

cum rPrs≤0.5 indică o corelaţie slabă între variabile; ÷ coeficientul de determinare rPrs

2 oferă informaţii despre procentul în care variaţia variabilei

21

Page 22: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

dependente se datorează relaţiei lineare; 1.b. Semnificaţia testului: Testul Student poate fi utilizat pentru a determina dacă valoarea coeficientului de corelaţie este semnificativă statistic, cu nivelul de semnificaţie de 0.01( sau 0.05); ÷ Ipoteza nulă H0: rPrs = 0 (nu există corelaţie între variabile) ÷ Ipoteza alternativă H1: rPrs <> 0 (nu există corelaţie între variabile) Dacă pentru pentru un nivel de semnificaţie de 0.01, p-value asociat lui tPrs,df este mai mic decât 0.01 înseamnă că se respinge ipoteza nulă, adică acceptăm ipoteza alternativă. Există corelaţie între variabilele studiate. Formula folosită pentru calculul parametrului testului Student este:

2

2

r1r2nt−

⋅−=

Formula folosită pentru calculul parametrului testului Fisher este: ( )

2

2

r1r2nF

−⋅−

=

1.c. Rezultate: Datele studiate au fost:

id d_IP d_IR d_Cr d_RSD d_Volum1 0 0 4.9 0 02 0 0 5.81 0 03 1.46 0.81 4.69 4.1 1144 1.69 0.82 4.31 4.58 1265 1.97 0.82 4.77 5.11 139

27 0.72 0.46 6.6 1.85 15028 0.92 0.61 3.29 2.58 15729 1 0.65 1.75 2.8 16430 1.02 0.63 1.75 2.67 16031 1.14 0.68 1.4 2.74 20153 0 0 0 0 054 0 0 1.5 0 055 1 0.69 1.89 2.77 18756 1.2 0.69 1.61 3.24 13357 1.27 0.7 1.75 3.33 16079 0.97 0.61 5.49 2.57 16080 0.97 0.6 2.81 2.47 13781 0.88 0.58 2.61 2.39 14682 0.82 0.57 2.27 2.31 15683 0.79 0.55 1.98 2.23 167

Matricea valorilor coeficientului de corelaţie: R(XX) d_IP d_IR D_Cr d_RSD d_Volum

1 0.9529 0.9968 0.7273 D_IP 0.09291 0.9578 0.8749 D_IR 0.0024

1D_Cr 0.0928 -0.1078 1 0.7234 D_RSD

1 D_Volum Matricea valorilor parametrului testului Student:

t(XX) d_IP d_IR d_Cr d_RSD d_Volum d_IP INF 9.1911 0.0366 37.3643 2.6448 d_IR INF 0 9.7784 5.0474 d_Cr INF 0.0365 0.0493

22

Page 23: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

d_RSD INF 2.6057 d_Volum INF

Matricea probabilitaţiilor (p-value): pt(XX) d_IP d_IR d_Cr d_RSD d_Volum

0 3.22E-08 1.64E-18D_IP 0.9712 0.0165 0 1.26E-08 8.38E-05 D_IR 1

0d_Cr 0.9713 0.9612 0d_RSD 0.0179

0 d_Volum Valorile lui p-value colorate în albastru sunt semnificative (<<0.01) pentru acceptarea ipotezei alternative, adică a ipotezei ca există o relaţie lineară între variabilele studiate; 2.a. Interpretarea coeficientului de corelaţie Spearman: Pentru calculul coeficientului Spearman se definesc rangul asociat fiecărei valori măsurate (RankYm) şi rangul asociat fiecărei valori estimate (RankYest), ranguri ce corespund poziţiei respectivei valori în seria ordonată. În cadrul acestei etape de definire a rangurilor, se vor lua în considerare cel mai mare şi cel mai mic rang , cu observaţia că pentru două valori egale, rangul este definit ca fiind media rangurilor corespunzătoare celor două valori.

Interpretarea coeficientului de corelaţie Spearman este identică cu cea a coeficientului de corelaţie Pearson. 2.b. Semnificaţia testului: Testul Student poate fi utilizat pentru a determina dacă valoarea coeficientului de corelaţie este semnificativă statistic, cu nivelul de semnificaţie de 0.01 ÷ Ipoteza nulă H0: rSpm = 0 (nu exista corelaţie între perechi de ranguri) ÷ Ipoteza alternativă H1: rSpm <> 0 ( există corelaţie între perechi de ranguri) Dacă pentru pentru un nivel de semnificaţie de 0.01, p-value asociat lui tPrs,df este mai mic decât 0.05 înseamnă că se respinge ipoteza nulă, adică acceptăm ipoteza alternativă. Există corelaţie între variabilele studiate. Formula folosită pentru calculul parametrului testului Student este:

2sp

Sp

r1

2nrt

−⋅=

2.c. Rezultate: Datele studiate au fost:

id d_IP d_IR d_Cr d_RSD d_Volum1 0 0 4.9 0 02 0 0 5.81 0 03 1.46 0.81 4.69 4.1 1144 1.69 0.82 4.31 4.58 1265 1.97 0.82 4.77 5.11 139

27 0.72 0.46 6.6 1.85 15028 0.92 0.61 3.29 2.58 15729 1 0.65 1.75 2.8 16430 1.02 0.63 1.75 2.67 16031 1.14 0.68 1.4 2.74 20153 0 0 0 0 054 0 0 1.5 0 055 1 0.69 1.89 2.77 18756 1.2 0.69 1.61 3.24 13357 1.27 0.7 1.75 3.33 16079 0.97 0.61 5.49 2.57 16080 0.97 0.6 2.81 2.47 137

23

Page 24: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

81 0.88 0.58 2.61 2.39 14682 0.82 0.57 2.27 2.31 15683 0.79 0.55 1.98 2.23 167

Matricea valorilor coeficientului de corelaţie: ρ(XX) d_IP d_IR D_Cr d_RSD d_Volum

1 0.9965 0.742 0.9958 0.8395d_IP 1 0.7462 0.9985 0.8461d_IR

1 0.7455d_Cr 0.70471 0.842d_RSD

1d_Volum Matricea valorilor parametrului testului Student:

t(XX) d_IP d_IR d_Cr d_RSD d_Volum d_IP INF 35.4911 2.7981 32.6577 4.2139 d_IR INF 2.8444 53.8965 4.3495 d_Cr INF 2.8362 2.4278 d_RSD INF 4.2657 d_Volum INF

Matricea probabilitatiilor (p-value): pt(XX) d_IP d_IR d_Cr d_RSD d_Volum

0 4.08E-18 1.79E-17 5.22E-04d_IP 0.01190 2.37E-21 3.86E-04d_IR 0.0108

0d_Cr 0.011 0.0259 0 4.65E-04d_RSD

0 d_Volum Valorile lui p-value colorate în albastru sunt semnificative (<<0.01) pentru acceptarea ipotezei alternative, adică a ipotezei că există o relaţie lineară între variabilele studiate; 3.a. Interpretarea coeficientului de corelaţie Pearson-Spearman(Spearman-semicantitativ): Este identică cu cea a coeficientului de corelaţie Pearson. 3.b. Semnificaţia testului: Testul Student poate fi utilizat pentru a determina dacă valoarea coeficientului de corelaţie este semnificativă statistic, cu nivelul de semnificaţie de 0.01 ÷ Ipoteza nulă H0: rsQ = 0 = 0 (nu există corelaţie între perechi de ranguri) ÷ Ipoteza alternativă H1: rsQ = 0 <> 0 (nu există corelaţie între perechi de ranguri) Dacă pentru pentru un nivel de semnificaţie de 0.01, p-value asociat lui tPrs,df este mai mic decat 0.01 înseamnă că se respinge ipoteza nulă, adică acceptăm ipoteza alternativă. Există corelaţie între variabilele studiate; Formula folosită pentru calculul parametrului testului Student este:

2S_P

S_P

r1

2nrt

−⋅=

3.c. Rezultate: Datele studiate au fost:

id d_IP d_IR d_Cr d_RSD d_Volum1 0 0 4.9 0 02 0 0 5.81 0 03 1.46 0.81 4.69 4.1 1144 1.69 0.82 4.31 4.58 1265 1.97 0.82 4.77 5.11 139

27 0.72 0.46 6.6 1.85 15028 0.92 0.61 3.29 2.58 15729 1 0.65 1.75 2.8 164

24

Page 25: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

30 1.02 0.63 1.75 2.67 16031 1.14 0.68 1.4 2.74 20153 0 0 0 0 054 0 0 1.5 0 055 1 0.69 1.89 2.77 18756 1.2 0.69 1.61 3.24 13357 1.27 0.7 1.75 3.33 16079 0.97 0.61 5.49 2.57 16080 0.97 0.6 2.81 2.47 13781 0.88 0.58 2.61 2.39 14682 0.82 0.57 2.27 2.31 15683 0.79 0.55 1.98 2.23 167

Matricea valorilor coeficientului de corelaţie Spearman semi-cantitativ: λ(XX) d_IP d_IR d_Cr d_RSD d_Volum

1 0.9744 0.9963 0.7814d_IP 0.26261 0.9779 0.8604d_IR 0.0423

1d_Cr 0.263 0.27561 0.7805d_RSD

1d_Volum Matricea valorilor parametrului testului Student:

t(XX) d_IP d_IR d_Cr d_RSD d_Volumd_IP INF 12.8365 0.2932 34.7766 3.2709d_IR INF 0.0076 13.8793 4.6713d_Cr INF 0.2941 0.3232d_RSD INF 3.2588d_Volum INF

Matricea probabilitaţiilor (p-value): pt(XX) d_IP d_IR d_Cr d_RSD d_Volum

0 1.69E-10 5.86E-18 4.25E-03d_IP 0.772d_IR 0 4.69E-11 1.90E-040.994

0 d_Cr 0.7721 0.7502 0 4.36E-03d_RSD

0 d_Volum Valorile lui p-value colorate în albastru sunt semnificative (<<0.01) pentru acceptarea ipotezei alternative, adică a ipotezei că există o relaţie lineară între variabilele studiate. 4.a. Interpretarea coeficientului de corelaţie Kendall ÷ dacă există un agrement între două ranguri şi cele două ranguri sunt identice atunci coeficientul

de corelaţie este egal cu 1; ÷ dacă există un dezagrement între două ranguri şi unul din cele două ranguri este inversul

celuluilalt atunci coeficientul de corelaţie este egal cu -1; ÷ pentru toate celelalte situaţii, coeficientul de corelaţie va avea valori cuprinse între -1 si 1, valori

pozitive obţinându-se pentru agrement crescător; ÷ dacă rangurile sunt independente atunci coeficientul de corelaţie este egal cu 0; 4.b. Semnificaţia testului: Testul Z poate fi utilizat pentru a determina dacă valoarea coeficientului de corelaţie este semnificativă statistic, cu nivelul de semnificaţie de 0.05. Coeficientul de corelaţie Kendall tau-a: ÷ Ipoteza nulă H0: τKen,a = 0 (nu există corelaţie) ÷ Ipoteza alternativă H1: τKen,a <> 0 (există corelaţie) Formula folosită pentru calculul parametrului testului Z în cazul coeficientului de corelaţie Kendall tau-a este:

25

Page 26: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

2

a ,Ken

a ,Ken sDCZ

τ

τ−

=

unde variaţia este dată de formula: ( )( )

95n1nns2

a ,Ken

+−=τ

Coeficientul de corelaţie Kendall tau-b: ÷ Ipoteza nulă H0: τKen,b = 0 (nu există corelaţie) ÷ Ipoteza alternativă H1: τKen,b <> 0 (există corelaţie) Formula folosită pentru calculul parametrului testului Z în cazul coeficientului de corelaţie Kendall tau-b este:

2

b ,Ken

b ,Ken sDCZ

τ

τ−

=

unde variaţia este dată de formula

( )( ) ( )( )

( )( ) ( )( ) ( )( ) ( )( )

)2n)(1n(n99

2m1mm9

2n1nn

)1n(n2

5m1mm5n1nn

18

5m1mm5n1nnss

)Y(Tied

1i

iii)X(Tied

1i

iii)Y(Tied

1iiii

)X(Tied

1iiii

)Y(Tied

1iiii

)X(Tied

1iiii

22a ,Kenb ,Ken

−−

−−−−

+−

+−+−+

+⎟⎟⎟⎟

⎜⎜⎜⎜

⎛+−++−

−=

∑∑∑∑

∑∑

====

==ττ

Coeficientul de corelaţie Kendall tau-c: ÷ Ipoteza nulă H0: τKen,c = 0 (nu există corelaţie) ÷ Ipoteza alternativă H1: τKen,c <> 0 (există corelaţie) 4.c. Rezultate: Matricea valorilor coeficientului de corelaţie Kendall tau-a:

d_IP d_IR d_Cr d_RSD d_Volum1 0.9 0.8947d_IP 0.0474 0.2368

1 0.9316d_IR 0.0105 0.26321d_Cr 0.0158 0.2053

1d_RSD 0.23681d_Volum

Matricea valorilor parametrului testului Z: Z(XX) d_IP d_IR d_Cr d_RSD d_Volumd_IP INF 5.548 -0.292 5.5155 1.46d_IR INF -0.0649 5.7426 1.6222d_Cr INF -0.0973 -1.2653d_RSD INF 1.46d_Volum INF

Matricea probabilităţiilor (p-value): pZ(XX) d_IP d_IR d_Cr d_RSD d_Volum

0 2.89E-08 3.48E-08d_IP 1.2297 0.1443 0 9.32E-09d_IR 1.0517 0.1048

0d_Cr 1.0775 1.7942 0d_RSD 0.1443

0 d_Volum Valorile lui p-value colorate in albastru sunt semnificative (<<0.05) pentru acceptarea ipotezei alternative, adica a ipotezei ca exista o relatie lineara intre variabilele studiate.

26

Page 27: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Matricea valorilor coeficientului de corelaţie Kendall tau-b: τb(XX) d_IP d_IR d_Cr d_RSD d_Volum

1 0.9293 0.9239d_IP 0.0481 0.24461 0.962d_IR 0.0107 0.2717

1d_Cr 0.016 0.20861d_RSD 0.2446

1d_Volum Matricea valorilor parametrului testului Z:

Z(XX) d_IP d_IR d_Cr d_RSD d_Volum d_IP INF 5.5987 -0.2933 5.566 1.4733 d_IR INF -0.0652 5.7951 1.637 d_Cr INF -0.0978 -1.2711 d_RSD INF 1.4733 d_Volum INF

Matricea probabilităţiilor (p-value): pZ(XX) d_IP d_IR d_Cr d_RSD d_Volum

0 2.16E-08 2.61E-08d_IP 1.2307 0.1407 0 6.83E-09d_IR 1.052 0.1016

0d_Cr 1.0779 1.7963 0d_RSD 0.1407

0 d_Volum Matricea valorilor coeficientului de corelaţie Kendall tau-b:

τc(XX) d_IP d_IR d_Cr d_RSD d_Volum1 0.855 0.85d_IP 0.045 0.225

1 0.885d_IR 0.01 0.251d_Cr 0.015 0.195

1d_RSD 0.2251d_Volum

Matricea valorilor parametrului testului Z: Z(XX) d_IP d_IR d_Cr d_RSD d_Volum d_IP INF 5.3188 -0.2787 5.2877 1.3997 d_IR INF -0.0619 5.5054 1.5552 d_Cr INF -0.0929 -1.2076 d_RSD INF 1.3997 d_Volum INF

Matricea probabilităţiilor (p-value): pZ(XX) d_IP d_IR d_Cr d_RSD d_Volum

0 1.05E-07 1.24E-07d_IP 1.2195 0.1616 0 3.68E-08d_IR 1.0494 0.1199

0d_Cr 1.074 1.7728 0d_RSD 0.1616

0 d_Volum Valorile lui p-value colorate în albastru sunt semnificative (<<0.05) pentru acceptarea ipotezei alternative, adică a ipotezei că există o relaţie lineară între variabilele studiate. În urma analizei tuturor coeficienţiilor de corelaţie, tabelul de mai jos indică intre care din variabilele studiate există corelaţii:

allr,p(XX) d_IP d_IR d_Cr d_RSD d_VolumYES YES d_IP YES NO NO

d_IR YES NO YES NO d_Cr YES NO NO

27

Page 28: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

d_RSD YES NO d_Volum YES

2007A2. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi

dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate)

S-a participat pentru dobândire de competenţe complementare la Accelrys Science Forum 2007 desfăşurat la Cambridge în perioada 12-13 noiembrie 2007. Forumul a cuprins două secţiuni de prezentări ştiinţifice ale celor mai recente realizări ale companiei americane Accelrys şi colaboratorilor acesteia. Firma multinaţională Accelrys este profilată pe producerea de soft specializat şi dedicat pentru aplicaţii biomedicale şi farmaceutice (acesta fiind unul din publicurile ţintă ale sale) şi aplicaţii chimice şi de ştiinţa materialelor (acesta fiind cel de-al doilea public ţintă al său). Prima secţiune de prezentări ştiinţifice a cuprins cele mai recente realizări şi provocări în domeniul aplicaţiilor biomedicale şi farmaceutice. A doua secţiune de prezentări ştiinţifice a cuprins cele mai recente realizări şi provocări în domeniul aplicaţiilor chimice şi de ştiinţa materialelor. În cadrul forumului au fost cuprinse şi două secţiuni hands-on, aceasta însemnând instruire pe care reprezentanţii companiei au oferit-o participanţilor cu aplicaţiile soft dezvoltate de aceştia. În continuare sunt discutate prezentările susţinute. Secţiunea de aplicaţii biomedicale şi farmaceutice █ Gareth WILDEN (Department of medicinal chemistry, AstraZeneca R & D Charnwood, Loughborough, Leicestershire, UK) a susţinut prezentarea "GA: PP Using Pipeline Pilot as a Genetic Algorithm" în care după o scurtă prezentare a ceea ce a fost dezvoltat anterior, şi anume: ÷ Procesul de design al librăriei; ÷ Enumerarea completă a librăriei; ÷ Obţinerea scorului compuşilor bazat pe violaţiile de tip Lipinski (numai compuşii cu cel mai

mare scor - cea mai mare abatere - sunt eliminaţi în acest stadiu ÷ Analiza vecinătăţii de vârfuri versus banca de compuşi ÷ Filtrarea chimică ÷ hERG, AMES, Solubilitate, Metabolit reactiv (filtrare şi sistem de atenţionare) ÷ Gruparea pe categorii bazată pe amprente (alegerea iterativă din categorii până când numărul

necesar de compuşi este selectat; compuşii cu cel mai mic scor sunt selectaţi primii) a prezentat problematica actuală şi soluţiile care în perspectiva autorului se profilează şi anume: ÷ Problema ridicată de chimie: Cum se poate include acoperirea farmacoforă în analiza

diversităţii ÷ Existenţa şi accesibilitatea locală a amprentelor structurale (metoda de clasificare prin

excluziune sferică pentru a obţine avantajul amprentării structurale de acest tip, cu validare internă corectă

÷ Dezvoltarea procedeelor de amprentare internă a farmacoforilor (în relaţie directă cu utilizarea aceleiaşi metode de clasificare ca mai sus)

÷ Cum adăugarea a încă unei amprente de farmacofor aduce o acoperire suplimentară █ Darren FAYNE, Tim JAMES, Andrew KNOX, Giorgio CARTA, David G. LLOYD (Molecular Design Group, School of Biochemistry and Immunology, Trinity College Dublin, Irlanda) au susţinut prezentarea High-throughput virtual screening drug discovery, în care după o scurtă prezentare a stadiului cunoaşterii, şi anume: ÷ Diagrama de lucru în Drug Design - Faza I - Crearea modelului de receptor ÷ Diagrama de lucru în Drug Design - Faza II - Evaluarea protocolului de examinare şi evaluare

sistematică pentru identificare substanţelor şi atributelor nedorite ÷ Diagrama de lucru în Drug Design - Faza III - Aplicaţii ale protocolului de examinare şi

28

Page 29: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

evaluare sistematică pentru identificare substanţelor şi atributelor nedorite ÷ Paradigma complexităţii în Drug Design (spaţiul director - dimensiune de ordinul zecilor;

spaţiul optimizat/virtual - dimensiune de ordinul zecilor de mii; spaţiul protocolului de examinare şi evaluare sistematică - dimensiune de ordinul milioanelor; spaţiul detectării chimice - dimensiune de ordinul zecilor de miliarde; spaţiul chimiei medicinale - dimensiune de ordinul 1060)

prezentarea şi-a concentrat atenţia asupra problematicii actuale şi a soluţiilor propuse: ÷ Încrederea în bazele de date pentru ER (adică setul de date Bissantz) ÷ Rezultatele obţinute din andocare ÷ Construcţia unui bun set de învăţare ÷ Efectul SMILES: Conformeri ÷ Funcţiile de scor şi ce sunt acestea ÷ Studiu de caz la îmbogăţirea valorilor pentru funcţii de scor ÷ Soluţii ale cercetării şi producerea unei noi funcţii de scor ÷ Crearea unor noi instrumente pentru design molecular - fFLASH (al firmei IBM) ÷ Protocoale de fixare rigidă ÷ Protocoale în linie de aşteptare/procesare - librării şi pre-procesare ÷ Conformeri, andocare şi atribuire de scor Discuţia a continuat cu prezentarea componentelor sistemului în detaliu şi anume: ÷ Corina (modul ce poate fi executat pe o maşină independentă) ÷ Diagrama de reţea şi curgerea proceselor ÷ Omega (manipulator configurabil şi noduri de execuţie) ÷ Andocare şi atribuire de scor - modulul FRED (şi legătura acestuia cu date de analiză de raze X

stocate în fişiere Brookhaven PDB; andocare ghidată) ÷ Analiza şi interpretarea rezultatelor ÷ Modulul HITS (modulul predictiv) ÷ Distribuirea lucrului în sistem ÷ Concluzii obţinute din derularea exeprimentului prezentat █ Tim CLARK (Centre of Computational Chemistry, Friedrich-Alexander University, Erlangen, Nürnberg, Germania, Centre for Molecular Design, University of Portsmouth, Portsmouth, UK, şi Editor-in-Chief, Journal of Molecular Modeling, Springer, Germania) a susţinut prezentarea Surface-Based in silico Techniques, în care după o scurtă prezentare a participanţilor la proiectul prezentat: ÷ Centre of Computational Chemistry, Friedrich-Alexander University, Erlangen, Nürnberg,

Germania ÷ Centre for Molecular Design, University of Portsmouth, Portsmouth, UK ÷ Department of Computer Science, University of Aberdeen, Aberdeen, UK ÷ Cepos InSilico Ltd, Erlangen, Germania a metodelor folosite: ÷ AM1 (Austin Model 1) ÷ Molecular Electrostatics (în legătură directă cu metoda MNDO) ÷ B3LYP/6-31G(d) ÷ MP2/6-31G(d) a trecut la prezentarea de ansamblu: ÷ Proprietăţi locale (potenţial electrostatic molecular, interacţii cu probe, formă, proprietăţi

derivate din orbitali) ÷ Descriptori pentru QSAR (eliminarea tuturor descriptorilor specifici pentru atom/substructură;

pot descriptorii statistici bazaţi pe proprietăţi locale să performeze la fel de bine?) ÷ QSAR convenţional (puncte de fierbere pentru N = 5453 molecule - !) ÷ Modele integrale pe suprafeţe

29

Page 30: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ Energii libere de hidratare (în mediu neutru) ÷ CypScore ÷ Modele bazate pe ParaSurf - proprietăţi atomice de suprafaţă ÷ Setul de validare public ÷ Setul de validare internă ÷ Extensii armonice sferice ÷ Descrierea suprafeţei ÷ Potenţialul electrostatic molecular ÷ Aliniamentul rapid ParaFit █ Peter HAYNES (Materials and Physics Department, Imperial College London) a susţinut prezentarea Linear-scaling Density-functional Theory for Life Sciences al cărui subiect principal a fost realizarea şi utilizarea aplicaţiei ONETEP. Codul ONETEP a fost construit pentru a efectua calcule de scară largă înalt eficiente cu aceeaşi acurateţe ca metodele tradiţionale bazate pe primul principiu. Prezentarea a fost orientată către ilustrarea facilităţilor codului ONETEP care îl fac în special foarte potrivit pentru studiul sistemelor biologice, ilustrate de studiul inhibiţiei kinazelor dependente de ciclină. █ C. M. Venkatchalam (Cercetător, Accelrys) a susţinut prezentarea A Rational Approach to Receptor-flexible Docking: Method and Validation Results. În prezentare s-a susţinut că evidenţa experimentală arată că structurile proteice adoptă o conformaţie variată când liganzi diferiţi sunt legaţi de acestea. În opinia prezentatorului, metoda de investigare de înaltă rezoluţie în general implică o singură structură de receptor cu o largă varietate de liganzi. De asemenea, oricum, flexibilitatea proteinelor poate juca un rol vital în mecanismul de andocare al ligandului. Echipa de cercetare coordonată de prezentator a observat utilizând Discovery Studio (produs soft comercializat de Accelrys) o metodă automată pentru andocarea liganzilor când flexibilitatea ligandului şi a lanţului proteic sunt ambele luate în considerare. Rezultatele andocării liganzilor pentru câteva sisteme proteice au fost obţinute şi investigate. Metoda prezentată are avantajul că poate fi uşor extinsă pentru a considera schimbările ciclice de conformaţie. Secţiunea de aplicaţii de chimie şi ştiinţa materialelor █ James ELLIOTT (Materials Modelling Group, Department of Engineering, University of Cambridge) a susţinut prezentarea A Semi-Empirical Molecular Orbital Study of Fullerene-Encapsulated Mo-S/Mo-O Nanoclusters în care problematica încapsulării de atomi şi ioni metalici în structura nanofulerenelor a fost investigată cu ajutorul modelării moleculare. Aglomerările de metale tranziţionale nanoscopice sunt folosite pe scară largă în creşterea catalitică a nanotuburilor de carbon (CNTs) sintetizate utilizând procesul de depunere chimică din vapori (CVD). Este cunoscut că adiţia oxigenului la calcogenii grei cum este sulful deopotrivă produce creşterea ratei de depunere a CNT şi promovează depunerea selectivă a straturilor simple şi duble de CNTs. Grupul coordonat de prezentator au raportat rezultate de calcul semi-empiric de orbitali moleculari (utilizând Materials Studio şi VAMP - produse de firma Accelrys) ale aglomerărilor de Mo-S şi Mo-O, care demonstrează schimbările care au loc în structura electronică şi sunt cauzate de aditivii folosiţi. █ Andrei GUSEV (Researcher, MatSim GmbH Zürich şi Professor, Department of Materials, Swiss Federal Institute of Technology Zürich) a susţinut prezentarea Finite Element Approaches to Mesoscopic Materials Modelling al cărui subiect l-a constituit utilizarea metodei elementului finit în modelarea nanomaterialelor. Astfel, simulările de dinamică moleculară prezic că transportul gazelor în interiorul nanotuburilor de carbon (CNT) este cu câteva ordine de mărime mai rapidă decât în orice alt maretial cunoscut. Grupul de cercetare coordonat de prezentator a utilizat tehnologia elementului finit oferită de platforma PLAMYRA/GRIDDER pentru a estima performanţa de permeabilitate a membranelor matriciale mixte CNT/polimer. Colectivul de cercetare a demonstrat că astfel de membrane pot într-un mod favorabil să combine performanţa de flux ridicat a nanotuburilor cu selectivitatea intrinsecă a matricilor polimerice. █ Sam FRENCH (Senior Scientist, Johnson Matthey) a susţinut prezentarea Modelling Reactions at the Active Sites of Chiral Ruthenium Catalysts using Density Functional Theory. Scurta secţiune

30

Page 31: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

introductivă în subiectul prezentării a cuprins subiecte de actualitate despre cataliză şi tehnologii chirale. Astfel, selectivitatea este un factor cheie de succes pe piaţa tehnologiilor de catalişti chirali. Înţelegerea proceselor fundamentale care apar când un reactiv interacţionează cu un sit simplu şi omogen de catalizator, în situl activ şi în absenţa acestuia, este deci esenţial pentru designul raţional al noilor catalişti. Catalizatorii de hidrogenare bazaţi pe ruteniu asimetrici au făcut parte dintr-un proiect de cercetare colaborativă al grupului reprezentat de prezentator [(S)-XyIBINAP-RuH2-(S,S)-DPEN], primul descoperit de Noyori [Ryoji NOYORY, Asymmetric catalysis: Science and opportunities (nobel lecture), Angewandte Chemie - International Edition, 41(12), p. 2008-2022, 2002], [Ryoji NOYORY, T. Ohkuma, Asymmetric catalysis by architectural and functional molecular engineering: Practical chemo- and stereoselective hydrogenation of ketones, Angewandte Chemie - International Edition, 40(1), p. 40-73, 2001] şi [Masato KITAMURA, Masaki TSUKAMOTO, Yuhki BESSHO, Masahiro YOSHIMURA, Uwe KOBS, Michael WIDHALM, Ryoji NOYORY, Mechanism of asymmetric hydrogenation of α-(acylamino)acrylic esters catalyzed by BINAP-ruthenium(II) diacetate, Journal of the American Chemical Society, 124(23), p. 6649-6667, 2002] este studiat ca patent sau model prototip pentru o serie de catalizatori de hidrogenare eficienţi, printre aceştia numărându-se catalizatori bazaţi pe familiile de liganzi P-Phos, PhanePhos, şi ParaPhos [Antonio ZANOTTI-GEROSA, William HEMS, Michelle GROARKE, Fred HANCOCK, Ruthenium-catalysed asymmetric reduction of ketones, Platinum Metals Review, 49(4), p. 158-165, 2005]. █ Asen ASENOV (Device Modelling Group, Department of Electronics and Electrical Engineering, Glasgow University) a susţinut prezentarea (care în opinia noastră a fost dintre cele mai valoroase prezentări) Simulation of Atomic Scale Effects in Nano-CMOS Devices. Fluctuaţiile parametrilor intrinseci asociate cu discretizarea sarcinii şi atomicitatea materiei sunt acum unii dintre factorii majori de limitare a scalei, a integrării şi a reducerii tensiunii aplicate şi puterii consumate. Profesorul Asenov a prezentat cele mai noi descoperiri în simularea fluctuaţiilor de variabilitate la scală atomică în componentele nano CMOS utilizând tehnicile de difuzie de drift (DD), Monte Carlo (MC) şi transport cuantic (QT). A discutat de asemenea necesitatea unei legături strânse între aceste componente şi modelarea materialelor. Secţiunea introductivă a prezentării a cuprins: ÷ Continuarea scenariului More Moore ÷ Viitoarele MOSFET-uri sunt componentele la scară atomică ÷ Discretizarea sarcinii şi materiei introduce variabilitate ÷ Variabilitatea devine o durere de cap majoră ÷ Variabilitatea deja şi-a arătat efectele adverse Prezentarea a continuat cu expunerea surselor de variabilitate: ÷ Dopanţi întâmplători discreţi ÷ Linii de separaţie iregulate ÷ Iregularităţi ale interfeţelor ÷ Margini formate din grăunţe de polisilicon ÷ Morfologia pentru к înalt Secţiunea aplicativă a prezentării a cuprins tehnicile de simulare: ÷ Corecţii ale soluţiilor cuantice pentru electroni şi goluri utilizând DG ÷ IPF combinate în MOSFET-uri conglomerate ÷ Sarcina suplimentară în conglomeratele MOSFET ÷ Investigarea impurităţilor folosind Ab-initio în ansambluri Monte Carlo ÷ Simularea IPF necesită simulări statistice tridimensionale ÷ Rugozitatea interfeţei în simulările bidimensionale NEGF ÷ Rugozitatea interfeţei în simulările tridimensionale NEGF ÷ Dopanţi întâmplători în simulările bidimensionale NEGF ÷ Dopanţi întâmplători în simulările tridimensionale NEGF Legătura între designul componentelor nano şi modelarea materialelor a cuprins următoarele

31

Page 32: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

subiecte de interes: ÷ Impactul regiunii tranziţionale Si/SiO2 în calculele de străpungere a porţii ÷ Incluziunea de stive-poartă cu к înalt ÷ Variabilitatea conductibilităţii la tunelarea porţii ÷ Structura de bandă în componentele UTB ÷ Analiza rugozităţii în ansambluri Monte-Carlo folosind metoda Ab-initio Secţiunea de final a prezentării a cuprins cele mai importante concluzii desprinse din provocările cu care se confruntă acum tehnologia nanocomponentelor semiconductoare: ÷ Tranzistorii CMOS se apropie de ordinul de mărime atomic ÷ Simularea necesită rezoluţie la scară atomică ÷ Efectele de la scară atomică implică o variabilitate sporită ÷ Legătura cu primele principii ale simulării materialelor devin obligatorii █ Stephen TODD (Product Manager, Accelrys) a susţinut prezentarea Future Developments in Materials Studio 4.2 în conjuncţie cu prezentarea de ansamblu a produsului Materials Studio oferit de firma Accelrys, cu marcarea noilor funcţionalităţi introduse cu ajutorul limbajului de scriptare MaterialsScript, prin intermediul noii interfeţe Gaussian şi Adsorption Locator şi în contextul celor mai noi descoperiri ale Nanotechnology Consortium. Prezentarea a început prin expunerea proiectelor de cercetare în care în prezent firma Accelrys este implicată: ÷ Materials Visualizer (segregarea volumelor atomice, performanţă în utilizarea memoriei) ÷ Simulări (editarea câmpurilor de forţe, dinamica moleculară fin divizată, proiectul GULP) ÷ Mezoscala (dezvoltarea instrumentelor suport pentru îmbunătăţirea instrumentelor la mezoscală,

analiză, utilitate) ÷ Mecanica cuantică şi cataliza: CASTEP ÷ Mecanica cuantică şi cataliza: DMol ÷ Mecanica cuantică şi cataliza: VAMP ÷ Mecanica cuantică şi cataliza: Guassian® UI ÷ Mecanica cuantică şi cataliza: adsorbţia ÷ Mecanica cuantică şi cataliza: ONETEP ÷ Mecanica cuantică şi cataliza: QMERA ÷ Nanotechnology Consortium ÷ Discovery Studio █ Patricia GESTOSO-SOUTO (Senior Scientist, Accelrys) a susţinut prezentarea New Science in Contact Research Services: Case Studies, SIG’s and Recent Initiatives cu accent pe cercetări pentru surse de energie alternativă şi modelarea ţesutului pielii umane. Prezentarea s-a concentrat pe următoarele subiecte cheie: ÷ Activităţi specifice ale serviciilor de contractare a cercetării ÷ Studiu de caz: Îmbunătăţirea formulărilor pentru industria cosmetică ÷ Actualităţi pentru grupuri speciale de interes (polimeri pentru celule de energie, polimeri

industriali, (noi) polimeri compoziţi avansaţi) ÷ Alte iniţiative recente (cercetări de energie alternativă, modelarea ţesutului pielii umane) █ Richard GILBERT (Principal Scientist, e2v Biosensors), autor a 15 patente şi 25 lucrări evaluate prin procedura peer-review (incluzând câteva articole în Nature şi în Analytical Chemistry and Biochemistry) a susţinut prezentarea Versatile Biosensor Labels (în opinia noastră fiind una dintre cele mai valoroase prezentări). În ultimele două decenii biosenzorii şi-au mărit impactul în ştiinţele vieţii şi piaţa de echipamente medicale, şi încep a fi utilizaţi ca instrumente de cercetare primare în multe laboratoare. Biosenzorii sunt componente care utilizează reacţiile chimice şi biologice pentru a detecta analiţi în probă, în mod tipic monitorizând nivelul unor proteine sau acizi nucleici specifici în lichide biologice cum sunt sângele sau extractele celulare. Sunt o multitudine de tehnologii de detecţie biosenzorială, fiecare dintre ele aducând după sine proprile sale beneficii şi restricţii, şi care sunt uzual cerute de dezvoltarea unor sisteme specifice de identificare chimică pentru a face cea mai bună utilizare a tehnologiilor senzoriale. Autorul prezentării a susţinut că utilizarea lui Materials

32

Page 33: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Studio (al companiei Accelrys) a permis companiei pe care o reprezintă e2v să dezvolte o chimie identificativă generică care poate fi aplicată la o varietate de tehnici de detecţie. De usa singură, interfaţa de lucru pentru identificare chimică a fost dezvoltată şi este compatibilă cu tehnologiile senzoriale dintre cele mai diverse, cum sunt electrochimia, fluorescenţa, chemiluminescenţa, electroluminescenţa şi spectroscopia Raman, dar oricum se adresează tuturor principalelor tipuri de detecţie din uzul curent. 2007A3. Selectare (abstracts), colectare (full text) informaţii private (pay per view), din publicaţii

Elsevier & Springer

S-au selectat un număr de 11 lucrări de interes al căror conţinut reprezentativ pentru proiect este redat în continuare. ÷ Lucrare: Quantitative structure-property relationship study of n-octanol-water partition

coefficients of some of diverse drugs using multiple linear regression ÷ Autori: Jahanbakhsh Ghasemi, Saadi Saaidpour ÷ Sursa: Analytica Chimica Acta, 2007, Volum 604(2), p. 99-106 ÷ Rezumat:

A quantitative structure-property relationship (QSPR) study was performed to develop models those relate the structures of 150 drug organic compounds to their n-octanol-water partition coefficients (log Po/w). Molecular descriptors derived solely from 3D structures of the molecular drugs. A genetic algorithm was also applied as a variable selection tool in QSPR analysis. The models were constructed using 110 molecules as training set, and predictive ability tested using 40 compounds. Modeling of log Po/w of these compounds as a function of the theoretically derived descriptors was established by multiple linear regression(MLR). Four descriptors for these compounds molecular volume (MV) (geometrical), hydrophilic–lipophilic balance (HLB) (constitutional), hydrogen bond forming ability (HB) (electronic) and polar surface area (PSA) (electrostatic) are taken as inputs for the model. The use of descriptors calculated only from molecular structure eliminates the need for experimental determination of properties for use in the correlation and allows for the estimationof log Po/w for molecules not yet synthesized. Application of the developed model to a testing set of 40 drug organic compounds demonstrates that the model is reliable with good predictive accuracy and simple formulation. The prediction results are in good agreement with the experimental value. The root mean square error of prediction (RMSEP) and square correlation coefficient (R2) for MLR model were 0.22 and 0.99 for the prediction set log Po/w. ÷ Detalii de interes: The aim of this work is the development, using theoretical molecular descriptors, and the proposal of externally validated general QSPR models for the prediction of log Po/w for a wide and heterogeneous set of drug organic compounds. The great advantage of theoretical descriptors is that they can be calculated homogeneously by de.ned software for all chemicals, even those not yet synthesized, the only need being a hypothesized chemical structure. The results indicate that the GA is a very effective variable selection approach for QSPR analysis. Multiple linear regressions (MLR) have been used for structure–property relationship analysis for a set of 150 drug compounds. The results obtained from this study indicate that four descriptors, molecular volume (MV), hydrophilic–lipophilic balance (HLB), hydrogen bond forming ability (HB) and polar surface area (PSA), play an important role on the n-octanol/water partition coef.cients of drug structures. Predictive QSPR model which is based on molecular descriptors is proposed in this study to correlate the log Po/w of drug compounds. Application of the developed model to a testing set of 40 compounds demonstrates that the new model is reliable with good predictive accuracy and simple formulation.Since the QSPR was developed on the basis of theoretical molecular descriptors calculated exclusively from molecular structure, the proposed model could potentially provide useful information about the log Po/w of drug compounds. Thisprocedure

33

Page 34: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

allowed us to achieve a precise and relatively fast method for determination of log Po/w of different series of drug compounds and to predict with suf.cient accuracy the log Po/w of new drug derivatives. ÷ Lucrare: A multiple linear regression and partial least squares study of flavonoid compounds

with anti-HIV activity ÷ Autori: C. N. Alves, J. C. Pinheiro, A. J. Camargo, M. M. C. Ferreira, R. A. F. Romero, A. B. F.

da Silva ÷ Sursa: Journal of Molecular Structure: THEOCHEM, 2001,Volum 541(1-3), p. 81-88 ÷ Rezumat:

The molecular orbital semi-empirical method PM3 was employed to calculate a set of molecular properties (variables or descriptors) of 21 flavonoid compounds with anti-HIV activity. The correlation between biological activity and structural properties was obtained by using the multiple linear regression and partial least squares methods. The model obtained showed not only statistical significance but also predictive ability. The significant molecular descriptors related to the compounds with anti-HIV activity were: electronegativity (χ) and the charges on atoms C3 and C7 (Q3 and Q7, respectively). These variables led to a physical explanation of electronic molecular property contributions to HIV inhibitory potency. ÷ Detalii de interes:

Significant regression equations were obtained by multiple linear regression and partial least squares methods for 20 flavonoid compounds according to their anti-HIV activity. The best regression equation obtained was based on the following descriptors: electronegativity (χ) and atomic charges on atoms C3 and C7 (Q3 and Q7, respectively). The model obtained showed not only statistical significance but also predictive ability and revealed that higher values for χcombined with high positive charges on C7 and high negative charges on C3 lead to an increasing of the anti-HIV activity. These variables allowed a physical explanation of electronic molecular properties contributing to HIV inhibitory potency as the electronic character relates directly to the electron distribution of interacting molecules at the active site. A comparison of the performance between the MLR and PLS models showed the PLS have substantially better predictive capability than the MLR model, even thought their correlation coefficients are comparable. This indicates clearly that the correlation coefficient by itself is not a good parameter for testing the model performance. Also, it has been shown that PLS is an excellent tool for those cases where the descriptors are by any means correlated. ÷ Lucrare: A faster algorithm for ridge regression of reduced rank data ÷ Autori: Douglas M. Hawkins, Xiangrong Yin ÷ Sursa: Computational Statistics & Data Analysis 40 (2002), p. 253 - 262 ÷ Rezumat: Regression data sets typically have many more cases than variables, but this is not always the case. Some current problems in chemometrics-for example fitting quantitative structure activity relationships-may involve fitting linear models to data sets in which the number of predictors far exceeds the number of cases. Ridge regression is an approach that has some theoretical foundation and has performed well in comparison with alternatives such as PLS and subset regression. Direct implementation of the regression formulation leads to a O(np2+p3) calculation, which is substantial if p is large. We show that ridge regression may be performed in a O(np2) computation-a potentially large saving when p is larger than n. The algorithm lends itself to the use of case weights, to robust bounded influence fitting, and cross-validation. The method is illustrated with a chemometric data set with 255 predictors, but only 18 cases, a ratio not unusual in QSAR problems. ÷ Detalii de interes: The residuals from the ridge regression have variance (1−hi)σ2, and so internally studentized residuals can be computed in the usual way from the ridge residuals, leverages, and setting up the ridge regression with weights leads to a number of possibilities.

34

Page 35: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Setting the weights equal to 1 gives a conventional ridge regression. If the residuals from this regression show signs of heteroscedasticity, then the regression may be repeated with weights to correct it. This framework also allows for fitting M-estimates of the regression function, and/or for bounded-influence regressions. For either of these purposes, the case weights wi are recomputed iteratively, with cases whose leverage, whose absolute residual, or whose influence is ‘large’ being downweighted. In either of these applications, there may be some interplay between the ridge constant and the weights. ÷ Lucrare: Smallest confidence intervals for one binomial proportion ÷ Autor: Weizhen Wang ÷ Sursa: Journal of Statistical Planning and Inference, 2006, Volum 136(12), p. 4293-4306 ÷ Rezumat: We specify three classes of one-sided and two-sided 1−α confidence intervals with certain monotonicity and symmetry on the confidence limits for the probability of success, the parameter in a binomial distribution. For each class of one-sided confidence intervals the smallest interval, in the sense of the set inclusion, is obtained based on the direct analysis of coverage probability functions. A simple sufficient and necessary condition for the existence of the smallest two-sided confidence interval is provided and the smallest interval is derived if it exists. Thus the proposed intervals are uniformly most accurate, and have the uniformly minimum expected length as well. ÷ Detalii de interes: In this paper, we use the set inclusion to decide whether one interval is superior than another.For the one-sided interval, the solution is final since the smallest interval always exists and cannot be improved any further. Therefore, the Clopper–Pearson method indeed yields the best one-sided interval. For the two-sided interval we provide a precise condition under which the smallest interval exists for one proportion. This condition is of more theoretical interest because the smallest interval exists only when n or α is quite small. The nonexistence, however, may explainwhy statisticians after several decades still cannot reach an agreement about which is the “best”interval. The Crow (1956) interval is equal to the Blyth and Still (1983) interval if the smallestinterval exists and they are typically different otherwise. Nevertheless, it seems reasonable usingthe set inclusion to define a “better” interval, especially for one-sided intervals. A much moreinteresting problem for the future research is how to construct the smallest interval when thereexist nuisance parameters. ÷ Lucrare: Fast computation of cross-validated properties in full linear leave-many-out procedures ÷ Autor: Emili Besalú ÷ Sursa: Journal of Mathematical Chemistry, Vol. 29, No. 3, 2001 ÷ Rezumat: A general theorem which allows the fast and direct computation of predicted properties in a full multiple linear leave-many-out procedure is demonstrated by induction. The result allows the description of a general algorithm which only requires a single multiple linear regression calculation. From the data generated by this fitting, in a full leave-n-out procedure involving a set of m objects, the resolution of linear systems of equations of dimension n×n suffices to obtain all the sets of cross-validated properties. ÷ Detalii de interes: General algorithm and explicit expressions for particular cases. From the previous results, a practical and fast way to obtain predictions coming from a full linear LnO procedure is envisaged. The general algorithm to be followed is systematic and very simple: 1. Given the matrix X, compute the predictions matrix H in equation

H = {hij} = X[XTX]-1XT

2. Given the vector y, compute the coefficient vector c in equation C = [XTX]-1XTy

3. Obtain the vector of fitted data y_ using equation

35

Page 36: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

y' = (y1', y2', …, ym') = Xc = Hy 4. Fix n, the number of leaving molecules. 5. Loop over all the molecular subsets M(n). For every subset: 5.1. Solve the linear system

5.2. Keep the predicted values. In QSAR studies it is very common to search for an optimal set of representative descriptors. The algorithm described in previous section can be conceived as to be a tool which gives a statistic, rcvattached to a set of them, those defining the matrix X. It is obvious that the algorithm can be repeated as many times as sets of descriptors are tested in a QSAR project. Hence, the whole procedure furnishes a new method for selecting the best set of descriptors according to the criteria of maximization of the value rcv. This will be presumably the most immediate utility of the LnOT. In this case, in order to speed up the process, it is not only recommended to implement the practical expressions outlined in previous section but also not to perform the gaussian fitting described above. It is faster to obtain the correlation coefficients directly from the set of arithmetic mean values attached to every series of molecular cross-validated values. The leave-n-out theorem has been demonstrated.and as a consequence, general and explicit expressions attached to full linear leave-many-out cross-validation processes have been given. The formulation will allow to easily construct computer codes oriented to be applied to QSAR problems and other fields. ÷ Lucrare: A partial least squares regression study with antioxidant flavonoid compounds ÷ Autori: Karen C. Weber, Kathia M. Honorio, Aline T. Bruni, Adriano D. Andricopulo, Alberico

B. F. da Silva ÷ Sursa: Structural Chemistry, 2006, Volum 17(3), p. 307-313 ÷ Rezumat: The quantitative structure-activity relationship of a set of 19 flavonoid compounds presenting antioxidant activity was studied by means of PLS (Partial Least Squares) regression. The optimization of the structures and calculation of electronic properties were done by using thesemiempirical method AM1. A reliable model (r2 =0.806 and q2 =0.730) was obtained and from this model it was possible to consider some aspects of the structure of the flavonoid compounds studied that are related with their free radical scavenging ability. The quality of the PLS model obtained in this work indicates that it can be used in order to design new flavonoidcompounds that present ability to scavenge free radicals. ÷ Detalii de interes: From Table 5 we can see that the samples are very well fitted, as the residuals of prediction are very small (0.02–0.04). This constitutes a strong indication that the model is reliable since it consistently predicted the TEAC values of the test set.Through the validation tests applied in the model we can suggest that it can be used for understanding and predicting the antioxidant activity of new flavonoid compounds before their synthesis and tests against free radicals. Furthermore, the use of a multivariate methodology to build a regression model allows us to deal with various features of flavonoid compounds that can be related to their reactivity with free radicals, especially the influence of substitutents that are not hydroxyls, what constitutes a more complete description of the problem than taking into account only the number or the presence of hydroxyl groups at certain positions.

36

Page 37: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ Lucrare: Quantitative structure-activity relationship (QSAR) studies of quinolone antibacterials

against M. fortuitum and M.smegmatis using theoretical molecular descriptors ÷ Autori: Manish C. Bagchi, Denise Mills, Subhash C. Basak ÷ Sursa: Journal of Molecular Modeling, 2007, Volume 13 (1), 2007 ÷ Rezumat: The incidence of tuberculosis infections that are resistant to conventional drug therapy has risen steadily in the last decade. Several of the quinolone antibacterials have been examined as inhibitors of M. tuberculosis infection as well as other mycobacterial infections. However, not much has been done to examine specific structure–activity relationships of the quinolone antibacterials against mycobacteria. The present paper describes quantitative structure–activity relationship modeling for a series of antimycobacterial compounds. Most of the antimycobacterial compounds do not have sufficient physicochemical data, and thus predictive methods based on experimental data are of limited use in this situation. Hence, there is a need for the development of quantitative structure–activity relationship (QSAR) models utilizing theoretical molecular descriptors that can be calculated directly from molecular structures. Descriptors associated with chemical structures of N-1 and C-7 substituted quinolone derivatives as well as 8-substituted quinolone derivatives with good antimycobacterial activities against M. fortuitum and M. smegmatis have been evaluated. Ridge regression (RR), Principal component regression (PCR), and partial least squares (PLS) regression were used, comparatively, to develop predictive models for antibacterial activity, based on the activities of the above compounds. The independent variables include topostructural, topochemical and 3-D geometrical indices, which were used in a hierarchical fashion in the model-development process. The predictive ability of the models was assessed by the cross-validated R2. Comparison of the relative effectiveness of the various classes of molecular descriptors in the regression models shows that the easily calculable topological indices explain most of the variance in the data. ÷ Detalii de interes: Prior to model development, the activity values were scaled by natural logarithm as their values differed by many orders of magnitude. Conventional ordinary least squares (OLS) regression cannot be used when the number of molecular descriptors exceeds the number of observations

37

Page 38: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

[25]. In this situation, three alternative linear regression methods may be considered, these are a) Ridge Regression(RR), b) Principal Component Regression(PCR) and c) Partial Least Squares(PLS). These three methods are also very useful even when the independent variables are highly correlated. In the ridge regression method, descriptors are transformed into principal components (PCs). All of the principal components are used in the regression, but they are first shrunk differentially according to their eigenvalues and a ridging constant. In the principal components regression, the descriptors are transformed into principal components after which a subset of the PCs is used in an ordinary least square regression. Partial least squares also uses a set of linear combinations of the descriptors but, in this approach, the dependent variable is also considered in this step. Each of these methods makes use of the entire available pool of independent variables as opposed to selecting a subset, which introduces bias and may result in the elimination of important parameters from the study. Formal comparisons have consistently shown subsetting to be less effective than alternative methods, such as these, that retain all of the independent variables and use other approaches to deal with the rank deficiency [26]. Statistical theory suggests that RR is the best of the three methods and this has been generally borne out in multiple comparative studies [26–28]. As such, the RR models developed in the current study are analyzed in more detail than the PCR and PLS models. The RR vector of regression coefficients, b, is given by b = (XTX+kI)-

1XTY, where X is the matrix of descriptors, Y is the vector of observed activities, I is an identity matrix, and k is a nonnegative constant known as the “ridge” constant. ÷ Lucrare: Multivariate analysis of experimental and computational descriptors of molecular

lipophilicity ÷ Autori: Raimund Mannholda, Gabriele Crucianib, Karl Drossc, Roelof Rekkerd ÷ Sursa: Journal of Computer-Aided Molecular Design, Volume 12, Number 6, 1998, p. 573-

581(9). ÷ Rezumat: Two experimental (log P, RMw) and 17 calculation descriptors for molecular lipophilicity (fragmental, atom-based for based on molecular properties) were investigated by multivariate analysis for a database of 159 compounds including both simple structures as well as more complex drug molecules. Principal component analysis (PCA) of the entire database exhibits a clustering of chemical groups; preciseness of clustering corresponds to chemical similarity. Thus, diversity searching in databases might effectively be performed by PCA on the basis of calculatedlog P. The comparative validity check of experimental and computational procedures by regression analysis and PCA was performed with a chemically balanced, reduced data set (n D 55) representing 11 chemical groups with 5 members each. Regression of experimental descriptors (log Poct versus RMw) proves that chromatographic data, obtained under well-defined experimental conditions, can be used as valid substitutes for log P. Regression of calculated versus experimental lipophilicity data shows a superiority of fragmental over atom-based methods and approaches based on molecular properties, as indicated by correlation coefficients, slopes and intercepts. Inaddition, PCA revealed that fragmental methods (Rekker-type, KOWWIN, KLOGP) sense the compound ranking in log P data to almost the same extent as experimental approaches. For atom-based procedures and CLOGP, both the comparability of absolute values and the sensing of the compound ranking in the database are slightly less. This trend is more pronounced for the methods based on molecular properties, with the exception of BLOGP. ÷ Detalii de interes: Validity check of calculation methods by regression analysis and PCA. Regression analysis of calculated versus experimental data shows that in general fragmental methods are superior to atom-based and 3D-related approaches. These results are in accord with our earlier analysis with a smaller dataset [35]. A limited applicability is often attributed to fragmental methods due to missing fragment values. This is true for CLOGP and Rekker-type methods, but not for KOWWIN. Information obtained by PCA on the same dataset, in general parallels the regression data, but unravels more precisely the comparability in absolute values and the reflection of

38

Page 39: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

compound ranking in the database. Accordingly, the ranking of calculation methods observed in regression analysis is confirmed, exceptional behaviour of CLOGP and BLOGP, however, is only detected by PCA.

2007A4. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi

dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate) În a doua fază a dobândirii de competenţe complementare prin participări la manifestări ştiinţifice / stagii de documentare-cercetare s-a planificat pentru perioada 6-14 decembrie participarea la următoarele: ÷ University of Oxford, Computational Biology Reseach Group, cursul de instruire intitulat

"Introduction to Bioinformatics at CBRG", 7 decembrie 2007 ÷ Dublin Molecular Medicine Centre, cursul de instruire intitulat "DMMC Course: Techniques

and Strategies in Molecular Medicine", 10-13 decembrie 2007 ÷ Trinity College Dublin, Centre for Synthesis & Chemical Biology, simpozionul intitulat "Recent

Advances in Synthesis and Chemical Biology VI", 14 decembrie 2007 Programul evenimentelor planificate este redat în tabelul de mai jos: "Introduction to Bioinformatics at CBRG", 7 decembrie 2007 This course is intended for new users and/or anyone not familiar with using their molbiol account for bioinformatics analysis. It will be held in the Medical Sciences Teaching Centre (behind the Dunn School of Pathology on South Parks Road). The day-long course is designed to be run in two sessions: The first session will introduce you to the many bioinformatics analysis tools that are now available on this web site. The course will also introduce you to EMBOSS Explorer - a suite of bioinformatics software intended largely as a replacement for GCG. You will be shown how to carry out some basic bioinformatics analyses - for example: access the databases on our servers to retrieve sequence files examine sequence file formats run restriction analysis software carry out sequence alignments and produce publishable images of the aligned sequences search databases using BLAST It will also introduce you to other more specialised tools - BASE and MASCOT - that will allow you to analyse your microarray and proteomics data respectively. Second session: Some of the bioinformatics tools are only available on our Unix servers and the second session will introduce the Unix computing facilities available via your molbiol account. We will show you how to connect to the CBRG Unix machines and introduce you to the Unixenvironment in general. You will be introduced to some of the features of the programs from the morning session that are not available via the web. There will be a brief introduction to the Staden package of software used for the analysis of dna sequencing chromatograms. The course is not intended to be a comprehensive guide to all the bioinformatics packages available at the CBRG. Instead it is designed to show you the kind of analysis software that is available to you via your account. It should ensure that you also know where to look to find similar software on the CBRG web site and on orac and to find help with any of the software on the system. "DMMC Course: Techniques and Strategies in Molecular Medicine", 10-13 decembrie 2007 This course, running over four mornings, is designed to give bioscientists and clinicians a broad overview of research techniques and their application. Basic molecular biology laboratory experience is assumed, but you should not need prior knowledge of the techniques covered in the course. This course, running over four mornings, is designed to give bioscientists and clinicians a broad

39

Page 40: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

overview of research techniques and their application. Basic molecular biology laboratory experience is assumed, but you should not need prior knowledge of the techniques covered in the course. The objective for postgraduate teaching is to give students a broad basic knowledge of bioscience research techniques and technologies, including those not currently used in their own project/laboratory that may be of future use. We recommend that postgraduate students attend the whole course (DMMC Course Attendance Certificates are only provided for complete attendance). Follow the links below to read an abstract of each lecture, together with supplementary reading in some cases. ANALYSING GENES (Mon 10 Dec; 0930-1300) Session Chair: Dr Ross McManus, TCD 0930 RNA Detection and quantitation Dr Shane Duggan, TCD The protein components of the cell are derived by numerous processes indirectly interpreted from a genetic element known as the “gene” which is coded in the cellular DNA. This element is interpreted by the cell in a process called “transcription” where the genetic code for a particular gene is converted into a molecular code known as messenger RNA (mRNA). This mRNA molecule can now be utilised in the creation of a new protein via the translation process. In this lecture the nature and analysis of Ribonucleic acid (RNA) in biological systems will be explored. The understanding of this has allowed the laboratory scientist to interrogate and explore gene expression as it may relate to diseases or cell signalling. Extraction and quantitation of good quality RNA will be discussed as they are the first step in any investigation of gene expression. Standard techniques in common use such as Northern blotting and cycle limited RT-PCR shall also be described as well as more modern techniques such as real time RT-PCR analysis. This lecture will allow the interpretation of published literature utilising these techniques and introduce the steps involved in performing RNA related techniques in your laboratory. 1015 Differential gene expression: overview of relevant methods Prof William Gallagher, UCD This lecture will summarise the main approaches used to determine alterations in gene expression at the RNA level. Emphasis will be placed in this context on global approaches that attempt to map differences in the transcriptome, i.e. entire complement of transcripts in a cell. Methodologies that will be addressed include differential display, subtractive hybridization, high-throughput sequencing (ESTs and SAGE), and DNA microarray technologies. Key examples from the literature will be utilised to illustrate examples of investigators applying these technologies to understand biological phenomena, with a focus on disease-related processes. An indication of the relevant infrastructure and expertise to carry out this work within the DMMC will be presented. Review articles Lennon, G. G. (2000). High-throughput gene expression analysis for drug discovery. Drug Discovery Today, 5, 59-66. Schulze, A. and Downward, J. (2001). Navigating gene expression using microarrays – a technology review. Nature Cell Biology, 3, E190-E195. 1100 Coffee/Tea 1130 Mutation detection, SNP analysis and genetic linkage Prof Denis Shields, UCD Different strategies are required to identify rare and common genetic variants underlying both rare and common diseases. For common genetic variants, there is now a very rich dataset of identified common single nucleotide polymorphisms (SNPs). These can be investigated in disease groups (compared to controls) in candidate genes, or by whole genome association analysis. Analysis of these genes requires careful attention to the patterns of association of SNPs that are chromosomally adjacent (in linkage disequilibrium). Linkage analysis (tracking in families the disease co-inheritance with widely spaced gene markers) is the traditional approach of choice for rare mutations that have strong phenotypic effects. High throughput sequencing of candidate regions (and in future whole genomes) are accelerating the rate of data accumulation. 1215 Model organisms Dr Breandán Kennedy, UCD The goal of this lecture is to discuss animal models that are routinely applied to biomedical research. The advantages of using Drosophila (fly), Xenopus (frog), Danio (zebrafish), Gallus (chicken) and Mus Musculus (mouse) as model organisms will be described. The life-cycle, generation time, embryo development and amenability of these organisms to genetic manipulation will be discussed. An emphasis will be placed on describing mutagenesis screens. This technique, in which the genes in the genome are randomly inactivated, has been extensively applied to the fly/fish models and has accelerated our understanding of gene function (functional genomics). MANIPULATING GENES (Tue 11 Dec; 0930-1300) Session Chair: Dr Ross McManus, TCD 0930 DNA cloning strategies Dr Ross McManus, TCD Even in the post genome era, DNA cloning is essential to the manipulation and stable propagation of genetic material. This talk will cover the basic aspects of DNA cloning, ranging from the anatomy of cloning vectors to the choice of

40

Page 41: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

vectors based on the cloning strategy employed. The strategy employed will depend on the overall objectives of the project and the nature of the starting information or material available. Thus different choices and approaches would be employed for a sequencing project compared with a genome mapping project or production of RNA or protein. I will discuss a number of basic and specialised cloning strategies to illustrate some of the options and possibilities available. 1015 RNA interference Dr Jane Farrar, TCD 1100 Coffee/Tea 1130 Transgenics and knockouts Dr Derek Brazil, UCD This lecture will provide a broad overview of the strategies used to generate both transgenic and knockout mice, starting from the generation of the DNA constructs using cDNAs or genomic DNA, and proceeding through embryonic stem cell biology, to aggregation and chimeric mouse generation. Details on genotyping of transgenic animals, as well as phenotype characterization will be discussed. Specific examples such as the IRS-2 knockout will be cited. 1215 Molecular therapies - false hope or the future of medicine? Dr Ruth Foley, TCD Molecular medicine has allowed the identification of new targets and new approaches to treat human disease. The lecture will focus on some of these strategies, including targeting signal transduction pathways, use of monoclonal antibody based approaches and the numerous gene therapy strategies that are currently being evaluated. An overview of the different methodologies will be presented and the current situation on the clinical application of these approaches will be considered. Focusing particularly on cancer therapies as a model system, the advances and challenges of the different approaches will be presented and discussed. PROTEINS (Wed 12 Dec; 0930-1300) Session Chair: Dr Niamh Moran, RCSI 0930 Protein expression and purification Dr Henry Windle, TCD This lecture will cover the basics of protein expression and purification. Emphasis will be placed on alternative strategies and issues that should be considered prior to selection of specific expression systems and purification strategies. As protein purification methodologies are generally well described and accessible, only a brief overview of these will be given but with emphasis on common problems that can arise, particularly for those about to attempt purification for the first time. The following books from The Practical Approach series by IRL Press are an invaluable aid with detailed and reliable protocols: Protein Purification Applications; Protein Purification Methods (2001, Editor Simon Roe). Gallus (chicken) and Mus Musculus (mouse) as model organisms will be described. The life-cycle, generation time, embryo development and amenability of these organisms to genetic manipulation will be discussed. An emphasis will be placed on describing mutagenesis screens. This technique, in which the genes in the genome are randomly inactivated, has been extensively applied to the fly/fish models and has accelerated our understanding of gene function (functional genomics). 1015 Determining protein: protein interactions in biology Dr Niamh Moran, RCSI During the past two decades, mass spectrometry has become a major technique for the identification, characterisation and quantification of biological molecules and bioactive drugs. In particular, the impact of mass spectrometry on proteomics and metabolomics has been phenomenal. This lecture will outline some of the applications of mass spectrometry in modern life sciences and introduce course participants to basic vocabulary and concepts in biological mass spectrometry. 1100 Coffee/Tea 1130 Introduction to Mass Spectrometry Dr Achim Treumann, RCSI During the past two decades, mass spectrometry has become a major technique for the identification, characterisation and quantification of biological molecules and bioactive drugs. In particular, the impact of mass spectrometry on proteomics and metabolomics has been phenomenal. This lecture will outline some of the applications of mass spectrometry in modern life sciences and introduce course participants to basic vocabulary and concepts in biological mass spectrometry. 1215 Proteomic technologies Prof Steve Pennington, UCD CELLS & TISSUES (Thu 13 Dec; 0930-1300) Session Chair: Dr William Watson, UCD 0930 Immunodetection methods on cell and tissue extracts Dr Leonie Young, RCSI The use of antibodies to detect and characterise proteins has been well established. With the development of high through-put techniques such as tissue microarrays (TMA), a real challenge now exists to determine the cellular location, level of expression and the function of these identified proteins. In this lecture, principles fundamental to immunodetection will be outlined. Common pitfalls and measures to avoid these will be discussed. Applications of immunodetection in a modern molecular context will be illustrated, including: western blotting, ELISA, immunohistochemistry/ immunofluorescence, tissue microarrays, co-immunprecipitation, Electromobility shift

41

Page 42: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

assays, chromatin immunoprecipitation (ChIP) and antibody arrays. 1015 Cell imaging and sorting - flow cytometry Dr William Watson, UCD Flow cytometry is a method for quantitating components or structural features of cells, primarily by optical means. Although it makes measurements on one cell at a time, it can process thousands of cells in a few seconds. Since cell types can be distinguished by quantitating structural features, flow cytometry can be used to count prokaryotic or eukaryotic cells of different types in complex mixtures. 1100 Coffee/Tea 1130 High Content Analysis of nanoparticle/cell interactions Dr Yuri Volkov, TCD Fluorescent organic tags have represented one of the major tools in the arsenal of researchers working in the biomedical sciences for more that two decades. The progress in development of new fast and efficient research and diagnostic methods is largely dependent on the availability of fluorescent probes with desired cell receptor- and organelle specificity and optimised experimental protocols for their utilization. A unique opportunity to generate a wide spectrum of such probes suitable for applications in living cells is offered by semiconductor quantum dots (QDs). As fluorescent probes QDs have several advantages over organic dyes, including wide absorption profiles, tunable emission spectra, and superior photostability. QDs have been shown to readily distribute across animal cells, tissues and organs. Today, QDs with different physico-chemical properties and functionalities are readily available worldwide. However, further exploitation of QDs in biomedical studies has been hindered by the absence of adequate technological platforms capable of performing multi-parametric quantitative analysis of individual responses in specific cell types. Recent years have witnessed a rapid progress in the development of novel methods permitting high-resolution visualisation of cell receptor dynamics and intracellular biochemical processes utilizing fluorescent probes. Among these, high content screening (HCS) technology allows to perform analysis of molecular interactions in individual cells and their populations at the sub-cellular level under physiological conditions. This technology not only facilitates development of a better understanding of the true functionality of target molecules in the living cells, but it can also promote designing of highly informative screens for novel therapeutic drugs, including inhibitors at small molecule and gene therapy level applicable in inflammation and cancer. Here we will discuss the data demonstrating the influence of such factors as QDs size, charge and selective functionalisation on their membrane and subcellular localisation specificity and present an overview of advantages and hurdles on the way of merging nanotechnology and high content cell analysis. 1215 Laser Capture Microdissection and in situ hybridisation Dr Orla Sheils, TCD Laser Capture Microdissection is a method for procuring pure cells from specific microscopic regions of tissue sections. Under the microscope, tissues are heterogeneous complicated structures with hundreds of different cell types locked in morphologic units. In disease pathologies, the diseased cells of interest are surrounded by these heterogeneous tissue elements. Laser Capture Microdissection constitutes an essential upstream technology to molecular analysis methods studying evolving disease lesions in actual tissue. In Situ Hybridization techniques allow the demonstration of specific nucleic acid sequences within their cellular environment. A logical extension of early in situ hybridization (ISH) techniques, which exploited the ability to label DNA with high-energy fluorophores, is FISH. This technique is now applied in an increasing number of molecular diagnostic areas, including karyotype analysis, gene mapping, disease diagnosis, and therapeutic targeting. Course Instructors Dr Derek Brazil (UCD Conway Institute of Biomolecular & Biomedical Research) Dr Shane Duggan (Institute of Molecular Medicine & TCD) Dr Jane Farrar (TCIN & TCD) Dr Ruth Foley (Institute of Molecular Medicine, TCD) Prof William Gallagher (UCD Conway Institute of Biomolecular & Biomedical Research) Prof Dr Breandán Kennedy (UCD Conway Institute of Biomolecular & Biomedical Research) Prof Mark Lawler (Institute of Molecular Medicine, St James's Hospital & TCD) Dr Ross McManus (Institute of Molecular Medicine, St James's Hospital & TCD) Dr Niamh Moran (Institute of Biopharmaceutical Sciences, RCSI) Prof Steve Pennington (UCD Conway Institute of Biomolecular & Biomedical Research) Dr Orla Sheils (Institute of Molecular Medicine, TCD) Denis Shields (UCD Conway Institute of Biomolecular & Biomedical Research) Dr Achim Treumann (Institute of Biopharmaceutical Sciences, RCSI) Dr Yuri Volkov (Institute of Molecular Medicine, St James's Hospital & TCD) Dr William Watson (UCD Conway Institute of Biomolecular & Biomedical Research) Dr Henry Windle (Institute of Molecular Medicine, St James's Hospital & TCD) Dr Leonie Young (Royal College of Surgeons in Ireland & Beaumont Hospital)

42

Page 43: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

"Recent Advances in Synthesis and Chemical Biology VI", 14 decembrie 2007 8.45am Opening session Introductory remarks: Professor Thorri Gunnlaugsson Speaker: Professor John Hegarty, Provost, TCD 9.00am-10.00am Chairperson: Professor Paul Murphy Professor Peter Seeberger ‘From Microreactors to a Malaria Vaccine’ 10.00am-11.00am Chairperson: Professor Kevin Nolan Professor Thomas Carell ‘Synthestic and Crystallographic studies of Tanskription and Replication through DNA lesions’ 11.00am-11.30am Coffee/Tea Break 11.30am-12.30pm Chairperson: Dr Donal O’Shea GLAXOSMITHKLINE LECTURE Professor Michael J. Krische ‘Formation of C-C Bonds via Catalytic Hydrogenation and Transfer Hydrogenation’ 12.30pm-1.15pm Lunch Break 1.15pm-2.15pm Chairperson: Professor Mathias Senge ELI LILLY LECTURE Professor Chris Schofield ‘The Chemistry of Oxygen Sensing’ 2.15pm-3.15pm Poster Session. Coffee/Tea Break 3.15pm-4.15pm Chairperson: Professor John M. Kelly INSTITUT DE RECHERCHES SERVIER LECTURE Professor Andreé Kirsch - De Mesmaeker ‘Ru(II) complexes under illumination. Can they be used in Chemical Biology?’ 4.15pm-5.15pm Chairperson: Dr Marc Devocelle Professor Mark Bradley ‘Interfacing Combinatorial Chemistry with Microarrays’ 5.15pm Closing Remarks followed by half-hour Wine Reception Professor Pat Guiry

2007A5. Selectare (abstracts), colectare (full text) informaţii private (pay per view), din publicaţii Taylor&Francis & Wiley&Sons

S-au selectat o serie de articole reprezentative pentru domeniul de cercetare specific proiectului. Articolele selectate sunt redate în continuare: Nr Articol 1 Inhibition of 7-ethoxycoumarin O-deethylase activity in rat liver microsomes by naturally

occurring flavonoids: structure-activity relationships Author: Ja-Young Moon Dong-Wook Lee Ki-Hyun Park DOI: 10.1080/004982598239623 Publication Frequency: 12 issues per year Published in: Xenobiotica, Volume 28, Issue 2 February 1998 , pages 117 - 125 Subjects: Pharmacology; Toxicology; Formats available: PDF (English) Abstract 1. The inhibitory effects of several naturally occurring flavonoids and related compounds oncytochrome P450-dependent 7-ethoxycoumarin O-deethylase(ECOD) and the structure-activity relationships were studied in liver microsomes from rats treated with 3-methylcholanthrene (MC). 2. All the flavonoids (flavone, apigenin, chrysin, flavonol, fisetin, kaempferol, morin, myrisetin,

43

Page 44: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

quercetin, flavanone, hesperetin and naringenin) studied inhibited microsomal ECOD activity in the following order: flavones > flavonols > flavanones, were mixed type inhibitors and had Ki in the range of 0·17-4·5 μM. (±)-Catechin had no effect. 3. The double bond between C2 and C3 of the C ring, the keto group and hydroxyl group of this ring in the flavonoids seem to play major roles in inhibiting the ECOD activity. 4. The hydroxyl groups in the C5 and C7 positions of A ring in the flavone and the hydroxyl group in the C3 position of C ring in the flavonol classes, respectively, were important factors for the inhibition of the enzyme. 5. In a series of 3, 5, 7-trihydroxyflavones, the hydroxyl group at the C4 in the B ring was also an important factor for the inhibition of ECOD activity, but hydroxyl groups in other positions of the B ring had little effect on the inhibition. 6. We conclude that all the flavonoids studied inhibit ECOD activity by interfering with the binding of substrate to the active site and other site(s) of the enzyme and that their structural differences lead to different binding affinities at the active site and possibly to binding at other site(s) of the enzyme for the flavonoids.

Nr Articol 2 Structure-antioxidant Activity Relationships of Flavonoids: A Re-examination Authors: M. Manuela Silva a; Marta R. Santos a; Gonçalo Caroço a; Rui Rocha a; Gonçalo Justino a; Lurdes Mira Affiliation: a Departamento de Química e Bioquímica, Faculdade de Ciências da Universidade de Lisboa, 1749-016 Lisboa, Portugal. DOI: 10.1080/1071576021000016472 Publication Frequency: 12 issues per year Published in: Free Radical Research, Volume 36, Issue 11 2002 , pages 1219 - 1227 Subjects: Cell Biology; Molecular Biology; Number of References: 45 Formats available: PDF (English) Abstract The antioxidant and prooxidant activities of flavonoids belonging to several classes were studied to establish their structure-activity relationships against different oxidants. Special attention was paid to the flavonoids quercetin (flavone), taxifolin (flavanone) and catechin (flavanol), which possess different basic structures but the same hydroxylation pattern (3,5,7,3',4'-OH). It was found that these three flavonoids exhibited comparable antioxidant activities against different oxidants leading to the conclusion that the presence of ortho -catechol group (3',4'-OH) in the B-ring is determinant for a high antioxidant capacity. The flavone kaempferol (3,5,7,4'-OH), however, in spite of bearing no catechol group, also presents a high antioxidant activity against some oxidants. This fact can be attributed to the presence of both 2,3-double bond and the 3-hydroxyl group, meaning that the basic structure of flavonoids becomes important when the antioxidant activity of B-ring is small. Keywords: Flavonoids; Antioxidant; Free Radicals; Structure-activity Relationships

Nr Articol 3 Fuzzy structure-activity relationships Author: B. T. Luke Affiliation: a SAIC-Frederick, Inc., Advanced Biomedical Computing Center, NCI Frederick, P.O. Box B, Frederick, MD 21702, USA. DOI: 10.1080/1062936021000058773 Publication Frequency: 8 issues per year Published in: SAR and QSAR in Environmental Research, Volume 14, Issue 1 2003 , pages 41 - 57 Subjects: Applied & Industrial Chemistry; Chemistry; Environmental & Ecological Toxicology; Environmental Sciences; History & Philosophy of Mathematics; Abstract While quantitative structure-activity relationships attempt to predict the numerical value of the activities, it is found that statistically good predictors do not always do a good job of qualitatively determining the activity. This study shows how Fuzzy classifiers can be used to generate Fuzzy structure-activity relationships which can more accurately determine whether or not a compound

44

Page 45: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

will be highly inactive, moderately inactive or active, or highly active. Four examples of these classifiers are presented and applied to a well-studied activity dataset. Keywords: Fuzzy Classifiers; Fuzzy Structure-activity Relationship; Selwood Data; K Nearest Neighbor (KNN)

Nr Articol 4 Medicinal Chemistry and Chemical Biology of New Generation Taxane Antitumor Agents Authors: Iwao Ojima a; Raphaël Geney a; Ioana Maria Ungureanu a; Dansu Li a Affiliation: a Chemistry Department, State University of New York at Stony Brook, Stony Brook, NY 11794-3400, USA. DOI: 10.1080/15216540212658 Publication Frequency: 12 issues per year Published in: IUBMB Life, Volume 53, Issue 4 & 5 April 2002 , pages 269 - 274 Subjects: Cell Biology; Molecular Biology; Abstract P-glycoprotein (P-GP)-based multidrug resistance (MDR) and undesirable side effects are significant drawbacks to the clinical use of paclitaxel and docetaxel. Extensive SAR studies of taxanes in these laboratories led to the discovery of new generation taxanes that are highly active against not only drug-sensitive but also drug-resistant human cancer cell lines as well as tumor xenografts in mice. One of these second generation taxanes, SB-T-110131 (IDN5109), exhibited excellent pharmacological profile in the preclinical studies and has been selected for clinical development (re-coded as Bay 59-8862), which is currently in the phase II clinical trials. Bay 59-8862 is orally active with high bioavailability, showing excellent activity against a variety of drug-resistant tumors. "Advanced second generation taxanes" show essentially no difference in cytotoxicity against drug-resistant and drug-sensitive cell lines, virtually overcoming MDR. Photoaffinity labeling of P-GP using photoreactive radiolabeled paclitaxel analogs has disclosed the paclitaxel-binding domain of P-GP. Highly efficient taxane-based MDR reversal agents (TRAs) have also been developed, which can recover the cytotoxicity of paclitaxel to practically the original level against paclitaxel-resistant MDR expressing cancer cells. Highly promising results have emerged from the study of taxane-monoclonal antibody (MAb) immunoconjugates, which have been proved to specifically deliver extremely cytotoxic agents to tumor in an animal model. Keywords: Anticancer Agent; Immunoconjugate; Multidrug Resistance; P-glycoprotein; Photoaffinity Label; Taxane; Tumor-activated Prodrug

Nr Articol 5 Quantum chemistry of macromolecular shape Author: Paul G. Mezey DOI: 10.1080/014423597230226 Publication Frequency: 4 issues per year Published in: International Reviews in Physical Chemistry, Volume 16, Issue 3 July 1997 , pages 361 - 388 Subjects: Chemical Physics; Physical Chemistry; Abstract Some of the new developments in the quantum-chemical study of macromolecular shapes are reviewed, with special emphasis on the additive fuzzy electron density fragmentation methods and on the algebraic-topological shape group analysis of global and local shape features of fuzzy three-dimensional bodies of electron densities of macromolecules. Earlier applications of these methods to actual macromolecules are reviewed, including studies on the anticancer drug taxol, the proteins bovine insulin and HIV protease, and other macromolecules. The results of test calculations establishing the accuracy of these methods are also reviewed. The spherically weighted affine transformation technique is described and proposed for the deformation of electron densities approximating the changes occurring in small conformational displacements of atomic nuclei in macromolecules.

Nr Articol

45

Page 46: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

6 Hexagonoidal Partitioning and Quasi-Single Bonds in Benzenoid Hydrocarbons Authors: Tetsuo Morikawa a; Susumu Narita b; Ivan Gutman c Affiliations: a Department of Chemistry, Joetsu University of Education, Joetsu, Japan b Faculty of Textile Science and Technology, Shinshu University, Nagano, Japan c Faculty of Science, University of Kragujevac, Kragujevac, Serbia and Montenegro DOI: 10.1080/10406630490277489 Publication Frequency: 5 issues per year Published in: Polycyclic Aromatic Compounds, Volume 24, Issue 1 January 2004 , pages 75 - 82 Subjects: Analytical Chemistry; Astrophysics; Chemical Spectroscopy; Organic Chemistry; Thermodynamics & Kinetic Theory; Abstract The concept of fully benzenoid hydrocarbons (molecular graphs; FBHs) is generalized. Each full-hexagon unit (aromatic sextet) in a FBH is replaced with a larger "hexagon-shaped" unit (subgraph; e.g., naphthalene, pyrene, coronene, or ovalene units). Such a molecular species may be called a "fully hexagonoid" hydrocarbon (FHHs). The Pauling bond order calculation suggests that a bond (edge) which interlinks one hexagon-shaped unit with another in the bottom of bays of FHH is quasi-single, if the two units are connected by more than two bonds. As a consequence, the hexagon-shaped units are delocalized locally in the hexagonoidal (graph-theoretical) partitioning. Keywords: arenoidal partitioning; fully benzenoid; fully hexagonoid; molecular design; Pauling bond order

Nr Articol 7 Novel matrix invariants for characterization of changes of proteomics maps Authors: M. Randi a; J. Zupan a; M. Novi a; B. D. Gute b; S. C. Basak b Affiliations: a National Institute of Chemistry, 1001 Ljubljana, Slovenia. b Natural Resources Research Institute, University of Minnesota at Duluth, 5013 Miller Trunk Hwy. Duluth, MN 55811, USA. DOI: 10.1080/1062936021000043436 Publication Frequency: 8 issues per year Published in: SAR and QSAR in Environmental Research, Volume 13, Issue 7 & 8 2002 , pages 689 - 703 Subjects: Applied & Industrial Chemistry; Chemistry; Environmental & Ecological Toxicology; Environmental Sciences; History & Philosophy of Mathematics; Abstract Previous studies on mathematical characterization of proteomics maps by sets of map invariants were based on the construction of a set of distance-related matrices obtained by matrix multiplication of a single matrix by itself. Here we consider an alternative characterization of proteomics maps based on a set of matrices characterizing local features of an embedded zigzag curve over the map. It is shown that novel invariants can well characterize proteomics maps. Advantages of the novel approach are discussed. Keywords: Eigenvalue Reduction; Graph Spectra; Local Matrices; Matrix Invariants; Proteomics Maps; Quantitative Proteomics

Nr Articol 8 Reactivity profiles of ligands of mammalian retinoic acid receptors: a preliminary COREPA

analysis Authors: G. T. Ankley a; O. G. Mekenyan b; V. B. Kamenska b; P. K. Schmieder a; S. P. Bradbury a Affiliations: a U.S. Environmental Protection Agency, National Health and Environmental Effects Research Laboratory, Mid-Continent Ecology Division, 6201 Congdon Boulevard, Duluth, MN 55804 USA. b Laboratory of Mathematical Chemistry, Department of Physical Chemistry, Bourgas University "Prof. As. Zlatarov", 118010 Bourgas, Bulgaria. DOI: 10.1080/10629360290002839

46

Page 47: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Publication Frequency: 8 issues per year Published in: SAR and QSAR in Environmental Research, Volume 13, Issue 2 2002 , pages 365 -377 Subjects: Applied & Industrial Chemistry; Chemistry; Environmental & Ecological Toxicology; Environmental Sciences; History & Philosophy of Mathematics; Abstract Retinoic acid and associated derivatives comprise a class of endogenous hormones that bind to and activate different families of retinoic acid receptors (RARs, RXRs), and control many aspects of vertebrate development. Identification of potential RAR and RXR ligands is of interest both from a pharmaceutical and toxicological perspective. The recently developed COREPA (COmmon REactivity PAttern) algorithm was used to establish reactivity profiles for a limited data set of retinoid receptor ligands in terms of activation of three RARs ( , , ) and an RXR ( ). Conformational analysis of a training set of retinoids and related analogues in terms of thermodynamic stability of conformers and rotational barriers showed that these chemicals tend to be quite flexible. This flexibility, and the observation that relatively small energy differencesbetween conformers can result in significant variations in electronic structure, highlighted the necessity of considering all energetically reasonable conformers in defining common reactivity profiles. The derived reactivity patterns for three different subclasses of the RAR ( , , ) were similar in terms of their global electrophilicity (nucleophilicity) and steric parameters. However, the profile of active chemicals with respect to interaction with the RXR- differed qualitatively from that of the RARs. Variations in reactivity profiles for the RAR versus RXR families would be consistent with established differences in their affinity for endogenous retinoids, likely reflecting functional differences in the receptors. Keywords: Retinoid; Receptor; Transactivation; Model

Nr Articol 9 Quantitative molecular similarity analysis (QMSA) methods for property estimation: a

comparison of property-based, arbitrary, and tailored similarity spaces Authors: S. C. Basak a; B. D. Gute a; D. Mills a Affiliation: a Natural Resources Research Institute, University of Minnesota at Duluth, 5013 Miller Trunk Hwy., Duluth, MN 55811, USA. DOI: 10.1080/1062936021000043463 Publication Frequency: 8 issues per year Published in: SAR and QSAR in Environmental Research, Volume 13, Issue 7 & 8 2002 , pages 727 - 742 Subjects: Applied & Industrial Chemistry; Chemistry; Environmental & Ecological Toxicology; Environmental Sciences; History & Philosophy of Mathematics; Abstract Three classes of arbitrary quantitative molecular similarity analysis (QMSA) methods have been computed using atom pairs, topological indices, and physicochemical properties. Tailored QMSA models have been developed using a selected number of TIs chosen by ridge regression. The methods have been applied to the K -nearest neighbor based estimation of log P of two sets of chemicals. Results show that the property-based and tailored QMSA methods are superior to the arbitrary similarity methods in estimating log P of both sets of chemicals Keywords: Quantitative Molecular Similarity Analysis (QMSA); Arbitrary Qmsa Method; Tailored Qmsa Method; Atom Pairs; Topological Indices; Physicochemical Properties

Nr Articol 10 Quantitative structure-metabolism relationships (QSMR) using computational chemistry:

pattern recognition analysis and statistical prediction of phase II conjugation reactions of substituted benzoic acids in the rat

Author: B. C. Cupid DOI: 10.1080/004982599238795 Publication Frequency: 12 issues per year

47

Page 48: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Published in: Xenobiotica, Volume 29, Issue 1 January 1999 , pages 27 - 42 Subjects: Pharmacology; Toxicology; Abstract 1. Quantitative relationships between molecular physico-chemical properties of 22 substituted benzoic acids and the extent of excretion of their metabolites in rat urine have been investigated using computational chemistry and multivariate statistics. 2. A data set of 34 theoretically derived physico-chemical descriptors calculated was used to classify the benzoic acids according to their predominant urinary metabolic fate. 3. Quantitative structure-metabolism relationships were obtained by linear regression using combinations of physico-chemical descriptors allowing the prediction of % urinary excretion of glycine (r=0.73) and glucuronide conjugates (r=0.82) and % urinary excretion of the parent compound (r=0.91).

Nr Articol 11 Modelling mutagenicity using properties calculated by computational chemistry Authors: D. J. Livingstone; R. Greenwood a; R. Rees b; M. D. Smith b Affiliations: a School of Biological Sciences, University of Portsmouth, Portsmouth, Hants, PO1 2DY, UK. b Department of Genetic Toxicology, SmithKline Beecham Pharmaceuticals, The Frythe, Welwyn, Hertfordshire, UK. DOI: 10.1080/10629360290002064 Publication Frequency: 8 issues per year Published in: SAR and QSAR in Environmental Research, Volume 13, Issue 1 2002 , pages 21 - 33 Subjects: Applied & Industrial Chemistry; Chemistry; Environmental & Ecological Toxicology; Environmental Sciences; History & Philosophy of Mathematics; Abstract The recent advances in combinatorial chemistry and high throughput screening technologies have led to an explosion in the numbers of possible therapeutic candidates being produced at the early stages of drug discovery. This rapid increase in the number of chemicals to be classified results in a greater need for alternative methods for the prediction of toxicity. Most QSAR models for mutagenicity have been constructed for congeneric series. The prediction requirements of the pharmaceutical industry, however, cover quite diverse chemical structures. This paper reports a study of mutagenicity data for a diverse set of 90 compounds. Good discriminant models have been built for this data set using properties calculated by the techniques of computational chemistry. Jack-knifed (leave one out) predictions for these models are of the order of 85%. Keywords: Discriminant Analysis; Eva Descriptor; Variable Selection; Ames Test; Jack-knife Predictions; Qsar

Nr Articol 12 Computational modelling of low-energy electron-induced DNA damage by early physical and

chemical events Authors: H. NIKJOO; P. O'NEILL; D. T. GOODHEAD; M. TERRISSOL DOI: 10.1080/095530097143798 Publication Frequency: 12 issues per year Published in: International Journal of Radiation Biology, Volume 71, Issue 5 May 1997 , pages 467 - 483 Subjects: Nuclear Medicine; Radiation Oncology; Abstract Modelling and calculations are presented as a first step towards mechanistic interpretation and prediction of radiation effects based on the spectrum of initial DNA damage produced by low energy electrons (100eV-4.5keV) that can be compared with experimental information. Relative yields of single and clustered strand breaks are presented in terms of complexity and source of damage, either by direct energy deposition or by reaction of OH radicals, and dependence on the activation probability of OH radicals and the amount of energy required to give a single strand break (ssb). Data show that the majority of interactions in DNA do not lead to damage in the form

48

Page 49: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

of strand breaks and when they do occur, they are most frequently simple ssb. However, for double-strand breaks (dsb), a high proportion (30%) are of more complex forms, even without considering additional complexity from base damage. The greater contribution is from direct interactions in the DNA but reactions of OH radicals add substantially to this, both in terms of the total number of breaks and in increasing the complexity within a cluster. It has been shown that the lengths of damaged segments of DNA from individual electron tracks tend to be short, indicating that consequent deletion length (simply by loss of a fragment between nearby dsb) would be short, very seldom exceeding a few tens of base pairs.

Nr Articol 13 p-Dodecylaminophenol derived from the synthetic retinoid, fenretinide: Antitumor efficacy in

vitro and in vivo against human prostate cancer and mechanism of action International Journal of Cancer Volume 122, Issue 3, Date: 1 February 2008, Pages: 689-698 Noriko Takahashi, Yusuke Watanabe, Yoshie Maitani, Takayasu Yamauchi, Kimio Higashiyama, Toshihiro Ohba Funded by: The Ministry of Education, Culture, Sports, Science and Technology, Japan and the Open Research Center Project Keywords aminophenol • anticancer • retinoid • prostate cancer • apoptosis Abstract Fenretinide, N-(4-hydroxyphenyl)retinamide (4-HPR) is an aminophenol-containing synthetic retinoid derivative of all-trans-retinoic acid, which is a potent chemopreventive and antiproliferative agent against various cancers. Clinical studies of 4-HPR have shown side effects consisting of night blindness and ocular toxicity. To maintain potent anticancer activity without side effects, p-dodecylaminophenol (p-DDAP) was designed based on structure-activity relationships of 4-HPR. In our study, we investigate whether p-DDAP shows anticancer activity against human prostate cancer cell line PC-3 when compared with 4-HPR. p-DDAP inhibited PC-3 cell growth progressively from low to high concentration in a dose-dependent manner. p-DDAP was the most potent antiproliferative agent in vitro among 6 p-alkylaminophenols and 3 4-hydroxyphenyl analogs examined including 4-HPR. Cells treated with p-DDAP were shown to undergo apoptosis, based on condensation nuclei, cytofluorimetric analysis, propidium iodide staining and the expression of bcl-2 and caspase 3. p-DDAP arrested the S phase of the cell cycle, while 4-HPR arrested the G0/G1 phase. In addition, both the i.v. and i.p. administration of p-DDAP suppressed tumor growth in PC-3-implanted mice in vivo. p-DDAP showed no effects on blood retinol concentrations, in contrast to reductions after 4-HPR administration. These results indicate that p-DDAP exhibits excellent anticancer efficacy against hormonal independent prostate cancer in vitro and in vivo, and it may have great potential for clinical use in the treatment of prostate cancer with reduced side effects.

Nr Articol 14 Lipoxygenase inhibitors: A comparative QSAR study review and evaluation of new QSARs Medicinal Research Reviews Volume 28, Issue 1, Date: January 2008, Pages: 39-117 Eleni Pontiki, Dimitra Hadjipavlou-Litina Keywords QSAR • LOX inhibitors • lipophilicity • steric factors • electronic effects Abstract This paper contains a quantitative structure activity relationship (QSAR) study for lipoxygenase (LO) inhibitors. It reveals that in almost all cases, the clog P parameter plays an important part in the QSARs (linear or bilinear model). In some cases the steric factors such as the overall molar refractivity (CMR) or the substituents molar refractivity (MR) (linear or parabola) are important. Electronic effects are comparatively unimportant. The study shows that log P as calculated from the Clog P program is suitable for this form of QSAR study.

49

Page 50: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Nr Articol 15 A neural network approach to prediction of glass transition temperature of polymers International Journal of Intelligent Systems Volume 23, Issue 1, Date: January 2008, Pages: 22-32 Xi Chen, Les Sztandera, Hugh M. Cartwright Abstract Polymeric materials are finding increasing application in commercial optical communication systems. Taking advantage of techniques from the field of artificial intelligence, the goal of our research is to construct systems that can computationally design polymer formulations, including polymer optical fibers, with specified desirable consumer characteristics. Through the use of an extensive structure - property correlation database, properties of polymers can be predicted by an artificial network and the structure of novel polymers with desired properties can be optimized by a genetic algorithm. In this paper, we are focusing on one of the parameters, glass transition temperature (Tg) that influences a desired outcome in polymer optical fibers. Performance of such fibers can be optimized by engineering a polymer to exhibit a lower refractive index and Tg. This paper compares and discusses a neural network model and a linear model that have been developed to correlate Tg and repeating units of polymers. A neural network and multiple linear regression analysis were used in the study. A set of descriptors, chosen based on previous studies on the relations between Tg and polymer structure, were used to describe the structure of repeating units, individual bond energies, and intermolecular forces, especially hydrogen bonding, which is the strongest intermolecular force and exerts the greatest influence on Tg compared with other intermolecular interactions. A comprehensive neural network model with 28 descriptors was developed to predict Tg values of 6 randomly selected polymers from a database containing 71 polymers. The network was trained with the remaining 65 polymers and had a typical training root mean square error of 17 K (R2 = 0.95) and prediction average error of 17 K (R2 = 0.85). A linear regression model developed for comparison had an average error of 30 K (R2 = 0.88).

Nr Articol 16 Investigation of DNA-binding properties of organic molecules using quantitative structure-

activity relationship (QSAR) models Journal of Pharmaceutical Sciences Volume 97, Issue 1, Date: January 2008, Pages: 88-110 Rajeshwar P. Verma, Corwin Hansch Keywords DNA • QSAR • log P • cancer • computer aided drug design Abstract Due to the great potential of DNA as a receptor, many classes of synthetic and naturally occurring molecules exert their anticancer activities through DNA-binding. In the field of antitumor DNA-binding agents, a number of acridine and anthracycline derivatives are in the market as chemotherapeutic agents. However, the clinical application of such classes of compounds has encountered problems such as multi-drug resistance and secondary and/or collateral effects. Thus, there has been increasing interest in discovering and developing small molecules that are capable of DNA-binding, which will be expected to be used either in place of or in conjunction with, the existing compounds. The interest in the application of the QSAR paradigm has steadily increased in recent decades and we hope it may be useful in the design and development of DNA-binding molecules as new anticancer agents. In the present review, an attempt has been made to understand the DNA-binding properties of different compound series and discussed using 27 QSAR models, which reveal a number of interesting points. The most important determinants for the activity in these models are Hammett electronic (and +), hydrophobic, molar refractivity, and Sterimol width parameters.

Nr Articol 17 Design, synthesis and evaluation of peptide inhibitors of Mycobacterium tuberculosis

50

Page 51: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

ribonucleotide reductase Journal of Peptide Science Volume 13, Issue 12, Date: December 2007, Pages: 822-832 Johanna Nurbo, Annette K. Roos, Daniel Muthas, Erik Wahlström, Daniel J. Ericsson, Torbjörn Lundstedt, Torsten Unge, Anders Karlén Funded by: Swedish Foundation for Strategic Research Swedish Research Council EU Sixth Framework Program; Grant Number: NM4TB CT:018 923 Keywords Mycobacterium tuberculosis • ribonucleotide reductase • peptide inhibitors • alanine scan • statistical molecular design • structure activity relationships • FHDoE Abstract Mycobacterium tuberculosis ribonucleotide reductase (RNR) is a potential target for new antitubercular drugs. Herein we describe the synthesis and evaluation of peptide inhibitors of RNR derived from the C-terminus of the small subunit of M. tuberculosis RNR. An N-terminal truncation, an alanine scan and a novel statistical molecular design (SMD) approach based on the heptapeptide Ac-Glu-Asp-Asp-Asp-Trp-Asp-Phe-OH were applied in this study. The alanine scan showed that Trp5 and Phe7 were important for inhibitory potency. A quantitative structure relationship (QSAR) model was developed based on the synthesized peptides which showed that a negative charge in positions 2, 3, and 6 is beneficial for inhibitory potency. Finally, in position 5 the model coefficients indicate that there is room for a larger side chain, as compared to Trp5.

Nr Articol 18 Docking without docking: ISEARCH - prediction of interactions using known interfaces Proteins: Structure, Function, and Bioinformatics Volume 69, Issue 4, Date: December 2007, Pages: 839-844 Stefan Günther, Patrick May, Andreas Hoppe, Cornelius Frömmel, Robert Preissner Keywords prediction of interaction • interfaces • superposition • knowledge-based Abstract The increasing number of solved protein structures provides a solid number of interfaces, if protein-protein interactions, domain-domain contacts, and contacts between biological units are taken into account. An interface library gives us the opportunity to identify surface regions on a target molecule that are similar by local structure and residue composition. If both unbound components of a possible protein complex exhibit structural similarities to a known interface, the unbound structures can be superposed onto the known interfaces. The approach is accompanied by two mathematical problems. Protein surfaces have to be quickly screened by thousands of patches, and similarity has to be evaluated by a suitable scoring scheme. The used algorithm (NeedleHaystack) identifies similar patches within minutes. Structurally related sites are recognized even if only parts of the template patches are structurally related to the interface region. A successful prediction of the protein complex depends on a suitable template of the library. However, the performed tests indicate that interaction sites are identified even if the similarity is very low. The approach complements existing ab initio methods and provides valuable results on standard benchmark sets.

Nr Articol 19 First-principles, structure-based transdermal transport model to evaluate lipid partition and

diffusion coefficients of hydrophobic permeants solely from stratum corneum permeation experiments

Journal of Pharmaceutical Sciences Volume 96, Issue 12, Date: December 2007, Pages: 3236-3251 Joseph Kushner IV, William Deen, Daniel Blankschtein, Robert Langer Keywords transdermal drug delivery • permeability • mathematical model • drug transport • percutaneous •

51

Page 52: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

skin • membrane transport • passive diffusion/transport Abstract To account for the effect of branched, parallel transport pathways in the intercellular domain of the stratum corneum (SC) on the passive transdermal transport of hydrophobic permeants, we have developed, from first-principles, a new theoretical model - the Two-Tortuosity Model. This new model requires two tortuosity factors to account for: (1) the effective diffusion path length, and (2) the total volume of the branched, parallel transport pathways present in the SC intercellular domain, both of which may be evaluated from known values of the SC structure. After validating the Two-Tortuosity model with simulated SC diffusion experiments in FEMLAB (a finite element software package), the vehicle-bilayer partition coefficient, Kb, and the lipid bilayer diffusion coefficient, Db, in untreated human SC were evaluated using this new model for two hydrophobic permeants, naphthol (Kb = 225 ± 42, Db = 1.7 × 10-7 ± 0.3 × 10-7 cm2/s) and testosterone (Kb = 92 ± 29, Db = 1.9 × 10-8 ± 0.5 × 10-8 cm2/s). The results presented in this paper demonstrate that this new method to evaluate Kb and Db is comparable to, and simpler than, previous methods, in which SC permeation experiments were combined with octanol-water partition experiments, or with SC solute release experiments, to evaluate Kb and Db.

Nr Articol 20 Relationship between basicity and nucleophilicity Journal of Physical Organic Chemistry Volume 20, Issue 12, Date: December 2007, Pages: 1050-1057 Paula Jaramillo, Patricia Pérez, Patricio Fuentealba Funded by: Fondecyt; Grant Number: 1060961, 1050294 Universidad Andres Bello; Grant Number: DI-28-06/I Millennium Nucleus for Applied Quantum Mechanics and Computational Chemistry; Grant Number: P02-004-F Keywords nucleophilicity index • nucleophiles • basicity • proton affinity • reactivity • HSAB principle • acid-base reaction • endothermic reactions Abstract The empirical concepts of basicity and nucleophilicity are related but not strictly proportional. Hence, the aim of this study is to help in elucidating the range where both concepts are directly proportional. To do this, the relationship between a recently introduced nucleophilicity index and the proton affinity (PA) of several families of bases has been studied. A good correlation between the PA and the nucleophilicity index using HF and HCN as electrophilic partner has been found. Our studies show that the correlation exists only when the interaction is soft-soft in character and for strong bases with weak acids. However, the relationship is not only valid for exothermic reactions as it has been previously postulated but also for endothermic reactions.

Nr Articol 21 Information theoretical measures to analyze trajectories in rational molecular design Journal of Computational Chemistry Volume 28, Issue 16, Date: December 2007, Pages: 2576-2580 K. Hamacher Keywords molecular dynamics • molecular biophysics • data analysis • computational chemistry • rational design • pharmacology Abstract We develop a new methodology to analyze molecular dynamics trajectories and other time series data from simulation runs. This methodology is based on an information measure of the difference between distributions of various data extract from such simulations. The method is fast as it only involves the numerical integration/summation of the distributions in one dimension while avoiding sampling issues at the same time. The method is most suitable for applications in which different

52

Page 53: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

scenarios are to be compared, e.g. to guide rational molecular design. We show the power of the proposed method in an application of rational drug design by reduced model computations on the BH3 motif in the apoptosis inducing BCL2 protein family.

Nr Articol 22 A novel semi-empirical topological descriptor Nt and the application to study on QSPR/QSAR Journal of Computational Chemistry Volume 28, Issue 15, Date: 30 November 2007, Pages: 2413-2423 Congyi Zhou, Changming Nie, Shan Li, Zhonghai Li Funded by: The Natural Science Foundation of Hunan Province; Grant Number: 03JJY3024 The Technology Innovation Plans of the Economy Commission of Hunan Province; Grant Number: [2005]283 Keywords equilibrium electronegativity • organic compounds • QSPR/QSAR • topological descriptor Nt Abstract A novel semi-empirical topological descriptor Nt was proposed by revising the traditional distance matrix based on the equilibrium electronegativity and the relative bond length. Nt can not only efficiently distinguish structures of organic compounds containing multiple bonds and/or heteroatoms, but also possess good applications of QSPR/QSAR (quantitative structure-property/activity relationships) to a large diverse set of compounds, which are alkanes, alkenes, alkynes, aldehydes, ketones, thiols, and alkoxy silicon chlorides with all the correlation coefficients of the models over 0.99. The LOO CV (leave-one-out cross-validation) method was used to testify the stability and predictive ability of the models. The validation results verify the good stability and predictive ability of the models employing the cross-validation parameters: RCV, SEPCV and SCV, which demonstrate the wide potential of the Nt descriptor for applications to QSPR/ QSAR.

Nr Articol 23 Analysis of System Structure-Function Relationships ChemMedChem Volume 2, Issue 12, Date: December 10, 2007, Pages: 1774-1782 Anton F. Fliri, William T. Loging, Robert A. Volkmann Keywords biospectra • cellular response • drug design • proteins • structure-function relationships Abstract Preclinical pharmacology studies conducted with experimental medicines currently focus on assessments of drug effects attributed to a drug's putative mechanism of action. The high failure rate of medicines in clinical trials, however, underscores that the information gathered from these studies is insufficient for forecasting drug effect profiles actually observed in patients. Improving drug effect predictions and increasing success rates of new medicines in clinical trials are some of the key challenges currently faced by the pharmaceutical industry. Addressing these challenges requires development of new methods for capturing and comparing system-wide structure-effect information for medicines at the cellular and organism levels. The current investigation describes a strategy for moving in this direction by using six different descriptor sets for examining the relationship between molecular structure and broad effect information of 1064 medicines at the cellular and the organism level. To compare broad drug effect information between different medicines, information spectra for each of the 1064 medicines were created, and the similarity between information spectra was determined through hierarchical clustering. The structure-effect relationships ascertained through these comparisons indicate that information spectra similarity obtained through preclinical ligand binding experiments using a model proteome provide useful estimates for the broad drug effect profiles of these 1064 medicines in organisms. This premise is illustrated using the ligand binding profiles of selected medicines in the dataset as biomarkers for forecasting system-wide effect observations of medicines that were not included in the incipient 1064-medicine analysis.

53

Page 54: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Nr Articol 24 Synthesis, Antimicrobial and Antineoplastic Activities for Agelasine and Agelasimine Analogs

with a -Cyclocitral Derived Substituent Archiv der Pharmazie Volume 340, Issue 12, Date: December 2007, Pages: 625-634 Ágnes Proszenyák, Colin Charnock, Erik Hedner, Rolf Larsson, Lars Bohlin, Lise-Lotte Gundersen Funded by: The Norwegian Research Council; KOSK program; Grant Number: 165765/V30 The Swedish Research for Environment, Agricultural Science and Spatial Planning Keywords Agelasimine • Agelasine • Anti-cancer activity • Antimicrobial activity • -Cyclocitral Abstract Agelasines and agelasimines are antimicrobial and cytotoxic purine derivatives isolated from marine sponges (Agelas sp.). We have synthesized structurally simplified analogs of these natural products starting from -cyclocitral. The novel compounds were found to be strong inhibitors of a wide variety of pathogenic microorganisms (incl. Mycobacterium tuberculosis) as well as cancer cell lines. The biological activities were generally in the same range as those previously found for the structurally more complex agelasines and agelasimines isolated in small amounts from natural sources. We also report for the first time that agelasine and agelasimine analogs inhibit growth of protozoa (Acanthamoeba castellanii and Acanthamoeba polyphaga). Acanthamoeba keratitis is an increasingly common and severe corneal infection, closely associated with contact lens wear.

Nr Articol 25 Synthesis and Anticancer Activity of (R,S)-9-(2,3-Dihydro-1,4-Benzoxathiin-3-ylmethyl)-9H-

Purines ChemMedChem Early View Mónica Díaz-Gavilán, Ana Conejo-García, Olga Cruz-López, María C. Núñez, Duane Choquesillo-Lazarte, Josefa M. González-Pérez, Fernando Rodríguez-Serrano, Juan A. Marchal, Antonia Aránega, Miguel A. Gallo, Antonio Espinosa, Joaquín M. Campos Funded by: European Commission; Grant Number: MERG-CT-2005-030616 Instituto de Salud Carlos III; Grant Number: PI041206 Consejería de Innovación, Ciencia y Empresa of the Junta de Andalucía; Grant Number: 00636 Keywords antitumor compounds • benzoxathiines • microwave • mitsunobu reaction • nitrogen heterocycles Abstract A series of eleven 2- and 6-substituted (R,S)-9-(2,3-dihydro-1,4-benzoxathiin-3-ylmethyl)-9H-purine derivatives was obtained by applying a standard Mitsunobu protocol that led to a six-membered ring contraction from (R,S)-3,4-dihydro-2H-1,5-benzoxathiepin-3-ol via an episulfonium intermediate. The signal ~=151 ppm, which corresponds to the C4 carbon atom, is unequivocal proof of the N9 regioisomer. The potential of the target molecules as anticancer agents is reflected in their activity against the MCF-7 cancer cell line. The most active compounds have IC50 values of (6.18±1.70) and (8.97±0.83) M. The results indicate that the anticancer activity for the most active compounds is correlated with their capacity to induce apoptosis.

Nr Articol 26 Design, Synthesis, and Pharmacological Evaluation of Mefloquine-Based Ligands as Novel

Antituberculosis Agents ChemMedChem Volume 2, Issue 11, Date: November 12, 2007, Pages: 1624-1630 Jialin Mao, Yuehong Wang, Baojie Wan, Alan P. Kozikowski, Scott G. Franzblau Keywords

54

Page 55: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

hydrazones • ligand-based drug design • mefloquine • structure-activity relationships • tuberculosis Abstract Tuberculosis (TB) is presently regarded as one of the most dangerous infective diseases worldwide and one of the major AIDS-associated infections. To shorten the current treatment regimen, there is an urgent need to identify new anti-TB agents which are active against both replicating TB (R-TB) and nonreplicating TB (NRP-TB). Mefloquine, a well-known antimalarial drug was found to possess reasonable activity against NRP-TB, and accordingly, 30 new analogues were synthesized and evaluated for their anti-TB activity against Mycobacterium tuberculosis H37Rv. As the target of mefloquine in Mycobacterium tuberculosis remains unknown, we resorted to modifying mefloquine in a variety of chemically convenient ways, which led us in turn to the active hydrazone 10 a. Further modifications of 10 a led to compound 7 f, with an improved anti-TB activity/selectivity profile with both less cytotoxicity and less predicted CNS side effects compared with mefloquine. The clear structure-activity relationships (SARs) derived from this study should facilitate our ultimate goal of identifying improved anti-TB agents.

Nr Articol 27 Complexity in Modeling and Understanding Protonation States: Computational Titration of

HIV-1-Protease-Inhibitor Complexes Chemistry & Biodiversity Volume 4, Issue 11, Date: November 2007, Pages: 2564-2577 Ashutosh Tripathi, Micaela Fornabaio, Francesca Spyrakis, Andrea Mozzarelli, Pietro Cozzini, Glen E. Kellogg Keywords Hydropathic analysis • Free energy • Molecular modeling • Isocrystallographic models • HINT Force field • HIV • Computational titration • Proteinligand complex Abstract The computational-titration (CT) algorithm based on the natural Hydropathic INTeractions (HINT) force field is described. The HINT software model is an empirical, non-Newtonian force field derived from experimentally measured partition coefficients for solvent transfer between octanol and H2O (log Po/w). The CT algorithm allows the identification, modeling, and optimization of multiple protonation states of residues and ligand functional groups at the protein-ligand active site. The importance of taking into account pH and ionization states of residues, which strongly affect the process of ligand binding, for correctly predicting binding free energies is discussed. The application of the CT protocol to a set of six cyclic inhibitors in their complexes with HIV-1 protease is presented, and the advance of HINT as a virtual-screening tool is outlined.

Nr Articol 28 Structure-Activity Relationships for a Family of Benzothiophene Selective Estrogen Receptor

Modulators Including Raloxifene and Arzoxifene ChemMedChem Volume 2, Issue 10, Date: October 8, 2007, Pages: 1520-1526 Cassia R. Overk, Kuan-Wei Peng, Rezene T. Asghodom, Irida Kastrati, Daniel D. Lantvit, Zhihui Qin, Jonna Frasor, Judy L. Bolton, Gregory R. J. Thatcher Keywords cancer • chemoprevention • estradiol • estrogen receptor • hormone replacement therapy • SERM Abstract The search for the ideal selective estrogen receptor modulator (SERM) as a substitute for hormone replacement therapy (HRT) or use in cancer chemoprevention has focused on optimization of estrogen receptor (ER) ligand binding. Based on the clinical and preclinical benzothiophene SERMs, raloxifene and arzoxifene, a family of SERMs has been developed to modulate activity and oxidative lability. Antiestrogenic potency measured in human endometrial and breast cancer cells, and ER ligand binding data were correlated and seen to provide a guide to SERM design only when viewed in toto. The in vitro studies were extended to the juvenile rat model, in which the desired antiestrogenic profile and putative cardiovascular benefits of SERMs were observed.

55

Page 56: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

2007A6. Identificarea surselor de date şi metodologiilor de colectare (eşantionare, criterii de includere şi excludere în studiu), şi de experimentare

Derularea activităţii a fost asigurată de preocupările şi rezultatele anterioare ale colectivului de cercetare în ceea ce priveşte formularea de măsuri şi măsurabile pentru eşantionare şi volumul necesar al eşantionului pentru a da o anumită semnificaţie statistică rezultatului studiului (Bolboacă & Jäntschi, 2007-CRRF), cum datele trebuie înregistrate în vederea analizei (Bolboacă & others, 2008-RRAS). O serie de filtre s-au dovedit utile în identificarea surselor de date şi au fost folosite pentru includerea în studiu, acestea bazându-se pe analiza de similaritate (Bolboacă & Jäntschi, 2007-SAHZ; Bolboacă & Jäntschi, 2007-MCSC). Problematica designului experimental a ocupat un segment important al studiului, referind de la metodologia de prelevare a observaţiilor (Jäntschi & Bolboacă, 2007-HADR), la alegerea potrivită a scalei de reprezentare a observaţiilor (Bolboacă & Jäntschi, 2007-AAHS) la proiectarea experimentului (Bolboacă & Jäntschi, 2007-DoE) şi analiza de varianţă asociată acestuia (Bolboacă & others, 2009-AoV) şi la ipotezele cu privire la distribuţia erorii experimentale (Jäntschi & Bolboacă, 2009-OvO), acestea din urmă reprezentând rezultate noi obţinute din cercetarea desfăşurată în cadrul proiectului. Tehnica experimentului se bazează pe noţiunea de observaţie. Experimentele sunt întotdeauna empirice şi cu toate acestea uneori doar măsurătorile nu formează un experiment. Experimentele implică mai mult stabilirea unui anumit nivel de control şi manipularea unuia sau a mai multor factori de interes decât stabirirea cauzei şi efectului. Definiţia din dicţionar a experimentului este aceea de a determina eficacitatea unui lucru neîncercat anterior sau aceea de e examina validitatea unei ipoteze sau de a demonstra un adevăr cunoscut. Prima etapă în formularea unui experiment este definirea câtorva termeni, cum ar fi: ÷ Propoziţii, ipoteze ÷ Presupunerile ce trebuiesc făcute (ele determină scopul şi identifică domeniile care nu pot fi

investigate); ÷ Identificarea variabilei (variabilelor) dependente (sunt datele de ieşire, rezultate); ÷ Identificarea variabilelor independente (sunt datele de intrare care luate împreună formează

spaţiul experimental); ÷ Care din variabilele independente pot fi controlate; În general, statisticianul nu studiază un caracter al populaţiei pe întreaga mulţime de elemente, din mai multe motive, dintre care menţionăm următoarele: ÷ Talia populaţiei poate fi foarte mare sau chiar infinită ceea ce face imposibilă o “observare”

exhaustivă a întregii populaţii; ÷ Eşantioanele pot fi studiate mai rapid decât populaţiile; ÷ Studiul caracterului pe întreaga populaţie este frecvent imposibil, deoarece poate distruge

populaţia. ÷ În anumite situaţii nu se mai pot obţine informaţii decât despre o parte a populaţiei. ÷ Rezultatele observaţiilor pe eşantioane adesea sunt mai precise decât rezultatele bazate pe

observarea populaţiei în totalitate, deoarece la nivelul unui eşantion se controlează mai uşor procesul şi tehnicile de observare, acestea menţinându-se cu un efort mai mic în standardele de eroare acceptate.

÷ Costul şi resursele necesare (umane, materiale, etc.) pentru observarea exhaustivă a unei populaţii pot de asemenea să fie un motiv pentru utilizarea eşantioanelor.

Acestea sunt câteva raţiuni pentru care o populaţie este studiată cu ajutorul unei submulţimi a ei de talie mai mică care să permită un studiu exhaustiv al ei. Un bun eşantion trebuie să constituie o imagine adecvată şi fidelă a întregii populaţii pentru care se doreşte studierea unui caracter. În caz contrar, se spune că eşantionul este nereprezentativ, sau cu "bias". Alegerea eşantionului şi culegerea datelor constituie partea cea mai laborioasă. Modalitatea de alegere a eşantionului, principiile de eşantinare, criteriile de includere şi excludere precum şi

56

Page 57: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

modalitatea de culegere, colectare şi stocare a datelor trebuie să se regăsescă în protocolul cercetării. În scopul extrapolării rezultatelor la întreaga populaţie din cadrul căreia eşantionul a fost creat (obiectiv al statisticii inductive), acesta (adică eşantionul) trebuie să îndeplienască anumite criterii (trebuie să fie reprezentativ). Pentru a obţine reprezentativitatea un eşantion trebuie să îndeplinească următoarele condiţii: ÷ Reprezentativitatea prin taliei: condiţie de ordin cantitativ. Volumul eşantionului trebuie să fie

suficient de mare raportat la populaţia din care s-a extras. ÷ Reprezentativitatea prin caracteristici: condiţie de ordin calitativ. Eşantionul trebuie extras

aleator din populaţie pentru a cuprinde în mod proporţional totate caractericile popualţiei din care face parte.

Cel mai bun mijloc de a asigura că un eşantion va permite inferenţe corecte este utilizarea metodelor de eşantioanare probabilistică în obţinerea eşantionului. Această metodă, pentru fiecare subiect al populaţiei este cunoscută probabilitatea (şansa) de a fi inclus în eşantion. Patru metode de eşantionare sunt folosite pentru a obţine eşantioane probabiliste: ÷ eşantionarea simplu randomizată ÷ eşantionarea sistematică ÷ eşantionarea stratificată ÷ eşantionarea cluster. Eşantionarea simplă randomizată este o selecţie formată din subiecţi extraşi la întâmplare din populaţia statistică. Fiecare subiect are aceiaşi şansă de a fi inclus în eşantion. Astfel pentru obţinerea unui eşantion aleator se poate utiliza o metodă de randomizare bazată pe procedee de generare de numere aleatoare (de exemplu, funcţiile RAND sau RANDBETWEEN din Microsoft EXCEL). Prin această metodă, fiecare element al populaţiei primeşte un număr de identificare. Pentur eşantionare este dipsonibilă o listă de numere de identificare numită structură de eşantionare. Eşantionarea sistematică include tot al k-lea element din populaţie în eşantion. Numărul k se obţine împărţind talia populaţiei la talia dorită a eşantionului. Eşantionarea sistematică nu este indicat să fie folosită atunci când în structura de eşantionare ar putea apare o periodicitate. Există şi alte metode de metode de eşantionare mai complexe, cum ar fi, de exemplu, eşantionarea stratificată. Pentru aceasta, se împarte populaţia în mai multe subgrupe relevante numite straturi şi se constituie eşantionul prin extrageri aleatoare din straturi. Fiecare strat trebuie să fie reprezentat în eşantion în funcţie de importanţa sa în populaţie. Eşantionarea cluster. Un eşantion aleator de clusteri se obţine printr-un procedeu în două etape. Într-o primă etapă se împarte populaţia în clusteri şi ulterior se selectează aleator o submulţime de clusteri. În mod obişnuit alegerea clusterilor se bazează pe criterii geografice, iar acest procedeu este utilizat frecvent în studiile epidemiologice. Eşantionarea nonprobabilistă este aceia în care nu este cunoscută probabilitatea ca o entitate din populaţie să fie selectată. Eşantioanele obţinute în acest mod au frecvent bias de selecţie. Asignarea aleatoare. În anumite studii experimentale, prima dată, pe baza unor criterii subiecţii sunt selectaţi pentru a fi incluşi în studiu. Apoi fiecăruia dintre aceşti subiecţi trebuie să li se atribuie un anumit tratament. Dacă această atribuire a tratamentului este aleatoare atunci procedeul se numeşte atribuire aleatoare. Acest procedeu de asignare aleatoare are ca scop ca grupurile ce primesc diferite tratamente să fie cât mai asemănător posibil. Populaţia ţintă şi populaţia de disponibilă. În anumite studii, subiecţii incluşi în eşantionul de studiu nu aparţin întotdeauna populaţiei pentru care cercetătorul doreşte să generalizeze concluziile studiului. În locul acestei populaţii, numită populaţie ţintă, cercetătorul utilizează frecvent o populaţie de subiecţi disponibili care verifică anumite condiţii impuse. Această populaţie din care de fapt este prelevat eşantionul (sau eşantioanele) se numeşte populaţia disponibilă. Pentru a face inferenţe relativ la populaţia ţintă pe baza populaţiei disponibile, aceasta din urmă trebuie să fie reprezentativă pentru populaţia ţintă (cele mai importante caracteristici au aceiaşi distribuţie în populaţia ţinţă şi în populaţia disponibilă).

57

Page 58: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

In anumite tipuri de studii sunt necesare cel puţin două eşantioane. Aceste eşantioane pot fi extrase sau prelevate din populaţia ţintă în două feluri: dependent sau independent. In cazul eşantioanelor independente: ÷ prelevarea unuia nu influenţează prelevarea celuilalt, ÷ nu au, în general, acelaşi număr de unităţi. Un caz al eşantioanelor dependente este cel implicând două eşantioane, care se spune că sunt eşantioane de observaţii perechi dacă au aceiaşi talie şi unităţile unui eşantion sunt în corespondenţă bijectivă cu unităţile celuilalt eşantion. În domeniul medical, de exemplu, datele statistice au diverse provenienţe. Un prim tip este cel al datelor obţinute din măsurători, care rezultă pe baza unor determinări cantitative ale unor proprietăţi susceptibile să varieze, în principiu de o manieră continuă, cum ar fi, spre exemplu, înălţimea, greutatea, presiunea sangvină, glicemia. Alte date statistice rezultă din enumerare, operaţie care furnizează în mod necesar date întregi. Aceste date de enumerare se obţin de regulă ca fiind numărul de indivizi care îndeplinesc o anumită caracteristică, regula fiind stabilită în urma unor operaţii de clasificare după criterii bine stabilite. Rezultatele datelor de enumerare se exprimă frecvent sub forma de procente: rata de piese care îndeplinesc condiţiile calitative necesare vânzării a fost de 65,5%. O altă categorie de date sunt datele de înseriere (ordinale sau de ordonare), care reprezintă poziţia unor obiecte "clasament" stabilit după anumite criterii. Datele de ordonare sunt frecvent utilizate, cum este de exemplu pentru descriera calităţii unui produs. Clasificarea statistică a datelor Clasificarea statistică a datelor poate fi realizată ţinând seama de scalele de măsură utilizate. Astfel se disting următoarele scale de măsură: ÷ Scala nominală este o scală pentru măsurarea variabilelor calitative ce pot lua un număr finit de

valori. Scala nominală nu admite nici o proprietate aritmetică şi nici ordonarea valorilor. Datele evaluate după o scală nominală sunt numite observaţii calitative, deoarece ele descriu o

calitate a unui obiect studiat. Unele dintre aceste scale au doar două valori şi atunci observaţiile sunt binare. ÷ Scala ordinală este o scală utilizată în cazul variabilelor care pot lua valori într-o mulţime

discretă finită de valori. Nu au nici o proprietate aritmetică. Permite o ordonare a valorilor. ÷ Scala interval este o scală utilizată în cazul variabilelor cantitative continue (ce pot lua valori

într-un interval) şi pentru care diferenţa între două valori ale scalei are sens. ÷ Scala de tip raţie sau raport este utilizată în cazul variabilelor cantitative continue pentru care

atât diferenţa cât şi câtul a oricăror două valori de pe scală au sens. Această scală are un zero absolut. Nu acceptă valori negative.

Culegerea datelor Culegerea datelor se realizează în funcţie de: ÷ obiectivele propuse ÷ tipul studiului ÷ modalităţile de alegere a subiecţilor ÷ timpul disponibil ÷ resursele financiare şi umane disponibile ÷ procedura folosită ÷ accesul la date.

În funcţie de populaţia cuprinsă în studiu culegerea datelor poate fi: ÷ Exhaustivă - cuprinzând toţi subiecţii populaţiei ţintă. Din considerente financiare (costuri foarte

ridicate, echipă numeroasă necesară pentru culegerea datelor) şi/sau economice (distrugerea populaţiei de interes) culegerea exhaustivă a datelor este practic imposibilă.

÷ Prin eşantionare - alegând din populaţia ţintă sau din populaţia disponibilă un grup de subiecţi - eşantionul. Pentru caracteristicile eşantionului reprezentativ vezi textul anterior.

În funcţie de durata culegerii datelor poate fi:

58

Page 59: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ Transversală: studierea unui eşantion la un moment X determinat în timp şi/sau spaţiu. ÷ Longitudinală: studierea unui eşantion într-un interval de timp prestabilit. În culegerea de date

de tip longitudinal în funcţie de accesul la date culegerea poate fi: o Retrospectiv: din înregistrările anterioare (acolo unde este posibil), de la un moment

M la un moment N (unde M este posterior momentului N şi anterior momentului în care protocolul de cercetare a fost stabilit).

o Prospectiv: cercetare sistematică a datelor care se vor întâmpla de la un moment Y la un moment Z (unde momentul Y este anterior momentului Z şi posterior momentului în care protocolul de cercetare a fost stabilit)

Design-ul experimentului Ideea de design al experimentului a fost introdusă de Fisher în 1920 care a demonstrat utilitatea acestui concept în domeniul agriculturii, analizând problema de optimizare a recoltelor tinând cont de diverşi factori (apă, ploaie, soare, condiţii de sol). În 1986, Taguchi a continuat idea de design experimental, prin împartirea problemelor de optimizare în două categorii: ÷ Probleme statice (problemele în care există câţiva factori de control ce decid valoarea dorită a

funcţiei). Metode folosite în astfel de probleme sunt: o Aproximarea Smaller-the-Better este folosită când:

Valorea ideală pentru toate caracteristicile nedorite este zero Valoarea ideală este finită şi este definit maximul sau minimul ei

o Aproximarea Nominal-the-Best este folosită când este aăteptată o anumită valoare şi nu se doreşte nici maximul nici minimul;

o Aproximarea Larger-the-Better are la bază un model care cuprinde trei etape: proiectarea sistemului proiectarea parametrilor proiectarea toleranţelor.

În metoda Taguchi etapa de proiectare a sistemului, parametrilor şi a toleranţelor se face în aşa fel încât să se obţină un proiect ROBUST, adică insensibil, pe cât posibil, la variaţii normale ale mediului produsului.

În acest scop, Taguchi a introdus noţiunea de parametri critici de proiectare pentru acei parametri a căror variaţie influenţează foarte mult calitatea / funcţionalitatea produsului. În principiu, aceşti parametri trebuie controlaţi în proiect prin toleranţe foarte strânse, în timp ce restul parametrilor trebuie lăsaţi cu toleranţe relaxate pentru a scădea costurile. Taguchi propune abordarea problematicii prin 2 instrumente:

o Elaborarea funcţiei obiectiv pe baza unuia din modelele de mai sus o Tehnica experimentelor (metoda matricelor ortogonale) Metoda şirurilor ortogonale este o metodă de optimizare a proceselor industriale, care

asemenea altor tehnici de optimizare are ca şi obiective: o Profit maxim o Configuraţie cât mai bună a maşinilor o Alocare optimă a materialelor o Alocare optimă a forţelor de muncă în timp minim

Metoda Taguchi constă în următoarele etape: o identificarea factorilor controlabili şi necontrolabili o conceperea tabelelor de testare, separat pentru factorii controlabili şi cei necontrolabili o construirea matricei ortogonale a experimentelor prin combinarea tabelelor de testare pe

orizontală şi pe verticală o efectuarea experimentelor ce corespund fiecărei căsuţe din matricea ortogonală, pe

orizontală în tabloul factorilor controlabili şi pe verticală în tabloul factorilor necontrolabili

o calculul raportului semnal / zgomot pentru fiecare linie a matricei ortogonale. ÷ Probleme dinamice (există un parametru de intrare care decide rezultatul):

o Senzitivitatea pantei: panta trebuie să aiba o valoare dată (de obicei 1) când funcţia

59

Page 60: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

rezultat este: O caracteristică nedorită (poate fi tratată ca o problemă de tip Smaller-the-Better) O caracteristică dorită (poate fi tratată ca o problemă de tip Larger-the-Better)

o Linearitatea (Larger-the-Better): este folosită când caracteristicile dinamice trebuie sa aibă proporţionalitate între intrare şi rezultat.

De fapt obiectivul optimizării procesului de prelucrare ar fi: calitate maximă-pierderi minime-productivitate maximă. Pentru determinarea celor mai bune valori ale parametrilor implicaţi in procesul de prelucrare, se poate utiliza analiza factorială. În opoziţie cu analiza factorială, aproximarea lui Taguchi reduce numărul de experimente la un model rezonabil în termeni de cost şi timp, prin folosirea şirurilor ortogonale. Ea este utilizată în domenii diferite ca: fizică, chimie, ştiinţe agricole, statistică, management şi afaceri, medicină. Alegerea şirurilor ortogonale potrivite pentru problema studiată este principala dificultate a aproximării lui Taguchi. În literatura de specialitate sunt cunoscute multe şiruri ortogonale însă nu a fost găsită o schemă completă care să conţină toate şirurile ortogonale corespunzătoare chiar şi unui număr mic de experimente. Lista cu şirurile ortogonale frecvent utilizate este:

Experimente Scheme23 4 27 25

8

23

34 9 33

45 16 215

21×37 22×36

18

37 21×36 21×34 21×33 33 27

Şirurile ortogonale pot fi clasificate astfel: ÷ şiruri ortogonale cu nivel fix (toţi factorii au acelaşi număr de nivele) ÷ şiruri ortogonale cu nivel mixt (factorii au număr diferit de nivele) Problema de studiu Fiind dat un numar n de experimente, care este numărul maxim de variabile şi care este numărul de nivele pentru fiecare variabilă astfel încât să obţinem un şir ortogonal? S-au determinat şirurile ortogonale pentru un numar de 4, 6, 8, 9, 10, 12, 14, 15, şi 16 de experimente. Numărul de factori şi numărul de nivele corespunzător pentru fiecare sunt prezentaţi în tabelul de mai jos:

nexp nf L1 ∑MF1 L2 ∑MF2 L3 ∑MF3 nexp nf L1 ∑MF1 L2 ∑MF2 L3 ∑MF3 4 2 2 1 12 1 2 4

4 3

2 3 6 5 12 5

6 1 3 2 4 2 3 2 2 1 3 3 4 1 3 2 2 2

6 3

2 1 3 2 3 1 2 4 4 4 2 3 4 12 4 4 2 2 5 3 12 1 6 2

8 7

2 7 6 7 5 2 1 14 6 8 3 4 2 2 1 5 14 1 7 4

60

Page 61: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

61

8 1 4 3 2 2 8 5 4 3 4 8 1 4 1 2 4 5 5 3 2

4 6 15 1 3 6 8 3 2 2 5 2 3 5 8 2 2 3 5 1 3 6 8 1 4 3 2 1

7

3 7

5

8 1 2 4 15 1 5 5

4 8 4 5 6 5 3 5

15

6

5 3 3 3 9 4 15 2 15 9 2 3 2 14 4 1 2 13

9 4

9 1 3 3 8 1 2 12 6 10 1 5 5

13 4 2 2 11 10

3 5 2 2 1 12 16 1 2 11 11 2 11 10 16 1 8 1 2 8 10 4 1 2 9 4 9 9 4 2 2 7

9 4 3 2 6

4 4 2 3 7 8 7 4 3 2 4 16 5

7

3 7

16

5 16 2 2 3

4 6 4 3 3 1 2 2 4 2 3 1 2 3 3 4 2 2

12

6

3 3 2 3

nexp = numărul de experimente nf = numarul maxim de factori Li = niveluri associate cu factorul de ordinul i ∑MFi = numărul maxim de factori pentru un nivel specificat

Programarea lineară poate fi utilizată la construcţia şirurilor cu nivel fix în timp ce pentru construcţia şirurilor cu nivel mixt s-a folosit metoda înlocuirii. Analiza şirurilor ortogonale arată că un nou factor poate fi construit pe baza combinaţiei lineare a doi factori existenţi. Aşadar, un factor ce este independent de ceilalţi factori din şirurile ortogonale verifică relaţia:

(10)x·A + B, (100)x·A + (10)x·B + C, unde x reprezintă numărul de nivele, A, B şi C sunt elementele unui vector ca valorile ca modulo x (de la zero la nE - 1, nE = număr experimente. Rezultate: Pentru L8 s-au obţinut şirurile ortogonal din tabelul următor:

Factor(Nivele) L8(27) A(2) B(2) C(2) D(2) E(2) F(2) G(2)1 0 1 1 1 0 0 02 1 1 1 0 1 1 03 0 1 0 0 1 0 14 1 1 0 1 0 1 15 0 0 1 0 0 1 16 1 0 1 1 1 0 17 0 0 0 1 1 1 08 1 0 0 0 0 0 0

Şirul ortogonal L8 (41×25) s-a obţinut ca o combinaţie lineară a factorilor A şi B: Factor(Nivele) L8 (41×25) Y(2) C(2) D(2) E(2) F(2) G(2)

1 1 1 1 0 0 02 3 1 0 1 1 03 1 0 0 1 0 14 3 0 1 0 1 1

Page 62: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

5 0 1 0 0 1 16 2 1 1 1 0 17 0 0 1 1 1 08 2 0 0 0 0 0

Şirul ortogonal L8 (42×23) s-a obţinut prin combinaţia lineară a factorilor C şi D: Factor(Nivele) L8 (42×23)

Y(4) Z(4) E(4) F(4) G(4)1 1 3 0 0 02 3 2 1 1 03 1 0 1 0 14 3 1 0 1 15 0 2 0 1 16 2 3 1 0 17 0 1 1 1 08 2 0 0 0 0

Şirul ortogonal L8 (81×24 ) s-a obţinut prin combinaţia lineară a factorilor A, B şi C. Factor(Level) L8 (81×24) Q(8) D(2) E(2) F(2) G(2)

1 3 1 0 0 02 7 0 1 1 03 2 0 1 0 14 6 1 0 1 15 1 0 0 1 16 5 1 1 0 17 0 1 1 1 08 4 0 0 0 0

Deşi noii factori pot fi obţinuţi ca o combinaţie lineară nu se poate găsi numărul maxim al tuturor combinaţiilor posibile. De exemplu metoda propusă identifică un număr de 12 scheme ca fiind numărul maxim de şiruri ortogonal pentru L8: • Şapte factori: 44×23, 42×25, 27 • Saşe factori: 83×42×21, 81×43×22, 81×41×24, 46 • Cinci factor: 83×22, 82×23, 81×43×2, 81×24 • Patru factori: 84 Analog s-au obţinut celelalte şiruri ortogonale. În continuare se redau şirurile ortogonale obţinute:

Factori (nivele)L4 42×21 A(4) B(4) C(2)1 0 2 02 1 0 13 2 3 14 3 1 0

Factori (nivele) L423 A(2) B(2) C(2)1 0 1 0 2 1 1 1 3 0 0 1 4 1 0 0

Factori (nivele)L6 61×32 A(6) B(3) C(3)1 0 1 0

62

Page 63: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

2 1 1 23 2 0 14 3 2 25 4 2 06 5 0 1

Factori (nivele)33A(3) B(3) C(3)

1 0 1 12 1 0 23 2 2 24 0 1 15 1 2 06 2 0 0

Factori (nivele)32×21A(3) B(3) C(2)

1 1 1 02 1 1 13 2 0 04 2 2 15 0 2 06 0 0 1

Factori (nivele) L9 35 A(3) B(3) C(3) D(3) E(3)1 0 0 0 0 02 0 0 2 2 13 0 2 0 2 24 1 1 2 0 25 1 2 1 0 16 1 2 2 1 07 2 0 1 1 28 2 1 0 1 19 2 1 1 2 0

Factor (levels) L994 A(9) B(9) C(9) D(9)1 0 0 7 52 1 8 0 43 2 1 1 14 3 7 8 65 4 6 6 06 5 5 3 77 6 2 2 88 7 4 5 39 8 3 4 2

Factori (nivele) L9 92×32 A(9) B(9) C(3) D(3)1 0 1 1 02 1 2 0 23 2 4 2 14 3 7 2 25 4 8 1 1

63

Page 64: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

64

6 5 6 0 07 6 5 1 08 7 3 0 29 8 0 2 1

Factori (nivele) L9 91×33 A(9) B(3) C(3) D(3)1 0 1 1 12 1 1 0 03 2 0 2 24 3 1 0 25 4 2 2 16 5 2 1 07 6 0 2 08 7 2 1 29 8 0 0 1

Factori (nivele) L10 101×55 A(10) B(5) C(5) D(5) E(5) F(5)1 0 0 0 0 2 22 1 0 4 4 2 23 2 4 4 1 0 34 3 4 0 3 1 05 4 3 1 4 3 46 5 3 3 0 4 17 6 2 3 2 4 18 7 2 1 2 3 49 8 1 2 3 1 010 9 1 2 1 0 3

Factori (nivele)L10 52×21 A(5) B(5) C(2)1 0 0 12 1 0 03 2 1 14 3 1 05 4 2 16 0 4 07 1 4 18 2 3 09 3 3 110 4 2 0

Factori (nivele) L12 211 A(2) B(2) C(2) D(2) E(2) F(2) G(2) H(2) I(2) J(2) K(2) 1 0 1 1 1 1 1 0 0 0 0 0 2 1 1 1 1 0 0 1 1 1 0 0 3 0 1 1 0 0 0 1 0 0 1 1 4 1 1 0 1 1 0 0 1 0 1 1 5 0 1 0 0 0 1 0 1 1 1 0 6 1 1 0 0 1 1 1 0 1 0 1 7 0 0 1 0 1 0 0 1 1 0 1 8 1 0 1 1 0 1 0 0 1 1 1 9 0 0 0 1 1 0 1 0 1 1 0

Page 65: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

65

10 1 0 1 0 1 1 1 1 0 1 0 11 0 0 0 1 0 1 1 1 0 0 1 12 1 0 0 0 0 0 0 0 0 0 0

Factori (nivele) L12 41×29 A(4) B(2) C(2) D(2) E(2) F(2) G(2) H(2) I(2) J(2) 1 0 0 1 1 1 1 1 0 0 0 2 0 1 1 1 1 0 0 1 1 1 3 3 0 1 1 0 0 0 1 0 0 4 3 1 1 0 1 1 0 0 1 0 5 1 0 1 0 0 0 1 0 1 1 6 2 1 1 0 0 1 1 1 0 1 7 2 0 0 1 0 1 0 0 1 1 8 3 1 0 1 1 0 1 0 0 1 9 1 0 0 0 1 1 0 1 0 1 10 1 1 0 1 0 1 1 1 1 0 11 2 0 0 0 1 0 1 1 1 0 12 0 1 0 0 0 0 0 0 0 0

Factori (nivele) L12 42×27 A(4) B(4) C(2) D(2) E(2) F(2) G(2) H(2) I(2) 1 0 0 0 1 1 1 1 1 0 2 1 1 1 1 1 1 0 0 1 3 2 2 0 1 1 0 0 0 1 4 2 3 1 1 0 1 1 0 0 5 1 3 0 1 0 0 0 1 0 6 3 0 1 1 0 0 1 1 1 7 3 1 0 0 1 0 1 0 0 8 3 2 1 0 1 1 0 1 0 9 1 2 0 0 0 1 1 0 1 10 0 3 1 0 1 0 1 1 1 11 2 1 0 0 0 1 0 1 1 12 0 0 1 0 0 0 0 0 0

Factori (nivele) L12 44×23 A(4) B(4) C(4) D(4) E(2) F(2) G(2)1 1 1 1 2 0 1 12 1 1 1 2 1 1 13 0 2 2 0 0 1 14 1 2 3 3 1 1 05 3 0 2 1 0 1 06 3 3 0 1 1 1 07 3 2 0 2 0 0 18 2 0 2 3 1 0 19 0 3 1 3 0 0 010 2 3 3 0 1 0 111 2 1 3 1 0 0 012 0 0 0 0 1 0 0

Factori (nivele) L12 43×24 A(4) B(4) C(4) D(2) E(2) F(2) G(2)1 1 1 0 0 1 1 12 1 1 3 1 1 1 13 0 2 1 0 1 1 0

Page 66: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

66

4 2 0 2 1 1 0 15 3 2 1 0 1 0 06 2 3 2 1 1 0 07 3 0 3 0 0 1 08 3 3 0 1 0 1 19 0 3 3 0 0 0 110 1 2 2 1 0 1 011 2 1 1 0 0 0 112 0 0 0 1 0 0 0

Factori (nivele) L12 37 A(3) B(3) C(3) D(3) E(3) F(3) G(3)

1 0 1 1 1 1 1 02 1 1 1 1 0 2 13 2 1 1 1 1 1 24 0 0 0 0 2 2 25 1 1 1 1 2 0 16 2 0 2 2 1 1 27 0 0 2 2 1 1 08 1 2 0 2 0 2 19 2 2 2 0 2 2 010 0 2 2 0 0 0 211 1 2 0 2 2 0 112 2 0 0 0 0 0 0

Factori (nivele) L12 34×22 A(3) B(3) C(3) D(3) E(2) F(2)1 1 1 1 1 0 12 1 1 1 1 1 13 1 1 1 0 0 14 1 1 1 0 1 15 0 0 2 2 0 16 2 2 0 2 1 17 0 2 0 1 0 08 0 2 2 2 1 09 2 0 0 2 0 010 2 0 2 1 1 011 2 2 2 0 0 012 0 0 0 0 1 0

Factori (nivele) L12 33×23 A(3) B(3) C(3) D(2) E(2) F(2)

1 1 1 1 0 1 12 1 1 0 1 1 13 0 0 2 0 1 14 1 1 1 1 1 05 1 1 0 0 1 06 2 2 2 1 1 07 2 2 0 0 0 18 0 2 1 1 0 19 0 2 2 0 0 010 2 0 2 1 0 111 2 0 1 0 0 0

Page 67: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

67

12 0 0 0 1 0 0

Factori (nivele) L12 43×31×22 A(4) B(4) C(4) D(3) E(2) F(2)1 1 1 1 1 0 12 1 1 1 1 1 13 1 0 2 2 0 14 0 3 2 2 1 15 3 2 0 0 0 16 3 2 3 0 1 17 0 3 3 0 0 08 2 2 1 1 1 09 2 0 3 1 0 010 3 1 2 2 1 011 2 3 0 2 0 012 0 0 0 0 1 0

Factori (nivele) L12 42×31×23 A(4) B(4) C(3) D(2) E(2) F(2)1 1 1 1 0 1 12 1 1 2 1 1 13 0 2 0 0 1 14 1 2 1 1 1 05 3 0 2 0 1 06 3 3 0 1 1 07 3 2 0 0 0 18 2 0 1 1 0 19 0 3 2 0 0 010 2 3 2 1 0 111 2 1 1 0 0 012 0 0 0 1 0 0

Factori (nivele) L12 46 A(4) B(4) C(4) D(4) E(4) F(4)

1 0 0 0 0 0 22 1 0 0 3 3 03 2 0 3 0 3 14 3 1 1 3 1 35 0 1 3 3 0 26 1 3 0 1 3 37 2 1 3 1 2 28 3 2 1 0 0 19 0 3 2 1 2 110 1 3 2 2 1 011 2 2 2 2 2 312 3 2 1 2 1 0

Factori (nivele) L12 121×24 A(12) B(2) C(2) D(2) E(2)1 0 1 1 1 02 1 1 0 0 13 2 0 1 0 04 3 0 0 1 05 4 0 0 1 1

Page 68: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

68

6 5 1 0 0 17 6 0 1 0 18 7 0 1 1 19 8 1 1 0 010 9 1 0 1 011 10 1 1 1 112 11 0 0 0 0

Factori (nivele) L12 65 A(6) B(6) C(6) D(6) E(6)

1 0 0 0 0 32 1 0 5 5 03 2 1 0 5 44 3 1 5 0 25 4 2 4 1 56 5 2 2 4 37 0 5 4 2 48 1 5 1 2 09 2 4 3 4 510 3 4 3 3 111 4 3 2 3 212 5 3 1 1 1

Factori (nivele) L12 42×32×21 A(4) B(4) C(3) D(3) E(2)1 1 1 0 1 12 1 1 1 1 13 1 2 2 1 04 0 2 0 0 15 3 0 1 1 06 3 2 2 0 17 3 3 0 0 08 0 3 1 2 09 2 3 2 2 110 2 1 0 2 011 2 0 1 2 112 0 0 2 0 0

Factori (nivele) L12 41×32×22 A(4) B(3) C(3) D(2) E(2)1 1 1 1 0 12 2 1 1 1 13 1 1 1 0 14 2 1 1 1 15 3 0 0 0 16 0 2 2 1 17 1 0 2 0 08 2 0 2 1 09 0 2 0 0 010 3 2 0 1 011 3 2 2 0 012 0 0 0 1 0

Factori (nivele) L12

Page 69: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

69

31×24 A(3) B(2) C(2) D(2) E(2)1 1 0 1 1 12 1 1 1 1 13 0 0 1 1 04 0 1 1 0 15 2 0 1 0 06 2 1 1 0 07 1 0 0 1 08 2 1 0 1 19 0 0 0 0 110 1 1 0 1 011 2 0 0 0 112 0 1 0 0 0

Factori (nivele) L12 124 A(12) B(12) C(12) D(12)1 0 0 0 02 1 1 10 113 2 11 1 104 3 10 11 15 4 9 2 76 5 2 9 67 6 8 7 58 7 7 8 29 8 6 5 410 9 5 6 811 10 3 4 912 11 4 3 3

Factori (nivele) L12 121×62 A(12) B(6) C(6)1 0 1 12 1 1 13 2 0 54 3 4 55 4 5 26 5 5 07 6 4 28 7 3 39 8 3 410 9 2 411 10 2 312 11 0 0

Factori (nivele) L14 75×21 B(7) C(7) D(7) E(7) F(7) A(2)1 0 0 0 0 5 02 0 0 6 4 1 13 1 6 0 6 0 04 1 6 1 2 5 15 2 1 4 5 2 06 2 5 5 0 2 17 3 5 6 1 3 0

Page 70: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

70

8 3 4 4 6 4 19 4 4 5 3 6 010 4 1 2 5 6 111 5 2 3 2 1 012 5 3 2 3 3 113 6 3 3 4 4 014 6 2 1 1 0 1

Factori (nivele) L14 141×74 A(14) B(7) C(7) D(7) E(7)1 0 0 0 0 02 1 0 5 5 63 2 6 0 6 44 3 1 5 4 35 4 6 1 0 66 5 5 6 1 47 6 5 6 3 18 7 4 3 6 09 8 3 4 1 110 9 4 4 3 211 10 3 1 5 212 11 1 2 4 513 12 2 3 2 514 13 2 2 2 3

Factori (nivele) L15 54×33 A(5) B(5) C(5) D(5) E(3) F(3) G(3) H(3) 1 0 0 0 0 0 0 0 1 2 1 0 0 2 2 2 2 0 3 2 0 4 3 0 1 2 2 4 3 1 4 3 1 0 0 0 5 4 1 0 4 2 0 1 2 6 0 1 4 2 2 2 1 1 7 1 4 1 4 1 2 0 2 8 2 2 3 1 1 1 0 2 9 3 2 1 3 0 2 1 1 10 4 2 3 1 1 1 2 1 11 0 4 2 4 0 0 2 0 12 1 4 2 0 2 0 2 2 13 2 3 3 2 2 1 0 0 14 3 3 2 0 0 2 1 1 15 4 3 1 1 1 1 1 0

Factori (nivele) L15 151×36 A(15) B(3) C(3) D(3) E(3) F(3) G(3)1 0 0 0 0 0 1 12 1 0 0 2 1 0 13 2 0 2 0 2 2 14 3 2 2 2 0 2 05 4 2 2 0 1 1 26 5 2 0 2 2 1 07 6 2 1 1 0 0 28 7 2 0 1 2 2 2

Page 71: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

71

9 8 0 2 2 2 1 110 9 1 2 1 1 0 011 10 1 1 1 0 1 112 11 1 1 1 2 0 213 12 1 1 0 1 0 014 13 1 0 0 1 2 015 14 0 1 2 0 2 2

Factori (nivele) L15 55×32 A(5) B(5) C(5) D(5) E(5) F(3) G(3)1 0 0 0 0 0 0 02 1 0 0 2 3 2 23 2 0 4 3 4 0 14 3 1 4 3 0 2 05 4 1 0 4 4 1 06 0 1 4 2 3 1 27 1 4 1 4 2 1 18 2 2 3 1 1 2 19 3 2 1 3 0 2 210 4 2 3 1 1 0 211 0 4 2 4 1 0 112 1 4 2 0 4 2 113 2 3 3 2 2 1 014 3 3 2 0 3 1 015 4 3 1 1 2 0 2

Factori (nivele) L15 52×35 A(5) B(5) C(3) D(3) E(3) F(3) G(3)1 0 0 0 0 0 0 02 1 0 0 0 2 2 23 2 0 2 2 0 0 24 3 1 0 2 1 1 25 4 1 2 0 0 2 06 0 1 2 2 2 2 07 1 4 0 2 0 1 18 2 2 2 1 2 0 19 3 2 1 2 1 1 010 4 2 1 1 1 2 211 0 4 2 0 1 1 212 1 4 1 1 0 2 113 2 3 1 1 2 0 114 3 3 0 1 2 1 015 4 3 1 0 1 0 1

Factori (nivele) L15 51×36 A(5) B(3) C(3) D(3) E(3) F(3) G(3)1 0 0 0 0 0 0 02 1 0 0 2 2 1 13 2 0 0 0 2 2 24 3 0 2 2 0 0 25 4 0 2 0 0 2 06 0 1 2 2 1 2 17 1 1 2 1 2 0 0

Page 72: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

72

8 2 1 2 0 2 1 29 3 1 0 2 0 1 210 4 1 1 2 2 1 011 0 2 1 1 0 2 112 1 2 1 1 1 0 113 2 2 1 1 1 2 114 3 2 1 0 1 0 215 4 2 0 1 1 1 0

Factori (nivele) L15 37 A(3) B(3) C(3) D(3) E(3) F(3) G(3)

1 0 0 0 0 0 0 12 1 0 0 0 2 2 03 2 0 0 2 0 1 24 0 0 2 2 0 2 15 1 0 2 0 2 0 16 2 1 0 2 2 0 17 0 1 2 2 2 0 28 1 1 1 2 1 2 09 2 1 2 0 1 2 210 0 2 0 1 2 2 211 1 2 1 0 0 1 212 2 1 2 1 1 1 013 0 2 1 1 1 1 014 1 2 1 1 0 0 015 2 2 1 1 1 1 1

Factori (nivele) L15 151×55 A(15) B(5) C(5) D(5) E(5) F(5)1 0 0 0 0 0 02 1 0 4 3 3 33 2 0 2 3 3 44 3 4 0 4 2 15 4 4 0 1 4 36 5 4 4 0 0 47 6 3 4 0 3 08 7 3 3 3 2 29 8 3 2 4 1 210 9 2 3 4 2 011 10 2 2 1 4 112 11 2 1 2 0 413 12 1 3 2 1 114 13 1 1 2 1 215 14 1 1 1 4 3

Factori (nivele) L15 56 A(5) B(5) C(5) D(5) E(5) F(5)

1 0 0 0 0 0 02 1 0 0 4 3 23 2 0 4 0 4 34 3 1 4 0 0 35 4 1 0 2 4 46 0 1 4 4 3 2

Page 73: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

73

7 1 4 1 1 2 48 2 2 3 4 1 19 3 2 1 3 0 310 4 2 3 3 1 111 0 4 2 2 1 412 1 4 2 1 4 013 2 3 3 3 2 214 3 3 2 1 3 015 4 3 1 2 2 1

Factori (nivele) L15 53×33 A(5) B(5) C(5) D(3) E(3) F(3)1 0 0 0 0 0 02 1 0 0 2 2 23 2 0 4 0 0 24 3 1 4 0 2 05 4 1 0 2 1 06 0 1 4 2 2 17 1 4 1 0 2 08 2 2 3 2 0 19 3 2 1 0 1 210 4 2 3 1 2 111 0 4 2 1 1 212 1 4 2 1 1 113 2 3 3 2 0 014 3 3 2 1 0 115 4 3 1 1 1 2

Factori (nivele) L16 215 A(2) B(2) C(2) D(2) E(2) F(2) G(2) H(2) I(2) J(2) K(2) L(2) M(2) N(2) O(2)1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 02 1 1 1 1 1 0 0 0 1 1 1 1 0 0 03 0 1 1 1 0 0 0 0 1 0 0 0 1 1 14 1 1 1 0 0 1 1 0 0 1 1 0 1 1 05 0 1 0 0 1 1 0 0 0 1 0 1 1 0 16 1 1 0 1 0 1 0 1 0 0 1 1 0 1 17 0 1 0 0 0 0 1 1 1 1 1 0 0 0 18 1 1 0 0 1 0 1 1 1 0 0 1 1 1 09 0 0 1 0 1 0 1 0 0 0 1 1 0 1 110 1 0 1 1 0 0 1 1 0 1 0 1 1 0 111 0 0 1 0 0 1 0 1 1 1 0 1 0 1 012 1 0 1 0 1 1 0 1 1 0 1 0 1 0 113 0 0 0 1 1 0 0 1 0 1 1 0 1 1 014 1 0 0 1 1 1 1 0 1 1 0 0 0 1 115 0 0 0 1 0 1 1 0 1 0 1 1 1 0 016 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Factori (nivele) L16 41×213 A(4) B(2) C(2) D(2) E(2) F(2) G(2) H(2) I(2) J(2) K(2) L(2) M(2) N(2)1 0 0 0 0 0 0 0 0 0 0 0 0 0 02 1 0 0 0 0 0 0 1 1 1 1 1 1 13 2 0 0 0 1 1 1 0 0 0 1 1 1 14 3 0 0 0 1 1 1 1 1 1 0 0 0 0

Page 74: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

74

5 0 0 1 1 0 1 1 0 1 1 0 0 1 16 1 0 1 1 0 1 1 1 0 0 1 1 0 07 2 0 1 1 1 0 0 0 1 1 1 1 0 08 3 0 1 1 1 0 0 1 0 0 0 0 1 19 0 1 0 1 1 0 1 1 0 1 0 1 0 110 1 1 0 1 1 0 1 0 1 0 1 0 1 011 2 1 0 1 0 1 0 1 0 1 1 0 1 012 3 1 0 1 0 1 0 0 1 0 0 1 0 113 0 1 1 0 1 1 0 1 1 0 0 1 1 014 1 1 1 0 1 1 0 0 0 1 1 0 0 115 2 1 1 0 0 0 1 1 1 0 1 0 0 116 3 1 1 0 0 0 1 0 0 1 0 1 1 0

Factori (nivele) L16 81×212 A(8) B(2) C(2) D(2) E(2) F(2) G(2) H(2) I(2) J(2) K(2) L(2) M(2) 1 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 0 0 0 0 1 1 1 1 1 1 1 3 2 0 0 1 1 1 0 0 0 1 1 1 1 4 3 0 0 1 1 1 1 1 1 0 0 0 0 5 4 0 1 0 1 1 0 1 1 0 0 1 1 6 5 0 1 0 1 1 1 0 0 1 1 0 0 7 6 0 1 1 0 0 0 1 1 1 1 0 0 8 7 0 1 1 0 0 1 0 0 0 0 1 1 9 0 1 1 1 0 1 1 0 1 0 1 0 1 10 1 1 1 1 0 1 0 1 0 1 0 1 0 11 2 1 1 0 1 0 1 0 1 1 0 1 0 12 3 1 1 0 1 0 0 1 0 0 1 0 1 13 4 1 0 1 1 0 1 1 0 0 1 1 0 14 5 1 0 1 1 0 0 0 1 1 0 0 1 15 6 1 0 0 0 1 1 1 0 1 0 0 1 16 7 1 0 0 0 1 0 0 1 0 1 1 0

Factori (nivele) L16 42×211 A(4) B(4) C(2) D(2) E(2) F(2) G(2) H(2) I(2) J(2) K(2) L(2) M(2) 1 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 0 0 0 0 1 1 1 1 1 1 1 3 2 0 0 1 1 1 0 0 0 1 1 1 1 4 3 0 0 1 1 1 1 1 1 0 0 0 0 5 0 1 1 0 1 1 0 1 1 0 0 1 1 6 1 1 1 0 1 1 1 0 0 1 1 0 0 7 2 1 1 1 0 0 0 1 1 1 1 0 0 8 3 1 1 1 0 0 1 0 0 0 0 1 1 9 0 2 1 1 0 1 1 0 1 0 1 0 1 10 1 2 1 1 0 1 0 1 0 1 0 1 0 11 2 2 1 0 1 0 1 0 1 1 0 1 0 12 3 2 1 0 1 0 0 1 0 0 1 0 1 13 0 3 0 1 1 0 1 1 0 0 1 1 0 14 1 3 0 1 1 0 0 0 1 1 0 0 1 15 2 3 0 0 0 1 1 1 0 1 0 0 1 16 3 3 0 0 0 1 0 0 1 0 1 1 0

Factori (nivele) L16 16×211 A(16) B(2) C(2) D(2) E(2) F(2) G(2) H(2) I(2) J(2) K(2) L(2)

Page 75: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

75

1 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 0 0 0 1 1 1 1 1 1 1 3 2 0 1 1 1 0 0 0 1 1 1 1 4 3 0 1 1 1 1 1 1 0 0 0 0 5 4 1 0 1 1 0 1 1 0 0 1 1 6 5 1 0 1 1 1 0 0 1 1 0 0 7 6 1 1 0 0 0 1 1 1 1 0 0 8 7 1 1 0 0 1 0 0 0 0 1 1 9 8 1 1 0 1 1 0 1 0 1 0 1 10 9 1 1 0 1 0 1 0 1 0 1 0 11 10 1 0 1 0 1 0 1 1 0 1 0 12 11 1 0 1 0 0 1 0 0 1 0 1 13 12 0 1 1 0 1 1 0 0 1 1 0 14 13 0 1 1 0 0 0 1 1 0 0 1 15 14 0 0 0 1 1 1 0 1 0 0 1 16 15 0 0 0 1 0 0 1 0 1 1 0

Factori (nivele) L16 16×8×28 A(16) B(8) C(2) D(2) E(2) F(2) G(2) H(2) I(2) J(2) 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0 0 1 1 1 1 1 1 3 2 1 0 1 0 0 0 1 1 1 4 3 1 1 1 1 1 1 0 0 0 5 4 2 1 1 0 1 1 0 1 1 6 5 2 1 1 1 0 0 1 0 0 7 6 3 1 0 1 0 1 1 0 1 8 7 3 1 0 0 1 0 0 1 0 9 8 7 0 0 0 1 1 1 0 0 10 9 7 1 0 1 0 0 0 1 1 11 10 6 0 1 1 0 1 0 1 0 12 11 6 1 1 0 1 0 1 0 1 13 12 5 0 1 1 1 0 1 1 0 14 13 5 0 1 0 0 1 0 0 1 15 14 4 0 0 1 1 0 0 0 1 16 15 4 1 0 0 0 1 1 1 0

Factori (nivele) L1649 A(4) B(4) C(4) D(4) E(4) F(4) G(4) H(4) I(4)

1 0 0 0 0 0 0 0 2 2 2 1 0 0 0 3 2 3 0 2 3 2 0 0 3 2 3 1 3 0 4 3 0 3 2 0 0 1 1 0 5 0 1 3 2 0 3 3 2 3 6 1 1 3 1 3 0 3 3 1 7 2 1 3 1 1 3 1 0 2 8 3 1 2 2 3 1 1 2 3 9 0 2 2 3 2 1 0 0 2 10 1 2 2 1 3 3 0 1 0 11 2 2 0 3 0 2 3 1 1 12 3 2 1 2 2 1 2 2 3 13 0 3 1 3 2 0 2 1 1 14 1 3 2 0 1 2 2 3 0

Page 76: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

76

15 2 3 1 1 1 2 0 3 3 16 3 3 1 0 1 1 2 0 1

Factori (nivele) L16 43×26 A(4) B(4) C(4) D(2) E(2) F(2) G(2) H(2) I(2) 1 0 0 0 0 0 0 0 0 0 2 1 0 0 0 1 1 1 1 1 3 2 0 3 0 0 0 0 1 1 4 3 0 2 1 0 1 1 0 1 5 0 1 2 1 1 0 1 1 0 6 1 1 1 1 0 1 0 1 0 7 2 1 1 1 1 0 1 0 1 8 3 1 2 1 1 0 0 0 0 9 0 2 3 1 1 1 0 1 1 10 1 2 1 0 1 1 1 0 0 11 2 2 3 0 1 1 0 0 0 12 3 2 2 0 0 1 1 1 0 13 0 3 3 0 0 0 1 0 1 14 1 3 0 1 0 1 0 0 1 15 2 3 1 1 0 0 1 1 0 16 3 3 0 0 1 0 0 1 1

Factori (nivele) L16 87 A(8) B(8) C(8) D(8) E(8) F(8) G(8)

1 0 0 0 0 0 0 32 1 0 0 7 7 7 43 2 1 7 0 7 4 54 3 1 7 7 0 5 35 4 2 6 1 5 4 16 5 2 6 6 1 2 47 6 3 1 6 4 1 68 7 3 3 5 5 2 09 0 7 5 5 4 0 210 1 7 3 4 3 5 711 2 6 5 4 6 3 212 3 6 1 3 3 6 113 4 5 4 3 2 3 714 5 5 2 2 1 6 015 6 4 4 1 2 7 616 7 4 2 2 6 1 5

Factori (nivele) L16 165 A(16) B(16) C(16) D(16) E(16)1 0 0 0 0 02 1 1 13 9 143 2 2 12 13 84 3 15 1 1 155 4 14 2 15 36 5 13 15 2 17 6 12 14 8 78 7 11 3 14 109 8 10 11 11 210 9 3 4 12 12

Page 77: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

11 10 9 9 4 1112 11 8 10 3 1313 12 7 7 7 914 13 4 8 6 515 14 6 5 10 416 15 5 6 5 6

Factori (nivele) L16 162×23 A(16) B(16) C(2) D(2) E(2)1 0 0 0 0 02 1 13 0 1 13 2 12 1 0 14 3 1 0 1 15 4 2 1 0 06 5 15 0 1 0â7 6 14 1 0 08 7 3 1 1 19 8 11 1 0 110 9 4 1 1 011 10 9 1 1 012 11 10 0 1 013 12 7 0 0 114 13 8 0 0 115 14 5 1 1 116 15 6 0 0 0

În comparaţie cu şirurile orthogonale cunoscute, şirurile ortogonale rezultate au avantajul că permit investigarea unui mare număr de factori cu nivele diferite. Având o listă cu toate mulţimile posibile de şiruri ortogonale pentru un număr dat de experimente, design-ul experimental poate fi imbunătăţit sau simplificat. O optimizare bună a designului unui experiment poate fi obţinută folosind unu număr mare de nivele si un număr mic de experimente. Trebuie menţionat că prin algoritmul testat odată ce numărul de experimente creşte, timpul pentru generarea numărului maxim de şiruri ortogonale creşte şi el. În definirea populaţiilor statistice, care intervin în diferite studii trebuie stabilite cu claritate: ÷ criteriile de includere (condiţiile în care o entitate este un element al populaţiei) ÷ criteriile de excludere (condiţiile în care o entitate nu aparţine populaţiei).

2008A1. Identificarea metodelor de analiză O serie de materiale tratând subiectul analizelor chimice şi instrumentale realizate în scopul identificării proprietăţilor şi activităţilor substanţelor chimice cu activitate biologică şi potenţă farmaceutică (Jäntschi, 2002-CIA; Jäntschi, 2003-MTPS; Jäntschi, 2003-MME; Jäntschi, 2003-CIA; Jäntschi & Bolboacă, 2003-ACIA; Pică & others, 2004-ASOC; Pică & others, 2004-OCAS; Jäntschi, 2005-MTPS) şi în acelaşi timp derularea activităţii a permis capitalizarea rezultatelor de identificare a metodelor de analiză în două noi studii Cosma & others, 2008-IMCC; Suciu & others, 2008-HMPP). Chimie Matematică Studiul sistematic prin instrumente specifice de chimie matematică a fost iniţiat de Crum-Brown şi Fraser în 1868 prin lucrarea [On the connection between chemical constitution and physiological action. Part 1. On the physiological action of the salts of the ammonium bases, derived from Strychnia, Brucia, Thebia, Codeia, Morphia, and Nicotia, Trans R Soc Edinb 25:151-203]. Un pas important în domeniul chimie matematice s-a făcut prin introducerea noţiunii de graf de

77

Page 78: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

către Sylvester în 1874 prin lucrarea [On an Application of the New Atomic Theory to the Graphical Representation of the Invariants and Covariants of Binary Quantics - With Three Appendices, Am J Math, 1, 64-90] şi odată cu aceasta s-au deschis posibilităţile de explorare a topologiei moleculare. O serie de monografii au revizuit şi complectat de-a lungul timpului conceptele de teoria grafurilor [(Harary, 1969): Graph Theory, Addison - Wesley, Reading, MA], aplicaţiile grafurilor în chimie [(Kier şi Hall, 1976): Molecular Connectivity in Chemistry and Drug Research, Acad Press, New York, NY], teoria grafurilor chimice [(Trinajstic, 1983): Chemical Graph Theory, CRC Press, Boca Raton, FL], şi ceea ce facem referire a fi topologia moleculară [(Diudea şi alţii, 2001 & 2002): Molecular Topology, Nova, Hutington, NY]. Modelele matematice ale structurii chimice includ: ÷ reprezentarea tridimensională (şi aici se face apel la Chimia Cuantică); ÷ reprezentarea bidimensională (sub formă de formule structurale) numite grafuri moleculare; ÷ reprezentarea sub formă de grafuri neorientate în care vârfurile sunt atomi şi legăturile sunt

muchii; Teoria grafurilor aplicată în studiul structurilor moleculare reprezintă o ştiinţă interdisciplinară, numită teoria grafurilor chimice sau topologie moleculară. Prin utilizarea instrumentelor imprumutate din teoria grafurilor, teoria seturilor şi statistică se încearcă identificarea facilităţilor structurale implicate în relaţiile structură-activitate. Partiţia proprietăţii moleculare şi recombinarea valorilor sale fragmentale prin modele aditive este unul dintre obiectivele principale. Caracterizarea topologică a structurilor chimice permite clasificarea moleculelor şi modelarea structurilor necunoscute cu proprietăţi dorite. Noţiuni prealabile ÷ Observaţie - o activitate ce consistă în recepţionarea cunoaşterii prin intermediul simţurilor sau

al instrumentelor: o Observaţia presupune existenţa unui observator şi a unei observabile; o Recepţionarea cunoaşterii presupune abstractizarea rezultatului observaţiei;

÷ Măsurare - o activitate ce presupune executarea a două operaţii: observarea şi înregistrarea rezultatelor observaţiei şi depinde de:

o natura obiectului (material) observat; o natura fenomenului (imaterial) observat; o de modalitatea de măsurare şi înregistrare a rezultatelor observaţiei.

÷ Element (`e`): un obiect al unei observaţii sau al unei abstractizări; ÷ Proprietate (`|(e)`): rezultatul unei operaţii de măsurare asupra unui element (`e`); ÷ Mulţime (`S`): o colecţie de elemente (`e`) distincte (ordinea nu este relevantă);

o Remarcă: de obicei o mulţime se constituie din elemente supuse observaţiei unei proprietăţi;

÷ Mulţimea vidă (`∅`): o mulţime care nu conţine nici un element; ÷ Valoare de adevăr - abstractizare binară (cu 2 valori posibile) a rezultatului unei observaţii:

favorabile (`T` sau `0`) sau nefavorabile (`F` sau `1`); o Remarcă: valoarea de adevăr este o proprietate (|(e)=0 sau |(e)=1);

÷ Identitatea logică (`≡`): exprimă faptul că rezultatul unei operaţii de măsurare asupra a două elemente este acelaşi;

÷ Negaţia logică (¬): o operaţie care transformă o valoare de adevăr în contrariul său (¬0→1; ¬1→0; ¬T→F; ¬F→T);

÷ Apartenenţă (la o mulţime): proprietatea unui element de a face parte (∈) sau nu (∉) dintr-o mulţime;

o Consecinţă: Apartenenţa unui element la o mulţime are o valoare de adevăr (`∈` ≡ `T` ≡ `0`;

`∉` ≡ `F` ≡ `1`); ÷ Submulţime (`⊆`): S1⊆S ⇔ [∀e∈S1 ⇒ e∈S] ÷ Produs cartezian (`×`): S1×S2 = {(e1,e2) | e1∈S1 şi e2∈S2}; ÷ Relaţie binară (`2-r`): R ⊆ S1×S2;

78

Page 79: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ Endorelaţie binară (`2-e-r`): R ⊆ S×S; ÷ Proprietăţi ale endorelaţiilor binare:

o Reflexivitate (`re`): R `re` ⇔ [∀e∈S ⇒ eRe]; o Ireflexivitate (`ir`): R `ir` ⇔ [∀e∈S ⇒ ¬ eRe]; o Coreflexivitate (`cr`): R `cr` ⇔ [∀e1,e2∈S | e1Re2 ⇒ e1≡e2]; o Simetrie (`sy`): R `sy` ⇔ [∀e1,e2∈S | e1Re2 ⇒ e2Re1]; o Antisimetrie (`ns`): R `ns` ⇔ [∀e1,e2∈S | e1Re2 şi e2Re1 ⇒ e1≡e2]; o Asimetrie (`as`): R `as` ⇔ [∀e1,e2∈S | e1Re2 ⇒ ¬ e2Re1]; o Tranzitivitate (`ts`): R `ts` ⇔ [∀e1,e2,e3∈S | e1Re2 şi e2Re3 ⇒ e1Re3]; o Totală (`li`): R `li` ⇔ [∀e1,e2∈S ⇒ e1Re2 sau e2Re1]; o Trihotomă (`tc`): R `tc` ⇔ [∀e1,e2∈S ⇒ !(e1Re2 sau e2Re1 sau e1≡e2)]; ! = exact una din o Euclidiană (`eu`): R `eu` ⇔ [∀e1,e2,e3∈S | e1Re2 şi e1Re3 ⇒ e2Re3]; o Serială (`se`): R `se` ⇔ [∀e1∈S ∃s2∈S | e1Re2]; o Echivalenţă (`eq`): R `eq` ⇔ R `re` şi R `sy` şi R `ts`; o Ordine parţială (`po`): R `po` ⇔ R `re` şi R `ns` şi R `ts`; o Ordine totală (`to`): R `to` ⇔ R `po` şi R `li`; o Bine ordonată (`wo`): R `wo` ⇔ R `to` şi ¬ R `se`; o R `sy` şi R `ts` şi R `se` ⇒ R `re`;

÷ Exemple de relaţii binare: o Relaţia `=`:

reflexivă: ∀e ⇒ e = e; coreflexivă: ∀e1,e2 | e1 = e2 ⇒ e1 ≡ e2; simetrică: ∀e1,e2 | e1 = e2 ⇒ e2 = e1; antisimetrică: ∀e1,e2 | e1 = e2 şi e2 = e1 ⇒ e1 ≡ e2; tranzitivă: ∀e1,e2,e3 | e1 = e2 şi e2 = e3 ⇒ e1 = e3; euclidiană: ∀e1,e2,e3 | e1 = e2 şi e1 = e3 ⇒ e2 = e3; echivalenţă: = `re`, `sy`, `ts`;

o Relaţia `≤`: reflexivă: ∀e ⇒ e ≤ e; antisimetrică: ∀e1,e2 | e1 ≤ e2 şi e2 ≤ e1 ⇒ e1 ≡ e2; tranzitivă: ∀e1,e2,e3 | e1 ≤ e2 şi e2 ≤ e3 ⇒ e1 ≤ e3; totală: ∀e1,e2 ⇒ e1 ≤ e2 sau e2 ≤ e1; serială: ∀e1 ∃s2 | e1 ≤ e2; ordine parţială: ≤ `re`, `ns`, `ts`; ordine totală: ≤ `re`, `ns`, `ts`, `li`;

o Relaţia `<`: ireflexivă: ∀e ¬ e < e; asimetrică: ∀e1,e2 | e1 < e2 ⇒ ¬ e2 < e1; tranzitivă: ∀e1,e2,e3 | e1 < e2 şi e2 < e3 ⇒ e1 < e3; trihotomă: ∀e1,e2 ⇒ !(e1 < e2 sau e2 < e1 sau e1 ≡ e2); serială ⇔ ∀e1 ∃s2 | e1 < e2;

o Relaţia `⊆`: reflexivă: ∀S ⇒ S ⊆ S; antisimetrică: ∀S1,S2 | S1 ⊆ S2 şi S2 ⊆ S1 ⇒ S1 ≡ S2; tranzitivă: ∀S1,S2,S3 | S1 ⊆ S2 şi S2 ⊆ S3 ⇒ S1 ≤ S3; serială pe mulţimea submulţimilor unei mulţimi ℘(S); ordine parţială: ⊆ `re`, `ns`, `ts`;

o Relaţia `≠`: ireflexivă: ∀e ⇒ ¬ e ≠ e;

79

Page 80: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

simetrică: ∀e1,e2 | e1 ≠ e2 ⇒ e2 ≠ e1; o Relaţia `străbun al` şi `descendent al`:

tranzitivă: A `descendent al` B şi B `descendent al` C ⇒ A `descendent al` C; o Relaţia distanţă euclidiană finită:

reflexivă: ∀x ⇒ d(x,x)=0 < ∞; simetrică: ∀x,y ⇒ d(x,y) < ∞ ⇒ d(y,x) < ∞; tranzitivă: ∀x,y,z | d(x,y) < ∞ şi d(y,z) < ∞ ⇒ d(x,z) < ∞; euclidiană: ∀x,y,z | d(x,y) < ∞ şi d(x,z) < ∞ ⇒ d(y,z) < ∞; serială: ∀x ∃y=x | d(x,y)=d(x,x)=0 < ∞; echivalenţă: d(·,·) < ∞ `re`, `sy`, `ts`;

o Relaţia funcţie definită f:X→Y, y=f(x): serială: ∀x ∃y | y=f(x); valoare unică: ∀x,y1,y2 | f(x)=y1 şi f(x)=y2 ⇒ y1≡y2; injectivă ⇔ ∀x,y | x ≠ y ⇒ f(x) ≠ f(y); surjectivă ⇔ ∀y ∃x | y=f(x); bijectivă ⇔ injectivă şi surjectivă;

÷ Funcţie de numărare: o funcţie bijectivă definită pe o mulţime cu valori într-o submulţime a numerelor naturale;

o Consecinţă: funcţia de numărare induce în codomeniu o relaţie de ordine totală; ÷ Mulţime infinită: o mulţime pe care se poate defini o funcţie de numărare şi orice funcţie de

numărare induce o relaţie de ordine totală; ÷ Mulţime finită: o mulţime pe se poate defini o funcţie de numărare, dar nu există nici o funcţie

de numărare care induce relaţie de ordine totală; ÷ Mulţime de puterea continuului: o mulţime pe care nu se poate defini o funcţie de numărare;

o Consecinţă: orice mulţime de puterea continuului (pe care nu se poate defini o funcţie de numărare) are acelaşi număr de elemente cu mulţimea funcţiilor {f: ℕ → {0,1}}, adică 2|ℕ|; demonstraţia constă în construcţia unei funcţii bijective între mulţimea funcţiilor {f:ℕ→{0,1}} şi intervalul de numere reale [0,1) folosind exprimarea numerelor din intervalul [0,1) în baza de numeraţie 2 (r01=0.f1f2...);

÷ Şir: o mulţime pe care s-a definit o funcţie de numărare; ÷ Şir parţial ordonat: şir în care elementele se află în relaţie de ordine parţială; ÷ Şir total ordonat: şir în care elementele se află în relaţie de ordine totală; Noţiuni de bază Un graf G = G(V,E) este o pereche de două mulţimi, V - mulţime finită nevidă ale cărei elemente se numesc vârfuri (v∈V) şi E - mulţime de perechi de vârfuri (e∈E), care implementează o (endo-)relaţie binară pe mulţimea V. Două vârfuri vi,vj∈V se numesc adiacente dacă (vi,vj)∈E. Două perechi de vârfuri (vi1,vj1) şi (vi2,vj2) se numesc adiacente dacă au un vârf comun (i1 = i2 sau i1 = j2 sau j1 = i1 sau j1 = j2). Următoarele remarci caracterizează grafurile chimice: ÷ În general relaţia definită de E este ireflexivă (pentru orice v∈V, (v,v)∉E); ÷ Dacă relaţia definită de E este simetrică (dacă (v1,v2)∈E atunci (v2,v1)∈E) atunci elementele lui

E se numesc muchii, altfel se numesc arce; ÷ Atunci când se face referinţă la un anume graf G, se notează V = V(G), E = E(G), |V| = N(G), şi

|E| = Q(G); mărimile N(G) şi Q(G) permit transformarea grafului G prin izomorfisme de numerotare în grafuri (relaţii bijective sau corespondenţe 1 la 1) ale căror vârfuri sunt din mulţimea {1..N}; într-un astfel de izomorfism, vârfului vi∈V îi poate fi asociat numărul i∈{1..N} iar muchiei (vi,vj)∈E perechea de numere (i,j)∈{1..N}×{1..N};

÷ Grafului G=(V,E) îi poate fi asociată o pereche de mulţimi de ponderi WG=(WV,WE), în care fiecărui element v∈V îi corespunde un element wv∈WV (wv numit caracteristica vârfului v) şi în care fiecărui element e∈E îi corespunde un element we∈WE (we numit caracteristica

80

Page 81: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

muchiei e); ponderile pentru vârfuri sunt asociate proprietăţilor atomice (cum sunt tipul atomului şi valenţa) în timp ce ponderile pentru muchii sunt asociate proprietăţilor de legătură (cum sunt tipul legăturii şi lungimea).

În tabelul următor sunt ilustrate câteva utilizări ale diferitelor tipuri de grafuri în teoria grafurilor chimice.

Tabelul 1. Tipuri de grafuri chimice Graf, G Semnificaţie Tip Reprezentare (V,E) Utilizare

Dacă vârfurile reprezintă sisteme chimice atunci graful reprezintă o reacţie cu preechilibru

orientat V={1, 2, 3} Grafuri de reacţie

neponderat E={(1,2), (2,1),

(2,3)}

orientat V={1, 2, 3} Grafuri de reacţie

k1k2 k3 Dacă vârfurile reprezintă sisteme chimice atunci graful reprezintă o reacţie cu preechilibru

ponderat E={(1,2), (2,1), (1,3)} VW={k2, k1, k3}

N Cu N Graful reprezintă azanul de cupru

orientat V={1, 2, 3} Chimia complecşilor coordinativi

ponderat E={(1,2), (3,2)} WV={N, Cu, N}

Dacă vârfurile reprezintă atomi de carbon şi atomii de hidrogen sunt neglijaţi, atunci graful reprezintă propanona

neorientat V={1, 2, 3} Structuri alcătuite din atomi de acelaşi tip (uzual atomi de carbon)

ponderat E={(1,2), (2,1), (2,3), (3,2)} WE={1, 1, 2, 2}

Dacă vârfurile reprezintă atomi de carbon şi atomii de hidrogen sunt neglijaţi, atunci graful reprezintă izobutanul

neorientat V={1, 2, 3, 4} Structuri alcătuite din atomi şi legături de acelaşi tip

neponderat E={(1,4), (4,1), (2,4), (4,2), (3,4), (4,3)}

Dacă vârfurile nemarcate reprezintă atomi de carbon şi atomii de hidrogen sunt neglijaţi, atunci graful reprezintă vinilamina

neorientat V={1, 2, 3} Structuri fără legături coordinative

Nponderat E={(1,2), (2,1),

(2,3), (3,2)} WV={N, C, C}

WE={1, 1, 2, 2} Aşa cum se observă şi din tabelul de mai sus, două categorii de grafuri sunt de interes pentru topologia moleculară: ÷ Grafurile neorientate şi neponderate, ce conferă maximă generalitate pentru studiul

proprietăţilor graf-teoretice; ÷ Grafurile neorientate şi ponderate, ce conferă maximă specificitate pentru studiul grafurilor

moleculare. Se uzează de o serie de noţiuni fundamentale de teoria grafurilor, redate în continuare: ÷ Drum: v1...vk∈W(G) dacă (vi,vi+1)∈E pentru 1≤i<k unde prin W(G) s-a notat mulţimea

drumurilor în G; ÷ Drum închis: v1...vk∈W(G) este închis dacă v1=vk; ÷ Dâră: v1...vk∈T(G) dacă (vi,vi+1)∈E pentru 1≤i<k şi (vi+j,vi+j+1)≠(vi,vi+1) pentru 1≤i+j<k, 1<j

unde prin T(G) s-a notat mulţimea dârelor în G; ÷ Dâră închisă: v1...vkv1 dâră închisă dacă v1...vk∈T(G) şi (vk,v1)∈E(G); ÷ Cale: v1...vk∈P(G) dacă (vi,vj)∈E pentru 1≤i<j≤k (v1...vk drum) şi vi≠vj pentru 1≤i<j≤k unde

prin P(G) s-a notat mulţimea căilor în G; ÷ Cale închisă: v1...vkv1 cale închisă dacă v1...vk∈P(G) şi (vk,v1)∈E(G); calea închisă se numeşte

ciclu; mulţimea ciclurilor se notează cu C(G); ÷ Cale terminală: v1...vk∈TP(G) dacă v1...vk∈P(G) şi ∀v∈V(G), v1...vkv∉P(G);

81

Page 82: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ Cale Hamiltoniană: v1...vN(G)∈H(G) dacă v1...vN(G)∈P(G); ÷ Circuit Hamiltonian: v1...vN(G)v1∈HC(G) dacă v1...vN(G)∈H(G) şi (vN(G),v1)∈E(G); ÷ Subgraf (≤): SG=SG(SV,SE)≤G(V,E)=G ⇔ SG graf, SV⊆V şi SE⊆E; ÷ Graf complet: KN=({1..N},{(i,j),(j,i) | 1≤i<j≤N}; într-un graf complet între oricare două vârfuri

există o muchie; tabelul de mai jos redă primele 6 grafuri complete (K1..K6): Tabelul 2. Primele 6 grafuri complete

· K1 K2 K3 K4 K5 K6

÷ Graf bipartit (bigraf): G=G(V1∪V2,E) bigraf ⇔ [∅=V1∩V2; (vi,vj)∈E ⇒ (vi∈V1, vj∈V2) sau (vi∈V2, vj∈V1)]; într-un graf bipartit toate muchiile au un vârf din prima partiţie şi celălalt din a doua partiţie; tabelul de mai jos dă numărul de grafuri bipartite în funcţie de dimensiunea partiţiilor: Tabelul 3. Numărul de grafuri bipartite în funcţie de dimensiunea partiţiilor pentru |V|≤10

|V1| vs. |V2| 2 3 4 5 1 1 1 1 12 2 4 6 93 10 34 764 93 5585 1897

÷ Graf bipartit complet: K|V1|,|V2|=G(V1∪V2,E) bigraf complet ⇔ [∅=V1∩V2; (vi,vj)∈E ⇔

(vi∈V1, vj∈V2) sau (vi∈V2, vj∈V1)]; într-un graf bipartit complet toate muchiile au un vârf din prima partiţie şi celălalt din a doua partiţie şi orice pereche de vârfuri unul dintr-o partiţie şi celalalt din a doua partiţie este muchie; următorul tabel enumeră toate grafurile bipartite complete Km,n până la K4,4 (m≤n):

Tabelul 4. Toate grafurile bipartite complete Km,n pentru 1 ≤ m ≤ n ≤ 4 Km,m n=1 n=2 n=3 n=4

m=1 A B B A B

B

AB B

BA

B

BB

A

BB

A

B

A

B BB B

A

A

B

A

Bm=2

A A A

B

B

B

Bm=3

BA B A

BA

m=4

B B

A

B B

AA

A

÷ Graf planar: G=G(V,E) este planar dacă poate fi desenat în plan astfel încât două muchii să se

intersecteze cel mult în capetele (vârfurile) lor; pentru un graf planar se definesc feţele (F); o faţă (f∈F) a unui graf planar este un ciclu care are cel mult o muchie comună cu celelalte cicluri

82

Page 83: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

ale grafului; între numărul de feţe |F|, de vârfuri |V| şi muchii |E| se stabileşte relaţia Euler [Euler L. Solutio Problematis ad Geometriam Situs Pertinentis. Comment Acad Sci I Petropolitanae 1736;8:128-140]: |V|-|E|+|F|=2; un graf este planar ⇔ nu există subgrafuri ale lui G homeomorfe cu K5 sau K3,3 (redate în figura de mai jos), rezultat stabilit de Kuratowski [Kuratowski K. Sur le Problème des Courbes Gauches en Topologie. Fund Math 1930;15:271-283], dar care oricum nu ajută prea mult în practică, deoarece problema determinării dacă H homeomorf al lui G este o problemă dificilă NP-completă (timpul necesar pentru a o rezolva creşte foarte repede cu dimensiunea grafurilor); tabelul de mai jos redă transformarea unui graf astfel încât muchiile să nu se intersecteze:

Tabelul 5. Exemplu de trasformare a unui graf la graf planar

1 2

3

4

5

5

1

3

2

4

f1f2

f3

Două transformări aplicate unui graf prezintă importanţă: ÷ Graful linie: L(G)=(LV,LE) graf linie al lui G=(V,E) se obţine astfel:

o i∈LV ⇔ ei∈E; o (i,j)∈LE ⇔ ei şi ej sunt adiacente.

÷ Graful complementar: G=G(V,E) complementar lui G=G(V,E) ⇔ E=V×V\E. Tabelul următor prezintă cele două transformări aplicate unui graf:

Tabelul 6. Exemplu de obţinere a grafului linie şi grafului complementar G L(G) G L(G)

Dacă dragul nu este complet, atunci numerotarea induce izomorfie (de numerotare). Două grafuri G1=G1(V,E) şi G2=G2(V,E) sunt izomorfe dacă există fiz astfel încât: ÷ fiz:V(G1)→V(G2); ÷ ∀v1∈V(G1) ∃! v2∈V(G2) a.î. v1=fiz(v2); ÷ ∀v2∈V(G2), ∃! v1∈V(G1) a.î. v1=fiz(v2); ÷ ∀(vi,vj)∈V(G1) ⇒ (fiz(vi),fiz(vj))∈V(G2); ÷ ∀(vi,vj)∈V(G2) ⇒ (fiz

-1(vi),fiz-1(vj))∈V(G1).

În tabelul următor sunt redate două exemple de grafuri, primul în care numerotarea induce izomorfia de numerotare şi al doilea în care numerotarea nu induce izomorfie (cazul grafurilor complete), unde pentru simplitate s-au enumerat muchiile o singură dată:

Tabelul 7. Două exemple de grafuri şi izomorfia de numerotare Caz Numerotare Reprezentare

4

32 1

4

32 1 V={1, 2, 3, 4}

E={(1,2), (2,3), (3,4), (2,4)}

1 2

43 1

2

43 1 f1(1)=1; f1(2)=3; f1(3)=2/4; f1(4)=4/2;

2 2

34 1

2

34 1 f2(1)=1; f2(2)=4; f2(3)=3/2; f2(4)=2/3;

4

31 2

4

31 23 f3(1)=2; f3(2)=1; f3(3)=3/4; f3(4)=4/3;

83

Page 84: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

4 4

13 2

4

13 2 f4(1)=2; f4(2)=3; f4(3)=4/1; f4(4)=1/4;

5 3

14 2

3

14 2 f5(1)=2; f5(2)=4; f5(3)=1/3; f5(4)=3/1;

6 4

21 3

4

21 3 f6(1)=3; f6(2)=1; f6(3)=2/4; f6(4)=4/2;

7 4

12 3

4

12 3 f7(1)=3; f7(2)=2; f7(3)=1/4; f7(4)=4/1;

8 1

24 3

1

24 3 f8(1)=3; f8(2)=4; f8(3)=1/2; f8(4)=2/1;

9 3

21 4

3

21 4 f9(1)=4; f9(2)=1; f9(3)=3/2; f9(4)=2/3;

10 3

12 4

3

12 4 f10(1)=4; f10(2)=2; f10(3)=3/1; f10(4)=1/3;

2

13 4

2

13 411 f11(1)=1; f11(2)=3; f11(3)=2/4; f11(4)=4/2;

3

21

32

13

21

V={1, 2, 3} E={(1,2), (1,3), (2,3)}

- - - Analiza căilor şi ciclurilor în grafuri este de o importanţă deosebită pentru topologia moleculară. Astfel se folosesc următoarele noţiuni: ÷ Lungime a unui drum: k | v1...vk∈W(G) ÷ Distanţă: di,j=min{k | v1...vk∈P(G), v1=vi, vk=vj} ÷ Detur: δi,j=max{k | v1...vk∈P(G), v1=vi, vk=vj} ÷ Excentricitate: ecci=max{di,j} ÷ Rază: r(G)=min{ecci} ÷ Diametru: d(G)=max{ecci} ÷ Căi distanţă: v1...vk∈D(G) ⇔ v1...vk∈P(G) şi d1,k=k-1 ÷ Căi detur: v1...vk∈Δ(G) ⇔ v1...vk∈P(G) şi δ1,k=k-1 Tabelul următor exemplifică noţiunile de mai sus pe un graf:

Tabelul 8. Drum, distanţă, detur, excentricitate, rază, diametru şi căi în grafuri 1

23 4

6

5

Drumuri Există o infinitate în graf Drumuri de De lungime 2: lungime dată ÷ 121; 131; 212; 232; 313; 323; 343; 434; 454; 464; 545; 565; 656; 646;

÷ 123; 132; 134; 213; 231; 234; 312; 321; 345; 346; 431; 432; 456; 465; 543; 546; 564; 654; 645; 643;

Distanţă d1,2=1; d1,3=1; d1,4=2; d1,5=3; d1,6=3; d2,1=1; d2,3=1; d2,4=2; d2,5=3; d2,6=3; d3,1=1; d3,2=1; d3,4=1; d3,5=2; d3,6=2; d4,1=2; d4,2=2; d4,3=1; d4,5=1; d4,6=1;

84

Page 85: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

d5,1=3; d5,2=3; d5,3=2; d5,4=1; d5,6=1; d6,1=3; d6,2=3; d6,3=2; d6,4=1; d6,5=1;

Detur δ1,2=2; δ1,3=2; δ1,4=3; δ1,5=5; δ1,6=5; δ2,1=2; δ2,3=2; δ2,4=3; δ2,5=5; δ2,6=5;

δ3,1=2; δ3,2=2; δ3,4=1; δ3,5=3; δ3,6=3; δ4,1=3; δ4,2=3; δ4,3=1; δ4,5=2; δ4,6=2; δ5,1=5; δ5,2=5; δ5,3=3; δ5,4=2; δ5,6=2; δ6,1=5; δ6,2=5; δ6,3=3; δ6,4=2; δ6,5=2;

Excentricitate ecc1=3; ecc2=3; ecc3=2; ecc4=2; ecc5=3; ecc6=3; Rază r=2; Diametru d=3; Căi 12; 123; 1234; 12345; 12346; 123456; 123465;

13; 132; 134; 1345; 1346; 13456; 13465; 21; 213; 2134; 21345; 213456; 213465; 23; 231; 234; 2345; 2346; 23456; 23465; 31; 32; 312; 321; 34; 345; 346; 3456; 3465; 45; 46; 456; 465; 43; 431; 4312; 432; 4321; 56; 564; 5643; 56431; 56432; 564312; 564321; 65; 654; 6543; 65431; 65432; 654312; 654321;

Căi terminale 123456; 123465; 132; 13456; 13465; 213456; 213465; 231; 23456; 23465; 312; 321; 3456; 3465; 456; 465; 4321; 4312; 564312; 564321; 54312; 54321; 546; 645; 64312; 64321; 654312; 654321;

Căi distanţă D1,2={12}; D1,3={13}; D1,4={134}; D1,5={1345}; D1,6={1346} D2,1={21}; D2,3={23}; D2,4={234}; D2,5={2345}; D2,6={2346} D3,1={31}; D3,2={32}; D3,4={34}; D3,5={345}; D3,6={346} D4,1={431}; D4,2={432}; D4,3={43}; D4,5={45}; D4,6={46} D5,1={5431}; D5,2={5432}; D5,3={543}; D5,4={54}; D5,6={56} D6,1={6431}; D6,2={6432}; D6,3={643}; D6,4={64}; D6,5={65}

Căi detur Δ1,2={132}; Δ1,3={123}; Δ1,4={1234}; Δ1,5={123465}; Δ1,6={123456} Δ2,1={231}; Δ2,3={213}; Δ2,4={2134}; Δ2,5={213465}; Δ2,6={213456} Δ3,1={321}; Δ3,2={312}; Δ3,4={34}; Δ3,5={3465}; Δ3,6={3456} Δ4,1={4321}; Δ4,2={4312}; Δ4,3={43}; Δ4,5={465}; Δ4,6={456} Δ5,1={564321}; Δ5,2={564312}; Δ5,3={5643}; Δ5,4={564}; Δ5,6={546} Δ6,1={654321}; Δ6,2={654312}; Δ6,3={6543}; Δ6,4={654}; Δ6,5={645}

Matrici şi indici Se folosesc în studii matricile de Adiacenţă, Laplacian, Distanţă, Detur, Combinatoriale C(D,2), C(Δ,2), Wiener, Szeged, Căi, Hosoya, Cluj, Distanţă-Extinse, Detur-Extinse, Reciproce, Drum, Strat, Secvenţă, şi altele mai puţin frecvent. Molecula reprezentată în următorul tabel (Tabelul 9) este folosită pentru ilustrarea matricilor ce urmează:

Tabelul 9. Graful molecular supus analizei folosind matrici

5

1 23

46

7 89

1011÷ Secvenţa căilor terminale

o Şirul invariant al numărului de căi terminale: 0.0.0.8.12.6.8.8.8.8 o Şirul invariant al lungimii căilor terminale: 0.0.0.32.60.36.56.64.72.80 o Matricea de numărare a căilor terminale:

85

Page 86: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

86

PTDS 1 2 3 4 5 6 7 8 9 10 Σ Π1 0 0 0 2 0 0 0 2 2 0 6 422 0 0 0 1 0 0 2 0 0 2 5 383 0 0 0 2 0 2 0 0 0 0 4 204 0 0 0 1 0 0 2 0 0 2 5 385 0 0 0 2 0 0 0 2 2 0 6 426 0 0 0 0 4 0 0 0 0 0 4 207 0 0 0 0 2 0 0 4 0 0 6 428 0 0 0 0 2 0 2 0 2 0 6 429 0 0 0 0 1 2 0 0 0 2 5 37

10 0 0 0 0 1 2 0 0 0 2 5 3711 0 0 0 0 2 0 2 0 2 0 6 42

÷ Secvenţa tuturor căilor o Şirul invariant al numărului de căi: 12.15.19.23.22.18.16.12.8.4 o Şirul invariant al lungimii căilor: 12.30.57.92.110.108.112.96.72.40 o Matricea de numărare a căilor:

PADS 1 2 3 4 5 6 7 8 9 10 Σ Π 1 2 2 3 5 4 4 4 4 2 0 30 1572 2 3 4 4 3 4 4 2 2 2 30 1573 3 4 4 4 2 2 0 0 0 0 19 614 2 3 4 4 3 4 4 2 2 2 30 1575 2 2 3 5 4 4 4 4 2 0 30 1576 3 4 4 4 4 0 0 0 0 0 19 597 2 2 2 4 6 4 4 4 0 0 28 1428 2 2 3 4 5 4 4 2 2 0 28 1429 2 3 4 4 4 3 2 2 2 2 28 142

10 2 3 4 4 4 3 2 2 2 2 28 14211 2 2 3 4 5 4 4 2 2 0 28 142

÷ Secvenţa căilor distanţă o Şirul invariant al numărului de căi distanţă: 12.15.14.10.8.4.0.0.0.0 o Şirul invariant al lungimii căilor distanţă: 12.30.42.40.40.24.0.0.0.0 o Matricea de numărare a căilor distanţă:

PDDS 1 2 3 4 5 6 7 8 9 10 Σ Π 1 2 2 1 2 2 2 0 0 0 0 11 392 2 3 2 2 2 0 0 0 0 0 11 323 3 4 2 2 0 0 0 0 0 0 11 254 2 3 2 2 2 0 0 0 0 0 11 325 2 2 1 2 2 2 0 0 0 0 11 396 3 4 4 0 0 0 0 0 0 0 11 237 2 2 2 2 4 4 0 0 0 0 16 648 2 2 3 2 2 0 0 0 0 0 11 339 2 3 4 2 0 0 0 0 0 0 11 28

10 2 3 4 2 0 0 0 0 0 0 11 2811 2 2 3 2 2 0 0 0 0 0 11 33

÷ Secvenţa căilor detur o Şirul invariant al numărului de căi detur: 1.0.11.15.10.2.4.8.8.4 o Şirul invariant al lungimii căilor detur: 1.0.33.60.50.12.28.64.72.40 o Matricea de numărare a căilor detur:

PΔDS 1 2 3 4 5 6 7 8 9 10 Σ Π 1 0 0 2 3 0 0 2 2 2 0 11 66 2 0 0 2 2 1 0 0 2 2 2 11 73

Page 87: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

87

3 1 0 2 4 2 2 0 0 0 0 11 45 4 0 0 2 2 1 0 0 2 2 2 11 73 5 0 0 2 3 0 0 2 2 2 0 11 66 6 1 0 2 4 4 0 0 0 0 0 11 43 7 0 0 2 4 2 0 4 4 0 0 16 92 8 0 0 2 2 3 0 0 2 2 0 11 63 9 0 0 2 2 2 1 0 0 2 2 11 68

10 0 0 2 2 2 1 0 0 2 2 11 68 11 0 0 2 2 3 0 0 2 2 0 11 63

÷ Secvenţa distanţelor o Şirul invariant al distanţelor: 12.15.11.9.6.2.0.0.0.0 o Şirul invariant al lungimii distanţelor: 12.30.33.36.30.12.0.0.0.0 o Matricea de numărare a distanţelor:

MDDS 1 2 3 4 5 6 7 8 9 10 Σ Π 1 2 2 1 2 2 1 0 0 0 0 10 33 2 2 3 2 2 1 0 0 0 0 0 10 27 3 3 4 2 1 0 0 0 0 0 0 10 21 4 2 3 2 2 1 0 0 0 0 0 10 27 5 2 2 1 2 2 1 0 0 0 0 10 33 6 3 4 3 0 0 0 0 0 0 0 10 20 7 2 2 1 1 2 2 0 0 0 0 10 35 8 2 2 2 2 2 0 0 0 0 0 10 30 9 2 3 3 2 0 0 0 0 0 0 10 25

10 2 3 3 2 0 0 0 0 0 0 10 25 11 2 2 2 2 2 0 0 0 0 0 10 30

÷ Secvenţa detururilor o Şirul invariant al detururilor: 1.0.8.14.10.2.2.6.8.4 o Şirul invariant al lungimii detururilor: 1.0.24.56.50.12.14.48.72.40 o Matricea de numărare a detururilor:

MΔDS 1 2 3 4 5 6 7 8 9 10 Σ Π 1 0 0 2 3 0 0 1 2 2 0 10 59 2 0 0 2 2 1 0 0 1 2 2 10 65 3 1 0 2 3 2 2 0 0 0 0 10 41 4 0 0 2 2 1 0 0 1 2 2 10 65 5 0 0 2 3 0 0 1 2 2 0 10 59 6 1 0 1 4 4 0 0 0 0 0 10 40 7 0 0 1 3 2 0 2 2 0 0 10 55 8 0 0 1 2 3 0 0 2 2 0 10 60 9 0 0 1 2 2 1 0 0 2 2 10 65

10 0 0 1 2 2 1 0 0 2 2 10 65 11 0 0 1 2 3 0 0 2 2 0 10 60

÷ Adiacenţe: o Σ(·): 12; o Σ(·)2: 12; o ΣA(·): 12; o ΣA(·)2: 12; o Matricea:

Ad 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0 1 0 0 1 0 0 0 0 0 0 22 1 0 1 0 0 0 0 0 0 0 0 23 0 1 0 1 0 1 0 0 0 0 0 3

Page 88: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

88

4 0 0 1 0 1 0 0 0 0 0 0 25 1 0 0 1 0 0 0 0 0 0 0 26 0 0 1 0 0 0 0 0 1 1 0 37 0 0 0 0 0 0 0 1 0 0 1 28 0 0 0 0 0 0 1 0 1 0 0 29 0 0 0 0 0 1 0 1 0 0 0 2

10 0 0 0 0 0 1 0 0 0 0 1 211 0 0 0 0 0 0 1 0 0 1 0 2Σ 2 2 3 2 2 3 2 2 2 2 2 24

÷ Distanţe: o Σ(·): 153; o Σ(·)2: 537; o ΣA(·): 12; o ΣA(·)2: 12; o Matricea:

Di 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0 1 2 2 1 3 6 5 4 4 5 332 1 0 1 2 2 2 5 4 3 3 4 273 2 1 0 1 2 1 4 3 2 2 3 214 2 2 1 0 1 2 5 4 3 3 4 275 1 2 2 1 0 3 6 5 4 4 5 336 3 2 1 2 3 0 3 2 1 1 2 207 6 5 4 5 6 3 0 1 2 2 1 358 5 4 3 4 5 2 1 0 1 3 2 309 4 3 2 3 4 1 2 1 0 2 3 25

10 4 3 2 3 4 1 2 3 2 0 1 2511 5 4 3 4 5 2 1 2 3 1 0 30Σ 33 27 21 27 33 20 35 30 25 25 30 306

÷ Reciproce de Distanţe: o Σ(·): 26.95; o Σ(·)2: 17.8302(7); o ΣA(·): 12; o ΣA(·)2: 12; o Matricea:

RDi 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0.000 1.000 0.500 0.500 1.000 0.333 0.167 0.200 0.250 0.250 0.200 4.4002 1.000 0.000 1.000 0.500 0.500 0.500 0.200 0.250 0.333 0.333 0.250 4.8673 0.500 1.000 0.000 1.000 0.500 1.000 0.250 0.333 0.500 0.500 0.333 5.9174 0.500 0.500 1.000 0.000 1.000 0.500 0.200 0.250 0.333 0.333 0.250 4.8675 1.000 0.500 0.500 1.000 0.000 0.333 0.167 0.200 0.250 0.250 0.200 4.4006 0.333 0.500 1.000 0.500 0.333 0.000 0.333 0.500 1.000 1.000 0.500 6.0007 0.167 0.200 0.250 0.200 0.167 0.333 0.000 1.000 0.500 0.500 1.000 4.3178 0.200 0.250 0.333 0.250 0.200 0.500 1.000 0.000 1.000 0.333 0.500 4.5679 0.250 0.333 0.500 0.333 0.250 1.000 0.500 1.000 0.000 0.500 0.333 5.000

10 0.250 0.333 0.500 0.333 0.250 1.000 0.500 0.333 0.500 0.000 1.000 5.00011 0.200 0.250 0.333 0.250 0.200 0.500 1.000 0.500 0.333 1.000 0.000 4.567Σ 4.400 4.867 5.917 4.867 4.400 6.000 4.317 4.567 5.000 5.000 4.567 53.900

÷ Detururi: o Σ(·): 317; o Σ(·)2: 2149; o ΣA(·): 51;

Page 89: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

89

o ΣA(·)2: 231; o Matricea:

De 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0 4 3 3 4 4 7 8 9 9 8 592 4 0 4 3 3 5 8 9 10 10 9 653 3 4 0 4 3 1 4 5 6 6 5 414 3 3 4 0 4 5 8 9 10 10 9 655 4 3 3 4 0 4 7 8 9 9 8 596 4 5 1 5 4 0 3 4 5 5 4 407 7 8 4 8 7 3 0 5 4 4 5 558 8 9 5 9 8 4 5 0 5 3 4 609 9 10 6 10 9 5 4 5 0 4 3 65

10 9 10 6 10 9 5 4 3 4 0 5 6511 8 9 5 9 8 4 5 4 3 5 0 60Σ 59 65 41 65 59 40 55 60 65 65 60 634

÷ Reciproce de Detururi: o Σ(·): 11.8246031746; o Σ(·)2: 3.4927762031; o ΣA(·): 3.45; o ΣA(·)2: 1.5525; o Matricea:

RDe 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0.000 0.250 0.333 0.333 0.250 0.250 0.143 0.125 0.111 0.111 0.125 2.0322 0.250 0.000 0.250 0.333 0.333 0.200 0.125 0.111 0.100 0.100 0.111 1.9143 0.333 0.250 0.000 0.250 0.333 1.000 0.250 0.200 0.167 0.167 0.200 3.1504 0.333 0.333 0.250 0.000 0.250 0.200 0.125 0.111 0.100 0.100 0.111 1.9145 0.250 0.333 0.333 0.250 0.000 0.250 0.143 0.125 0.111 0.111 0.125 2.0326 0.250 0.200 1.000 0.200 0.250 0.000 0.333 0.250 0.200 0.200 0.250 3.1337 0.143 0.125 0.250 0.125 0.143 0.333 0.000 0.200 0.250 0.250 0.200 2.0198 0.125 0.111 0.200 0.111 0.125 0.250 0.200 0.000 0.200 0.333 0.250 1.9069 0.111 0.100 0.167 0.100 0.111 0.200 0.250 0.200 0.000 0.250 0.333 1.822

10 0.111 0.100 0.167 0.100 0.111 0.200 0.250 0.333 0.250 0.000 0.200 1.82211 0.125 0.111 0.200 0.111 0.125 0.250 0.200 0.250 0.333 0.200 0.000 1.906Σ 2.032 1.914 3.150 1.914 2.032 3.133 2.019 1.906 1.822 1.822 1.906 23.649

÷ Matricea Cluj pe Distanţe, CJD: o Definiţie: CJDi,j = max|CJDSi,j|; {k}∈CJDSi,j ⇔ d(G)k,i<d(G)k,j şi ∃p∈D(G)i,j,

∃q∈D(G)k,i: p∩q={i}; o Referinţe:

÷ Diudea MV. 1997. Cluj Matrix, CJu: Source of Various Graph Descriptors. Commun Math Comput Chem 35:169-183.

÷ Jäntschi L. 2002. Graph Theory. 1. Fragmentation of Structural Graphs. Leonardo El J Pract Technol 1(1):19-36.

o Enumerarea seturilor CJDS: (i,j) p∈D(G)i,j CJDSi,j (1, 2) [1, 2] {1, 5} (2, 1) [2,1] {2, 3, 6, 7, 8, 9, 10, 11} (1, 3) [1, 2, 3] {1, 5} (3, 1) [3, 2, 1] {3, 4, 6, 7, 8, 9, 10, 11} (1, 4) [1, 5, 4] {1, 2} (4, 1) [4, 5, 1] {3, 4, 6, 7, 8, 9, 10, 11} (1, 5) [1, 5] {1, 2}

Page 90: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(5, 1) [5, 1] {4, 5} (1, 6) [1, 2, 3, 6] {1, 5} (6, 1) [6, 3, 2, 1] {6, 7, 8, 9, 10, 11} (1, 7) [1, 2, 3, 6, 9, 8, 7] {1, 4, 5} (1, 7) [1, 2, 3, 6, 10, 11, 7] {1, 4, 5} (7, 1) [7, 8, 9, 6, 3, 2, 1] {7, 10, 11} (7, 1) [7, 11, 10, 6, 3, 2, 1] {7, 8, 9} (1, 8) [1, 2, 3, 6, 9, 8] {1, 4, 5} (8, 1) [8, 9, 6, 3, 2, 1] {7, 8, 10, 11} (1, 9) [1, 2, 3, 6, 9] {1, 4, 5} (9, 1) [9, 6, 3, 2, 1] {7, 8, 9, 10, 11} (1, 10) [1, 2, 3, 6, 10] {1, 4, 5} (10, 1) [10, 6, 3, 2, 1] {7, 8, 9, 10, 11} (1, 11) [1, 2, 3, 6, 10, 11] {1, 4, 5} (11, 1) [11, 10, 6, 3, 2, 1] {7, 8, 9, 11} (2, 3) [2, 3] {1, 2} (3, 2) [3, 2] {3, 4, 6, 7, 8, 9, 10, 11} (2, 4) [2, 3, 4] {1, 2} (4, 2) [4, 3, 2] {4, 5} (2, 5) [2, 1, 5] {2, 3, 6, 7, 8, 9, 10, 11} (5, 2) [5, 1, 2] {4, 5} (2, 6) [2, 3, 6] {1, 2, 5} (6, 2) [6, 3, 2] {6, 7, 8, 9, 10, 11} (2, 7) [2, 3, 6, 9, 8, 7] {1, 2, 4, 5} (2, 7) [2, 3, 6, 10, 11, 7] {1, 2, 4, 5} (7, 2) [7, 8, 9, 6, 3, 2] {7, 10, 11} (7, 2) [7, 11, 10, 6, 3, 2] {7, 8, 9} (2, 8) [2, 3, 6, 9, 8] {1, 2, 4, 5} (8, 2) [8, 9, 6, 3, 2] {7, 8, 11} (2, 9) [2, 3, 6, 9] {1, 2, 4, 5} (9, 2) [9, 6, 3, 2] {7, 8, 9, 10, 11} (2, 10) [2, 3, 6, 10] {1, 2, 4, 5} (10, 2) [10, 6, 3, 2] {7, 8, 9, 10, 11} (2, 11) [2, 3, 6, 10, 11] {1, 2, 4, 5} (11, 2) [11, 10, 6, 3, 2] {7, 8, 11} (3, 4) [3, 4] {2, 3, 6, 7, 8, 9, 10, 11} (4, 3) [4, 3] {4, 5} (3, 5) [3, 4, 5] {2, 3, 6, 7, 8, 9, 10, 11} (5, 3) [5, 4, 3] {1, 5} (3, 6) [3, 6] {1, 2, 3, 4, 5} (6, 3) [6, 3] {6, 7, 8, 9, 10, 11} (3, 7) [3, 6, 10, 11, 7] {1, 2, 3, 4, 5} (3, 7) [3, 6, 9, 8, 7] {1, 2, 3, 4, 5} (7, 3) [7, 8, 9, 6, 3] {7, 11} (7, 3) [7, 11, 10, 6, 3] {7, 8} (3, 8) [3, 6, 9, 8] {1, 2, 3, 4, 5} (8, 3) [8, 9, 6, 3] {7, 8, 11} (3, 9) [3, 6, 9] {1, 2, 3, 4, 5} (9, 3) [9, 6, 3] {7, 8, 9} (3, 10) [3, 6, 10] {1, 2, 3, 4, 5}

90

Page 91: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(10, 3) [10, 6, 3] {7, 10, 11} (3, 11) [3, 6, 10, 11] {1, 2, 3, 4, 5} (11, 3) [11, 10, 6, 3] {7, 8, 11} (4, 5) [4, 5] {3, 4, 6, 7, 8, 9, 10, 11} (5, 4) [5, 4] {1, 5} (4, 6) [4, 3, 6] {1, 4, 5} (6, 4) [6, 3, 4] {6, 7, 8, 9, 10, 11} (4, 7) [4, 3, 6, 9, 8, 7] {1, 2, 4, 5} (4, 7) [4, 3, 6, 10, 11, 7] {1, 2, 4, 5} (7, 4) [7, 8, 9, 6, 3, 4] {7, 10, 11} (7, 4) [7, 11, 10, 6, 3, 4] {7, 8, 9} (4, 8) [4, 3, 6, 9, 8] {1, 2, 4, 5} (8, 4) [8, 9, 6, 3, 4] {7, 8, 11} (4, 9) [4, 3, 6, 9] {1, 2, 4, 5} (9, 4) [9, 6, 3, 4] {7, 8, 9, 10, 11} (4, 10) [4, 3, 6, 10] {1, 2, 4, 5} (10, 4) [10, 6, 3, 4] {7, 8, 9, 10, 11} (4, 11) [4, 3, 6, 10, 11] {1, 2, 4, 5} (11, 4) [11, 10, 6, 3, 4] {7, 8, 11} (5, 6) [5, 4, 3, 6] {1, 5} (6, 5) [6, 3, 4, 5] {6, 7, 8, 9, 10, 11} (5, 7) [5, 4, 3, 6, 9, 8, 7] {1, 2, 5} (5, 7) [5, 4, 3, 6, 10, 11, 7] {1, 2, 5} (7, 5) [7, 8, 9, 6, 3, 4, 5] {7, 10, 11} (7, 5) [7, 11, 10, 6, 3, 4, 5] {7, 8, 9} (5, 8) [5, 4, 3, 6, 9, 8] {1, 2, 5} (8, 5) [8, 9, 6, 3, 4, 5] {7, 8, 10, 11} (5, 9) [5, 4, 3, 6, 9] {1, 2, 5} (9, 5) [9, 6, 3, 4, 5] {7, 8, 9, 10, 11} (5, 10) [5, 4, 3, 6, 10] {1, 2, 5} (10, 5) [10, 6, 3, 4, 5] {7, 8, 9, 10, 11} (5, 11) [5, 4, 3, 6, 10, 11] {1, 2, 5} (11, 5) [11, 10, 6, 3, 4, 5] {7, 8, 9, 11} (6, 7) [6, 10, 11, 7] {1, 2, 3, 4, 5, 6, 9} (6, 7) [6, 9, 8, 7] {1, 2, 3, 4, 5, 6, 10} (7, 6) [7, 8, 9, 6] {7, 11} (7, 6) [7, 11, 10, 6] {7, 8} (6, 8) [6, 9, 8] {1, 2, 3, 4, 5, 6, 10} (8, 6) [8, 9, 6] {7, 8} (6, 9) [6, 9] {1, 2, 3, 4, 5, 6, 10, 11} (9, 6) [9, 6] {7, 8, 9} (6, 10) [6, 10] {1, 2, 3, 4, 5, 6, 8, 9} (10, 6) [10, 6] {7, 10, 11} (6, 11) [6, 10, 11] {1, 2, 3, 4, 5, 6, 9} (11, 6) [11, 10, 6] {7, 11} (7, 8) [7, 8] {7, 10, 11} (8, 7) [8, 7] {1, 2, 3, 4, 5, 6, 8, 9} (7, 9) [7, 8, 9] {7, 11} (9, 7) [9, 8, 7] {1, 2, 3, 4, 5, 6, 9} (7, 10) [7, 11, 10] {7, 8}

91

Page 92: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

92

(10, 7) [10, 11, 7] {1, 2, 3, 4, 5, 6, 10} (7, 11) [7, 11] {7, 8, 9} (11, 7) [11, 7] {1, 2, 3, 4, 5, 6, 10, 11} (8, 9) [8, 9] {7, 8, 11} (9, 8) [9, 8] {1, 2, 3, 4, 5, 6, 9, 10} (8, 10) [8, 9, 6, 10] {7, 8} (8, 10) [8, 7, 11, 10] {8, 9} (10, 8) [10, 11, 7, 8] {1, 2, 3, 4, 5, 6, 10} (8, 11) [8, 7, 11] {8, 9} (11, 8) [11, 7, 8] {10, 11} (9, 10) [9, 6, 10] {8, 9} (10, 9) [10, 6, 9] {10, 11} (9, 11) [9, 8, 7, 11] {1, 2, 3, 4, 5, 6, 9} (11, 9) [11, 10, 6, 9] {7, 11} (11, 9) [11, 7, 8, 9] {10, 11} (10, 11) [10, 11] {1, 2, 3, 4, 5, 6, 9, 10} (11, 10) [11, 10] {7, 8, 11}

o Σ(CJD): 229.5; o Σ(CJD)2: 824; o ΣA(CJD): 60.5; o ΣA(CJD)2: 242; o Matricea CJD:

CJD 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0 2 2 2 2 2 3 3 3 3 3 252 8 0 2 2 8 3 4 4 4 4 4 433 8 8 0 8 8 5 5 5 5 5 5 624 8 2 2 0 8 3 4 4 4 4 4 435 2 2 2 2 0 2 3 3 3 3 3 256 6 6 6 6 6 0 7 7 8 8 7 677 3 3 2 3 3 2 0 3 2 2 3 268 4 3 3 3 4 2 8 0 3 2 2 349 5 5 3 5 5 3 7 8 0 2 7 50

10 5 5 3 5 5 3 7 7 2 0 8 5011 4 3 3 3 4 2 8 2 2 3 0 34Σ 53 39 28 39 53 27 56 46 36 36 46 459

o Σ(RCJD): 16.441(6); o Σ(RCJD)2: 4.45; o ΣA(RCJD): 3.308(3); o ΣA(RCJD)2: 0.78(3); o Matricea RCJD:

RCJD 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0.000 0.500 0.500 0.500 0.500 0.500 0.333 0.333 0.333 0.333 0.333 4.1672 0.125 0.000 0.500 0.500 0.125 0.333 0.250 0.250 0.250 0.250 0.250 2.8333 0.125 0.125 0.000 0.125 0.125 0.200 0.200 0.200 0.200 0.200 0.200 1.7004 0.125 0.500 0.500 0.000 0.125 0.333 0.250 0.250 0.250 0.250 0.250 2.8335 0.500 0.500 0.500 0.500 0.000 0.500 0.333 0.333 0.333 0.333 0.333 4.1676 0.167 0.167 0.167 0.167 0.167 0.000 0.143 0.143 0.125 0.125 0.143 1.5127 0.333 0.333 0.500 0.333 0.333 0.500 0.000 0.333 0.500 0.500 0.333 4.0008 0.250 0.333 0.333 0.333 0.250 0.500 0.125 0.000 0.333 0.500 0.500 3.4589 0.200 0.200 0.333 0.200 0.200 0.333 0.143 0.125 0.000 0.500 0.143 2.377

10 0.200 0.200 0.333 0.200 0.200 0.333 0.143 0.143 0.500 0.000 0.125 2.377

Page 93: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

11 0.250 0.333 0.333 0.333 0.250 0.500 0.125 0.500 0.500 0.333 0.000 3.458Σ 2.275 3.192 4.000 3.192 2.275 4.033 2.045 2.611 3.325 3.325 2.611 32.883

÷ Matricea Cluj pe Detururi, CJΔ: o Definiţie: CJΔi,j = max|CJΔSi,j|; {k}∈CJΔSi,j ⇔ d(G)k,i<d(G)k,j şi ∃p∈Δ(G)i,j,

∃q∈D(G)k,i: p∩q={i}; o Referinţe:

÷ Diudea MV, Pârv B, Gutman I. 1997. Detour-Cluj Matrix and Derived Invariants. J Chem Inf Comput Sci 37(6):1101-1108.

÷ Jäntschi L. 2002. Graph Theory. 1. Fragmentation of Structural Graphs. Leonardo El J Pract Technol 1(1):19-36.

o Enumerarea seturilor CJΔS: CJΔSi,j (i,j) p∈Δ(G)i,j

(1, 2) [1, 5, 4, 3, 2] {1} (2, 1) [2, 3, 4, 5, 1] {2} (1, 3) [1, 5, 4, 3] {1} (3, 1) [3, 4, 5, 1] {3, 6, 7, 8, 9, 10, 11} (1, 4) [1, 2, 3, 4] {1} (4, 1) [4, 3, 2, 1] {4} (1, 5) [1, 2, 3, 4, 5] {1} (5, 1) [5, 4, 3, 2, 1] {5} (1, 6) [1, 5, 4, 3, 6] {1, 2} (6, 1) [6, 3, 4, 5, 1] {6, 7, 8, 9, 10, 11} (1, 7) [1, 5, 4, 3, 6, 10, 11, 7] {1, 2} (1, 7) [1, 5, 4, 3, 6, 9, 8, 7] {1, 2} (7, 1) [7, 8, 9, 6, 3, 4, 5, 1] {7, 10, 11} (7, 1) [7, 11, 10, 6, 3, 4, 5, 1] {7, 8, 9} (1, 8) [1, 5, 4, 3, 6, 10, 11, 7, 8] {1, 2} (8, 1) [8, 7, 11, 10, 6, 3, 4, 5, 1] {8, 9} (1, 9) [1, 5, 4, 3, 6, 10, 11, 7, 8, 9] {1, 2} (9, 1) [9, 8, 7, 11, 10, 6, 3, 4, 5, 1] {9} (1, 10) [1, 5, 4, 3, 6, 9, 8, 7, 11, 10] {1, 2} (10, 1) [10, 11, 7, 8, 9, 6, 3, 4, 5, 1] {10} (1, 11) [1, 5, 4, 3, 6, 9, 8, 7, 11] {1, 2} (11, 1) [11, 7, 8, 9, 6, 3, 4, 5, 1] {10, 11} (2, 3) [2, 1, 5, 4, 3] {2} (3, 2) [3, 4, 5, 1, 2] {3, 6, 7, 8, 9, 10, 11} (2, 4) [2, 1, 5, 4] {2} (4, 2) [4, 5, 1, 2] {4} (2, 5) [2, 3, 4, 5] {2} (5, 2) [5, 4, 3, 2] {5} (2, 6) [2, 1, 5, 4, 3, 6] {2} (6, 2) [6, 3, 4, 5, 1, 2] {6, 7, 8, 9, 10, 11} (2, 7) [2, 1, 5, 4, 3, 6, 10, 11, 7] {2} (2, 7) [2, 1, 5, 4, 3, 6, 9, 8, 7] {2} (7, 2) [7, 8, 9, 6, 3, 4, 5, 1, 2] {7, 10, 11} (7, 2) [7, 11, 10, 6, 3, 4, 5, 1, 2] {7, 8, 9} (2, 8) [2, 1, 5, 4, 3, 6, 10, 11, 7, 8] {2} (8, 2) [8, 7, 11, 10, 6, 3, 4, 5, 1, 2] {8, 9} (2, 9) [2, 1, 5, 4, 3, 6, 10, 11, 7, 8, 9] {2} (9, 2) [9, 8, 7, 11, 10, 6, 3, 4, 5, 1, 2] {9}

93

Page 94: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(2, 10) [2, 1, 5, 4, 3, 6, 9, 8, 7, 11, 10] {2} (10, 2) [10, 11, 7, 8, 9, 6, 3, 4, 5, 1, 2] {10} (2, 11) [2, 1, 5, 4, 3, 6, 9, 8, 7, 11] {2} (11, 2) [11, 7, 8, 9, 6, 3, 4, 5, 1, 2] {10, 11} (3, 4) [3, 2, 1, 5, 4] {3, 6, 7, 8, 9, 10, 11} (4, 3) [4, 5, 1, 2, 3] {4} (3, 5) [3, 2, 1, 5] {3, 6, 7, 8, 9, 10, 11} (5, 3) [5, 1, 2, 3] {5} (3, 6) [3, 6] {1, 2, 3, 4, 5} (6, 3) [6, 3] {6, 7, 8, 9, 10, 11} (3, 7) [3, 6, 10, 11, 7] {1, 2, 3, 4, 5} (3, 7) [3, 6, 9, 8, 7] {1, 2, 3, 4, 5} (7, 3) [7, 8, 9, 6, 3] {7, 11} (7, 3) [7, 11, 10, 6, 3] {7, 8} (3, 8) [3, 6, 10, 11, 7, 8] {1, 2, 3, 4, 5} (8, 3) [8, 7, 11, 10, 6, 3] {8, 9} (3, 9) [3, 6, 10, 11, 7, 8, 9] {1, 2, 3, 4, 5} (9, 3) [9, 8, 7, 11, 10, 6, 3] {9} (3, 10) [3, 6, 9, 8, 7, 11, 10] {1, 2, 3, 4, 5} (10, 3) [10, 11, 7, 8, 9, 6, 3] {10} (3, 11) [3, 6, 9, 8, 7, 11] {1, 2, 3, 4, 5} (11, 3) [11, 7, 8, 9, 6, 3] {10, 11} (4, 5) [4, 3, 2, 1, 5] {4} (5, 4) [5, 1, 2, 3, 4] {5} (4, 6) [4, 5, 1, 2, 3, 6] {4} (6, 4) [6, 3, 2, 1, 5, 4] {6, 7, 8, 9, 10, 11} (4, 7) [4, 5, 1, 2, 3, 6, 10, 11, 7] {4} (4, 7) [4, 5, 1, 2, 3, 6, 9, 8, 7] {4} (7, 4) [7, 8, 9, 6, 3, 2, 1, 5, 4] {7, 10, 11} (7, 4) [7, 11, 10, 6, 3, 2, 1, 5, 4] {7, 8, 9} (4, 8) [4, 5, 1, 2, 3, 6, 10, 11, 7, 8] {4} (8, 4) [8, 7, 11, 10, 6, 3, 2, 1, 5, 4] {8, 9} (4, 9) [4, 5, 1, 2, 3, 6, 10, 11, 7, 8, 9] {4} (9, 4) [9, 8, 7, 11, 10, 6, 3, 2, 1, 5, 4] {9} (4, 10) [4, 5, 1, 2, 3, 6, 9, 8, 7, 11, 10] {4} (10, 4) [10, 11, 7, 8, 9, 6, 3, 2, 1, 5, 4] {10} (4, 11) [4, 5, 1, 2, 3, 6, 9, 8, 7, 11] {4} (11, 4) [11, 7, 8, 9, 6, 3, 2, 1, 5, 4] {10, 11} (5, 6) [5, 1, 2, 3, 6] {4, 5} (6, 5) [6, 3, 2, 1, 5] {6, 7, 8, 9, 10, 11} (5, 7) [5, 1, 2, 3, 6, 10, 11, 7] {4, 5} (5, 7) [5, 1, 2, 3, 6, 9, 8, 7] {4, 5} (7, 5) [7, 8, 9, 6, 3, 2, 1, 5] {7, 10, 11} (7, 5) [7, 11, 10, 6, 3, 2, 1, 5] {7, 8, 9} (5, 8) [5, 1, 2, 3, 6, 10, 11, 7, 8] {4, 5} (8, 5) [8, 7, 11, 10, 6, 3, 2, 1, 5] {8, 9} (5, 9) [5, 1, 2, 3, 6, 10, 11, 7, 8, 9] {4, 5} (9, 5) [9, 8, 7, 11, 10, 6, 3, 2, 1, 5] {9} (5, 10) [5, 1, 2, 3, 6, 9, 8, 7, 11, 10] {4, 5} (10, 5) [10, 11, 7, 8, 9, 6, 3, 2, 1, 5] {10}

94

Page 95: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(5, 11) [5, 1, 2, 3, 6, 9, 8, 7, 11] {4, 5} (11, 5) [11, 7, 8, 9, 6, 3, 2, 1, 5] {10, 11} (6, 7) [6, 10, 11, 7] {1, 2, 3, 4, 5, 6, 9} (6, 7) [6, 9, 8, 7] {1, 2, 3, 4, 5, 6, 10} (7, 6) [7, 8, 9, 6] {7, 11} (7, 6) [7, 11, 10, 6] {7, 8} (6, 8) [6, 10, 11, 7, 8] {1, 2, 3, 4, 5, 6} (8, 6) [8, 7, 11, 10, 6] {8} (6, 9) [6, 10, 11, 7, 8, 9] {1, 2, 3, 4, 5, 6} (9, 6) [9, 8, 7, 11, 10, 6] {9} (6, 10) [6, 9, 8, 7, 11, 10] {1, 2, 3, 4, 5, 6} (10, 6) [10, 11, 7, 8, 9, 6] {10} (6, 11) [6, 9, 8, 7, 11] {1, 2, 3, 4, 5, 6} (11, 6) [11, 7, 8, 9, 6] {11} (7, 8) [7, 11, 10, 6, 9, 8] {7} (8, 7) [8, 9, 6, 10, 11, 7] {8} (7, 9) [7, 11, 10, 6, 9] {7} (9, 7) [9, 6, 10, 11, 7] {9} (7, 10) [7, 8, 9, 6, 10] {7} (10, 7) [10, 6, 9, 8, 7] {10} (7, 11) [7, 8, 9, 6, 10, 11] {7} (11, 7) [11, 10, 6, 9, 8, 7] {11} (8, 9) [8, 7, 11, 10, 6, 9] {8} (9, 8) [9, 6, 10, 11, 7, 8] {9} (8, 10) [8, 9, 6, 10] {7, 8} (8, 10) [8, 7, 11, 10] {8, 9} (10, 8) [10, 11, 7, 8] {1, 2, 3, 4, 5, 6, 10} (8, 11) [8, 9, 6, 10, 11] {8} (11, 8) [11, 10, 6, 9, 8] {11} (9, 10) [9, 8, 7, 11, 10] {9} (10, 9) [10, 11, 7, 8, 9] {10} (9, 11) [9, 8, 7, 11] {1, 2, 3, 4, 5, 6, 9} (11, 9) [11, 10, 6, 9] {7, 11} (11, 9) [11, 7, 8, 9] {10, 11} (10, 11) [10, 6, 9, 8, 7, 11] {10} (11, 10) [11, 7, 8, 9, 6, 10] {11}

o Σ(CJΔ): 127.5; o Σ(CJΔ)2: 268; o ΣA(CJΔ): 27.5; o ΣA(CJΔ)2: 63; o Matricea CJΔ:

CJΔ 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0 1 1 1 1 2 2 2 2 2 2 162 1 0 1 1 1 1 1 1 1 1 1 103 7 7 0 7 7 5 5 5 5 5 5 584 1 1 1 0 1 1 1 1 1 1 1 105 1 1 1 1 0 2 2 2 2 2 2 166 6 6 6 6 6 0 7 6 6 6 6 617 3 3 2 3 3 2 0 1 1 1 1 208 2 2 2 2 2 1 1 0 1 2 1 169 1 1 1 1 1 1 1 1 0 1 7 16

95

Page 96: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

96

10 1 1 1 1 1 1 1 7 1 0 1 1611 2 2 2 2 2 1 1 1 2 1 0 16Σ 25 25 18 25 25 17 22 27 22 22 27 255

o Σ(RCJΔ): 38.01(6); o Σ(RCJΔ)2: 26.6857; o ΣA(RCJΔ): 9.492857; o ΣA(RCJΔ)2: 7.6523809; o Matricea RCJΔ:

RCJΔ 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0.000 1.000 1.000 1.000 1.000 0.500 0.500 0.500 0.500 0.500 0.500 7.0002 1.000 0.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 10.0003 0.143 0.143 0.000 0.143 0.143 0.200 0.200 0.200 0.200 0.200 0.200 1.7714 1.000 1.000 1.000 0.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 10.0005 1.000 1.000 1.000 1.000 0.000 0.500 0.500 0.500 0.500 0.500 0.500 7.0006 0.167 0.167 0.167 0.167 0.167 0.000 0.143 0.167 0.167 0.167 0.167 1.6437 0.333 0.333 0.500 0.333 0.333 0.500 0.000 1.000 1.000 1.000 1.000 6.3338 0.500 0.500 0.500 0.500 0.500 1.000 1.000 0.000 1.000 0.500 1.000 7.0009 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.000 1.000 0.143 9.143

10 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.143 1.000 0.000 1.000 9.14311 0.500 0.500 0.500 0.500 0.500 1.000 1.000 1.000 0.500 1.000 0.000 7.000Σ 6.643 6.643 7.667 6.643 6.643 7.700 7.343 6.510 6.867 6.867 6.510 76.033

÷ Matricea Cluj Fragmental pe Distanţe, CFD: o Definiţie: CFDi,j = max|CFDSi,j|; {k}∈CFDSi,j ⇔ d(Gp)k,i<d(Gp)k,j | p∈D(G)i,j, Gp=G\p; o Referinţe:

÷ Jäntschi L, Katona G, Diudea MV. 2000. Modeling Molecular Properties by Cluj Indices. Commun Math Comput Chem 41:151-188.

÷ Jäntschi L. 2002. Graph Theory. 1. Fragmentation of Structural Graphs. Leonardo El J Pract Technol 1(1):19-36.

o Enumerarea seturilor CFDS: (i,j) p∈D(G)i,j CFDSi,j (1, 2) [1, 2] {1, 5} (2, 1) [2, 1] {2, 3, 6, 7, 8, 9, 10, 11} (1, 3) [1, 2, 3] {1, 5} (3, 1) [3, 2, 1] {3, 4, 6, 7, 8, 9, 10, 11} (1, 4) [1, 5, 4] {1, 2} (4, 1) [4, 5, 1] {3, 4, 6, 7, 8, 9, 10, 11} (1, 5) [1, 5] {1, 2} (5, 1) [5, 1] {4, 5} (1, 6) [1, 2, 3, 6] {1, 4, 5} (6, 1) [6, 3, 2, 1] {6, 7, 8, 9, 10, 11} (1, 7) [1, 2, 3, 6, 9, 8, 7] {1, 4, 5} (7, 1) [7, 8, 9, 6, 3, 2, 1] {7, 10, 11} (1, 7) [1, 2, 3, 6, 10, 11, 7] {1, 4, 5} (7, 1) [7, 11, 10, 6, 3, 2, 1] {7, 8, 9} (1, 8) [1, 2, 3, 6, 9, 8] {1, 4, 5} (8, 1) [8, 9, 6, 3, 2, 1] {7, 8, 10, 11} (1, 9) [1, 2, 3, 6, 9] {1, 4, 5} (9, 1) [9, 6, 3, 2, 1] {7, 8, 9, 10, 11} (1, 10) [1, 2, 3, 6, 10] {1, 4, 5} (10, 1) [10, 6, 3, 2, 1] {7, 8, 9, 10, 11}

Page 97: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(1, 11) [1, 2, 3, 6, 10, 11] {1, 4, 5} (11, 1) [11, 10, 6, 3, 2, 1] {7, 8, 9, 11} (2, 3) [2, 3] {1, 2} (3, 2) [3, 2] {3, 4, 6, 7, 8, 9, 10, 11} (2, 4) [2, 3, 4] {1, 2} (4, 2) [4, 3, 2] {4, 5} (2, 5) [2, 1, 5] {2, 3, 6, 7, 8, 9, 10, 11} (5, 2) [5, 1, 2] {4, 5} (2, 6) [2, 3, 6] {1, 2, 4, 5} (6, 2) [6, 3, 2] {6, 7, 8, 9, 10, 11} (2, 7) [2, 3, 6, 9, 8, 7] {1, 2, 4, 5} (7, 2) [7, 8, 9, 6, 3, 2] {7, 10, 11} (2, 7) [2, 3, 6, 10, 11, 7] {1, 2, 4, 5} (7, 2) [7, 11, 10, 6, 3, 2] {7, 8, 9} (2, 8) [2, 3, 6, 9, 8] {1, 2, 4, 5} (8, 2) [8, 9, 6, 3, 2] {7, 8, 10, 11} (2, 9) [2, 3, 6, 9] {1, 2, 4, 5} (9, 2) [9, 6, 3, 2] {7, 8, 9, 10, 11} (2, 10) [2, 3, 6, 10] {1, 2, 4, 5} (10, 2) [10, 6, 3, 2] {7, 8, 9, 10, 11} (2, 11) [2, 3, 6, 10, 11] {1, 2, 4, 5} (11, 2) [11, 10, 6, 3, 2] {7, 8, 9, 11} (3, 4) [3, 4] {2, 3, 6, 7, 8, 9, 10, 11} (4, 3) [4, 3] {4, 5} (3, 5) [3, 4, 5] {2, 3, 6, 7, 8, 9, 10, 11} (5, 3) [5, 4, 3] {1, 5} (3, 6) [3, 6] {1, 2, 3, 4, 5} (6, 3) [6, 3] {6, 7, 8, 9, 10, 11} (3, 7) [3, 6, 10, 11, 7] {1, 2, 3, 4, 5} (7, 3) [7, 11, 10, 6, 3] {7, 8, 9} (3, 7) [3, 6, 9, 8, 7] {1, 2, 3, 4, 5} (7, 3) [7, 8, 9, 6, 3] {7, 10, 11} (3, 8) [3, 6, 9, 8] {1, 2, 3, 4, 5} (8, 3) [8, 9, 6, 3] {7, 8, 10, 11} (3, 9) [3, 6, 9] {1, 2, 3, 4, 5} (9, 3) [9, 6, 3] {7, 8, 9, 10, 11} (3, 10) [3, 6, 10] {1, 2, 3, 4, 5} (10, 3) [10, 6, 3] {7, 8, 9, 10, 11} (3, 11) [3, 6, 10, 11] {1, 2, 3, 4, 5} (11, 3) [11, 10, 6, 3] {7, 8, 9, 11} (4, 5) [4, 5] {3, 4, 6, 7, 8, 9, 10, 11} (5, 4) [5, 4] {1, 5} (4, 6) [4, 3, 6] {1, 2, 4, 5} (6, 4) [6, 3, 4] {6, 7, 8, 9, 10, 11} (4, 7) [4, 3, 6, 9, 8, 7] {1, 2, 4, 5} (7, 4) [7, 8, 9, 6, 3, 4] {7, 10, 11} (4, 7) [4, 3, 6, 10, 11, 7] {1, 2, 4, 5} (7, 4) [7, 11, 10, 6, 3, 4] {7, 8, 9} (4, 8) [4, 3, 6, 9, 8] {1, 2, 4, 5} (8, 4) [8, 9, 6, 3, 4] {7, 8, 10, 11}

97

Page 98: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(4, 9) [4, 3, 6, 9] {1, 2, 4, 5} (9, 4) [9, 6, 3, 4] {7, 8, 9, 10, 11} (4, 10) [4, 3, 6, 10] {1, 2, 4, 5} (10, 4) [10, 6, 3, 4] {7, 8, 9, 10, 11} (4, 11) [4, 3, 6, 10, 11] {1, 2, 4, 5} (11, 4) [11, 10, 6, 3, 4] {7, 8, 9, 11} (5, 6) [5, 4, 3, 6] {1, 2, 5} (6, 5) [6, 3, 4, 5] {6, 7, 8, 9, 10, 11} (5, 7) [5, 4, 3, 6, 9, 8, 7] {1, 2, 5} (7, 5) [7, 8, 9, 6, 3, 4, 5] {7, 10, 11} (5, 7) [5, 4, 3, 6, 10, 11, 7] {1, 2, 5} (7, 5) [7, 11, 10, 6, 3, 4, 5] {7, 8, 9} (5, 8) [5, 4, 3, 6, 9, 8] {1, 2, 5} (8, 5) [8, 9, 6, 3, 4, 5] {7, 8, 10, 11} (5, 9) [5, 4, 3, 6, 9] {1, 2, 5} (9, 5) [9, 6, 3, 4, 5] {7, 8, 9, 10, 11} (5, 10) [5, 4, 3, 6, 10] {1, 2, 5} (10, 5) [10, 6, 3, 4, 5] {7, 8, 9, 10, 11} (5, 11) [5, 4, 3, 6, 10, 11] {1, 2, 5} (11, 5) [11, 10, 6, 3, 4, 5] {7, 8, 9, 11} (6, 7) [6, 10, 11, 7] {1, 2, 3, 4, 5, 6, 9} (7, 6) [7, 11, 10, 6] {7, 8} (6, 7) [6, 9, 8, 7] {1, 2, 3, 4, 5, 6, 10} (7, 6) [7, 8, 9, 6] {7, 11} (6, 8) [6, 9, 8] {1, 2, 3, 4, 5, 6, 10} (8, 6) [8, 9, 6] {7, 8} (6, 9) [6, 9] {1, 2, 3, 4, 5, 6, 10, 11} (9, 6) [9, 6] {7, 8, 9} (6, 10) [6, 10] {1, 2, 3, 4, 5, 6, 8, 9} (10, 6) [10, 6] {7, 10, 11} (6, 11) [6, 10, 11] {1, 2, 3, 4, 5, 6, 9} (11, 6) [11, 10, 6] {7, 11} (7, 8) [7, 8] {7, 10, 11} (8, 7) [8, 7] {1, 2, 3, 4, 5, 6, 8, 9} (7, 9) [7, 8, 9] {7, 11} (9, 7) [9, 8, 7] {1, 2, 3, 4, 5, 6, 9} (7, 10) [7, 11, 10] {7, 8} (10, 7) [10, 11, 7] {1, 2, 3, 4, 5, 6, 10} (7, 11) [7, 11] {7, 8, 9} (11, 7) [11, 7] {1, 2, 3, 4, 5, 6, 10, 11} (8, 9) [8, 9] {7, 8, 11} (9, 8) [9, 8] {1, 2, 3, 4, 5, 6, 9, 10} (8, 10) [8, 9, 6, 10] {7, 8} (8, 10) [8, 7, 11, 10] {8, 9} (10, 8) [10, 11, 7, 8] {1, 2, 3, 4, 5, 6, 10} (8, 11) [8, 7, 11] {8, 9} (11, 8) [11, 7, 8] {10, 11} (9, 10) [9, 6, 10] {8, 9} (10, 9) [10, 6, 9] {10, 11} (11, 9) [11, 10, 6, 9] {7, 11}

98

Page 99: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

99

(9, 11) [9, 8, 7, 11] {1, 2, 3, 4, 5, 6, 9} (11, 9) [11, 7, 8, 9] {10, 11} (10, 11) [10, 11] {1, 2, 3, 4, 5, 6, 9, 10} (11, 10) [11, 10] {7, 8, 11}

o Σ(CFD): 237; o Σ(CFD)2: 889; o ΣA(CFD): 60.5; o ΣA(CFD)2: 242; o Matricea CFD:

CFD 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0 2 2 2 2 3 3 3 3 3 3 26 2 8 0 2 2 8 4 4 4 4 4 4 44 3 8 8 0 8 8 5 5 5 5 5 5 62 4 8 2 2 0 8 4 4 4 4 4 4 44 5 2 2 2 2 0 3 3 3 3 3 3 26 6 6 6 6 6 6 0 7 7 8 8 7 67 7 3 3 3 3 3 2 0 3 2 2 3 27 8 4 4 4 4 4 2 8 0 3 2 2 37 9 5 5 5 5 5 3 7 8 0 2 7 52

10 5 5 5 5 5 3 7 7 2 0 8 52 11 4 4 4 4 4 2 8 2 2 3 0 37 Σ 53 41 35 41 53 31 56 46 36 36 46 474

o Σ(RCFD): 15.725; o Σ(RCFD)2: 4.16(3); o ΣA(RCFD): 3.308(3); o ΣA(RCFD)2: 0.78(3); o Matricea RCFD:

RCFD 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0.000 0.500 0.500 0.500 0.500 0.333 0.333 0.333 0.333 0.333 0.333 4.0002 0.125 0.000 0.500 0.500 0.125 0.250 0.250 0.250 0.250 0.250 0.250 2.7503 0.125 0.125 0.000 0.125 0.125 0.200 0.200 0.200 0.200 0.200 0.200 1.7004 0.125 0.500 0.500 0.000 0.125 0.250 0.250 0.250 0.250 0.250 0.250 2.7505 0.500 0.500 0.500 0.500 0.000 0.333 0.333 0.333 0.333 0.333 0.333 4.0006 0.167 0.167 0.167 0.167 0.167 0.000 0.143 0.143 0.125 0.125 0.143 1.5127 0.333 0.333 0.333 0.333 0.333 0.500 0.000 0.333 0.500 0.500 0.333 3.8338 0.250 0.250 0.250 0.250 0.250 0.500 0.125 0.000 0.333 0.500 0.500 3.2089 0.200 0.200 0.200 0.200 0.200 0.333 0.143 0.125 0.000 0.500 0.143 2.244

10 0.200 0.200 0.200 0.200 0.200 0.333 0.143 0.143 0.500 0.000 0.125 2.24411 0.250 0.250 0.250 0.250 0.250 0.500 0.125 0.500 0.500 0.333 0.000 3.208Σ 2.275 3.025 3.400 3.025 2.275 3.533 2.045 2.611 3.325 3.325 2.611 31.450

÷ Matricea Cluj Fragmental pe Detururi, CFΔ: o Definiţie: CFΔi,j = max|CFΔSi,j|; {k}∈CFΔSi,j ⇔ d(Gp)k,i<d(Gp)k,j | p∈Δ(G)i,j, Gp=G\p; o Referinţe:

÷ Jäntschi L, Katona G, Diudea MV. 2000. Modeling Molecular Properties by Cluj Indices. Commun Math Comput Chem 41:151-188.

÷ Jäntschi L. 2002. Graph Theory. 1. Fragmentation of Structural Graphs. Leonardo El J Pract Technol 1(1):19-36.

o Enumerarea seturilor CFΔS: (i,j) p∈Δ(G)i,j CFΔSi,j (1, 2) [1, 5, 4, 3, 2] {1} (2, 1) [2, 3, 4, 5, 1] {2}

Page 100: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(1, 3) [1, 5, 4, 3] {1} (3, 1) [3, 4, 5, 1] {3, 6, 7, 8, 9, 10, 11} (1, 4) [1, 2, 3, 4] {1} (4, 1) [4, 3, 2, 1] {4} (1, 5) [1, 2, 3, 4, 5] {1} (5, 1) [5, 4, 3, 2, 1] {5} (1, 6) [1, 5, 4, 3, 6] {1, 2} (6, 1) [6, 3, 4, 5, 1] {6, 7, 8, 9, 10, 11} (1, 7) [1, 5, 4, 3, 6, 10, 11, 7] {1, 2} (7, 1) [7, 11, 10, 6, 3, 4, 5, 1] {7, 8, 9} (1, 7) [1, 5, 4, 3, 6, 9, 8, 7] {1, 2} (7, 1) [7, 8, 9, 6, 3, 4, 5, 1] {7, 10, 11} (1, 8) [1, 5, 4, 3, 6, 10, 11, 7, 8] {1, 2} (8, 1) [8, 7, 11, 10, 6, 3, 4, 5, 1] {8, 9} (1, 9) [1, 5, 4, 3, 6, 10, 11, 7, 8, 9] {1, 2} (9, 1) [9, 8, 7, 11, 10, 6, 3, 4, 5, 1] {9} (1, 10) [1, 5, 4, 3, 6, 9, 8, 7, 11, 10] {1, 2} (10, 1) [10, 11, 7, 8, 9, 6, 3, 4, 5, 1] {10} (1, 11) [1, 5, 4, 3, 6, 9, 8, 7, 11] {1, 2} (11, 1) [11, 7, 8, 9, 6, 3, 4, 5, 1] {10, 11} (2, 3) [2, 1, 5, 4, 3] {2} (3, 2) [3, 4, 5, 1, 2] {3, 6, 7, 8, 9, 10, 11} (2, 4) [2, 1, 5, 4] {2} (4, 2) [4, 5, 1, 2] {4} (2, 5) [2, 3, 4, 5] {2} (5, 2) [5, 4, 3, 2] {5} (2, 6) [2, 1, 5, 4, 3, 6] {2} (6, 2) [6, 3, 4, 5, 1, 2] {6, 7, 8, 9, 10, 11} (2, 7) [2, 1, 5, 4, 3, 6, 10, 11, 7] {2} (7, 2) [7, 11, 10, 6, 3, 4, 5, 1, 2] {7, 8, 9} (2, 7) [2, 1, 5, 4, 3, 6, 9, 8, 7] {2} (7, 2) [7, 8, 9, 6, 3, 4, 5, 1, 2] {7, 10, 11} (2, 8) [2, 1, 5, 4, 3, 6, 10, 11, 7, 8] {2} (8, 2) [8, 7, 11, 10, 6, 3, 4, 5, 1, 2] {8, 9} (2, 9) [2, 1, 5, 4, 3, 6, 10, 11, 7, 8, 9] {2} (9, 2) [9, 8, 7, 11, 10, 6, 3, 4, 5, 1, 2] {9} (2, 10) [2, 1, 5, 4, 3, 6, 9, 8, 7, 11, 10] {2} (10, 2) [10, 11, 7, 8, 9, 6, 3, 4, 5, 1, 2] {10} (2, 11) [2, 1, 5, 4, 3, 6, 9, 8, 7, 11] {2} (11, 2) [11, 7, 8, 9, 6, 3, 4, 5, 1, 2] {10, 11} (3, 4) [3, 2, 1, 5, 4] {3, 6, 7, 8, 9, 10, 11} (4, 3) [4, 5, 1, 2, 3] {4} (3, 5) [3, 2, 1, 5] {3, 6, 7, 8, 9, 10, 11} (5, 3) [5, 1, 2, 3] {5} (3, 6) [3, 6] {1, 2, 3, 4, 5} (6, 3) [6, 3] {6, 7, 8, 9, 10, 11} (3, 7) [3, 6, 10, 11, 7] {1, 2, 3, 4, 5} (7, 3) [7, 11, 10, 6, 3] {7, 8, 9} (3, 7) [3, 6, 9, 8, 7] {1, 2, 3, 4, 5} (7, 3) [7, 8, 9, 6, 3] {7, 10, 11}

100

Page 101: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(3, 8) [3, 6, 10, 11, 7, 8] {1, 2, 3, 4, 5} (8, 3) [8, 7, 11, 10, 6, 3] {8, 9} (3, 9) [3, 6, 10, 11, 7, 8, 9] {1, 2, 3, 4, 5} (9, 3) [9, 8, 7, 11, 10, 6, 3] {9} (3, 10) [3, 6, 9, 8, 7, 11, 10] {1, 2, 3, 4, 5} (10, 3) [10, 11, 7, 8, 9, 6, 3] {10} (3, 11) [3, 6, 9, 8, 7, 11] {1, 2, 3, 4, 5} (11, 3) [11, 7, 8, 9, 6, 3] {10, 11} (4, 5) [4, 3, 2, 1, 5] {4} (5, 4) [5, 1, 2, 3, 4] {5} (4, 6) [4, 5, 1, 2, 3, 6] {4} (6, 4) [6, 3, 2, 1, 5, 4] {6, 7, 8, 9, 10, 11} (4, 7) [4, 5, 1, 2, 3, 6, 10, 11, 7] {4} (7, 4) [7, 11, 10, 6, 3, 2, 1, 5, 4] {7, 8, 9} (4, 7) [4, 5, 1, 2, 3, 6, 9, 8, 7] {4} (7, 4) [7, 8, 9, 6, 3, 2, 1, 5, 4] {7, 10, 11} (4, 8) [4, 5, 1, 2, 3, 6, 10, 11, 7, 8] {4} (8, 4) [8, 7, 11, 10, 6, 3, 2, 1, 5, 4] {8, 9} (4, 9) [4, 5, 1, 2, 3, 6, 10, 11, 7, 8, 9] {4} (9, 4) [9, 8, 7, 11, 10, 6, 3, 2, 1, 5, 4] {9} (4, 10) [4, 5, 1, 2, 3, 6, 9, 8, 7, 11, 10] {4} (10, 4) [10, 11, 7, 8, 9, 6, 3, 2, 1, 5, 4] {10} (4, 11) [4, 5, 1, 2, 3, 6, 9, 8, 7, 11] {4} (11, 4) [11, 7, 8, 9, 6, 3, 2, 1, 5, 4] {10, 11} (5, 6) [5, 1, 2, 3, 6] {4, 5} (6, 5) [6, 3, 2, 1, 5] {6, 7, 8, 9, 10, 11} (5, 7) [5, 1, 2, 3, 6, 10, 11, 7] {4, 5} (7, 5) [7, 11, 10, 6, 3, 2, 1, 5] {7, 8, 9} (5, 7) [5, 1, 2, 3, 6, 9, 8, 7] {4, 5} (7, 5) [7, 8, 9, 6, 3, 2, 1, 5] {7, 10, 11} (5, 8) [5, 1, 2, 3, 6, 10, 11, 7, 8] {4, 5} (8, 5) [8, 7, 11, 10, 6, 3, 2, 1, 5] {8, 9} (5, 9) [5, 1, 2, 3, 6, 10, 11, 7, 8, 9] {4, 5} (9, 5) [9, 8, 7, 11, 10, 6, 3, 2, 1, 5] {9} (5, 10) [5, 1, 2, 3, 6, 9, 8, 7, 11, 10] {4, 5} (10, 5) [10, 11, 7, 8, 9, 6, 3, 2, 1, 5] {10} (5, 11) [5, 1, 2, 3, 6, 9, 8, 7, 11] {4, 5} (11, 5) [11, 7, 8, 9, 6, 3, 2, 1, 5] {10, 11} (6, 7) [6, 10, 11, 7] {1, 2, 3, 4, 5, 6, 9} (7, 6) [7, 11, 10, 6] {7, 8} (6, 7) [6, 9, 8, 7] {1, 2, 3, 4, 5, 6, 10} (7, 6) [7, 8, 9, 6] {7, 11} (6, 8) [6, 10, 11, 7, 8] {1, 2, 3, 4, 5, 6} (8, 6) [8, 7, 11, 10, 6] {8} (6, 9) [6, 10, 11, 7, 8, 9] {1, 2, 3, 4, 5, 6} (9, 6) [9, 8, 7, 11, 10, 6] {9} (6, 10) [6, 9, 8, 7, 11, 10] {1, 2, 3, 4, 5, 6} (10, 6) [10, 11, 7, 8, 9, 6] {10} (6, 11) [6, 9, 8, 7, 11] {1, 2, 3, 4, 5, 6} (11, 6) [11, 7, 8, 9, 6] {11}

101

Page 102: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

102

(7, 8) [7, 11, 10, 6, 9, 8] {7} (8, 7) [8, 9, 6, 10, 11, 7] {8} (7, 9) [7, 11, 10, 6, 9] {7} (9, 7) [9, 6, 10, 11, 7] {9} (7, 10) [7, 8, 9, 6, 10] {7} (10, 7) [10, 6, 9, 8, 7] {10} (7, 11) [7, 8, 9, 6, 10, 11] {7} (11, 7) [11, 10, 6, 9, 8, 7] {11} (8, 9) [8, 7, 11, 10, 6, 9] {8} (9, 8) [9, 6, 10, 11, 7, 8] {9} (8, 10) [8, 9, 6, 10] {7, 8} (8, 10) [8, 7, 11, 10] {8, 9} (10, 8) [10, 11, 7, 8] {1, 2, 3, 4, 5, 6, 10} (8, 11) [8, 9, 6, 10, 11] {8} (11, 8) [11, 10, 6, 9, 8] {11} (9, 10) [9, 8, 7, 11, 10] {9} (10, 9) [10, 11, 7, 8, 9] {10} (11, 9) [11, 10, 6, 9] {7, 11} (9, 11) [9, 8, 7, 11] {1, 2, 3, 4, 5, 6, 9} (11, 9) [11, 7, 8, 9] {10, 11} (10, 11) [10, 6, 9, 8, 7, 11] {10} (11, 10) [11, 7, 8, 9, 6, 10] {11}

o Σ(CFΔ): 128; o Σ(CFΔ)2: 273; o ΣA(CFΔ): 27.5; o ΣA(CFΔ)2: 63; o Matricea CFΔ:

CFΔ 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0 1 1 1 1 2 2 2 2 2 2 16 2 1 0 1 1 1 1 1 1 1 1 1 10 3 7 7 0 7 7 5 5 5 5 5 5 58 4 1 1 1 0 1 1 1 1 1 1 1 10 5 1 1 1 1 0 2 2 2 2 2 2 16 6 6 6 6 6 6 0 7 6 6 6 6 61 7 3 3 3 3 3 2 0 1 1 1 1 21 8 2 2 2 2 2 1 1 0 1 2 1 16 9 1 1 1 1 1 1 1 1 0 1 7 16

10 1 1 1 1 1 1 1 7 1 0 1 16 11 2 2 2 2 2 1 1 1 2 1 0 16 Σ 25 25 19 25 25 17 22 27 22 22 27 256

o Σ(RCFΔ): 37.9(3); o Σ(RCFΔ)2: 26.6523809; o ΣA(RCFΔ): 9.492857; o ΣA(RCFΔ)2: 7.6523809; o Matricea RCFΔ:

RCFΔ 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0.000 1.000 1.000 1.000 1.000 0.500 0.500 0.500 0.500 0.500 0.500 7.0002 1.000 0.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 10.0003 0.143 0.143 0.000 0.143 0.143 0.200 0.200 0.200 0.200 0.200 0.200 1.7714 1.000 1.000 1.000 0.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 10.0005 1.000 1.000 1.000 1.000 0.000 0.500 0.500 0.500 0.500 0.500 0.500 7.000

Page 103: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

103

6 0.167 0.167 0.167 0.167 0.167 0.000 0.143 0.167 0.167 0.167 0.167 1.6437 0.333 0.333 0.333 0.333 0.333 0.500 0.000 1.000 1.000 1.000 1.000 6.1678 0.500 0.500 0.500 0.500 0.500 1.000 1.000 0.000 1.000 0.500 1.000 7.0009 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.000 1.000 0.143 9.143

10 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.143 1.000 0.000 1.000 9.14311 0.500 0.500 0.500 0.500 0.500 1.000 1.000 1.000 0.500 1.000 0.000 7.000Σ 6.643 6.643 7.500 6.643 6.643 7.700 7.343 6.510 6.867 6.867 6.510 75.867

÷ Matricea Szeged pe Distanţe (SzD) şi Detururi (SzΔ): o Definiţie:

÷ SzDi,j = |SzDSi,j|; SzDSi,j={k | d(G)k,i<d(G)k,j} ÷ SzΔi,j = |SzΔSi,j|; SzΔSi,j={k | δ(G)k,i<δ(G)k,j}

o Referinţe: ÷ Gutman I. 1994. A Formula for the Wiener Number of Trees and Its Extension to

Graphs Containing Cycles. Graph Theory Notes NY 27:9-15. ÷ Jäntschi L. 2002. Graph Theory. 1. Fragmentation of Structural Graphs.

Leonardo El J Pract Technol 1(1):19-36. o Enumerarea seturilor SzDS şi SzΔS:

(i,j) SzDSi,j SzDSj,i SzΔSi,j SzΔSj,i (1,2) {1,5} {2,3,6,7,8,9,10,11} {1,3,6,7,8,9,10,11} {2,5} (1,3) {1,5} {3,4,6,7,8,9,10,11} {1,4} {3,5,6,7,8,9,10,11}(2,3) {1,2} {3,4,6,7,8,9,10,11} {2,4} {1,3,6,7,8,9,10,11}(1,4) {1,2} {3,4,6,7,8,9,10,11} {1,3,6,7,8,9,10,11} {2,4} (2,4) {1,2} {4,5} {2,5} {1,4} (3,4) {2,3,6,7,8,9,10,11} {4,5} {3,5,6,7,8,9,10,11} {2,4} (1,5) {1,2} {4,5} {1,4} {2,5} (2,5) {2,3,6,7,8,9,10,11} {4,5} {2,4} {3,5,6,7,8,9,10,11}(3,5) {2,3,6,7,8,9,10,11} {1,5} {1,3,6,7,8,9,10,11} {2,5} (4,5) {3,4,6,7,8,9,10,11} {1,5} {1,4} {3,5,6,7,8,9,10,11}(1,6) {1,2,5} {3,6,7,8,9,10,11} {1,2,4} {3,6,7,8,9,10,11} (2,6) {1,2,5} {6,7,8,9,10,11} {2,4,5} {3,6,7,8,9,10,11} (3,6) {1,2,3,4,5} {6,7,8,9,10,11} {1,2,3,4,5} {6,7,8,9,10,11} (4,6) {1,4,5} {6,7,8,9,10,11} {1,2,4} {3,6,7,8,9,10,11} (5,6) {1,4,5} {3,6,7,8,9,10,11} {2,4,5} {3,6,7,8,9,10,11} (1,7) {1,2,3,4,5} {7,8,9,10,11} {1,2,3,4,5} {6,7,8,9,10,11} (2,7) {1,2,3,4,5,6} {7,8,9,10,11} {1,2,4,5} {6,7,8,9,10,11} (3,7) {1,2,3,4,5,6} {7,8,11} {1,2,3,4,5,6} {7,9,10} (4,7) {1,2,3,4,5,6} {7,8,9,10,11} {1,2,4,5} {6,7,8,9,10,11} (5,7) {1,2,3,4,5} {7,8,9,10,11} {1,2,3,4,5} {6,7,8,9,10,11} (6,7) {1,2,3,4,5,6,9,10} {7,8,11} {1,2,3,4,5,6,8,11} {7,9,10} (1,8) {1,2,3,4,5} {6,7,8,9,10,11} {1,2,3,4,5} {7,8,9,10,11} (2,8) {1,2,3,4,5} {7,8,9,11} {1,2,3,4,5} {6,7,8,9,10,11} (3,8) {1,2,3,4,5,6,10} {7,8,9,11} {1,2,3,4,5,6,7} {8,9,10,11} (4,8) {1,2,3,4,5} {7,8,9,11} {1,2,3,4,5} {6,7,8,9,10,11} (5,8) {1,2,3,4,5} {6,7,8,9,10,11} {1,2,3,4,5} {7,8,9,10,11} (6,8) {1,2,3,4,5,6,10} {7,8} {1,2,3,4,5,6,7} {8,10} (7,8) {7,10,11} {1,2,3,4,5,6,8,9} {1,2,3,4,5,6,7,9} {8,10,11} (1,9) {1,2,4,5} {6,7,8,9,10,11} {1,2,3,4,5,6} {7,8,9,10,11} (2,9) {1,2,3,4,5} {6,7,8,9,10,11} {1,2,3,4,5} {7,8,9,10,11} (3,9) {1,2,3,4,5} {7,8,9} {1,2,3,4,5,6} {9,10,11} (4,9) {1,2,3,4,5} {6,7,8,9,10,11} {1,2,3,4,5} {7,8,9,10,11}

Page 104: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

104

(5,9) {1,2,4,5} {6,7,8,9,10,11} {1,2,3,4,5,6} {7,8,9,10,11} (6,9) {1,2,3,4,5,6,10,11} {7,8,9} {1,2,3,4,5,6,7,8} {9,10,11} (7,9) {7,11} {1,2,3,4,5,6,9} {1,2,3,4,5,6,7} {9,11} (8,9) {7,8,11} {1,2,3,4,5,6,9,10} {1,2,3,4,5,6,8,10} {7,9,11} (1,10) {1,2,4,5} {6,7,8,9,10,11} {1,2,3,4,5,6} {7,8,9,10,11} (2,10) {1,2,3,4,5} {6,7,8,9,10,11} {1,2,3,4,5} {7,8,9,10,11} (3,10) {1,2,3,4,5} {7,10,11} {1,2,3,4,5,6} {8,9,10} (4,10) {1,2,3,4,5} {6,7,8,9,10,11} {1,2,3,4,5} {7,8,9,10,11} (5,10) {1,2,4,5} {6,7,8,9,10,11} {1,2,3,4,5,6} {7,8,9,10,11} (6,10) {1,2,3,4,5,6,8,9} {7,10,11} {1,2,3,4,5,6,7,11} {8,9,10} (7,10) {7,8} {1,2,3,4,5,6,10} {1,2,3,4,5,6,7} {8,10} (8,10) {7,8,9} {1,2,3,4,5,6,10,11} {1,2,3,4,5,6,8,11} {7,9,10} (9,10) {8,9} {10,11} {9,11} {8,10} (1,11) {1,2,3,4,5} {6,7,8,9,10,11} {1,2,3,4,5} {7,8,9,10,11} (2,11) {1,2,3,4,5} {7,8,10,11} {1,2,3,4,5} {6,7,8,9,10,11} (3,11) {1,2,3,4,5,6,9} {7,8,10,11} {1,2,3,4,5,6,7} {8,9,10,11} (4,11) {1,2,3,4,5} {7,8,10,11} {1,2,3,4,5} {6,7,8,9,10,11} (5,11) {1,2,3,4,5} {6,7,8,9,10,11} {1,2,3,4,5} {7,8,9,10,11} (6,11) {1,2,3,4,5,6,9} {7,11} {1,2,3,4,5,6,7} {9,11} (7,11) {7,8,9} {1,2,3,4,5,6,10,11} {1,2,3,4,5,6,7,10} {8,9,11} (8,11) {8,9} {10,11} {8,10} {9,11} (9,11) {1,2,3,4,5,6,8,9} {7,10,11} {7,9,10} {1,2,3,4,5,6,8,11} (10,11) {1,2,3,4,5,6,9,10} {7,8,11} {7,8,10} {1,2,3,4,5,6,9,11} o Σ(SzD): 266.5; o Σ(SzD)2: 1154; o ΣA(SzD): 60.5; o ΣA(SzD)2: 242; o Matricea SzD:

SzD 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0 2 2 2 2 3 5 5 4 4 5 34 2 8 0 2 2 8 3 6 5 5 5 5 49 3 8 8 0 8 8 5 6 7 5 5 7 67 4 8 2 2 0 8 3 6 5 5 5 5 49 5 2 2 2 2 0 3 5 5 4 4 5 34 6 7 6 6 6 7 0 8 7 8 8 7 70 7 5 5 3 5 5 3 0 3 2 2 3 36 8 6 4 4 4 6 2 8 0 3 3 2 42 9 6 6 3 6 6 3 7 8 0 2 8 55

10 6 6 3 6 6 3 7 8 2 0 8 55 11 6 4 4 4 6 2 8 2 3 3 0 42 Σ 62 45 31 45 62 30 66 55 41 41 55 533

o Σ(RSzD): 14.15059; o Σ(RSzD)2: 3.440714; o ΣA(RSzD): 3.308(3); o ΣA(RSzD)2: 0.78(3); o Matricea RSzD:

RSzD 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0.000 0.500 0.500 0.500 0.500 0.333 0.200 0.200 0.250 0.250 0.200 3.4332 0.125 0.000 0.500 0.500 0.125 0.333 0.167 0.200 0.200 0.200 0.200 2.5503 0.125 0.125 0.000 0.125 0.125 0.200 0.167 0.143 0.200 0.200 0.143 1.5524 0.125 0.500 0.500 0.000 0.125 0.333 0.167 0.200 0.200 0.200 0.200 2.550

Page 105: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

105

5 0.500 0.500 0.500 0.500 0.000 0.333 0.200 0.200 0.250 0.250 0.200 3.4336 0.143 0.167 0.167 0.167 0.143 0.000 0.125 0.143 0.125 0.125 0.143 1.4467 0.200 0.200 0.333 0.200 0.200 0.333 0.000 0.333 0.500 0.500 0.333 3.1338 0.167 0.250 0.250 0.250 0.167 0.500 0.125 0.000 0.333 0.333 0.500 2.8759 0.167 0.167 0.333 0.167 0.167 0.333 0.143 0.125 0.000 0.500 0.125 2.226

10 0.167 0.167 0.333 0.167 0.167 0.333 0.143 0.125 0.500 0.000 0.125 2.22611 0.167 0.250 0.250 0.250 0.167 0.500 0.125 0.500 0.333 0.333 0.000 2.875Σ 1.885 2.825 3.667 2.825 1.885 3.533 1.561 2.169 2.892 2.892 2.169 28.301

o Σ(SzΔ): 270.5; o Σ(SzΔ)2: 1188; o ΣA(SzΔ): 60.5; o ΣA(SzΔ)2: 242; o Matricea SzΔ:

SzΔ 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0 8 2 8 2 3 5 5 6 6 5 50 2 2 0 2 2 2 3 4 5 5 5 5 35 3 8 8 0 8 8 5 6 7 6 6 7 69 4 2 2 2 0 2 3 4 5 5 5 5 35 5 2 8 2 8 0 3 5 5 6 6 5 50 6 7 7 6 7 7 0 8 7 8 8 7 72 7 6 6 3 6 6 3 0 8 7 7 8 60 8 5 6 4 6 5 2 3 0 8 8 2 49 9 5 5 3 5 5 3 2 3 0 2 3 36

10 5 5 3 5 5 3 2 3 2 0 3 36 11 5 6 4 6 5 2 3 2 8 8 0 49 Σ 47 61 31 61 47 30 42 50 61 61 50 541

o Σ(RSzΔ): 13.9767857; o Σ(RSzΔ)2: 3.3592857; o ΣA(RSzΔ): 3.308(3); o ΣA(RSzΔ)2: 0.78(3); o Matricea RSzΔ:

RSzΔ 1 2 3 4 5 6 7 8 9 10 11 Σ 1 0.000 0.125 0.500 0.125 0.500 0.333 0.200 0.200 0.167 0.167 0.200 2.5172 0.500 0.000 0.500 0.500 0.500 0.333 0.250 0.200 0.200 0.200 0.200 3.3833 0.125 0.125 0.000 0.125 0.125 0.200 0.167 0.143 0.167 0.167 0.143 1.4864 0.500 0.500 0.500 0.000 0.500 0.333 0.250 0.200 0.200 0.200 0.200 3.3835 0.500 0.125 0.500 0.125 0.000 0.333 0.200 0.200 0.167 0.167 0.200 2.5176 0.143 0.143 0.167 0.143 0.143 0.000 0.125 0.143 0.125 0.125 0.143 1.3997 0.167 0.167 0.333 0.167 0.167 0.333 0.000 0.125 0.143 0.143 0.125 1.8698 0.200 0.167 0.250 0.167 0.200 0.500 0.333 0.000 0.125 0.125 0.500 2.5679 0.200 0.200 0.333 0.200 0.200 0.333 0.500 0.333 0.000 0.500 0.333 3.133

10 0.200 0.200 0.333 0.200 0.200 0.333 0.500 0.333 0.500 0.000 0.333 3.13311 0.200 0.167 0.250 0.167 0.200 0.500 0.333 0.500 0.125 0.125 0.000 2.567Σ 2.735 1.918 3.667 1.918 2.735 3.533 2.858 2.377 1.918 1.918 2.377 27.954

÷ Produsul Hadamard a două matrici H(·,·): o Definiţie: H(A,B)i,j=Ai,j·Bi,j; o Aplicaţii:

Hadamard CJD CJΔ CFD CFΔ SzD SzΔ D H(D,CJD) H(D,CJΔ) H(D,CFD) H(D,CFΔ) H(D,SzD) H(D,SzΔ) Δ H(Δ,CJD) H(Δ,CJΔ) H(Δ,CFD) H(Δ,CFΔ) H(Δ,SzD) H(Δ,SzΔ)

o Indici pe matricile Hadamard:

Page 106: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

106

H(·,·) Σ(·) Σ(·)2 ΣA(·) ΣA(·)2 Σ(1/(·)) Σ(1/(·))2 ΣA(1/(·))2 ΣA(1/(·))2 H(D,CJD) 600 6954 60.5 242 7.971 1.315 3.308 0.783 H(D,CJΔ) 347 2491 27.5 63 19.834 10.582 9.493 7.652 H(D,CFD) 622 7616 60.5 242 7.717 1.278 3.308 0.783 H(D,CFΔ) 349 2571 27.5 63 19.813 10.580 9.493 7.652 H(D,SzD) 756 13048 60.5 242 7.389 1.250 3.308 0.783 H(D,SzΔ) 769 13500 60.5 242 7.333 1.238 3.308 0.783 H(Δ,CJD) 1292 32244 258.5 4718 3.574 0.255 0.896 0.075 H(Δ,CJΔ) 653 6885 104.5 702 7.676 1.243 2.252 0.412 H(Δ,CFD) 1338 35082 258.5 4718 3.437 0.244 0.896 0.075 H(Δ,CFΔ) 655 6965 104.5 702 7.655 1.241 2.252 0.412 H(Δ,SzD) 1564 51568 258.5 4718 3.189 0.224 0.896 0.075 H(Δ,SzΔ) 1592 53560 258.5 4718 3.166 0.222 0.896 0.075

÷ Produsul Schultz a două matrici S(·,A,·): o Definiţie: S(X,A,Y)i,j=X(A+Y); o Aplicaţii:

Schultz CJD CJΔ CFD CFΔ SzD SzΔ A S(A,A,CJD) S(A,A,CJΔ) S(A,A,CFD) S(A,A,CFΔ) S(A,A,SzD) S(A,A,SzΔ)D S(D,A,CJD) S(D,A,CJΔ) S(D,A,CFD) S(D,A,CFΔ) S(D,A,SzD) S(D,A,SzΔ)Δ S(Δ,A,CJD) S(Δ,A,CJΔ) S(Δ,A,CFD) S(Δ,A,CFΔ) S(Δ,A,SzD) S(Δ,A,SzΔ)o Indici pe matricile Schultz:

S(·,A,·) Σ(·) Σ(·)2 ΣA(·) ΣA(·)2 Σ(1/(·)) Σ(1/(·))2 ΣA(1/(·))2 ΣA(1/(·))2

S(A,A,CJD) 550.5 4833.5 61 248 8.76175 1.31487 3.47024 0.72197S(A,A,CJΔ) 341.5 1987.5 35 59 16.89960 6.16609 8.11905 4.48810S(A,A,CFD) 565.5 5205.5 64 292 8.46774 1.26196 3.41607 0.70670S(A,A,CFΔ) 342.5 2003.5 35 59 16.81627 6.14526 8.11905 4.48810S(A,A,SzD) 628.5 6339.5 61 248 7.90838 1.13978 3.47024 0.72197S(A,A,SzΔ) 638.5 7171.5 63 342 7.49169 1.45677 3.43849 1.08596S(D,A,CJD) 6358.5 728779 1215 137976 0.57811 0.00663 0.13649 0.00177S(D,A,CJΔ) 3573.5 217760 712 45023 1.01352 0.01929 0.22652 0.00467S(D,A,CFD) 6576 764461 1278.5 147548 0.55208 0.00590 0.12597 0.00145S(D,A,CFΔ) 3591 219152 718.5 45529 1.00766 0.01898 0.22338 0.00450S(D,A,SzD) 7440 1002756 1515.5 219149 0.49894 0.00496 0.11222 0.00123S(D,A,SzΔ) 7786 1016184 1548.5 208403 0.47479 0.00423 0.10478 0.00102S(Δ,A,CJD) 13560.5 3120452 2446 527736 0.27149 0.00139 0.06576 0.00039S(Δ,A,CJΔ) 7227.5 887001 1330 150684 0.50828 0.00483 0.12147 0.00126S(Δ,A,CFD) 14022 3290896 2598.5 573094 0.25910 0.00124 0.06093 0.00032S(Δ,A,CFΔ) 7255 890817 1339.5 151878 0.50613 0.00476 0.12055 0.00123S(Δ,A,SzD) 15724 4220049 2992.5 802176 0.23648 0.00106 0.05506 0.00028S(Δ,A,SzΔ) 15684 4367127 2991.5 792573 0.23389 0.00108 0.05216 0.00025

Polinoame Polinoamele au aplicaţii importante în topologia moleculară. Următoarele polinoame sunt definite: ÷ Polinomul caracteristic (ChP) asociat unui graf G [Bolboacă SD, Jäntschi L. 2007. How Good

the Characteristic Polynomial Can Be for Correlations? Int J Mol Sci 8(4):335-345] se obţine pe baza matricii de adiacenţă A=A(G) astfel: ChP(G,X)=det[XI-A(G)]

÷ Polinoamele de numărare (CDi, CMx, CcM, CSz, CCf) se definesc astfel [Jäntschi L. 2007. Characteristic and Counting Polynomials of Nonane Isomers. Cluj: AcademicDirect, p. 101]: C(G,M,X) = Σk≥0|{Mi,j , |Mi,j| = k}|Xk, unde M=D, Mx, cM, Sz, Cf.

În tabelul 10 este redată matricea caracteristică, iar în Tabelele 11-15 sunt redate matricile de numărare CDi, CMx, CcM, CSz, CCf asociate grafului molecular din Tabelul 9.

Page 107: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

107

Tabelul 10. Matricea caracteristică a grafului molecular din Tabelul 9 [Ch] 1 2 3 4 5 6 7 8 9 10 11 1 X -1 0 0 -1 0 0 0 0 0 0 2 -1 X -1 0 0 0 0 0 0 0 0 3 0 -1 X -1 0 -1 0 0 0 0 0 4 0 0 -1 X -1 0 0 0 0 0 0 5 -1 0 0 -1 X 0 0 0 0 0 0 6 0 0 -1 0 0 X 0 0 -1 -1 0 7 0 0 0 0 0 0 X -1 0 0 -1 8 0 0 0 0 0 0 -1 X -1 0 0 9 0 0 0 0 0 -1 0 -1 X 0 0 10 0 0 0 0 0 -1 0 0 0 X -1 11 0 0 0 0 0 0 -1 0 0 -1 X ChP X11 - 12X9 + 51X7 - 2X6 - 95X5 + 12X4 + 78X3 - 18X2 - 23X1 + 8

Tabelul 11. Matricea de numărare pe distanţe a grafului molecular din Tabelul 9 [Di] 1 2 3 4 5 6 7 8 9 10 11 1 0 1 2 2 1 3 6 5 4 4 5 2 1 0 1 2 2 2 5 4 3 3 4 3 2 1 0 1 2 1 4 3 2 2 3 4 2 2 1 0 1 2 5 4 3 3 4 5 1 2 2 1 0 3 6 5 4 4 5 6 3 2 1 2 3 0 3 2 1 1 2 7 6 5 4 5 6 3 0 1 2 2 1 8 5 4 3 4 5 2 1 0 1 3 2 9 4 3 2 3 4 1 2 1 0 2 3 10 4 3 2 3 4 1 2 3 2 0 1 11 5 4 3 4 5 2 1 2 3 1 0 CDi 4X6 + 12X5 + 18X4 + 22X3 + 30X2 + 24X1 + 11

Tabelul 12. Matricea fragmentelor maximale pentru graful molecular din Tabelul 9 [Mx] 1 2 3 4 5 6 7 8 9 10 11 1 1 3 4 5

6 7 8 9 10 11

1 2 4 5

1 2 3 5 6 7 8 9 10 11

1 2 3 4 6 7 8 9 10 11

1 2 3 4 5

1 2 3 4 5 6 8 9 10 11

1 2 3 4 5 6 7 9 10 11

1 2 3 4 5 6 7 8 10 11

1 2 3 4 5 6 7 8 9 11

1 2 3 4 5 6 7 8 9 10

2 2 3 4 5 6 7 8 9 10 11

1 2 4 5

1 2 3 5 6 7 8 9 10 11

1 2 3 4 6 7 8 9 10 11

1 2 3 4 5

1 2 3 4 5 6 8 9 10 11

1 2 3 4 5 6 7 9 10 11

1 2 3 4 5 6 7 8 10 11

1 2 3 4 5 6 7 8 9 11

1 2 3 4 5 6 7 8 9 10

3 2 3 4 5 6 7 8 9 10 11

1 3 4 5 6 7 8 9 10 11

1 2 3 5 6 7 8 9 10 11

1 2 3 4 6 7 8 9 10 11

1 2 3 4 5

1 2 3 4 5 6 8 9 10 11

1 2 3 4 5 6 7 9 10 11

1 2 3 4 5 6 7 8 10 11

1 2 3 4 5 6 7 8 9 11

1 2 3 4 5 6 7 8 9 10

4 2 3 4 5 6 7 8 9 10 11

1 3 4 5 6 7 8 9 10 11

1 2 4 5

1 2 3 4 6 7 8 9 10 11

1 2 3 4 5

1 2 3 4 5 6 8 9 10 11

1 2 3 4 5 6 7 9 10 11

1 2 3 4 5 6 7 8 10 11

1 2 3 4 5 6 7 8 9 11

1 2 3 4 5 6 7 8 9 10

5 2 3 4 5 6 7 8 9 10 11

1 3 4 5 6 7 8 9 10 11

1 2 4 5

1 2 3 5 6 7 8 9 10 11

1 2 3 4 5

1 2 3 4 5 6 8 9 10 11

1 2 3 4 5 6 7 9 10 11

1 2 3 4 5 6 7 8 10 11

1 2 3 4 5 6 7 8 9 11

1 2 3 4 5 6 7 8 9 10

6 2 3 4 5 6 7 8 9 10 11

1 3 4 5 6 7 8 9 10 11

6 7 8 9 10 11

1 2 3 5 6 7 8 9 10 11

1 2 3 4 6 7 8 9 10 11

1 2 3 4 5 6 8 9 10 11

1 2 3 4 5 6 7 9 10 11

1 2 3 4 5 6 7 8 10 11

1 2 3 4 5 6 7 8 9 11

1 2 3 4 5 6 7 8 9 10

7 2 3 4 5 6 7 8 9 10 11

1 3 4 5 6 7 8 9 10 11

6 7 8 9 10 11

1 2 3 5 6 7 8 9 10 11

1 2 3 4 6 7 8 9 10 11

7 8 9 10 11

1 2 3 4 5 6 7 9 10 11

1 2 3 4 5 6 7 8 10 11

1 2 3 4 5 6 7 8 9 11

1 2 3 4 5 6 7 8 9 10

Page 108: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

108

8 2 3 4 5 6 7 8 9 10 11

1 3 4 5 6 7 8 9 10 11

6 7 8 9 10 11

1 2 3 5 6 7 8 9 10 11

1 2 3 4 6 7 8 9 10 11

7 8 9 10 11

1 2 3 4 5 6 8 9 10 11

1 2 3 4 5 6 7 8 10 11

1 2 3 4 5 6 7 8 9 11

1 2 3 4 5 6 7 8 9 10

9 2 3 4 5 6 7 8 9 10 11

1 3 4 5 6 7 8 9 10 11

6 7 8 9 10 11

1 2 3 5 6 7 8 9 10 11

1 2 3 4 6 7 8 9 10 11

7 8 9 10 11

1 2 3 4 5 6 8 9 10 11

1 2 3 4 5 6 7 9 10 11

1 2 3 4 5 6 7 8 9 11

1 2 3 4 5 6 7 8 9 10

10 2 3 4 5 6 7 8 9 10 11

1 3 4 5 6 7 8 9 10 11

6 7 8 9 10 11

1 2 3 5 6 7 8 9 10 11

1 2 3 4 6 7 8 9 10 11

7 8 9 10 11

1 2 3 4 5 6 8 9 10 11

1 2 3 4 5 6 7 9 10 11

1 2 3 4 5 6 7 8 10 11

1 2 3 4 5 6 7 8 9 10

11 2 3 4 5 6 7 8 9 10 11

1 3 4 5 6 7 8 9 10 11

6 7 8 9 10 11

1 2 3 5 6 7 8 9 10 11

1 2 3 4 6 7 8 9 10 11

7 8 9 10 11

1 2 3 4 5 6 8 9 10 11

1 2 3 4 5 6 7 9 10 11

1 2 3 4 5 6 7 8 10 11

1 2 3 4 5 6 7 8 9 11

CMx 90X10 + 6X6 + 10X5 + 4X4 +11

Tabelul 13. Matricea fragmentelor complement-maximale pentru graful molecular din Tabelul 9 [cM] 1 2 3 4 5 6 7 8 9 10 11 1 2 3 6 7 8 9 10 11 4 5 6 7 8 9 10 11 7 8 9 10 11 2 1 3 6 7 8 9 10 11 4 5 6 7 8 9 10 11 7 8 9 10 11 3 1 2 4 5 6 7 8 9 10 11 7 8 9 10 11 4 1 2 3 6 7 8 9 10 11 5 6 7 8 9 10 11 7 8 9 10 11 5 1 2 3 6 7 8 9 10 11 4 6 7 8 9 10 11 7 8 9 10 11 6 1 2 1 2 3 4 5 4 5 7 8 9 10 11 7 1 2 1 2 3 4 5 4 5 1 2 3 4 5 6 8 9 10 11 8 1 2 1 2 3 4 5 4 5 1 2 3 4 5 6 7 9 10 11 9 1 2 1 2 3 4 5 4 5 1 2 3 4 5 6 7 8 10 11 10 1 2 1 2 3 4 5 4 5 1 2 3 4 5 6 7 8 9 11 11 1 2 1 2 3 4 5 4 5 1 2 3 4 5 6 7 8 9 10 CcM 4X7 + 10X6 + 6X5 + 90X1 + 11

Tabelul 14. Matricea fragmentelor Szged pentru graful molecular din Tabelul 9 [Sz] 1 2 3 4 5 6 7 8 9 10 11 1 1 5 1 5 1 2 1 2 1 2

5 1 2 3 4 5

1 2 3 4 5

1 2 4 5 1 2 4 5 1 2 3 4 5

2 2 3 6 7 8 9 10 11

1 2 1 2 2 3 6 7 8 9 10 11

1 2 5

1 2 3 4 5 6

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

3 3 4 6 7 8 9 10 11

3 4 6 7 8 9 10 11

2 3 6 7 8 9 10 11

2 3 6 7 8 9 10 11

1 2 3 4 5

1 2 3 4 5 6

1 2 3 4 5 6 10

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5 6 9

4 3 4 6 7 8 9 10 11

4 5 4 5 3 4 6 7 8 9 10 11

1 4 5

1 2 3 4 5 6

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

5 4 5 4 5 1 5 1 5 1 4 5

1 2 3 4 5

1 2 3 4 5

1 2 4 5 1 2 4 5 1 2 3 4 5

6 3 6 7 8 9 10 11

6 7 8 9 10 11

6 7 8 9 10 11

6 7 8 9 10 11

3 6 7 8 9 10 11

1 2 3 4 5 6 9 10

1 2 3 4 5 6 10

1 2 3 4 5 6 10 11

1 2 3 4 5 6 8 9

1 2 3 4 5 6 9

7 7 8 9 10 11

7 8 9 10 11

7 8 11 7 8 9 10 11

7 8 9 10 11

7 8 11

7 10 11 7 11 7 8 7 8 9

8 6 7 8 9 10 11

7 8 9 11

7 8 9 11

7 8 9 11

6 7 8 9 10 11

7 8 1 2 3 4 5 6 8 9

7 8 11 7 8 9 8 9

9 6 7 8 9 10 11

6 7 8 9 10 11

7 8 9 6 7 8 9 10 11

6 7 8 9 10 11

7 8 9

1 2 3 4 5 6 9

1 2 3 4 5 6 9

8 9 1 2 3 4 5 6 8 9

Page 109: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

10 10 6 7 8 9

10 11 6 7 8 9 10 11

7 10 11

6 7 8 9 10 11

6 7 8 9 10 11

7 10 11

1 2 3 4 5 6 10

1 2 3 4 5 6 10 11

10 11 1 2 3 4 5 6 9 10

11 6 7 8 9 10 11

7 8 10 11

7 8 10 11

7 8 10 11

6 7 8 9 10 11

7 11 1 2 3 4 5 6 10 11

10 11 7 10 11 7 8 11

CSz 17X8 + 8X7 + 18X6 + 21X5 + 10X4 + 16X3 + 20X2 + 11

Tabelul 15. Matricea fragmentelor Cluj pentru graful molecular din Tabelul 9 [Cf] 1 2 3 4 5 6 7 8 9 10 11 1 1 5 1 5 1 2 1 2 1 4

5 1 4 5 1 4 5 1 4 5 1 4 5 1 4 5

2 2 3 6 7 8 9 10 11

1 2 1 2 2 3 6 7 8 9 10 11

1 2 4 5

1 2 4 5 1 2 4 5 1 2 4 5 1 2 4 5 1 2 4 5

3 3 4 6 7 8 9 10 11

3 4 6 7 8 9 10 11

2 3 6 7 8 9 10 11

2 3 6 7 8 9 10 11

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

4 3 4 6 7 8 9 10 11

4 5 4 5 3 4 6 7 8 9 10 11

1 2 4 5

1 2 4 5 1 2 4 5 1 2 4 5 1 2 4 5 1 2 4 5

5 4 5 4 5 1 5 1 5 1 2 5

1 2 5 1 2 5 1 2 5 1 2 5 1 2 5

6 6 7 8 9 10 11

6 7 8 9 10 11

6 7 8 9 10 11

6 7 8 9 10 11

6 7 8 9 10 11

1 2 3 4 5 6 10

1 2 3 4 5 6 10

1 2 3 4 5 6 10 11

1 2 3 4 5 6 8 9

1 2 3 4 5 6 9

7 7 10 11 7 10 11 7 10 11

7 10 11 7 10 11 7 11 7 10 11 7 11 7 8 7 8 9

8 7 8 10 11

7 8 10 11

7 8 10 11

7 8 10 11

7 8 10 11

7 8 1 2 3 4 5 6 8 9

7 8 11 8 9 8 9

9 7 8 9 10 11

7 8 9 10 11

7 8 9 10 11

7 8 9 10 11

7 8 9 10 11

7 8 9

1 2 3 4 5 6 9

1 2 3 4 5 6 9 10

8 9 1 2 3 4 5 6 9

10 7 8 9 10 11

7 8 9 10 11

7 8 9 10 11

7 8 9 10 11

7 8 9 10 11

7 10 11

1 2 3 4 5 6 10

1 2 3 4 5 6 10

10 11 1 2 3 4 5 6 9 10

11 7 8 9 11 7 8 9 11 7 8 9 11

7 8 9 11 7 8 9 11 7 11 1 2 3 4 5 6 10 11

10 11 10 11 7 8 11

CCf 14X8 + 7X7 + 5X6 + 16X5 + 22X4 + 23X3 + 23X2 +11 Chimie Cuantică Se bazează pe modelul ondulatoriu al mecanicii atomilor şi moleculelor propus de Schrödinger în 1926 [An Undulatory Theory of the Mechanics of Atoms and Molecules, Phys Rev, 28(6), 1049-1070]. Două forme ale ecuaţiei lui Schrödinger sunt folosite (una dependentă de timp şi cealaltă independentă de timp), dintre care ecuaţia independentă de timp (EΨ = ĤΨ) răspunde problematicii structurii chimice la echilibru, şi anume: ÷ Unde sunt electronii şi nucleele unei molecule localizaţi în spaţiu? - şi din răspunsul la această

întrebare derivă o serie de consecinţe cum sunt: configuraţia, conformaţia, mărimea, forma, etc. ÷ Sub un set dat de condiţii (de mediu) care sunt energiile (atomilor şi moleculelor)? - şi din

răspunsul la această întrebare rezultă o serie de proprietăţi moleculare: căldura de formare, stabilitatea conformaţională, reactivitatea chimică, proprietăţile spectrale, etc.

109

Page 110: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Termodinamica stabileşte relaţii cantitative între variabile macroscopice (volum, presiune, temperatură, concentraţie) ce definesc un sistem fizico-chimic de proporţii mari, comparativ cu dimensiunile corpusculilor constituenţi (atomi, molecule, etc.). Tipul de sistem este determinat de caracteristicile suprafeţei de separare: ÷ sistem deschis / închis - materia poate fi / nu poate fi transferată prin suprafaţa de separare;

o sistemele închise şi deschise pot schimba energie cu mediul înconjurător; ÷ sistem izolat - sistem închis care nu este în contact mecanic şi termic cu mediul înconjurător; ÷ proces - transformare de stare (dilatare, răcire) sau transformare în starea fizică (topire,

solidificare) sau transformare chimică complexă (se formează noi substanţe). ÷ lucru este efectuat de sistem dacă în urma unui proces rezultă o energie cu care poate fi ridicată

o greutate în mediu. Energia unui sistem poate varia şi ca urmare a unui transfer de căldură: ÷ proces exoterm - proces în care se degajă energie sub formă de căldură; ÷ proces endoterm - proces care absoarbe energie sub formă de căldură; ÷ proces adiabatic - proces care se desfăşoară într-un sistem izolat adiabatic;

o suprafeţele de separare adiabatice - nu permit transferul de căldură; Mişcarea haotică a moleculelor se numeşte mişcare termică. Din punct de vedere molecular,

lucrul este transferul de energie datorită mişcării ordonate. Distincţia între căldură şi lucru se realizează în mediu. Din punct de vedere molecular, cele două noţiuni pot fi definite astfel: ÷ Lucrul este transferul de energie ce foloseşte mişcarea ordonată a atomilor din mediu; ÷ Căldura este transferul de energie ce foloseşte mişcarea termică a atomilor din mediu. Principiul I al termodinamicii introduce noţiunea de energie internă: ÷ Energia internă U este energia totală a unui sistem. Ea este o funcţie de stare: ΔU = Uf - Ui ÷ U este o funcţie de proprietăţile care determină starea sistemului la un moment dat şi

independentă de calea prin care s-a ajuns la starea respectivă: U = U(n,p,...) ÷ Căldura şi lucrul sunt căi echivalente pentru variaţia energiei interne a unui sistem. Dacă un

sistem este izolat de mediul înconjurător atunci nu are loc nici o variaţie de energie internă, sau, nu există nici o maşină care efectuează lucru mecanic fără consum energetic (perpetuum mobile de speţa I): energia internă a unui sistem izolat este constantă (Principiul I);

Formularea principiului I nu menţionează căldura, însă o implică şi permite o definire a căldurii pe baza lucrului. Fie două stări ale unui sistem, U1 şi U2 şi fie două transformări, una adiabatică şi una oarecare. Pentru transformarea adiabatică avem (conservarea energiei pentru sistem): ΔU = U2 - U1 = wad iar pentru transformarea oarecare avem (conservarea energiei pentru sistem): ΔU = U2 - U1 = w + q, unde q este cantitatea de energie neexplicată prin lucru sau energie internă. Diferenţa wad-w este pusă pe seama căldurii absorbite de sistem (conservarea energiei pentru mediu): q = wad - w, de unde: q = ΔU - w. Concluzionând, variaţia de energie internă ΔU depinde de energia transferată unui sistem sub formă de căldură q şi lucrul efectuat asupra unui sistem w prin: ΔU = q + w. Dacă se consideră variaţii infinitezimale, avem: dU = dq + dw. Transformarea pe care o suferă sistemul este cvasistatică dacă mişcarea sa este atât de lentă comparativ cu procesele care disipează energie şi materie în mediu încât peste tot în sistem presiunea şi temperatura sunt independente de spaţiu (pot fi însă dependente de timp). Dacă descompunem dw în dw = dwe + dwexp unde dwexp lucrul mecanic de expansiune şi dwe un lucru mecanic suplimentar necauzat de expansiune, atunci: dU = dq + dwe + dwexp. Astfel, pentru sistemele ce evoluează la volum constant dwexp = 0; pentru sistemele care nu efectuează nici un fel de lucru (electric, optic, etc) şi dwe = 0; în aceste condiţii: dU = dq (la volum constant, fără lucru suplimentar). Pentru o transformare finită: ΔU = q, deci prin măsurarea energiei primite de la un sistem la volum constant sub formă de căldură (q>0) sau obţinută de el sub formă de căldură (q<0) în timpul unei transformări de stare, se măsoară de fapt variaţia energiei sale interne ΔU. De obicei perechea de variabile de stare independente: temperatura şi presiunea reprezintă condiţiile fireşti de desfăşurare ale reacţiilor chimice şi proceselor fizico-chimice. Multe procese au loc în condiţii de presiune atmosferică şi temperatură ambiantă.

110

Page 111: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Astfel, adaptând principiul I al termodinamicii la condiţiile menţionate mai sus, a luat naştere o nouă funcţie de stare numită entalpie, care se notează cu H şi care însumează energia internă cu lucrul mecanic necesar pentru ocuparea de către sistem a volumului său propriu V la presiunea de lucru p: H = U + pV. O variaţie de entalpie este egală cu căldura absorbită la temperatură constantă de către sistem atâta timp cât sistemul nu efectuează şi lucru suplimentar: dH = dq = dU (la presiune constantă, fără lucru suplimentar). Pentru o transformare finită: ΔH = qv,p. Proprietăţile unei probe independente de modul în care se obţine proba se numesc funcţii de stare. Ele pot fi privite ca fiind funcţie de alţi parametri fundamentali, ca presiunea, temperatura şi volumul, care descriu starea curentă a sistemului. Energia internă, entalpia şi capacitatea calorică sunt funcţii de stare. Proprietăţile legate de prepararea stării se numesc funcţii de drum. Lucrul efectuat pentru prepararea unei stări, energia transferată sub formă de căldură sunt funcţii de drum. Lucrul şi căldura sunt funcţii de proces. Exprimând acum matematic această afirmaţie, avem:

ΔU = , dU diferenţială exactă; ΔH = , dH diferenţială exactă 12

2

1

UUdU −=∫ 12

2

1

HHdH −=∫Prin diferenţială exactă înţelegem o mărime infinitezimală care prin integrare conduce la un rezultat independent de drumul dintre starea iniţială şi finală. Astfel:

q = , dq diferenţială inexactă; w = , dw diferenţială inexactă ∫γ ]2,1[

dq ∫γ ]2,1[

dw

Prin diferenţială inexactă înţelegem o mărime infinitezimală care prin integrare conduce la un rezultat care depinde de drumul dintre starea iniţială şi finală.

Fie o funcţie de stare f = f(x,y) şi z o altă funcţie de stare z = z(x,y). Avem:

zxy

z

xy

z xy

yf

xf

x

dyyfdx

xf

xf

⎟⎠⎞

⎜⎝⎛∂∂

⋅⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

+⎟⎠⎞

⎜⎝⎛∂∂

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

+⎟⎠⎞

⎜⎝⎛∂∂

=⎟⎠⎞

⎜⎝⎛∂∂

xyf

yxf 22

∂∂∂

=∂∂

∂ ⇒

xyz zy

zx

yx

⎟⎠⎞

⎜⎝⎛∂∂

⋅⎟⎠⎞

⎜⎝⎛∂∂

−=⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂ 1

xz

zy

yx

yxz

−=⎟⎠⎞

⎜⎝⎛∂∂

⋅⎟⎠⎞

⎜⎝⎛∂∂

⋅⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

zz xy1

yx

⎟⎠⎞

⎜⎝⎛∂∂

=⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂ , ,

Următoarea relaţie ne spune dacă df = g(x,y)dx + h(x,y)dy este sau nu o diferenţială totală (adică provine dintr-o funcţie de stare):

yx xh

yg

⎟⎠⎞

⎜⎝⎛∂∂

=⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂ df = g(x,y)dx + h(x,y)dy diferenţială totală ⇔

Primele studii asupra unei maşini termice care ar funcţiona după un ciclu format din patru etape reversibile: (a) dilatare izotermă (T = TA); (b) dilatare adiabatică (q = 0); (c) comprimare izotermă (T = TC); (d) comprimare adiabatică (q = 0), au fost efectuate de inginerul francez Sadi Carnot. Se numeşte ciclu Carnot, un ciclu format din cele patru etape reversibile (a), (b), (c) şi (d). Se numeşte maşină Carnot o maşină care ar funcţiona după un ciclu Carnot. Exprimând lucrul şi energia în cele patru transformări, ţinând seama de evoluţia sistemului:

÷ ΔUAB = 0; qAB = -wAB; wAB = - -∫ ⋅B

A

V

V

dVp =A

BA V

VlnnRT ⋅

÷ qBC = 0; wBC = - = ΔUBC; ΔUBC = CV(TC-TB) ∫ ⋅C

B

V

V

dVp

÷ ΔUCD = 0; qCD = -wCD; wCD = - -∫ ⋅D

C

V

V

dVp =C

DC V

VlnnRT ⋅

÷ qDA = 0; wDA = - = ΔUDA; ΔUDA = CV(TB-TC) ∫ ⋅A

D

V

V

dVp

111

Page 112: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Ţinând cont că se defineşte randamentul unei maşini termice prin η=Lefectuat/qabsorbită, exprimând randamentul pentru un ciclu Carnot, ciclu format din cele patru etape reversibile:

A

BA

D

CC

VVlnT

VVlnT

1⋅

⋅−

AB

CDAB

qww +

A

C

TT

AB

CDAB

qww +−

AB

CDAB

qqq −

AB

CD

qq = 1- = = η = = 1 - =

În expresia randamentului ciclului Carnot se poate observa că dacă temperatura sursei reci ar fi 0K (TC = 0K) atunci randamentul este ηCarnot = 1 (perpetuum mobile de speţa a II-a). Condiţia ca maşina Carnot să funcţioneze este ca TA > TC (pentru TC = TA ⇒ ηCarnot = 0). Unele procese au loc natural, de la sine, altele nu. Un gaz se dilată pentru a umple volumul disponibil, un corp cald se răceşte la temperatura mediului său înconjurător, iar o reacţie chimică decurge de preferinţă într-o anumită direcţie. Sensul transformărilor spontane este sensul care nu necesită efectuarea unui lucru pentru realizarea procesului. Se poate aduce un gaz la volum mai mic, se poate răci şi se pot aduce unele reacţii să decurgă în sens invers (electroliza apei) dar nici unul dintre aceste procese nu are loc spontan; fiecare se poate produce numai prin efectuarea unui lucru. Distincţia între cele două tipuri de procese, spontane şi nespontane formează obiectul principiului al doilea al termodinamicii: nu este posibil un proces al cărui unic rezultat este absorbţia de căldură de la un rezervor şi transformarea sa completă în lucru. Într-un sistem izolat sensul unui proces nu poate fi determinat de energia sa totală. Principiul I stabileşte că energia se conservă şi nu se poate afirma că în orice proces sistemul tinde către o stare cu minim de energie, deoarece într-un sistem izolat energia totală este constantă. Când are loc un proces, energia totală a unui sistem izolat rămâne constantă, însă se distribuie în moduri diferite. Astfel, se poate corela sensul de desfăşurare a proceselor cu modul de distribuire a energiei. Astfel, procesele spontane sunt întotdeauna însoţite de o disipare a energiei într-o formă mai dezordonată. Principiul I a condus la introducerea energiei interne U. Energia internă ca funcţie de stare ne permite să stabilim dacă un proces este posibil; într-un sistem izolat pot avea loc numai acele procese (reprezentate în diagrama energetică U = U(T,V), de exemplu) în care energia internă rămâne constantă (suprafaţa de energie internă U constantă). Principiul al II-lea care permite aprecierea sensului proceselor spontane, poate fi formulat printr-o altă funcţie de stare, entropia S. Entropia arată dacă o stare a unui sistem este accesibilă din alta în mod spontan. Într-un sistem izolat entropia creşte în procesele spontane ΔStot > 0, unde ΔStot este entropia totală a sistemului izolat care conţine sistemul de analizat. Definiţia riguroasă a entropiei se poate face pe baza termodinamicii statistice. Pornind de la diferite observaţii de natură experimentală, Ludwig Boltzmann a propus ca formulă de calcul a entropiei ca grad de dezordine: S = k·lnW, unde k constanta Boltzmann şi W numărul de moduri în care se poate rearanja energia sistemului prin rearanjarea atomilor şi a moleculelor pe diferite stări accesibile. Din definirea entropiei pe baza relaţiei (6.3) rezultă şi unitatea de măsură a ei: <S>SI = JK-1. Relaţia dintre variaţiile de entropie în mediu şi entalpia de reacţie joacă un rol esenţial în determinarea sensului transformărilor chimice spontane. Un sistem în contact termic şi mecanic cu mediul său, dStot = dS + dS'. Evoluţia tuturor proceselor în sistemul izolat format din sistemul observat şi mediul înconjurător este înspre creşterea dezordinii: dStot ≥ 0; egalitatea dStot = 0 (păstrarea dezordinii totale constante) se petrece pentru procesele reversibile (S - funcţie de stare) aşa încât: dS ≥ -dS', aşa încât: dS≥dq/T - inegalitatea lui Clausius. Se introduc alte două funcţii termodinamice de energie, numite potenţiale termodinamice: ÷ Energie liberă Helmholtz: A = U - TS; ÷ Entalpie liberă Gibbs: G = H - TS.

112

Page 113: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Din formula sa de definiţie dS = dqrev/T nu rezultă că entropia S este o funcţie de stare. Pentru a demonstra acest fapt, trebuie să demonstrăm că:

∫γ ][

rev

Tdq = 0

Fie un ciclu Carnot. Căldura cedată (qc) şi absorbită (qa) se exprimă prin:

C

DC V

VlnnRT ⋅A

BA V

VlnnRT ⋅; qa = qc =

Variaţia de entropie pe traseul [ABCDA] este:

A

a

T|q|

C

c

T|q|

∫]ABCDA[

rev

Tdq = ∫

]AB[

rev

Tdq

∫]BC[

rev

Tdq

∫]CD[

rev

Tdq

∫]DA[

rev

Tdq - = 0 + + + =

În cazul general al unui proces reversibil, acesta poate fi descompus într-o serie de cicluri Carnot, astfel:

∫γ ][

rev

Tdq ∑ ∫

γ γi i ][

rev

Tdq = ∑ = 0 =

γ i

0

Variaţia entropiei cu temperatura este dată de:

∫]AB[

rev

TdqΔSAB =

şi exprimă faptul că valoarea variaţiei entropiei într-un proces oarecare între stările A şi B se regăseşte efectuând o transformare reversibilă între A şi B şi măsurând căldura necesară. Se combină principiul I cu al II-lea, pentru a se obţine pentru o transformare reversibilă următoarea relaţie:

dU = dqrev + dwrev; dwrev = -pdV; dqrev = TdS; dU = TdS - pdV O observaţie foarte importantă este că valoarea dU este independentă de drum, deci independentă de faptul că transformarea este reversibilă sau nu, aşa încât este adevărată pentru orice tip de transformare. Această ecuaţie se numeşte ecuaţia fundamentală a termodinamicii. Alegem acum alte două variabile de stare independente care să caracterizeze starea unui sistem, S şi V. Exprimăm funcţia de stare U în raport cu acestea: U = U(S,V). În mod analog se obţine:

VSU⎟⎠⎞

⎜⎝⎛∂∂

SVU⎟⎠⎞

⎜⎝⎛∂∂dU = dS + dV

Prin simpla identificare de coeficienţi în ecuaţiile diferenţiale rezultă că la compoziţie constantă (n = const.) avem:

VSU⎟⎠⎞

⎜⎝⎛∂∂

SVU⎟⎠⎞

⎜⎝⎛∂∂= T, = - p

Deoarece U este funcţie de stare, rezultă relaţiile lui Maxwell:

SpT⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

TpS⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

pSV⎟⎠⎞

⎜⎝⎛∂∂

pTV⎟⎠⎞

⎜⎝⎛∂∂

SVT⎟⎠⎞

⎜⎝⎛∂∂

VSp⎟⎠⎞

⎜⎝⎛∂∂

VTp⎟⎠⎞

⎜⎝⎛∂∂

TVS⎟⎠⎞

⎜⎝⎛∂∂= - ; = ; = ; = -

La T = 0 toată mişcarea termică este îngheţată şi într-un cristal perfect toate particulele sunt dispuse într-o aranjare uniformă, regulată. Absenţa dezordinii spaţiale şi mişcării termice face ca S = 0. Acest fapt este în acord cu formula Boltzmann, întrucât dacă W = 1 atunci S = 0. Chiar dacă S ≠ 0 la T = 0, pentru o fază F a unei substanţe entropia sa SF(T) tinde la valoarea sa minimă, SF(0). Acest fapt se poate exprima prin teorema calorică a lui Nernst: Nernst: ΔS → 0 când T → 0 Formula Boltzmann şi teorema Nernst (7.26) pun bazele pentru formularea Principiului III: Dacă entropia S a fiecărui element în starea sa cea mai stabilă la T = 0 se ia 0, atunci orice substanţă are S ≥ 0 şi S = 0 pentru substanţele perfect cristaline (inclusiv compuşii). O serie de programe soft au fost dezvoltate pentru modelarea structurii moleculare bazată pe calcule de mecanică cuantică şi semiempirice, unele fiind în platformă open-source, altele free-to-use, şi altele fiind comerciale:

113

Page 114: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ AMPAC (commercial); ÷ Cerius2 (commercial); ÷ Chem3D (commercial); ÷ Corina (commercial); ÷ deMon2k (free-to-use); ÷ GAMESS (open-source); ÷ GAUSSIAN (commercial); ÷ HyperChem (commercial); ÷ Insight II (commercial); ÷ Jaguar (commercial); ÷ MOE (commercial); ÷ MOLDEN (open-source); ÷ Molecular Modeling Pro (commercial); ÷ MOPAC (free-to-use); ÷ MPQC (open-source); ÷ NWChem (open-source); ÷ Octopus (open-source); ÷ PCModel (commercial); ÷ SCHRÖDINGER (commercial); ÷ Spartan (commercial); ÷ StoBe (commercial); ÷ Sybyl (commercial). Chimie Medicală Primele evidenţe de chimie medicală se găsesc în lucrarea lui Richet din 1893 [C R Seances Soc Biol Fil 45:775-776]: care formulează prima relaţie lipofilicitate -activitate şi care observă cantitativ că "plus ils sont solubles, moins ils sont toxiques"; Hansch printr-o serie de lucrări în perioada 1962-1964 pune bazele QSAR, aducând 3 contribuţii esenţiale pentru domeniu: ÷ combinarea mai multor parametrii fizico-chimici într-o singură ecuaţie de regresie; ÷ definirea parametrului de lipofilicitate π; ÷ Formularea modelului parabolic pentru relaţia neliniară între lipofilicitate şi activitatea

biologică; Enzima

Cavitatea alosterică

Cavitatea activă

Legarea substratului

Are loc reacţia enzimatică

Substrat Efector alosteric

Datorită schimbării

conformaţionale a cavităţii active

reacţia enzimatică este inhibată

Nu se poate lega substratul

Absenţa reacţiei

enzimatice

Reacţia enzimatică

Căile biosintetice pot fi controlate cu ajutorul inhibiţiei de reacţie inversă, ceea ce înseamnă că

114

Page 115: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

produsul final al întregului lanţ metabolic inhibă activitatea primei enzime din lanţ (nu din genă). Dacă prima reacţie nu mai are loc, enzimele următoare sunt "înfometate" de substrat, şi produsul final nu mai este sintetizat. Produsul final se aşează pe prima enzimă într-o cavitate diferită de cavitatea activă. Această a doua regiune se numeşte cavitate alosterică. Aşezarea efectorului alosteric schimbă structura tridimensională a proteinei şi în special conformaţia cavităţii active. Astfel, substratul nu se mai poate aşeza în cavitatea activă şi reacţia enzimatică este inhibată până când inhibitorul de reacţie inversă nu părăseşte cavitatea alosterică. Metabolismul zaharurilor în organism este extrem de esenţial pentru viaţă. În figura următoare este redat metabolismul glucozei:

anabolism

catabolism

glucogeneză

glicoliză

Dizaharide

Riboză-5-fosfat + NADPH + H+

Amidon (plante)

Glicogen (animale) Glucoză Piruvat Acetil-CoA

aerobic

Lactat

anaerobic, în muşchi

Etanol

anaerobic, în drojdie

ATP + NADH + H+calea fosfogluconatului

Măsurarea proprietăţilor bilogice determină modalitatea de prelucrare şi interpretare a datelor obţinute. Operaţia de măsurare se poate efectua doar cu ajutorul unei scări de măsură. Din acest ultim unghi de vedere a problematicii măsurătorii rezultă că măsurătoarea este direct asociată cu tipul scării de măsură. Aşa cum rezultă din ce expuse mai sus, cât de exactă este o măsurătoare este la fel de important ca valoarea măsurătorii înseşi. Din acest motiv atunci când se exprimă valoarea unei măsurători aceasta este însoţită de precizie, în diferite forme de exprimare ale acesteia. Măsura referă o mărime supusă observaţiei. Din acest punct de vedere, mărimile se clasifică în mărimi calitative şi mărimi cantitative. O mărime este calitativă dacă pentru aceasta nu poate fi (sau cel puţin nu există) definită o scară de valori cel puţin ordonată. Dacă scara de valori a unei mărimi admite o relaţie de ordine (strictă) între elementele acesteia atunci mărimea este cantitativă. Un exemplu. Să considerăm o mulţime cu 2 elemente în care ordinea elementelor nu este relevantă: C = {a,b}. Mulţimea submulţimilor acestei mulţimi este SC = {{},{a},{b},{a,b}}. O relaţie de ordine în mulţimea SC este definită prin numărul de elemente (cardinalitatea) al submulţimii. Încă de la început să remarcăm că relaţia de ordine cardinalitate nu este o relaţie de ordine strictă, existând două submulţimi cu acelaşi număr de elemente: |{a}| = |{b}| = 1. Relaţie de ordine strictă există între 0 = |{}| < |{a}| = 1 = |{b}| < |{a,b}| = 2. O întrebare se ridică acum: "Ce fel de scală de măsură defineşte cardinalitatea?" şi pentru a afla răspunsul trebuie să ne întoarcem la observaţie şi anume să ne punem întrebarea "Ce caracteristică se doreşte a fi evaluată?". Dacă răspunsul la această a doua întrebare este numărul de elemente al submulţimii observate, atunci într-adevăr mărimea măsurată este cantitativă, având submulţimea cu 0 elemente care este evident mai mică decât submulţimile cu 1 element şi care sunt evident mai mici decât submulţimea cu 2 elemente. Dacă se doreşte diferenţierea submulţimilor mulţimii C, atunci cu siguranţă că măsura cardinalitate nu este corect aleasă. Putem să ne concentrăm atenţia (observăm) însă numai mulţimile cu exact 1 element, pentru care măsura cardinalitate nu diferenţiază: {a} şi {b}. În acest caz ne aflăm într-o situaţie tipică de măsură calitativă, exprimată prin "Submulţimea conţine elementul 'a'?", întrebare al cărui răspuns în exemplul de mai sus este complementar cu răspunsul la întrebarea "Submulţimea conţine elementul 'b'?".

115

Page 116: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Exemplul de mai sus a arătat cel puţin că procedura de definire a unei scale de măsură trebuie cel puţin verificată din punct de vedere al consistenţei, sau, dacă scala este deja definită (cum a fost cazul cardinalităţii), se impune cel puţin verificarea consistenţei acesteia în raport cu mărimea observată şi scopul urmărit. Mai mult, tot din exemplul de mai sus rezultă că chiar în absenţa unei relaţii de ordine între valorile măsurate ({a} şi {b}) pot exista însă alte tipuri de relaţii între valorile măsurate (în cazul de mai sus, este complementul logic, {a} = {a,b}\{b}; {b} = {a,b}\{a}), ceea ce face ca valorile unei mărimi calitative să nu fie independente. O scală de măsură este nominală dacă între valorile acesteia nu se poate defini o relaţie de ordine. De aici rezultă că în mod uzual scala de măsură nominală este caracteristică mărimilor calitative. În cadrul scalelor de măsură nominale, un caz extrem de importantă este scala (de măsură) binomială formată din doar două valori (între care nu există relaţie de ordine) cum ar fi: {Da, Nu}, {Viu, Mort}, {Vivo, Vitro}, {Prezent, Absent}, {Alcan saturat, Alt tip de compus}, {Număr întreg, Număr neîntreg}. O caracteristică extrem de importantă a scalelor nominale este că ele au un număr finit de elemente (valori) şi aşa cum am observat şi în cazul mărimilor calitative indiferent de numărul acestora, între ele există o legătură de complementaritate. Astfel, pentru o scală de măsură nominală formată din grupele sangvine {0, A, B, AB} o valoare care este diferită de oricare 3 din cele 4 valori este cu siguranţă a 4-a dintre acestea. Scala de măsură nominală care nu este binomială se mai numeşte şi scală de măsură multinomială. O serie finită de valori poate să constituie o scală ordinală dacă elementele acesteia se află într-o relaţie de ordine. Astfel, de exemplu valorile {Prezent, Absent} enumerate între exemplele de scală binomială pot deveni scală ordinală dacă între valorile "Prezent" şi "Absent" se defineşte o relaţie de ordine ("Absent" < "Prezent"). Alte astfel de exemple sunt "Fals" < "Adevărat", 0 < 1, "Negativ" < "Nenegativ", "Nepozitiv" < "Pozitiv". Dintre exemplele de scale de măsură cu 3 valori unul este imediat: "Negativ" < "Zero" < "Pozitiv". Ceea ce deosebeşte suplimentar o scală ordinală de o scală nominală este faptul că nu este necesar ca scala ordinală să fie formată dintr-un număr finit (sau cunoscut) de elemente. Este necesar însă ca intre ele să existe o relaţie de ordine definită cel puţin printr-o funcţie "Succesor" al unei valori şi complementul acesteia "Predecesor". În scala interval distanţa între atribute are o semnificaţie. De exemplu la măsurarea temperaturii, distanţa între 30° şi 40° este aceeaşi cu distanţa între 70° şi 80°. Intervalul între valori este interpretabil (are o semnificaţie fizică). Acesta este motivul pentru care are sens să calculăm media unei variabile de tip interval, ceea ce nu se aplică la scalele ordinale. Aşa cum 80° nu reprezintă de două ori mai cald decât 40°, pe scalele interval nu are sens raportul a două valori. În final, pe scala raport există totdeauna valoarea 0 care are semnificaţie. În mod evident construcţia unei scale raport presupune că cea mai mică valoare care se poate observa este 0. Aceasta înseamnă că întotdeauna se poate evalua raportul a două măsuri pe o scală raport, aceasta fiind de asemenea o scală raport. Este important de notat că calitatea unei scale de măsură nu dă şi acurateţea de măsură, sau densitatea valorilor posibile ale unei variabile în jurul valorii măsurate. Astfel, chiar dacă frecvent folosim ipoteza că o variabilă este continuă (între oricare două valori măsurate teoretic există cel puţin încă o valoare) în practică se întâmplă deseori ca valoarea intermediară a cărei existenţă este presupusă (sau demonstrată teoretic sau practic) să nu poată fi observată (măsurată) datorită preciziei de care dispunem în măsură. Este de notat deci că tipul scalei de măsură nu dă şi caracterul variabilei măsurate. Se pot la fel de bine măsura variabile discrete pe scale de măsură raport cum se pot măsura şi variabilele continue. Astfel, din punct de vedere al tipului scalei de măsură, o variabilă care numără moleculele dintr-un set de date este "la fel de" variabilă raport ca o variabilă care măsoară temperatura la care aceste molecule se află în mediul ambiant sau trec de la starea de agregare solidă la cea lichidă. În tabelul 16 este redată o scară de măsură relativă (cu o singură referinţă), în care se exprimă cantitatea de dulce a zaharurilor.

116

Page 117: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Tabelul 16. Cât de dulci sunt zaharurile Zahar Dulceaţă relativă la sucrozălactoză 0.16

galactoză 0.32 maltoză 0.33 sucroză 1.00 fructoză 1.73 aspartam 180 zaharină 450

În figura de mai jos este reprezentată entropia scalelor de măsură în termeni de organizare a informaţiei.

Figura exprimă o serie de proprietăţi ale scalelor de măsură. Astfel, mulţimea scalelor de măsură binomiale este cea mai largă, cuprinzând scalele nominale. Demonstraţia acestui fapt este uşor de făcut. Admiţând că avem la dispoziţie o scală nominală cu 3 categorii, atunci se pot defini pe baza acesteia 3 scale binomiale, fiecare verificând apartenenţa măsurabilei la una din cele 3 categorii. Mulţimea scalelor ordinale este inclusă în mulţimea scalelor nominale. Admiţând că avem la dispoziţie o scală ordinală, renunţând la relaţia de ordine deja am construit scala de măsură nominală asociată. În mod identic, având la dispoziţie o scală interval, o putem segmenta pe aceasta într-un număr arbitrar de subintervale şi cu ajutorul acestor subintervale construim una din scalele ordinale asociate scalei interval.

Binare Nominale

Ordinale Interval

Raport

O proprietate importantă rezultă din incluziunea scalelor de măsură, şi anume incluziunea instrumentelor statistice (testelor statistice) cu pe care le avem la dispoziţie să caracterizăm sau investigăm mărimile măsurate. Presupunând că am înregistrat valorile variabilei X cu o scală de măsură atunci toate statisticile care se pot aplica variabilei X în ipoteza că a fost măsurată cu o scală de măsură care o conţine pe cea utilizată, se aplică în egală măsură şi observaţiei cu scala de măsură utilizată, care, desigur, oferă în plus o serie de statistici care nu se aplică decât acestei scale şi celor pe care le include. La fiecare nivel de incluziune, nivelul curent include deci toate calităţile ale mulţimilor mai mari şi aduce ceva în plus, reducând entropia scalei de măsură. În mod evident, totdeauna este de dorit ca în observarea unei variabile să se folosească acea scală de măsură care înglobează cele mai multe caracteristici pe care variabila observată le prezintă, cum tot atât de important (sau mai important) este ca anumite atribute pe care le produce scala să fie proprii variabile şi să nu fie create în mod artificial de măsură, în caz contrar scala de măsură devenind o sursă de eroare. O serie de baze de date cumulează evidenţe de chimie medicală. Grupate pe categorii, acestea sunt: ÷ Conţinând date de efect biologic:

÷ AmicBase; ÷ Biocatalysis/Biodegradation DB; ÷ Carcinogenic Potency Project; ÷ ChemBank; ÷ Drug Data Report DB; ÷ EDKB; ÷ FDA Toxicity DBs; ÷ ISS Chemical Carcinogens; ÷ Leadscope Toxicity DB; ÷ NIH NIEHS National Toxicology Program;

117

Page 118: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ NIH NCI DBs (CambridgeSoft, CCC, MDL, DayLight); ÷ Prous Science DBs; ÷ PubChem; ÷ RTECS (MDL, NIOSH); ÷ US EPA DSSTox; ÷ Vitic;

÷ Conţinând biopolimeri: ÷ ASEdb; ÷ 3DID; ÷ BID; ÷ BOND; ÷ BRITE; ÷ DIP; ÷ EMPIRE; ÷ GRID; ÷ iHOP; ÷ IntAct; ÷ InterDom; ÷ KDBI; ÷ MiMI; ÷ MINT; ÷ MPPI; ÷ NuRISITE; ÷ Orientation of Proteins in Membranes; ÷ POINT; ÷ ProtCom; ÷ SNAPPI-DB; ÷ SPIN-PP; ÷ STRING; ÷ UniHI; ÷ Domain Motions; ÷ molmovdb; ÷ ProMode; ÷ PCDDB; ÷ PPD;

÷ Conţinând compuşi chimici şi medicamente: ÷ Available Chemicals Directory (DayLight); ÷ Cambridge Structural DB; ÷ CCCBDB; ÷ CenterWatch; ÷ Drug Directories; ÷ ChemDB; ÷ ChemExper; ÷ ChemFinder; ÷ ChemIDPlus; ÷ chEBI; ÷ ChEMnetBASE; ÷ ClogP of Selected Drugs; ÷ Comprehensive Medicinal Chemistry DB;

118

Page 119: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ CSLS; ÷ Cyberlipid Center; ÷ DrugBank; ÷ Drug Data Report; ÷ Data & Property Calculation Websites; ÷ EPA Chemical Registry System; ÷ ESIS; ÷ FDA Databases; ÷ FDA Toxicity Databases / Leadscope; ÷ FooDBank; ÷ Handbook of Chemistry and Physics; ÷ Henry's Law Constants; ÷ Investigational Drugs DB; ÷ iResearch; ÷ Landolt-Börnstein; ÷ LDB; ÷ Leadscope Known Drugs; ÷ Ligand.Info; ÷ LiqCryst; ÷ LogKow; ÷ MDPI; ÷ MedChem; ÷ Merck Index; ÷ Metabolite DB; ÷ NIST Online DBs (Gateway); ÷ NLM SIS; ÷ NCI DIS 3D DB; ÷ Organic Compounds DB; ÷ PhRMA New Medicines DB; ÷ PhysProp DB; ÷ Screening Compounds Directory; ÷ SickList; ÷ Solubility DB (IUPAC-NIST); ÷ SRC Pointer File; ÷ Stability Constants DB (IUPAC); ÷ Super Drug Database; ÷ World Drug Index (DayLight); ÷ ZINC;

÷ Conţinând date de mediu: ÷ ATSDR HazDat Database; ÷ Environmental Fate DB; ÷ Environmental Fate of Chemicals; ÷ US EPA's IRIS; ÷ Pesticide DB; ÷ U.S. EPA TSCA (Cornell, DayLight, SRC);

÷ Conţinând afinităţi de legătură: ÷ AffinDB; ÷ BindingDB; ÷ Binding MOAD;

119

Page 120: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ ChemBank; ÷ DLRP; ÷ KiBank; ÷ PDBbind; ÷ PDSP Drug Ki DB; ÷ PubChem; ÷ SCORPIO (structure-calorimetry); ÷ SMID; ÷ WOMBAT; ÷ eF-site; ÷ LigBase; ÷ MSDsite; ÷ PDBSite; ÷ PINTS; ÷ PRECISE; ÷ pvSOAR; ÷ Relibase; ÷ sc-PDB; ÷ SitesBase; ÷ SMIDSuite; ÷ SuMo; ÷ Super Ligands;

÷ Conţinând structuri şi proprietăţi ligand-receptor: ÷ BioMagResBank; ÷ CAZy; ÷ FireDB; ÷ IceDB; ÷ IMB; ÷ LPC/CSU; ÷ Luna; ÷ Macromolecular Structures DB (till 1999); ÷ mmdb; ÷ MSD; ÷ NDB; ÷ NIH CMM Links; ÷ nrpdb; ÷ OCA; ÷ PDB; ÷ PDBj; ÷ PDBSelect; ÷ PDBsum; ÷ Planet; ÷ PRECISE; ÷ PROCAT; ÷ RCSB DBs; ÷ RECOORD; ÷ SCOP; ÷ Side-Chain Interactions; ÷ SPIN-PP;

120

Page 121: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ STING Millenium Suite; ÷ wwPDB; ÷ XPDB;

÷ Conţinând date de QSAR şi toxicogenomică: ÷ MedChem QSAR DB; ÷ ArrayExpress; ÷ ArrayTrack; ÷ Chemical Effects in Biological Systems.

2008A2. Analiza rezultatelor obţinute şi interpretarea rezultatelor Analiza complexităţii modelelor structură-activitate, complexitate datorată volumului mare de modele fizice de interacţiune posibile pentru un anume model de structură moleculară şi volumului mare de modalităţi de obţinere (semi)cantitativă a activităţii biologice observate a impus ca soluţie de analiză şi interpretare a rezultatelor folosirea unui algoritm genetic, metodă euristică inspirată din natură şi teoria evoluţiei. O serie de rezultate au fost capitalizate în publicaţii din analiza cu ajutorul algoritmilor genetici derulată în cadrul proiectului (Jäntschi & others, 2008-PTGS, Jäntschi & others, 2009-HPGS, Jäntschi & others, 2010-CAGA; Bolboacă & others, 2010-GAAS). Analiza cu ajutorul algoritmilor genetici este desfăşurată în continuare. Grassy şi alţii în 1998 în lucrarea [Computer Assisted Rational Design of Immunosuppressive Compounds, Nature Biotechnol 16:748-752] raportează căutarea de pepdide posedând activitate imunosupresivă. Aceştia au utilizat 27 descriptori de proprietate (12 descriptori de chimie matematică şi 15 descriptori de chimie cuantică). S-a generat o librărie combinatorială cu 280000 de compuşi după care s-au selectat 26 de peptide pentru care o înaltă activitate a fost prezisă cu ajutorul descriptorilor. 5 dintre aceste peptide au fost sintetizate şi testate experimental. Cea mai potentă dintre acestea a arătat o activitate imunosupresivă de aproximativ 100 de ori mai mare decât compusul de referinţă. Problema integrării informaţiilor de natură cuantică (geometria moleculară) cu cele de natură matematică (topologia moleculară) în prezicerea activităţilor biologice (chimia medicală) este o problemă dificilă şi analiza şi interpretarea rezultatelor necesită implementarea de algoritmi meta-euristici. Lamarck (Lamarck, 1809) după eforturi extraordinare de clasificare a organismelor vii, remarcă că atât în ceea ce priveşte animalele (studiind mai cu seamă animalele nevertebrate) cât şi plantele clasificarea pe specii şi varietăţi este mai mult sau mai puţin arbitrară, aducând numeroase argumente în acest sens. Făcând apel la taxonomia modernă, astăzi sunt recunoscute 5 domenii, care mai apoi se subîmpart pe divizii, clase, ordine, familii, genuri şi specii. Însă studiile lui Lamarck despre specii rămân de o deosebită importanţă, în ciuda faptului că explicaţia pe care a găsit-o Lamarck asupra observaţiilor sale bazată pe superstiţiile vremii şi anume că golurile constatate în schema de clasificare a speciilor ar fi în fapt datorată dispariţiei acestora a fost contrazisă ulterior de studiile lui Darwin (Darwin, 1859). Chiar şi Darwin a fost influenţat de concluziile la care a ajuns Lamarck, aşa cum nota Fisher în 1954 (Fisher, 1954). Realizările majore ale epocii de început a geneticii sunt completate de studiile de încrucişare de varietăţi ale lui Mendel (Mendel, 1866) stabileşte legile care astăzi îi poartă numele, formularea teoriei moştenirii dure care vine să completeze elementele lipsă lăsate de predecesori (Weismann, 1893), şi în final studiile pe musculiţa de oţet ale lui Morgan (Morgan, 1915) în urma cărora acesta elaborează teoria cromozomială a moştenirii, care este şi astăzi la baza geneticii moderne. Nu în ultimul rând se menţionează studiile de o deosebită valoare ştiinţifică ale lui Fisher (Fisher, 1918; Fisher, 1922), care a adus argumente ştiinţifice de necontestat (chiar dacă la vremea când acestea au fost scrise de către Fisher au fost din plin contestate, aşa cum se poate desprinde şi din fragmentele alese pentru exemplificare) cu privire la originea speciilor şi teoria evoluţionistă. Rezumând, moştenirea dură (Weismann, 1893) şi uşoară (Lamarck, 1809), selecţia şi supravieţuirea

121

Page 122: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(Darwin, 1859), genele şi încrucişarea genelor (Morgan, 1915) şi caracterelor (Mendel, 1866) îndelung dezbătute şi disputate de-a lungul secolului 19 (Fisher, 1954) constituie toate piese dintr-un puzzle care construieşte astăzi genetica modernă (Ayala şi alţii, 1994), şi reprezintă sursele de inspiraţie ale algoritmilor genetici. Primele simulări ale evoluţiei se regăsesc în studiile lui Nils Aall BARRICELLI (Barricelli, 1954). Puţin timp mai târziu, Alex FRASER (1923-2002) a publicat o serie de lucrări despre simularea selecţiei artificiale a organismelor cu locuşi multipli ce controlează o trăsătură măsurabilă. Simulările lui Fraser (Fraser, 1957-1970) includ toate elementele esenţiale ale algoritmilor genetici moderni. Uzual, în viaţa noastă de zi cu zi la fel ca şi în cercetarea ştiinţifică noi operăm cu probleme. În informatică şi ramurile derivate ale acesteia (cum e cazul bio-informaticii şi chemo-informaticii) o problemă are o semnificaţie precisă, foarte apropiată cu cea de algoritm. Un algoritm este în esenţă o reţetă specificând ce să facem în anumite condiţii pentru a obţine un anumit obiectiv. Un algoritm necesită două resurse pentru a rezolva o problemă, şi anume timp (cu sensul de timp de execuţie, mărime corelată cu numărul de instrucţiuni elementare) şi spaţiu (pentru stocarea datelor de intrare şi a variabilelor). Nu toate problemele sunt de aceeaşi complexitate şi acelaşi lucru este valabil şi pentru algoritmii de rezolvare. Astfel, unele probleme au complexitate exponenţială, ceea ce înseamnă că cel mai bun algoritm rezolvă problema într-un timp de execuţie ce creşte exponenţial în funcţie de dimensiunea (volumul, mărimea) datelor de intrare. Acest tip de probleme sunt numite dificile, deoarece chiar şi cel mai bun algoritm (care există sau ar putea exista) va fi probabil nepractic cu date de intrare din practică (Falkenauer, 1998). Dacă o problemă este dificilă, atunci căutarea optimului frecvent iese în afara timpului disponibil pentru aplicaţiile reale. Chiar dacă există această problemă, există totuşi o serie de probleme întâlnite în practică când obţinerea optimului nu este necesară (obligatorie). De cele mai multe ori o soluţie bună este suficientă. În concluzie, căutarea pentru algoritmi de aproximare buni este perfect legitimată, chiar dacă aceşti algoritmi nu garantează atingerea optimului global pentru orice instanţă cu care sunt hrăniţi, dar care produc soluţii aproape de soluţia optimă. Deoarece cele mai multe probleme dificile au fost împrejurul nostru de foarte mulţi ani, pentru o varietate de probleme dificile unul sau mai mulţi euristici au fost deja concepuţi. Aceştia sunt seturi de reguli gândite pentru a rezolva o problemă anume, uzual bazaţi pe bunul simţ (în ceea ce priveşte soluţia aşteptată) prin evitarea erorilor grosolane, dar care nu sunt gândiţi pentru a produce totdeauna soluţia cu exactitate şi respectiv să fie capabili să producă o soluţie pentru orice valori de intrare. Chiar dacă cei mai mulţi euristici sunt foarte mult ad-hoc şi dependenţi de problema dată, odată cu dezvoltarea informaticii cercetătorii au reuşit să formuleze trei euristici care sunt foarte generali, şi anume aplicabili la o mare varietate de probleme dificile. Din cauza acestei generalităţi pe care o posedă, aceştia au căpătat numele de meta-euristici. Toţi trei sunt stocastici [a fi stocastic: Implicând sau conţinând una sau mai multe variabile aleatoare, implicând şansa sau probabilitatea] în natura lor, doi dintre aceştia (SA şi GA) fiind bazaţi pe procese naturale care au loc în jurul nostru din totdeauna. Împreună cu călirea simulată (în engleză SA - Simulated Annealing; van Laarhoven and Aarts, 1987; Davis, 1987) şi căutarea tabu (în engleză TS - Tabu Search; Glower, 1977 şi 1986; Glover şi alţii, 1992) sunt şi algoritmii genetici (în engleză GA - Genetic Algorithm). Primele studii în care au apărut algoritmii genetici se găsesc în anul 1954, însă studii de amploare ale acestora au apărut după 1970 (Bosworth şi alţii, 1972; Holland, 1975) şi au fost re-inventaţi ceva mai târziu (Davis, 1991, Holland, 1992). Înainte de a defini ceea ce este un algoritm genetic, să definim mai întâi prin ce evaluează calitatea unul algoritm euristic. Sunt trei criterii care trebuie considerate: ÷ viteza: cât de repede obţine soluţia; ÷ precizia: cât de departe de află acea soluţie de optimul global; ÷ scopul: cât de mare este subsetul datelor de intrare în raport cu setul tuturor valorilor posibile

122

Page 123: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

pentru care algoritmul performează în raport cu anterioarele două criterii; O problemă importantă legată de complexitatea algoritmică este reprezentată de teorema inexistenţei mesei pe gratis (în engleză NFLT - No Free Lunch Theorem; Wolpert and Macready, 1995 şi 1997), teoremă care utilizând aceste trei criterii de mai sus arată că toţi algoritmii sunt strict echivalenţi, ceea ce înseamnă că pentru doi algoritmi A şi B, pentru fiecare set de date pentru care A performează mai bine decât B există un set de date pentru care B performează mai bine decât A. Interpretarea simplă care se dă acestei teoreme în termeni comuni şi anume că oricât ai încerca să-ţi faci algoritmii tăi mai isteţi, este un efort în van deoarece ei vor performa la fel ca orice alt algoritm, nu este una corectă. Ceea ce teorema într-adevăr spune este că dacă se mediază performanţele tuturor algoritmilor pe toate datele posibile, atunci ei vor performa la fel. Revenind la termeni comuni, şmecheria este desigur să nu încerci să hrăneşti toţi algoritmii pe care îi realizezi pe toate datele cu putinţă, ci să încerci să îţi dedici algoritmul la un domeniu de aplicabilitate, şi aici să iei în considerare şi să valorifici prin implementare în algoritm orice structură specială este posibil să existe în datele cu care intenţionezi să hrăneşti algoritmul. De aici rezultă că scopul algoritmului care performează bine trebuie să fie restrâns la setul de date care prezintă structurile speciale identificate. Următoarele categorii de probleme pot fi subiect de rezolvare pentru algoritmii genetici: Probleme de decizie ÷ O problemă de decizie este definită pentr-o întrebare cu răspuns de tipul da/nu pe un set (infinit)

de date de intrare; din acest motiv problemele de decizie sunt echivalente cu obţinerea setului de date de intrare pentru care răspunsul problemei este da. Problemele de decizie sunt legată de problemele de optimizare atâta timp cât problema este obţinerea celui mai bun răspuns la problemă.

Probleme de clasificare ÷ O problemă de clasificare pentru obiecte dintr-un domeniu dat este în

separarea acestor obiecte în clase mai mici, şi producerea de criterii de determinare dacă un obiect anume dintr-un domeniu este într-o anume clasă sau nu. Una dintre cele mai faimoase probleme de clasificare este problema formulată de Carl LINNAEUS (23 Mai 23 1707 - 10 Januarie 10 1778) a clasificării vieţuitoarelor după clase, ordine, genuri şi specii (Linnaei, 1735).

Probleme de optimizare ÷ O problemă de optimizare este o problemă de găsire a celei mai bune soluţii

dintre toate soluţiile posibile. În mod formal, o problemă de optimizare este un cvadruplu (I,f,m,g) unde:

o I - set de instanţe; o f(·) - setul soluţiilor posibile definite pe I; o m(·,·) - măsura definită pe produsul soluţiilor posibile şi instanţelor o g - min. sau max. - funcţia obiectiv o scopul este găsirea optimului lui x: m(x,f(x))=g{m(y,f(y), y ∈I}

÷ Pentru fiecare problemă de optimizare există o problemă de decizie care este asociată şi a cărei întrebare este dacă există o soluţie posibilă pentru o anumită măsură m0.

Probleme de simulare ÷ Simularea este imitarea unui fapt real, unei stări de fapt, sau a unui proces. Actul simulării a

ceva în general implică reprezentarea unor anumite caracteristici sau comportamente cheie ale unui sistemul fizic sau abstract. Simularea este folosită în multe contexte incluzând modelarea sistemelor naturale, pentru a pătrunde funcţionalitatea acestora. Elementele cheie în simulare includ achiziţia unei surse valide de informaţie despre subiectul de studiu, selecţia caracteristicilor şi comportamentelor cheie, utilizarea de aproximaţii şi presupuneri simplificatoare în cadrul simulării, şi evaluarea fidelităţii şi validităţii rezultatelor simulării.

Algoritmii genetici sunt algoritmi de căutare euristici adaptivi bazaţi pe ideile teoriei evoluţiei şi

123

Page 124: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

anume aduce conceptele de selecţie naturală şi genetică în arena simulării matematice cu ajutorul calculatorului. Mimica proceselor observate în evoluţia naturală a materiei organice în general serveşte drept instrument algoritmilor genetici în scopul de a rezolva probleme de decizie, clasificare, optimizare şi simulare. Elementele cheie la care se face apel în algoritmii genetici sunt: ÷ Modelul genetic (dualismul genotip - fenotip) aşa cum a fost el formulat şi argumentat încă de la

primii paşi ai geneticii (Morgan, 1915; Fisher, 1918); ÷ Încrucişarea (dualismul caractere - gene) aşa cum a fost ea observată încă de la precursorii

geneticii moderne (Lamarck, 1830; Mendel, 1865; Weismann, 1893); ÷ Mutaţia, aşa cum a fost ea observată încă de la precursorii geneticii moderne şi până în zilele

noastre: o întâmplătoare (De Veies, 1902); o deliberată prin expunerea la anumite condiţii (Patterson, 1928; Auerbach şi alţii, 1947); o sub presiunea factorilor de mediu: (Cains şi alţii, 1988);

÷ Selecţia naturală sau "supravieţuirea celui mai tare" (Darwin, 1859). Construcţia algoritmilor genetici Algoritmii genetici se materializează sub forma de programe evolutive şi sunt simulări în care: (spaţiul de căutare) ÷ Se operează asupra unei populaţii de reprezentări abstracte numite (după elementele genetice pe

baza cărora au fost imaginate) cromozomi sau genotipuri ale unui genom, la rândul său fiecare reprezentare abstractă a unui cromozom fiind compusă din gene.

··· ··· ··· ···

genă cromozom genom

Spaţiul de căutare al unui algoritm genetic ÷ Fiecare generaţie este compusă dintr-o populaţie de şiruri de caractere (sau alte forme de

reprezentare abstractă) analog cu cromozomii ADN-ului. Fiecare element al populaţiei reprezintă un punct în spaţiul de căutare şi în acelaşi timp o soluţie posibilă.

÷ Ceea ce Figura 1 reprezintă formal, şi anume spaţiul de căutare al unui algoritm genetic, poate avea multe variante de implementare, trei dintre ele fiind următoarele: o Dacă algoritmul genetic are ca subiect rezolvarea unei probleme dificile formulate în

sistemul S (în engleză: S-system formalism, Savageau, 1976) care este un tip de formalism derivat din modelul de proces al reacţiilor stoechiometrice cu pre-echilibru (ΣiRi ↔ ΣjIj → ΣkPk, unde Ri reactanţi, Ij intermediari, Pk produşi ai unei reacţii în care constantele de proces - constantă de viteză şi ordine parţiale de reacţie - sunt necunoscute şi se doresc a fi determinate), atunci următoarea este o posibilă implementare: O genă: o constantă (un ordin parţial sau o constantă de viteză de reacţie) subiect al

găsirii (optimizării); Un cromozom: o posibilă cale de desfăşurare a reacţiei, având specificate toate ordinele

parţiale şi constantele de viteză specificate; Genomul: toate căile de desfăşurarea a reacţiei prezente într-o iteraţie a algoritmului

genetic; o Dacă algoritmul genetic are ca subiect rezolvarea unei probleme dificile de aliniament de

secvenţe genetice (Notredame şi Higgins, 1996) de ADN, ARN sau proteine în scopul identificării regiunilor de similaritate care pot fi sursă de relaţii structurale, funcţionale sau evolutive între secvenţe, atunci următoarea este o implementare posibilă: O genă: două (sau mai multe) poziţii corespunzătoare la două (sau mai multe) sub-

secvenţe aliniate (sau mai exact pseudo-aliniate) şi lungimea aliniamentului acestora; Un cromozom: o posibilitate de aliniament pentru cele două (sau mai multe) secvenţe; Genomul: toate posibilităţile de aliniament de secvenţe stocate într-o iteraţie a

algoritmului genetic;

124

o Dacă algoritmul genetic are ca scop o problemă de setare în managementul efectuat în

Page 125: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

scopul maximizării randamentului de producţie în câmp (Liu şi alţii, 2001), o problemă dificilă de setare a parametrilor controlabili (sau alteori predictibili) pentru obţinerea unei productivităţi maxime, atunci următoarea este o implementare posibilă: O genă: una dintre următoarele: pH-ul solului, fertilizatori în termeni de cantitate de N,

P şi K, cantitatea de materie organică din sol, gradul de creştere termică zilnică (o mărime medie între temperatura minimă şi maximă a zilei), potenţialul genetic (ce poate fi exprimat în termeni de randament care s-ar obţine dacă vremea, solul şi fertilitatea sunt toate optime), cantităţile de precipitaţii pe perioada de maximă vegetaţie pe lunile Mai, Iunie, Iulie şi August, densitatea de plantare şi factorul de rotaţie;

Un cromozom: o stare de fapt care poate apare în practică în câmp; Genomul: toate stările de fapt stocate într-o iteraţie a algoritmului genetic;

(selecţia şi supravieţuirea) ÷ Un scor sau şansă de supravieţuire a fiecărei soluţii este calculată pentru fiecare genotip cu

ajutorul unei funcţii, numită şi funcţie obiectiv. Valoarea acestei funcţii este asociată cu abilitatea individului să supravieţuiască şi defineşte astfel fenotipul asociat genotipului.

ADN plantă cultivar

decodare mediu

codare

genotip fenotip supravieţuire

Selecţia: genotip, fenotip şi supravieţuire

÷ Dacă fiecare genotip reprezintă un punct în spaţiul de căutare şi în acelaşi timp o soluţie posibilă, prin intermediul selecţiei genotipul este concretizat în fenotip (operaţie care iterează reprezentarea soluţiilor posibile în spaţiul soluţiilor şi evaluează valoarea acestora). Principiul selecţiei naturale se exprimă astfel: o Indivizii (fenotipurile) din populaţie concurează pentru supravieţuire (selecţie). o Genele indivizilor selectaţi se propagă de la o generaţie la alta (datorită selecţiei); o Fiecare generaţie devine mai potrivită mediului în care se află (prin penalizarea indivizilor

care eşuează a supravieţui). ÷ Scorul este asociat fiecărui fenotip (soluţie) reprezentând abilitatea acestuia să concureze pentru

resurse în mediu, pentru supravieţuire (selecţie). Scopul algoritmului genetic este ca să aplice încrucişarea şi mutaţia selectivă a fenotipurilor (prin intermediul decodării lor în genotipurile din care provin) pentru a produce descendenţi mai buni decât părinţii lor.

÷ Algoritmul genetic menţine un cultivar (un eşantion de populaţie) de un număr dat (sau uneori variabil) de genotipuri a căror selecţie se poate face aplicând acelaşi operator. Astfel, selecţia şi supravieţuirea sunt două concepte asociate. Selecţie se face pentru operaţiile de încrucişare şi mutaţie, şi selecţie se face şi pentru supravieţuire în populaţia limitată de fenotipuri.

÷ Prin selecţie o parte din indivizii populaţiei mor şi sunt înlocuiţi de alţii. În acest mod se speră că de-a lungul generaţiilor soluţii mai bune vor răsări în timp ce cele mai slabe soluţii sunt înlăturate. Odată cu trecerea de la o generaţie la alta populaţia va conţine din ce în ce mai bune soluţii decât generaţia anterioară.

÷ În tabelul următor este redată legătura care se stabileşte între scorul (exprimat prin funcţia

şir soluţie

decodare funcţie

obiectiv codare

valoare

125

Page 126: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Fitness(·) în tabel) şi regula de selecţie în funcţie de metoda (aşa cum este ea cunoscută în literatura de specialitate) folosită.

Scor şi selecţie în algoritmii genetici Metodă Expresia funcţiei de scor Selecţie Comentarii

Proporţional pi=fi/Σifi Şansa de selecţie este proporţională cu scorul (utilizând probabilitatea pi în selecţie)

Deterministic i | fi = max. Selecţia indivizilor este făcută pe baza celui mai tare (sau celui mai slab) individ (elitism)

sau min. fi=Fitness(Cromozom_i)

Turnir (fi,fj) Perechi de indivizi concurează între ei pentru selecţie (din nou cel mai tare sau cel mai slab)

max. sau min.

Normalizare gi=(fi-N0)(fmax.-fmin.)/(N1-N0)

pi=gi/Σigi O scală fixă [N0,N1] normalizează scorul fenotipurilor între generaţii diferite

Ranguri hi=Rank(fi)(fmax.-fmin.)/Size pi=hi/Σihi Şansa este proporţională cu rangul scorului unde: Rank(·): rangul; Size: volum genom

÷ Ceea ce se reprezintă formal, şi anume selecţia şi supravieţuirea fenotipurilor poate avea multe variante de implementare, trei dintre ele fiind următoarele: o Dacă algoritmul genetic are ca subiect rezolvarea unei probleme dificile formulate în

sistemul S (Savageau, 1976), atunci următoarea este o posibilă implementare: Şirul, corespunzător unui genotip: o listă de valori constante subiect al optimizării şi

asociat cu un experiment virtual; Soluţia, corespunzătoare genotipului (şi cromozomului): seria de timp a elementelor

experimentului virtual (pentru o reacţie chimică prin soluţie se înţeleg seriile de timp ale concentraţiilor reactanţilor, intermediarilor şi produşilor de reacţie pe parcursul desfăşurării reacţiei);

Valoarea, corespunzătoare scorului: suma pătrată a diferenţelor dintre valorile observate (ca serie sau serii de timp) şi valorile estimate (de fenotip) ale uneia (sau mai multor) observabile (cum ar fi concentraţie sau concentraţii de intermediari);

o Dacă algoritmul genetic are ca subiect rezolvarea unei probleme dificile de aliniament de secvenţe de aminoacizi (Notredame şi Higgins, 1996), atunci următoarea este o posibilă implementare:

Şirul, corespunzător unui genotip: o listă de perechi (sau de mai multe) poziţii de sub-secvenţe aliniate urmată de lungimea fiecărei sub-secvenţe;

Soluţia, corespunzătoare fenotipului (şi genotipului): o serie de valori conţinând poziţii de rupere şi lungimi de translatare necesare pentru a alinia secvenţele;

Valoarea, corespunzătoare scorului: o funcţie de scor dând (uzual sub forma unei sume) costul total pentru toate ruperile şi deplasările necesare pentru a alinia secvenţele, utilizând un cost predefinit pentru o rupere şi pentru deplasarea unei unităţi în secvenţă;

o Dacă algoritmul genetic setarea parametrilor necesari pentru obţinerea unei bune producţii în câmp (Liu şi alţii, 2001), atunci următoarea este o posibilă implementare:

Şirul, corespunzător unui genotip: o listă de valori ce corespund unui experiment virtual şi constituie obiect al optimizării; Valorile din şir pot fi: pH-ul solului, fertilizatori în termeni de cantitate de N, P şi K, cantitatea de materie organică din sol, gradul de creştere termică zilnică (o mărime medie între temperatura minimă şi maximă a zilei), potenţialul genetic (ce poate fi exprimat în termeni de randament care s-ar obţine dacă vremea, solul şi fertilitatea sunt toate optime), cantităţile de precipitaţii pe perioada de maximă vegetaţie pe lunile Mai, Iunie, Iulie şi August, densitatea de plantare şi factorul de rotaţie;

Soluţia, corespunzătoare fenotipului (şi genotipului): un şir de valori caracterizând soluţia, cuprinzând valori obţinute prin aplicarea de funcţii care să exprime: calitatea

126

Page 127: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

solului, calitatea vremii, managementul de cultivare, potenţialul genetic şi efectul unor evenimente întâmplătoare;

Valoarea, corespunzătoare scorului: suma pătratelor diferenţelor între randamente observate (în serii de experimente anterioare) şi estimate (de fenotip) ale randamentelor;

(încrucişarea şi mutaţia) ÷ Încrucişarea reprezintă împerecherea între fenotipuri; fenotipurile (uzual două) sunt selectate

din populaţie folosind operatorul de selecţie; o porţiune de încrucişat de-a lungul şirului de gene ale genotipurilor asociate fenotipurilor este aleasă (întâmplător sau deterministic) şi valorile celor două porţiuni de şiruri sunt schimbate între ele, rezultând astfel din această împerechere doi descendenţi care sunt direct selectaţi pentru a face parte din noua generaţie de populaţie; încrucişarea este făcută în speranţa că dacă se recombină porţiuni de genotipuri de succes, atunci acest proces este probabil să producă descendenţi chiar mai buni decât părinţii din care provin;

O încrucişare dublă implicând ruperea şi reunirea cromozomilor părinţilor

··· ··· ···

··· ··· ···

site încrucişare

··· ··· ···

··· ··· ···

părinţi

copii recombinare

··· ···

Mutaţia

÷ Mutaţia este operatorul care introduce modificări noi (inexistente în populaţia unei generaţii); ceea ce este caracteristic în general mutaţiei şi implicit şi operatorului acesteia corespondent în algoritmii genetici este că ea se petrece cu o probabilitate scăzută, fiind deci aplicată cu o probabilitate scăzută (cu probabilitatea de 1/8 în figura de mai sus); operatorul de mutaţie poate implementa o mutaţie: o Întâmplătoare: când o porţiune a unui individ selectat va suferi schimbarea valorilor stocate

în genele sale cu alte valori existente în materialul genetic al populaţiei şi are rolul menţinerii diversităţii în populaţie pentru a preveni populaţia să prezinte o convergenţă prematură;

o Deliberată: când expunerea la anumite condiţii se transpune în folosirea unei reguli predeterminate de modificare a valorilor genelor;

o Sub presiunea factorilor de mediu, când valorile genelor se schimbă în raport cu scorul fenotipului supus modificării genetice;

(evoluţia) ÷ Utilizând doar selecţia singură un algoritm nu va reuşi decât să copieze (cloneze) cel mai bun

individ (fenotip) al său în întreaga populaţie; ÷ Utilizând mutaţia singură un algoritm va reuşi doar să inducă parcurgerea întâmplătoare a

spaţiului de căutare; ÷ Utilizând încrucişarea şi selecţia un algoritm va reuşi să conveargă către o soluţie bună dar nu

··· ···

mutant

părinte

descendenţi

127

Page 128: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

sub-optimală (în apropierea celei optime); ÷ Mutaţia şi selecţia (fără încrucişare) într-un algoritm creează algoritmi paraleli, toleranţi la

perturbaţii în căutarea de puncte de maxim local (în terminologia în engleză: hill-climbing); ÷ Utilizarea tuturor operatorilor (mutaţie, încrucişare si selecţie) asigură unui algoritm toate

caracteristicile de definire ale unui algoritm genetic;

Schema ilustrativă a modului de lucru al unui algoritm genetic clasic

÷ Într-un algoritm genetic clasic (de genul celui ilustrat), pentru a rezolva o problemă, se generează întâmplător sau se iniţiază cu valori predefinite o populaţie de un volum dat de genotipuri; cerinţele preliminare algoritmului genetic este existenţa funcţiei obiectiv cu ajutorul căreia se evaluează scorul unui fenotip în populaţie; algoritmul genetic iterează astfel: o Repetă

Pasul_1: Utilizând operatorul de selecţie selectează doi cromozomi; Pasul_2: Utilizând o funcţie discretă de probabilitate pentru alegerea porţiunii de

încrucişat încrucişează cei doi părinţi şi creează descendenţii acestora; Pasul_3: Cu o mică probabilitate şi utilizând o funcţie discretă de probabilitate pentru

alegerea porţiunii de mutat efectuează mutaţia unui genotip, eventual un descendent al încrucişării din pasul anterior;

Pasul_4: Iniţializează o nouă populaţie cu noile fenotipuri (de la paşii 2 şi 3 anteriori); Pasul_5: Completează utilizând operatorul de selecţie aplicat populaţiei de părinţi noua

populaţie cu fenotipuri (până cel puţin la refacerea numărului iniţial de membrii); Pasul_6: Refă valorile funcţiei de scor ale noii populaţii în conformitate cu noua

compoziţie a acesteia; o Până când cel mai bun fenotip al populaţiei satisface o condiţie impusă (condiţie care

reprezintă condiţia de sfârşit a algoritmului). O problemă dificilă de structură biochimică şi formalismul algoritmilor genetici Lucrarea (Jäntschi şi alţii, 2007) serveşte drept sursă a exemplificării unei probleme dificile de structură biochimică şi relaţia acesteia cu o proprietate măsurată. Astfel, în lucrare autorii pornesc de la datele experimentale ale timpilor de retenţie observaţi pentru separarea cromatografică a bifenililor policloruraţi (PCBs) raportaţi în (Mullin şi alţii, 1984). Folosind informaţia structurală, o bază de date conţinând descriptori de structură a fost construită.

`MDF` `ready`

`qspr_qsar`

`PCB_data`

`PCB_tmpx`

`PCB_xval`

`PCB_yval`

Baza de date pentru studiul problemei dificile de relaţie structură-activitate

cel mai bun fenotip t+1

t

t+1

t+1

încrucişare mutaţie

scor selecţie

selecţiescor

128

Page 129: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Probe atom `i`

Atomic property

Distance metric

Probe atom `j`

Fragmentation criteria

Interaction descriptor Interaction modelMolecular overall

superposing formula Linearization

formula

Fragment of `i`vs. `j`

Metodologia relaţiilor structură-activitate (SAR) în abordarea Familiei de Descriptori Moleculari

(MDF), imagine preluată din (Jäntschi şi Bolboacă, 2008-MQMC) Problema dificilă de relaţie structură chimică - activitate/proprietate măsurată se formulează astfel: având la dispoziţie o informaţie structurală (obţinută din realizarea topologiei moleculare a fiecărui compus pe baza legăturilor chimice care se stabilesc între atomi şi realizarea geometriei moleculare pe baza aplicării modelelor aproximative ale fizicii cuantice şi moleculare) şi o informaţie rezultată în urma observaţiei experimentale a unei proprietăţi/activităţi pentru fiecare din cei 209 compuşi în aceleaşi condiţii de mediu, care este cea mai bună relaţie structură-activitate care să descrie proprietatea/activitatea compuşilor în funcţie de structură. În acord cu metodologia descrisă în (Jäntschi şi alţii, 2007) informaţia structurală se poate valorifica construind o familie de descriptori. Fără a mai detalia procedura clasică de rezolvare a problemei, abordarea din perspectiva unui algoritm genetic aplicat problemei este următoarea: ÷ Populaţia este familia de descriptori moleculari având fiecare genotip (cromozom) descris de

următoarele gene: o gena d conţinând operatorul de distanţă folosit la construirea descriptorului molecular

(fenotipului), având 2 valori posibile: `g` - distanţă geometrică; `t` - distanţă topologică; o gena p conţinând proprietatea atomică folosită la construirea fenotipului, cu 6 valori

posibile: `M` - masa atomică relativă; `Q` - sarcina electrică parţială a atomului (obţinută în aproximaţia Hückel extinsă); `C` - cardinalitatea (proprietate atomică trivială, totdeauna valoarea sa pentru orice atom este 1); `E` - electronegativitatea atomică (valoare relativă la scara de electronegativitate Sanderson); `G` - electronegativitatea de grup (valoare obţinută prin calcularea unei medii geometrice a electronegativităţii grupului de atomi situat în imediata vecinătate a atomului cercetat); `H` - numărul de atomi de hidrogen ce înconjoară atomul cercetat;

o gena I conţinând descriptorul de interacţiune, implicând 2 atomi participanţi şi având una din următoarele 24 de valori (în care s-au folosit notaţiile: d - operatorul de distanţă; p - proprietatea atomică): `D(d)`, `d(1/d)`, `O(p1)`, ‘o(1/p1)`, `P(p1p2)`, `p(1/p1p2)`, `Q(√p1p2)`, `q(1/√p1p2)`, `J(p1d)`, `j(1/p1d)`, `K(p1p2d)`, `k(1/p1p2d)`, `L(d√p1p2)`, `l(1/d√p1p2)`, `V(p1/d)`, `E(p1/d2)`, `W(p1

2/d)`, `w(p1p2/d)`, `F(p12/d2)`, `f(p1p2/d2)`, `S(p1

2/d3), `s(p1p2/d3)`, `T(p1

2/d4)`, `t(p1p2/d4)`, în care prima literă dă valoarea genei şi între paranteze este dată formula de calcul asociată valorii acesteia;

o gena O codificând suprapunerea interacţiunilor, fiind implementate 6 valori ale acesteia, două pentru modele în care interacţiunile sunt rare şi la distanţă (`R` şi `r`), două pentru

129

Page 130: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

modelele în care interacţiunile sunt dense dar la distanţă (`M` şi `m`), şi două pentru modelele în care interacţiunile sunt dense şi apropiate (`D` şi `d`);

o gena f care codifică algoritmul de fragmentare moleculară pe perechi de atomi, care poate avea una din următoarele 4 valori: `P` - pentru fragmentare bazată pe căi; `D` - pentru fragmentare bazată pe distanţe; `M` - pentru fragmentare în fragmente maximale; `m` - pentru fragmentare în fragmente minimale (fragmente triviale conţinând un singur atom);

o gena M care codifică modalitatea de suprapunere globală a interacţiunilor fragmentelor, care poate lua una din următoarele 19 valori împărţite în 4 grupuri: grupul de mărimi ( `m` - selectează cea mai mică valoare; `M` - cea mai mare valoare; `n` - cea mai mică valoare absolută; `N` - cea mai mare valoare absolută); grupul de medii ( `S` - suma; `A` - media aritmetică după numărul de proprietăţi de fragmente; `a` - media aritmetică după numărul de fragmente; `B` - media aritmetică după numărul de atomi; `b` - media aritmetică după numărul de legături); grupul geometric (`P` - multiplicare; `G` - medie geometrică după numărul de proprietăţi de fragmente; `g` - medie geometrică după numărul de fragmente; `F` - medie geometrică după numărul de atomi; `f`` - media geometrică după numărul de legături); grupul armonic (`s` - suma armonică; `H` - medie armonică după numărul de proprietăţi de fragmente; `h` - medie armonică după numărul de fragmente; `I` - medie armonică după numărul de atomi; `i`` - media armonică după numărul de legături);

o gena L care rezultă în algoritm în urma unei mutaţii deterministe asupra fenotipului şi reprezintă unul din cei 6 operatori de linearizare ce urmează: `I` - identitate, `i` - inversa, `A` - valoarea absolută, `a` - inversa valorii absolute, `L` - logaritmul valorii absolute, `l` - logaritmul;

÷ Scorul (funcţia obiectiv): având proprietatea măsurată pentru cei 209 compuşi exprimată în şirul Y (cu 209 valori), urmează: o Fenotipul, caracterizat de genele care compun cromozomul este transformat în fenotip când

se calculează valorile corespunzătoare genotipului pentru fiecare din cele 209 molecule ale setului de PCBs.

o Pentru o funcţie obiectiv de estimare a proprietăţii măsurate folosind 2 genotipuri (în cazul general putând fi un număr oarecare fixat de genotipuri, r), ecuaţia de regresie este de forma: Ŷ = a0 + a1·Fenotip1 + a2·Fenotip2, (în general: Ŷ = a0 + Σ1≤i≤rai·Fenotipi), unde: Ŷ este estimatorul proprietăţii măsurate; a0..a2 sunt coeficienţii care rezultă din minimizarea pătratelor diferenţelor între valorile

măsurate Y şi cele estimate prin intermediul lui Ŷ pentru setul de 209 compuşi; Fenotip1=Fenotip(Genotip1) şi Fenotip2=Fenotip(Genotip2) sunt fenotipurile (şirurile de

valori ale descriptorilor moleculari obţinuţi prin operaţiile prescrise de genotipurile Genotip1=d1p1I1O1f1M1L1 şi Genotip2=d2p2I2O2f2M2L2 pentru cei 209 compuşi;

o Tăria (scorul) unei perechi de genotipuri (sau mai multe, pentru regresia multivariată) poate fi exprimată de una din următoarele (Tabelul 18). Tabelul 18. Funcţii de scor pentru penalizarea regresiilor cu perechi de fenotipuri

Nr. Scor (i=1..2) Semnificaţie Obiectiv Remarci Σ(Y-a0-Σiai·Fenotipi)p 1 Suma minim Uzual p=2; pentru p = 1 şi mai mult pentru p

=1/2 există avantajul că se favorizează tendinţa generală în regresie în defavoarea abaterilor grosolane de la ecuaţia de regresie

reziduurilor de estimare

2 r2(Y,a0+Σiai·Fenotipi) Coeficient de maxim Are avantajul legăturii cu scopul general al optimizării (maximizarea coeficientului de determinare)

determinare

÷ Încrucişarea: o Se selectează (folosind una din metodele de selecţie descrise în Tabelul 17) două genotipuri,

Genotip1=d1p1I1O1f1M1L1 şi Genotip2=d2p2I2O2f2M2L2; o Se generează două numere aleatoare (din distribuţia uniformă) între 0 şi 6 (fie ele 2 şi 4);

130

Page 131: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

o Se încrucişează Genotip1 cu Genotip2 când se obţin descendenţii Descendent1 = d1p1I2O2f2M1L1 şi Descendent2 = d2p2I1O1f1M2L2; se obţin fenotipurile acestor descendenţi şi se adaugă la cultivar;

÷ Mutaţia: o Se foloseşte o probabilitate de mutaţie α=1/7 (numărul de gene) pentru a decide dacă se

aplică sau nu mutaţia; o Se alege unul din descendenţi (cel mai tare sau cel mai slab în raport cu scorul, sau

aleatoriu); o Se generează un număr aleatoriu între 0 şi 6 pentru a decide care genă va suferi mutaţia (fie

acest număr 3); o Corespunzător lui 3 este gena I; se generează atunci un număr aleatoriu între 1 şi 24

(numărul de valori posibile pe care le permite gena I); folosind valoarea generată aleatoriu între 1 şi 24 (fie acesta 12) se înlocuieşte valoarea genei I cu noua valoare (pentru 12 valoarea genei I este `k(1/p1p2d)`);

÷ Evoluţia (algoritmul genetic): o Aşa cum rezultă în acest punct, din întregul populaţiei (care numără, după un calcul simplu)

787968 membrii, implementarea în abordarea algoritmilor genetici necesită generarea şi păstrarea unui eşantion (cultivar) restrâns din întreaga populaţie (maxim 100 de genotipuri); fie volumul cultivarului N;

o Se generează aleatoriu N genotipuri; o Se obţin N fenotipuri asociate celor N genotipuri; o Se repetă:

Pentru fiecare pereche (în cazul regresiei bivariate) de genotipuri • Se obţine scorul asociat perechii de fenotipuri: r2(Y,a0+a1·Fenotip1+a2·Fenotip2)

Sfârşit pentru. Pentru fiecare genotip • Se obţine scorul genotipului ca valoarea minimă a scorului pe care el îl obţine prin

împerechere cu celelalte genotipuri; Sfârşit pentru. Se aleg două genotipuri din cultivar folosind operatorul de selecţie (Tabelul 17) şi se

încrucişează; li se generează fenotipurile şi se adaugă cultivarului (volumul cultivarului devine N+2);

Se decide dacă unul dintre genotipuri va fi mutat folosind probabilitatea α=1/7; dacă da, atunci se alege unul dintre genotipurile încrucişate şi se aplică operatorul de mutaţie; mutantului i se generează fenotipul şi se adaugă cultivarului (în caz favorabil mutaţiei volumul cultivarului devine N+3);

Folosind scorul genotipurilor se înlătură din cultivar exact atâtea genotipuri până când volumul cultivarului devine din nou N (minim 0, maxim 3);

o Până când scorul asociat celei mai bune perechi (în cazul regresiei bivariate) de genotipuri satisface condiţia impusă (de exemplu r2 > 0.99).

÷ Remarcă cu privire la cultivar, mutaţie şi încrucişare: o Nu orice combinaţie de valori ale genelor produce un fenotip sănătos; la fel mutaţia poate

produce un fenotip mort; acesta este motivul pentru care există posibilitatea ca după rularea unui ciclu complet de evoluţie, cultivarul să rămână neschimbat (atunci când încrucişarea urmată de o eventuală mutaţie produc 3 fenotipuri care fie nu se nasc, fie nu se adaptează mediului);

o Semnificaţia este următoarea: aplicarea secvenţelor de construcţie a fenotipului descrise de cromozom pentru o anumită moleculă (sau pentru mai multe dintre acestea) poate, în traseul de construcţie să întâlnească nedeterminări (împărţiri la 0, logaritm din număr negativ);

o Chiar dacă este născut fenotipul, există posibilitatea să nu se adapteze mediului (având de

131

Page 132: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

exemplu valori identice pentru toate moleculele setului, ceea ce-l face nefolositor în exprimarea unei ecuaţii de regresie cu proprietatea măsurată).

Abordări, variante, adaptări şi alternative ale formalismului algoritmilor genetici Există multe variante şi adaptări ale algoritmilor genetici menite să îmbunătăţească performanţele acestora pentru un anume tip de probleme. Menţionarea tehnicilor derivate şi/sau bazate pe tehnica algoritmilor genetici este suficientă pentru problematica abordată: ÷ Optimizarea bazată pe strategia coloniilor de furnici (în engleză: Ant colony optimization;

Bouktir şi Slimani, 2005); ÷ Algoritmi bacteriologici (în engleză: Bacteriologic algorithms; Benoit şi alţii, 2005); ÷ Metoda încrucişării entropiei (în engleză: cross-entropy method; De Boer şi alţii, 2005); ÷ Algoritmi culturali (în engleză: Cultural algorithms; Kobti şi alţii, 2004); ÷ Strategii evolutive (în engleză: Evolution strategies; Schwefel, 1995); ÷ Programare evolutivă (în engleză: Evolutionary programming; Fogel şi alţii, 1966); ÷ Optimizare extremistă (în engleză: Extremal optimization; Bak şi Sneppen, 1993); ÷ Adaptare Gausiană (în engleză: Gaussian adaptation; Kjellström, 1991); ÷ Programare genetică (în engleză: genetic programming; Banzhaf şi alţii, 1997); ÷ Algoritmi memetici (în engleză: memetic algorithm; Smith, 2007); ÷ Alte variate, colectate în (Davis, 1991).

Alte abordări conjugă algoritmii genetici cu alte concepte. Următoarele se pot menţiona: ÷ Utilizarea maşinilor cu suport vectorial (în engleză: Support Vector Machines (Brown şi alţii,

2000); ÷ Analiza de localizare a asemănărilor structurale prin histograme secvenţiale (acronim în

engleză: SPLASH; Califano, 2000); ÷ Setul neregulat (în engleză: Rough set; Hvidsten şi alţii, 2001). 2008A3. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi

dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate) Introduction to Practical Statistics for Medical Research

÷ Organizator: University College London (UCL), Londra, UK ÷ Tip: curs ÷ Perioadă: 6-11 Aprilie 2008; ÷ Deplasare: aferentă Obiectiv 1, Activitate 3; ÷ Participanţi: Lorentz JÄNTSCHI; ÷ Tematica cursului:

Basics of Study Design Rumana OMAR UCL Introduction to Data Analysis Caroline DORE MRC Observational Studies in Health Research Rumana OMAR UCL Randomised Controlled Trials Doug ALTMAN UOx Estimation and Hypothesis Testing Gareth AMBLER UCL Comparing Groups of Continuous Data Caroline DORE MRC Analysis of Categotical Data Pauline ROGERS UCL Sample Size Calculations Caroline DORE MRC Correlation and Linear Regression Gareth AMBLER UCL Further Regression Topics Gareth AMBLER UCL

132

Page 133: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Measures of Disease in Health Research Rumana OMAR UCL Logistic Regression Andrew COPAS UCL Analysis of Survival Data Andrew COPAS UCL Analysis of Clustered Data Rebeca TURNER MRC Statistics in Medical Journals Doug ALTMAN UOx Legendă: UCL - University College London, Londra, UK MRC - Medical Research Center, Londra, UK UOx - University of Oxford, Oxford, UK

÷ Puncte cheie din tematica cursului: o Basics of Study Design

Designul este cel mai important aspect al unui studiu; Trebuie să răspundă întrebării de cercetare; Designul studiului acoperă:

• Studii observaţionale; • Trialuri controlate randomizate;

Este esenţială pregătirea protocolului de cercetare; Aspecte metodologice:

• Specificarea obiectivului cercetării trebuie să includă: o Estimarea frecvenţei de apariţie a fenomenului observat; o Generarea şi testarea ipotezelor; o Înţelegerea cauzelor fenomenului observat; o Evaluarea intervenţiei sugerate de cercetare;

• Specificarea populaţiei incluse în studiu: o Asigurarea reprezentativităţii eşantionului; o Criteriile de includere şi excludere din studiu; o Specificarea răspunsului primar urmărit; o Specificarea răspunsurilor secundare urmărite; o Asigurarea unui eşantion de control; o Influenţa dimensiunii eşantionului asupra semnificaţiei;

• Estimarea influenţelor: o Evaluarea confuziilor între factorul urmărit şi alţi factori; o Eroarea produsă de selecţie; o Eroarea produsă de observabilă; o Eroarea produsă de observator; o Eroarea produsă de evenimente anterioare celui urmărit;

• Manipularea datelor: o Responsabilitate; o Evidenţe duble; o Construcţie unei baze de date; o Menţinerea confidenţialităţii; o Planul de analiză statistică;

o Introduction to Data Analysis Metode statistice utilizate pentru înţelegerea şi explicarea variaţiilor; Alegerea metodei de analiză în funcţie de:

• Tipul datelor; • Structura studiului; • Presupunerile cu privire la distribuţia datelor;

Tipuri de date grupate pe categorii: • Două categorii (date binare);

133

Page 134: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

• Categorii nominale (neordonate); • Categorii ordinale (ordonate);

Variabile răspuns şi variabile expunere; Date lipsă; Descrierea datelor; Măsuri:

• De sumar: o Valoare tipică; o Împrăştierea valorilor;

• Valori tipice: o Media; o Mediana; o Centila şi cuartila;

• Împrăştierea valorilor: o Deviaţia standard; o Domeniu şi domeniu interquartilic;

Verificarea datelor; Distribuţii statistice:

• Presupuneri; • Independenţă; • Legi de distribuţie:

o Distribuţia normală; o Distribuţia binomială; o Distribuţia uniformă; o Distribuţia log-normală; o Distribuţia Poisson; o Distribuţia χ2; o Distribuţia Student;

Metode parametrice; Metode neparametrice;

o Observational Studies in Health Research Studii observaţionale:

• Serii caz-raport; • Secţionare încrucişată; • Cohorte; • Caz-control;

Puterea şi limitele fiecărui tip de studiu; Tipuri de studii:

• Studii descriptive; • Studii analitice;

Aplicaţiile designului de studiu; Stabilirea cauzalităţii în studii observaţionale analitice:

• Criteriul Bradford Hill o Randomised Controlled Trials

Ce este un trial controlat randomizat; Aspecte cheie ale designului şi analizei unui trial controlat; Întâmplarea; Simularea întâmplării; Generarea de secvenţe întâmplătoare; Designul; Generarea întâmplătoare pe blocuri;

134

Page 135: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Generarea întâmplătoare stratificată; Când generarea întâmplătoare apare; Când generarea întâmplătoare operează corespunzător; Când generarea întâmplătoare operează necorespunzător; Alocarea sistematică; Conducerea (execuţia) unui trial; Orbirea: asigurarea întâmplării prin privarea de informaţii; Designul trialurilor clinice; Trialuri de echivalenţă; Volumul eşantionului; Măsuri ale răspunsului; Protocolul de cercetare; Probleme de etică; Probleme cheie ale analizei unui trial controlat;

o Estimation and Hypothesis Testing Populaţii şi eşantioane; Analiza statistică; Estimarea parametrilor populaţiei; Incertitudinea în estimare; Distribuţia de eşantionare; Măsuri ale incertitudinii; Intervale de încredere; Testarea ipotezelor în populaţii şi eşantioane; Valori de probabilitate; Semnificativ vs. nesemnificativ (statistic); Interpretarea valorilor de probabilitate; Estimare vs. testarea ipotezelor;

o Comparing Groups of Continuous Data Structura datelor; Presupuneri cu privire la distribuţia datelor; Eşantioane pereche; Distribuţia t (Student); Eşantioane independente; Distribuţia reziduurilor; Transformarea logaritmică; Analiza de varianţă ANOVA; Distribuţia F (Fisher); Comparaţii multiple; Procedura Bonferoni;

o Analysis of Cathegorical Data Analiza a două grupuri de date grupate pe categorii; Compararea riscului în două grupuri independente; Tabele de frecvenţă 2X2; Testul χ2; Mai mult de două categorii; Tabele de frecvenţă mari; Testul Fisher exact; Două grupuri pereche; Testul McNemar;

o Sample size calculations Importanţa calculului volumului eşantionului; Calcule bazate pe putere vs. calcule bazate pe precizie;

135

Page 136: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Metode de bază pentru medii şi pentru proporţii; Raportarea calculelor de volum de eşantion; Fezabilitatea studiilor; Erori de tipul I; Erori de tipul II; Nivel de semnificaţie;

o Further Regression Topics Regresia multiplă; Predictori binari şi predictori pe categorii; Interacţiuni; Selecţia modelelor;

o Measures of Disease in Health Research Determinarea factorilor ce contribuie la un răspuns medical; Identificarea şi explicarea amprentelor geografice; Determinarea, descrierea şi raportarea unui răspuns medical în curs; Determinarea măsurilor preventive; Sănătatea în planificarea şi dezvoltarea serviciilor de sănătate; Furnizarea de date administrative şi de planificare;

o Logistic regression Când şi unde se foloseşte regresia logistică; Ce este regresia logistică; Interpretare: rata parităţilor; Rata parităţilor vs. riscul relativ;

o Analysis of Survival Data Ce sunt datele de supravieţuire; Tabele de viaţă şi curbe de supravieţuire; Testarea pentru diferite rate de supravieţuire între grupuri; Analiza de regresie; Greşeli comune;

o Analysis of clustered data Când sunt datele grupate; Metode statistice vs. date grupate; Metode complexe de investigare;

o Statistics in medical journals Utilizarea designului şi analizei; Utilizarea tehnicilor de analiză; Interpretarea rezultatelor; Raportarea selectivă a rezultatelor; Citarea selectivă a literaturii; Obţinerea concluziilor;

Summer School on Neural Networks in Classification, Regression and Data Mining ÷ Organizator: Institutos Superiores de Engenharia do Porto (ISEP), Porto, PT ÷ Tip: şcoală de vară ÷ Perioadă: 6-12 Iulie 2008; ÷ Deplasare: aferentă Obiectiv 1, Activitate 3; ÷ Participanţi: Lorentz JÄNTSCHI; ÷ Tematica cursului:

Basic Notions. Why NN? Joaquim Marques de Sá MLP and RBF algorithms Petia Georgieva MLP’s with Entropic Criteria Jorge Santos Data Mining with MLPs Paulo Cortez

136

Page 137: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Functional Networks Noelia Sánchez Maroño Multi-class SVMs, Theory Yann Guermeur Functional Networks application Noelia Sánchez Maroño SVMs application to protein secondary structure prediction Yann Guermeur Multiple kernel learning and HM-SVM for bioinformatic applications Alexander Zien Semi-Supervised Learning Alexander Zien Multi-Valued and UB Neurons - I Igor Aizenberg Kernel PLS Mark Embrechts Multi-Valued and UB Neurons - II Igor Aizenberg Selecting Algorithms and Parameters with Meta-Learning Carlos Soares Text Mining Mark Embrechts

÷ Puncte cheie din tematica cursului: o Basic Notions. Why NN?

Learning Approaches What are NNs? A Simple Neuron: The Linear Discriminant Neural Activation Functions Learning Dichotomies: The Perceptron Neural Net Types FFNN as Universal Approximators

o MLP and RBF algorithms Historical perspective - biological analogy Learning algorithms: Backpropagation, conjugate gradient, Newton’s

methods NN Architectures - MLP, RBF Examples and applications

o MLP’s with Entropic Criteria Entropy Entropy Estimation Entropy in Learning Systems Entropic Cost Function Algorithm Optimizations Other Similar Algorithms Experiments

o Data Mining with MLPs Intensive Care and Meat Quality applications Knowledge Discovery in Databases (KDD) Data Mining (DM) Business Intelligence and Data Mining DM Methodologies: CRISP-DM DM goals & DM methods

• Classification • Regression • Clustering • Link analysis

Multilayer Perceptrons (MLPs) Activation functions Architecture/Topology Why Data Mining with MLPs?

137

Page 138: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

• Popularity • Universal Approximators • Nonlinearity • Robustness • Explanatory Knowledge

Software R statistical environment Supervised Learning Handling Missing Data Outliers Non numerical variable remapping Feature Selection Classification Metrics Receiver Operating Characteristic (ROC) Regression Metrics Validation method: how to estimate the performance? MLP Training Algorithm Local Minima with MLP Overfitting Case Study: Intensive Care Medicine (Classification) Knowledge extraction (Decision Tree example for the renal organ) Case Study: Lamb Meat Quality (Regression)

o Functional Networks Introduction to functional networks Differences between functional and artificial neural networks Functional equations Working with functional networks Different models Applications

o Multi-class SVMs, Theory Yann Guermeur Guaranteed risk for large margin multi-category classifiers

• Theoretical framework • Basic uniform convergence result • γ-ψ-dimensions • Generalized Sauer-Shelah lemma • Nature and rate of convergence

Multi-class SVM • Multi-cathegory classification with binary SVMs • Class of functions implemented by the M-SVMs • Generalized formulation of the training algorithm • Three main models of M-SVMs • Some variants of the main models • Margins and support vectors

Guaranteed risk for multi-class SVMs • Bounds on the covering numbers • Use of the Rademacher complexity

Model selection for multi-class SVMs • Algorithms fitting the entire regularization path • Bounds on the leave-one-aut cross-validation error

Open problems

138

Page 139: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

o SVMs application to protein secondary structure prediction Protein secondary structure prediction

• Different levels of structural organization in proteins • A problem of central importance in structural biology • Different measures of prediction accuracy

State of the art • Choice of the predictors • Building blocks and architecture of the main prediction methods

Implementation of multi-class SVMs • Models implemented • Training algorithm • Dedicated RBF kernel • Computation opf weighting vector θ • Experimental results

Future work o Multiple kernel learning and HM-SVM for bioinformatic applications

Support Vector Machines (SVMs) Handling Non-Linearity with Kernels SVMs as Perceptrons Application: Predicting Protein Subcellular Localization Multiple Kernel Learning (MKL) Large Margin MKL Model Optimization for MKL Normalization of Kernels Multiclass Multiple Kernel Learning Application: Predicting Protein Subcellular Localization

o Semi-Supervised Learning Why Semi-Supervised Learning? Why and How Does SSL Work? Generative Models The Semi-Supervised SVM (S3VM) Graph-Based Methods Further Approaches (Co-Training, Transduction)

o Multi-Valued and UB Neurons - I Why we need the complex valued neurons? A classical Minsky-Papert’s limitation Is it possible to learn XOR and Parity n functions using a single neuron? Multi-Valued and Universal Binary Neurons (MVN and UBN) Multi-valued mappings Traditional approaches to learn the multiple-valued mappings on a neuron Sigmoidal neurons: limitations Multi-Valued Neuron (MVN) Multi-valued mappings and multiple-valued logic Discrete-Valued (k-valued) Activation Function Multiple-Valued (k-valued) Threshold Functions Learning Algorithm for the Discrete MVN with the Error-Correction

Learning Rule Continuous-Valued Activation Function Learning Algorithm for the Continuous MVN with the Error Correction

Learning Rule A role of the factor 1/(n+1) in the Learning Rule Self-Adaptation of the Learning Rate

139

Page 140: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Modified Learning Rules with the Self-Adaptive Learning Rate Convergence of the learning algorithm MVN as a model of a biological neuron P-realizable Boolean Functions over the field of Complex numbers and a

Universal Binary Neuron Dependence of the number of sectors on the number of inputs Learning Algorithm for UBN Mail Applications

o Kernel PLS Introduction

• Latent Variables • The Machine Learning Paradox • Beyond Regression (PCR)

Principal Component Analysis (PCA) • Definition • NIPALS algorithm • Principal Component Regression (PCR) • Loading factors and variable selection

Partial Least Squares (PLS) Nonlinear PLS

• Kernels • Direct kernel methods • K-PCA • K-PLS • Preprocessing and centering the kernel • Variable/feature selection with sensitivity analysis

Applications • Portuguese Wine data • Pima Indians • Italian Olive Oils multi-class classification • Svante Wold’s QSAR data • Real QSAR data • Time series prediction

o Multi-Valued and UB Neurons - II Associative memory A feedforward multilayer MVN-based neural network (MLMVN), its

derivative-free backpropagation learning algorithm and solving some classification and prediction problems

Learning of the genetic code using MLMVN Gene expression data classification using MLMVN Blur identification using MLMVN Solving the problem of Gene Expression Patterns Classification using the MVN-based neural network Learning of non-threshold Boolean functions using a single UBN

o Selecting Algorithms and Parameters with Meta-Learning Background: why is this a problem?

• approximating functions with machine learning • algorithm selection and bias • a few solutions

Meta-Learning: THE solution

140

Page 141: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Meta-learning for Algorithm Recommendation o Text Mining

What is text mining Text mining process Visualizations for text mining Kernel methods Case studies Fingerprinting text Text categorization Applying text mining to bioinformatics Customer service center analysis Detecting ontologies

2008A4. Stabilirea necesarelor de materiale şi consumabile, identificarea furnizorilor şi condiţiilor de procurare, întocmirea documentaţiilor de procurare, derularea licitaţiilor pentru

achiziţii

÷ S-au achiziţionat serie de echipamente pentru cercetare: o Fluorometru (pentru analize în soluţie) o Staţie Meteo Wireless (pentru monitorizare parametrii de mediu) o Notebook (pentru preluare date de la fluorometru şi de monitorizare parametrii de

mediu) ÷ S-au achiziţionat o serie de obiecte de inventar necesare cercetării:

o Procesor CPU Intel Xeon Quad Core; Multifunctional Brother; Panou solar fotovoltaic; Acumulatori; Regulator de încărcare; Afişaj regulator; Invertor; Imprimanta Canon; Senzor umiditate frunze; Senzor umiditate sol; Senzor temperatura din otel inoxidabil; Repetitor; Antena Yagi; Repetitor standard wireless

÷ S-au achiziţionat o serie de cărţi: o Evolutionary Dynamics; Evolutionary Computation: The Fossil Record; The Genetical

Theory of Natural Selection

2008A5. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate)

Strasbourg Summer School on Chemoinformatics: CheminfoS3

÷ Organizator: Louis Pasteur University (ULP), Strasbourg, FR ÷ Tip: şcoală de vară ÷ Perioadă: 20-04 Iunie-Iulie 2008; ÷ Deplasare: aferentă Obiectiv 2, Activitate 5; ÷ Participanţi: Lorentz JÄNTSCHI, Carmen E. STOENOIU; ÷ Cursurile şcolii:

QSAR: discovery and first steps T. Fujita History and challenges of chemoinformatics J. Gasteiger Current trends in chemoinformatics W. Warr Fingerprint Design and Molecular Complexity Effects J. Bajorath Diversity Analysis and Library Design V. Gillet De novo Design G. Schneider Lessons learned from modelling bioactivity - what works and what doesn't R. Glen

141

Page 142: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Exploring novel estrogen receptors and more... T. Oprea Tutorial: Impact of dataset composition on models performance A. Varnek Molecular descriptors: an overview R. Todeschini The good, the bad and the ugly practices of QSAR modelling A. Tropsha Pharmacophore Approach in Drug Discovery T. Langer Classification of chemical reactions J. Aires-de-Sousa Machine learning methods in QSAR I. Tetko Tutorial on application of non-linear methods in chemistry (neural networks, support vector machines) I. Baskin

In silico target profiling J. Mestres Docking and post-docking strategies D. Rognan What Crystal Structure Databases Tell us about Conformational Preferences of Drug-like Molecules M. Stahl

The Role of Cheminformatics in the Modern Drug Discovery Process P. Ertl ÷ Puncte cheie din cursuri:

o QSAR: discovery and first steps Origin of Classical QSAR is from the SAR Studies of Agrochemicals

Plant Growth Regulators/Herbicides Structure-Activity Patterns The "Birth" of the Multi-variable Approach Features of the QSAR Conditions for the QSAR Classical QSAR for Series of Substituted Analogs Process of the Emergence of Biological Activity Early Trials of the Quantitative Approach Commercialized Drugs developed with the Aid of Classical QSAR

o History and challenges of chemoinformatics the scope of chemoinformatics the beginnings a field of ist own scientific challenges political challenges

o Current trends in chemoinformatics Literature analysis Hardware and infrastructure Web 2.0 The Semantic Web Text mining Combichem Evaluation of scientific methods

o Fingerprint Design and Molecular Complexity Effects Chemical Similarity Searching Molecular Fingerprints Similarity Search Multiple Active Reference Molecules Molecular Complexity and Size Effects Fingerprint Design Activity-Specific Descriptor Value Ranges Assessment of Descriptor Selectivity PDR-FP Descriptor Selection

142

Page 143: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Similarity Assessment with PDR-FP Relevance of Complexity Effects Tversky Similarity Relevance of Complexity Effects Activity Classes of Different Avg. Size Pairwise Tversky Similarity Complexity Effects Weighted Tversky Coefficient Random Reduction of Bit Density

o Diversity Analysis and Library Design Diversity Analysis

• Measuring diversity • Selecting diverse subsets • Computational filtering

Combinatorial Library Design • Designing libraries optimised on multiple properties • Reduced Graphs as Molecular Descriptors

o De novo Design De Novo Design Concepts Adaptive Walk in a “Fitness Landscape” What is a Molecule? Local Neighborhood Search Local Neighborhood Strategies Elements of Artificial Adaptive Systems Ant Colony Optimization. A Simple Combinatorial Case: Peptide Design Ant System for Combinatorial Design Principle of Evolutionary Strategies Algorithm of the (1,λ) Evolution Strategy De novo Fragment Assembly Operators of Evolutionary Optimization Particle Swarm Optimization (PSO) Visualization of Particle Trajectories COLIBREE®: Combinatorial Library Breeding Self-Organizing Map (SOM) Pharmacophore Road Map of Chemical Space

o Lessons learned from modelling bioactivity - what works and what doesn't Dynamic pharmacophores in the 5HT1b/d GPCR

• An introduction to designing 5-HT1B ligands • 5-HT1B pharmacophore development • Homology modelling based on the beta-2 crystal structure • Dynamic pharmacophores • Efficacy models

Moving on to Structure-Activity/Property models - some observations • How reliable are solubility data? • ‘Solubility’ in the literature • So, we have created a Solubility Challenge • Methods to discover models • Property behaviour • So - does (Q)SAR work? • Overfitting and cross validation: three papers to read by Hawkins • A simple model example, again using solubility - putting in

143

Page 144: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

parameters that relate to the phenomenon o Exploring novel estrogen receptors and more...

MLI in Numbers NM MLSC (3-year summary) U54MH074425 Summary Assays NMMLSC Integrated Discovery Teams HyperCyt Integration of VS & HTS GPR30 - A Novel Estrogen Target for MLI 2D Similarity Shape Similarity - ROCS Electrostatic Similarity - EON In Silico Screening: Bet on all horses… Summary of Estrogen Receptors Results Biomolecular Screening Results Virtual and Biomolecular Screening Workflow Probe Discovery At NMMLSC How Many Drug Targets? WOMBAT-PK Measured Data in WOMBAT-PK Drug Targets & Dis-ease The Fitness Landscape Multi-Target Binding Affinity Cliffs Mono-Target Drugs Current Drugs Classification Unique Drug Targets by Class Urban Legend… Drug Targets Revisited From DrugBank What are the relevant drug metabolizing enzymes? The Problem with unique lists… More realistic? Overview of drug metabolism

o Tutorial: Impact of dataset composition on models performance Software

• R • Weka

Datasets Model building

• Descriptors • Data files • Obtaining and validation of the models • Extracting the training and the external related test set from the

Cherkasov dataset • Build and analyze a Bayesian model • External validations on unrelated test set

Detection of the bias: profiling of data sets o Molecular descriptors: an overview

The chemical data Molecular structure Some historical notes Molecular descriptors intro

• The role of the molecular descriptors

144

Page 145: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

• Representations of a molecular structure • Properties of a molecular descriptor

Molecular descriptors detail • Molecular graph • Topological matrices • Local vertex invariants • Distance matrix • Strategies for molecular descriptors

o Următoarele 3 figuri • QSAR strategy

o models ... regression models (quantitative response) classification models (qualitative response) ranking models (ordered response)

145

Page 146: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

• FAQ -Frequently Asked Questions • FGA - our Frequently Given Answers

o The good, the bad and the ugly practices of QSAR modelling Introduction: The need for developing externally validated predictive

models of biological data Why do models fail (bad practices) Predictive QSAR Modeling Workflow (good practices) Examples of the Workflow applications

• QSAR based virtual screening and hit identification • Consensus QSAR modeling of chemical toxicity

Conclusions: “best”QSAR modeling is a decision support science • focus on accurate predictions

o Pharmacophore Approach in Drug Discovery

146

Page 147: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Introduction - Non HTS Hit Recognition The SOSA Approach

• Concept • Application Examples

Pharmacophore-based Ligand Profiling • HT Model Generation • Software Solutions • Application Examples

o Classification of chemical reactions Why do we need to classify reactions? Representation of reactions RC (Reaction Classification) numbers Condensed Reaction Graphs (CRG) Fingerprints of enzymatic reaction features Representation of the reaction center with physicochemical parameters

• Representation of reactions by physicochemical properties of the reaction center

Representation of differences between the structures of products and reactants

• Daylight fingerprints of reactions Reaction MOLMAPs Reaction signatures Fingerprints of reactions based on atom types

o Machine learning methods in QSAR Multiple Linear Regression (MLR) Partial Least Squares (PLS) Support Vector Regression (SVR) Back-Propagation Neural Network (BPNN) K Nearest Neighbours(kNN) Decision Trees (DT)

o Tutorial on application of non-linear methods in chemistry (neural networks, support vector machines)

Benchmarking of Different Machine Learning Regression Methods • Machine Learning Methods • Datasets and Descriptors • Files • Step-by-Step Instructions

o Initialization of the Experimenter mode o Specification of the list of databases to be processed o Specification of the list of machine learning methods o Running machine learning methods o Analysis of obtained results

Descriptor Selection Bias • Datasets and Descriptors • Files • Modeling

o Internal Cross-Validation using Preliminary Selected Descriptors

o Internal cross-validation using descriptors selected in course of model building

o External cross-validation

147

Page 148: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

o In silico target profiling Traditional drug discovery High-throughput screening Chemical Screening The need to go beyond traditional drug discovery Pharmacological Profiling Chemogenomic Profiling Necessary drug discovery Annotated chemical libraries: WOMBAT Chemo and Target spaces covered by WOMBAT Biologically-relevant descriptors: SHED (Shannon Entropy Descriptors) Biologically-relevant molecular descriptors Ligand-based approach to in silico pharmacology Validation example: nuclear receptor family Target ID case #1: Drug profiling Target ID case #2: Targeted chemical biology

o Docking and post-docking strategies A few starting points Strategic importance of docking Docking Flowchart Which Compound Library? Commercially-available screening collections Library set--up Chemical Filters Pharmacokinetical filters Lead-likeness Which Ligand Conformation? Which Protein coordinates? Which Docking Tool? Docking methods Conformational sampling methods Which Scoring function? Scoring functions Scoring ΔG bind is extraordinarily difficult Predicting binding free energies Empirical scoring functions Potentials of mean force Force-fields Predicting ΔG bind is very difficult Docking Accuracy Ranking Accuracy Source of Docking Errors Pros and Cons of docking codes Post-processing Consensus scoring Efficient Post-processing Docking + QSAR Flexible Protein - Flexible ligand docking Refining docking poses par MM-PB/SA, MM-GB/SA Use of topological scoring functions Post-processing by molecular diversity Post-processing vHTS results

148

Page 149: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Post-processing: Visual Inspection Protein-based virtual screening: Current status

o What Crystal Structure Databases Tell us about Conformational Preferences of Drug-like Molecules

Conformational Energies Matter • Strained Bioactive Conformations Affect Binding Energy

Required Generalizations • Statistics over Recurring Fragments

Coverage of Relevant Substructures • In Crystal Structure Databases

Cis or Trans? From Amides to Electrostatic Repulsion • Generalized Allylic Strain • The Sulfonyl Group • Properties of Aniline Derivatives • Project Example: New F.VIIaInhibitors

o The Role of Cheminformatics in the Modern Drug Discovery Process Data Explosion in Chemistry Cheminformatics in the Pharma Industry Drug Discovery & Development Process Typical Cheminformatics Activities at Pharmaceutical Industry

• Molecular databases • Large-scale data analysis, knowledge discovery • Calculation of molecular properties / descriptors • Estimation of ADME characteristics, toxicity alerting • Navigation in chemistry space • Virtual screening • Support for HTS - hitlist triaging • Support for combinatorial chemistry and molecule optimization

Novartis Web-based Cheminformatics System • Novartis Data Warehouse - Avalon • Classification of GPCR Ligands • Novartis In Silico Profiling • 3D Hydrophobicity

149

Page 150: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

• Molecular Property Space • Structural Diversity Space

The Scaffold Tree - Basic Algorithm • Scaffold Tree Example for HTS results

Virtual Screening • Virtual Screening Workflow • Learning from the Nature

High-Throughput Screening - HTS Combinatorial Chemistry Molecule Design

• Early CombiChem • Database of Organic Substituents

Bioisosteric Design • Substituent Bioisosteric Design • Cheminformatics - Future Trends

2008A6. Planificarea activităţilor experimentale; derularea experimentelor demonstrative (de testare a metodelor de analiză)

În această fază s-au testat metodele de predicţie bazată pe regresie şi calcul al intervalului de încredere al estimatei pentru ca în final să se planifice activităţile experimentale. O serie de studii anterioare (Diudea & others, 2001-MT; Jäntschi & Ungureşan, 2001-SCA; Jäntschi & Ungureşan, 2001-MKD; Jäntschi & others, 2006-GPAP; Jäntschi, 2007-CCPN; Jäntschi & others, 2007-CCPN; Jäntschi & Bolboacă, 2008-EEVC) au reprezentat suportul cercetării, finalizate prin publicarea unui nou rezultat (Jäntschi & others, 2008-FVCT). Testarea metodei de predicţie bazată pe regresie (metoda leave-one-out): Metoda constă în următoarele etape: ÷ determinarea valorilor estimate (YY) pe baza ecuaţiei modelului de regresie lineară: Y=aX+b ÷ eliminarea pe rând a câte unei valori din mulţimea valorilor observate şi reconstructţia

modelului de regresie; ÷ calcularea valorii prezise pentru compusul elininat pentru valorilor prezise pe baza ecuaţiei

noului model de regresie lineară ÷ coeficienţii (ai) şi (bi), 1 ≤ i ≤ n, n = numărul de valori observate (măsurate) sunt obţinuţi prin

minimizarea sumei pătratelor distanţelor între valorile observate şi cele estimate:

YYi = aiXi+bi, (ai, bi) din , i = 1..n ( ) minbXaYn

ij1j

2ijij =−−∑

≠=

Rezultate obţinute: Mol ISDmsHt lADrtHg Y YY YYY PCB001 151.28 -2.4129 0.0997 0.108431 0.108812 PCB002 150.54 -2.4752 0.1544 0.154384 0.154383 PCB003 150.89 -2.4799 0.1937 0.167591 0.166551 PCB004 147.93 -2.5878 0.2245 0.206896 0.206397 PCB005 148.27 -2.6449 0.2785 0.273453 0.273315 PCB006 146.92 -2.661 0.2709 0.257517 0.257212 PCB007 147.28 -2.6499 0.2566 0.254805 0.254763 PCB008 147.4 -2.6659 0.2783 0.274048 0.27395 PCB009 146.92 -2.6638 0.257 0.26038 0.260456 PCB010 147.93 -2.5976 0.2243 0.216919 0.216717 PCB011 146.28 -2.7289 0.3238 0.311597 0.311365 PCB012 147.99 -2.7018 0.3298 0.324924 0.324777

150

Page 151: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

151

PCB013 146.55 -2.7348 0.3315 0.324111 0.323962 PCB014 146.17 -2.7028 0.2373 0.282264 0.28317 PCB015 146.95 -2.7398 0.3387 0.338825 0.338828 PCB016 144.84 -2.809 0.3625 0.358953 0.358902 PCB017 143.95 -2.8148 0.3398 0.343524 0.343579 PCB018 143.92 -2.8046 0.3378 0.332372 0.332284 PCB019 144.45 -2.7588 0.3045 0.298253 0.298128 PCB020 143.94 -2.8881 0.417 0.418247 0.418263 PCB021 145.59 -2.8521 0.4135 0.421032 0.42121 PCB022 144.33 -2.8943 0.4267 0.433949 0.434063 PCB023 144.26 -2.8423 0.377 0.379088 0.379115 PCB024 144.98 -2.7928 0.3508 0.345746 0.345669 PCB025 142.85 -2.8941 0.3937 0.398222 0.398271 PCB026 143.03 -2.8787 0.3911 0.386793 0.386743 PCB027 143.2 -2.8355 0.3521 0.346692 0.346606 PCB028 143.38 -2.8993 0.4031 0.416261 0.416403 PCB029 144.72 -2.843 0.382 0.390845 0.390974 PCB030 143.55 -2.8075 0.3165 0.326457 0.326639 PCB031 143.43 -2.8846 0.4094 0.402427 0.40235 PCB032 143.81 -2.8378 0.3636 0.363685 0.363687 PCB033 144.41 -2.8783 0.4163 0.419506 0.419553 PCB034 142.48 -2.8821 0.3782 0.377069 0.377054 PCB035 143.67 -2.9513 0.4738 0.476401 0.476445 PCB036 141.95 -2.9517 0.4375 0.435528 0.435511 PCB037 143.98 -2.9575 0.4858 0.490183 0.490277 PCB038 144.95 -2.9018 0.5102 0.4565 0.455205 PCB039 142.13 -2.9587 0.4488 0.447007 0.446992 PCB040 141.79 -3.0255 0.5102 0.507163 0.507135 PCB041 142.2 -3.0078 0.499 0.498902 0.498901 PCB042 140.81 -3.0324 0.487 0.490699 0.490723 PCB043 140.74 -3.0015 0.4587 0.457417 0.457406 PCB044 140.86 -3.0208 0.4832 0.480035 0.480013 PCB045 141.71 -2.9477 0.4334 0.425677 0.425602 PCB046 141.3 -2.9745 0.445 0.443245 0.443229 PCB047 139.96 -3.0381 0.4639 0.476127 0.476233 PCB048 141.3 -3.0027 0.4651 0.472085 0.472136 PCB049 139.89 -3.0274 0.461 0.463504 0.46353 PCB050 140.38 -2.9636 0.4007 0.410016 0.41018 PCB051 140.51 -2.9777 0.4242 0.427557 0.427602 PCB052 139.93 -3.0156 0.4557 0.452396 0.452356 PCB053 140.35 -2.967 0.4187 0.412774 0.412672 PCB054 141.12 -2.9114 0.38 0.374393 0.374275 PCB055 141.2 -3.0914 0.5562 0.560398 0.560449 PCB056 141.37 -3.1016 0.5676 0.57491 0.575025 PCB057 139.95 -3.08 0.5515 0.518738 0.518549 PCB058 139.53 -3.1049 0.5267 0.534122 0.534163 PCB059 140.56 -3.0287 0.486 0.480914 0.480878 PCB060 141.2 -3.0914 0.5676 0.560398 0.560311 PCB061 142.89 -3.0272 0.5331 0.535303 0.535349 PCB062 142.2 -2.9831 0.4685 0.473641 0.473687

Page 152: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

152

PCB063 140.25 -3.0872 0.529 0.533302 0.533328 PCB064 141.08 -3.032 0.4999 0.49677 0.496749 PCB065 142.2 -2.9716 0.4671 0.46188 0.461836 PCB066 140.33 -3.1075 0.5447 0.555983 0.556066 PCB067 140.32 -3.0814 0.5214 0.52905 0.529096 PCB068 138.35 -3.1119 0.504 0.51296 0.513051 PCB069 139.06 -3.0453 0.451 0.461889 0.462054 PCB070 140.46 -3.0913 0.5407 0.542535 0.542548 PCB071 140.74 -3.0447 0.4989 0.501598 0.501615 PCB072 138.61 -3.0945 0.4984 0.501405 0.501437 PCB073 138.69 -3.0486 0.4554 0.456383 0.456402 PCB074 140.76 -3.0875 0.5341 0.545849 0.545945 PCB075 139.7 -3.0475 0.4643 0.4795 0.479638 PCB076 141.3 -3.073 0.5408 0.543981 0.544014 PCB077 141.04 -3.1696 0.6295 0.636533 0.636727 PCB078 140.67 -3.1465 0.6024 0.604028 0.604054 PCB079 139.28 -3.1702 0.5894 0.594904 0.594942 PCB080 137.65 -3.1697 0.5464 0.555271 0.55534 PCB081 140.89 -3.1536 0.6149 0.61657 0.616604 PCB082 139.09 -3.2205 0.6453 0.641786 0.641744 PCB083 137.72 -3.2131 0.6029 0.601336 0.601328 PCB084 138.58 -3.158 0.5744 0.565626 0.565582 PCB085 138.15 -3.2273 0.6224 0.626179 0.626201 PCB086 139.42 -3.179 0.6105 0.607264 0.607236 PCB087 138.16 -3.2153 0.6175 0.614147 0.614129 PCB088 138.96 -3.1307 0.5486 0.546827 0.546818 PCB089 138.7 -3.1661 0.5779 0.57679 0.576785 PCB090 136.66 -3.2207 0.5814 0.583667 0.583687 PCB091 137.71 -3.1622 0.5549 0.549041 0.548992 PCB092 136.78 -3.2077 0.5742 0.573252 0.573243 PCB093 138.85 -3.1224 0.5437 0.535699 0.53565 PCB094 137.12 -3.1594 0.5331 0.532016 0.532001 PCB095 137.63 -3.1503 0.5464 0.53495 0.53483 PCB096 138.3 -3.0959 0.5057 0.495397 0.495259 PCB097 138.19 -3.2151 0.61 0.614662 0.614687 PCB098 137.18 -3.1758 0.5415 0.550229 0.550321 PCB099 137.26 -3.2215 0.588 0.598886 0.598946 PCB100 136.43 -3.1787 0.5212 0.535194 0.535458 PCB101 137.26 -3.2094 0.5816 0.586511 0.586542 PCB102 137.78 -3.1579 0.5431 0.546323 0.54635 PCB103 136.24 -3.1675 0.5142 0.519179 0.519303 PCB104 137.08 -3.1084 0.4757 0.478899 0.478988 PCB105 138.61 -3.301 0.7049 0.712592 0.712776 PCB106 138.53 -3.2612 0.668 0.669969 0.669995 PCB107 137.32 -3.289 0.6628 0.669358 0.669406 PCB108 136.74 -3.3048 0.6626 0.671596 0.671651 PCB109 137.73 -3.2154 0.6016 0.603928 0.603939 PCB110 138.04 -3.2333 0.6314 0.629675 0.629665 PCB111 135.57 -3.2916 0.6183 0.630015 0.630114 PCB112 137.81 -3.2023 0.5986 0.592451 0.592421

Page 153: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

153

PCB113 136.08 -3.2367 0.5862 0.58611 0.586109 PCB114 138.87 -3.2683 0.6828 0.68539 0.68544 PCB115 138.28 -3.2186 0.6171 0.620402 0.620421 PCB116 140.69 -3.1448 0.6132 0.60277 0.602604 PCB117 138.24 -3.2065 0.615 0.607067 0.607026 PCB118 137.73 -3.29 0.6693 0.680221 0.680334 PCB119 136.58 -3.2505 0.5968 0.612223 0.612321 PCB120 135.85 -3.2936 0.6256 0.638781 0.638869 PCB121 134.49 -3.255 0.5518 0.566663 0.567115 PCB122 138.29 -3.2921 0.6871 0.69581 0.695956 PCB123 137.16 -3.2988 0.6658 0.67554 0.675613 PCB124 137.38 -3.2808 0.6584 0.662412 0.66244 PCB125 137.56 -3.2324 0.6142 0.617234 0.617249 PCB126 137.98 -3.3609 0.7512 0.758731 0.758968 PCB127 136.31 -3.3607 0.7078 0.718444 0.718545 PCB128 136.38 -3.4116 0.7761 0.77218 0.772101 PCB129 136.34 -3.387 0.7501 0.746061 0.746005 PCB130 134.97 -3.4039 0.7184 0.730463 0.730554 PCB131 135.78 -3.3375 0.6853 0.681997 0.681978 PCB132 135.93 -3.3453 0.7035 0.693574 0.693512 PCB133 133.67 -3.3952 0.6871 0.690364 0.690401 PCB134 135.77 -3.3282 0.6796 0.672246 0.672204 PCB135 134.43 -3.3376 0.6563 0.649698 0.649618 PCB136 135.51 -3.2748 0.6257 0.611394 0.611236 PCB137 135.48 -3.4055 0.7329 0.74434 0.744453 PCB138 135.48 -3.4055 0.7403 0.74434 0.74438 PCB139 134.95 -3.3413 0.6707 0.665962 0.665925 PCB140 134.57 -3.3634 0.6707 0.679443 0.679516 PCB141 135.4 -3.3811 0.72 0.717466 0.717448 PCB142 137.38 -3.2892 0.6848 0.671003 0.670897 PCB143 135.84 -3.3307 0.6789 0.676483 0.676469 PCB144 134.83 -3.3291 0.6563 0.650605 0.65055 PCB145 135.58 -3.2721 0.6149 0.610312 0.610263 PCB146 134.06 -3.3977 0.6955 0.702281 0.70234 PCB147 134.81 -3.3329 0.6608 0.654011 0.653947 PCB148 132.95 -3.3566 0.6243 0.633607 0.633874 PCB149 135 -3.3367 0.6672 0.662458 0.66242 PCB150 134.21 -3.2887 0.5969 0.594407 0.594344 PCB151 134.81 -3.3196 0.6499 0.64041 0.640304 PCB152 135.38 -3.263 0.6062 0.596206 0.596062 PCB153 134.57 -3.399 0.7036 0.715851 0.715939 PCB154 133.65 -3.3544 0.6349 0.648158 0.648398 PCB155 133.03 -3.3014 0.5666 0.579074 0.579654 PCB156 135.88 -3.4662 0.8105 0.816018 0.816172 PCB157 135.48 -3.4879 0.8184 0.82861 0.828896 PCB158 135.19 -3.4161 0.7429 0.74822 0.748271 PCB159 134.09 -3.4692 0.7655 0.776124 0.77623 PCB160 136.25 -3.3722 0.7396 0.728765 0.72865 PCB161 133.2 -3.42 0.6968 0.704446 0.704542 PCB162 134.27 -3.4743 0.7737 0.78566 0.785797

Page 154: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

154

PCB163 135.23 -3.4027 0.7396 0.735476 0.735442 PCB164 134.89 -3.4161 0.7399 0.74102 0.741029 PCB165 133.36 -3.4053 0.692 0.693253 0.693269 PCB166 136.72 -3.3762 0.7572 0.744137 0.743928 PCB167 134.6 -3.4758 0.7814 0.795115 0.795307 PCB168 133.35 -3.4347 0.7068 0.72308 0.723245 PCB169 134.95 -3.5475 0.8625 0.876843 0.877402 PCB170 133.57 -3.5738 0.874 0.870618 0.870535 PCB171 133.12 -3.5207 0.8089 0.805512 0.805473 PCB172 132.24 -3.565 0.8278 0.829696 0.829721 PCB173 134.24 -3.4918 0.8152 0.802837 0.802667 PCB174 133.1 -3.5046 0.7965 0.788566 0.788485 PCB175 131.58 -3.513 0.7611 0.760675 0.760668 PCB176 132.74 -3.4468 0.7305 0.720814 0.720684 PCB177 133.06 -3.5114 0.8031 0.794561 0.79447 PCB178 131.64 -3.5024 0.7537 0.751275 0.751234 PCB179 132.62 -3.4369 0.7205 0.707809 0.707608 PCB180 132.66 -3.567 0.8362 0.841822 0.841904 PCB181 133.32 -3.496 0.7968 0.785051 0.784934 PCB182 131.66 -3.5238 0.7653 0.77364 0.77376 PCB183 132.19 -3.5115 0.772 0.773782 0.773803 PCB184 131.49 -3.4607 0.7016 0.705028 0.705119 PCB185 133.28 -3.4826 0.7848 0.770387 0.770252 PCB186 133.94 -3.424 0.7416 0.726298 0.726173 PCB187 132.13 -3.502 0.7654 0.762626 0.76259 PCB188 131.25 -3.4517 0.692 0.690063 0.689999 PCB189 132.78 -3.6479 0.9142 0.927439 0.927898 PCB190 133.66 -3.5688 0.874 0.867664 0.867511 PCB191 132 -3.5952 0.8447 0.854821 0.854973 PCB192 131.75 -3.5718 0.8269 0.82489 0.824864 PCB193 132.12 -3.5803 0.8397 0.842463 0.842502 PCB194 130.8 -3.7308 0.962 0.964698 0.964782 PCB195 131.52 -3.6711 0.9321 0.920924 0.920651 PCB196 130.24 -3.6759 0.8938 0.895111 0.895135 PCB197 129.97 -3.6147 0.8293 0.826041 0.825977 PCB198 130.07 -3.6621 0.8845 0.876917 0.876784 PCB199 131.14 -3.594 0.8494 0.832953 0.832718 PCB200 129.81 -3.6048 0.8197 0.812076 0.811905 PCB201 130.07 -3.6621 0.8875 0.876917 0.876731 PCB202 129.77 -3.5937 0.8089 0.799764 0.79954 PCB203 130.59 -3.661 0.8938 0.888273 0.888176 PCB204 129.8 -3.6087 0.8217 0.815825 0.815695 PCB205 130.5 -3.743 0.9678 0.969974 0.970041 PCB206 128.67 -3.8212 1.0103 1.006027 1.005892 PCB207 128.32 -3.7579 0.9423 0.93289 0.932664 PCB208 128.24 -3.747 0.932 0.919822 0.919526 PCB209 126.7 -3.8963 1.0496 1.035549 1.035067

Din analiza regresiei se poate observa că valorile prezise aproximează foarte bine valorile observate aşa incât modelul studiat e stabil.

ANOVA df SS MS F Significance F

Page 155: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Regression 1 6.730776811 6.730777 71183.87637 1.2444E-264Residual 207 0.019572842 9.46E-05 Total 208 6.750349654

Coefficients Standard Error t Stat P-value Lower 95% Intercept 0.001676011 0.002337583 0.716985 0.474191692 -0.002932507Y 0.997196853 0.003737576 266.8031 1.2444E-264 0.989828262

Testarea metodei de calcul a intervalului de încredere (confidenţă) pentru variabile distribuite binomial Definiţie: un şir estimat de valori care cu o anumită probabilitate (e.g. 95%, 99%, 99.9%) includ un parametru necunoscut al populaţiei, intervalul estimat fiind calculat pe un anumit set de date. Dacă din populaţie se extrag în mod repetat, eşantioane independente şi se calculează câte un interval de confidenţă pentru fiecare eşantion, atunci un anumit procent al intervalelor va conţine parametrul necunoscut al populaţiei. Cel mai frenvent intervalele de confidenţă sunt calculate pentru un procent de 95%. Generic acest procent se notează cu α şi se mai numeşte şi prag de semnificaţie. Variabilele cantitative şi calitative care rezultă din observaţii urmează anumite distribuţii teoretice. Varibilele continue urmează de regulă, distribuţia normală (Laplace-Gauss) în timp ce varibilelele discrete urmează distribuţia binomială. Distribuţia normală a fost introdusă de De Moivre în contextul aproximării unei distribuţii binomiale cu un n (volum al eşantionului) mare. Mai târziu rezultatele au fost extinse de Laplace în teorema care acum este cunoscută sub numele de Teorema lui De Moivre-Laplace. Estimarea intervalelor de confidenţă pentru proporţii utilizând o distribuţie normală a fost şi este şi astăzi frecvent utilizată în simulare, datorită faptului că, în practică era mai uşor de aplicat distribuţia normală decât cea binomială de exemplu (calcul mai puţin laborios). Dacă pe un eşantion de talie n considerăm variabila X ce urmează o distribuţie binomialǎ atunci probabilitatea de a obţine valoarea Y(0 ≤ Y ≤ n) este dată de formula:

( ) ( )( )

n

YnY

B nXnX

!Yn!Y!nY,X,nP

−−⋅

−=

Media, respectiv variaţia distributiei binomiale sunt: ( )

( ) ( )M n,X X

X n XVar n,X

n

=

⋅ −=

Probabilitatea de a obţine variabila normală Y care are media M(n, X) şi variaţia Var(n,X) este dată de formula:

( )( )

( )( )( )X,nVar2

X,nMY

N

2

eX,nVar2

1Y,X,nP−

−⋅

π=

Întrucât noua variabilă normala depinde doar de medie şi dispersie, înlocuind media şi dispersia din formula distribuţiei binomiale se obţine următoarea formulă:

( ) ( )( )

( )( ) nXnX2

XY2

N

2

enXnX2

XYY,X,nP −−−

⋅−

−=

Eroarea de aproximare a distribuţiei binomiale a variabilei Y printr-o distribuţie normală este dată astfel de formula:

( ) ( ) ( )Y,X,nPY,X,nPY,X,nErr NB −= Având în vedere că probabilitatea lui Y descreşte odată cu creşterea dispersiei lui X, funcţia de eroare poate fi discretizată prin:

( ) ( ) ( ) ( )( )⎩

⎨⎧

<>−

= n1Y,X,nP, 0

n1Y,X,nP ,Y,X,nPY,X,nPY,X,nErr

B

BNBc

O serie de metode au fost propuse pentru evaluarea intervalelor de confidenţă [Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI. Binomial Distribution Sample Confidence Intervals Estimation

155

Page 156: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

for Positive and Negative Likelihood Ratio Medical Key Parameters. Annual Symposium on Biomedical and Health Informatics, American Informatics Medical Association, Bethseda, Special Issue: from Foundations to Applications to Policy (Proc. CD, October 22-26, Washington D.C., USA), 2005:66-70, && Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI. Optimized Confidence Intervals for Binomial Distributed Samples. International Journal of Pure and Applied Mathematics 2007;40(3)]:

Metoda Formula AvgOEA

∑−

= −+

ε−α

An

AX

Mn,X

A21n100

( )∑−

= −−εAn

AX

2Mn,X

A2nAvgOEAStDOEA

( )∑−

= −+α−εAn

AX

2Mn,X

A21n100SiDOEA

AvADAA∑−

= −

−εAn

AX

Mn,X

A2n

AvgOEA

AvADSA ∑−

= −+

α−εAn

AX

Mn,X

A21n

100

( )8

An

AX

8Mn,X

A21n100

∑−

= −+α−εS8DOEA

unde: n = talia eşantionului; M = metoda utilizatǎ pentru calculul intervalului de confidenţă; εM = eroarea experimentalǎ obţinutǎ în urma aplicǎrii metodei investigate; α = pragul de semnificaţie impus (α = 5%); A = variabila binarǎ (cu valorile 0 sau 1); Eroarea experimentalǎ pentru distribuţia binomialǎ corespunzǎtoare unui eşantion de volum n este datǎ de formula:

( )( )

( )( )

( )

( )∑

∑∑−

=

>>

+

= 1n

1Y

XY,X,nCIXY,X,nCI

Y,X,ndBin

Y,X,ndBinY,X,ndBinY,X,nErr

ML

ML

unde dBin(X,Y) este probabilitatea distribuţiei binomiale, este limita inferioarǎ a intervalului de încredere determiat prin metoda M, iar este limita inferioarǎ a intervalului de încredere determiat prin metoda M.

MLCI

MUCI

În determinarea intervalului de confidenţǎ s-a generat un eşantion cu distribuţie binomialǎ. În acest sens s-au implementat în PHP funcţii care genereazǎ coeficientul binomial şi distribuţia de probabilitate. Totodatǎ s-au evaluat şi timpii de execuţie necesari pentru calculul eşantionului ce urmeazǎ o distribuiţie binomialǎ observându-se cǎ optimizarea parametrului X/n în loc de X şi a lui (n-X)/n în loc de (n-X) duce la creşterea performanţei. Întervalul de confidenţă în cazul distribuţiei binomiale pentru o singură variabilă este dat de formula

, unde CIL(X) şi CIU(X) sunt limita inferioară, respective superioară a intervalului de confidenţă. Au fost calculate şi evaluate o serie de metode diferite utilizate şi raportate în literatura de specialitate pentru calcularea intervalului de confidenţă.

( ) ( ) ( )( XCI,XCIXCI ULI = )

Următorul tabel conţine metodele supuse evaluării:

156

Page 157: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Metoda Formula intervalului de încredere ( )( ) cnXnXzX 5.0 +−± ,

Wald unde c=0(corectia standard); c=0.5 (corectia la continuitate)

( )( )2

2122

znnX1X4zz2zXn

+−+±+

Corecţia la continuitate: ( )( ) ( )( )( )

2

2122

zn21n1X1X4n1zz2zXn

++−−+−−+

⋅Wilson

( )( ) ( )( )( )2

2122

zn21n1X1X4n1zz2zXn

++−−+−++

( )n2znXarcsinsin2 ± sau 0 (X=0) sau 1 (X=1) Corecţia la continuitate:

( ) ( )( )n2z43n5.0Xarcsinsin 2 ±+± ArcSin ( )( )n2zn5.0Xarcsinsin 2 ±±

( )( )5.0n2z43n5.083Xarcsinsin 2 +±+±+

( ) ( )( ) ( )( )2

2122222

znzn2zXnzn2zXz2zXn

+++⋅−++±+

⋅Agresti-

Coull

( )⎥⎥⎥

⎢⎢⎢

⎟⎟

⎜⎜

⎟⎟

⎜⎜

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛−

±−

+−⋅

−121

XnXnzexp

XnX11n pentru 0<X<n

Logit Corecţia la continuitate:

( )( )( )( )

⎥⎥⎥

⎢⎢⎢

⎟⎟

⎜⎜

⎟⎟

⎜⎜

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛+⋅−+⋅

++±

+⋅−+⋅

+−⋅

−121

5.0Xnn5.0Xnn2n1nzexp

5.0Xnn5.0Xn11n

Metodele lui Clopper-

Pearson, Jeffreys,

Blyth-Still-Casella de generare a

unei distribuţii binomiale

Pentru 0<X<n se defineşte funcţia:

( ) ( ) (( )1

121

221 cX2 ,cXn2 ,a1invCFD

cXcXn1na,c,cBinI

⎟⎟⎠

⎞⎜⎜⎝

⎛++−−

++−

+⋅=

( )

)

( ) ( )( )

1

12

2

1

21

cXn2 ,cX2 ,a1invCFDcX

cXn1na,c,cBinS

⎟⎟⎟

⎜⎜⎜

+−+−⋅

⋅++−

+⋅=

Clopper-Pearson: BinI(0,1, α/2), BinS(0,1, α/2) sau 0 (X=0), 1 (X=n) Jeffreys: BinI(0.5,0.5, α/2), BinS(0.5,0.5, α/2) BayesianF: BinI(1,1, α/2), BinS(1,1, α/2) sau 0 (X=0), 1 (X=n) Bayesian: BinI(1,1, α/2) sau 0 (X=0), α1/(n+1) (X=0), 1 (X=n) Blyth-Still-Casella: BinI(0,1, α1) sau 0 (X=0), BinS(0,1, α2) sau 1 (X=n) unde α1+ α2= α şi BinS(0,1, α2)- BinI(0,1, α1)=min.

De exemplu, pentru n = 10, din reprezentarile grafice de mai jos, se pot observa limitele inferioare, respectiv superioare ale intervalelor de încredere obţinute prin diferite metode de determinare a lor:

157

Page 158: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Metoda Wald

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5 6 7 8 9 10

Limita inferioaraLimita superioara

Metoda Wald_C

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5 6 7 8 9 10

Limita inferioaraLimita superioara

Metoda Wilson

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5 6 7 8 9 10

Limita inferioaraLimita superioara

Metoda Wilson_C

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5 6 7 8 9 10

Limita inferioaraLimita superioara

158

Page 159: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Metoda ArcS

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5 6 7 8 9 10

Limita inferioaraLimita superioara

Metoda ArcS1

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5 6 7 8 9 10

Limita inferioaraLimita superioara

Metoda ArcS2

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5 6 7 8 9 10

Limita inferioaraLimita superioara

Metoda ArcS3

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5 6 7 8 9 10

Limita inferioaraLimita superioara

159

Page 160: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Pentru eşantione a cǎror mǎrime este de la 7 la 1000, s-au aplicat 12 metode de evaluare a intervalului de încredere. Tabelul de mai jos redǎ metodele folosite pentru determinarea intervalului de încredere şi notaţiile folosite:

Metodă Notaţie Wald Wald Wald cc (corectat la continuitate) WaldC Agresti-Coull AC Agresti-coull cc ACC1 Agresti-Coull cc ACC2 Wilson Wilson Wilson cc WilsonC ArcSine ArcS ArcSine cc ArcSc1 Arcsine cc ArcSc2 Arcsine cc ArcSc3 Logit Logit Logit cc LogitC Bayes (Fisher) BetaC11 Cloppper-Pearson BetaC01 Jeffreys BetaCJ0 Beta cc Beta C00 Beta cc Beta C10 Beta cc Beta CJ1 Beta cc Beta CJ2 OptB Optimized

Tabelul de mai jos conţine rezultatele evaluării metodelor de calcul al intervalului de încredere, valori ce au fost calculate pentru n = 20:

Metoda AvgOE(0) AvgOE(1) StDOE(0) StDOE(1) SiDOE(0) SiDOE(1)Wald 11.96 10.82 9.35 9.57 11.46 11.01Wald_C 9.04 8.18 9.82 9.7 10.38 9.99AC 3.4 3.07 1.01 1.4 1.87 2.36ACC1 4.04 3.66 1.69 2.01 1.9 2.38ACC2 4.42 4 1.66 2.06 1.72 2.24Wilson 4.25 3.84 1.66 2.03 1.78 2.29Wilson_C 2.42 2.19 1.11 1.28 2.79 3.07ArcS 10.07 9.11 10.07 10.02 11.03 10.61ArcSc1 3.7 3.35 1.49 1.8 1.94 2.4ArcSc2 2.87 2.59 1.37 1.56 2.51 2.84ArcSc3 2.6 2.35 1.23 1.4 2.68 2.98Logit 3.81 3.44 1.21 1.62 1.67 2.22Logit_C 4.5 4.07 1.52 1.98 1.56 2.14BetaC00 5.02 4.54 2.65 2.94 2.58 2.9BetaC10 9.66 8.74 2.45 3.72 5.23 5.21BetaC01 3.17 2.87 1.43 1.66 2.29 2.67BetaC11 4.66 4.21 1.57 2.05 1.57 2.14BetaCJ0 4.66 4.22 1.49 1.99 1.49 2.09BetaCJ1 4.32 3.91 1.41 1.87 1.53 2.12BetaCJ2 4.95 4.48 1.38 1.98 1.34 2BetaCJA 4.32 3.91 1.41 1.87 1.53 2.12OptB 4.95 4.48 1.38 1.98 1.34 2

160

Page 161: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Metoda AvADA(0) AvADA(1) AvADS(0) AvADS(1) S8DOE(0) S8DOE(1)Wald 6.83 6.83 7.05 6.86 23.47 23.18Wald_C 6.71 6.38 4.97 4.97 23.3 23.01AC 0.93 1.21 1.59 1.92 2.66 3.75ACC1 1.32 1.65 1.52 1.85 3.03 3.8ACC2 1.33 1.58 1.47 1.81 2.56 3.74Wilson 1.27 1.53 1.6 1.92 2.3 3.73Wilson_C 1 1.11 2.57 2.8 3.35 3.88ArcS 6.8 6.7 5.61 5.55 24.47 24.17ArcSc1 1.16 1.5 1.57 1.89 3.03 3.8ArcSc2 1.21 1.39 2.12 2.4 3.67 4.01ArcSc3 1.12 1.26 2.39 2.64 3.5 3.93Logit 0.95 1.31 1.41 1.75 2.61 3.75Logit_C 1.16 1.4 1.39 1.73 2.1 3.73BetaC00 2.21 2.47 2.09 2.37 3.93 4.15BetaC10 1.95 2.95 4.8 4.82 6.43 6.36BetaC01 1.19 1.4 2.04 2.32 3.06 3.8BetaC11 1.36 1.55 1.42 1.76 2.09 3.73BetaCJ0 1.24 1.52 1.23 1.58 2.58 3.74BetaCJ1 1.09 1.43 1.27 1.62 2.58 3.74BetaCJ2 1.23 1.49 1.18 1.54 1.93 3.72BetaCJA 1.09 1.43 1.27 1.62 2.58 3.74OptB 1.23 1.49 1.18 1.54 1.93 3.72

Valorile obţinute pentru n=20, pentru metodele menţionate sunt redate şi în graficele de mai jos (la toate metodele se aplică principiul "0 the best"):

Metoda AvgOE(0)

11.96

9.04

3.4 4.04 4.252.42

10.07

3.7 2.872.63.81

5.02

9.66

3.174.66 4.954.324.95

4.66 4.324.54.42

02468

101214

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_C

ArcS

ArcSc1

ArcSc2

ArcSc3Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJA

OptB

Metoda AvgOE(1)

10.82

8.18

3.66 4 3.842.19

9.11

3.352.59

4.54

8.74

2.874.21 4.48 4.48

3.44 4.073.072.35

3.914.22 3.91

0

2

4

6

8

10

12

Wald

Wald_C ACACC1

ACC2Wils

on

Wilson_C

ArcS

ArcSc1

ArcSc2

ArcSc3Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJA

OptB

161

Page 162: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Metoda StDOE(0)

9.359.82

1.011.69 1.661.11

10.07

1.492.65

1.57 1.41 1.381.37 1.211.52 1.43 1.49 1.411.381.231.662.45

0

2

4

6

8

10

12

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_C

ArcS

ArcSc1

ArcSc2

ArcSc3Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJAOptB

Metoda StDOE(1)

9.579.7

1.4 2.01 2.031.28

10.02

1.8 1.561.4 1.621.982.94

3.72

1.66 1.99 1.98 1.981.871.872.052.06

0

2

4

6

8

10

12

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_CArcS

ArcSc1

ArcSc2

ArcSc3Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJAOptB

Metoda SiDOE(0)

10.38

1.87 1.722.79

11.03

1.94 2.58

5.23

2.291.57 1.53 1.531.671.56

11.46

1.9 1.78 2.512.68

1.341.341.49

02468

101214

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_C

ArcS

ArcSc1

ArcSc2

ArcSc3Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJAOptB

162

Page 163: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Metoda SiDOE(1)

11.019.99

2.36 2.293.07

10.61

2.4 2.982.14 2.9

5.21

2.672.14 2.122.242.38 22 2.122.092.222.84

0

2

4

6

8

10

12

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_C

ArcS

ArcSc1

ArcSc2

ArcSc3Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJAOptB

Metoda AvADA(0)

6.83

0.931.32 1

6.8

1.16 1.162.211.95

1.191.36 1.091.23 1.23

6.71

1.091.331.27 1.121.21

1.240.95

012345678

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_C

ArcS

ArcSc1

ArcSc2

ArcSc3Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJAOptB

Metoda AvADA(0)

6.836.38

1.211.651.581.531.11

6.7

1.5 1.4

2.95

1.4 1.55 1.49 1.491.431.431.52

2.471.311.261.39

012345678

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_CArcS

ArcSc1

ArcSc2

ArcSc3Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJA

OptB

163

Page 164: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Metoda AvADS(0)

7.05

4.97

1.59 1.62.57

5.61

2.391.41

2.09

4.8

2.041.42 1.27 1.271.521.47 1.572.12

1.181.181.231.39

012345678

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_CArcS

ArcSc1

ArcSc2

ArcSc3Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJA

OptB

Metoda AvADS(1)

6.86

4.97

1.92 1.922.8

5.55

1.892.64

1.751.732.37

4.82

2.321.76 1.62 1.62

2.41.541.541.581.851.81

012345678

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_CArcS

ArcSc1

ArcSc2

ArcSc3Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJA

OptB

Metoda S8DOE(0)

23.47

2.3 3.35

24.47

2.61 3.936.43

3.06 2.58

23.3

3.53.033.67 2.1 2.582.092.581.931.932.66

3.032.56

0

5

10

15

20

25

30

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_C

ArcS

ArcSc1

ArcSc2

ArcSc3

Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJA

OptB

Metoda S8DOE(1)

3.8 3.88

24.17

4.016.36

3.8 3.72 3.72

23.1823.01

3.933.83.733.743.75 3.733.75 3.743.743.743.734.15

0

5

10

15

20

25

30

Wald

Wald_C ACACC1

ACC2

Wilson

Wilson_C

ArcS

ArcSc1

ArcSc2

ArcSc3

Logit

Logit_C

BetaC00

BetaC10

BetaC01

BetaC11

BetaCJ0

BetaCJ1

BetaCJ2

BetaCJA

OptB

164

Page 165: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Planificarea activităţilor experimentale urmează schema: ÷ Selectare activitate biologică de interes (chimie medicală); ÷ Selectare clasă de compuşi cu potenţă biologică (biochimie); ÷ Design structură la nivel topologic (chimie matematică); ÷ Design structură la nivel geometric (chimie cuantică); ÷ Generare familie de descriptori moleculari (chimie combinatorială); ÷ Analiză structură-activitate (virtual screening); ÷ Modelare matematică şi validare statistică (statistică aplicată); ÷ Selecţie, mutaţie şi încrucişare modele (informatică aplicată); ÷ Validare potenţă biologică (chimie medicală). Experimente demonstrative au fost derulate pentru punctul de topire (MP) al aminoacizilor (fiind incluşi în analiză 31 de aminoacizi, dintre care 23 au format setul de învăţare) când s-a reuşit îmbunătăţirea capacităţii estimative de la o determinare de 63% (folosind un model structură-activitate cu o variabilă independentă) 99% (folosind un model structură-activitate cu patru variabile independente). 2008A7. Proiectarea şi crearea bazelor de date pentru managementul cercetării şi a rezultatelor

cercetării

Baza de date şi aplicaţiile de gestiune a bazei de date au fost construite având ca suport arhitectura de calcul i386 (Jäntschi, 2003-I386), platforma de operare FreeBSD (Jäntschi, 2003-FBSD), serverul de baze de date MySQL (Jäntschi & Avram, 2002-IBLD) şi limbajul de scriptare şi interpretare PHP (Ştefu & others, 2002-FSD2), acesta oferind capabilităţi sporite de lucru eficient cu fişiere de date (Jäntschi & Zaharieva-Stoyanova, 2003-UFS). Combinaţia PHP + MySQL şi-a dovedit eficienţa, ea fiind anterior probată într-o serie de studii (Jäntschi, 2003-SQL1; Bolboacă & others, 2003; Jäntschi & others, 2003-SQLA; Bolboacă & others, 2003-TW2). Problema relaţionării datelor în baza de date a fost realizată beneficiind de experienţa acumulată din studii anterioare (Naşcu & Jäntschi, 2004-MCE1; Naşcu & Jäntschi, 2004-MCE2; Gligor & Jäntschi, 2005-PSEA). Pe parcursul derulării activităţii s-a ivit oportunitatea valorificării noii experienţe dobândite într-o publicaţie (Bălan & others, 2008-SRDI). Baza de date nou realizată (denumită MDFV) are următoarea structură (repetitivă pentru fiecare set de compuşi supus investigaţiilor şi exemplificată pentru setul de 31 de aminoacizi): ÷ Tabela 31aa_data (3 câmpuri, 31 înregistrări): Id (cheie primară), Mol (abreviere aminoacid),

Hin (câmp binar conţinând designul geometric al structurii obţinut din optimizarea geometrică a conformaţiei moleculare);

÷ Tabela 31aa_prop (31 câmpuri, 1 înregistrare): Property (abreviere proprietate), Aib..Val (câmpuri numerice conţinând valoarea proprietăţii măsurate pentru fiecare compus);

÷ Tabela 31aa_mdfv (1+31 câmpuri, 2387280 înregistrări): valorile descriptorilor moleculari indexate după un câmp cheie primară;

÷ Tabela 31aa__MP (4+31 câmpuri, 7617 înregistrări - pentru MP) - conţinând modelele structură-activitate cu o variabilă independentă pentru proprietatea MP obţinute în urma selecţiei pe baza concordanţei folosind algoritmul Goodman-Kruskal;

÷ Tabela 31aa_qsar (6 câmpuri, număr variabil de înregistrări - 30 pentru MP) - conţinând modelele structură-activitate mai mult de o variabilă independentă pentru setul 31aa obţinute în urma încrucişării folosind un algoritm genetic clasic.

165

Page 166: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

2008A8. Completarea bazelor de date cu cunoştinţele provenite din documentare şi actualizare documentare (O1/2007) şi respectiv managementul cunoştinţelor (O2/2007)

Completarea bazelor de date cu cunoştinţele provenite din documentare şi Actualizare documentare şi respectiv Managementul cunoştinţelor a avut ca rezultat: ÷ Actualizarea documentării cu privire la stadiul cunoaşterii a dus la includerea în evidenţe a unui

număr de 321 de baze de date relevante pentru caracterizarea structurii şi proprietăţilor chimice ale compuşilor de interes medical, aşa cum s-au enumerat mai sus în secţiunea "Management cunoştinţe. Identificarea metodelor de analiză. Chimie Medicală".

÷ Baza de date a fost completată cu cunoştinţe provenite din Managementul cunoştinţelor prin includerea în baza de programe a unui algoritm genetic clasic pentru încrucişarea variabilelor independente aşa cum în lucrarea [Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Mircea V. DIUDEA, Chromatographic Retention Times of Polychlorinated Biphenyls: from Structural Information to Property Characterization, International Journal of Molecular Sciences, 8(11), p. 1125-1157, 2007. CAS-AN 2008:423655; CCC&WOS: 000251238700005] a fost prima dată comunicată metoda. Adaptarea acesteia face ca pentru o funcţie obiectiv de estimare a proprietăţii măsurate folosind 2 genotipuri (în cazul general putând fi un număr oarecare fixat de genotipuri, r), ecuaţia de regresie este de forma: Ŷ = a0 + a1·Fenotip1 + a2·Fenotip2, (în general: Ŷ = a0 + Σ1≤i≤rai·Fenotipi), unde: Ŷ este estimatorul proprietăţii măsurate; a0..a2 sunt coeficienţii care rezultă din minimizarea pătratelor diferenţelor între valorile măsurate Y şi cele estimate prin intermediul lui Ŷ pentru setul de compuşi; Fenotip1=Fenotip(Genotip1) şi Fenotip2=Fenotip(Genotip2) sunt fenotipurile (şirurile de valori ale descriptorilor moleculari obţinuţi prin operaţiile prescrise de genotipurile Genotip1=d1p1I1O1f1M1L1 şi Genotip2=d2p2I2O2f2M2L2 pentru compuşi; Tăria (scorul) unei perechi de genotipuri (sau mai multe, pentru regresia multivariată) se exprimă prin coeficientul de determinare asociat perechii de fenotipuri: r2(Y,a0+a1·Fenotip1+a2·Fenotip2).

2008A9. Participări la manifestări ştiinţifice (diseminare - conferinţe, congrese, workshop-uri) şi

dobândirea de competenţe complementare (stagii de documentare/cercetare în străinătate)

Fourth International Conference of Applied Mathematics and Computing ÷ Organizator: Technical University of Plovdiv (TUP), Plovdiv, BG ÷ Tip: conferinţă internaţională ÷ Perioadă: 11-19 August 2008; ÷ Deplasare: aferentă Obiectiv 3, Activitate 9; ÷ Participanţi: Lorentz JÄNTSCHI, Carmen E. STOENOIU; ÷ Secţiuni ştiinţifice:

o Combinatorics; o Graph theory; o ODE, PDE, difference equations; o Functional equations; o Integral and differential inequalities and inclusions; o Differential games; o Control theory; o Dynamical systems; o Probability, statistics and stochastic processes; o Statistical mechanics; o Quantum theory; o Relativity and gravitational theory; o Integral and differential operators; o Fractional calculus; o Special functions;

166

Page 167: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

o Generalized functions; o Operator research and algebraic analysis; o Fluid mechanics; o Mechanics of particles and systems; o Mathematical programming and optimization; o Approximation theory; o Numerical algebraic or transcendental equations; o Numerical analysis for ordinary differential equations; o Numerical analysis for partial differential equations; o Numerical methods in complex analysis; o Numerical methods in linear algebra; o Numerical simulation; o Acceleration of convergence; o Interval arithmetic; o Information systems; o Software engineering; o Software technology; o System theory; o Theory of data; o Programming and image processing; o Pattern recognition; o Parallel and distributed algorithms; o Communication systems; o Computer aided design; o Computer arithmetic and numerical analysis; o Computer aspects of numerical algorithms; o Computer networks; o Concurrent and parallel computations; o Data base; o Discrete mathematics in relation to computer science; o Manufacturing systems; o Applications in mechanics, physics, chemistry, biology, technology, economics

and industrial problems. 17th European Symposium on Quantitative Structure-Activity Relationships & Omics Technologies and Systems Biology

÷ Organizator: The Cheminformatics and QSAR Society (CI-QSAR), Uppsala, SE ÷ Tip: simpozion ÷ Perioadă: 20-27 Septembrie 2008; ÷ Deplasare: aferentă Obiectiv 3, Activitate 9; ÷ Participanţi: Lorentz JÄNTSCHI; ÷ Prezentări:

o Session 1: QSAR in OMICS and Systems Biology 2008:09:22:09.00: Top-Down Systems Biology and Integrative

Approaches to Superorganism Medicine 2008:09:22:10.00: Systems chemical biological studies on enzymatic

metabolic networks and inhibitors 2008:09:22:11.00: Potentialities of PLSand OPLS in 'OMICS' cancer

diagnostics and elucidation of antiumour drugs mechanism of action 2008:09:22:11.20: Building Blocks for Metabolic simulation: Automated

elucidation of metabolite structures 2008:09:22:11.40: Theoretical structural metabolomics 2008:09:22:12.00: QSAR: dead or alive?

167

Page 168: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

o Session 2: QSAR 2008:09:22:14.00: Beyond QSAR 2008:09:22:14.50: Linking chemical and biological similarity of small

molecules 2008:09:22:15.10: A Novel Conservative design for fast followers -

Focused Hierarchical design of a peptide library targeted at M. tuberculosis Ribonucleotid reductase

2008:09:22:16.00: A QSAR study on indole-based PPAR-y agonists in respect to receptor binding and gene transactivation data

2008:09:22:16.20: QSAR modelling of small datasets 2008:09:22:16.40: QSAR for Estimation of human volume of distribution 2008:09:22:17.00: Development of Fast, Interpretable 2D pharmacophore

models for predicting hERG and NaV1.5 Cardiac Ion Channel safety liabilities using TRUST fingerprints

2008:09:22:17.20: Global or local QSAR: is there a way out? o Session 3: QSAR and Natural Product Medicine

2008:09:23:09.00: PLS-Trees and QSAR 2008:09:23:09.45: Metabolomics in nutritional studies 2008:09:23:12.00: SIRC/TCM: a Database of Traditional Chinese

Medicine o Session 4: Molecular Modeling and Chemical Properties

2008:09:23:14.00: Does pKa predictions matter anymore? 2008:09:23:14.50: Cytotoxicity and 3D-QSAR Analysis of Lmaellarind

against human hormone dependent breast cancer (T47D) and Humane hormone independent breast cancer (MDA-MB231)

2008:09:23:15.10: GABAa and GABAc Receptors: Molecular modelling and QSAR analysis of selective ligands

2008:09:23:15.30: Fast and accurate method for flexible ligand superposition and shape-based screening

2008:09:23:16.20: Predicted 3D structures for Coupled Receptors G-Protein and ligand-GPCR complexes for agonists, antagonists, and inverse agonists

2008:09:23:17.00: Design of New Chemical Entities as selective COX-2 inhibitors using Structure optimisation by QSAR

2008:09:23:17.20: A novel 3D QSAR metod exploiting protein flexibility to kinase inhibition

2008:09:23:17.40: An automated metod to interface ligand- and structure-based drug design

o Session 5: Combinatorial Chemistry and Virtual Screening 2008:09:24:09.00: From Molecular Interaction Fields to Enzyme

Inhibitors and Biochemical Networks 2008:09:24:09.45 : Minimizing Benchmark Dataset Bias in Ligand Based

viritual screening by maximum unbiased validation (MUV) Datasets 2008:09:24:10.05: Data mining and comperative analysis of

chemosensitivity and gene expression profiles for human tumor cell lines o Session 6: QSAR in Toxicology and Environmental Research

2008:09:24:10.50: Human and mammalian toxic equivalency factors for dioxins and dioxin-like compounds: The who 2005 re-evaluation

2008:09:24:11.35: A combined use of in vitro screening and cheminformatics approaches improves the accuracy of in vivo toxicity prediction for environmental chemicals

2008:09:24:12.05: Prediction of cytochrome P450 inhibition by different

168

Page 169: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

approaches of QSAR modeling o Session 7: Case Studies in QSAR

2008:09:25:09.00: Understanding QSAR: Do we always use the correct structural models to establish affinity correlation?

2008:09:25:09.50: Computer-aided drug design for the beta2-adrenergic receptor

2008:09:25:12.00: QSAR investigation of novel compounds targeting the serotonin receptors

2008:09:25:12.20: Docking and viritual screening for virus targets exploiting distributed grid technology

o Session 8: QSAR in Chemical Risk Assessment 2008:09:25:14.00: Advances in Toxico-Cheminformatics: Supporting a

New Paradigm for Predictive Toxicology 2008:09:25:14.45: Use of structural alerts to screen EINECS for

substances of very high concern 2008:09:25:15.05: Predicting Toxicity from Non-Test Data: Utilising in

silico and in chemico information for Risk assessment 2008:09:25:16.00: Computational Ecotoxicology to predict

Biomagnification of contaminants 2008:09:25:16.20: Similarity based assessment of Model applicability

domain and quantitative evaluation of reliability of the prediction 2008:09:25:16.40: Using all the data in comprehensive risk assessment of

the mutagenetic potential of drugs 2008:09:25:17.00: Human Monitoring of Phtalates and Chemical Risk

Assessment o Session 9: Emerging Technologies

2008:09:26:09.00: Complex systems, QSAR, and control of stem cell fate 2008:09:26:09.50: Proteochemometrics 2008:09:26:10.10: From Mathematical chemistry to quantum and

medicinal chemistry through genetic algorithms 2008:09:26:10.50 GAUDI navigator, a new data mining platform

2009A1. Crearea aplicaţiilor pentru interogarea bazei de date pentru managementul cercetării Problematica structurării eficiente a informaţiei în baza de date astfel încât să se poată beneficia de facilităţile relaţionale de interogare a fost analizată în detaliu în studii anterioare (Jäntschi & Bolboacă, 2006-DDI; Jäntschi & others, 2006-RPRD) iar pe parcursul desfăşurării activităţii a fost finalizat un nou studiu în acest subiect (Bălan & others, 2008-SRMS). Structura bazei de date MDFV nou create este următoarea:

MDFV _mdfv

31aa_ data mdfv prop qsar _MP ...

CQd_

... ... ... ... ... estro_

logBBB_

triph_

taxoids_

sulfon18_

sulfon_

...

169

Page 170: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Baza de date MDFV este alcătuită dintr-un tabel (_mdfv) şi o serie de constelaţii (grupuri de tabele). Tabela `_mdfv` este tabela template (şablon) cuprinzând codul şi numele fiecărui descriptor molecular de structură membru al familiei MDFV. Fiecare constelaţie de tabele a bazei de date MDFV are un număr de 4 tabele care se creează la fiecare set de molecule supus investigaţiei: ÷ Tabela `data` conţine codul, denumirea şi structura (în format HyperChem) moleculelor setului

investigat; ÷ Tabela `prop` conţine valorile măsurate ale fiecărei activităţi observate pentru fiecare moleculă

a setului; ÷ Tabela `mdfv` conţine valorile calculate ale descriptorilor familiei MDFV pentru fiecare

moleculă a setului inclus în studiu; ÷ Tabela `qsar` conţine ecuaţiile structură-activitate obţinute în urma analizei de regresie pentru

toate activităţile investigate aferente setului supus studiului; Fiecare constelaţie de tabele a bazei de date MDFV mai are şi un număr variabil de tabele (numărul variabil de tabele este egal cu numărul de înregistrări în tabela `prop` aferente numărului de activităţi experimentale pentru care s-a rulat studiul structură-activitate; denumirile acestor tabele au ca sufix denumirile activităţilor din tabela `prop`. S-a realizat aplicaţia care interoghează baza de date şi transferă programului de navigare pe Internet lista seturilor de molecule existente în baza de date MDFV; pentru aceasta se foloseşte adresa:

http://l.academicdirect.org/Chemistry/SARs/MDFV/ când se obţine rezultatul:

Fiecare set de molecule din lista de mai sus poate avea stocate în baza de date 1 sau mai multe activităţi; aplicaţia realizată permite selectarea proprietăţii dorite din lista celor disponibile; un exemplu de navigare în lista activităţilor este dat de adresa:

http://l.academicdirect.org/Chemistry/SARs/MDFV/?set=nitro când se obţine rezultatul:

S-a realizat aplicaţia file_pdb_get.php care interoghează baza de date şi transformă informaţia de structură moleculară din baza de date stocată în format HyperChem în informaţie stocată în format

170

Page 171: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Bookhaven pe care o transferă programului de navigare pe Internet; structura moleculară se vizualizează folosind programul de navigare pe Internet (Internet Explorer în Windows) atunci când are instalată o librărie auxiliară (MDL Chime v. 2.6 SP6); prin integrarea suportului server şi client aplicaţia realizată permite vizualizarea 3D a structurii moleculare folosind navigatorul pentru Internet; un exemplu de vizualizare 3D a structurii moleculare se află la adresa:

http://l.academicdirect.org/Chemistry/SARs/MDFV/?set=nitro&pdb=001_7416 când se obţine rezultatul:

S-a realizat aplicaţia care interoghează baza de date şi transferă programului de navigare pe Internet informaţia de structură moleculară din baza de date stocată în format HyperChem; un exemplu de vizualizare text a structurii moleculare se află la adresa:

http://l.academicdirect.org/Chemistry/SARs/MDFV/?set=nito&get=001_7416 când se obţine rezultatul:

Odată generate modelele structură-activitate cu ajutorul programelor dezvoltate, trebuie să fie posibilă interogarea bazei de date (a tabelei de set cu terminaţia _qsar) care să producă lista modelelor QSAR identificate; în acest sens s-a realizat aplicaţia care să permită această operaţie; un exemplu în acest sens este vizualizarea relaţiilor structură-activitate pentru setul nitro şi activitatea logLD50, dată mai jos:

http://l.academicdirect.org/Chemistry/SARs/MDFV/?set=31aa&property=logLD50 când se obţine rezultatul: mol var r2 eq research

y=-2.51986728389499E-001+GA5aCCDL* 5.21558657163717E+000 39 1 0.423803154745641 Link

171

Page 172: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

y= 6.74698673621303E+000+GA5aCCDL*-1.70258853068498E-001+TAtIFfDL* 3.13582898594199E-001

39 2 0.530654376498168 Link

y= 6.42608063592238E+000+GA5aCCDL*-1.90355431095039E-001+TAxAIfDR*-3.82520782963772E+000

39 2 0.574491953815928 Link

y= 6.76467699947407E+000+GA5aCCDL*-2.68250910837082E-001+GMLiAPdI*-3.22593469107696E+000

39 2 0.582198432091616 Link

y= 9.47850382461388E+000+TAtIFfDL* 5.14091975972415E-001+GAsaCcdR*-1.10567575078389E+000

39 2 0.58815416668693 Link

y= 6.26163608400332E+000+TAsFPIDL*-8.42045542648347E-001+GAsaCcdR*-1.30802112973012E+000

39 2 0.600267821983716 Link

y= 6.69552416046760E+000+TAfFPFDL*-9.78150753609102E-001+GAsaCcdR*-1.50831828914801E+000

39 2 0.644278113888757 Link

y= 6.34252467532257E+000+TAfFPFDL*-1.04296487704456E+000+GAsAIcdR*-1.30383647100216E+000

39 2 0.663845164400658 Link

y= 6.40007482263077E+000+TAfFPFDL*-1.12360870766758E+000+GAsaAcdR*-1.50830323984517E+000

39 2 0.668822860582434 Link

y= 8.22325743438927E+000+GA5aCCDL*-1.88533710470963E-001+TAtIFfDL* 3.04685086129343E-001+GMLiAPdI*-3.16477930966330E+000

39 3 0.683015020335616 Link

y= 8.68188079248948E+000+GA5aCCDL*-1.99439316654648E-001+TAqPIFDR*-5.29736556552302E-003+GMLiAPdI*-3.37308192564265E+000

39 3 0.711717834291881 Link

y= 9.47575675391378E+000+GA5aCCDL*-1.94808177957800E-001+TAtAIfDR*-3.96221260445197E-001+GMLiAPdI*-4.11487187264147E+000

39 3 0.738711257236817 Link

y= 8.34822538239668E+000+TAfFPFDL*-9.60662413900666E-001+GAkCIcdL*-2.79525279544323E-001+GAsaCcdR*-1.13109726928306E+000

39 3 0.749766284163236 Link

y= 8.05048904505580E+000+TAfFPFDL*-1.01191512261529E+000+GAkCIcdL*-2.73198010939187E-001+GAsAIcdR*-9.94126168067764E-001

39 3 0.764633588116481 Link

y= 3.33691859158614E+000+GA5aCCDL*-1.59424590735126E-001+TAxAIfDR*-2.12827104660222E+000+GLvFaFDR* 3.02942526551910E-002+TAsPifDL*

39 4 0.766643598194283 Link

172

Page 173: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

1.21739507388622E+000 y= 7.38149868242850E+000+GA5aCCDL*-1.54681779894843E-001+TAxAIfDR*-2.98863972048376E+000+GAkCIcdL*-3.12930072207785E-001+GAtFACDL*-7.36069962620339E-001

39 4 0.777185991913265 Link

y= 9.51027537370945E+000+GA5aCCDL*-1.51385020587630E-001+TAqPIFDR*-5.66709405265237E-003+GLbIPPdL*-3.78224354845121E-001+GMLiAPdI*-3.77723705042659E+000

39 4 0.781634330171587 Link

y= 3.33633641030288E+000+GA5aCCDL*-1.94876226261915E-001+TA1FPIDL*-4.23346842676077E-001+TLDFAIDL* 4.01318298880704E-001+GMLiAPdI*-3.64590811981607E+000

39 4 0.784873793896405 Link

y= 6.02201396063550E+000+GA5aCCDL*-1.24589135140765E-001+GAbPPFdL*-5.48765716327511E-001+GAwPACDL* 9.23482598792537E-001+GAZAAIDL* 3.18120042599435E-001

39 4 0.802067501247866 Link

y= 9.77031338191638E+000+GA5aCCDL*-1.69264629070674E-001+TAtAIfDR*-4.07716403919092E-001+GMTPiCdL*-4.37418322056800E-001+GMLiAPdI*-4.33739000919138E+000

39 4 0.804286530946939 Link

y= 1.36123461166612E+001+GA5aCCDL*-1.54340240635941E-001+TAtAIfDR*-4.71424618541177E-001+GQ1PIfdL*-9.25363290053647E-001+GMLiAPdI*-4.08009171325853E+000

39 4 0.814105679893478 Link

y= 1.29633594351980E+001+GA5aCCDL*-1.78281216341697E-001+TAtPFfDR*-2.24609677097928E+000+GQ1PIfdL*-1.02316958895442E+000+GMLiAPdI*-3.60251165923635E+000

39 4 0.821473243777755 Link

y= 2.14872674323368E+000+GA5aCCDL*-1.83498321953278E-001+GATAPaDR* 3.91672165448696E+001+GQ0AAiDL* 3.53336909208376E-001+TAsPifDL* 2.06282871618359E+000

39 4 0.827782539556989 Link

y= 7.77395091651078E+000+TAfFPFDL*-7.89048423146169E-001+GAkCIcdL*-2.93135152758776E-001+TAtIFFDI* 1.02634578605081E+002+GAsAIcdR*-1.03916642897475E+000

39 4 0.843849931580623 Link

Pentru fiecare model disponibil în baza de date, analiza de model trebuie să permită vizualizarea rezultatelor; având în vedere că aceasta reprezintă însă un rezultat al cercetării, interfaţa care permite această operaţie este protejată cu parolă; un exemplu în acest sens este următorul:

173

Page 174: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

174

http://l.academicdirect.org/Chemistry/SARs/MDFV/?set=nitro&property=logLD50&id=24 când se obţine rezultatul după introducerea corespunzătoare a parolei de acces; aplicaţia realizată permite vizualizarea rezultatelor analizei de model pentru modelul de regresie selectat; pentru setul (nitro), activitatea (logLD50) şi modelul (id) selectate mai sus, se deschide o interfaţă care permite analiza de model pe componente de interes, aşa cum arată captura de ecran de mai jos, urmată de analiza pe componente, redată în a 2-a figură de mai jos:

Model

Set Name

Molecules Number

Property Name

Molecules Number

IndependentVariables

Determination Coefficient

Structure-Activity Relationship

nitro 39 logLD50 39 4 0.843849931580623

7.77395091651078E+000+ TAfFPFDL*-7.89048423146169E-001+GAkCIcdL*-2.93135152758776E-001+ TAtIFFDI* 1.02634578605081E+002+ GAsAIcdR*-1.03916642897475E+000

Analysis No Mol Prop TAfFPFDL GAkCIcdL TAtIFFDI GAsAIcdR Estimated Diff% 1 001_7416 5.855 -1.3428 7.202 0.004126 1.3089 5.786 1 2 002_7452 3.384 -0.24485 8.068 0.008221 2.2322 4.126 20 3 003_7434 5.617 0.29329 6.433 0.0008335 0.006739 5.735 2 4 004_11761 6.815 -0.345 6.692 0.008463 0.4392 6.497 5 5 005_8461 5.591 -0.3782 6.21 0.0011986 0.3994 5.960 6 6 006_11813 5.176 -0.3757 8.094 0.0011986 1.2188 4.554 13 7 007_12067 5.375 -0.3783 6.23 0.003584 0.6294 5.960 10 8 008_8376 6.409 0.22035 6.626 0.003938 0.015569 6.046 6 9 009_6946 7.378 -1.1922 7.585 0.007296 0.0645 7.173 3 10 010_7423 6.282 -1.2171 7.09 3.166e-05 0.5752 6.061 4 11 011_7475 6.62 -1.2309 7.669 0.007296 1.0707 6.133 8 12 012_7447 7.719 -2.1631 5.219 0.007705 0.9793 7.724 0 13 013_8492 8.769 -1.2309 4.642 0.007296 0.09741 8.032 9 14 014_23108 7.944 -2.0756 5.996 0.005694 0.11535 8.119 2 15 015_4338370 7.65 -1.0753 4.566 0.0079 0.6603 7.409 3 16 016_6947 5.811 -1.7969 8.254 0.010268 2.0852 5.659 3 17 017_11137 5.793 -1.8034 9.757 0.008221 1.5057 5.616 3 18 018_980 5.308 -1.8087 10.752 0.007197 1.8329 4.883 8 19 019_1493 3.401 -0.3719 9.344 0.0022138 1.7075 3.781 11

Page 175: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

20 020_3613389 7.783 -1.627 5.661 0.004126 0.5393 7.261 7 21 021_6954 5.298 0.22417 8.591 0.003261 0.9482 4.428 18 22 022_6108 7.581 -3.0803 7.67 0.012619 1.1459 8.060 6 23 023_8494 8.086 -3.034 7.94 0.015547 1.6165 7.756 4 24 024_8489 6.04 -1.7214 5.469 0.005785 1.7859 6.267 4 25 025_33096 5.704 -0.21674 8.844 0.015486 0.6829 6.232 9 26 026_214168 6.052 -0.6002 8.531 0.010229 0.7655 6.001 1 27 027_67967 5.298 -2.382 9.018 0.008027 2.3431 5.399 2 28 028_6974 7.8 -2.8392 10.287 0.016055 0.7306 7.887 1 29 029_67350 8.7 -3.449 5.913 0.009096 1.3666 8.276 5 30 030_541 8.455 -2.5978 8.622 0.010162 0.6859 7.627 10 31 031_12090 3.401 -1.657 11.613 0.00347 1.6802 4.287 23 32 032_5111791 6.524 -1.1019 4.456 0.004624 1.1886 6.577 1 33 033_8462 6.98 -1.4327 6.451 0.015287 2.0797 6.421 8 34 034_7114 7.71 -1.6518 6.798 0.011366 1.0543 7.156 7 35 035_7457 7.886 -1.4819 5.896 0.013735 1.0788 7.504 5 36 036_97443 6.745 -2.1663 4.84 0.007304 1.2072 7.560 11 37 037_11346 7.378 -3.0875 7.428 0.014112 1.1802 8.255 11 38 038_15787 6.109 -0.7537 5.615 0.009721 0.10692 7.609 22 39 039_94665 6.922 -1.5705 5.959 0.003249 0.06567 7.532 8

175

Page 176: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

2009A2. Construirea modelelor moleculare (chimie cuantică) & procesarea informaţiei moleculare (chimie matematică)

Elaborarea modelelor matematice ale structurilor şi proceselor chimice a constituit subiect de preocupări anterior realizării acestei activităţi (Jäntschi & Naşcu, 2002-FSD3; Jäntschi & Naşcu, 2002-NDT; Jäntschi & Pică, 2002-NKC; Jäntschi & Ungureşan, 2002-PCEI; Jäntschi & Pică, 2003-ORM; Jäntschi & Pică, 2003-NCDR; Jäntschi, 2003-KB). O serie de studii recente (Jäntschi & others, 2007-FVCT; Stoenoiu & others, 2007-MFI) au pregătit terenul pentru seria de rezultate care au fost valorificate din derularea acestei activităţi în cadrul proiectului (Ştefu & others, 2008-MHHS; Stoenoiu & others, 2008-MFET; Jäntschi & others, 2008-IEbT; Jäntschi & Diudea, 2009-sGPV; Jäntschi & others, 2009-CCPI; Jäntschi & Bolboacă, 2009-CPRI; Jäntschi & Bolboacă, 2009-EDFD) şi chiar rezultate care au apărut după finalizarea activităţii (Jäntschi & Diudea, 2011-C16V). Modelele moleculare s-au implementat modularizat folosind clase; astfel informaţia structurii moleculare s-a implementat la 5 nivele, aşa cum rezultă în continuare. Procesarea informaţiei la nivel atomic (legat de valenţă, masă atomică, sarcină electrică parţială, afinitate pentru electroni, punct de topire în stare fundamentală, număr de protoni situaţi în vecinătatea imediată în structură, coordonate de geometrie tridimensională, legăturile cu heteroatomii învecinaţi) sunt obţinute pentru fiecare atom al unei structuri analizate pornind de la structura în format HyperChem şi folosind o bază de date cu constante atomice de către funcţiile implementate în clasa class_descriptor_1atoms.php. class ato_type{ function __construct(){ $this->mass["H"] = 1.0078; $this->elng["H"] = 2.1; $this->melt["H"] = 14; $this->elaf["H"] = -72.8; $this->mass["B"] = 10.810; $this->elng["B"] = 2.0; $this->melt["B"] = 2573; $this->elaf["B"] = -15; $this->mass["C"] = 12.011; $this->elng["C"] = 2.5; $this->melt["C"] = 3820; $this->elaf["C"] = -121; $this->mass["N"] = 14.007; $this->elng["N"] = 3.0; $this->melt["N"] = 63.29; $this->elaf["N"] = 31; $this->mass["O"] = 15.999; $this->elng["O"] = 3.5; $this->melt["O"] = 54.8; $this->elaf["O"] = -141; $this->mass["F"] = 18.998; $this->elng["F"] = 4.0; $this->melt["F"] = 54; $this->elaf["F"] = -333; $this->mass["AL"]= 26.982; $this->elng["AL"]= 1.5; $this->melt["AL"]= 933; $this->elaf["AL"]= -44; $this->mass["SI"]= 28.086; $this->elng["SI"]= 1.8; $this->melt["SI"]= 1683; $this->elaf["SI"]= -135; $this->mass["P"] = 30.974; $this->elng["P"] = 2.1; $this->melt["P"] = 317.3; $this->elaf["P"] = -60; $this->mass["S"] = 32.066; $this->elng["S"] = 2.5; $this->melt["S"] = 386; $this->elaf["S"] = -200.4; $this->mass["CL"]= 35.453; $this->elng["CL"]= 3.0; $this->melt["CL"]= 172; $this->elaf["CL"]= -348; $this->mass["FE"]= 55.847; $this->elng["FE"]= 1.8; $this->melt["FE"]= 1808; $this->elaf["FE"]= -44; $this->mass["CU"]= 63.546; $this->elng["CU"]= 1.9; $this->melt["CU"]= 1357; $this->elaf["CU"]= -118.3; $this->mass["GA"]= 69.723; $this->elng["GA"]= 1.6; $this->melt["GA"]= 303; $this->elaf["GA"]= -36; $this->mass["GE"]= 72.610; $this->elng["GE"]= 1.8; $this->melt["GE"]= 1211; $this->elaf["GE"]= -116; $this->mass["AS"]= 74.923; $this->elng["AS"]= 2.0; $this->melt["AS"]= 1090; $this->elaf["AS"]= -77; $this->mass["SE"]= 78.960; $this->elng["SE"]= 2.4; $this->melt["SE"]= 490; $this->elaf["SE"]= -195; $this->mass["BR"]= 79.904; $this->elng["BR"]= 2.8; $this->melt["BR"]= 266; $this->elaf["BR"]= -324; $this->mass["IN"]= 114.82; $this->elng["IN"]= 1.7; $this->melt["IN"]= 429; $this->elaf["IN"]= -34; $this->mass["SN"]= 118.71; $this->elng["SN"]= 1.8; $this->melt["SN"]= 505; $this->elaf["SN"]= -121; $this->mass["SB"]= 121.75; $this->elng["SB"]= 1.9; $this->melt["SB"]= 904; $this->elaf["SB"]= -101; $this->mass["TE"]= 127.60; $this->elng["TE"]= 2.1; $this->melt["TE"]= 722.7; $this->elaf["TE"]= -190.2; $this->mass["I"] = 126.90; $this->elng["I"] = 2.5; $this->melt["I"] = 387; $this->elaf["I"] = -295; } }

class hin_file{ var $n=0; function __construct($mol){ $q=mysql_query("SELECT `hin` FROM `".setd."_data` WHERE `mol`='".$mol."'"); if(!$q)die("SELECT HIN ERROR!\r\n"); $n=mysql_num_rows($q); if($n===1){ $r=mysql_fetch_array($q); mysql_free_result($q); $text=$r[0]; }else die("MORE THAN ONE HIN!"); $a=explode("mol 1",$text); if(count($a)<>3)die("data is more or less than a molecule.\r\n"); $text=$a[1];unset($a);$a=explode("\r\n",$text);unset($text); $n=count($a);for($i=0;$i<$n;$i++){ if(strpos($a[$i],"atom")===FALSE)continue; $atom[]=$a[$i]; } $this->n=count($atom); $this->text=$atom;

176

Page 177: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

} function atom_info($atom,&$cnv_tool){ $list=explode(" ",$atom); //echo($atom."\r\n"); //die(); $n=count($list); for($i=12;$i<$n;$i+=2){ $list[$i]=$cnv_tool[$list[$i]]; } unset($list[0]);unset($list[2]); unset($list[4]);unset($list[5]); $this->atom[]=array_values($list); } function create_structure(){ $conversion_tool=array("s" => 1,"d" => 2, "t" => 3, "a" => 1.5); for($i=0;$i<$this->n;$i++){ $this->atom_info($this->text[$i],$conversion_tool); $this->proton[]=0; } } function remove_atoms($remove_list=0){ if($remove_list){ if(!is_array($remove_list)) $this->remove_a_atom($remove_list); else{ $n=count($remove_list); for($i=0;$i<$n;$i++){ $this->remove_a_atom($remove_list[$i]); } } } unset($this->text); } function remove_a_atom($atom){ $at_li=array(); for($i=0;$i<$this->n;$i++){ if($atom==$this->atom[$i][1]){ $at_li[]=$i; for($j=0;$j<$i;$j++){ for($k=7;$k<count($this->atom[$j]);$k+=2){ if($this->atom[$j][$k]==$this->atom[$i][0]){ if($atom=="H"){ $this->proton[$j]++; unset($this->proton[$i]); } unset($this->atom[$j][$k]); unset($this->atom[$j][$k+1]); $this->atom[$j][6]--; $this->atom[$j]=array_values($this->atom[$j]); break; } } } for($j=$i+1;$j<$this->n;$j++){ for($k=7;$k<count($this->atom[$j]);$k+=2){ if($this->atom[$j][$k]==$this->atom[$i][0]){ if($atom=="H"){ $this->proton[$j]++; unset($this->proton[$i]); } unset($this->atom[$j][$k]); unset($this->atom[$j][$k+1]); $this->atom[$j][6]--; $this->atom[$j]=array_values($this->atom[$j]); break; } } } } } $n=count($at_li); if($n){ for($i=0;$i<$n;$i++){ unset($this->atom[$at_li[$i]]); $this->n--; } $this->atom=array_values($this->atom); $this->proton=array_values($this->proton); }

177

Page 178: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

} function create_index(){ for($i=0;$i<$this->n;$i++){ $this->index[$i]=$this->atom[$i][0]; } } function create_topology(){ $this->m=0; for($i=0;$i<$this->n;$i++){ //$this->index[$i]=$this->atom[$i][0]; $label[$this->atom[$i][0]]=$i; $this->topology["count"][$i]=$this->atom[$i][6]; $this->m+=$this->topology["count"][$i]; } $this->m/=2; for($i=0;$i<$this->n;$i++){ for($j=0;$j<$this->topology["count"][$i];$j++){ $this->topology["edges"][$i][$j]=$label[$this->atom[$i][7+2*$j]]; } } } function create_chemistry(&$a){ for($i=0;$i<$this->n;$i++){ $this->chemstry[$i]=strtoupper($this->atom[$i][1]); $this->property["mass"][$i]=$a->mass[$this->chemstry[$i]];//M $this->property["elng"][$i]=$a->elng[$this->chemstry[$i]];//E $this->property["melt"][$i]=$a->melt[$this->chemstry[$i]];//L $this->property["elaf"][$i]=$a->elaf[$this->chemstry[$i]];//A $this->property["char"][$i]=$this->atom[$i][5];//Q $this->property["prot"][$i]=$this->proton[$i];//H $this->property["card"][$i]=1;//1 $this->geometry["x"][$i]=$this->atom[$i][2]; $this->geometry["y"][$i]=$this->atom[$i][3]; $this->geometry["z"][$i]=$this->atom[$i][4]; } unset($this->index); unset($this->proton); unset($this->chemstry); unset($this->atom); } function tmp_edve_cut($v){ for($i=0;$i<$this->topology["count"][$v];$i++){ for($j=0;$j<$this->topology["count"][$this->tmp_edge[$v][$i]];$j++){ if($this->tmp_edge[$this->tmp_edge[$v][$i]][$j]==$v){ unset($this->tmp_edge[$this->tmp_edge[$v][$i]][$j]); break; } } } unset($this->tmp_edge[$v]); } function tmp_vert_cut($v){ unset($this->tmp_edge[$v]); } function tmp_edge_cut($v1,$v2){ for($j=0;$j<$this->topology["count"][$v1];$j++){ if($this->tmp_edge[$v1][$j]==$v2){ unset($this->tmp_edge[$v1][$j]); $this->tmp_edge[$v1]=array_values($this->tmp_edge[$v1]); break; } } for($j=0;$j<$this->topology["count"][$v2];$j++){ if($this->tmp_edge[$v2][$j]==$v1){ unset($this->tmp_edge[$v2][$j]); $this->tmp_edge[$v2]=array_values($this->tmp_edge[$v2]); break; } } } function create_matrix_distance(&$edges = NULL){ if($edges==NULL){ $edges=&$this->topology["edges"]; $this->distance["t"]=array(); $mat_a=&$this->distance["t"]; for($i=0;$i<$this->n;$i++){ $this->distance["g"][$i][$i]=0; $this->distance["v"][$i][$i]=array(1,1,1); for($j=$i+1;$j<$this->n;$j++){

178

Page 179: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$this->distance["v"][$i][$j]=array( $this->geometry["x"][$i]-$this->geometry["x"][$j], $this->geometry["y"][$i]-$this->geometry["y"][$j], $this->geometry["z"][$i]-$this->geometry["z"][$j] ); $this->distance["g"][$i][$j]=pow(pow($this->distance["v"][$i][$j][0],2)+ pow($this->distance["v"][$i][$j][1],2)+pow($this->distance["v"][$i][$j][2],2),0.5); $this->distance["v"][$i][$j][0]/=$this->distance["g"][$i][$j]; $this->distance["v"][$i][$j][1]/=$this->distance["g"][$i][$j]; $this->distance["v"][$i][$j][2]/=$this->distance["g"][$i][$j]; $this->distance["v"][$j][$i]=array( -$this->distance["v"][$i][$j][0], -$this->distance["v"][$i][$j][1], -$this->distance["v"][$i][$j][2], ); $this->distance["g"][$j][$i]=$this->distance["g"][$i][$j]; } } }else{ $this->tmp_dist=array(); $mat_a=&$this->tmp_dist; } for($i=0;$i<$this->n;$i++){ for($j=0;$j<$i;$j++){ $mat[$i][$j]=$this->m+1; } $mat[$i][$i]=0; for($j=$i+1;$j<$this->n;$j++){ $mat[$i][$j]=$this->m+1; } } foreach($edges as $i => &$v){ foreach($edges[$i] as $j => &$v){ $mat[$i][$edges[$i][$j]]=1; } } for($k=0;$k<$this->n;$k++){ for($i=0;$i<$this->n;$i++){ for($j=0;$j<$this->n;$j++){ if($mat[$i][$k]+$mat[$k][$j]<$mat[$i][$j]){ $mat[$i][$j]=$mat[$i][$k]+$mat[$k][$j]; $mat[$j][$i]=$mat[$i][$j]; } } } } $mat_a=$mat; } function create_matrix_adjacency(){ $this->adjcency=array(); $mat_a=&$this->adjcency; for($i=0;$i<$this->n;$i++){ $mat[$i]=array_fill(0,$this->n,0); } foreach($this->topology["edges"] as $i => &$v){ foreach($this->topology["edges"][$i] as $j => &$v){ $mat[$i][$this->topology["edges"][$i][$j]]=1; } } $mat_a=$mat; } function create_fragments(){ for($vi=0;$vi<$this->n;$vi++){ $this->tmp_edge=$this->topology["edges"]; $this->tmp_edve_cut($vi); $this->create_matrix_distance($this->tmp_edge); $chek_list=array_keys($this->tmp_dist); $i=0;$n_i=$this->n; do{ $fr[$i][0]=$chek_list[0]; for($j=1;$j<$n_i;$j++){ if($this->tmp_dist[$fr[$i][0]][$chek_list[$j]]<$this->m){ $fr[$i][]=$chek_list[$j]; unset($chek_list[$j]); } } unset($chek_list[0]); $n_i=count($chek_list); if(!$n_i)break;

179

Page 180: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$i++; $chek_list=array_values($chek_list); }while(1); //modified !!!!!!!!!!!! $n_i=count($fr); for($i=0;$i<$n_i;$i++){ if(count($fr[$i])==1){ if($fr[$i][0]==$vi){ unset($fr[$i]); break; } } } $this->fragment[$vi]=array_values($fr); //modified !!!!!!!! from $this->fragment[$vi]=$fr; unset($this->tmp_edge); unset($this->tmp_dist); unset($fr); } } function display_all_fragments_subgraphs(){ $ret=""; for($i=0;$i<$this->n;$i++){ $ret.="\{".$i."} -> ".$this->display_fragments($i," ","{}"," ","\r\n"); $ret.=$this->display_subgraphs($i)."\r\n"; } return $ret; } function display_all_fragments(){ $ret=""; for($i=0;$i<$this->n;$i++){ $ret.="\{".$i."} -> ".$this->display_fragments($i," ","{}"," ","\r\n"); } return $ret; } function display_fragments($v,$s1,$s3,$s2,$s4){ $n=count($this->fragment[$v]); for($i=0;$i<$n;$i++){ /* modified!!!!!!!! if((count($this->fragment[$v][$i])==1)&&($v==$this->fragment[$v][$i][0])){ $ret[]=" X "; $uns=$i; continue; } */ $ret[]=$s3[0].$this->display_a_fragment($v,$i,$s1).$s3[1]; } //unset($this->fragment[$v][$uns]); //$this->fragment[$v]=array_values($this->fragment[$v]); return implode($s2,$ret).$s4; } function display_a_fragment($v,$f,$s){ return implode($s,$this->fragment[$v][$f]); } function display_all_subgraphs(){ $ret=""; for($i=0;$i<$this->n;$i++){ $ret.=$this->display_subgraphs($i)."\r\n"; } return $ret; } function display_subgraphs($v){ $n=count($this->fragment[$v]); $ret="\{".$v."} -> "; for($i=0;$i<$n;$i++){ $ret.=$this->display_a_subgraph($v,$i,"")." "; } return $ret; } function display_a_subgraph($v,$f,$s){ $n=count($this->fragedge[$v][$f]); if($n==0){ $vll="(".$s.")"; }else{ $vl=array(); for($i=0;$i<$n;$i++){ $vl[]="(".implode(",",$this->fragedge[$v][$f][$i]).")"; } $vll=implode(",",$vl);

180

Page 181: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

} return "({".implode(",",$this->fragment[$v][$f])."},{".$vll."})"; } }

Procesarea informaţiei pentru perechi de atomi înzestraţi cu trăsăturile (proprietăţile) de mai sus ce referă aplicarea modelelor de interacţiune pentru perechi de atomi este realizată de funcţiile implementate în clasa class_descriptor_2pairs.php; sunt implementate: ÷ 2 modele de interacţiune pereche bazate exclusiv pe distanţa (geometrică sau topologică) între

atomi (proporţionalitate directă şi respectiv reciprocă); ÷ 8 modele de interacţiune pereche bazate exclusiv pe proprietatea atomică (geometrică sau

topologică) între atomi (valenţă, masă atomică, sarcină electrică parţială, afinitate pentru electroni, punct de topire în stare fundamentală, număr de protoni situaţi în vecinătatea imediată în structură, numărul de legături cu heteroatomii învecinaţi);

÷ 8 modele de interacţiune bazate pe forţa elastică; ÷ 8 modele de interacţiune bazate pe energia unei forţe de natură elastică; ÷ 8 modele de interacţiune ce caracterizează interacţiunea invers proporţională cu distanţa; ÷ 8 modele de interacţiune ce caracterizează interacţiunea invers proporţională cu pătratul

distanţei; ÷ 8 modele de interacţiune ce caracterizează interacţiunea invers proporţională cu puterea a 3-a a

distanţei; ÷ 8 modele de interacţiune ce caracterizează interacţiunea invers proporţională cu puterea a 4-a a

distanţei; function create_pd_descriptor($n,$pp,$dd,&$p,&$d,&$e){ for($i=0;$i<$n;$i++){ for($j=0;$j<$n;$j++){ $pd = new descriptor_pair($p->p[$pp][$i],$p->p[$pp][$j],$d->d[$dd][$i][$j]); $e[$i][$j]=$pd->f; } } }

class distance_object{ function __construct(&$dst){ $this->n=2; $this->d[0]=$dst["t"]; $this->d[1]=$dst["g"]; } }

class versor_object_g{ function __construct(&$dst){ $this->v=$dst["v"]; } function val($k,$i,$j){ return $this->v[$i][$j][$k]; } }

class versor_object_t{ function val($k,$i,$j){ return 1; } }

class property_object{ function __construct(&$pro){ $this->n=7; $this->p[0]=$pro["card"];//C $this->p[1]=$pro["prot"];//H $this->p[2]=$pro["mass"];//M $this->p[3]=$pro["elng"];//E $this->p[4]=$pro["char"];//Q $this->p[5]=$pro["melt"];//L $this->p[6]=$pro["elaf"];//A } }

class descriptor_pair{ function __construct($p1,$p2,$d12){ $this->n=58; //init distance

181

Page 182: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$this->d12=$d12; $this->d12_0=$this->d12*$this->d12; if($this->d12) $this->d12_1=1.0/$this->d12; else $this->d12_1=(float)"INF"; $this->d12_2=$this->d12_1*$this->d12_1; $this->d12_3=$this->d12_2*$this->d12_1; $this->d12_4=$this->d12_2*$this->d12_2; //init property $this->p1=$p1; $this->p2=$p2; $this->p12=$this->p1*$this->p2; $this->p12_2=pow($this->p12,0.5); //distance $this->f[0] =$this->d_J(); $this->f[1] =$this->d_1_J(); //property $this->f[2] =$this->d_O(); if($this->p1) $this->f[3] =$this->d_1_O(); else $this->f[3]=(float)"INF"; $this->f[4] =$this->d_P(); if($this->p2) $this->f[5] =$this->d_1_P(); else $this->f[5]=(float)"INF"; $this->f[6] =$this->d_Q(); if($this->p12) $this->f[7] =$this->d_1_Q(); else $this->f[7]=(float)"INF"; $this->f[8] =$this->d_R(); if($this->p12_2) $this->f[9] =$this->d_1_R(); else $this->f[9]=(float)"INF"; //elastic force $this->f[10] =$this->d_K(); if($this->p1) $this->f[11] =$this->d_1_K(); else $this->f[11]=(float)"INF"; $this->f[12] =$this->d_L(); if($this->p2) $this->f[13] =$this->d_1_L(); else $this->f[13]=(float)"INF"; $this->f[14] =$this->d_M(); if($this->p12) $this->f[15] =$this->d_1_M(); else $this->f[15]=(float)"INF"; $this->f[16] =$this->d_N(); if($this->p12_2) $this->f[17] =$this->d_1_N(); else $this->f[17]=(float)"INF"; //energy from elastic force $this->f[18] =$this->d_W(); if($this->p1) $this->f[19] =$this->d_1_W(); else $this->f[19]=(float)"INF"; $this->f[20] =$this->d_X(); if($this->p2) $this->f[21] =$this->d_1_X(); else $this->f[21]=(float)"INF"; $this->f[22] =$this->d_Y(); if($this->p12) $this->f[23] =$this->d_1_Y(); else $this->f[23]=(float)"INF"; $this->f[24] =$this->d_Z(); if($this->p12_2) $this->f[25] =$this->d_1_Z(); else $this->f[25]=(float)"INF"; //potential, field, force 1 $this->f[26] =$this->d_S(); if($this->p1) $this->f[27] =$this->d_1_S(); else $this->f[27]=(float)"INF"; $this->f[28] =$this->d_T(); if($this->p2) $this->f[29] =$this->d_1_T(); else $this->f[29]=(float)"INF"; $this->f[30] =$this->d_U(); if($this->p12) $this->f[31] =$this->d_1_U(); else $this->f[31]=(float)"INF"; $this->f[32] =$this->d_V(); if($this->p12_2) $this->f[33] =$this->d_1_V(); else $this->f[33]=(float)"INF"; //potential, field, force 2 $this->f[34] =$this->d_F(); if($this->p1) $this->f[35] =$this->d_1_F(); else $this->f[35]=(float)"INF"; $this->f[36] =$this->d_G(); if($this->p2) $this->f[37] =$this->d_1_G(); else $this->f[37]=(float)"INF"; $this->f[38] =$this->d_H(); if($this->p12) $this->f[39] =$this->d_1_H(); else $this->f[39]=(float)"INF"; $this->f[40] =$this->d_I(); if($this->p12_2) $this->f[41] =$this->d_1_I(); else $this->f[41]=(float)"INF"; //potential, field, force 3 $this->f[42] =$this->d_A(); if($this->p1) $this->f[43] =$this->d_1_A(); else $this->f[43]=(float)"INF"; $this->f[44] =$this->d_B(); if($this->p2) $this->f[45] =$this->d_1_B(); else $this->f[45]=(float)"INF"; $this->f[46] =$this->d_C(); if($this->p12) $this->f[47] =$this->d_1_C(); else $this->f[47]=(float)"INF"; $this->f[48] =$this->d_D(); if($this->p12_2) $this->f[49] =$this->d_1_D(); else $this->f[49]=(float)"INF"; //potential, field, force 4 $this->f[50] =$this->d_E_0(); if($this->p1) $this->f[51] =$this->d_E_1(); else $this->f[51]=(float)"INF"; $this->f[52] =$this->d_E_2(); if($this->p2) $this->f[53] =$this->d_E_3(); else $this->f[53]=(float)"INF"; $this->f[54] =$this->d_E_4(); if($this->p12) $this->f[55] =$this->d_E_5(); else $this->f[55]=(float)"INF"; $this->f[56] =$this->d_E_6();

182

Page 183: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

if($this->p12_2) $this->f[57] =$this->d_E_7(); else $this->f[57]=(float)"INF"; unset($this->p1); unset($this->p2); unset($this->p12); unset($this->p12_2); unset($this->d12); unset($this->d12_0); unset($this->d12_1); unset($this->d12_2); unset($this->d12_3); unset($this->d12_4); } //distance function d_J(){ return $this->d12; }//J=D function d_1_J(){ return $this->d12_1; } //j=1/D //property function d_O(){ return $this->p1; } //O=P1 function d_1_O(){ return 1.0/$this->p1; } //o=1/P1 function d_P(){ return $this->p2; } //P=P2 function d_1_P(){ return 1.0/$this->p2; } //p=1/P2 function d_Q(){ return $this->p12; } //Q=P1P2 function d_1_Q(){ return 1.0/$this->p12; } //q=1/P1P2 function d_R(){ return $this->p12_2; } //R=sqrt(P1P2) function d_1_R(){ return 1.0/$this->p12_2; } //r=1/sqrt(P1P2) //elastic force function d_K(){ return $this->p1*$this->d12; } //K=P1D function d_1_K(){ return $this->d12/$this->p1; } //k=(1/P1)D function d_L(){ return $this->p2*$this->d12; } //L=P2D function d_1_L(){ return $this->d12/$this->p2; } //l=(1/P2)D function d_M(){ return $this->p12*$this->d12; } //M=P1P2D function d_1_M(){ return $this->d12/$this->p12; } //m=(1/P1P2)D function d_N(){ return $this->p12_2*$this->d12; } //N=sqrt(P1P2)D function d_1_N(){ return $this->d12/$this->p12_2; } //n=(1/sqrt(P1P2))D //energy from elastic force function d_W(){ return $this->p1*$this->d12_0; } //W=P1D2 function d_1_W(){ return $this->d12_0/$this->p1; } //w=(1/P1)D2 function d_X(){ return $this->p2*$this->d12_0; } //X=P2D2 function d_1_X(){ return $this->d12_0/$this->p2; } //x=(1/P2)D2 function d_Y(){ return $this->p12*$this->d12_0; } //Y=P1P2D2 function d_1_Y(){ return $this->d12_0/$this->p12; } //y=(1/P1P2)D2 function d_Z(){ return $this->p12_2*$this->d12_0; } //Z=sqrt(P1P2)D2 function d_1_Z(){ return $this->d12_0/$this->p12_2; } //z=(1/sqrt(P1P2))D2 //potential, field, force 1 function d_S(){ return $this->p1*$this->d12_1; } //S=P1/D function d_1_S(){ return $this->d12_1/$this->p1; } //s=(1/P1)/D function d_T(){ return $this->p2*$this->d12_1; } //T=P2/D function d_1_T(){ return $this->d12_1/$this->p2; } //t=(1/P2)/D function d_U(){ return $this->p12*$this->d12_1; } //U=P1P2/D function d_1_U(){ return $this->d12_1/$this->p12; } //u=(1/P1P2)/D function d_V(){ return $this->p12_2*$this->d12_1; } //V=sqrt(P1P2)/D function d_1_V(){ return $this->d12_1/$this->p12_2; } //v=(1/sqrt(P1P2))/D //potential, field, force 2 function d_F(){ return $this->p1*$this->d12_2; } //F=P1/D2 function d_1_F(){ return $this->d12_2/$this->p1; } //f=(1/P1)/D2 function d_G(){ return $this->p2*$this->d12_2; } //G=P2/D2 function d_1_G(){ return $this->d12_2/$this->p2; } //g=(1/P2)/D2 function d_H(){ return $this->p12*$this->d12_2; } //H=P1P2/D2 function d_1_H(){ return $this->d12_2/$this->p12; } //h=(1/P1P2)/D2 function d_I(){ return $this->p12_2*$this->d12_2; } //I=sqrt(P1P2)/D2 function d_1_I(){ return $this->d12_2/$this->p12_2; } //i=(1/sqrt(P1P2))/D2 //potential, field, force 3 function d_A(){ return $this->p1*$this->d12_3; } //A=P1/D3 function d_1_A(){ return $this->d12_3/$this->p1; } //a=(1/P1)/D3 function d_B(){ return $this->p2*$this->d12_3; } //B=P2/D3 function d_1_B(){ return $this->d12_3/$this->p2; } //b=(1/P2)/D3 function d_C(){ return $this->p12*$this->d12_3; } //C=P1P2/D3 function d_1_C(){ return $this->d12_3/$this->p12; } //c=(1/P1P2)/D3 function d_D(){ return $this->p12_2*$this->d12_3; } //D=sqrt(P1P2)/D3 function d_1_D(){ return $this->d12_3/$this->p12_2; } //d=(1/sqrt(P1P2))/D3 //potential, field, force 4 function d_E_0(){ return $this->p1*$this->d12_4; } //0=P1/D4 function d_E_1(){ return $this->d12_4/$this->p1; } //1=(1/P1)/D4 function d_E_2(){ return $this->p2*$this->d12_4; } //2=P2/D4 function d_E_3(){ return $this->d12_4/$this->p2; } //3=(1/P2)/D4 function d_E_4(){ return $this->p12*$this->d12_4; } //4=P1P2/D4 function d_E_5(){ return $this->d12_4/$this->p12; } //5=(1/P1P2)/D4 function d_E_6(){ return $this->p12_2*$this->d12_4; } //6=sqrt(P1P2)/D4 function d_E_7(){ return $this->d12_4/$this->p12_2; } //7=(1/sqrt(P1P2))/D4

183

Page 184: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

}

Procesarea informaţiei de interacţiune la nivelul fragmentului molecular este realizată prin suprapunerea interacţiunilor pereche obţinute anterior folosind o serie de modele de suprapunere a interacţiunilor; funcţiile implementate în clasa class_descriptor_3fragm.php implementează: ÷ 2 tipuri de suprapuneri vectoriale folosind drept reper sistemul de coordonate de referinţă al

moleculei (suprapuneri scalare pe proiecţiile axiale ale sistemului de coordonate folosit); ÷ 2 tipuri de suprapuneri vectoriale folosind drept reper un sistem de coordonate local al

fragmentului - calculat ca centru de proprietate - (suprapuneri scalare pe proiecţiile axiale ale sistemului de coordonate folosit);

÷ 2 tipuri de suprapuneri scalare (ignorând orientarea vectorială şi folosind valoarea absolută) - interacţiune de tip potenţial;

÷ 2 tipuri de selecţii ale valorilor maxime de interacţiune dintre interacţiunile existente în fragment între perechi de atomi;

÷ 2 tipuri de selecţii ale valorilor minime de interacţiune dintre interacţiunile existente în fragment între perechi de atomi;

class descriptor_fragment{ //versori //descriptori de proprietate -> 1 proprietate, 1 distanta, 1 descriptor //un fragment -> un fragment & un varf //->metode de suprapunere function __construct($vx){ $this->v=$vx; $this->n=10; $this->f=array(); } function calculate($e,&$fr,&$s,&$v){ $this->spp_fr_field($e,$fr,$s,$v,0);/*f*/ $this->spp_vx_field($e,$fr,$s,$v,1);/*F*/ $this->spp_fr_prcen($e,$fr,$s,$v,2);/*c*/ $this->spp_vx_prcen($e,$fr,$s,$v,3);/*C*/ $this->spp_fr_poten($e,$fr,$s,$v,4);/*p*/ $this->spp_vx_poten($e,$fr,$s,$v,5);/*P*/ $this->spp_fr_maxfr($e,$fr,$s,$v,6);/*a*/ $this->spp_vx_maxvx($e,$fr,$s,$v,7);/*A*/ $this->spp_fr_minfr($e,$fr,$s,$v,8);/*i*/ $this->spp_vx_minvx($e,$fr,$s,$v,9);/*I*/ } function spp_fr_field($e,&$fr,&$s,&$v,$a){ //suprapune proiectii axiale //interactii in fragment, independente de varf $this->n=count($fr); $fr_f_x=0.0; $fr_f_y=0.0; $fr_f_z=0.0; for($i=0;$i<$this->n-1;$i++){ for($j=$i+1;$j<$this->n;$j++){ $val=$s[$fr[$i]][$fr[$j]][$e]; $fr_f_x+=$val*abs($v->val(0,$fr[$i],$fr[$j])); $fr_f_y+=$val*abs($v->val(1,$fr[$i],$fr[$j])); $fr_f_z+=$val*abs($v->val(2,$fr[$i],$fr[$j])); } } $fr_f_t=pow(pow($fr_f_x,2)+pow($fr_f_y,2)+pow($fr_f_z,2),0.5); if(!$fr_f_t) $fr_f_t=1.0; $fr_f_x/=$fr_f_t; $fr_f_y/=$fr_f_t; $fr_f_z/=$fr_f_t; $this->f[$a]=array($fr_f_t,$fr_f_x,$fr_f_y,$fr_f_z); } function spp_vx_field($e,&$fr,&$s,&$v,$a){ //suprapune proiectii axiale //interactii ale fragmentului cu varful $fr_f_x=0.0; $fr_f_y=0.0; $fr_f_z=0.0; for($i=0;$i<$this->n;$i++){ $val=$s[$this->v][$fr[$i]][$e]; $fr_f_x+=$val*$v->val(0,$this->v,$fr[$i]); $fr_f_y+=$val*$v->val(1,$this->v,$fr[$i]); $fr_f_z+=$val*$v->val(2,$this->v,$fr[$i]); }

184

Page 185: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$fr_f_t=pow(pow($fr_f_x,2)+pow($fr_f_y,2)+pow($fr_f_z,2),0.5); if(!$fr_f_t) $fr_f_t=1.0; $fr_f_x/=$fr_f_t; $fr_f_y/=$fr_f_t; $fr_f_z/=$fr_f_t; $this->f[$a]=array($fr_f_t,$fr_f_x,$fr_f_y,$fr_f_z); } function spp_fr_prcen($e,&$fr,&$s,&$v,$a){ //calculeaza centru de descriptor $fr_f_t=0.0; $fr_f_x=0.0; $fr_f_y=0.0; $fr_f_z=0.0; for($i=0;$i<$this->n-1;$i++){ for($j=$i+1;$j<$this->n;$j++){ $val=$s[$fr[$i]][$fr[$j]][$e]; $fr_f_t+=$val; $fr_f_x+=$val*abs($v->val(0,$fr[$i],$fr[$j])); $fr_f_y+=$val*abs($v->val(1,$fr[$i],$fr[$j])); $fr_f_z+=$val*abs($v->val(2,$fr[$i],$fr[$j])); } } if(!$fr_f_t) $fr_f_t=1.0; $fr_f_x/=$fr_f_t; $fr_f_y/=$fr_f_t; $fr_f_z/=$fr_f_t; $this->f[$a]=array($fr_f_t,$fr_f_x,$fr_f_y,$fr_f_z); } function spp_vx_prcen($e,&$fr,&$s,&$v,$a){ //calculeaza centru de descriptor $fr_f_t=0.0; $fr_f_x=0.0; $fr_f_y=0.0; $fr_f_z=0.0; for($i=0;$i<$this->n;$i++){ $val=$s[$this->v][$fr[$i]][$e]; $fr_f_t+=$val; $fr_f_x+=$val*$v->val(0,$this->v,$fr[$i]); $fr_f_y+=$val*$v->val(1,$this->v,$fr[$i]); $fr_f_z+=$val*$v->val(2,$this->v,$fr[$i]); } if(!$fr_f_t) $fr_f_t=1.0; $fr_f_x/=$fr_f_t; $fr_f_y/=$fr_f_t; $fr_f_z/=$fr_f_t; $this->f[$a]=array($fr_f_t,$fr_f_x,$fr_f_y,$fr_f_z); } function spp_fr_poten($e,&$fr,&$s,&$v,$a){ //mediaza versori & suprapune valori descriptori $fr_f_t=0.0; $fr_f_x=0.0; $fr_f_y=0.0; $fr_f_z=0.0; for($i=0;$i<$this->n-1;$i++){ for($j=$i+1;$j<$this->n;$j++){ $val=$s[$fr[$i]][$fr[$j]][$e]; $fr_f_t+=$val; $fr_f_x+=abs($v->val(0,$fr[$i],$fr[$j])); $fr_f_y+=abs($v->val(1,$fr[$i],$fr[$j])); $fr_f_z+=abs($v->val(2,$fr[$i],$fr[$j])); } } if($this->n<2){ $this->f[$a]=array(0.0,0.0,0.0,0.0); }else{ $val=$this->n*($this->n-1)/2; $fr_f_x/=$val; $fr_f_y/=$val; $fr_f_z/=$val; $this->f[$a]=array($fr_f_t,$fr_f_x,$fr_f_y,$fr_f_z); } } function spp_vx_poten($e,&$fr,&$s,&$v,$a){ //mediaza versori & suprapune valori descriptori $fr_f_t=0.0; $fr_f_x=0.0; $fr_f_y=0.0; $fr_f_z=0.0; for($i=0;$i<$this->n;$i++){

185

Page 186: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$val=$s[$this->v][$fr[$i]][$e]; $fr_f_t+=$val; $fr_f_x+=$v->val(0,$this->v,$fr[$i]); $fr_f_y+=$v->val(1,$this->v,$fr[$i]); $fr_f_z+=$v->val(2,$this->v,$fr[$i]); } $fr_f_x/=$this->n; $fr_f_y/=$this->n; $fr_f_z/=$this->n; $this->f[$a]=array($fr_f_t,$fr_f_x,$fr_f_y,$fr_f_z); } function spp_fr_maxfr($e,&$fr,&$s,&$v,$a){ //maxim valori descriptori $ret=array(0.0,0.0,0.0,0.0); for($i=0;$i<$this->n-1;$i++){ for($j=$i+1;$j<$this->n;$j++){ $val=$s[$fr[$i]][$fr[$j]][$e]; if($val>$ret[0]){ $ret[0]=$val; $ret[1]=abs($v->val(0,$fr[$i],$fr[$j])); $ret[2]=abs($v->val(1,$fr[$i],$fr[$j])); $ret[3]=abs($v->val(2,$fr[$i],$fr[$j])); } } } $this->f[$a]=$ret; } function spp_vx_maxvx($e,&$fr,&$s,&$v,$a){ //maxim valori descriptori $ret=array(0.0,0.0,0.0,0.0); for($i=0;$i<$this->n;$i++){ $val=$s[$this->v][$fr[$i]][$e]; if($val>$ret[0]){ $ret[0]=$val; $ret[1]=abs($v->val(0,$this->v,$fr[$i])); $ret[2]=abs($v->val(1,$this->v,$fr[$i])); $ret[3]=abs($v->val(2,$this->v,$fr[$i])); } } $this->f[$a]=$ret; } function spp_fr_minfr($e,&$fr,&$s,&$v,$a){ //minim valori descriptori if($this->n<2){ $this->f[$a]=array(0.0,0.0,0.0,0.0); return; }else{ $ret[0]=$s[$fr[0]][$fr[1]][$e]; $ret[1]=abs($v->val(0,$fr[0],$fr[1])); $ret[2]=abs($v->val(1,$fr[0],$fr[1])); $ret[3]=abs($v->val(2,$fr[0],$fr[1])); for($i=0;$i<$this->n-1;$i++){ for($j=$i+1;$j<$this->n;$j++){ $val=$s[$fr[$i]][$fr[$j]][$e]; if($val<$ret[0]){ $ret[0]=$val; $ret[1]=abs($v->val(0,$fr[$i],$fr[$j])); $ret[2]=abs($v->val(1,$fr[$i],$fr[$j])); $ret[3]=abs($v->val(2,$fr[$i],$fr[$j])); } } } } $this->f[$a]=$ret; } function spp_vx_minvx($e,&$fr,&$s,&$v,$a){ //minim valori descriptori $ret[0]=$s[$this->v][$fr[0]][$e]; $ret[1]=abs($v->val(0,$this->v,$fr[0])); $ret[2]=abs($v->val(1,$this->v,$fr[0])); $ret[3]=abs($v->val(2,$this->v,$fr[0])); for($i=1;$i<$this->n;$i++){ $val=$s[$this->v][$fr[$i]][$e]; if($val<$ret[0]){ $ret[0]=$val; $ret[1]=abs($v->val(0,$this->v,$fr[$i])); $ret[2]=abs($v->val(1,$this->v,$fr[$i])); $ret[3]=abs($v->val(2,$this->v,$fr[$i])); }

186

Page 187: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

} $this->f[$a]=$ret; } }

Interacţiunile din interiorul unui fragment se cumulează la nivel de atom pentru toate fragmentele ce rezultă prin delocalizarea atomului considerat din structura moleculară; suprapunerile la acest nivel sunt realizate de funcţiile implementate în clasa class_descriptor_4vertx.php; la acest nivel au loc din nou suprapuneri de acelaşi tip (dar distincte ca modalitate de calcul) ca cele de la pasul anterior, şi anume: ÷ 2 tipuri de suprapuneri vectoriale folosind drept reper sistemul de coordonate de referinţă al

moleculei (suprapuneri scalare pe proiecţiile axiale ale sistemului de coordonate folosit); ÷ 2 tipuri de suprapuneri vectoriale folosind drept reper un sistem de coordonate local al atomului

- calculat ca centru de proprietate - (suprapuneri scalare pe proiecţiile axiale ale sistemului de coordonate folosit);

÷ 2 tipuri de suprapuneri scalare (ignorând orientarea vectorială şi folosind valoarea absolută) - interacţiune de tip potenţial;

÷ 2 tipuri de selecţii ale valorilor maxime de interacţiune dintre interacţiunile existente în fragmentele atomului;

÷ 2 tipuri de selecţii ale valorilor minime de interacţiune dintre interacţiunile existente în fragmentele atomului;

class descriptor_vertex{ function __construct($e,$vx,&$fr,&$s,&$v){ $this->v=$vx; $this->n=count($fr); $local = new descriptor_fragment($vx); $this->m=$local->n; for($i=0;$i<$this->n;$i++){ $local->calculate($e,$fr[$i],$s,$v); $this->d[$i]=$local->f; } } function calculate(){ $this->superposing_max_0(0);//A $this->superposing_max_1(1);//a $this->superposing_min_0(2);//I $this->superposing_min_1(3);//i $this->superposing_field(4);//F $this->superposing_poten(5);//P $this->superposing_centr(6);//C unset($this->d); $this->n=7; } function superposing_max_0($r){//A $ret=$this->d[0]; for($i=1;$i<$this->n;$i++){ for($j=0;$j<$this->m;$j++){//fFcCpP if($ret[$j][0]<$this->d[$i][$j][0]) $ret[$j]=$this->d[$i][$j]; } } $this->f[$r]=$ret; } function superposing_min_0($r){//a $ret=$this->d[0]; for($i=1;$i<$this->n;$i++){ for($j=0;$j<$this->m;$j++){//fFcCpP if($ret[$j][0]>$this->d[$i][$j][0]) $ret[$j]=$this->d[$i][$j]; } } $this->f[$r]=$ret; } function superposing_max_1($r){//I $ret=$this->d[0]; $retv=pow($ret[1],2)+pow($ret[2],2)+pow($ret[3],2); for($i=1;$i<$this->n;$i++){ for($j=0;$j<$this->m;$j++){//fFcCpP $dv=pow($this->d[$i][$j][1],2)+pow($this->d[$i][$j][2],2)+pow($this->d[$i][$j][3],2); if($retv<$dv){ $ret[$j]=$this->d[$i][$j]; $retv=$dv; }

187

Page 188: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

} } $this->f[$r]=$ret; } function superposing_min_1($r){//i $ret=$this->d[0]; $retv=pow($ret[1],2)+pow($ret[2],2)+pow($ret[3],2); for($i=1;$i<$this->n;$i++){ for($j=0;$j<$this->m;$j++){//fFcCpP $dv=pow($this->d[$i][$j][1],2)+pow($this->d[$i][$j][2],2)+pow($this->d[$i][$j][3],2); if($retv>$dv){ $ret[$j]=$this->d[$i][$j]; $retv=$dv; } } } $this->f[$r]=$ret; } function superposing_field($r){//F for($j=0;$j<$this->m;$j++){ $ret[$j]=array(0.0,0.0,0.0,0.0); } for($i=0;$i<$this->n;$i++){ for($j=0;$j<$this->m;$j++){//fFcCpP $ret[$j][1]+=$this->d[$i][$j][0]*$this->d[$i][$j][1]; $ret[$j][2]+=$this->d[$i][$j][0]*$this->d[$i][$j][2]; $ret[$j][3]+=$this->d[$i][$j][0]*$this->d[$i][$j][3]; } } for($j=0;$j<$this->m;$j++){ $ret[$j][0]=pow(pow($ret[$j][1],2)+pow($ret[$j][2],2)+pow($ret[$j][3],2),0.5); } $this->f[$r]=$ret; } function superposing_poten($r){//P for($j=0;$j<$this->m;$j++){ $ret[$j]=array(0.0,0.0,0.0,0.0); } for($i=0;$i<$this->n;$i++){ for($j=0;$j<$this->m;$j++){//fFcCpP for($k=0;$k<4;$k++){ $ret[$j][$k]+=$this->d[$i][$j][$k]; } } } $this->f[$r]=$ret; } function superposing_centr($r){//C for($j=0;$j<$this->m;$j++){ $ret[$j]=array(0.0,0.0,0.0,0.0); } for($i=0;$i<$this->n;$i++){ for($j=0;$j<$this->m;$j++){//fFcCpP $ret[$j][0]+=$this->d[$i][$j][0]; for($k=1;$k<4;$k++){ $ret[$j][$k]+=abs($this->d[$i][$j][$k]); } } } $this->f[$r]=$ret; } }

Interacţiunile din interiorul unei molecule se cumulează de la nivel de atom; suprapunerile la acest nivel sunt realizate de funcţiile implementate în clasa class_descriptor_5molec.php; la acest nivel au loc din nou suprapuneri de acelaşi tip (dar distincte ca modalitate de calcul) ca cele de la ultimii doi paşi realizaţi anterior, şi anume: ÷ 2 tipuri de suprapuneri vectoriale folosind drept reper sistemul de coordonate de referinţă al

moleculei (suprapuneri scalare pe proiecţiile axiale ale sistemului de coordonate folosit); ÷ 2 tipuri de suprapuneri vectoriale folosind drept reper un sistem de coordonate local al

moleculei - calculat ca centru de proprietate - (suprapuneri scalare pe proiecţiile axiale ale sistemului de coordonate folosit);

÷ 2 tipuri de suprapuneri scalare (ignorând orientarea vectorială şi folosind valoarea absolută) - interacţiune de tip potenţial;

188

Page 189: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ 2 tipuri de selecţii ale valorilor maxime de interacţiune dintre interacţiunile existente în atomii moleculei;

÷ 2 tipuri de selecţii ale valorilor minime de interacţiune dintre interacţiunile existente în atomii moleculei;

class descriptor_molecule{ function __construct($e,&$fr,&$s,&$v){ $this->n=count($fr); for($i=0;$i<$this->n;$i++){ $local = new descriptor_vertex($e,$i,$fr[$i],$s,$v); $local->calculate(); $this->m=$local->n; $this->p=$local->m; $this->d[$i]=$local->f; } } function calculate(){ $this->superposing_max_0(0);//A $this->superposing_max_1(1);//a $this->superposing_min_0(2);//I $this->superposing_min_1(3);//i $this->superposing_field(4);//F $this->superposing_poten(5);//P $this->superposing_centr(6);//C unset($this->d); } function sprint(&$contor,&$mol/*$fp*/){//$s $md="AaIiFPC" $vd="AaIiFPC" $fd="fFcCpPaAiI" $m=count($this->f); $n=count($this->f[0]); $p=count($this->f[0][0]); for($i=0;$i<$m;$i++){ for($j=0;$j<$n;$j++){ for($k=0;$k<$p;$k++){ //$st=$s.$md[$i].$vd[$j].$fd[$k]; $this->sprints($contor,$mol/*$fp*/,$this->f[$i][$j][$k]); } } } } function sprints(&$contor,&$mol/*$fp*/,$v){//&$s $sd="Dd"; $md[0]=$v[0]; $md[1]=pow($v[1],2)+pow($v[2],2)+pow($v[3],2); for($i=0;$i<2;$i++){ ////////////////////////// $contor++; $q=mysql_query("UPDATE `".setd."_mdfv` SET `".$mol."` = '".$this->formats($md[$i])."' WHERE `id`='".$contor."'"); //fputs($fp,$this->formats($md[$i])."\r\n");//$s.$sd[$i]."I" if($md[$i]){ $contor++; $q=mysql_query("UPDATE `".setd."_mdfv` SET `".$mol."` = '".$this->formats(1.00/$md[$i])."' WHERE `id`='".$contor."'"); $contor++; $q=mysql_query("UPDATE `".setd."_mdfv` SET `".$mol."` = '".$this->formats(log($md[$i]))."' WHERE `id`='".$contor."'"); //fputs($fp,$this->formats(1.00/$md[$i])."\r\n");//$s.$sd[$i]."R" //fputs($fp,$this->formats(log($md[$i]))."\r\n");//$s.$sd[$i]."L" }else{ $contor++; $q=mysql_query("UPDATE `".setd."_mdfv` SET `".$mol."` = 'INF' WHERE `id`='".$contor."'"); $contor++; $q=mysql_query("UPDATE `".setd."_mdfv` SET `".$mol."` = 'INF' WHERE `id`='".$contor."'"); //fputs($fp,"INF\r\n");//$s.$sd[$i]."R" //fputs($fp,"INF\r\n");//$s.$sd[$i]."L" } ////////////////////////// } } function formats($value){ $prec=4; if(!is_finite($value)) return (float)"INF"; $nr_cifre=round(log(abs($value),10)); $value*=pow(10,-$nr_cifre); $value=sprintf("%.".$prec."f",$value); $value*=pow(10,$nr_cifre); return $value; } function superposing_max_0($r){//A $ret=$this->d[0];

189

Page 190: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

for($i=1;$i<$this->n;$i++){//vertices for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors if($ret[$j][$k][0]<$this->d[$i][$j][$k][0]) $ret[$j][$k]=$this->d[$i][$j][$k]; } } } $this->f[$r]=$ret; } function superposing_min_0($r){//a $ret=$this->d[0]; for($i=1;$i<$this->n;$i++){//vertices for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors if($ret[$j][$k][0]>$this->d[$i][$j][$k][0]) $ret[$j][$k]=$this->d[$i][$j][$k]; } } } $this->f[$r]=$ret; } function superposing_max_1($r){//I $ret=$this->d[0]; $retv=pow($ret[0][0][1],2)+pow($ret[0][0][2],2)+pow($ret[0][0][3],2); for($i=1;$i<$this->n;$i++){//vertices for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors $dv=pow($this->d[$i][$j][$k][1],2)+pow($this->d[$i][$j][$k][2],2)+pow($this->d[$i][$j][$k][3],2); if($retv<$dv){ $ret[$j][$k]=$this->d[$i][$j][$k]; $retv=$dv; } } } } $this->f[$r]=$ret; } function superposing_min_1($r){//i $ret=$this->d[0]; $retv=pow($ret[0][0][1],2)+pow($ret[0][0][2],2)+pow($ret[0][0][3],2); for($i=1;$i<$this->n;$i++){//vertices for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors $dv=pow($this->d[$i][$j][$k][1],2)+pow($this->d[$i][$j][$k][2],2)+pow($this->d[$i][$j][$k][3],2); if($retv>$dv){ $ret[$j][$k]=$this->d[$i][$j][$k]; $retv=$dv; } } } } $this->f[$r]=$ret; } function superposing_field($r){//F for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors $ret[$j][$k]=array(0.0,0.0,0.0,0.0); } } for($i=0;$i<$this->n;$i++){//vertices for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors $ret[$j][$k][1]+=$this->d[$i][$j][$k][0]*$this->d[$i][$j][$k][1]; $ret[$j][$k][2]+=$this->d[$i][$j][$k][0]*$this->d[$i][$j][$k][2]; $ret[$j][$k][3]+=$this->d[$i][$j][$k][0]*$this->d[$i][$j][$k][3]; } } } for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors $ret[$j][$k][0]=pow(pow($ret[$j][$k][1],2)+pow($ret[$j][$k][2],2)+pow($ret[$j][$k][3],2),0.5); } } $this->f[$r]=$ret; } function superposing_poten($r){//P for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors

190

Page 191: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$ret[$j][$k]=array(0.0,0.0,0.0,0.0); } } for($i=0;$i<$this->n;$i++){//vertices for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors for($l=0;$l<4;$l++){ $ret[$j][$k][$l]+=$this->d[$i][$j][$k][$l]; } } } } $this->f[$r]=$ret; } function superposing_centr($r){//C for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors $ret[$j][$k]=array(0.0,0.0,0.0,0.0); } } for($i=0;$i<$this->n;$i++){//vertices for($j=0;$j<$this->m;$j++){//vertex_descriptors for($k=0;$k<$this->p;$k++){//fragment_descriptors $ret[$j][$k][0]+=$this->d[$i][$j][$k][0]; for($l=1;$l<4;$l++){ $ret[$j][$k][$l]+=abs($this->d[$i][$j][$k][$l]); } } } } $this->f[$r]=$ret; } }

În final, trei tipuri de linearizări reprezintă alternative de calcul, care însă datorită simplităţii (directă, reciprocă, logaritm) nu au mai necesitat definirea şi implementarea unei clase în acest sens, fiind calculate după construcţia efectivă a fiecărui descriptor molecular pe calea descrisă mai sus şi fiind apoi stocate în baza de date (tabela de set cu terminaţia _mdfv). O serie de 8 aplicaţii procesează informaţia moleculară şi materializează familia de descriptori pentru un set de molecule; aplicaţiile realizate sunt descrise în continuare. 0_mdfv_set_def.php - iniţializează variabilele de mediu pentru realizarea conexiunii la baza de date şi iniţializează variabila ce defineşte setul supus investigaţiei. define("host","172.27.211.5"); define("user","XXXX"); define("pass","YYYY"); define("mdfv","MDFV"); define("setd","taxoids"); $c=@mysql_connect(host,user,pass); if($c===FALSE){ echo("Host, User, or Pass Wrong and/or Not avaliable.\r\n"); echo("Application cannot continue.\r\n"); return(FALSE); } $q=@mysql_query("USE `".mdfv."`"); if($q===FALSE){ echo("Database ".mdfv." inexistent or not granted.\r\n"); echo("Application cannot continue.\r\n"); return(FALSE); } return FALSE; 1_mdfv_set_init.php - materializează şablonul (macheta) structurii tabelelor de date (_data), pentru descriptorii de structură (_mdfv), pentru activităţile experimentale observate (_prop) şi pentru relaţiile structură-activitate ce urmează a fi obţinute; alocă spaţiu în baza de date pentru descriptorii de structură ce urmează a fi calculaţi. $test=@include("0_mdfv_set_def.php"); if($test===FALSE){ echo("Missing important definitions for MDFV (0_mdfv_set_def.php).\r\n"); echo("Application cannot continue.\r\n"); return(FALSE); } if(defined("setd")===FALSE){ echo("Constant 'setd' undefined. Application cannot continue.\r\n"); return(FALSE);

191

Page 192: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

} $query="SHOW TABLES FROM `".mdfv."` LIKE '_mdfv'"; $q=@mysql_query($query); if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); } $n=mysql_num_rows($q); mysql_free_result($q); if($n==0){ echo("Table `_mdfv` must be created!\r\n"); $query="CREATE TABLE `_mdfv` (`id` BIGINT NOT NULL AUTO_INCREMENT, `name` VARCHAR(8) NOT NULL, PRIMARY KEY(`id`))"; $q=@mysql_query($query); if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); } $test=@include("class_descriptor_0names.php"); if($test===FALSE){ echo("Missing important definitions for MDFV (class_descriptor_0names.php).\r\n"); echo("Application cannot continue.\r\n"); return(FALSE); } $f = new descriptor_names(); $f->sprint(); unset($f); //return(FALSE); } $test=@dir(setd); if($test===FALSE){ echo("Directory '".setd."' does not exists. Please check manualy.\r\n"); echo("Application cannot continue.\r\n"); return(FALSE); } $hin_files=array(); while(TRUE){ $entry = $test->read(); if($entry === FALSE)break; $hin=explode(".hin",$entry); if(count($hin)>2){ echo("Hin processing error. Application cannot continue.\r\n"); return(FALSE); }elseif(count($hin)<2){ continue; } $hin_files[]=$hin[0]; } $test->close(); if(count($hin_files)<4){ echo("Too few molecules. Application cannot continue.\r\n"); return(FALSE); } //print_r($hin_files); $query="SHOW TABLES FROM `".mdfv."` LIKE '".setd."_%'"; $q=@mysql_query($query); if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); } $n=mysql_num_rows($q); mysql_free_result($q); if($n>0){ echo("Tables `".setd."_%` already exist into `".mdfv."` database. Drop them and try again!\r\n"); return(FALSE); } $query="CREATE TABLE `".setd."_data` (`id` INT NOT NULL AUTO_INCREMENT, `mol` VARCHAR(255) NOT NULL, `hin` LONGTEXT NOT NULL, PRIMARY KEY(`id`))"; $q=@mysql_query($query); if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); } echo("`".setd."_data` table created.\r\n"); foreach($hin_files as $k => $v){ $query="INSERT INTO `".setd."_data` (`mol`,`hin`) VALUES ('".addslashes($v)."','".addslashes(file_get_contents(setd."/".$v.".hin"))."')"; $q=@mysql_query($query);

192

Page 193: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); } } echo("*hin files uploaded into `".setd."_data` table.\r\n"); $query="CREATE TABLE `".setd."_prop` (`property` VARCHAR(255) NOT NULL, "; $query.="`".implode("` DOUBLE NOT NULL DEFAULT '1e101', `",$hin_files)."` DOUBLE NOT NULL DEFAULT '1e101'"; $query.=")"; $q=@mysql_query($query); if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); } echo("`".setd."_prop` table created for further usage.\r\n"); $query="CREATE TABLE `".setd."_mdfv` (`id` BIGINT NOT NULL AUTO_INCREMENT,"; $query.="`".implode("` DOUBLE NOT NULL, `",$hin_files)."` DOUBLE NOT NULL,"; $query.=" PRIMARY KEY(`id`))"; $q=@mysql_query($query); if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); } echo("`".setd."_mdfv` table created.\r\n"); $query="INSERT INTO `".setd."_mdfv` (`id`) SELECT `id` FROM `_mdfv`"; $q=@mysql_query($query); if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); } echo("space allocated for mdfv descriptors into `".setd."_data` table.\r\n");

2_mdfv_set_calc.php - foloseşte o parte din clasele definite (de la 1 la 5) pentru a calcula familia de descriptori pentru moleculele setului supus investigaţiei; stochează rezultatele în baza de date în tabela de set cu terminaţia _mdfv. require_once("class_jobs.php"); require_once("class_descriptor_1atoms.php"); require_once("class_descriptor_2pairs.php"); require_once("class_descriptor_3fragm.php"); require_once("class_descriptor_4vertx.php"); require_once("class_descriptor_5molec.php"); $test=@include("0_mdfv_set_def.php"); if($test===FALSE){ echo("Missing important definitions for MDFV (0_mdfv_set_def.php).\r\n"); echo("Application cannot continue.\r\n"); return(FALSE); } if(defined("setd")===FALSE){ echo("Constant 'setd' undefined. Application cannot continue.\r\n"); return(FALSE); } $job = new job_list(array()/*array("033_7282","034_11507","037_7892","038_6403","046_8900","047_8058","049_7296","051_8003")*/); $a = new ato_type(); for($i=0;$i<$job->n;$i++){ $m = new hin_file($job->m[$i]); $m->create_structure(); $m->remove_atoms("H"); $m->create_topology(); $m->create_chemistry($a); $m->create_matrix_adjacency(); $m->create_matrix_distance(); unset($m->geometry); $m->create_fragments(); unset($m->topology); unset($m->adjcency); //echo($m->display_all_fragments()); $d = new distance_object($m->distance); $v[0] = new versor_object_t($m->distance); $v[1] = new versor_object_g($m->distance); unset($m->distance); $p = new property_object($m->property); unset($m->property); echo($i."\t[".memory_get_usage()."]\t".$job->m[$i]."\r\n"); compute_molecule($m->n,$m->fragment,$p,$d,$v,$job->m[$i]); unset($m->fragment); unset($v); unset($d); unset($p);

193

Page 194: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

unset($m); } unset($a); unset($job); die(); function compute_molecule($n,&$fr,&$p,&$d,&$v,&$mol){ //$dd="TG"; $pp="CHMEQLA"; $ee="JjOoPpQqRrKkLlMmNnWwXxYyZzSsTtUuVvFfGgHhIiAaBbCcDd01234567"; $contor=0; //$fp=@fopen($fn,"w+"); //if(!$fp)die("die from fopen: open of ".$fn." fails.\r\n"); for($id=0;$id<$d->n;$id++){ for($ip=0;$ip<$p->n;$ip++){ create_pd_descriptor($n,$ip,$id,$p,$d,$e); for($ie=0;$ie<58;$ie++){ $md = new descriptor_molecule($ie,$fr,$e,$v[$id]); $md->calculate(); $md->sprint($contor,$mol/*$fp*/);//$dd[$id].$pp[$ip].$ee[$ie] unset($md); } unset($e); } } //fclose($fp); } 3_mdfv_prop_def.php - iniţializează variabilele de mediu pentru o activitate supusă analizei. $test=@include("0_mdfv_set_def.php"); if($test===FALSE){ echo("Missing important definitions for MDFV (0_mdfv_set_def.php).\r\n"); echo("Application cannot continue.\r\n"); return(FALSE); } if(defined("setd")===FALSE){ echo("Constant 'setd' undefined. Application cannot continue.\r\n"); return(FALSE); } define("propd","logIC50"); define("nact",1e100); define("dcnt",2387280); define("clas",3); define("bige",1e+14); define("lowe",1e-14); define("uppe",0.90); define("boto",0.10); //return FALSE; 4_mdfv_prop_upload.php - încarcă în baza de date în tabela cu terminaţia _prop dintr-un fişier local valorile activităţii pentru moleculele setului investigat. $test=@include("3_mdfv_prop_def.php"); if($test===FALSE){ echo("Missing important definitions for MDFV (3_mdfv_prop_def.php).\r\n"); echo("Application cannot continue.\r\n"); return(FALSE); } if(defined("propd")===FALSE){ echo("Constant 'setd' undefined. Application cannot continue.\r\n"); return(FALSE); } $q=@mysql_query("SELECT * FROM `".setd."_prop` WHERE `property` = '".propd."'"); if(!$q){ echo(propd." property SELECT in `".setd."_prop` table ERROR!\r\n"); return(FALSE); } $n=mysql_num_rows($q); if($n>0){ echo(propd." property already found in `".setd."_prop` table. :ERROR!\r\n"); return(FALSE); } mysql_free_result($q); $a=@file_get_contents(setd."/_".propd.".txt"); if($a===FALSE){ echo(setd."/_".propd.".txt file NOT FOUND. Application cannot continue.\r\n"); return(FALSE); } $b=explode("\r\n",$a); if(!(count(explode("\t",$b[0]))==2)){ echo(setd."/_".propd.".txt file DID NOT CONTAINS TWO COLUMNS. Application cannot continue.\r\n"); return(FALSE);

194

Page 195: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

} unset($a); $query="INSERT INTO `".setd."_prop` (`property`"; for($i=0;$i<count($b);$i++){ $a=explode("\t",$b[$i]); $d0[$i]=$a[0]; $d1[$i]=$a[1]; } unset($a); unset($b); $query2=""; for($i=0;$i<count($d0);$i++){ $query.=", `".$d0[$i]."`"; $query2.=", '".$d1[$i]."'"; } unset($d0); unset($d1); $query.=") VALUES ('".propd."'".$query2.")"; unset($query2); $q=@mysql_query($query); if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); }

5_mdfv_prop_init.php - creează în baza de date un tabel cu terminaţia numele proprietăţii folosind drept şablon tabelul de set cu terminaţia _mdfv; încarcă în tabelul creat din tabelul de set cu terminaţia _mdfv descriptorii care se califică pentru aceasta folosind următoarele filtre (impuneri): ÷ (reali) valori finite ale descriptorului pentru fiecare moleculă a setului; ÷ (distincţi) valori distincte ale vectorului descriptor de set în raport cu vectorii de set deja

încărcaţi; ÷ (mărginiţi superior) valori ale descriptorului pentru fiecare moleculă a setului mai mici decât o

valoare limită superioară (definită în 3_mdfv_prop_def.php); ÷ (mărginiţi inferior) valori ale descriptorului pentru fiecare moleculă a setului mai mari decât o

valoare limită superioară (definită în 3_mdfv_prop_def.php); ÷ (conţinând variabilitate) dispersia valorilor vectorului descriptor este o valoare finită; $test=@include("3_mdfv_prop_def.php"); if($test===FALSE){ echo("Missing important definitions for MDFV (3_mdfv_prop_def.php).\r\n"); echo("Application cannot continue.\r\n"); return(FALSE); } if(defined("propd")===FALSE){ echo("Constant 'setd' undefined. Application cannot continue.\r\n"); return(FALSE); } $q=@mysql_query("SELECT * FROM `".setd."_prop` WHERE `property` = '".propd."'"); if(!$q){ echo(propd." property SELECT in `".setd."_prop` table ERROR!\r\n"); return(FALSE); } $n=mysql_num_rows($q); if(($n<1)||($n>1)){ echo(propd." property not properly defined in `".setd."_prop` table. :ERROR!\r\n"); return(FALSE); } $r=mysql_fetch_array($q,MYSQL_ASSOC); mysql_free_result($q); echo("Property `".propd."` found into database (`".setd."_prop` table).\r\n"); $query="SHOW TABLES FROM `".mdfv."` LIKE '".setd."__".propd."'"; $q=@mysql_query($query); if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); } $n=mysql_num_rows($q); mysql_free_result($q); if($n>0){ echo("Table ".setd."__".propd."' already exist. Drop it and try again!\r\n"); return(FALSE); } array_shift($r); $mol_list=array();

195

Page 196: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$y_values=array(); foreach($r as $k => $v){ if($v<nact){ $mol_list[]=$k; $y_values[]=$v; } } unset($r); $query="CREATE TABLE `".setd."__".propd."` (`id` BIGINT NOT NULL AUTO_INCREMENT, `name` VARCHAR(8) NOT NULL, `kc` INT NOT NULL, `r2` DOUBLE NOT NULL DEFAULT 0, "; $query.="`".implode("` DOUBLE NOT NULL DEFAULT '1e101', `",$mol_list)."` DOUBLE NOT NULL DEFAULT '1e101', PRIMARY KEY(`id`))"; $q=@mysql_query($query); if(!$q){ echo($query." :ERROR!\r\n"); return(FALSE); } echo("Table `".setd."__".propd."` created.\r\n"); $df = new descriptor_filter($mol_list,$y_values); unset($mol_list); unset($y_values); $df->browse_names(); die("normal shutdown.\r\n"); class descriptor_filter{ function __construct(&$m_list,&$y_list){ $this->m=count($m_list); $this->ml=$m_list; $this->y=$y_list; $this->x=array(); $this->my1=$this->m1($this->y); $this->dy2=$this->m2($this->y,$this->y)-$this->my1*$this->my1; $this->mx1=0.0; $this->dx2=0.0; $this->r2=0.0; $this->qs="SELECT `".implode("`, `",$m_list)."` FROM `".setd."_mdfv` WHERE `id` = "; $this->qi="INSERT INTO `".setd."__".propd."` VALUES ('',"; $this->qk="SELECT `".implode("`, `",$m_list)."` FROM `".setd."__".propd."` WHERE `kc` = "; $this->qn="SELECT `name` FROM `_mdfv` WHERE `id` = "; $this->l=array(); $this->n=0; } function coef_r2(){ $mxy=$this->m2($this->x,$this->y); $this->r2=pow($mxy-$this->mx1*$this->my1,2)/($this->dx2*$this->dy2); } function coeg_r2(&$y){ $m1y=$this->m1($y); $m2y=$m1y*$m1y; $my2=$this->m2($y,$y); $dy2=$my2-$m2y; if(!$dy2)return(-1.0); $mxy=$this->m2($y,$this->x); return pow($mxy-$this->mx1*$m1y,2)/($this->dx2*$dy2); } function get_mdfv(&$id){ $q=mysql_query($this->qs."'".$id."'"); $this->x=mysql_fetch_row($q); mysql_free_result($q); } function table_insert($i,$k){ $q=mysql_query($this->qn."'".$i."'"); if(!$q)die("SELECT NAME ERROR!"); $n=mysql_fetch_row($q); mysql_free_result($q); $query=$this->qi."'".$n[0]."','".$k."','".$this->r2."','".implode("', '",$this->x)."')"; $q=mysql_query($query); if(!$q) die($query." :insert error\r\n"); } function table_select($k){ $q=mysql_query($this->qk."'".$k."'"); if(!$q) die("select error\r\n"); return($q); } function index(){ $val=$this->r2*pow(10,clas); $val=trim(sprintf("%.0f",$val)); return($val); } function one_row(){

196

Page 197: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$ok=$this->check_finite();if(!$ok)return(FALSE); $ok=$this->check_similarity();if(!$ok)return(FALSE); $ok=$this->check_too_big();if($ok)return(FALSE); $ok=$this->check_too_low();if($ok)return(FALSE); $this->mx1=$this->m1($this->x); $m2x=$this->mx1*$this->mx1; $mx2=$this->m2($this->x,$this->x); $this->dx2=$mx2-$m2x; if(!$this->dx2)return(FALSE); return(TRUE); } function check_similarity(){ $is_same=1; for($i=1;$i<$this->m;$i++){ if($this->x[$i]==$this->x[0]){ $is_same++; }else break; } return ($is_same<>$this->m); } function check_finite(){ $is_finite=TRUE; for($i=0;$i<$this->m;$i++){ if(strtoupper($this->x[$i])=="INF"){ $is_finite=FALSE; break; } $this->x[$i]=(float)$this->x[$i]; } return $is_finite; } function check_too_big(){ $is_big=FALSE; for($i=0;$i<$this->m;$i++){ if(abs($this->x[$i])>bige){ $is_big=TRUE; break; } } return $is_big; } function check_too_low(){ $is_low=FALSE; for($i=0;$i<$this->m;$i++){ if($this->x[$i]) if(abs($this->x[$i])<lowe){ $is_low=TRUE; break; } } return $is_low; } function m1(&$v){ $rez=0; for($i=0;$i<$this->m;$i++) $rez+=$v[$i]; return $rez/$this->m; } function m2(&$v,&$u){ $rez=0; for($i=0;$i<$this->m;$i++) $rez+=$v[$i]*$u[$i]; return $rez/$this->m; } function browse_names(){ $maxr=0.0; $number_of=0; for($i=1;$i<=dcnt;$i++){ if($i % 10000 == 0) echo(sprintf("%7d",$i)." ".sprintf("%5d",count($this->l))." ".sprintf("%5d",$number_of)." [".memory_get_usage()."] ".sprintf("%.4f",$maxr)." ".$q."\r\n"); $this->get_mdfv($i); $finite=$this->one_row(); if(!$finite)continue; $this->coef_r2(); if($this->r2<boto)continue;//0.10 if($maxr<$this->r2)$maxr=$this->r2; $k=$this->index(); if(array_key_exists($k,$this->l)===TRUE){//de imbunatatit cu corelatii incrucisate

197

Page 198: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$q=$this->table_select($k); $is_already=FALSE; for(;$r=mysql_fetch_row($q);){ $new_r2=$this->coeg_r2($r); if($new_r2<0){//-1 $is_already=TRUE; break; } if($new_r2>uppe){//0.90 $is_already=TRUE; break; } } mysql_free_result($q); if(!$is_already){ $this->table_insert($i,$k); $number_of++; } }else{ $this->table_insert($i,$k); $this->l[$k]=$i; } } $this->n=count($this->l); echo("classes: ".$this->n."\r\n"); echo("members: ".$number_of."\r\n"); echo($maxr."\r\n"); } }

6_mdfv_prop_kusk.php - calculează statistica Jarque-Bera (valoarea Chi Square pentru boltire şi asimetrie simultane) a activităţii experimentale observate şi a fiecărui descriptor calificat de impunerile anterioare (5_mdfv_prop_init.php); calculează coeficientul de determinare dintre activitate şi descriptor; descalifică (şterge din tabelă) descriptorii care simultan prezintă o depărtare de la normalitate mai mare decât cea existentă în activitatea experimentală observată şi au o determinare mai mică decât o valoare de prag (definită în 3_mdfv_prop_def.php). require_once("/usr/home/lori/MDFV/Probability_Distributions_Library/ChiSqrDistribution.php"); $test=@include("3_mdfv_prop_def.php"); if($test===FALSE) {echo("Missing important definitions for MDFV (3_mdfv_prop_def.php).\r\nApplication cannot continue.\r\n");return(FALSE);} if(defined("propd")===FALSE){echo("Constant 'setd' undefined. Application cannot continue.\r\n");return(FALSE);} $q=@mysql_query("SELECT * FROM `".setd."_prop` WHERE `property` = '".propd."'"); if(!$q){echo(propd." property SELECT in `".setd."_prop` table ERROR!\r\n");return(FALSE);} $n=mysql_num_rows($q); if(($n<1)||($n>1)){echo(propd." property not properly defined in `".setd."_prop` table. :ERROR!\r\n");return(FALSE);} $r=mysql_fetch_array($q,MYSQL_ASSOC); array_shift($r); $mols=array();$Y=array();foreach($r as $k => $v){if($v<nact){$mols[]=$k;$Y[]=$v;}}unset($r);$n_mol=count($mols); mysql_free_result($q); $Y_m=sm($Y,$n_mol); $Y2m=m2($Y,$Y,$n_mol); $Y2d=$Y2m-$Y_m*$Y_m; $Y_ku=g2_s($Y_m,$Y,$n_mol); $Y_sk=g1_s($Y_m,$Y,$n_mol); $JB=$n_mol*(pow($Y_sk,2)+pow($Y_ku,2)/4.0)/6.0; $chi22 = new ChiSqrDistribution(2); $pchi22=1.0-$chi22->CDF($JB); $Y_JB=$JB; $Y_p=$pchi22; //echo("PTrueX2JB2/2=".(1.0-$chi22->CDF($JB/2))."\r\n"); //echo("Property `".propd."` found into database (`".setd."_prop` table).\r\n"); //echo("Var\tKurt\tSkew\tJBera\tpTrue\tr2\r\n"); //echo("Y\t".$Y_ku."\t".$Y_sk."\t".$JB."\t".$pchi22."\t".(1.0)."\r\n"); $query="SHOW TABLES FROM `".mdfv."` LIKE '".setd."__".propd."'"; $q=@mysql_query($query);if(!$q){echo($query." :ERROR!\r\n");return(FALSE);}$n=mysql_num_rows($q);mysql_free_result($q); if($n<1){echo("Table ".setd."__".propd."' not found. Go back!\r\n");return(FALSE);} $q=@mysql_query("SELECT `id` FROM `".setd."__".propd."` WHERE 1 ORDER BY `kc` DESC, `r2` DESC, `id` ASC"); if(!$q){echo($query." :ERROR!\r\n");return(FALSE);} $mdfvprop=array();for(;$r=mysql_fetch_row($q);){$mdfvprop[]=$r[0];} $n_desc=count($mdfvprop);mysql_free_result($q); $query_prop="SELECT `".implode("`, `",$mols)."` FROM `".setd."__".propd."` WHERE `id` = "; $r2_reject=0.0; $cnt_acc=0; echo("Found descriptors: ".$n_desc."\r\n"); for($j=0;$j<$n_desc;$j++){ if($mdfvprop[$j]==0)continue;

198

Page 199: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$q=mysql_query($query_prop."'".$mdfvprop[$j]."'"); if(!$q)die($query_prop."'".$mdfvprop[$j]."' :ERROR!\r\n"); $X=mysql_fetch_row($q); mysql_free_result($q); $X_m=m1($X,$n_mol); $X_ku=g2_s($X_m,$X,$n_mol); $X_sk=g1_s($X_m,$X,$n_mol); $JB=$n_mol*(pow($X_sk,2)+pow($X_ku,2)/4.0)/6.0; $chi22 = new ChiSqrDistribution(2); $pchi22=1.0-$chi22->CDF($JB); $X2m=m2($X,$X,$n_mol); $X2d=$X2m-$X_m*$X_m; $mXY=m2($X,$Y,$n_mol); $r20=$mXY-$X_m*$Y_m; $r21=$r20/$X2d; $r22=$r20/$Y2d; $r2=$r21*$r22; if(($JB<=$Y_JB)&&($r2_reject==0.0))$r2_reject=$r2;//when we start to reject correlations according to JB combined with r2 $acceptance=TRUE; if(($JB>$Y_JB)&&($r2_reject>0))$acceptance=FALSE; if($acceptance){ //echo($mdfvprop[$j]."\t".$X_ku."\t".$X_sk."\t".$JB."\t".$pchi22."\t".$r2."\r\n"); $cnt_acc++; }else{ $query_delet="DELETE FROM `".setd."__".propd."` WHERE `id` = '".$mdfvprop[$j]."'"; $q=mysql_query($query_delet); if(!$q)die($query_delet."'".$mdfvprop[$j]."' :ERROR!\r\n"); } } $q=mysql_query("OPTIMIZE TABLE `".setd."__".propd."`"); if(!$q)die("OPTIMIZE TABLE `".setd."__".propd."` ERROR!\r\n"); echo("Remained descriptors: ".$cnt_acc."\r\n"); die(); function m1(&$v,$m){$rez=0;for($i=0;$i<$m;$i++)$rez+=$v[$i];return($rez/$m);} function m2(&$v,&$u,$m){$rez=0;for($i=0;$i<$m;$i++)$rez+=$v[$i]*$u[$i];return($rez/$m);} function sc(&$X){return(count($X));} function ss(&$X,$n){$r=0.0;for($i=0;$i<$n;$i++)$r+=$X[$i];return($r);} function sm(&$X,$n){return(ss($X,$n)/$n);} function sp($p,$m,&$X,$n){$r=0.0;for($i=0;$i<$n;$i++)$r+=pow($X[$i]-$m,$p);return($r);} function mp($p,$m,&$X,$n){return(sp($p,$m,$X,$n)/$n);} function miu_1($m,&$X,$n){return($m);} function miu_2($m,&$X,$n){return(mp(2,$m,$X,$n));} function miu_3($m,&$X,$n){return(mp(3,$m,$X,$n));} function miu_4($m,&$X,$n){return(mp(4,$m,$X,$n));} function b2_s($m,&$X,$n){return(miu_4($m,$X,$n)/pow(miu_2($m,$X,$n),2));} function g2_s($m,&$X,$n){return(b2_s($m,$X,$n))-3;} function g1_s($m,&$X,$n){return(miu_3($m,$X,$n)/pow(miu_2($m,$X,$n),3/2));}

7_mdfv_prop_bias.php - realizează o analiză de regresie în 2 variabile pentru identificarea şi descalificarea descriptorilor care sunt anti-complementari în raport cu proprietatea observată (creează nedeterminări în analiza de regresie). define("uppe",0.99); define("uppe",0.90); $test=@include("3_mdfv_prop_def.php"); if($test===FALSE) {echo("Missing important definitions for MDFV (3_mdfv_prop_def.php).\r\nApplication cannot continue.\r\n");return(FALSE);} if(defined("propd")===FALSE){echo("Constant 'setd' undefined. Application cannot continue.\r\n");return(FALSE);} $query="SHOW TABLES FROM `".mdfv."` LIKE '".setd."__".propd."'"; $q=@mysql_query($query); if(!$q){echo($query." :ERROR!\r\n");return(FALSE);} $n=mysql_num_rows($q); mysql_free_result($q); if($n<1){echo("Table ".setd."__".propd."' not found. Go back!\r\n");return(FALSE);} $query="SHOW COLUMNS FROM `".setd."__".propd."`"; $q=@mysql_query($query); if(!$q){echo($query." :ERROR!\r\n");return(FALSE);} $mol_list=array(); for(;$r=mysql_fetch_row($q);){ $mol_list[]=$r[0]; } mysql_free_result($q); array_shift($mol_list);array_shift($mol_list); array_shift($mol_list);array_shift($mol_list); $n_mol=count($mol_list); $q=@mysql_query("SELECT `id` FROM `".setd."__".propd."` WHERE 1 ORDER BY `kc` DESC, `r2` DESC, `id` ASC"); if(!$q){echo($query." :ERROR!\r\n");return(FALSE);} $mdfvprop=array(); for(;$r=mysql_fetch_row($q);){

199

Page 200: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$mdfvprop[]=$r[0]; } $n_desc=count($mdfvprop); mysql_free_result($q); $query_prop="SELECT `".implode("`, `",$mol_list)."` FROM `".setd."__".propd."` WHERE `id` = "; for($j1=0;$j1<$n_desc-1;$j1++){ //if($j1 % 100 ==0)echo($j1."\r\n"); if($mdfvprop[$j1]==0)continue; $q=mysql_query($query_prop."'".$mdfvprop[$j1]."'"); if(!$q)die($query_prop."'".$mdfvprop[$j1]."' :ERROR!\r\n"); $x=mysql_fetch_row($q); mysql_free_result($q); $m1x1=m1($x,$n_mol); $m1x2=m2($x,$x,$n_mol); $m2x1=$m1x1*$m1x1; $d2x1=$m1x2-$m2x1; $del_n=0; $for_del_k=array(); $for_del_r=array(); for($j2=$j1+1;$j2<$n_desc;$j2++){ if($mdfvprop[$j2]==0)continue; $q=mysql_query($query_prop."'".$mdfvprop[$j2]."'"); if(!$q)die($query_prop."'".$mdfvprop[$j2]."' :ERROR!\r\n"); $y=mysql_fetch_row($q); mysql_free_result($q); $m1y1=m1($y,$n_mol); $m1y2=m2($y,$y,$n_mol); $m2y1=$m1y1*$m1y1; $d2y1=$m1y2-$m2y1; $m1xy=m2($x,$y,$n_mol); $r20=$m1xy-$m1x1*$m1y1; $r21=$r20/$d2x1; $r22=$r20/$d2y1; $r2=$r21*$r22; if($r2>uppe){ $for_del_k[]=$mdfvprop[$j2]; $for_del_r[]=$r2; $mdfvprop[$j2]=0; $del_n++; } if($r2<lowe)break; } array_multisort($for_del_r,SORT_DESC,$for_del_k); $del_n=count($for_del_k); if($del_n>0){ echo($mdfvprop[$j1].": "); for($i=0;$i<$del_n;$i++){ $q=mysql_query("DELETE FROM `".setd."__".propd."` WHERE `id`='".$for_del_k[$i]."'"); if(!$q)die("DELETE ERROR!\r\n"); echo($for_del_k[$i]." ".$for_del_r[$i]." "); } echo("\r\n"); } } $q=mysql_query("OPTIMIZE TABLE `".setd."__".propd."`"); if(!$q)die("OPTIMIZE TABLE `".setd."__".propd."` ERROR!\r\n"); die(); function m1(&$v,$m){ $rez=0; for($i=0;$i<$m;$i++) $rez+=$v[$i]; return $rez/$m; } function m2(&$v,&$u,$m){ $rez=0; for($i=0;$i<$m;$i++) $rez+=$v[$i]*$u[$i]; return $rez/$m; }

2009A3. Colectarea informaţiei medicale de activitate terapeutică (chimie medicală) O serie de aspecte metodologice (Bolboacă & others, 2003-PCAT; Bolboacă & others, 2004-CATC; Bolboacă & others, 2004-DCAT; Bolboacă & others, 2005-EBGC; Bolboacă & others,

200

Page 201: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

2005-RIMC; Jäntschi & Bolboacă, 2006-OCPG) au constituit filtre în colectarea informaţiei medicale de activitate terapeutică. În cadrul activităţii de colectare a informaţiei medicale o serie de aspecte cu privire la confidenţa în observaţiile experimentale (Drugan & others, 2003-BCI1; Bolboacă & Jäntschi, 2005-CILR; Bolboacă & Jäntschi, 2007BCIO) au constituit subiect de studiu având ca rezultat elaborarea unei serii de studii în acest subiect (Bolboacă & Jäntschi, 2008-ABCI; Bolboacă & Jäntschi, 2008-OCIB; Jäntschi & Bolboacă, 2010-EPCI). S-au căutat seturi de molecule cu potentă activitate terapeutică; s-au construit modele pentru structurile moleculelor seturilor folosind aplicaţia comercială HyperChem; s-au colectat valorile activităţilor experimentale observate. Denumirile în limba engleză ale activităţilor terapeutice colectate sunt: LC50/EC50 & NOEC & LOEC - fertilization of sea urchin & embryological development of sea urchin & germination of sea urchin & zoospore germination of green macroalgae & germling length of green macroalgae & germling cell number of green macroalgae & survival and reproductive success of polychaete & redfish larvae survival & juveniles survival of opossum shrimp (LC50 = lethal concentration to 50% of the test organisms; EC50 = effective concentration to 50% of the test organisms; NOEC = no observed effect concentration; LOEC = lowest observed effect concentration), inhibition activity, mutagenicity, antiallergic activity, anti-HIV-1 potencies, antituberculotic activity, growth inhibition activity, insecticidal activity, antioxidant efficacy, inhibition activity on carbonic anhydrase I & II & IV, herbicidal activity. Seria de lucrări selectate este după cum urmează:

Nr Set n Total Clear 2var R2_old Ref R2_pred R2_est v Ref1 21 23151_ 16 289206 93362 0.985 (4, n = 13) [ ] 0.997 0.995 3 [ ]

0.741 (4, n = 16) 32 23158 40 324181 99125 0.8 (5) [ ] 0.951 0.945 2 4 53 36638_ 16 335657 105319 0.967 (?) [ ] 0.994 0.991 3 [ ] 6 74 41521_ 8 350233 86407 0.985 (5) [ ] 0.999 0.998 2 [ ]

0.913 (3) 8 95 IChr10_ 10 324388 103237 0.9 (2) [ ] 0.999 0.999 2 [ ]

1 Vijay K. Agrawal, Ravindra Srivastavaa and Padmakar V. Khadikarb, QSAR Studies on Some Antimalarial Sulfonamides, Bioorganic & Medicinal Chemistry, 2001, 9, p. 3287–3293. 2 Lorentz JÄNTSCHI and Sorana BOLBOACA, Molecular Descriptors Family on Structure Activity Relationships 5. Antimalarial Activity of 2,4-Diamino-6-Quinazoline Sulfonamide Derivates, Leonardo Journal of Sciences, 2006, Issue 8, p. 77-88. 3 Agrawala V.K., Khadikarb P.V., QSAR Prediction of Toxicity of Nitrobenzenes, Bioorganic & Medicinal Chemistry, 2001, 9, 3035–3040. 4 Brasquet C., Le Cloirec P., QSAR for Organics Adsorption Onto Activated Carbon In Water: What About The Use Of Neural Networks?, Wat. Res., 1999, 33(17), p. 3603-3608. 5 Jäntschi L., Water Activated Carbon Organics Adsorption Structure - Property Relationships, Leonardo Journal of Sciences, AcademicDirect, 2004, Issue 5, p. 63-73. 6 Hasegawa K., Arakawa M., Funatsu K., 3D-QSAR study of insecticidal neonicotinoid compounds based on 3-way partial least squares model, Chemometrics and Intelligent Laboratory Systems, 1999, 47, p. 33–40. 7 Bolboacă S., Jäntschi ., Molecular Descriptors Family on Structure Activity Relationships 2. Insecticidal Activity of Neonicotinoid Compounds, Leonardo Journal of Sciences, AcademicDirect, 2005, Issue 6, 78-85. 8 Jäntschi L., Muresan S., Diudea M., Modeling Molecular Refraction and Chromatographic Retention by Szeged Indices, Studia Universitatis Babes-Bolyai, Chemia, 2000, XLV(1-2), p. 313-318.. 9. Jäntschi L., MDF - A New QSAR/QSPR Molecular Descriptors Family, Leonardo Journal of Sciences, AcademicDirect, 2004, Issue 4, p. 67-84.

201

Page 202: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

107 Ta395_ 15 319867 102608 0.87 (2, n = 13) [ ] 0.977 0.961 2 11][8 Tox395_ 14 319827 103411 0.8 (2, n = 13) 0.957 0.934 2

12 139 Triazines_ 30 298462 74467 58694 0.97 (3) [ ] 0.951 0.946 1 [ ]0.975 0.971 2 0.983 0.976 3 0.989 0.985 4

1410 23167 31 305164 95123 0.366 (1, n = 31) [ ] 0.724 0.697 1 0.861 (4, n = 31) 0.862 0.842 2 0.930 (3, n = 27) 0.939 0.924 3

15 1611 23159 18 301889 101257 0.388 (1, n = 18) [ ] 0.755 0.684 1 [ ]23159e 8 302983 0.839 (3, n = 18) 0.982 0.974 2

0.899 (8) 0.758 1 0.968 (8) 0.898 2

1712 Dipeptides 58 293236 93310 85533 0.782 (2) [ ] 0.85 0.836 2 0.879 0.867 3 0.904 0.883 4 0.925 0.910 5

18 1913 22583_ 57 296965 95277 84408 0.888 (5, n = 37) [ ] 0.783 0.766 2 [ ]0.885 (5, n = 20) 0.835 0.809 3 0.883 (5, n = 57) 0.9 0.884 4

10 Smith, C. J. Hansch C., Morton M. J., QSAR treatment of multiple toxicities: the mutagenicity and cytotoxicity of quinolines, Mutation Research, 1997, 379, p. 167–175. 11 Jäntschi L., Bolboacă S., Molecular Descriptors Family on QSAR Modeling of Quinoline-based Compounds Biological Activities, The 10th Electronic Computational Chemistry Conference, April 2005, http://eccc.monmouth.edu

12 Diudea M, Jäntschi L., Pejov L., Topological Substituent Descriptors, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, 2002, 1, p. 1-18. 13 Ţigan S., Jäntschi L., Bolboaca S., Modeling Herbicidal Activity of a Substituted Triazines Class by Integration of Compounds Complex Structural Information, Proceeding of the XXIII International Biometric Conference, Montreal, Canada, July 16-21, 2006. 14 Wei D., Zhang A., Wu C., Han S., Wang L., Progressive study and robustness test of QSAR model based on quantum chemical parameters for predicting BCF of selected polychlorinated organic compounds (PCOCs), Chemosphere, 2001, 44, p. 1421-1428. 15 Baker J. R., Mihelcic J. R., Sabljic A., Reliable QSAR for estimating KOC for persistent organic pollutants: correlation with molecular connectivity indices, Chemosphere, 2001, 45, p. 213-221. 16. Jäntschi L., Delphi Client - Server Implementation of Multiple Linear Regression Findings: a QSAR/QSPR Application, Applied Medical Informatics, Cluj-Napoca, 2004, Issue 15, p. 48-55.

17. Diudea M., Gutman I., Jäntschi L., Molecular Topology, 2nd Edition, Nova Science, Huntington, New York, 2002, 332 p. & & Opris D., Diudea M. V., Peptide Property Modeling by Cluj Indices, SAR/QSAR Environ. Res., 2001, 12, 159-179. 18 Toropova A. A., Toropova A. P., Nesterova I. V., Nabiev O. M., Comparison of QSAR models of anti-HIV-1 potencies based on labeled hydrogen filled graph and graph of atomic orbitals, Journal of Molecular Structure (Theochem), 2003, xx, p. xxx–xxx &Castro E. A., Torrens F., Toropov A. A., Nesterov I. V., Nabiev O. M., QSAR Modeling ANTI-HIV-1 Activities by Optimization of Correlation Weights of Local Graph Invariants, Molecular Simulation, Taylor & Francis, 2004, 30(10), p. 691-696. 19 Sorana BOLBOACĂ, Ştefan ŢIGAN, Lorentz JÄNTSCHI, Molecular Descriptors Family on Structure-Activity Relationships on anti-HIV-1 Potencies of HEPTA and TIBO Derivatives, Assa Reichert, George Mihalaş, Lăcrămioara Stoicu-Tivadar, Ştefan Schulz, Rolf Engelbrech (Eds.), Proceedings of the European Federation for Medical Informatics Special Topic Conference, April 6-8, 2006, Timişoara, Romania, p. 222-226. ISBN: 3-89838-072-6 (Aka), 1-58603-614-9 (IOS Press), 973-625-303-1 (Editura Politehnica).

202

Page 203: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

0.918 0.9 5 2014 23110_ 69 332064 83793 70915 0.898 (5, n = 44) [ ] 0.683 0.666 1

0.918 (5, n = 25) 0.871 0.859 2 0.900 (5, n = 69) 0.904 0.890 3

0.923 0.913 4 0.936 0.928 5

2115 PCB_rrt 209 297938 99806 [ ] 0.984 0.984 1 0.997 0.997 2

2216 PCB_lkow 206 297938 100828 0.873 0.870 1 [ ]0.890 0.885 2 0.917 0.909 4

2317 PCB_rrf 209 297926 98434 0.628 0.619 1 [ ]0.693 0.682 2 0.737 0.717 4

2418 40846_1 40 - - 70943 0.753 (6, n=40) [ ] 0.628 0.606 1 0.700 (5, n=36) 0.806 0.789 2 0.909 (5, n=20) 0.918 0.891 4 0.917 (7, n=20)

2519 40846_2 40 - - 70954 0.719 (7, n=40) 0.551 0.516 1 [ ]0.876 (7, n=36) 0.785 0.756 2 0.902 (6, n=20) 0.904 0.88 4

2620 40846_4 40 - - 70943 0.632 (4, n=40) 0.556 0.523 1 [ ]0.769 (5, n=36) 0.752 0.728 2 0.760 (3, n=20) 0.92 0.903 4 0.822 (4, n=20)

2721 26449 10 298110 94843 [ ] 0.8248 0.6966 1 28[ ]

20 Toporov A. A., Toporova A. P., QSAR modeling of toxicity on optimization of correlation weights of Morgan extended connectivity, Journal of Molecular Structure (Theochem), 2002, 578, p. 129-134. 21 Eisler R., Belisle A. A., Planar PCB Hazards to Fish, Wildlife, and Invertebrates: A Synoptic Review, Biological Report 31 and Contaminant Hazard Reviews Report 31, 1996, IV, p.75, http://www.pwrc.usgs.gov/infobase/eisler/CHR_31_Planar_PCBs.pdf. 22 Lorentz JÄNTSCHI and Sorana BOLBOACĂ, Molecular Descriptors Family on Structure Activity Relationships 6. Octanol-Water Partition Coefficient of Polychlorinated Biphenyls, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, 2006, Issue 8, p. 71-86. 23 Jäntschi L., QSPR on Estimating of Polychlorinated Biphenyls Relative Response Factor using Molecular Descriptors Family, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, 2004, Issue 5, p. 67-84. 24 Supuran C. T., Clare B. W., Carbonic anhydrase inhibitors – Part 57: Quantum chemical QSAR of a group of 1,3,4-thiadiazole- and 1,3,4-thiadiazoline disulfonamides with carbonic anhydrase inhibitory properties, Eur. J. Med. Chem, 1999, 34, p. 41-50. 25 Lorentz JÄNTSCHI, Mihaela Ligia UNGUREŞAN, Sorana-Daniela BOLBOACĂ, Integration of Complex Structural Information in Modeling of Inhibition Activity on Carbonic Anhydrase II of Substituted Disulfonamides, Applied Medical Informatics, Vol. 17, No. 3, 4/2005, p. 12-21. 26 L. Jäntschi, S. Bolboaca, Modelling the Inhibitory Activity on Carbonic Anhydrase IV of Substituted Thiadiazole- and Thiadiazoline- Disulfonamides: Integration of Structure Information, Proceedings of the 1st European Chemistry Congress, Budapest, Hungary, August 27-31, 2006. 27 Ungwitayatorn J., Pickert M., Frahm A.W., Quantitative structure-activity relationship (QSAR) study of polyhydroxyxanthones, Pharmaceutica Acta Helvetiae, 1997, 72, p. 23-29. 28 Bolboacă S, Jäntschi L. Molecular Descriptors Family on Structure Activity Relationships 3. Antituberculotic Activity of some Polyhydroxyxanthones, Leonardo Journal of Sciences, AcademicDirect, 2005, Issue 7, p. 58-64.

203

Page 204: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

0.9974 0.9948 2 2922 RRC_lbr 30 - 98604 86409 r = 0.955 (2, n = 30) ? [ ] 0.7153 0.6755 1

0.8972 0.8745 2 0.9737 0.9650 4 0.9739 0.9637 4

3023 RRC_lkow 30 - - 86388 0.70769 0.6586 1 [ ]0.89433 0.8659 2 0.97805 0.9680 4

24 RRC_pka 30 - - 86373 0.68471 0.6418 1 0.85106 0.8198 2 0.96052 0.9490 4 0.96147 0.9464 4 0.96377 0.9474 4

31 3225 MR10 10 349553 107692 r2 = 0.9755 (2, n=10) [ ] 0.9919 0.9884 1 [ ]0.99996 0.9999 2

26 52344 8 r2 = 0.78 (1, n=8) 33 34] 0.90397 0.8316 1 [ ][r2 = 0.71 (1, n=8) 0.99946 0.9988 2 r2 = 0.81 (2, n=8) 0.99978 0.99935 2 r2 = 0.97 (4, n=8) 0.99980 0.99937 2

3527 52730 10 0.9664 0.9466 1 [ ]0.9983 0.9965 2

28 19654 23 r2 = 0.8865 (3, n= 23) 36[ ] 0.9222 0.9049 1 0.9895 0.9778 2

0.9973 0.9956 4 0.9978 0.9839 4

29 3300_ 35 r2 = -0.979 (5, n=35) 37[ ] 0.8295 0.8111 1 0.9172 0.9029 2 0.9184 0.9039 2 0.9655 0.9564 4

29 IVANCIUC O, Artificial neural netwoeks applications. Part 4. Quantitative structure-activity relationships for the estimation of the relative toxicity of phenols for Tetrahymena, Revue Roumanian de Chinie, 1998, 43 (3), 255-260. 30 Lorentz JÄNTSCHI, Sorana-Daniela BOLBOACĂ, Mihaela UNGUREŞAN, Modeling the Octanol-Water Partition Coefficient of Substituted Phenols by the Use of Structure Information, Proceedings of the 3rd Humboldt Conference on Computational Chemistry, Varna, Bulgaria, May 25-27, 2006. 31 Jäntschi L., Mureşan S., Diudea M.V., Modeling molar refraction and chromatographic retention by Szeged Indices, Studia Universitatis Babeş-Bolyai, Chemia, 2000, XLV(1-2), p. 313-318 32 Lorentz JÄNTSCHI and Sorana BOLBOACĂ, Molecular Descriptors Family on Structure Activity Relationships 4. Molar Refraction of Cyclic Organophosphorus Compounds, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, 2005, Issue 7, p. 55-102. 33 Shertzer GH, Tabor MW, Hogan ITD, Brown JS, Sainsbury M. Molecular modeling parameters predict antioxidant efficacy of 3-indolyl compounds. Arch Toxicol 1996;70:830-4. 34 Sorana BOLBOACĂ, Claudia FILIP, Ştefan ŢIGAN, Lorentz JÄNTSCHI, Antioxidant Efficacy of 3-Indolyl Derivates by Complex Information Integration, Clujul Medical, 2006. 35 Sorana Daniela BOBLOACĂ, Lorentz JÄNTSCHI. Modeling of Structure-Toxicity Relationship of Alkyl Metal Compounds by Integration of Complex Structural Information. Terapeutics, Pharmacology and Clinical Toxicology, 2006, X(1), p. 110-114. 36 Yu-xin Zhou, Lu Xu, Ya-ping Wu, Bai-li Liu, A QSAR study of the antiallergic activities of substituted benzamides and their structures, Chemometrics and Intelligent Laboratory Systems, 1999, 45, 95-100. 37 Hiroshi Morita, Akira Gonda, Lan Wei, Koichi Takeya, and Hideji Itokawa, 3D QSAR ANALYSIS OF TAXOIDS FROM TAXUS CUSPIDATA VAR. NANA BY COMPARATIVE MOLECULAR FIELD APPROACH, Bioorganic & Medicinal Chemistry Letters, 1997, Vol. 7, No. 18, pp. 2387-2392.

204

Page 205: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

0.9665 0.9525 4 38[30 33504 73 r = 0.9892 (1, n= 73) ] 0.9912 0.9908 1

r = 0.9857 (1, n= 73) 0.9982 0.9980 2 r = 0.9961 (2, n= 73) 0.9982 0.9980 2 r = 0.9953 (2, n= 73) r = 0.9986 (3, n= 73) r = 0.9984 (3, n= 73) r = 0.9974 (3, n= 73) Heats of atomization r = 1.0000 (4, n= 38) Heats of vaporization r = 0.9985 (4, n= 47) Heats of formation r = 0.9964 (2, n= 38) Molar volumes r = 0.9897 (2, n= 46)

31 31572 24 r2 = 0.771 (1, n = 37) 39] [r2 = 0.894 (4, n = 38) r2 = 0.953 (4, n = 37) r2 = 0.951 (4, n = 38)

2009A4. Construirea modelelor Structură - Activitate folosind instrumentele specifice dezvoltate

O serie de lucrări (Jäntschi, 2004-MDF; Jäntschi, 2005-MDF1; Jäntschi & others, 2005-CSII; Jäntschi & Bolboacă, 2006-OMDF; Jäntschi & Bolboacă, 2006-MDFR; Jäntschi & Diudea, 2006-SPV; Jäntschi & Bolboacă, 2007-RMDF; Bolboacă & Jäntschi, 2007-SPBP; Jäntschi & Bolboacă, 2007-MDFC; Jäntschi & Bolboacă, 2007-MDFA; Jäntschi & Bolboacă, 2007-MDFE) cumulează cunoştinţele prealabile în legătură cu instrumentele specifice dezvoltate, iar derularea activităţii a permis obţinerea de noi rezultate (Jäntschi & Bolboacă, 2008-EMGT). Seturile supuse investigaţiei structură-activitate cu ajutorul instrumentelor dezvoltate (MDF şi MDFV) sunt interogabile online din cele două baze de date (MDF şi MDFV); adresa este următoarea:

http://l.academicdirect.org/Chemistry/SARs/ Modelele structură-activitate obţinute sunt disponibile online pentru acele seturi de molecule pentru care s-a realizat şi valorificat (prin publicare) obţinerea relaţiilor (semi)cantitative structură-activitate, sQSARs. Modelele stocate în baza de date MDF sunt redate în tabelul de mai jos:

Nr Set Model r2 v m y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 1 IChr10_ 0.999221607 2 10y=20.460137586773501+ lHMrtCt*-6.961293758269948+ iBPmTEt*-969.172867908018304 2 IChr10_ 0.998805743 2 10y=2.582556947454996+ lPMDVQg*0.002969357191374+ IsPrVHg*-22.592449746207965 3 36638_ 0.977605386 2 16

38 Andrey Toropova, Alla Toropovab, Temur Ismailovb, Danail Bonchev, 3D weighting of molecular descriptors for QSPWQSAR by the method of ideal symmetry (MIS). 1. Application to boiling points of alkanes, Journal of Molecular Structure (Theochem) 1998, 424, pp. 237-247. 39 M. H. ABRAHAM, R. KUMARSINGH, J. E. COMETTO-MUNIZ, W. S. CAIN, A Quantitative Structure-Activity Relationship (QSAR) for a Draize Eye Irritation Database, Toxicology in Vitro, 1998, 12, 201-207.

205

Page 206: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

y=2.585556625918434+ lPMDVQg*0.002984666705928+ IsPmVHg*-22.108669187753978 4 36638_ 0.976781931 2 16y=2.577163501835581+ IiMMWHt*0.853020387909027+ lPMDVQg*0.002947685825620 5 36638_ 0.981091504 2 16 y=2.745069935843683+ IiMMWHt*0.964882719278833+ IFMmkHg*0.002015868714906+ LPDMVQg*0.002704618929348 6 36638_ 0.992472044 3 16 y=2.568663834381964+ IiMMWHt*0.857321758795370+ lPMDVQg*0.002952308975991+ iFMdFQg*0.000000000000802 7 36638_ 0.994462046 3 16 y=2.572960050395093+ IiMMWHt*0.862026691653915+ lPMDVQg*0.002975951926473+ iSPMtQg*0.000359275274073 8 36638_ 0.994961682 3 16 y=2.573205449280688+ IiMMWHt*0.862522334633554+ lPMDVQg*0.002984079061001+ ibPMtQg*0.000060106252532 9 36638_ 0.995018995 3 16y=5.085278949837590+ imMrFHt*-357.296321414089600+ iHDdFHg*2.156138113196185 10 PCB_rrf_ 0.692921683 2 209y=6.055340736461524+ imMrFHt*-416.942003738513088+ iHDdFHg*2.313956389789302+ iMMMjQg*1.829475297508006+ iAMrVQg*-0.002506945942322 11 PCB_rrf_ 0.736793462 4 209y=16.624223709106445+ lfDMWHt*-0.216979935765266+ IbmrTEt*-0.683317601680756 12 23159e_ 0.98164165 2 14y=18.090740203857424+ lfDMWHt*-0.217230200767517+ IbmrtEt*-0.770600378513336 13 23159e_ 0.981111884 2 14y=-4.488118053335837+ INDRLQt*8.348191853294373+ lHPmTMt*1.965121565280751 14 Ta395_ 0.976574132 2 15y=-1.293780346589664+ liMrSQg*0.223497432069395+ ASPrVQg*0.095534977438483 15 Tox395_ 0.95585816 2 14y=-1.272088763676020+ lIMrSQg*0.223829242224039+ ASPrVQg*0.095600357852137 16 Tox395_ 0.955056854 2 14y=-0.717673381133009+ lsMrSQg*0.225050651084089+ ASPrVQg*0.098706316363904 17 Tox395_ 0.957735266 2 14y=-1.575004492205578+ lNMrSQg*0.205885242323993+ ASPrVQg*0.092984460101768 18 Tox395_ 0.956820302 2 14

19 Tox395_ y=-1.597971465629698+ 0.955928148 2 14

206

Page 207: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

lNMrEQg*0.336843860556055+ ASPrVQg*0.094660231172752 y=15.977082257070075+ lAPRkHg*4.411577306950580+ iAPmEQg*-0.004799303305105 20 41521_ 0.998675191 2 8y=15.557416220778391+ lHPDKHg*-4.447021764795913+ iBPmEQg*-0.045008303244039 21 41521_ 0.9990247 2 8y=15.977082257072571+ lHPRKHg*-4.411577306951695+ iAPmEQg*-0.004799303305106 22 41521_ 0.998675191 2 8y=43.344306644672435+ ImMdsEg*-2.208255961271429+ lIMMFQt*3.740518408044116 23 41521_ 0.999125495 2 8y=19.406881564985923+ lGDrtMg*21.873029005600086+ lAmrVGg*-164.023794938214048 24 MR10_ 0.999797892 2 10y=17.394528468178550+ lGDmSMt*28.247433444091738+ lAmrfEt*-83.965315146143757 25 MR10_ 0.999958406 2 10y=-19.112864129011363+ lHPDOQg*2.317497007317971+ IsMRKGg*19.343096061022083 26 26449t_ 0.997345142 2 10y=-5.342090912944618+ ISDrSQg*-0.000836073645555+ iSmrJQt*-33.145388286106125 27 52344_ 0.999457098 2 8y=-13.259851363534467+ IAPdwCg*7.421342259908507+ lSDMkMg*-1.203325361332910 28 52344_ 0.99978832 2 8y=7.182585269595931+ lbPMkHg*-1.097130469643120+ iAPrVGt*-33.244348016071162 29 52344_ 0.999803127 2 8y=82487.779927956544000+ iSDmtQg*-4291.591445441648640+ lAMrFEt*-24751.302374423369600 30 DevMTOp00_ 0.999997516 2 8y=-5.211074704460113+ IAPMLMt*0.000744091093604+ lmPmlQg*2.674299018254657 31 DevMTOp01_ 1 2 5y=8.572782794598863+ anPrdQg*-0.062403551223709+ IsmRLQt*233.992406665280768 32 DevMTOp02_ 0.999966002 2 7y=21.577675933246624+ iHDRkMg*-0.004324723908977+ inMrPQg*11.108974534804655 33 DevMTOp03_ 0.999152012 2 8y=6.946100250910472+ iGDREHg*-10.090383646214632+ lnDDVQg*-1.391295355575833 34 DevMTOp04_ 0.999779572 2 8y=5.972901448850221+ AHDmtQg*382.966792379103488+ inMDqQg*-5.152599794558495 35 DevMTOp05_ 0.9992016 2 8y=4.258542471386298+ lGPMqGg*-55.309513051550080+ 36 DevMTOp06_ 0.999981768 2 7

207

Page 208: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

IBPrJHt*-0.016924218996259 y=16.997960609979277+ iAMrECt*-14.724870628170749+ aAPmfQt*-0.105749387186883 37 DevMTOp07_ 0.999603803 2 8y=2.299452498508210+ LsDmjQg*-1.172330969315326+ lAMrDHt*-6.960913760516673 38 DevMTOp08_ 0.999959098 2 7y=49.601873825853658+ IAMrDQg*-0.353928603916190+ iBPRwMt*31653.215583361798400 39 DevMTOp09_ 0.999903215 2 7y=-4.563145600075828+ isMdsGg*-0.076556062852060+ lsDDkQg*-1.431507685251379 40 DevMTOp10_ 0.999898517 2 7y=-39.637026030878438+ iGPMpEg*14.697649143241879+ lPDDpEg*0.044063759116077 41 DevMTOp11_ 0.9999946 2 6y=-252.938700802085632+ lMMRSGt*24.401713743828797+ lsPmpMg*-28.277181303483437 42 DevMTOp12_ 0.999253357 2 8y=28.031130403667130+ IHMRFEg*-0.897288952138859+ INPmsQt*-13455.651827727787520 43 DevMTOp14_ 0.99957823 2 8y=-269.701345715687040+ iIMMoEg*32.790755969495002+ IHmrlEt*1058.588149821219040 44 DevMTOp15_ 0.999995588 2 6y=-4.591222054726206+ asDmkQg*0.003446474307407+ IGMmTHt*2.246662887026612 45 DevMTOp16_ 0.99894463 2 8y=0.276515007162331+ iIPdqQg*1.456930890306632+ iImrSCg*-0.008375218150532 46 DevMTOp17_ 0.999544921 2 8y=5.277557317326950+ iGMmSQt*-0.925518492017054+ IIPdwQg*-561.357019867305216 47 DevMTOp18_ 0.999999653 2 6y=484.609231791737472+ iADDOMg*-6893.174261695466240+ lmPmLMt*-52.452348531199731 48 DevMTOp19_ 0.999942872 2 7y=-76.465419087381811+ lGPrfGt*11.765097022456481+ iGPMqMg*14.548142362264151 49 DevMTOp20_ 0.999179456 2 8y=-0.466773345458314+ ISPRfEt*0.658065324549722+ imDrwEt*-688.623604086868352 50 DevMTOp21_ 0.999019748 2 8y=35.886964607142445+ lIDrdQg*8.293607635627836+ isMdPQg*0.001557300106484 51 DevMTOp22_ 0.999927658 2 7y=-267.218704057874592+ lsPmkEg*-20.968463155992515+ lSmRFGt*51.184666540653107 52 DevMTOp23_ 0.999864996 2 8y=0.355538934447154+ IsPDPHg*99.897075577592973+ InDRLQg*-0.736739109598832 53 DevMTOp24_ 0.9999568 2 7

208

Page 209: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

y=1.893045064859439+ lBMDVQg*4.089050756254091+ iHDrDQt*-42.497588982800794 54 DevMTOp25_ 0.999931515 2 7y=-2.260942771393344+ ASMmVQt*0.036537920618985+ lfDdOQg*-0.216319157172228 55 RRC433_lbr_ 0.897264116 2 30y=-3.294716228841605+ ASMmVQt*0.034759339883385+ lfDdOQg*-0.326175236962887+ InMrLQg*0.079023124090750+ LsDMpQg*-0.346227342563766 56 RRC433_lbr_ 0.973702913 4 30y=-3.309083909227967+ ASMmVQt*0.035359451252071+ lfDdOQg*-0.326340537986437+ InMrLQt*0.083521027478412+ LsDMpQg*-0.353965995278507 57 RRC433_lbr_ 0.973908851 4 30y=1.068504837149195+ isDDkGg*0.003385972696729+ IMmrKQg*-0.401342461954502 58 RRC433_lkow_ 0.894339198 2 30y=0.086887657603207+ isDDkGg*0.005559930394138+ IMmrKQg*-0.416458920866538+ lPMDKQg*0.009409040694936+ lFMMKQg*-0.077972151747497 59 RRC433_lkow_ 0.978050343 4 30y=12.145778693743030+ AHMMVQg*-1.759312774646531+ inDmwHg*-1.423171133335602 60 RRC433_pka_ 0.85106015 2 30y=12.250129572666588+ AHMMVQg*-1.878604996401587+ inDmwHg*-1.409105150926869+ IimRJQg*-1.255850637865408+ AsPrwQg*-551.820132942366464 61 RRC433_pka_ 0.96048211 4 30y=12.266395089058967+ AHMMVQg*-1.886964796625174+ inDmwHg*-1.431793246534204+ IImRJQg*-1.492725761439522+ IHDrsQg*-132.763291817560480 62 RRC433_pka_ 0.961458919 4 30y=13.187486747004316+ AHMMVQg*-1.628307288455412+ inDmwHg*-1.315727674279415+ LBMRlQg*-0.450392531615080+ AHDmEQg*-3.537408893070444 63 RRC433_pka_ 0.963779329 4 30y=2.799163315535306+ IbMmpMg*28.064230202549747+ LPPROQg*0.081524293438233 64 52730_ 0.99763089 2 10y=3.982186750193776+ iImrKHt*1.516060326175799+ liMDWHg*2.357039692152132 65 DHFR_ 0.85627596 2 67y=-1.172577695940167+ lImrKHt*-4.863206399509672+ IiMDWHg*5.474142782322419 66 DHFR_ 0.857180673 2 67

67 DHFR_ y=3.261481723647712+ 0.858873758 2 67

209

Page 210: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

lImrKHt*-4.900679297589359+ lIMDWHg*2.313684191877673 y=22.783498446732483+ IbMmSHt*-0.044781937978148+ inPRjHg*0.036908423922842+ lsMMTGg*2.276594353795319 68 DHFR_ 0.887769256 3 67y=3.766172816092689+ iImrKHt*1.630691978329184+ liMDWHg*2.398496510115706+ LSPmEQg*-0.085551239269939+ IIDrJQt*0.293720167343832 69 DHFR_ 0.905161273 4 67y=3.781999644467336+ iImrKHt*1.619894894103214+ liMDWHg*2.371371074452369+ IsDrJQt*6.402293814267814+ LSPmEQg*-0.085177985460006 70 DHFR_ 0.905784714 4 67y=-5.746809646380628+ IiPdJHg*11.956269601549317+ iHMmVQg*0.065716945111961 71 a_acids_ 0.984823373 2 12y=11.256459289110492+ iHmrsGg*0.389578813720558+ iiPDOHg*-2.366249952762924 72 a_acids_ 0.987102214 2 12y=9.387440286015163+ lIPrVGt*6.088203345034852+ IHDDKHg*0.381482245798468 73 a_acids_ 0.98835913 2 12y=-8.951974935678216+ lIMdFGg*-9.901521373121243+ IAPmTCt*36.243596058596800 74 34121bad_ 0.509261534 2 76y=13.360278625318943+ iIPRLGg*-4.412916051903299+ LiMmwQg*0.421902462393154 75 34121nopt_ 0.622248309 2 76y=0.183306719129093+ IFDDpGg*-0.000068304771741+ ISDrFMt*-0.000001260853126 76 19654_ 0.984019252 2 23y=-0.008829461052500+ isDRtHg*-0.000051338532157+ iHMMtHg*0.130030477933933 77 19654_ 0.988351291 2 23y=0.046790454181503+ ismRSEg*-0.000172348201588+ isDRTCg*0.000030999802774 78 19654_ 0.98955647 2 23y=7.616547989246049+ lIDrpMg*1.001309641822330+ lsPrJGt*-1.069779866848350+ ismRSEg*-0.000163062657210+ isDRTCg*0.000029929545873 79 19654_ 0.996248249 4 23y=2.733124886439780+ lmDDKMg*-0.286110586112610+ imPrdQt*-1.789020475582959+ ismRSEg*-0.000161361248412+ isDRTCg*0.000029725595809 80 19654_ 0.997851065 4 23y=6.884466558075200+ liMRsCg*0.921784722969737+ 81 19654_ 0.996819148 4 23

210

Page 211: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

lIDRFMg*-1.317553545161115+ isDRtHg*-0.000050399261806+ iHMMtHg*0.135432046071406 y=-0.146575674440346+ imMRkMg*0.000902003747302+ imMDVQg*-0.322525717918453+ isDRtHg*-0.000052364343767+ iHMMtHg*0.139074684280391 82 19654_ 0.997260489 4 23y=-17.709380801328218+ isMdTHg*0.002306275036298+ IiDrQHg*77.216162936821005 83 3300_ 0.918384193 2 34y=-17.092683014823635+ iHDmkQt*0.688855852114620+ AsDmtQg*205224.367519787520000+ isMdTHg*0.002310828590955+ IiDrQHg*72.349612191442458 84 3300_ 0.966514933 4 34y=-4.303662300109863+ lIDrFEg*-19.435102462768554+ IiMMsGg*11.070854187011718 85 22583_ 0.782257676 2 57y=-4.358335018157959+ lIDrFEg*-19.590654373168944+ IiMMSGg*11.005515098571777 86 22583_ 0.783080041 2 57y=16.697563171386717+ InMdTHg*-9.215051651000977+ lfDMwEt*-0.860860228538513+ AsMrKQt*141.058273315429680 87 22583_ 0.835162103 3 57y=-5.146468639373779+ lIDrFEg*-18.882848739624022+ IiMMSGg*9.991197586059570+ iFDmkHg*-0.000023631801014+ inMrEQt*-1.860737323760986 88 22583_ 0.900917828 4 57 y=17.723573684692381+ InMdTHg*-7.113586425781251+ lFDMwEt*-1.234191298484802+ AiMrKQt*8.357679367065430+ ImDMtQt*659184.625000000000000+ lIMdEMg*-5.981501102447510 89 22583_ 0.917499542 5 57 y=10.439790725708008+ InMdTHg*-6.621389389038086+ lFDMwEt*-1.115040302276611+ AiMrKQt*7.575278282165527+ IMDMtQt*782467.875000000000000+ iIMdTMg*18.747991561889648 90 22583_ 0.917872667 5 57y=-323.024772597417024+ liDmEHt*-105.929211454059789+ IADmwHt*17.760000133301725 91 33504_ 0.998191949 2 73y=-129.202920028528064+ lGDrtGt*-67.450781570303091+ IbDrfHt*4.889627699125125 92 33504_ 0.998194885 2 73y=6.272650515627022+ iiMdLGg*-24.465622121014768+ AsPmVQt*7.416438629162940 93 23158c_ 0.949331559 2 40

211

Page 212: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

y=-8.925568204084518+ lIMdLGg*6.533652861276372+ AsPmVQt*7.390652840339525 94 23158c_ 0.949405043 2 40y=-9.030826989310386+ lIMdLGg*6.602715759615876+ AIPmVQt*0.738833729895370 95 23158c_ 0.949450328 2 40y=-9.028650724880719+ lIMdLGg*6.601183808052042+ AiPmVQt*0.738839898477699 96 23158c_ 0.949451061 2 40y=7.413062019927823+ iIMdLGg*-29.203947244192070+ AsPmVQt*7.376749884182984 97 23158c_ 0.950945432 2 40y=7.483477154220049+ iIMdLGg*-29.525257834273594+ AIPmVQt*0.737465221651949 98 23158c_ 0.951085814 2 40y=7.481885945863868+ iIMdLGg*-29.518679478761894+ AiPmVQt*0.737471789565067 99 23158c_ 0.951086994 2 40y=6.372537492476300+ IBMrkGg*-92.371378276225190+ IsPmVQt*-7.281656762147562 100 23158c_ 0.955679462 2 40y = 3.5140+ iNMRJQt*3.9523e-2+ iSDRkQt*-9.1485+ LsPrDQt*5.7624e-1+ IADRSHg*-1.1986e-1 101 31572_ 0.958313838 4 24y = -10.573+ IIMmSCg*63.140+ lIMRVCg*-5.1308 102 31572_ 0.830588637 2 24y = 3.9864+ LsPrDQt*6.4877e-1+ IADRSHg*-1.2942e-1 103 31572_ 0.811092657 2 24y=3.309258874208278+ ABmrtQg*-14.191657164410053+ iGPrfHt*0.960433156574692 104 23110_ 0.870389569 2 69y=3.255577576284918+ ABmrsQg*-9.655480534462673+ iGPrfHt*1.003843270199119 105 23110_ 0.870762905 2 69y=3.468032235802128+ ABmrtQg*-14.109591667547505+ iGPrfHt*1.000897643171127+ iImrfQt*-0.000035842320734+ aHDRdQt*-0.019679357321205 106 23110_ 0.923419436 4 69y=3.649903008444890+ IBDMWQt*0.668182102284062+ iIPmWHt*0.139974134207539+ IMPrkQg*0.000238539437306+ aHPMwQt*-0.000458937750242 107 23110_ 0.922112869 4 69y=3.635644435882568+ ABDmtQg*-11.895344734191895+ ISDRLQt*0.000576242397074+ iIPrwHt*0.130846872925758 108 23110_ 0.901068389 3 69

212

Page 213: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

y=3.463929176330566+ ABDmtQg*-13.019453048706056+ iHPrwHt*1.618527054786682+ aIPMwQt*-0.000028133128581 109 23110_ 0.902104378 3 69y=3.494592428207398+ ABDmtQg*-13.096261978149414+ iHPmwHt*1.626412868499756+ aIPMwQt*-0.000028470527468 110 23110_ 0.902782798 3 69y=3.821168899536133+ aHPMwQt*-0.000338123209076+ iIPmWHt*0.132829502224922+ IBPMWQt*0.756949245929718 111 23110_ 0.904430389 3 69y=3.719008207321167+ aHPMwQt*-0.000501490896568+ iIPmWHt*0.142897620797157+ IBPMWQt*0.778551995754242+ iFMMfGt*-0.000000000418976+ IMPrkQg*0.000253266363870 112 23110_ 0.936299264 5 69y=3.719301223754883+ aHPMwQt*-0.000501317554154+ iIPmWHt*0.142888113856316+ IBPMWQt*0.778867542743683+ iFmRFMt*-0.000000309545300+ IMPrkQg*0.000253249396337 113 23110_ 0.936396182 5 69y=3.937699079513550+ iSPRtQg*0.051902804523706+ imDrkQt*-5.906542778015137 114 23167_ 0.861876726 2 31y=3.934797048568726+ aSPRtQg*0.051960568875074+ imDrkQt*-5.895822048187256 115 23167_ 0.860438466 2 31y=3.937698841094971+ imDrkQt*-5.906543731689453+ iSPRtQg*0.051902808248997 116 23167_ 0.861882389 2 31y=3.934797048568726+ imDrkQt*-5.895823001861572+ aSPRtQg*0.051960572600365 117 23167_ 0.860438466 2 31y=3.832609653472900+ IsMRKQg*-8.327919006347656+ AHPROQg*0.280586481094360 118 23167_ 0.8681795 2 31y=4.057913303375244+ imDrkQt*-4.935928344726563+ LHDROQg*0.097806222736835+ aSPRtQg*0.059412382543087 119 23167_ 0.938799143 3 31y=4.060825824737549+ imDrkQt*-4.952915191650390+ LHDROQg*0.097219981253147+ iSPRtQg*0.059157751500607 120 23167_ 0.939431727 3 31y=1.742758248357947+ inPRlQg*0.100852680149301+ lPDMqMg*0.003099560484118 121 408461_ 0.80557016 2 40y=1.139803152319389+ inPRlQg*0.087893430183274+ 122 408461_ 0.917551726 4 40

213

Page 214: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

lPDMoMg*0.003517539776609+ iAMRqQg*2.431579364841151+ inMRkQt*1.038853874815755 y=-4.447927898225615+ imDdSCg*2.435295979512419+ iiMrqQg*0.094635156307397 123 408462_ 0.785285688 2 40y=-9.985955210032028+ imDdSCg*4.564366234578961+ isDrqQg*0.002945010877990+ IIMDQQg*5.203670331019382+ lmMrsGg*1.483206222543829 124 408462_ 0.903722129 4 40y=0.802847494580493+ inPRlQg*0.111337641528975+ iHMMTQt*0.000000009980546 125 408464_ 0.75212455 2 40y=0.624897025648112+ inPRlQg*0.105048221495900+ iHMMTQt*0.000000009918681+ IHMDTQg*-9.248476294178811+ InPdJQg*1.727457275576125 126 408464_ 0.920210241 4 40y=2.567506668233360+ ibDMFHt*-1.471170216670452+ ISPdlMg*0.117473661385305 127 Dipeptides_ 0.84794137 2 58y=4.581803041430724+ IHMdKEg*-0.039915577766273+ IBPmpGg*0.639122246849638 128 Dipeptides_ 0.849074656 2 58y=2.208486080169678+ IbMmjHg*0.248430266976357+ IbPdPHg*0.020541135221720+ IBMRQCg*-0.265679538249969 129 Dipeptides_ 0.879454732 3 58y=15.605128288269043+ ibDMFHt*-1.721762657165527+ ISPdlMg*0.124963581562042+ imDmFEt*-166.574951171875008+ ImPrSEt*-0.121208801865578 130 Dipeptides_ 0.903556645 4 58 y=-7.197427749633789+ IbMmjHg*0.236571803689003+ IbPdPHg*0.020058955997229+ IBMRQCg*-0.236558765172958+ ImDmEEt*2.080404758453369+ ImDrFEt*-0.038597311824560 131 Dipeptides_ 0.925133169 5 58y=3.120874910401321+ IIDDKGg*-0.441475190602858+ IHDRKEg*0.044664834835730 132 PCB_lkow_ 0.889745045 2 206y=3.039301324572242+ IIDDKGg*-0.420795249377539+ IHDRKEg*0.044187988743215+ aHMmjQt*0.069692154874390+ aSMMjQg*-37.502291360990682 133 PCB_lkow_ 0.916807642 4 206y=-12.993183460296381+ aHMmjQt*0.073027271465754+ aSMMjQg*-41.685504895336179+ iBMmwHg*1195.953967146027040+ 134 PCB_lkow_ 0.92728403 6 206

214

Page 215: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

iBMmwHg*1195.781250000000000+ iFPMECg*0.000000000046040+ inPRjQt*-0.053628481878679 y=5.085278949837590+ imMrFHt*-357.296321414089600+ iHDdFHg*2.156138113196185 135 PCB_rrf_ 0.692921683 2 209y=6.055340736461524+ imMrFHt*-416.942003738513088+ iHDdFHg*2.313956389789302+ iMMMjQg*1.829475297508006+ iAMrVQg*-0.002506945942322 136 PCB_rrf_ 0.736793462 4 209y=5.522010734067013+ iSMMWHg*-8112.253036635951360+ iSMmEQt*194.350344691394656 137 Triazines_ 0.975281158 2 30y=1.741930263231576+ iSMMWHg*-9261.099477423027200+ iAMdEHg*10.338581077497056+ INDRLQg*3.891633816915113 138 Triazines_ 0.983012783 3 30y=5.660616397857666+ iSMmEQt*200.968338012695296+ iSMMWHg*-9010.562500000001280+ LHmrPQg*0.060792036354542+ INPRJQg*2.838208675384522 139 Triazines_ 0.988145828 4 30y=5.753315448760986+ iSMmEQt*198.759780883789088+ iSMMWHg*-9006.287109375000320+ LADmkQt*-0.071008183062077+ INPRJQg*2.863457918167114 140 Triazines_ 0.988538325 4 30y=5.974672317504883+ iSMmEQt*197.155532836914080+ iSMMWHg*-9045.324218750000640+ LBDmkQt*-0.069745272397995+ INPRJQg*2.900454759597779 141 Triazines_ 0.98857367 4 30y=-5.989828784974575+ ISDmsHt*0.023998570742623+ lADrtHg*-1.022659619437935 142 PCB_rrt_ 0.997201518 2 209y=8.908911583895442E+000+ liPRLCg*5.130496472711478E+000+ IAPRVQg*-4.006474847883577E+001 143 34121_ 0.530525286 2 76y=3.184913714944090E+000+ iAPrWCt*-7.367710068568820E+001+ imPdlMg*2.743775705121285E+000 144 34121_ 0.539820496 2 76y=1.394098640420996E+001+ lBDDPQg*4.455875932852346E+000+ IbPDPQg*-9.162168698947033E+000 145 34121_ 0.548704368 2 76y=1.186554369769341E+001+ imMRjQg*-3.194956703543156E-001+ INMMwQg*2.201541664377901E+003+ lBDDPQg*3.723218963557573E+000+ IbPDPQg*-7.692180382738973E+000 146 34121_ 0.67843743 4 76y=1.121850860583595E+001+ imMRjQg*-3.744935336220445E-001+ 147 34121_ 0.697382796 4 76

215

Page 216: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

imDDKQg*7.994101026398718E-001+ lBDDPQg*4.758667402431983E+000+ IbPDPQg*-7.950113079258346E+000 y=1.094115134180832E+001+ imMRjQg*-3.710272139159518E-001+ imPDKQg*8.467292793176487E-001+ lBDDPQg*4.730475798631939E+000+ IbPDPQg*-7.809163830375249E+000 148 34121_ 0.714731788 4 76y=9.353880712342770E-001+ IHMdpMg*2.405448896100415E+002+ IHMdOMg*-9.877864464810714E-002 149 JCCS2001_ 0.883683364 2 47y=1.031856753982042E+000+ IHMdoMg*4.817499113970195E+001+ IHMdOCg*-3.550966400040491E+000 150 JCCS2001_ 0.88733564 2 47y=2.021528030038608E+000+ iAPMLHg*-2.119616905782861E+001+ aAPrwQt*-1.683039388077890E-004+ IHMdoMg*4.587595185744087E+001+ IHMdOCg*-3.404948579625964E+000 151 JCCS2001_ 0.937366326 4 47y=2.628600269530879E+000+ iAPMLHg*-2.670560915091208E+001+ imDrDQg*-5.893439946409806E+000+ IHMdpMg*2.156046225910141E+002+ IHMdOMg*-9.297899627956369E-002 152 JCCS2001_ 0.940027138 4 47y=8.140489476203218E-001+ lmDRsQg*-5.205699955284682E-002+ iAPrtQg*1.837718043971574E-003+ IHMdpMg*2.408973139743459E+002+ IHMdOMg*-9.638490508381616E-002 153 JCCS2001_ 0.940331599 4 47y=-8.200569073048715E+000+ lmPrsCg*-9.942578337233752E-001+ IIMdPQg*1.475164370718451E+002+ IHDrFHt*7.958746115790257E-001 154 3300_ 0.941640524 3 34y=-7.395268591280339E+000+ lmPrVQt*-2.344557159714253E-001+ iNMMkQg*-2.851107205952929E-002+ lmPrsCg*-1.112393160040784E+000+ IIMdPQg*1.932535706999829E+002+ IHDrFHt*7.483860535215806E-001 155 3300_ 0.975828003 5 34y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 156 15aacidsCHI_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 157 15aacidsDM_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 158 15aacidsEHu_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 159 15aacidsHTH_ 0.99 3 15

160 15aacidsHyE_ y=-62.361371746820275+ 0.99 3 15

216

Page 217: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 161 15aacidsHyd_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 162 15aacidsKDH_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 163 15aacidsLPH_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 164 15aacidsLac_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 165 15aacidsLogP_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 166 15aacidsMR_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 167 15aacidsPol_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 168 15aacidsRef_ 0.99 3 15y=-62.361371746820275+ lSDmwMt*6.372504386827629+ iHPDEQg*0.058693170881799 169 15aacidsSlb_ 0.99 3 15y=-3.899995456511689E+000+ iHDMkMg*5.656940765236902E-002+ IHDDfMg*5.237900484407559E-002 170 cqdmdfv_ 0.791717722 2 37y=-3.863052189141237E+000+ iHDMkMg*5.685380086944401E-002+ IHDDFMg*5.119539422851146E-002 171 cqdmdfv_ 0.792894457 2 37y=4.983642390909260E+000+ IiDDFMg*1.095693192033933E+000+ IGPRSHg*-2.866877787558061E+000 172 cqdmdfv_ 0.837765633 2 37y=8.729908076844302E+000+ IfMmkEt*-3.193361463363008E+002+ iFPDJQg*7.052011286452327E-003+ IHDMkMg*-6.940338868451494E+002+ IHDDFMg*5.265590211048012E-002 173 cqdmdfv_ 0.902243362 4 37y=9.114670320012248E+000+ IFMmkEg*-1.075642411355964E+004+ ifPDJQg*1.326584216201407E-002+ IHDMkMg*-7.437831566808608E+002+ IHDDFMg*5.301240391684132E-002 174 cqdmdfv_ 0.90226774 4 37y=7.867373431327034E+000+ IHMmlHt*2.253830286409211E+000+ IHDDfHg*2.173108607718223E+000+ IHDMkMg*-1.281502744982768E+003 175 cqdmdfv_ 0.873686181 3 37

217

Page 218: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

y=1.003396546771776E+001+ IHMmlHt*2.269406814666561E+000+ lHDDfHg*2.658929646993912E+000+ IHDMkMg*-1.287456019297492E+003 176 cqdmdfv_ 0.878203069 3 37y=8.198277549218441E+000+ IFMMwHt*-4.060849064392680E-006+ iGMdKQg*-3.223920991936599E-001+ IHDMlGg*4.022926700181765E+001+ iGPDJQg*3.428375813105643E+000+ IHDMkMg*-2.863067426695822E+003 177 cqdmdfv_ 0.932284995 5 37y=8.196619870093642E+000+ IFMRwHt*-4.090535037179962E-006+ iGMdKQg*-3.223966410814169E-001+ IHDMlGg*4.024536545952987E+001+ iGPDJQg*3.428953982552353E+000+ IHDMkMg*-2.863886206931033E+003 178 cqdmdfv_ 0.932302619 5 37y=7.875540309968831E+000+ iGMdKQg*-3.178216723715206E-001+ IFDrfHt*-3.712320549172804E-004+ IHDMlGg*4.300507686737912E+001+ iGPDJQg*3.467470958104024E+000+ IHDMkMg*-2.995984495901780E+003 179 cqdmdfv_ 0.93235562 5 37y=1.017765046541389E+001+ IGDMlQt*1.033819008180921E+000+ IbMDpHg*9.506440434006870E-003+ IHMmlHt*2.986180487676706E+000+ lHDDfHg*3.120537844300812E+000+ IHDMkMg*-1.693877987674947E+003 180 cqdmdfv_ 0.930544951 5 37y=1.021449314660090E+001+ lmMmEHg*-2.768917870643550E+000+ imMmsHg*-1.332239024874281E+001+ IHDMlGg*6.254578659016686E+001+ iGPDJQg*2.557922177945907E+000+ IHDMkMg*-3.682822869950283E+003 181 cqdmdfv_ 0.9361187 5 37y=9.437272554095401E+000+ ImMmEHg*-7.326534943461503E-001+ imMmtHg*-7.887482194328009E+000+ IHDMlGg*5.981435730123702E+001+ iGPDJQg*2.221188846182277E+000+ IHDMkMg*-3.478875295297901E+003 182 cqdmdfv_ 0.936874282 5 37

Legendă: ÷ Nr: număr current; ÷ Set: denumirea setului de molecule investigat; ÷ Model: modelul QSAR obţinut; ÷ r2: coeficientul de determinare între activitatea observată şi valoarea sa prezisă

de ecuaţia de regresie folosind descriptorii de structură MDF calculaţi ÷ v: numărul de descriptori de structură folosiţi de modelul QSAR obţinut; ÷ m: munărul de molecule din setul supus investigaţiei.

2009A5. Obţinerea relaţiilor (semi)Cantitative Structură-Activitate, sQSARs

218

Page 219: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Relaţii semicantitative structură-activitate s-au obţinut pe parcursul desfăşurării cercetării atât în 2008 cât şi în 2009, fiind cuprinse şi astfel valorificate în publicaţii. S-a dezvoltat şi documentat o aplicaţie bazată pe algoritm genetic pentru obţinerea relaţiilor semicantitative structură-activitate; aplicaţia constituie subiectul unei lucrări care este în prezent sub formă de manuscript depozitat online (ArXiv http://arxiv.org/abs/0906.4846) fiind trimis spre publicare la o revistă de specialitate. Analiza cu privire la obţinerea relaţiilor (semi)cantitative structură-activitate, sQSARs s-a efectuat pe un set voluminos de date (206 compuşi) pentru a evita selecţia bazată pe şansă. Rolul algoritmului genetic se regăseşte prin următoarea analogie. Conceptul de familie este comun în biologie, organismele vii fiind clasificate după o structură arborescentă, una dintre acestea fiind ilustrată alăturat. Şi în ceea ce priveşte compuşii chimici, relaţiile de înrudire între aceştia sunt exprimate prin intermediul apartenenţei la o clasă sau alta, aici însă existând mai multe sisteme de clasificare, în funcţie de prezenţa unui atom sau grupe de atomi în moleculă, de proprietăţile fizico-chimice sau biologice ale acestora. O clasificare a compuşilor organici după grupările funcţionale pe care aceştia le posedă este ilustrată alăturat. Este astfel justificat să presupunem că construcţia şi utilizarea de familii de descriptori pentru obţinerea de ecuaţii qSPAR este calea naturală de urmat. Analiza topologică a unei structuri moleculare ne conduce în mod inevitabil la familii de descriptori moleculari, având la dispoziţie o serie de matrici pătratice care cumulează caracteristici moleculare derivate din structură (Matricea de Adiacenţă, Matricea de Incidenţă, Matricea de Distanţă, Matricea de Detur, Matrici combinatoriale, Szeged, Cluj, şi altele) şi o serie de modalităţi de cumulare a valorilor conţinute în aceste matrici (indici pe matrici pătratice).

Domain

Kingdom

Phylum

Class

Order

Family

Genus

Species

Life

Trei familii de descriptori fac subiectul cercetării: ÷ FPIF (Fragmental Property Index Family); ÷ MDF (Molecular Descriptors Family); ÷ MDFV (Molecular Descriptors Family Vertex). FPIF (Jäntschi şi Diudea, 2000) este o metodă matriceală bazată pe matrice pătratice de proprietăţi derivate din structură. Astfel foloseşte: topologia moleculară (dA(b,c) - distanţa topologică în structura `A` de la atomul `b` la atomul `c`; δA(b,c) - deturul - i.e. cea mai lungă cale - topologică în structura `A` de la atomul `b` la atomul `c`; WA(b,c) - mulţimea drumurilor în structura `A` de la atomul `b` la atomul `c`; PA(b,c) - mulţimea căilor în structura `A` de la atomul `b` la atomul `c`; DA(b,c) - mulţimea căilor distanţă în structura `A` de la atomul `b` la atomul `c`; ΔA(b,c) - mulţimea căilor detur în structura `A` de la atomul `b` la atomul `c`; A\p - structura ce rezultă din înlăturarea atomilor conţinuţi în calea `p` şi legăturilor pe care aceştia le formează în structura A exceptând capetele căii) pentru a obţine pentru fiecare pereche de atomi un set de atomi vecini utilizând în acest scop un set de 6 criterii (FC - criteriu fragmentare): Sz: SzDi - Szi,j={x | x Atom} unde dMoleculă(x,i)<dMoleculă(x,j); SzDe - Szi,j={x | x Atom} unde δMoleculă(x,i)<δMoleculă(x,j); Cj: CJi,j,p={x | x Atom} unde dMoleculă(x,i)<dMoleculă(x,j) şi ∃w∈WMoleculă(x,i) | w∩p={i}; p∈PMoleculă(i,j): CjDi - p∈DMoleculă(i,j); CjDe - p∈ΔMoleculă(i,j); Cf: Cfi,j,p={x | x Atom} unde Gp=Moleculă\p, p∈PMoleculă(i,j) şi dGp(x,i)<dGp(x,j): CfDi - p∈DMoleculă(i,j); CfDe - p∈ΔMoleculă(i,j); patru proprietăţi atomice (AP - proprietate atomică): M - masa atomică relativă; E - electronegativitatea; C - cardinalitatea (numărul de atomi); Q - sarcina electrică parţială; opt descriptori de proprietate (PD - descriptor de proprietate): p - proprietatea; d - distanţa; 1/p; 1/d; pd; p/d; p/d2; p2/d2; cinci modele de suprapunere (SM - model de suprapunere): S: sumă; P: produs; A: medie aritmetică; G: medie geometrică; H: medie armonică; două modele de interacţiune (IM - model de interacţiune): R - rar (se presupune că proprietatea tuturor atomilor fragmentului este concentrată în centrul de proprietate, a cărui poziţie se obţine şi se foloseşte în obţinerea descriptorului de fragment folosind descriptorul de interacţiune); D - dens (se obţine efectul contribuţiei fiecărui atom al fragmentului după care se realizează suprapunerea vectorială a acestora); două metrici de distanţă (DM - metrica de distanţă): T - topologică; G - geometrică; patru tipuri de indici pe matrici pătratice (MI - indici pe matrici):

219

Page 220: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

IP1 - semi-suma elementelor din matrice; IP2 - semi-suma pătratelor elementelor din matrice; IE1 - semi-suma elementelor din matricea ce rezultă din înmulţirea matricei de proprietate cu matricea de adiacenţă; IE2 - semi-suma pătratelor elementelor din matricea ce rezultă din înmulţirea matricei de proprietate cu matricea de adiacenţă; operator de linearizare (LO): I - funcţia identitate f(x)=x; R - reciproca f(x)=1/x; L - logaritmul f(x)=ln(x); Astfel, familia FPIF este constituită dintr-un număr de membrii egal cu înmulţirea tuturor posibilităţilor de alegere de mai sus (2·2·4·8·6·5·4·3 = 46080), astfel: ÷ FPIF = IM×DM×AP×PD×FC×SM×MI×LO ÷ IM = {R, D}; ÷ DM = {T, G}; ÷ AP = {M, E, C, Q}; ÷ PD = {p, d, 1/p, 1/d, pd, p/d, p/d2, p2/d2}; ÷ FC = {SzDi, SzDe, CjDi, CjDe, CfDi, CfDe}; ÷ SM = {S, P, A, G, H}; ÷ MI = {IP1, IP2, IE1, IE2}; ÷ LO = {I, R, L}. MDF (Jäntschi, 2004) este o metodă bazată pe fragmente moleculare obţinute din perechi de vârfuri. În mod similar cu metoda FPIF, metoda MDF foloseşte doi operatori de distanţă (DO): topologică (t) şi geometrică (g), şase proprietăţi atomice (AP): cardinalitate (C), număr de atomi de hidrogen direct legaţi (H), masa atomică relativă (M), electronegativitatea (E), electronegativitatea de grup (G) şi sarcina atomică parţială (Q), douăzeci şi patru de descriptori de interacţiune (ID): D(d), d(1/d), O(p1), o(1/p1), P(p1p2), p(1/p1p2), Q(√p1p2), q(1/√p1p2), J(p1d), j(1/p1d), K(p1p2d), k(1/p1p2d), L(d√p1p2), l(1/d√p1p2), V(p1/d), E(p1/d2), W(p1

2/d), w(p1p2/d), F(p12/d2), f(p1p2/d2),

S(p12/d3), s(p1p2/d3), T(p1

2/d4), t(p1p2/d4), şase modalităţi de interacţiune (IM): `R` şi `r` - modele rare, `M` şi `m` - modele medii, şi `D` şi `d` - modele dense - fiecare dintre ele relativ la primul atom al fragmentului şi respectiv la atomul referinţă exterior fragmentului, patru metode de fragmentare (FC): `m` - minimale, `M` - maximale, `D` - Szeged, `P` - Cluj pe căi, nouăsprezece modalităţi de suprapunere globală a interacţiunii fragmentelor (SF - formula de suprapunere): grupul de mărimi ( `m` - selectează cea mai mică valoare; `M` - cea mai mare valoare; `n` - cea mai mică valoare absolută; `N` - cea mai mare valoare absolută); grupul de medii ( `S` - suma; `A` - media aritmetică după numărul de proprietăţi de fragmente; `a` - media aritmetică după numărul de fragmente; `B` - media aritmetică după numărul de atomi; `b` - media aritmetică după numărul de legături); grupul geometric (`P` - multiplicare; `G` - medie geometrică după numărul de proprietăţi de fragmente; `g` - medie geometrică după numărul de fragmente; `F` - medie geometrică după numărul de atomi; `f`` - media geometrică după numărul de legături); grupul armonic (`s` - suma armonică; `H` - medie armonică după numărul de proprietăţi de fragmente; `h` - medie armonică după numărul de fragmente; `I` - medie armonică după numărul de atomi; `i` - media armonică după numărul de legături), şi şase operatori de linearizare (LO): `I` - identitate (f(x)=x), `i` - inversa (f(x)=1/x), `A` - valoare absolută (f(x)=|x|), `a` - inversul valorii absolute (f(x)=1/|x|), `L` - logaritm (f(x)=ln(x)), şi `l` - logaritmul valorii absolute (f(x)=ln(|x|)). Astfel, familia MDF este constituită dintr-un număr de membrii egal cu înmulţirea tuturor posibilităţilor de alegere de mai sus (2·6·6·24·4·19·6 = 787968), astfel: ÷ MDF = DM×AP×ID×IM×FC×SM×LO ÷ DM = {t, g}; ÷ AP = {C, H, M, E, G, Q}; ÷ PD = {d, 1/d, p1, 1/p1, p1p2, 1/p1p2, √p1p2, 1/√p1p2, p1d, 1/p1d, p1p2d, 1/p1p2d, d√p1p2, 1/d√p1p2,

p1/d, p1/d2, p12/d, p1p2/d, p1

2/d2, p1p2/d2, p12/d3, p1p2/d3, p1

2/d4, p1p2/d4}; ÷ IM = {r, R, m, M, d, D} ÷ FC = {m, M, D, P}; ÷ SF = {m, M, n, N, S, A, a, B, b, P, G, g, F, f, s, H, h, I, i}; ÷ LO = {I, i, A, a, L, l}.

220

Page 221: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

MDFV (Jäntschi şi Bolboacă, 2008) este o metodă bazată pe vârfuri în locul perechilor de vârfuri, în care sunt implementate două valori pentru operatorul de distanţă (DO), şapte proprietăţi atomice (AP), cincizeci şi opt de descriptori de interacţiune (ID), şapte metode de suprapunere la nivel de fragment (SF) şi la nivel de moleculă (SM), zece tipuri de interacţiune (IT), două unităţi de exprimare (EU - unitate de descriptor molecular `D` şi unitate de distanţă (coordonată centru) descriptor molecular `d`), şi trei operatori de linearizare (LO: I - identitate, R - reciproc, L - logaritm). Astfel, familia MDF este constituită dintr-un număr de membrii egal cu înmulţirea tuturor posibilităţilor de alegere de mai sus (2·7·58·7·7·10·2·3 = 2387280), astfel: ÷ MDFV = DO×AP×ID×SF×SM×IT×EU×LO; ÷ DO = {T, G}; ÷ AP = {C, H, M, E, Q, L, A}; ÷ ID = {J, j, O, o, P, p, Q, q, R, r, K, k, L, l, M, m, N, n, W, w, X, x, Y, y, Z, z, S, s, T, t, U, u, V,

v, F, f, G, g, H, h, I, i, A, a, B, b, C, c, D, d, 0, 1, 2, 3, 4, 5, 6, 7}; ÷ SF = {A, a, I, i, F, P, C}; ÷ SM = {A, a, I, i, F, P, C}; ÷ IT = {f, F, c, C, p, P, a, A, i, I}; ÷ EU = {D, d}; ÷ LO = {I, R, L} Obţinerea unei ecuaţii qSPAR cu membrii ai unei familii de descriptori este o problemă simplă atunci când se caută regresii liniare simple, tot ceea ce trebuie făcut rezumându-se la calcularea valorilor pentru fiecare membru al familiei şi efectuarea regresiei liniare între valorile acestuia pentru fiecare moleculă în parte şi valorile măsurate ale proprietăţii/activităţii observate. Problema regresiei liniare multiple cu doi membrii ai unei familii de descriptori este o problemă relativ simplă, când trebuie să se caute care este cea mai bună ecuaţie de regresie ce conţine o pereche de descriptori moleculari. Complexitatea problemei însă începe să apară, numărul de combinaţii din spaţiul de căutare fiind deja aici semnificativ pentru o căutare sistematică de fiecare cu fiecare (presupunând că toţi descriptorii sunt valizi, numărul total de combinaţii este de 1.1·109 pentru FPIF, 3.1·1011 pentru MDF, şi 2.8·1012 pentru MDFV). Începând cu trei descriptori şi continuând cu valorile superioare ale acestuia problema regresiei liniare multiple cu membrii ai unei familii de descriptori este o problemă dificilă, spaţiul de căutare crescând exponenţial cu numărul de descriptori implicaţi în regresie multiplă şi timpul de execuţie ieşind din timpul real. Implementarea şi utilizarea unui algoritm genetic conferă avantajul unei căutări euristice în locul unei căutări sistematice care ar implica explorarea întregului număr de posibilităţi de combinare a descriptorilor pentru a forma ecuaţia de regresie liniară. Construcţia unui descriptor membru al unei familii de descriptori poate fi privită ca execuţia unui cod genetic definit de numele descriptorului (FPIF = IM×DM×AP×PD×FC×SM×MI×LO; MDF = DM×AP×ID×IM×FC×SM×LO; MDFV = DO×AP×ID×SF×SM×IT×EU×LO) ceea ce înseamnă că familia de descriptori defineşte materialul genetic al populaţiei, în timp ce valorile pe care le capătă un descriptor pentru setul de molecule investigat defineşte un individ al populaţiei. Tăria (scorul) unui individ se asociază cu performanţa acestuia într-o ecuaţie qSPAR care îl conţine, şi obiectivul evoluţiei este obţinerea unei cât mai bune ecuaţii de regresie. Obiectivul căutării devine astfel găsirea submulţimii {Xi}1≤i≤n a mulţimii {Xi}1≤i≤N care asigură cea mai mare semnificaţie statistică pentru ecuaţia de regresie (1) sau (2) prin intermediul semnificaţiilor date de coeficientul de corelaţie (ecuaţia 5) fie prin intermediul semnificaţiei date de valorile Student t (ecuaţia 17).

40 41Fiecare genă [ ] codifică câte un operator folosit în construcţia cromozomului [ ] unui descriptor

[40] genă = una din valorile de pe coloana Gene a Tabelului 36; ex. IM pentru FPIF [41] cromozom = secvenţa de gene a unei familii în Tabelul 36; ex. DMAPIDIMFCSMLO pentru MDF

221

Page 222: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

222

molecular. Fiecare descriptor al unei familii de descriptori este un genotip [42] şi toţi împreună constituie materialul genetic [43] al familiei respective.

Spaţiul de căutare al familiilor de descriptori moleculari Familie Gene Genom

IM R D DM T G AP M E C Q PD __p__ __d__ _1/p_ _1/d_ _p*d_ _p/d_ _p/d2 p2/d2 FC si se ji je fi fe SM S P A G H MI P_ P2 E_ E2

FPIF (©2000)

LO I R L DM t g AP C H M E G Q ID D d O o P p Q q J j K k L l V E W w F f S s T t IM r R m M d D FC m M D P SM m M n N S A a B b P G g F f s H h I i

MDF (©2005) LO I i A a L l

DO T G AP C H M E Q L A

J j O o P p Q q R r K k L l M m N n W w X x Y y Z z S s TID t U u V v F f G g H h I i A a B b C c D d 0 1 2 3 4 5 6 7SF A a I i F P C SM A a I i F P C IT f F c C p P a A i I EU D d

MDFV (©2008)

LO I R L CF D P C DO T G AP C H M E A DP I E H G A Q S PP I E H G A Q S OM S M MP I E H G A Q S

SAPF (©2009)

LO I A S T Q R L Numărul de valori pe care le codifică fiecare genă variază de la 2 valori (în cazul genei ce codifică tipul de metrică de distanţă - topologică şi geometrică - DM pentru FPIF şi MDF şi DO pentru MDFV şi SAPF) până la 58 de valori în cazul descriptorului de interacţiune ID al familiei MDFV. Volumul materialului genetic variază şi Tabelul 37 sumarizează aceste variaţii:

Volumele familiilor de descriptori moleculari Familie Gene Volum (N)

FPIF (©2000) IM:2 DM:2 AP:4 PD:8 FC:6 SM:5 MI:4 LO:3 46080MDF (©2005) DM:2 AP:6 ID:6 IM:24 FC:4 SM:19 LO:6 787968

MDFV (©2008) DO:2 AP:7 ID:58 SF:7 SM:7 IT:10 EU:2 LO:3 2387280

[42] genotip = o concretizare posibilă a valorilor fiecărei gene a unui cromozom; ex. TCJtAAfDI pentru MDFV [43] material genetic = mulţimea tuturor combinaţiilor posibile de valori de pe coloana Genom în tabelul 36; ex. {D, P, C} × {T,G} × {C,H,M,E,A} × {I,E,H,G,A,Q,S} × {S,M} × {I,E,H,G,A,Q,S} × {I,E,H,G,A,Q,S} × {I,A,S,T,Q,R,L} pentru SAPF

Page 223: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

CF:3 DO:2 AP:5 DP:6 PP:6 OM:2 MP:6 LO:6 77760SAPF (©2009) Mărimea spaţiului de căutare (VS) se calculează în funcţie de volumul familiei de descriptori moleculari (N) şi ordinul de multiplicitate al regresiei multiple (`n`) cu formula:

⎟⎟⎠

⎞⎜⎜⎝

⎛=

+−=∏

= nN

j1jNV

n

1jS

ilă [ ].

(20)

Volumul spaţiului de căutare dat de ecuaţia (20) permite exprimarea complexităţii calcului necesar pentru a parcurge întreg spaţiul de căutare, această valoare fiind dublată deoarece căutarea se poate face pe baza ecuaţiei (1) sau ecuaţiei (2), ecuaţii care folosesc expresii diferite de calcul al parametrilor ecuaţiei de regresie. Metodologia algoritmilor genetici presupune prelevarea iniţială (întâmplător sau deterministic) a unui eşantion [44] de cromozomi din materialul genetic format dintr-un şir de descriptori X1, ..., Xp care este supus procesului de evoluţie [45 46] în cultivar [ ]. Algoritmul genetic [47] operează astfel asupra eşantionului care suferă modificări în fiecare generaţie [48]. Fiecare mulţime de `n` descriptori distincţi reprezintă un punct în spaţiul de căutare [49] şi în acelaşi timp o soluţie posib 50

Operatorii de bază ai unui algoritm genetic sunt încrucişarea şi mutaţia cromozomilor. Încrucişarea [51] a două genotipuri presupune alegerea unei porţiuni de încrucişat de-a lungul şirului de gene (întâmplător sau deterministic) şi valorile celor două porţiuni de şiruri sunt schimbate între ele, când rezultă doi descendenţi. Mutaţia [52] unui genotip presupune modificarea unei valori a unei gene a cromozomului cu o altă valoare din lista valorilor posibile pentru gena respectivă. Rezultatul încrucişării şi al mutaţiei este obţinerea de descendenţi [53] sau fii.

Încrucişare Mutaţie

··· ··· ···

Selecţia [54] genotipurilor este operaţia prealabilă necesară încrucişării şi mutaţiei şi se face pe baza unui scor de selecţie [55]. Cel puţin o parte a descendenţilor reprezintă descriptori viabili [56] putând

[44] eşantion = submulţime a materialului genetic al familiei de descriptori moleculari; ex. {DTCIISII, DTCIESII, DTCGISII} reprezintă un eşantion de volum 3 al materialului genetic al SAPF [45] evoluţie = proces genetic complex care implică procese de selecţie, încrucişare şi mutaţie [46] cultivar = spaţiu (de memorie, virtual) în care genotipurile sunt transformate în fenotipuri prin aplicarea operatorilor definiţi de valorile genelor pentru întreg setul de `m` molecule supus studiului; fenotipul asociat genotipului este astfel un şir de `m` valori numerice (câte una pentru fiecare moleculă a setului) [47] algoritm genetic = algoritm care descrie prin instrucţiuni procesul de evoluţie asupra eşantionului [48] generaţie = una din iteraţiile algoritmului genetic [49] spaţiul de căutare = mulţimea posibilităţilor de selecţie a `n` descriptori din `VS` posibilităţi (relaţia 20) [50] soluţie posibilă = o ecuaţie de regresie cu `n` descriptori distincţi definită de relaţia (1) sau (2) [51] încrucişarea = procesul prin care o porţiune a materialului genetic al unui cromozom este înlocuită de porţiunea corespunzătoare a altui cromozom şi viceversa; încrucişarea este făcută în speranţa că dacă se recombină porţiuni de genotipuri de succes, atunci acest proces este probabil să producă descendenţi chiar mai buni decât părinţii din care provin [52] Mutaţie = operatorul care introduce modificări noi (inexistente în eşantionul unei generaţii); ceea ce este caracteristic în general mutaţiei şi implicit şi operatorului acesteia corespondent în algoritmii genetici este că ea se petrece cu o probabilitate scăzută, fiind deci aplicată cu o probabilitate scăzută [53] Descendenţi = genotipurile obţinute din încrucişarea şi eventual mutaţia indivizilor din eşantion [54] Selecţie = operatorul cu ajutorul căruia se extrage din eşantion mai mulţi indivizi care participă la înmulţire [55] Scor de selecţie = valoare numerică asociată individului din eşantion calculată pe baza (sau exprimată din) tăriei fenotipului în cultivar

mutaţie

··· ···

··· ···

genă supusă mutaţiei părinte

genă mutantă fiu

··· ··· ···

site încrucişare părinţi

··· ··· ···

··· ··· ···

recombinare fii

223

Page 224: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

face atunci parte din soluţii candidate ale generaţiilor următoare. Descendenţii viabili înlocuiesc o parte corespunzătoare a indivizilor din eşantion în urma unui proces de supravieţuire [57] aplicat indivizilor din eşantion pe baza unui scor de supravieţuire [58]. Un alt parametru al algoritmului genetic îl reprezintă obiectivul evoluţiei [59 60] care este urmărit pe baza unei funcţii obiectiv [ ]. Urmărirea obiectivului evoluţiei se face odată la fiecare generaţie selectând din eşantion acei indivizi care maximizează sau, după caz minimizează valoarea funcţiei obiectiv (acei indivizi care fac parte din cea mai bună ecuaţie de regresie obţinută pe baza indivizilor din cultivar). Se poate opta ca indivizii care ating obiectivul evoluţiei într-o generaţie să fie păstraţi în eşantion, caz în care acestora nu li se mai aplică procesul de supravieţuire, ei fiind automat incluşi în eşantionul generaţiei următoare. Aşa cum rezultă din aplicarea procesului de supravieţuire, nu toţi indivizii unei generaţii supravieţuiesc şi sunt incluşi în generaţia următoare. Motivul acestui fapt este păstrarea unui număr constant de genotipuri în eşantionul dezvoltat în cultivar, astfel încât numărul de indivizi înlocuiţi din eşantion este egal cu numărul de descendenţi viabili obţinuţi în urma selecţiei, încrucişării şi mutaţiei. Selecţia şi supravieţuirea având la bază scorurile de selecţie şi de supravieţuire se realizează folosind o modalitate de selecţie şi supravieţuire [61]. Tabelul următor redă modalităţile de selecţie şi supravieţuire folosite.

Selecţie (şi supravieţuire) în algoritmii genetici Metodă Expresia funcţiei de scor Selecţie Comentarii

Proporţional pi=fi/Σifi Şansa de selecţie este proporţională cu scorul (utilizând probabilitatea pi în selecţie)

Deterministic i | fi = max. Selecţia indivizilor este făcută pe baza celui mai tare (sau celui mai slab) individ (elitism)

sau min. fi=Fitness(Cromozom_i)

(fi,fj) Turnir Perechi de indivizi concurează între ei pentru selecţie (din nou este selectat cel mai tare sau cel mai slab)

max. sau min.

Normalizare gi=(fi-N0)(fmax.-fmin.)/(N1- pi=gi/Σigi O scală fixă [N0,N1] normalizează scorul

[56] Viabilitatea (unui descriptor molecular) = referă potenţialul acestuia de a fi folosit în regresii; un descriptor este viabil dacă (ceea ce urmează referă fenotipul acestuia, viabilitatea referind astfel manifestarea fenotipică) cel puţin are valori reale şi finite pentru toate moleculele din set şi nu are toate valorile identice; suplimentar i se pot impune şi alte condiţii, cum ar fi o variabilitate rezonabilă (prin intermediul unui coeficientul de variaţie), o abatere de la normalitate rezonabilă (prin intermediul unui test de normalitate cum este Jarque-Bera) şi o capacitate de explicare a proprietăţii măsurate rezonabilă (prin intermediul coeficientului de determinare din regresia liniară simplă cu proprietatea măsurată). [57] Supravieţuire = operatorul cu ajutorul căruia se extrage din eşantion mai mulţi indivizi care vor fi înlocuiţi în eşantion de către descendenţi [58] Scor de supravieţuire = valoare numerică asociată individului din eşantion care poate fi o valoare obţinută atât pe baza caracteristicilor genotipice ale individului (asociind o măsură a similarităţii acestuia cu alte genotipuri din cultivar în scopul menţinerii diversităţii materialului genetic) cât şi pe baza trăsăturilor fenotipice ale individului (asociind o măsură a similarităţii acestuia cu alte fenotipuri din cultivar în scopul menţinerii diversităţii fenotipice) [59] Obiectivul evoluţiei = parametrul sau caracteristica (unei ecuaţii de regresie) care constituie subiectul optimizării (minimizare - ex. suma pătratelor diferenţelor între (erorilor) valoarea măsurată şi cea explicată de model; maximizare - ex. coeficientul de determinare) [60] Funcţia obiectiv = algoritmul (procedura) de calcul al parametrului sau caracteristicii ce constituie obiectivul evoluţiei eşantionului. [61] modalitate de selecţie şi modalitate de supravieţuire = metodă de extragere a unui individ din eşantion ce foloseşte drept parametru valorile scorurilor (de selecţie şi respectiv de supravieţuire) ale indivizilor ce compun eşantionul; ceea ce Tabelul 38 prezintă în mod formal exprimă faptul că se folosesc trei alternative de selecţie (proporţional, deterministic şi turnir) care se pot aplica valorilor scorurilor sau rangurilor scorurilor (când selecţia e bazată pe valorile rangurilor în locul valorilor scorurilor); de asemenea, valoarea scorului poate fi supusă unui proces de normalizare care corectează (ajustează relativ) scorurile indivizilor din cultivar în raport cu două valori (una de minim şi alta de maxim) care se actualizează global în fiecare generaţie pe parcursul întregii evoluţii a eşantionului în cultivar

224

Page 225: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

N0) fenotipurilor între generaţii diferite Ranguri hi=Rank(fi)(fmax.-fmin.)/Size pi=hi/Σihi Şansa este proporţională cu rangul scorului

unde: Rank(·): rangul; Size: volum genom Următoarele remarci cu privire la utilizarea unui algoritm genetic definesc cadrul de operare al acestuia: ÷ Utilizând doar selecţia nu va reuşi decât să copieze (cloneze) cel mai bun individ al său în

întregul eşantion; ÷ Utilizând doar mutaţia nu va reuşi decât să parcurgă întâmplător spaţiul de căutare; ÷ Utilizând doar selecţia urmată de încrucişare va reuşi să conveargă către o soluţie bună (un

optim local) dar nu sub-optimală (în apropierea celei optime); ÷ Utilizând doar selecţia urmată de mutaţie se creează algoritmi paraleli, toleranţi la perturbaţii în

căutarea de punctelor de maxim local (în terminologia în engleză: hill-climbing); ÷ Utilizarea selecţiei urmate de mutaţie şi încrucişare asigură toate caracteristicile de definire ale

unui algoritm genetic; 62Se poate verifica că ecuaţia (20) defineşte o problemă dificilă [ ]. Astfel, reprezentând grafic

ecuaţia (20) pentru diferite valori ale volumului familiei de descriptori moleculari (`N`) date în Tabelul 37 şi pentru diferite ordine de multiplicitate (`n`) se obţin reprezentările de mai jos care susţin faptul că ecuaţia (20) defineşte o problemă dificilă.

VS = VS(46080(FPIF),n)

y = 18.844e8.8472n

R2 = 0.99951.E+001.E+051.E+101.E+151.E+201.E+251.E+301.E+351.E+40

1 2 3 4 5 6 7 8 9 10

VS = VS(N,3)

y = 0.166N3

R2 = 10.E+00

1.E+18

2.E+18

0.E+00 1.E+06 2.E+06

Complexitatea exponenţială a regresiilor multiple cu familii de descriptori moleculari

Pentru a rezolva o problemă dificilă un algoritm genetic generează întâmplător (sau iniţiază cu valori predefinite) un eşantion de un volum dat de genotipuri (volum ce va fi păstrat constant pe toată durata evoluţiei). Algoritmul genetic evoluează astfel: ÷ Repetă

Pasul_1: Utilizând operatorul de selecţie selectează perechi de cromozomi; Pasul_2: Calculează scorul de selecţie al genotipurilor; calculează scorul de

supravieţuire al genotipurilor; calculează funcţia obiectiv a fenotipurilor şi obţine grupul descriptorilor din eşantion ce întrunesc obiectivul în generaţie şi eventual include în generaţia următoare automat genotipurile din acest grup;

Pasul_3: Cu o mică probabilitate şi utilizând o funcţie discretă de probabilitate uniformă alege porţiunea de mutat şi mută genotipurile selectate (părinţi);

Pasul_4: Utilizând o funcţie discretă de probabilitate uniformă alege porţiunea de încrucişat şi produce descendenţi ai acestora (descendenţi);

Pasul_5: Cu o mică probabilitate şi utilizând o funcţie discretă de probabilitate uniformă alege porţiunea de mutat şi mută genotipurile descendenţilor (fii);

Pasul_6: Utilizând operatorul de supravieţuire înlocuieşte o parte din părinţi cu fii;

[62] problemă dificilă = problemă a cărei rezolvare de către cel mai bun algoritm (care ar putea fi imaginat) necesită un timp de execuţie care creşte exponenţial în funcţie de volumul datelor problemei (şi în acelaşi timp de intrare ale algoritmului); denumirea de probleme dificile vine de la faptul că deoarece chiar şi cel mai bun algoritm (care ar putea fi imaginat) va fi probabil ineficient pe date de intrare reale (din practică)

225

Page 226: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

÷ Până când (condiţie care reprezintă condiţia de sfârşit a algoritmului) Se satisface o condiţie impusă cu privire la valoarea funcţiei obiectiv (atinge o valoare

impusă) sau se realizează un număr dat de iteraţii (evoluţii).

Ilustrarea unui algoritm genetic

În implementarea algoritmului s-a ţinut seama de următoarele considerente: ÷ Calculele necesare pentru obţinerea valorilor unui descriptor molecular sunt complexe,

implicând fragmentarea grafului molecular, calcularea distanţelor topologice şi geometrice în moleculă, aplicare de modele de suprapunere a interacţiunilor, fiecare necesitând un timp de execuţie şi o memorie de lucru considerabile, astfel încât populaţia de descriptori trebuie generată şi stocată în prealabil execuţiei algoritmului genetic; este stocată într-o bază de date pentru MDF şi MDFV; este stocată în fişiere text cu format impus pentru FPIF şi SAPF.

÷ Volumul de informaţie al populaţiei de descriptori este considerabil (ex. tabela `PCB_lkow_tmpx` care stochează a şasea parte din descriptorii MDF (131328) calculaţi pentru 206 PCBs - din totalul de 209 - pentru care există măsurat în aceleaşi condiţii experimentale coeficientul de partiţie octanol-apă ocupă peste 200Mb - atât în stocare fizică pe disc cât şi în memoria internă) astfel încât manipularea acestui volum de informaţie ridică serioase provocări de optimizare a memoriei de lucru şi vitezei de calcul; alegerea mediului de programare a ţinut seama de aceste considerente; s-a ales drept mediu de implementare FreePascal [63] un mediu de programare freeware multi-platformă bazat pe limbajul Pascal, recunoscut pentru viteza de calcul şi economia de memorie.

÷ Întrucât evoluţia algoritmului genetic se doreşte a fi rapidă, accesul şi interogarea repetată a bazei de date pentru obţinerea valorilor unui descriptor molecular la moleculele din setul de lucru încetineşte considerabil viteza de lucru, astfel încât soluţia aleasă a fost stocarea în memoria internă a imaginii bazei de date, cu cost suplimentar în ceea ce priveşte memoria de lucru, dar cu câştig deosebit în ceea ce priveşte viteza de lucru.

÷ Nu toţi descriptorii din familie (una dintre FPIF, MDF, MDFV sau SAPF) întrunesc condiţiile reale de existenţă (să aibă valori reale şi finite pentru toate moleculele din setul considerat; să nu aibă valori banale - identice pentru toate moleculele din set); mai mult, impunerea de condiţii suplimentare cu privire la variabilitate, capacitate de explicare şi normalitate reduce şi mai mult setul de descriptori candidaţi în regresii multiple pentru setul de molecule considerat; stocarea valorilor acestor descriptori în memoria internă ar fi lipsită de sens, şi astfel s-a impus realizarea acestei selecţii în preambulul execuţiei efective a algoritmului genetic, introducând o variabilă care conţine două valori de adevăr (T/F) pentru validitatea descriptorului molecular la setul de molecule considerat; mai mult, practic stocarea unei fracţii din totalul descriptorilor moleculari (fapt valabil pentru toate familiile de descriptori) s-a făcut pe seama renunţării la o genă din secvenţa cromozomului familiei - operatorul de linearizare - fapt care însă trebuie compensat în execuţia algoritmului genetic; astfel s-au mai introdus un număr de variabile cu două valori de

[63] FreePascal, http://freepascal.org

cel mai bun fenotip t+1

t

t+1

t+1

încrucişare mutaţie

scor selecţie

selecţiescor

226

Page 227: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

adevăr (T/F) pentru fiecare operator de linearizare (câte 6 pentru MDF şi SAPF şi câte 3 pentru FPIF şi MDFV), fiecare conţinând valoarea de adevăr a validităţii descriptorului molecular respectiv în urma linearizării - numit în continuare fenotip; astfel, variabila globală definită pentru fracţia de descriptori stocată intern a căpătat o nouă semnificaţie, şi anume adevărat (T) dacă cel puţin unul dintre fenotipurile sale este valid.

÷ O serie de parametrii de statistică descriptivă sunt esenţiali (şi implicaţi în mod repetat) pentru analiza de regresie (valori medii, momente) astfel încât s-a impus calcularea prealabilă a acestora pentru fenotipurile valide incluse în eşantion.

÷ Programul evolutiv [64] rezultat trebuie să fie gândit astfel încât să poată lucra cu oricare familie de descriptori moleculari (incluzând desigur cele 4 familii expuse mai sus - FPIF, MDF, MDFV, SAPF) şi să poată fi parametrizat; soluţia de implementare aleasă este crearea şi utilizarea de fişiere de configurare.

Programul evolutiv foloseşte un fişier de configurare pentru conexiunea la baza de date ce stochează familia de descriptori moleculari, conform schemei de mai jos:

Conexiunea la serverul ce stochează baza de date a familiei de descriptori moleculari

Staţie de lucru └ Program evolutiv

Server └ Bază de date └ Tabelă măsurători experimentale └ Tabelă descriptori moleculari

O conexiune la un server de baze de date impune protocoale de securitate. De asemenea execuţia efectivă a programului impune cunoaşterea numelui bazei de date şi a tabelelor, în ipoteza asumată că structura tabelelor este aceeaşi şi independentă de familia de descriptori moleculari şi setul de molecule considerat. Astfel, fişierul de configurare denumit `c_galg.cfg` conţinutul redat în Tabelul 39 exemplificând pentru familia MDF, setul PCB. Programul implementat foloseşte o librărie dinamică (`mysql4.dll`) ce implementează protocoalele de securitate necesare (SHA256) pentru a se conecta la serverul ce conţine baza de date de interes folosind valorile date în fişierul de configurare pentru aprametrii `Host=`, `User=` şi `Pass=` astfel: se citeşte conţinutul fişierului de configurare cu procedura `g_mydb` (Algoritmul 1) şi se realizează conexiunea cu procedura `c_to` (Algoritmul 2).

Structura fişierului de configurare `c_galg.cfg` Parametru Valoare Comentarii

Host= 172.27.211.5 Adresa IP a serverului User= **** Numele şi parola utilizatorului cu drept de citire pe baza de date

ce conţine valorile descriptorilor moleculari pentru setul de molecule supus investigaţiei

Pass= ********

Mydb= MDFSARs Numele bazei de date TabE= PCB_lkow_data Numele tabelei conţinând datele experimentale

TabM= PCB_lkow_tmpx Numele tabelei conţinând familia de descriptori moleculari

Algoritmul 1. Citirea fişierului de configurare `c_galg.cfg` Antet procedure g_mydb(var d:S0T);

Procedură var f:text;i:I0T; begin SetLength(d,6); assign(f,mfi[0]); {$I-}reset(f);{$I+} if(ioresult<>0)then m_exit('Err cfg File '+mfi[0]+' N/A!'); for i:=0 to 5 do g_finf(f,myc[i],d[i]); close(f); end;

Date de Variabilele globale intrare ÷ mfi[0]=`c_galg.cfg`

÷ myc[0..5]=(`Host`, `User`, `Pass`, `Mydb`, `TabE`, `TabM`)

[64] program evolutiv = în accepţiunea generală este un program ce implementează un algoritm genetic

227

Page 228: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Date de d:array[0..5]of string; ieşire Algoritm ÷ Se alocă memorie pentru valorile ce urmează a fi citite din

fişierul de configurare ÷ Se verifică accesibilitatea fişierului de configurare; în caz

afirmativ se deschide, in caz contrar se produce ieşirea din program prin afişarea unui mesaj

÷ Se citeşte fiecare valoare a parametrilor din fişier

Algoritmul 2. Conexiunea la o bază de date MySQL Antet function c_to(var q:TMYSQL;var s:PMYSQL;var m:S0T):B_T;

Procedură begin mysql_init(PMySQL(@q)); s:=mysql_real_connect(PMysql(@q),pch(m[0]),pch(m[1]),pch(m[2]),nil,0,nil,0); if(s=Nil)then begin Writeln(stderr,'NR MySQLd:',mysql_errno(@q),' ',mysql_error(@q)); c_to:=FALSE;exit; end; if(mysql_select_db(s,pch(m[3]))<0)then begin Writeln(stderr,'NO MySQL dB: '+m[3]+' ',mysql_errno(s),':',mysql_error(s)); c_to:=FALSE;exit;end;c_to:=TRUE; end;

Date de m[0..5]= valorile pentru Host, User, Pass, Mydb, TabE, TabM intrare Date de q,s = variabile interne modulului mysql4.dll pentru manipularea

conexiunii cu serverul de baze de date mysql ieşire Algoritm ÷ Se încearcă realizarea unei conexiuni persistente folosind

valorile pentru Host, User, Pass; dacă e un eşec atunci ieşire cu FALSE din funcţie;

÷ Se încearcă accesarea bazei de date Mydb; dacă e un eşec atunci ieşire cu FALSE din funcţie;

Secvenţa următoare a implementării algoritmului genetic impune citirea topologiei familiei de descriptori, pentru a se putea aloca spaţiu de memorie pentru stocarea acestora în memoria internă. Topologia familiei de descriptori (ce codifică codul genetic al familiei) specifică genele şi valorile acestora precum şi succesiunea de adresare din tabela stocată pe server şi este redată în Tabelul următor exemplificând pentru familia MDF.

Structura fişierului de configurare `c_galg.cgt` Parametru Valoare Comentarii

Genes= mp/fc/oi/id/ap/dm Cromozomul familiei MDF Addre= fc/ap/id/oi/dm/mp Succesiunea de adresare a genotipurilor

mp= mMnNSPsAaBbGgFfHhIi Valorile genei `mp` fc= mMDP Valorile genei `fc` oi= RrMmDd Valorile genei `oi` id= DdOoPpQqJjKkLlVEWwFfSsTt Valorile genei `id` ap= CHMEGQ Valorile genei `ap`

dm= gt Valorile genei `dm` Manipularea codului genetic al familiei de descriptori moleculari impune crearea unui tip abstract de date care să conţină atât datele cât şi operaţiile care se efectuează pe aceste date, o primă operaţie fiind citirea valorilor din fişierul de configurare. Pentru simplificarea implementării, s-a impus definirea unei serii de tipuri de date, redate în tabelul următor.

Tipuri de date definite în programul evolutiv `ga_v2_0p.exe` Tip Expresie de definire Comentarii

B_T Boolean B0T Byte

Redefiniri ale

I0T Integer tipurilor de date de bază

L0T LongInt accesibile în mediul de programare FreePascal R0T Extended

S3 String[13] Şir de maxim 13 caractere

228

Page 229: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

S5 String[255] Şir de maxim 255 caractere S9 String[99] Şir de maxim 99 caractere C8 array[0..12]of S3 Şir de 13 şiruri de 13 caractere

S0T Array of S9 Şir (de număr variabil) de şiruri de maxim 9 caractere B1T Array of B0T Şir de numere întregi (max. 255) I1T Array of I0T Şir de numere întregi (max. 32767)

L1T Array of L0T Şir de numere întregi (max. 2147483647) B2T Array of B1T Şir de şiruri de numere întregi (max. 255) R1T Array of R0T Şir de valori reale (Descriptor) R2T Array of R1T Şir de şiruri de valori reale (Familie) R3T Array of R2T Şir de şiruri de şiruri de valori reale (Clică) BAT Array of Array[0..6]of B_T Şir de (maxim) 7 şiruri de valori de adevăr

Programul foloseşte o serie de constante globale (accesibile din orice secvenţă de program), care sunt redate în tabelul următor.

Constante definite în programul evolutiv `ga_v2_0p.exe` Constantă Expresie de definire Comentarii

mfi array[0..3]of S3=( 'c_galg.cfg', 'c_galg.cgt', 'c_galg.cga', 'c_galg.txt' )

Denumiri fişiere de configurare

mfo array[0..6]of S3=( {0}'cfg.txt', {1}'reg.txt', {2}'phe.txt', {3}'sam.txt', {4}'gen.txt', {5}'fit.txt', {6}'evo.txt' )

Denumiri fişiere de rezultate

myc array[0..5]of S3=( 'Host', 'User', 'Pass', 'Mydb', 'TabE', 'TabM' )

Denumiri parametrii de configurare pentru baza de date

gda array[0..1]of S3=( 'Genes', 'Addre' ) Denumiri parametrii de configurare ai codului genetic

nys array[0..1]of S3=( 'No', 'Yes' ) Denumiri valori de adevăr sps C8=( 'r2', 'se', 'Mt', 'Hr', 'dr', 'me', 'dt', '', '', '', '', '', '' ) Denumiri funcţii obiectiv sos C8=( 'min', 'max', 'avg', '', '', '', '', '', '', '', '', '', '' ) Denumiri obiective sss C8=( 'proportional', 'deterministic', 'tournament', '', '', '',

'', '', '', '', '', '', '' ) Denumiri metode de selecţie şi supravieţuire

ses C8=( 'nalive', 'r2_min', 'se_min', 'Mt_min', 'Hr_min', 'r2_max', 'se_max', 'Mt_max', 'Hr_max', 'r2_avg', 'se_avg', 'Mt_avg', 'Hr_avg' )

Denumiri funcţii de selecţie

sds C8=( 'm0', 'm1', 'm2', 'm3', 'm4', 'mx', 'my', 'v0', 'g1', 'g2', 'jb', 'r1', 'r2' )

Denumiri parametrii statistici descriptivi

col array[0..5]of Char=( 'I'{x}, 'A'{|x|}, 'l'{ln(x)}, 'L'{ln(abs(x)}, 'i'{1/x}, 'a'{1/|x|} )

Denumiri operatori de linearizare

max_real 1e90 Valoare reală maximă min_real 1e-90 Valoare nenulă minimă

Programul evolutiv implementat (aflat în forma actuală - Martie 2009 - la a 3-a versiune a sa, stabilă) foloseşte o singură clasă (sau obiect) pentru toate datele şi operaţiile necesare algoritmului genetic. O serie de proceduri se află însă în exteriorul acestei clase (cum este cazul celor expuse în Algoritmul 1 şi Algoritmul 2), fiind prealabile procesului evolutiv şi având ca scop doar iniţializarea variabilelor necesare. Algoritmii exteriori clasei alţii decât cei de mai sus sunt redaţi împreună în Algoritmi 3. Secvenţa de program principal este redată în Algoritm 4.

Algoritmi 3. Alte operaţii cu baza de date şi fişiere de configurare Antet şi procedure g_finf(var f:Text;s:S9;var o:S9);var i:I0T;

begin procedură readln(f,o);i:=pos('=',o);if(i=0)then m_exit('Err cfg VAR=VAL found:'+o);

g_finf if(copy(o,1,i-1)<>s)then m_exit('Err cfg Exp '+s+'=VAL found:'+o); delete(o,1,i);if(length(o)<1)then m_exit('Err cfg Mis Var='+s+'='); end;

229

Page 230: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Algoritm Verifică existenţa şi în caz de succes citeşte o linie din fişierul de configurare transmis ca parametru g_finf

Antet şi procedure q_exe(var s:PMYSQL;Q:S5); begin procedură if(mysql_query(s,pch(Q))<0)then m_exit(Q+' Failed: '+mysql_error(s));

q_exe end; Algoritm Transmite o interogare (`Q`) serverului de baze de date şi tratează

eşecul sau transmite succesul q_exe Antet şi procedure q_ret(var s:PMYSQL;var r:PMYSQL_RES;var nr:qword;var nc:dword);

begin procedură r:=mysql_store_result(s);if(r=Nil)then m_exit('NIL Query.');

q_ret nr:=mysql_num_rows(r);nc:=mysql_num_fields(r); end;

Algoritm Preia rezultatul unei interogări a bazei de date şi numără liniile şi coloanele rezultatului obţinut q_ret

Antet şi function my_re(var b:TMYSQL_ROW;i:I0T):Extended;var j:I0T;s:S9;r:Extended; begin procedură j:=0;while(ord(b[i][j])>0)do begin if(j>99)then m_exit('MydB err-1');

my_re s[j+1]:=b[i][j];j:=j+1;end;if(j=0)then s:='' else s[0]:=chr(j); val(s,r,j);if(j<>0)then m_exit('MydB err-2');my_re:=r; end;

Algoritm Preia caracter cu caracter o valoare reală din baza de date şi o converteşte la număr real în precizie extinsă my_re

Antet şi procedure p_y0(var r:PMYSQL_RES;var d:R1T;nm:L0T);var i:L0T;b:TMYSQL_ROW; begin procedură for i:=0 to nm do begin b:=mysql_fetch_row(r);d[i]:=my_re(b,0);end;

p_y0 mysql_free_result(r); end;

Algoritm Preia din baza de date şirul de valori experimentale pentru setul de molecule p_y0

Antet şi procedure p_xx(var r:PMYSQL_RES;var d:R2T;nm,ni:L0T);var j,i:L0T;b:TMYSQL_ROW; begin procedură for j:=0 to ni do begin b:=mysql_fetch_row(r);

p_xx for i:=0 to nm do d[j][i]:=my_re(b,i); if(j mod 10000=0)then write(j div 1000,'K '); end; mysql_free_result(r);write(ni+1,' '); end;

Algoritm Preia din baza de date matricea conţinând valorile descriptorilor moleculari pentru setul de molecule p_xx

Antet şi function pch(var s:S9):PChar; begin procedură if(s[length(s)]<>chr(0))then s:=s+chr(0);pch:=@s[1];

pch end; Algoritm Converteşte un tip String (şir de caractere cu lungime fixă) la tip

PChar (şir de caractere cu lungime variabilă) pch Antet şi procedure sch(var s:S9);

begin procedură if(s[length(s)]=chr(0))then delete(s,length(s),1);

sch end; Algoritm Converteşte un tip PChar (şir de caractere cu lungime variabilă) la

tip String (şir de caractere cu lungime fixă) sch Antet şi procedure m_exit(s:string[255]);

begin procedură writeln(s);readln;halt;

m_exit end; Algoritm Produce ieşirea din program prin afişarea unui mesaj de eroare m_exit

Algoritm 4. Programul principal al aplicaţiei `ga_v2_0p.exe` Variabile qmysql:TMYSQL;sock:PMYSQL;recbuf:PMYSQL_RES;

t:B_T;qr:QWord;qc:DWord;My_Data:S0T;MDF:SAR_Fam; Procedură begin g_mydb(My_Data);MDF.CF_Ge;

repeat t:=c_to(qmysql,sock,My_Data);sleep(1500);until(t); q_exe(sock,'SELECT * FROM `'+My_Data[4]+'`');q_ret(sock,recbuf,qr,qc); with(MDF)do begin m0n:=qr;m1n:=m0n-1;SetLength(y_v,m0n);SetLength(x_v,i0n); for qc:=i1n downto 0 do SetLength(x_v[qc],m0n);p_y0(recbuf,y_v,m1n); end; write('n_pop=',MDF.i0n,' m0n=',MDF.m0n);write(' SELECT Y Ok. '); q_exe(sock,'SELECT * FROM `'+My_Data[5]+'`'); q_ret(sock,recbuf,qr,qc);p_xx(recbuf,MDF.x_v,MDF.m1n,MDF.i1n); writeln('SELECT X''s Ok.');mysql_close(sock); with(MDF)do begin CF_Cu(My_Data);if(d_c>0)then DC0(My_Data);if(d_r+d_p+d_s+d_g+d_t+d_e>0)then D0;

230

Page 231: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

end; with(MDF)do repeat CF_Rs;SA_Frst; repeat FT_PH;FT_SA;SL_Fit;SL_Mak;SV_Fit;SV_Mak; if(d_t>0)then DF1;SA_Next;if(d_t>0)then DF2; until(e1i>e1n); if(d_c>0)then DC2; until(e0i>e0n); write('Done.');readln; end.

Algoritm ÷ Citeşte fişierul de configurare al conexiunii la baza de date ÷ Citeşte codul genetic al familiei de descriptori moleculari ÷ Alocă spaţiu de memorie pentru codul genetic ÷ Construieşte tablouri de conversie adresă <-> cod genetic ÷ Conectează la baza de date şi selectează informaţia din tabela cu

valori experimentale (ce dă şi numărul de molecule din set) ÷ Alocă spaţiu de memorie pentru valorile experimentale şi valorile

descriptorilor familiei; citeşte valorile experimentale din baza de date

÷ Afişează volumul populaţiei de descriptori (pe baza calcului din codul genetic) şi numărul de molecule din set

÷ Selectează şi citeşte valorile descriptorilor pentru moleculele din set

÷ Citeşte fişierul de configurare al cultivarului (`c_galg.cga`) ÷ Creează fişierele de ieşire necesare (definite mai sus) ÷ Repetă

o Iniţializează valorile de minim şi maxim global o Creează prima generaţie a evoluţiei o Repetă

Construieşte fenotipurile; calculează parametrii de statistică descriptivă; face toate ecuaţiile de regresie multiplă posibile cu fenotipuri din cultivar şi păstrează parametrii de regresie; cumulează scorurile de selecţie ale fenotipurilor; iniţializează scorurile de selecţie ale genotipurilor

Calculează scorurile de selecţie ale genotipurilor pe baza scorurilor obţinute de la fenotipuri în pasul anterior

Extrage scorul de selecţie (cel definit în fişierul de configurare) din lista scorurilor de selecţie calculate pentru genotipuri; normalizează scorurile (dacă normalizarea este activată în fişierul de configurare); converteşte scorurile la ranguri de scoruri (dacă opţiunea ranguri este activată în fişierul de configurare)

Face selecţia unui număr definit de genotipuri (număr par) folosind metoda specificată în fişierul de configurare

Calculează scorul de supravieţuire al genotipurilor Construieşte noua generaţie astfel:

• mută părinţi cu probabilitatea definită în fişierul de configurare

• încrucişează perechi de părinţi în număr definit în fişierul de configurare

• mută fii cu probabilitatea definită în fişierul de configurare

• numără descendenţii adaptaţi • înlocuieşte părinţi cu descendenţi folosind

metoda de supravieţuire definită în fişierul de configurare

o Până când numărul de generaţii impus în fişierul de

231

Page 232: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

configurare este atins ÷ Până când numărul de repetiţii ale execuţiei algoritmului genetic

specificat în fişierul de configurare este atins Fişierul `c_galg.cga` conţine configuraţia de execuţie a programului.

Configuraţia de execuţie a programului evolutiv `ga_v2_0p.exe` Parametru Valoare Comentarii

a_v_ADAPT_Variance= 0 ≤ a_v Valoarea minimă impusă unui fenotip (Xi) pentru a fi considerat adaptat la cultivar; calculată cu expresia:

(real)

2m

1jj,i

m

1j

2m

1kk,ij,i

|X|

mXX

⎟⎟⎠

⎞⎜⎜⎝

⎟⎠

⎞⎜⎝

⎛−

∑ ∑

=

= =AD(Xi)=

ajb_ADAPT_JarqueBera= 0 ≤ ajb Valoarea maximă a abaterii relative de la normalitate impusă unui fenotip; calculată cu expresia:

(real)

rJB(Xi)= )Y(g)Y(g4)X(g)X(g4

)Y(JB)X(JB

22

21

i22i

21i

++

=

a_c_ADAPT_Correlation= 0 ≤ a_c ≤ 1 Valoarea minimă a determinării impusă unui fenotip; calculată cu expresia: r2(Xi,Y) - ecuaţia (5)

sn0_SAMPLE_Size= rn0 ≤ sn0 Volumul eşantionului de material genetic supus înmulţirii în cultivar

rn0_REGRESSION_Multiple= 1 ≤ rn0 Ordinul de multiplicitate al regresiei e1n_GENERATIONS_max= 1 ≤ e1n Numărul de generaţii în care materialul

genetic evoluează în cultivar (întreg; zeci, sute de mii)

g_r_GENERATIONS_first_rich= Yes/No Dacă procesului de selecţie aleatorie a materialului genetic iniţial i se impune să colecteze doar genotipuri viabile

cn0_CROSSOVER_Pairs= 1 ≤ cn0 Numărul de perechi (de părinţi) care se încrucişează într-o generaţie

m_m_MUTATION_Genes= 1 ≤ m_m Numărul de gene care se mută atunci când mutaţia apare

mpp_MUTATION_Parent_probability= 0 ≤ mpp < 1 Probabilitatea de apariţie a mutaţiei înainte de încrucişare

mcp_MUTATION_Child_probability= 0 ≤ mcp < 1 Probabilitatea de apariţie a mutaţiei după încrucişare

b_p_SELECTION_parameter= r2/se/Mt/Hr Funcţia obiectiv ÷ r2=r2(Y,Ŷ): coeficientul de

determinare dat de ecuaţia (5)

÷ se= ∑=

−m

1j

2ii )YY(

÷ Mt=p/1n

1ii

p )X(tn1

⎟⎠

⎞⎜⎝

⎛ ∑=

; p=fMt

( )÷ Hr=

p1)r1(rlog p2p2

2

−−+ ; p = fHr

b_o_SELECTION_objective= max/min Obiectivul funcţiei obiectiv

232

Page 233: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

sfs_FITNESS_strategy= proportional/ Metoda (strategia) de selecţie a genotipurilor candidate la încrucişare şi mutaţie

deterministic/ tournament

sfn_FITNESS_normalized= Yes/No Dacă scorurile de selecţie sunt normalizate între generaţii

sfr_FITNESS_ranks= Yes/No Dacă se folosesc rangurile scorurilor de selecţie în locul scorurilor de selecţie

sfa_FITNESS_accuracy= 1000 ≤ sfa Dă numărul de cifre semnificative la care se rotunjesc scorurile de selecţie

sff_FITTEST_function= nalive/ Valoarea scorului de selecţie; r2_min/ ÷ nalive - numărul de ecuaţii de regresie

ce conţin fenotipuri ale genotipului; se_min/ Mt_min/ ÷ XX_min - cea mai mică valoare a lui

XX care apare într-o ecuaţie de regresie validă ce conţine un fenotip al genotipului;

Hr_min/ r2_max/ se_max/ Mt_max/ ÷ XX_max - cea mai mare valoare a lui

XX care apare într-o ecuaţie de regresie validă ce conţine un fenotip al genotipului;

Hr_max/ r2_avg/ se_avg/ Mt_avg/ ÷ XX_avg - valoarea medie a lui XX

obţinută din toate ecuaţiile de regresie valide ce conţin un fenotip al genotipului;

Hr_avg

Ecuaţie de regresie validă - ecuaţie care:÷ este unic determinată; ÷ are estimator viabil (Ŷ verifică de

asemenea condiţiile impuse fenotipurilor ce compun ecuaţia)

÷ toţi coeficienţii ecuaţiei sunt semnificativi statistic (≠0) la nivel de semnificaţie de 95% (Student t)

r2 = r ; p=p(fr2) )Y,Y(p2

=

−m

1j

pii |YY|se =∑ ; p=p(fse)

Mt şi Hr au aceeaşi semnificaţie ca în formula de definiţie a lui b_p

sfo_FITTEST_objective= min/max Obiectivul scorului de selecţie fr2_FITTEST_r2_p= real (1.0) puterea la care se ridică coeficientul de

determinare ca scor de selecţie fse_FITTEST_se_p= real (1.0) puterea sumelor modulelor diferenţelor

între măsurat şi estimat ca scor de selecţie

fMt_FITTEST_Mt_p= real (1.0) puterea din formula mediei Minkowski a valorilor Student t ai coeficienţilor ecuaţiei de regresie ca scor de selecţie

fHr_FITTEST_Hr_p= real (1.0) puterea din formula entropiei Renyi a clasificării cantitate explicată (r2) vs. cantitate ne-explicată (1-r2) de ecuaţia de regresie ca scor de selecţie p din SVP(Xi,Xj)=|Fit(Xi)-Fit(Xj)|p, v_p_SURVIVAL_phenotyping_p= real (1.0)

233

Page 234: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

unde Fit(Phe) este valoare scorului de selecţie al fenotipului Phe

v_g_SURVIVAL__genotyping_p= real (1.0) p în SVG(Xi,Xj)=

pji

NC)X,X(NCD⎟⎟⎠

⎛⎜⎜ ,

unde NC numărul de gene din cromozom iar NCD(Xi,Xj) numărul de valori diferite ale genelor lui Xi faţă de Xj

vfs_SURVIVAL_strategy= proportional/ Metoda (strategia) de supravieţuire a genotipurilor candidate la înlocuire de către descendenţi aplicată pe expresia:

deterministic/ tournament

)X,X(SVG)X,X(SVP2

ji +

ji

vfr_SURVIVAL_ranks= Yes/No Dacă se folosesc rangurile scorurilor de supravieţuire în locul scorurilor de supravieţuire

d_d_SHOW_descriptive_m0= Yes/No Dacă se scrie în fişierele de ieşire parametrul statistic descriptiv m0 (media modulelor)

m0(Xi)= m

|X|m

1jj,i∑

=

d_d_SHOW_descriptive_m1= Yes/No Dacă se scrie în fişierele de ieşire parametrul statistic descriptiv m1 (media aritmetică)

m1(Xi)=X

m

1jj,i∑

= m

d_d_SHOW_descriptive_m2= Yes/No Dacă se scrie în fişierele de ieşire parametrul statistic descriptiv m2 (momentul central de ordin 2)

m2(Xi)=))X(1m 2

iX(m

1jj,i∑

=

md_d_SHOW_descriptive_m3= Yes/No Dacă se scrie în fişierele de ieşire

parametrul statistic descriptiv m3 (momentul central de ordin 3)

m3(Xi)=))X(1m 3

i−X(m

1jj,i∑

= m

d_d_SHOW_descriptive_m4= Yes/No Dacă se scrie în fişierele de ieşire parametrul statistic descriptiv m4 (momentul central de ordin 4)

m4(Xi)= m

))X(1mX(m

1j

4ij,i∑

=

d_d_SHOW_descriptive_mx= Yes/No Dacă se scrie în fişierele de ieşire

234

Page 235: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

parametrul statistic descriptiv mx (media pătratelor valorilor)

Xm

2j,i∑

mx(Xi)= 1j= m

d_d_SHOW_descriptive_my= Yes/No Dacă se scrie în fişierele de ieşire parametrul statistic descriptiv my (media produselor cu valorile măsurate)

YXm

jj,i∑my(Xi)= 1j=

md_d_SHOW_descriptive_v0= Yes/No Dacă se scrie în fişierele de ieşire

parametrul statistic descriptiv v0 (varianţa relativă la valorile absolute)

v0(Xi)= )X(0m

))X(1m

i2

1j

2i

=

X(m

j,i∑ −

d_d_SHOW_descriptive_g1= Yes/No Dacă se scrie în fişierele de ieşire parametrul statistic descriptiv g1 (asimetria observabilei)

g1(Xi)=)X(2m i

)X(3m2/3

i

d_d_SHOW_descriptive_g2= Yes/No Dacă se scrie în fişierele de ieşire parametrul statistic descriptiv g1 (excesul de boltire al observabilei)

)X(2m)X(4m

i2

ig2(Xi)=

d_d_SHOW_descriptive_jb= Yes/No Dacă se scrie în fişierele de ieşire parametrul statistic descriptiv jb (valoarea X2 a testului Jarque-Bera)

62g)X(1g i

2 + 4)X( i2

jb(Xi)=

d_d_SHOW_descriptive_r1= Yes/No Dacă se scrie în fişierele de ieşire parametrul statistic descriptiv r1 (coeficientul de corelaţie cu valorile măsurate) r1(Xi)=r(Xi,Y) - ecuaţia (5)

d_d_SHOW_descriptive_r2= Yes/No Dacă se scrie în fişierele de ieşire parametrul statistic descriptiv r1 (coeficientul de determinare cu valorile măsurate) r2(Xi)=r2(Xi,Y)

d_f_SHOW_fitness_nalive= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie nalive

d_f_SHOW_fitness_r2_min= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie r2_min

d_f_SHOW_fitness_se_min= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie se_min

235

Page 236: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

d_f_SHOW_fitness_Mt_min= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie Mt_min

d_f_SHOW_fitness_Hr_min= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie Hr_min

d_f_SHOW_fitness_r2_max= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie r2_max

d_f_SHOW_fitness_se_max= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie se_max

d_f_SHOW_fitness_Mt_max= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie Mt_max

d_f_SHOW_fitness_Hr_max= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie Hr_max

d_f_SHOW_fitness_r2_avg= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie r2_avg

d_f_SHOW_fitness_se_avg= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie se_avg

d_f_SHOW_fitness_Mt_avg= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie Mt_avg

d_f_SHOW_fitness_Hr_avg= Yes/No Dacă se scrie în fişierele de ieşire valoarea scorului de selecţie Hr_avg

d_c_SHOW_configuration= Yes/No Dacă se generează fişier de ieşire conţinând valorile parametrilor de configuraţie

d_m_SHOW_mols= Yes/No Dacă se scrie în fişierele de ieşire valorile descriptorilor pentru fiecare moleculă a setului de date

d_r_SHOW_regressions= Yes/No Dacă se generează fişier de ieşire conţinând toate ecuaţiile de regresie valide pentru fiecare generaţie

d_p_SHOW_phenotypes= Yes/No Dacă se scriu în fişierele de ieşire valorile corespunzătoare pentru fiecare fenotip/genotip din generaţie d_s_SHOW_genotypes= Yes/No

d_t_SHOW_fittests= Yes/No Dacă se scriu în fişierele de ieşire valorile scorurilor de selecţie

d_g_SHOW_generations= Yes/No Dacă se generează fişier de ieşire conţinând generaţiile unei evoluţii

d_e_SHOW_evolutions= Yes/No Dacă se generează fişier de ieşire conţinând evoluţiile unei execuţii

e0n_RUNS_number= 2 Numărul de execuţii independente b_k_RUNS_kepp_best_in_sample= Yes/No Dacă păstrează genotipurile

fenotipurilor din cea mai bună regresie în eşantion

b_f_RUNS_get_best_from_file= Yes/No Dacă se preiau (parţial sau total) genotipurile primei generaţii din fişier de intrare (`c_galg.txt`)

Tipul abstract de date `SAR_Fam` conţine toate datele, procedurile şi funcţiile necesare algoritmului genetic pentru evoluţie şi sunt redate în Algoritm 5. Algoritm 5. Tipul abstract de date SAR_Fam: date şi operaţii pentru regresii multiple pe familii

de descriptori moleculari folosind algoritm genetic Variabile Semnificaţii

f:Text; Pointer către fişier de intrare sau ieşire

236

Page 237: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

d_n:S9; Variabilă folosită la pentru adăugarea la denumirea unui fişier de ieşire a unui număr aleatoriu pentru a face distincţie între 2 execuţii consecutive pe acelaşi set de molecule

g0s,g1s:S9; Conţin valorile configurate în fişierul de configurare `c_galg.cgt` prin parametrii `Genes=` şi `Addre=`

g2a:S0T; Genele cromozomului sub formă de şir de şiruri de caractere g3a:S0T; Adresele materialului genetic sub formă de şir de şiruri de caractere g4a:S0T; Codul genetic sub formă de şir de şiruri de caractere b_n:B_T; Variabilă conţinând o valoare de adevăr (nu are semnificaţie asociată) d_m, d_r, d_p, d_s, d_g, d_e, d_c, d_t, g_r, b_p, b_o, sfn, sfr, sfs, vfr, vfs, sff, sfo, b_k, b_f:B0T;

Valori de adevăr conţinând opţiunile sub formă de valori numerice întregi între 0 şi 255 citite din fişierul de configurare `c_galg.cga` - vezi Tabelul 45

x_b:BAT; Şir de şiruri de valori de adevăr referind viabilitatea genotipurilor [0] şi fenotipurilor asociate [1..6]

s0c:B2T; Şir de şiruri de întregi reprezentând şirul codurilor genetice în eşantion c0c:B2T; Şir de şiruri de întregi reprezentând şirul codurilor genetice descendenţi e0i,e0n:I0T; Numărul execuţiei independente şi numărul total de execuţii planificate e2i:I0T; Ultima generaţie în care s-a produs evoluţie gn0,gn1:I0T; Numărul de gene în cromozom (şi numărul de gene minus 1) cn0,cn1,cn2:I0T; Numărul de încrucişări într-o generaţie; cn1=cn0-1; cn2=2·cn0-1 m_m:I0T; Numărul de gene supuse mutaţiei într-o mutaţie sn0,sn1:I0T; Volumul eşantionului (numărul de genotipuri) sn2,sn3:I0T; Numărul de genotipuri viabile (într-un moment dat al execuţiei) pn0,pn1:I0T; Numărul de fenotipuri (de şase ori numărul de genotipuri); pn1=pn0-1 pn2,pn3:I0T; Numărul de fenotipuri viabile (într-un moment dat al execuţiei) rn0,rn1,rnp:I0T; Ordinul de multiplicitate al regresiei; rn1=rn0-1; rnp=rn0+1 sdn:I0T; Numărul de scoruri de selecţie distincte v_n:I0T; Număr de genotipuri viabile în supravieţuire vdn:I0T; Numărul de scoruri de supravieţuire distincte e1i,e1n:L0T; Numărul generaţiei şi numărul total de generaţii într-o execuţie m0n,m1n:L0T; Numărul de molecule în setul investigat; m1n=m0n-1 i0n,i1n:L0T; Numărul de descriptori în familie (volumul populaţiei de descriptori) sfa:L0T; Număr folosit la rotunjirea scorurilor de selecţie (cifre semnificative) t_0,t_1:R0T; Valorile Student t ale pragurilor la semnificaţie de 95% probabilitate de

succes pentru regresia liniară multiplă după modelul ecuaţiei (1) - t_0 şi ecuaţiei (2) - t_1; aproximate cu funcţia ST_t025(df:I0T)

m2n:R0T; Numărul de molecule în setul investigat (ca valoare reală); n2n=m0n a_v,ajb,a_c:R0T; Valorile pentru adaptare preluate din fişierul `c_galg.cga` fr2,fse:R0T; Valorile parametrului p din formula de scor de selecţie pentru r2 şi se fMt,fHr:R0T; Valorile parametrului p din formula de scor de selecţie pentru Mt şi Hr mpp,mcp:R0T; Probabilităţile de mutaţie înainte (mmp) şi după (mcp) încrucişare v_p,v_g:R0T; Valorile p din expresiile scorurilor de supravieţuire (fenotip, genotip) e0v,e1v:R0T; Valori din expresia de normalizare a scorului de selecţie (min, max) g5a,g6a,g7a:B1T; Şiruri pentru conversia genotip ↔ adresă d_f,d_d:B1T; Şiruri de valori de adevăr definind afişarea statisticilor descriptive şi

scorurilor de selecţie r0o,b0o:B1T; Operatorii fenotipurilor implicate în regresia: curentă şi cea mai bună p0o:B1T; Adresele fenotipurilor din cultivar (legături către genotipuri) r0i:I1T; Indicii fenotipurilor regresiei curente: (0,1,2,...) → (...,m-2,m-1,m)

237

Page 238: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

r0p,b0s:I1T; Adresele fenotipurilor implicate în regresia: curentă şi cea mai bună r0p:I1T; Operatorii fenotipurilor din cultivar (legături către genotipuri) p0i,s0i:I1T; Scoruri de selecţie pentru fenotipuri şi genotipuri v1i:I1T; Scoruri de supravieţuire pentru genotipuri g8a:L1T; Şir auxiliar în conversia genotip ↔ adresă s0a,c0a:L1T; Adrese (absolute) ale genotipurilor din eşantion şi ale descendenţilor f1f,f1d,f1c:L1T; Scoruri de selecţie şi supravieţuire rotunjite; şirul valorilor lor distincte;

numărul de valori identice pentru fiecare valoare distinctă v1f,v1d,v1c:L1T;

f1r:L1T; Şir suplimentar necesar în înlocuirea valorilor cu rangurile acestora f1s,v2s:L1T; Şirurile părinţilor din eşantion în procesul de selecţie şi supravieţuire y_v,y_d:R1T; Valori experimentale şi statistica descriptivă a acestora r_b,r_t:R1T; Coeficienţii din ecuaţia de regresie, valorile Student t asociate acestora r0r:R1T; (r2,se,tr,Hr,df_r,me,df_t) pentru regresia curentă y_e,r_d:R1T; Valori experimentale şi statistica descriptivă a acestora f0r,f0f,f0g:R1T; Scorurile de selecţie pentru regresia, fenotipul şi genotipul curente v0p,v0g:R1T; Scorurile de supravieţuire din similaritatea fenotipică şi genotipică v0s,v1s:R1T; Scorurile de supravieţuire cumulate şi valori distincte ale acestora x_v:R2T; Familia de descriptori moleculari r0a,r0c:R2T; Matricea sistemului de ecuaţii în regresia multiplă şi inversa sa rmx:R2T; Valorile mediilor M(Xi,Xj) între valorile fenotipice b_r:R2T; Memorează parametrii celei mai bune regresii (obiectivul algoritmului) f0s:R2T; Scorurile de selecţie pentru fiecare genotip al eşantionului p0v,p0d,f0p:R3T; Valorile, statistica descriptivă, scoruri de selecţie pentru fiecare fenotip

Operaţii Descriere function ST_Out0 Testează dacă un număr real se află sub limita inferioară (min_real) în

vecinătatea lui 0 (z:R0T):B_T; function ST_Out1 Testează dacă un număr real se află peste limita superioară (max_real) (z:R0T):B_T; procedure ST0Aliv Obţine valorile de adevăr ale viabilităţii fenotipurilor şi genotipurilor

familiei de descriptori moleculari ;

function ST_XX Calculează media M(Xi,Xj) a două fenotipuri (var x,y:R1T):R0T; function ST_t025 Aproximează cu o formulă dublu exponenţială Student t din numărul de

grade de libertate (df:I0T):R0T;

procedure ST0Desc Calculează simultan 13 parametrii de statistică descriptivă: m0, m1, m2, m3, m4, mx, my, v0, g1, g2, jb, r1, r2 (var y,s:R1T);

function ST_Desc Calculează cei 13 parametrii de statistică descriptivă şi obţine răspuns cu privire la viabilitatea fenotipului (var y,s:R1T):B_T;

procedure CF_Ge Citeşte codul genetic al familiei de descriptori moleculari din fişierul `c_galg.cgt` ;

procedure CF_Cu Citeşte configuraţia de execuţie a programului evolutiv din fişierul `c_galg.cga` (var d:S0T);

procedure CF_Cd Verifică consistenţa şi prelucrează o linie de definiţie (`Genes=` sau `Addre=`) din fişierul de definire a codului genetic (s:S9;var x:S0T);

procedure CF_Rs; Iniţializează valorile de minim şi maxim pentru funcţia obiectiv asigurând astfel independenţa între execuţiile succesive ale algoritmului genetic

function CF_St Citeşte secvenţa de definire a unei gene din fişierul de definire a codului genetic (s:S9):S3;

function CF_Ar Citeşte o opţiune de tip şir de opţiuni (definite în Tabelul 42 şi exemplificate în Tabelul 45) din fişierul de configurare a execuţiei programului evolutiv

(s:S9;var l:C8):B0T;

function CF_NY Citeşte o opţiune de tip Yes/No (menţionate în Tabelul 45) din fişierul de

238

Page 239: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(s:S9):B0T; configurare a execuţiei programului evolutiv function CF_In (s:S9):I0T;

Citeşte o valoare întreagă din fişierul de configurare a execuţiei programului evolutiv

function CF_Lo (s:S9):L0T; function CF_RT Citeşte o valoare reală din fişierul de configurare a execuţiei programului

evolutiv (s:S9):R0T;

procedure GC_GS Converteşte cod genetic (secvenţă de numere) în şir de caractere (var g:B1T;var s:S3); procedure GC_SG Converteşte şir de caractere în cod genetic (secvenţă de numere) (var s:S3;var g:B1T); procedure GC_PG Converteşte o adresă de genotip în cod genetic corespunzător (i:I0T); procedure GC_GP Converteşte un cod genetic în adresa genotipului corespunzător (i:I0T); procedure GC_Cr Încrucişează al `l`-lea cu al `l+1`-lea genotip (l:I0T); procedure GC_Mu Mută al `j`-le genotip (j:I0T); procedure GC_GG Copiază codul genetic al genotipului `s` în genotipul `d` (var s,d:B1T); procedure GC_CA; Calculează adresa unui genotip procedure RG_PH; Obţine adresele şi operatorii fenotipurilor selectate pentru regresia curentă function RG_do:B_T;

Pentru toate combinaţiile unice posibile de n (numărul de fenotipuri viabile în cultivar) câte p (ordinul de multiplicitate al regresiei multiple) încearcă obţinerea unei regresii multiple cu coeficienţi semnificativi statistic de tipul (eq.1); dacă rezultatul încercării eşuează datorită obţinerii unui coeficient liber nesemnificativ statistic atunci încearcă obţinerea unei regresii multiple cu coeficienţi semnificativi statistic de tipul (eq.2)

procedure RG_M0; Construieşte matricea sistemului ([a]), matricea coeficienţilor ([b]) şi matricea unitate ([c]) în vederea obţinerii soluţiei (în [b]) şi matricei inverse (în [c]) pentru calculul semnificaţiilor coeficienţilor (în [t]) pentru ecuaţia de regresie definită de (eq.1):

b= a=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

)YX(M...

)YX(M)Y(M

n

1

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

)XX(M...)XX(M)X(M............

)XX(M...)XX(M)X(M)X(M...)X(M1

nn1nn

n1111

n1

⎟⎟⎟⎟⎟

⎜⎜

m/1...00............0...m/100...0m/1

c=⎜⎜

procedure RG_M1; Construieşte matricea sistemului ([a]), matricea coeficienţilor ([b]) şi matricea unitate ([c]) în vederea obţinerii soluţiei (în [b]) şi matricei inverse (în [c]) pentru calculul semnificaţiilor coeficienţilor (în [t]) pentru ecuaţia de regresie definită de (eq.2):

b= a=

⎟⎟⎠

⎜⎜⎝ )YX(M...

n⎟⎟⎠

⎜⎜⎝ )XX(M...)XX(M

.........

nn1n

⎟⎟⎟⎞

⎜⎜⎜⎛

)YX(M 1⎟⎟⎟⎞

⎜⎜⎜⎛

)XX(M...)XX(M n111

239

Page 240: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

c=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

m/1...0.........0...m/1

function RG_G0:B_T;

Aplică algoritmul de rezolvare Gauss pentru sistemul de (p+1) ecuaţii calculat de funcţia RG_M0: [b][a][c] → [coef][I][c-1]

function RG_G1:B_T;

Aplică algoritmul de rezolvare Gauss pentru sistemul de (p) ecuaţii calculat de funcţia RG_M1: [b][a][c] → [coef][I][c-1]

function RG_Es:B_T;

Calculează Ŷ după eq. (1) sau eq. (2) Calculează valorile Student t utilizând ecuaţiile (20) şi (21) Calculează r2, se, Mt şi Hr

function RG_Ov:B_T;

Construieşte combinaţiile posibile a n elemente luate câte p (toate regresiile posibile luate o singură dată cu fenotipuri din cultivar) după schema din exemplu: Fie următoarele fenotipuri viabile în cultivar: ÷ X8; X23; X47; X112; X145 Acestea au indicii: ÷ 8; 23; 47; 112; 145 Iar indici de indici sunt în total de 5 (n=5 în ecuaţiile de mai sus): ÷ 1(8); 2(23); 3(47); 4(112); 5(145) Presupunând că se caută regresii multiple de ordin de multiplicitate 3 (p=3), combinaţiile posibile de indici de indici sunt:

÷ 1; 2; 3 ÷ 1; 3; 4 ÷ 2; 3; 4 ÷ 1; 2; 4 ÷ 1; 3; 5 ÷ 2; 3; 5 ÷ 1; 2; 5 ÷ 1; 4; 5 ÷ 3; 4; 5

Indicii descriptorilor fiind: ÷ 8; 23; 47 ÷ 8; 47; 112 ÷ 23; 47; 112 ÷ 8; 23; 112 ÷ 8; 47; 145 ÷ 23; 47; 145 ÷ 8; 23; 145 ÷ 8; 112; 145 ÷ 47; 112; 145

Iar ecuaţiile de regresie de căutat fiind: Ŷ=a0+a1X8+a2X23+a3X47; Ŷ=a0X8+a1X23+a2X47; Ŷ=a0+a1X8+a2X23+a3X112; Ŷ=a0X8+a1X23+a2X112; Ŷ=a0+a1X8+a2X23+a3X145; Ŷ=a0X8+a1X23+a2X145; Ŷ=a0+a1X8+a2X47+a3X112; Ŷ=a0X8+a1X47+a2X112; Ŷ=a0+a1X8+a2X47+a3X145; Ŷ=a0X8+a1X47+a2X145; Ŷ=a0+a1X8+a2X112+a3X145; Ŷ=a0X8+a1X112+a2X145; Ŷ=a0+a1X23+a2X47+a3X112; Ŷ=a0X23+a1X47+a2X112; Ŷ=a0+a1X23+a2X47+a3X145; Ŷ=a0X23+a1X47+a2X145; Ŷ=a0+a1X47+a2X112+a3X145; Ŷ=a0X47+a1X112+a2X145;

procedure SA_PIni Transformă genotipurile la fenotipuri în cultivar folosind operatorii de linearizare definiţi (Tabelul 42 constanta `col`) (i:I0T);

procedure SA_PAli Numără fenotipurile viabile din cultivar ; procedure SA_SAli Numără genotipurile distincte asociate fenotipurilor viabile din cultivar ; procedure SA_Frst Construieşte prima generaţie de genotipuri (primul eşantion al populaţiei

de descriptori moleculari) folosind selecţia întâmplătoare eventual (dacă este impus în fişierul de configurare) impunând viabilitatea genotipurilor şi eventual (dacă este impus în fişierul de configurare) impunând un set de genotipuri (preluate din fişier)

;

procedure SA_Next Construieşte noua generaţie astfel:

240

Page 241: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

; ÷ mută părinţi cu probabilitatea definită în fişierul de configurare ÷ încrucişează perechi de părinţi în număr definit în fişierul de

configurare ÷ mută fii cu probabilitatea definită în fişierul de configurare ÷ numără descendenţii adaptaţi ÷ înlocuieşte părinţi cu descendenţi folosind metoda de supravieţuire

definită în fişierul de configurare procedure SL_SV Înlocuieşte părinţi selectaţi de metoda de supravieţuire cu descendenţi

viabili rezultaţi în urma procesului de selecţie, încrucişare şi mutaţie (l:B0T;var i:B0T);

procedure SL_Fit ÷ Calculează scorul de selecţie al genotipurilor ; ÷ Nomalizează scorurile (dacă e activată normalizarea în fişierul de

configurare) ÷ Rotunjeşte valorile la numărul definit (în fişierul de configurare) de

cifre semnificative ÷ Construieşte rangurile şi înlocuieşte valorile cu ranguri (dacă sunt

activate rangurile în fişierul de configurare) ÷ Sortează valorile

procedure SL_Pro Date de intrare: ; ÷ FS_Array - Şirul scorurilor de selecţie; procedure SL_Det ÷ N_Sel - Număr de selecţii (dublul numărului de perechi de încrucişat); ;

Algoritm (Construcţia claselor de frecvenţe): (partea comună) ÷ Pune valorile distincte din FS_Array în FSD_Array; ÷ Pune numărul de apariţii ale valorilor din FS_Array în FSC_Array; ÷ Sortează ascendent după FSD_Array ambele FSD_Array şi FSC_Array;÷ Partea distinctă (vezi mai jos) Date de ieşire: ÷ Genotipurile selectate în variabila Selected_Genotypes_Array

procedure SL_Pro Face selecţia proporţională după scorurile de selecţie astfel: ; ÷ Atribuie Empty la Selected_Genotypes_Array (→)

÷ Pentru fiecare selecţie de la 1 la N_Sel: o Calculează suma scorurilor de selecţie pentru genotipurile care nu au

fost selectate încă → FS_Sum o Generează întâmplător (distribuţie uniformă) un număr între 0 şi

FS_Sum (inclusiv) şi → FS_Freq o Găseşte primul indice Group din FSD_Array pentru care FS_Freq ≤ Σi≤GroupFSD_Array[i]*FSC_Array[i]

o Generează un număr întâmplător (distribuţie uniformă) între 1 şi FSC_Array[i] şi → FSD_Next

o Pune valoarea FSD_Array[Group] situată pe poziţia FSD_Next în FS_Array dintre cele care nu au fost selectate încă → Selected_Genotypes_Array

o Scade o unitate din FSC_Array[Group] corespunzătoare valorii selectate

procedure SL_Det Face selecţia deterministă după scorurile de selecţie astfel: ; ÷ Atribuie Empty la Selected_Genotypes_Array (→)

÷ Zero → Already_Selected ÷ Volumul eşantionului → Group (are cea mai mare valoare de selecţie în

FSD_Array) ÷ Cât timp Already_Selected + FSC_Array[Group]<=N_Sel

o Pune indicii valorilor din FS_Array egale cu FSD_Array[Group] în Selected_Genotypes_Array

241

Page 242: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

o Scade o unitate din Group ÷ Cât timp Already_Selected<=N_Sel (nu mai mult de FSC[Group]

selecţii sunt făcute aici; toate genotipurile au acelaşi scor de selecţie) o Generează un număr întâmplător (distribuţie uniformă) între 1 şi

FSC_Array[i] şi → FSD_Next o Pune valoarea FSD_Array[Group] situată pe poziţia FSD_Next în

FS_Array dintre cele care nu au fost selectate încă → Selected_Genotypes_Array

o Scade o unitate din FSC_Array[Group] corespunzătoare valorii selectate

procedure SL_Tur Face selecţia turnir după scorurile de selecţie astfel (unde N_Gen numărul de genotipuri viabile în eşantion): ;

÷ Generează o permutare întâmplătoare (distribuţie uniformă) a mulţimii {1..N_Gen} în Selected_Genotypes_Array

÷ Pentru fiecare selecţie i_Sel de la 2 la N_Sel (concurează în turnir primele N_Sel elemente ale permutării o Dacă FS_Array[i_Sel]≤FS_Array[i_Sel-1] atunci

Dacă FS_Array[i_Sel]=FS_Array[i_Sel-1] atunci dacă generarea unui număr întâmplător (distribuţie uniformă) între 0 şi 1 duce la 0 atunci continuă secvenţa Pentru;

Schimbă între ele valorile de pe poziţiile i_Sel şi i_Sel-1 ÷ Dacă N_Sel<N_Gen atunci (ultimul element al selecţiei nu a participat

la nici un turnir şi mai sunt elemente cu care să concureze) o Generează un număr întreg întâmplător (distribuţie uniformă) i_Sel

între N_Sel+1 şi N_Gen; o Dacă FS_Array[N_Sel]≤FS_Array[i_Sel] atunci

Dacă FS_Array[N_Sel]=FS_Array[i_Sel] atunci dacă generarea unui număr întâmplător (distribuţie uniformă) între 0 şi 1 duce la 0 atunci abandonează;

Schimbă între ele valorile de pe poziţiile i_Sel şi N_Sel procedure SL_Rnk Înlocuieşte valorile scorurilor de selecţie cu rangurile acestora exprimate

ca dublu al valorii rangurilor in expresia definită la coeficientul de corelaţie Spearman minus primul rang plus unu ca în următoarele exemple:

;

Exemplul 1 Fenotipuri X1 X2 X3 X4 X5 Scoruri 22.3 11.6 11.6 22.3 9.8 Spearman 4.5 2.5 2.5 4.5 1 2*Spearman 9 5 5 9 2 Ranguri 8 4 4 8 1 Exemplul 2 Fenotipuri X1 X2 X3 X4 X5 Scoruri 22.3 11.6 11.6 9.8 9.8 Spearman 5 3.5 3.5 1.5 1.5 2*Spearman 10 7 7 3 3 Ranguri 8 5 5 1 1

procedure SL_Mak În funcţie de opţiunea definită în fişierul de configurare `c_galg.cga` pentru metoda de selecţie aplică una dintre selecţia proporţională, selecţia deterministă şi selecţia turnir

;

242

Page 243: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

procedure SL_QSr 65 66Sortează folosind algoritmul QuickSort [ , ] un şir de numere (necesitând 2·[log2(n)] încrucişări) ca în următorul exemplu: (i,j:I0T);

procedure SL_SrQ (l,r:I0T);

şi respectiv

procedure SV_QSr (i,j:I0T); procedure SV_SrQ (l,r:I0T);

Poziţii 0 1 2 3 4 5 6 7 8 9

function SV_MGe (i,j:I0T):R0T;

Calculează similaritatea genotipică (a două genotipuri) cu formula SG(Xi,Xj)=(g_dif(Xi,Xj)/g_tot)p unde g_dif(Xi,Xj) = numărul de gene care au valori diferite în Xi vs. Xj, g_tot = numărul total de gene din cromozom, p = parametrul similarităţii genotipice definit în fişierul de configurare `c_galg.cga`

function SV_MPh (i,j:I0T):R0T;

Calculează similaritatea fenotipică (a două fenotipuri) cu formula SP(Xi,Xj)=(fit(X1)-fit(X2))p unde fit(X1) = scorul relativ (subunitar) de selecţie al primului fenotip, fit(X2) = scorul relativ (subunitar) de selecţie al celui de-al doilea fenotip, p = parametrul similarităţii fenotipice definit în fişierul de configurare `c_galg.cga`

procedure SV_Fit ;

÷ Calculează scorul de similaritate genotipică (SSG) şi scorul de similaritate fenotipică (SSP) folosind formulele:

SSG(Xi)= min ; SSP(Xi)= min ))X,X(SG( jiij≠))X,X(SP( jiij≠

÷ Calculează scorul de supravieţuire (diversitate) cu formula:

SS(Xi)= )X(SSP)X(SSG2

ii +

÷ Normalizează valorile (relativ la minimul şi maximul obţinut în generaţiile anterioare) dacă opţiunea de normalizare a fost activată în fişierul de configurare

÷ Rotunjeşte valorile la precizia definită în fişierul de configurare ÷ Înlocuieşte valorile cu ranguri dacă opţiunea ranguri a fost activată în

fişierul de configurare ÷ Sortează valorile

procedure SV_Pro ; procedure SV_Det ;

Date de intrare: ÷ FV_Array - Şirul scorurilor de supravieţuire; ÷ N_Srv - Număr de selecţii (numărul de descendenţi viabili);

[65] (Sir) Charles A. R. HOARE. 1962. Quicksort. Computer Journal 5(1):10-15. [66] http://en.wikipedia.org/wiki/File:Sorting_quicksort_anim.gif

Pasul 1

Pasul 2

Pasul 3

3 1 4 1 5 5 2 6 9 5

1 1 4 3 5 5 2 6 9 5

1 1 4 3 2 5 5 6 9 5

Pasul 4 1 1 2 3 4 5 5 6 9 5

Pasul 5 1 1 2 3 4 5 5 6 5 9

Încrucişare

Încrucişare

Încrucişare

Încrucişare

Încrucişare

Încrucişare

Şir iniţial 3 1 4 1 5 2 6 5 9 5

Şir ordonat 1 1 2 3 4 5 5 5 6 9 Pasul 6 1 1 2 3 4 5 5 9 5 6

243

Page 244: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(partea comună) Algoritm (Construcţia claselor de frecvenţe): ÷ Pune valorile distincte din FV_Array în FVD_Array; ÷ Pune numărul de apariţii ale valorilor din FV_Array în FVC_Array; ÷ Sortează ascendent după FVD_Array ambele FVD_Array şi

FVC_Array; ÷ Partea distinctă (vezi mai jos) Date de ieşire: ÷ Genotipurile selectate în variabila Ceased_Genotypes_Array

procedure SV_Pro SV_Pro idem cu SL_Pro pentru FV_Array, N_Srv, FVD_Array, FVC_Array şi Ceased_Genotypes_Array în loc de FS_Array, N_Sel, FSD_Array, FSC_Array şi Selected_Genotypes_Array

;

procedure SV_Det SV_Det idem cu SL_Det pentru FV_Array, N_Srv, FVD_Array, FVC_Array şi Ceased_Genotypes_Array în loc de FS_Array, N_Sel, FSD_Array, FSC_Array şi Selected_Genotypes_Array

;

procedure SV_Tur SV_Tur idem cu SL_Tur pentru FV_Array, N_Srv şi Ceased_Genotypes_Array în loc de FS_Array, N_Sel şi Selected_Genotypes_Array

;

procedure SV_Rnk Înlocuieşte valorile scorurilor de selecţie cu rangurile acestora; SV_Rnk idem cu SL_Rnk pentru FV_Array şi N_Srv în loc de FS_Array, N_Sel ;

procedure SV_Mak În funcţie de opţiunea definită în fişierul de configurare `c_galg.cga` pentru metoda de supravieţuire aplică una dintre supravieţuirea proporţională, supravieţuirea deterministă şi supravieţuirea în turnir

;

procedure FT_Ini Iniţializează scorurile de selecţie ale unui individ (din şirul de evoluţii, din şirul de generaţii, din şirul de genotipuri, din şirul de fenotipuri, din şirul de fenotipuri în regresie) cu valori limită (XX_min - unde XX una dintre r2, se, Mt sau Hr - cu max_real; XX_max cu min_real şi respectiv XX_avg cu 0)

(var x:R1T);

procedure FT_Set Aplică operatorii minim (pentru XX_min), maxim (pentru XX_max) şi sumă (pentru XX_avg) pentru doi indivizi cumulând numărul de indivizi (var s,d:R1T);

procedure FT_Avg Împarte suma (pentru XX_avg) la numărul de indivizi (var x:R1T); procedure FT_Sav; Salvează în variabiele b_r, b0o şi b0s parametrii celei mai bune regresii

(celui mai bun obiectiv) adică: ÷ b_r[0]=(r2, se, Mt, Hr, df_r, me, df_t)

o r2 - coeficientul de determinare r2(Y,Ŷ) o se - suma pătratelor erorilor de explicare Σ(Y-Ŷ)2 o Mt - media Minkwski a semnificaţiilor date de parametrii Student t ai

regresiei o df_r - numărul de grade de libertate ai modelului (regresiei) - `p+1`

pentru ecuaţia (1) şi `p` pentru ecuaţia (2) o me - eroarea medie de explicare (se/df_t) o df_t - gradele de libertate ale observabilei (m-df_r)

÷ b_r[1]=(m0, m1, m2, m3, m4, mx, my, v0, g1, g2, jb, ox, r2) o m0, m1, m2, m3, m4, mx, my, v0, g1, g2, jb, şi r2 cu semnificaţiile

definite în Tabelul 45; ox = 1 (ox = 0 semnifică că regresia nu are toţi parametrii semnificativi statistic sau sistemul de ecuaţii asociat nu admite soluţie unică; ox = 0 nu poate fi salvată drept soluţie care satisface obiectivul evoluţiei)

÷ b_r[2]=(n_aliv, r2_min, se_min, Mt_min, Hr_min, r2_max, se_max, Mt_max, Hr_max, r2_avg, se_avg, Mt_avg, Hr_avg) o valorile referă regresia şi sunt degenerate astfel:

n_aliv = 1

244

Page 245: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

XX_min = XX_max = XX_avg = XX (XX = r2, se, Mt, Hr) ÷ b_r[3]=(coef(0), coef(X1), ..., coef(Xp)) - ecuaţia (1) sau (2)

o coef(0)=0.000 pentru ecuaţia (2) ÷ b_r[4]=(t(0), t(X1), ..., t(Xp)) - ecuaţia (20) şi (21)

o t(0)=0.000 pentru ecuaţia (2) ÷ b0o = Şirul operatorilor de linearizare care au condus la transformarea

genotipurilor în fenotipurile X1, ..., Xp ÷ b0p = Şirul adreselor genotipurilor transformate în fenotipurile X1, ...,

Xp function FT_r2 Calculează scorul de selecţie după formula (p=fr2 Tabelul 45): :R0T; FT_r2(Y,Ŷ)=(r2(Y,Ŷ))p

function FT_se Calculează scorul de selecţie după formula (p=fse Tabelul 45): :R0T; FT_se(Y,Ŷ)=Σ|Y-Ŷ|p function FT_Mt Calculează scorul de selecţie după formula (p=fMt Tabelul 45): :R0T;

FT_Mt(Y,Ŷ)= p/1n

1ii

p )X(tn1

⎟⎠

⎞⎜⎝

⎛ ∑=

function FT_Hr Calculează scorul de selecţie după formula (p=fHr Tabelul 45): :R0T; ( )FT_Hr(Y,Ŷ)=

p1)r1(rlog p2p2

2

−−+

procedure FT_RG Calculează parametrii {r2p, sep, Mtp, Hrp} pentru o regresie şi aplică operatorii {min, max, sum} pentru a obţine parametrii {n_aliv, r2_min, se_min, Mt_min, Hr_min, r2_max, se_max, Mt_max, Hr_max, r2_avg, se_avg, Mt_avg, Hr_avg} pentru o regresie

;

procedure FT_PH ÷ Obţine şirul fenotipurilor viabile din cultivar ; ÷ Efectuează toate regresiile posibile şi cumulează scoruri de selecţie

pentru fenotipuri ÷ Cumulează scoruri de selecţie pentru genotipuri ÷ Cumulează scoruri de selecţie pentru generaţie

procedure FT_SA Transformă scorurile de selecţie cumulate pentru genotipuri în valori medii (pentru scorurile de tipul XX_avg) ;

procedure D0 Creează (iniţializează) acele fişierele de ieşire pentru rezultate care au fost definite în fişierul de configurare ;

procedure DRY Scrie într-un fişier de ieşire (dacă opţiunea d_r este activată în fişierul de configurare) o linie de informaţii pentru valorile măsurate conţinând informaţiile activate pentru afişare în fişierul de configurare

;

procedure DR1 Scrie în fişierul de ieşire (dacă opţiunea d_r este activată în fişierul de configurare) o linie de informaţii pentru o ecuaţie de regresie conţinând informaţiile activate pentru afişare în fişierul de configurare

;

procedure DPSG Scrie în fişierele de ieşire informaţiile (activate pentru afişare în fişierul de configurare) corespunzător fenotipurilor şi genotipurilor unei generaţii şi respectiv informaţia cumulată caracterizând generaţia

;

procedure DE1 Scrie în fişierul de ieşire pentru evoluţii (dacă opţiunea d_e este activată în fişierul de configurare) o linie de informaţii pentru valorile măsurate conţinând informaţiile activate pentru afişare în fişierul de configurare

;

procedure DF1 Scrie în fişierul de ieşire (dacă opţiunea d_f este activată în fişierul de configurare) linii de informaţii conţinând genotipurile cu scorurile de selecţie şi supravieţuire înainte de aplicarea mutaţiei şi încrucişării

;

procedure DF2 Scrie în fişierul de ieşire (dacă opţiunea d_f este activată în fişierul de configurare) linii de informaţii conţinând genotipurile cu scorurile de selecţie şi supravieţuire după de aplicarea mutaţiei şi încrucişării

;

245

Page 246: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

procedure DC0 Scrie în fişierul de ieşire starea tuturor parametrilor de configurare definiţi (în fişierele de configurare) la lansarea în execuţie a programului evolutiv (var d:S0T);

procedure DC1 Produce un mesaj de panică cu privire la starea cultivarului dacă în timpul evoluţiei conţinutul acestuia se sărăceşte în asemenea măsură încât nu mai există suficiente fenotipuri viabile pentru a construi o ecuaţie de regresie; în acest caz se re-iniţializează cultivarul reconstruind prima sa generaţie (procedura SA_Frst)

(s:S9);

procedure DC2 Scrie o linie de informaţii în fişierul de ieşire ce caracterizează funcţia obiectiv la sfârşitul unei execuţii independente a algoritmului genetic ;

2009A6. Validarea modelelor (TvT - Training versus Test, cv-loo - cross validation leave-one-out,

CCA - Correlated Correlations Analysis) Validarea modelelor este unul din subiectele de actualitate (Bolboacă & Jäntschi, 2006-SPMA; Bolboacă & Jäntschi, 2007-SMMV; Bolboacă & Jäntschi, 2007-DMRM; Bolboacă & Jäntschi, 2007-DMRM) oferind o arie de manifestare largă. Derularea activităţii a permis valorificarea unei serii de rezultate noi în ceea ce priveşte evaluarea capacităţii de estimare pentru modele având înglobate polinoame caracteristice (Bolboacă & Jäntschi, 2007-HGCP), metodologia de aplicare a instrumentelor statistice în evaluarea modelelor (Bolboacă & Jäntschi, 2008-SMMV), analiza de aglomerare ca tehnică de validare (Bolboacă & Jäntschi, 2008-ICPT), cazuistica evaluării relaţiilor structură-activitate (Bolboacă & Jäntschi, 2008-SASA), cazuistica evaluării modelelor de compoziţie chimică a amestecurilor (Bolboacă & others, 2008-SASM), măsuri statistice eficiente în evaluarea relaţiilor structură-activitate (Bolboacă & others, 2008-SqsV). Următoarele proceduri au fost implementate pe parcursul derulării activităţii. Testul Grubbs de identificare a abaterilor grosolane de la normalitate a fost implementat ca aplicaţie online care se găseşte la adresa şi foloseşte librării statistice pentru calculul distribuţiei Student t:

http://l.academicdirect.org/Statistics/tests/Grubbs/ if(array_key_exists("data",$_POST)) $data=$_POST["data"]; elseif(array_key_exists("data",$_GET)) $data=$_GET["data"]; else die("No data!"); $Y=explode("\r\n",$data); $tab=strpos("\t",$Y[0]); $m=count($Y); if(!($tab===FALSE)){ $Z=explode("\t",$Y[0]);$n=count($Z); for($i=0;$i<$m;$i++){ $W=explode("\t",$Y[$i]); for($j=0;$j<$n;$j++)$X[$j][$i]=$W[$j]; } }else{ $n=1; for($i=0;$i<$m;$i++)$X[0][$i]=$Y[$i]; } include("TDistribution.php"); $tdist=new TDistribution($m-2); for($i=0;$i<$n;$i++){ $v_cnt[$i]=$m; $v_min[$i]=min($X[$i]); $v_max[$i]=max($X[$i]); $v_avg[$i]=0.0; for($j=0;$j<$m;$j++)$v_avg[$i]+=$X[$i][$j];$v_avg[$i]/=$m; $v_std[$i]=0.0; for($j=0;$j<$m;$j++)$v_std[$i]+=pow($X[$i][$j]-$v_avg[$i],2);$v_std[$i]=pow($v_std[$i]/($m-1),.5); $g_min[$i]=($v_avg[$i]-$v_min[$i])/$v_std[$i]; $g_max[$i]=($v_max[$i]-$v_avg[$i])/$v_std[$i]; $g_all[$i]=max($g_min[$i],$g_max[$i]); $t_min[$i]=$g_min[$i]*sqrt($m*($m-2))/sqrt(pow($m-1,2)-pow($g_min[$i],2)*$m); $t_max[$i]=$g_max[$i]*sqrt($m*($m-2))/sqrt(pow($m-1,2)-pow($g_max[$i],2)*$m); $t_all[$i]=$g_all[$i]*sqrt($m*($m-2))/sqrt(pow($m-1,2)-pow($g_all[$i],2)*$m); $p_min[$i]=1.0*$m-1.0*$m*$tdist->_getCDF($t_min[$i]);

246

Page 247: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$p_max[$i]=1.0*$m-1.0*$m*$tdist->_getCDF($t_max[$i]); $p_all[$i]=2.0*$m-2.0*$m*$tdist->_getCDF($t_all[$i]); } echo("<table border='1'>"); echo("<tr><td>Parameter");for($i=0;$i<$n;$i++)echo("<td>X[".$i."]"); echo("<tr><td>Count");for($i=0;$i<$n;$i++)echo("<td>".$v_cnt[$i]); echo("<tr><td>Min");for($i=0;$i<$n;$i++)echo("<td>".$v_min[$i]); echo("<tr><td>Max");for($i=0;$i<$n;$i++)echo("<td>".$v_max[$i]); echo("<tr><td>Avg");for($i=0;$i<$n;$i++)echo("<td>".$v_avg[$i]); echo("<tr><td>Std");for($i=0;$i<$n;$i++)echo("<td>".$v_std[$i]); echo("<tr><td>Gmin");for($i=0;$i<$n;$i++)echo("<td>".$g_min[$i]); echo("<tr><td>Gmax");for($i=0;$i<$n;$i++)echo("<td>".$g_max[$i]); echo("<tr><td>Gall");for($i=0;$i<$n;$i++)echo("<td>".$g_all[$i]); echo("<tr><td>tmin");for($i=0;$i<$n;$i++)echo("<td>".$t_min[$i]); echo("<tr><td>tmax");for($i=0;$i<$n;$i++)echo("<td>".$t_max[$i]); echo("<tr><td>tall");for($i=0;$i<$n;$i++)echo("<td>".$t_all[$i]); echo("<tr><td>p(X < Min)");for($i=0;$i<$n;$i++)echo("<td>".$p_min[$i]); echo("<tr><td>p(X > Max)");for($i=0;$i<$n;$i++)echo("<td>".$p_max[$i]); echo("<tr><td>2*min(p(X < Min),p(X > Max))");for($i=0;$i<$n;$i++)echo("<td>".$p_all[$i]); echo("</table>");

Statistica Anderson-Darling de comparare a două sau mai multe distribuţii fost implementată ca aplicaţie online care se găseşte la adresa:

http://l.academicdirect.org/Statistics/tests/kAD/ define("PI",3.1415926535897932384626434); if(!(strpos($_POST["file"],".txt")>0))die(); if((strpos($_POST["file"],"/")>0))die(); if((strpos($_POST["file"],"..")>0))die(); $a=explode("\r\n",file_get_contents($_POST["file"])); $y=array(); for($i=0;$i<count($a);$i++){ $y[$i]=explode("\t",$a[$i]); } unset($a); $kk=count($y); $yni_max=0; for($i=0;$i<$kk;$i++){ $yni[$i]=count($y[$i]); if($yni[$i]>$yni_max)$yni_max=$yni[$i]; } echo($y[0][0]." Table:<table border='1'><tr><td>Grp\Obs"); for($j=1;$j<$yni_max;$j++)echo("<td>".$y[0][$j]);echo("<td>Cnt"); array_shift($y);array_shift($yni);$kk=count($y); for($i=0;$i<$kk;$i++){ echo("<tr>"); for($j=0;$j<$yni_max;$j++){ if($j<$yni[$i])echo("<td>".$y[$i][$j]);else echo("<td>-"); } $yng[$i]=array_shift($y[$i]);$yni[$i]--;echo("<td>".$yni[$i]); }$yni_max--; echo("</table>"); echo("Here X are split into it's components.<br>"); echo("X=(".implode(", ",$yng).")<br>"); echo("<table border='1'><tr><td>Nr<td>X's<td>Groups<td>kAD<td>cAD<td>c/k<td>Interpretation"); for($i=0;$i<$kk;$i++)$p[$i]=0;$ppn=pow(2,$kk);$pp=array(); for($i=1;$i<$ppn;$i++){ $ppn1=$kk-1; $p[$ppn1]++; while($p[$ppn1]>1){ $p[$ppn1]=0;$ppn1--;$p[$ppn1]++; } $s=0;for($j=0;$j<$kk;$j++)$s+=$p[$j]; if($s<2)continue; $pp[]=$p; } $ppn=count($pp); for($ip=0;$ip<count($pp);$ip++){ $x=array();$xg=array();$xn=array(); for($i=0;$i<$kk;$i++)if($pp[$ip][$i]>0){ $x[]=$y[$i];$xg[]=$yng[$i];$xn[]=count($y[$i]); } $k=count($xn);$xn_max=0;for($i=0;$i<$k;$i++)if($xn[$i]>$xn_max)$xn_max=$xn[$i]; echo("<tr><td>".($ip+1)."<td>");for($i=0;$i<$kk;$i++)echo($pp[$ip][$i]);echo("<td>".implode(", ",$xg)); $z=array();$h=array();$xnn=0; for($i=0;$i<$k;$i++)for($j=0;$j<$xn[$i];$j++){ $l=array_search($x[$i][$j],$z);$xnn++; if($l===FALSE){ $z[]=$x[$i][$j];$h[]=1;

247

Page 248: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

}else{ $h[$l]++; } }$zn=count($z); array_multisort($z,SORT_ASC,$h); $hh=array();$hhs=0; for($i=0;$i<$zn;$i++){$hh[$i]=$hhs+$h[$i]/2;$hhs+=$h[$i];} for($i=0;$i<$k;$i++){ for($j=0;$j<$zn;$j++){ $f[$i][$j]=0; for($l=0;$l<$xn[$i];$l++) if($x[$i][$l]<$z[$j])$f[$i][$j]++;elseif($x[$i][$l]==$z[$j])$f[$i][$j]+=0.5; } } $kAD=0.0; for($i=0;$i<$k;$i++){ $vij=0; for($j=0;$j<$zn;$j++){ $vij+=$h[$j]*pow($xnn*$f[$i][$j]-$xn[$i]*$hh[$j],2)/($hh[$j]*($xnn-$hh[$j])-$xnn*$h[$j]/4); } $vij/=$xn[$i]; $kAD+=$vij; } $kAD*=($xnn-1)/pow($xnn,2)/($k-1); echo("<td>".trim(sprintf("%.4f",$kAD))); $g=f_g($xnn);$t=f_t($xnn);$w=f_w($xn,$k); $d=($t+3)*pow($k,2)-2*$t*$k; $c=(3*$t+$g-1)*pow($k,2)+(2*$t-2*$g+3)*$k+($t-3)*$w+2*$t; $b=($g-2)*pow($k,2)+4*$t*$k+($g-7*$t-2)*$w-4*$t+2*$g-3; $a=(2*$g-3)*($k-1)+(5-3*$g)*$w; $sn2=2*($a*pow($xnn,3)+$b*pow($xnn,2)+$c*$xnn+$d)/($xnn-1)/($xnn-2)/($xnn-3)/pow($k-1,2); if(count($pp)==1){ $sn2t=2*(pow(PI,2)-9)/3+(10-pow(PI,2))/$xnn; $sn1t=pow($sn2t,0.5); $cADt=1.0+$sn1t*(1.645+0.678/pow($k-1,0.5)-0.362/($k-1)); } $sn1=pow($sn2,0.5); $cAD=1.0+$sn1*(1.645+0.678/pow($k-1,0.5)-0.362/($k-1)); echo("<td>".trim(sprintf("%.4f",$cAD))); if(count($pp)==1)echo("<br><font color='red'>".trim(sprintf("%.4f",$cADt))."</font>"); echo("<td>".trim(sprintf("%.2f",$cAD/$kAD))); if(count($pp)==1)echo("<br><font color='red'>".trim(sprintf("%.4f",$cADt/$kAD))."</font>"); if($cAD<$kAD){ echo("<td>With a 5% risk being in error the groups were drawn from <i>different populations</i>."); }else{ echo("<td>Cannot be rejected that the groups were selected from <i>identical populations</i>."); } if(count($pp)==1){ if($cADt<$kAD){ echo("<br><font color='red'>With a 5% risk being in error the groups were drawn from <i>different populations</i>.</font>"); }else{ echo("<br><font color='red'>Cannot be rejected that the groups were selected from <i>identical populations</i>.</font>"); } } } echo("</table>"); if(count($pp)==1)echo("<font color='red'>Assumed that second group is theoretical one.</font><br>"); function af(&$p,$k){ for($i=0;$i<$k;$i++)echo($p[$i].";");echo("<br>"); } function f_g($n){$r=0.0;for($i=1;$i<$n-1;$i++)for($j=$i+1;$j<$n;$j++)$r+=1.0/($n-$i)/$j;return($r);} function f_t($n){$r=0.0;for($i=1;$i<$n;$i++)$r+=1.0/$i;return($r);} function f_w(&$xn,$k){$r=0.0;for($i=0;$i<$k;$i++)$r+=1.0/$xn[$i];return($r);} ?>

Analiza puterii de predicţie prin tehnica celor două eşantioane (de învăţare şi de testare) a fost implementată ca aplicaţie online care se găseşte la adresa:

http://l.academicdirect.org/Chemistry/SARs/MDF_SARs/qsar_qspr_s/ function get_all_data($text,&$tab,&$e){ if(!array_key_exists($text,$tab)) die("no select"); $a=file_get_contents($tab[$text]); $b=explode("\r\n",$a); for($j=0,$i=0;$i<count($b);$i++) if(!$b[$i]) continue; else $c[$j++]=explode(" ",$b[$i]); for($i=0;$i<count($c);$i++) for($k=0,$j=0;$j<count($c[$i]);$j++) if($c[$i][$j]==="") continue; else

248

Page 249: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$d[$i][$k++]=$c[$i][$j]; for($i=0;$i<count($d);$i++){ for($j=0;$j<count($d[$i])-2;$j++) $e[$i][$j]=$d[$i][$j]; $e[$i][count($d[$i])-3]=$d[$i][count($d[$i])-2]; } } function af(&$e,$msg){ if($msg) echo($msg."<BR>"); ?> <table border=1> <? for($i=0;$i<count($e);$i++){ echo("<tr>"); for($j=0;$j<count($e[$i]);$j++) echo("<td>".$e[$i][$j]); } ?> </table> <? }

include 'statistics/FDistribution.php'; function m1(&$v){ $rez=0; $n=count($v); for($i=0;$i<$n;$i++) $rez+=$v[$i]; return $rez/$n; } function m2(&$v,&$u){ $rez=0; $n=count($v); for($i=0;$i<$n;$i++) $rez+=$v[$i]*$u[$i]; return $rez/$n; } function get_coefs(&$y,&$x,&$b){ $b[0] = m1($y);//x[ind][mol] $a[0][0] = 1.0; for($k=1;$k<=count($x);$k++){ $a[0][$k] = m1($x[$k-1]); $a[$k][0] = $a[0][$k]; $a[$k][$k] = m2($x[$k-1],$x[$k-1]); $b[$k] = m2($x[$k-1],$y); for($l=$k+1;$l<=count($x);$l++){ $a[$k][$l] = m2($x[$k-1],$x[$l-1]); $a[$l][$k] = $a[$k][$l]; } } $a[0][0] = gauss($b,$a); } function gauss(&$b,&$a){ for($i=0;$i<count($a);$i++){ $m=$i;//caut max in coloana for($j=$i+1;$j<count($a);$j++) if(abs($a[$i][$j])>abs($a[$i][$m]))$m=$j; if($a[$i][$m]==0)return -1; if($m != $i){//inlocuiesc linii $tmp=$b[$m];$b[$m]=$b[$i];$b[$i]=$tmp; for($j=0;$j<count($a);$j++){ $tmp=$a[$m][$j];$a[$m][$j]=$a[$i][$j];$a[$i][$j]=$tmp; } } if(!abs($a[$i][$i])) return -1; for($j=$i+1;$j<count($a);$j++)//impart linie $a[$i][$j]/=$a[$i][$i]; $b[$i]/=$a[$i][$i]; $a[$i][$i]=1; for($j=$i+1;$j<count($a);$j++){//fac 0 sub diagonala $b[$j]-=$a[$j][$i]*$b[$i]; for($k=count($a)-1;$k>$i;$k--) $a[$j][$k]-=$a[$j][$i]*$a[$i][$k]; } } for($i=count($a)-1;$i>0;$i--)//fac 0 peste diagonala for($j=$i-1;$j>=0;$j--) $b[$j]-=$a[$j][$i]*$b[$i]; return 1;

249

Page 250: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

} function calc_eq(&$coef,&$val,&$rez){//predictie pentru fiecare molecula for($i=0;$i<count($val[1]);$i++){//a cata molecula $rez[$i]=$coef[0]; for($j=1;$j<count($coef);$j++){//al catelea indice si coeficient $rez[$i]+=$coef[$j]*$val[$j][$i]; } $rez[$i]=spalare($rez[$i]); } } function calc_eq_1(&$coef,&$val,&$rez){//predictie pentru fiecare molecula for($i=0;$i<count($val[0]);$i++){//a cata molecula $rez[$i]=$coef[0]; for($j=1;$j<count($coef);$j++){//al catelea indice si coeficient $rez[$i]+=$coef[$j]*$val[$j-1][$i]; } $rez[$i]=spalare($rez[$i]); } } function new_y(&$y_old,&$x_old,&$y_new){//x[ind][mol] $cate=count($x_old[1]); $cati=count($x_old); for($i=0;$i<$cate;$i++){ $rest[0]=exclude_i($i,$y_old,$y_new_i); for($j=1;$j<=$cati;$j++) $rest[$j-1]=exclude_i($i,$x_old[$j],$x_new_i[$j-1]); get_coefs($y_new_i,$x_new_i,$c_new); calc_1v($c_new,$rest,$y_new[$i]);//predictie pentru o molecula } } function calc_1v(&$coef,&$val,&$rez){//predictie pentru o molecula $rez=$coef[0]; for($j=1;$j<count($coef);$j++){//al catelea indice si coeficient $rez+=$coef[$j]*$val[$j-1]; } $rez=spalare($rez); } function exclude_i($i,&$data,&$new_data){ for($j=0;$j<$i;$j++) $new_data[$j]=$data[$j]; for($j=$i+1;$j<count($data);$j++) $new_data[$j-1]=$data[$j]; return $data[$i]; } function spalare($value){ if(!is_finite($value)) return (float)"INF"; $log_cifre=log(abs($value),10); if($log_cifre<0) $cifre=(int)$log_cifre; if($log_cifre>0) $cifre=(int)($log_cifre+1); $new2value=((int)($value*pow(10,5-$cifre)))*pow(10,-4); $new3value=$new2value."e".($cifre-1); if(($cifre>0)&&($cifre<6)) $new3value=sprintf("%.".(5-$cifre)."f",$new3value); if(($cifre<0)&&($cifre>-6)) $new3value=sprintf("%.".(5-abs($cifre))."f",$new3value); return $new3value; } function sub_test(&$list,&$data,&$out){ $out[0]=$data[0]; for($i=0;$i<count($list);$i++) for($j=1;$j<count($data);$j++) if($list[$i]==$data[$j][0]){ $out[$i+1]=$data[$j]; break; } } function coef_r(&$y1,&$y2){ $my1=m1($y1); $dy2=m2($y1,$y1)-$my1*$my1; $mx1=m1($y2); $mxy=m2($y2,$y1); $m2x=$mx1*$mx1; $mx2=m2($y2,$y2); $dx2=$mx2-$m2x; $r2=pow($mxy-$mx1*$my1,2)/($dx2*$dy2); return $r2." (n = ".count($y1).")"; } function coef_F(&$y1,&$y2,$df_r){ $my1=m1($y1); $T_SS=0;

250

Page 251: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

for($i=0;$i<count($y1);$i++) $T_SS+=pow($y1[$i]-$my1,2); $E_SS=0; for($i=0;$i<count($y1);$i++) $E_SS+=pow($y1[$i]-$y2[$i],2); $R_SS=$T_SS-$E_SS; $T_df=count($y1)-1; $R_df=$df_r; $E_df=$T_df-$R_df; if(!$R_df)die(); if(!$E_SS)die(); $F=$R_SS*$E_df/$R_df/$E_SS; return $F; } function coef_pF($df_r,$df_t,$F){ $Fd = new FDistribution($df_r,$df_t-$df_r); return 1.0 - $Fd->CDF($F); } function put_coef_ind(&$coef,&$indx,$msg){ $eq="Y_".$msg." = ".$coef[0]; for($i=1;$i<count($coef);$i++){ $eq.="+".$coef[$i]."*".$indx[$i-1]; } return $eq; }

include("functions.php"); get_all_data("select",$_POST,$e); for($i=0;$i<$_POST['test'];$i++){ do{ $ok=0; $trs[$i]=rand(1,count($e)-1); for($j=0;$j<count($trs)-1;$j++) if($trs[$j]==$trs[$i]){ $ok=1; break; } }while($ok); } for($i=1;$i<count($e);$i++) $f[$i]=$i; for($i=0;$i<count($trs);$i++){ unset($f[$trs[$i]]); $trs[$i]=$e[$trs[$i]][0]; } $tr_s=implode(" ",$trs); foreach($f as $kf => $vf) $f[$kf]=$e[$vf][0]; $te_s=implode(" ",$f); echo("Training set list: ".$tr_s); echo("Test set list: ".$te_s); af($e,"");

include("functions.php"); include("mlr.php"); echo("<br><br>"); get_all_data("select",$_POST,$e); echo("Set file: ".$_POST['select']."<BR>"); echo("Training set count: ".$_POST['test']."<BR>"); echo("Training set: ".$_POST['training']."<BR>"); echo("Test set: ".$_POST['rest']."<BR>"); $tra=explode(" ",$_POST['training']); $tes=explode(" ",$_POST['rest']); sub_test($tra,$e,$t_tra); sub_test($tes,$e,$t_tes); af($t_tra,"Training set data:"); echo("QSAR/QSPR: "); for($i=1;$i<count($t_tra[0])-1;$i++){ $t[$i-1]=$t_tra[0][$i]; for($j=1;$j<count($t_tra);$j++) $x[$i-1][$j-1]=$t_tra[$j][$i]; } for($j=1;$j<count($t_tra);$j++) $y[$j-1]=$t_tra[$j][count($t_tra[0])-1]; get_coefs($y,$x,$c); for($j=0;$j<count($c);$j++) $c[$j]=spalare($c[$j]);//echo($c[$j]." "); echo(put_coef_ind($c,$t,"EST")."<BR>"); calc_eq_1($c,$x,$y_pred); echo("Coefficient of determination r<sup>2</sup> = ".sprintf("%.4f",coef_r($y,$y_pred))."<BR>");

251

Page 252: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$coef_F=coef_F($y,$y_pred,count($c)-1); echo("Fisher test value F = ".spalare($coef_F)."<BR>"); $coef_pF=coef_pF(count($c)-1,count($y)-1,$coef_F); echo("Probability of wrong (from F) p<sub>F</sub> = ".sprintf("%1.5f",$coef_pF*100)." % (".$coef_pF.")<BR>"); for($i=1;$i<count($t_tes[0])-1;$i++){ $tt[$i-1]=$t_tes[0][$i]; for($j=1;$j<count($t_tes);$j++) $xx[$i-1][$j-1]=$t_tes[$j][$i]; } for($j=1;$j<count($t_tes);$j++) $yy[$j-1]=$t_tes[$j][count($t_tes[0])-1]; if(count($t_tes)>1){ af($t_tes,"Test set data:"); calc_eq_1($c,$xx,$yy_pred); echo("Coefficient of determination r<sup>2</sup> = ".sprintf("%.4f",coef_r($yy,$yy_pred))."<BR>"); $coef_F=coef_F($yy,$yy_pred,count($c)-1); echo("Fisher test value F = ".spalare($coef_F)."<BR>"); $coef_pF=coef_pF(count($c)-1,count($yy)-1,$coef_F); echo("Probability of wrong (from F) p<sub>F</sub> = ".sprintf("%1.5f",$coef_pF*100)." % (".$coef_pF.")<BR>"); }else echo("You selected all data in training set, thus no Test set data here.<BR>");

Analiza de corelaţie în predicţie (validare încrucişată) a fost implementată ca aplicaţie online care se găseşte la adresa: http://l.academicdirect.org/Statistics/leave_one_out/ define("impa_min",1e-100); define("disp_min",1e-10); if(count($_POST)==0){ $definition_page["auto_index"]=FALSE; $definition_page["copyright"]=array("April 9, 2007","lori"); include("/usr/home/www/data/definitions.php"); echo("<br><br>The program apply leave-one-out algorithm for predicted dependent variable.<br>Please input (or copy/paste) data in Textbox, with 'space' separator between columns and 'enter' separator between rows as in sample data.<br>"); echo("<Form method='post' action='".$_SERVER["REQUEST_URI"]."'>"); ?> <table border='1'> <tr> <td valign='top'> <Textarea name="input" cols=40 rows=12> <? echo(file_get_contents("a.txt")); ?> </Textarea> </td> <td valign='top'> <input type="submit"> </table> </Form> <? }else{ $definition_page["up_dir"]=""; $definition_page["auto_index"]=FALSE; $definition_page["copyright"]=array("April 2005 then March 6, 2007","lori"); include("/usr/home/www/data/definitions.php"); include("functions.php"); echo("<br>"); $input=preg_replace_local($_POST['input'],"\r",array("\r\n","\r","\n")); $input=preg_split_local($input,"\r\n","\r","\n"); $n=count($input); for($i=0;$i<$n;$i++){ $data_t[$i]=preg_split_local($input[$i]); } $m=count($data_t[0]); for($i=0;$i<$m;$i++){ for($j=0;$j<$n;$j++){ $data[$i][$j]=$data_t[$j][$i]; } $col_name[$i]=array_shift($data[$i]); } $row_name=array_shift($data); unset($data_t); unset($input); $n=count($data); $m=count($data[0]); for($i=1;$i<$n;$i++) for($j=0;$j<$m;$j++) $x[$i-1][$j]=$data[$i-1][$j]; for($j=0;$j<$m;$j++) $y[$j]=$data[$n-1][$j]; $n=count($x);

252

Page 253: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

mat_means($n,$m,$y,$x,$ma,$mb); red_gauss($mb,$ma,$n); echo("yy=".$mb[0]); for($i=1;$i<count($col_name)-1;$i++){ echo("+".$col_name[$i]."*".$mb[$i]); } echo("<br>\r\n"); $yy=estimated($mb,$x,$n,$m); $r2y=r2($y,$yy,$m); echo("r2YY=".$r2y."<br>\r\n"); for($j=0;$j<$m;$j++){ portion_remove($x,$y,$new_x,$new_y,$j,$n); mat_means($n,$m-1,$new_y,$new_x,$new_ma,$new_mb); red_gauss($new_mb,$new_ma,$n); $yyy[$j]=predicted($new_mb,$x,$n,$j); } $r2y=r2($y,$yyy,$m); echo("r2YYY=".$r2y."<br>\r\n"); af($x,$y,$yy,$yyy); die(); } function portion_remove($x,$y,&$xx,&$yy,$j,$n){ for($i=0;$i<$n;$i++){ unset($x[$i][$j]); $xx[$i]=array_values($x[$i]); } unset($y[$j]); $yy=array_values($y); } function r2(&$y,&$yy,$n){ $mx1 = m1($yy,$n); $dx2 = m2($yy,$yy,$n)-$mx1*$mx1; $my1 = m1($y,$n); $dy2 = m2($y,$y,$n)-$my1*$my1; $mxy = m2($y,$yy,$n)-$mx1*$my1; if($dx2<disp_min) return(-1); $r2y = ($mxy*$mxy)/($dx2*$dy2); return($r2y); } function predicted(&$b,&$x,$n,$i){ $y=$b[0]; for($j=1;$j<=$n;$j++){ $y+=$x[$j-1][$i]*$b[$j]; } return($y); } function estimated(&$b,&$x,$n,$m){ for($i=0;$i<$m;$i++){ $y[$i]=$b[0]; for($j=1;$j<=$n;$j++){ $y[$i]+=$x[$j-1][$i]*$b[$j]; } } return($y); } function red_gauss(&$b,&$a,$n){ for($i=0;$i<=$n;$i++){ $m=$i; for($j=$i+1;$j<=$n;$j++){ if(abs($a[$i][$j])>abs($a[$i][$m]))$m=$j; } if(abs($a[$i][$m])<impa_min)return FALSE; if($m<>$i){ $t=$b[$m];$b[$m]=$b[$i];$b[$i]=$t; for($j=0;$j<=$n;$j++){ $t=$a[$m][$j];$a[$m][$j]=$a[$i][$j];$a[$i][$j]=$t; } } for($j=$i+1;$j<=$n;$j++)$a[$i][$j]/=$a[$i][$i]; $b[$i]/=$a[$i][$i];$a[$i][$i]=1; for($j=$i+1;$j<=$n;$j++){ $b[$j]-=$a[$j][$i]*$b[$i]; for($k=$n;$k>$i;$k--)$a[$j][$k]-=$a[$j][$i]*$a[$i][$k]; } } for($i=$n;$i>0;$i--) for($j=$i-1;$j>=0;$j--) $b[$j]-=$a[$j][$i]*$b[$i]; return TRUE;

253

Page 254: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

} function mat_means($n,$m,&$y,&$x,&$ma,&$mb){ $ma[0][0] = 1; $mb[0] = m1($y,$m); for($k1=1;$k1<=$n;$k1++){ $ma[0][$k1] = m1($x[$k1-1],$m); $ma[$k1][0] = $ma[0][$k1]; $ma[$k1][$k1] = m2($x[$k1-1],$x[$k1-1],$m); $mb[$k1] = m2($x[$k1-1],$y,$m); for($k2=$k1+1;$k2<=$n;$k2++){ $ma[$k1][$k2] = m2($x[$k1-1],$x[$k2-1],$m); $ma[$k2][$k1] = $ma[$k1][$k2]; } } } function m1(&$a,$m){ $ret=0; for($i=0;$i<$m;$i++){ $ret+=$a[$i]; } return $ret/$m; } function m2(&$a,&$b,$m){ $ret=0; for($i=0;$i<$m;$i++){ $ret+=$a[$i]*$b[$i]; } return $ret/$m; } function af(&$x,&$y,$yy=array(),$yyy=array()){ $m=count($y); $n=count($x); echo("<table border='1'><tr>"); for($i=0;$i<=$n;$i++){ echo("<td>".$GLOBALS["col_name"][$i]); } echo("<td>Y"); $nyy=count($yy); $nyyy=count($yyy); if($nyy>0)echo("<td>YY"); if($nyyy>0)echo("<td>YYY"); for($j=0;$j<$m;$j++){ echo("<tr>"); echo("<td>".$GLOBALS["row_name"][$j]); for($i=0;$i<$n;$i++){ echo("<td>".$x[$i][$j]); } echo("<td>".$y[$j]); if($nyy>0)echo("<td>".$yy[$j]); if($nyyy>0)echo("<td>".$yyy[$j]); } echo("</table>"); }

define("char160",chr(160)); define("char13",chr(13)); function find_first_local(&$s,&$a){ $i=strlen($s)+1; if($i==1)return array(-1,0); $first_special=-1; for($j=0;$j<count($a);$j++){ $k=strpos($s,$a[$j]); if(!($k===FALSE)){ if($i>$k){ $first_special=$j; $i=$k; } } } return array($first_special,$i); } function preg_split_local($s,$a=array(' ','\t','\f')){//char160,char13 $t=array(); while(1){ $i=strlen($s)+1; if($i==1)break; $first_special_pos=find_first_local($s,$a); while($first_special_pos[1]==0){ list($r,$s)=explode($a[$first_special_pos[0]],$s,2);

254

Page 255: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

$first_special_pos=find_first_local($s,$a); } if($first_special_pos[0]<0)break; list($t[],$s)=explode($a[$first_special_pos[0]],$s,2); } if(strlen($s)>0) $t[]=$s; return $t; } function preg_replace_local($s,$b,$a=array(" ","\r","\t","\n","\f"),$i=0){ $t=explode($a[$i],$s); $n=count($t); for($j=0;$j<$n;$j++){ if($t[$j]==$a[$i]){ unset($t[$j]); }elseif(strlen($t[$j])>0){ if($i<count($a)-1) $t[$j]=preg_replace_local($t[$j],$b,$a,$i+1); }else{ unset($t[$j]); } } return implode($b,$t); }

Analiza discriminantă a corelaţiilor corelate a fost implementată ca aplicaţie online care se găseşte la adresa: http://l.academicdirect.org/Statistics/tests/Steiger/ define("SQRT2", 1.4142135623730950488016887242096980785696718753769); define("SQRT2PI", 2.5066282746310005024157652848110452530069867406099); $rm2=(pow($_GET["r12"], 2)+pow($_GET["r13"], 2))/2.0; $f=(1.0-$_GET["r23"])/(2.0*(1-$rm2)); $h=(1.0-$f*$rm2)/(1.0-$rm2); $Z12=(log(1.0+$_GET["r12"])-log(1.0-$_GET["r12"]))/2.0; $Z13=(log(1.0+$_GET["r13"])-log(1.0-$_GET["r13"]))/2.0; $Z=($Z12-$Z13)*sqrt($_GET["N"]-3.0)/(sqrt(2*(1.0-$_GET["r23"])*$h)); echo("Z=".sprintf("%.3f", $Z)."<BR>\r\n"); $Z=abs($Z); $Gauss = new norm_dist(); $CE=$Gauss->complementaryError($Z/SQRT2); $E=$Gauss->error($Z/SQRT2); echo("P(z &#8804; -Z) + P(Z &#8804; z) = "); if($CE<0.001) echo(sprintf("%.3e", $CE)); else echo(sprintf("%.3f", $CE)); echo("<BR>\r\n"); echo("[P(-Z &#8804; z &#8804; Z) = "); if($E<0.001) echo(sprintf("%.3e", $E)); else echo(sprintf("%.3f", $E)); echo("]<BR>\r\n"); if($CE<0.05)echo("<font color='blue'>Correlations are not correlated with a confidence of 95%</font><br>"); else echo("<font color='red'>Hypothesis of correlated correlations cannot be rejected with a confidence of 95%</font><br>"); if($CE<0.01)echo("<font color='blue'>Correlations are not correlated with a confidence of 99%</font><br>"); else echo("<font color='red'>Hypothesis of correlated correlations cannot be rejected with a confidence of 99%</font><br>"); class norm_dist{ function __construct(){ } function error($x) { $e_efx=1.28379167095512586316e-01; $ePp=array(1.28379167095512558561e-01, -3.25042107247001499370e-01, -2.84817495755985104766e-02, -5.77027029648944159157e-03, -2.37630166566501626084e-05); $eQq=array(3.97917223959155352819e-01, 6.50222499887672944485e-02, 5.08130628187576562776e-03, 1.32494738004321644526e-04, -3.96022827877536812320e-06); //Coefficients for approximation to erf in[0.84375, 1.25] $ePa=array(-2.36211856075265944077e-03, 4.14856118683748331666e-01, -3.72207876035701323847e-01, 3.18346619901161753674e-01, -1.10894694282396677476e-01, 3.54783043256182359371e-02, -2.16637559486879084300e-03); $eQa=array(1.06420880400844228286e-01, 5.40397917702171048937e-01, 7.18286544141962662868e-02, 1.26171219808761642112e-01, 1.36370839120290507362e-02, 1.19844998467991074170e-02); $e_erx = 8.45062911510467529297e-01; $abs_x = ($x >= 0.0 ? $x : -$x); if($abs_x<0.84375){//0<|x|<0.84375 if($abs_x<3.7252902984619141e-9){//|x|<2**-28 $retval=$abs_x+$abs_x*$e_efx; }else{ $s=$x*$x; $P=$ePp[0]+$s*($ePp[1]+$s*($ePp[2]+$s*($ePp[3]+$s*$ePp[4]))); $Q=1.0+$s*($eQq[0]+$s*($eQq[1]+$s*($eQq[2]+$s*($eQq[3]+$s*$eQq[4])))); $retval=$abs_x+$abs_x*($P/$Q); }

255

Page 256: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

}elseif($abs_x<1.25){//0.84375<|x|<1.25 $s=$abs_x-1.0; $P=$ePa[0]+$s*($ePa[1]+$s*($ePa[2]+$s*($ePa[3]+$s*($ePa[4]+$s*($ePa[5]+$s*$ePa[6]))))); $Q=1.0+$s*($eQa[0]+$s*($eQa[1]+$s*($eQa[2]+$s*($eQa[3]+$s*($eQa[4]+$s*$eQa[5]))))); $retval=$e_erx+$P/$Q; }elseif($abs_x>=6.0){ $retval=1.0; }else{//1.25<|x|<6.0 $retval=1.0-$this->complementaryError($abs_x); } return ($x >= 0.0) ? $retval : -$retval; } function complementaryError($x) { //Coefficients for approximation to erfc in [1.25, 1/.35] $eRa = array(-9.86494403484714822705e-03, -6.93858572707181764372e-01, -1.05586262253232909814e01, -6.23753324503260060396e01, -1.62396669462573470355e02, -1.84605092906711035994e02, -8.12874355063065934246e01, -9.81432934416914548592e00); $eSa = array( 1.96512716674392571292e01, 1.37657754143519042600e02, 4.34565877475229228821e02, 6.45387271733267880336e02, 4.29008140027567833386e02, 1.08635005541779435134e02, 6.57024977031928170135e00, -6.04244152148580987438e-02); //Coefficients for approximation to erfc in [1/.35, 28] $eRb=array(-9.86494292470009928597e-03, -7.99283237680523006574e-01, -1.77579549177547519889e01, -1.60636384855821916062e02, -6.37566443368389627722e02, -1.02509513161107724954e03, -4.83519191608651397019e02); $eSb=array(3.03380607434824582924e01, 3.25792512996573918826e02, 1.53672958608443695994e03, 3.19985821950859553908e03, 2.55305040643316442583e03, 4.74528541206955367215e02, -2.24409524465858183362e01); $abs_x = ($x >= 0.0 ? $x : -$x); if ($abs_x < 1.25){ $retval=1.0-$this->error($abs_x); }elseif($abs_x > 28.0){ $retval=0.0; }else{//1.25<|x|<28 $s = 1.0/($abs_x*$abs_x); if($abs_x<2.8571428){//(|x|<1/0.35) $R=$eRa[0]+$s*($eRa[1]+$s*($eRa[2]+$s*($eRa[3]+$s*($eRa[4]+$s*($eRa[5]+$s*($eRa[6]+$s*$eRa[7])))))); $S=1.0+$s*($eSa[0]+$s*($eSa[1]+$s*($eSa[2]+$s*($eSa[3]+$s*($eSa[4]+$s*($eSa[5]+$s*($eSa[6]+$s*$eSa[7]))))))); }else{//(|x|>1/0.35) $R=$eRb[0]+$s*($eRb[1]+$s*($eRb[2]+$s*($eRb[3]+$s*($eRb[4]+$s*($eRb[5]+$s*$eRb[6]))))); $S=1.0+$s*($eSb[0]+$s*($eSb[1]+$s*($eSb[2]+$s*($eSb[3]+$s*($eSb[4]+$s*($eSb[5]+$s*$eSb[6])))))); } $retval=exp(-$x*$x-0.5625+$R/$S)/$abs_x; } return ($x >= 0.0) ? $retval : 2.0 - $retval; } function NDist_PDF($x) {return exp(-pow($x, 2)/2.0)/SQRT2PI;} function NDist_CDF($x) {return $this->complementaryError(-$x/SQRT2)/2;} function NDist_findRoot($prob, $guess, $xLo, $xHi){ $accuracy=1.0e-10;$maxIteration=150; $x=$guess;$xNew=$guess; $error=0.0;$pdf=0.0;$dx=1000.0;$i=0; while((abs($dx)>$accuracy)&&($i++<$maxIteration)){ $error=$this->NDist_CDF($x)-$prob;//Apply Newton-Raphson step if($error<0.0){$xLo=$x;}else{$xHi=$x;} $pdf=$this->NDist_PDF($x); if($pdf!=0.0){//Avoid division by zero $dx=$error/$pdf; $xNew=$x-$dx; } if(($xNew<$xLo)||($xNew>$xHi)||($pdf==0.0)){ $xNew=($xLo+$xHi)/2.0; $dx=$xNew-$x; } $x=$xNew; } return $x; } }

2010A1. Aplicarea procedurilor QSAR şi colectarea informaţiei Ca rezultat al colectării informaţiei din aplicarea procedurilor QSAR o serie de rezultate noi au fost obţinute în cadrul proiectului (Bolboacă & Jäntschi, 2009-CCqD; Jäntschi & others, 2010-DqCC; Bolboacă & Jäntschi, 2010-DqPM; Bolboacă & others, 2011-DDNR). Pentru ca rezultatele observaţiei să capete consistenţă în ceea ce priveşte interpretarea statistică, mai

256

Page 257: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

este necesar ca să se asume ipoteza de convergenţă la normalitate asupra valorilor observate în eşantionul seriei de compuşi, spaţiul complet al acestora fiind în acest caz un exemplu tipic de populaţie finită distribuită normal. O serie de măsuri statistice ce caracterizează o populaţie şi un eşantion sunt redate în următoarele două tabele.

Măsuri statistice pentru caracterizarea variabilelor cantitative Măsură Referă Expresie Interpretare

Suma valorilor Σ(·) - Numărul de valori |·| - Valoarea medie E(·) = Σ(·)/|·| Valoarea aşteptată

Un şir de numere

Ek(·) = E((X-E(X))k) Moment central de ordin k, k>1 - Media caracteristicii X O populaţie μ = μ(X) = E(X) Media observabilei Y Un eşantion m = m(Y) = E(Y) Tendinţa

centrală Estimatorul mediei O populaţie M(Y) = m(Y) caracteristicii X Var(X) = E((X-μ)2) Varianţa caracteristicii X Împrăştierea

O populaţie Deviaţia standard a σ = σ(X) = )X(Var Dispersia caracteristicii X var = var(Y) = E((Y-E(Y))2) Varianţa observabilei Y Împrăştierea

Un eşantion Deviaţia standard a s = s(Y) = )Yvar( Dispersia observabilei Y Estimatorul varianţei caracteristicii X

VAR(Y) = 1|Y|

|Y|−

var(Y) Împrăştierea O populaţie

1|Y||Y|−

Estimatorul deviaţiei standard a s(Y) S = S(Y) = Dispersia caracteristicii X

Statistici pentru caracterizarea depărtării de normalitate a variabilelor cantitative Simbol şi măsură Referă Expresie Mărimi care intervin

γ1 = μ3/μ23/2 γ1, Asimetria caracteristicii X

β2, Boltirea caracteristicii X β2 = μ4/μ22 O μk = Ek(X), k>1

populaţie γ2, Excesul de boltire al γ2 = β2-3 caracteristicii X g1 = m3/m2

3/2 g1, Asimetria observabilei Y b2 = m4/m2

2 b2, Boltirea observabilei Y Un mk = Ek(Y), k>1 eşantion g2, Excesul de boltire al g2 = b2-3 observabilei Y Estimatorul asimetriei caracteristicii X G1 = )2n(

)1n(n

Y

YY

−−

M3/M23/2

Estimatorul boltirii caracteristicii X

B2 =

)3Y

Y

−n)(2n()1n)(1n(

Y

Y

−+− M4/M2

2

nY = |Y|

Estimatorul excesului de boltire a caracteristicii X

O populaţie

G2 = B2 - 3·)3n)(2n(

)1n(

YY

2Y

−−−

Mk = 1nn

Y

Y

−Ek(Y),

k>1

Extragerea repetată de eşantioane (de volum dat) dintr-o populaţie face ca valorile obţinute să urmeze o distribuţie, numită distribuţia de eşantionare. Tabelul următor prezintă rezultatele care se obţin pentru varianţa mărimilor statistice prin extragerea repetată de eşantioane dintr-o populaţie. Când valorile parametrilor statistici ai populaţiei nu sunt cunoscute, dar se poate face presupunerea că distribuţia populaţiei se comportă suficient de bine [67], aceştia pot fi aproximaţi cu ajutorul [67] Teorema Limită Centrală ÷ Cronologia contribuţiilor majore:

257

Page 258: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

estimatorilor acestora. Formulele de calcul aproximativ ale mediei şi varianţei pentru medie şi varianţă sunt redate în tabelul următor. Dacă se pot asuma ipoteze cu privire la distribuţia caracteristicii X în populaţie, atunci se pot obţine formule de calcul pentru parametrii statistici (ai populaţiei).

Medii şi varianţe ale mediei şi varianţei observabilei Y ce rezultă din distribuţia de eşantionare din populaţia cu caracteristica X

Mărime şi notaţie Valoare Media mediei, Yμ )X())Y(m(Y μ=μ = μ

Varianţa mediei, 2Yσ

Y

222

Y n)X())Y(m( σ

=σ=σ

Media varianţei, μ(s2) )X(n

)1n())Y(s()s( 2

Y

Y22 σ− =μ=μ

Varianţa varianţei, σ2(s2) )X(n

)3n)(1n()X(n

)1n())Y(s()s( 223

Y

YY43

Y

2Y2222 μ

−−−μ

−=σ=σ

Valori aproximative pentru mediile şi varianţele mediei şi varianţei observabilei Y în ipotezele teoremei limită centrale

Mărime şi notaţie Aproximare Media mediei, Yμ )Y(mY μ ≅

Varianţa mediei, 2Yσ

)1n( YY −

≅σ)Y(s2

2

Media varianţei, μ(s2) )Y(s)s( 22 ≅μ

Varianţa varianţei, σ2(s2) )Y(m)1n(

)3n()1n( 22

YY

YY22

−n)Y(m

n)s( 42

Y

−≅σ

−−

Tabelele 1-19 dau expresiile acestor mărimi statistice (valabile pentru populaţie). Tabelul 1. Mărimi statistice ale distribuţiei discrete uniforme

Mărime statistică Expresie de calcul Suport k ∈ {a, a+1, ..., b-1, b} Minim; Maxim a; b

( ) Funcţia de probabilitate 1ab1 − +( ) ( ) Funcţia de repartiţie 1ab1a]k[ − + − +

( )Media şi mediana; varianţa ( ) 2ba + ; 121)1ab( 2 −+−

o Abraham DE MOIVRE. 1733. Approximatio ad Summam Terminorum Binomii (a+b)n in Seriem expansi. In:

Abraham DE MOIVRE. The Doctrine of Chance: or The Method of Calculating the Probability of Events in Play. W. Pearforn 1738: 235-243.

o Joseph L. LAGRANGE. 1776. Mémoire sur l’utilité de la méthode de prendre le milieu entre les résultats de plusieurs observations; dans lequel on examine les avantages de cette méthode par le calcul des probabilités; et où l’on résoud différents problèmes relat ifs à cette matière. Miscellanea Taurinensia 5:167-232.

o Pierre S. LAPLACE. 1812. Théorie Analytique des Probabilités. Courcier, 465 p. o Aleksandr M. LIAPUNOV. 1901. Nouvelle forme du théoreme sur la limite des probabilités. Mémoires de

l'Académie Impériale des Sciences de St. Pétersbourg 12(5):1-24. ÷ Enunţul teoremei (fie (Xn)n≥1 variabile independente şi ∃δ>0 a.î. μ2+δ(Xn)<∞):

o dacă 0)X(

lim 2)2(n

1k

2k

n

1kk2

n=

⎟⎠

⎞⎜⎝

⎛σ

μ

δ+

=

=δ+

∞→

∑ atunci )1,0(N

))X(X(

nn

1k

2k

n

1in1n

∞→

=

= →

σ

μ−

258

Page 259: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Asimetria; excesul de boltire 0; )1)1ab((5)1)1ab((6

2

2

−+−++−

Tabelul 2. Mărimi statistice ale distribuţiei discrete Bernoulli Mărime statistică Expresie de calcul

Suport k ∈ {0,1}; p ∈ (0,1) Minim; Maxim 0; 1 Funcţia de probabilitate (1-p), k = 0 p, k = 1 Funcţia de repartiţie 1, 1 ≤ k (1-p), k ∈ [0,1) Media; varianţa p; p(1-p)

0; ( ) ( )Asimetria; excesul de boltire )p1(p1p6p6 2 −+−

Tabelul 3. Mărimi statistice ale distribuţiei discrete binomiale Mărime statistică Expresie de calcul

Suport k ∈ {0, ..., n}; p ∈ (0,1) Minim; Maxim 0; n

knk )p1(p −−)!kn(!k

!n−⋅

Funcţia de probabilitate

Funcţia de repartiţie ∑=

−−−

k

0i

ini )p1(p)!in(!i

!n

Media; varianţa np; np(1-p)

Asimetria; excesul de boltire ( ) )p1(npp21 −− ; )p1(np

)p1(p61−

− −

Tabelul 4. Mărimi statistice ale distribuţiei discrete Poisson Mărime statistică Expresie de calcul

Suport k = 0, 1, ...; λ ≥ 0 Minim; Maxim 0; ∞ Funcţia de probabilitate !ke kλλ−

Funcţia de repartiţie ∑=

λ− λk

i !ie 0i

Media; varianţa λ; λ Asimetria; excesul de boltire λ1 ; λ1

Tabelul 5. Mărimi statistice ale distribuţiei continue uniforme Mărime statistică Expresie de calcul

Suport x ∈ [a, b] Minim; Maxim a; b Funcţia de probabilitate 1/(b-a) Funcţia de repartiţie (x-a)/(b-a)

(a+b)/2; (b-a)2/12 Media şi mediana; varianţa Asimetria; excesul de boltire 0; -6/5

Tabelul 6. Mărimi statistice ale distribuţiei continue Cauchy-Lorentz Mărime statistică Expresie de calcul

Suport x ∈ (-∞,∞); x0 ∈ (-∞,∞); γ ∈ (0,∞) Minim; Maxim -∞; ∞

Funcţia de probabilitate

1

⎟⎟

⎠⎟⎟⎠

⎞0⎞

⎜⎜

⎛⎜⎜⎝

⎛γ−

+γπ2

xx1

259

Page 260: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Funcţia de repartiţie 21xxarctan1 0 +⎟⎟

⎞⎜⎜⎝

⎛γ−

π

Mediana şi moda x0

Tabelul 7. Mărimi statistice ale distribuţiei continue Student t Mărime statistică Expresie de calcul

Suport x ∈ (-∞,∞); ν ∈ (0,∞) Minim; Maxim -∞; ∞

⎟⎠⎞

⎜⎝⎛ +ν

⎟⎟⎠

⎞⎜⎜⎝

⎛ν

+⎞

⎜⎝⎛ νΓνπ

⎟⎠⎞

⎜⎝⎛ +ν

Γ2

12t1

2

21

∫∞

−−=Γ0

t1z dtet)z(, Funcţia de probabilitate ⎟⎠

( )∑≥

ν−⋅⎟⎠⎞+

0n

n

i

n2

!n/x

21Funcţia de repartiţie ∏

= +++ν+

⎜⎝⎛ νΓ+

1

0 )i23(2)i21)(i21(x

21

( )2−νν0 (ν > 1); 0; 0; , ν > 2 Media; mediana; moda; varianţa ( )0, ν > 3; Asimetria; excesul de boltire 46 −ν , ν > 4

Tabelul 8. Mărimi statistice ale distribuţiei continue Fisher-Snedecor F Mărime statistică Expresie de calcul

Suport x ∈ [0,∞); d1,d2 ∈ (0,∞) Minim; Maxim 0; ∞

( )Funcţia de probabilitate

( )( ) ( )

( ) ( )( )( ) 2dd

2121dxd ++

12d2d2

2d1

21

21121 xdd

2d2d2dd −

ΓΓ+Γ ∞

−− t1zz(, Γ ∫=0

dtet)

Funcţia de repartiţie ⎟⎠⎞

⎜⎝⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛+ 2

d,2d,1IB

2d,

2d,

dxdxdIB 2121

21

1 −1b dt)(IB, ∫ − −=z

0

1a t1(t)b,a,z

Media; moda 2dd

2

2

− 2dd

d2d

2

2

1

1

+−, d2 > 2; , d1 > 2

Varianţa; asimetria )4d()2d(d

)2dd(d2

22

21

212

2

−−−+ , d2 > 4;

)2d)4d(8)2dd2(

211

221

−+

−−+, d2 > 6

d( 2 − d(d)6

Excesul de boltire 12/)2dd)(8d)(6d(d

16d44d22d)20d5(d)8d5(d3

21221

12

1212

12

213

2

−+−−−+−+−+ d32 +− , d2 > 8

Tabelul 9. Mărimi statistice ale distribuţiei continue χ2

Mărime statistică Expresie de calcul Suport x ∈ [0,∞); d ∈ (0,∞) Minim; Maxim 0; ∞ Funcţia de probabilitate

( ) ( )2dex21 2x12d2d Γ−− ∫ −−=0

t1z dtet)z(∞

, Γ

Funcţia de repartiţie ( )2dΓdtet2x

0

t12d∫ −−

d; ; d - 2, d > 2; 2d 32d≅ −Media; mediana; moda; varianţa asimetria; excesul de boltire d8 ; d12

Tabelul 10. Mărimi statistice ale distribuţiei continue exponenţiale

Mărime statistică Expresie de calcul Suport x ∈ [0,∞); λ ∈ (0,∞)

260

Page 261: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Minim; Maxim 0; ∞ Funcţia de probabilitate xe λ−λ Funcţia de repartiţie xe1 λ−− Media; mediana; moda; varianţa; asimetria; excesul de boltire λ1 ; λ)2ln( ; 0; 2λ1 ; 2; 6

Tabelul 11. Mărimi statistice ale distribuţiei continue Weibull

Mărime statistică Expresie de calcul Suport x ∈ [0,∞); λ, k ∈ (0,∞) Minim; Maxim 0; ∞ Funcţia de probabilitate; (xe1 λ−− )k

funcţia de repartiţie ( ) kλx1k k

ekx λ−− ;

Media; mediana; moda ( )k ( ) ( )k1)2ln(11+Γλ=μ ; λ ; k1k)1k( −λ , k > 1 ( )(Varianţa; asimetria ) 222 k21 μ−+Γλ=σ ( ); 3323

1 3k31 σμ−μσ−λ+Γ=γ ( )( )Excesul de boltire 44223

14

2 64k41 σμ−σμ−μσγ−+Γλ=γ

Tabelul 12. Mărimi statistice ale distribuţiei continue Log-normale

Mărime statistică Expresie de calcul Suport x ∈ [0,∞); μ ∈ (-∞,∞); σ ∈ (0,∞) Minim; Maxim 0; ∞

( )Funcţia de probabilitate ( )πσσ

μ−−

2xe 2

2

2)xln(

Funcţia de repartiţie (( () ))

π= ∫ −z

0

t dte2)z(erf2

22)xln(erf1 σμ−+ ;

Media; mediana; moda; varianţa 22σ+μ μ 2σ−μ 22 2e)1e σ+μσ −e ; e ; ( e ;

Asimetria; excesul de boltire 1e)22

−σe(2

+σ 6e3e2e222 234 −++ σσσ;

Tabelul 13. Mărimi statistice ale distribuţiei continue Birnbaum-Saunders (a vieţii obosite)

Mărime statistică Expresie de calcul Suport μ, β, γ ∈ (0,∞); x ∈ (μ,∞) Minim; Maxim μ; ∞

⎟⎟⎠

⎞⎜⎜⎝

⎛γ⎟⎟

⎞⎜⎜⎝

⎛μ−

β−

βμ−

μ−γμ−

β+

βμ−

xxN

)x(2x

x

1,0Funcţia de probabilitate

Funcţia de probabilitate standard ( )γ−μ−γ

+ )x/1x(N)x(2x/1x

1,0 , ∫∞−

π=

z 2/t

1,0 dt2

e)z(N2

( )γ− )x/1x(N 1,0 Funcţia de repartiţie standard

Media; varianţa (standard) 22γ+1 ; 51 2γ+γ 4

Tabelul 14. Mărimi statistice ale distribuţiei continue Gamma

Mărime statistică Expresie de calcul Suport k, θ ∈ (0,∞); x ∈ [0,∞) Minim; Maxim 0; ∞ Funcţia de probabilitate

)k(ex kx1k Γθ−θ−− ∫∞

−−=Γ0

t1z dtet)z(,

∫∫∞

−−θ

−−

0

t1kx

0

t1k dtetdtet Funcţia de repartiţie

261

Page 262: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Media; moda; varianţa kθ; (k-1)θ, k > 1; kθ2 Asimetria; excesul de boltire k2 ; k6

Tabelul 15. Mărimi statistice ale distribuţiei continue Laplace (dublu exponenţială)

Mărime statistică Expresie de calcul Suport b ∈ (0,∞); μ, x ∈ (-∞,∞) Minim; Maxim -∞; ∞ Funcţia de probabilitate b2e b|x| μ−− Funcţia de repartiţie 2e b)x( μ− , x < μ 2e1 b)x( μ−−− , μ ≤ x

μ; μ; μ; 2b2 Media; mediana; moda; varianţa Asimetria; excesul de boltire 0; 3

Tabelul 16. Mărimi statistice ale distribuţiei continue Gumbel (log-Weibull)

Mărime statistică Expresie de calcul Suport β ∈ (0,∞); μ, x ∈ (-∞,∞) Minim; Maxim -∞; ∞

( ( ) )Funcţia de probabilitate ( ) ββμ−−ββμ−−− )x(exp)x(expexp ( ( )) − − −μFuncţia de repartiţie )x(expexp β

μ+βγ; μ-β·ln(ln(2)); μ; π2β2/6 Media; mediana; moda; varianţa

14.1)3(6123 ≅

πςAsimetria; excesul de boltire ; 12/5

Tabelul 17. Mărimi statistice ale distribuţiei continue Beta

Mărime statistică Expresie de calcul Suport α, β ∈ (0,∞); x ∈ [0,1] Minim; Maxim 0; 1

Funcţia de probabilitate ),,1(IB)x1(x 11 βα− −β−α ∫ −− −=z

0

1b1a dt)t1(t)b,a,z(IB;

Funcţia de repartiţie ),,1(IB),,x(IB α β α β

Media; moda; varianţa β+α

α ; 2−β

1+αα − αβ , α, β > 1;

)1()( 2 +β+αβ+α

Asimetria; excesul de boltire αβ+β+α+β+αα−β

)2(1)(2

; 6/)3)(2(

)1()2(2)12( 223

+β+α+β+ααββ+β++βαβ−α−β−α

Tabelul 18. Mărimi statistice ale distribuţiei continue Gauss (normale)

Mărime statistică Expresie de calcul Suport σ ∈ (0,∞); μ, x ∈ (-∞,∞) Minim; Maxim -∞; ∞

(Funcţia de probabilitate ( )( ) )πσσμ−− 22)x(exp 2

( ) ( )( )( ) 22xerf1 σμ−+ π= ∫ −

0

t dte2)z(erf2

z

; Funcţia de repartiţie

μ; μ; μ; σ2 Media; moda; varianţa Asimetria; excesul de boltire 0; 0

Tabelul 19. Alte mărimi statistice ale distribuţiei continue Gauss (normale)

Mărime Populaţie (finită) de volum nX Eşantion de volum nY Estimator m; s2/(nY-1) Media

Xμ = μ; 2Xσ = σ2/nX = s2/nY 2

Yσ= m; Yμ

262

Page 263: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

s2

Varianţa (nX-1)σ2/nX

12

)3)

−−μ

X3

X

2X

14

3X

2X

n(n1n(

n)1n(−

−−

μ−

(nY-1)s2/nY

13

22Y

13

2Y m)1n()1n(

−−

−−

Y )3n( −Y4Y nmn)1n(n

m)3n(n

m)1n(

YY

22Y

2Y

4Y

−−

−−

1ns2)1n(2

Y

44

−≅

−σn 2

Y

Y=

Var γ1 )3n)(1n)(2n()1n(n6

XXX

XX

++−−

)3n)(1n)(2n()1n(n6

YYY

YY

++−− c4

2·var(g1) c4 - Vezi Tabelul 29

Var γ2 )5n)(3n)(2n()3n()1n(n24

XXX

1X

2XX

++−−− −

)5n)(3n)(2n()3n()1n(n24

YYY

1Y

2YY

++−−− − c4

2·var(g2) c4 - Vezi Tabelul 29

Pentru ca rezultatele observaţiei să capete consistenţă în ceea ce priveşte interpretarea statistică, mai este necesar ca să se asume ipoteza de convergenţă la normalitate asupra valorilor observate în eşantionul seriei de compuşi, spaţiul complet al acestora fiind în acest caz un exemplu tipic de populaţie finită distribuită normal. Măsura apropierii unui şir de date de legea de distribuţie normală poate fi evaluată statistic folosind testul de normalitate Z. Practic testul Z se poate aplica pe orice statistică S a eşantionului pentru a verifica dacă se poate accepta (sau respinge) ipoteza (cu un anumit nivel de semnificaţie) că estimatorul acesteia aparţine unei populaţii distribuite normal. Tabelul 20 redă utilizarea testului Z pentru verificarea ipotezei de normalitate a populaţiei din care provine eşantionul. Testul Z măsoară care este diferenţa (în termeni de probabilitate statistică) între o statistică S (a eşantionului) şi parametrul statistic Σ (al populaţiei).

Tabelul 20. Testul Z pentru verificarea ipotezei de normalitate Test Z Formule de calcul Z-statistică (S)

1n)S(S

1nn

)(Sz

YX

X

−σΣ−

=−Σσ

Σ−=

nY

Z-medie Y

Y

2Y

Y

Y ns

m1n

ns

m1n

n)m(

mz μ−≅

−μ−

=−σ

μ−=

Z-varianţă Y2

2Y43

Y

Y22

Y

Y

Y

Y3

Y

22Y

3Y

42

Y

2Y

2Y n

m)3n(m)1n(

ns)1n(1n

n

)1n/(nm)3n(

nm)1n(

n/s)1n(z−−−

σ−−=

−−

−−

σ−−=

Z-dispersie

24

4

24

4

c1

1sc

c1

sc)s(

)s(Ez−

−σ=

−σ

σ−=

σσ−

= , ( )( )2)1n(

1n22n

c4 −Γ−

Γ= (Cohran)

Z-asimetrie

)2n(6)3n)(1n(g

)g()g(Ez

Y

YY1

1

11

−++

γ−=

Z-exces-boltire ( )

)3n)(2n(n24)5n)(3n()1n(3g)1n(

)g()g(Ez

YYY

YYY2Y

2

22

−−++

−−+=σ

γ−=

În aceste ipoteze, de înrudire a compuşilor atât sub aspect structural cât şi sub aspect al proprietăţii/activităţii măsurate, şi de distribuire normală a valorilor observate, se pot formula şi verifica (cu ajutorul testelor statistice) ipoteze de inferenţă (dependenţă) între structură şi activitatea/proprietatea măsurată. Relaţiile structură-activitate (SAR) şi respectiv relaţiile structură-proprietate (SPR) stabilesc legături funcţionale între structura compuşilor chimici şi proprietăţile măsurate de natură biologică (SAR) şi fizico-chimică (SPR) ale acestora. Relaţiile cantitative (q) care se stabilesc între structură şi activitate (qSAR) sau respectiv proprietate

263

Page 264: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(qSPR) se exprimă prin intermediul unor ecuaţii care au un domeniu de aplicabilitate definit cel mai frecvent de seria de compuşi pe care au fost obţinute şi de proprietatea sau activitatea supusă observaţiei. Unul din avantajele majore pe care le conferă obţinerea unei relaţii cantitative structură-activitate/proprietate (qSPAR) este posibilitatea efectuării de predicţii cu privire la proprietatea/activitatea unor compuşi congeneri cu cei din seria pe care s-a obţinut relaţia qSPAR. De cele mai multe ori, o relaţie qSPAR are asociată, pe lângă domeniul de aplicabilitate şi o semnificaţie statistică. Cu cât semnificaţia statistică a unei relaţii qSPAR este mai mare, cu atât predicţia activităţii/proprietăţii pentru compuşi congeneri cu cei ai seriei pe care s-a obţinut relaţia qSPAR are şanse de reuşită mai mari. Aşa cum un singur atom sau o singură regiune a moleculei nu este singura responsabilă pentru manifestarea unei proprietăţi moleculare, nici relaţiile qSPAR nu se exprimă cu ajutorul unui singur descriptor de structură. În mod frecvent în expresia unei ecuaţii qSPAR intră 2 sau mai mulţi descriptori de structură. Este important însă de ştiut că odată cu creşterea numărului de descriptori într-o ecuaţie qSPAR scade şi semnificaţia statistică a parametrilor acesteia. Astfel, pe lângă căutarea celei mai potrivite ecuaţii sub aspectul maximizării determinării statistice a proprietăţii/activităţii măsurate, mai apare şi problema minimizării numărului de variabile ce intră în această ecuaţie. Ecuaţia qSPAR este o ecuaţie de regresie multiplă între descriptorii de structură asupra cărora se face ipoteza că nu sunt afectaţi de erori întâmplătoare (atâta vreme cât structura compusului respectiv este de asemenea o certitudine) şi proprietatea/activitatea măsurată (care este variabila dependentă şi în acelaşi timp supusă erorii experimentale întâmplătoare). Ecuaţiile de regresie liniară (multiplă) au avantajul descompunerii (liniare) a varianţei experimentale observate în varianţe aditive pentru (asociate) fiecare variabilă independentă a ecuaţiei. Existenţa a două sau mai multe variabile independente nu presupune absenţa corelaţiei liniare între acestea, corelaţia putând fi pusă pe seama întâmplării, sau, mai exact, pe seama măsurării (sau exprimării unei măsuri) a două sau mai multe mărimi parţial corelate. Dacă variabilele ce descriu structura nu sunt corelate liniar cu proprietatea măsurată se preferă linearizarea acestora şi exprimarea unei ecuaţii de regresie liniare cu aceste variabile ce descriu structura transformate (linearizate) corespunzător. O ecuaţie de regresie multiplă descriind o relaţie qSPAR este semnificativă statistic dacă toţi parametrii (coeficienţii) acesteia sunt semnificativ statistic diferiţi de zero (în caz contrar expresia ecuaţiei se reduce corespunzător prin eliminarea variabilelor ale căror coeficienţi nu sunt semnificativ diferiţi de zero) şi coeficientul de corelaţie este de asemenea semnificativ diferit de zero (în caz contrar respingându-se întreaga ecuaţie de regresie). Aprecierea semnificaţiei parametrilor ecuaţiei de regresie se face prin raportarea valorii parametrului la varianţa acestuia, folosind pentru interpretare testul Student t. O ecuaţie de regresie liniară multiplă qSPAR implicând o familie de descriptori de structură este o ecuaţie de forma:

b0 + b1X1 + ... +bnXn = Ŷ ~ Y (1) unde Y reprezintă şirul măsurătorilor proprietăţii/activităţii la `m` molecule (|Y|=m) iar {X1, ..., Xn} reprezintă o submulţime a familiei de descriptori {Xi}1≤i≤N. Pentru ca ecuaţia (1) să admită soluţie unică este necesar (nu însă şi suficient) ca n ≤ m-1. Pentru ca parametrii ecuaţiei de regresie (bi)0≤i≤n să aibă şi semnificaţie statistică este necesar (nu însă şi suficient) ca n ≤ m-6. În absenţa semnificaţiei statistice pentru coeficientul b0, ecuaţia (1) se poate restrânge la:

b1X1 + ... +bnXn = Ŷ ~ Y (2) Se asumă ipoteza de distribuţie normală a valorilor Y şi X1, ..., Xn şi ipoteza că şirul Y este rezultat dintr-o măsurătoare experimentală a cărei eroare de măsură este întâmplătoare şi distribuită normal în timp ce şirurile X sunt X1, ..., Xn sunt valori cunoscute care sunt de asemenea normal distribuite dar nu sunt afectate de erori. În aceste ipoteze problema determinării coeficienţilor (bi) ale ecuaţiei (1) sau (2) se rezolvă prin minimizarea sumei erorilor observat vs. cunoscut:

264

Page 265: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Σ1≤i≤m(Ŷi-Yi)2 → min. (3) Rezolvarea ecuaţiei (3) presupune rezolvarea unui sistem de ecuaţii liniar şi omogen ale cărei necunoscute sunt coeficienţii (bi). În ipoteza că sistemul (3) admite o soluţie unică pentru ecuaţia (1) sau (2), ipotezele asumate permit şi obţinerea semnificaţiilor statistice ale parametrilor (bi) folosind distribuţia Student t: ti=t(bi), 0 ≤ i ≤ n pentru (1) şi 1 ≤ i ≤ n pentru (2) (4) Coeficientul de corelaţie oferă o măsură a legăturii liniare între două variabile (Y şi Ŷ) şi se calculează pe baza formulei (unde E este estimatorul valoare medie definit în Tabelul 6):

r(Y,Ŷ) = )Y(s)Y(s)Y,Ycov(

⋅=

)Y(E)Y(E)Y(E)Y(E

)Y(E)Y(E)YY(E2222 −−

⋅− (5)

Testul χ2 (Pearson) este folosit în testarea agrementului între observaţie şi ipoteză, testarea independenţei şi a omogenităţii. Testarea agrementului între observaţie şi ipoteză se realizează prin divizarea observaţiilor într-un număr definit de intervale (`n`), pentru care se calculează expresia X2 (unde `s` este numărul de parametrii ai distribuţiei teoretice):

)1sn(E

)EO(X 2n

1i i

2ii2 −−χ≈

−=∑

=

(6)

din care pe baza distribuţiei teoretice χ2 (Tabelul 18) se calculează probabilitatea de respingere a ipotezei de agrement. Uzual ipoteza de agrement este acceptată dacă probabilitatea de respingere a ipotezei de agrement este mai mică de 5%. Testarea independenţei / omogenităţii între valorile unui tabel cu `r` linii şi `c` coloane se face calculând expresia:

∑∑

∑∑

= =

=== r

1i

c

1jj,i

1kj,k

r

1kk,i

j,i

O

OOE

c

; ))1c)(1r((E

)EO( 2r

1i

c

1j j,i

2j,ij,i2 −−χ≈

−=∑∑

= =

X (7)

Testarea individuală a omogenităţii valorilor dintr-o clasă (linie sau coloană în tabel) şi în acelaşi timp crearea unei ierarhii a iregularităţilor se obţine descompunând expresia lui X2 în:

)1r()EO(

X 2r 2

c,ic,i2 −χ≈−

=∑ E1i c,i

c=

; )1c(E

)EO( 2c

1j j,r

2j,rj,r

r2 −χ≈

−=∑

=

X (8)

68Descompunerea varianţelor în ipoteza omogenităţii permite estimarea erorii experimentale [ ]. Pentru tabelul cu `r` linii şi `c` coloane ecuaţia de descompunere a varianţelor porneşte de la ipoteza că efectul încrucişat al parametrilor designului experimental se exprimă sub formă de produs în mărimea observată (altfel spus: dacă pentru creşterea unei plante e nevoie atât de apă cât şi de soare, atunci efectul în creştere este exprimat proporţional de ambii factori):

c

2 0bS;0

aS.min

≤≤≤≤⎟⎟⎠

⎞⎜⎜⎝

⎛=

∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛=

∂∂

⇒=j1jri1i

r

1i

c

1jjij,i )baO(S

= =

−=∑∑ (9)

Ecuaţia (12) admite acele soluţii care verifică ecuaţiile:

r..1i,b

xba c

2j

1jj,ij

i ==

∑=

1j

c

=

c..1j,x

; a

a

r

1i

2i

r

1ij,ii

j ==

=

=

b (10)

Matematic se poate demonstra că ecuaţiile (10) admit o infinitate de soluţii. Astfel, pentru r=2 şi c=3 coeficienţii (ai)1≤i≤2 sunt parametrizaţi de relaţia:

[68] Ronald A FISHER. 1923. Studies in Crop Variation. II. The Manurial Response of Different Potato Varieties. Journal of Agricultural Science 13:311-320.

265

Page 266: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

266

01a)xxx()xxx(a 22

3,22

2,22

1,22

3,12

2,12

1,12

2 =−⎟⎞

⎜⎛++−++

+⎟⎞

⎜⎛

a)xxxxxx(a 13,23,12,22,11,21,11⎟⎠

⎜⎝++⎟

⎠⎜⎝

(11)

Întrucât rezolvarea sistemului (10) pentru cazul general este dificilă, o soluţie mai simplă este obţinerea soluţiei prin aproximaţii succesive. Din nou, se poate demonstra matematic că soluţia optimă a sistemului (10) se află în vecinătatea valorilor date de ecuaţia:

∑∑∑∑==

⎜⎝

⎛⎟⎠

⎞⎜⎝

⎛=⋅

c

1k

r

1kk,iji Oba

= =

⎟⎠

⎞ r

1i

c

1jj,ij,k OO (12)

Într-un mod similar, se poate arăta că:

.min)baO(

Xr c 2

jij,i =−

=∑∑ ba1i 1j ji= =

→ ∑=1j

jb

∑== c

c

1j j

2j,i

2i

bx

a ; ∑=1i

ia

∑== r

r

1i i

2j,i

2j

ax

b (13)

a cărei soluţie optimă exactă se află din nou în vecinătatea valorilor date de ecuaţiile (12). Astfel, folosind datele din [68] redate în Tabelul 21, valorile sugerate de ecuaţiile (12) pentru produsele (aibj)1≤i≤6;1≤j≤12 sunt redate în Tabelul 22 iar valorile ce rezultă după rezolvarea exactă a sistemului (10) sunt redate în Tabelul 23.

Tabelul 21. Valori experimentale în tratamentul roşiilor TV UD KK KP TP ID GS AJ BQ ND EP AC DY Suma DS 25.3 28 23.3 20 22.9 20.8 22.3 21.9 18.3 14.7 13.8 10 241.3DC 26 27 24.4 19 20.6 24.4 16.8 20.9 20.3 15.6 11 11.8 237.8DB 26.5 23.8 14.2 20 20.1 21.8 21.7 20.6 16 14.3 11.1 13.3 223.4US 23 20.4 18.2 20.2 15.8 15.8 12.7 12.8 11.8 12.5 12.5 8.2 183.9UC 18.5 17 20.8 18.1 17.5 14.4 19.6 13.7 13 12 12.7 8.3 185.6UB 9.5 6.5 4.9 7.7 4.4 2.3 4.2 6.6 1.6 2.2 2.2 1.6 53.7Suma 128.8 122.7 105.8 105 101.3 99.5 97.3 96.5 81 71.3 63.3 53.2 1125.7Legendă: ÷ T_V: Tratament vs. Varietate ÷ UD, KK, KP, TP, ID, GS, AJ, BQ, ND, EP, AC, DY: varietăţi de roşii (UD: Up to Date; KK: K

of K; KP: Kerr's Pink; TP: Tinwald Perfection; ID: Iron Duke; GS: Great Scott; AJ: Ajax; BQ: British Queen; ND: Nithsdale; EP: Epicure; AC: Arran Comrade; DY: Duke of York)

÷ DS, DC, DB, US, UC, UB: tratamente (D* - cu fertilizant natural; U* - fără; S - sol fertilizat cu sulfat; C - sol fertilizat cu cloruri; B - sol fertilizat cu baze)

Tabelul 22. Valorile produselor (aibj)1≤i≤6;1≤j≤12 calculate cu relaţia (12) TV UD KK KP TP ID GS AJ BQ ND EP AC DY DS 27.61 26.30 22.68 22.51 21.71 21.33 20.86 20.69 17.36 15.28 13.57 11.40DC 27.21 25.92 22.35 22.18 21.40 21.02 20.55 20.39 17.11 15.06 13.37 11.24DB 25.56 24.35 21.00 20.84 20.10 19.75 19.31 19.15 16.07 14.15 12.56 10.56US 21.04 20.04 17.28 17.15 16.55 16.25 15.90 15.76 13.23 11.65 10.34 8.69UC 21.24 20.23 17.44 17.31 16.70 16.41 16.04 15.91 13.35 11.76 10.44 8.77UB 6.14 5.85 5.05 5.01 4.83 4.75 4.64 4.60 3.86 3.40 3.02 2.54

Tabelul 23. Valorile optimizate ale produselor (aibj)1≤i≤6;1≤j≤12 folosind relaţiile (10) TV UD KK KP TP ID GS AJ BQ ND EP AC DY DS 27.07 26.42 22.64 21.85 21.85 21.94 20.94 20.63 17.93 15.48 13.54 11.61DC 26.66 26.02 22.29 21.52 21.52 21.60 20.62 20.32 17.66 15.24 13.33 11.43DB 24.91 24.32 20.83 20.11 20.11 20.19 19.27 18.99 16.50 14.25 12.46 10.69US 20.64 20.15 17.26 16.66 16.66 16.73 15.96 15.73 13.67 11.80 10.32 8.85UC 20.58 20.09 17.21 16.61 16.61 16.68 15.92 15.69 13.63 11.77 10.29 8.83UB 6.29 6.14 5.26 5.08 5.08 5.10 4.86 4.79 4.17 3.60 3.14 2.70

Page 267: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Tabelul 24. Valorile optimizate ale produselor (aibj)1≤i≤6;1≤j≤12 folosind relaţiile (13) TV UD KK KP TP ID GS AJ BQ ND EP AC DY DS 27.64 26.19 22.85 22.60 21.59 21.44 20.98 20.71 17.49 15.24 13.67 11.47DC 27.35 25.91 22.61 22.36 21.36 21.22 20.76 20.50 17.30 15.08 13.52 11.35DB 25.74 24.40 21.28 21.05 20.11 19.97 19.55 19.29 16.29 14.20 12.73 10.68US 21.17 20.06 17.50 17.31 16.53 16.42 16.07 15.87 13.39 11.68 10.47 8.78UC 21.40 20.28 17.69 17.50 16.71 16.60 16.25 16.04 13.54 11.80 10.58 8.88UB 6.57 6.23 5.43 5.37 5.13 5.10 4.99 4.93 4.16 3.63 3.25 2.73Tabelul 25 centralizează rezultatele obţinute pe cele 3 căi:

Tabelul 25. Valori comparative: observat vs. eq. (12), vs. eq. (10), şi vs. eq. (13) Σ(Oi,j-aibj)2 Σ(Oi,j-aibj)2/(aibj) Categorie

vs. eq.(12) vs. eq.(10) vs. eq.(13) vs. eq.(12) vs. eq.(10) vs. eq.(13) DS 23.376 18.784 24.098 1.098 0.939 1.127DC 59.778 48.411 59.877 3.078 2.494 3.053DB 69.796 66.811 71.482 3.784 3.599 3.795US 41.532 49.046 41.710 2.721 3.191 2.713UC 57.536 59.000 56.510 3.460 3.660 3.339UB 37.417 40.067 37.094 7.882 8.291 7.651

UD 30.256 26.301 28.172 2.649 2.354 2.140KK 15.333 13.446 15.744 0.761 0.641 0.733KP 62.906 62.767 64.029 3.104 3.155 3.135TP 34.252 31.394 33.265 2.792 2.693 2.366ID 3.430 3.925 3.998 0.205 0.271 0.282GS 26.141 25.591 26.956 2.289 2.447 2.517AJ 44.954 46.997 45.320 2.555 2.712 2.601BQ 21.503 20.359 20.938 1.925 1.712 1.666ND 18.358 17.860 19.105 2.136 2.284 2.348EP 2.881 3.225 3.323 0.535 0.635 0.660AC 18.273 18.773 18.762 1.759 1.867 1.839DY 11.149 11.478 11.158 1.313 1.401 1.390TOTAL 289.435 282.117 290.771 22.022 22.172 21.676

După cum se observă din Tabelul 25, fiecare dintre metodele definite de ecuaţiile (10) şi respectiv (13) îmbunătăţeşte valoarea sumei obiectiv în raport cu expresia definită de formula clasică (12) şi reprezintă corecţii ale acesteia. Astfel, relaţiile (10) îmbunătăţesc relaţiile (12) în ipoteza erorii experimentale uniform distribuite între clase, în timp ce relaţiile (10) îmbunătăţesc relaţiile (12) în ipoteza erorii experimentale proporţionale cu magnitudinea fenomenului observat; mai exact relaţiile (10) minimizează eroarea experimentală absolută în timp ce relaţiile (13) minimizează eroarea experimentală relativă. Soluţiile de optimizare propuse de ecuaţiile (10) şi (13) sunt relativ dificile necesitând cel puţin iteraţii succesive folosind metoda indirectă pornind de la soluţia propusă de ecuaţiile (12). Mai mult, calculul exact din ecuaţiile (10) pentru o tabelă de contingenţă 2X2 a dus la o ecuaţie de gradul II în exprimarea raportului dintre constantele modelului (relaţiile 11), în timp ce calcul exact din ecuaţiile (13) pentru o aceeaşi tabelă de contingenţă 2X2 duce la o ecuaţie de gradul V, care necesită ulterior şi identificarea optimului global:

( ) ( )( ) ( )

( ) 0)xx(xxaa)xxxx(

aa)xx(xx2aa)xx(xx2

aa)xxxx(aa)xx(xx

22,2

21,2

21,2

22,212

42,2

21,1

41,2

22,1

212

21,1

22,1

22,2

21,2

312

21,2

22,2

22,1

21,1

412

21,2

42,1

22,2

41,1

512

22,1

21,1

22,1

21,1

=−+−+

−+−+

+−+−

(14)

Testul t este aplicat pentru eşantioane mici, în care abaterile de la ipoteza de normalitate a

267

Page 268: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

69distribuţiei valorilor în eşantion sunt majore. Testul t a fost introdus în 1908 [ ] pentru a compara două eşantioane provenite din populaţii distribuite normal cu varianţă egală, extins pentru calculul intervalului de încredere al coeficienţilor unei ecuaţii de regresie în 1922 [70] şi a fost generalizat pentru compararea a două eşantioane provenite din populaţii distribuite normal cu varianţă diferită în 1947 [71]. Probabilitatea asociată valorii medii obţinută dintr-un eşantion cu valoarea medie cunoscută a populaţiei din care provine se face din distribuţia Student t cu formula:

⎟⎟⎟⎟⎞

⎜⎜⎜⎜⎛

−μ− 1n,

mmt

2

11 (15)

⎠⎝ −1nProbabilitatea asociată diferenţei a două valori medii obţinute din două eşantioane (Y1 şi Y2) se face similar cu formula:

( )

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎛

−+

+

−+

32

242

31

142

222

2211

22

2

2221

22

2111

)1)Y(n()Y(m

)1)Y(n()Y(m

)Y(n)Y(m)Y(n)Y(m,

1)Y)Y(m)Y(m

)Y(m)Y(mt (16)

⎜⎝ −1 (n1)Y(n

( ) ⎟⎟

⎜⎜

++−

+

−−

)Y(m)Y(m)Y(m)Y(m

n)1n(,

)Y(m)Y(m)Y(m)Y(m1nt

2421

42

22

221

22

2

3

1221

22

2111 , n = n(Y1) = n(Y2)

Probabilităţile asociate valorilor parametrilor ecuaţiei de regresie se obţin din:

⎟⎠

⎜⎝ )Y,Y(SE)b(s i

⎟⎞

⎜⎛

−− |B|m,|B|mbt i

⎩⎨⎧ +

=)2eq(,n

)1eq(,1n|B ∑

=

−=m

1i

2ii )YY()Y,Y(

( ) i,i1T

i XX)b(s −⋅=

; | ; SE (17)

unde valorile varianţei parametrilor B = (bi)i≥ se obţin odată cu parametrii estimaţi folosind formula, în care X este matricea descriptorilor (în formulare matriceală Ŷ=X·B): (18) Analiza de varianţă este o tehnică care constă în separarea varianţei totale a datelor în componente logic asociate cu surse specifice de variaţie. Ipoteza de analiză este că erorile sunt independente, identice şi distribuite normal: ε ~ N(0,σ2). Pentru un set de observaţii grupate pe categorii (Oi,j)1≤i≤m;1≤j≤n unde m este numărul de categorii şi n numărul de observaţii din fiecare categorie, următorul tabel (Tabelul 26) cumulează analiza de varianţă:

Tabelul 26. Analiza de varianţă în observaţii grupate pe categorii Parametru Grade de Suma pătratelor Varianţă Valoarea F

libertate total m·n-1

∑ ∑ ∑∑= = ==

⎟⎟⎠

⎞⎜⎜⎝

⎛−

m

1i

2m

1i

n

1jj,i

n

1jj,i O

n1

m1O=SST 1nm

SSTMST−⋅

=

)n,1m(FMSEMSA

model m-1 (m×n)

2m

1i

n

1jj,i

m

1i

2n

1jj,i O

m1OSSA ⎟⎟

⎞⎜⎜⎝

⎛−⎟⎟

⎞⎜⎜⎝

⎛= ∑∑∑ ∑

= == =

)1m(nSSAMSA

−=

[69] Student (William S. GOSSET). 1908. The Probable Error of a Mean. Biometrika 6(1):1-25. [70] Ronald A. FISHER. 1922. The Goodness of Fit of Regression Formulae and the Distribution of Regression Coefficients. Journal of the Royal Statistical Society 85:597-612. [71] Bernard L. WELCH 1947. The generalization of "student's" problem when several different population variances are involved. Biometrika 34(1):28-35.

268

Page 269: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

eroare m(n-1)

269

∑ ∑ ∑= = =

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛−=

m

1i

2n

1j

n

1jj,ij,i O

n1OSSE )1n(m

SSEMSE−

=

Testul Fisher F poate fi folosit pentru obţinerea semnificaţiei coeficientului de determinare, caz în care valoarea F se obţine cu formula:

)1|B|m()r1(

nr)rez)reg

2

2

−−−=

var(var()r(F = ⎨

⎧ +=

eq(,1n

|B; | (19) )1eq

⎩ (,n )2

2010A2. Construirea librăriilor de compuşi chimici virtuali (chimie combinatorială) Librăriile de compuşi chimici virtuali au fost create (baza de date MDFV depozitează şi structura 3D a compuşilor chimici) şi conţin peste 1000 de compuşi. În figura următoare se dau reprezentările 3D ale modelelor de geometrie moleculară ale derivaţilor de carbochinolină (37 de compuşi). Aceştia pot fi vizualizaţi folosind Intervet Explorer şi având aplicaţia CHIME instalată, pe calea (când aplicaţia CHIME permite răsucirea moleculelor): http://l.academicdirect.ro/Chemistry/SARs/MDFV/?set=cqd&pdb=<nume_moleculă> aşa cum rezultă în continuare:

http://l.academicdirect.ro/Chemistry/SARs/MDFV/?set=cqd&pdb=cqd03

http://l.academicdirect.ro/Chemistry/SARs/MDF

V/?set=cqd&pdb=cqd01

http://l.academicdirect.ro/Chemistry/SARs/MDF

V/?set=cqd&pdb=cqd04

http://l.academicdirect.ro/Chemistry/SARs/MDF

V/?set=cqd&pdb=cqd02

Page 276: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

V/?set=cqd&pdb=cqd36

276

http://l.academicdirect.ro/Chemistry/SARs/MDF

V/?set=cqd&pdb=cqd37http://l.academicdirect.ro/Chemistry/SARs/MDF

V/?set=cqd&pdb=cqd35

http://l.academicdirect.ro/Chemistry/SARs/MDF

2010A3. Interogarea bazelor de date internaţionale (Cambridge SDb, Protein Db, Visual Mol. Dyn., MMDB - Mol. Mod. Db, PubChem Comp., PubChem Subst.), colectare informaţii,

elaborarea modelelor moleculare compuşi virtuali (chimie computaţională) Structurile celor peste 1000 de compuşi au fost obţinute din bazele de date, PubChem şi ChemSpider, au urmat procedurile de optimizare a structurii moleculare cu HyperChem, şi rezultatele au fost depozitate în baza de date MDFV. Modelarea structurii moleculare este condiţia obligatorie pentru o analiză structură-activitate. Realizarea unui model tridimensional (3D) se impune pentru cazurile când descriptorii calculaţi uzează de geometria moleculară, ceea ce este cazul aici. Obţinerea modelului 3D se poate realiza folosind un program de modelare moleculară cum ar fi: HyperChem, Spartan, Gaussian, Molecular Modelling Pro, Mopac. În modelarea structurii PCBs s-a folosit programul de modelare moleculară HyperChem (licenţă v. 8.0/2007). Obţinerea informaţiei de structură 3D presupune parcurgerea unei serii de paşi, care cuprinde definirea unui model de mecanică moleculară (a fost definit AMBER [72]), optimizarea geometriei moleculare până [72] AMBER (acronim pentru Assisted Model Building with Energy Refinement - este o familie de câmpuri de forţă pentru dinamica moleculară a biomoleculelor dezvoltat de succesorii grupului lui Peter Kollman la University of California, San Francisco. http://ambermd.org/

Page 277: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

73la convergenţă folosind un algoritm de optimizare (a fost folosit POLAK-RIBIERE [ ]), definirea unei metode semiempirice de calcul energetic (a fost definită AM1 [74]) şi obţinerea unei serii de parametrii energetici ce caracterizează optimul împreună cu sarcinile electrice parţiale. Rezultatul optimizării şi calcului energetic este salvat în fişierul ce defineşte structura chimică a moleculei al cărui model a fost construit. În cazul HyperChem, fişierele sunt cu extensia *.hin, având o structură cu mai multe linii, câte o linie pentru fiecare atom al moleculei cuprinzând numărul, numele, sarcina parţială, coordonatele spaţiale, numărul de legături pe care le formează şi lista legăturilor împreună cu tipul acestora. Aceste fişiere (pentru fiecare moleculă în parte) reprezintă datele de intrare în analiza de structură realizată. Uzual metodologia de analiză structură-activitate foloseşte structurile moleculare în care atomii de hidrogen sunt neglijaţi (şterşi). O sumă de motive stau la baza acestei alegeri: ÷ activităţile biologice în mod uzual determinate in vivo au ca mediu de analiză mediul apos, în care au

loc procese de disociere (parţială) în care atomii de hidrogen trec sub formă de protoni în soluţie, părăsind locul pe care îl ocupă în structura moleculară, deci o formă depletizată de hidrogen îşi găseşte corespondentul în starea de fapt a experimentului;

÷ atomii de hidrogen pot forma o singură legătură; aceştia sunt singurii şterşi, deci exceptând poziţia geometrică a acestora informaţia poate fi oricând reconstruită; mai mult, fiindcă formează o singură legătură, ei nu contribuie la complexitatea moleculară (nu creează lanţuri şi ramificaţii, sunt doar terminatori de structură) şi din acest punct de vedere nu aduc informaţie care să caracterizeze suplimentar o structură în raport cu informaţia care a fost deja produsă de ceilalţi atomi;

÷ nu în ultimul rând se reduce considerabil volumul de calcule pe o structură fără atomi de hidrogen; considerând doar un alcan cu formula generală CnH2n+2 se observă că volumul de calcule se reduce la aproape o treime (în ipoteza ideală că volumul de calcule e proporţional cu dimensiunea moleculei, ceea ce de cele mai multe ori este nerealist, reducerea fiind şi mai drastică, existând dependenţe pătratice sau chiar exponenţiale în timp de execuţie cu volumul molecular) dacă atomii de hidrogen sunt eliminaţi.

Seria de fişiere (cu extensia `hin`) conţinând modelele structurilor 3D ale moleculelor reprezintă date de intrare în analiza structură-activitate realizată. Figura următoare ilustrează 4 baze de date în care informaţiile colectate au fost depozitate.

[73] Polak-Ribiere este o metodă de optimizare ce foloseşte gradienţi conjugaţi (Polak B, Ribiere G, 1969. Note surla convergence des méthodes de directions conjuguées. Rev. Fr. Imform. Rech. Oper 16:35-43). [74] AM1: Austin Model 1 (dezvoltată de Dewar & alţii) în mod similar cu metoda tradiţională MNDO de aproximare a integralelor de doi electroni dar foloseşte o expresie modificată pentru repulsia nucleu-nucleu (Dewar MJS, Zoebisch EG, Healy EF, Stewart JJP, 1985. AM1: A New General Purpose Quantum Mechanical Molecular Model. J Am Chem Soc 107:3902-3909).

277

Page 278: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

În fiecare dintre aceste baze de date sunt depozitate mai multe seturi de molecule. În tabelul următor se redă conţinutul bazei de date MDFV (având peste 1000 de molecule stocate): Tabela Număr de molecule Spaţiul de stocare al populaţiei de descriptori (<tabela>_mdfv)bbb_data 535 9.6Gb cqd_data 37 727Mb cycl_data 19 399Mb dipep_data 58 1.1Gb drugs166_data 166 3.0Gb estro_data 144 2.6Gb nitro_data 39 767Mb ordnance_data 8 199Mb sulfon18_data 18 381Mb sulfon45_data 45 873Mb taxoids_data 34 673Mb triph_data 25 509Mb

2010A4. Obţinerea (Q)SRR, (Q)SPR, (Q)PAR, şi (Q)AAR (chimie farmaceutică) Eficienţa obţinerii de (Q)SRR, (Q)SPR, (Q)PAR, şi (Q)AAR s-a studiat sistematic folosind o familie de descriptori, un set de compuşi şi o activitate măsurată date şi diferite valori ale parametrilor de evoluţie. O serie de rezultate, toate noi, au fost obţinute din parcursul acestei activităţi (Jäntschi, 2009-GASI; Jäntschi & others, 2009-DF4; Jäntschi & Bălan, 2009-DF7; Jäntschi & others, 2010-MHqR; Jäntschi & others, 2010-REGA; Jäntschi & others, 2010-RESG; Jäntschi & others, 2010-SGAE; Jäntschi & others, 2010-ATGA; Jäntschi & others, 2010-ATGP; Jäntschi & others, 2010-ATGG; Jäntschi & others, 2010-TESG; Jäntschi, 2010-GAEG). Familia de descriptori aleasă pentru evaluarea performanţelor algoritmului genetic realizat este MDF (Molecular Descriptors Family) pornind de la următoarele raţionamente:

75÷ Este în totalitate dezvoltată şi documentată de autor, propusă în 2004 [ ]; ÷ Sistemul de generare, stocare şi interogare este un sistem modern, bazat pe aplicaţii de tip

client-server, la care procesarea paralelă (execuţie simultană pe aceleaşi date) este posibilă şi constituie un avantaj major în accelerarea execuţiei [76];

77÷ Metoda este stabilă, fiind revizuită şi complect documentată în 2005 [ ]; ÷ Prezintă avantajul disponibilităţii online atât în ceea ce priveşte modalitatea de obţinere a

membrilor familiei cât şi a rezultatelor obţinute pe diferite seturi de compuşi [78]; ÷ Metoda a dovedit eficienţă în predicţia proprietăţilor fizico-chimice şi biologice la peste 50 de

seturi de compuşi chimici investigaţi [79]. Setul de molecule ales pentru investigare este seria bifenililor policloruraţi (PCBs) o serie formată din 209 compuşi al cărui studiu este de o deosebită importanţă pentru impactul acestora asupra ecosistemului.

[75] Lorentz JÄNTSCHI. 2004. MDF - A New QSAR/QSPR Molecular Descriptors Family. Leonardo Journal of Sciences 3(4):68-85. [76] Lorentz JÄNTSCHI. 2004. Delphi Client - Server Implementation of Multiple Linear Regression Findings: a QSAR/QSPR Application. Applied Medical Informatics 15(3-4):48-55. [77] Lorentz JÄNTSCHI. 2005. Molecular Descriptors Family on Structure Activity Relationships 1. Review of the Methodology. Leonardo Electronic Journal of Practices and Technologies 4(6):76-98. [78] Lorentz JÄNTSCHI. 2007. ©February. http://l.academicdirect.org/Chemistry/SARs/MDF_SARs/ [79] Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ. 2007. Results from the Use of Molecular Descriptors Family on Structure Property/Activity Relationships, International Journal of Molecular Sciences 8(3):189-203.

278

Page 279: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Cl(n)Cl(n) PCBs: Seria bifenililor policloruraţi

Astfel, o scurtă incursiune în istoria acestor compuşi ne arată că aceştia şi-au găsit utilizări sub formă de lichide dielectrice în transformatoare şi condensatoare, ca agenţi de răcire şi ungere, aditivi stabilizatori la lipiturile de ţevi PVC pentru reţelele electrice, în componente electronice, ca agenţi de diluare ale pesticidelor, uleiuri de răcire pentru scule de tăiere, fluide hidraulice, agenţi de protecţie şi lustruire, adezivi, lacuri (de parchet), vopsele, agenţi de curăţare şi chiar ca alternativă la hârtia de celuloză [80]. Chiar dacă producţia de PCB a fost stopată în 1970 datorită toxicităţii ridicate a celor mai mulţi congeneri ai familiei PCB, efectele acestora sunt încă prezente în mediu, datorită faptului că PCBs sunt poluanţi organici persistenţi (clasificaţi ca atare [81]) care se acumulează (bioacumulare) în animale. Coeficientul de partiţie octanol/apă (Kow) este raportul concentraţiilor unui compus chimic între octanol şi apă aflate în contact la o anumită temperatură. Este un parametru adimensional (fiind un raport de concentraţii) care frecvent se exprimă pe scară logaritmică (logKow sau mai simplu lkow). Această proprietate fizico-chimică este utilizată în multe studii de mediu în determinarea efectului compuşilor chimici în mediu, un exemplu fiind utilizarea acestuia pentru prezicerea magnitudinii de bioacumulare în peşti [82].

83Valorile activităţii măsurate se bazează pe un studiu datat în 1996 [ ] şi care sintetizează rezultatele obţinute şi raportate în literatura de specialitate în studiul PCBs de mai mulţi autori.

84Studiul anterior al lkow cu familia de descriptori moleculari [ ] a arătat că se poate obţine o ecuaţie de regresie liniară multiplă în 4 variabile care să explice activitatea măsurată în procent de 91%, ecuaţie care însă nu respectă toate condiţiile impuse de viabilitate fenotipică menţionate mai sus (variabilitate, abatere de la normalitate, şi determinare rezonabile), în fapt 2 dintre genotipurile acestei ecuaţii eşuând la acest test de viabilitate: HMmjQt şi SMMjQg. Oricum, ecuaţia obţinută în [84] poate constitui un element de referinţă în ceea ce priveşte performanţa algoritmului genetic, fiind redată în continuare: Ŷ = 3.04 - 0.42·IIDDKGg + 0.04·IHDRKEg + 0.07·aHMmjQt - 37.5·aSMMjQg r2(Y,Ŷ) ≈ 0.91, F=554 (24) Măsurătorile experimentale ale coeficientului de partiţie octanol/apă ale unei serii de 206 PCBs (din totalul de 209), exprimate în scară logaritmică (lkow=ln(KOW)) aşa cum au fost ele raportate în [83] sunt redate în tabelul următor.

[80] UNEP Chemicals. 1999. Guidelines for the Identification of PCBs and Materials Containing PCBs. United Nations Environment Programme. http://www.chem.unep.ch/pops/pdf/PCBident/pcbid1.pdf. [81] Office of International Affairs. 2002. Persistent Organic Pollutants: A Global Issue, A Global Response. Environmental Protection Agency. http://www.epa.gov/oia/toxics/pop.pdf. [82] U.S. Geological Survey. 2008. Octanol-Water Partition Coefficient (KOW). U.S. Department of the Interior. http://toxics.usgs.gov/definitions/kow.html (Page Last Modified: Thursday, 13-Mar-2008 13:25:59 EDT). [83] Ronald EISLER, André A. BELISLE. 1996. Planar PCB Hazards to Fish, Wildlife, and Invertebrates: A Synoptic Review. Contaminant Hazard Reviews. Biological Report 31. [84] Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ. 2006. Molecular Descriptors Family on Structure Activity Relationships 6. Octanol-Water Partition Coefficient of Polychlorinated Biphenyls, Leonardo Electronic Journal of Practices and Technologies 5(8):71-86.

279

Page 280: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Coeficienţi de partiţie octanol/apă pentru PCBs Moleculă Structură lkow

280

PCB001 Cl

4.601

PCB002 Cl

4.421

PCB003 Cl

4.401

PCB004

ClCl

5.023

PCB006

ClCl

5.021

PCB007

Cl

Cl

5.15

PCB008 Cl

Cl

5.301

PCB009

Cl

Cl

5.18

PCB010

Cl

Cl

5.311

PCB011 ClCl

5.343

PCB012 Cl

Cl

5.295

PCB014

Cl

Cl

5.404

PCB015 ClCl

5.335

ClClCl

PCB016 5.311

ClCl

ClPCB017 5.761

PCB018

ClCl

Cl

5.551

PCB019

ClCl

Cl

5.481

ClClCl

PCB020 5.577

Cl

Cl

Cl

PCB021 5.517

Cl

ClCl

PCB022 5.421

PCB023

Cl

Cl

Cl

5.577

PCB024

Cl

Cl

Cl

5.671

ClCl

ClPCB025 5.677

ClCl

Cl

5.667PCB026

Page 281: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

PCB027

ClCl

Cl

5.447

PCB028 Cl

Cl

Cl

5.691

PCB029

Cl

Cl

Cl

5.743

PCB030

Cl

Cl

Cl

5.504

PCB031 Cl

Cl

Cl

5.677

PCB032 Cl

Cl

Cl

5.751

PCB033 Cl

Cl

Cl

5.572

PCB034

Cl

Cl

Cl

5.667

PCB035 Cl

Cl

Cl

5.827

PCB036

Cl

Cl

Cl

4.151

PCB037 ClCl

Cl

4.941

PCB038

Cl

Cl

Cl

5.767

PCB039 Cl

Cl

Cl

5.897

ClClClCl

PCB040 5.561

ClCl

Cl

Cl

PCB041 6.111

Cl

ClClCl

PCB042 5.767

PCB043

ClCl

Cl

Cl

5.757

PCB044

Cl

ClClCl

5.811

PCB045

ClCl

Cl

Cl

5.537

PCB046

Cl

ClClCl

5.537

Cl

ClCl

ClPCB047 6.291

ClCl

Cl

ClPCB048 5.787

281

Page 282: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

PCB049

Cl

ClCl

Cl

6.221

PCB050

ClCl

Cl

Cl

5.637

PCB051

Cl

ClCl

Cl

5.637

PCB052

Cl

ClCl

Cl

6.091

PCB053

Cl

ClCl

Cl

5.627

PCB054

Cl

ClCl

Cl

5.904

PCB055 ClCl

Cl

Cl

6.117

PCB056 Cl

Cl

ClCl

6.117

PCB057

ClCl

Cl

Cl

6.177

PCB058

Cl

Cl

ClCl

6.177

PCB059

ClCl

Cl

Cl

5.957

PCB060 ClCl

Cl

Cl

5.452

PCB061

Cl

Cl

Cl

Cl

5.943

PCB062

Cl

Cl

Cl

Cl

5.897

PCB063 Cl

Cl

Cl

Cl

6.177

PCB064 Cl

Cl

Cl

Cl

5.957

PCB065

Cl

ClCl

Cl

5.867

Cl

Cl

Cl

ClPCB066 5.452

PCB067

ClCl

Cl

Cl

6.207

PCB068

Cl

Cl

Cl

Cl

6.267

PCB069

ClCl

Cl

Cl

6.047

Cl

Cl

Cl

Cl

6.231PCB070

282

Page 283: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

PCB071

Cl

Cl

Cl

Cl

5.987

PCB072

Cl

Cl

Cl

Cl

6.267

PCB073

Cl

Cl

Cl

Cl

6.047

PCB074 Cl

Cl

Cl

Cl 6.671

PCB075 Cl

Cl

Cl

Cl

6.057

PCB076

Cl

Cl

Cl

Cl

6.137

PCB077

Cl

ClCl

Cl

6.523

PCB078

Cl

Cl

Cl

Cl

6.357

PCB079

Cl

Cl

Cl

Cl

6.427

PCB080

Cl

ClCl

Cl

6.583

PCB081 Cl

Cl

Cl

Cl

6.367

ClClCl

Cl

Cl

PCB082 6.142

PCB083

ClClCl

Cl

Cl

6.267

PCB084

ClClCl

Cl

Cl

6.041

Cl

ClCl

Cl

Cl

PCB085 6.611

PCB086

ClCl

Cl

Cl

Cl

6.204

PCB087

Cl

ClCl

Cl

Cl

6.371

PCB088

ClCl

Cl

Cl

Cl

7.516

PCB089

Cl

ClCl

Cl

Cl

6.077

Cl

ClCl

Cl

Cl

PCB090 6.367

283

Page 284: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

PCB091 Cl

ClCl

Cl

Cl

6.137

PCB092

Cl

ClCl

Cl

Cl

6.357

PCB093

ClCl

ClCl

Cl

6.047

PCB094

Cl

ClCl

Cl

Cl

6.137

PCB095

Cl

ClCl

Cl

Cl

6.137

PCB096

Cl

ClCl

Cl

Cl

5.717

PCB097

ClClCl

Cl

Cl

6.671

PCB098

ClClCl

Cl

Cl

6.137

PCB099 Cl

ClCl

Cl

Cl

7.211

PCB100 Cl

ClCl

Cl

Cl

6.237

PCB101

Cl

ClCl

Cl

Cl

7.071

PCB102

Cl

ClCl

Cl

Cl

6.167

PCB103

Cl

ClCl

Cl

Cl

6.227

PCB104

Cl

ClCl

Cl

Cl

5.817

Cl

Cl

Cl

Cl

Cl

PCB105 6.657

PCB106

ClCl

Cl

Cl

Cl

6.647

PCB107

Cl

Cl

Cl

Cl

Cl

6.717

PCB108

Cl

Cl

Cl

Cl

Cl

6.717

ClCl

Cl

Cl

Cl

6.487PCB109

284

Page 285: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

PCB110

Cl

Cl

Cl

Cl

Cl

6.532

PCB111

Cl

Cl

Cl

Cl

Cl

6.767

PCB112

ClCl

ClCl

Cl

6.457

PCB113

Cl

Cl

Cl

Cl

Cl

6.547

PCB114 Cl

Cl

Cl

Cl

Cl

6.657

PCB115 Cl

Cl

Cl

Cl

Cl

6.497

PCB116

Cl

ClCl

Cl

Cl

6.304

PCB117 Cl

Cl

ClCl

Cl

6.467

PCB118

Cl

Cl

Cl

Cl

Cl

7.121

PCB119

Cl

Cl

Cl

Cl

Cl

6.587

PCB120

Cl

Cl

Cl

Cl

Cl

6.797

PCB121

Cl

Cl

Cl

Cl

Cl

6.647

PCB122

ClCl

Cl

Cl

Cl

6.647

PCB123 Cl

Cl

Cl

Cl

Cl

6.747

PCB124

Cl

Cl

Cl

Cl

Cl

6.737

PCB125

Cl

Cl

Cl

Cl

Cl

6.517

PCB126

Cl

Cl

Cl

Cl

Cl

6.897

PCB127

Cl

ClCl

Cl

Cl

6.957

Cl

Cl

ClCl

Cl

Cl

PCB128 6.961

ClClCl

Cl

Cl

Cl

PCB129 7.321

285

Page 286: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

PCB130

Cl

Cl

ClCl

Cl

Cl

7.391

PCB131

ClClCl

Cl

Cl

Cl

6.587

PCB132

Cl

Cl

ClCl

Cl

Cl

6.587

PCB133

Cl

Cl

ClCl

Cl

Cl

6.867

PCB134

ClClCl

ClCl

Cl

7.304

PCB135

Cl

Cl

ClCl

Cl

Cl

7.151

PCB136

Cl

Cl

ClCl

Cl

Cl

6.511

PCB138 Cl

ClCl

Cl

Cl

Cl

7.441

PCB139 Cl

ClCl

Cl

Cl

Cl

6.677

PCB140 Cl

Cl

ClCl

Cl

Cl

6.677

PCB141

Cl

ClCl

Cl

Cl

Cl

7.592

PCB142

ClCl

ClCl

Cl

Cl

6.517

PCB143

Cl

ClCl

Cl

Cl

Cl

6.607

PCB144

Cl

ClCl

Cl

Cl

Cl

6.677

PCB145

Cl

ClCl

Cl

Cl

Cl

6.257

PCB146 Cl

Cl

ClCl

Cl

Cl

6.897

PCB147 Cl

ClCl

ClCl

Cl

6.647

PCB148 Cl

Cl

ClCl

Cl

Cl

6.737

PCB149 Cl

Cl

ClCl

Cl

Cl

7.281

Cl

Cl

ClCl

Cl

Cl

6.327PCB150

286

Page 287: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

PCB151

Cl

ClCl

ClCl

Cl

6.647

PCB152

Cl

ClCl

ClCl

Cl

6.227

PCB153 Cl

Cl

ClCl

Cl

Cl

7.751

PCB154 Cl

Cl

ClCl

Cl

Cl

6.767

PCB155 Cl

Cl

ClCl

Cl

Cl

7.123

PCB156

Cl

Cl

Cl

Cl

Cl

Cl

7.187

PCB157

Cl

Cl

Cl

Cl

Cl

Cl

7.187

PCB158

Cl

Cl

Cl

Cl

Cl

Cl

7.027

PCB159

Cl

Cl

Cl

Cl

Cl

Cl

7.247

PCB160

ClCl

ClCl

Cl

Cl

6.937

PCB161

Cl

Cl

Cl

Cl

Cl

Cl

7.087

PCB162

Cl

Cl

Cl

Cl

Cl

Cl

7.247

PCB163

Cl

Cl

Cl

ClCl

Cl

6.997

PCB164

Cl

Cl

Cl

Cl

Cl

Cl

7.027

PCB165

Cl

Cl

Cl

ClCl

Cl

7.057

PCB166 Cl

Cl

ClCl

Cl

Cl

6.937

PCB167

Cl

Cl

Cl

Cl

Cl

Cl

7.277

PCB168

Cl

Cl

Cl

Cl

Cl

Cl

7.117

PCB169

Cl

Cl

ClCl

Cl

Cl

7.427

Cl

Cl

ClCl

Cl

Cl

Cl

7.277PCB170

287

Page 288: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

PCB171

Cl

Cl

ClCl

Cl

Cl

Cl

6.704

PCB172

Cl

Cl

ClCl

Cl

Cl

Cl

7.337

PCB173

ClClCl

ClCl

Cl

Cl

7.027

PCB174

Cl

Cl

ClCl

Cl

Cl

Cl

7.117

PCB175

Cl

Cl

ClCl

Cl

Cl

Cl

7.177

PCB176

Cl

Cl

ClCl

Cl

Cl

Cl

6.767

PCB177

Cl

Cl

ClCl

ClCl

Cl

7.087

PCB178

Cl

Cl

ClCl

ClCl

Cl

7.147

PCB179

Cl

Cl

ClCl

ClCl

Cl

6.737

PCB180 Cl

Cl

ClCl

Cl

Cl

Cl

7.367

PCB181 Cl

ClCl

ClCl

Cl

Cl

7.117

PCB182 Cl

Cl

ClCl

Cl

Cl

Cl

7.207

PCB183 Cl

Cl

ClCl

Cl

Cl

Cl

7.207

PCB184 Cl

Cl

ClCl

Cl

Cl

Cl

6.857

PCB185

Cl

ClCl

ClCl

Cl

Cl

7.933

PCB186

Cl

ClCl

ClCl

Cl

Cl

6.697

PCB187 Cl

Cl

ClCl

ClCl

Cl

7.177

PCB188 Cl

Cl

ClCl

ClCl

Cl

6.827

PCB189

Cl

Cl

Cl

Cl

Cl

Cl

Cl

7.717

Cl

Cl

Cl

ClCl

Cl

Cl

PCB190 7.467

288

Page 289: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

PCB191

Cl

Cl

Cl

Cl

Cl

Cl

Cl

7.557

PCB192

Cl

Cl

Cl

ClCl

Cl

Cl

7.527

PCB193

Cl

Cl

Cl

Cl

ClCl

Cl

7.527

PCB194

Cl

Cl

Cl

ClCl

Cl

Cl

Cl

8.683

PCB195

Cl

Cl

ClCl

ClCl

Cl

Cl

7.567

PCB196

Cl

Cl

Cl

ClCl

Cl

Cl

Cl

7.657

PCB197

Cl

Cl

Cl

ClCl

Cl

Cl

Cl

7.307

PCB198

Cl

Cl

ClCl

ClCl

Cl

Cl

7.627

PCB199

Cl

Cl

ClCl

ClCl

Cl

Cl

7.207

PCB200

Cl

ClCl

ClCl

Cl

Cl

Cl

7.277

PCB201

Cl

Cl

Cl

ClCl

ClCl

Cl

7.627

PCB202

Cl

ClCl

ClCl

ClCl

Cl

8.423

PCB203 Cl

Cl

ClCl

ClCl

Cl

Cl

7.657

PCB204 Cl

Cl

ClCl

ClCl

Cl

Cl

7.307

PCB205

Cl

Cl

Cl

Cl

ClCl

Cl

Cl

8.007

PCB206

Cl

Cl

Cl

ClCl

ClCl

Cl

Cl

9.143

PCB207

Cl

Cl

Cl

ClCl

ClCl

Cl

Cl

7.747

PCB208

Cl

ClCl

ClCl

ClCl

Cl

Cl

8.164

Cl

Cl

ClCl

ClCl

ClCl

Cl

Cl

9.603PCB209

289

Page 290: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

290

Pe lângă alegerea familiei de descriptori (MDF), a setului de molecule (206 PCBs), şi a proprietăţii măsurate (coeficientul de partiţie octanol/apă în unităţi logaritmice lkow) execuţia programului evolutiv a impus alegerea unei serii de parametrii intrinseci de funcţionare a algoritmului genetic, aşa cum a fost expus până în acest moment. Fişierul de configurare a execuţiei algoritmului genetic excluzând opţiunile de afişare numără nu mai puţin de 30 de parametrii dintre care parametrii ordinali un număr de 19 şi dintre care parametrii cu valori dintr-o listă de valori impuse (finită şi definită) un număr de 12. Un simplu calcul matematic efectuat asupra parametrilor din urmă, cu valori dintr-o listă finită şi definită, dă numărul total posibil de combinaţii de investigat de 134784, fără a socoti că pentru fiecare dintre aceste combinaţii, există practic o infinitate de posibilităţi de configurare pentru parametrii rămaşi, în număr de 18. Argumentele de mai sus pot părea descurajatoare în ceea ce priveşte posibilităţile de investigare sistematică a rezultatelor obţinute prin execuţia algoritmului genetic. Trebuie însă văzută partea favorabilă a situaţiei, şi anume că se oferă practic o diversitate foarte mare de stări algoritmului genetic prin care se asigură variabilitatea acestuia, care este benefică atâta timp cât algoritmul genetic este menit să investigheze activităţi biologice şi proprietăţi fizico-chimice şi ele cu o variabilitate foarte mare, atât sub aspectul provenienţei măsurătorilor (din observaţii umane, instrumentale), scări absolute şi relative de măsură, variabile discrete şi continue observate.

Opţiuni de configurare pentru algoritmul genetic realizat Parametru Tip (şi valori pentru listă) a_v_ADAPT_Variance Real ajb_ADAPT_JarqueBera Real a_c_ADAPT_Correlation Real sn0_SAMPLE_Size Întreg (natural) rn0_REGRESSION_Multiple Întreg (natural) e1n_GENERATIONS_max Întreg (natural) g_r_GENERATIONS_first_rich Listă: {Yes, No} cn0_CROSSOVER_Pairs Întreg (natural) m_m_MUTATION_Genes Întreg (natural) mpp_MUTATION_Parent_probability Real mcp_MUTATION_Child_probability Real b_p_SELECTION_parameter Listă: {r2, se, Mt, Hr} b_o_SELECTION_objective Listă: {min, max} sfs_FITNESS_strategy Listă: {proportional, deterministic, tournament} sfn_FITNESS_normalized Listă: {Yes, No} sfr_FITNESS_ranks Listă: {Yes, No} sfa_FITNESS_accuracy Întreg (natural) sff_FITTEST_function Listă: {nalive, r2_min, se_min, Mt_min, Hr_min, r2_max,

se_max, Mt_max, Hr_max, r2_avg, se_avg, Mt_avg, Hr_avg} sfo_FITTEST_objective {min, max} fr2_FITTEST_r2_p Real fse_FITTEST_se_p Real fMt_FITTEST_Mt_p Real fHr_FITTEST_Hr_p Real v_p_SURVIVAL_phenotyping_p Real v_g_SURVIVAL__genotyping_p Real vfs_SURVIVAL_strategy Listă: {proportional, deterministic, tournament} vfr_SURVIVAL_ranks Listă: {Yes, No} e0n_RUNS_number Întreg (natural) b_k_RUNS_kepp_best_in_sample Listă: {Yes, No} b_f_RUNS_get_best_from_file Listă: {Yes, No} + listă genotipuri în fişier c_galg.txt

Page 291: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

O altă remarcă se poate face cu privire la valorile parametrilor de configurare. Astfel, nu toţi parametrii pot lua orice valori (cum e cazul pentru sn0_SAMPLE_Size care în mod obligatoriu trebuie să fie cel puţin cât rn0_REGRESSION_Multiple în timp ce cn0_CROSSOVER_Pairs nu poate depăşi jumătate din sn0_SAMPLE_Size) în timp ce definirea valorilor altor parametrii este restricţionată la un domeniu de valori pentru simplul fapt că efectul definirii unei valori din afara domeniului este fie lipsită de sens (de exemplu definirea unei valori întregi negative pentru e0n_RUNS_number sau pentru e1n_GENERATIONS_max face ca algoritmul genetic să nu mai fie executat), fie nu produce nici un fel de efecte diferite de o anumită valoare din domeniu (atribuirea unei valori negative pentru a_c_ADAPT_Correlation este similară cu atribuirea valorii 0 şi semnificând că nu există valoare minimă impusă pentru coeficientul de determinare între fenotipurile ce compun o ecuaţie de regresie şi proprietatea măsurată), fie nu poate duce la atingerea obiectivului (atribuirea unei valori mai mari ca unitatea pentru a_c_ADAPT_Correlation este similară cu atribuirea valorii 1 şi are ca efect impunerea determinării de 100%, ceea ce pe cale de consecinţă face lipsită de sens căutarea de regresii multiple atâta timp cât ar exista un descriptor molecular capabil să explice singur în proporţie de 100% proprietatea măsurată), în timp valorile de configurare a unor parametrii impune valorile altora (de exemplu b_p_SELECTION_parameter=r2 impune b_o_SELECTION_objective=max, pentru simplul fapt că obţinerea unei ecuaţii de regresie cu cel mai mic coeficient de determinare nu poate constitui un obiectiv de interes, tot aşa cum b_p_SELECTION_parameter=se impune b_o_SELECTION_objective=min), în timp ce limitele valorilor unor parametrii sunt impuse doar de soluţia de memorare aleasă la implementare (de exemplu e1n_GENERATIONS_max admite ca valoare maximă 2147483647 impusă de tipul de dată LongInt în care este stocată valoarea, dar care poate fi însă modificat fără dificultate la tip de dată Int64 cu limita superioară de 9223372036854775807. În evaluarea algoritmului genetic s-a considerat de importanţă teoretică şi practică compararea performanţelor obţinute pentru doi parametrii definitorii ai procesului de evoluţie şi anume modalitatea de selecţie a indivizilor pentru încrucişare şi selecţie şi modalitatea de selecţie a indivizilor pentru înlocuire de către descendenţi (supravieţuire). Aceşti doi parametrii, metoda de selecţie (parametrul sfs_FITNESS_strategy) şi metoda de supravieţuire (parametrul vfs_SURVIVAL_strategy) au constituit obiectul investigaţiei. Tabelul de mai jos redă schema de execuţie (designul experimentului realizat):

Modalităţi de selecţie şi supravieţuire: design experimental Supravieţuire Proporţional (P) Deterministic (D) Turnir (T)

Selecţie Proporţional (P) P:P (1) P:D (2) P:T (3) Deterministic (D) D:P (4) D:D (5) D:T (6) Turnir (T) T:P (7) T:D (8) T:T (9) Ceilalţi parametrii ce configurează execuţia algoritmului genetic au primit valori care au fost păstrate pe toată durata experimentului aceleaşi. Valorile acestora (care au fost date ţinând seama de considerentele menţionate mai sus) sunt redate mai jos.

Valori definite şi păstrate pe toată durata experimentului pentru parametrii rămaşi Parametru Valoare a_v_ADAPT_Variance 0.1 ajb_ADAPT_JarqueBera 0.1 a_c_ADAPT_Correlation 0.1 sn0_SAMPLE_Size 12 rn0_REGRESSION_Multiple 4 e1n_GENERATIONS_max 20000 g_r_GENERATIONS_first_rich Yes cn0_CROSSOVER_Pairs 2 m_m_MUTATION_Genes 2 mpp_MUTATION_Parent_probability 5% mcp_MUTATION_Child_probability 5%

291

Page 292: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

b_p_SELECTION_parameter r2 b_o_SELECTION_objective max sfn_FITNESS_normalized No sfr_FITNESS_ranks No sfa_FITNESS_accuracy 10000 sff_FITTEST_function r2_min sfo_FITTEST_objective max fr2_FITTEST_r2_p 1.0 fse_FITTEST_se_p 1.0 fMt_FITTEST_Mt_p 1.0 fHr_FITTEST_Hr_p 1.0 v_p_SURVIVAL_phenotyping_p 1.0 v_g_SURVIVAL__genotyping_p 1.0 vfr_SURVIVAL_ranks No e0n_RUNS_number 46 b_k_RUNS_kepp_best_in_sample Yes b_f_RUNS_get_best_from_file No

Performanţa algoritmului genetic a fost evaluată prin prisma rezultatelor colectate în fişierele de ieşire. Configuraţia parametrilor de ieşire este redată mai jos.

Configuraţii de afişare în experiment Parametru Valoare d_d_SHOW_descriptive_XX Yes (XX = m0, m1, m2, m3, m4, mx, my, v0, g1, g2, jb, r1, r2) d_f_SHOW_fitness_YY Yes (YY = nalive, r2_min, se_min, Mt_min, Hr_min, r2_max, se_max, Mt_max, Hr_max, r2_avg, se_avg, Mt_avg, Hr_avg) d_c_SHOW_configuration Yes d_m_SHOW_mols No d_r_SHOW_regressions No d_p_SHOW_phenotypes No d_s_SHOW_genotypes No d_t_SHOW_fittests No d_g_SHOW_generations No d_e_SHOW_evolutions Yes

Execuţia programului evolutiv s-a făcut pe calculatoare din generaţia P6 (Dual P5) în perioada Ianuarie - Februarie 2009 şi rezultatele au fost salvate de program în fişierele de date şi sunt disponibile pentru descărcare de la adresa:

http://l.academicdirec.org/Horticulture/GAs/MLR_MDF_selection_vs_survival/ Fişiere rezultat (configurare şi evoluţie) după designul de mai sus

Selecţie Supravieţuire Configurare Evoluţie Proporţional Proporţional PCB_4044_cfg.txt PCB_4044_evo.txt Proporţional Deterministic PCB_2441_cfg.txt PCB_2441_evo.txt Proporţional Turnir PCB_9878_cfg.txt PCB_9878_cfg.txt Deterministic Proporţional PCB_5108_cfg.txt PCB_5108_evo.txt Deterministic Deterministic PCB_6369_cfg.txt PCB_6369_evo.txt Deterministic Turnir PCB_6690_cfg.txt PCB_6690_evo.txt Turnir Proporţional PCB_5828_cfg.txt PCB_5828_evo.txt Turnir Deterministic PCB_4872_cfg.txt PCB_4872_evo.txt Turnir Turnir PCB_1758_cfg.txt PCB_1758_evo.txt

Frecvenţa de apariţie a genotipurilor în eşantion de-a lungul evoluţiilor permite aprecieri cu privire la capacitatea de adaptare a acestora, şi în acelaşi timp o măsură a variabilităţii materialului genetic

292

Page 293: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

al eşantionului pe care o induc metoda de selecţie şi metoda de supravieţuire. Următorul tabel prezintă această informaţie.

Cele mai frecvente genotipuri prezente în generaţii care au produs evoluţii în 46 de execuţii independente ale programului evolutiv

Selecţie Supravieţuire Genotipuri Număr Apariţii Participanţi în regresiiTop 23 apariţii

mMdlHgMDMKHt

nDRLHtiPDKCg

ADDJCgmDdjGg

bDDDGgbDDJCgsDdLHg

BDDDGgbDMLEgbDMLGg

MMDPMt

13 1 1 1 1 1 1 1 1 1 1 1 1 1

406 46 40 40 39 35 31 28 27 25 24 24 24 23

389 43 39 39 39 35 30 19 27 25 22 24 24 23

Proporţional Proporţional

Total 6760 16788 15902 Top 23 apariţii

iPMDHgbPRjCg

IPMDEgmMdoHtIPRKCg

MDRLHtMMdlHg

MDmWHgBPRjCgNDRlHtiPMDCgbmrVCt

IPMDCg

13 1 1 1 1 1 1 1 1 1 1 1 1 1

378 39 38 37 30 29 29 29 26 26 25 24 23 23

371 37 38 36 29 29 29 29 26 25 25 23 23 22

Deterministic

Total 8070 18240 17797 Turnir Top 23 apariţii 6 214 207

MMdlHg 1 47 47 mMdlHg 1 46 43 sPDLEg 1 38 38

AMdwGg 1 29 29 IPMDHg 1 29 27 mMdqGt 1 25 23

Total 7466 16599 15739 Deterministic Proporţional Top 23 apariţii 3 89 72

MDRLHt 1 31 31 ImrWCg 1 30 19 ImrWHg 1 28 22

Total 3922 10764 9742 Deterministic Deterministic Top 23 apariţii 32 893 893

gmdKHg 1 48 48 iPDDGg 1 43 43 bmRkHg 1 37 37 gMdEQg 1 34 34 sDRDGg 1 34 34 HDmLQt 1 33 33

MDMKHt 1 33 33 mMdLMt 1 30 30

MMmwCg 1 29 29 bmdFEt 1 29 29

hDDJCg 1 27 27

293

Page 294: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

27 27 1 hDDpCg27 27 1 hPmEMg27 27 1 sPmJMt26 26 1 NmdlQg26 26 1 SMMFEg26 26 1 bMddEg26 26 1 sPRDHt25 25 1 BDrsGt25 25 1 hDMKEg25 25 1 smdoQg24 24 1 AMMpHt24 24 1 GPmVCg24 24 1 SMMjEt23 23 1 BPMkHg23 23 1 GmmlQt23 23 1 bPmjMg23 23 1 hDDDHg23 23 1 hMdWGt23 23 1 hPmSEg23 23 1 hmddCt23 23 1 imMtGg

Total 4385 13560 13316 Deterministic Turnir Top 23 apariţii 5 152 152

NDRkHt 1 37 37 sDDEMg 1 30 30 hMrkGg 1 29 29

MDDKHt 1 28 28 sMrLCg 1 28 28

Total 4965 12504 11572 Turnir Proporţional Top 23 apariţii 13 419 405

sPDJEg 1 64 64 mMdlHg 1 44 42 MMdlHg 1 40 40 MDdjEg 1 32 30

sDMDMg 1 29 28 mMdqGt 1 29 23 sDDKCg 1 28 28 sPDLEg 1 28 28

aDDKEg 1 27 27 sDRKCg 1 26 26 sPRKGg 1 25 22

sDMLGg 1 24 24 MDRLHt 1 23 23

Total 6537 16368 15317 Deterministic Top 23 apariţii 21 714 687

MDRLHt 1 88 87 IPMJCg 1 46 45

IPMDEg 1 42 38 sDRJEg 1 41 39

iPMKCg 1 36 36 iPDJCg 1 35 33

sPDLEg 1 34 34 mDRlHt 1 33 33 nDRLHt 1 32 31

sDMLCg 1 31 29 iPDDGg 1 31 28 iPDDEg 1 29 27

mDRkHt 1 28 28 IPRKCg 1 27 26 IPDJCg 1 27 25

iPDKCg 1 27 25

294

Page 295: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

bPmkEt 1 26 26 sDDJEg 1 26 26

MDDKHt 1 26 22 IPDKCg 1 25 25 sDDLHg 1 24 24

Total 7964 17700 17331 Turnir Top 23 apariţii 8 217 213

IDRwHt 1 34 34 mMdlHg 1 28 28 nMRSEt 1 28 27 mPRDHt 1 27 26 MDRLHt 1 26 26 smmLCt 1 26 24

AMDEQt 1 24 24 IDRwGt 1 24 24

Total 7529 17100 16151 Pentru a verifica ipoteza independenţei între metodele de selecţie şi supravieţuire în ceea ce priveşte numărul de genotipuri se foloseşte testul χ2 aplicat la o tabelă de contingenţă de 3X3 pentru fiecare serie de valori numerice din tabelul de mai sus. Rezultatele sunt redate în continuare. Sunt independente metoda de selecţie faţă de metoda de supravieţuire în ceea ce priveşte numărul

de genotipuri distincte din cultivar în generaţiile ce produc evoluţie? - NU χ2 P T D Σ P 6760 (6665) 7466 (7726) 8070 (7904) 22296T 6537 (6586) 7529 (7634) 7964 (7810) 22030D 3922 (3968) 4965 (4599) 4385 (4705) 13272Σ 17219 19960 20419 57598

704705320

4599366

396846

7810154

7634105

658649

7904166

7726260

666595)4(X

2222222222 ≅++++++++= ; 14102p −⋅≅

Sunt independente metoda de selecţie faţă de metoda de supravieţuire în ceea ce priveşte numărul total de genotipuri din cultivar în generaţiile ce produc evoluţie? - NU

χ2 P T D Σ P 16788 (16240) 16599 (17084) 18240 (18303) 51627 T 16368 (16095) 17100 (16932) 17700 (18140) 51168 D 10764 (11585) 12504 (12187) 13560 (13056) 36828 Σ 43920 46203 49500 139623

135)4(X2 ≅ 28103p −⋅≅;

Sunt independente metoda de selecţie faţă de metoda de supravieţuire în ceea ce priveşte genotipurile participante la regresiile ce produc evoluţie? - NU

χ2 P T D Σ P 15902 (15241) 15739 (16172) 17797 (18025) 49438 T 15317 (15044) 16151 (15963) 17331 (17792) 48799 D 9742 (10676) 11572 (11328) 13316 (12626) 34630 Σ 40961 43462 48444 132867

187)4(X2 ≅ 39102p −⋅≅;

Sunt independente metoda de selecţie faţă de metoda de supravieţuire în ceea ce priveşte numărul de genotipuri distincte din Top 23 în generaţiile ce produc evoluţie? - NU

χ2 P T D Σ P 13 (8) 6 (5) 13 (19) 32T 13 (11) 8 (7) 21 (24) 42D 3 (10) 5 (7) 32 (23) 40Σ 29 19 66 114

6.14)4(X2 ≅ 3106p −⋅≅;

295

Page 296: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Sunt independente metoda de selecţie faţă de metoda de supravieţuire în ceea ce priveşte numărul total de genotipuri din Top 23 în generaţiile ce produc evoluţie? - NU

χ2 P T D Σ P 406 (262) 214 (167) 378 (569) 998T 419 (354) 217 (226) 714 (770) 1350D 89 (298) 152 (190) 893 (646) 1134Σ 914 583 1985 3482

420)4(X2 ≅ 89101p −⋅≅;

Sunt independente metoda de selecţie faţă de metoda de supravieţuire în ceea ce priveşte genotipurile din Top 23 participante la regresiile ce produc evoluţie? - NU

χ2 P T D Σ P 389 (247) 207 (163) 371 (557) 967T 405 (333) 213 (220) 687 (751) 1305D 72 (285) 152 (189) 893 (643) 1117Σ 866 572 1951 3389

440)4(X2 ≅ 94106p −⋅≅; Se remarcă că confidenţa în dependenţa dintre metoda de selecţie şi metoda de supravieţuire creşte în ordinea Număr de genotipuri distincte; Număr total de genotipuri; Număr de genotipuri participante la regresii în acelaşi timp cu faptul că numărul de observaţii nu creşte în aceeaşi ordine. În baza dependenţei remarcate între metoda de selecţie şi cea de supravieţuire pentru toţi parametrii ce caracterizează numărul de genotipuri pe parcursul evoluţiei, se impune o caracterizare a acestei dependenţe. La întrebarea "Există legătură între cele 3 serii de numere de genotipuri?" se răspunde calculând coeficientul de corelaţie (tabelul de mai jos). Există legătură între numărul de genotipuri distincte (NGD), numărul total de genotipuri (NTG)

şi numărul de genotipuri participante la regresii (NGR)? - DA Serii Coeficient de determinare Valoare F; probabilitate de a greşi

924; 10-15 NGD vs. NTG 0.982 (y=ax) 951; 10-15 NGD vs. NGR 0.982 (y=ax)

16110; 10-25 NTG vs. NGR 0.999 (y=ax) Urmează obţinerea de evidenţe că anumite asocieri între metoda de selecţie şi metoda de supravieţuire sunt semnificativ diferite decât celelalte aşa cum rezultă şi de mai jos:

P T D

Ceea ce se observă în figura de mai sus, poate fi pus în evidenţă statistic. Astfel, tabelele de mai jos redau această analiză. Analiza se bazează pe calculul intervalului de încredere pentru medie şi deviaţie standard în ipoteza că distribuţia de eşantionare induce o distribuţie normală a acestor statistici (ale eşantionului) în jurul parametrului statistic (al populaţiei) asociat. Aşa cum s-a arătat Teorema Limită Centrală [67] ne asigură că se pot folosi în această analiză statisticile valoare medie (m) şi abatere standard (s), pe baza cărora se poate exprima intervalul de încredere al acestora din distribuţia Student t folosind relaţiile [85]: Ns)1N,2/(tm)m,1(CI −α±=α− (24)

⎟⎟⎠

⎞⎜⎜⎝

−α−χ−

−αχ−

=α−)1n,2/)1((

1ns,)1n,2/(

1ns)s,1(CI 22 (25)

[85] Ronald A. FISHER. 1956. Statistical Methods and Scientific Inference. Edinburgh: Oliver & Boyd. p. 178, pp. 32.

P 13 6 138 21T 13

3253D

296

Page 297: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

86Abateri semnificative statistic (α=5%) în numărul de genotipuri [ ] Genotipuri Observabilă Medie CI(95%,Medie) În afara intervalului*

Top 23 Num 12.7 6 20Top 23 Apar 387 182 592 (T,D), (D,D) > CIU; (D,P), (D,T) < CIL Top 23 Part 377 173 580Total Num 6400 5183 7617 (D,·) < CIL; (P,D), (T,D) > CIU Total Apar 15514 13522 17505 (D,P), (D,T) < CIL; (P,D), (T,D) > CIU Total Part 14763 12697 16829 (D,P), (D,T) < CIL; (P,D), (T,D) > CIU

* (Sel,Srv) - Observaţia făcută folosind metoda de selecţie Sel şi de supravieţuire Srv (Sel,·) - Observaţiile făcute folosind metoda de selecţie Sel şi orice metodă de supravieţuire (·,Srv) - Observaţiile făcute folosind metoda de supravieţuire Srv şi orice metodă de selecţie CIL - Limita inferioară a intervalului de încredere de 95% CIU - Limita superioară a intervalului de încredere de 95% Rezultatele din tabel arată că: ÷ Selecţia deterministă (D) face ca:

o Indiferent de metoda de supravieţuire numărul total de genotipuri distincte să scadă semnificativ statistic;

o Folosind supravieţuirea turnir (T) sau proporţională (P) se remarcă scădere semnificativă statistic la toţi parametrii observaţi (Top 23 şi Total; Distincţi, Apariţii şi Participări în regresii) în timp ce folosind supravieţuirea deterministă (D) se remarcă creştere semnificativ statistică numai în ceea ce priveşte cele mai frecvente genotipuri pentru toţi parametrii (Distincţi, Apariţii şi Participări în regresii);

÷ Supravieţuirea deterministă (D) face ca: o Folosind supravieţuirea turnir (T) sau proporţională (P) să mărească semnificativ numărul

total de genotipuri pentru toţi parametrii (Distincţi, Apariţii şi Participări în regresii). Diferenţe semnificative statistic (α=5%) în numărul de genotipuri (medii, abateri)

Geno Obs Grup: Medie; Deviaţie CI(95%,Medie) Dev CI(95%,Dev) În afara intervaluluiTop23 Num (P,·): 10.7; 4.0 6 20 9.10 6 17 Dev(P,·) Top23 Apar (P,·): 333; 104 182 592 266 180 510 Dev(P,·) Top23 Part (P,·): 322; 100 173 580 265 179 508 Dev(P,·) Total Num (P,·): 7432; 656 5183 7617 1583 1069 3033 Dev(P,·) Total Apar (P,·): 17209; 898 13522 17505 2591 1750 4963 Dev(P,·) Total Part (P,·): 16479; 1144 12697 16829 2687 1815 5148 Dev(P,·) Top23 Num (T,·): 14.0; 6.6 6 20 9.10 6 17 - Top23 Apar (T,·): 450; 250 182 592 266 180 510 - Top23 Part (T,·): 435; 238 173 580 265 179 508 - Total Num (T,·): 7343; 731 5183 7617 1583 1069 3033 Dev(T,·) Total Apar (T,·): 17056; 667 13522 17505 2591 1750 4963 Dev(T,·) Total Part (T,·): 16266; 1012 12697 16829 2687 1815 5148 Dev(T,·) Top23 Num (D,·): 13.3; 16.2 6 20 9.10 6 17 - Top23 Apar (D,·): 378; 447 182 592 266 180 510 - Top23 Part (D,·): 372; 453 173 580 265 179 508 - Total Num (D,·): 4424; 523 5183 7617 1583 1069 3033 Med(D,·); Dev(D,·)Total Apar (D,·): 12276; 1412 13522 17505 2591 1750 4963 Med(D,·); Dev(D,·)Total Part (D,·): 11543; 1787 12697 16829 2687 1815 5148 Med(D,·); Dev(D,·)Top23 Num (·,P): 9.7; 5.8 6 20 9.10 6 17 Dev(·,P) Top23 Apar (·,P): 305; 187 182 592 266 180 510 - Top23 Part (·,P): 289; 188 173 580 265 179 508 - Total Num (·,P): 5740; 1578 5183 7617 1583 1069 3033 -

[86] Valori calculate cu STATISTICA v.8.0 (©1984-2008), StatSoft Inc. în baza formulelor (24) şi (25).

297

Page 298: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Total Apar (·,P): 14640; 3363 13522 17505 2591 1750 4963 - Total Part (·,P): 13654; 3400 12697 16829 2687 1815 5148 - Top23 Num (·,T): 6.3; 1.5 6 20 9.10 6 17 Dev(·,T) Top23 Apar (·,T): 194; 37 182 592 266 180 510 Dev(·,T) Top23 Part (·,T): 191; 34 173 580 265 179 508 Dev(·,T) Total Num (·,T): 6653; 1462 5183 7617 1583 1069 3033 - Total Apar (·,T): 15401; 2521 13522 17505 2591 1750 4963 - Total Part (·,T): 14487; 2533 12697 16829 2687 1815 5148 - Top23 Num (·,D): 22.0; 9.5 6 20 9.10 6 17 Med(·,D) Top23 Apar (·,D): 662; 261 182 592 266 180 510 Med(·,D) Top23 Part (·,D): 650; 263 173 580 265 179 508 Med(·,D) Total Num (·,D): 6806; 2098 5183 7617 1583 1069 3033 - Total Apar (·,D): 16500; 2560 13522 17505 2591 1750 4963 - Total Part (·,D): 16148; 2464 12697 16829 2687 1815 5148 -

Rezultatele din tabel arată că: ÷ Supravieţuirea deterministă (D) îmbogăţeşte semnificativ statistic grupul celor mai frecvente

genotipuri (Top23) din generaţiile ce produc evoluţie în timp ce selecţia deterministă (D) sărăceşte semnificativ statistic numărul total al genotipurilor din generaţiile care produc evoluţie;

÷ Practic fiecare metodă de selecţie defineşte câte o populaţie genotipică în generaţiile care produc evoluţie; argumentul este că oricare ar fi parametrul urmărit pentru numărul total de genotipuri (Distincţi, Apariţii şi Participări în regresii), şi luând pentru exemplificare numărul de genotipuri distincte (Num), avem: o Varianţa totală: 15832 cu intervalul de încredere de 95%: [10692, 30332]; o Varianţa populaţiei produse de selecţia proporţională (P): 6562 < 10692; o Varianţa populaţiei produse de selecţia turnir (T): 7312 < 10692; o Varianţa populaţiei produse de selecţia proporţională (P): 5232 < 10692;

÷ Nu aceeaşi concluzie se poate trage cu privire la metoda de supravieţuire, pentru care se produce segregare populaţională doar pentru supravieţuirea deterministă (D), care creează o populaţie cu un număr mediu de genotipuri semnificativ statistic mai mare decât supravieţuirea proporţională (P) şi respectiv turnir (T).

Pe baza rezultatelor experimentale un alt parametru important al evoluţiei poate fi interpretat: numărul de generaţii care produc evoluţie în cursul execuţiei cu număr impus de generaţii (20000) ca măsură a capacităţii de adaptare definită de combinaţia celor două metode (de selecţie şi supravieţuire) precum şi valoarea medie a numerelor generaţiilor care produc evoluţie ca măsură a vitezei de adaptare. Rezultatele au fost prelucrate astfel: pentru fiecare execuţie independentă a algoritmului genetic s-au consemnat numerele consecutive ale generaţiilor care au produs îmbunătăţirea valorii funcţiei obiectiv, şi anume s-a obţinut o ecuaţie de regresie validă (toţi coeficienţii sunt semnificativi statistic) cu un coeficient de determinare mai mare decât cel obţinut în generaţiile anterioare. S-a calculat apoi valoarea medie a acestui număr (care totdeauna este mai mic decât numărul maxim de generaţii al unei execuţii) şi numărul de evoluţii distincte (numărul de valori), informaţii care sunt prezentate în tabel. Întrucât ambele valori (media şi numărul de valori) au fost obţinute printr-o repetare (de 46 de ori) a experimentului pentru fiecare pereche de metode (selecţie, supravieţuire) valorile obţinute aproximează distribuţia de eşantionare, astfel încât s-a putut presupune aproximaţia la normalitate a acestora (atât ele ca valori ale eşantionului de 46 de observaţii) cât şi populaţia din care provin, care aşa cum s-a dovedit mai sus este caracteristică (distinctă) cel puţin după metoda de selecţie. Pentru a se realiza compararea perechilor de metode (selecţie, supravieţuire) informaţiile din tabelul de mai jos au fost supuse unei analize statistice descriptive, care a inclus calcularea valorilor medii şi a deviaţiilor standard, împreună cu intervalele de încredere la un nivel de semnificaţie de 95%, rezultate care sunt redate în continuare.

298

Page 299: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

299

Generaţii ce produc evoluţii (număr şi medie) pentru 46 de execuţii independente run (T,T) (T,D) (T,P) (D,T) (D,D) (D,P) (P,T) (P,D) (P,P)

1 17 3744 26 2884 12 412 12 2662 17 1424 7 2632 52 2840 22 1734 37 34232 27 2096 27 4704 40 5115 13 3854 19 2295 25 2780 20 1565 36 4446 19 49163 26 1134 32 3531 28 1545 30 2714 24 2099 13 1653 29 1808 30 4095 38 24994 27 2746 18 241 16 413 17 2981 36 1084 26 3317 16 3952 27 5396 36 28565 28 3299 42 1655 13 2314 32 3079 27 3133 22 4913 20 977 36 5462 23 8176 20 1717 49 2398 17 1704 25 1500 8 4697 25 3235 27 488 24 653 28 42557 19 1059 38 2103 36 4749 34 6709 25 3382 20 4528 28 1764 39 2646 28 17108 23 3173 38 1781 20 852 23 5272 23 8355 17 3865 35 2491 23 2060 20 23359 37 1034 34 3449 44 3596 12 822.1 33 5814 21 3523 30 1485 28 3264 40 7250

10 18 5046 39 5952 22 1762 14 3647 36 4260 19 5019 17 3345 38 7288 61 579011 36 2516 19 3191 15 599 27 3174 11 2849 24 2135 31 564 33 2193 33 484412 25 3190 35 4744 24 4942 27 2511 26 6400 24 4675 33 1795 38 4015 33 831513 35 907 26 1479 38 2803 21 9086 6 32 14 6338 39 4880 49 5570 33 310314 48 4672 20 3958 25 4738 15 8139 32 8734 5 718 22 5116 18 1607 43 360215 36 1657 44 4893 39 2839 19 3227 32 5209 4 232 40 6560 20 2896 27 73616 21 991 24 246 36 1749 12 2503 20 1317 10 2984 34 11086 50 3292 28 319517 56 6242 41 1806 27 1707 33 4121 29 6367 31 5316 26 1555 28 964 46 486018 24 1773 33 4545 23 5670 18 4119 27 4520 28 3645 45 2394 49 7685 19 158919 29 1059 19 6112 23 1141 23 5796 11 992 16 1458 36 4459 14 1378 21 511520 23 3851 30 3557 28 710 23 1558 22 3669 6 3335 42 4816 45 3543 35 373121 31 1928 25 1302 38 2767 17 5730 20 3094 18 8798 36 2526 18 2795 45 121622 37 699 25 2320 31 4964 18 4596 29 5753 15 576 41 1993 17 790 33 350523 37 2148 20 4900 14 2292 32 3934 42 5110 14 5037 47 8925 47 2020 34 342724 31 5706 20 8773 26 555 10 2962 46 4439 19 3209 13 1954 24 1985 28 193025 21 2297 35 2497 47 1827 17 2966 25 2590 14 3056 20 1558 40 2493 26 191526 17 4759 29 2069 28 6925 21 5171 20 7232 24 6650 25 1430 46 3584 17 98527 37 5362 28 2554 29 6977 19 5248 32 4013 13 2644 31 4939 32 3002 36 564328 18 2531 38 1395 34 1976 4 877 18 3256 24 10910 33 1617 32 1810 18 79829 50 3231 38 975 18 3132 22 2462 25 7589 34 6637 26 937 56 5874 32 369030 37 3887 51 6828 43 6310 20 5512 18 4664 10 3450 44 1598 28 4147 26 321731 23 3474 29 1921 20 1908 21 1825 26 4596 11 1884 34 2606 22 2664 14 185432 18 1130 34 3467 20 353 35 7361 32 2518 6 15 32 2099 40 5477 12 93133 36 3597 20 1300 23 2535 15 1754 33 4615 25 5651 26 4976 19 12799 21 216934 32 516 22 5830 30 3108 43 8655 6 4893 30 4578 27 4334 42 2904 13 433635 27 3186 42 5272 64 3288 15 3252 31 5858 13 1222 32 3064 29 1348 30 208136 36 4600 39 4125 22 4620 14 3278 14 3301 14 5456 57 4468 28 3003 32 305037 30 5061 16 3154 31 1345 23 4881 28 5105 27 887 33 8163 35 8225 23 470838 25 2055 40 4141 32 7258 24 4122 13 2382 22 2577 44 4311 20 819 38 454139 27 1018 23 3269 17 2075 43 4545 18 5421 29 2232 35 6333 33 4784 40 85340 26 1039 46 1892 50 4306 24 5563 22 631 10 177 23 887 26 1155 8 79241 31 8549 20 1763 18 1954 15 3522 34 3061 21 6100 26 2593 29 360 25 450842 19 2272 22 772 56 7329 21 2441 22 3782 14 5815 26 1904 35 3286 24 108443 47 5746 23 3095 21 1484 13 2313 19 2516 23 6353 25 3230 44 1418 40 399444 38 2142 39 6810 26 1454 36 4964 8 3765 10 2492 34 495 29 2954 34 349145 34 1432 32 4117 30 2757 27 2673 24 6675 34 2471 38 6027 26 2764 31 480246 39 4481 39 4332 24 1277 17 1635 15 6036 20 5650 33 944 30 758 25 2566

Page 300: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Statistici ale evoluţiei algoritmului genetic în funcţie de selecţie şi supravieţuire Parametru Medie CI(95%,Medie) Deviaţie CI(95%,Deviaţie) m(D,D) 4120 3518 4722 2027 1681 2553 m(D,T) 3907 3326 4488 1957 1623 2465 m(D,P) 3714 3032 4396 2296 1904 2892 m(P,D) 3335 2631 4039 2369 1965 2984 m(T,D) 3307 2748 3866 1882 1561 2371 m(P,T) 3214 2520 3908 2338 1939 2945 m(P,P) 3196 2671 3722 1770 1468 2229 m(T,T) 2929 2400 3458 1781 1478 2244 m(T,P) 2916 2322 3510 2001 1660 2520 n(P,D) 32.0 29.0 35.1 10.1 8.4 12.8 n(P,T) 31.8 29.0 34.6 9.3 7.7 11.7 n(T,D) 31.1 28.3 33.8 9.2 7.7 11.6 n(T,T) 30.0 27.2 32.7 9.3 7.7 11.7 n(P,P) 29.4 26.4 32.4 10.2 8.4 12.8 n(T,P) 28.7 25.2 32.1 11.5 9.5 14.5 n(D,D) 23.6 20.8 26.3 9.2 7.6 11.6 n(D,T) 21.7 19.1 24.2 8.5 7.1 10.8 n(D,P) 18.5 16.2 20.8 7.9 6.5 9.9

Analizând valorile prezentate în tabelul de mai sus în ceea ce priveşte valorile medii şi intervalele de încredere ale acestora pentru media generaţiilor care produc evoluţii, se remarcă că selecţia deterministă (şi cu atât mai mult însoţită de supravieţuirea deterministă) produce cele mai târzii evoluţii, în timp ce selecţia turnir (şi cu atât mai mult însoţită de supravieţuirea proporţională sau turnir) produce cele mai timpurii evoluţii (Figura 1). Analizând valorile în ceea ce priveşte numărul de evoluţii intervalele de încredere ale acestora pentru generaţiile care produc evoluţii, se remarcă că selecţia proporţională (şi cu atât mai mult însoţită de supravieţuirea deterministă sau turnir) produce cele mai multe evoluţii, în timp ce selecţia deterministă (şi cu atât mai mult însoţită de supravieţuirea proporţională sau turnir) produce cele mai puţine evoluţii (Figura 2). De remarcat de asemenea că în ceea ce priveşte frecvenţa evoluţiilor (Figura 2) o selecţie proporţională aproape că nu face diferenţa între supravieţuirea deterministă şi supravieţuirea în turnir (medii 32 şi 31.8, cu intervale de încredere rotunjite la întreg egale) în timp ce viteza evoluţiilor (Figura 1) aceeaşi selecţie proporţională nu face diferenţa între valoarea medie pentru supravieţuirea proporţională şi turnir (diferenţa de 150 între valorile medii reprezentând cel mult 30% din lărgimea intervalului de încredere la oricare dintre ele.

Figura 1. Cât de timpuriu se produc evoluţiile Timpuriu Târziu

(Deterministic, Deterministic) (Deterministic, Turnir)

(Deterministic, Proporţional) (Proporţional, Deterministic)

(Turnir, Deterministic) (Proporţional, Turnir)

(Proporţional, Proporţional) (Turnir, Turnir)

(Turnir, Proporţional)

300

Page 301: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Figura 2. Cât de frecvent se produc evoluţiile

Figura 3. Cât de dispers se produc evoluţiile

Figura 4. Cât de predictibil se produc evoluţiile

În ceea ce priveşte variabilitatea vitezei de evoluţie (Figura 3) se remarcă că metodele produc rezultate relativ mai grupate (relativ la rezultatele pentru valori medii), cea mai bună constanţă a vitezei de evoluţie având perechile (selecţie proporţională, supravieţuire proporţională) şi (selecţie în turnir, supravieţuire în turnir) în timp ce cea mai mare inconstanţă se observă la selecţia proporţională şi supravieţuirea deterministă urmată îndeaproape de selecţia deterministă şi supravieţuirea proporţională. În ceea ce priveşte variabilitatea frecvenţei evoluţiei (Figura 4) se remarcă că o serie de patru asocieri de metode de selecţie şi supravieţuire produc rezultate similare sub aspectul variabilităţii frecvenţei de evoluţie: (D,D), (T,D), (T,T) şi (P,T); valori extreme ale variabilităţii frecvenţei

Impredictibil Predictibil

(T, P) (P, P) (P, D)

(P, T) (T, T) (T, D) (D, D)

(D, T) (D, P)

Compact Dispers

(P, D) (P, T) (D, P)

(D, D) (T, P)

(D, T) (T, D)

(T, T) (P, P)

Rar

(P, D) (P, T)

(T, D) (T, T)

(P, P) (T, P)

(D, D) (D, T)

(D, P) Des

301

Page 302: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

evoluţiei obţin asocierea (selecţie deterministă, supravieţuire proporţională) - cu cea mai mică variabilitate a frecvenţei de evoluţie şi (selecţia în turnir, supravieţuirea proporţională) - cu cea mai mare variabilitate a frecvenţei de evoluţie.

N(Top23) A(Top23) P(Top23) N(Total) A(Total) P(Total)

0

4

812

16

20

2428

32

36

(D,D) (D,T) (D,P) (T,D) (T,T) (T,P) (P,D) (P,T) (P,P)(Selectie,Supravietuire)

Gen

otip

uri [

%]

Diversitate

Consangvinizare

Legendă: Top23: lista genotipurilor cu cel puţin 23 de apariţii (50% din max. 46) Total: lista tuturor genotipurilor N(·): număr de genotipuri A(·): număr de apariţii P(·): număr de reprezentări în regresiile ce creează asocieri valide între fenotipuri

Figura 5. Diversitate în evoluţie

Informaţiile cu privire la variabilitatea genotipică în cultivar în generaţiile ce produc evoluţie se poate obţine prelucrând informaţiile. Astfel, pentru fiecare din cei şase parametrii urmăriţi (număr de genotipuri cu 23 şi peste apariţii în 46 de execuţii independente - N(Top23), număr de apariţii ale acestor genotipuri - A(Top23), număr de participări efective în ecuaţii de regresie - P(Top23), număr total de genotipuri distincte prezente în generaţiile ce produc evoluţie - N(Total), număr de apariţii ale acestora în materialul genetic din cultivar - A(Total), şi număr de participări efective ale acestora în ecuaţii de regresie - P(Total) - vezi Figura 5) transformând frecvenţele de apariţie observate în proporţii relative la cele nouă perechi de metode (selecţie, supravieţuire) se observă că: ÷ Cele mai mari discrepanţe între proporţiile numerelor de genotipuri sunt prezente pentru selecţia

deterministă însoţită de o supravieţuire deterministă - perechea (D,D) - unde proporţia apariţiei genotipurilor în materialul genetic se cel puţin înjumătăţeşte de la Top23 către întregul conţinut al materialului genetic ceea ce sugerează că o evoluţie bazată pe selecţia deterministă însoţită de o supravieţuire deterministă induce o înmulţire preferenţială a celor mai adaptate genotipuri; în acelaşi timp, situaţia este inversată dacă supravieţuirea se face proporţional sau în turnir - perechile (D,T) şi (D,P) - unde proporţia apariţiei genotipurilor în materialul genetic se cel puţin dublează de la Top23 către întregul conţinut al materialului genetic ceea ce sugerează că o evoluţie bazată pe selecţia deterministă însoţită de o supravieţuire proporţională sau în turnir induce o înmulţire preferenţială pentru un număr cât mai mare de genotipuri diferite;

÷ În extrema opusă a situaţiei generate de selecţia deterministă se află selecţia proporţională; aşa cum se poate observa selecţia proporţională însoţită de supravieţuirea proporţională face ca proporţiile de apariţie ale celor mai frecvente genotipuri (Top23) să nu difere semnificativ de proporţiile de apariţie pentru numărul total de genotipuri, ceea ce sugerează că genotipurile sunt prezente în mod uniform (distribuţie uniformă) în materialul genetic - fiecare având o aceeaşi şansă de apariţie.

302

Page 303: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

2010A5. Construirea bazei de date cu cunoştinţe Compus chimic - Model cuantic 3D - Descriptori moleculari - Proprietăţi fizico-bio-chimice - Activităţi terapeutice

S-a creat baza de cunoştinţe, strusctura şi proprietăţile aceastei fiind valorificate pe parcursul derulării proiectului sub formă de postere (Bolboacă & Jäntschi, 2008-SASA) şi prezentări orale (Jäntschi & Bolboacă, 2008-MQMC) la conferinţe internaţionale şi respectiv publicaţii (Bolboacă & others, 2009-MDFV) Următoarea imagine redă structura bazei de cunoştinţe împreună cu acţiunile de maganement al cunoştinţelor care au fost dezvoltate.

Baza de date cu cunoştinţe Compus chimic - Model cuantic 3D - Descriptori moleculari -

Proprietăţi fizico-bio-chimice - Activităţi terapeutice - din (Bolboacă & Jäntschi, 2008-SASA) Analiza cunoştinţelor stocate în sistem se realizează cu o serie de aplicaţii statistice dezvoltate în acest sens, figurile următoare ilustrând acest proces - adaptate după (Bolboacă & Jäntschi, 2008-SASA):

(1) Simple correlation analysis; Inter-correlation analysis; Multiple correlation analysis

(2) Qualitative vs. quantitative analysis

303

Page 304: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(3) Leave-one-out cross-validation analysis (4) Training vs. test experiment

(5) Correlated correlations analysis (6) MDF Predictor

2010A6. Proiectarea portalului web, Implementarea algoritmilor de interogare, Publicarea portalului web

Portalul web a fost publicat. Următoarele imagini sunt demonstrative în acest sens:

Portalul "MDFV"

304

Page 305: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Portalul "MDF"

Portalul "Statistics"

305

Page 306: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Livrabile Următoarea listă conţine referinţele raportului de cercetare între care se află şi livrabilele (marcate pe fond verde) şi alte lucrări ştiinţifice care au rezultat pe perioada de derulare a grantrului, sunt în incidenţă cu activităţile desfăşurate în acesta dar nu sunt datorate în mod neapărat derulării activităţilor din proiect, astfel nefiind raportate ca livrabile. (Bălan & others, 2008-SRDI): Mugur C. BĂLAN, Mihai DAMIAN, Lorentz JÄNTSCHI,

Preliminary Results on Design and Implementation of a Solar Radiation Monitoring System, Sensors, Molecular Diversity Preservation International, ISSN 1424-8220, Basel, Switzerland, 8(2), p. 963-978, 2008.

(Bălan & others, 2008-SRMS): Mugur BĂLAN, Mihai DAMIAN, Lorentz JÄNTSCHI, Solar Radiation Monitoring System, Proceedings of the 36-th international symposium on agricultural engineering: Actual Tasks on Agricultural Engineering, Agricultural Engineering Department, Faculty of Agriculture, University of Zagreb, ISSN 1333-2651, February 11-15, Opatija, Croatia, p. 507-517, 2008.

(Bălan & others, 2010): Mugur C. BĂLAN, Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Mihai DAMIAN, Assessment of Thermal Solar Collectors Behaviour in Transitory Regime, Polish Journal of Environmental Studies, Hard Publishing Company, ISSN 1230-1485, Olsztyn, Poland, 19(1), p. 231-241, 2010.

(Bolboacă & Jäntschi, 2005): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Molecular Descriptors Family on Structure Activity Relationships 2. Insecticidal Activity of Neonicotinoid Compounds, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 4(6), p. 78-85, 2005.

(Bolboacă & Jäntschi, 2005): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Molecular Descriptors Family on Structure Activity Relationships 3. Antituberculotic Activity of some Polyhydroxyxanthones, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 4(7), p. 58-64, 2005.

(Bolboacă & Jäntschi, 2005-CILR): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Binomial Distribution Sample Confidence Intervals Estimation for Positive and Negative Likelihood Ratio Medical Key Parameters, Annual Symposium on Biomedical and Health Informatics [Special Issue: from Foundations to Applications to Policy (Proc. CD, October 22-26, Washington D.C., USA)], American Medical Informatics Association, Bethesda, Maryland, USA, ISSN 1559-4076, Washington D.C., USA, #CD, p. 66-70, PMID: 16779003, 2005.

(Bolboacă & Jäntschi, 2006): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Molecular Descriptors Family on Structure-Activity Relationships: Modeling Herbicidal Activity of Substituted Triazines Class, Bulletin of University of Agricultural Sciences and Veterinary Medicine - Agriculture, AcademicPres, ISSN 1454-2382, Cluj-Napoca, Romania, 62, p. 35-40, 2006.

(Bolboacă & Jäntschi, 2006-SPMA): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Activity Characterization of Triazines Analogues: Statistical Parameters for Models Assessment, International Symposium on Organic Chemistry, December 9-12, 2006, Avangard Prisma, ISBN 954-323-243-1 & 978-954-323-243-7, Sofia, Bulgaria, p. 48-49 [Plenary oral presentation], December 9-12, 2006.

(Bolboacă & Jäntschi, 2007): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Structure versus Biological Role of Substituted Thiadiazole- and Thiadiazoline- Disulfonamides, Studii si Cercetari Stiintifice Universitatea Bacau Seria Biologie, Universitatea Bacau, ISSN 1224-919X, Bacau, Romania, 12(1), p. 50-56, 2007.

(Bolboacă & Jäntschi, 2007): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Modeling Analysis of Amino Acids Hydrophobicity, ChemMod 2007 - Chemical Graph Theory and Molecular Modeling Workshop, Faculty of Chemistry and Chemical Engineering of Babes-Bolyai University and European Society of Mathematical Chemistry, Oral Presentation #6, Cluj-Napoca, Romania, October 23-26, p. 6, 2007.

306

Page 307: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(Bolboacă & Jäntschi, 2007-AAHS): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Is Amino Acids Hydrophobicity a Matter of Scale?, Recent Advances in Synthesys & Chemical Biology VI, Centre for Synthesis & Chemical Biology, University of Dublin, Symposium, 14th December 2007, Dublin, Ireland, P2, 2007.

(Bolboacă & Jäntschi, 2007-BCIO): Sorana-Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Are confidence intervals for binomial distributed samples an optimization meters?, Fourth International Conference of Applied Mathematics and Computing, August 12-18, 2007, University of Chemical Technology and Metallurgy Sofia & Technical University of Plovdiv, Invited lecture, presented on August 13, from 18.00 to 18.30, Plovdiv, Bulgaria, p. 47, 2007.

(Bolboacă & Jäntschi, 2007-CRRF): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Communication of Results on Risk Factors Studies: Confidence Intervals, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 6(10), p. 179-187, 2007.

(Bolboacă & Jäntschi, 2007-DMRM): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Data Mining on Structure-Activity/Property Relationships Models, ECCC11- The 11th Electronic Computational Chemistry Conference, online, Monmouth University, New Jersey, USA, N/A, www, Internet, paper #29, Presentation located here, April 2-30, 2007.

(Bolboacă & Jäntschi, 2007-DMRM): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Data Mining on Structure-Activity/Property Relationships Models, World Applied Sciences Journal, IDOSI Publications, ISSN 1818-4952, www, Internet & Faisalabad, Pakistan, 2(4), p. 323-332, 2007.

(Bolboacă & Jäntschi, 2007-DoE): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Design of Experiments: Useful Orthogonal Arrays for Number of Experiments from 4 to 16, Entropy, Molecular Diversity Preservation International, ISSN 1099-4300, Basel & www, Switzerland & Internet, 9(4), p. 198-232, Zbl 1135.62359, 2007.

(Bolboacă & Jäntschi, 2007-HGCP): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, How Good the Characteristic Polynomial Can Be for Correlations?, International Journal of Molecular Sciences, Molecular Diversity Preservation International, ISSN 1422-0067, www & Basel, Internet & Switzerland, 8(4), p. 335-345, CAN 147:276982, 2007.

(Bolboacă & Jäntschi, 2007-MCSC): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Mapping Cigarettes Similarities using Cluster Analysis Methods, International Journal of Environmental Research and Public Health, Molecular Diversity Preservation International, ISSN 1660-4601, www & Basel, Internet & Switzerland, 4(3), p. 233-242, PMID 17911663, CAN 148:303722, 2007.

(Bolboacă & Jäntschi, 2007-SAHZ): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Similarities Analysis on Hydroxyapatite-Zirconia Composites, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 11(6), p. 153-164, CAN 148:61815, 2007.

(Bolboacă & Jäntschi, 2007-SMMV): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Modeling the Property of Compounds from Structure: Statistical Methods for Models Validation, Institute of General and Inorganic Chemistry, Bulgarian Academy of Sciences [http://sizemat.igic.bas.bg], FP6: EC-INCO-CT-2005-016414 Specific Support Action, Plovdiv, Bulgaria, p. 71, April 19-21, 2007.

(Bolboacă & Jäntschi, 2007-SPBP): Sorana-Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Structure-Property Based Model Estimation of Alkanes Boiling Points, Fourth International Conference of Applied Mathematics and Computing, August 12-18, 2007, University of Chemical Technology and Metallurgy Sofia & Technical University of Plovdiv, Invited lecture, presented on August 13, from 18.30 to 19.00, Plovdiv, Bulgaria, p. 48, 2007.

(Bolboacă & Jäntschi, 2008): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Structure Activity Relationships of Taxoids therein Molecular Descriptors Family Approach, Archives of Medical Science, Termedia sp. z o.o., ISSN 1734-1922; eISSN 1896-9151, Poznan, Poland, 4(1), p. 7-15, 2008.

(Bolboacă & Jäntschi, 2008): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Structure-Property Based Model for Alkanes Boiling Points, International Journal of Pure and Applied Mathematics, Academic Publications, ISSN 1311-8080, Sofia, Bulgaria, 47(1), p. 23-30, Zbl pre05492618,

307

Page 308: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

2008. (Bolboacă & Jäntschi, 2008-ABCI): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Assessment of

Confidence Intervals used in Medical Studies, AcademicPres & AcademicDirect, ISBN 978-973-744-107-2 & ISBN 978-973-86211-2-1, Cluj-Napoca & www, Romania & Internet, p. 234 (+p. 10 intro), 2008.

(Bolboacă & Jäntschi, 2008-ICPT): Sorana D. BOLBOACA, Lorentz JANTSCHI, Homo Sapiens Type I Collagen: Patterns Analysis, Applied Medical Informatics, 22(1-2), 39-46, 2008.

(Bolboacă & Jäntschi, 2008-OCIB): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Optimized Confidence Intervals for Binomial Distributed Samples, International Journal of Pure and Applied Mathematics, Academic Publications, ISSN 1311-8080, Sofia, Bulgaria, 47(1), p. 1-8, Zbl pre05492615, 2008.

(Bolboacă & Jäntschi, 2008-SASA): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Statistical Approach of Structure-Activity Relationships: A Case Study, Strasbourg Summer School on Chemoinformatics, Louis Pasteur University, June 22-25, Obernai, France, #3, 2008.

(Bolboacă & Jäntschi, 2008-SMMV): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Modelling the property of compounds from structure: statistical methods for models validation, Environmental Chemistry Letters, Springer, ISSN 1610-3653, eISSN 1610-3661, Berlin, Germany, 6(3), p. 175-181, DOI: 10.1007/s10311-007-0119-9, 2008.

(Bolboacă & Jäntschi, 2009-CCqD): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Comparison of QSAR Performances on Carboquinone Derivatives, TheScientificWorldJOURNAL, TheScientificWorld, ISSN 1537-744X, Kirkkonummi, Finland, 9(10), p. 1148-1166, DOI: 10.1100/tsw.2009.131, PMID: 19838601, 2009.

(Bolboacă & Jäntschi, 2009-DF3): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Distribution Fitting 3. Analysis under normality assumption, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Horticulture, AcademicPres, ISSN 1843-5254, eISSN 1843-5394, Cluj-Napoca, Romania, 66(2), p. 698-705, 2009.

(Bolboacă & Jäntschi, 2010-DqPM): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Diagnostic of a qSPR model: aqueous solubility of drug-like compounds, Studia Universitatis Babeş-Bolyai. Series Chemia, in press (2010, pp. 1-8).

(Bolboacă & others, 2003-PCAT): Sorana BOLBOACĂ, Lorentz JÄNTSCHI, Andrei ACHIMAŞ CADARIU, Creating Etiology/Prognostic Critical Appraised Topics CATRom Original Software for Romanian Physicians, Applied Medical Informatics, SRIMA, ISSN 1224-5593, Cluj, Romania, 13(3-4), p. 11-16, 2003.

(Bolboacă & others, 2003-SQL2): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Andrei ACHIMAŞ CADARIU, SQL by Example. 2. PHP and MySQL Web Application based on Tanner-Whitehouse Standard, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 2(2), p. 37-52, 2003.

(Bolboacă & others, 2003-TW2): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Andrei ACHIMAŞ CADARIU, PHP and MySQL Medical Application Based on Tanner Whitehouse Standard, UNITECH'03 International Scientific Conference, Technical University of Gabrovo, ISBN 954-683-167-0, Gabrovo, Bulgaria, 2003, p. 304-308, November 21-22, 2003.

(Bolboacă & others, 2004-CATC): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Tudor DRUGAN, Andrei ACHIMAŞ CADARIU, Creating Therapy Studies Critical Appraised Topics. CATRom Original Software for Romanian Physicians, Applied Medical Informatics, SRIMA, ISSN 1224-5593, Cluj-Napoca, Romania, 15(3-4), p. 26-33, 2004.

(Bolboacă & others, 2004-DCAT): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Andrei ACHIMAŞ CADARIU, Creating Diagnostic Critical Appraised Topics. CATRom Original Software for Romanian Physicians, Applied Medical Informatics, SRIMA, ISSN 1224-5593, Cluj-Napoca, Romania, 14(1-2), p. 27-34, 2004.

(Bolboacă & others, 2005-EBGC): Sorana Daniela BOLBOACĂ, Andrei ACHIMAŞ CADARIU, Lorentz JÄNTSCHI, Evidence-Based Guidelines Assisted Creation through Interactive Online

308

Page 309: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Environment, Applied Medical Informatics, SRIMA, ISSN 1224-5593, Cluj-Napoca, Romania, 17(3-4), p. 3-11, 2005.

(Bolboacă & others, 2005-RIMC): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Andrei ACHIMAŞ CADARIU, Relational Information in Medicine: A Challenge, Roentgenologia & Radiologia, Bulgarian Association of Radiology, ISSN 0486-400X, Sofia, Bulgaria, XLIV(1), p. 22-25, 2005.

(Bolboacă & others, 2006): Sorana BOLBOACĂ, Claudia FILIP, Ştefan ŢIGAN, Lorentz JÄNTSCHI, Antioxidant Efficacy of 3-Indolyl Derivates by Complex Information Integration, Clujul Medical, Editura Iuliu Hatieganu, ISSN 1222-2119, Cluj-Napoca, Romania, LXXIX(2), p. 204-209, 2006.

(Bolboacă & others, 2006): Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Modeling of Structure-Toxicity Relationship of Alkyl Metal Compounds by Integration of Complex Structural Information, Therapeutics: Pharmacology and Clinical Toxicology, RP Press, ISSN 1583-0012, Bucuresti, Romania, X(1), p. 110-114, 2006.

(Bolboacă & others, 2006): Sorana Daniela BOLBOACĂ, Ştefan ŢIGAN, Lorentz JÄNTSCHI, Molecular Descriptors Family on Structure-Activity Relationships on anti-HIV-1 Potencies of HEPTA and TIBO Derivatives, Integrating Biomedical Information: From eCell to ePatient, European Federation for Medical Informatics, ISBN 3-89838-0722-6 (Aka, Germany), ISBN 1-58603-614-9 (IOS Press, Holland), ISBN 973-625-303-1 (Politehnica Timişoara, Romania), Timisoara, Romania, p. 110-114, April 6-8, 2006.

(Bolboacă & others, 2007): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Modelling the Inhibitory Activity on Carbonic Anhydrase I of Some Substituted Thiadiazole- and Thiadiazoline-Disulfonamides: Integration of Structure Information, ESCAPE17 - 17th European Symposium on Computer Aided Process Engineering, CAPE Working Party of the European Federation of Chemical Engineering then Elsevier Netherlands & UK, ISBN 978-0-444-53157-5 & eISBN 0-444-53158-2, Bucharest, Romania then Amsterdam, Netherlands, T4-212 (oral presentation), May 27-30 then p. 965-970, 2007.

(Bolboacă & others, 2007): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Modelling the Inhibitory Activity on Carbonic Anhydrase I of Some Substituted Thiadiazole and Thiadiazoline-Disulfonamides: Integration of Structure Information, Computer-Aided Chemical Engineering, Elsevier Netherlands & UK, eISSN 1570-7946, Amsterdam, Netherlands, 24(2007), p. 965-970, CAS-AN 2008:400595, 2007.

(Bolboacă & others, 2008-RRAS): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI; Radu E. SESTRAŞ, Reporting Results and Associated Statistics in Quantitative Genetic Studies, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Horticulture, AcademicPres, p-ISSN 1843-5254, e-ISSN 1843-5394, Cluj-Napoca, Romania, 65(1), p. 71-79, 2008.

(Bolboacă & others, 2008-SASM): Sorana D. BOLBOACĂ, Elena M. PICĂ, Claudia V. CIMPOIU, Lorentz JÄNTSCHI, Statistical Assessment of Solvent Mixtures Models Used for Separation of Biological Active Compounds, Molecules, Molecular Diversity Preservation International, ISSN 1420-3049, Basel, Switzerland, 13(8), p. 1617-1639, 2008.

(Bolboacă & others, 2008-SqsV): Sorana D. BOLBOACĂ, Carmen E. STOENOIU, Lorentz JÄNTSCHI, Statistics for QSAR Validation, Fifth International Conference of Applied Mathematics and Computing, University of Chemical Technology and Metallurgy Sofia & Technical University of Plovdiv, Invited lecture, presented on August 14, from 12.00 to 12.30, Plovdiv, Bulgaria, Proc Int Conf Appl Math Comput 2008 5(1), p. 83, 2008.

(Bolboacă & others, 2009-AoV): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Radu E. SESTRAŞ, Statistical Approaches in Analysis of Variance: From Random Arrangements to Latin Square Experimental Design, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, Cluj-Napoca, Romania, 8(15), p. 71-82, 2009.

(Bolboacă & others, 2009-MDFV): Sorana D. BOLBOACĂ, Monica M. MARTA, Carmen E. STOENOIU, Lorentz JÄNTSCHI, Molecular Descriptors Family on Vertex Cutting:

309

Page 310: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Relationships between Acelazolamide Structures and their Inhibitory Activity, Applied Medical Informatics, SRIMA, ISSN 1224-5593, Cluj-Napoca, Romania, 25(3-4), p. 65-74, 2009.

(Bolboacă & others, 2010): Sorana D. BOLBOACĂ, Monica M. MARTA, Lorentz JÄNTSCHI, Binding Affinity of Triphenyl Acrylonitriles to Estrogen Receptors: Quantitative Structure-Activity Relationships, Folia medica, Christo G. Danov, ISSN 0204-8043, Plovdiv, Bulgaria, 52(3), p. 37-45, 2010.

(Bolboacă & others, 2010-GAAS): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Mugur C. BĂLAN, Mircea V. DIUDEA, Radu E. SESTRAŞ. State of Art in Genetic Algorithms for Agricultural Systems, Notulae Botanicae Horti Agrobotanici Cluj-Napoca, 38(3):51-63, 2010.

(Bolboacă & others, 2011-DDNR): Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Radu E. SESTRAŞ, Dependence between determination coefficient and number of regressors: a case study on retention times of mycotoxins, Studia Universitatis Babeş-Bolyai. Series Chemia, in press (2011, pp. 1-10).

(Cosma & others, 2008-IMCC): Constantin COSMA, Ioan SUCIU, Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Ion-Molecule Reactions and Chemical Composition of Emanated Gases from Herculane Spa Geothermal Sources, International Journal of Molecular Sciences, Molecular Diversity Preservation International, ISSN 1422-0067, Basel, Switzerland, 9(6), p. 1024-1033, DOI: 10.3390/ijms9061024, 2008.

(Diudea & others, 2001-MT): Mircea V. DIUDEA, Ivan GUTMAN, Lorentz JÄNTSCHI, Molecular Topology, Nova Science, ISBN 1-56072-957-0, Huntington, New York, USA, 332 p., 89$, 2001 - 1st ed., 2002 - 2nd ed., 2001.

(Drugan & others, 2003-BCI1): Tudor DRUGAN, Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Andrei ACHIMAŞ CADARIU, Binomial Distribution Sample Confidence Intervals Estimation 1. Sampling and Medical Key Parameters Calculation, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 2(3), p. 45-74, 2003.

(Gligor & Jäntschi, 2005-PSEA): Delia Maria GLIGOR, Lorentz JÄNTSCHI, Periodic System of Elements Database and Its Applications, Oradea University Annals, Chemistry Fascicle, Oradea Univeristy Press, ISSN 1224-7626, Oradea, Romania, 12, p. 180-194, CAN 147:211259, 2005.

(Jäntschi & Avram, 2002-IBLD): Lorentz JÄNTSCHI, Dana AVRAM (c. LUPŞA), Internet, Browsers and Local Databases, International Conference on Quality Control, Automation and Robotics, Mediamira, ISBN 973-9357-11-1, Cluj-Napoca, Romania, 2, p. 516-521, May 23-25, 2002.

(Jäntschi & Bălan, 2009-DF7): Lorentz JÄNTSCHI, Mugur C. BĂLAN, (Distribution Fitting 7.) Analysis of the genotypes number in different selection and survival strategies, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Horticulture, AcademicPres, ISSN 1843-5254, eISSN 1843-5394, Cluj-Napoca, Romania, 66(1), p. 58-65, 2009.

(Jäntschi & Bolboacă, 2003-ACIA): Lorentz JÄNTSCHI, Sorana Daniela BOLBOACĂ, Applied Chemical and Instrumental Analysis (in Romanian), AcademicDirect, ISBN 973-86211-6-X, www, Internet, 60 p., 2003.

(Jäntschi & Bolboacă, 2005): Lorentz JÄNTSCHI, Sorana Daniela BOLBOACĂ, Molecular Descriptors Family on Structure Activity Relationships 4. Molar Refraction of Cyclic Organophosphorus Compounds, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 4(7), p. 55-102, 2005.

(Jäntschi & Bolboacă, 2005): Lorentz JÄNTSCHI, Sorana Daniela BOLBOACĂ, Molecular Descriptors Family on QSAR Modeling of Quinoline-based Compounds Biological Activities, The 10th Electronic Computational Chemistry Conference, Monmouth University, New Jersey, USA, Paper #4, www, Internet, April 1-30, 2005.

(Jäntschi & Bolboacă, 2006): Lorentz JÄNTSCHI, Sorana BOLBOACĂ, Molecular Descriptors Family on Structure Activity Relationships 6. Octanol-Water Partition Coefficient of Polychlorinated Biphenyls, Leonardo Electronic Journal of Practices and Technologies,

310

Page 311: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

AcademicDirect, ISSN 1583-1078, www, Internet, 5(8), p. 71-86, 2006. (Jäntschi & Bolboacă, 2006): Lorentz JÄNTSCHI, Sorana BOLBOACĂ, Molecular Descriptors

Family on Structure Activity Relationships 5. Antimalarial Activity of 2,4-Diamino-6-Quinazoline Sulfonamide Derivates, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 5(8), p. 77-88, 2006.

(Jäntschi & Bolboacă, 2006): Lorentz JÄNTSCHI, Sorana BOLBOACĂ, Modelling the Inhibitory Activity on Carbonic Anhydrase IV of Substituted Thiadiazole- and Thiadiazoline- Disulfonamides: Integration of Structure Information, Electronic Journal of Biomedicine, Red UniNet Spain, ISSN 1697-090X, www, Internet, 2006(2), p. 22-33, 2006.

(Jäntschi & Bolboacă, 2006): Lorentz JÄNTSCHI, Sorana-Daniela BOLBOACĂ, Modeling the Octanol-Water Partition Coefficient of Substituted Phenols: the Use of Structure Information, Third Humboldt Conference on Computational Chemistry, InnosLab Ltd. , ISBN 954-323-199-0 & 978-954-323-199-7, Varna, Bulgaria, p. 65, June 24-28, 2006.

(Jäntschi & Bolboacă, 2006-DDI): Lorentz JÄNTSCHI, Sorana BOLBOACĂ, Auto-calibrated Online Evaluation: Database Design and Implementation, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 5(9), p. 179-192, 2006.

(Jäntschi & Bolboacă, 2006-MDFR): Lorentz JÄNTSCHI, Sorana Daniela BOLBOACĂ, Molecular Descriptors Family on Structure-Activity and Structure-Property Relationships: Results, SizeMat: Workshop on Size-Dependent Effects in Materials for Environmental Protection and Energy Application, Institute of General and Inorganic Chemistry, Bulgarian Academy of Sciences [http://sizemat.igic.bas.bg], FP6: EC-INCO-CT-2005-016414 Specific Support Action, Varna, Bulgaria, p. 14-15 [Plenary oral presentation], May 25-27, 2006.

(Jäntschi & Bolboacă, 2006-OCPG): Lorentz JÄNTSCHI, Sorana BOLBOACĂ, Organizing Guidelines Models and Clinical Practice Guidelines, 11th International Symposium for Health Information Management Research, Dalhousie University, ISBN 0-7703-9016-1, Halifax, Nova Scotia, Canada, p. 328-338, July 14-16, 2006.

(Jäntschi & Bolboacă, 2006-OMDF): Lorentz JÄNTSCHI, Sorana-Daniela BOLBOACĂ, Online System for Molecular Descriptors Family on Structure-Activity Relationships: Assessment and Characterization of Biologic Active Compounds, 6th European Conference on Computational Chemistry, European Association for Chemical and Molecular Sciences, Poster 47, Tale, Slovakia, September 3-7, 2006.

(Jäntschi & Bolboacă, 2006-PSKC): Sorana BOLBOACĂ, Lorentz JÄNTSCHI, Pearson Versus Spearman, Kendall's Tau Correlation Analysis on Structure-Activity Relationships of Biologic Active Compounds, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 5(9), p. 179-200, CAS-AN 2007:1026159, 2006.

(Jäntschi & Bolboacă, 2007): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Antiallergic Activity of Substituted Benzamides: Characterization, Estimation and Prediction, Clujul Medical, Editura Iuliu Hatieganu, ISSN 1222-2119, Cluj-Napoca, Romania, LXXX(1), p. 125-132, 2007.

(Jäntschi & Bolboacă, 2007): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Triazines Herbicidal Assessed Activity, Studii si Cercetari Stiintifice Universitatea Bacau Seria Biologie, Universitatea Bacau, ISSN 1224-919X, Bacau, Romania, 12(1), p. 57-62, 2007.

(Jäntschi & Bolboacă, 2007): Lorentz JÄNTSCHI, Sorana-Daniela BOLBOACĂ, Modeling the Octanol-Water Partition Coefficient of Substituted Phenols by the Use of Structure Information, International Journal of Quantum Chemistry, Wiley InterScience, ISSN 0020-7608, eISSN 1097-461X, New York, NY, USA, Volume 107, Issue 8 (Special Issue: Proceedings from the 3rd Humboldt Conference on Computational Chemistry. Issue Edited by Georgi N. Vayssilov, Tzonka Mineva), p. 1736-1744, CAN 147:103053, 2007.

(Jäntschi & Bolboacă, 2007-HADR): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, How to Asses Dose-Response Study Outcome: a Statistical Approach, Recent Advances in Synthesys & Chemical Biology VI, Centre for Synthesis & Chemical Biology, University of Dublin, Symposium, 14th December 2007, Dublin, Ireland, P36, 2007.

311

Page 312: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(Jäntschi & Bolboacă, 2007-JLRR): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, The Jungle of Linear Regression Revisited, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 6(10), p. 169-187, 2007.

(Jäntschi & Bolboacă, 2007-MDFA): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Molecular Descriptors Family Project and Their Application on Structure-Property/Activity Relationships, ChemMod 2007 - Chemical Graph Theory and Molecular Modeling Workshop, Faculty of Chemistry and Chemical Engineering of Babes-Bolyai University and European Society of Mathematical Chemistry, Poster #22, Cluj-Napoca, Romania, October 23-26, p. 22, 2007.

(Jäntschi & Bolboacă, 2007-MDFC): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Molecular Descriptors Family on Chromatography, BBCAC-4 4th Black Sea Basin Conference on Analytical Chemistry, "St. Kliment Ohridski" University of Sofia, Poster P128, Sunny Beach, Bulgaria, September 19-23, 2007.

(Jäntschi & Bolboacă, 2007-MDFE): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Structure-Activity Relationships on the Molecular Descriptors Family Project at the End, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 6(11), p. 163-180, CAS-AN 2008:532878, 2007.

(Jäntschi & Bolboacă, 2007-RMDF): Lorentz JÄNTSCHI, Sorana BOLBOACĂ, Results from the Use of Molecular Descriptors Family on Structure Property/Activity Relationships, International Journal of Molecular Sciences, Molecular Diversity Preservation International, ISSN 1422-0067, www & Basel, Internet & Switzerland, 8(3), p. 189-203, CAN 147:317671, 2007.

(Jäntschi & Bolboacă, 2008): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, A Structural Modelling Study on Marine Sediments Toxicity, Marine Drugs, Molecular Diversity Preservation International, ISSN 1660-3397, Basel, Switzerland, 6(2), p. 372-388, DOI: 10.3390/md20080017, 2008.

(Jäntschi & Bolboacă, 2008-EEVC): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Entropy and Energy of Substructures Obtained by Vertex Cutting in Regular Trees, Fifth International Conference of Applied Mathematics and Computing, University of Chemical Technology and Metallurgy Sofia & Technical University of Plovdiv, Invited lecture, presented on August 12, from 16.30 to 17.00, Plovdiv, Bulgaria, Proc Int Conf Appl Math Comput 2008 5(2), p. 216, 2008.

(Jäntschi & Bolboacă, 2008-EMGT): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Embedded Molecular Geometry and Molecular Topology Approach for Structure - Activity Relationships, Strasbourg Summer School on Chemoinformatics, Louis Pasteur University, June 22-25, Obernai, France, #8, 2008.

(Jäntschi & Bolboacă, 2008-MQMC): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, From Mathematical Chemistry to Quantum and Medicinal Chemistry, 17th European Symposium on Quantitative Structure-Activity Relationships & Omics Technologies and Systems Biology, Cheminformatics and QSAR Society, September 21-26, Uppsala, Sweden, Oral presentation (Session 9: Emerging Technologies), Friday September 26th, 1010-1030, 2008.

(Jäntschi & Bolboacă, 2009-CPRI): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Counting Polynomials on Regular Iterative Structures, Applied Medical Informatics, SRIMA, Applied Medical Informatics, Cluj-Napoca, Romania, 24(1-2), p. 67-95, 2009.

(Jäntschi & Bolboacă, 2009-DF2): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Distribution Fitting 2. Pearson-Fisher, Kolmogorov-Smirnov, Anderson-Darling, Wilks-Shapiro, Kramer-von-Misses and Jarque-Bera statistics, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Horticulture, AcademicPres, ISSN 1843-5254, eISSN 1843-5394, Cluj-Napoca, Romania, 66(2), p. 691-697, 2009.

(Jäntschi & Bolboacă, 2009-EDFD): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Entropy due to Fragmentation of Dendrimers, Surveys in Mathematics and its Applications, University Constantin Brâncuşi of Târgu-Jiu, ISSN 1843-7265, eISSN 1842-6298, Targu Jiu, Romania, 4, p. 168-176, 2009.

(Jäntschi & Bolboacă, 2009-OvO): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Observation vs.

312

Page 313: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Observable: Maximum Likelihood Estimations according to the Assumption of Generalized Gauss and Laplace Distributions, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, eISSN 1583-1078, Cluj-Napoca, Romania, 8(15), p. 81-104, 2009.

(Jäntschi & Bolboacă, 2010-EPCI): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Exact Probabilities on Confidence Limits for Binomial Samples: Applied to the Difference between Two Proportions, TheScientificWorldJOURNAL, TheScientificWorld, ISSN 1537-744X, Kirkkonummi, Finland, 10(5), p. 865-878, 2010.

(Jäntschi & Bolboacă, 2010-REBP): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, The relationship between energy calculations and boiling points of n-alkanes, Studia Universitatis Babeş-Bolyai. Series Chemia, in press (2010, pp. 1-7).

(Jäntschi & Diudea, 2003-DM1): Lorentz JÄNTSCHI, Mircea V. DIUDEA, Data Mining. 1. Glycine Content Estimation from Activity Coefficients Measurement, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 2(2), p. 53-63, 2003.

(Jäntschi & Diudea, 2006-SPV): Lorentz JÄNTSCHI, Mircea V. DIUDEA, Subgraphs by Pairs of Vertices, TOPMOL2006 - 20 Years Anniversary of Molecular Topology at Cluj, Babes-Bolyai University, CEEx M3 PR-D11-PT00-41, Cluj-Napoca, Romania, p. 16 [Plenary oral presentation], September 25-30, 2006.

(Jäntschi & Diudea, 2009-sGPV): Lorentz JÄNTSCHI, Mircea V. DIUDEA, Subgraphs of Pair Vertices, Journal of Mathematical Chemistry, Springer Verlag, ISSN 0259-9791, eISSN 1572-8897, Berlin, Germany, 45(2), p. 364-371, DOI: 10.1007/s10910-008-9411-6, 2009.

(Jäntschi & Diudea, 2011-C16V): Lorentz JÄNTSCHI, Mircea V. DIUDEA, Centrality of some cubic graphs on 16 vertices, Journal of Indian Chemical Society, 87(12):1531-1537, 2011.

(Jäntschi & Naşcu, 2002-FSD3): Lorentz JÄNTSCHI, Horea Iustin NAŞCU, Free Software Development. 3. Numerical Description of Soft Acid with Soft Base Titration, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 1(1), p. 53-68, 2002.

(Jäntschi & Naşcu, 2002-NDT): Lorentz JÄNTSCHI, Horea Iustin NAŞCU, Numerical Description of Titration, International Conference on Quality Control, Automation and Robotics, Mediamira, ISBN 973-9357-10-3, Cluj-Napoca, Romania, 1, p. 259-262, May 23-25, 2002.

(Jäntschi & others, 2003-SQLA): Lorentz JÄNTSCHI, Mariana MARCU, Sorana Daniela BOLBOACĂ, SQL Application for Secondary School Leaving Examination, UNITECH'03 International Scientific Conference, Technical University of Gabrovo, ISBN 954-683-167-0, Gabrovo, Bulgaria, 2003, p. 258-262, November 21-22, 2003.

(Jäntschi & others, 2005-CSII): Lorentz JÄNTSCHI, Mihaela Ligia UNGUREŞAN, Sorana Daniela BOLBOACĂ, Complex Structural Information Integration: Inhibitor Activity on Carbonic Anhydrase II of Substituted Disulfonamides, Applied Medical Informatics, SRIMA, ISSN 1224-5593, Cluj-Napoca, Romania, 17(3-4), p. 12-21, 2005.

(Jäntschi & others, 2006-GPAP): Lorentz JÄNTSCHI, Carmen Elena STOENOIU, Sorana Daniela BOLBOACĂ, Use of Graph Polynomials for Characterization of Alkanes Properties, International Symposium on Organic Chemistry, December 9-12, 2006, Avangard Prisma, ISBN 954-323-243-1 & 978-954-323-243-7, Sofia, Bulgaria, p. 87-88, December 9-12, 2006.

(Jäntschi & others, 2006-RPRD): Lorentz JÄNTSCHI, Mădălina Ana VĂLEANU, Sorana Daniela BOLBOACĂ, Rapid Programming of Relational Databases Applications (in Romanian), AcademicDirect & AcademicPres, ISBN: 973-86211-5-1 & 978-973-86211-5-2 (AcademicDirect) && ISBN 973-744-044-7 & 978-973-744-044-0 (AcademicPres), www & Cluj-Napoca, Internet & Romania, 233 p., 2006.

(Jäntschi & others, 2007): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Mircea V. DIUDEA, Chromatographic Retention Times of Polychlorinated Biphenyls: from Structural Information to Property Characterization, International Journal of Molecular Sciences, Molecular Diversity Preservation International, ISSN 1422-0067, Basel & www, Switzerland & Internet, 8(11), p. 1125-1157, CAS-AN 2008:423655, 2007.

(Jäntschi & others, 2007-CCPN): Lorentz JÄNTSCHI, Sorana-Daniela BOLBOACĂ, Cristina Maria FURDUI, Characteristic and Counting Polynomials on Modeling Nonane Isomers

313

Page 314: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Properties, Fourth International Conference of Applied Mathematics and Computing, August 12-18, 2007, University of Chemical Technology and Metallurgy Sofia & Technical University of Plovdiv, Invited lecture, presented on August 15, from 12.20 to 13.00, Plovdiv, Bulgaria, p. 234, 2007.

(Jäntschi & others, 2007-FVCT): Lorentz JÄNTSCHI, Carmen Elena STOENOIU, Sorana-Daniela BOLBOACĂ, A Formula for Vertex Cuts in b-Trees, Fourth International Conference of Applied Mathematics and Computing, August 12-18, 2007, University of Chemical Technology and Metallurgy Sofia & Technical University of Plovdiv, Short communication, presented on August 15, from 12.10 to 12.20, Plovdiv, Bulgaria, p. 233, 2007.

(Jäntschi & others, 2007-NTCP): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Carmen E. STOENOIU, National Trends on Agricultural Crops Production: Cluster Analysis, Bulletin of University of Agricultural Sciences and Veterinary Medicine - Agriculture, 63-64:194-202, 2007.

(Jäntschi & others, 2008): Lorentz JÄNTSCHI, Violeta POPESCU, Sorana D. BOLBOACĂ, Toxicity Caused by Para-Substituents of Phenole on Tetrahymena Pyriformis and Structure-Activity Relationships, Electronic Journal of Biotechnology, Pontificia Universidad Catolica de Valparaiso, ISSN 0717-3458, Valparaiso, Chile, 11(3), fulltext 9, DOI: 10.2225/vol11-issue3-fulltext-9, 2008.

(Jäntschi & others, 2008-FVCT): Lorentz JÄNTSCHI, Carmen E. STOENOIU, Sorana D. BOLBOACĂ, A Formula for Vertex Cuts in b-Trees, International Journal of Pure and Applied Mathematics, Academic Publications, ISSN 1311-8080, Sofia, Bulgaria, 47(1), p. 17-22, Zbl pre05492617, 2008.

(Jäntschi & others, 2008-IEbT): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Informational Entropy of b-ary Trees After a Vertex Cut, Entropy, Molecular Diversity Preservation International, ISSN 1099-4300, Basel, Switzerland, 10(4), p. 576-588, 2008.

(Jäntschi & others, 2008-PTGS): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Radu E. SESTRAŞ, On about what Can Be Done and what Cannot Be Done with Genetic Algorithms in Phylogenetic Tree and Gene Sequence Analyses, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Horticulture, AcademicPres, p-ISSN 1843-5254, e-ISSN 1843-5394, Cluj-Napoca, Romania, 65(1), p. 63-70, 2008.

(Jäntschi & others, 2009-CCPI): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Cristina M. FURDUI, Characteristic and Counting Polynomials: Modelling Nonane Isomers Properties, Molecular Simulation, Taylor & Francis Group, ISSN 0892-7022, eISSN 1029-0435, London, UK, 35(3), p. 220-227, DOI: 10.1080/08927020802398892, 2009.

(Jäntschi & others, 2009-DF4): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Carmen E. STOENOIU, Mihaela IANCU, Monica M. MARTA, Elena M. PICĂ, Monica ŞTEFU, Adriana F. SESTRAŞ, Marcel M. DUDA, Radu E. SESTRAŞ, Ştefan ŢIGAN, Ioan ABRUDAN, Mugur C. BĂLAN, Distribution Fitting 4. Benford test on a sample of observed genotypes number from running of a genetic algorithm, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Agriculture, AcademicPres, ISSN 1843-5246, eISSN 1843-5386, Cluj-Napoca, Romania, 66(1), p. 82-88, 2009.

(Jäntschi & others, 2009-HPGS): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Radu E. SESTRAŞ, Hard Problems in Gene Sequence Analysis: Classical Approaches and Suitability of Genetic Algorithms, Biotechnology & Biotechnological Equipment, Diagnosis Press, ISSN 1310-2818, Sofia, Bulgaria, 23(2), p. 1275-1280, 2009.

(Jäntschi & others, 2010-ATGA): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Mircea V. DIUDEA, Radu E. SESTRAŞ, Average Trends over Millennia of Evolution Supervised by Genetic Algorithms. 3. Analysis of Phenotypes Associations, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Agriculture, AcademicPres, ISSN 1843-5246, eISSN 1843-5386, Cluj-Napoca, Romania, 67(1), p. 169-174, 2010.

(Jäntschi & others, 2010-ATGG): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Mircea V. DIUDEA, Radu E. SESTRAŞ, Average Trends over Millennia of Evolution Supervised by Genetic Algorithms. 1. Analysis of Genotypes, Bulletin of University of Agricultural Sciences

314

Page 315: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

and Veterinary Medicine Cluj-Napoca. Horticulture, AcademicPres, ISSN 1843-5254, eISSN 1843-5394, Cluj-Napoca, Romania, 67(1), p. 72-79, 2010.

(Jäntschi & others, 2010-ATGP): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Mircea V. DIUDEA, Radu E. SESTRAŞ, Average Trends over Millennia of Evolution Supervised by Genetic Algorithms. 2. Analysis of Phenotypes, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Agriculture, AcademicPres, ISSN 1843-5246, eISSN 1843-5386, Cluj-Napoca, Romania, 67(1), p. 161-168, 2010.

(Jäntschi & others, 2010-CAGA): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Radu E. SESTRAŞ, Classical Approaches of Genetic Algorithms and their Suitability, Asian Journal of Chemistry, Chemic Publishing Co., ISSN 0970-7077, Ghaziabad, India, 22(3), p. 2275-2284, 2010.

(Jäntschi & others, 2010-DqCC): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Mircea V. DIUDEA, Radu E. SESTRAŞ, Distribution of QSARs correlation coefficients, Visualization and Modeling in Chemistry, University of Split, October 29-31, Split, Croatia, p. 13-14, 2010.

(Jäntschi & others, 2010-MHqR): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Radu E. SESTRAŞ, Meta-heuristics on quantitative structure-activity relationships: study on polychlorinated biphenyls, Journal of Molecular Modeling, Springer Verlag, ISSN 1610-2940 , eISSN 0948-5023, Berlin, Germany, 6(2), p. 377-386, DOI: 10.1007/s00894-009-0540-z, PMID: 19609578, 2010.

(Jäntschi & others, 2010-REGA): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Radu E. SESTRAŞ, Recording Evolution Supervised by a Genetic Algorithm for Quantitative Structure-Activity Relationship Optimization, Applied Medical Informatics, SRIMA, ISSN 1224-5593, Cluj-Napoca, Romania, 26(2), p. 89-100, 2010.

(Jäntschi & others, 2010-RESG): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Mugur BĂLAN, Radu E. SESTRAŞ, Mircea V. DIUDEA, Results of Evolution Supervised by Genetic Algorithms, Notulae Scientia Biologicae, AcademicPres, ISSN 2067-3205, eISSN 2067-3264, Cluj-Napoca, Romania, 2(3), p. 12-15, 2010.

(Jäntschi & others, 2010-SGAE): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Radu E. SESTRAŞ, A Study of Genetic Algorithm Evolution on the Lipophilicity of Polychlorinated Biphenyls, Chemistry & Biodiversity, KGaA & Wiley-VCH Verlag, ISSN 1612-1872, eISSN 1612-1880, Weinheim, Switzerland, 7(8), p. 1978-1989, DOI: 10.1002/cbdv.200900356, 2010.

(Jäntschi & others, 2010-TESG): Lorentz JÄNTSCHI, Sorana D. BOLBOACĂ, Mugur C. BĂLAN, Radu E. SESTRAŞ, Tendency of Evolution Supervised by Genetic Algorithms, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Horticulture, AcademicPres, ISSN 1843-5254, eISSN 1843-5394, Cluj-Napoca, Romania, 67(1), p. 80-85, 2010.

(Jäntschi & Pică, 2002-NKC): Lorentz JÄNTSCHI, Elena Maria PICĂ, Numerical Kinetic Chemistry, International Conference on Quality Control, Automation and Robotics, Mediamira, ISBN 973-9357-10-3, Cluj-Napoca, Romania, 1, p. 263-268, May 23-25, 2002.

(Jäntschi & Pică, 2003-CASS): Lorentz JÄNTSCHI, Elena Maria PICĂ, Coals Analysis by Sample Study, UNITECH'03 International Scientific Conference, Technical University of Gabrovo, ISBN 954-683-167-0, Gabrovo, Bulgaria, 2003, p. 263-266, November 21-22, 2003.

(Jäntschi & Pică, 2003-NCDR): Lorentz JÄNTSCHI, Elena Maria PICĂ, Numerical Simulation of Concurent Diffusion and Reaction, Annals of West University of Timişoara, Series Chemistry, West University of Timişoara, ISSN 1224-9513, Timisoara, Romania, 12(3), p. 1107-1112, CAN 142:266989, 2003.

(Jäntschi & Pică, 2003-ORM): Lorentz JÄNTSCHI, Elena Maria PICĂ, New Approach of Well Known Oscilating Reaction Models, Annals of West University of Timişoara, Series Chemistry, West University of Timişoara, ISSN 1224-9513, Timisoara, Romania, 12(3), p. 1169-1176, 2003.

(Jäntschi & Ungureşan, 2001-MKD): Lorentz JÄNTSCHI, Mihaela Ligia UNGUREŞAN, Physical Chemistry. Molecular Kinetic and Dynamic (in Romanian), Mediamira, ISBN 973-9358-71-3, Cluj-Napoca, Romania, 159 p., 2001.

315

Page 316: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

(Jäntschi & Ungureşan, 2001-SCA): Lorentz JÄNTSCHI, Mihaela Ligia UNGUREŞAN, Special Chapters of Chemistry for Automatics (in Romanian), UTPres, ISBN 973-8335-15-9, Cluj-Napoca, Romania, 202 p., 2001.

(Jäntschi & Ungureşan, 2002-PCEI): Lorentz JÄNTSCHI, Mihaela Ligia UNGUREŞAN, Physical Chemistry. Experiments of Chemical and Instrumental Analysis (in Romanian), Amici, ISBN 973-85727-0-3, Cluj-Napoca, Romania, 120 p., 2002.

(Jäntschi & Zaharieva-Stoyanova, 2003-MLPM): Lorentz JÄNTSCHI, Elena ZAHARIEVA-STOYANOVA, MATHLab as tool for Process Modeling, International Conference on Materials Science and Engineering BRAMAT 2003, Transilvania University Press, ISBN 973-635-122-X & 973-635-125-4, Brasov, Romania, 3, p. 137-142, March 10-12, 2003.

(Jäntschi & Zaharieva-Stoyanova, 2003-UFS): Lorentz JÄNTSCHI, Elena ZAHARIEVA-STOYANOVA, Upload a File to a Server. Case Study, UNITECH'03 International Scientific Conference, Technical University of Gabrovo, ISBN 954-683-167-0, Gabrovo, Bulgaria, 2003, p. 274-276, November 21-22, 2003.

(Jäntschi, 2002-ACRA): Lorentz JÄNTSCHI, Property Investigations with an Automat Correlation Routine and Applications for a Set of Alloys, Acta Tehnica Napocensis, series Machines Building. Materials, UTPres, ISSN 1221-5872, Cluj-Napoca, Romania, 45(1), p. 296-301, 2002.

(Jäntschi, 2002-ASSP): Lorentz JÄNTSCHI, Automat Server Side Processing of Statistical Data, UNITECH'02 International Scientific Conference, Technical University of Gabrovo, ISBN 954-683-167-0, Gabrovo, Bulgaria, 2002, p. 185-189, November 21-22, 2002.

(Jäntschi, 2002-CIA): Lorentz JÄNTSCHI, Chemical and Instrumental Analysis (in Romanian), UTPres, ISBN 973-8335-19-1, Cluj-Napoca, Romania, 138 p., 2002.

(Jäntschi, 2002-FSD1): Lorentz JÄNTSCHI, Free Software Development. 1. Fitting Statistical Regressions, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 1(1), p. 31-52, 2002.

(Jäntschi, 2002-TRPI): Lorentz JÄNTSCHI, Real Time Property Investigation in Sets of Alloys, International Conference on Advanced Materials and Structures, Editura Orizonturi Universitare, ISBN 973-8391-50-4, Timisoara, Romania, p. 189-194, September 19-21, 2002.

(Jäntschi, 2003-CIA): Lorentz JÄNTSCHI, Physical Chemistry. Chemical and Instrumental Analysis (in Romanian), AcademicDirect, , ISBN 973-86211-7-8, www, Internet, 64 p., 2003.

(Jäntschi, 2003-FBSD): Lorentz JÄNTSCHI, Installing and Testing a Server Operating System, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 2(3), p. 1-30, 2003.

(Jäntschi, 2003-I386): Lorentz JÄNTSCHI, I386-Based Computer Architecture and Elementary Data Operations, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 2(3), p. 9-23, 2003.

(Jäntschi, 2003-KB): Lorentz JÄNTSCHI, Kinetic Biochemistry, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 2(2), p. 1-40, 2003.

(Jäntschi, 2003-MME): Lorentz JÄNTSCHI, Metrology and Monitoring of Environment (in Romanian), Amici, ISBN 973-85727-2-X, Cluj-Napoca, Romania, 148 p., 2003.

(Jäntschi, 2003-MTPS): Lorentz JÄNTSCHI, Microbiology and Toxicology. Phytochemistry Studies (in Romanian), Amici, ISBN 973-85727-3-8, Cluj-Napoca, Romania, 183 p., 2003.

(Jäntschi, 2003-SQL1): Lorentz JÄNTSCHI, SQL by Example. 1. Application for High School Bachelor Examination, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 2(2), p. 20-36, 2003.

(Jäntschi, 2004-DCS): Lorentz JÄNTSCHI, Delphi Client - Server Implementation of Multiple Linear Regression Findings: a QSAR/QSPR Application, Applied Medical Informatics, SRIMA, ISSN 1224-5593, Cluj-Napoca, Romania, 15(3-4), p. 48-55, 2004.

(Jäntschi, 2004-MDF) Lorentz JÄNTSCHI, MDF - A New QSAR/QSPR Molecular Descriptors Family, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 3(4), p. 68-85, 2004.

(Jäntschi, 2004-PCB): Lorentz JÄNTSCHI, QSPR on Estimating of Polychlorinated Biphenyls

316

Page 317: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

Relative Response Factor using Molecular Descriptors Family, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 3(5), p. 67-84, 2004.

(Jäntschi, 2004-WAC): Lorentz JÄNTSCHI, Water Activated Carbon Organics Adsorption Structure - Property Relationships, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 3(5), p. 63-73, 2004.

(Jäntschi, 2005-MDF1): Lorentz JÄNTSCHI, Molecular Descriptors Family on Structure Activity Relationships 1. Review of the Methodology, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 4(6), p. 76-98, 2005.

(Jäntschi, 2005-MTPS): Lorentz JÄNTSCHI, Microbiology and Toxicology and Phytochemistry Studies (in Romanian), AcademicDirect, ISBN 973-86211-8-6, www, Internet, 75 p., 2005.

(Jäntschi, 2007-CCPN): Lorentz JÄNTSCHI, Characteristic and Counting Polynomials of Nonane Isomers, AcademicDirect, ISBN 973-86211-3-5 & ISBN 980-973-86211-3-8, www, Internet, p. 101, 2007.

(Jäntschi, 2009-DF1): Lorentz JÄNTSCHI, Distribution Fitting 1. Parameters Estimation under Assumption of Agreement between Observation and Model, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Horticulture, AcademicPres, ISSN 1843-5254, eISSN 1843-5394, Cluj-Napoca, Romania, 66(2), p. 684-690, 2009.

(Jäntschi, 2009-GASI): Lorentz JÄNTSCHI, A genetic algorithm for structure-activity relationships: software implementation, ArXiv manuscript, http://arxiv.org/abs/0906.4846, 2009.

(Jäntschi, 2010-GAEG): Lorentz JÄNTSCHI, Genetic algorithms: evolution in genetics and informatics, BioArta - Society and Perception of Biotechnology. Exploratory Workshop, UASVM Cluj-Napoca, Cluj-Napoca, Romania, 2010.

(Naşcu & Jäntschi, 2004-MCE1): Horea Iustin NAŞCU, Lorentz JÄNTSCHI, Multiple Choice Examination System 1. Database Design and Implementation for General Chemistry, Leonardo Journal of Sciences, AcademicDirect, ISSN 1583-0233, www, Internet, 3(5), p. 18-33, 2004.

(Naşcu & Jäntschi, 2004-MCE2): Horea Iustin NAŞCU, Lorentz JÄNTSCHI, Multiple Choice Examination System 2. Online Quizzes for General Chemistry, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 3(5), p. 26-36, 2004.

(Naşcu & others, 1999): Horea NASCU, Lorentz JÄNTSCHI, Teodor HODIŞAN, Claudia CIMPOIU, Gabriela CÂMPAN, Some Applications of Statistics in Analytical Chemistry, Reviews in Analytical Chemistry, Freud Publishing House, ISSN 0793-0135, Tel Aviv & London, Israel & England, XVIII(6), p. 409-456, CAN 132:287941, 1999.

(Pică & Jäntschi, 2003-CSC1): Elena Maria PICĂ, Lorentz JÄNTSCHI, Case Study of Coals Farcasesti Area. 1. Dependencies Excluding Fixed Carbon Determinations, Annals of West University of Timişoara, Series Chemistry, West University of Timişoara, ISSN 1224-9513, Timisoara, Romania, 12(3), p. 1127-1136, CAN 142:41100, 2003.

(Pică & Jäntschi, 2003-CSC2): Elena Maria PICĂ, Lorentz JÄNTSCHI, Case Study of Coals Farcasesti Area. 2. Dependencies Including Fixed Carbon Determinations, Annals of West University of Timişoara, Series Chemistry, West University of Timişoara, ISSN 1224-9513, Timisoara, Romania, 12(3), p. 1137-1144, CAN 142:41119, 2003.

(Pică & others, 2004-ASOC): Elena Maria PICĂ, Mihaela Ligia UNGUREŞAN, Lorentz JÄNTSCHI, Amperometric Sensors for the Analysis of the Oxygen Content, Acta Tehnica Napocensis, series Machines Building. Materials, UTPres, ISSN 1224-9106, Cluj-Napoca, Romania, 47, p. 91-98, 2004.

(Pică & others, 2004-OCAS): Elena Maria PICĂ, Mihaela Ligia UNGUREŞAN, Lorentz JÄNTSCHI, Oxygen Content Analysis with Current Sensors, A&QT-R 2004 (THETA 14) 2004 IEEE-TTTC - International Conference on Automation, Quality and Testing, Robotics, Mediamira, ISBN 973-713-046-4, Cluj-Napoca, Romania, 1, p. 471-472, May 13-15, 2004.

(Sârbu & Jäntschi, 1998): Costel SÂRBU, Lorentz JÄNTSCHI, Statistic Validation and Evaluation of Analytical Methods by Comparative Studies. I. Validation of Analytical Methods using

317

Page 318: Raport de cercetare - lori.academicdirect.orglori.academicdirect.org/research/grants/ID1051/PCE_ID_1051... · Raport de cercetare - lucrare în extenso - cuprinzând activităţile

318

Regression Analysis (in Romanian), Revista de Chimie, SC Biblioteca Chimiei SA, ISSN 0034-7752, Bucuresti, Romania, 49(1), p. 19-24, CAN 128:225190, 1998.

(Ştefu & others, 2002-FSD2): Monica ŞTEFU, Mihaela Ligia UNGUREŞAN, Lorentz JÄNTSCHI, Free Software Development. 2. Chemical Database Management, Leonardo Electronic Journal of Practices and Technologies, AcademicDirect, ISSN 1583-1078, www, Internet, 1(1), p. 69-76, 2002.

(Ştefu & others, 2008-MHHS): Monica ŞTEFU, Sorana D. BOLBOACĂ, Mugur C. BĂLAN, Lorentz JÄNTSCHI, Molecular Hyperstructures with High Symmetry, Bulletin of University of Agricultural Sciences and Veterinary Medicine Cluj-Napoca. Horticulture, AcademicPres, p-ISSN 1843-5254; e-ISSN 1843-5394, Cluj-Napoca, Romania, 65(2), p. 681-686, 2008.

(Stoenoiu & others, 2007-CMST): Carmen Elena STOENOIU, Sorana Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Characterization of Marine Sediments Toxicity based on Structural Information, Institute of General and Inorganic Chemistry, Bulgarian Academy of Sciences [http://sizemat.igic.bas.bg], FP6: EC-INCO-CT-2005-016414 Specific Support Action, Plovdiv, Bulgaria, p. 54, April 19-21, 2007.

(Stoenoiu & others, 2007-MFI): Carmen Elena STOENOIU, Sorana-Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Model Formulation and Interpretation for Chemical Reactions Mechanisms - From Experiment to Theory, Fourth International Conference of Applied Mathematics and Computing, August 12-18, 2007, University of Chemical Technology and Metallurgy Sofia & Technical University of Plovdiv, Invited lecture, presented on August 15, from 11.30 to 12.10, Plovdiv, Bulgaria, p. 511, 2007.

(Stoenoiu & others, 2008-MFET): Carmen E. STOENOIU, Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Model Formulation & Interpretation - From Experiment to Theory, International Journal of Pure and Applied Mathematics, Academic Publications, ISSN 1311-8080, Sofia, Bulgaria, 47(1), p. 9-16, Zbl pre05492616, 2008.

(Suciu & others, 2008-HMPP): Ioan SUCIU, Constantin COSMA, Mihai TODICĂ, Sorana D. BOLBOACĂ, Lorentz JÄNTSCHI, Analysis of Soil Heavy Metal Pollution and Pattern in Central Transylvania, International Journal of Molecular Sciences, Molecular Diversity Preservation International, ISSN 1422-0067, Basel, Switzerland, 9(4), p. 434-453, 2008.

(Tăut & others, 2007-MMCP): Ioan TĂUT, George ARGHIR, Viorel CÂNDEA, Sorana-Daniela BOLBOACĂ, Lorentz JÄNTSCHI, Mechanical Milling: Evolution of Crystal Parameter of Iron Powder, 9th Annual Conference of the Yugoslav Materials Research Society, Serbian Academy of Sciences and Arts, ISBN 978-86-80321-11-0, Herceg Novi, Montenegro, OSA11, p. 14, September 10-14, 2007.

(Ţigan & others, 2006): Ştefan ŢIGAN, Lorentz JÄNTSCHI, Sorana-Daniela BOLBOACĂ, Modeling Herbicidal Activity of a Substituted Triazines Class by Integration of Compounds Complex Structural Information, XXIII International Biometric Conference, International Biometric Society, TP1.219 (509.pdf on CD), Montreal, Quebec, Canada, July 16-21, 2006.

Concluzii Derularea proiectului "De la Chimia Matematică la Chimia Cuantică şi la Chimia Medicală" a permis aprofundarea unor concepte cu ajutorul cărora se face trasnferul cunoştinţelor între domenii de vârf ale cercetării şi în acelaşi timp a deschis oportunitatea obţinerii unei serii de rezultate noi şi originale valorificate prin publicaţii ştiinţifice în reviste de prestigiu.