evaluare formativa-articol 2011

Evaluarea formativa

Dar de ce este importantă definiția, în primul rând?

Definiția este importantă, deoarece dacă nu putem defini în mod clar o inovație, nu

putem documenta semnificativ eficiența sa. O parte din această documentație trebuie să fie o

analiza a faptului ca Evaluarea formativa a fost implementata corespunzător, ceea ce nu putem

realiza dacă știm ce trebuia să fie pus în aplicare. În mod similar , în cazul în care nu se poate

defini în mod clar o inovație , nu putem rezuma semnificativ rezultatele obţinute în urma

studiilor , deoarece nu vom ști ce situații să includem în raportul nostru. În cele din urmă nu vom

putea sa le adaptam la contextul nostru pentru ca nu vom sti ce informatii sa extragem. Pentru o

definiție semnificativă a evaluării formative , avem nevoie de cel puțin două lucruri: o teorie a

acțiunii și un instanțierea beton. Printre altele, teoria acțiunii: ( 1 ) identifică caracteristicile și

componentele evaluarii formative, împreună cu motivele pentru fiecare dintre acestea și ( 2 )

postulează modul în care aceste caracteristici și componente lucreaza împreună pentru a crea un

anumit set dorit de rezultate ( Bennett 2010 ). Promptitudinea beton ilustrează modul cum arata

evaluarea formativa la construirea teoriei și cum ar putea să funcționeze într-un cadru real.

În acest sens , Programul Keeping Learning on Track este un exemplu provocator

deoarece conține o teorie rudimentară de acțiune și un exemplu concret pentru a ilustra cel puțin

un tip de "evaluare formativă " . Teoria de acțiune se învârte în jurul " unei idei mari si cinci

strategii -cheie" , bazata pe munca substanţiala a lui Black and Wiliam ( 1998c , 2009) . Ideea

de ansamblu este "studenții și profesorii care folosesc dovezi ... pentru a adapta predarea și

învățarea pentru a răspunde nevoilor învățarii imediate- minut cu minut si de zi cu zi" ( ETS

2010) .

Cele cinci strategii-cheie sunt: împărtăşirea aşteptărilor de învățare (adică,

clarificarea și schimbul de intenții și criteriile de succes), Chestionarea (discuțiile eficiente din

clasă, întrebări și sarcini de învățare care provoacă o dovadă a învățare), feedback,

Autoevaluarea (adică, activarea elevilor ca pe proprietarii propriei învatari), și evaluarea în

perechi (adică, elevii care se activeaza ca resurse de instruire unii față de alții). Aceste strategii

sunt utilizate pentru a orienta procesele de instruire pentru stabilirea nivelului la care se afla

cursantii (de exemplu, prin chestionare), a celui în care vor ajunge (departajarea așteptărilor de

învățare), si a modului in care sa ii faci sa obtina asta (prin feedback).

Strategiile KLT sunt puse în aplicare prin intermediul profesor-elev, folosind o largă paletă de

tehnici, inclusiv cele, "Trei stele și un doresc ", și "Semafoare”. În "Trei stele ...", studenții fac

schimb de lucru și fiecare student este așteptat să indice trei lucruri care i-au plăcut la munca

colegului și un lucru pe care şi l-ar fi dorit să fie făcut mai bine. În "Semafoare ...", fiecarui

student ii este dat un cartonas roșu, galben și verde, și I se cere să afișeze la punctele cheie din

lecție, cartonasul care indică nivelul sau de intelegere (de exemplu, roșu " nu înțelege " , galben

pentru ' nesigur " și verde pentru " vă rugăm să continuați ") .

Anticipând un aspect care trebuie discutat mai târziu, este important să subliniem faptul

că cele cinci puncte strategice sunt destinate a fi generale, independente de un domeniu.

Strategiile au corespondenţe la teoria cognitiv-științifică, în special acel segment al domeniului

care priveşte învățarea prin interacțiune socială (de exemplu , Vygotsky 1978 , citat în Shepard

2006). Teoriile "socio-culturale" postulează că elevii învață cel mai eficient prin schimb cu alții.

Împărtăşirea așteptărilor, întrebările, feedback-ul, autoevaluarea, precum și evaluarea în perechi

sunt destinate, printre altele, să îi ajute pe elevi să dezvolte standarde interne de lucru, să

reflecteze asupra lor și să preia frâiele propriei învățări.

Componentele KLT sunt concentrate pe formarea profesorilor în evaluarea formativă.

Componentele include atât materialele cât și evenimentele facilitate. Unul dintre evenimente este

un atelier pentru membrii personalului școlii, care, la rândul lor, vor trebui să sprijine cadrele

didactice locale, ajutându-I să stabilească o "comunitate de învățare" pentru ei înșiși. Rolul

comunității de învățare este să încurajeze reflecția, schimb de date și de sprijin pentru

îmbunătățirea practicii la clasă într-un mod care este suficient de flexibil pentru a ține seama de

diferențele dintre profesori (Harrison 2005; Lee si Wiliam 2005). Materialele includ 16 module

care formeaza un curriculum de doi ani pentru comunitățile de învățare pentru profesori, registre

de lucru pentru participanti și un ghid pentru lideri TLC.

Până acum, programul KLT nu dispune de date puternice eficacitatea și este imperfectă

în alte modalități de a fi discutate în secțiunile de mai târziu. foarte crearea sa, cu toate acestea, s-

ar putea să fie privit ca o încercare de Dylan Wiliam si colegii sai pentru a da definiție concretă

și direcția concretă a evaluării formative, pe care unii observatori s-au simțit a avut potențialul de

a deveni un moft gol. Ce prevăzut potențialul de ceea ce face un moft fost o creștere a interesului

în rândul educatorilor, valorificate rapid de către editori de testare (Popham 2006; Shepard

2008), și, probabil, de consultanții "proces" la fel de bine. Acela creșterea în interesul a fost, la

rândul ei, provocat de pretenții foarte puternice pentru eficiență

Problema eficienței

Sursa cea mai citată pentru aceste cereri puternice este aproape sigur perechea de

articole publicate de Paul Neagră și Dylan Wiliam. " În cutia neagră " este un scurt fragment care

a apărut în Phi Delta Kappan (Negru și Wiliam 1998a ) și de asemenea, ca un pamflet intens

distribuit. Acest articol rezumă un articol meticulos, " Evaluare și învățarea în clasă " , publicat

în același an în acest jurnal, Evaluare în Educație (Negru și Wiliam 1998c ). După cum sa

menționat, unul sau altul dintre aceste articole au fost utilizate in mod curent pentru a strange

cererile de eficacitatea asupra evaluării formative. –elevii de clase primare din sua, in care s a

folosit evaluarea formativa au obtinut un punctaj dublu la testele standard. Si Wiliam a publicat

rezultatele unei meta- analize cuprinzătoare și sinteza a mai mult de 40 de studii controlate cu

privire la impactul unei evaluari imbunatatite la clasă asupra succesului elevilor ... conform lui,

rezultatele erau si mai favorabile. Într-un articol mai târziu, același autor pare să extindă ideia,

atât în termeni de amploare a efectelor observate cât și mărimea bazei de dovezi.

Indiferent de metrica folosită, argumentul esențial propus de aceste studii este că

cercetarea empirică demonstrează că evaluarea formativă provoacă rezultate peste medie și

foarte mari si acestea vin din surse demne de încredere.

Aceste afirmații merită o privire mai atentă. Ideea de meta-analiza este un loc sensibil

pentru a începe, deoarece acesta a fost atât de frecvent citate în eficacitatea pretinde sa denote

rigoarea metodologică. Meta-analiza a fost inițial conceput ca o metodă de descrie rezultatele

empirice observate într-o literatura de cercetare, deși are de atunci fost prelungit pentru deducere

a parametrilor populației care stau la baza (Hunter și Schmidt2004, 512). In forma sa cea mai

simplă, metoda este, în esență, o punere în comun a rezultatelor de la un set de studii

comparabile, care produce una sau mai multe statistici sumare, inclusiv ce se numește în mod

obișnuit un "mărimea efectului". (A se vedea, de exemplu, sticla, McGaw, și Smith

1981, pentru o introducere clasic de detaliate pentru această metodă.) Pentru studiile

experimentale, The mărimea efectului este de obicei calculată ca diferență între tratament grup și

Controlul grup mijloace, împărțită la deviația standard (din grupul de control sau în mod

corespunzător reunite în toate grupurile) 0.5

Cu toate acestea, meta-analiza ca orice altă metodă, poate produce rezultate fără sens,

care trebuie considerate suspecte când, de exemplu: studiile sunt prea diferite în subiect pentru a

oferi o rezumare semnificativă; efecte multiple provin de prea multe ori din același studiu sau din

studii ale acelorași persoane , nedovedindu-se independență, caracteristicile studiului, cum ar fi

calitatea tehnică sau actualitatea, nu sunt luate în considerare sau Meta-analiza în sine nu a fost

publicata astfel încât metodele implicate să fie disponibile pentru analiza critică.

În acest sens , o preocupare majoră a lui Blake şi Wiliam ( 1998c ) revizuire este faptul

că cercetarea a acoperit este prea disparate pentru a fi rezumate semnificativ prin meta- analiză .

Care de cercetare include studii referitoare la feedback-ul, elev orientare obiectiv, auto-

percepția , evaluarea între , de auto-evaluare , alegerea profesor de evaluare Sarcina , profesor de

comportament sub semnul întrebării , folosirea profesor de teste , și de învățare stăpânirea

sisteme. Care de colectare este pur și simplu prea diverse pentru a fi combinate în mod rațional și

rezumate printr-un singur , valoarea medie a statistică efect de dimensiune ( sau intervalul de

statistici medii ) .

Acest fapt ar putea fi mai bine apreciat dacă mai mulți susținători ai evaluării formative

citiți cu atenție articolul original . Într-o secțiune intitulată "Nu meta-analiză " , Negru și Wiliam

( 1998c ) stipulează următoarele :

In articolul lor de revizuire, apoi, Negru și Wiliam nu raportează meta-analiză a acestora

face propriile, și nici rezultatele cantitative de propria voință. pot să apară confuzia deoarece, pe

scurt pamflet și document de poziție Phi Delta Kappan, Negru și Wiliam (1998a, 1998b) face, de

fapt, să se atribuie o gamă de dimensiuni de efect asupra evaluării formative.

Cu toate acestea, nici o sursă pentru acele valori este dat vreodată. Ca atare, aceste

mărimi de efect nu sunt "rezultatul cantitativ", meta-analitică sau în alt mod, a evaluării 1998 în

curs de examinare Educație, ci, mai degrabă, o proastă caracterizare care a devenit, în esență,

echivalent de educație al legend.6 urbane Chiar și așa, revizuirea oferă o foarte valoroasă sinteza

calitativă, deși, o gamă largă de literaturi, și nu dintr-o singură, bine definite clasa de tratamente

care ar putea fi numit, "Evaluarea formativă". În timp ce articolele negre și Wiliam sunt,

probabil, cele mai frecvente derivarea pentru impactul mare a pretins a evaluării formative, așa

cum se sugerează mai devreme, există o număr de alte surse frecvent referire. Dar fiecare sursă

ridica probleme care s-ar putea numi dimensiunea efectele pretinse în discuție. Vom discuta aici

mai multe frecvent citate exemple pentru a ilustra natura preocupărilor reprezentate. Să începem

cu studiile Bloom, care a gasit reputația de efectele între 1 și 2 deviațiile standard, undeva între

"mare" și "foarte mare". Această afirmație provine dintr-o articol de sinteză (Bloom 1984),

fondat în principal pe (acum destul de datată) dizertații realizat de elevii lui Bloom.

O a doua sursă frecvent referire, de Nyquist (2003), este mult mai recentă. relevanța

acestei surse de context școală poate fi pusă la îndoială imediat, deoarece, deși rareori menționat

în invocările avocaților, se concentrează asupra populației la nivel de colegiu (19). În al doilea

rând, studiul este teza de un maestru nepublicate și, ca atare, nu este în general disponibile

(inclusiv pe internet). Faptul că este diminueaza nepublicate valoarea sa ca suport pentru

eficacitatea generală a evaluării formative, deoarece acesta nu are fost supus unei peer review -

un semn distinctiv al procesului științific - nici nu a fost ușor accesibile în scopuri de provocare

și în duplică. În cele din urmă, după cum s-ar putea să fie așteptat pentru o teză de master, are

limitations.7 semnificativă Doua studii individuale, la Meisels et al. (2003) și prin Rodriguez

(2004), de asemenea, s-au dat printre sursele de probe avocaților (de exemplu, arter 2006, 42;

Davies n.d .; Glasson 2008; Kahl 2007; Iubi 2009, 15; Stiggins 2006). De notat este faptul că atât

Studiile au fost de observatie, astfel încât nu este posibil să se excludă explicații alternative

pentru efectele de tratament. Designul Meisels et al. studiu este de interes special din moment ce

se pare că a folosit un grup de tratament de voluntariat (aparent mai motivați decât grupul de

comparatie), și pentru că alte inovații curriculare au fost implementat în perioada de studiu. Nu

contabilitate a fost aparent făcută pentru fie prejudecata potentialul de selecție sau confunda cu

alte inovații, așa apărat afirmații cu privire la impactul evaluării formative sunt foarte dificil de

face

În funcție de natura unei anchete observațional, Rodriguez (2004) este modestă în mod

corespunzător în pretențiile sale. Analiza studiului este complicat, care încorporează multe

variabile, cu nici o interpretare clară în ceea ce privește posibilele o relație cauză-efect între

evaluarea formativă și rezultatele elevilor. Studiul a face raport

Efectele de realizare referitoare la "clasă de auto-eficacitate" și la "atribuțiile

incontrolabile", construcțiile care ar putea fi legate teoretic formative practica de evaluare (De

exemplu, Stiggins 2006). Dar modul în care aceste variabile sunt conectate direct in studiu pentru

a clasă (formativă) Evaluarea nu este evident, și nici nu este direcția de relația de cauzalitate la

realizare. Singura variabilă care ar putea fi considerate a reprezenta în mod direct practica de

evaluare la clasă este utilizarea de teste realizate pe profesor, pentru care efectul asupra

rezultatelor (control pentru toate celelalte variabile modelului) a fost negativ (adică, cu cât

utilizarea de testare în clasă, cu atât mai mică realizare). Având în vedere aceste fapte, este foarte

dificil pentru a vedea cum acest studiu sustine în mod legitim revendicările de eficacitate

avocaților.

Ultima sursă care urmează să fie menționat este cel al Kluger și Denisi ( 1996) . Acest

articol include o ( real) meta- analiza unui număr mare de studii . Articolul este publicat într-un

jurnal de foarte mare calitate - Psychological Bulletin - și este axat pe un subiect relevante de

evaluare la formative ( feedback) . În acest sens , analiza este mult mai concentrat decât

intervalul foarte larg de ( 1998c ) revizuirea Neagră și Wiliam . Toate același , analiza Kluger și

Denisi include o varietate largă de măsuri criteriuse întinde contexte academice și de muncă (de

exemplu , erori de citire , calcul aritmetic , testul de performanță , retenție de memorie , timpul

de reacție , performanță puzzle ) .

În ceea ce privește rezultatele , de nota aparte este faptul că Kluger și Denisi găsit o

medie mărimea efectului pentru impactul feedback-ul asupra performanțelor 0.41 , mai puțin

decât mult mai mare Efecte de multe ori obiectul unei cereri de evaluare formativă . Acesti

cercetatori au descoperit ca 38 % dintre reacțiile au fost negative , ceea ce înseamnă că starea de

control a fost mai eficace decât oricare constituit intervenția feedback mai bine de o treime din

cazuri.

În cele din urmă , feedback-ul a aparut pentru a îmbunătăți performanța mult mai

dramatic asupra simplu vs sarcini complexe și a avut nici un impact asupra transferului , ceea ce

duce Kluger și Denisi la ajung la concluzia ca , " ... dovada pentru orice efect de învățare aici a

fost minimă în cel mai bun ' Cercetarea feedback-ul este, uneori, interpretată de către avocații în

sensul că Rezultatele pozitive sunt atribuite exclusiv unor practici compatibile cu evaluarea

formativă (de exemplu,Caracterizările calitative care atrag atenția asupra performanței sarcină) și

negativ

Rezultatele de la practicile antitetice (clasele de exemplu, numerice sau mesaj care să

atragă atenția de sine). Cu toate că există cu siguranță unele de sprijin pentru această poziție în

KLUGER și Denisi (1996) constatări, se pare a fi o simplificare. De exemplu, Kluger și Denisi

să rețineți că efecte de feedback "... sunt moderate de natura Sarcina ... [și] proprietățile exacte de

sarcini care moderează [aceste] efecte sunt inca destul de rau înțeleasă "(275). Într-o analiză mai

recentă, Shute (2008) scrie: "In cadrul acestui mare organism de cercetare feedback-ul, există

multe descoperiri conflictuale și nici consecvent model de rezultate "(153). Cu toate că ea nu

oferă o varietate de recomandări bazate pe de cercetare, aceste recomandări variază de multe ori

în funcție de caracteristicile de student. Shute constată că "... mecanismele specifice referitoare la

feedback-ul de învățare sunt încă concluzii generale cea mai mare parte tulburi, cu puține (dacă

este cazul) Pe scurt , atunci , cercetarea nu pare să fie la fel de fără echivoc de susținere a

practica evaluării formative așa cum se face uneori să sune . Având în vedere acest fapt , cât de

am putea îmbunătăți calitatea revendicărilor facem pentru eficacitatea formative evaluare? Un

prim pas ar trebui să fie evident exercitarea unei grijă în evaluarea a surselor de probă și în

atribuțiile facem despre ele . În al doilea rând , o mai clară definiție a ceea ce noi înțelegem prin

evaluare formativă - inclusiv o teorie a acțiunii și un instanțierea beton - este esențială pentru a

ajuta la abstract o clasă de lucruri de studia și de a face afirmatii despre . În acest sens , teoria

acțiunii este deosebit de important deoarece , fără ea , nu putem evalua semnificativ mecanismele

care stau la baza care ar trebui să cauzeze efecte scontate. Dacă nu înțelegem mecanismele

responsabil pentru schimbare , nu vom ști dacă efectele sunt datorate aceste mecanisme sau la

factorii irelevante . De asemenea, nu va fi capabil să prezică condițiile , sau la populația grupuri ,

pentru care este probabil să lucreze la evaluarea formativă

Teoria acțiunii postulat pentru KLT este deosebit de instructiv , deoarece , probabil

neintenționat, ascunde două mecanisme principale . Top cutia în " Învățătorul Rezultate "

porțiune din figura 1 indică faptul că " Profesorii obtine dovezi de elev

Minute pentru a - minut și de zi cu zi de învățare " . Ceea ce face ceva o "evaluare" , cu

toate acestea , nu este doar că probele sunt obtina . Analiză presupune proiectarea atenție situații

(sau a pune întrebări ), astfel încât probele provocat pot fi conectate la critică componente ale

domeniului înțelegere , o problemă la care vom reveni în scurt timp .

În al doilea rând , presupunând că probele rezultat este relevant, evaluarea implică luarea

concluzii din aceste probe ( Pellegrino , Chudowsky și Glaser 2001 , 42 ) . In acestcaz , aceste

deducții privesc ceea ce elevii știu și ce pot face , și sunt folosite pentru adaptarea instrucțiuni.

Această distincție , între a face deducții bazate pe dovezi și adaptarea ulterior instruire, este

crucială .

Distincția este crucială , deoarece un eșec în oricare etapă poate reduce eficacitatea evaluării

formative . În cazul în care consecințele legate de studenți care rezultă din formativă Evaluarea

se greșit , baza pentru ajustarea instrucțiuni este slăbit . În mod similar, în cazul în care

consecințele sunt corecte dar instrucțiune este ajustată în mod necorespunzător, de învățare este,

de asemenea mai puțin probabil să apară .

Concentrându-se pe aceste mecanisme sugerează că , pentru a fi considerate eficiente ,

formativă Evaluarea necesită cel puțin două tipuri de argumente , ca parte a teoriei de acțiune: o

Valabilitate argument pentru susținerea calității inferențe și ajustări de instruire ,și o

demonstrație Eficacitatea pentru a sprijini impactul rezultat asupra învățării și instrucțiuni.

Fie argument pe cont propriu , nu este suficient

Fiecare argument necesită suport, atât logic și empiric . Argumentul valabilitate face

pretenții cu privire la sensul de probă evidență prin formative Evaluarea (de exemplu , că un

student are nevoie de formare într-o anumită componentă de citire de calificare și că o anumită

intervenție ar fi un pas următor sensibil ) . Copierea de a sprijini aceste afirmații ar putea include

date care arata ca observatori diferiți trage concluzii cu similare despre abilitățile unui elev din

aceeași probă ; că consecințele trase sunt în concordanță cu alte metode , de caracterizare ceea ce

cunoaște un student mai în profunzime și poate face (de exemplu , cu o evaluare construite cu

grijă , orientate la un anumit abilitate componentă sau cu informații de la o varietate de alte surse

) ; și că diferite Observatorii face ajustări în mod substanțial similare cu instrucțiuni de la aceeași

dovadă

Spre deosebire de argumentul de valabilitate, argumentul eficacitate face afirmatii

despre schimbări în calificare elev asociate cu utilizarea evaluării formative . aceasta eficacitate

pretenție este nu numai că învățarea va avea ca rezultat , dar , bazându-se pe teoria acțiunii , care

mecanisme specifice va determina ca urmare, în special acțiunile profesor ( sau elev ) ia bazat pe

deducții evaluare . Astfel , în mod logic , argumentul eficacitate pentru evaluării formative

trebuie să includă argumentul valabilitate

În afară de suportul pentru a sprijini argumentul valabilitate , suport pentru eficacitatea

argument ar putea include date referitoare la mai multe domenii . În primul rând , faptul că ar

trebui să includă suport date care arată că evaluarea formativă a fost implementat în conformitate

cu destinația KLT , că profesorii au participat la întâlnirile TLC și au petrecut timp de partajare și

critica lor practicilor de evaluare formative ). În al doilea rând , faptul că sprijinul ar trebui să

includă date care sugerează că alte rezultate intermediare prevăzute de teoria acțiunii au fost

atinse

(De exemplu, faptul că profesorii comun de fapt intențiile de învățare , oportunități

structurate pentru a activa studenților ca resurse de instruire pentru un altul) . In cele din urma ,

suportul trebuie

Date le presupun indică faptul că elevii care participă la evaluarea formativă schimbat

mai mult într-o direcție pozitivă asupra rezultatelor de interes decât cele care participă la o

anumită practică alternativă (de exemplu, că studenții nu , de fapt , să acționeze pe feedback-ul ,

să devină mai angajat , și aflați mai multe )

Ar trebui să fie evident, deci, că datele sunt necesare pentru a susține teoria acțiunii care

stau la baza orice abordare specifică pentru evaluării formative. Ar trebui să fie la fel de evident

pe care fiecare utilizator al evaluării formative nu trebuie să colecteze astfel de date. Pentru a

evalua Teoretic, datele trebuie să fie colectate numai de la un subset rezonabil reprezentative

pentru cele utilizând abordarea în cauză. Scopul este de a obține date suficiente de a fi suficiente

contexte pentru a face valabilitate și eficacitate argumentele credibil, permițând astfel

generalizată cererile de sensul rezultatelor evaluării formative și pentru impactul asupra învățare

de a utiliza aceste rezultate instrucțional. Standardul de rigoare a fi susținut este una științifică,

similară cu cea necesară pentru cererile de eficacitate din spatele orice intervenție educațională.

Dacă acceptăm că programele de evaluare formative fac, de fapt, au nevoie de o

eficacitate argument și un argument valabilitate încapsulată, legate de un preocupări întrebarea

dacă sau nu aceste argumente trebuie să aibă un accent de fond specific, subiectul următorului

nostru secțiune.

Problema domeniu de dependență

Acest element se referă dacă evaluării formative pot fi eficiente în cazul maxim

Teoria și dezvoltare sunt concentrate la un nivel - domeniu independent . Pentru a plasa

problema în context, știm din cercetare cognitiv- științifice care generale și specializate

Funcția de cunoștințe în strânsă colaborare ( Perkins și Salomon 1989) . De ei înșiși,

Strategiile de domeniu independente , cum ar fi spargerea unei probleme complexe în

mai mici piese de schimb, sunt în mare parte utile, dar slab, servind mai ales în manipularea

problemelor de rutină .

În mod similar , cunoștințe specifice domeniului este puternic, dar fragil . Pe cont

propriu astfel de cunoștințe , este eficient în condiții foarte limitate. Când natura problemei

modificări astfel încât limitele domeniului sunt încălcate , această cunoaștere, prin ea însăși , este

nu mai este suficientă .

Ca urmare a acestei raționament , să fie cât mai eficientă , evaluarea formativă necesită

interacțiunea de principii generale , strategii și tehnici cu rezonabil adânc înțelegere cognitiv-

domeniu . Că adânc înțelegere cognitiv- domeniu include procesele , strategiile și cunoștințele

importante pentru competență într-o de domeniu, obiceiurile de spirit care caracterizează

comunitatea de practică în acest domeniu , și caracteristicile de sarcini care implica aceste

elemente . De asemenea, include cele specialitate

Aspecte ale cunoașterii domeniului centrale pentru a ajuta elevii să învețe

Această afirmație are cel puțin două implicații . Prima implicație este că un profesor

care are slab înțelegere cognitiv- domeniu este mai puțin probabil să știe ce întrebări să ceară de

studenți, ceea ce să caute într- performanța lor , ceea ce concluzii pentru a face din această

spectacol despre cunoștințele elevilor , și ce acțiuni să le ia pentru a ajusta instruirea .

A doua implicație este că instrumentele intelectuale și instrumentele dăm la cadrele

didactice pot diferi în mod semnificativ de la un domeniu la altul , deoarece acestea ar trebui să fi

reglate în mod specific pentru domeniul în discuție ( HODGEN și Marshall 2005) .

O abordare posibilă rezolvarea problemei domeniului de dependență este de a

conceptualiza și instantia evaluării formative în contextul domenii specifice. Orice cum ar

instanțiere ar include un model cognitiv -domeniu pentru a ghida substanța evaluării formative ,

progresii de învățare pentru a indica pași spre stăpânirea pe cheie componente ale modelului

cognitiv -domeniu , sarcini de a furniza dovezi despre studentul în picioare, cu privire la acele

progresii de învățare , tehnici de a se potrivi cu cea de fond domeniu, și un procedeu pentru

profesori pentru a pune în aplicare , care este strâns legată de cea precedentă materiale și , prin

urmare, la domeniul în cauză . La citire, de exemplu, modelul cognitiv-domeniu creat de O'Reilly

și Sheehan (2009) sugerează că o componentă cheie de competență este abilitatea de a folosi și

de a înțelege convențiile de text pentru diverse genuri - convingător, literar, informativ.

Pentru genul literar, o astfel de convenție ar fi capacitatea de a folosi și de a înțelege

Structura complot ca un ajutor înțelegere. O progresie de învățare ipoteza pentru care

capacitatea ar include următoarele etape: (1) determina ideea de bază a parcelei; (2)identifica

elemente cheie de complot (de exemplu, punctul culminant, rezoluție); și (3) să înțeleagă modul

în care evenimentele în legătură cu parcela avansa obiectivele autorului. O întrebare legat de

primul pas poate cere elevilor să rezume complot pentru un anumit text, si o tehnica specifice

domeniului de colectare a probelor suplimentare ar putea fi de a avea elevilor să completeze un

organizator grafic solicitând identificarea elementelor de complot pentru textul de alegerea

profesorului. Această abordare implică faptul că evaluarea formativă ar trebui să fie, în esență,

curriculumîncorporat, o poziție care Shepard (2006, 2008), a îmbrățișat și Shavelson (2008) a

ilustrat. Dar evaluării formative cât de strâns legată trebuie să fie la orice datăcurriculum este

nerezolvată. Poate fi viabil, de exemplu, pentru a furniza formare

Materiale de evaluare pentru ideile cheie sau înțelegerile de bază într-un domeniu, care

ar trebui să fie comun în întreaga programa. Care ar lăsa pe profesori să fie aplice potențial

strategii mai slab, domenii-generale la subiectele rămase sau, care lucrează prin comunitățile de

învățare profesor, de a crea propriile lor materiale formative, folosind cele furnizate ca modele.

Problema de măsurare

O definiție de bază de măsurare de învățământ este că implică patru activități :

proiectarea oportunități de a aduna probe , colectarea probelor, interpretând-o , și care acționează

asupra interpretări . Deși programele care vizează dezvoltarea de evaluare a cadrelor didactice

Capac alfabetizare o mare parte din acest teritoriu (de exemplu , Stiggins et al . 2006) ,

formative

Literatura de evaluare acordă prea puțină atenție că a treia activitate , în special la

Principiile fundamentale care înconjoară conexiunea de probe - sau ceea ce observăm

- Cu interpretările vom face din el . Această problemă a fost abordată mai devreme în

Contextul problemei eficienței , atunci când a fost menționat faptul că evaluarea

formativă nu este pur și simplu provocării probă, ci , de asemenea, faptul de a face concluzii din

care probe. Pentru că această idee este atât de fundamental , și doar la început să se integreze în

definiții ale evaluării formative (de exemplu , negru și Wiliam 2009 , 9 ) , ne-am reveni la ea

acum Evaluarea formativă , la fel ca toate măsurarea educațional , este un proces inferențial

deoarece nu putem ști cu certitudine ce înțelegere există în interiorul unui student cap

( Pellegrino , Chudowsky și Glaser 2001 , 42; Glasersfeld , citat în negru și Wiliam 2009 , 17-

18 ) . Putem face doar presupuneri bazate pe ceea ce observăm de la lucruri , cum ar fi

participarea clasă, lucru de clasă , temele , și testul de performanță .

De suport a validității ipotezelor noastre este mai puternică în măsura în care se constată

rezonabil consecvență în comportamentul elevilor în mai multe surse , ocazii și contexte . Astfel,

fiecare interacțiune profesor- elev devine o oportunitate pentru care prezintă și rafinarea

presupuneri noastre , sau ipoteze , despre ceea ce un student știe și poate face, în cazul în care el

sau ea trebuie să se îmbunătățească , iar ceea ce se poate face pentru a realiza această schimbare.

In capitolul de " clasă de evaluare " din a patra ediție a Educațional Măsurare, Shepard ( 2006)

atinge pe ceea ce ar putea fi numit " ipoteza de formare "( Bennett și Gitomer 2009) .

Centralitatea inferență în evaluarea formativă devine destul de clar atunci când ne ia în

considerare diferențele dintre erori, aluneca, concepțiile greșite și a lipsei de înțelegere.

O eroare este ceea ce observăm elevii să facă - unele diferențe între un dorită răspuns și

ce un student prevede. Eroarea observăm poate avea una din mai multe Cauzele care stau la baza.

Printre alte lucruri, aceasta ar putea fi o alunecare - care este, un neglijent procedurală greşeală;

sau o concepție greșită, o anumită confuzie conceptuală sau de procedură persistentă

(Sau de vedere naiv); sau o lipsă de înțelegere în formă de un pic lipsă de conceptual

sau cunoștințe procedurale, fără nici o concepție greșită persistente. Fiecare dintre aceste cauze

implică o acțiune de instruire diferit, de la feedback-ul minim (de alunecare), pentru a reteaching

(Pentru lipsa de înțelegere), pentru a investițiilor semnificative necesare pentru a inginer o

schimbare cognitivă mai profundă (pentru greșită) .11 Punctul cheie, cu toate acestea, este faptul

că orice atribuirea unei cauze care stau la baza este o deducție, o "ipoteză formativ", adică poate

fi testată prin evaluarea ulterioară. Că evaluarea ulterioară ar putea, de exemplu, implica cere

explicații studentului cu privire la motivul care el sau ea a ales să răspundă într-un mod special

(făcând astfel studentul partener în evaluare formativă); administrare mai multe sarcini și în

căutarea unui model de răspunsuri în concordanță cu ipoteza; sau referitoare la eroarea alte

exemple de performanță studentului.

Este de remarcat faptul că generarea și testarea ipotezelor despre elev înțelegerea se face

mai puternică în măsura în care profesorul are un bine dezvoltat,

Modelul cognitiv -domeniu . Un astfel de model poate ajuta directiona un ciclu iterativ ,

în care profesor observă comportamentul , formulează ipoteze cu privire la cauzele incorecte

răspunde, sonde suplimentare, și revizuiește ipotezele inițiale . În plus , în cazul în care activul

suport

Modelul este teoretic de sunet, acesta poate ajuta pe elev reducere profesor răspunde

care poate fi nu mai mult zgomot potențial înșelătoare (de exemplu , fișele de care nu au nici

adâncă semnificație formativă) . deducții formative nu sunt supuse numai la incertitudine , ele

sunt , de asemenea, supuse, influențe irelevante sistematice care pot fi asociate cu sexul , rasa ,

etnie , dizabilitate, competență în limba engleză , sau alte caracteristici de student . Pune simplu,

acțiuni de formare a profesorilor poate fi părtinitoare în mod neintenționat . Un profesor poate

mai mult sau mai mai judeca efficaciously calificare elev pentru unii, spre deosebire de alte

grupuri , ( Bennett și colab . 1993) , cu consecințe pentru modul corespunzător este modificat de

instruire și învățare facilitată. Un astfel de rezultat este ușor de imaginat atunci când profesorul

doar limba este engleza și student este un elev limba engleză . Pentru acești studenți , erori în

rezolvarea problemelor de matematică poate fi uneori înrădăcinată în elevului lingvistică , mai

degrabă decât conceptuală , neînțelegere a problemei prezentate sau lecție ( Martiniello 2008) , o

subtilitate profesorul poate dor cu ușurință .

Putem, deci, face evaluarea formativă mai principială, de la o măsurare perspectivă, prin

recunoașterea faptului că caracterizari noastre de studenți sunt inferențe și că, prin însăși natura

lor, deducții sunt incerte și, de asemenea, obiectul unor neintenționată prejudecăți. Putem tolera

incertitudine mai mult, și chiar părtinitoare, în deducții noastre, când consecințe ale eroare de

judecată sunt scăzute, iar deciziile bazate pe el sunt reversibile.

Astfel de condiții sunt cu siguranță adevărat de contexte formative. Acestea fiind spuse,

mai siguri și imparțial suntem, cu atât mai eficient, putem ajusta instruirea - ce-și petreacă timpul

încercarea de a corecta o concepție greșită atunci când eroarea a fost doar din cauza unei

alunecare procedural sau la o neînțelegere lingvistică? Având în vedere acest fapt, ar trebui să

încercăm tot posibilul să scadă incertitudine și prejudecată prin luarea în considerare a datelor

din mai multe surse, ocazii, si contexte; de împământare acțiune într-un model cognitiv-domeniu

de sunet, în mod ideal una care reprezintă diferente intre grupuri de studenți; și, acolo unde este

posibil, prin obtinerea de intrare de la alții ceea ce privește semnificația răspunsurilor la grupurile

de studenți despre care am sunt mai puțin informat.

Problema dezvoltare profesională

O mare parte din literatura de specialitate privind evaluării formative ea conceptualises

ca o activitate în mod esențial înrădăcinată în cunoaștere pedagogică (de exemplu , negru și

Wiliam 1998c ) - adică, în calitate de pur și simplu procesul de predare bună . Am susținut că o

astfel de nevoi conceptualizare

De asemenea, pentru a include înțelegerea profundă în mod rezonabil cognitiv -domeniu

și cunoașterea fundamentale de măsurare . cererea mea , în esență, este faptul că un subset al

acestor trei competențe este puțin probabil să lucreze .

În cazul în care această afirmație este adevărată , cum putem dezvolta cele mai bune

practici de evaluare formativă profesorilor ?

O întrebare cheie în acest sens este dacă componentele pot fi efectiv adresat semi -

independent . De exemplu , KLT se concentrează în principal pe pedagogical-aspect cunoaștere a

practicii . Formativ -evaluare cunoștințelor pedagogice este conectat la domeniul înțelegere, prin

profesorul centrată pe disciplina comunități de învățare ( a se vedea , de asemenea, Harrison

2005) . Cu toate acestea , domeniul profundă înțelegere Este puțin probabil să ducă , dacă nu este

deja prezentă , deoarece o astfel de înțelegere nu este formal încorporat în programul . Mai

degrabă , dezvoltarea domeniului înțelegere este văzut ca un " bonus " , spre deosebire de un

obiectiv vizat de program ( Wiliam și Thompson 2008 , 74 ) . fundamentele de masurare , de

asemenea, nu sunt direct abordate în mod sistematic .

Abordarea pedagogică - cunoaștere poate fi foarte bine sensibilă din punct de vedere

practic perspectivă. În mod intenționat încearcă să dezvolte cunoștințele pedagogice , domeniu

profund înțelegere , și de măsurare fundamentele simultan poate fi mai mult decât orice un

program profesional - dezvoltare poate livra în mod rezonabil . La cel mai mic , preservice

formarea cadrelor didactice are un rol central în dezvoltarea unei fundații mai fermă pe care

programele de formare continuă pot construi ulterior .

O problemă conexă este timpul. Chiar dacă putem găsi o modalitate practică de a ajuta

profesorii construirea calificare pedagogică , înțelegere aprofundată a domeniului , și un

sentiment de fundamentele de măsurare , profesorii au nevoie de timp semnificativ . Ei au nevoie

de timp pentru a pune această cunoaștere, aptitudini, și înțelegerea de a practica , de exemplu , să

învețe să folosească sau adaptarea intenționat construite, materiale de formare de evaluare pe

baza de domeniu . Astfel de materiale ar putea includ elemente , seturi de sarcini integrate ,

proiecte, teste de diagnosticare , precum și de observatie si ghiduri de interpretare . Profesorii au

nevoie de asemenea, de timp pentru a reflecta asupra experiențelor lor cu aceste materiale . Daca

vom putea obtine profesori să se angajeze în cicluri iterative de utilizare , de reflecție , adaptare ,

și eventuala creare - toate înrădăcinată ferm în sens cognitiv -domeniu

Modelele - am putea avea un mecanism potențial pentru a ajuta cadrele didactice să

integreze mai bine Procesul și metodologia evaluării formative cu domeniul înțelegere profundă

Problema sistemului

Acest ultim aspect poate fi cea mai mare provocare din toate. "Problema de sistem" se

referă la faptul exista, ca evaluarea formativă într-un context educațional mai larg. În cazul în

care acest context este de a funcționa eficient în educarea elevilor, componentele sale trebuie să

fie coerent (Pellegrino, Chudowsky și Glaser 2001, 255). Gitomer și Duschl (2007) descriu două

tipuri de coerență, interne și externe. Componentele de evaluare pot fi considerate coerent pe

plan intern, atunci când acestea se susțin reciproc; cu alte cuvinte, formative iar evaluările

sumative trebuie aliniate una cu cealaltă. aceste componente trebuie să fie, de asemenea, pe plan

extern coerent, în sensul că formative și evaluările sumative sunt în concordanță cu teoriile

acceptate de învățare, precum și cu prim punct de vedere social rezultatele învățării. coerență

externă, desigur, de asemenea, se aplică și altor componente ale sistemului, inclusiv instituțiile

de formare pre-service, care trebuie să le ofere cadrelor fundamentale abilități de care au nevoie

pentru a sprijini și de a folosi evaluare în mod eficient. În orice caz, în cazul în care aceste două

tipuri de coerență nu sunt prezente, componente ale sistemului fie va locul de muncă împotriva

una de alta sau locul de muncă împotriva obiective sociale mai mari. O realitate comună în

sistemele de învățământ de astăzi este faptul că, din motive practice, Testele de sinteză sunt

relativ scurte și, în principal, cu mai multe variante sau formate cu răspunsuri scurte. Aproape

inevitabil, aceste teste va masura un subset al curriculum destinate, omițând procese importante,

strategii și cunoștințe care nu poate fi evaluată în mod eficient în acest mod (Shepard 2008).

Integrarea calificare și coordonare strategică, de exemplu, sunt susceptibile de a fi dat shrift

scurt. De asemenea, aproape în mod inevitabil, instruire clasă și evaluării formative vor fi

aliniate la subset și, în consecință, potențialul evaluării formative a genera schimbare profundă

vor fi reduse.

Astfel, eficiența evaluării formative va fi limitat de natura sistem mai mare în care este

încorporat și, în special, de conținutul, formatul și de proiectare a testului responsabilitate

(Bennett și Gitomer 2009). În cele din urmă, trebuie să schimba sistemul, nu doar abordarea

luăm la formative de evaluare, dacă dorim pentru a avea un impact maxim asupra învățării și

instrucțiuni. Schimbarea mijloacele de sistem refacerea testele noastre de responsabilitate și că

este într-adevăr o provocare foarte mare.

Concluzie

Termenul , "Evaluarea formativă " , nu reprezintă încă un set bine definit de artefacte

sau practici . O definiție semnificativ necesită o teorie a acțiunii și unul sau mai mulți

instantiations beton. Atunci când avem aceste componente în loc, avem ceva utile pentru a pune

în aplicare și pentru a studia. Programul de KLT (ETS 2010) oferă o astfel de definiție pentru o

categorie a evaluării formative. Este nevoie de mai mult de lucru de genul asta pentru a împinge

campul.

În al doilea rând, o interpretare mai circumspect al cercetării eficienței ar fi că practicile

generale asociate cu evaluarea formativă poate, în conformitate cu dreptul Condițiile, pentru a

facilita învățarea. Cu toate acestea, beneficiile pot varia foarte mult în natură și mărime de la

unul implementarea specifică a evaluării formative la alta și de la un subpopulație de elevi la

altul. (Ca un exemplu, să ia în considerare variația extinse în eficacitatea feedback.) De

asemenea, mărimea frecvent realizate cantitativ cererile de eficacitatea evaluării formative este

suspectă, pentru a spune cel mai puțin. Cel mai citate frecvent revendicare efect de mărime a 0.4

- .7 abateri standard nu este nici semnificativ ca o reprezentare a impactului unei singure clase

definite de bine de tratamente, nici ușor urmărite la orice sursa inspectible, empiric. Alte surse

empirice sunt datat, nepublicate, metodologic eronate, populațiile țintă mai în vârstă, sau o

emisiune Efecte mai mici decât susținători cita. În cele din urmă, argumentul de valabilitate,

precum și probele care sprijini aceasta - ambele din care ar trebui să fie în mod logic cheie pentru

orice teorie a acțiunii de formare

Evaluarea - sunt, în general absente. Având în vedere aceste fapte, ca cercetători avem

nevoie pentru a fi mai responsabil în cererile noastre de eficacitate și, în calitate de educatori,

mai puțin imediat acceptarea dintre cei care împinge prea auto-siguranță pentru adoptarea rapidă.

În al treilea rând, înrădăcinare evaluării formative în competențe pedagogice singur este,

probabil, insuficient.

Mai degrabă, evaluarea formativă ar fi conceptualizat mai profitabil și instanțiat în

diverse domenii specifice. De exemplu, într-un număr special al Aplicată Măsurare în Educație,

Shavelson si colegii sai descriu încorporarea de formare Evaluarea într-un curriculum utilizat pe

scară largă, inovator Abordări în știință Predare (Shavelson 2008). ETS "CBAL (evaluare bazată

cognitiv de, de, si ca de învățare inițiativă), care este construirea evaluări din cognitivedomain

cross-curriculare Modelele, oferă un al doilea exemplu (Bennett 2010). Evaluarea al patrulea

rând, formativă presupune să deducții despre ce știu elevii și poate face. Prin urmare, evaluarea

formativă este evaluarea, cel puțin în parte. Acest lucru implică faptul că principiile de măsurare

relevante ar trebui să dau central în conceptualizarea sa și instanțierea. Încorporează principii de

măsurare nu înseamnă că valabilitate trebuie sacrificat pentru fiabilitate, ca unii pledeaza tem,

sau că inadecvat concepte psihometrice, metode, sau standardele de rigoare destinate pentru alte

evaluări trebuie aplicate scopuri. Dar aceasta nu înseamnă că ar trebui să includă, mai degrabă

decât ignora, principiile fundamentale relevante

În al cincilea rând , profesorii nevoie de cunoștințe în mod substanțial la punerea în

aplicare a evaluării formative în mod eficient în sălile de clasă . Este îndoielnic faptul că

profesorul are in medie aceste cunoștințe , astfel încât cei mai mulți profesori vor avea nevoie de

perioada considerabila de timp si de sprijin pentru a -l dezvolte. In plus , profesori vor avea

nevoie de materiale de clasă utile care modelează integrarea pedagogică , domeniu , și măsurarea

cunoștințelor ( de exemplu , sarcini în dezvoltare ordonate că poate ajuta sa faca deductii despre

ce știu elevii cu privire la domeniul cheie competențe , și aproximativ ce urmeaza a viza pentru

instrucțiuni) .

În cele din urmă , trebuie să ne explica faptul că există evaluării formative într-un

educațional context. În cele din urmă , trebuie să regândim evaluare de la zero ca un sistem

coerent , în care evaluarea formativă este o parte critica , dar nu singurul critic parte.

O închidere potrivit pentru această lucrare vine de la Shavelson ( 2008) . Referindu-se la

sa experiență în crearea , implementarea și studierea efectelor evaluării formative , el scrie:

Cu alte cuvinte , "Evaluarea formativă " este în același timp conceptual și practic încă

un lucrează în curs de execuție . Acest fapt înseamnă că trebuie să fie mai sensibil la

revendicările noastre despre ea ,precum și în așteptările noastre pentru el . Acest fapt , de

asemenea, înseamnă că trebuie să continue greu de lucru necesare pentru realizarea promisiunea

considerabile .

evaluare formativa-articol 2011

Documents