Zmena hodnotenia testu z matematiky bola zbytočná a odborne pomýlená /marec 2011/

[ 9.4.2011, Vladimír Burjan, Vláda a reforma]

Postup NÚCEM-u pri hodnotení matematického testu v tohtoročnom Testovaní 9 vyvolal vlnu nevôle medzi učiteľmi a žiakmi. Pokúsim sa stručne a zrozumiteľne vysvetliť niektoré princípy teórie školských testov, z ktorých vyplýva, že postup NÚCEM-u bol zbytočný, kontraproduktívny a z odborného hľadiska nesprávny.


Pre tých, čo túto „kauzu“ nezachytili, stručná rekapitulácia: po vyhodnotení tohtoročného Testovania 9 sa ukázalo, že tri úlohy (z dvadsiatich) v matematickom teste mali veľmi nízku úspešnosť. Presné čísla zatiaľ nepoznáme, ale zrejme tieto úlohy zvládlo menej ako 10 % žiakov. Pracovníci NÚCEM-u boli tou¬to skutočnosťou zjavne zaskočení (v minulosti sa ešte takéto nízke úspešnosti v Testovaní 9 nevyskytli), videli v tom problém a cítili potrebu ho riešiť. Rozhodli sa preto uvedené tri úlohy anulo-vať, a to takým spôsobom, že všetkým deviatakom za ne automaticky pripísali po 1 bode. (Všetky úlohy v teste boli jednobodové.) Pedagogická verejnosť na tento krok zareagovala dosť kriticky. Časť učiteľov mala pocit, že vo vyhodnotení sú chyby (až dodatočne sa vyjasnilo, že nejde o chybu, ale o zámernú zmenu hodnotenia). Ďalší namietali, že tí žiaci, ktorí sa s problematickými úlohami počas testovania trápili a vyriešili niektoré z nich správne, sú úpravou hodnotenia znevýhodnení (čo je pravda). No a veľká časť pedagógov podozrieva NÚCEM, že záme¬rom tohto kroku bolo umelo zdvihnúť priemernú úspešnosť testu z matematiky, ktorá by inak bola „nežiaduco“ nízka.

V tejto súvislosti sa vynára niekoľko otázok: bola nízka úspešnosť troch otázok naozaj problémom? Bolo potrebné na tento problém reagovať úpravou hodnotenia? Ak áno, aké boli možnosti? Bol zvolený postup správny? Aby sme na tieto otázky mohli odpovedať, musíme si najskôr položiť a zodpove¬dať jednu dôležitú otázku ohľadom spomínaného testu: chce byť Testovanie 9 overovacím testom (t. j. testom absolútneho výkonu) alebo rozlišovacím testom (t. j. testom relatívneho výkonu)? Táto skutočnosť má totiž zásadný vplyv na to, ako narábame pri tvorbe a vyhodnocovaní testu s položkami, ktoré majú príliš vysokú alebo príliš nízku úspešnosť.


1. Predpokladajme na chvíľu, že Testovanie 9 chce byť overovacím testom.

Cieľom overovacieho testu je overiť, do akej miery zvládli konkrétni jednotlivci (alebo celá populácia) po-žiadavky dané kurikulom a štandardmi. Pri tvorbe takéhoto testu sa preto striktne vychádza z kurikula a zahrňuje sa do neho všetko podstatné, čo sa mali žiaci naučiť. Na obťažnosť jednotlivých položiek sa pritom neprihliada – tá vyplýva z obťažnosti jednotlivých častí učiva. Jednoducho povedané: ak kurikulum predpisuje, že sa žiaci niečo mali naučiť, tak to máme testovať. A výsledky ukážu, do akej miery sa to naozaj naučili. Hovoríme, že meriame absolútny výkon respondentov, teda ich výkon vo vzťahu ku štandar¬dom a ku kurikulu, nie vo vzťahu k iným respondentom. Tomuto cieľu musí byť prispôsobená aj konštrukcia testu. Jeho autori pri tvorbe testu neriešia náročnosť položiek, ale sa maximálne sústreďujú na to, aby presne odrážali predpísané učivo. Výsledky takéhoto testu slúžia na to, aby sme o konkrétnom žiakovi (alebo o celej populácii) vedeli čo najpresnejšie povedať, čo z učiva zvládol a čo nie. Výsledky sú teda predovšetkým ukazovateľom rozsahu a kvality vedomostí konkrétnych žiakov, ale aj efektívnosti vzdelávacieho systému, či primeranosti kurikula. Výsledky takéhoto testu sa však nehodia (z viacerých dôvodov) na porovnávanie žiakov navzájom.

Ako by sa teda bolo malo postupovať s troma príliš ťažkými úlohami v prípade, keby Testovanie 9 bolo overovacím testom? V prvom rade by sa malo preskúmať, či otázky skutočne boli v súlade s kurikulom a s výkonovými štandardmi. Ak neboli, takéto položky nemali v teste čo robiť a bola by to pomerne vážna chyba autorov testu. V takomto prípade by asi bolo zmysluplné položky anulovať. Určite by však bol vhodnejší iný spôsob, než zvolil NÚCEM, a síce vyškrtnúť ich z testu, nikomu za ne nezarátať žiadne body a maximál¬ny možný počet bodov znížiť na 17. Nedošlo by tak k umelému „nafúknutiu“ úspešnosti, ktoré sa mnohým (oprávnene) nepozdáva. A počet žiakov, u ktorých sa upravuje skóre, by bol minimálny. Títo žiaci by však neboli vyradením úloh nijako poškodení, pretože pri overovacom teste sa výsledky žiakov navzájom neporovnávajú. Ak by sa však ukázalo, že otázky boli plne v súlade s kurikulom a štandardmi, potom sa s nimi nemalo robiť nič. Jednoducho odhalili isté časti učiva, ktoré sme síce plánovali žiakov naučiť, v praxi sa nám to však nepodarilo. To však rozhodne nie je dôvod na zmenu hodnotenia, ktoré iba objektívne odráža úroveň vedomostí žiakov v daných oblastiach. Malo by sa však niečo urobiť buď s kurikulom, ktoré je príliš ambiciózne a preplnené, alebo s hodinovou dotáciou, ktorá mu nezodpovedá, alebo s metódami vyučovania. Rozhodne však nie so samotnými úlohami. Poslov zlých správ netreba zabíjať, treba im načúvať...


2. Predpokladajme na chvíľu, že Testovanie 9 chce byť rozlišovacím testom.

Cieľom rozlišovacieho testu je zmerať úroveň istých vedomostí či schopností v danej skupine žiakov a čo najviac zvýrazniť rozdiely medzi žiakmi, rozlíšiť ich od seba navzájom. Tento typ testov sa používa najmä na prijímacích skúškach, keď počet uchádzačov prevyšuje počet voľných miest. Cieľom tohto typu testu nie je vypovedať o jednotlivcoch, čo konkrétne z kurikula zvládli a čo nie. Cieľom je vhodným sumárnym údajom (testovým skóre) vyjadriť ich celkovú úroveň, a to tak, aby meranie čo najviac zvýraznilo rozdiely medzi tými s najvyššou úrovňou a tými s najnižšou úrovňou. V tomto prípade meriame relatívny výkon respondentov, teda ich výkon v porovnaní s inými respondentmi, nie vo vzťahu ku štandardom a kurikulu. Tomuto cieľu musí byť prispôsobená aj konštrukcia takéhoto testu. Pri jeho tvorbe sa (na rozdiel od overujúceho testu) kladie veľký dôraz na primeranú obťažnosť položiek. Do rozlišovacieho testu by totiž mali byť zaradené iba stredne náročné položky, s úspeš¬nosťou okolo 50 – 60 %. Príliš ľahké a príliš ťažké položky do takéhoto testu nepatria. Prečo? Pretože nepomáhajú rozlíšiť dobrých a slabých. Ak 90 % žiakov zodpovie nejakú otázku nesprávne, skoro nič sa z toho nedozvieme o rozdieloch v ich vedomostiach či schopnostiach. Taká položka zbytočne zabrala vzácne miesto v teste a ni¬čím neprispela k jeho rozlišovacej schopnosti. To isté platí o príliš ľahkých položkách. Pri tvorbe kvalitného rozlišovacieho testu by sa preto malo postupovať tak, že sa položky vopred pilotujú (overujú) na vzorkách respondentov, aby sa empiricky zistila ich obťažnosť. Príliš ľahké a príliš ťažké položky sa potom v ostrom teste nepoužijú.

Ako by sa teda malo postupovať s troma príliš ťažkými úlohami v prípade, keby Testovanie 9 bolo rozli-šovacím testom? Nuž, v takom prípade by sa v ňom také ťažké otázky vôbec nemali objaviť. Bola by to konštrukčná chyba testu, ktorá padá na hlavy jeho autorov. Ak by sa to však už stalo, rozhodne by bolo naj¬rozumnejšie nemeniť ich hodnotenie. Prečo? Pretože aj keď má položka úspešnosť iba 10 %, predsa len aspoň trochu rozlišuje (odlíšila tých 10 % najlepších, ktorí ju vyriešili, aj keď všetkých ostatných „hodila do jedného vreca“). Ak za ňu dáme všetkým bod, vyrobíme tým položku, ktorá nediskriminuje (nerozlišuje) ani trochu, teda z hľadiska rozlišovacieho testu tú najhoršiu možnú položku. Ak by sme sa teda na Testovanie 9 pozerali ako na rozlišovací test, bol krok NÚCEM-u nezmyselný a kontraproduktívny: z troch zle rozlišujúcich položiek vyrobili tri vôbec nerozlišujúce položky a zbytočne tak celkovú rozlišovaciu schopnosť testu ešte viac znížili. Zhoršili tak jeho (aj tak už dosť slabú) použiteľnosť pre účely prijímacích skúšok.

Možno si kladiete otázku, prečo sme zbytočne uvažovali aj o rozlišovacích, aj o overovacích testoch a ne-skúmali iba ten prípad, ktorý sa vzťahuje na Testovanie 9. Odpoveď je jednoduchá: Testovanie 9 je akýmsi čudesným hybridom oboch týchto typov. Na jednej strane sú stredné školy vyzývané, aby ho zohľadňovali v prijímacom konaní, čo je možné iba pri rozlišovacom teste. Na druhej strane sa každý rok na tlačových konferenciách robia z výsledkov Testovania 9 závery o úrovni vzdelávania v SR, čo je možné iba pri overovacom teste. Pri rozlišovacom teste je to nezmyselné, pretože ten musí byť zámerne konštruovaný tak, aby jeho úspešnosť bola okolo 50 – 60 %! A ak si myslíte, že v našich ekonomických podmienkach je rozumným riešením zabiť dve muchy jednou ranou a vytvoriť akýsi univerzálny „overovaco-rozlišovací“ test, musím vás sklamať: z mnohých principiálnych dôvodov nie je možné, aby akýkoľvek školský test bol súčasne dobrým rozlišovacím aj dobrým overovacím testom. Aj z toho mála, čo sme tu uviedli, je zrejmé, že overovací test musí byť konštruovaný a vyhodnocovaný celkom inak ako rozlišovací. Snaha vytvoriť jeden test pre oba účely musí nutne skončiť jediným spôsobom: vytvorením testu nevhodného na oboje, čo je, žiaľ, prípad nášho Testovania 9.

Takže, aby som to zhrnul: v danej situácii bolo jednoznačne najrozumnejšie neurobiť vôbec nič. Pone-chať tri úlohy tak, ako dopadli a nemeniť hodnotenie. Namiesto toho sa otvorene a do hĺbky porozprávať o tom, čo tie tri problematické úlohy tes¬tovali, či sú naozaj v súlade s kurikulom a štandardmi, prečo ich žiaci nezvládli, čo sa s tým bude do budúcnosti robiť, kto tvoril testy, či autori testu rozumejú princípom tvorby školských testov (a nielen matematike), či boli otázky pilotované, no najmä: či má byť Testovanie 9 do budúcnosti overovacím alebo rozlišovacím testom. To všetko by bolo bývalo omnoho užitočnejšie ako neuvážená zmena hodnotenia, ktorá mnoho učiteľov a žiakov nahnevala a nič pozitívne nepriniesla. A odvolávanie sa na to, že takýto postup používajú aj renomované zahraničné inštitúcie, je celkom zavádzajúce. Príliš ťažké (a príliš ľahké) úlohy sa síce naozaj škrtajú, avšak predovšetkým vo fáze pilotovania a zosta¬vo¬vania testu. Dodatočné vyraďovanie takýchto úloh počas vyhodnocovania môže mať opodstatnenie jedine vtedy, ak sa používajú celkom iné metódy hodnotenia testov (napr. IRT a iné parametrické modely). Aplikovať takýto postup v rámci tzv. klasického modelu používaného u nás je celkom nenáležité.

Autor je riaditeľom spoločnosti EXAM testing.