-
Kodni sistem
Slovenska knjizevnost
Avtorji
Urednistvo <-> bralci

Jezik in slovstvo
Razprave in clanki
Jezik in slovstvo
Kazalo letnika
 
Zadnja verzija


 -



Zdenko Lapajne, zasebni raziskovalec v Ljubljani
Urska Zobec, Republiski izpitni center v Ljubljani
UDK 372.880:371.274/.276



Analiza izbranih maturitetnih postavk



 - Zunanje preverjanje znanja v slovenskih solah terja od uciteljev in kriticne javnosti poleg znanja o ucni snovi in nacinih poucevanja tudi vec znanja o tem, kako znanje preverjamo in vrednotimo. Se bolj so se povecale zahteve po takem znanju pri tistih izvedencih, ki pri zunanjem preverjanju --- hote ali nehote --- prevzemajo odgovornejse in kritiki bolj izpostavljene vloge sestavljalcev nalog, ocenjevalcev izdelkov in clanov izpitnih komisij na razlicnih ravneh.

Za kakovostno meritev izobrazevalnih ucinkov daljsega izobrazevalnega procesa je potrebno, da ucitelji in nacrtovalci meritev kolikor je mogoce soglasajo o izobrazevalnih ciljih in o didakticnem izboru najvaznejse ucne snovi, katere znanje upraviceno pricakujemo od ucenca (tudi: dijaka ali studenta) zlasti v primeru, ko je od pouka minilo ze razmeroma veliko casa. To je se posebno pomembno pri tistih meritvah znanja in drugih lastnosti, na podlagi katerih se sprejemajo za kandidata in njegov razvoj zelo pomembne odlocitve. Od izvedencev, ki sodelujejo pri nacrtovanju in izvedbi taksnih meritev, delo zahteva tudi vednost o razlicnih nacinih preverjanja znanja; ta pa je uporabna le, ce je organsko prepletena s strokovnim poznavanjem ucnega predmeta in razvojne stopnje ucencev, ki jim je meritev namenjena.

Kakovostna meritev znanja je praviloma skupinsko delo, pri katerem od izvedencev za posamezne predmete sicer ne moremo pricakovati specialisticnega in dokaj tehnicnega znanja s podrocja teorije meritev v pedagogiki in psihologiji, informatike ali matematicne statistike. Prav tako od izvedencev za ta vprasanja ne moremo pricakovati poglobljenega studija dolocenega solskega predmeta, katerega znanje preverjamo; vendar neposredno in posredno prizadetim koristi, ce programi zunanjega preverjanja znanja nastajajo v ozracju tvornega sodelovanja med izvedenci razlicnih disciplin. Pisca --- psiholog in sociologinja --- sva prispevek pripravila za strokovni posvet o maturi, ki je bil v Skofji Loki 8. in 9. decembra 1995. Dopolnila sva ga po razpravah v delovnih skupinah za druzboslovje in jezikoslovje in temeljitih pripombah tedanjega predsednika republiske predmetne komisije Janeza Dularja. Bralec, ki bolje od naju obvlada jezikoslovje in pouk slovenskega jezika in knjizevnosti, bo prav gotovo lahko obogatil pripombe k posameznim postavkam; najin glavni namen je bil, da taksne bralce seznaniva s kolicinskimi pristopi k merjenju znanja na kolikor je mogoce nazoren nacin. Clanom omenjenih skupin se zahvaljujeva, odgovarjava pa za morebitne preostale napake.


Analiza testnih postavk

Splosni pojem »kakovostna meritev« v bolj strokovnem izrazju delimo na posamezne lastnosti meritev, kot so objektivnost, zanesljivost in veljavnost, ter lastnosti z njimi podprtih pedagoskih odlocitev, kot sta pravicnost in sprejemljivost za vrednostni sistem prizadetih.

Analiza testnih postavk je mocno orodje, ki lahko postopoma privede do boljsih meritev izobrazevalnih dosezkov. Ceprav njene izide dobimo sele po opravljeni meritvi, lahko kriticnim analitikom daje stevilne namige, kako je mogoce izboljsati pouk in meritve v prihodnosti ter izlociti tiste nacine preverjanja znanja, ki so se izkazali za manj primerne. Naloge z zadovoljivimi znacilnosti v dolocnem vzorcu lahko shranimo v »banko«; »vloge« se nam lahko v naslednjih letih »obrestujejo« tako, da bo izdelava kakovostnih in v casu primerljivih merskih postopkov hitrejsa in cenejsa. Seveda to velja le za tiste, ki so v banko vlozili dovolj veliko »premozenje« in jim ga niso razvrednotile nenehne sprememembe ucnih ciljev in snovi.

Izvedenci za razvoj meritev v pedagogiki in psihologiji pogosto porocajo o izidih analize testnih postavk, izrazenih s stevilkami. Pri tem pricakujejo od izvedencev za pouk in preverjanje znanja pri posameznih predmetih ne le obvladovanje genericnih pojmov, kot so tezavnost, diskriminativnost, objektivnost in zanesljivost, temvec tudi precej podrobno znanje o razlicnih statisticnih postopkih, ki jih moramo izbrati v skladu z naravo podatkov.

Tak nacin sporocanja pogosto povzroci tezave pri sporazumevanju in celo spore o tem, »kaj je v cigavi pristojnosti«. Taksni spori najveckrat ne vodijo k boljsim meritvam, ker splosni izvedenci za merjenje sami, brez ustvarjalnih poznavalcev dolocenega ucnega predmeta, ne morejo razviti boljsih meritev; predmetni specialisti pa brez uporabnega merskega znanja pogosto porabijo veliko casa za ukrepe, ki zal ne vodijo do boljse meritve.

Strokovna literatura o merjenju znanja in drugih cloveskih lastnosti postaja cedalje bolj tehnicna in matematizirana, tako da zlahka odvrne zlasti izvedence za pouk druzbenih ved, jezikov ali umetnosti. Zato sva se odlocila, da bova v tem prispevku skusala uvesti bralca v analizo testnih postavk intuitivno in graficno podprto --- med statisticnimi pojmi se bova zadovoljila ze z aritmeticno sredino.


Kaj je postavka?

Tako slovenska strokovna literatura kot dosedanja raba v razlicnih predmetnih komisijah kaze na nedosledno poimenovanje delov testa oz. v nasem primeru maturitetnega izpita. Srecamo izraze naloga, vprasanje, problem, tema in se bi se kaj naslo. Razmeroma pogosto tisto, kar imenujemo naloga ali vprasanje, vsebuje vec delnih nalog ali podvprasanj.

Za primer si oglejmo zacetek analize neumetnostnega besedila v okviru junijskega maturitetnega preizkusa iz slovenskega jezika s knjizevnostjo. Kandidat je najprej prebral daljse besedilo o idrijskih starozitnostih, potem pa naj bi odgovoril na prvo nalogo, sestavljeno iz petih trditev:


(Stev. tock)
1.  Obkrozite crke samo pred tremi odgovori, ki ustrezajo vsebini prilozenega besedila.
  a)  Idrijska kamst je najstarejsa v Evropi.
  b)  Premer njenega kolesa znasa 12,5 metra.
  c)  Ohranjena kamst je danes v Idriji edina, vcasih pa jih je bilo se vec.
  c)  Angleski potopisec Walter Pope je bil med obcudovalci idrijskih znamenitosti.
  d)  Idrijska kamst se ni vpisana v register svetovne dediscine pri Unescu.
   (6)


Zunanji ocenjevalec je po tockovniku presodil, ali crke, ki jih je obkrozil kandidat, oznacujejo trditve z oporo v prebranem besedilu. V tem primeru je dobil kandidat dve tocki za vsako pravilno oznaceno trditev. Skupno stevilo tock za vseh pet trditev, ki lahko zavzame vrednosti {0, 2, 4, 6}, je ocenjevalec vpisal v list za odgovore, ki ga je mogoce brati z opticnim citalcem.

V iskanju primernega izraza za angleski item (ki se v strokovni terminologiji siri tudi v druge evropske jezike, npr. v nemscino) bova postavko opredelila kot najmanjsi del izpitne pole, ki ga samostojno tockujemo. V primeru z opisanim nacinom tockovanja imamo torej eno samo postavko.

Stevilo tock, ki ga je kandidat dobil z odgovorom na neko postavko, imenujemo njegov dosezek na postavki (angl. item score).

Poudariti je treba, da na vprasanje Kaj je postavka? odgovarjajo sestavljalci izpitne pole in tockovnika, ne pa analitiki. Zgornjih pet trditev bi bilo namrec mogoce tockovati tudi na vec drugacnih nacinov; eden med njimi je, da bi ocenjevalec pri vsaki trditvi posebej ugotovil, ali kandidatov odgovor ima oporo v prebranem besedilu ali je nima. Pravilno oznacena trditev bi stela denimo eno tocko:


(Stev. tock)
Obkrozite crke samo pred tistimi odgovori, ki ustrezajo vsebini prilozenega besedila.
  1.  Idrijska kamst je najstarejsa v Evropi. (1)
  2.  Premer njenega kolesa znasa 12,5 metra. (1)
  3.  Ohranjena kamst je danes v Idriji edina, vcasih pa jih je bilo se vec. (1)
  4.  Angleski potopisec Walter Pope je bil med obcudovalci idrijskih znamenitosti. (1)
  5.  Idrijska kamst se ni vpisana v register svetovne dediscine pri Unescu. (1)


Pri takem nacinu tockovanja imamo pet postavk, tocke pa lahko sesteva ali kako drugace preracunava kasneje racunalnik. Na odlocitve o opredelitvi postavk lahko potemtakem razen vsebinskih razlogov vplivajo tudi administrativni, pa se kaksna omejitev uporabljene tehnologije.


Empiricna karakteristicna funkcija postavke

Dosezke kandidata pri vseh postavkah, ki sestavljajo izpit nekega predmeta, sestejemo in dobimo njegov testni dosezek (angl. test score). Pri tem nas ne zanimajo podrobnosti o tem, kako je izpit sestavljen z vidika odmorov, tehnicne ureditve izpitnih pol in delitve dela med zunanjimi ocenjevalci; zanimajo nas vsi podatki, ki stejejo pri dolocitvi kandidatove koncne ocene.

Empiricna karakteristicna funkcija postavke je graf, pri katerem na abscisni osi prikazemo testni dosezek X, na ordinatni pa aritmeticno sredino dosezkov na neki postavki g, ki so jih ustvarili tisti kandidati s testnim dosezkom X tock; oznacimo jo Mg (X). Na sliki 1 je empiricna karakteristicna funkcija omenjene prve postavke preizkusa slovenskega jezika, tockovane tako, kot je bilo v navadi v junijskem roku. Zaradi primerljivosti grafov za razlicne predmete in nacine tockovanja sva brez skode za splosnost nekoliko pretvorila vrednosti na obeh oseh:

1.  Na abscisni osi je testni dosezek X izrazen z odstotnimi tockami: testni dosezek delimo z najvecjim moznim stevilom tock in pomnozimo s 100, tako da odstotne tocke lahko nacelno segajo od 0 do 100. (Porazdelitev tako preracunanih odstotnih tock za vse kandidate v junijskem roku je na sliki 2, s katere med drugim zvemo, da je najboljsi kandidat zbral 95 % najvisjega moznega stevila tock, najslabsi pa 9 %. Uporabljen je bil torej vecji del intervala moznih ocen --- ne pa ves.)

2.  Na ordinatni osi je Mg (X) izrazen z delezem najvecjega moznega stevila tock: dosezek na postavki g delimo z najvecjim moznim stevilom tock pri tej postavki. Najnizja vrednost je 0 (pri prvi postavki 0 tock), najvisja pa 1 (kar pri tej postavki ustreza 6 tockam).


Primer:

Bralec bo povedano laze razumel, ce se na sliki 1 v mislih posveti skrajni piki desno zgoraj, na katero kaze puscica. Podatki s slike 2 nam povedo, da je 90 odstotnih tock pri slovenscini zbralo 11 kandidatov. Njihov povprecni dosezek na prvi postavki je 0,939 × 6 = 5,636 tocke. Najvec kandidatov pa je zbralo 60 odstotnih tock: bilo jih je 283, na prvi postavki pa so v povprecju zbrali 0,896 × 6 = 5,378 tocke. (Vrednosti 0,939 in 0,896 lahko vsaj priblizno odcitamo s slike 1.)



Empiricne karakteristicne funkcije postavk so nazorno pomagalo v analizi postavk zlasti takrat, ko imamo na voljo zelo velike vzorce. Tedaj lahko vecina pik temelji na vecjem stevilu kandidatov. V nasem primeru imamo podatke o 7.535 kandidatih. Kljub tako velikem vzorcu pa je po sliki 2 izredno malo kandidatov, ki so zbrali zelo veliko ali zelo malo tock. Na vseh grafih sva v zelji po preglednosti narisala samo tiste pike, ki temeljijo na vec kot desetih kandidatih; to je 58 pik v intervalu od 33 do vkljucno 90 odstotnih tock. Izven okvira grafa pa so namenoma ostali podatki o zelo redkih kandidatih, ki so zbrali od 9 do 32 ali od 91 do 95 odstotnih tock.



Prakticne izkusnje izvedencev z empiricnimi karakteristicnimi funkcijami postavk v zelo velikih vzorcih so lahko dober intuitiven uvod v sodobno testno teorijo, katere temeljni pojem je karakteristicna funkcija postavke v posploseni obliki (Hambleton in Swaminathan, 1985).


1. postavka

Kaj nam slika 1 pove o prvi postavki? Primerjajmo jo z rezultati klasicne analize testnih postavk (kot jo izracuna podprogram RELIABILITY statisticnega paketa SPSS)! Tam preberemo, da je njena tezavnost IT 0,89, diskriminativnost ID pa 0,12. Indeks tezavnosti pove, koliko tock lahko pricakuje povprecni kandidat; cim visji je, tem lazja je postavka. Da je prva postavka »lahka«, na grafu vidimo tako, da je velika vecina kandidatov zbrala vec kot 80 % moznega stevila tock. Premislimo najprej kandidatove moznosti, da problem resi brez znanja, samo z ugibanjem: v uvodu zve, da so med petimi trditvami natanko tri z oporo v besedilu. Ce svoje tri glasove po nakljucju razporedi med pet trditev, lahko pricakuje vec kot polovico, tocneje 3/5 ali 0,6 moznega stevila tock.

Ce odmislimo manjsa nihanja zaporednih tock grafa, v splosnem kandidati z boljsim uspehom pri celotnem izpitu zberejo tudi pri tej postavki vec tock. Pravimo, da postavka razlocuje ali (pozitivno) diskriminira boljse kandidate od slabsih; ker pa njena karakteristicna funkcija narasca precej pocasi, diskriminativnost postavke ni zelo visoka. (To se vidi iz ne pretirano visokega indeksa diskriminativnosti 0,12 --- vendar sva bralcu obljubila, da bo shajal samo s povprecji; brez kolicnika korelacije, ki lahko zavzame vrednosti med -1 in 1!)

Kaj pomeni izjava, da je postavka »lahka« ali da »sibko diskriminira«? Poudariti je treba, da ne velja splosno, temvec samo za tisti vzorec kandidatov, v katerem smo analizirali postavko kot del nekega testa. Odmislimo moznost, da se izpitna pola v praksi hitro razve, in se vprasajmo, kaksni bi bili rezultati analize iste postavke, ce bi v septembrskem roku uporabili povsem enako izpitno polo! Odgovor je odvisen od tega, ali v drugem roku kandidirajo podobni kandidati kot v prvem ali pa morda bistveno slabsi.

Odgovor na vprasanje o tem, ali velja prvo postavko izlociti iz nastajajoce banke postavk, se razlikuje med sestavljalci testov v okviru klasicne, na norme usmerjene testne teorije, in sestavljalci, ki prisegajo na kriterijski pristop. (Podrobneje ga opisujejo Popham (1978), Sagadin (1991) in Hambleton (1994).) Vecina klasicnih sestavljalcev bi takó láhko postavko izlocila, ker ne pove veliko novega o merjeni lastnosti. Klasicni sestavljalec daje prednost postavkam cim visje diskriminativnosti, take pa so najpogosteje v razponu srednje tezavnosti.

Sestavljalci kriterijskega testa bi se najprej povprasali o tem, v kaksnem razmerju so miselni procesi, ki jih sproza postavka, do zapisanih ucnih ciljev. Ce postavka smiselno preverja neki pomemben ucni cilj, nam odgovori povedo, da ga je vecina ucencev pac dosegla. Zgodovinsko gledano se je potreba po kriterijskih testih pojavila najprej pri programiranem pouku, kjer programer ucno snov razdeli v stevilne majhne enote, da bi jih ucencu lahko ponudil tudi ucni stroj ali racunalnik. Ker ucenec napreduje po programu k naslednji enoti potem, ko prvo obvlada, se pojavi vprasanje, kako to ugotoviti. Zato so bili prvi kriterijski testi kratki in usmerjeni na preverjanje pozameznih podrobnih ucnih ciljev. O ucencu zelimo zvedeti le, ali doloceno enoto obvlada ali ne. Klasicno konstruirani test ucitelju pesimisticno sporoca, da povprecni ucenec ne zna resiti priblizno polovice postavk, vendar omogoca --- ce je dobro sestavljen --- razvrstitev ucencev od boljsih do slabsih glede na stevilnejse in sirse opredeljene izobrazevalne cilje. Dosezek posameznega ucenca vrednotimo tako, da ga primerjamo s porazdelitvijo dosezkov podobnih ucencev, s statisticno ugotovljenimi normami. Ce se ucenci in ucitelji bolj potrudijo in bolje naucijo snov, bo treba najti tezje in diskriminativne postavke. Statisticni kazalci klasicne analize postavk so konstruktorju kriterijskega testa le v pomoc pri izvedenski vsebinski presoji.

Poleg merskega vidika je pri meritvah znanja, kakrsna je matura, ki so za ucenca pomembne in zato zanj pomenijo stres, pomemben tudi motivacijski vidik. Na zacetek zavestno uvrscamo tudi postavke, ki so za veliko vecino kandidatov lahke, da dobijo zaupanje vase in da ze na zacetku izpita ne zgubijo nesorazmerno veliko casa z zahtevnimi problemi.

Ne glede na teoreticna izhodisca pa velja pri prvi postavki premisliti, s katerimi ukrepi in dodatnimi sporocili bi lahko dosegli, da bi dosezek na postavki vec povedal o merjeni lastnosti (razumevanju prebranega besedila), manj pa o nakljucju.


11. postavka

Po zelo lahki postavki nizke diskriminativnosti si na sliki 3 oglejmo tudi primer postavke, ki zelo dobro diskriminira maturante s slabim jezikovnim znanjem slovenscine.




(Stev. tock)
Napisite knjizni izgovor naslednjih besed (z naglasom):
  Evropa [ __________ ]
  obcudovati [ __________ ]
  prizadevanj [ __________ ]
  jasek [ __________ ]
(8)


Solano psihometricno oko v nalogi opazi vec moznosti, kako bi jo lahko razdelili na postavke. Posebna postavka bi bila lahko vsaka beseda ali celo vsako tezavno mesto. Naslednja moznost je se bolj podrobna: zanimala bi nas lahko pravilnost transliteracije slehernega grafema v foneticni zapis. V najini analizi sta nas uporabljeni tockovnik in ocenjevalni list kajpak prisilila, da nalogo obravnavamo celostno, kot eno postavko. Tezavnost 0,53 pove, da je povprecni maturant povsem pravilno zapisal izgovor dobre polovice besed, diskriminativnost 0,46 pa je med najvisjimi v izpitni poli. Kot laika domnevava, da postavka preverja pomemben ucni cilj, ki ne le dijaku v soli, temvec tudi intelektualcu kasneje omogoca uporabo slovarjev v pravorecnih vprasanjih in prakticno obvladovanje nekaterih obcutljivih zadreg knjiznega govora. Zato bo nad postavko najbrz navdusen tudi konstruktor kriterijskega testa. Karakteristicna funkcija narasca skoraj linearno, vendar je to morda posledica zdruzevanja podatkov o foneticnem zapisu stirih morda razlicno tezkih in diskriminativnih besed, od katerih je vsaka pravilno zapisana kandidatu prinesla po dve tocki.


14. postavka

na sliki 4 je primer razmeroma tezke postavke, ki pa odlicno diskriminira.


(Stev. tock)
Preberite geselski clanek besede srebro iz SSKJ.
(...)
  a) Poimenujte naglasni tip, na katerega nas opozarjajo podatki iz zaglavja tega geselskega clanka. __________ (2)
  b) Kateri izmed uporabljenih kvalifikatorjev v tem geselskem clanku se nanasa:
    --- na socialnozvrstno pripadnost geselske besede __________ (1)
    --- na pripadnost strokovnemu jeziku? __________ (1)
(4)




Pregled vsebine ponovno pokaze problematicnost opredelitve postavke, saj problem vsebuje dve delni nalogi, ki bi ju lahko tockovali kot samostojni postavki; se vec: glede na nacin tockovanja bi jo lahko razdelili na tri samostojne postavke. Pri izbranem nacinu tockovanja je postavka razmeroma tezka, saj je povprecni maturant dosegel precej manj kot tretjino (28 %) moznega stevila tock. Ce bi v tockovniku nalogo razdelili v vec postavk, bi nam rezultati analize povedali, kaj je povzrocalo dijakom vec tezav; vsekakor pa rezultati kazejo, da je za uporabo in razumevanje slovarskega gesla potrebno kar precej znanja. Vsa vprasanja so odprtega tipa, tako da si slabsi kandidati ne morejo pomagati z ugibanjem in se levi del karakteristicne funkcije prakticno zacenja pri nicelnem povprecnem dosezku na postavki. Tudi zato je diskriminativnost izredno visoka (0,48) in kaze, da dijaki z visjim skupnim stevilom tock iz slovarskega gesla razberejo bistveno bogatejsa sporocila. Karakteristicna funkcija v srednjem delu narasca pocasneje kot v drugem delu, v najboljsi tretjini kandidatov. Postavka v uporabljeni formulaciji najbolje razlikuje med boljsimi in najboljsimi kandidati. Ce bi jo zeleli olajsati za povprecne kandidate, bi to lahko storili tako, da bi odprta vprasanja »zaprli«; lahko pa bi zahtevne pojme (kot je npr. »naglasni tip«) najprej uvedli s primeri. Ceprav so na tem podrocju napovedi tvegane, pa se zdi, da bi v zelji po olajsanju postavke najbrz znizali visoko diskriminativnost.


20. postavka


(Stev. tock)
Vsaki besedi iz levega stolpca pripisite ustrezno stevilko iz desnega.
  a)  cesarski __________ 1 sklop
  b)  drogovje __________ 2 zlozenka
  c)  nadvojvoda __________ 3 sestavljenka
  c)  sedemdeset __________ 4 izpeljanka
  d)  vodoravno __________
  e)  oddati __________
  f)  osemindvajset __________
  g)  zdravljenje __________
(4)


Postavka tipa povezovanja in urejanja, ki preverja znanje besedotvorja, ocitno ni prevec zahtevna, saj je, po sliki 5 sodec, vecina kandidatov dobila vsaj 70 odstotkov najvecjega stevila tock. Visoko izhodisce karakteristicne funkcije kaze, da tudi kandidat, ki bi vse stiri stevilke vpisoval precej po nakljucju, lahko pricakuje nekaj tock. Od tam naprej pa karakteristicna funkcija narasca zmerno in postavka relativno dobro diskriminira boljse dijake od slabsih (0,36). Zanimivi sta tudi obe skrajnosti krivulje: pri dijakih z malo tockami so nihanja vecja kot pri najboljsih dijakih. To si najbrz lahko pojasnimo z ugibanjem. Postavka zahteva le prepoznavanje ze tvorjenega, zato se ponuja druga mozna razlaga, da se je lahko kak dijak nekaj zgledov pojmov v desnem stolpcu naucil na pamet, brez vsebinskega razlikovanja pojmov. Vecina najboljsih dijakov je postavko resila popolnoma pravilno in zanje ni bila tezka. Kdor bi zelel s podobnim gradivom bolje razlikovati najboljse kandidate od dobrih, bi se moral odlociti za kak drug tip postavke.




21. postavka


(Stev. tock)
Napisite skladenjsko podstavo za tvorjenko zivosrebrn.
  ________________________
(2)


Tudi ta postavka (slika 6) preverja znanje s podrocja besedotvorja in je bila za dijake ocitno zelo trd oreh: povprecni kandidat je namrec zbral le 11 odstotkov moznega stevila tock in najboljsi kandidati niso presegli polovice moznega stevila tock. Celo maturant z najvisjim skupnim dosezkom ni dobil obeh tock! Kljub temu da je postavka tezka, zelo dobro diskriminira (0,32). V nasprotju z dvajseto postavko, ki je zahtevala prepoznavanje ze tvorjenega, pa ta zahteva poznavanje besedotvornega algoritma oziroma logicno razmisljanje. S tem bi morda lahko pojasnili cuden potek karakteristicne funkcije v spodnjem delu. Najslabsi kandidati (s 36-40 odstotki tock) so v povprecju nepricakovano dosegli nekaj vec tock od tistih z 42-43 odstotki; od tam naprej funkcija sprva zelo pocasi in sele v najboljsi tretjini kandidatov hitreje narasca. Najslabsi kandidati so si morda pri resevanju pomagali z zdravo pametjo, vendar bi bilo za presojo te domneve treba vsebinsko presoditi njihove odgovore.



Nacelno je zelo tezka postavka lahko taksna iz zelo razlicnih razlogov. Lahko kaze na tezave kandidatov, da iz besedila postavke razberejo, kaj se od njih pricakuje. Izrazov, kot so skladenjski, podstava ali tvorjenka, dijak ne pozna iz pogovornega jezika --- kot tudi ne izrazov formaldehid ali magnetni tecaj. Treba se jih je nauciti. V nekaterih primerih lahko sprva zelo tezko postavko zastavimo kandidatu v njemu lazje razumljivi obliki, pricakovano resitev ponazorimo z zgledi in podobno. Pogosto pa se zgodi, da vse to ne pomaga: stevilni ucitelji so kako poglavje ucnega nacrta spustili, snov nizjih razredov so dijaki pozabili ipd. Zgolj rezultati analize postavk ne povedo, kaj je pravi vzrok, se manj pa, kaj storiti.

Ce bodo slovenisti kdaj v prihodnosti razmisljali o maturitetnem izpitu visje ravni zahtevnosti materinscine, imajo v tej postavki morda zgled kakega vprasanja za ustrezni izpit. Zadeve pa se lahko lotimo tudi z didakticne plati: ce obvelja strokovna presoja, da postavka preverja pomemben cilj jezikovnega pouka, potem naj se iz leta v leto pojavlja pri maturi in koncno se bo pojavil predlog, naj jo izlocimo iz banke, ker je postala prevec lahka ... Toda pozor: ker stevilo ucnih ur ni neomejeno, bo zaradi taksne usmeritve morda postala zelo tezka kaka postavka, ki je zdaj razmeroma lahka! Zamisel, da naj vodijo pouk zlasti za ucence pomembne meritve znanja (angl. measurement-driven instruction), je sicer zdravorazumska, saj meritve znanja dejansko mocno vplivajo na pouk in ucenje; vendar velja biti v solski praksi previden, saj ni nujno, da bodo prav vsi ucinki zazeleni. Uvod v ogorceno polemiko, ki o tem se poteka zlasti v ameriski literaturi, lahko bralec najde v Clarizio, Mehrens in Hapkiewicz (1994).


32. postavka

Poslednja postavka izpitne pole s podrocja sporocanja je lahko kandidatu prinesla razmeroma veliko tock. Njena karakteristicna funkcija je na sliki 7.


(Stev. tock)
Predstavljajte si, da ste s sosolci na ekskurziji v Idriji. Svoji teti, ki jo zanima zgodovina, posljite razglednico iz tega kraja. V njej navedite:
  --- pojasnilo, zakaj ste prisli v Idrijo
  --- podatke o kamsti (o njeni velikosti, starosti, funkciji)
  --- kaksen vtis je kamst naredila na vas.
Izpolnite na razglednici tudi rubrike za postni naslov (z izmisljenimi podatki).
Zapisite ga v zbornem jeziku in uporabite od 35 do 50 besed (tetin postni naslov v to ni vstet).
Pisite razlocno, vendar ne s samimi verzalkami.
(20)




Karakteristicna funkcija v skupini kandidatov z najnizjimi skupnimi dosezki poteka podobno nepravilno, kot smo opazili pri 21. postavki. Celo redki kandidati z najvisjim skupnim stevilom tock niso vsi dobili najvisjega moznega stevila tock za to postavko, ker denimo niso upostevali predpisanega obsega sporocila bodisi po stevilu besed ali obliki in so ocenjevalce postavljali v zadrego, kako vrednotiti gostobesedno besedilo, ki se je prek roba razglednice razlilo po namiznem prtu. Omenjene posebnosti postavke in vrednotenja zal znizujejo diskriminativnost (0,22) in vodijo do vprasanja, ce ni bilo morda stevilo tock za to postavko nekoliko precenjeno. Vsiljuje se moznost, da to postavko (in se nekatere druge) nekateri kandidati lahko resijo precej uspesno ze z osnovnosolskim znanjem jezika in morda nekoliko boljsimi jezikovnimi, morda pa tudi ne zgolj jezikovnimi sposobnostmi (kamor morda sodi tudi kultura resevanja testov, disciplina, urejenost in citljivost rokopisa, pozorno branje navodil ali ekonomicno ravnanje s casom); tudi brez znanja opisne slovnice na srednjesolski ravni torej, ki prinasa tocke pri vecini drugih postavk.


Vpliv casovne meje ali izbirnosti

Rezultate analize postavk v praksi pogosto omejujeta dva razloga:

1.  Zaradi nacela izbirnosti nekaterih postavk ali njihovih skupin ne resujejo vsi kandidati. Pri izpitu iz slovenskega jezika s knjizevnostjo smo se s tem srecali pri eseju, kjer so kandidati lahko izbirali med dvema esejema. Pri nekaterih drugih predmetih srecamo navodila, kot je denimo »Med sestimi nalogami resi dve«.

2.  Zaradi casovne omejitve in utrujenosti kandidatov imamo za postavke proti koncu izpitne pole na voljo le odgovore nekaterih kandidatov, za preostale pa lahko kvecjemu domnevamo, da problemu tudi v kakih drugacnih razmerah ne bi bili kos.

Seveda pa je lahko med ucnimi cilji tudi hitrost nekega opravila. Ce na preizkuse znanja slovenskega jezika gledamo s povsem uporabnih izhodisc, si denimo lahko zelimo »akademsko pismene« pravnike; vendar pri vrednotenju dela kakega sodnika za prekrske ne bomo cenili le njegovega razumevanja jezikovno zahtevnih zakonskih besedil in sporocil v kazenskem spisu, jezikovne in pravne kakovosti njegovih pisnih izdelkov in podobno, temvec bomo (zlasti v vlogi nestrpne stranke ali namara celo predsednika sodisca) cenili tudi stevilo zadev, ki jih resi v enem letu. Metode analize postavk, ki jim je posvecen ta prispevek, niso najbolj primerne za meritve, kjer je glavni cilj hitrost. V tem primeru bi bilo morda modro del izpitnega casa posvetiti postavkam, pri katerih od kandidata pricakujemo zlasti hitrost resevanja, ter to tudi napovedati tako v katalogu kot v navodilih za resevanje.


Esej

Priznati moramo, da je nekoliko nasilno, ce celotni esej analiziramo kot eno samo postavko. Kandidat je namrec lahko izbiral med dvema vrstama esejev, navodila za tockovanje pa so bila razmeroma podrobna in so poudarjala tako znanje o jeziku kot o knjizevnosti. Kljub temu smo na sliki 8 prikazali tudi empiricno karakteristicno funkcijo za esej, in to za povprecno stevilo tock pri obeh ocenjevalcih. Karakteristicna funkcija zelo pravilno in skoraj premosorazmerno narasca ter zelo dobro diskriminira (0,36). Morda se zacne malce previsoko in za koga konca malo prenizko. Povprecni kandidat je za esej dobil 59 odstotkov moznega stevila tock, najslabsi kandidati pa okrog 40 odstotkov moznega stevila tock. V celoti maturitetnega preizkusa slovenskega jezika in knjizevnosti je to morda celo zazeleno, saj z esejem preverjamo ne le zmoznost pisnega sporocanja, temvec tudi zmoznost interpretacije oziroma primerjalne analize literarnih besedil. Ko naj bi kandidat pokazal temeljno znanje sporocanja v ucnem jeziku, ki je najpogosteje tudi materni, je najbrz prav, da tudi najslabsi doseze vsaj nekaj tock.



Bolj problematicen pa se zdi zgornji del krivulje, saj niti vsi maturanti z najvisjimi skupnimi ocenami niso dobili najvisjega moznega stevila tock za esej. Tu se moramo ustaviti ob estetskem vrednotenju maturitetenih esejev, kar je izredno zapleten proces, v katerem poleg citljivosti rokopisa, preverljivih dejstev, slovnicnih napak in drugih zahtev tockovnika igra pomembno vlogo tudi vrednotenje in presojanje prebranega v luci osebnega knjizevnega in jezikovnega okusa ocenjevalca, med avtorji in ocenjevalci pa lahko zija tudi bolj ali manj sirok generacijski prepad. Tako le tezko najdemo kak maturitetni esej, ki bi popolnoma zadostil vsem kriterijem po mnenju razlicnih zunanjih ocenjevalcev. Najbrz bi bilo podobno, ce bi ocenjevalcem med dijaske eseje podtaknili tudi eseje nobelovcev za literaturo. Ne smemo pozabiti tudi dejstva, da je bil leta 1995 ne le dijakom in njihovim uciteljem, temvec tudi ocenjevalcem solski esej precej nov in so se z njegovimi zahtevami pogosto srecali sele ob pripravah na maturo. Nekatere posebnosti vrednotenja eseja, ki jih v luci testne teorije obravnavamo kot »merske napake«, bi lahko ublazila enotnejsa didaktika pouka slovenskega jezika in knjizevnosti kot enega solskega predmeta, vec izkusenj z ocenjevanjem pri studiju bodocih profesorjev, v casu pripravnistva in izmenjav izkusenj na seminarjih za ucitelje, ter kolegialno (so)ocenjevanje izbranih pisnih izdelkov dijakov tudi v nizjih razredih srednje sole.


Omejitve analize postavk

Stabilne empiricne karakteristicne funkcije postavk lahko narisemo le za zelo velike vzorce. V reprezentativnem vzorcu populacije je mogoce dolociti tudi interval zaupanja, v katerem z vnaprejsnjo verjetnostjo pricakujemo populacijsko aritmeticno sredino. Na sliki 9 je interval zaupanja empiricne karakteristicne funkcije najbolj diskriminativne postavke slovenske oblike bralnega testa za devetletne ucence v mednarodni raziskavi (Elley, Gradisar in Lapajne, 1995). Kljub zelo velikemu vzorcu 3.300 ucencev je interval zaupanja precej sirok in sili v previdnost pri posplosevanju rezultatov analize testnih postavk v manjsih slucajnih vzorcih, ko skusamo oceniti parametre karakteristicne funkcije po dostopnih podatkih, domnevah o njeni obliki ali smiselnem agregiranju kandidatov v najmanj dve skupini. Zelo pogosto uporabljan postopek priblizne ocene diskriminativnosti je bil naslednji: tockovane liste za odgovore so najprej razvrstili po stevilu tock v tri skupine: 27 % najboljsih, 27 % najslabsih in preostalo vecino. Potem so pogostost odgovorov na posamezne postavke primerjali le v skrajnih skupinah najboljsih in najslabsih (podrobneje Guilford, 1954). Taksne »bliznjice« do analize testnih postavk so bile pomembne pred uporabo opticnega citalca in racunalnika v razvoju testov, saj so olajsale zamudno administrativno delo.



Pri uporabi analize postavk pri maturi se moramo torej zavedati, da ne daje uporabnih rezultatov v zelo majhnih vzorcih (z manj kot priblizno 30 kandidati) ali v vzorcih z zelo zmanjsano razprsenostjo merjene lastnosti. Ta omejitev nas seveda ne skrbi pri obveznem predmetu, kot je slovenski jezik s knjizevnostjo, pac pa zlasti pri jezikih, ki se jih uci malo srednjesolcev.

Zamisel o razvoju banke maturitetnih postavk v primeru preizkusov znanja jezikov na prvi pogled omejuje zahteva, da se posamezne postavke nanasajo na prebrano besedilo. Na podobne primere naletimo tudi pri izpitnih polah za druge predmete, kjer denimo pri zgodovini ali geografiji zastavimo vec vprasanj o isti tematski karti. Ce podrobneje proucimo razmerje med problemi postavk in prebranim besedilom pri junijski maturi leta 1995 iz slovenskega jezika in knjizevosti, res opazimo del postavk, ki so z besedilom tesno povezane; pri drugih (npr. pri enajsti) pa kandidatov in ocenjevalcev najbrz ne bi motilo, ce bi vsebinsko presegle besedje in jezikovne posebnosti, ki jih po nakljucju najdemo ravno v prebranem besedilu.





Uporabljena literatura

Clarizio, H. F., Mehrens, W. A. in Hapkiewicz, ur. (1994). Contemporary Issues in Educational Psychology. Sixth ed. New York: McGraw-Hill.

Elley, W. B., Gradisar, A. in Lapajne, Z. (1995). Kako berejo ucenci po svetu in pri nas? Mednarodna raziskava o bralni pismenosti. Nova Gorica: Educa.

Guilford, J. P. (1954). Psychometric Methods. New York: McGraw-Hill.

Hambleton, R. K. (1994). Criterion-Referenced Measurement. V: Husén, T. in Postlethwaite, T. N. (ur.) The International Encyclopedia of Education. Second ed. Oxford: Pergamon.

Hambleton, R. K. in Swaminathan, H. (1985). Item Response Theory: Principles and Applications. Boston: Kluver Nijhof.

Nunnally, J. C. in Bernstein, I. H. (1994). Psychometric Theory. Third ed. New York: McGraw-Hill.

Popham, W. J. (1978). Criterion-Referenced Measurement. Englewood Cliffs: Prentice Hall.

Sagadin, J. (1991). Razprave iz pedagoske metodologije. Ljubljana: ZI FF.

Toporisic, J. (1965-1970). Slovenski knjizni jezik 1-4. Maribor: Obzorja.

Toporisic, J. (1992). Enciklopedija slovenskega jezika. Ljubljana: Cankarjeva zalozba.









 BBert grafika