Hvad betyder LL i en evaluering?
Vinderspeciale: AI kan assistere undervisere med at fastsætte karakterer
Mærkbart reduceret støj
I deres speciale tog Anne Balsby Roersen, Line Højris Revsbech og Maria Laursen initiativ til at undersøge den såkaldte "støj" i karakterfastsættelsen. Det vil sige, de fejl, der tilfældigt og usystematisk opstår, i modsætning til partiskhed.
Gruppens eksperiment blev udført med 93 dansklærere fra den danske folkeskole. Som et indledende trin skulle lærerne evaluere en danskopgave og tildele den en karakter, hvorefter de blev præsenteret for en vurdering af den samme opgave fra en LL-model (Large Language Model).
Efterfølgende blev halvdelen af dansklærerne informeret om, at det var en underviser, der havde fungeret som medbedømmer på opgaven, mens den anden gruppe fik at vide, at det var en LL-model. Afslutningsvis skulle lærerne tildele opgaven en endelig karakter, hvor de havde mulighed for at integrere medbedømmerens vurdering.
"Vi strukturerede det på den måde, fordi vores teori antydede, at folk generelt har lavere tillid til AI sammenlignet med en vurdering fra en anden person. Og det viste sig også, at selvom der var tale om præcis den samme evaluering, var der mindre tiltro til LL-modellens vurdering end til en menneskelig medbedømmers," forklarer Anne Balsby Roersen.
I den endelige analyse havde det dog ingen indflydelse på den endelige karakterfastsættelse. Forsøget afslørede nemlig, at støjniveauet faldt markant for begge grupper, da lærerne skulle bedømme opgaven efter at have gennemgået medbedømmerens karakterfastsættelse og den tilhørende begrundelse: Variansen - altså spredningen i de karakterer, som lærerne gav for den identiske opgave - faldt faktisk med 37 % fra dansklærernes første vurdering til deres efterfølgende og endelige vurdering.
"Vi var forbløffede over, hvor betragtelig støjen i karakterfastsættelsen viste sig at være; den samme opgave modtog mellem 4 og 12 i den samlede karakter," bemærker Maria Laursen.
Karakterer får stadig stigende betydning
Det var ikke et tilfælde, at Anne Balsby Roersen, Line Højris Revsbech og Maria Laursen besluttede sig for at analysere karakterfastsættelsen specifikt i folkeskolen. Efter deres opfattelse eksisterer der nemlig et paradoks i, at folkeskolens afsluttende eksamen i stigende omfang har indflydelse på elevernes mulighed for at blive optaget på gymnasiet - samtidig med at der kun er udpeget én lærer til at evaluere elevernes skriftlige eksamensopgaver.
Med regeringens planer om at etablere en ny uddannelse benævnt epx er emnet potentielt set endnu mere relevant. Målet med epx-uddannelsen er nemlig at give 11.500 flere unge chancen for at påbegynde en gymnasial uddannelse - men samtidigt vil adgangskravene til de resterende treårige gymnasier blive skærpet.
"Når karaktererne i folkeskolen bliver tillagt større og større vægt, og vi samtidig reducerer ressourcerne til de beslutningsprocesser, der er involveret i og omkring aktørerne i folkeskolen, er det essentielt, at man begynder at undersøge metoder til at adressere disse udfordringer," argumenterer Anne Balsby Roersen.