Dé plek waar vragen gesteld worden, is natuurlijk bij toetsing. Of het nu een MC-toets, een tentamen met open vragen, een mondeling, criteriumgericht interview of bijvoorbeeld een assessment betreft: het begint met het stellen van de juiste vragen. Die vervolgens zo goed mogelijk beantwoord moeten worden. Maar hoe weet je nu als docent of als student / leerling dat een toets goed is? En meer in het bijzonder: dat de juiste vragen zijn gesteld? In deze bijdrage kun je hier meer over lezen, namelijk over de acht criteria die een toets en toetsvragen goed maken. Met andere woorden: acht voorwaarden waarmee je de kwaliteit van een toets of examen bepaalt en kunt bevragen. En hiermee ook indirect kunt nagaan of de juiste vragen zijn gesteld.
Eerste versie: 27 april 2025

Tekstuele aanpassingen: 31 mei 2025

Image van leerlingen en docenten die blij zijn met een goede toets of toetsuitslag

SAMENVATTING

Wil je nagaan of een toets (en vragen die gesteld zijn in de toets) goed is?
Stel jezelf de volgende vraag:

In hoeverre is de toets (gezien de gestelde vragen) en toetsing:
- valide,
- betrouwbaar,
- haalbaar,
- rechtmatig,
- effectief,
- transparant,
- subjectief,
- weloverwogen?

DE KWALITEIT VAN EEN TOETS BEVRAGEN

De wens: een rechtvaardige toets, onder andere door het stellen van de juiste vragen

Je zult het vast een keer hebben meegemaakt: je moest een toets maken, je dacht dat je goed geleerd had, maar toch was de toets anders dan je had verwacht. De vragen waren moeilijker, de vragen waren juist makkelijker, andere onderwerpen werden uitgevraagd, de hoeveelheid tijd om de vragen te beantwoorden was te kort, enzovoort.

In de praktijk zeggen we dan dat de toets niet goed was. In de literatuur wordt dit ook wel de rechtvaardigheid van de toets genoemd (of rechtvaardiging). Dat de toets niet rechtvaardig was. Een woord dat je misschien herkent van morele oordelen, als we zeggen dat iemand niet rechtvaardig behandeld wordt of rechtvaardig handelt.

De centrale vraag bij een toets is dan ook: in hoeverre kan de maker van de toets de toets rechtvaardigen? Maar ik geef voorkeur aan gewone mensentaal en de meer begrijpelijke vraag:

In hoeverre is dit nu een goede toets?

Wat maakt een toets of toetsing volgens literatuur en toezichthouders goed?

De vraag stellen of een toets ook een goede toets is of was (en of de juiste vragen zijn gesteld), is eigenlijk nog maar een matige vraag als je niet verder doorvraagt. Want waar ga je dan precies naar kijken? Het is beter om eerst te kijken wat wordt bedoeld met "een goede toets" (inderdaad de eerste socratische vraag). Wat maakt een toets nu een goede toets?

Dit kunnen we om te beginnen beantwoorden door te onderzoeken naar wat andere auteurs hebben geschreven hierover. Drie basiseisen springen hierbij er vaak wel uit: een goede toets moet valide, betrouwbaar en transparant zijn. Zie bijvoorbeeld dit overzicht van CITO, hier bij de Universiteit van Utrecht of hier bij de Universiteit Gent. Met name als het gaat over schriftelijke toetsen / toetsvragen worden deze criteria genoemd.

Helaas zijn er ook andere lijstjes. Dus over wat een toets een goede toets maakt.

Zo reiken je Van Berkel, Bas e.a. vijf criteria aan: validiteit, betrouwbaarheid, objectiviteit, transparantie en normering (zie Toetsen in het hoger onderwijs (5e editie, 2023, pagina 83). Het is een boek waar in het hoger onderwijs vaak naar wordt verwezen (bijvoorbeeld hier), dus deze opsomming is niet onbelangrijk. Een oude druk van het boek vind je overigens hier (met dezelfde criteria).

Maar slecht nieuws: op sites als die van SLO en de Radboud Universiteit vind je ondertussen weer andere criteria.

We kunnen het ook benaderen vanaf de andere kant en de vraag stellen welke eisen andere instanties stellen aan toetsing bij onderwijsinstellingen. Instanties die toezicht houden op de kwaliteit van toetsing. Of kwaliteitsaudits houden. Waarop beoordelen zij scholen?

Ook dat verschilt.

Het beoordelingskader accreditatiestelsel hoger onderwijs van de NVAO drukt enigszins vergelijkbare kwaliteitseisen uit, maar is zelf qua opsomming weer minder helder (zie bladzijde 9 van dit beoordelingskader).

De beoordeling moet volgens de NVAO "valide, betrouwbaar en voldoende onafhankelijk [zijn]. De eisen zijn helder voor de studenten. De kwaliteit van de tentaminering en examinering wordt voldoende gewaarborgd en voldoet aan de wettelijke deugdelijkheidsvereisten. De toetsen ondersteunen het eigen leerproces van de student. De examencommissie oefent haar wettelijke taken en bevoegdheden uit."

Oef. Snap je het nog?

Acht actuele ontwikkelingen als het gaat over toetsing

Zowel in de literatuur als in de praktijk zie je dus verschillende criteria terug. Om het nog lastiger te maken, zijn er daarnaast allerlei ontwikkelingen die maken dat zelfs deze lijstjes niet meer volledig zijn of dergelijke lijstje minder actueel maken: Het wordt wat technisch (dus sla dit zeker over als dit niet je interesse heeft), maar denk aan:

De opkomst van GenAI / kunstmatige intelligentie (waarbij AI al dan niet weer ingezet mag worden). Dit gaat over de authenticiteit van het werk van een student.
De toenemende mogelijkheden om te frauderen en dit op te sporen dan wel hier toezicht op te houden en op de achtergrond de opkomende verjuridisering van toetsing (vaker rechtszaken over toetsing).
Het toenemende belang om (juridisch) het eindniveau te kunnen borgen terwijl diverse onderwijsvernieuwingen dit lastiger maken (bijvoorbeeld door de komst persoonlijke leerroutes)
De constatering dat het onmogelijk is om aan alle criteria tegelijkertijd te voldoen (sommige criteria botsen met elkaar en kunnen leiden tot dilemma's bij het maken van een toets).
De behoefte aan heldere criteria die waarden uitdrukken en makkelijker over te dragen zijn aan (startende) docenten.
Het besef dat toetsing van één specifiek onderdeel - hoe goed ook getoetst - weinig voorspellend is voor het geheel van handelen van een student. Een meer holistische kijk op toetsing wint aan kracht (de nadruk op bepaalde criteria verschuift).
De erkenning dat het beoordelen van gedrag en werkhouding ook om nauwkeurigheid e.d. vraagt. Als je dit al zou moeten meewegen (zie bijvoorbeeld dit artikel bij Toetsrevolutie).
Het opkomende besef dat toetsing meerdere functies heeft en het leren voor een student bijvoorbeeld niet zou moeten stoppen nadat een toets behaald is. Denk aan ontwikkelingen rond formatief handelen / onderzoekend handelen (wat aan de toets vooraf gaat) of het belang van kwaliteitsbesef.

Acht criteria die een toets een goede toets maken

Als je wilt weten of een toets een goede toets is, ontkom je er dus niet aan om meerdere criteria te gebruiken en hiertoe bepaalde subvragen te stellen. Dit zal je hoofdvraag beter maken. En tegelijkertijd moet je je beseffen dat je mogelijk nooit volledig bent.

Ons voorstel - gezien bovenstaande analyse - is echter om hiertoe niet drie of vijf, maar om acht criteria te onderkennen. Dit zijn dan acht criteria die je kunt stellen aan een toets of toetsontwerp. Deze vind je hieronder verder uitgewerkt. Ook vind je diverse voorbeeldvragen die je bij ieder criterium kunt stellen. Met andere woorden: vragen die je kunt stellen bij een toets en bij de vragen die op een toets zijn gesteld.

1. Validiteit

Met een toets kan een docent de kennis, vaardigheden of houding van studenten meten (of een combinatie hiervan). Hierbij moet de docent natuurlijk wel het juiste meten. De toets moet aansluiten op de leerdoelen en niet iets anders (onbedoeld) toetsen.

Dit kan ten eerste gaan over de inhoud van de toets / vraagstelling.

Je zou bijvoorbeeld kunnen spreken van een inhoudelijk minder valide toets (of beter: een niet valide toets) als het leerdoel is 'dat de student parate kennis moet tonen van bepaalde onderwerpen uit de Tweede Wereldoorlog', maar alleen maar gevraagd wordt naar kennis van het Romeinse rijk.

Een variant hiervan is als te weinig vragen worden gesteld gezien het leerdoel. Je hoopt dat een docent aan alle leerdoelen naar verhouding recht doet. Een voorbeeld uit de sportsector. Stel de docent wil weten of een scheidsrechter alle voetbalregels kent (leerdoel), maar dit aftoetst met alleen vragen naar twee buitenspelregels, dan is dit geen teken van validiteit. Sprake is van een overhaaste generalisatie.

Ook kan trouwens qua vorm sprake zijn van minder valide toetsing. Als een docent wil toetsen of een student goed kan samenwerken, dan is het qua vorm waarschijnlijk minder valide om hiervoor meerkeuzevragen in te zetten. Het roept in ieder geval wel wat vragen op.

2. Betrouwbaarheid

De betrouwbaarheid van toetsing verwijst naar de mate waarin een toets consistente en nauwkeurige resultaten oplevert. Het betekent dat als dezelfde toets herhaald wordt onder vergelijkbare omstandigheden, de resultaten vergelijkbaar zouden moeten zijn. De vraagstelling en het proces van toetsen moet zo zijn dat deze zo objectief mogelijk is en leiden.

Twee vragen zijn hierbij belangrijk om te stellen (deze neem ik graag over van SLO):

Komen verschillende beoordelaars tot dezelfde beoordeling?
Worden vergelijkbare antwoorden (of prestaties) op dezelfde manier beoordeeld?

Met andere woorden: kun je vertrouwen hebben in het resultaat (vaak in de vorm van een cijfer)? Of had de docent net zo goed met een dobbelsteen kunnen gooien, waarbij iedere gooi weer iets anders oplevert?

3. Haalbaarheid

Helaas heeft ook het onderwijs geen onbeperkte middelen. De toetsen die afgenomen worden moeten wel haalbaar zijn. Zowel voor de docent als voor de student. Misschien geeft bij een specifieke onderwijseenheid een criteriumgericht interview (CGI) de meest valide en betrouwbare resultaten, maar het zal onmogelijk zijn voor een docent om honderden CGI's op een dag te plannen.

Ook voor studenten moet een toets haalbaar zijn. Als deze niet binnen de beschikbare tijd te maken is, dan gaat het bijvoorbeeld niet goed. Hoe betrouwbaar en valide ook.

4. Rechtmatigheid / morele rechtvaardigheid

Het is natuurlijk niet de bedoeling dat een toets tegen het geldend recht ingaat. Zo zou in het hoger onderwijs het streven moeten zijn om een toets te laten voldoen aan de geldende Onderwijs- en examenregeling (OER). Als in de OER bijvoorbeeld staat dat alle toetsen in het Nederlands moeten zijn, dan mag een toets niet Engelstalig zijn.

Maar ook andere regelgeving kan relevant. Zo geldt voor het hoger onderwijs de Wet op het Hoger Onderwijs en Wetenschappelijk Onderzoek (WHW) en voor het middelbaar onderwijs de Wet Educatie en Beroepsonderwijs (WEB). Daarnaast mag er natuurlijk niet in vragen gediscrimineerd worden of bepaalde vooroordelen doorklinken. Helemaal niet bij grote beslissingen (zie bijvoorbeeld deze bijdrage op Toetsrevolutie). En moeten toetsen - waar relevant - bijvoorbeeld voldoen aan het privacyrecht / AVG (denk aan toetsen met behulp van proctoring en digitaal toetsen).

Het is belangrijk om daarom steeds de vraag te stellen: in hoeverre voldoet de toets aan het geldend recht?

Natuurlijk heeft dit ook een beetje een drogreden in zich: een vraag kan immers rechtmatig zijn en toch onrechtvaardig zijn, namelijk in morele zin (niet in toetstechnische zin). Of andersom: een vraag is op zich rechtmatig, maar toch niet moreel te rechtvaardigen. Bijvoorbeeld omdat er allerlei onjuiste vooroordelen in doorklinken. Ook dit zou je dan als een slechte vraag / toets kunnen zien.

5. Effectiviteit (bruikbaarheid)

Met toetsing streven opleidingsinstituten, opleidingen en/of docenten vaak meerdere doelen na. Welke doelen dit precies zijn, verschilt. Maar in de praktijk en in de literatuur zie je vaak wel dezelfde doelen terug. Vijf veelvoorkomende doelen kun je omzetten naar vragen als:

Levert de toetsing ook een bijdrage aan het leren van een student?
Draagt de toets bij aan het streven om te komen tot onbetwiste diploma's en certificaten?
Krijgen leerlingen wel echt een realistisch beeld van het vak of opleiding?
Sluit de toetsing aan bij wat de student moet leren / doen in de toekomst?|
Sluit de toetsing aan bij bij wat de studenten vooraf - in het kader van formatief handelen - hebben gedaan en geleerd?

6. Transparantie

Studenten moeten inzicht hebben of kunnen krijgen hoe ze getoetst worden: wat getoetst wordt, voor welke toetsvorm is gekozen, waar de normering op is gebaseerd, waar hun cijfer op is gebaseerd, waarom hun uitwerking niet correct is, wat de cesuur is, et cetera.

Waar mogelijk worden de studenten al voorafgaand aan een onderwijsperiode hierover geïnformeerd (al wordt dit soms - onder de noemer van kwaliteitsbesef - ook soms gedurende een onderwijsblok helder gemaakt).

Transparantie geldt ook richting andere docenten. Zij moeten weten - waar mogelijk vooraf - hoe getoetst wordt zodat hun studenten niet verrast zullen worden tijdens de toets. Daarnaast moet rekening gehouden worden met overige betrokkenen. Zo moet de toetsing ook inzichtelijk kunnen worden gemaakt aan bijvoorbeeld visitatiepanels of de onderwijsinspectie.

7. Subjectiviteit

Misschien een verrassend criterium. Natuurlijk moet de beoordeling zo objectief mogelijk zijn (of vaak beter: zo hoog mogelijke mate van intersubjectiviteit kennen; dit raak het criterium betrouwbaarheid).

Wat met het criterium subjectiviteit wordt bedoeld, is met name dat de beoordeling wel toegerekend moet kunnen worden aan een individuele student. Subjectief slaat hier dus om te beginnen op de student.

Dit gaat bijvoorbeeld mis als een docent met een groepsopdracht wil toetsen in hoeverre individuele studenten bepaalde kennis of vaardigheden hebben. In zo'n geval is de kans groot dat geen recht wordt gedaan aan individuele verschillen tussen studenten. Of dat de groep bepalend is voor het resultaat (drie goede studenten compenseren een minder goede). Ook gaat het op dit criterium niet goed als de toetsing een thuisopdracht betreft die gemaakt kan worden door een bekende van de student. Dit is helemaal niet wenselijk omdat het ook nog eens leidt tot minder kansengelijkheid (niet iedereen heeft een hoogopgeleide ouder thuis). In de praktijk zie je dat opleidingen om die reden een criteriumgericht interview (CGI) toevoegen aan de toetsing.

Maar ook moet de beoordeling van de examinator subjectief zijn, namelijk in de zin dat het oordeel onafhankelijk van anderen tot stand moet komen. Dus dat het echt de beoordeling van de docent betreft. Onafhankelijk van anderen (management ziet bijvoorbeeld graag een hoger slagingspercentage), maar ook onafhankelijk van zaken die er niet toe doen (bijvoorbeeld dat een arbeidsovereenkomst ervan afhangt). Al zegt dit ook wat over de validiteit van de toets natuurlijk.

Staat dit criterium overigens kalibratie tussen docenten in de weg? Van kalibratie is immers sprake als docenten afstemmen wat hun oordeel is of hoe ze een antwoord of criterium moeten interpreteren. Om de betrouwbaarheid van een beoordeling te verhogen, wordt dit wel aangeraden.

Het criterium subjectiviteit staat kalibratie echter niet in de weg. Wel stelt het nadere eisen aan de kalibratie.

Als een zaak voor de rechtbank door meerdere rechters wordt afgedaan (een zogenaamde meervoudige kamer) dan is de richtlijn dat de minder ervaren rechter zich eerst uitspreekt. Hiermee wordt voorkomen dat naar de mond wordt gepraat. Gezien dit criterium heeft dit ook bij kalibratie tussen docenten de voorkeur?

Je zou bovenstaande vragen trouwens ook onder betrouwbaarheid kunnen scharen, maar dit criterium is dermate belangrijk dat het een eigen categorie verdient?

8. Weloverwogen

Het bovenstaande laat je waarschijnlijk wel inzien dat het in de praktijk onmogelijk is om als docent aan alle bovenstaande rechtsvaardigheidseisen recht te doen. Sterker nog: sommige criteria botsen met elkaar. Het is om die reden minstens zo belangrijk dat je als docent / opleiding / examinator kunt laten zien én uitleggen welke keuzes je hebt gemaakt. Laten zien dat je bij het ontwerp van de toets en toetsvragen je bepaalde vragen hebt gesteld.

Dit criterium herbergt in de praktijk drie onderliggende criteria:

Als docent moet je geïnformeerd zijn (wat zegt de wetenschap / literatuur over toetsing), moet je doordacht een beslissing hebben genomen (aan welke criteria je meer of minder recht doet met je toets) en moet je deze kunnen verantwoorden. Je moet niet alleen transparant hierover kunnen zijn, maar de afweging moet ook van een bepaalde kwaliteit zijn. Anders kun je niet spreken van een goede toets. Als het gaat over de kwaliteit van een toets / toetsvragen misschien wel het belangrijkste criterium?

Tot slot

Misschien vind je deze acht criteria nog best abstract of algemeen. Om die reden zullen we - speciaal voor docenten / examinatoren en leden van toetscommissies / examencommissies - nog een aanvullende vragenlijst opstellen met meer concrete vragen die je kunt stellen bij een toets. Deze volgt binnenkort op deze site.