In een uitvoerige reactie op een pleidooi om IQ-tests volledig af te schaffen, stellen Nederlandse onderzoekers dat dergelijke toetsen juist van grote waarde blijven voor onderwijsbeslissingen op individueel niveau. Het debat gaat niet alleen over psychometrische theorie, maar ook over de vraag hoe scholen, samenwerkingsverbanden en zorginstanties tot zo eerlijk en zorgvuldig mogelijke beslissingen komen over leerlingen.
Aanleiding voor de discussie is een artikel uit 2024 van Van Hoogdalem en Bosman, waarin werd betoogd dat intelligentietests fundamenteel onbetrouwbaar zouden zijn en daarom niet geschikt voor individuele besluitvorming. Volgens hen is intelligentie mogelijk geen afgebakend psychologisch construct en kunnen IQ-scores leiden tot misinterpretaties, vooral wanneer zij worden gebruikt bij beslissingen over onderwijsplaatsing of zorgtoegang. In hun visie zouden scholen en professionals beter af zijn met niet-gestandaardiseerde vormen van beoordeling, zoals dynamische assessment en kwalitatieve observatie.
De reactie van Hemker, Timmerman, Visser, Voncken en Hurks, allen verbonden aan Nederlandse universiteiten en onderzoeksinstellingen, waaronder Stichting Cito en CitoLab, is scherp maar genuanceerd. Zij erkennen expliciet dat intelligentietests beperkingen kennen en dat misbruik van tests, bijvoorbeeld als harde ‘slagboom’ voor speciaal onderwijs, problematisch is. Tegelijkertijd waarschuwen zij dat het volledig loslaten van gestandaardiseerde metingen in het onderwijs de kwaliteit van besluitvorming juist kan ondermijnen. Hun kernpunt is dat alternatieven vaak méér subjectiviteit introduceren en daarmee het risico op ongelijkheid vergroten.
Intelligentietests worden al decennia gebruikt
De onderzoekers plaatsen de discussie nadrukkelijk in de context van onderwijsdiagnostiek. In Nederland worden intelligentietests al decennia gebruikt bij vragen rond leerproblemen, ontwikkelingsachterstanden en onderwijsbehoeften. Deze toetsen zijn nooit bedoeld als enige beslissingsgrond, maar als één informatiebron naast observaties, leerlinggegevens en gesprekken met ouders en leerkrachten. Het probleem zit volgens de auteurs niet in het bestaan van tests, maar in de manier waarop resultaten soms te absoluut worden geïnterpreteerd.
Een belangrijk punt in hun analyse is de omgang met meetfouten. Zij onderstrepen dat elke meting, ook buiten de psychologie, onzekerheid bevat. Net zoals lengte- of gewichtmetingen kunnen variëren, zijn ook IQ-scores onderhevig aan contextuele invloeden zoals vermoeidheid of stress. Dat betekent echter niet dat zulke metingen waardeloos zijn voor het onderwijs. Integendeel, intelligentietests bieden volgens de auteurs een onderbouwd referentiekader om prestaties van leerlingen te plaatsen ten opzichte van leeftijdsgenoten. Die normatieve vergelijking is juist essentieel wanneer scholen proberen te bepalen of een leerling significant afwijkt van het verwachte ontwikkelingsniveau.
Daarbij wijzen zij erop dat intelligentiescores vanaf de kindertijd en adolescentie relatief stabiel zijn, zoals blijkt uit grootschalig longitudinaal onderzoek. Variatie tussen meetmomenten hoeft daarom niet te wijzen op onbetrouwbaarheid, maar kan ook samenhangen met natuurlijke ontwikkeling. In het onderwijs betekent dit dat verschillen tussen tests of testmomenten zorgvuldig geïnterpreteerd moeten worden, niet dat toetsing als zodanig moet worden losgelaten.
Professionele ervaring van docenten is per definitie selectief
De auteurs zijn vooral kritisch over het idee dat onderwijsprofessionals beter zouden af zijn zonder normgroepen. In de visie van Van Hoogdalem en Bosman zou de interpretatie van leerlingprestaties vooral moeten plaatsvinden binnen de individuele ontwikkelingscontext, zonder vergelijking met gestandaardiseerde referenties. Volgens Hemker en collega’s verschuift de verantwoordelijkheid dan volledig naar het professionele oordeel van de beoordelaar. Dat klinkt aantrekkelijk, maar brengt volgens hen grote risico’s met zich mee. Professionele ervaring is per definitie selectief en vaak niet representatief voor de gehele populatie, zeker in het onderwijs waar leraren en orthopedagogen relatief veel leerlingen zien met specifieke problemen.
De vergelijking die de auteurs maken met groeicurves in de jeugdgezondheidszorg is veelzeggend. Net zoals niet ieder kind precies het gemiddelde groeipad volgt, ontwikkelen ook leerlingen zich niet identiek. Toch zijn groeidiagrammen onmisbaar om afwijkingen te signaleren. Hetzelfde geldt volgens hen voor intelligentietests in het onderwijs. Normgegevens zijn geen absolute waarheid, maar bieden een noodzakelijk ankerpunt voor interpretatie.
Eerlijker en kindgerichter
In hun bespreking van alternatieven zoals dynamische assessment en kwalitatieve observatie verschuift de focus opnieuw naar de onderwijspraktijk. Deze methoden worden vaak gepresenteerd als eerlijker en kindgerichter, maar Hemker en collega’s benadrukken dat zij minstens zo gevoelig zijn voor beoordelaarsbias. Observaties zonder vaste protocollen kunnen sterk verschillen tussen beoordelaars en zijn vatbaar voor confirmation bias en het halo-effect. In onderwijscontexten, waar beslissingen grote gevolgen hebben voor leerlingen, kan dat leiden tot inconsistentie en ongelijkheid.
Dynamische assessment kan volgens de auteurs zeker waardevolle informatie opleveren over leerpotentieel en instructiebehoefte, maar alleen wanneer deze methoden voldoende gestandaardiseerd zijn. Zonder duidelijke beslisregels en normering blijft onduidelijk hoe observaties moeten worden vertaald naar onderwijsbeslissingen. Bovendien tonen zij aan dat de voorspellende waarde van dynamische assessment voor leeruitkomsten nog beperkt is onderbouwd.
Verschil tussen mechanische en klinische besluitvorming
Een centraal thema in het artikel is het verschil tussen mechanische en klinische besluitvorming. De auteurs verwijzen naar decennia aan onderzoek waaruit blijkt dat gestructureerde, algoritmische besluitvorming in het onderwijs consistenter en nauwkeuriger is dan puur intuïtief professioneel oordeel. Dit betekent niet dat de leraar of schoolpsycholoog overbodig is, maar dat diens expertise beter tot zijn recht komt wanneer zij wordt ingebed in transparante beslissingsregels waarin toetsgegevens, observaties en contextinformatie systematisch worden gecombineerd.
Voor het onderwijs betekent dit volgens de auteurs dat intelligentietests hun waarde behouden, mits zij niet geïsoleerd worden gebruikt. Testresultaten moeten altijd worden geplaatst binnen een breder diagnostisch kader, waarin ook onderwijsobservaties, didactische informatie en ontwikkelingsgegevens worden meegenomen. Juist die combinatie maakt het mogelijk om beslissingen uitlegbaar, controleerbaar en eerlijk te houden.
Te radicale reactie op reële, maar oplosbare problemen
In hun conclusie waarschuwen Hemker en collega’s expliciet tegen het volledig afschaffen van intelligentietests in het onderwijs. Zij zien dat pleidooi als een te radicale reactie op reële, maar oplosbare problemen. Veel van de bezwaren tegen IQ-tests gelden volgens hen in gelijke of zelfs sterkere mate voor alternatieve methoden. Het risico is dat het onderwijs daarmee een belangrijk instrument verliest, zonder dat daar een beter onderbouwd alternatief voor in de plaats komt.
Hun aanbeveling is dan ook een genuanceerde koers. Intelligentietests moeten niet worden verheerlijkt, maar evenmin worden weggegooid. Wanneer zij zorgvuldig worden ingezet, met aandacht voor meetfouten, doelgroepgeschiktheid en transparante beslisregels, blijven zij een waardevolle bron van informatie voor onderwijsprofessionals. In die context dragen zij bij aan beter onderbouwde beslissingen over leerlingen en aan een rechtvaardiger onderwijspraktijk, waarin toeval en persoonlijke voorkeur zo veel mogelijk worden teruggedrongen.
Wat betekent dit in de praktijk?
Voor het onderwijs betekent dit onderzoek dat intelligentietests hun betekenis behouden als onderdeel van besluitvorming over leerlingen, mits zij niet geïsoleerd worden gebruikt. Testscores bieden een normatief referentiepunt dat helpt om cognitieve prestaties van leerlingen te plaatsen ten opzichte van leeftijdsgenoten. Het onderzoek laat zien dat het loslaten van dergelijke referenties het risico vergroot dat beslissingen sterker afhankelijk worden van subjectief professioneel oordeel, wat kan leiden tot inconsistentie en ongelijkheid tussen leerlingen.
Hoe kun je hiermee aan de slag?
Scholen en samenwerkingsverbanden kunnen toetsen of hun procedures rond diagnostiek expliciet vastleggen hoe testscores worden gecombineerd met andere informatie, zoals observaties en ontwikkelingsgegevens. Het onderzoek benadrukt het belang van vooraf vastgestelde beslisregels, zodat duidelijk is welke rol intelligentietests spelen en hoe onzekerheid wordt meegewogen. Door deze werkwijze transparant te maken, worden beslissingen beter uitlegbaar voor ouders, leerlingen en professionals, en minder afhankelijk van individuele interpretatie.