Studies over onderwijsinvesteringen zijn minder betrouwbaar dan ze lijken

Literatuurstudies gelden in de wetenschap als gezaghebbende bronnen. Ze brengen bijeen wat er over een onderwerp bekend is en worden gebruikt door onderzoekers, beleidsmakers en een breder publiek. Juist omdat zulke overzichten vaak als betrouwbaar vertrekpunt worden gezien, kunnen methodologische tekortkomingen grote gevolgen hebben. Dat geldt zeker voor een onderwerp als de doelmatigheid van onderwijs, waar overheden en onderwijsinstellingen geregeld moeten verantwoorden hoe publieke middelen worden ingezet.

Malagon en Haelermans richten zich op literatuurstudies over wat in de wetenschappelijke literatuur meestal efficiency of education wordt genoemd. In gewoon Nederlands gaat het om de vraag wat onderwijs oplevert in verhouding tot de middelen die erin worden gestoken. Het kan dan gaan om geld, personeel, gebouwen of onderwijstijd aan de ene kant, en om resultaten als diploma’s, toetsscores of onderwijsdeelname aan de andere kant. Het onderwerp krijgt al decennia aandacht, mede omdat onderwijs volgens de onderzoekers doorgaans 4 tot 6 procent van het bbp en 10 tot 20 procent van overheidsbudgetten beslaat.

Wat is de kwaliteit van de literatuurstudies?

Hoewel er veel empirisch onderzoek bestaat naar de doelmatigheid van onderwijs, ontbrak volgens Malagon en Haelermans tot nu toe een systematische beoordeling van de kwaliteit van de literatuurstudies op dit terrein. Zij onderzochten daarom hoe stevig die overzichtsstudies methodologisch in elkaar zitten en in hoeverre de zoek- en selectieprocessen controleerbaar zijn.

De onderzoekers zochten in databases van grote uitgevers als Scopus, ERIC, EconLit en EBSCO Business Source Complete naar literatuurstudies over doelmatigheid van onderwijs. Daarna gebruikten zij een sneeuwbalmethode: via de literatuurlijsten van gevonden studies zochten zij naar aanvullende relevante reviews. Uiteindelijk analyseerden zij zeventien literatuurstudies die tussen 2001 en 2026 zijn gepubliceerd.

Volledig genoeg was beschreven om de studie te kunnen herhalen

Die zeventien reviews beoordeelden zij op drie punten. Allereerst keken zij of het onderzoeksontwerp helder was beschreven, met aandacht voor zoektermen, geraadpleegde databanken en selectiecriteria. Vervolgens onderzochten zij of goed te volgen was hoe de zoekopdracht en de selectie van artikelen daadwerkelijk waren uitgevoerd. Tot slot beoordeelden zij of de methode volledig genoeg was beschreven om de studie te kunnen herhalen.

Slechts acht van de zeventien reviews voldeden aan alle drie de voorwaarden. Daarmee was 47 procent van de onderzochte literatuurstudies volgens Malagon en Haelermans reproduceerbaar. Bij de overige negen ontbrak basale informatie. Soms werden zoektermen niet vermeld, was niet duidelijk hoe zoekwoorden met elkaar waren gecombineerd of stond niet precies aangegeven welke periode was onderzocht.

Tijdschriften dwingen transparantie onvoldoende af

Dat zulke tekortkomingen ook voorkomen in recent gepubliceerde overzichtsstudies, wijst er volgens de onderzoekers op dat redacties en peer reviewers in dit vakgebied methodische transparantie onvoldoende afdwingen. Daardoor kan een deel van de literatuurstudies niet goed worden gecontroleerd, bijgewerkt of kritisch opnieuw beoordeeld.

Daarnaast vonden Malagon en Haelermans in alle zeventien reviews minstens één vorm van bias. Daarmee doelen zij op systematische vertekening in de manier waarop studies worden gevonden, geselecteerd of meegenomen. Die vertekening hoeft niet bewust te zijn, maar kan er wel toe leiden dat een literatuurstudie een onvolledig beeld geeft van het beschikbare onderzoek.

Een onuitgesproken taalbias

De meest voorkomende vorm is taalbias. Dertien reviews beperkten zich expliciet tot Engelstalige publicaties. Eén review nam ook Spaanstalige studies mee. Drie reviews noemden geen taalcriterium, maar toen Malagon en Haelermans de literatuurlijsten bekeken, bleken ook daarin alleen Engelstalige publicaties te staan. Daarmee is volgens de onderzoekers sprake van een onuitgesproken taalbias: Engels wordt dan feitelijk als vanzelfsprekende taal van wetenschappelijke kennis behandeld.

Het probleem daarvan is dat onderzoek in andere talen buiten beeld kan blijven. Dat is juist bij onderwijs relevant, omdat onderwijsstelsels sterk per land verschillen. Onderzoek naar doelmatigheid in het ene onderwijsstelsel hoeft niet zonder meer hetzelfde te betekenen in een ander stelsel. Wanneer vooral Engelstalige studies worden meegenomen, kan kennis uit andere taalgebieden en onderwijssystemen ondervertegenwoordigd raken.

Rapporten en werkdocumenten blijven buiten beeld

Een tweede probleem is publicatiebias. Dertien van de zeventien reviews lieten zogenoemde grijze literatuur buiten beschouwing. Daarbij gaat het om onderzoek dat niet in commerciële wetenschappelijke tijdschriften verschijnt, maar bijvoorbeeld in rapporten of werkdocumenten van centrale banken, internationale organisaties, publiek gefinancierde onderzoeksinstituten en denktanks.

Volgens Malagon en Haelermans is dat bij een beleidsgericht onderwerp als doelmatigheid van onderwijs problematisch. Veel relevante bevindingen verschijnen juist in rapporten van overheden, internationale organisaties of onderzoeksinstituten. Als literatuurstudies alleen naar wetenschappelijke tijdschriften kijken, kunnen zulke studies ontbreken in het overzicht.

Welke studies zijn buiten beeld gebleven en waarom?

Een derde vorm is beschikbaarheidsbias. Daarbij speelt mee welke studies onderzoekers daadwerkelijk kunnen raadplegen. Onderzoekers hebben niet allemaal dezelfde toegang tot databanken, tijdschriften en betaalde publicaties. Volgens Malagon en Haelermans is het vooral problematisch dat reviews meestal niet duidelijk maken welke studies door beperkte toegang buiten beeld zijn gebleven.

Slechts twee reviews benoemden dat zij zich beperkten tot artikelen waarvan de volledige tekst beschikbaar was. Ook die reviews vermeldden echter niet welke artikelen daardoor buiten de selectie vielen. Omdat lezers niet weten tot welke bronnen de auteurs toegang hadden, blijft volgens de onderzoekers onduidelijk hoe representatief de geselecteerde studies zijn voor het gehele relevante publicatiebestand.

De onderzoekers besteden daarnaast aandacht aan lokalisatiebias. Daarmee bedoelen zij het verschijnsel dat studies uit sommige delen van de wereld algemener worden gepresenteerd dan studies uit andere delen. Auteurs verbonden aan instellingen in Europa, Noord-Amerika, Australië en Nieuw-Zeeland vermelden de onderzochte locatie minder vaak in de titel van hun artikel dan auteurs uit andere regio’s.

Geografische ongelijkhied

Dat heeft gevolgen voor hoe onderzoek wordt gelezen. Een studie die lokale data gebruikt maar de locatie niet in de titel noemt, kan de indruk wekken algemenere kennis te bieden dan zij feitelijk doet. Studies uit andere regio’s, waar de locatie vaker wel in de titel staat, worden sneller als regionaal of contextgebonden gezien. Daardoor kan onderzoek uit het Mondiale Noorden gemakkelijker als universele kennis worden gelezen, terwijl onderzoek uit andere delen van de wereld sterker aan plaats en context wordt gekoppeld.

Malagon en Haelermans pasten hun methode toe op een reproduceerbare review van Mergoni en De Witte uit 2022. Van de 101 studies waarin een land of regio een rol speelde, waren er 43 lokalisatievertekend. Die studies gebruikten lokale data, maar noemden de locatie niet in de titel. Bij studies uit zogenoemde WEIRD-landen, Western, Educated, Industrialized, Rich and Democratic, kwam dit vaker voor dan bij studies uit andere landen. Van de studies uit WEIRD-landen was 56 procent lokalisatievertekend, tegenover 37 procent bij studies uit niet-WEIRD-landen.

Niet als volledige oplossing maar als hulpmiddel

Om zulke problemen al tijdens het zoekproces zichtbaar te maken, ontwikkelden Malagon en Haelermans vier open source softwaretools. De tools zijn geschreven in Python en beschikbaar via GitHub. De onderzoekers presenteren ze niet als volledige oplossing, maar als hulpmiddelen om vertekening eerder op te sporen en beter te verantwoorden.

De eerste tool verwijdert taalfilters uit zoekopdrachten, zodat onderzoekers kunnen zien welke niet-Engelstalige studies anders buiten beeld blijven. De tweede tool breidt de zoekopdracht uit naar grijze literatuur. De derde tool brengt in kaart welke gevonden studies vrij toegankelijk zijn en welke achter een betaalmuur zitten. De vierde tool spoort lokalisatiebias op door te kijken of een studie lokale gegevens gebruikt zonder de onderzochte locatie in de titel te noemen.

In de toepassing op de review van Mergoni en De Witte leverden de tools extra informatie op. Zonder taalfilter kwamen tien extra publicaties naar voren. Door grijze literatuur mee te nemen, steeg het aantal resultaten van 165 naar 200. De beschikbaarheidstool liet zien dat 39 van de 165 resultaten open access waren en 126 niet. De lokalisatietool maakte zichtbaar dat 43 van de 101 gelokaliseerde studies lokalisatievertekend waren.

AI kan deze bias versterken

De onderzoekers benadrukken dat zulke hulpmiddelen onderzoekers niet voorschrijven welke studies zij moeten opnemen. Wel maken ze duidelijker welke keuzes in het zoekproces worden gemaakt en wat daarvan de gevolgen zijn. Een literatuurstudie kan dan nog steeds afbakeningen gebruiken, maar die afbakeningen worden beter zichtbaar en controleerbaar.

Tot slot wijzen Malagon en Haelermans op de opkomst van generatieve kunstmatige intelligentie. AI-systemen die worden getraind op wetenschappelijke literatuur waarin taalbias, publicatiebias en lokalisatiebias al aanwezig zijn, zullen die vertekeningen volgens hen reproduceren en mogelijk versterken. Het aanpakken van bias in literatuurstudies is daarmee niet alleen van belang voor de huidige onderzoekspraktijk, maar ook voor toekomstige vormen van geautomatiseerde kennissynthese.

Wat betekent dit in de praktijk?

Voor docenten, schoolleiders en bestuurders laat dit onderzoek zien dat een literatuurstudie niet automatisch het volledige beeld geeft. Ook een overzichtsartikel in een wetenschappelijk tijdschrift kan belangrijke studies missen als alleen Engelstalige artikelen, alleen tijdschriftpublicaties of alleen goed toegankelijke bronnen zijn meegenomen.

Voor beleidsmakers is vooral relevant dat doelmatigheid van onderwijs vaak gaat over de vraag of publieke middelen goed worden ingezet. Wanneer reviews niet goed herhaalbaar zijn of bepaalde soorten onderzoek buiten beeld laten, wordt het lastiger om te beoordelen hoe stevig de kennisbasis onder keuzes over geld, personeel en onderwijsinrichting werkelijk is.

Voor onderzoekers en reviewers maken de resultaten duidelijk dat transparantie over zoekwoorden, databanken, taalfilters, toegang tot artikelen en uitgesloten literatuur noodzakelijk is. De door Malagon en Haelermans ontwikkelde tools kunnen helpen om vertekening al tijdens het zoeken zichtbaar te maken, zodat latere conclusies beter controleerbaar zijn.

Bron: Malagon, J. & Haelermans, C. (2026). Systematic flaws: uncovering biases and replicability challenges in literature reviews on efficiency of education, International Transactions in Operational Research. DOI: https://doi.org/10.1111/itor.70207

Studies over onderwijsinvesteringen zijn minder betrouwbaar dan ze lijken

Wat is de kwaliteit van de literatuurstudies?

Volledig genoeg was beschreven om de studie te kunnen herhalen

Tijdschriften dwingen transparantie onvoldoende af

Een onuitgesproken taalbias

Rapporten en werkdocumenten blijven buiten beeld

Welke studies zijn buiten beeld gebleven en waarom?

Geografische ongelijkhied

Niet als volledige oplossing maar als hulpmiddel

AI kan deze bias versterken

Wat betekent dit in de praktijk?

Ontdek meer onderwerpen

Gerelateerd

Meer artikelen

Compliment van de juf maakt kinderen niet onzeker over hun slimheid

Schoolmaaltijden verbeteren rekenprestaties, maar niet aantoonbaar bij beoogde doelgroep

Kinderen met dyslexie schamen zich vooral voor lezen, minder voor spelling

Wat is de kwaliteit van de literatuurstudies?

Blijf op de hoogte

Volledig genoeg was beschreven om de studie te kunnen herhalen

Tijdschriften dwingen transparantie onvoldoende af

Een onuitgesproken taalbias

Rapporten en werkdocumenten blijven buiten beeld

Welke studies zijn buiten beeld gebleven en waarom?

Geografische ongelijkhied

Niet als volledige oplossing maar als hulpmiddel

AI kan deze bias versterken

Wat betekent dit in de praktijk?

Ontdek meer onderwerpen

Gerelateerd

Meer artikelen

Compliment van de juf maakt kinderen niet onzeker over hun slimheid

Schoolmaaltijden verbeteren rekenprestaties, maar niet aantoonbaar bij beoogde doelgroep

Kinderen met dyslexie schamen zich vooral voor lezen, minder voor spelling

Artikel delen