Praktijktesten: wetenschappelijk drijfzand

Ik stel mij vragen over het onderzoek van Prof. Dr. Stijn Baert & confraters naar discriminatie op basis van vreemde naam op de Gentse arbeidsmarkt. Er werden hierbij praktijktesten gedaan. De conclusies van Baert e.a. zijn gebaseerd op wetenschappelijk drijfzand.

Inleiding

De onderzoeksmethodiek is als volgende: 384 werkgevers kregen voor hun vacature een CV van een kandidaat met een Vlaamse naam en met een allochtone naam. Het antwoord aan de sollicitant wordt gedefinieerd in de ruime zin (wat dan ook) of in de strikte zin (sollicitatiegesprek). In de ruime zin kreeg de allochtone sollicitant 322 negatieve en 62 positieve antwoorden (positieve antwoordkans = 0,161), de Vlaamse kandidaat kreeg 298 negatieve en 86 positieve antwoorden (positieve antwoordkans = 0,224). In de strike zin kreeg de allochtone sollicitant 30 uitnodigen voor een sollicitatiegesprek (positieve antwoordkans = 0,078) en de Vlaamse sollicitant kreeg 43 uitnodigingen (positieve antwoordkans = 0,112).

Vervolgens werd de positieve antwoordratio van allochtone sollicitanten berekend door de positieve antwoordkans van allochtonen te delen door de positieve antwoordkans van autochtonen. Er werd dan door een gepaarde t-test gekeken of deze significant verschilde van 1. Dit gaf voor antwoord in de ruime zin een ratio van 0,72 (62/86, P < 1%) en in de strikte zin een ratio van 0,70 (30/43, P < 1%). Met andere woorden de allochtoon heeft ongeveer 30% minder kans op een sollicitatiegesprek dan een autochtoon. Het is het laatste dat in De Standaard staat.

Ik kon spijtig genoeg de gepaarde t-test niet reproduceren (t-testen werken niet bij één datapunt). Ligt dat aan mijn statistische skills of aan de onderzoeksmethode? Dat laat ik voorlopig in het midden.

Negatieve antwoordratio

Ik betwist niet dat volgens de gehanteerde hypothese en de gehanteerde statistische analyse discriminatie werd vastgelegd. De adder onder het gras ligt in de woorden “gehanteerde hypothese” en “gehanteerde statistische analyse”. In eerdere studies (naar waar Baert e.a. naar verwijzen) hanteren onderzoekers eveneens deze positieve antwoordratio i.e. hoeveel meer positieve antwoord krijgt een allochtoon t.o.v. een autochtoon. Nochtans kan je evengoed de negatieve antwoordratio berekenen i.e. hoeveel meer afwijzingen krijgt een allochtoon t.o.v. een Vlaming. Omdat dit equivalente hypotheses zijn m.b.t. discriminatie, zou deze identieke resultaten moeten opleveren.

Dit blijkt niet zo te zijn. De negatieve antwoordratio (in de ruime zin) is 1,08 (322/298) en de negatieve antwoordratio (in de strikte zin) is 1,04 (354/341). Ik hoef zelfs geen statistiek te doen om te weten dat dit niet significant van 1 zal verschillen. De krantenkop “Werkgevers weigeren allochtonen niet vaker dan autochtonen” zal niet zo goed verkopen…

Hoe kan dat twee equivalente methodes van het bepalen van discriminatie tot twee zeer uitlopende conclusies komen? Dit komt omdat het aantal negatieve antwoorden zeer hoog is, velen malen hoger dan het aantal positieve antwoorden. Dit maakt dat toevallige variatie in het aantal positieve antwoorden een veel grotere impact zal hebben dan toevallige variatie in het aantal negatieve antwoorden.

It's the distribution, stupid

Met andere woorden, de verdeling van de negatieve en positieve antwoorden bepaald of er discriminatie is. Verdeling? Dat had bij de onderzoekers een belletje moeten doen rinkelen. Eerder dan te knoeien met ratio’s, hadden de onderzoekers de verdelingen kunnen vergelijken en kijken of deze statistisch gezien van elkaar verschillen.

Ik heb dit dan ook gedaan. Dit gaf als resultaat dat bij antwoorden in de ruime zin de antwoordverdeling van de allochtone sollicitanten weinig significant verschilde van de antwoordverdeling van de Vlaamse sollicitanten (Χ² = 4,4276, df = 1,  P = 0,036). Voor antwoord in de strike zin is er geen significant verschil in de verdelingen (Χ² = 2.1798, df = 1,  P = 0,14). Er kan dus niet geconcludeerd worden dat er verschil is in behandeling bij het uitnodigen van allochtone sollicitanten voor een sollicitatiegesprek, wel dat er een mogelijk verschil is bij een antwoord tout court.

Toch ben ik niet bevredigd. Er is nog steeds niet onomstotelijk aangetoond dat er discriminatie is. Zoals een wakkere Twitteraar opmerkte, werd in de ruime zin bij 338 vacatures niet gediscrimineerd, bij 35 vacatures werd de Vlaming positief gediscrimineerd en bij 11 vacatures werd de allochtoon positief gediscrimineerd. Er is dus een discriminatiekans van 0,12 of een discriminatieratio van 1:7 (i.e. voor elke vacature waarbij er gediscrimineerd werd, zijn er 7 waarbij er geen discriminatie is). De vergelijking van deze verdeling met een hypothetische verdeling zonder discriminatie gaf een overduidelijk significant verschil (Χ² = 46,826, df = 1, P = 7,756 * 10-12) voor antwoord in de ruime zin. Ook voor antwoord in de strikte zin is er overduidelijk significant verschil (Χ² = 23,815, df = 1, P= 1,06 * 10-6). Er wordt dus wel degelijk gediscrimineerd op de Gentse discriminatiemarkt.

Maar hoeveel wordt er nu eigenlijk gediscrimineerd? En in wiens nadeel? Daarbij kan er gekeken worden of in de gevallen waarbij er gediscrimineerd wordt, dit ook random gebeurt. Als het ware zou je een muntje kunnen opgooien en elke groep wordt dan evenveel positief als negatief gediscrimineerd. Dit kan uitgetest worden door een binomiale test. Er is één probleem: de vacatures waarin gediscrimineerd wordt is aan de lage kant (n = 46 in de ruime zin, n = 25 in de strikte zin). Voor die laatste is het statistisch niet verantwoord om dit te testen. In de ruime zin werd gemiddeld in 76% van de discriminatiegevallen (95% betrouwbaarheidsinterval: 61%-86%) de allochtoon negatief gediscrimineerd (P  = 0,005).  Er is dus overduidelijk een bias ten nadele van de allochtone kandidaat.

Met een positieve noot zou ik toch willen herhalen dat van de 384 vacatures, er in slechts 35 gevallen de allochtone kandidaat negatief werd gediscrimineerd. Dit is een schamele 9,1% van de vacatures. Toch worden door die 9,1% alle werkgevers gestigmatiseerd als racisten en wordt er dankzij die 9,1% opgeroepen tot praktijktesten en mystery calls. Is dit wel proportioneel? Kan er wel geconcludeerd worden dat de zelfregulering is mislukt?

Conclusie

In conclusie kan ik stellen dat er inderdaad gediscrimineerd wordt op de Gentse arbeidsmarkt. Dat de onderzoekers dit ook concluderen, is eerder toeval. Ik heb toch een aantal serieuze tekortkomingen vastgesteld in de opstelling van de hypotheses en de statistische analyse. Er is hierbij weinig wetenschappelijke rigor aan de dag gelegd. Er is gebruikgemaakt van de dubieuze "positieve antwoordratio" die niet dezelfde resultaat gaf als de "negatieve antwoordratio". Een vergelijking van verdelingen was meer gepast.

De conclusies van Baert e.a. ruiken naar confirmation bias. De resultaten stemden overeen met de onderzoekers hun wereldbeeld en vanaf dat men discriminatie vond, heeft men niet verder geanalyseerd. De conclusies werden zo geformuleerd dat ze mooie krantentitels en munitie aan linkse partijen opleverden. Die misbruiken deze gretig voor hun politieke agenda. Dit werd overduidelijk in De Zevende Dag: er werd nog maar eens gepleit voor praktijktesten voor repressieve doeleinden. Zolang dat de resultaten van zulke praktijktesten met een rode bril bekeken worden, zijn praktijktesten niet te verantwoorden, zeker voor beleidsmatige doeleinden.

Ik wil niet alleen Baert e.a. aanpakken, dat zou niet fair zijn. Dat de gehanteerde methodiek bovendien algemeen gebruikt wordt, betekent dat iedereen in de sociale wetenschappen boter op diens hoofd heeft. Er is dus dringend noodzaak voor meer politieke diversiteit binnen de sociale wetenschappen zodat er meer kritische stemmen zulke studies kunnen doorlichten. Dit levert enkel maar voordelen op: de conclusies van de praktijktesten zijn standvastiger en rechtse partijen kunnen hierbij overtuigd worden. Krakkemikkige studies als van Baert e.a. helpen niet om het draagvlak voor praktijktesten te verhogen, integendeel.

Reacties