Ik stel mij vragen over het onderzoek van Prof. Dr. Stijn Baert
& confraters naar discriminatie op basis van vreemde naam op de Gentse
arbeidsmarkt. Er werden hierbij praktijktesten gedaan. De conclusies van Baert
e.a. zijn gebaseerd op wetenschappelijk drijfzand.
Inleiding
De onderzoeksmethodiek is als volgende: 384 werkgevers kregen voor hun vacature een CV van
een kandidaat met een Vlaamse naam en met een allochtone naam. Het antwoord aan de
sollicitant wordt gedefinieerd in de ruime zin (wat dan ook) of in de strikte
zin (sollicitatiegesprek). In de ruime zin kreeg de allochtone sollicitant 322
negatieve en 62 positieve antwoorden (positieve antwoordkans = 0,161), de Vlaamse
kandidaat kreeg 298 negatieve en 86 positieve antwoorden (positieve
antwoordkans = 0,224). In de strike zin kreeg de allochtone sollicitant 30
uitnodigen voor een sollicitatiegesprek (positieve antwoordkans = 0,078) en de
Vlaamse sollicitant kreeg 43 uitnodigingen (positieve antwoordkans = 0,112).
Vervolgens werd de positieve antwoordratio van allochtone sollicitanten
berekend door de positieve antwoordkans van allochtonen te delen door de
positieve antwoordkans van autochtonen. Er werd dan door een gepaarde t-test
gekeken of deze significant verschilde van 1. Dit gaf voor antwoord in de ruime
zin een ratio van 0,72 (62/86, P < 1%) en in de strikte zin een ratio van 0,70
(30/43, P < 1%). Met andere woorden de allochtoon heeft ongeveer 30% minder
kans op een sollicitatiegesprek dan een autochtoon. Het is het laatste dat in De Standaard staat.
Ik kon spijtig genoeg de gepaarde t-test niet reproduceren (t-testen werken niet bij één datapunt). Ligt dat aan mijn statistische skills of aan de onderzoeksmethode? Dat laat ik voorlopig in het midden.
Ik kon spijtig genoeg de gepaarde t-test niet reproduceren (t-testen werken niet bij één datapunt). Ligt dat aan mijn statistische skills of aan de onderzoeksmethode? Dat laat ik voorlopig in het midden.
Negatieve antwoordratio
Ik betwist niet dat volgens de gehanteerde hypothese en de
gehanteerde statistische analyse discriminatie werd vastgelegd. De adder onder het
gras ligt in de woorden “gehanteerde hypothese” en “gehanteerde statistische analyse”. In
eerdere studies (naar waar Baert e.a. naar verwijzen) hanteren onderzoekers
eveneens deze positieve antwoordratio i.e. hoeveel meer positieve antwoord
krijgt een allochtoon t.o.v. een autochtoon. Nochtans kan je evengoed de
negatieve antwoordratio berekenen i.e. hoeveel meer afwijzingen krijgt een
allochtoon t.o.v. een Vlaming. Omdat dit equivalente hypotheses zijn m.b.t.
discriminatie, zou deze identieke resultaten moeten opleveren.
Dit blijkt niet zo te zijn. De negatieve antwoordratio (in
de ruime zin) is 1,08 (322/298) en de negatieve antwoordratio (in de strikte
zin) is 1,04 (354/341). Ik hoef zelfs geen statistiek te doen om te weten dat dit
niet significant van 1 zal verschillen. De krantenkop “Werkgevers weigeren
allochtonen niet vaker dan autochtonen” zal niet zo goed verkopen…
Hoe kan dat twee equivalente methodes van het bepalen van
discriminatie tot twee zeer uitlopende conclusies komen? Dit komt omdat het
aantal negatieve antwoorden zeer hoog is, velen malen hoger dan het aantal
positieve antwoorden. Dit maakt dat toevallige variatie in het aantal positieve
antwoorden een veel grotere impact zal hebben dan toevallige variatie in het aantal
negatieve antwoorden.
It's the distribution, stupid
Met andere woorden, de verdeling van de negatieve en
positieve antwoorden bepaald of er discriminatie is. Verdeling? Dat had bij de
onderzoekers een belletje moeten doen rinkelen. Eerder dan te knoeien met
ratio’s, hadden de onderzoekers de verdelingen kunnen vergelijken en kijken of
deze statistisch gezien van elkaar verschillen.
Ik heb dit dan ook gedaan. Dit gaf als resultaat dat bij antwoorden
in de ruime zin de antwoordverdeling van de allochtone sollicitanten weinig
significant verschilde van de antwoordverdeling van de Vlaamse sollicitanten (Χ²
= 4,4276, df = 1, P = 0,036). Voor antwoord
in de strike zin is er geen significant verschil in de verdelingen (Χ²
= 2.1798, df = 1, P = 0,14). Er kan dus
niet geconcludeerd worden dat er verschil is in behandeling bij het uitnodigen
van allochtone sollicitanten voor een sollicitatiegesprek, wel dat er een mogelijk verschil is bij een antwoord tout court.
Toch ben ik niet bevredigd. Er is nog steeds niet
onomstotelijk aangetoond dat er discriminatie is. Zoals een wakkere Twitteraar opmerkte, werd in de ruime zin bij 338 vacatures niet gediscrimineerd, bij 35
vacatures werd de Vlaming positief gediscrimineerd en bij 11 vacatures werd de
allochtoon positief gediscrimineerd. Er is dus een discriminatiekans van 0,12
of een discriminatieratio van 1:7 (i.e. voor elke vacature waarbij er
gediscrimineerd werd, zijn er 7 waarbij er geen discriminatie is). De vergelijking van deze verdeling met een hypothetische verdeling zonder discriminatie gaf een overduidelijk significant verschil (Χ² = 46,826, df = 1, P = 7,756 * 10-12) voor antwoord in de ruime zin. Ook voor antwoord in de strikte zin is er overduidelijk significant verschil (Χ² = 23,815, df = 1, P= 1,06 * 10-6). Er wordt dus wel degelijk gediscrimineerd op de Gentse discriminatiemarkt.
Maar hoeveel wordt er nu eigenlijk gediscrimineerd? En in
wiens nadeel? Daarbij kan er gekeken worden of in de gevallen waarbij er
gediscrimineerd wordt, dit ook random gebeurt. Als het ware zou je een muntje
kunnen opgooien en elke groep wordt dan evenveel positief als negatief
gediscrimineerd. Dit kan uitgetest worden door een binomiale test. Er is één
probleem: de vacatures waarin gediscrimineerd wordt is aan de lage kant (n = 46
in de ruime zin, n = 25 in de strikte zin). Voor die laatste is het statistisch
niet verantwoord om dit te testen. In de ruime zin werd gemiddeld in 76%
van de discriminatiegevallen (95% betrouwbaarheidsinterval: 61%-86%) de allochtoon negatief gediscrimineerd (P = 0,005). Er is dus
overduidelijk een bias ten nadele van de allochtone kandidaat.
Met een positieve noot zou ik toch willen herhalen dat van de 384 vacatures, er in slechts 35 gevallen de allochtone kandidaat negatief werd gediscrimineerd. Dit is een schamele 9,1% van de vacatures. Toch worden door die 9,1% alle werkgevers gestigmatiseerd als racisten en wordt er dankzij die 9,1% opgeroepen tot praktijktesten en mystery calls. Is dit wel proportioneel? Kan er wel geconcludeerd worden dat de zelfregulering is mislukt?
Met een positieve noot zou ik toch willen herhalen dat van de 384 vacatures, er in slechts 35 gevallen de allochtone kandidaat negatief werd gediscrimineerd. Dit is een schamele 9,1% van de vacatures. Toch worden door die 9,1% alle werkgevers gestigmatiseerd als racisten en wordt er dankzij die 9,1% opgeroepen tot praktijktesten en mystery calls. Is dit wel proportioneel? Kan er wel geconcludeerd worden dat de zelfregulering is mislukt?
Conclusie
In conclusie kan ik stellen dat er inderdaad gediscrimineerd
wordt op de Gentse arbeidsmarkt. Dat de onderzoekers dit ook concluderen, is
eerder toeval. Ik heb toch een aantal serieuze tekortkomingen vastgesteld in de
opstelling van de hypotheses en de statistische analyse. Er is hierbij weinig
wetenschappelijke rigor aan de dag gelegd. Er is gebruikgemaakt van de dubieuze "positieve antwoordratio" die niet dezelfde resultaat gaf als de "negatieve antwoordratio". Een vergelijking van verdelingen was meer gepast.
De conclusies van Baert e.a. ruiken naar confirmation bias. De
resultaten stemden overeen met de onderzoekers hun wereldbeeld en vanaf dat men
discriminatie vond, heeft men niet verder geanalyseerd. De conclusies werden zo
geformuleerd dat ze mooie krantentitels en munitie aan linkse partijen opleverden.
Die misbruiken deze gretig voor hun politieke agenda. Dit werd overduidelijk in
De Zevende Dag: er werd nog maar eens gepleit voor praktijktesten voor repressieve
doeleinden. Zolang dat de resultaten van zulke praktijktesten met een rode bril
bekeken worden, zijn praktijktesten niet te verantwoorden, zeker voor
beleidsmatige doeleinden.
Ik wil niet alleen Baert e.a. aanpakken, dat zou niet fair zijn. Dat de gehanteerde
methodiek bovendien algemeen gebruikt wordt, betekent dat iedereen in de
sociale wetenschappen boter op diens hoofd heeft. Er is dus dringend noodzaak voor meer politieke diversiteit binnen de sociale wetenschappen zodat er meer
kritische stemmen zulke studies kunnen doorlichten. Dit levert enkel maar voordelen
op: de conclusies van de praktijktesten zijn standvastiger en rechtse partijen
kunnen hierbij overtuigd worden. Krakkemikkige studies als van Baert e.a. helpen niet om het draagvlak voor praktijktesten te verhogen, integendeel.
Reacties