Leeshoek

Direct Contact

Correlatie en causaliteit

LinkedIn
Facebook

Correlatie en causaliteit (HR Analytics)

Eet meer chocolade en wordt slim! 

Eind 2012 kwam eindelijk de lang verwachte verlossing voor menig chocoladeliefhebber. The New England Journal of Medicine publiceerde een artikel van Franz H. Messerli waarin aangetoond werd dat er een verband was tussen de gemiddelde chocolade consumptie in een land en het aantal Nobelprijswinnaars per 10 miljoen inwoners. De verwerkte cacaoboon zorgt voor betere cognitieve prestaties die op hun beurt een conditio-sine-qua-non zijn om de meest gegeerde wetenschappelijke onderscheiding in de wacht te slepen. 

Op onderstaande grafiek is duidelijk te zien dat de chocoladedoping Zwitserland geen windeieren heeft gelegd. Het land voert zowel de chocolade als de nobelprijswinnaar ranking aan. Zweden is het enige (chauvinistische?) buitenbeentje. Het verband tussen de twee variabelen is daarenboven bijzonder sterk. De correlatie heeft een P-waarde van 0,0001. Dit betekent dat er minder dan 1 kans op 10000 is dat het resultaat toevallig is.  Grijp dus onmiddellijk naar die lat Côte d'Or  voor je verder leest! 

Want uiteraard is dit sprookje te mooi om waar te zijn. Bovenstaande conclusie is een klassiek voorbeeld van het feit dat correlatie, hoe sterk die ook moge zijn, nog niet betekent dat er ook een causaal verband is. Zo betekent het ook niet dat paraplus regen veroorzaken omdat er op regenachtige dagen meer paraplus te zien zijn. Correlatie zegt enkel iets over de samenhang tussen twee datareeksen. Het ontdekken van een betekenisvolle correlatie tussen 2 datareeksen is enkel een interessant vertrekpunt voor verdere analyse.

De sterkte van de samenhang wordt uitgedrukt in een correlatiecoëfficiënt (r). De correlatiecoëfficiënt gaat van -1 tot +1. Wanneer de datareeksen niet samenhangen is r gelijk aan 0. Een perfect verband heeft 1 als coëfficient. In bovenstaand chocolade voorbeeld is het correlatiecoëfficient 0,791.

Beleidsbeslissingen mogen enkel genomen worden op basis van een causale verbanden. Een causaal verband wordt, naast correlatie, ook gekenmerkt door het feit dat er een tijdsverschil zit tussen de twee datareeksen en dat er geen andere redenen zijn die de samenhang verklaren. Het tijdsverschil tussen de vermoede oorzaak en het effect is meestal voor de hand liggend om uit te klaren, het uitsluiten van alle andere mogelijke redenen van de samenhang is vaak veel moeilijker. Naast het statistische element vergt HR Analytics dus ook een grondige kennis van HR verbanden en een portie gezonde logica.

Binnen een businesscontext is het vaak onmogelijk om de perfecte labo omstandigheden te creëren. Het is ook niet mogelijk om een volledige set criteria te formuleren waaraan de verbanden moeten voldoen om als causaal te  worden aanzien. Dit kan echter geen reden zijn om het kind met het badwater weg te gooien. HR Analytics kan technieken hanteren uit het  wetenschappelijk onderzoek en leren van de collega's uit marketing, logistiek, enz.

 

Van correlatie naar causaliteit : HR Analytics denkpistes 

1. "Blind" versus "Double Blind" 

In wetenschappelijk onderzoek geeft men er de voorkeur aan om aan de participanten te verzwijgen dat er getest wordt of wat er getest wordt. Zo zal men verzwijgen wie de echte pillen krijgt en wie de placebo's. Soms gaat men hier nog een stap verder door ook voor de onderzoeksmedewerkers te verbergen wie deel uitmaakt van de test- of controlegroep, in dit geval spreekt men van "double blind".

Een bekende vertekeningen uit de HR wereld die het belang van een "blind" onderzoek onderstreept is het Hawthorne-effect. In de jaren '30 deed men onderzoek naar de effecten van beloning & werkomstandigheden op de performantie van de werknemers in de Hawthorne vestiging van de Western Electric Company. Medewerkers die wisten dat ze bestudeerd werden bleken plots beter te gaan functioneren, wat men ook deed. Zowel bij het verhogen als bij het verminderen van de verlichting in de productiehal bleken medewerkers performanter te worden. Jarenlang is dit toegeschreven aan de extra aandacht die de medewerkers ervoeren. Ondertussen weten we dat er ook andere factoren meespeelden. Een belangrijke les blijft echter dat de kennis bij de onderzochte persoon dat die deelneemt aan een experiment een invloed kan hebben op zijn motivaties, overtuigingen en gedrag. 

2. Controlegroep 

Om te kunnen aantonen dat een bepaalde interventie een bepaald effect heeft gehad is het noodzakelijk om een medewerkerpopulatie op te splitsen in een test- en een controlegroep. De testgroep ontvangt de interventie (training, bepaald loonbeleid, etc). Op de controlegroep wordt de interventie niet uitgevoerd. Dit lijkt op het eerste zich nogal academisch in opzet en moeilijk toepasbaar in de realiteit, maar vaak is dit spontaan al zo in organisaties. HR acties worden meestal over een bepaalde periode doorgevoerd. Dit laat toe om medewerkers die de interventie nog niet hebben gekregen te aanzien als de controlegroep.

De opsplitsing in controle- en testgroep dient in principe wel volledig willekeurig te zijn zodat eventuele effecten van de interventie niet worden bepaald of beïnvloed door de kenmerken van de verschillende subgroepen zelf.

Informatie bekomen uit een onderzoek met een vertekening in de selectie van de groepen kan erg gevaarlijk zijn. Een voorbeeld uit de tweede wereldoorlog maakt dit duidelijk. Amerikaanse militairen merkten tijdens de oorlogsjaren op dat vliegtuigen die terugkwamen van een missie op bepaalde plaatsen meer kogelgaten vertoonden. Ze lanceerden een project om precies die plaatsen meer te pantseren. Dit bleek echter een fout met zware gevolgen. Ze maakten een typische selectiefout door enkel die vliegtuigen in ogenschouw te nemen die terugkeerden naar hun basis. De vliegtuigen die werden neergeschoten werden niet opgenomen in hun analyse. Deze vliegtuigen kwamen niet terug omdat ze in meer vitale plaatsen werden geraakt dan vliegtuigen die wel terugkwamen. De foute analyse zorgde er dus voor dat niet de meest vitale maar eerder de minst vitale onderdelen van de vliegtuigen extra werden beschermd.

Een typisch voorbeeld van de opsplitsing in test- en controlegroep in HR analytics is de opdeling van medewerkers in een groep die de training reeds kreeg en een groep die de training (nog) niet heeft gekregen. Hierbij dient goed opgelet te worden dat de inschrijvingsvoorwaarden niet gebonden zijn aan bepaalde kenmerken van de participanten. Bij vrije inschrijving kan er een bepaalde vertekening optreden doordat een bepaalde groep (gemotiveerden om hun loopbaan te ontwikkelen, medewerkers die opleiding zien als een dagje vakantie, etc.)  zich meer aangesproken voelt dan een andere. Ook de cultuur en perceptie van de leidinggevende kan een belangrijke rol spelen wanneer deze een rol heeft in de toekenning van de training. Wordt de training door managers aanzien als een beloning voor de beste medewerkers, of is het juist een laatste kans voor medewerkers die ondermaats presteren?

Bovenstaand meetprobleem kan opgelost worden door vanuit HR de opleiding uit te rollen naar een aangeduide populatie. Vaak komt dit neer op een gefaseerde uitrol per locatie (vestiging, land,…) of per business unit. Bij deze methodiek kan dan nagegaan worden of de testgroep een representatieve steekproef is van de totale populatie door ondermeer de verdeling van de verschillende socio-demografische variabelen te vergelijken over de beide groepen.

Wees ook aandachtig om het kenmerk waarvoor de performantie wordt gemeten op voorhand in kaart te brengen. Het niveau aan de start is vaak de meest bepalende factor voor het niveau aan de aankomstlijn. Wanneer de opleiding voornamelijk goede medewerkers aantrekt is het logische dat de groep getrainde medewerkers beter presteert dan deze die de opleiding niet hebben ontvangen. 

3. Kennis van de materie en de business. 

Laat je niet enkel leiden door de statistiek of verbanden in de data. Aftoetsing van de statistische resultaten aan de terreinrealiteit en kennis van het HR domein is minstens even belangrijk. Zo kan ontdekt worden dat 2 datareeksen wel een gelijke trend vertonen, maar dat de bepalende variabele een eventuele 3de variabele is. Een eenvoudig voorbeeld uit het dagdagelijkse leven ter illustratie. Er blijkt een sterke correlatie te zijn tussen de consumptie van ijsjes en het aantal verdrinkingsdoden. Wanneer we even logisch nadenken komen we er echter al snel achter dat ijsjes niet de oorzaak zijn van de verdrinkingsdoden, maar dat bij mooi weer meer ijsjes worden weggelikt en meer mensen gaan zwemmen. Temperatuur en aantal uur zonneschijn zijn de voorspellers van zowel ijsconsumptie als verdrinkingsdoden.

Zo kunnen we in organisatie soms zien dat een stijging in klanttevredenheidscore kan samenvallen met daling in de omzet. En dit terwijl we net het omgekeerde zouden verwachten. Wat is hier aan de hand? De organisatie had nochtans net zwaar ingezet op het bekomen van "delighted" klanten. Uit verdere analyse op het terrein blijkt dat de opleiding die het winkelpersoneel had gekregen om meer klantgericht te werken en de klant te ondersteunen bij zijn keuze ervoor zorgde dat medewerkers per klant meer tijd spendeerden. Hierdoor bleven bepaalde klanten onbediend en wandelden ze sneller weg uit de vestigingen van de kledingsmerk. Het aandeel van de delighted klanten was gestegen, maar het aantal klanten dat werd bediend daalde. De opleiding was dus maar deels succesvol en diende bijgestuurd te worden.

Het kwalitatieve luik (interviews & workshops met de stakeholders)  binnen HR Analytics kan dus minstens even belangrijk zijn. 

4. Onafhankelijke tijdseffecten. 

Er kan maar gesproken worden van causaliteit als er een periode ligt tussen de interventie en de verandering in performantie. Maar hierbij dient goed opgelet te worden dat de verandering over de tijd wel degelijk het gevolg is van de interventie. Was er sowieso niet al een trend in de performantie? Het is nuttig om de cijfers van de afhankelijke variabele uit de voorbije periodes eens op een grafiek te zetten. Zo wordt meteen duidelijk of er een bepaalde trend of bepaalde seizoenseffect is.

Ter illustratie een organisatie die een verzuimprobleem heeft en een opleidingsprogramma voor de lijnmanagers voorziet. Enkele maanden later blijkt het verzuim nog gestegen te zijn en wordt de nieuwe aanpak op het eerste zicht geen succes. Echter, de opleiding werd gegeven in september en alhoewel verzuim een gedrag is dat gesteld wordt en verschillende oorzaken kent, is het wel zo dat  tijdens de wintermaanden verzuim piekt ten gevolge van meer ziekte. Als de verzuimcijfers van de wintermaanden werden vergeleken met diezelfde maanden een jaar eerder bleek echter wel dat er een daling was in de gemiddelde duur van de afwezigheid. De nieuwe aanpak bleek dus wel te werken.

Bron: Pierre Eggermont