Kausalität, Korrelation, Scheinkorrelation und der Korrelationskoeffizient

_Geschätzte 6 Minuten Lesezeit

WERBUNG: Das Buch, das diesen Beitrag inspiriert hat, habe ich als Rezensionsexemplar vom C.H.Beck Verlag erhalten. Das bedeutet, ich habe das Buch zur Verfügung gestellt bekommen, um darüber zu schreiben.

Auch wenn die Überschrift langweilig klingt, hat es dieser Beitrag in sich und schenkt Dir in Sachen Statistik eine geheime Wunderwaffe, wenn Daten für Dich bisher böhmische Dörfer sind.

Es geht um Zusammenhänge, aber wann nutze ich was?

Ist Dir auch schon einmal der Satz „Korrelation bedeutet nicht Kausalität“ begegnet? Dieser Satz soll Menschen helfen, die beiden Begriffe richtig zu nutzen. Bei mir hat das lange nicht funktioniert. Ich wusste, dass beide Begriffe einen Zusammenhang zwischen zwei Dingen ausdrücken. Doch ich war nie sicher, wann ich welchen Begriff nutzen sollte.

Korrelation vs. Kausalität

Zum Glück sah ich eines Tages ein Video mit einem klugen Mann (leider erinnere ich mich nicht mehr, wer der Mann war. Ich würde mich freuen, wenn Du es weißt und Dein Wissen mit mir teilst), der endlich in der Lage war, mir die richtige Nutzung der beiden Begriffe zu vermitteln. Mit dem folgenden Satz schenkte mir der Mann aus dem Video die Erleuchtung der Erkenntnis:

„Wenn ich am Sonntag nicht in die Kirche gehe und der Pfarrer an diesem Tag stirbt, liegt keine Kausalität vor.“

Dank dieses Satzes hatte ich endlich den Unterschied zwischen Korrelation und Kausalität verstanden:

  1. Korrelation – Es gibt einen (wie bei unserem Pfarrer zeitlichen) Zusammenhang zwischen zwei Ereignissen.
  2. Kausalität – Es gibt einen Zusammenhang zwischen zwei Ereignissen und Ereignis 1 verursacht Ereignis 2.
Endliche gibt es eine Eselsbrücke.

Inzwischen ist es mir gelungen, mir eine weitere kleine Eselsbrücke zu diesem Thema zu bauen: Ich spreche den Begriff Kausalität laut aus, damit ich höre, dass er ein wenig wie das englische Wort „because“ klingt. Because lässt sich mit „weil“ übersetzen und damit weiß ich, dass Kausalität bedeutet, dass ein Ereignis stattfindet, weil ein anderes Ereignis stattgefunden hat.

Als es mir endlich gelungen war, die beiden Begriffe immer richtig zu verwenden, war ich glücklich und zufrieden und dachte, ich wüsste nun alles, was ich wissen muss. Doch eines schönen Tages begegnete mir der Begriff Korrelationskoeffizient und zerstörte all jenes Verständnis in Bezug auf Korrelation und Kausalität, das ich zu haben glaubte.

Damals war ich kurz davor zu kapitulieren und die beiden Begriffe aus meinem Vokabular zu streichen. Doch zum Glück begegnete mir zu dieser Zeit das Buch

Stefan Buijsman: Espresso mit Archimedes. Unglaubliche Geschichten aus der Welt der Mathematik.

Dank dieses Buches habe ich endlich auch verstanden, was es mit dem Korrelationskoeffizienten auf sich hat.

Die Sache mit dem Korrelationskoeffizienten

Seit 1900 können Menschen dank des Korrelationskoeffizienten berechnen, wie stark ein Zusammenhang zwischen zwei Ereignissen ist. Dank des Korrelationskoeffizienten können wir folgenden – durch Quellen belegten – Aussagen auf den Grund gehen:

  1. Je mehr Nicolas-Cage-Filme in einem Jahr gedreht werden, desto mehr Menschen ertrinken im Schwimmbad, nachdem sie ins Wasser gefallen sind
  2. Je mehr Menschen verunreinigtes Wasser trinken, desto mehr Menschen sterben an Cholera
  3. Je sicherer die Spielplätze, desto dicker die Kinder (Hinweis: Für die Bereitstellung des vollständigen Textes möchte das Wallstreet Journal Geld von Dir haben.)
Für Zahlengenies habe ich da was.

Leider ist es mir noch nie gelungen, einen Korrelationskoeffizienten zu berechnen und das, obwohl ich sowohl Statistik in der Uni als auch einen Data Science Kurs belegt habe. Dennoch möchte ich Dir die Freude der Berechnung des Korrelationskoeffizienten nicht vorenthalten und habe Dir einen Artikel herausgesucht, der Dir die notwendige Berechnungsformel verrät.

Mit dem Korrelationskoeffizienten verhält es sich wie folgt: Er kann einen Wert zwischen -1 und +1 annehmen. Schauen wir uns den Korrelationskoeffizienten einmal in Bezug auf unser erstes Beispiel an:

  • Koeffizient -1 = wenn Nicolas Cage in einem Film mitspielt ertrinken weniger Menschen
  • Koeffizient +1 = wenn Nicolas Cage in einem Film mitspielt ertrinken mehr Menschen
  • Koeffizient 0 = Die beiden Ereignisse haben nichts miteinander zu tun

Doch jetzt kommt die Krux an der ganzen Sache: Der Koeffizient in unserem Nicolas Cage Beispiel liegt bei sagenhaften 0,666 und trotzdem besteht zwischen beiden Ereignissen keine Kausalität. In diesem Fall haben wir es mit einer Scheinkorrelation zu tun.

Die Scheinkorrelation

Statistiker haben wohl einen Sprung in der Schüssel.

Eine Scheinkorrelation zeigt – kurz gesagt (hier die lange Version) – eine zufälligerweise übereinstimmende Entwicklung zwischen zwei Ereignissen an. Als mir der Begriff Scheinkorrelation zum ersten Mal begegnete, war ich den Tränen und der Verzweiflung nah. Ich hatte plötzlich das Gefühl, dass die ganze Geschichte mit Korrelation und Co. völlig sinnlos war und war völlig verwirrt.

Zum Glück gibt es Data Scientisten.

Zum Glück saß ich in diesem Moment in einem Raum mit lauter Data Scientisten, die mich beiseite nahmen und mir zeigten, dass die Scheinkorrelation eine Wunderwaffe ist. Seitdem bin ich gut vorbereitet und werde bei der nächsten Gelegenheit, in der ich an einem Zusammenhang meinen Zweifel habe, mein Gegenüber mit der Frage: „Wie hast Du sichergestellt, dass es sich in diesem Fall nicht um eine Scheinkorrelation handelt?“ völlig aus der Fassung bringen. Denn nur ein wirklich guter Data Scientist kann diese Frage souverän beantworten.