Statistik – Psychologie Grundkurs für Online-Marketer (1 von 9)

1. März 2016 | Von in Allgemein

Statistische Methoden sind den meisten Psychologen vertrauter als Liegesessel und lange Gespräche über die Kindheit. Für Online-Marketer gilt das leider nicht immer. Was sind die Grundlagen und wichtigsten statistischen Verfahren? Welche Relevanz haben diese für das Online-Marketing?

Dies der der erste von neun Teilen des Psychologie Grundkurses für Online-Marketer.

Statistik ist wahrscheinlich das eine Fach, welches die meisten Erstsemester im Psychologiestudium davon überzeugt, dass viele andere Studiengänge auch sehr interessant sind oder so ein Studium vielleicht auch gar nicht das richtige ist.

Tatsächlich aber basiert der wissenschaftliche Erkenntnisgewinn hauptsächlich auf statistischen Verfahren, die bei der Auswertung von Feldversuchen und Laborexperimenten zum Einsatz kommen. Denn die Psychologie ist eine empirische Sozialwissenschaft. Das bedeutet, es geht eigentlich nie um den einzelnen Menschen, sondern immer um Stichproben, Kohorten, Gruppen, die miteinander verglichen werden. Für die Anwendung (z. B. in der Psychotherapie) wird dann von diesen statistischen Erkenntnissen auf den Einzelfall zurückgeschlossen (Deduktion).

 

Kausalität

Damit statistische Ergebnisse überhaupt irgendeine Aussagekraft besitzen können, wüssen wir uns vorher mit Kausalität beshäftigen. Mein Statistik-Dozent sagte immer „Die statistischen Methoden wissen nicht, wo die Zahlen herkommen!“. Tatsächlich sagte er das sehr, sehr oft. Weil es wichtig ist.

„Die statistischen Methoden wissen nicht, wo die Zahlen herkommen!“

In der Informatik hieße dieses Prinzip „Garbage In, Garbage Out“. Genauso richtig.

Kausale Zusammenhänge lassen sich nur in Experimenten beobachten. Hier eine kurze Definition:

Im Experiment werden vorab formulierte Aussagen (Hypothesen) systematisch auf ihren Wahrheitsgehalt überprüft, indem einzelne Variablen bewusst und aktiv verändert werden (unabhängige Variablen) während die abhängigen Variablen gemessen werden. Die aktive Manipulation ist der entscheidende Unterschied vom Experiment zu anderen Methoden der Datenerhebung.

Alles andere sind Beobachtungsstudien oder Quasi-Experimente, wo Ausprägungen einer Variable oder Gruppenzugehörigkeit nicht beeinflusst werden können. Zusammenhänge zwischen Messwerten können hier als Korrelationen erfasst werden. Allerdings dürfen diese Zusammenhänge dann nie kausal interpretiert werden (A beeinflusst B), weil der Zusammenhang genau anders herum sein könnte (B beeinflusst A) oder beide durch eine dritte Variable beeinflusst werden, die nicht kontrolliert wurde (C beeinflusst A und B).

Am konkreten Beispiel:
Ein sauberer A/B-Test lässt eine kausale Interpretation zu, etwa „weil wir unseren Button rot statt grün gemacht haben, haben wir 20 Prozent mehr Umsatz gemacht“. Wird dieser Zusammenhang in freier Wildbahn beobachtet („Wir haben beobachtet, dass Websites mit roten Buttons im Durchschnitt 20 Prozent mehr Umsatz machen, als Websites mit grünen Buttons“), dürfen keine Kausalzusammenhänge geschlussfolgert werden.

 

Signifikanz

Wie wird nun festgestellt, ob der experimentelle Eingriff – die Manipulation der unabhängigen Variable(n) – einen statistisch messbaren und inhaltlich bedeutsamen Effekt hatte? Die Vokabel in der Statistik dafür lautet Signifikanz. Signifikant ist ein Ergebnis dann, wenn mit einer gewissen Fehlerwahrscheinlichkeit davon ausgegangen werden kann, dass der gemessene Unterschied zwischen zwei Bedingungen nicht durch die rein zufällige Streuung der Messwerte zustande gekommen ist. Bei diesem sogenannten α-Fehler wird in der Regel eine Wahrscheinlichkeit unter 5 % oder sogar 1 % angestrebt. Im Grunde gibt es dafür allerdings nur eine Voraussetzung: Eine große Stichprobe. Das führt wiederum zu dem Problem, das eben jeder noch so kleine und unbedeutende Unterschied statistisch signifikant wird, wenn die Stichprobe groß genug ist.

Die vorab formulierte Hypothese, die getestet werden soll, muss daher möglichst noch eine Annahme zur minimalen Effektgröße machen, die inhaltlich bedeutsam wäre. Also

  • Falsch: Ein roter Button ist besser.
  • Richtig: Der rote Button wird zu mindestens 20 Prozent mehr Umsatz führen.

Mit der angenommenen Effektgröße lässt sich dann vorab nämlich die benötigte Stichprobe berechnen. Das Kriterium dafür ist die sogenannte Teststärke („Power“), die als Wahrscheinlichkeit p = 1 – β berechnet wird und mehr als 95 % betragen sollte. In Worten ausgedrückt wäre das die Wahrscheinlichkeit, den Effekt im Test festzustellen, wenn es ihn tatsächlich gibt.

Wird die Signifikanz mit der berechneten Stichprobe verfehlt, darf davon ausgegangen werden, dass es diesen Effekt (in der angenommenen Größe) nicht gibt. Bei Statistikern heißt das „die Nullhypothese wird angenommen“, gemessene Unterschiede beruhen also auf reinem Zufall und nicht auf der Manipulation der unabhängigen Variable(n).

Erreicht man ein signifikantes Ergebnis, darf davon ausgegangen werden, dass der Unterschied zwischen den Bedingungen nicht auf zufälliger Schwankung beruht. Die Wahrscheinlichkeit p, das fälschlicherweise anzunehmen, nennt man α-Fehler. Dieser sollte kleiner als 5 % sein.

Für die Stichprobenschätzung gibt es viele Tools. Meine Empfehlung ist das Tool unter http://abtestguide.com/calc/ (in der linken Spalte „Pre-test analysis“ auswählen), weil dort die Auswirkungen schön an zwei Normalverteilungen visualisiert werden. Die Stichprobengröße selbst wird hier nicht direkt berechnet, man kann aber mit den drei Feldern „Besucher pro Bedingung“, „Konversionen in der Kontrollbedingung“ und „Effekt“ solange herumspielen, bis auf der rechten Seite „p-value“ (α-Fehler) und „Power“ (1 – β-Fehler) den gewünschten Werten entsprechen (α < 5 % und 1 – β > 95 %). Dabei bekommt man auch schon ein gutes Gefühl für die Zusammenhänge und Auswirkungen. Zusammengefasst: Desto größer der angenommene Effekt, desto kleiner kann die Stichprobe sein, um ihn sicher zu finden.

Weniger ausgefeilt, dafür viel leichter zu bedienen, ist der Stichprobenrechner von Optimizely: https://www.optimizely.com/resources/sample-size-calculator/

 

Skalenniveaus, statistische Tests und Methoden

Das grundlegende Kriterium für die Wahl des richtigen Testverfahrens liefert das Skalenniveau. Davon gibt es vier verschiedene:

  • Nominalskala: Häufigkeiten, Kategorien.
    Beispiele: männlich/weiblich; rot/gelb/grün/…
  • Ordinalskala: Rangfolge.
    Beispiele: 1. Platz/2. Platz/…, Schulnoten
  • Intervallskala: Abstände.
    Beispiel: IQ-Skala, Temperatur in Grad Celsius
  • Verhältnisskala: natürlicher Nullpunkt, Multiplikation sinnvoll möglich.
    Beispiele: Zeitdauer, Wert in Euro

Viele statistische Testverfahren setzen mindestens Intervallskalenniveau voraus.

A/B-Tests sind sicher das Testverfahren, mit dem Online-Marketer am häufigsten in Berührung kommen. Dabei gibt es zwei Experimentalbedingungen und es werden in der Regel Conversions gezählt (also Häufigkeiten auf Nominalskalenniveau gemessen). Statistisch liegt dem Ganzen ein Chi²-Test zugrunde, der hier als Teil des Grundkurses nicht näher erläutert werden soll.

Natürlich lassen sich auch Daten auf kontinuierlichen Skalenniveaus messen und als A/B-Test auswerten, etwa die auf der Seite verbrachte Zeit, der Warenkorbwert und viele weitere. Dabei handelt es sich dann um Daten mindestens auf Intervallskalenniveau. Das korrekte statistische Verfahren ist der t-Test. Die Stichprobe wird entsprechend etwas anders berechnet, aber auch dafür gibt es natürlich gute Tools online, z. B. unter http://clincalc.com/Stats/SampleSize.aspx (Continuous (means) auswählen). Dafür muss die Standardabweichung der Kontrollgruppe angegeben werden.

 

Multivariate Verfahren

Zum Schluss möchte ich noch kurz auf multivariate Verfahren eingehen. Mit diesen Methoden ist es möglich, mehrere unabhängige Variablen gleichzeitig in einem Test auszuwerten, mehrdimensionale Zusammenhänge aufzudecken, gemessene Störvariablen aus den Ergebnissen „herauszurechnen“ und vieles mehr. Statistisch gesehen handelt es sich um mächtige Verfahren, mit denen komplexere Zusammenhänge erfasst werden können. Das ist ein Vorteil, denn die Realität wird von solchen Tests oft besser abgebildet. Den Zusammenhang „ein roter statt grüner Button führt bei Männern zu 50% mehr Conversions, bei Frauen hingegen zu 50% weniger“ könnte ein einfacher A/B-Test überhaupt nicht erfassen, ein multivariater Test hingegen schon. Man spricht hier von einer Wechselwirkung, da der Effekt der einen Variablen je nach Ausprägung der anderen Variablen genau gegensätzlich ausfällt (Der richtige Test für diesen konkreten Fall wäre übrigens ein Log-lineares Modell).

Häufigster Vertreter dieser Verfahren ist die Varianzanalyse (analysis of variance, ANOVA bzw. multivariate analysis of variance, MANOVA), die im Prinzip auf der Funktionsweise des t-Tests beruht.

Neben den genannten Vorteilen gibt es aber einen großen Nachteil von multivariaten Verfahren, für den sie eigentlich gar nichts können:

Multivariate Verfahren sind schwierig zu interpretieren. Eine Wechselwirkung zwischen zwei Variablen, wie die oben beschriebene, verstehen die meisten Menschen noch ohne Probleme. Bei drei Variablen wird das schon sehr viel schwieriger. Und wenn man selbst den Zusammenhang kaum gedanklich durchdringen kann, wird es praktisch zum Ding der Unmöglichkeit, diesen dem Chef, Web-Designer, Kunden etc. zu vermitteln. Darüber hinaus sind die praktischen Implikationen oft unklar. Besonders Online-Marketer sollten sich dessen also bewusst sein (Stichwort Analysis Paralysis) und vor der Mühe einer multivariaten Analyse in die eigene statistische Fitness und kommunikativen Fähigkeiten sowie das Wohlwollen und die Intelligenz der umgebenden Menschen vertrauen können.

 

Fazit

Das Verständnis statistischer Grundlagen hilft dabei, bessere Tests zu entwickeln, diese richtig Auszuwerten und in der Folge gute Entscheidungen zu treffen. Anfängerfehler(kausale Interpretation von Korrelationen; Wahl einer Version nach nicht signifikantem A/B-Test) werden selbst jungen Statistik-Padawans nicht passieren.

 

Leseempfehlung:

Quantitative Methoden 1 + 2 (Rasch, Friese, Hofmann, Naumann).
Diese Bücher begleiteten mich, damals in der 2. Auflage, durch die erste Hälfte meines Studiums und leisteten mir selbst bei den statistischen Auswertungen für die Diplom-Arbeit noch gute Dienste. Besonders Teil 1 bietet einsteigergerechte, verständliche und kompakte Erläuterungen zu den wichtigsten Prinzipien und Methoden der Statistik. Daher eine klare Empfehlung für alle, die nach dieser Einführung in die absoluten Grundlagen die Nase noch nicht voll haben:
http://www.springer.com/de/book/9783662435236

 

Videos:

Wer sich Statistik lieber im Videoformat von einem charmanten, manchmal etwas abgedrehten Dozenten erklären lässt, dem empfehle ich diese Video-Serie:

Hier geht’s zu den anderen Lektionen des Psychologie Grundkurs für Online-Marketer:

  1. Statistik
  2. Emotionen
  3. Motivation
  4. Wahrnehmung
  5. Gedächtnis
  6. Entscheidungen
  7. Überzeugen
  8. Marken
  9. Neuromarketing

Buch: Psychologie im Online-Marketing

Wer sich kompaktes Psychologiewissen zum Nachschlagen ins Bücherregal stellen möchte, kann das ebenfalls sehr gerne tun.

Das Buch ist bei BoD erschienen und selbstverständlich auch bei Amazon & Co. verfügbar mit der ISBN 978-3-7448-3725-5:

https://www.bod.de/buchshop/psychologie-im-online-marketing-andreas-schuelke-9783744837255

Viel Spaß beim Blättern und Lernen!

The following two tabs change content below.
Avatar-Foto

Andreas Schülke

Head of Agency bei Bloofusion Germany GmbH

Andreas Schülke leitet als Head of Agency die Online-Marketing-Agentur Bloofusion. Er schreibt schwerpunktmäßig zu den Themen Content-Marketing, Linkaufbau und SEO.

Privat treibt er viel Sport und ist Spielertrainer beim Freizeitliga-Verein SC Münster United. Außerdem ist er Fan von Werder Bremen und musikbegeisterter Hobbykoch.

Jetzt mit Andreas Schülke bei LinkedIn vernetzen!

Kommentieren