Letzte Änderung am 15. November 2024 um 20:58:36

“Wir können das Universum nicht erklären, sondern nur beschreiben; und wir wissen nicht, ob unsere Theorien wahr sind, wir wissen nur, dass sie nicht falsch sind.” — Harald Lesch

Wissenschaftliche Forschung basiert auf dem Falsifikationsprinzip. Wir können daher Modelle oder Hypothesen nur ablehnen und behalten das weniger schlechte Modell oder die weniger schlechte Hypothese bei. In diesem Kapitel wollen wir uns mit dem statistischen Testen beschäftigen. Wir wollen also Testen, ob wir eine Hypothese ablehnen können. Dabei fangen wir hier mit den Grundprinzipien an, die wir dann bei allen statistischen Tests in den folgenden Kapiteln verwenden können. Im Besonderen konzentrieren wir uns hier auf den t-Test für zwei Stichproben an dem ich einmal die Grundkonzepte statistischen Testens erkläre.

Deshalb auch gleiche eine Warnung vorweg. Ich habe mich hier dem allgemeinen Verständnis verpflichtet gefühlt und nicht so sehr der statistischen, sprachlichen Genauigkeit. Man möge mir das Verzeihen.

Das statistische Testen ist dabei eine eigne Philosophie oder Gedankengebäude. Wir führen spezielle, gedankliche Schritte durch um zu einer Entscheidung zu kommen. Es handelt sich mehr oder minder um einen objektiven Prozess um zu einer Entscheidung zu kommen. Diese Entscheidung basiert auf Regeln, die wir dann in der Summe als statistisches Testen bezeichnen. Wir schauen uns hier den am meisten verbreiteten Zweig des statistischen Testen an – wir nutzen hier die frequentistische Statistik. Für die Anwendung ist es egal, aber vielleicht hörst du später mal was von anderen Möglichkeiten um zu einer statistischen Entscheidung zu kommen. Eine andere Möglichkeit wäre das bayesianische Testen, was wir aber hier nicht in den Grundlagen behandeln werden. Deshalb hier einmal erwähnt, nach welche Philosophie wir testen. Wenn dich mehr über das statistische Testen erfahren möchtest, kann ich dir die Veröffentlichung von Gigerenzer u. a. (2004) sehr ans Herz legen. Dort wird nochmal die Geschichte und die Hintergründe erläutert.

So, jetzt geht es aber los. Du erfährst im diesem Kapitel mehr zur statistischen Testentscheidung und welche Konzepte wir beim statistischen Testen nutzen. Wir gehen dabei die vier wichtigsten Konzepte einmal durch.

Diese obigen Konzepte sind so zentral, dass wir immer wieder auf diese zurückkommen werden. Daher ist es wichtig, dass du ein Grundverständnis von dem statistischen Testen für dich erwirbst. Eine wissenschaftliche Abschlussarbeit wirst du ohne einen statistischen Test selten abgeben können.

Die ursprüngliche Idee zu den Sprungweiten der Hunde- und Katzenflöhe stammt von Cadiergues u. a. (2000) aus der entsprechenden Veröffentlichung A comparison of jump performances of the dog flea, Ctenocephalides canis (Curtis, 1826) and the cat flea, Ctenocephalides felis felis (Bouché, 1835). In der folgenden Abbildung 20.1 siehst du einmal die Zusammenfassung (eng. abstract) aus der Arbeit. Wir wollen uns hier einmal auf die berichteten Sprungweiten der Hunde- und Katzenflöhe konzentrieren.

Abbildung 20.1— Auszug aus dem Zusammenfassung (eng. abstract) aus der Arbeit von Cadiergues u. a. (2000). Der Fokus liegt hier auf der Sprungweite von Hunde- und Katzenflöhen.

Wir können jetzt die Mittelwerte der Sprungweiten der Hunde- und Katzenflöhe einmal nehmen und diese Werte dann in die Formel des t-Test setzen. Wir haben ja dafür fast alles was wir brauchen. Die Standardabweichung ist ja in beiden Gruppen der Hunde- und Katzenflöhe gleich. Das einzige was ich hier noch berichten muss ist die Fallzahl \(n_g\) der beiden Gruppen mit 450 Flöhen. Dann können wir auch schon die Teststatistik \(T_{D}\) mit den Werten aus der Zusammenfassung berechnen.

\[ T_{D} = \cfrac{30.4cm - 19.9cm}{9.1cm \cdot \sqrt{2/450}} = \cfrac{10.5cm}{0.61cm} = 17.21 \]

Dann brauchen wir noch die Freiheitsgrade der t-Verteilung um uns den \(p\)-Wert berechnen zu können. Wir nutzen dafür die folgende Formel.

\[ df = n_1 + n_2 -2 = 450 +450 -2 = 898 \]

Dann können wir schon die Fläche rechts von der berechneten Teststatistik \(T_{D}\) mit der Funktion pt() ausrechnen.

R Code [zeigen / verbergen]
pt(17.21, 898, lower.tail = FALSE)
[1] 6.942618e-58

Wie du siehst erhalten wir einen sehr kleinen \(p\)-Wert. Das haben wir aber auch erwartet, denn die Teststatistik \(T_{D}\) ist ja auch sehr groß! Damit bleibt kaum Fläche rechts von der Teststatistik \(T_{D}\) übrig. Damit ist dann der \(p\)-Wert sehr klein.

20.1 Die Hypothesen

Wir können auf allen Daten einen statistischen Test rechnen und erhalten statistische Maßzahlen wie eine Teststatistik oder einen \(p\)-Wert. Nur leider können wir mit diesen statistischen Maßzahlen nicht viel anfangen ohne die Hypothesen zu kennen. Jeder statistische Test testet eine Nullhypothese. Ob diese Hypothese dem Anwender nun bekannt ist oder nicht, ein statistischer Test testet eine Nullhypothese. Daher müssen wir uns immer klar sein, was die entsprechende Nullhypothese zu unserer Fragestellung ist. Wenn du hier stockst, ist das ganz normal. Eine Fragestellung mit einer statistischen Hypothese zu verbinden ist nicht immer so einfach gemacht.

Die Nullhypothese \(H_0\) und die Alternativhypothese \(H_A\)

Die Nullhypothese \(H_0\) nennen wir auch die Null oder Gleichheitshypothese. Die Nullhypothese sagt aus, dass zwei Gruppen gleich sind oder aber kein Effekt zu beobachten ist.

\[ H_0: \bar{y}_{1} = \bar{y}_{2} \]

Die Alternativhypothese \(H_A\) oder \(H_1\) auch Alternative genannt nennen wir auch Unterschiedshypothese. Die Alternativhypothese besagt, dass ein Unterschied vorliegt oder aber ein Effekt vorhanden ist.

\[ H_A: \bar{y}_{1} \neq \bar{y}_{2} \]

Als Veranschaulichung nehmen wir das Beispiel aus der unterschiedlichen Sprungweiten in [cm] für Hunde- und Katzenflöhe. Wir formulieren als erstes die Fragestellung. Eine Fragestellung endet mit einem Fragezeichen.

Liegt ein Unterschied zwischen den Sprungweiten von Hunde- und Katzenflöhen vor?

Wir können die Frage auch anders formulieren.

Springen Hunde- und Katzenflöhe unterschiedlich weit?

Wichtig ist, dass wir eine Fragestellung formulieren. Wir können auch mehrere Fragen an einen Datensatz haben. Das ist auch vollkommen normal. Nur hat jede Fragestellung ein eigenes Hypothesenpaar. Wir bleiben aber bei dem simplen Beispiel mit den Sprungweiten von Hunde- und Katzenflöhen.

Wie sieht nun die statistische Hypothese in diesem Beispiel aus? Wir wollen uns die Sprungweite in [cm] anschauen und entscheiden, ob die Sprungweite für Hunde- und Katzenflöhen sich unterscheidet. Eine statistische Hypothese ist eine Aussage über einen Parameter einer Population. Wir entscheiden jetzt, dass wir die mittlere Sprungweite der Hundeflöhe \(\bar{y}_{dog}\) mit der mittleren Sprungweite der Katzenflöhe \(\bar{y}_{cat}\) vergleichen wollen. Es ergibt sich daher folgendes Hypothesenpaar.

\[ \begin{aligned} H_0: \bar{y}_{dog} &= \bar{y}_{cat} \\ H_A: \bar{y}_{dog} &\neq \bar{y}_{cat} \\ \end{aligned} \]

Es ist wichtig sich in Erinnerung zu rufen, dass wir nur und ausschließlich Aussagen über die Nullhypothese treffen werden. Das frequentistische Hypothesentesten kann nichts anders. Wir kriegen keine Aussage über die Alternativhypothese sondern nur eine Abschätzung der Wahrscheinlichkeit des Auftretens der Daten im durchgeführten Experiment, wenn die Nullhypothese wahr wäre. Wenn die Nullhypothese war ist, dann liegt kein Effekt oder Unterschied vor. Das Falisifkationsprinzip - wir können nur Ablehnen - kommt hier zusammen mit der frequentistischen Statistik in der wir nur eine Wahrscheinlichkeitsaussage über das Auftreten der Daten \(D\) - unter der Annahme \(H_0\) gilt - treffen können.

20.2 Die Testentscheidung…

In den folgenden Kapiteln werden wir verschiedene statistische Tests kennenlernen. Alle statistischen Tests haben gemein, dass ein Test eine Teststatistik \(T_{D}\) aus den Daten \(D\) berechnet. Darüber hinaus liefert jeder Test auch einen p-Wert (eng. p-value). Manche statistischen Test geben auch ein 95% Konfidenzintervall wieder. Eine Testentscheidung gegen die Nullhypothese \(H_0\) kann mit jedem der drei statistischen Maßzahlen - Teststatistik \(T_{D}\), \(p\)-Wert und 95% Konfidenzintervall - durchgeführt werden. Die Regel für die Entscheidung, ob die Nullhypothese \(H_0\) abgelehnt werden kann, ist nur jeweils anders.

Streng genommen gilt die Regel \(T_{D} \geq T_{\alpha = 5\%}\) nur für eine Auswahl an statistischen Tests siehe dazu auch Kapitel 20.2.1. Bei manchen statistischen Tests ist die Entscheidung gedreht. Hier lassen wir das aber mal so stehen…

In Tabelle 20.1 sind die Entscheidungsregeln einmal zusammengefasst. Wir wollen in den folgenden Abschnitten die jeweiligen Entscheidungsregeln eines statistisches Tests anhand der Maßzahl Teststatistik, \(p\)-Wert und Konfidenzintervall einmal durchgehen. Die Entscheidung nach der Teststatistik ist veraltet und dient nur dem konzeptionellen Verständnisses. In der Forschung angewandt wird der \(p\)-Wert und das 95% Konfidenzintervall. Im Fall des 95% Konfidenzintervalls müssen wir noch unterschieden, ob wir einen Mittelwertsunterschied \(\Delta_{A-B}\) oder aber einen Anteilsunterschied \(\Delta_{A/B}\) betrachten.

Tabelle 20.1— Zusammenfassung der statistischen Testentscheidung unter der Nutzung der Teststatistik, dem p-Wert und dem 95% Konfidenzintervall.
Teststatistik p-Wert 95% Konfidenzintervall
\(\boldsymbol{T_{D}}\) \(\boldsymbol{Pr(\geq T_{D}|H_0)}\) \(\boldsymbol{KI_{1-\alpha}}\)
H\(_0\) ablehnen \(T_{D} \geq T_{\alpha = 5\%}\) \(Pr(\geq T_{D}| H_0) \leq \alpha\) \(\Delta_{A-B}\): enthält nicht 0 oder \(\Delta_{A/B}\): enthält nicht 1

Dann kommen wir nochmal zu einer allgemeinen Übersicht in der Abbildung 20.2. Du kennst eine vereinfachte Abbildung schon aus dem vorherigen Kapitel zur Einführung in das Testen von Hypothesen. Was sich hier im Prinzip ändert ist der Vergleich zu der Testverteilung, wenn die \(H_0\) wahr ist. Unsere Daten \(D\) sind ja nur eine mögliche Reprsäentation einer zufälligen Auswahl an Beobachtungen. Wir vergleichen dann unsere Daten über die Teststatistik \(T_D\) mit allen möglichen Teststatistiken \(T_1,..., T_p\) unter der Annahme, dass bei diesen Teststatistiken die Nullhypothese war ist und wir keinen Effekt in der Grundgesamtheit beobachten würden. Aus diesem Vergleich der Teststatistik mit der Verteilung der Teststatistiken unter der Null ziehen wir dann einen Rückschluss über die Gültigkeit der Nullhypothese \(H_0\).

Abbildung 20.2— Erweiterung der Übersichtsabbildung zum Prinzip des statistischen Testens mit Grundgesamtheit , Randomisierung zur Strukturgleichheit und Stichprobe. Die Daten \(D\) in der Stichprobe werden über die Teststatistik \(T_D\) mit der Testverteilung von Teststatisiken unter der Null verglichen. Dann kann ein Rückschluss über die Nullhypothese in der Grundgesamtheit über die berechnete Teststatistik \(T_D\) getroffen werden. [Zum Vergrößern anklicken]

20.2.1 … anhand der Teststatistik

Wir wollen uns dem frequentistischen Hypothesentesten über die Idee der Teststatistik annähern. Die Teststatistik kannst du einfach anhand einer mathematischen Formel ausrechnen. Dabei hat die Teststatistik den Vorteil, dass sie einheitslos ist. Egal ob du das Gewicht zwischen Elefanten [t] oder Hamstern [g] vergleichst, die Teststatistik wird immer ähnliche numerische Werte annehmen. Du kannst also Teststatistiken über verschiedene Experimente miteinander vergleichen.

Eigenschaften der Teststatistik \(\boldsymbol{T_D}\) berechnet aus den Daten \(D\)
  • Die Teststatistik \(T_D\) ist Null, wenn kein Unterschied vorliegt.
  • Die Teststatistik \(T_D\) hat keine Einheit. \(T_D\) ist einheitslos.

Im Folgenden sehen wir die Formel für den t-Test, den wir dazu nutzen um zwei Mittelwerte miteinander zu vergleichen. Den t-Test werden wir im Kapitel 29 uns nochmal detaillierter anschauen, hier deshalb nur die Formel mit der wir dann die Teststatistik erarbeiten und verstehen werden. Hier nutzen wir deshalb die vereinfachte Formel des Student t-Test um das Konzept der Teststatistik \(T\) zu verstehen.

\[ T_{D}=\cfrac{\bar{y}_1-\bar{y}_2}{s_{p} \cdot \sqrt{2/n_g}} \]

mit

  • \(\bar{y}_1\) dem Mittelwert für die erste Gruppe.
  • \(\bar{y}_2\) dem Mittelwert für die zweite Gruppe.
  • \(s_{p}\) der gepoolten Standardabweichung mit \(s_p = \tfrac{s_1 + s_2}{2}\).
  • \(n_g\) der Gruppengröße der gruppen. Wir nehmen an beide Gruppen sind gleich groß.

Zum Berechnen der Teststatistik \(T_{D}\) aus den Daten \(D\) benötigen wir also die zwei Mittelwerte \(\bar{y}_1\) und \(\bar{y}_2\) sowie deren gepoolte Standardabweichung \(s_p\) und die Anzahl der Beobachtungen je Gruppe \(n_g\). Im Folgenden wenden wir die Formel des t-Tests einmal auf einen kleinen Beispieldatensatz zu den Sprunglängen in [cm] von jeweils \(n_g = 4\) Hunde- und Katzenflöhen an. Du siehst in der Formel, dass wir die Einheit [cm] dadurch verlieren, dass wir den Mittelwertsunterschied in [cm] durch die gepoolte Standardabweichung in [cm] teilen. Beide Maßzahlen haben die gleiche Einheit, so dass wir am Ende eine einheitslose Teststatistik \(T_{D}\) vorliegen haben. In Tabelle 20.2 ist das Datenbeispiel gegeben.

Tabelle 20.2— Beispiel für die Berechnung von einem Mittelwertseffekt an der Sprunglänge [cm] von Hunde und Katzenflöhen.
animal jump_length
dog 8.0
dog 7.2
dog 8.4
dog 7.5
cat 8.5
cat 9.9
cat 8.9
cat 9.4

Dann hier auch einmal die Werte der Datentabelle als Vektoren für Berechnungen in R. Ich brauche die Zahlen als Vektor um später schnell mal den Mittelwert und die Standardabweichung zu berechnen.

R Code [zeigen / verbergen]
dog_vec <- c(8.0, 7.2, 8.4, 7.5)
cat_vec <- c(8.5, 9.9, 8.9, 9.4)

Und dann hier nochmal als tibble, wie auch die Datentabelle aussieht. Dann kannst du auch alles in R mit der Funktion t.test() wie unten gezeigt nachrechnen.

R Code [zeigen / verbergen]
data_tbl <- tibble(animal = gl(2, 4, labels = c("dog", "cat")),
                   jump_length = c(dog_vec, cat_vec))

Nun berechnen wir die Mittelwerte und die Standardabweichungen aus der obigen Datentabelle für die Sprungweiten getrennt für die Hunde- und Katzenflöhe. Die Werte setzen wir dann in die Formel ein und berechnen die Teststatistik \(T_{D}\) aus unseren experimentellen Daten \(D\).

\[ T_{D}=\cfrac{9.18cm - 7.78cm}{\cfrac{(0.61cm + 0.53cm)}{2} \cdot \sqrt{2/4}} = 3.47 \]

mit

  • \(\bar{y}_{cat} = 9.18cm\) dem Mittelwert für die Gruppe cat.
  • \(\bar{y}_{dog} = 7.78cm\) dem Mittelwert für die Gruppe dog.
  • \(s_{cat} = 0.61cm\) die Standardabweichung für die Gruppe cat.
  • \(s_{dog} = 0.53cm\) die Standardabweichung für die Gruppe dog.
  • \(s_p = 0.57cm\) der gepoolten Standardabweichung mit \(s_p = \tfrac{0.53cm + 0.61cm}{2}\).
  • \(n_g = 4\) der Gruppengröße der beiden Gruppen.

Hier dann einmal die Berechnung der Teststatistik \(T_D\) aus den Daten Schritt für Schritt in R. Erst berechnen wie die gepoolte Standardabweichung s_p und setzen diese dann in die Formel ein.

R Code [zeigen / verbergen]
dog_vec <- c(8.0, 7.2, 8.4, 7.5)
cat_vec <- c(8.5, 9.9, 8.9, 9.4)
s_p <- (sd(cat_vec) + sd(dog_vec))/2
T_D <- (mean(cat_vec) - mean(dog_vec))/(s_p * sqrt(2/4)) 

Dann runden wir noch das Eregbnis der Teststatistik \(T_D\) auf zwei Kommastellen für den besseren Vergleich.

R Code [zeigen / verbergen]
T_D |> round(2)
[1] 3.48

Am Ende dann noch der einfache Weg mit der Funktion t.test() für die Berechnung der Teststatistik \(T_D\) mit dem t-Test. Du findest hier den Wert der Teststatistik mit t = -3.4685 vor. Das Minus kommt von der Berechnung Hund minus Katze. Ist aber für die Interpretation egal.

R Code [zeigen / verbergen]
t.test(jump_length ~ animal, data = data_tbl, var.equal = TRUE)

    Two Sample t-test

data:  jump_length by animal
t = -3.4685, df = 6, p-value = 0.01333
alternative hypothesis: true difference in means between group dog and group cat is not equal to 0
95 percent confidence interval:
 -2.3876455 -0.4123545
sample estimates:
mean in group dog mean in group cat 
            7.775             9.175 

Wir haben nun die Teststatistik \(T_{D} = 3.47\) aus unseren Daten berechnet. In der ganzen Rechnerei verliert man manchmal den Überblick. Erinnern wir uns, was wir eigentlich wollten. Die Frage war, ob sich die mittleren Sprungweiten der Hunde- und Katzenflöhe unterschieden. Wenn die \(H_0\) wahr wäre, dann wäre der Unterschied \(\Delta\) der beiden Mittelwerte der Hunde- und Katzenflöhe gleich Null. Oder nochmal in der Analogie der t-Test Formel, dann wäre im Zähler \(\Delta = \bar{y}_{cat} - \bar{y}_{dog} = 0\). Wenn die Mittelwerte der Sprungweite [cm] der Hunde- und Katzenflöhe gleich wäre, dann wäre die berechnete Teststatistik \(T_{D} = 0\), da im Zähler Null stehen würde. Die Differenz von zwei gleichen Zahlen ist Null.

Je größer die berechnete Teststatistik \(T_{D}\) wird, desto unwahrscheinlicher ist es, dass die beiden Mittelwerte per Zufall gleich sind. Wie groß muss nun die berechnete Teststatistik \(T_{D}\) werden damit wir die Nullhypothese ablehnen können?

In Abbildung 20.3 ist die Verteilung aller möglichen \(T_{D}\) Werte unter der Annahme, dass die Nullhypothese wahr ist, dargestellt. Wir sehen, dass die t-Verteilung den Gipfel bei \(T_{D} = 0\) hat und niedrigere Werte mit steigenden Werten der Teststatistik annimmt. Wenn \(T = 0\) ist, dann sind auch die Mittelwerte gleich. Je größer unsere berechnete Teststatistik \(T_{D}\) wird, desto unwahrscheinlicher ist es, dass die Nullhypothese gilt.

Eigenschaften der Teststatistik \(\boldsymbol{T_{\alpha = 5\%}}\) aus der Grundgesamtheit
  • Die Teststatistik \(T_{\alpha = 5\%}\) ist der Grenzwert, wo noch die \(H_0\) in der Grundgesamtheit gilt.
  • Die Teststatistik \(T_{\alpha = 5\%}\) beschreibt einen theoretischen Wert. Der Wert kann nicht biologisch interpretiert werden.

Die t-Verteilung ist so gebaut, dass die Fläche \(A\) unter der Kurve gleich \(A=1\) ist. Wir können nun den kritischen Wert \(T_{\alpha = 5\%}\) berechnen an dem rechts von dem Wert eine Fläche von 0.05 oder 5% liegt. Somit liegt dann links von dem kritischen Wert die Fläche von 0.95 oder 95%. Den kritischen Wert \(T_{\alpha = 5\%}\) können wir statistischen Tabellen entnehmen. Oder wir berechnen den kritischen Wert direkt in R mit \(T_{\alpha = 5\%} = 2.78\).

Abbildung 20.3— Die t-Verteilung aller möglichen Teststatistiken \(T\) wenn die Nullhypothese wahr ist zusammen mit einer signifikanten Teststaistik \(T_{D}\). Wenn kein Effekt vorliegt sind die beiden Mittelwerte \(\bar{y}_1\) und \(\bar{y}_2\) in etwa gleich groß. Die Differenz der Mittelwerte wäre 0 und somit auch die Teststatistik \(T\). Je größer der \(T_{D}\) wird desto weniger können wir davon ausgehen, dass die beiden Mittelwerte gleich sind. Liegt der \(T_{D}\) über dem kritischen Wert von \(T_k\) dann können wir die Nullhypothese ablehnen. [Zum Vergrößern anklicken]

Kommen wir zurück zu unserem Beispiel. Wir haben in unserem Datenbeispiel für den Vergleich von der Sprungweite in [cm] von Hunde- und Katzenflöhen eine Teststatistik von \(T_{D} = 3.47\) berechnet. Der kritische Wert um die Nullhypothese abzulehnen liegt bei \(T_{\alpha = 5\%} = 2.78\). Wenn \(T_{D} \geq T_{\alpha = 5\%}\) wird die Nullhypothese (H\(_0\)) abgelehnt. In unserem Fall ist \(3.47 \geq 2.78\). Wir können die Nullhypothese ablehnen. Es gibt einen Unterschied zwischen der mittleren Sprungweite von Hunde- und Katzenflöhen.

Die Testverteilung \(T\) der Grundgesamtheit, wenn \(H_0\) gilt

In diesem Exkurs wollen wir einmal überlegen, woher die Testverteilung \(T\) herkommt, wenn die \(H_0\) gilt. Wir wollen die Verteilung der Teststatistik einmal in R herleiten. Zuerst gehen wir davon aus, dass die Mittelwerte der Sprungweite der Hunde- und Katzenflöhe gleich sind \(\bar{y}_{cat} = \bar{y}_{dog} = (9.18 + 7.78)/2 = 8.48\). Daher nehmen wir an, dass die Mittelwerte aus der gleichen Normalverteilung kommen. Wir ziehen also vier Sprungweiten jeweils für die Hunde- und Katzenflöhe aus einer Normalverteilung mit \(\mathcal{N}(8.48, 0.57)\). Wir nutzen dafür die Funktion rnorm(). Anschließend berechnen wir die Teststatistik. Diesen Schritt wiederholen wir eintausend Mal.

R Code [zeigen / verbergen]
set.seed(20201021)
T_vec <- map_dbl(1:1000, function(...){
  dog_vec <- rnorm(n = 4, mean = 8.48, sd = 0.57)
  cat_vec <- rnorm(n = 4, mean = 8.48, sd = 0.57)
  s_p <- (sd(cat_vec) + sd(dog_vec))/2 
  T_calc <- (mean(cat_vec) - mean(dog_vec))/(s_p * sqrt(2/4)) 
  return(T_calc)  
}) |> round(2)

Nachdem wir eintausend Mal die Teststatistik unter der \(H_0\) berechnet haben, schauen wir uns die sortierten ersten 100 Werte der Teststatistik einmal an. Wir sehen, dass extrem kleine Teststatistiken bis sehr große Teststatistiken zufällig auftreten können, auch wenn die Mittelwerte für das Ziehen der Zahlen gleich waren.

R Code [zeigen / verbergen]
T_vec |> magrittr::extract(1:100) |> sort()  
  [1] -5.19 -3.48 -3.29 -2.65 -2.40 -2.10 -1.48 -1.35 -1.30 -1.29 -1.29 -1.27
 [13] -1.24 -1.22 -1.10 -1.03 -1.02 -1.02 -0.91 -0.87 -0.84 -0.79 -0.79 -0.76
 [25] -0.76 -0.76 -0.73 -0.66 -0.63 -0.63 -0.62 -0.61 -0.57 -0.56 -0.55 -0.52
 [37] -0.52 -0.50 -0.48 -0.48 -0.43 -0.35 -0.33 -0.32 -0.26 -0.26 -0.22 -0.21
 [49] -0.20 -0.18 -0.17 -0.17 -0.14 -0.14 -0.12 -0.12 -0.10 -0.06  0.04  0.10
 [61]  0.14  0.16  0.17  0.31  0.34  0.41  0.45  0.50  0.50  0.51  0.55  0.63
 [73]  0.63  0.68  0.73  0.73  0.77  0.89  0.92  0.95  0.99  1.07  1.07  1.09
 [85]  1.12  1.16  1.22  1.33  1.33  1.76  2.11  2.16  2.51  2.79  2.87  3.24
 [97]  3.48  3.56  3.60  6.56

Unsere berechnete Teststatistik war \(T_{D} = 3.47\). Wenn wir diese Zahl mit den ersten einhundert, sortierten Teststatistiken vergleichen, dann sehen wir, dass nur 4 von 100 Zahlen größer sind als unsere berechnete Teststatistik. Wir beobachten also sehr seltene Daten wie in Tabelle 20.2, wenn wir davon ausgehen, dass kein Unterschied zwischen der Sprungweite der Hunde- und Katzenflöhe vorliegt.

In Abbildung 20.4 sehen wir die Verteilung der berechneten eintausend Verteilungen nochmal als ein Histogramm dargestellt. Wiederum sehen wir, dass unsere berechnete Teststatistik - dargestellt als rote Linie - sehr weit rechts am Rand der Verteilung liegt.

R Code [zeigen / verbergen]
ggplot(as_tibble(T_vec), aes(x = value)) +
  theme_minimal() +
  labs(x = "Teststatistik", y = "Anzahl") +
  geom_histogram() +
  geom_vline(xintercept = 3.47, color = "red")
Abbildung 20.4— Histogramm der 1000 gerechneten Teststaistiken \(T_{D}\), wenn die \(H_0\) war wäre und somit kein Unterschied zwischen den Mittelwerten der Sprungweiten der Hunde- und Katzenflöhe vorliegen würde.

Nun ist es leider so, dass jeder statistische Test seine eigene Teststatistik \(T\) hat. Daher ist es etwas mühselig sich immer neue und andere kritische Werte für jeden Test zu merken. Es hat sich daher eingebürgert, sich nicht die Teststatistik für die Testentscheidung gegen die Nullhypothese zu nutzen sondern den \(p\)-Wert. Den \(p\)-Wert wollen wir uns in dem folgenden Abschnitt anschauen.

Entscheidung mit der berechneten Teststatistik

Bei der Entscheidung mit der Teststatistik müssen wir zwei Fälle unterschieden.

  1. Bei einem t-Test und einem \(\mathcal{X}^2\)-Test gilt, wenn \(T_{D} \geq T_{\alpha = 5\%}\) wird die Nullhypothese (H\(_0\)) abgelehnt.

  2. Bei einem Wilcoxon-Mann-Whitney-Test gilt, wenn \(T_{D} < T_{\alpha = 5\%}\) wird die Nullhypothese (H\(_0\)) abgelehnt.

Achtung – Wir nutzen die Entscheidung mit der Teststatistik nur und ausschließlich in der Klausur. In der praktischen Anwendung hat die Betrachtung der berechneten Teststatistik keine Verwendung mehr.

20.2.2 … anhand des p-Wertes

In dem vorherigen Abschnitt haben wir gelernt, wie wir zu einer Entscheidung gegen die Nullhypothese anhand der Teststatistik kommen. Wir haben einen kritischen Wert \(T_{\alpha = 5\%}\) definiert bei dem rechts von dem Wert 5% der Werte liegen. Anstatt nun den berechneten Wert \(T_{D}\) mit dem kritischen Wert \(T_{\alpha = 5\%}\) zu vergleichen, vergleichen wir jetzt die Flächen rechts von den jeweiligen Werten. Wir machen es uns an dieser Stelle etwas einfacher, denn wir nutzen immer den absoluten Wert der Teststatistik. Wir schreiben \(\boldsymbol{Pr}\) und meinen damit eine Wahrscheinlichkeit (eng. probability). Häufig wird auch nur das \(P\) verwendet, aber dann kommen wir wieder mit anderen Konzepten in die Quere.

Eigenschaften des \(p\)-Wertes
  • Der \(p\)-Wert ist die bedingte Wahrscheinlichkeit der Teststatistik \(T_D\). Deshalb auch \(p\)-Wert für p gleich probability.
  • Der \(p\)-Wert liefert somit nur eine Wahrscheinlichkeitsaussage.
  • Der \(p\)-Wert ist die bedingte Wahrscheinlichkeit die Teststatistik \(T_D\) zu beobachten, wenn in der Grundgesamtheit die \(H_0\) gilt.

In Abbildung 20.3 sind die Flächen auch eingetragen. Da die gesamte Fläche unter der t-Verteilung mit \(A = 1\) ist, können wir die Flächen auch als Wahrscheinlichkeiten lesen. Die Fläche rechts von der berechneten Teststatistik \(T_{D}\) wird \(Pr(T_{D}|H_0)\) oder \(p\)-Wert genannt. Die gesamte Fläche rechts von dem kritischen Wert \(T_{\alpha = 5\%}\) wird \(\alpha\) genannt und liegt bei 5%. Wir können also die Teststatistiken oder den p-Wert mit dem \(\alpha\)-Niveau von 5% vergleichen.

Tabelle 20.3— Zusammenhang zwischen der Teststatistik \(T\) und der Fläche \(A\) rechts von der Teststatistik. Die Fläche rechts von der berechneten Teststatistik \(T_{D}\) wird \(Pr(T|H_0)\) oder \(p\)-Wert genannt. Die Fläche rechts von dem kritischen Wert \(T_{\alpha = 5\%}\) wird \(\alpha\) genannt und liegt bei 5%.
Teststatistik \(T\) Fläche \(A\)
\(T_{D}\) \(Pr(T_{D}|H_0)\) oder \(p\)-Wert
\(T_{\alpha = 5\%}\) \(\alpha\)
Abbildung 20.5— Die t-Verteilung aller möglichen \(T\) wenn die Nullhypothese wahr ist. Daher liegt kein Effekt vor und die beiden Mittelwerte \(\bar{y}_1\) und \(\bar{y}_2\) wären in etwa gleich groß. Die Differenz der Mittelwerte wäre 0. Je größer der \(T_{D}\) wird desto weniger können wir davon ausgehen, dass die beiden Mittelwerte gleich sind. Liegt der \(T_{D}\) über dem kritischen Wert von \(T_{\alpha = 5\%}\) dann wir die Nullhypothese abgelehnt. [Zum Vergrößern anklicken]

In der folgenden Abbildung 20.6 ist dann nochmal der Zusammenhang aus der Tabelle als eine Abbildung visualisiert. Mit dem \(p\)-Wert entscheiden wir anhand von Flächen. Wir schauen uns in diesem Fall die beiden Seiten der Testverteilung mit jeweils \(T_{\alpha = 2.5\%}\) für \(-T_K\) und \(T_K\) an und vergleichen die Flächen rechts neben der berechneten Teststatistik \(T_{D}\).

Abbildung 20.6— Wir vergleichen bei der Entscheidung mit dem \(p\)-Wert nicht die berechnete Teststatistik \(T_{D}\) mit dem kritischen Wert \(T_{\alpha = 5\%}\) sondern die Flächen rechts von den jeweiligen Teststatistiken mit \(A_K = 5\%\) und \(A_{D}\) als den \(p\)-Wert. Die Flächen links und rechts von \(T_{\alpha = 2.5\%}\) sind nochmal separat dargestellt. An dem Flächenvergleich machen wir dann die Testentscheidung fest. [Zum Vergrößern anklicken]

Der p-Wert oder \(Pr(T|H_0)\) ist eine Wahrscheinlichkeit. Eine Wahrscheinlichkeit kann die Zahlen von 0 bis 1 annehmen. Dabei sind die Grenzen einfach zu definieren. Eine Wahrscheinlichkeit von \(Pr(A) = 0\) bedeutet, dass das Ereignis A nicht auftritt; eine Wahrscheinlichkeit von \(Pr(A) = 1\) bedeutet, dass das Ereignis A eintritt. Der Zahlenraum dazwischen stellt jeden von uns schon vor große Herausforderungen. Der Unterschied zwischen 40% und 60% für den Eintritt des Ereignisses A sind nicht so klar zu definieren, wie du auf den ersten Blick meinen magst. Ein frequentistischer Hypothesentest beantwortet die Frage, mit welcher Wahrscheinlichkeit \(Pr\) die Teststatistik \(T\) aus dem Experiment mit den Daten \(D\) zu beobachten wären, wenn es keinen Effekt gäbe (\(H_0\) ist wahr).

In anderen Büchern liest man an dieser Stelle auch gerne etwas über die Likelihood, nicht so sehr in deutschen Büchern, schon aber in englischen Veröffentlichungen. Im Englischen gibt es die Begrifflichkeiten einer Likelihood und einer Probability. Meist wird beides ins Deutsche ungenau mit Wahrscheinlichkeit übersetzt oder wir nutzen einfach Likelihood. Was aber auch nicht so recht weiterhilft, wenn wir ein Wort mit dem gleichen Wort übersetzen. Es handelt sich hierbei aber um zwei unterschiedliche Konzepte. Deshalb Übersetzen wir Likelihood mit Plausibilität und Probability mit Wahrscheinlichkeit.

Im Folgenden berechnen wir den \(p\)-Wert in R mit der Funktion t.test(). Mehr dazu im Kapitel 29, wo wir den t-Test und deren Anwendung im Detail besprechen. Hier fällt der \(p\)-Wert etwas aus den Himmel. Wir wollen aber nicht per Hand Flächen unter einer Kurve berechnen sondern nutzen für die Berechnung von \(p\)-Werten statistische Tests in R.

# A tibble: 1 × 2
  statistic p.value
      <dbl>   <dbl>
1      3.47  0.0133

Wir sagen, dass wir ein signifikantes Ergebnis haben, wenn der \(p\)-Wert kleiner ist als die Signifikanzschwelle \(\alpha\) von 5%. Wenden wir also das Wissen einmal an. Wir erhalten einen \(p\)-Wert von 0.013 und vergleichen diesen Wert zu einem \(\alpha\) von 5%. Ist der \(p\)-Wert kleiner als der \(\alpha\)-Wert von 5%, dann können wir die Nullhypothese ablehnen. Da 0.013 kleiner ist als 0.05 können wir die Nullhypothese und damit die Gleichheit der mittleren Sprungweiten in [cm] ablehnen. Wir sagen, dass wir ein signifikantes Ergebnis vorliegen haben.

Entscheidung mit dem p-Wert

Wenn der p-Wert \(\leq \alpha\) dann wird die Nullhypothese (H\(_0\)) abgelehnt. Das Signifikanzniveau \(\alpha\) wird als Kulturkonstante auf 5% oder 0.05 gesetzt. Die Nullhypothese (H\(_0\)) kann auch Gleichheitshypothese gesehen werden. Wenn die H\(_0\) gilt, liegt kein Unterschied zwischen z.B. den Behandlungen vor.

20.2.3 … anhand des 95% Konfidenzintervalls

Ein statistischer Test der eine Teststatistik \(T\) berechnet liefert auch immer einen \(p\)-Wert. Nicht alle statistischen Tests ermöglichen es ein 95% Konfidenzintervall zu berechnen. Abbildung 20.7 zeigt ein 95% Konfidenzintervall für den Mittelwertsunterschied sowie dem Anteilsunterschied.

Abbildung 20.7— Ein 95% Konfidenzintervall. Der Punkt in der Mitte entspricht dem Unterschied oder Effekt \(\Delta\) der beiden zu vergleichenden Gruppen. (A) Mittelwertsunterschied (\(\Delta_{y_1-y_2}\)) (B) Anteilsunterschied (\(\Delta_{y_1/y_2}\)). [Zum Vergrößern anklicken]

Mit p-Werten haben wir Wahrscheinlichkeitsaussagen und damit über die Signifikanz. Damit haben wir noch keine Aussage über die Relevanz des beobachteten Effekts. Mit der Teststatistik \(T\) und dem damit verbundenen \(p\)-Wert haben wir uns Wahrscheinlichkeiten angeschaut und erhalten eine Wahrscheinlichkeitsaussage. Eine Wahrscheinlichkeitsaussage sagt aber nichts über den Effekt \(\Delta\) aus. Also wie groß ist der mittlere Sprungunterschied zwischen Hunde- und Katzenflöhen. Die Idee von 95% Konfidenzintervallen ist es jetzt den Effekt mit der Wahrscheinlichkeitsaussage zusammenzubringen und beides in einer Visualisierung zu kombinieren.

Wir nutzen hier eine von mir vereinfachte Formel für das Konfidenzintervall um das Konzept zu verstehen. Später berechnen wir das Konfidenzintervall in R.

Im Folgenden sehen wir also die vereinfachte Formel für das 95% Konfidenzintervall eines t-Tests um es uns etwas einfacher vom Verständnis zu machen. Komplizierter geht es immer, aber das berechnet dann eine Maschine später für uns.

\[ \left[ (\bar{y}_1-\bar{y}_2) - T_{\alpha = 5\%} \cdot \frac {s_p}{\sqrt{n}}; \; (\bar{y}_1-\bar{y}_2) + T_{\alpha = 5\%} \cdot \frac {s_p}{\sqrt{n}} \right] \]

Die Formel ist ein wenig komplex, aber im Prinzip einfach, wenn du ein wenig die Formel auf dich wirken lässt. Der linke und der rechte Teil neben dem Semikolon sind fast gleich, bis auf das Plus- und Minuszeichen. Wir sehen folgende mathematische Zusammenhänge in der Formel und entsprechenden dann in der Visualisierung des Konfidenzintervalls.

  • \((\bar{y}_{1}-\bar{y}_{2})\) ist der Effekt \(\Delta\). In diesem Fall der Mittelwertsunterschied. Wir finden den Effekt als Punkt in der Mitte des Intervalls.
  • \(T_{\alpha = 5\%} \cdot \frac {s}{\sqrt{n}}\) ist der Wert, der die Arme des Intervalls bildet. Wir vereinfachen die Formel mit \(s_p\) für die gepoolte Standardabweichung und \(n_g\) für die Fallzahl der beiden Gruppen. Wir nehmen an das beide Gruppen die gleiche Fallzahl \(n_1 = n_2\) haben.

Bei der Entscheidung mit dem 95% Konfidenzintervall müssen wir zwei Fälle unterscheiden.

  1. Entweder schauen wir uns einen Mittelwertsunterschied (\(\Delta_{y_1-y_2}\)) an, dann können wir die Nullhypothese (H\(_0\)) nicht ablehnen, wenn die 0 im 95% Konfidenzinterval ist.
  2. Oder wir schauen uns einen Anteilsunterschied (\(\Delta_{y_1/y_2}\)) an, dann können wir die Nullhypothese (H\(_0\)) nicht ablehnen, wenn die 1 im 95% Konfidenzinterval ist.
Abbildung 20.8— Die Arme des 95% Konfidenzintervalls werden länger oder kürzer je nachdem wie sich die statistischen Maßzahlen \(s\) und \(n\) verändern. (A) Bei einem Mittelwertsunterschied kann die Nullhypothese abgelehnt werden, wenn die 0 nicht im Konfidenzintervall ist; (B) bei einem Anteilsunterschied wenn die 1 nicht im Konfidenzintervall ist. [Zum Vergrößern anklicken]

Wir können eine biologische Relevanz definieren, dadurch das ein 95% Konfidenzintervall die Wahrscheinlichkeitsaussage über die Signifikanz, daher ob die Nullhypothese abgelehnt werden kann, mit dem Effekt zusammenbringt. Wo die Signifikanzschwelle klar definiert ist, hängt die Relevanzschwelle von der wissenschaftlichen Fragestellung und weiteren externen Faktoren ab. Die Signifikanzschwelle liegt bei 0, wenn wir Mittelwerte miteinander vergleichen und bei 1, wenn wir Anteile vergleichen. Die Abbildung 20.9 zeigt fünf 95% Konfidenzintervalle (a-e), die sich anhand der Signifikanz und Relevanz unterscheiden. Bei der Relevanz ist es wichtig zu wissen in welche Richtung der Effekt gehen soll. Erwarten wir einen positiven Effekt wenn wir die Differenz der beiden Gruppen bilden oder einen negativen Effekt?

Abbildung 20.9— Verschiedene signifikante und relevante Konfidenzintervalle: (A) signifikant und relevant; (B) signifikant und nicht relevant; (C) nicht signifikant und nicht relevant; (D) signifikant und nicht relevant, der Effekt ist zu klein; (E) signifikant und potenziell relevant, Effekt zeigt in eine unerwartete Richtung gegeben der Relevanzschwelle. [Zum Vergrößern anklicken]

Wir wollen uns nun einmal anschauen, wie sich ein 95% Konfidenzintervall berechnet. Wir nehmen dafür die vereinfachte Formel und setzen die berechneten statistischen Maßzahlen ein. In der Anwendung werden wir die Konfidenzintervalle nicht selber berechnen. Wenn ein statistisches Verfahren Konfidenzintervalle berechnen kann, dann liefert die entsprechende Funktion in R das Konfidenzintervall.

Es ergibt sich Folgende ausgefüllte Formel für das 95% Konfidenzintervalls eines t-Tests für das Beispiel des Sprungweitenunterschieds [cm] zwischen Hunde- und Katzenflöhen.

\[ \left[ (9.18-7.78) - 2.78 \cdot \frac {0.57}{\sqrt{4}}; \; (9.18-7.78) + 2.78 \cdot \frac {0.57}{\sqrt{4}} \right] \]

mit

  • \(\bar{y}_{cat} = 9.18cm\) dem Mittelwert für die Gruppe cat.
  • \(\bar{y}_{dog} = 7.78cm\) dem Mittelwert für die Gruppe dog.
  • \(T_{\alpha = 5\%} = 2.78\) dem kritischen Wert.
  • \(s_p = 0.57cm\) der gepoolten Standardabweichung mit \(s_p = \tfrac{0.61cm + 0.53cm}{2}\).
  • \(n_g = 4\) der Gruppengröße der Gruppe A und B. Wir nehmen an beide Gruppen sind gleich groß.

Lösen wir die Formel auf, so ergibt sich folgendes 95% Konfidenzintervall des Mittelwertsunterschiedes der Sprungweiten der Hunde- und Katzenflöhe.

\[1.4cm\;[0.64cm; 2.16cm]\]

Den Mittelwertsunterschied von \(1.4cm\) habe ich dann händisch selber berechnet.

Natürlich geht es auch flotter mit der Funktion t.test() in R. Du erhälst dann direkt die Konfidenzintervalle unter der Zeile 95 percent confidence interval wiedergeben.

R Code [zeigen / verbergen]
t.test(jump_length ~ animal, data = data_tbl, var.equal = TRUE) 

    Two Sample t-test

data:  jump_length by animal
t = 3.4685, df = 6, p-value = 0.01333
alternative hypothesis: true difference in means between group cat and group dog is not equal to 0
95 percent confidence interval:
 0.4123545 2.3876455
sample estimates:
mean in group cat mean in group dog 
            9.175             7.775 

Das R Paket {broom} erlaubt es über die Funktion tidy() es sich auch den Mittelwertsunterschied und die beiden Grenzen des Konfidenzintervalls sauber wiedergeben zu lassen.

R Code [zeigen / verbergen]
t.test(jump_length ~ animal, data = data_tbl, var.equal = TRUE) |> 
  tidy() |> 
  select(estimate, estimate1, estimate2, conf.low, conf.high)
# A tibble: 1 × 5
  estimate estimate1 estimate2 conf.low conf.high
     <dbl>     <dbl>     <dbl>    <dbl>     <dbl>
1      1.4      9.18      7.78    0.412      2.39

Oder dann einmal die Visualisierung des 95% Konfidenzintervall in der Abbildung 20.10.

Abbildung 20.10— Visualisierun des 95% Konfidenzintervall des Mittelwertsunterschiedes der Sprungweiten der Hunde- und Katzenflöhe. [Zum Vergrößern anklicken]

Wir können sagen, dass mit 95% Wahrscheinlichkeit das Konfidenzintervall den wahren Effektunterschied \(\Delta\) überdeckt. Oder etwas mehr in Prosa, dass wir eine Sprungweitenunterschied von 0.64 cm bis 2.16 cm zwischen Hunde- und Katzenflöhen erwarten würden.

Die Entscheidung gegen die Nullhypothese bei einem Mittelwertsunterschied erfolgt bei einem 95% Konfidenzintervall danach ob die Null mit im Konfidenzintervall liegt oder nicht. In dem Intervall \([0.64; 2.16]\) ist die Null nicht enthalten, also können wir die Nullhypothese ablehnen. Es ist mit einem Unterschied zwischen den mittleren Sprungweiten von Hunde- und Katzenflöhen auszugehen.

In unserem Beispiel, könnten wir die Relevanzschwelle für den mittleren Sprungweitenunterschied zwischen Hund- und Katzenflöhen auf 2 cm setzen. In dem Fall würden wir entscheiden, dass der mittlere Sprungweitenunterschied nicht relevant ist, da die 2 cm im Konfidenzintervall enthalten sind. Was wäre wenn wir die Relevanzschwelle auf 4 cm setzen? Dann wäre zwar die Relevanzschwelle nicht mehr im Konfidenzintervall, aber wir hätten Fall (d) in der Abbildung 20.9 vorliegen. Der Effekt ist einfach zu klein, dass der Effekt relevant sein könnte.

Wir können dann die 95% Konfidenzintervall des Mittelwertsunterschiedes der Hunde- und Katzenflöhe auch nochmal richtig in R berechnen. Dafür schaue dann oben einmal in den zweiten Tab bei der beispielberechnung. Wir haben ja oben eine einfachere Formel für die gepoolte Standardabweichung genutzt. Wenn wir also ganz genau rechnen wollen, dann sind die 95% Konfidenzintervall wie oben im Tab gezeigt. Wir nutzen auch hier die Funktion t.test(). Mehr dazu im Kapitel zum t-test, wo wir den t-Test und deren Anwendung im Detail besprechen.

Entscheidung mit dem 95% Konfidenzintervall

Bei der Entscheidung mit dem 95% Konfidenzintervall müssen wir zwei Fälle unterscheiden.

  1. Entweder schauen wir uns einen Mittelwertsunterschied (\(\Delta_{y_1-y_2}\)) an, dann können wir die Nullhypothese (H\(_0\)) nicht ablehnen, wenn die 0 im 95% Konfidenzintervall ist.

  2. Oder wir schauen uns einen Anteilsunterschied (\(\Delta_{y_1/y_2}\)) an, dann können wir die Nullhypothese (H\(_0\)) nicht ablehnen, wenn die 1 im 95% Konfidenzintervall ist.

20.2.4 … anhand des Compact letter display

Eine weitere Möglichkeit die Visualisierung der Daten mit einer Aussage zur Signifikanz zu verbinden ist das Compact letter display (abk. CLD). Das Verfahren wurde von Piepho (2004) entwickelt und ist noch relativ jung. Für das Compact letter display gibt es keine entsprechende deutsche Übersetzung, so dass wir hier dann mit dem Denglisch leben müssen. Mehr zu der Implementierung des Compact letter display in R findest du im entsprechenden weiterführenden Kapitel zum Post-hoc-Test. Die Interpretation des Compact letter display ist auf den ersten Blick noch intuitiver als der \(p\)-Wert.

Wir schauen bei Compact letter display, ob zwei Gruppen sich den gleichen Buchstaben teilen. Wenn dies der Fall ist, dann unterscheiden sich die Gruppen nicht voneinander. Die Sache wird dadurch komplizierter, dass wir meistens nicht nur zwei Gruppen miteinander vergleichen sondern gleich mehrere Gruppen. Dadurch ergeben sich dann Sonderfälle bei den Buchstaben. Darüber hinaus basiert das Compact letter display dennoch auf \(p\)-Werten, so dass wir hier ein Verfahren mit zwei Schritten vorliegen haben. Erst berechnen wir wieder unsere \(p\)-Werte mit einem statistischen Test und dann können wir das Compact letter display für die Vergleiche bestimmen. Gerne ergänzen wir Barplots mit den entsprechenden Buchstaben aus einem Compact letter display.

In den beiden folgenden Tabs gehe ich dann einmal auf die Theorie und die Sonderfälle mit geteilten Buchstaben beim Compact letter display ein. Dann rechnen wir nochmal die \(p\)-Werte für einen multipen Vergleich mit mehreren Tierarten anhand der Sprunglänge durch. Dadurch wird dir vielleicht nochmal klarer, wie das Compact letter display funktioniert.

Betrachten wir einmal das Compact letter display aus einem theoretischen Blickwinkel. Wir haben drei Gruppen vorliegen und wollen wissen, ob ein Unterschied zwischen den Gruppen vorliegt. Jede der Gruppen wollen wir in einem Barplot mit einem Buchstaben versehen. Dafür brauchen wir dann auch die Matrix der p-Werte aller Gruppenvergleiche zwischen den drei Gruppen. Betrachten wir also folgende Fälle für das Compact letter display.

  1. In der Abbildung 20.11 sehen wir ein Compact letter display mit keinem signifikanten Unterschied zwischen den Gruppen. Wir können die Nullhypothese nicht ablehnen.
  2. In der Abbildung 20.12 sehen wir ein Compact letter display mit signifikanten Unterschieden zwischen den Gruppen. Wir können die Nullhypothese für alle Vergleiche ablehnen.
  3. In der Abbildung 20.13 sehen wir ein Compact letter display mit signifikanten und nicht signifikanten Unterschieden zwischen den Gruppen. Wir können die Nullhypothese für alle Vergleiche mal ablehnen und mal nicht ablehnen.

Gehen wir also einmal die Möglichkeiten durch. Im Folgenden also einmal ein Compact letter display für einen nicht signifikanten Unterschied zwischen den drei Gruppen. Wir haben daher nur p-Werte größer als das Signifikanzniveau \(\alpha\) gleich 5% vorliegen. Die Barplots liegen somit auch fast alle auf einer ähnlichen Höhe. Die Mittelwerte sind somit fast identisch für alle drei Gruppen. Alle drei Barplots haben somit den gleichen Buchstaben A.

Abbildung 20.11— Darstellung des Compact letter display für keinen signifikanten Unterschied zwischen den drei Gruppen. Alle drei Gruppen teilen sich den gleichen Buchstaben. Daher sind auch alle \(p\)-Werte der entsprechenden paarweisen Vergleiche nicht signifikant. (A) Matrix der \(p\)-Werte der paarweisen Vergleiche der drei Gruppen. (B) Barplots oder Säulendigramm der Mitelwerte der drei Gruppen zusammen mit dem Compact letter display. [Zum Vergrößern anklicken]

Wenn sich alle drei Gruppen voneinander unterscheiden, dann sehen wir zum einen, dass die Barplots nicht mehr auf einer Höhe liegen. Die Mittelwerte unterscheiden sich in allen frei Gruppen. Daher haben wir auch p-Werte die alle unter dem Signifikanzniveau \(\alpha\) gleich 5% liegen. Damit haben wir dann auch ein Compact letter display mit drei verschiedenen Buchstaben A, B und C vorliegen. Keiner der Gruppen ist gleich einer anderen Gruppe.

Abbildung 20.12— Darstellung des Compact letter display für signifikante Unterschiede zwischen allen drei Gruppen. Alle drei Gruppen haben unterschiedliche Buchstaben zugeordnet. Daher sind auch alle \(p\)-Werte der entsprechenden paarweisen Vergleiche signifikant. (A) Matrix der \(p\)-Werte der paarweisen Vergleiche der drei Gruppen. (B) Barplots oder Säulendigramm der Mitelwerte der drei Gruppen zusammen mit dem Compact letter display. [Zum Vergrößern anklicken]

Wenn wir viele Gruppen testen, kommt es häufig dazu, dass wir nicht alle Gruppen nicht signifikant oder signifikant vorfinden. Das Compact letter display zeigt uns dann Gruppen an, die zu einigen anderen Gruppen signifikant unterschiedlich sind, zu anderen Gruppen aber nicht. Dadurch haben einige Barplots nicht nur einen Buchstaben sondern zwei oder mehr. In unserem theoretischen Fall ist die Gruppe 1 signifikant unterschiedlich von der Gruppe 3 aber nicht signifikant unterschiedlich von Gruppe 2. Daher geben wir der Gruppe 2 die Buchstaben AB um auszudrücken, dass sich die Gruppe zwei eben nicht von der Gruppe 1 oder der Gruppe 3 unterscheidet.

Abbildung 20.13— Darstellung des Compact letter display für teilweise signifikante Unterschiede zwischen den drei Gruppen. Die drei Gruppen haben daher gleiche und unterschiedliche Buchstaben zugeordnet. Daher sind auch die \(p\)-Werte der entsprechenden paarweisen Vergleiche nur teilweise für Vergleiche signifikant. (A) Matrix der \(p\)-Werte der paarweisen Vergleiche der drei Gruppen. (B) Barplots oder Säulendigramm der Mitelwerte der drei Gruppen zusammen mit dem Compact letter display. [Zum Vergrößern anklicken]

Das Compact letter display geht natürlich auch händisch und dafür müssen wir dann einmal etwas ausholen. Da wir nicht nur zwei Gruppen brauchen, sondern der Sinn des Compact letter displays erst bei mehr als zwei Gruppen so richtig zum Vorschein kommt. Im Folgenden wollen wir daher einmal an einem erweiterten Datenbeispiel mit Hunde-, Katzen- und Fuchsflöhen einen statistischen Test rechnen um rauszufinden, ob sich die Sprungweiten der Flöhe unterscheiden. Dann können wir aus der Matrix der p-Werte das Compact letter display ableiten. In der folgenden Tabelle findest du einmal die Sprungweiten von jeweils vier Flöhen jeder der drei Tierarten.

Tabelle 20.4— Beispieldaten der Sprunglänge [cm] von Fuchs-, Hunde- und Katzenflöhen.
cat dog fox
8.5 8.0 7.5
9.9 7.2 8.1
8.9 8.4 6.7
9.4 7.5 7.1

Aus den Daten können wir dann die p-Werte der paarweisen Vergleiche über einen statistischen Test berechnen. Dafür brauchen wir einmal die Mittelwertsdifferenz und die gepoolte Standardabweichung aus den obigen Daten. Das machen wir dann für jeden der drei möglichen Vergleiche zwischen den Tierarten. Dann rechnen wir noch die Teststatistik \(T_D\) eines Student t-Tests als statistischen Test um über die Teststatistik \(T_D\) an die p-Werte zu kommen.

Tabelle 20.5— Die berechneten Teststatistiken eines Student t-Test aus der Mittelwertsdifferenz und der gepoolten Standardabweichung für die Vergleiche der Sprunglängen der unterschiedlichen Tierarten.
Vergleich Mittelwertsdifferenz Gepoolte Standardabweichung Teststatistik \(T_D\)
cat - dog \(9.18 - 7.78 = 1.4\) \((0.61 + 0.53)/2 = 0.57\) \(3.47\)
cat - fox \(9.18 - 7.35 = 1.83\) \((0.61 + 0.6)/2 = 0.605\) \(4.28\)
fox - dog \(7.35 - 7.78 = -0.43\) \((0.6 + 0.53)/2 = 0.565\) \(-1.08\)

Jetzt könnten wir die berechneten Teststatistiken \(T_D\) mit dem kritische Wert \(T_{\alpha = 5\%} = 2.78\) vergleichen und eine Entscheidung über die Nullhypothese treffen. Oder wir nutzen die Funktion pt() um uns die p-Werte berechnen zu lassen. Ich habe hier dann die absoluten Werte eingetragen damit ich es etwas leichter habe.

R Code [zeigen / verbergen]
pt(c(3.47, 4.28, 1.08), 10, lower.tail = FALSE) |> round(4)
[1] 0.0030 0.0008 0.1528

Wir sehen gleich, dass wir es mit zwei signifikanten Unterschieden und einem nicht signifikanten Unterschied zu tun haben. Daher könnten wir hier auch eine Gruppe vorliegen haben, die zwei Buchstaben des Compact letter displays trägt. Muss aber nicht.

Tipp zur händischen Erstellung

Sortiere erst deine Barplots oder Säulendiagramme in absteigender Reihenfolge des mittleren Effekts. Oder andersherum, links sind die höchsten Säulen und rechts die niedrigsten Säulen.

In der folgenden Abbildung siehst du dann einmal die Matrix der p-Werte für die Vergleiche zwischen den Sprunglängen der drei Tierarten. Ich habe auch für die bessere Übersicht den Barplot einmal in absteigender Effektstärke sortiert. Daher kommen als erstes die Katzenflöhe mit den weitesten Mittelwert der Sprunglänge, dann kommen die Hunde und dann die Füchse. Da sich die Katzenflöhe in der Sprungweite sowohl von den Hunde- sowie den Fuchsflöhen unterschieden, erhalten die Katzenflöhe ein A. Da sich die Hundeflöhe nicht von den Fuchsflöhen unterscheiden erhalten beide ein B.

Abbildung 20.14— Darstellung des Compact letter display für die signifikante Unterschiede zwischen den drei Tierarten. Die Katzenflöhe unterscheiden sich signifikant von den Hunde- und Fuchsflöhen. Die Buchstaben unterschieden sich. Es gibt keinen signifikanten Unterschied zwischen Hunde- und Fuchsflöhen. Die Buchstaben sind gleich. (A) Matrix der \(p\)-Werte der paarweisen Vergleiche der drei Gruppen. (B) Barplots oder Säulendigramm der Mitelwerte der drei Tierarten zusammen mit dem Compact letter display. [Zum Vergrößern anklicken]

Warum nutzen wir nun das Compact letter display? Wenn du viele Gruppen und damit Säulen in einem Baplot hast, dann kannst du recht einfach die Zusammenhänge zeigen. Du siehst auf einem Blick die signifikanten Unterschiede. Obwohl, das stimmt naütrlich nur so halb. In Wirklichkeit interessiert dich der signifikante Unterschied, du erhälst aber mit dem Compact letter display die Gleichheit wiedergegeben. Das ist dann auch der größte Nachteil des Compact letter display, das es eben eine Frage beantwortet, die gar nicht gestellt wurde. Am Ende musst du selber entscheiden, ob das Compact letter display in deine Fragestellung sinnvoll ist. Es gibt Gründe das Compact letter display zu verwenden, wie auch nicht. Mehr dazu auch auf der Hilfe- und Diskussionsseite mit Re-engineering CLDs des R Paktes {emmeans}

Entscheidung mit dem Compact letter display

Gruppen oder Behandlungen mit dem gleichen Buchstaben zeigen keinen signifikanten Unterschied. Gruppen oder Behandlungen mit einem unterschiedlichen Buchstaben sind signifikant unterschiedlich.

Eine Besonderheit sind Gruppen mit mehr als einem Buchstaben. Diese Fälle können auftreten, wenn mehr als zwei Gruppen miteinander vergleichen werden.

20.3 Auswirkung des Effektes, der Streuung und der Fallzahl

Wir wollen einmal den Zusammenhang zwischen dem Effekt \(\Delta\), der Streuung als Standardabweichung \(s\) und Fallzahl \(n\) uns näher anschauen. Wir können die Formel des t-Tests wie folgt vereinfachen.

\[ T_{D}=\cfrac{\bar{y}_1-\bar{y}_1}{s_{p} \cdot \sqrt{2/n_g}} \]

Für die Betrachtung der Zusammenhänge wandeln wir \(\sqrt{2/n_g}\) in \(1/n\) um. Dadurch wandert die Fallzahl \(n\) in den Zähler. Die Standardabweichung verallgemeinern wir zu \(s\) und damit allgemein zur Streuung. Abschließend betrachten wir \(\bar{y}_A-\bar{y}_B\) als den Effekt \(\Delta\). Es ergibt sich folgende vereinfachte Formel.

\[ T_{D} = \cfrac{\Delta \cdot n}{s} \]

Wir können uns nun die Frage stellen, wie ändert sich die Teststatistik \(T_{D}\) in Abhängigkeit vom Effekt \(\Delta\), der Fallzahl \(n\) und der Streuung \(s\) in den Daten. Die Tabelle 20.6 zeigt die Zusammenhänge auf. Die Aussagen in der Tabelle lassen sich generalisieren. So bedeutet eine steigende Fallzahl meist mehr signifikante Ergebnisse. Eine steigende Streuung reduziert die Signifikanz eines Vergleichs. Ein Ansteigen des Effektes führt zu mehr signifikanten Ergebnissen. Ebenso verschiebt eine Veränderung des Effekt das 95% Konfidenzintervall, eine Erhöhung der Streuung macht das 95% Konfidenzintervall breiter, eine sinkende Streuung macht das 95% Konfidenzintervall schmaler. Bei der Fallzahl verhält es sich umgekehrt. Eine Erhöhung der Fallzahl macht das 95% Konfidenzintervall schmaler und eine sinkende Fallzahl das Konfidenzintervall breiter.

Tabelle 20.6— Zusammenhang von der Teststatistik \(T_{D}\) und dem p-Wert \(Pr(\geq T_{D}|H_0)\) sowie dem \(KI_{1-\alpha}\) in Abhängigkeit vom Effekt \(\Delta\), der Fallzahl \(n\) und der Streuung \(s\).
\(T_{D}\) \(Pr(T_{D}|H_0)\) \(KI_{1-\alpha}\) \(T_{D}\) \(Pr(T_{D}|H_0)\) \(KI_{1-\alpha}\)
\(\Delta \uparrow\) steigt sinkt verschoben \(\Delta \downarrow\) sinkt steigt verschoben
\(s \uparrow\) sinkt steigt breiter \(s \downarrow\) steigt sinkt schmaler
\(n \uparrow\) steigt sinkt schmaler \(n \downarrow\) sinkt steigt breiter

Referenzen

Cadiergues M-C, Joubert C, Franc M. 2000. A comparison of jump performances of the dog flea, Ctenocephalides canis (Curtis, 1826) and the cat flea, Ctenocephalides felis felis (Bouché, 1835). Veterinary parasitology 92: 239–241.
Gigerenzer G, Krauss S, Vitouch O. 2004. The null ritual. The Sage handbook of quantitative methodology for the social sciences 391–408.
Piepho H-P. 2004. An algorithm for a letter-based representation of all-pairwise comparisons. Journal of Computational and Graphical Statistics 13: 456–466.