19  Die Testentscheidung

Letzte Änderung am 23. April 2024 um 18:54:28

“Wir können das Universum nicht erklären, sondern nur beschreiben; und wir wissen nicht, ob unsere Theorien wahr sind, wir wissen nur, dass sie nicht falsch sind.” — Harald Lesch

Wissenschaftliche Forschung basiert auf dem Falsifikationsprinzip. Wir können daher Modelle oder Hypothesen nur ablehnen und behalten das weniger schlechte Modell oder die weniger schlechte Hypothese bei. In diesem Kapitel wollen wir uns mit dem statistischen Testen beschäftigen. Wir wollen also Testen, ob wir eine Hypothese ablehnen können. Dabei fangen wir hier mit den Grundprinzipien an, die wir dann bei allen statistischen Tests in den folgenden Kapiteln verwenden können. Im Besonderen konzentrieren wir uns hier auf den t-Test für zwei Stichproben an dem ich einmal die Grundkonzepte statistischen Testens erkläre.

Deshalb auch gleiche eine Warnung vorweg. Ich habe mich hier dem allgemeinen Verständnis verpflichtet gefühlt und nicht so sehr der statistischen, sprachlichen Genauigkeit. Man möge mir das Verzeihen.

Das statistische Testen ist dabei eine eigne Philosophie oder Gedankengebäude. Wir führen spezielle, gedankliche Schritte durch um zu einer Entscheidung zu kommen. Es handelt sich mehr oder minder um einen objektiven Prozess um zu einer Entscheidung zu kommen. Diese Entscheidung basiert auf Regeln, die wir dann in der Summe als statistisches Testen bezeichnen. Wir schauen uns hier den am meisten verbreiteten Zweig des statistischen Testen an – wir nutzen hier die frequentistische Statistik. Für die Anwendung ist es egal, aber vielleicht hörst du später mal was von anderen Möglichkeiten um zu einer statistischen Entscheidung zu kommen. Eine andere Möglichkeit wäre das bayesianische Testen, was wir aber hier nicht in den Grundlagen behandeln werden. Deshalb hier einmal erwähnt, nach welche Philosophie wir testen. Wenn dich mehr über das statistische Testen erfahren möchtest, kann ich dir die Veröffentlichung von Gigerenzer u. a. (2004) sehr ans Herz legen. Dort wird nochmal die Geschichte und die Hintergründe erläutert.

So, jetzt geht es aber los. Du erfährst im diesem Kapitel mehr zur statistischen Testentscheidung und welche Konzepte wir beim statistischen Testen nutzen. Wir gehen dabei die drei wichtigsten Konzepte einmal durch.

Diese obigen Konzepte sind so zentral, dass wir immer wieder auf diese zurückkommen werden. Daher ist es wichtig, dass du ein Grundverständnis von dem statistischen Testen für dich erwirbst. Eine wissenschaftliche Abschlussarbeit wirst du ohne einen statistischen Test selten abgeben können.

Die ursprüngliche Idee zu den Sprungweiten der Hunde- und Katzenflöhe stammt von Cadiergues u. a. (2000) aus der entsprechenden Veröffentlichung A comparison of jump performances of the dog flea, Ctenocephalides canis (Curtis, 1826) and the cat flea, Ctenocephalides felis felis (Bouché, 1835). In der folgenden Abbildung 19.1 siehst du einmal die Zusammenfassung (eng. abstract) aus der Arbeit. Wir wollen uns hier einmal auf die berichteten Sprungweiten der Hunde- und Katzenflöhe konzentrieren.

Abbildung 19.1— Auszug aus dem Zusammenfassung (eng. abstract) aus der Arbeit von Cadiergues u. a. (2000). Der Fokus liegt hier auf der Sprungweite von Hunde- und Katzenflöhen.

Wir können jetzt die Mittelwerte der Sprungweiten der Hunde- und Katzenflöhe einmal nehmen und diese Werte dann in die Formel des t-Test setzen. Wir haben ja dafür fast alles was wir brauchen. Die Standardabweichung ist ja in beiden Gruppen der Hunde- und Katzenflöhe gleich. Das einzige was ich hier noch berichten muss ist die Fallzahl \(n_g\) der beiden Gruppen mit 450 Flöhen. Dann können wir auch schon die Teststatistik \(T_{D}\) mit den Werten aus der Zusammenfassung berechnen.

\[ T_{D} = \cfrac{30.4cm - 19.9cm}{9.1cm \cdot \sqrt{2/450}} = \cfrac{10.5cm}{0.61cm} = 17.21 \]

Dann brauchen wir noch die Freiheitsgrade der t-Verteilung um uns den \(p\)-Wert berechnen zu können. Wir nutzen dafür die folgende Formel.

\[ df = n_1 + n_2 -2 = 450 +450 -2 = 898 \]

Dann können wir schon die Fläche rechts von der berechneten Teststatistik \(T_{D}\) mit der Funktion pt() ausrechnen.

pt(17.21, 898, lower.tail = FALSE)
[1] 6.942618e-58

Wie du siehst erhalten wir einen sehr kleinen \(p\)-Wert. Das haben wir aber auch erwartet, denn die Teststatistik \(T_{D}\) ist ja auch sehr groß! Damit bleibt kaum Fläche rechts von der Teststatistik \(T_{D}\) übrig. Damit ist dann der \(p\)-Wert sehr klein.

19.1 Die Hypothesen

Wir können auf allen Daten einen statistischen Test rechnen und erhalten statistische Maßzahlen wie eine Teststatistik oder einen \(p\)-Wert. Nur leider können wir mit diesen statistischen Maßzahlen nicht viel anfangen ohne die Hypothesen zu kennen. Jeder statistische Test testet eine Nullhypothese. Ob diese Hypothese dem Anwender nun bekannt ist oder nicht, ein statistischer Test testet eine Nullhypothese. Daher müssen wir uns immer klar sein, was die entsprechende Nullhypothese zu unserer Fragestellung ist. Wenn du hier stockst, ist das ganz normal. Eine Fragestellung mit einer statistischen Hypothese zu verbinden ist nicht immer so einfach gemacht.

Die Nullhypothese \(H_0\) und die Alternativhypothese \(H_A\)

Die Nullhypothese \(H_0\) nennen wir auch die Null oder Gleichheitshypothese. Die Nullhypothese sagt aus, dass zwei Gruppen gleich sind oder aber kein Effekt zu beobachten ist.

\[ H_0: \bar{y}_{1} = \bar{y}_{2} \]

Die Alternativhypothese \(H_A\) oder \(H_1\) auch Alternative genannt nennen wir auch Unterschiedshypothese. Die Alternativhypothese besagt, dass ein Unterschied vorliegt oder aber ein Effekt vorhanden ist.

\[ H_A: \bar{y}_{1} \neq \bar{y}_{2} \]

Als Veranschaulichung nehmen wir das Beispiel aus der unterschiedlichen Sprungweiten in [cm] für Hunde- und Katzenflöhe. Wir formulieren als erstes die Fragestellung. Eine Fragestellung endet mit einem Fragezeichen.

Liegt ein Unterschied zwischen den Sprungweiten von Hunde- und Katzenflöhen vor?

Wir können die Frage auch anders formulieren.

Springen Hunde- und Katzenflöhe unterschiedlich weit?

Wichtig ist, dass wir eine Fragestellung formulieren. Wir können auch mehrere Fragen an einen Datensatz haben. Das ist auch vollkommen normal. Nur hat jede Fragestellung ein eigenes Hypothesenpaar. Wir bleiben aber bei dem simplen Beispiel mit den Sprungweiten von Hunde- und Katzenflöhen.

Wie sieht nun die statistische Hypothese in diesem Beispiel aus? Wir wollen uns die Sprungweite in [cm] anschauen und entscheiden, ob die Sprungweite für Hunde- und Katzenflöhen sich unterscheidet. Eine statistische Hypothese ist eine Aussage über einen Parameter einer Population. Wir entscheiden jetzt, dass wir die mittlere Sprungweite der Hundeflöhe \(\bar{y}_{dog}\) mit der mittleren Sprungweite der Katzenflöhe \(\bar{y}_{cat}\) vergleichen wollen. Es ergibt sich daher folgendes Hypothesenpaar.

\[ \begin{aligned} H_0: \bar{y}_{dog} &= \bar{y}_{cat} \\ H_A: \bar{y}_{dog} &\neq \bar{y}_{cat} \\ \end{aligned} \]

Es ist wichtig sich in Erinnerung zu rufen, dass wir nur und ausschließlich Aussagen über die Nullhypothese treffen werden. Das frequentistische Hypothesentesten kann nichts anders. Wir kriegen keine Aussage über die Alternativhypothese sondern nur eine Abschätzung der Wahrscheinlichkeit des Auftretens der Daten im durchgeführten Experiment, wenn die Nullhypothese wahr wäre. Wenn die Nullhypothese war ist, dann liegt kein Effekt oder Unterschied vor. Das Falisifkationsprinzip - wir können nur Ablehnen - kommt hier zusammen mit der frequentistischen Statistik in der wir nur eine Wahrscheinlichkeitsaussage über das Auftreten der Daten \(D\) - unter der Annahme \(H_0\) gilt - treffen können.

19.2 Die Testentscheidung…

In den folgenden Kapiteln werden wir verschiedene statistische Tests kennenlernen. Alle statistischen Tests haben gemein, dass ein Test eine Teststatistik \(T_{D}\) aus den Daten \(D\) berechnet. Darüber hinaus liefert jeder Test auch einen p-Wert (eng. p-value). Manche statistischen Test geben auch ein 95% Konfidenzintervall wieder. Eine Testentscheidung gegen die Nullhypothese \(H_0\) kann mit jedem der drei statistischen Maßzahlen - Teststatistik \(T_{D}\), \(p\)-Wert und 95% Konfidenzintervall - durchgeführt werden. Die Regel für die Entscheidung, ob die Nullhypothese \(H_0\) abgelehnt werden kann, ist nur jeweils anders.

Streng genommen gilt die Regel \(T_{D} \geq T_{\alpha = 5\%}\) nur für eine Auswahl an statistischen Tests siehe dazu auch Kapitel 19.2.1. Bei manchen statistischen Tests ist die Entscheidung gedreht. Hier lassen wir das aber mal so stehen…

In Tabelle 19.1 sind die Entscheidungsregeln einmal zusammengefasst. Wir wollen in den folgenden Abschnitten die jeweiligen Entscheidungsregeln eines statistisches Tests anhand der Maßzahl Teststatistik, \(p\)-Wert und Konfidenzintervall einmal durchgehen. Die Entscheidung nach der Teststatistik ist veraltet und dient nur dem konzeptionellen Verständnisses. In der Forschung angewandt wird der \(p\)-Wert und das 95% Konfidenzintervall. Im Fall des 95% Konfidenzintervalls müssen wir noch unterschieden, ob wir einen Mittelwertsunterschied \(\Delta_{A-B}\) oder aber einen Anteilsunterschied \(\Delta_{A/B}\) betrachten.

Tabelle 19.1— Zusammenfassung der statistischen Testentscheidung unter der Nutzung der Teststatistik, dem p-Wert und dem 95% Konfidenzintervall.
Teststatistik p-Wert 95% Konfidenzintervall
\(\boldsymbol{T_{D}}\) \(\boldsymbol{Pr(\geq T_{D}|H_0)}\) \(\boldsymbol{KI_{1-\alpha}}\)
H\(_0\) ablehnen \(T_{D} \geq T_{\alpha = 5\%}\) \(Pr(\geq T_{D}| H_0) \leq \alpha\) \(\Delta_{A-B}\): enthält nicht 0 oder \(\Delta_{A/B}\): enthält nicht 1

Dann kommen wir nochmal zu einer allgemeinen Übersicht in der Abbildung 19.2. Du kennst eine vereinfachte Abbildung schon aus dem vorherigen Kapitel zur Einführung in das Testen von Hypothesen. Was sich hier im Prinzip ändert ist der Vergleich zu der Testverteilung, wenn die \(H_0\) wahr ist. Unsere Daten \(D\) sind ja nur eine mögliche Reprsäentation einer zufälligen Auswahl an Beobachtungen. Wir vergleichen dann unsere Daten über die Teststatistik \(T_D\) mit allen möglichen Teststatistiken \(T_1,..., T_p\) unter der Annahme, dass bei diesen Teststatistiken die Nullhypothese war ist und wir keinen Effekt in der Grundgesamtheit beobachten würden. Aus diesem Vergleich der Teststatistik mit der Verteilung der Teststatistiken unter der Null ziehen wir dann einen Rückschluss über die Gültigkeit der Nullhypothese \(H_0\).

Abbildung 19.2— Erweiterung der Übersichtsabbildung zum Prinzip des statistischen Testens mit Grundgesamtheit , Randomisierung zur Strukturgleichheit und Stichprobe. Die Daten \(D\) in der Stichprobe werden über die Teststatistik \(T_D\) mit der Testverteilung von Teststatisiken unter der Null verglichen. Dann kann ein Rückschluss über die Nullhypothese in der Grundgesamtheit über die berechnete Teststatistik \(T_D\) getroffen werden. [Zum Vergrößern anklicken]

19.2.1 … anhand der Teststatistik

Wir wollen uns dem frequentistischen Hypothesentesten über die Idee der Teststatistik annähern. Die Teststatistik kannst du einfach anhand einer mathematischen Formel ausrechnen. Dabei hat die Teststatistik den Vorteil, dass sie einheitslos ist. Egal ob du das Gewicht zwischen Elefanten [t] oder Hamstern [g] vergleichst, die Teststatistik wird immer ähnliche numerische Werte annehmen. Du kannst also Teststatistiken über verschiedene Experimente miteinander vergleichen. Im Folgenden sehen wir die Formel für den t-Test, den wir dazu nutzen um zwei Mittelwerte miteinander zu vergleichen. Den t-Test werden wir im Kapitel 28 uns nochmal detaillierter anschauen, hier deshalb nur die Formel mit der wir dann die Teststatistik erarbeiten und verstehen werden. Hier nutzen wir deshalb die vereinfachte Formel des Student t-Test um das Konzept der Teststatistik \(T\) zu verstehen.

\[ T_{D}=\cfrac{\bar{y}_1-\bar{y}_2}{s_{p} \cdot \sqrt{2/n_g}} \]

mit

  • \(\bar{y}_1\) dem Mittelwert für die erste Gruppe.
  • \(\bar{y}_2\) dem Mittelwert für die zweite Gruppe.
  • \(s_{p}\) der gepoolten Standardabweichung mit \(s_p = \tfrac{s_1 + s_2}{2}\).
  • \(n_g\) der Gruppengröße der gruppen. Wir nehmen an beide Gruppen sind gleich groß.

Zum Berechnen der Teststatistik \(T_{D}\) aus den Daten \(D\) benötigen wir also die zwei Mittelwerte \(\bar{y}_1\) und \(\bar{y}_2\) sowie deren gepoolte Standardabweichung \(s_p\) und die Anzahl der Beobachtungen je Gruppe \(n_g\). Im Folgenden wenden wir die Formel des t-Tests einmal auf einen kleinen Beispieldatensatz zu den Sprunglängen in [cm] von jeweils \(n_g = 4\) Hunde- und Katzenflöhen an. Du siehst in der Formel, dass wir die Einheit [cm] dadurch verlieren, dass wir den Mittelwertsunterschied in [cm] durch die gepoolte Standardabweichung in [cm] teilen. Beide Maßzahlen haben die gleiche Einheit, so dass wir am Ende eine einheitslose Teststatistik \(T_{D}\) vorliegen haben. In Tabelle 19.2 ist das Datenbeispiel gegeben.

Tabelle 19.2— Beispiel für die Berechnung von einem Mittelwertseffekt an der Sprunglänge [cm] von Hunde und Katzenflöhen.
animal jump_length
dog 8.0
dog 7.2
dog 8.4
dog 7.5
cat 8.5
cat 9.9
cat 8.9
cat 9.4

Dann hier auch einmal die Werte der Datentabelle als Vektoren für Berechnungen in R. Ich brauche die Zahlen als Vektor um später schnell mal den Mittelwert und die Standardabweichung zu berechnen.

dog_vec <- c(8.0, 7.2, 8.4, 7.5)
cat_vec <- c(8.5, 9.9, 8.9, 9.4)

Und dann hier nochmal als tibble, wie auch die Datentabelle aussieht. Dann kannst du auch alles in R mit der Funktion t.test() wie unten gezeigt nachrechnen.

data_tbl <- tibble(animal = gl(2, 4, labels = c("dog", "cat")),
                   jump_length = c(dog_vec, cat_vec))

Nun berechnen wir die Mittelwerte und die Standardabweichungen aus der obigen Datentabelle für die Sprungweiten getrennt für die Hunde- und Katzenflöhe. Die Werte setzen wir dann in die Formel ein und berechnen die Teststatistik \(T_{D}\) aus unseren experimentellen Daten \(D\).

\[ T_{D}=\cfrac{9.18cm - 7.78cm}{\cfrac{(0.61cm + 0.53cm)}{2} \cdot \sqrt{2/4}} = 3.47 \]

mit

  • \(\bar{y}_{dog} = 7.78cm\) dem Mittelwert für die Gruppe dog.
  • \(\bar{y}_{cat} = 9.18cm\) dem Mittelwert für die Gruppe cat.
  • \(s_p = 0.57cm\) der gepoolten Standardabweichung mit \(s_p = \tfrac{0.61cm + 0.53cm}{2}\).
  • \(n_g = 4\) der Gruppengröße der Gruppe A und B. Wir nehmen an beide Gruppen sind gleich groß.

Hier dann einmal die Berechnung der Teststatistik \(T_D\) aus den Daten Schritt für Schritt in R. Erst berechnen wie die gepoolte Standardabweichung s_p und setzen diese dann in die Formel ein.

dog_vec <- c(8.0, 7.2, 8.4, 7.5)
cat_vec <- c(8.5, 9.9, 8.9, 9.4)
s_p <- (sd(cat_vec) + sd(dog_vec))/2
T_D <- (mean(cat_vec) - mean(dog_vec))/(s_p * sqrt(2/4)) 

Dann runden wir noch das Eregbnis der Teststatistik \(T_D\) auf zwei Kommastellen für den besseren Vergleich.

T_D |> round(2)
[1] 3.48

Am Ende dann noch der einfache Weg mit der Funktion t.test() für die Berechnung der Teststatistik \(T_D\) mit dem t-Test. Du findest hier den Wert der Teststatistik mit t = -3.4685 vor. Das Minus kommt von der Berechnung Hund minus Katze. Ist aber für die Interpretation egal.

t.test(jump_length ~ animal, data = data_tbl, var.equal = TRUE)

    Two Sample t-test

data:  jump_length by animal
t = -3.4685, df = 6, p-value = 0.01333
alternative hypothesis: true difference in means between group dog and group cat is not equal to 0
95 percent confidence interval:
 -2.3876455 -0.4123545
sample estimates:
mean in group dog mean in group cat 
            7.775             9.175 

Wir haben nun die Teststatistik \(T_{D} = 3.47\) aus unseren Daten berechnet. In der ganzen Rechnerei verliert man manchmal den Überblick. Erinnern wir uns, was wir eigentlich wollten. Die Frage war, ob sich die mittleren Sprungweiten der Hunde- und Katzenflöhe unterschieden. Wenn die \(H_0\) wahr wäre, dann wäre der Unterschied \(\Delta\) der beiden Mittelwerte der Hunde- und Katzenflöhe gleich Null. Oder nochmal in der Analogie der t-Test Formel, dann wäre im Zähler \(\Delta = \bar{y}_{cat} - \bar{y}_{dog} = 0\). Wenn die Mittelwerte der Sprungweite [cm] der Hunde- und Katzenflöhe gleich wäre, dann wäre die berechnete Teststatistik \(T_{D} = 0\), da im Zähler Null stehen würde. Die Differenz von zwei gleichen Zahlen ist Null.

Je größer die berechnete Teststatistik \(T_{D}\) wird, desto unwahrscheinlicher ist es, dass die beiden Mittelwerte per Zufall gleich sind. Wie groß muss nun die berechnete Teststatistik \(T_{D}\) werden damit wir die Nullhypothese ablehnen können?

In Abbildung 19.3 ist die Verteilung aller möglichen \(T_{D}\) Werte unter der Annahme, dass die Nullhypothese wahr ist, dargestellt. Wir sehen, dass die t-Verteilung den Gipfel bei \(T_{D} = 0\) hat und niedrigere Werte mit steigenden Werten der Teststatistik annimmt. Wenn \(T = 0\) ist, dann sind auch die Mittelwerte gleich. Je größer unsere berechnete Teststatistik \(T_{D}\) wird, desto unwahrscheinlicher ist es, dass die Nullhypothese gilt.

Die t-Verteilung ist so gebaut, dass die Fläche \(A\) unter der Kurve gleich \(A=1\) ist. Wir können nun den kritischen Wert \(T_{\alpha = 5\%}\) berechnen an dem rechts von dem Wert eine Fläche von 0.05 oder 5% liegt. Somit liegt dann links von dem kritischen Wert die Fläche von 0.95 oder 95%. Den kritischen Wert \(T_{\alpha = 5\%}\) können wir statistischen Tabellen entnehmen. Oder wir berechnen den kritischen Wert direkt in R mit \(T_{\alpha = 5\%} = 2.78\).

Abbildung 19.3— Die t-Verteilung aller möglichen Teststatistiken \(T\) wenn die Nullhypothese wahr ist zusammen mit einer signifikanten Teststaistik \(T_{D}\). Wenn kein Effekt vorliegt sind die beiden Mittelwerte \(\bar{y}_1\) und \(\bar{y}_2\) in etwa gleich groß. Die Differenz der Mittelwerte wäre 0 und somit auch die Teststatistik \(T\). Je größer der \(T_{D}\) wird desto weniger können wir davon ausgehen, dass die beiden Mittelwerte gleich sind. Liegt der \(T_{D}\) über dem kritischen Wert von \(T_k\) dann können wir die Nullhypothese ablehnen. [Zum Vergrößern anklicken]

Kommen wir zurück zu unserem Beispiel. Wir haben in unserem Datenbeispiel für den Vergleich von der Sprungweite in [cm] von Hunde- und Katzenflöhen eine Teststatistik von \(T_{D} = 3.47\) berechnet. Der kritische Wert um die Nullhypothese abzulehnen liegt bei \(T_{\alpha = 5\%} = 2.78\). Wenn \(T_{D} \geq T_{\alpha = 5\%}\) wird die Nullhypothese (H\(_0\)) abgelehnt. In unserem Fall ist \(3.47 \geq 2.78\). Wir können die Nullhypothese ablehnen. Es gibt einen Unterschied zwischen der mittleren Sprungweite von Hunde- und Katzenflöhen.

Woher kommt die Testverteilung von \(T\), wenn \(H_0\) gilt?

In diesem Exkurs wollen wir einmal überlegen, woher die Testverteilung \(T\) herkommt, wenn die \(H_0\) gilt. Wir wollen die Verteilung der Teststatistik einmal in R herleiten. Zuerst gehen wir davon aus, dass die Mittelwerte der Sprungweite der Hunde- und Katzenflöhe gleich sind \(\bar{y}_{cat} = \bar{y}_{dog} = (9.18 + 7.78)/2 = 8.48\). Daher nehmen wir an, dass die Mittelwerte aus der gleichen Normalverteilung kommen. Wir ziehen also vier Sprungweiten jeweils für die Hunde- und Katzenflöhe aus einer Normalverteilung mit \(\mathcal{N}(8.48, 0.57)\). Wir nutzen dafür die Funktion rnorm(). Anschließend berechnen wir die Teststatistik. Diesen Schritt wiederholen wir eintausend Mal.

set.seed(20201021)
T_vec <- map_dbl(1:1000, function(...){
  dog_vec <- rnorm(n = 4, mean = 8.48, sd = 0.57)
  cat_vec <- rnorm(n = 4, mean = 8.48, sd = 0.57)
  s_p <- (sd(cat_vec) + sd(dog_vec))/2 
  T_calc <- (mean(cat_vec) - mean(dog_vec))/(s_p * sqrt(2/4)) 
  return(T_calc)  
}) |> round(2)

Nachdem wir eintausend Mal die Teststatistik unter der \(H_0\) berechnet haben, schauen wir uns die sortierten ersten 100 Werte der Teststatistik einmal an. Wir sehen, dass extrem kleine Teststatistiken bis sehr große Teststatistiken zufällig auftreten können, auch wenn die Mittelwerte für das Ziehen der Zahlen gleich waren.

T_vec |> magrittr::extract(1:100) |> sort()  
  [1] -5.19 -3.48 -3.29 -2.65 -2.40 -2.10 -1.48 -1.35 -1.30 -1.29 -1.29 -1.27
 [13] -1.24 -1.22 -1.10 -1.03 -1.02 -1.02 -0.91 -0.87 -0.84 -0.79 -0.79 -0.76
 [25] -0.76 -0.76 -0.73 -0.66 -0.63 -0.63 -0.62 -0.61 -0.57 -0.56 -0.55 -0.52
 [37] -0.52 -0.50 -0.48 -0.48 -0.43 -0.35 -0.33 -0.32 -0.26 -0.26 -0.22 -0.21
 [49] -0.20 -0.18 -0.17 -0.17 -0.14 -0.14 -0.12 -0.12 -0.10 -0.06  0.04  0.10
 [61]  0.14  0.16  0.17  0.31  0.34  0.41  0.45  0.50  0.50  0.51  0.55  0.63
 [73]  0.63  0.68  0.73  0.73  0.77  0.89  0.92  0.95  0.99  1.07  1.07  1.09
 [85]  1.12  1.16  1.22  1.33  1.33  1.76  2.11  2.16  2.51  2.79  2.87  3.24
 [97]  3.48  3.56  3.60  6.56

Unsere berechnete Teststatistik war \(T_{D} = 3.47\). Wenn wir diese Zahl mit den ersten einhundert, sortierten Teststatistiken vergleichen, dann sehen wir, dass nur 4 von 100 Zahlen größer sind als unsere berechnete Teststatistik. Wir beobachten also sehr seltene Daten wie in Tabelle 19.2, wenn wir davon ausgehen, dass kein Unterschied zwischen der Sprungweite der Hunde- und Katzenflöhe vorliegt.

In Abbildung 19.4 sehen wir die Verteilung der berechneten eintausend Verteilungen nochmal als ein Histogramm dargestellt. Wiederum sehen wir, dass unsere berechnete Teststatistik - dargestellt als rote Linie - sehr weit rechts am Rand der Verteilung liegt.

ggplot(as_tibble(T_vec), aes(x = value)) +
  theme_minimal() +
  labs(x = "Teststatistik", y = "Anzahl") +
  geom_histogram() +
  geom_vline(xintercept = 3.47, color = "red")
Abbildung 19.4— Histogramm der 1000 gerechneten Teststaistiken \(T_{D}\), wenn die \(H_0\) war wäre und somit kein Unterschied zwischen den Mittelwerten der Sprungweiten der Hunde- und Katzenflöhe vorliegen würde.

Nun ist es leider so, dass jeder statistische Test seine eigene Teststatistik \(T\) hat. Daher ist es etwas mühselig sich immer neue und andere kritische Werte für jeden Test zu merken. Es hat sich daher eingebürgert, sich nicht die Teststatistik für die Testentscheidung gegen die Nullhypothese zu nutzen sondern den \(p\)-Wert. Den \(p\)-Wert wollen wir uns in dem folgenden Abschnitt anschauen.

Entscheidung mit der berechneten Teststatistik

Bei der Entscheidung mit der Teststatistik müssen wir zwei Fälle unterschieden.

  1. Bei einem t-Test und einem \(\mathcal{X}^2\)-Test gilt, wenn \(T_{D} \geq T_{\alpha = 5\%}\) wird die Nullhypothese (H\(_0\)) abgelehnt.

  2. Bei einem Wilcoxon-Mann-Whitney-Test gilt, wenn \(T_{D} < T_{\alpha = 5\%}\) wird die Nullhypothese (H\(_0\)) abgelehnt.

Achtung – Wir nutzen die Entscheidung mit der Teststatistik nur und ausschließlich in der Klausur. In der praktischen Anwendung hat die Betrachtung der berechneten Teststatistik keine Verwendung mehr.

19.2.2 … anhand des p-Wertes

In dem vorherigen Abschnitt haben wir gelernt, wie wir zu einer Entscheidung gegen die Nullhypothese anhand der Teststatistik kommen. Wir haben einen kritischen Wert \(T_{\alpha = 5\%}\) definiert bei dem rechts von dem Wert 5% der Werte liegen. Anstatt nun den berechneten Wert \(T_{D}\) mit dem kritischen Wert \(T_{\alpha = 5\%}\) zu vergleichen, vergleichen wir jetzt die Flächen rechts von den jeweiligen Werten. Wir machen es uns an dieser Stelle etwas einfacher, denn wir nutzen immer den absoluten Wert der Teststatistik. Wir schreiben \(\boldsymbol{Pr}\) und meinen damit eine Wahrscheinlichkeit (eng. probability). Häufig wird auch nur das \(P\) verwendet, aber dann kommen wir wieder mit anderen Konzepten in die Quere.

In Abbildung 19.3 sind die Flächen auch eingetragen. Da die gesamte Fläche unter der t-Verteilung mit \(A = 1\) ist, können wir die Flächen auch als Wahrscheinlichkeiten lesen. Die Fläche rechts von der berechneten Teststatistik \(T_{D}\) wird \(Pr(T_{D}|H_0)\) oder \(p\)-Wert genannt. Die gesamte Fläche rechts von dem kritischen Wert \(T_{\alpha = 5\%}\) wird \(\alpha\) genannt und liegt bei 5%. Wir können also die Teststatistiken oder den p-Wert mit dem \(\alpha\)-Niveau von 5% vergleichen.

Tabelle 19.3— Zusammenhang zwischen der Teststatistik \(T\) und der Fläche \(A\) rechts von der Teststatistik. Die Fläche rechts von der berechneten Teststatistik \(T_{D}\) wird \(Pr(T|H_0)\) oder \(p\)-Wert genannt. Die Fläche rechts von dem kritischen Wert \(T_{\alpha = 5\%}\) wird \(\alpha\) genannt und liegt bei 5%.
Teststatistik \(T\) Fläche \(A\)
\(T_{D}\) \(Pr(T_{D}|H_0)\) oder \(p\)-Wert
\(T_{\alpha = 5\%}\) \(\alpha\)
Abbildung 19.5— Die t-Verteilung aller möglichen \(T\) wenn die Nullhypothese wahr ist. Daher liegt kein Effekt vor und die beiden Mittelwerte \(\bar{y}_1\) und \(\bar{y}_2\) wären in etwa gleich groß. Die Differenz der Mittelwerte wäre 0. Je größer der \(T_{D}\) wird desto weniger können wir davon ausgehen, dass die beiden Mittelwerte gleich sind. Liegt der \(T_{D}\) über dem kritischen Wert von \(T_{\alpha = 5\%}\) dann wir die Nullhypothese abgelehnt. [Zum Vergrößern anklicken]

In der folgenden Abbildung 19.6 ist dann nochmal der Zusammenhang aus der Tabelle als eine Abbildung visualisiert. Mit dem \(p\)-Wert entscheiden wir anhand von Flächen. Wir schauen uns in diesem Fall die beiden Seiten der Testverteilung mit jeweils \(T_{\alpha = 2.5\%}\) für \(-T_K\) und \(T_K\) an und vergleichen die Flächen rechts neben der berechneten Teststatistik \(T_{D}\).

Abbildung 19.6— Wir vergleichen bei der Entscheidung mit dem \(p\)-Wert nicht die berechnete Teststatistik \(T_{D}\) mit dem kritischen Wert \(T_{\alpha = 5\%}\) sondern die Flächen rechts von den jeweiligen Teststatistiken mit \(A_K = 5\%\) und \(A_{D}\) als den \(p\)-Wert. Die Flächen links und rechts von \(T_{\alpha = 2.5\%}\) sind nochmal separat dargestellt. An dem Flächenvergleich machen wir dann die Testentscheidung fest. [Zum Vergrößern anklicken]

Der p-Wert oder \(Pr(T|H_0)\) ist eine Wahrscheinlichkeit. Eine Wahrscheinlichkeit kann die Zahlen von 0 bis 1 annehmen. Dabei sind die Grenzen einfach zu definieren. Eine Wahrscheinlichkeit von \(Pr(A) = 0\) bedeutet, dass das Ereignis A nicht auftritt; eine Wahrscheinlichkeit von \(Pr(A) = 1\) bedeutet, dass das Ereignis A eintritt. Der Zahlenraum dazwischen stellt jeden von uns schon vor große Herausforderungen. Der Unterschied zwischen 40% und 60% für den Eintritt des Ereignisses A sind nicht so klar zu definieren, wie du auf den ersten Blick meinen magst. Ein frequentistischer Hypothesentest beantwortet die Frage, mit welcher Wahrscheinlichkeit \(Pr\) die Teststatistik \(T\) aus dem Experiment mit den Daten \(D\) zu beobachten wären, wenn es keinen Effekt gäbe (\(H_0\) ist wahr).

In anderen Büchern liest man an dieser Stelle auch gerne etwas über die Likelihood, nicht so sehr in deutschen Büchern, schon aber in englischen Veröffentlichungen. Im Englischen gibt es die Begrifflichkeiten einer Likelihood und einer Probability. Meist wird beides ins Deutsche ungenau mit Wahrscheinlichkeit übersetzt oder wir nutzen einfach Likelihood. Was aber auch nicht so recht weiterhilft, wenn wir ein Wort mit dem gleichen Wort übersetzen. Es handelt sich hierbei aber um zwei unterschiedliche Konzepte. Deshalb Übersetzen wir Likelihood mit Plausibilität und Probability mit Wahrscheinlichkeit.

Im Folgenden berechnen wir den \(p\)-Wert in R mit der Funktion t.test(). Mehr dazu im Kapitel 28, wo wir den t-Test und deren Anwendung im Detail besprechen. Hier fällt der \(p\)-Wert etwas aus den Himmel. Wir wollen aber nicht per Hand Flächen unter einer Kurve berechnen sondern nutzen für die Berechnung von \(p\)-Werten statistische Tests in R.

# A tibble: 1 × 2
  statistic p.value
      <dbl>   <dbl>
1      3.47  0.0133

Wir sagen, dass wir ein signifikantes Ergebnis haben, wenn der \(p\)-Wert kleiner ist als die Signifikanzschwelle \(\alpha\) von 5%. Wenden wir also das Wissen einmal an. Wir erhalten einen \(p\)-Wert von 0.013 und vergleichen diesen Wert zu einem \(\alpha\) von 5%. Ist der \(p\)-Wert kleiner als der \(\alpha\)-Wert von 5%, dann können wir die Nullhypothese ablehnen. Da 0.013 kleiner ist als 0.05 können wir die Nullhypothese und damit die Gleichheit der mittleren Sprungweiten in [cm] ablehnen. Wir sagen, dass wir ein signifikantes Ergebnis vorliegen haben.

Entscheidung mit dem p-Wert

Wenn der p-Wert \(\leq \alpha\) dann wird die Nullhypothese (H\(_0\)) abgelehnt. Das Signifikanzniveau \(\alpha\) wird als Kulturkonstante auf 5% oder 0.05 gesetzt. Die Nullhypothese (H\(_0\)) kann auch Gleichheitshypothese gesehen werden. Wenn die H\(_0\) gilt, liegt kein Unterschied zwischen z.B. den Behandlungen vor.

19.2.3 … anhand des 95% Konfidenzintervalls

Ein statistischer Test der eine Teststatistik \(T\) berechnet liefert auch immer einen \(p\)-Wert. Nicht alle statistischen Tests ermöglichen es ein 95% Konfidenzintervall zu berechnen. Abbildung 19.7 zeigt ein 95% Konfidenzintervall für den Mittelwertsunterschied sowie dem Anteilsunterschied.

Abbildung 19.7— Ein 95% Konfidenzintervall. Der Punkt in der Mitte entspricht dem Unterschied oder Effekt \(\Delta\) der beiden zu vergleichenden Gruppen. (A) Mittelwertsunterschied (\(\Delta_{y_1-y_2}\)) (B) Anteilsunterschied (\(\Delta_{y_1/y_2}\)). [Zum Vergrößern anklicken]

Mit p-Werten haben wir Wahrscheinlichkeitsaussagen und damit über die Signifikanz. Damit haben wir noch keine Aussage über die Relevanz des beobachteten Effekts. Mit der Teststatistik \(T\) und dem damit verbundenen \(p\)-Wert haben wir uns Wahrscheinlichkeiten angeschaut und erhalten eine Wahrscheinlichkeitsaussage. Eine Wahrscheinlichkeitsaussage sagt aber nichts über den Effekt \(\Delta\) aus. Also wie groß ist der mittlere Sprungunterschied zwischen Hunde- und Katzenflöhen. Die Idee von 95% Konfidenzintervallen ist es jetzt den Effekt mit der Wahrscheinlichkeitsaussage zusammenzubringen und beides in einer Visualisierung zu kombinieren.

Wir nutzen hier eine von mir vereinfachte Formel für das Konfidenzintervall um das Konzept zu verstehen. Später berechnen wir das Konfidenzintervall in R.

Im Folgenden sehen wir also die vereinfachte Formel für das 95% Konfidenzintervall eines t-Tests um es uns etwas einfacher vom Verständnis zu machen. Komplizierter geht es immer, aber das berechnet dann eine Maschine später für uns.

\[ \left[ (\bar{y}_1-\bar{y}_2) - T_{\alpha = 5\%} \cdot \frac {s_p}{\sqrt{n}}; \; (\bar{y}_1-\bar{y}_2) + T_{\alpha = 5\%} \cdot \frac {s_p}{\sqrt{n}} \right] \]

Die Formel ist ein wenig komplex, aber im Prinzip einfach, wenn du ein wenig die Formel auf dich wirken lässt. Der linke und der rechte Teil neben dem Semikolon sind fast gleich, bis auf das Plus- und Minuszeichen. Wir sehen folgende mathematische Zusammenhänge in der Formel und entsprechenden dann in der Visualisierung des Konfidenzintervalls.

  • \((\bar{y}_{1}-\bar{y}_{2})\) ist der Effekt \(\Delta\). In diesem Fall der Mittelwertsunterschied. Wir finden den Effekt als Punkt in der Mitte des Intervalls.
  • \(T_{\alpha = 5\%} \cdot \frac {s}{\sqrt{n}}\) ist der Wert, der die Arme des Intervalls bildet. Wir vereinfachen die Formel mit \(s_p\) für die gepoolte Standardabweichung und \(n_g\) für die Fallzahl der beiden Gruppen. Wir nehmen an das beide Gruppen die gleiche Fallzahl \(n_1 = n_2\) haben.

Bei der Entscheidung mit dem 95% Konfidenzintervall müssen wir zwei Fälle unterscheiden.

  1. Entweder schauen wir uns einen Mittelwertsunterschied (\(\Delta_{y_1-y_2}\)) an, dann können wir die Nullhypothese (H\(_0\)) nicht ablehnen, wenn die 0 im 95% Konfidenzinterval ist.
  2. Oder wir schauen uns einen Anteilsunterschied (\(\Delta_{y_1/y_2}\)) an, dann können wir die Nullhypothese (H\(_0\)) nicht ablehnen, wenn die 1 im 95% Konfidenzinterval ist.
Abbildung 19.8— Die Arme des 95% Konfidenzintervalls werden länger oder kürzer je nachdem wie sich die statistischen Maßzahlen \(s\) und \(n\) verändern. (A) Bei einem Mittelwertsunterschied kann die Nullhypothese abgelehnt werden, wenn die 0 nicht im Konfidenzintervall ist; (B) bei einem Anteilsunterschied wenn die 1 nicht im Konfidenzintervall ist. [Zum Vergrößern anklicken]

Wir können eine biologische Relevanz definieren, dadurch das ein 95% Konfidenzintervall die Wahrscheinlichkeitsaussage über die Signifikanz, daher ob die Nullhypothese abgelehnt werden kann, mit dem Effekt zusammenbringt. Wo die Signifikanzschwelle klar definiert ist, hängt die Relevanzschwelle von der wissenschaftlichen Fragestellung und weiteren externen Faktoren ab. Die Signifikanzschwelle liegt bei 0, wenn wir Mittelwerte miteinander vergleichen und bei 1, wenn wir Anteile vergleichen. Die Abbildung 19.9 zeigt fünf 95% Konfidenzintervalle (a-e), die sich anhand der Signifikanz und Relevanz unterscheiden. Bei der Relevanz ist es wichtig zu wissen in welche Richtung der Effekt gehen soll. Erwarten wir einen positiven Effekt wenn wir die Differenz der beiden Gruppen bilden oder einen negativen Effekt?

Abbildung 19.9— Verschiedene signifikante und relevante Konfidenzintervalle: (A) signifikant und relevant; (B) signifikant und nicht relevant; (C) nicht signifikant und nicht relevant; (D) signifikant und nicht relevant, der Effekt ist zu klein; (E) signifikant und potenziell relevant, Effekt zeigt in eine unerwartete Richtung gegeben der Relevanzschwelle. [Zum Vergrößern anklicken]

Wir wollen uns nun einmal anschauen, wie sich ein 95% Konfidenzintervall berechnet. Wir nehmen dafür die vereinfachte Formel und setzen die berechneten statistischen Maßzahlen ein. In der Anwendung werden wir die Konfidenzintervalle nicht selber berechnen. Wenn ein statistisches Verfahren Konfidenzintervalle berechnen kann, dann liefert die entsprechende Funktion in R das Konfidenzintervall.

Es ergibt sich Folgende ausgefüllte Formel für das 95% Konfidenzintervalls eines t-Tests für das Beispiel des Sprungweitenunterschieds [cm] zwischen Hunde- und Katzenflöhen.

\[ \left[ (9.18-7.78) - 2.78 \cdot \frac {0.57}{\sqrt{4}}; \; (9.18-7.78) + 2.78 \cdot \frac {0.57}{\sqrt{4}} \right] \]

mit

  • \(\bar{y}_{cat} = 9.18cm\) dem Mittelwert für die Gruppe cat.
  • \(\bar{y}_{dog} = 7.78cm\) dem Mittelwert für die Gruppe dog.
  • \(T_{\alpha = 5\%} = 2.78\) dem kritischen Wert.
  • \(s_p = 0.57cm\) der gepoolten Standardabweichung mit \(s_p = \tfrac{0.61cm + 0.53cm}{2}\).
  • \(n_g = 4\) der Gruppengröße der Gruppe A und B. Wir nehmen an beide Gruppen sind gleich groß.

Lösen wir die Formel auf, so ergibt sich folgendes 95% Konfidenzintervall des Mittelwertsunterschiedes der Sprungweiten der Hunde- und Katzenflöhe.

\[1.4cm\;[0.64cm; 2.16cm]\]

Den Mittelwertsunterschied von \(1.4cm\) habe ich dann händisch selber berechnet.

Natürlich geht es auch flotter mit der Funktion t.test() in R. Du erhälst dann direkt die Konfidenzintervalle unter der Zeile 95 percent confidence interval wiedergeben.

t.test(jump_length ~ animal, data = data_tbl, var.equal = TRUE) 

    Two Sample t-test

data:  jump_length by animal
t = 3.4685, df = 6, p-value = 0.01333
alternative hypothesis: true difference in means between group cat and group dog is not equal to 0
95 percent confidence interval:
 0.4123545 2.3876455
sample estimates:
mean in group cat mean in group dog 
            9.175             7.775 

Das R Paket {broom} erlaubt es über die Funktion tidy() es sich auch den Mittelwertsunterschied und die beiden Grenzen des Konfidenzintervalls sauber wiedergeben zu lassen.

t.test(jump_length ~ animal, data = data_tbl, var.equal = TRUE) |> 
  tidy() |> 
  select(estimate, estimate1, estimate2, conf.low, conf.high)
# A tibble: 1 × 5
  estimate estimate1 estimate2 conf.low conf.high
     <dbl>     <dbl>     <dbl>    <dbl>     <dbl>
1      1.4      9.18      7.78    0.412      2.39

Oder dann einmal die Visualisierung des 95% Konfidenzintervall in der Abbildung 19.10.

Abbildung 19.10— Visualisierun des 95% Konfidenzintervall des Mittelwertsunterschiedes der Sprungweiten der Hunde- und Katzenflöhe. [Zum Vergrößern anklicken]

Wir können sagen, dass mit 95% Wahrscheinlichkeit das Konfidenzintervall den wahren Effektunterschied \(\Delta\) überdeckt. Oder etwas mehr in Prosa, dass wir eine Sprungweitenunterschied von 0.64 cm bis 2.16 cm zwischen Hunde- und Katzenflöhen erwarten würden.

Die Entscheidung gegen die Nullhypothese bei einem Mittelwertsunterschied erfolgt bei einem 95% Konfidenzintervall danach ob die Null mit im Konfidenzintervall liegt oder nicht. In dem Intervall \([0.64; 2.16]\) ist die Null nicht enthalten, also können wir die Nullhypothese ablehnen. Es ist mit einem Unterschied zwischen den mittleren Sprungweiten von Hunde- und Katzenflöhen auszugehen.

In unserem Beispiel, könnten wir die Relevanzschwelle für den mittleren Sprungweitenunterschied zwischen Hund- und Katzenflöhen auf 2 cm setzen. In dem Fall würden wir entscheiden, dass der mittlere Sprungweitenunterschied nicht relevant ist, da die 2 cm im Konfidenzintervall enthalten sind. Was wäre wenn wir die Relevanzschwelle auf 4 cm setzen? Dann wäre zwar die Relevanzschwelle nicht mehr im Konfidenzintervall, aber wir hätten Fall (d) in der Abbildung 19.9 vorliegen. Der Effekt ist einfach zu klein, dass der Effekt relevant sein könnte.

Wir können dann die 95% Konfidenzintervall des Mittelwertsunterschiedes der Hunde- und Katzenflöhe auch nochmal richtig in R berechnen. Dafür schaue dann oben einmal in den zweiten Tab bei der beispielberechnung. Wir haben ja oben eine einfachere Formel für die gepoolte Standardabweichung genutzt. Wenn wir also ganz genau rechnen wollen, dann sind die 95% Konfidenzintervall wie oben im Tab gezeigt. Wir nutzen auch hier die Funktion t.test(). Mehr dazu im Kapitel zum t-test, wo wir den t-Test und deren Anwendung im Detail besprechen.

Entscheidung mit dem 95% Konfidenzintervall

Bei der Entscheidung mit dem 95% Konfidenzintervall müssen wir zwei Fälle unterscheiden.

  1. Entweder schauen wir uns einen Mittelwertsunterschied (\(\Delta_{y_1-y_2}\)) an, dann können wir die Nullhypothese (H\(_0\)) nicht ablehnen, wenn die 0 im 95% Konfidenzintervall ist.

  2. Oder wir schauen uns einen Anteilsunterschied (\(\Delta_{y_1/y_2}\)) an, dann können wir die Nullhypothese (H\(_0\)) nicht ablehnen, wenn die 1 im 95% Konfidenzintervall ist.

19.3 Auswirkung des Effektes, der Streuung und der Fallzahl

Wir wollen einmal den Zusammenhang zwischen dem Effekt \(\Delta\), der Streuung als Standardabweichung \(s\) und Fallzahl \(n\) uns näher anschauen. Wir können die Formel des t-Tests wie folgt vereinfachen.

\[ T_{D}=\cfrac{\bar{y}_1-\bar{y}_1}{s_{p} \cdot \sqrt{2/n_g}} \]

Für die Betrachtung der Zusammenhänge wandeln wir \(\sqrt{2/n_g}\) in \(1/n\) um. Dadurch wandert die Fallzahl \(n\) in den Zähler. Die Standardabweichung verallgemeinern wir zu \(s\) und damit allgemein zur Streuung. Abschließend betrachten wir \(\bar{y}_A-\bar{y}_B\) als den Effekt \(\Delta\). Es ergibt sich folgende vereinfachte Formel.

\[ T_{D} = \cfrac{\Delta \cdot n}{s} \]

Wir können uns nun die Frage stellen, wie ändert sich die Teststatistik \(T_{D}\) in Abhängigkeit vom Effekt \(\Delta\), der Fallzahl \(n\) und der Streuung \(s\) in den Daten. Die Tabelle 19.4 zeigt die Zusammenhänge auf. Die Aussagen in der Tabelle lassen sich generalisieren. So bedeutet eine steigende Fallzahl meist mehr signifikante Ergebnisse. Eine steigende Streuung reduziert die Signifikanz eines Vergleichs. Ein Ansteigen des Effektes führt zu mehr signifikanten Ergebnissen. Ebenso verschiebt eine Veränderung des Effekt das 95% Konfidenzintervall, eine Erhöhung der Streuung macht das 95% Konfidenzintervall breiter, eine sinkende Streuung macht das 95% Konfidenzintervall schmaler. Bei der Fallzahl verhält es sich umgekehrt. Eine Erhöhung der Fallzahl macht das 95% Konfidenzintervall schmaler und eine sinkende Fallzahl das Konfidenzintervall breiter.

Tabelle 19.4— Zusammenhang von der Teststatistik \(T_{D}\) und dem p-Wert \(Pr(\geq T_{D}|H_0)\) sowie dem \(KI_{1-\alpha}\) in Abhängigkeit vom Effekt \(\Delta\), der Fallzahl \(n\) und der Streuung \(s\).
\(T_{D}\) \(Pr(T_{D}|H_0)\) \(KI_{1-\alpha}\) \(T_{D}\) \(Pr(T_{D}|H_0)\) \(KI_{1-\alpha}\)
\(\Delta \uparrow\) steigt sinkt verschoben \(\Delta \downarrow\) sinkt steigt verschoben
\(s \uparrow\) sinkt steigt breiter \(s \downarrow\) steigt sinkt schmaler
\(n \uparrow\) steigt sinkt schmaler \(n \downarrow\) sinkt steigt breiter

Referenzen

Cadiergues M-C, Joubert C, Franc M. 2000. A comparison of jump performances of the dog flea, Ctenocephalides canis (Curtis, 1826) and the cat flea, Ctenocephalides felis felis (Bouché, 1835). Veterinary parasitology 92: 239–241.
Gigerenzer G, Krauss S, Vitouch O. 2004. The null ritual. The Sage handbook of quantitative methodology for the social sciences 391–408.