Statistische Gruppenvergleiche

Letzte Änderung am 18. May 2024 um 15:18:02

“Experimental observations are only experience carefully planned in advance, and designed to form a secure basis of new knowledge.” — Sir Ronald Fisher

In den folgenden Kapiteln geht es um statistische Gruppenvergleiche. Wir wollen also wissen, ob sich zwei oder mehr Gruppen einer Variable $x$ gegeben des Outcomes $y$ unterscheiden. Als Beispiel kennen wir ja schon die Sprungweiten, als unser $y$, für unsere für Hunde- und Katzenflöhe, als unserem $x$. Wichtig hierbei ist, dass wir eigentlich ein sehr simples statistisches Modell vorliegen haben. Damit meine ich, dass wir uns nur die Sprungweite anschauen und auch nur die Frage haben, ob sich Gruppen unterscheiden. Welche Eigenschaften die Gruppen noch haben, wollen wir erstmal hier nicht betrachten. Wenn wir das wollten, dann würden wir anfangen uns mit der statistischen Modellierung zu beschäftigen.

Hier wollen wir dann aber erstmal nur wissen, ob sich die Werte des Outcome $y$ in den Gruppen bzw. Leveln der Variable $x$ unterscheiden. Wir können daher auch einfach Folgendes mathematisch schreiben.

\[ y \sim x \]

In unserem konkreten Beispiel wäre es dann wie folgt geschrieben. Wir haben die Sprungweiten jump_length links stehen und die beiden Tierarten als Level im Faktor animal auf der rechten Seite.

\[ jump\_lengh \sim animal \]

Für dieses relativ einfache Problem mit nur einem Faktor als Gruppenvariable schauen wir uns nun einmal verschiedene Möglichkeiten der statistischen Auswertung an. Wie immer gilt, wenn du unsicher bist, dann kannst du gerne einmal in meine statistische Beratung kommen.

Welcher Test soll es sein?

In der Abbildung 1 siehst du einmal einen simplen Entscheidungsbaum für die Auswahl eines statistischen Test für Gruppenvergleiche dargestellt. Natürlich können nicht alle Eigenheiten eines Datensatzes oder eines experimentellen Designs in so einer Abbildung berücksichtigt werden. Wir gehen deshalb noch auf einige Eigenheiten nochmal in den folgenden Abschnitten ein.

flowchart TD
    A("Normalverteiltes Outcome y"):::factor --- B(((ja))) --> B1 
    A("Normalverteiltes Outcome y"):::factor --- F(((nein))) --> B2  
    subgraph B1["Mittelwertsvergleiche"]
    C("Vergleich zweier Gruppen"):::factor --- D((("ja"))) --> E("t-Test"):::factor
    C("Vergleich zweier Gruppen"):::factor --- J(((nein))) --> K("ANOVA"):::factor 
    end
    subgraph B2["Medianvergleiche"]
    G("Vergleich zweier Gruppen"):::factor --- H(((ja))) --> I("Wilcoxon-Mann-
    Whitney-Test"):::factor  
    G("Vergleich zweier Gruppen"):::factor --- L(((nein))) --> M("Kruskal-
    Wallis-Test"):::factor  
    end
    classDef factor fill:#56B4E9,stroke:#333,stroke-width:0.75px

Abbildung 1— Flowchart für die Entscheidung welcher statistischer Test für einen Gruppenvergleich mit zwei oder mehr Gruppen durchgeführt werden sollte. Zuerst schauen wir jedoch, ob wir ein normalverteiltes Outcome $y$ vorliegen haben.

Was ist mit Anteilen?

Der $\mathcal{X}^2$-Test erlaubt es dir auch zu testen, ob sich zum Beispiel der Anteil der infizierten Hunde von dem Anteil der infizierten Katzen unterscheidet. Damit vergleichen wir dann meisten Wahrscheinlichkeiten oder Prozente. Da wir dafür viele Beobachtungen brauchen, tritt der Fall in den Agrarwissenschaften eher selten auf.

Wenn du ein normalverteiltes Outcome $y$ vorliegen hast und dann wissen möchtest, ob sich eine Einflussvariable innerhalb ihrer Gruppen sich unterscheidet, dann bietet sich der t-Test für den Zweigruppenfall an. Wenn du mehr als zwei Gruppen vorliegen hast, dann nutzt du die ANOVA oder aber ANCOVA, wenn du nicht nur Gruppen vergleichen möchtest.

Der Student t-Test oder Welch t-Test: Der t-Test ermöglicht es dir zwei normalverteilte Gruppen hinsichtlich ihrem Mittelwertsunterschied zu vergleichen. Oder andersherum, unterscheiden sich die Hunde- und Katzenflöhe in ihrer mittleren Sprungweite? Der t-Test hat unbestreitbare Vorteile in dem Verständnis und der Interpretierbarkeit. Deshalb haben wir auch den t-Test genutzt um einmal das statistische Hypothesentesten zu verstehen.
Die ANOVA und die ANCOVA: Die ANOVA ermöglicht dir mehr als nur zwei Gruppen hinsichtlich ihrem mittleren Unterschied zueinander zu vergleichen. Auch hier gehen wir von einem normalverteilten Outcome aus. Das heißt, unterscheiden sich die mittleren Sprungweiten der Hunde-, Katzen-, und Fuchsflöhe? Die Stärke der ANOVA ist, auch noch einen anderen Faktor mit in das Modell zu nehmen. Wir könnten also noch den Ort der Erfassung mit aufnehmen. Unterschieden sich die mittleren Sprungweiten auch in Dörfern, Städten oder dem Land? Wenn du dann noch das Gewicht der Flöhe mit ins Spiel bringen willst, dann schaue dir einmal die ANCOVA an.

Manchmal kommt es vor, dass wir kein normalverteiltes Outcome haben. Eine Lösung ist dann die Mediane und nicht die Mittelwerte miteinander zu vergleichen. Eine andere Lösung wäre das Outcome $y$ zu transformieren, so dass wir dann wieder eine approximativ (deu. näherungsweise) Normalverteilung vorliegen haben. Schauen wir uns aber die Standardlösung für die Vergleiche zweier Mediande mit dem Wilcoxon-Mann-Whitney-Test einmal an. Wenn du mehr als zwei Gruppen hast, dann nutzen wir den Kruskal-Wallis-Test.

Der Wilcoxon-Mann-Whitney-Test oder auch U-Test: Der Wilcoxon-Mann-Whitney-Test ist im Prinzip das Gleiche wie der t-Test. Wir betrachten hier auch zwei Gruppen, die nicht normalverteilt sein müssen. Wir fragen dann, unterscheiden sich die medianen Sprungweiten der Hunde- und Katzenflöhe? Das Konzept sich einen Unterschied im Median anzuschauen ist möglich hat dann aber den Nachteil, dass wir häufig den medianen Unterschied nicht so schön interpretieren können.
Der Kruskal-Wallis-Test und der Friedman-Test: Wenn du merh als zwei Gruppen vorliegen hast, dann kannst du den Kruskal-Wallis-Test nutzen. Auch hier testet du, ob sich ein medianer Unterschied zwischen den nicht normalverteilten Gruppen nachweisen lässt. Unterschieden sich also die medianen Sprungweiten der Hunde-, Katzen- und Fuchsflöhe? Ein weiterer Spezialfall ist der Friedman-Test, wenn du noch einen zusätzlichen Faktor mit ins statistische Modell nehmen willst.

Soweit der schmale Überblick. Es geht natürlich weit mehr. Wenn du zum Beispiel einen signifikanten Unterschied bei der ANOVA gefunden hast, möchtest du ja wissen, welche paarweisen Gruppenvergleiche sich nun wirklich unterscheiden. Hier helfen dir dann eine Reihe von Post-hoc Tests weiter. Dann wird die Sachlage schon etwas unübersichtlicher.

Jetzt schauen wir uns noch ein paar Spezialfälle einmal näher an, die du berücksichtigen kannst, aber nicht immer musst.

Fallzahl gleich oder ungleich?

Manche statistische Verfahren haben Probleme, wenn nicht in allen Gruppen gleich viele Beobachtungen vorliegen. Hier wäre jetzt vor allem der Friedman-Test zu nennen. Die anderen Verfahren haben eigentlich keine Probleme mit unterschiedlichen Gruppengrößen. Der Wilcoxon-Mann-Whitney-Test erwartet als Daumenregel immer mehr als drei Beobachtungen pro Gruppe. Wenn du weniger Beobachtungen pro Gruppe hast, dann wird die Sache schwierig eine Signifikanz nachzuweisen. Auch hat der $\mathcal{X}^2$-Test seine Limitierungen. Aber das würde dann hier zu weit führen.

Varianzen gleich oder ungleich?

Auch die Frage der Varianzhomogenität oder Varianzheterogenität musst du nochmal genauer anschauen. Wenn du ein normalverteiltes Outcome $y$ hast, dann kannst du auch mit Varianzheterogenität umgehen. Dann schließt sich zwar die klassische ANOVA aus, aber das ist nicht unbedingt ein Problem. Die Statistik hat nur noch keine echte Lösung für ein Outcome, das nicht normalverteilt und keine homogenen Varianzen hat, gefunden. Hier müssen wir dann mal über die Eigenschaften des Outcomes $y$ sprechen. Denn nicht normalverteilt bedeutet häufig, dass wir doch die Verteilung erkennen und entsprechend modellieren können. Es gibt neben der Normalverteilung noch eine Reihe von bekannten verteilunge, die hier als Lösung funktionieren können.

Abhängig oder unabhängig?

Am Ende noch die Frage, ob deine Beobachtungen unabhängig oder abhängig sind. Hier stellt sich eigentlich die Frage, ob du eine Beobachtung über die Zeit mehrfach misst. Wenn das der Fall ist, dann musst du komplexere Modelle nutzen als die einfachen Gruppenvergleiche. Jedes der hier vorgestellten Verfahren geht eigentlich von der Unabhängigkeit der Beobachtungen aus. Die Beobachtungen untereinander sind nicht miteinander verwandt oder kausal verflochten. Wir haben also kein Verwandtschaftverhätnisse vorliegen oder messen wiederholt das gleiche Individuum. Ein Ausweg für zwei Zeitpunkte ist der gepaarte t-Test. bei mehreren Zeitpunkten sind wir dann schon bei komplexeren Modellen wie den gemischten linearen Modellen. Aber das führt hier viel zu weit.

# Statistische Gruppenvergleiche *Letzte Änderung am `r format(fs::file_info("stat-tests-preface-app.qmd")$modification_time, '%d. %B %Y um %H:%M:%S')`* ```{r echo = FALSE} pacman::p_load(tidyverse, readxl, knitr, kableExtra, broom) ``` > *"Experimental observations are only experience carefully planned in advance, and designed to form a secure basis of new knowledge." --- Sir Ronald Fisher* In den folgenden Kapiteln geht es um statistische Gruppenvergleiche. Wir wollen also wissen, ob sich zwei oder mehr Gruppen einer Variable $x$ gegeben des Outcomes $y$ unterscheiden. Als Beispiel kennen wir ja schon die Sprungweiten, als unser $y$, für unsere für Hunde- und Katzenflöhe, als unserem $x$. Wichtig hierbei ist, dass wir eigentlich ein sehr simples statistisches Modell vorliegen haben. Damit meine ich, dass wir uns nur die Sprungweite anschauen und auch nur die Frage haben, ob sich Gruppen unterscheiden. Welche Eigenschaften die Gruppen noch haben, wollen wir erstmal hier nicht betrachten. Wenn wir das wollten, dann würden wir anfangen uns mit der statistischen Modellierung zu beschäftigen. Hier wollen wir dann aber erstmal nur wissen, ob sich die Werte des Outcome $y$ in den Gruppen bzw. Leveln der Variable $x$ unterscheiden. Wir können daher auch einfach Folgendes mathematisch schreiben. $$ y \sim x $$ In unserem konkreten Beispiel wäre es dann wie folgt geschrieben. Wir haben die Sprungweiten `jump_length` links stehen und die beiden Tierarten als Level im Faktor `animal` auf der rechten Seite. $$ jump\_lengh \sim animal $$ Für dieses relativ einfache Problem mit nur einem Faktor als Gruppenvariable schauen wir uns nun einmal verschiedene Möglichkeiten der statistischen Auswertung an. Wie immer gilt, wenn du unsicher bist, dann kannst du gerne einmal in meine statistische Beratung kommen. ## Welcher Test soll es sein? In der @fig-mermaid-preface-app-01 siehst du einmal einen simplen Entscheidungsbaum für die Auswahl eines statistischen Test für *Gruppenvergleiche* dargestellt. Natürlich können nicht alle Eigenheiten eines Datensatzes oder eines experimentellen Designs in so einer Abbildung berücksichtigt werden. Wir gehen deshalb noch auf einige Eigenheiten nochmal in den folgenden Abschnitten ein. ```{mermaid} %%| label: fig-mermaid-preface-app-01 %%| fig-width: 6 %%| fig-cap: "Flowchart für die Entscheidung welcher statistischer Test für einen Gruppenvergleich mit zwei oder mehr Gruppen durchgeführt werden sollte. Zuerst schauen wir jedoch, ob wir ein normalverteiltes Outcome $y$ vorliegen haben." flowchart TD A("Normalverteiltes Outcome y"):::factor --- B(((ja))) --> B1 A("Normalverteiltes Outcome y"):::factor --- F(((nein))) --> B2 subgraph B1["Mittelwertsvergleiche"] C("Vergleich zweier Gruppen"):::factor --- D((("ja"))) --> E("t-Test"):::factor C("Vergleich zweier Gruppen"):::factor --- J(((nein))) --> K("ANOVA"):::factor end subgraph B2["Medianvergleiche"] G("Vergleich zweier Gruppen"):::factor --- H(((ja))) --> I("Wilcoxon-Mann- Whitney-Test"):::factor G("Vergleich zweier Gruppen"):::factor --- L(((nein))) --> M("Kruskal- Wallis-Test"):::factor end classDef factor fill:#56B4E9,stroke:#333,stroke-width:0.75px ``` ::: callout-note ## Was ist mit Anteilen? [Der $\mathcal{X}^2$-Test](#sec-chi-test) erlaubt es dir auch zu testen, ob sich zum Beispiel der Anteil der infizierten Hunde von dem Anteil der infizierten Katzen unterscheidet. Damit vergleichen wir dann meisten Wahrscheinlichkeiten oder Prozente. Da wir dafür viele Beobachtungen brauchen, tritt der Fall in den Agrarwissenschaften eher selten auf. ::: Wenn du ein normalverteiltes Outcome $y$ vorliegen hast und dann wissen möchtest, ob sich eine Einflussvariable innerhalb ihrer Gruppen sich unterscheidet, dann bietet sich der t-Test für den Zweigruppenfall an. Wenn du mehr als zwei Gruppen vorliegen hast, dann nutzt du die ANOVA oder aber ANCOVA, wenn du nicht nur Gruppen vergleichen möchtest. Der Student t-Test oder Welch t-Test : Der [t-Test](#sec-ttest) ermöglicht es dir zwei normalverteilte Gruppen hinsichtlich ihrem Mittelwertsunterschied zu vergleichen. Oder andersherum, unterscheiden sich die Hunde- und Katzenflöhe in ihrer mittleren Sprungweite? Der t-Test hat unbestreitbare Vorteile in dem Verständnis und der Interpretierbarkeit. Deshalb haben wir auch den t-Test genutzt um einmal das statistische Hypothesentesten zu verstehen. Die ANOVA und die ANCOVA : Die [ANOVA](#sec-anova) ermöglicht dir mehr als nur zwei Gruppen hinsichtlich ihrem mittleren Unterschied zueinander zu vergleichen. Auch hier gehen wir von einem normalverteilten Outcome aus. Das heißt, unterscheiden sich die mittleren Sprungweiten der Hunde-, Katzen-, und Fuchsflöhe? Die Stärke der ANOVA ist, auch noch einen anderen Faktor mit in das Modell zu nehmen. Wir könnten also noch den Ort der Erfassung mit aufnehmen. Unterschieden sich die mittleren Sprungweiten auch in Dörfern, Städten oder dem Land? Wenn du dann noch das Gewicht der Flöhe mit ins Spiel bringen willst, dann schaue dir einmal die [ANCOVA](#sec-ancova) an. Manchmal kommt es vor, dass wir kein normalverteiltes Outcome haben. Eine Lösung ist dann die Mediane und nicht die Mittelwerte miteinander zu vergleichen. Eine andere Lösung wäre das Outcome $y$ zu transformieren, so dass wir dann wieder eine approximativ (deu. *näherungsweise*) Normalverteilung vorliegen haben. Schauen wir uns aber die Standardlösung für die Vergleiche zweier Mediande mit dem Wilcoxon-Mann-Whitney-Test einmal an. Wenn du mehr als zwei Gruppen hast, dann nutzen wir den Kruskal-Wallis-Test. Der Wilcoxon-Mann-Whitney-Test oder auch U-Test : Der [Wilcoxon-Mann-Whitney-Test](#sec-utest) ist im Prinzip das Gleiche wie der t-Test. Wir betrachten hier auch zwei Gruppen, die nicht normalverteilt sein müssen. Wir fragen dann, unterscheiden sich die medianen Sprungweiten der Hunde- und Katzenflöhe? Das Konzept sich einen Unterschied im Median anzuschauen ist möglich hat dann aber den Nachteil, dass wir häufig den medianen Unterschied nicht so schön interpretieren können. Der Kruskal-Wallis-Test und der Friedman-Test : Wenn du merh als zwei Gruppen vorliegen hast, dann kannst du den [Kruskal-Wallis-Test](#sec-kruskal) nutzen. Auch hier testet du, ob sich ein medianer Unterschied zwischen den nicht normalverteilten Gruppen nachweisen lässt. Unterschieden sich also die medianen Sprungweiten der Hunde-, Katzen- und Fuchsflöhe? Ein weiterer Spezialfall ist der [Friedman-Test](#sec-friedman), wenn du noch einen zusätzlichen Faktor mit ins statistische Modell nehmen willst. Soweit der schmale Überblick. Es geht natürlich weit mehr. Wenn du zum Beispiel einen signifikanten Unterschied bei der ANOVA gefunden hast, möchtest du ja wissen, welche paarweisen Gruppenvergleiche sich nun wirklich unterscheiden. Hier helfen dir dann eine Reihe von [Post-hoc Tests](#sec-posthoc) weiter. Dann wird die Sachlage schon etwas unübersichtlicher. Jetzt schauen wir uns noch ein paar Spezialfälle einmal näher an, die du berücksichtigen kannst, aber nicht immer musst. ## Fallzahl gleich oder ungleich? Manche statistische Verfahren haben Probleme, wenn nicht in allen Gruppen gleich viele Beobachtungen vorliegen. Hier wäre jetzt vor allem der Friedman-Test zu nennen. Die anderen Verfahren haben eigentlich keine Probleme mit unterschiedlichen Gruppengrößen. Der Wilcoxon-Mann-Whitney-Test erwartet als Daumenregel immer mehr als drei Beobachtungen pro Gruppe. Wenn du weniger Beobachtungen pro Gruppe hast, dann wird die Sache schwierig eine Signifikanz nachzuweisen. Auch hat der $\mathcal{X}^2$-Test seine Limitierungen. Aber das würde dann hier zu weit führen. ## Varianzen gleich oder ungleich? Auch die Frage der Varianzhomogenität oder Varianzheterogenität musst du nochmal genauer anschauen. Wenn du ein normalverteiltes Outcome $y$ hast, dann kannst du auch mit Varianzheterogenität umgehen. Dann schließt sich zwar die klassische ANOVA aus, aber das ist nicht unbedingt ein Problem. Die Statistik hat nur noch keine echte Lösung für ein Outcome, das nicht normalverteilt und keine homogenen Varianzen hat, gefunden. Hier müssen wir dann mal über die Eigenschaften des Outcomes $y$ sprechen. Denn nicht normalverteilt bedeutet häufig, dass wir doch die Verteilung erkennen und entsprechend modellieren können. Es gibt neben der Normalverteilung noch eine Reihe von bekannten verteilunge, die hier als Lösung funktionieren können. ## Abhängig oder unabhängig? Am Ende noch die Frage, ob deine Beobachtungen unabhängig oder abhängig sind. Hier stellt sich eigentlich die Frage, ob du eine Beobachtung über die Zeit mehrfach misst. Wenn das der Fall ist, dann musst du komplexere Modelle nutzen als die einfachen Gruppenvergleiche. Jedes der hier vorgestellten Verfahren geht eigentlich von der Unabhängigkeit der Beobachtungen aus. Die Beobachtungen untereinander sind nicht miteinander verwandt oder kausal verflochten. Wir haben also kein Verwandtschaftverhätnisse vorliegen oder messen wiederholt das gleiche Individuum. Ein Ausweg für zwei Zeitpunkte ist der gepaarte t-Test. bei mehreren Zeitpunkten sind wir dann schon bei komplexeren Modellen wie den gemischten linearen Modellen. Aber das führt hier viel zu weit.