17 Deskriptive Statistik

Letzte Änderung am 17. July 2025 um 20:21:14

“Alles was überhaupt gedacht werden kann, kann klar gedacht werden. Alles was sich aussprechen lässt, lässt sich klar aussprechen.” — Ludwig Wittgenstein, Satz 4.116

Wir nutzen die deskriptive Statistik um Zahlen zusammenzufassen. Zahlen, die wir an Individuen oder Beobachtungen erhoben haben. Diese Zahlen fassen wir dann in einem Datensatz zusammen. Das heißt wir haben am Ende einen Datensatz mit Spalten in denen sich Zahlen befinden vorliegen. Wir nehmen hier als Beispiel den Datensatz zu den Sprungweiten der Hundeflöhe. Wir wollen jetzt den Datensatz in wenigen Zahlen zusammenfassen (eng. summarize). Wie können wir mit wenigen Zahlen die Sprungweite charakterisieren? Oder aber eine Aussage über die Infektionen machen? Dafür helfen uns dann die statistischen Maßzahlen in diesem Kapitel.

Warum mit wenigen Zahlen Daten zusammenfassen? Wenn wir das Ergebnis präsentieren wollen, dann müssen es wenige Zahlen sein, die den Datensatz gut zusammenfassen. Wir haben ja nicht den Platz ganze Exceltabellen abzubilden. Auch ist diese Form der Datendarstellung sehr unübersichtlich. Daher ist es wichtig zu verstehen, dass wir dutzende bis hunderte Zahlen aus einem Datensatz durch meist eine oder zwei statistische Maßzahlen beschreiben wollen. Wir brauchen die statistischen Maßzahlen später um teilweise noch extrem größere Datensätze darstellen zu können. Ebenso werden wir die Maßzahlen aus diesem Kapitel dafür verwenden statistische Tests und Modelle zu rechnen. Springen die Hundeflöhe im Mittel weiter als die Katzenflöhe? Hier würden wir dann die Mittelwerte der Sprungweiten vergleichen. Wir nutzen die deskriptive Statistik dann auch in den weiteren Kapiteln zum statistischen Testen um eine Entscheidung über unsere Forschungsfrage zu erhalten. Die Abbildung fig-grundgesamtheit-schema-reduced zeigt dir hier einmal einen reduzierten Überblick.

Abbildung 17.1— Abbildung über die Grundgesamtheit und der Stichprobe $D$. Jede Stichprobe ist anders und nur ein kleiner Teil der Grundgesamtheit. Die Berechnung der Teststatistik $T_D$ aus den Daten $D$ erfolgt nicht direkt sondern über statistische Maßzahlen aus der deskriptiven Statistik. *[Zum Vergrößern anklicken]*

Nun ist es so, dass wir nicht jede Spalte an Zahlen in einem Datensatz gleich zusammenfassen können. Wir du schon in dem Kapitel über die Zahlen und Buchstaben in R gesehen hast unterscheidet R Zahlen je nach Eigenschaften der Zahlen. Das macht aber nicht nur R so, sondern jedes statistische Programm. Nicht jede statistische Maßzahl passt zu jeder Zahlenreihe. Es gibt es nicht nur “Zahlen”, sondern auch kontinuierliche Zahlen oder aber kategoriale Zahlen. Eine Besonderheit stellen Zahlen dar, die eine Eigenschaft von Tieren nur mit zwei Ausprägungen beschreiben.

Die Tabelle tbl-skalenniveau-desc zeigt nochmal die gekürzte Übersicht über einzelne Variablennamen aus dem Hundeflohdatensatz und deren zugehörigen Zahlen sowie deren Bezeichnung in R, als Skalenniveau und welcher Verteilungsfamilie die Variable angehören würde. Leider ist es so, dass wieder gleiche Dinge unterschiedliche benannt werden. Aber an dieses doppelte Benennen können wir uns in der Statistik schon mal gewöhnen.

Tabelle 17.1— Zusammenfassung und Übersicht von Variablennamen und deren Benenung in R und als Skalenniveau.

Variablenname	Beispiel	R	Skalenniveau	Verteilungsfamilie
jump_length	5.7, 8.9, 11.8	numeric	continuous	Gaussian
flea_count	18, 22, 17	integer	discrete	Poisson
grade	8, 6, 7	ordered	categorical / ordinal	Ordinal
infected	0, 1	factor	dichotomous / binary / nominal	Binomial

Soweit so kompliziert. Wir gehen jetzt aber mal die gängigen statistischen Maßzahlen für verschiedene Zahlen, die wir so erheben können, durch. Dabei fokussieren wir einmal auf die händische Berechnung und ich zeige dann aber auch die Berechnung in R. Dabei nehmen wir erstmal den Hundeflohdatensatz als Beispiel für die händische Berechnung und für die Automatisierung in R am Ende des Kapitels unseren Gummibärchendatensatz.

17.1 Genutzte R Pakete

Wir wollen folgende R Pakete in diesem Kapitel nutzen.

R Code [zeigen / verbergen]

pacman::p_load(tidyverse, magrittr, readxl, gtsummary,
               janitor, see, patchwork, modelsummary)

An der Seite des Kapitels findest du den Link Quellcode anzeigen, über den du Zugang zum gesamten R-Code dieses Kapitels erhältst.

17.2 Daten

In diesem Kapitel wollen wir uns einmal die Daten zu den Sprungweiten verschiedener Hundeflöhe sowie die Eigenschaften der Flöhe einmal genauer ansehen. Wir laden also als erstes einmal die Daten und filtern nur die Hunde aus den Daten. Wir wollen jetzt die Spalten oder eben auch Variablen der Daten einmal sinnvoll zusammenfassen und durch wenige statistische Maßzahlen beschreiben.

R Code [zeigen / verbergen]

flea_dog_tbl <- read_excel("data/flea_dog.xlsx")

Die Tabelle tbl-dog-desc zeigt nochmal die Daten dargestellt. Zur Erinnerung, wir wollen jetzt die Spalten mit wenigen Zahlen zusammenfassen.

Tabelle 17.2— Tabelle von sieben Hundeflöhen mit der Sprunglänge [cm], Anzahl an Haaren am rechten Flohbein, Gewicht der Flöhe, Boniturnote sowie der Infektionsstatus für Flohschnupfen. Die erste Spalte animal gibt an, dass wir es hier mit Hundeflöhe zu tun haben. Die Tabelle ist im Long-Format dargestellt.

animal	jump_length	flea_count	weight	grade	infected
dog	5.7	18	2.1	8	0
dog	8.9	22	2.3	8	1
dog	11.8	17	2.8	6	1
dog	5.6	12	2.4	8	0
dog	9.1	23	1.2	7	1
dog	8.2	18	4.1	7	0
dog	7.6	21	3.2	9	0

Wir fangen jetzt erstmal mit den kontinuierlichen Variablen an und schauen dann später auf die kategorialen Variablen. Nehmen wir also als erstes Beispiel die Sprungweiten in [cm] von Hundeflöhen. Wir messen die Sprungweiten von sieben Hundeflöhen und erhalten dabei folgende Werte in [cm]: 5.7, 8.9, 11.8, 5.6, 9.1, 8.2 und 7.6. Wir schreiben diese Sprungweiten nun als $y$ in einen Vektor in der folgenden Form auf.

\[ y = \{5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6\}. \]

Du findest in sec-basics den Einstieg für die Programmierung in R. Da findest du auch die Erklärung für c() und den Zuweisungspfeil <-.

In R würde der Vektor der Zahlen etwas anders aussehen, aber das hat eher was mit der Schreibweise der Mathematik und der Informatik zu tun. Inhaltlich sehen wir hier gleichen Informationen.

R Code [zeigen / verbergen]

y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6)

Wir wollen nun die Sprungweiten in $y$ beschrieben und durch wenige andere Zahlen zusammenfassen. Einige dieser statistischen Maßzahlen sind dir vermutlich schon bekannt, andere eher neu. Wir gehen jetzt also gemeinsam eine Menge an statistischen Maßzahlen durch. Nicht alle wirst du immer brauchen und dir auch nicht merken müssen. Wichtig ist zu wissen, dass es die folgenden statistischen Maßzahlen gibt und das du dann im Zweifel den Begriff nachschlagen kannst. Ich mache das im Prinzip auch nicht anders.

Warum $y$ und nicht $x$?

Wenn du dir andere Statistikbücher anschaust, dann wird meist die Variable, mit der wir den Mittelwert berechnen, mit $x$ bezeichnet. Wir machen das hier nicht denn wir haben später für das $x$ eine andere Verwendung. In einem statistischen Modell schauen wir uns den Zusammenhang von $y \sim x$ an.

Was ist das y?: Als $y$ bezeichnen wir die Messwerte in einem Datensatz. Wir nennen das $y$ auch Zielgröße oder eben yield (deu. Ertrag).
Was ist das x?: Als $x$ bezeichnen wir die Einflussgröße oder exchange (deu. Veränderung, etwas schief übersetzt). Wir haben hier W-Worte als Faktorvariable vorliegen. Was misst du? Wo? Wann? Womit?

Die Sprungweite von Hunde- und Katzenflöhen ist das $y$. Wir messen die Sprungweite. Das $x$ sind die beiden Tierarten Hund und Katze, die wir miteinander vergleichen wollen. Glaube mir, es wird nachher leichter zu verstehen. Dafür nehmen wir jetzt einen etwas schwierigen Weg.

17.3 Mittelwert

17.3.1 Arithmetisch

Der Mittelwert einer Zahlenreihe beschreibt den Schwerpunkt der Zahlen. Was soll das Bedeuten? Was ist der Schwerpunkt von Zahlen? Du kannst dir das wie eine Wippe vorstellen, der Mittelwert liegt so, dass links und rechts des Mittelwerts gleiche Abstände zu den Zahlen vorliegen. Der Mittelwert wird auch als Lageparameter benannt. Der Mittelwert ist damit auch der Lageparameter einer Verteilung. Er beschreibet die numerische Stelle, wo die Verteilungskurve am höchsten ist. Wir schreiben den Mittelwert mit einem Strich über den Vektor, der die Zahlen enthält. Im Folgenden ist die Formel für den Mittelwert der Sprungweite in [cm] der Hunde gezeigt. Der Mittelwert ist in dem Sinne eine künstliche Zahl, da der Mittelwert häufig nicht in den beobachteten Zahlen vorkommt.

Wir werden immer mal wieder Formeln vereinfachen. Zum Beispiel nur $\sum$ schreiben anstatt $\sum_i^n$, wenn wir einen Vektor aufsummieren und uns die Indizes sparen. Ja, das ist nicht schön, aber einfacher.

Im Folgenden sehen wir einmal wie der Mittelwert mathematisch oder schrittweise in R berechnet wird. Beachte hierbei die unterschiedliche Schreibweise. Wir haben hier ja auch zwei unterschiedliche Sprachen abgebildet. Wir haben nämlich eine mathematische Sprache und einmal eine Programmiersprache vorliegen.

\[ \bar{y} = \sum_{i=1}^{n}\cfrac{y_i}{n} = \cfrac{5.7 + 8.9 + 11.8 + 5.6 + 9.1 + 8.2 + 7.6}{7} = \cfrac{56.9}{7} = 8.13 \]

Einmal der Vektor y mit den Zahlen, die wir benutzen wollen.

R Code [zeigen / verbergen]

y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6) 
y

[1]  5.7  8.9 11.8  5.6  9.1  8.2  7.6

Die Summe von y.

R Code [zeigen / verbergen]

sum(y)

[1] 56.9

Die Länge des Vektors y oder eben die Anzahl $n$ gleich der Fallzahl.

R Code [zeigen / verbergen]

length(y)

[1] 7

Und dann einmal händisch der Mittelwert von y berechnet.

R Code [zeigen / verbergen]

sum(y)/length(y)

[1] 8.128571

Die Funktion für die Berechnung des Mittelwerts in R ist ziemlich geradeaus.

R Code [zeigen / verbergen]

mean(y)

[1] 8.128571

Wir können natürlich auch den Mittelwert in Excel berechnen. Dafür nutzen wir dann die Funktion MITTELWERT(). Mehr dazu dann im folgenden Video einmal gezeigt.

Wir sagen also, dass im Durchschnitt oder im Mittel die Hundeflöhe 8.13 cm weit springen. Wir addieren dazu einmal alle sieben Sprungweiten der Hundeflöhe einmal auf und teilen die Summe durch die Gesamtanzahl an Flöhen.

In R können wir den Mittelwert einfach mit der Funktion mean() berechnen. Dann nutzen wir nochmal den Pipe Operator |> für die Berechnung des Mittelwertes. Wir wollen dann den Mittelwert noch auf die zweite Kommastelle runden. Das machen wir dann mit der Funktion round(). Du findest in sec-basics den Einstieg für die Programmierung in R. Da findest du auch die Erklärung für den Pipe Operator |>.

R Code [zeigen / verbergen]

## mit pipe-Operator
y |> mean() |> round(2)

[1] 8.13

Wir erhalten das gleiche Ergebnis wie oben in unserer händischen Rechnung. Die Hundeflöhe springen im Mittel 8.13 cm weit. Ja, für so einfache Beispiele ist es natürlich etwas kompliziert R zu nutzen und Code zu schreiben, später wird uns der Code aber sehr helfen.

Der Mittelwert ist eine bedeutende statistische Maßzahl der Normalverteilung. Später wirst du noch mehr über Verteilungen von Zahlen erfahren und deshalb hier schon mal die kurze Verbindung vom Mittelwert zur Normalverteilung. Daher merken wir uns hier schon mal, dass wir den Mittelwert brauchen werden. Auch wenn wir darüber nachdenken ob sich zwei Gruppen unterscheiden, so nutzen wir hierzu den Mittelwert. Unterscheiden sich die mittleren Sprungweiten in [cm] von Hunde- und Katzenflöhen?

17.3.2 Geometrisch

Im Gegensatz zum arithmetischen Mittel ist das geometrische Mittel nur für nicht negative Zahlen $y$ definiert. Wir können also für negative Zahlen kein geometrische Mittel berechnen. Das geometrische Mittel ist daher nur für echt positive Zahlen sinnvoll. Wenn eine der Zahlen in $y$ gleich Null ist, ist schon das ganze Produkt der Zahlen gleich Null. Somit ist dann das geometrische Mittel sinnlos. Schauen wir uns einmal die Formel des geometrischen Mittels an.

Mathematik
R {psych}

\[ \bar{y}_\mathrm{geom} = \sqrt[n]{\prod_{i=1}^n{y_i}} = \sqrt[n]{y_1 \cdot y_2 \dotsm y_n} = (y_1 \cdot y_2 \dotsm y_n)^{1/n} \]

In R können wir das geometrische Mittel einfach mit der Funktion geometric.mean() aus dem R Paket {psych} berechnen.

R Code [zeigen / verbergen]

c(4, 3, 6, 9) |> 
  psych::geometric.mean()

[1] 5.045378

Dann rechnen wir doch auch gleich mal ein Beispiel mit den vier Zahlen $y = \{4, 3, 6, 9\}$ den geometrischen Mittelwert aus.

\[ \bar{y}_\mathrm{geom} = \sqrt[4]{4 \cdot 3 \cdot 6 \cdot 9} =\sqrt[4]{648} = 5.045 \]

Um die Besonderheit des geometrische Mittelwerts zum arithmetischen Mittel zu verstehen, nehmen wir einmal ein Beispiel mit nur den Zahlen $y = \{1,9\}$. Bei der geometrischen Mittelwertbildung weichen beide Werte vom Mittelwert um denselben Multiplikator ab. Diese Eigenschaft ist beim arithmetischen Mittel nicht gegeben. So ergibt sich aus den Zahlen 1 und 9 das arithmetische Mittel 5. Dabei ist die 1 vom Mittelwert 5 um Faktor 5 entfernt, während die 9 lediglich um Faktor 1.8 davon entfernt liegt.

Das geometrische Mittel aus 1 und 9 hingegen ergibt den Mittelwert $\bar{y}_\mathrm{geom} = 3$. Sowohl der niedrige Wert 1 wie auch der hohe Wert 9 sind vom Mittelwert 3 um den Faktor 3 entfernt. Der Unterschied zwischen arithmetischem und geometrischem Mittelwert kann beträchtlich sein, was in der Praxis unter Umständen zur Fehlinterpretation von Durchschnittsangaben führt.

Das geometrische Mittel ist der einzige korrekte Mittelwert, wenn normalisierte Ergebnisse gemittelt werden, daher Zahlen und Ergebnisse, die als Verhältnis zu Referenzwerten dargestellt werden. Eine Anwendung ist hierbei der Wirkungsgrad von zum Beispiel Pflanzenschutzmitteln.

17.3.3 Getrimmt

Eine robuste Alternative zum arithmetischen Mittel sind die getrimmten Mittelwerte (eng. trimmed mean), die überdies den Median der Stichprobe als Sonderfall enthält. Bei einem getrimmten Mittelwert wird ein bestimmter Prozentsatz an beiden Enden deiner Zahlenreihe abgeschnitten. Ein getrimmter Mittelwert von 10% schneidet zum Beispiel 10% am unteren Ende und 10 % am oberen Ende der Zahlenreihe ab. Eine Besonderheit ist der getrimmte Mittelwert um 50%, dann ist nämlich der getrimmte Mittelwert gleich dem Median. Häufig wird dann die getrimmte Fallzahl auch mit $h$ angegeben.

Mathematik
R {base}

Nehmen wir einmal $n = 10$ Werte und schreiben diese als $y_1, y_2, ... y_10$, sortiert in aufsteigender Reihenfolge. Das heißt der kleinste Wert ist dann $y_1$ und der größte Wert ist $y_{10}$ in der Zahlenreihe. Der um 10% getrimmte Mittelwert ist dann wie folgt definiert.

\[ \bar{y}_t = \cfrac{y_2 + y_3 + ... + y_8 + y_9}{8} \]

Das können wir uns auch einmal in einem Beispiel mit zehn Zahlen anschauen. Nehmen wir einmal die folgenden Sprungweiten von zehn Hundeflöhen und sortieren die Sprungweiten aufsteigend.

\[ 3.4, 5.6, 5.7, 7.6, 8.2, 8.9, 9.1, 11.8, 12.4, 15.7 \]

Wenn wir jetzt den 10% getrimmten Mittelwert berechnen wollen, dann müssen wir 10% der Werte oben und unten abschneiden. Das ist in unserem Fall recht einfach. Wir entfernen den kleinsten und größten Wert mit $3.4$ und $15.7$ aus den Daten.

\[ \bar{y}_t = \cfrac{5.7 + 8.9 + 11.8 + 5.6 + 9.1 + 8.2 + 7.6 + 12.4}{8} = \cfrac{69.3}{8} = 8.66 \]

Wir erhalten dann einen getrimmten Mittelwert der Sprungweite von $8.66cm$. Wir haben dann eine getrimmte Fallzahl von $h = 8$ vorliegen.

In R geht es relativ einfach. Die Standardfunktion mean() hat die entsprechende Option enthalten um einen getrimmten Mittelwert direkt zu berechnen.

R Code [zeigen / verbergen]

y_t <- c(3.4, 5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6, 12.4, 15.7) 
mean(y_t, trim = 0.1)

[1] 8.6625

17.3.4 Winsorisiert

Eine andere Möglichkeit den Mittelwert zu berechnen ist es den winsorisierten Mittelwert (eng. winsorized mean) zu nutzen. Ähnlich wie bei dem getrimmten Mittelwert müssen wir hier einen Anteil $\gamma$ wählen, der angibt wie viel Prozent der Daten wir winsorisieren wollen. Bei der Winsorisierung ersetzen wir die kleinsten und größten Werte durch die Werte, die nicht winsorisiert werden sollen. Das klingt jetzt erstmal etwas schräg, wird aber gleich im Beispiel klarer. Wir werfen keine Zahlen weg, sondern ersetzen eben die kleinsten und größten Werte.

Mathematik
R

\[ \bar{y}_w = \cfrac{y_2 + y_2 + y_3 + ... + y_8 + _y9 + y_9}{10} \]

Wie du siehst ersetzen wir den Wert von $y_1$ mit dem Wert von $y_2$. Genauso machen wir das mit dem Wert von $y_{10}$ den wir dann durch den Wert von $y_9$ ersetzen. Das ganze hier einmal als Zahlenbeispiel für unsere Sprungweiten der Hundeflöhe mit zehn Hundeflöhen.

\[ \begin{aligned} \bar{y}_w &= \cfrac{5.7 + 5.7 + 8.9 + 11.8 + 5.6 + 9.1 + 8.2 + 7.6 + 12.4 + 12.4}{10} \\ &= \cfrac{87.4}{10} = 87.4 \end{aligned} \]

Wir erhalten dann einen winsorisierten Mittelwert der Sprungweite von $8.74cm$. Hier müssen wir dann nicht nochmal die neue Fallzahl angeben. Die Fallzahl bleibt ja in diesem Fall gleich.

Das R Paket {WRS2} bietet die Funktion winmean() um einen winsorisierten Mittelwert zu berechnen. Daneben haben wir auch die Möglichkeit eine winsorisierte Varianz mit winvar() sowie winsorisierten Standardfehler mit winse() zu nutzen.

R Code [zeigen / verbergen]

y_w <- c(3.4, 5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6, 12.4, 15.7) 
WRS2::winmean(y_w, tr = 0.1)

[1] 8.73

17.4 Varianz

Bis jetzt können wir mit dem Mittelwert $\bar{y}$ die Lage oder den Mittelpunkt unserer Zahlenreihe $y$ beschreiben. Uns fehlt damit aber die Information über die Streuung der Zahlen. Sind die Zahlen alle eher gleich oder sehr verschieden? Liegen die Zahlen daher alle bei dem Mittelwert oder sind die Zahlen weit um den Mittelwert gestreut. Es macht ja einen bedeutenden Unterschied, ob wir $n$-mal das “Gleiche” messen oder eben $n$-mal sehr unterschiedliche Zahlen.

Abbildung 17.2— Visualisierung einer schwachen und starken Streuung der Messwerte von sieben Beobachtungen um den jeweiligen Mittelwert. *[Zum Vergrößern anklicken]*

Die Streuung der Zahlen $y$ um den Mittelwert beschreibt die Varianz. Wir schreiben für die Varianz auch $s^2$. Wir berechnen die Varianz indem wir von jeder Zahl $i$ den Mittelwert aller Zahlen $\bar{y}$ abziehen und dann das Ergebnis quadrieren. Das machen wir für alle Zahlen und addieren dann die Summe auf. Wir erhalten die Quadratsumme von $y$. Wie immer ist Mathematik in Textform etwas sperrig, deshalb einmal auch hier die Formel. Dann kannst du dir auch noch die Umsetzung in R anschauen. Auch hier die etwas sperrige Form in Schritten, später nutzt du dann die Funktion var().

\[ s^2 = \sum_{i=1}^n\cfrac{(y_i - \bar{y})^2}{n-1} = \cfrac{(5.7 - 8.13)^2 + ... + (7.6 - 8.13)^2}{7-1} = \cfrac{27.59}{6} = 4.6 \]

Einmal der Vektor y mit den Zahlen, die wir benutzen wollen.

R Code [zeigen / verbergen]

y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6)
y

[1]  5.7  8.9 11.8  5.6  9.1  8.2  7.6

Die Summe von y.

R Code [zeigen / verbergen]

sum(y)

[1] 56.9

Die Länge des Vektors y minus 1 oder eben die Anzahl $n - 1$ gleich der Fallzahl.

R Code [zeigen / verbergen]

length(y) - 1

[1] 6

Dann einmal die Formel für die Varianz zusammengebaut. Statt $8.13$ kannst du auch sum(y)/length(y) oder eben mean(y) schreiben.

R Code [zeigen / verbergen]

sum((y - 8.13)^2)/(length(y) - 1)

[1] 4.59905

Die Funktion für die Berechnung der Varianz in R ist ziemlich einfach.

R Code [zeigen / verbergen]

var(y)

[1] 4.599048

Warum $\boldsymbol{n - 1}$ im Nenner?

Häufig irritiert dich das $n-1$ in der Formel. Hier gibt es an dieser Stelle keine einfache Erklärung. Dafür müsstest du mehr über die Grundgesamtheit und die Stichprobe wissen. Es gibt aber eine Erklärung unter Intuitive explanation for dividing by $n-1$ when calculating standard deviation? oder gleich direkt Bessel-Korrektur.

Warum rechnen wir hier eigentlich das Quadrat? Der Mittelwert liegt ja genau in der Mitte der Werte. Das heißt, die Abstände der Zahlen über dem Mittelwert sind exakt so groß wie die Abstände unter dem Mittelwert. Wir nennen diese Abstände $\epsilon$ (grie. epsilon).

Die Abweichungsquadrate in der Statistik: Abweichungsquadrate sind ein wichtiges Konzept in der Statistik. Wenn wir wissen wollen, wie groß eine Abweichung von einer Zahl zu einer anderen ist, dann nutzen wir immer das Quadrat der Abweichung und bilden die Quadratsumme.

In der folgenden Abbildung habe ich dir einmal die Abweichungsquadrate visualisiert. Auf der x-Achse findest du die einzelnen Beobachtungen sortiert nach der ID. Daher kommt als zuerst der erste Floh mit einer Sprungweite von 5.7cm und dann der nächste Floh. Wir können jetzt die Abweichungsquadrate direkt visualiseren. Der Mittelwert minimiert dabei die Summe der Abweichungsquadrate. Kein anderer Wert hat eine niedrigere Summe an Abweichungsquadraten.

Abbildung 17.3— Methode der kleinsten Quadrate zur Berechnung der Varianz. Die rote Linie stellt den Mittelwert der Sprungweiten dar. Der Mittelwert stell dabei die kleinste Summe der Abweichungsquadrate dar. Jeder anderer Wert als der Mittelwert produziert größere Summen der Abweichungsquadrate. *[Zum Vergrößern anklicken]*

Die Varianz beschreibt also die Streuung der Zahlen im Quadrat um den Mittelwert. Das heißt in unserem Beispiel, dass die Sprungweite eine Varianz von $4.6cm^2$ hat. Wir können Quadratzentimeter schlecht biologisch interpretieren. Wir leben nicht in einer Welt mit quadratischen Einheiten. Deshalb führen wir gleich die Wurzel der Varianz als die Standardabweichung ein. Die Standardabweichung ist also einfach die Wurzel der Varianz. Da die Standardabweichung aber sehr bedeutend ist, kommen wir auf die Standardabweichung gleich nochmal in einem extra Abschnitt zu sprechen. Wir benötigen die Varianz häufig nur als Zwischenschritt um die Standardabweichung zu berechnen. Das Konzept der Abweichungsquadrate benötigen wir aber in der Varianzanalyse (ANOVA) sowie in der linearen Regression und für die Beschreibung einer Normalverteilung zusätzlich zum Mittelwert.

Warum die quadratischen Abstände und nicht die absoluten?

Dann kommt auch häufig die Frage auf, warum nehmen wir eigentlich die quadratischen Abstände und nicht die absoluten Abstände? Dafür können wir einmal die Varianz mit der quadratischen Abweichung und einmal mit der absoluten Abweichung berechnen und für den Mittelwert beliebige Zahlen einsetzen. In unserem Beispiel lassen wir die Zahlen von 5 bis 10.25 in 0.01 durchlaufen und berechnen mit jeder dieser Zahlen die Varianz. Die Zahl mit der kleinsten Varianz sollte dann der Mittelwert sein. Wie du in der folgenden Abbildung siehst, ist dass der Fall für die quadratische Abweichung, aber nicht der Fall für die absolute Abweichung. Die absolute Abweichung würde ein Minimum bei einem Mittelwert von 8.2cm haben, was nicht korrekt ist.

Abbildung 17.4— Zusammenhang zwischen den Mittelwert und der Varianz. In die Formel der Varianz werden beliebige Zahlen für den Mittelwert eingesetzt. Bei einem Wert von 8.13 und damit dem Mittelwert ist die Varianz im Fall der quadratischen Abweichungen am geringsten. Dies ist nicht bei den absoluten Abweichungen der Fall. *[Zum Vergrößern anklicken]*

17.5 Standardabweichung

Die Standardabweichung $s$ ist die Wurzel der Varianz $s^2$. Wo die Varianz die Abweichung der Sprungweite in [cm$^2$] beschreibt, beschreibt die Standardabweichung die Streuung der Sprungweite in [cm]. Damit können wir dann die Standardabweichung viel besser interpretieren als die Varianz.

\[ s = \sqrt{s^2} = \sqrt{4.6} = 2.14 \]

Einmal der Vektor y mit den Zahlen, die wir benutzen wollen.

R Code [zeigen / verbergen]

y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6)
y

[1]  5.7  8.9 11.8  5.6  9.1  8.2  7.6

Die Summe von y.

R Code [zeigen / verbergen]

sum(y)

[1] 56.9

Die Länge des Vektors y minus 1 oder eben die Anzahl $n - 1$ gleich der Fallzahl.

R Code [zeigen / verbergen]

length(y) - 1

[1] 6

Dann einmal die Formel für die Varianz zusammengebaut. Statt $8.13$ kannst du auch sum(y)/length(y) oder eben mean(y) schreiben.

R Code [zeigen / verbergen]

sum((y - 8.13)^2)/(length(y) - 1)

[1] 4.59905

Dann noch die Wurzel aus der Varianz um die Standardabweichung zu berechnen. Denn nichts anderes haben wir ja bis jetzt noch nicht berechnet.

R Code [zeigen / verbergen]

sqrt(sum((y - 8.13)^2)/(length(y) - 1))

[1] 2.14454

Die Funktion für die Berechnung der Standardabweichung in R ist ziemlich einfach und intuitiv.

R Code [zeigen / verbergen]

sd(y)

[1] 2.144539

Wir können natürlich auch die Standardabweichung in Excel berechnen. Dafür nutzen wir dann die Funktion STABW.S(). Mehr dazu dann im folgenden Video einmal gezeigt.

Wir können also schreiben, dass die Flöhe im Mittel 8.13 $\pm$ 2.14cm weit springen. Somit haben wir die Lage und die Streuung der Zahlenreihe $y$ der Sprungweite in [cm] mit zwei Zahlen beschrieben. Wichtig ist hierbei zu merken, dass wir den Abstand vom Mittelwert nach “oben” und “unten” jeweils mit dem gleichen Abstand beschreiben. Unsere Zahlen können also nicht mehr in die eine als in die andere Richtung streuen.

Schreibweise des Mittelwerts und der Standardabweichung

Wir schreiben immer den Mittelwert plusminus die Standardabweichung. Also immer in der Form $\bar{y} \pm s$. Meistens willst du dann aber nicht eine Tabelle haben, sondern wir nutzen dann den Mittelwert plusminus die Standardabweichung um uns Säulendiagramme zu erstellen.

Merke dir hier nochmal, dass du die Varianz nur als Zwischenschritt für die Standardabweichung berechnest. Später interessiert dich die Standardabweichung, die du dann auch in deinen Berichten oder deiner Abschlussarbeit nutzt. Die Standardabweichung wird nicht nur im Kontext der Agarwissenschaften genutzt sondern auch in anderen wissenschaftlichen Disziplinen. Mehr dazu dann in dem folgenden Kasten, wenn dich das noch mehr interessiert.

Das Wow!-Signal und Six Sigma

Das Wow!-Signal ist das Signal, wenn es um die Entdeckung von vermeidlichen außerirdischen Lebens geht. In der folgenden Abbildung siehst du einmal das namensgebende Dokument mit dem handschriftlichen “Wow!”. Was sagt uns nun diese seltsame Abbildung aus?

Abbildung 17.5— Scan des namensgebenden Dokuments von Jerry R. Ehman.

Das Wow!-Signal ist eine Messung eines Radioteleskops. Für die Einfachheit, es ist faktisch die Messung von elektromagnetischen Signalen, die aus dem Kosmos zu uns kommen. Zur Bestimmung der Signalstärke relativ zum Hintergrundrauschen wurde die Standardabweichung verwendet. Der Signalwert wurde durch ein alphanumerisches Zeichen dargestellt. Ein Leerzeichen bedeutete, dass das empfangene Signal weniger als eine Standardabweichung über dem Rauschen lag. Werte von 1 bis 9 gaben an, dass das Signal 1 bis 9 Standardabweichungen über dem Rauschen lag. Noch stärkere Signale (Faktor 10 bis 35 über dem Rauschen) wurden durch die Buchstaben A bis Z dargestellt, wobei der Buchstabe U dem Intervall 30–31 entspricht. Üblicherweise sollte der Ausdruck viele Leerzeichen und gelegentlich niedrige Zahlen enthalten.

Was sehen wir also auf der Abbildung? Ein ungemein starkes Signal! Wie wahrscheinlich ist eine solche Abweichung? Signale innerhalb von einer Standardabweichung kommen in 68% der Fälle vor. Wenn wir dann aber die Standardabweichung erhöhen, wird es sehr schnell sehr viel unwahrscheinlicher. Bei einer sechsfachen Standardabweichung sind wir schon bei drei Vorkommen in einer Million Fällen. Also extrem unwahrscheinlich für ein zufälliges Auftreten, wie du auch in der folgenden Tabelle bis 6 Sigma einmal siehst.

Tabelle 17.3— Zusammenhang von der Standardabweichung (hier Sigma) und der Eintrittswahrscheinlichkeit einer Beobachtung innerhalb vom Mittelwert plus/minus Sigma.

Sigma	Wahrscheinlichkeit	Wissenschaft
1	68.26%
2	95.46%	Statistik
3	99.73%
4	99.99%
5	99.9999%	Teilchenphysik (Physik)
6	>99.9999%	Management (Wirtschaft)

Neben dem Wow!-Signal gibt es noch die five sigma-Regel in der Teilchenphysik. Mehr dazu auf der Seite des CERN unter Why do physicists mention “five sigma” in their results?. In der Wirtschaft spricht man auch gerne von Six Sigma als ein Managementsystem zur Prozessverbesserung, statistisches Qualitätsziel und zugleich eine Methode des Qualitätsmanagements. Auch spannend, wo wir dann immer wieder die Standardabweichung finden.

17.6 Standardfehler oder Standard Error (SE)

Der Standardfehler ist eine statistische Maßzahl, die wir häufig im Kontext des statistischen Testens benutzen. Wenn wir den Mittelwert der Sprungweiten berichten dann gehört die Standardabweichung der Sprungweiten mit als beschreibendes, statistisches Maß dazu. Wir berichten keinen Mittelwert ohne Standardabweichung. Nun ist es aber so, dass der Mittelwert und die Standardabweichung von der Fallzahl abhängen. Je mehr Fallzahl bzw. Beobachtungen wir haben, desto genauer wird der Mittelwert sein. Oder anders ausgedrückt unserer in der Stichprobe unserer Daten ermittelte Mittelwert $\bar{y}$ wird sich dem wahren, unbekannten Mittelwert $\mu_y$ annähern. Das gleiche gilt auch für unsere beobachtete Standardabweichung $s_y$, die sich der wahren, unbekannten Standardabweichung $\sigma_y$ mit steigender Fallzahl annähert.

Aus diesem Grund brauchen wir noch einen Fehler bzw. eine statistische Maßzahl für die Streuung, die unabhängig von der Fallzahl ist. Damit erhalten wir dann den Standardfehler (abk. $SE$ oder auch eng. standard error of the mean, abk. $SEM$). Mit der Fallzahl meinen wir hier die Anzahl an Beobachtungen. Wir skalieren also die Standardabweichung mit der Fallzahl indem wir die Standardabweichung durch die Wurzel der Fallzahl teilen.

\[ SE = \cfrac{s}{\sqrt{n}} = \cfrac{2.14}{\sqrt{7}} = \cfrac{2.14}{2.65} = 0.81 \]

Einmal der Vektor y mit den Zahlen, die wir benutzen wollen.

R Code [zeigen / verbergen]

y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6)
y

[1]  5.7  8.9 11.8  5.6  9.1  8.2  7.6

Die Summe von y.

R Code [zeigen / verbergen]

sum(y)

[1] 56.9

Die Länge des Vektors y minus 1 oder eben die Anzahl $n - 1$ gleich der Fallzahl.

R Code [zeigen / verbergen]

length(y) - 1

[1] 6

Dann einmal die Formel für die Varianz zusammengebaut. Statt $8.13$ kannst du auch sum(y)/length(y) oder eben mean(y) schreiben.

R Code [zeigen / verbergen]

sum((y - 8.13)^2)/(length(y) - 1)

[1] 4.59905

Dann noch die Wurzel aus der Varianz um die Standardabweichung zu berechnen. Denn nichts anderes haben wir ja bis jetzt noch nicht berechnet.

R Code [zeigen / verbergen]

sqrt(sum((y - 8.13)^2)/(length(y) - 1))

[1] 2.14454

Und dann den ganzen Term nochmal durch die Wurzel der Fallzahl.

R Code [zeigen / verbergen]

sqrt(sum((y - 8.13)^2)/(length(y) - 1))/sqrt(length(y))

[1] 0.8105598

R Code [zeigen / verbergen]

se <- sd(y)/sqrt(length(y))
se

[1] 0.8105596

Wir müssten ein Paket in R laden um den Standardfehler zu berechnen. Das Laden von zusätzlichen Paketen wollen wir hier aber vermeiden; wir können den Standardfehler auch einfach selber berechnen. Wir erhalten einen Standardfehler von $0.81cm$. Diese Zahl ist in dem Sinne nicht zu interpretieren, da wir hier nur Experimente losgelöst von deren Fallzahl miteinander vergleichen können. Wenn du also zwei Sprungweitenexperimente mit unterschiedlichen Fallzahlen $n_1$ und $n_2$ bezüglich der Streuung in den Experimenten vergleichen willst, dann nutzt du den Standardfehler, da der Standardfehler unabhängig von der Fallzahl der beiden Experimente ist. Auf der anderen Seite können wir ohne die berichtete Fallzahl nicht vom Standardfehler auf die Standardabweichung schließen.

Das Buch A biologist’s guide to statistical thinking and analysis von Fay & Gerow (2018) liefert in dem dem Abschnitt A quick guide to interpreting different indicators of variation nochmal einen Überblick über die verschiedenen Arten der Variation eines Datensatz und deren Interpretation. Ich habe die Interpretationen abhängig von der Variationsquelle nochmal in der Tabelle tbl-sem-sd zusammengefasst. Die Standardabweichung ist eine biologische Interpretation der Variation oder Streuung in den Daten. Die beiden anderen Quellen Standardfehler und Konfidenzintervall ist dagegen statistische Maßzahlen, die anders interpretiert werden können und müssen. Hier ist der Kontext dann ein anderer.

Tabelle 17.4— Verschiedene Quellen der Variation für den Fehlerbalken und die sich dadurch ergebende Interpretation der Fehlerbalken. Für mehr Informationen siehe auch den Abschnitt A quick guide to interpreting different indicators of variation aus Fay & Gerow (2018).

Art des Fehlerbalkens	Überschneidung der Fehlerbalken	Nicht überlappende Fehlerbalken
Standardabweichung	Kein Rückschluss möglich	Kein Rückschluss möglich
Standardfehler	Kein signifikanter Unterschied zwischen den Mittelwerten	Kein Rückschluss möglich
Konfidenzintervall	Kein signifikanter Unterschied zwischen den Mittelwerten	Signifikanter Unterschied zwischen den Mittelwerten

In der Abbildung fig-desc-sem-00 siehst du dann die Aussagen der Tabelle tbl-sem-sd nochmal visualisiert. Alle Mittelwerte haben die gleichen Werte für die beiden Behandlungen für den Fall der sich überschneidenden Fehlerbalken sowie für die sich nicht überlappenden Fehlerbalken. Je nach Variationsquelle sehen die Fehlerbalken anders aus und haben auch eine andere Interpretation.

Abbildung 17.6— Verschiedene Quellen der Variation für den Fehlerbalken und die sich dadurch ergebende Interpretation der Fehlerbalken nach deren Überlappung oder nicht. Nur die Fehlerbalken, die aus Konfidenzintervallen bestehen, können im Sinne einer vollständigen statistischen Interpretation mit *n.s* als nicht signifikant und s als signifikant genutzt werden. *[Zum Vergrößern anklicken]*

Je nachdem, was du nun zeigen möchtest, kannst du jetzt entscheiden, welche Variationsquelle du nutzen willst. Wir benötigen den Standardfehler eigentlich nicht zum Berichten mit Fokus von biologischen Ergebnissen. Bei manchen Modellen und Outcomes macht aber der Standardfehler mehr Sinn als die Standardabweichung. Wir können nämlich sonst Werte erhalten die biologisch keinen Sinn ergeben. Der Standardfehler ist nicht als Zahl biologisch interpretierbar und somit eine reine statistische Größe. Tabelle tbl-comp-stand-sem zeigt die Zusammenfassung und den Vergleich von Standardabweichung und Standardfehler nochmal aus einer anderen Perspektive. Das Konfidenzintervall ist eine statistische Größe, die wir dann in den folgenden Kapiteln noch behandelt werden.

Tabelle 17.5— Zusammenfassung und Vergleich von Standardabweichung und Standardfehler

Standardabweichung	Standardfehler
… ist eine Aussage über die Streuung der erhobenen Werte einer Stichprobe.	… ist eine Aussage über die Genauigkeit des Mittelwertes einer Stichprobe.
… hängt von der biologischen Variabilität ab.	… abhängig von der Messgenauigkeit
… ist ein beschreibendes Maß.	… ist ein statistisches Maß.
… ist nur wenig durch die Größe der Stichprobe beineinflussbar.	… steht im direkten Verhältnis zur Größe der Stichprobe.

17.7 Spannweite

Die Spannweite erlaubt uns zu überprüfen was die kleinste Zahl und die größte Zahl ist. Also uns das Minimum und das Maximum einer Zahlenreihe anzuschauen. Auf den ersten Blick mag das nicht so sinnig sein, aber wenn wir uns hunderte von Beobachtungen anschauen, wollen wir wissen, ob wir nicht einen Fehler bei Eintragen der Daten gemacht haben. Wir wissen eigentlich, dass z.B keine negativen Zuwachsraten auftreten können. In R können wir die Spannweite mit range() wie folgt berechnen. Wir erhalten den minimalen und maximalen Wert.

Mathematik
R {base}

\[ y_{range} = y_{max} - y_{min} = 11.8 - 5.6 = 6.2 \]

Einmal die minimalen und maximalen Werte der Sprungweite berechnen.

R Code [zeigen / verbergen]

range(y)

[1]  5.6 11.8

Dann die Differenz zwischen den beiden Werten berechnen.

R Code [zeigen / verbergen]

range(y) |> diff()

[1] 6.2

Die Hundeflöhe springen in einer Spannweite von 6.2 cm. Das kommt einem normal vor und wir würden meinen, dass Flöhe in diesem Bereich springen könnten. Die Spannweite ist nicht übertrieben groß. Der minimale Wert ist $5.6cm$ und der maximale Wert ist $11.8cm$ und somit sind beide Zahlen in Ordnung. Keine der beiden Zahlen ist übertrieben klein oder gar negativ. Später musst du dann selber schauen, ob die Zahlen in die biologische Fragestellung passen. Besonders wenn du Datenbanken ausliest, kann es schnell passieren, dass du unplausible Werte wiederfindest. Dann musst du diese Werte meist entfernen.

Wir merken uns, dass die Spannweite eine Maßzahl für die Validität der Daten ist. Hat das Experiment geklappt oder kamen da nur komische Zahlen bei raus, die wir so in der Realität nicht erwarten würden. Zum Beispiel negative Sprungweiten, weil wir einmal auf das Minuszeichen auf der Tastatur beim eingeben der Zahlen gekommen sind.

17.8 Median

Jetzt haben wir uns eine Möglichkeit den Schwerpunkt von einer Zahlenreihe zu berechnen angeschaut. Nun gibt es aber noch eine weitere Möglichkeit die “Mitte” von Zahlen zu ermitteln. Wir wollen uns jetzt noch eine andere Art der Zusammenfassung von Zahlen anschauen. Anstatt mit den Zahlen zu rechnen und die Zahlen aufzusummieren, sortieren wir jetzt die Zahlen. Wir nehmen also die Zahlen aus dem Vektor $y = \{5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6\}$ und sortieren diese Zahlen nach dem Rang. Wir rechnen dann mit den Rängen und nicht mehr mit den Werten der Zahlen. Die kleinste Zahl kriegt den kleinsten Rang, die nächst größere Zahl dann den nächsten Rang. Wir können R über die Funktion sort() nutzen um den Vektor $y$ zu sortieren. Klar das geht auch schnell per Hand, aber wenn die Zahlenvektoren länger werden, dann ist so eien Funktion schon praktisch.

R Code [zeigen / verbergen]

y |> sort()

[1]  5.6  5.7  7.6  8.2  8.9  9.1 11.8

Die neue Art die Mitte von dem sortierten Zahlenvektor zu bestimmen, nennen wir dann den Median berechnen. Der Median $\tilde{y}$ ist die mittlere Zahl eines Zahlenvektors. Wir haben hier sieben Zahlen, also ist der Median die vierte Zahl. Wir müssen hier aber zwischen einer ungeraden Anzahl und einer geraden Anzahl unterscheiden.

Ungerade Anzahl: Wenn wir eine ungerade Anzahl an Zahlen vorliegen haben, ist der Median die mittlere Zahl des Vektors $y$: \[ 5.6, 5.7, 7.6, \underbrace{8.2,}_{Median} 8.9, 9.1, 11.8 \]

In R können wir den Median einfach mit der Funktion median()berechnen.

R Code [zeigen / verbergen]

## ohne pipe-Operator
median(y)

[1] 8.2

R Code [zeigen / verbergen]

## mit pipe-Operator
y |> median()

[1] 8.2

Gerade Anzahl: Wenn wir eine gerade Anzahl von Zahlen vorliegen haben, ist der Median der Mittelwert der beiden mittleren Zahlen des Vektors $y$. Ich habe hier einfach die Zahl 13.1 aus dem Hut gezaubert. Es könnte auch eine beliebige andere Zahl sein, die größer als 11.8 ist. Nur damit wir hier eine gerade Anzahl an Zahlen haben: \[ 5.6, 5.7, 7.6, \underbrace{8.2, 8.9,}_{Median = \tfrac{8.2+8.9}{2}=8.55} 9.1, 11.8, \color{blue}{13.1} \]

In R können wir den Median wieder einfach mit der Funktion median()berechnen. Wir müssen nur die Zahl 13.1 zu dem Vektor y mit der Funktion c() hinzufügen.

R Code [zeigen / verbergen]

c(y, 13.1) |> median()

[1] 8.55

Der Median ist eine Alternative zu dem Mittelwert. Insbesondere in Fällen, wo es sehr große Zahlen gibt, die den Mittelwert in der Aussage verzerren, kann der Median sinnvoll sein. Wenn der Mittelwert stark von dem Median abweicht, deutet dies auf eine schiefe Verteilung oder aber Ausreißer in den Daten hin. Wir müssen dann in der explorativen Datenanalyse der Sachlage nachgehen.

Median versus Mittelwert

Zur Veranschaulichung des Unterschiedes zwischen Median und Mittelwert nehmen wir die Mietpreise in New York. Der mittlere Mietpreis für eine 2-Zimmerwohnung in Manhattan liegt bei 5000 Dollar pro Monat. In den mittleren Mietpreis gehen aber auch die Mieten der Billionaires’ Row mit ein. Der mediane Mietpreis liegt bei 4000 Dollar. Die hohen Mieten ziehen den Mittelwert nach rechts.

17.9 Quantile und Quartile

Bei dem Mittelwert beschreibt die Standardabweichung die Streuung der Daten um den Mittelwert. Bei dem Median sind dies die Quartile. Die Quartile beschreiben die Streuung der Daten um den Median. Damit beschreiben wir also die Streuung der Beobachtungen um den Median anhand der Quartile. Um die Quartile bestimmen zu können, teilen wir die Daten in 100 Quantile. Du kannst dir Quantile wie Prozente vorstellen. Wir schneiden die Daten also in 100 Scheiben. Das geht natürlich erst wirklich, wenn wir hundert Zahlen haben. Deshalb hilft man sich mit Quartilen - von Quarta, ein Viertel - aus. Tabelle tbl-quart-quant zeigt dir da nochmal den Zusammenhang.

Tabelle 17.6— Zusammenfassung und Vergleich von Quantilen, Quartilen und Median

Quantile	Quartile	Median
25% Quantile	1$^{st}$ Quartile
50% Quantile	2$^{nd}$ Quartile	Median
75% Quantile	3$^{rd}$ Quartile

Damit haben wir sogar eine Dreifachbelegung der “mittleren” Zahl. Zum einen handelt es sich um das 50% Quantil, weil 50% der Zahlen größer und 50% der Zahlen kleiner sind. Zum anderen handelt es sich auch um das 2$^{nd}$ Quartile. Da die Mitte einer Zahlenreihe als Median definiert ist, haben wir dann hier auch den Median vorliegen.

Wir bestimmen die Quartile wie den Median. Wir müssen unterscheiden, ob wir eine ungerade Anzahl an Zahlen oder eine gerade Anzahl an Zahlen vorliegen haben.

Ungerade Anzahl: Bei einer ungeraden Anzahl von Zahlen, ist das 1$^{st}$ Quartile die mittlere Zahl des unteren Mittels und das 3$^{rd}$ Quartile die mittlere Zahl des oberen Mittels des Vektors $y$: \[ 5.6, \underbrace{5.7,}_{1st\ Quartile} 7.6, 8.2, 8.9, \underbrace{9.1,}_{3rd\ Quartile} 11.8 \]
Gerade Anzahl: Bei einer geraden Anzahl von Zahlen, ist das 1$^{st}$ Quartile der Mittelwert der beiden mittleren Zahl des unteren Mittels und das 3$^{rd}$ Quartile der Mittelwert der beiden mittleren Zahlen des oberen Mittels des Vektors $y$. Ich habe hier einfach die Zahl 13.1 aus dem Hut gezaubert. Es könnte auch eine beliebige andere Zahl sein, die größer als 11.8 ist. Nur damit wir hier eine gerade Anzahl an Zahlen haben: \[ 5.6, \underbrace{5.7, 7.6,}_{1st\ Quartile = \tfrac{5.7+7.6}{2}=6.65} 8.2, 8.9, \underbrace{9.1, 11.8}_{3rd\ Quartile = \tfrac{9.1+11.8}{2}=10.45} \color{blue}{13.1} \]

Das 95% Quantile und das 97.25% Quantile werden wir später nochmal im statistischen Testen brauchen. Auch hier ist die Idee, dass wir die Daten in hundert Teile schneiden und uns dann die extremen Zahlen anschauen.

In R können wir den Median einfach mit der Funktion quantile() berechnen. Wir berechnen hier das 25% Quantile also das 1$^{st}$ Quartile sowie das 50% Quantile also den Median und das 75% Quantile also das 3$^{rd}$ Quartile.

R Code [zeigen / verbergen]

y |> quantile(probs = c(0.25, 0.5, 0.75)) |> round(2)

 25%  50%  75% 
6.65 8.20 9.00

R Code [zeigen / verbergen]

c(y, 13.1) |> quantile(probs = c(0.25, 0.5, 0.75)) |> round(2)

 25%  50%  75% 
7.12 8.55 9.77

Warum unterscheiden sich die händisch berechneten Quartile von den Quartilen aus R? Es gibt verschiedene Arten der Berechnung. In der Klausur nutzen wir die Art und Weise wie die händische Berechnung hier beschrieben ist. Später in der Anwendung nehmen wir die Werte, die R ausgibt. Die Abweichungen sind so marginal, dass wir diese Abweichungen in der praktischen Anwendung ignorieren wollen.

17.10 Interquartilesabstand (IQR)

Der Interquartilesabstand (IQR) beschreibt den Abstand zwischen dem 1$^{st}$ Quartile und dem 3$^{rd}$ Quartile. Daher ist der Interquartilesabstand (IQR) ähnlich der Spannweite zwischen dem maximalen und minimalen Wert. Wir benötigen das Interquartilesabstand (IQR) in der explorativen Datenanalyse wenn wir einen Boxplot erstellen wollen.

\[ IQR = 3^{rd}\,\mbox{Quartile} - 1^{st}\,\mbox{Quartile} = 9.1 - 5.7 = 3.4 \]

Wir verwenden das IQR als Zahl eher selten.

Parametrik versus Nicht-Parametrik

Wenn wir einen Zahlenvektor wie durch $y = \{5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6\}$ beschrieben zusammenfassen wollen, haben wir zwei Möglichkeiten.

Die parametrische Variante indem wir mit den Zahlen rechnen und deskriptive Maßzahlen wie Mittelwert, Varianz und Standardabweichung berechnen. Diese Maßzahlen kommen aber in den Zahlen nicht vor.
Die nicht-parametrische Variante indem wir die Zahlen in Ränge umwandeln, also sortieren, und mit den Rängen der Zahlen rechnen. Die deskriptiven Maßzahlen wären dann Median, Quantile und Quartile.

17.11 Variationskoeffizient

Im Gegensatz zu der Varianz ist der Variationskoeffizient ein relatives Streuungsmaß, das heißt, der Variationskoeffizient hängt nicht von der Maßeinheit von $y$ ab. Die Motivation für den Variationskoeffizient ist, dass ein $y$ mit großem Mittelwert häufig eine größere Varianz aufweist als eine mit einem kleinen Mittelwert. Da die Varianz und die daraus abgeleitete Standardabweichung nicht normiert sind, kann ohne Kenntnis des Mittelwerts nicht beurteilt werden, ob eine Varianz groß oder klein ist. Der Variationskoeffizient ist eine Normierung der Varianz. Ist die Standardabweichung somit größer als der Mittelwert, so ist der Variationskoeffizient größer 1. Der Variationskoeffizient wird häufig verwendet, um die Variation zwischen zwei verschiedenen Datensätzen zu vergleichen.

Wir können den Variationskoeffizient basierend auf dem Mittelwert und der Standardabweichung berechnen. In unserem Beispiel würden wir als die Standardabweichung $s$ und den Mittelwert $\bar{y}$ in die Formel einsetzen.

\[ v = \cfrac{s}{\bar{y}} = \cfrac{2.14}{8.13} = 0.26 \]

Einmal der Vektor y mit den Zahlen, die wir benutzen wollen.

R Code [zeigen / verbergen]

y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6)
y

[1]  5.7  8.9 11.8  5.6  9.1  8.2  7.6

Die Summe von y.

R Code [zeigen / verbergen]

sum(y)

[1] 56.9

Die Länge des Vektors y minus 1 oder eben die Anzahl $n - 1$ gleich der Fallzahl.

R Code [zeigen / verbergen]

length(y) - 1

[1] 6

Dann einmal die Formel für die Varianz zusammengebaut. Statt $8.13$ kannst du auch sum(y)/length(y) oder eben mean(y) schreiben.

R Code [zeigen / verbergen]

sum((y - 8.13)^2)/(length(y) - 1)

[1] 4.59905

Dann noch die Wurzel aus der Varianz um die Standardabweichung zu berechnen. Denn nichts anderes haben wir ja bis jetzt noch nicht berechnet.

R Code [zeigen / verbergen]

sqrt(sum((y - 8.13)^2)/(length(y) - 1))

[1] 2.14454

Dann nochmal den Mittelwert berechnen den wir nochmal brauchen. Aber auch hier getht natürlich auch die Built-in Funktion mean(y).

R Code [zeigen / verbergen]

sum(y)/length(y)

[1] 8.128571

Dann einmal alles zusammen und wir haben den Variationskoeffizient Schritt für Schritt berechnet.

R Code [zeigen / verbergen]

sqrt(sum((y - 8.13)^2)/(length(y) - 1))/(sum(y)/length(y))

[1] 0.2638274

R Code [zeigen / verbergen]

var_coef <- sd(y)/mean(y)
var_coef

[1] 0.2638273

Wir können den Variationskoeffizient auch basierend auf dem Median berechnen.

\[ v_r=\cfrac{x_{0.75}-x_{0.25}}{\tilde{x}_{0.5}} \]

In unserem Fall müssen wir hier dann die Quartile und den Median in die Formel einsetzen.

\[ v_r=\cfrac{9.1 - 5.7}{8.2} = 0.41 \]

Im Bereich der Agrarwissenschaften kommt der Variationskoeffizient eher selten vor. Der Variationskoeffizient ist eben eine statistische Maßzahl des Labors. Aber dennoch kommt der Variationskoeffizient immer mal wieder vor. Ich berechne denn Variationskoeffizient immer in R direkt aus der Standardabweichung und dem Mittelwert oder aber ich baue mir die Formel in R selber. So schwer ist es dann auch nicht.

R Code [zeigen / verbergen]

var_coef <- function(y) {
  return(sd(y)/mean(y))
}
var_coef(y)

[1] 0.2638273

17.12 Häufigkeiten

Neben der Darstellung von kontinuierlichen Zahlen, wollen wir auch häufig kategoriale Zahlen sinnvoll darstellen und zusammenfassen. Zwar können wir auch ohne weiteres die mittlere Note berechnen, aber meistens wollen wir dann doch wissen, wie viele Noten jeweils vergeben worden sind. Auch wenn wir uns mit einer $0/1$ Variable beschäftigen, also zum Beispiel infiziert ja/nein, wollen wir diese Variablen zusammenfassen. Wir wollen hier also Häufigkeiten (eng. frequency) berechnen und darstellen. Dabei gibt es verschiedene Arten von Häufigkeiten, die wir uns jetzt nacheinander einmal anschauen.

Fangen wir also einmal mit der Variable infected an. Wir haben in dieser Variable abgelegt, ob der Hund mit einem Floh infiziert ist 1 oder eben nicht infiziert ist 0. Wie du siehst, kodieren wir das “Ja” mit einer 1 und das “Nein” mit einer 0.

\[ y_{infected} = \{0, 1, 1, 0, 1, 0, 0\}. \]

In R würde der Vektor der Zahlen etwas anders aussehen, aber das hat eher was mit der Schreibweise der Mathematik und der Informatik zu tun. Inhaltlich sehen wir hier gleichen Informationen.

R Code [zeigen / verbergen]

y_infected <- c(0, 1, 1, 0, 1, 0, 0)

Schauen wir uns als einmal die drei Möglichkeiten die kategorialen Daten als Häufigkeiten abzubilden an. Wir können zum einen die absoluten Häufigkeiten berichten. Wir sagen also ganz einfach, wie viele Hunde sind von der Gesamtheit infiziert.

Absolute Häufigkeit: Wir zählen die Anzahl an infizierten Tieren und berichten die Anzahl zusammen mit der gesamt Anzahl an Tieren. Also haben wir dann als absolute Häufigkeit $f_{absolut} = n_{infiziert} / n_{gesamt}$ zu berichten.

Damit könne wir auch die absoluten Häufigkeiten einfach ausrechnen und berichten. Wir haben ja drei infizierte Hunde von sieben Hunden vorliegen.

\[ f_{infected} = 3 / 7 \]

Als nächstes schauen wir uns die relativen Häufigkeiten an. Relative Häufigkeiten werden weit häufiger berichtet. Wir haben ja dann die guten, alten Prozente vorliegen.

Relative Häufigkeit: Wir zählen die infizierten Tiere und teilen die Anzahl an infizierten Tiere durch die gesamte Anzahl an Tieren. Wir rechnen also die relative Häufigkeit mit $f_{relativ} = n_{infiziert} / n_{gesamt}$.

Sieht erstmal aus wie die absolute Häufigkeit, aber hier rechnen wir den Term dann auch aus. Damit teilen wir dann unsere drei infizierten Hunde durch die gesamte Anzahl von sieben Tieren.

\[ f_{infected} = \cfrac{3}{7} = 0.43 \]

Meistens schreiben wir dann aber einen Hybriden aus absoluter und relativer Häufigkeit mit $3 / 7\; (43\%)$. Wir ergänzen also die absoluten Häufigkeiten um die relativen Häufigkeiten. Ist dann eigentlich doppelt gemoppelt, aber wir wollen häufig auch sehen auf welcher Gesamtzahl die relative Häufigkeit sich begründet.

Neben der klassischen Häufigkeit, die wir durch die prozentuale Angabe kennen, gibt es auch noch die Chance. Die Chance infiziert zu sein, ist was anderes als die Wahrscheinlichkeit infiziert zu sein. Die Wahrscheinlichkeit ist eine relative Häufigkeit. Die Chance berechnet sich dabei etwas anders, den die Chance ist ein Anteil.

Chance: Die Chance beschreibt den Anteil der infizierten Tiere an den nicht infizierten Tieren. Oder aber wir schreiben für die Chance $f_{chance} = n_{1} : n_{0}$ mit $n_1$ gleich der Anzahl an infizierten Tieren und $n_0$ gleich der Anzahl der nicht infizierten also gesunden Tiere.

Wie du im Folgenden siehst, ergibt sich bei der Chance ein anderer Wert als bei der relativen Häufigkeiten. Wir haben also eine andere Chance infiziert zu sein, als die Wahrscheinlichkeit infiziert zu sein. Das ist auch so gewollt, denn wir betrachten ja bei der Chance etwas anders. Wir schauen den Anteil der drei infizierten Tiere im Vergleich zu den vier gesunden Tieren an. Wir erhalten dann eine Chance von $75\%$ um infiziert zu sein.

\[ f_{infected} = 3 : 4 = 0.75 \]

Wenn wir die Häufigkeiten berechnen wollen, dann nutzen wir auch wieder R. Es gibt viele Funktionen in R, die wir nutzen könne. Hier erstellen wir eine Tabelle in R mit der Funktion tabyl() aus dem R Paket {janitor}. Es gibt noch andere Möglichkeiten, die schauen wir uns aber gleich im nächsten Abschnitt an.

Einmal die sehr simplen Form der Berechnung für die infizierten Hunden. Die Funktion tabyl() liefert neben der absoluten Häufigkeiten dann auch die relativen Häufigkeiten. Deshalb mag ich diese Funktion sehr gerne für das schnelle Nachschauen.

R Code [zeigen / verbergen]

y_infected |> 
  tabyl()

 y_infected n   percent
          0 4 0.5714286
          1 3 0.4285714

Oder aber etwas komplexer für die Noten der Hunde. Hier siehst du dann nochmal schöner, wie sich die Tabelle aufbaut.

R Code [zeigen / verbergen]

flea_dog_tbl |>
  pull(grade) |> 
  tabyl()

 pull(flea_dog_tbl, grade) n   percent
                         6 1 0.1428571
                         7 2 0.2857143
                         8 3 0.4285714
                         9 1 0.1428571

Damit sind wir dann auch schon durch mit den Häufigkeiten. Selten berichten wir die reinen Häufigkeiten jeweils separat sondern in einer großen Übersichtstabelle. Um diese großen Übersichtstabelle und deren Erstellung wollen wir uns jetzt im nächsten Abschnitt einmal anschauen.

17.13 Automatisierung in R

Ups, das hier ist mir aber zu wild!

Der folgende Abschnitt ist nicht relevant für eine Klausur. Wir brauchen aber die Automatisierung in R um später sinnvoll Daten in einer Abschlussarbeit oder einem Projekt auswerten zu können. Also keine Angst, bitte überspringt den Abschnitt, wenn du nur für die Klausur lernst.

Im Folgenden wollen wir einmal den Datensatz zu den Gummibärchen zusammenfassen und zu beschreiben. Hier können wir nicht einfach so einen Überblick kriegen in dem wir uns einfach nur die Daten anschauen. Die Exceltabelle ist dafür viel zu lang um einen Überblick zu erlangen. Laden wir also einmal den Datensatz und wählen nur ein paar Spalten aus, damit wir hier nicht zu viel Tabellen produzieren.

R Code [zeigen / verbergen]

gummi_tbl <- read_excel("data/gummibears.xlsx")  |>
  select(gender, height, age, count_color, 
         most_liked) |> 
  mutate(gender = as_factor(gender))

Wir erhalten das Objekt gummi_tbl mit dem Datensatz in Tabelle tbl-data-dist-gummi nochmal als Auszug dargestellt. Wir brauchen aber nicht alle Spalten aus dem ursprünglichen Datensatz und somit ist die Tabelle etwas übersichtlicher. Wir schauen uns also dann mal zwei kontinuierlichen und kategorialen Variablen an.

Tabelle 17.7— Auszug aus den selektierten Daten zu den Gummibärchendaten mit zwei kontinuierlichen und kategorialen Variablen

gender	height	age	count_color	most_liked
m	193	35	3	lightred
w	159	21	5	yellow
w	159	21	6	white
w	180	36	5	white
…	…	…	…	…
m	178	24	4	green
w	180	23	3	lightred
m	202	25	6	darkred
w	172	23	3	darkred

Ich stelle jetzt zwei R Pakete mit {gtsummary} und {modelsummary} vor, die du nutzen kannst um Daten zusammenzufassen. Es gibt aber noch weit mehr Pakete, aber wir konzentrieren uns mal auf diese beiden Pakete.

Was gibt es noch an Möglichkeiten?

Neben den beiden vorgestellten gibt es natürlich auch Alternativen zu {gtsummary} und {modelsummary}. Da müsstest du dann aber mal selber schauen oder mich direkt Fragen. Wenn Interesse besteht kann ich auch noch andere Pakete vorstellen.

17.13.1 Mit dem Paket `{gtsummary}`

Meiner Meinung nach ist das Paket {gtsummary} das Paket für die Erstellung von Übersichttabellen. Wie du auf derHilfeseite von gtsummary sehen wirst, gibt es wirklich sehr viele Möglichkeiten eine schöne Tabelle zu bauen. Neben der Zusammenfassung kannst du auch $p$-Werte aus statistischen Tests ergänzen oder auch die Differenzen zwischen zwei Gruppen. Hier ist wirklich viel möglich in dem Paket.

Fangen wir also einmal an eine Übersichtstabelle zu erstellen. Wir bauen eine simple Tabelle über alle Variablen in dem Datensatz gummi_tbl aufgeteilt nach dem Geschlecht. Das geht recht schnell und ohne viel Schnickschnack.

R Code [zeigen / verbergen]

gummi_tbl |> 
  tbl_summary(by = gender)

Characteristic	m N = 433¹	w N = 421¹
height	184 (178, 189)	170 (164, 174)
Unknown	1	3
age	22.0 (21.0, 24.0)	22.0 (20.0, 25.0)
Unknown	1	2
count_color
2	0 (0%)	1 (0.2%)
3	27 (6.2%)	30 (7.1%)
4	122 (28%)	109 (26%)
5	221 (51%)	189 (45%)
6	63 (15%)	92 (22%)
most_liked
darkred	157 (36%)	164 (39%)
green	99 (23%)	108 (26%)
lightred	55 (13%)	41 (9.7%)
none	37 (8.5%)	18 (4.3%)
orange	19 (4.4%)	16 (3.8%)
white	44 (10%)	54 (13%)
yellow	22 (5.1%)	20 (4.8%)
¹ Median (Q1, Q3); n (%)

Das ist schon toll, sich so schnell eine Übersicht über die Daten zu schaffen. Wir haben alle Informationen, die wir brauchen, um mal eine Idee der Daten zu erhalten. Das ist dann immer so eine Sache, meist wollen wir dann die Daten dann doch nicht so exakt zusammenfassen. Aber auch hier hilft {gtsummary} mit sehr vielen Optionen. In der Abbildung fig-desc-gt-table siehst du nochmal die Optionen in {gtsummary} übersetzt in die ausgegebene Tabelle.

Abbildung 17.7— Darstellung der `{gtsummary}` Optionen in die ausgegebene Tabelle.

Hier nochmal ein Beispiel mit mehr Optionen und dann einer anderen Darstellung. Siehe das hier aber nur als Beispiel, es gibt aber noch sehr viel mehr Optionen für die Darstellung. Du kannst auch {mean} ({sd}) durch {mean}+/-{sd} ersetzen um eine andere Schreibweise zu haben.

R Code [zeigen / verbergen]

gummi_tbl |>
  tbl_summary(
    by = gender,
    statistic = list(
      all_continuous() ~ "{mean} ({sd})",
      all_categorical() ~ "{n} / {N} ({p}%)"
    ),
    digits = all_continuous() ~ 2,
    label = count_color ~ "Anzahl Farben",
    missing_text = "(Missing)"
  )

Characteristic	m N = 433¹	w N = 421¹
height	183.96 (7.88)	169.18 (7.22)
(Missing)	1	3
age	23.09 (4.24)	23.38 (5.91)
(Missing)	1	2
Anzahl Farben
2	0 / 433 (0%)	1 / 421 (0.2%)
3	27 / 433 (6.2%)	30 / 421 (7.1%)
4	122 / 433 (28%)	109 / 421 (26%)
5	221 / 433 (51%)	189 / 421 (45%)
6	63 / 433 (15%)	92 / 421 (22%)
most_liked
darkred	157 / 433 (36%)	164 / 421 (39%)
green	99 / 433 (23%)	108 / 421 (26%)
lightred	55 / 433 (13%)	41 / 421 (9.7%)
none	37 / 433 (8.5%)	18 / 421 (4.3%)
orange	19 / 433 (4.4%)	16 / 421 (3.8%)
white	44 / 433 (10%)	54 / 421 (13%)
yellow	22 / 433 (5.1%)	20 / 421 (4.8%)
¹ Mean (SD); n / N (%)

Das ist soweit schon mal gut, aber wir wollen meist die Tabelle dann doch in Word haben. Nicht das du deine Abschlussarbeit auch mit $\LaTeX$ schreiben könntest. Wir können dafür dann über die Funktion gtsave aus dem R Paket gt unsere Tabelle dann in einem Worddokument speichern. Wie toll ist das denn? Aber Achtung, bitte nicht in dein Hauptdokument abspeichern sondern immer eine Datei für eine Tabelle. Sonst kann es sein, dass du dir aus Versehen mal deine Tabellen überschreibst.

R Code [zeigen / verbergen]

gummi_tbl |> 
  tbl_summary(by = gender) |> 
  as_gt() |>  
  gt::gtsave(filename = "example.docx")

Frag mich gerne, wenn du weitere Informationen brauchst oder schau auch mal das Cheatsheet für gtsummary an. Du findest im Cheatsheet auch nochmal einen Überblick was alles möglich ist. Ich finde da den Überblick wirklich super.

17.13.2 Mit dem Paket `{modelsummary}`

Eine andere Möglichkeit ist das R Paket {modelsummary}. Hier haben wir auch die Möglichkeit neben Modellvergleiche auch Daten in schönen Tabellen zusammenzufassen. Auch hier hilft die Hilfeseite von {modelsummary} um über die vielen Möglichkeiten einen Überblick zu erlangen. Meiner Meinung nach braucht das Paket {modelsummary} etwas mehr Programmiererfahrung für die Bedienung, kann dafür dann aber auch mehr. Du musst dich vorab um fehlende Daten kümmern oder aber die Funktionen entsprechend umdefinieren. Also entfernen wir erstmal grob alle fehlenden Werte mit na.omit(). Das ist jetzt aber die etwas ungünstige Variante, da wir das jetzt über alle Variablen die fehlenden Werte entfernen. Sobald eine Variable einen fehlenden Wert hat, schmeißen wir die ganze Beobachtung raus.

R Code [zeigen / verbergen]

gummi_clean_tbl <- gummi_tbl |> 
  na.omit()

Jetzt nutzen wir die Funktion datasummary_skim() um einmal einen schnellen Überblick zu produzieren. Wir müssen die Funktion aber zweimal nutzen. Einmal um uns die kontinuierlichen Variablen type = "numeric" anzuschauen und einmal für die kategorialen Variablen type = "categorical". Du kriegst zwar im Folgenden die fehlenden Werte angezeigt, aber das ist eben nur in der Funktion datasummary_skim() möglich.

R Code [zeigen / verbergen]

gummi_clean_tbl |> 
  datasummary_skim(type = "numeric")

	Unique	Mean	SD	Min	Median	Max
height	53	176.7	10.6	147.0	176.0	205.0
age	35	23.2	5.1	11.0	22.0	61.0
count_color	5	4.8	0.8	2.0	5.0	6.0

Dann nochmal die Anzahl und die relative Häufigkeit für die kategorialen Variablen. Ich habe hier jetzt nicht nochmal tiefer die Ausgabe modifiziert.

R Code [zeigen / verbergen]

gummi_clean_tbl |> 
  datasummary_skim(type = "categorical")

		N	%
gender	m	432	50.9
	w	417	49.1
most_liked	darkred	319	37.6
	green	205	24.1
	lightred	95	11.2
	none	55	6.5
	orange	35	4.1
	white	98	11.5
	yellow	42	4.9

Es gibt aber in dem R Paket {modelsummary} noch wirklich eine Menge mehr Optionen. Bitte schau da nochmal die Hilfeseite datasummary: Crosstabs, frequencies, correlations, balance (a.k.a. “table 1”), and more an. Wir gehen hier dann nicht tiefer auf die Möglichkeiten ein.

Und auch hier kannst du ganz einfach deine Tabelle in ein Worddokument speichern. Ich habe mich hier an der Hilfeseite datasummary als *.docx abspeichern orientiert und den Code etwas angepasst. Faktisch ergänzt du einfach die Option output = "table.docx". Damit speicherst du dann deine datasumary Tabelle in die Datei table.docx.

R Code [zeigen / verbergen]

datasummary(height ~ gender * (mean + sd),
            data = gummi_clean_tbl, 
            output = 'table.docx')

Referenzen

Fay, D. S., & Gerow, K. (2018). A biologist’s guide to statistical thinking and analysis. WormBook: The Online Review of C. elegans Biology [Internet].

```{r echo = FALSE} pacman::p_load(tidyverse, readxl, knitr, kableExtra, broom, see, patchwork, ggbeeswarm, ggforce, latex2exp) ``` # Deskriptive Statistik {#sec-desc-stat} *Letzte Änderung am `r format(fs::file_info("eda-descriptive.qmd")$modification_time, '%d. %B %Y um %H:%M:%S')`* > *"Alles was überhaupt gedacht werden kann, kann klar gedacht werden. Alles was sich aussprechen lässt, lässt sich klar aussprechen." --- Ludwig Wittgenstein, Satz 4.116* Wir nutzen die deskriptive Statistik um Zahlen zusammenzufassen. Zahlen, die wir an Individuen oder Beobachtungen erhoben haben. Diese Zahlen fassen wir dann in einem Datensatz zusammen. Das heißt wir haben am Ende einen Datensatz mit Spalten in denen sich Zahlen befinden vorliegen. Wir nehmen hier als Beispiel den Datensatz zu den Sprungweiten der Hundeflöhe. Wir wollen jetzt den Datensatz in wenigen Zahlen zusammenfassen (eng. *summarize*). Wie können wir mit wenigen Zahlen die Sprungweite charakterisieren? Oder aber eine Aussage über die Infektionen machen? Dafür helfen uns dann die statistischen Maßzahlen in diesem Kapitel. Warum mit wenigen Zahlen Daten zusammenfassen? Wenn wir das Ergebnis präsentieren wollen, dann müssen es wenige Zahlen sein, die den Datensatz gut zusammenfassen. Wir haben ja nicht den Platz ganze Exceltabellen abzubilden. Auch ist diese Form der Datendarstellung sehr unübersichtlich. Daher ist es wichtig zu verstehen, dass wir dutzende bis hunderte Zahlen aus einem Datensatz durch meist eine oder zwei statistische Maßzahlen beschreiben wollen. Wir brauchen die statistischen Maßzahlen später um teilweise noch extrem größere Datensätze darstellen zu können. Ebenso werden wir die Maßzahlen aus diesem Kapitel dafür verwenden statistische Tests und Modelle zu rechnen. Springen die Hundeflöhe im Mittel weiter als die Katzenflöhe? Hier würden wir dann die Mittelwerte der Sprungweiten vergleichen. Wir nutzen die deskriptive Statistik dann auch in den weiteren Kapiteln zum statistischen Testen um eine Entscheidung über unsere Forschungsfrage zu erhalten. Die @fig-grundgesamtheit-schema-reduced zeigt dir hier einmal einen reduzierten Überblick. ```{r} #| echo: false #| message: false #| warning: false #| label: fig-grundgesamtheit-schema-reduced #| fig-align: center #| fig-height: 4 #| fig-width: 7 #| fig-cap: "Abbildung über die Grundgesamtheit und der Stichprobe $D$. Jede Stichprobe ist anders und nur ein kleiner Teil der Grundgesamtheit. Die Berechnung der Teststatistik $T_D$ aus den Daten $D$ erfolgt nicht direkt sondern über statistische Maßzahlen aus der deskriptiven Statistik. *[Zum Vergrößern anklicken]*" set.seed(20240407) truth_tbl <- tibble(grp = as_factor("truth"), x = rnorm(200, 20, 7), y = rnorm(200, 25, 7), color = as_factor(sample(1:6, 200, replace = TRUE)), shape = as_factor(sample(1:4, 200, replace = TRUE))) data_tbl <- tibble(grp = as_factor("data"), x = rnorm(12, 90, 2), y = rnorm(12, 35, 2), color = as_factor(sample(1:3, 12, replace = TRUE)), shape = as_factor(sample(1:2, 12, replace = TRUE))) bind_rows(truth_tbl, data_tbl) |> ggplot(aes(x, y)) + theme_void() + geom_jitter(aes(fill = color, shape = shape), size = 4, width = 5, height = 5) + geom_curve(x = 33, y = 90-45, xend = 85, yend = 85-45, arrow = arrow(length = unit(0.01, "npc"), type = "closed"), curvature = -0.4, color = "black", linewidth = 0.5) + geom_curve(x = 91, y = 16, xend = 33, yend = 4, arrow = arrow(length = unit(0.01, "npc"), type = "closed"), curvature = -0.4, color = "black", linewidth = 0.5) + geom_curve(x = 91, y = 31, xend = 91, yend = 24, arrow = arrow(length = unit(0.01, "npc"), type = "closed"), curvature = -0.1, color = "gray45", linewidth = 0.5) + annotate("text", x = 20, y = 53, label = "Grundgesamtheit", size = 5, fontface = 2) + geom_ellipse(aes(x0 = 20, y0 = 25, a = 22, b = 25, angle = 0), color = "black") + annotate("text", x = 93, y = 47, label = "Stichprobe", size = 5, fontface = 2) + annotate("text", x = 93, y = 43.5, label = "Daten (D)", size = 5, fontface = 3) + geom_ellipse(aes(x0 = 91, y0 = 36, a = 7, b = 5, angle = 0), color = "black") + annotate("text", x = 91, y = 22, label = "Teststatistik", size = 5, fontface = 2, color = "gray45") + annotate("label", x = 91, y = 15, label = expression(T[D]), size = 7, color = "gray45") + annotate("text", x = 58, y = 0.5, label = "Rückschluß", size = 5, fontface = 2) + geom_curve(x = 84, y = 36, xend = 65, yend = 34, arrow = arrow(length = unit(0.01, "npc"), type = "closed"), curvature = 0.6, color = "#0072B2", linewidth = 0.5) + geom_curve(x = 65, y = 23, xend = 87, yend = 15, arrow = arrow(length = unit(0.01, "npc"), type = "closed"), curvature = 0.5, color = "#0072B2", linewidth = 0.5) + annotate("label", x = 65, y = 28, label = "Deskriptive\nStatistik", size = 5, fontface = 2, color = "#0072B2") + scale_x_continuous(limits = c(-3, 100)) + scale_y_continuous(limits = c(-7, 60)) + scale_shape_manual(values = 21:24) + theme(legend.position = "none") + scale_fill_okabeito() ``` Nun ist es so, dass wir nicht jede Spalte an Zahlen in einem Datensatz gleich zusammenfassen können. Wir du schon in dem [Kapitel über die Zahlen und Buchstaben in R](#sec-letter-number) gesehen hast unterscheidet R Zahlen je nach Eigenschaften der Zahlen. Das macht aber nicht nur R so, sondern jedes statistische Programm. Nicht jede statistische Maßzahl passt zu jeder Zahlenreihe. Es gibt es nicht nur "Zahlen", sondern auch kontinuierliche Zahlen oder aber kategoriale Zahlen. Eine Besonderheit stellen Zahlen dar, die eine Eigenschaft von Tieren nur mit zwei Ausprägungen beschreiben. Die @tbl-skalenniveau-desc zeigt nochmal die gekürzte Übersicht über einzelne Variablennamen aus dem Hundeflohdatensatz und deren zugehörigen Zahlen sowie deren Bezeichnung in R, als Skalenniveau und welcher Verteilungsfamilie die Variable angehören würde. Leider ist es so, dass wieder gleiche Dinge unterschiedliche benannt werden. Aber an dieses doppelte Benennen können wir uns in der Statistik schon mal gewöhnen. | Variablenname | Beispiel | R | Skalenniveau | Verteilungsfamilie | |----|----|----|----|----| | jump_length | 5.7, 8.9, 11.8 | numeric | continuous | Gaussian | | flea_count | 18, 22, 17 | integer | discrete | Poisson | | grade | 8, 6, 7 | ordered | categorical / ordinal | Ordinal | | infected | 0, 1 | factor | dichotomous / binary / nominal | Binomial | : Zusammenfassung und Übersicht von Variablennamen und deren Benenung in R und als Skalenniveau. {#tbl-skalenniveau-desc} Soweit so kompliziert. Wir gehen jetzt aber mal die gängigen statistischen Maßzahlen für verschiedene Zahlen, die wir so erheben können, durch. Dabei fokussieren wir einmal auf die händische Berechnung und ich zeige dann aber auch die Berechnung in R. Dabei nehmen wir erstmal den Hundeflohdatensatz als Beispiel für die händische Berechnung und für die Automatisierung in R am Ende des Kapitels unseren Gummibärchendatensatz. ## Genutzte R Pakete Wir wollen folgende R Pakete in diesem Kapitel nutzen. ```{r echo = TRUE} pacman::p_load(tidyverse, magrittr, readxl, gtsummary, janitor, see, patchwork, modelsummary) ``` An der Seite des Kapitels findest du den Link *Quellcode anzeigen*, über den du Zugang zum gesamten R-Code dieses Kapitels erhältst. ## Daten In diesem Kapitel wollen wir uns einmal die Daten zu den Sprungweiten verschiedener Hundeflöhe sowie die Eigenschaften der Flöhe einmal genauer ansehen. Wir laden also als erstes einmal die Daten und filtern nur die Hunde aus den Daten. Wir wollen jetzt die Spalten oder eben auch Variablen der Daten einmal sinnvoll zusammenfassen und durch wenige statistische Maßzahlen beschreiben. ```{r} #| warning: false flea_dog_tbl <- read_excel("data/flea_dog.xlsx") ``` Die @tbl-dog-desc zeigt nochmal die Daten dargestellt. Zur Erinnerung, wir wollen jetzt die Spalten mit wenigen Zahlen zusammenfassen. ```{r} #| label: tbl-dog-desc #| tbl-cap: "Tabelle von sieben Hundeflöhen mit der Sprunglänge [cm], Anzahl an Haaren am rechten Flohbein, Gewicht der Flöhe, Boniturnote sowie der Infektionsstatus für Flohschnupfen. Die erste Spalte `animal` gibt an, dass wir es hier mit Hundeflöhe zu tun haben. Die Tabelle ist im Long-Format dargestellt." #| echo: false #| warning: false flea_dog_tbl |> kable(align = "c", "pipe") ``` ```{r } #| echo: false #| warning: false y_dog <- flea_dog_tbl |> filter(animal == "dog") |> pull(jump_length) ``` Wir fangen jetzt erstmal mit den kontinuierlichen Variablen an und schauen dann später auf die kategorialen Variablen. Nehmen wir also als erstes Beispiel die Sprungweiten in \[cm\] von Hundeflöhen. Wir messen die Sprungweiten von sieben Hundeflöhen und erhalten dabei folgende Werte in \[cm\]: `r pander::p(y_dog, wrap = "", copula = " und ")`. Wir schreiben diese Sprungweiten nun als $y$ in einen Vektor in der folgenden Form auf. $$ y = \{`r str_c(y_dog, collapse = ", ")`\}. $$ [Du findest in @sec-basics den Einstieg für die Programmierung in R. Da findest du auch die Erklärung für `c()` und den Zuweisungspfeil `<-`.]{.aside} In R würde der Vektor der Zahlen etwas anders aussehen, aber das hat eher was mit der Schreibweise der Mathematik und der Informatik zu tun. Inhaltlich sehen wir hier gleichen Informationen. ```{r } y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6) ``` Wir wollen nun die Sprungweiten in $y$ beschrieben und durch wenige andere Zahlen zusammenfassen. Einige dieser statistischen Maßzahlen sind dir vermutlich schon bekannt, andere eher neu. Wir gehen jetzt also gemeinsam eine Menge an statistischen Maßzahlen durch. Nicht alle wirst du immer brauchen und dir auch nicht merken müssen. Wichtig ist zu wissen, dass es die folgenden statistischen Maßzahlen gibt und das du dann im Zweifel den Begriff nachschlagen kannst. Ich mache das im Prinzip auch nicht anders. ::: callout-note ## Warum $y$ und nicht $x$? Wenn du dir andere Statistikbücher anschaust, dann wird meist die Variable, mit der wir den Mittelwert berechnen, mit $x$ bezeichnet. Wir machen das hier *nicht* denn wir haben später für das $x$ eine andere Verwendung. In einem statistischen Modell schauen wir uns den Zusammenhang von $y \sim x$ an. Was ist das y? : Als $y$ bezeichnen wir die Messwerte in einem Datensatz. Wir nennen das $y$ auch Zielgröße oder eben *yield* (deu. *Ertrag*). Was ist das x? : Als $x$ bezeichnen wir die Einflussgröße oder *exchange* (deu. *Veränderung*, etwas schief übersetzt). Wir haben hier W-Worte als Faktorvariable vorliegen. Was misst du? Wo? Wann? Womit? Die Sprungweite von Hunde- und Katzenflöhen ist das $y$. Wir messen die Sprungweite. Das $x$ sind die beiden Tierarten Hund und Katze, die wir miteinander vergleichen wollen. Glaube mir, es wird nachher leichter zu verstehen. Dafür nehmen wir jetzt einen etwas schwierigen Weg. ::: ## Mittelwert ### Arithmetisch {{< video https://youtu.be/BM19lTGJVeQ >}} Der Mittelwert einer Zahlenreihe beschreibt den Schwerpunkt der Zahlen. Was soll das Bedeuten? Was ist der Schwerpunkt von Zahlen? Du kannst dir das wie eine Wippe vorstellen, der Mittelwert liegt so, dass links und rechts des Mittelwerts gleiche Abstände zu den Zahlen vorliegen. Der Mittelwert wird auch als Lageparameter benannt. Der *Mittelwert* ist damit auch der Lageparameter einer Verteilung. Er beschreibet die numerische Stelle, wo die Verteilungskurve am höchsten ist. Wir schreiben den Mittelwert mit einem Strich über den Vektor, der die Zahlen enthält. Im Folgenden ist die Formel für den Mittelwert der Sprungweite in \[cm\] der Hunde gezeigt. Der Mittelwert ist in dem Sinne eine künstliche Zahl, da der Mittelwert häufig nicht in den beobachteten Zahlen vorkommt. ::: {layout="[15,85]" layout-valign="center"} ![](images/angel_01_small.png){fig-align="center" width="100%"} > Wir werden immer mal wieder *Formeln vereinfachen*. Zum Beispiel nur $\sum$ schreiben anstatt $\sum_i^n$, wenn wir einen Vektor aufsummieren und uns die Indizes sparen. Ja, das ist nicht schön, aber einfacher. ::: Im Folgenden sehen wir einmal wie der Mittelwert mathematisch oder schrittweise in R berechnet wird. Beachte hierbei die unterschiedliche Schreibweise. Wir haben hier ja auch zwei unterschiedliche Sprachen abgebildet. Wir haben nämlich eine mathematische Sprache und einmal eine Programmiersprache vorliegen. ::: panel-tabset ## Mathematik $$ \bar{y} = \sum_{i=1}^{n}\cfrac{y_i}{n} = \cfrac{5.7 + 8.9 + 11.8 + 5.6 + 9.1 + 8.2 + 7.6}{7} = \cfrac{56.9}{7} = 8.13 $$ ## R (Schritt für Schritt) Einmal der Vektor `y` mit den Zahlen, die wir benutzen wollen. ```{r} y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6) y ``` Die Summe von `y`. ```{r} sum(y) ``` Die Länge des Vektors `y` oder eben die Anzahl $n$ gleich der Fallzahl. ```{r} length(y) ``` Und dann einmal händisch der Mittelwert von `y` berechnet. ```{r} sum(y)/length(y) ``` ## R `{base}` Die Funktion für die Berechnung des Mittelwerts in R ist ziemlich geradeaus. ```{r} mean(y) ``` ## Excel Wir können natürlich auch den Mittelwert in Excel berechnen. Dafür nutzen wir dann die Funktion `MITTELWERT()`. Mehr dazu dann im folgenden Video einmal gezeigt. {{< video https://youtu.be/Srne2TzrKo4 >}} ::: Wir sagen also, dass im Durchschnitt oder im Mittel die Hundeflöhe `r round(mean(y),2)` cm weit springen. Wir addieren dazu einmal alle sieben Sprungweiten der Hundeflöhe einmal auf und teilen die Summe durch die Gesamtanzahl an Flöhen. In R können wir den Mittelwert einfach mit der Funktion `mean()` berechnen. Dann nutzen wir nochmal den Pipe Operator `|>` für die Berechnung des Mittelwertes. Wir wollen dann den Mittelwert noch auf die zweite Kommastelle runden. Das machen wir dann mit der Funktion `round()`. Du findest in @sec-basics den Einstieg für die Programmierung in R. Da findest du auch die Erklärung für den Pipe Operator `|>`. ```{r } ## mit pipe-Operator y |> mean() |> round(2) ``` Wir erhalten das gleiche Ergebnis wie oben in unserer händischen Rechnung. Die Hundeflöhe springen im Mittel `r round(mean(y),2)` cm weit. Ja, für so einfache Beispiele ist es natürlich etwas kompliziert R zu nutzen und Code zu schreiben, später wird uns der Code aber sehr helfen. Der Mittelwert ist eine bedeutende statistische Maßzahl der Normalverteilung. Später wirst du noch mehr über Verteilungen von Zahlen erfahren und deshalb hier schon mal die kurze Verbindung vom Mittelwert zur Normalverteilung. Daher merken wir uns hier schon mal, dass wir den Mittelwert brauchen werden. Auch wenn wir darüber nachdenken ob sich zwei Gruppen unterscheiden, so nutzen wir hierzu den Mittelwert. Unterscheiden sich die *mittleren* Sprungweiten in \[cm\] von Hunde- und Katzenflöhen? ### Geometrisch {#sec-desc-stat-geometric} Im Gegensatz zum arithmetischen Mittel ist das geometrische Mittel nur für nicht negative Zahlen $y$ definiert. Wir können also für negative Zahlen kein geometrische Mittel berechnen. Das geometrische Mittel ist daher nur für echt positive Zahlen sinnvoll. Wenn eine der Zahlen in $y$ gleich Null ist, ist schon das ganze Produkt der Zahlen gleich Null. Somit ist dann das geometrische Mittel sinnlos. Schauen wir uns einmal die Formel des geometrischen Mittels an. ::: panel-tabset ## Mathematik $$ \bar{y}_\mathrm{geom} = \sqrt[n]{\prod_{i=1}^n{y_i}} = \sqrt[n]{y_1 \cdot y_2 \dotsm y_n} = (y_1 \cdot y_2 \dotsm y_n)^{1/n} $$ ## R `{psych}` In R können wir das geometrische Mittel einfach mit der Funktion `geometric.mean()` aus dem R Paket `{psych}` berechnen. ```{r} c(4, 3, 6, 9) |> psych::geometric.mean() ``` ::: Dann rechnen wir doch auch gleich mal ein Beispiel mit den vier Zahlen $y = \{4, 3, 6, 9\}$ den geometrischen Mittelwert aus. $$ \bar{y}_\mathrm{geom} = \sqrt[4]{4 \cdot 3 \cdot 6 \cdot 9} =\sqrt[4]{648} = 5.045 $$ Um die Besonderheit des geometrische Mittelwerts zum arithmetischen Mittel zu verstehen, nehmen wir einmal ein Beispiel mit nur den Zahlen $y = \{1,9\}$. Bei der geometrischen Mittelwertbildung weichen beide Werte vom Mittelwert um denselben Multiplikator ab. Diese Eigenschaft ist beim arithmetischen Mittel nicht gegeben. So ergibt sich aus den Zahlen 1 und 9 das arithmetische Mittel 5. Dabei ist die 1 vom Mittelwert 5 um Faktor 5 entfernt, während die 9 lediglich um Faktor 1.8 davon entfernt liegt. Das geometrische Mittel aus 1 und 9 hingegen ergibt den Mittelwert $\bar{y}_\mathrm{geom} = 3$. Sowohl der niedrige Wert 1 wie auch der hohe Wert 9 sind vom Mittelwert 3 um den Faktor 3 entfernt. Der Unterschied zwischen arithmetischem und geometrischem Mittelwert kann beträchtlich sein, was in der Praxis unter Umständen zur Fehlinterpretation von Durchschnittsangaben führt. Das geometrische Mittel ist der einzige korrekte Mittelwert, wenn normalisierte Ergebnisse gemittelt werden, daher Zahlen und Ergebnisse, die als Verhältnis zu Referenzwerten dargestellt werden. Eine Anwendung ist hierbei der [Wirkungsgrad](#sec-effect-wirkung) von zum Beispiel Pflanzenschutzmitteln. ### Getrimmt Eine robuste Alternative zum arithmetischen Mittel sind die getrimmten Mittelwerte (eng. *trimmed mean*), die überdies den Median der Stichprobe als Sonderfall enthält. Bei einem getrimmten Mittelwert wird ein bestimmter Prozentsatz an beiden Enden deiner Zahlenreihe abgeschnitten. Ein getrimmter Mittelwert von 10% schneidet zum Beispiel 10% am unteren Ende und 10 % am oberen Ende der Zahlenreihe ab. Eine Besonderheit ist der getrimmte Mittelwert um 50%, dann ist nämlich der getrimmte Mittelwert gleich dem Median. Häufig wird dann die getrimmte Fallzahl auch mit $h$ angegeben. ::: panel-tabset ## Mathematik Nehmen wir einmal $n = 10$ Werte und schreiben diese als $y_1, y_2, ... y_10$, sortiert in aufsteigender Reihenfolge. Das heißt der kleinste Wert ist dann $y_1$ und der größte Wert ist $y_{10}$ in der Zahlenreihe. Der um 10% getrimmte Mittelwert ist dann wie folgt definiert. $$ \bar{y}_t = \cfrac{y_2 + y_3 + ... + y_8 + y_9}{8} $$ Das können wir uns auch einmal in einem Beispiel mit zehn Zahlen anschauen. Nehmen wir einmal die folgenden Sprungweiten von zehn Hundeflöhen und sortieren die Sprungweiten aufsteigend. $$ 3.4, 5.6, 5.7, 7.6, 8.2, 8.9, 9.1, 11.8, 12.4, 15.7 $$ Wenn wir jetzt den 10% getrimmten Mittelwert berechnen wollen, dann müssen wir 10% der Werte oben und unten abschneiden. Das ist in unserem Fall recht einfach. Wir entfernen den kleinsten und größten Wert mit $3.4$ und $15.7$ aus den Daten. $$ \bar{y}_t = \cfrac{5.7 + 8.9 + 11.8 + 5.6 + 9.1 + 8.2 + 7.6 + 12.4}{8} = \cfrac{69.3}{8} = 8.66 $$ Wir erhalten dann einen getrimmten Mittelwert der Sprungweite von $8.66cm$. Wir haben dann eine getrimmte Fallzahl von $h = 8$ vorliegen. ## R `{base}` In R geht es relativ einfach. Die Standardfunktion `mean()` hat die entsprechende Option enthalten um einen getrimmten Mittelwert direkt zu berechnen. ```{r} y_t <- c(3.4, 5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6, 12.4, 15.7) mean(y_t, trim = 0.1) ``` ::: ### Winsorisiert Eine andere Möglichkeit den Mittelwert zu berechnen ist es den winsorisierten Mittelwert (eng. *winsorized mean*) zu nutzen. Ähnlich wie bei dem getrimmten Mittelwert müssen wir hier einen Anteil $\gamma$ wählen, der angibt wie viel Prozent der Daten wir winsorisieren wollen. Bei der Winsorisierung ersetzen wir die kleinsten und größten Werte durch die Werte, die nicht winsorisiert werden sollen. Das klingt jetzt erstmal etwas schräg, wird aber gleich im Beispiel klarer. Wir werfen keine Zahlen weg, sondern ersetzen eben die kleinsten und größten Werte. ::: panel-tabset ## Mathematik Nehmen wir einmal $n = 10$ Werte und schreiben diese als $y_1, y_2, ... y_10$, sortiert in aufsteigender Reihenfolge. Das heißt der kleinste Wert ist dann $y_1$ und der größte Wert ist $y_{10}$ in der Zahlenreihe. Der um 10% winsorisierte Mittelwert ist dann wie folgt definiert. $$ \bar{y}_w = \cfrac{y_2 + y_2 + y_3 + ... + y_8 + _y9 + y_9}{10} $$ Wie du siehst ersetzen wir den Wert von $y_1$ mit dem Wert von $y_2$. Genauso machen wir das mit dem Wert von $y_{10}$ den wir dann durch den Wert von $y_9$ ersetzen. Das ganze hier einmal als Zahlenbeispiel für unsere Sprungweiten der Hundeflöhe mit zehn Hundeflöhen. $$ \begin{aligned} \bar{y}_w &= \cfrac{5.7 + 5.7 + 8.9 + 11.8 + 5.6 + 9.1 + 8.2 + 7.6 + 12.4 + 12.4}{10} \\ &= \cfrac{87.4}{10} = 87.4 \end{aligned} $$ Wir erhalten dann einen winsorisierten Mittelwert der Sprungweite von $8.74cm$. Hier müssen wir dann nicht nochmal die neue Fallzahl angeben. Die Fallzahl bleibt ja in diesem Fall gleich. ## R Das [R Paket `{WRS2}`](https://cran.r-project.org/web/packages/WRS2/vignettes/WRS2.pdf) bietet die Funktion `winmean()` um einen winsorisierten Mittelwert zu berechnen. Daneben haben wir auch die Möglichkeit eine winsorisierte Varianz mit `winvar()` sowie winsorisierten Standardfehler mit `winse()` zu nutzen. ```{r} y_w <- c(3.4, 5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6, 12.4, 15.7) WRS2::winmean(y_w, tr = 0.1) ``` ::: ## Varianz {{< video https://youtu.be/Ui8_rwNLW7o >}} Bis jetzt können wir mit dem Mittelwert $\bar{y}$ die Lage oder den Mittelpunkt unserer Zahlenreihe $y$ beschreiben. Uns fehlt damit aber die Information über die Streuung der Zahlen. Sind die Zahlen alle eher gleich oder sehr verschieden? Liegen die Zahlen daher alle bei dem Mittelwert oder sind die Zahlen weit um den Mittelwert gestreut. Es macht ja einen bedeutenden Unterschied, ob wir $n$-mal das "Gleiche" messen oder eben $n$-mal sehr unterschiedliche Zahlen. ```{r} #| message: false #| echo: false #| warning: false #| fig-align: center #| fig-height: 3.5 #| fig-width: 7 #| fig-cap: "Visualisierung einer schwachen und starken Streuung der Messwerte von sieben Beobachtungen um den jeweiligen Mittelwert. *[Zum Vergrößern anklicken]*" #| label: fig-desc-var-sticks small_var_tbl <- tibble(x = c(7.12, 8.5, 9.1, 10.1, 7.8, 8.2, 9.7), y = 0) p1 <- small_var_tbl |> ggplot(aes(x, y)) + theme_void() + scale_x_continuous(limits = c(1, 12)) + scale_y_continuous(limits = c(-1, 0.5)) + geom_hline(yintercept = 0, color = "gray45", linewidth = 1.25) + annotate("segment", x = small_var_tbl$x, xend = small_var_tbl$x, y = -0.35, yend = 0.35, color = "#56B4E9") + annotate("segment", x = mean(small_var_tbl$x), xend = mean(small_var_tbl$x), y = -0.5, yend = 0.5, color = "#CC79A7", linewidth = 2) + annotate("text", x = mean(small_var_tbl$x), y = -0.8, label = expression(bar(y)), size = 5, color = "#CC79A7") + labs(title = "Schwache Streuung", subtitle = "Die einzelnen Beobachtungen liegen eng um den Mittelwert") + theme(plot.title = element_text(size = 16, face = "bold"), plot.subtitle = element_text(size = 12, face = "italic")) large_var_tbl <- tibble(x = c(3.12, 4.5, 1.5, 10.1, 7.8, 8.2, 11.7), y = 0) p2 <- large_var_tbl |> ggplot(aes(x, y)) + theme_void() + scale_x_continuous(limits = c(1, 12)) + scale_y_continuous(limits = c(-1, 0.5)) + geom_hline(yintercept = 0, color = "gray45", linewidth = 1.25) + annotate("segment", x = large_var_tbl$x, xend = large_var_tbl$x, y = -0.35, yend = 0.35, color = "#E69F00") + annotate("segment", x = mean(large_var_tbl$x), xend = mean(large_var_tbl$x), y = -0.5, yend = 0.5, color = "#CC79A7", linewidth = 2)+ annotate("text", x = mean(large_var_tbl$x), y = -0.8, label = expression(bar(y)), size = 5, color = "#CC79A7") + labs(title = "Starke Streuung", subtitle = "Die einzelnen Beobachtungen liegen weit um den Mittelwert") + theme(plot.title = element_text(size = 16, face = "bold"), plot.subtitle = element_text(size = 12, face = "italic")) p1 + p2 + plot_layout(ncol = 1) + plot_annotation(tag_levels = 'A') + plot_annotation(tag_levels = 'A', tag_prefix = '(', tag_suffix = ')') & theme(plot.tag = element_text(size = 16, face = "bold")) ``` Die Streuung der Zahlen $y$ um den Mittelwert beschreibt die Varianz. Wir schreiben für die Varianz auch $s^2$. Wir berechnen die Varianz indem wir von jeder Zahl $i$ den Mittelwert aller Zahlen $\bar{y}$ abziehen und dann das Ergebnis quadrieren. Das machen wir für alle Zahlen und addieren dann die Summe auf. Wir erhalten die Quadratsumme von $y$. Wie immer ist Mathematik in Textform etwas sperrig, deshalb einmal auch hier die Formel. Dann kannst du dir auch noch die Umsetzung in R anschauen. Auch hier die etwas sperrige Form in Schritten, später nutzt du dann die Funktion `var()`. ::: panel-tabset ## Mathematik $$ s^2 = \sum_{i=1}^n\cfrac{(y_i - \bar{y})^2}{n-1} = \cfrac{(5.7 - 8.13)^2 + ... + (7.6 - 8.13)^2}{7-1} = \cfrac{27.59}{6} = 4.6 $$ ## R (Schritt für Schritt) Einmal der Vektor `y` mit den Zahlen, die wir benutzen wollen. ```{r} y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6) y ``` Die Summe von `y`. ```{r} sum(y) ``` Die Länge des Vektors `y` minus 1 oder eben die Anzahl $n - 1$ gleich der Fallzahl. ```{r} length(y) - 1 ``` Dann einmal die Formel für die Varianz zusammengebaut. Statt $8.13$ kannst du auch `sum(y)/length(y)` oder eben `mean(y)` schreiben. ```{r} sum((y - 8.13)^2)/(length(y) - 1) ``` ## R `{base}` Die Funktion für die Berechnung der Varianz in R ist ziemlich einfach. ```{r} var(y) ``` ::: ::: callout-note ## Warum $\boldsymbol{n - 1}$ im Nenner? Häufig irritiert dich das $n-1$ in der Formel. Hier gibt es an dieser Stelle keine *einfache* Erklärung. Dafür müsstest du mehr über die Grundgesamtheit und die Stichprobe wissen. Es gibt aber eine Erklärung unter [Intuitive explanation for dividing by $n-1$ when calculating standard deviation?](https://stats.stackexchange.com/a/3934) oder gleich direkt [Bessel-Korrektur](https://en.wikipedia.org/wiki/Bessel%27s_correction#Proof_of_correctness_-_Alternate_3). ::: Warum rechnen wir hier eigentlich das Quadrat? Der Mittelwert liegt ja genau in der Mitte der Werte. Das heißt, die Abstände der Zahlen über dem Mittelwert sind exakt so groß wie die Abstände unter dem Mittelwert. Wir nennen diese Abstände $\epsilon$ (grie. *epsilon*). Die Abweichungsquadrate in der Statistik : Abweichungsquadrate sind ein wichtiges Konzept in der Statistik. Wenn wir wissen wollen, wie groß eine Abweichung von einer Zahl zu einer anderen ist, dann nutzen wir immer das Quadrat der Abweichung und bilden die Quadratsumme. In der folgenden Abbildung habe ich dir einmal die Abweichungsquadrate visualisiert. Auf der x-Achse findest du die einzelnen Beobachtungen sortiert nach der ID. Daher kommt als zuerst der erste Floh mit einer Sprungweite von 5.7cm und dann der nächste Floh. Wir können jetzt die Abweichungsquadrate direkt visualiseren. Der Mittelwert minimiert dabei die Summe der Abweichungsquadrate. Kein anderer Wert hat eine niedrigere Summe an Abweichungsquadraten. ```{r} #| echo: false #| message: false #| warning: false #| label: fig-desc-var-mean #| fig-align: center #| fig-height: 5.5 #| fig-width: 5.5 #| fig-cap: "Methode der kleinsten Quadrate zur Berechnung der Varianz. Die rote Linie stellt den Mittelwert der Sprungweiten dar. Der Mittelwert stell dabei die kleinste Summe der Abweichungsquadrate dar. Jeder anderer Wert als der Mittelwert produziert größere Summen der Abweichungsquadrate. *[Zum Vergrößern anklicken]*" y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6) y_mean <- round(mean(y), 2) y_var <- var(y) epsilon <- y - y_mean p_var_01 <- ggplot(tibble(x = 1:7, y = y), aes(x, y)) + coord_equal() + geom_tile(aes(x = x - epsilon/2, y = y - epsilon/2, width = epsilon, height = epsilon), fill = "#56B4E9", alpha = 0.2, color = "#56B4E9", linewidth = 0.5) + geom_hline(yintercept = y_mean, color = "#CC79A7", linewidth = 1) + geom_point(size = 2) + geom_text(aes(label = y), position = position_nudge(0.3, -0.2)) + scale_x_continuous(breaks = 1:7) + scale_y_continuous(breaks = y_mean) + labs(y = "Messwert (Y)", x = "ID der Beobachtung", title = "Methode der kleinsten Quadrate", subtitle = "Die Varianz ist die quadratische Abweichung vom Mittelwert") + theme_minimal() + theme(panel.grid.minor = element_blank(), plot.background = element_rect(fill = "white", color = NA), plot.title = element_text(size = 16, face = "bold"), plot.subtitle = element_text(size = 12, face = "italic"), plot.caption = element_text(face = "italic"), axis.title = element_text(size = 12, face = "bold"), axis.text = element_text(size = 12), strip.text = element_text(face = "bold"), strip.background = element_rect(fill = "grey80", color = NA)) p_var_01 ``` Die Varianz beschreibt also die Streuung der Zahlen *im Quadrat* um den Mittelwert. Das heißt in unserem Beispiel, dass die Sprungweite eine Varianz von $4.6cm^2$ hat. Wir können Quadratzentimeter schlecht biologisch interpretieren. Wir leben nicht in einer Welt mit quadratischen Einheiten. Deshalb führen wir gleich die Wurzel der Varianz als die Standardabweichung ein. Die Standardabweichung ist also einfach die Wurzel der Varianz. Da die Standardabweichung aber sehr bedeutend ist, kommen wir auf die Standardabweichung gleich nochmal in einem extra Abschnitt zu sprechen. Wir benötigen die Varianz häufig nur als Zwischenschritt um die Standardabweichung zu berechnen. Das Konzept der Abweichungsquadrate benötigen wir aber in der [Varianzanalyse (ANOVA)](#sec-anova) sowie in der [linearen Regression](#sec-modeling-simple-stat) und für die Beschreibung einer Normalverteilung zusätzlich zum Mittelwert. ::: callout-note ## Warum die quadratischen Abstände und nicht die absoluten? Dann kommt auch häufig die Frage auf, warum nehmen wir eigentlich die quadratischen Abstände und nicht die absoluten Abstände? Dafür können wir einmal die Varianz mit der quadratischen Abweichung und einmal mit der absoluten Abweichung berechnen und für den Mittelwert beliebige Zahlen einsetzen. In unserem Beispiel lassen wir die Zahlen von 5 bis 10.25 in 0.01 durchlaufen und berechnen mit jeder dieser Zahlen die Varianz. Die Zahl mit der kleinsten Varianz sollte dann der Mittelwert sein. Wie du in der folgenden Abbildung siehst, ist dass der Fall für die quadratische Abweichung, aber nicht der Fall für die absolute Abweichung. Die absolute Abweichung würde ein Minimum bei einem Mittelwert von 8.2cm haben, was nicht korrekt ist. ```{r} #| echo: false #| message: false #| warning: false #| label: fig-desc-var-sim #| fig-align: center #| fig-height: 4 #| fig-width: 6.5 #| fig-cap: "Zusammenhang zwischen den Mittelwert und der Varianz. In die Formel der Varianz werden beliebige Zahlen für den Mittelwert eingesetzt. Bei einem Wert von 8.13 und damit dem Mittelwert ist die Varianz im Fall der quadratischen Abweichungen am geringsten. Dies ist nicht bei den absoluten Abweichungen der Fall. *[Zum Vergrößern anklicken]*" var_sim_tbl <- map_dfr(seq(6, 10.25, by = 0.01), \(x){ y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6) tibble(x = x, var_1 = sum((y - x)^2)/6, #var_2 = sum((y - x)^2)/7, var_3 = sum(abs(y - x))/6) }) |> gather(var_1:var_3, key = "type", value = "var") min_var_tbl <- var_sim_tbl |> group_by(type) |> filter(var == min(var)) p_var_02 <- var_sim_tbl |> ggplot(aes(x = x, y = var, color = type)) + geom_smooth() + geom_vline(data = min_var_tbl, aes(xintercept = x, color = type), linetype = 11) + geom_hline(data = min_var_tbl, aes(yintercept = var, color = type), linetype = 11) + scale_x_continuous(breaks = min_var_tbl$x, guide = guide_axis(n.dodge = 3)) + scale_y_continuous(breaks = round(min_var_tbl$var, 2)) + annotate("text", x = 6.3, y = 9, hjust = "left", color = "#E69F00", size = 4, label = expression(frac(sum((y-y[i])^2), n-1))) + # annotate("text", x = 6, y = 5.45, hjust = "left", color = "#56B4E9", size = 4, # label = expression(frac(sum((y-y[i])^2), n))) + annotate("text", x = 7, y = 3, hjust = "left", color = "#56B4E9", size = 4, label = expression(frac(sum("|"~y-y[i]~"|"^2), n-1))) + scale_color_okabeito() + labs(x = "Mittelwert", y = "Varianz", title = "Der Mittelwert minimiert die Varianz", subtitle = "Unterschied zwischen den absoluten und quadratischen Abweichungsquadraten") + theme_minimal() + theme(panel.grid.minor = element_blank(), legend.position = "none", plot.background = element_rect(fill = "white", color = NA), plot.title = element_text(size = 16, face = "bold"), plot.subtitle = element_text(size = 12, face = "italic"), plot.caption = element_text(face = "italic"), axis.title = element_text(size = 12, face = "bold"), axis.text = element_text(size = 12), strip.text = element_text(face = "bold"), strip.background = element_rect(fill = "grey80", color = NA)) p_var_02 ``` ::: ## Standardabweichung {{< video https://youtu.be/L7zs2ghgAeQ >}} Die Standardabweichung $s$ ist die Wurzel der Varianz $s^2$. Wo die Varianz die Abweichung der Sprungweite in \[cm$^2$\] beschreibt, beschreibt die Standardabweichung die Streuung der Sprungweite in \[cm\]. Damit können wir dann die Standardabweichung viel besser interpretieren als die Varianz. ::: panel-tabset ## Mathematik $$ s = \sqrt{s^2} = \sqrt{4.6} = 2.14 $$ ## R (Schritt füt Schritt) Einmal der Vektor `y` mit den Zahlen, die wir benutzen wollen. ```{r} y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6) y ``` Die Summe von `y`. ```{r} sum(y) ``` Die Länge des Vektors `y` minus 1 oder eben die Anzahl $n - 1$ gleich der Fallzahl. ```{r} length(y) - 1 ``` Dann einmal die Formel für die Varianz zusammengebaut. Statt $8.13$ kannst du auch `sum(y)/length(y)` oder eben `mean(y)` schreiben. ```{r} sum((y - 8.13)^2)/(length(y) - 1) ``` Dann noch die Wurzel aus der Varianz um die Standardabweichung zu berechnen. Denn nichts anderes haben wir ja bis jetzt noch nicht berechnet. ```{r} sqrt(sum((y - 8.13)^2)/(length(y) - 1)) ``` ## R `{base}` Die Funktion für die Berechnung der Standardabweichung in R ist ziemlich einfach und intuitiv. ```{r} sd(y) ``` ## Excel Wir können natürlich auch die Standardabweichung in Excel berechnen. Dafür nutzen wir dann die Funktion `STABW.S()`. Mehr dazu dann im folgenden Video einmal gezeigt. {{< video https://youtu.be/z50ARxOJ4H0 >}} ::: Wir können also schreiben, dass die Flöhe im Mittel 8.13 $\pm$ 2.14cm weit springen. Somit haben wir die Lage und die Streuung der Zahlenreihe $y$ der Sprungweite in \[cm\] mit zwei Zahlen beschrieben. Wichtig ist hierbei zu merken, dass wir den Abstand vom Mittelwert nach "oben" und "unten" jeweils mit dem gleichen Abstand beschreiben. Unsere Zahlen können also nicht mehr in die eine als in die andere Richtung streuen. ::: callout-tip ## Schreibweise des Mittelwerts und der Standardabweichung Wir schreiben immer den Mittelwert plusminus die Standardabweichung. Also immer in der Form $\bar{y} \pm s$. Meistens willst du dann aber nicht eine Tabelle haben, sondern wir nutzen dann den Mittelwert plusminus die Standardabweichung um uns [Säulendiagramme zu erstellen](@sec-eda-barplot). ::: Merke dir hier nochmal, dass du die Varianz nur als Zwischenschritt für die Standardabweichung berechnest. Später interessiert dich die Standardabweichung, die du dann auch in deinen Berichten oder deiner Abschlussarbeit nutzt. Die Standardabweichung wird nicht nur im Kontext der Agarwissenschaften genutzt sondern auch in anderen wissenschaftlichen Disziplinen. Mehr dazu dann in dem folgenden Kasten, wenn dich das noch mehr interessiert. ::: callout-note ## Das Wow!-Signal und Six Sigma Das [Wow!-Signal](https://de.wikipedia.org/wiki/Wow!-Signal) ist das Signal, wenn es um die Entdeckung von vermeidlichen außerirdischen Lebens geht. In der folgenden Abbildung siehst du einmal das namensgebende Dokument mit dem handschriftlichen "Wow!". Was sagt uns nun diese seltsame Abbildung aus? ![Scan des namensgebenden Dokuments von Jerry R. Ehman.](images/eda/wow_signal.jpg){#fig-wow-signal fig-align="center" width="100%"} Das Wow!-Signal ist eine Messung eines Radioteleskops. Für die Einfachheit, es ist faktisch die Messung von elektromagnetischen Signalen, die aus dem Kosmos zu uns kommen. Zur Bestimmung der Signalstärke relativ zum Hintergrundrauschen wurde die Standardabweichung verwendet. Der Signalwert wurde durch ein alphanumerisches Zeichen dargestellt. Ein Leerzeichen bedeutete, dass das empfangene Signal weniger als eine Standardabweichung über dem Rauschen lag. Werte von 1 bis 9 gaben an, dass das Signal 1 bis 9 Standardabweichungen über dem Rauschen lag. Noch stärkere Signale (Faktor 10 bis 35 über dem Rauschen) wurden durch die Buchstaben A bis Z dargestellt, wobei der Buchstabe U dem Intervall 30–31 entspricht. Üblicherweise sollte der Ausdruck viele Leerzeichen und gelegentlich niedrige Zahlen enthalten. Was sehen wir also auf der Abbildung? Ein ungemein starkes Signal! Wie wahrscheinlich ist eine solche Abweichung? Signale innerhalb von einer Standardabweichung kommen in 68% der Fälle vor. Wenn wir dann aber die Standardabweichung erhöhen, wird es sehr schnell sehr viel unwahrscheinlicher. Bei einer sechsfachen Standardabweichung sind wir schon bei drei Vorkommen in einer Million Fällen. Also extrem unwahrscheinlich für ein zufälliges Auftreten, wie du auch in der folgenden Tabelle bis 6 Sigma einmal siehst. | Sigma | Wahrscheinlichkeit | Wissenschaft | |:-----:|:------------------:|-------------------------| | 1 | 68.26% | | | 2 | 95.46% | Statistik | | 3 | 99.73% | | | 4 | 99.99% | | | 5 | 99.9999% | Teilchenphysik (Physik) | | 6 | \>99.9999% | Management (Wirtschaft) | : Zusammenhang von der Standardabweichung (hier *Sigma*) und der Eintrittswahrscheinlichkeit einer Beobachtung innerhalb vom Mittelwert plus/minus Sigma. {#tbl-y-sigma.} Neben dem Wow!-Signal gibt es noch die *five sigma*-Regel in der Teilchenphysik. Mehr dazu auf der Seite des CERN unter [Why do physicists mention "five sigma" in their results?](https://home.cern/resources/faqs/five-sigma). In der Wirtschaft spricht man auch gerne von [Six Sigma](https://de.wikipedia.org/wiki/Six_Sigma) als ein Managementsystem zur Prozessverbesserung, statistisches Qualitätsziel und zugleich eine Methode des Qualitätsmanagements. Auch spannend, wo wir dann immer wieder die Standardabweichung finden. ::: ## Standardfehler oder Standard Error (SE) {{< video https://youtu.be/_USaqDzXMSk >}} Der Standardfehler ist eine statistische Maßzahl, die wir häufig im Kontext des statistischen Testens benutzen. Wenn wir den Mittelwert der Sprungweiten berichten dann gehört die Standardabweichung der Sprungweiten mit als beschreibendes, statistisches Maß dazu. Wir berichten keinen Mittelwert ohne Standardabweichung. Nun ist es aber so, dass der Mittelwert und die Standardabweichung von der Fallzahl abhängen. Je mehr Fallzahl bzw. Beobachtungen wir haben, desto genauer wird der Mittelwert sein. Oder anders ausgedrückt unserer in der Stichprobe unserer Daten ermittelte Mittelwert $\bar{y}$ wird sich dem wahren, unbekannten Mittelwert $\mu_y$ annähern. Das gleiche gilt auch für unsere beobachtete Standardabweichung $s_y$, die sich der wahren, unbekannten Standardabweichung $\sigma_y$ mit steigender Fallzahl annähert. Aus diesem Grund brauchen wir noch einen Fehler bzw. eine statistische Maßzahl für die Streuung, die unabhängig von der Fallzahl ist. Damit erhalten wir dann den Standardfehler (abk. $SE$ oder auch eng. *standard error of the mean*, abk. $SEM$). Mit der Fallzahl meinen wir hier die Anzahl an Beobachtungen. Wir skalieren also die Standardabweichung mit der Fallzahl indem wir die Standardabweichung durch die Wurzel der Fallzahl teilen. ::: panel-tabset ## Mathematik $$ SE = \cfrac{s}{\sqrt{n}} = \cfrac{2.14}{\sqrt{7}} = \cfrac{2.14}{2.65} = 0.81 $$ ## R (Schritt für Schritt) Einmal der Vektor `y` mit den Zahlen, die wir benutzen wollen. ```{r} y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6) y ``` Die Summe von `y`. ```{r} sum(y) ``` Die Länge des Vektors `y` minus 1 oder eben die Anzahl $n - 1$ gleich der Fallzahl. ```{r} length(y) - 1 ``` Dann einmal die Formel für die Varianz zusammengebaut. Statt $8.13$ kannst du auch `sum(y)/length(y)` oder eben `mean(y)` schreiben. ```{r} sum((y - 8.13)^2)/(length(y) - 1) ``` Dann noch die Wurzel aus der Varianz um die Standardabweichung zu berechnen. Denn nichts anderes haben wir ja bis jetzt noch nicht berechnet. ```{r} sqrt(sum((y - 8.13)^2)/(length(y) - 1)) ``` Und dann den ganzen Term nochmal durch die Wurzel der Fallzahl. ```{r} sqrt(sum((y - 8.13)^2)/(length(y) - 1))/sqrt(length(y)) ``` ## R `{base}` ```{r} se <- sd(y)/sqrt(length(y)) se ``` ::: Wir müssten ein Paket in R laden um den Standardfehler zu berechnen. Das Laden von zusätzlichen Paketen wollen wir hier aber vermeiden; wir können den Standardfehler auch einfach selber berechnen. Wir erhalten einen Standardfehler von $0.81cm$. Diese Zahl ist in dem Sinne nicht zu interpretieren, da wir hier nur Experimente losgelöst von deren Fallzahl miteinander vergleichen können. Wenn du also zwei Sprungweitenexperimente mit unterschiedlichen Fallzahlen $n_1$ und $n_2$ bezüglich der Streuung in den Experimenten vergleichen willst, dann nutzt du den Standardfehler, da der Standardfehler unabhängig von der Fallzahl der beiden Experimente ist. Auf der anderen Seite können wir ohne die berichtete Fallzahl nicht vom Standardfehler auf die Standardabweichung schließen. Das Buch [A biologist's guide to statistical thinking and analysis](http://www.wormbook.org/chapters/www_statisticalanalysis/statisticalanalysis.html) von @fay2018biologist liefert in dem dem Abschnitt [A quick guide to interpreting different indicators of variation](http://www.wormbook.org/chapters/www_statisticalanalysis/statisticalanalysis.html#sec1-6) nochmal einen Überblick über die verschiedenen Arten der Variation eines Datensatz und deren Interpretation. Ich habe die Interpretationen abhängig von der Variationsquelle nochmal in der @tbl-sem-sd zusammengefasst. Die Standardabweichung ist eine biologische Interpretation der Variation oder Streuung in den Daten. Die beiden anderen Quellen Standardfehler und Konfidenzintervall ist dagegen statistische Maßzahlen, die anders interpretiert werden können und müssen. Hier ist der Kontext dann ein anderer. | Art des Fehlerbalkens | Überschneidung der Fehlerbalken | Nicht überlappende Fehlerbalken | |----|----|----| | Standardabweichung | Kein Rückschluss möglich | Kein Rückschluss möglich | | Standardfehler | Kein signifikanter Unterschied zwischen den Mittelwerten | Kein Rückschluss möglich | | Konfidenzintervall | Kein signifikanter Unterschied zwischen den Mittelwerten | Signifikanter Unterschied zwischen den Mittelwerten | : Verschiedene Quellen der Variation für den Fehlerbalken und die sich dadurch ergebende Interpretation der Fehlerbalken. Für mehr Informationen siehe auch den Abschnitt [A quick guide to interpreting different indicators of variation](http://www.wormbook.org/chapters/www_statisticalanalysis/statisticalanalysis.html#sec1-6) aus @fay2018biologist. {#tbl-sem-sd} In der @fig-desc-sem-00 siehst du dann die Aussagen der @tbl-sem-sd nochmal visualisiert. Alle Mittelwerte haben die gleichen Werte für die beiden Behandlungen für den Fall der sich überschneidenden Fehlerbalken sowie für die sich nicht überlappenden Fehlerbalken. Je nach Variationsquelle sehen die Fehlerbalken anders aus und haben auch eine andere Interpretation. ```{r} #| echo: false #| message: false #| warning: false #| label: fig-desc-sem-00 #| fig-align: center #| fig-height: 5 #| fig-width: 7 #| fig-cap: "Verschiedene Quellen der Variation für den Fehlerbalken und die sich dadurch ergebende Interpretation der Fehlerbalken nach deren Überlappung oder nicht. Nur die Fehlerbalken, die aus Konfidenzintervallen bestehen, können im Sinne einer vollständigen statistischen Interpretation mit *n.s* als nicht signifikant und *s* als signifikant genutzt werden. *[Zum Vergrößern anklicken]*" expand_grid(effect = c("Überschneidung der Fehlerbalken", "Nicht überlappende Fehlerbalken"), type = c("Standardabweichung", "Standardfehler", "Konfidenzintervall"), trt = c("A", "B")) |> mutate(type = as_factor(type), effect = as_factor(effect), mean = c(16, 13, 16, 13, 16, 13, 25, 13, 25, 13, 25, 13), error = c(5, 5, 3.5, 3.5, 2, 2, 5, 5, 3, 3, 1, 1), label = c("", "", "n.s", "", "n.s", "", "", "", "", "", "s", "")) |> ggplot(aes(x = trt, y = mean, fill = interaction(trt, effect))) + theme_minimal() + geom_bar(stat = "identity", width = 0.5) + geom_errorbar(aes(ymin = mean-error, ymax = mean+error), width = 0.15) + facet_wrap(~ effect*type, nrow = 2) + scale_fill_okabeito() + geom_text(aes(label = label), position = position_nudge(0.5)) + labs(y = "", x = "") + theme(legend.position = "none", axis.text.y = element_blank(), axis.text.x = element_blank()) ``` Je nachdem, was du nun zeigen möchtest, kannst du jetzt entscheiden, welche Variationsquelle du nutzen willst. Wir benötigen den Standardfehler *eigentlich* nicht zum Berichten mit Fokus von biologischen Ergebnissen. Bei manchen Modellen und Outcomes macht aber der Standardfehler mehr Sinn als die Standardabweichung. Wir können nämlich sonst Werte erhalten die biologisch keinen Sinn ergeben. Der Standardfehler ist nicht als Zahl biologisch interpretierbar und somit eine reine statistische Größe. @tbl-comp-stand-sem zeigt die Zusammenfassung und den Vergleich von Standardabweichung und Standardfehler nochmal aus einer anderen Perspektive. Das Konfidenzintervall ist eine statistische Größe, die wir dann in den folgenden Kapiteln noch behandelt werden. | Standardabweichung | Standardfehler | |----|----| | ... ist eine Aussage über die Streuung der erhobenen Werte einer Stichprobe. | ... ist eine Aussage über die Genauigkeit des Mittelwertes einer Stichprobe. | | ... hängt von der biologischen Variabilität ab. | ... abhängig von der Messgenauigkeit | | ... ist ein beschreibendes Maß. | ... ist ein statistisches Maß. | | ... ist nur wenig durch die Größe der Stichprobe beineinflussbar. | ... steht im direkten Verhältnis zur Größe der Stichprobe. | : Zusammenfassung und Vergleich von Standardabweichung und Standardfehler {#tbl-comp-stand-sem} ## Spannweite Die Spannweite erlaubt uns zu überprüfen was die kleinste Zahl und die größte Zahl ist. Also uns das Minimum und das Maximum einer Zahlenreihe anzuschauen. Auf den ersten Blick mag das nicht so sinnig sein, aber wenn wir uns hunderte von Beobachtungen anschauen, wollen wir wissen, ob wir nicht einen Fehler bei Eintragen der Daten gemacht haben. Wir wissen eigentlich, dass z.B keine negativen Zuwachsraten auftreten können. In R können wir die Spannweite mit `range()` wie folgt berechnen. Wir erhalten den minimalen und maximalen Wert. ::: panel-tabset ## Mathematik $$ y_{range} = y_{max} - y_{min} = 11.8 - 5.6 = 6.2 $$ ## R `{base}` Einmal die minimalen und maximalen Werte der Sprungweite berechnen. ```{r} range(y) ``` Dann die Differenz zwischen den beiden Werten berechnen. ```{r} range(y) |> diff() ``` ::: Die Hundeflöhe springen in einer Spannweite von 6.2 cm. Das kommt einem normal vor und wir würden meinen, dass Flöhe in diesem Bereich springen könnten. Die Spannweite ist nicht übertrieben groß. Der minimale Wert ist $5.6cm$ und der maximale Wert ist $11.8cm$ und somit sind beide Zahlen in Ordnung. Keine der beiden Zahlen ist übertrieben klein oder gar negativ. Später musst du dann selber schauen, ob die Zahlen in die biologische Fragestellung passen. Besonders wenn du Datenbanken ausliest, kann es schnell passieren, dass du unplausible Werte wiederfindest. Dann musst du diese Werte meist entfernen. Wir merken uns, dass die Spannweite eine Maßzahl für die Validität der Daten ist. Hat das Experiment geklappt oder kamen da nur komische Zahlen bei raus, die wir so in der Realität nicht erwarten würden. Zum Beispiel negative Sprungweiten, weil wir einmal auf das Minuszeichen auf der Tastatur beim eingeben der Zahlen gekommen sind. ## Median {{< video https://youtu.be/Nmvuk2KviC8 >}} Jetzt haben wir uns eine Möglichkeit den Schwerpunkt von einer Zahlenreihe zu berechnen angeschaut. Nun gibt es aber noch eine weitere Möglichkeit die "Mitte" von Zahlen zu ermitteln. Wir wollen uns jetzt noch eine andere Art der Zusammenfassung von Zahlen anschauen. Anstatt mit den Zahlen zu rechnen und die Zahlen aufzusummieren, sortieren wir jetzt die Zahlen. Wir nehmen also die Zahlen aus dem Vektor $y = \{`r str_c(y_dog, collapse = ", ")`\}$ und sortieren diese Zahlen nach dem Rang. Wir rechnen dann mit den Rängen und nicht mehr mit den Werten der Zahlen. Die kleinste Zahl kriegt den kleinsten Rang, die nächst größere Zahl dann den nächsten Rang. Wir können R über die Funktion `sort()` nutzen um den Vektor $y$ zu sortieren. Klar das geht auch schnell per Hand, aber wenn die Zahlenvektoren länger werden, dann ist so eien Funktion schon praktisch. ```{r} y |> sort() ``` Die neue Art die Mitte von dem sortierten Zahlenvektor zu bestimmen, nennen wir dann den Median berechnen. Der Median $\tilde{y}$ ist die mittlere Zahl eines Zahlenvektors. Wir haben hier sieben Zahlen, also ist der Median die vierte Zahl. Wir müssen hier aber zwischen einer ungeraden Anzahl und einer geraden Anzahl unterscheiden. Ungerade Anzahl : Wenn wir eine ungerade Anzahl an Zahlen vorliegen haben, ist der Median die mittlere Zahl des Vektors $y$: $$ 5.6, 5.7, 7.6, \underbrace{8.2,}_{Median} 8.9, 9.1, 11.8 $$ In R können wir den Median einfach mit der Funktion `median()`berechnen. ```{r } ## ohne pipe-Operator median(y) ## mit pipe-Operator y |> median() ``` Gerade Anzahl : Wenn wir eine gerade Anzahl von Zahlen vorliegen haben, ist der Median der Mittelwert der beiden mittleren Zahlen des Vektors $y$. Ich habe hier einfach die Zahl 13.1 aus dem Hut gezaubert. Es könnte auch eine beliebige andere Zahl sein, die größer als 11.8 ist. Nur damit wir hier eine gerade Anzahl an Zahlen haben: $$ 5.6, 5.7, 7.6, \underbrace{8.2, 8.9,}_{Median = \tfrac{8.2+8.9}{2}=8.55} 9.1, 11.8, \color{blue}{13.1} $$ In R können wir den Median wieder einfach mit der Funktion `median()`berechnen. Wir müssen nur die Zahl 13.1 zu dem Vektor `y` mit der Funktion `c()` hinzufügen. ```{r } c(y, 13.1) |> median() ``` Der Median ist eine Alternative zu dem Mittelwert. Insbesondere in Fällen, wo es sehr große Zahlen gibt, die den Mittelwert in der Aussage verzerren, kann der Median sinnvoll sein. Wenn der Mittelwert stark von dem Median abweicht, deutet dies auf eine schiefe Verteilung oder aber Ausreißer in den Daten hin. Wir müssen dann in der explorativen Datenanalyse der Sachlage nachgehen. ::: callout-tip ## Median versus Mittelwert Zur Veranschaulichung des Unterschiedes zwischen Median und Mittelwert nehmen wir die Mietpreise in New York. Der mittlere Mietpreis für eine 2-Zimmerwohnung in Manhattan liegt bei 5000 Dollar pro Monat. In den mittleren Mietpreis gehen aber auch die Mieten der Billionaires' Row mit ein. Der mediane Mietpreis liegt bei 4000 Dollar. Die hohen Mieten ziehen den Mittelwert nach rechts. ::: ## Quantile und Quartile {{< video https://youtu.be/Xc3n9BRmB-s >}} Bei dem Mittelwert beschreibt die Standardabweichung die Streuung der Daten um den Mittelwert. Bei dem Median sind dies die Quartile. Die Quartile beschreiben die Streuung der Daten um den Median. Damit beschreiben wir also die Streuung der Beobachtungen um den Median anhand der Quartile. Um die Quartile bestimmen zu können, teilen wir die Daten in 100 Quantile. Du kannst dir Quantile wie Prozente vorstellen. Wir schneiden die Daten also in 100 Scheiben. Das geht natürlich erst wirklich, wenn wir hundert Zahlen haben. Deshalb hilft man sich mit Qua**r**tilen - von Quarta, ein Viertel - aus. @tbl-quart-quant zeigt dir da nochmal den Zusammenhang. | Quantile | Quartile | Median | |:------------:|:-----------------:|:------:| | 25% Quantile | 1$^{st}$ Quartile | | | 50% Quantile | 2$^{nd}$ Quartile | Median | | 75% Quantile | 3$^{rd}$ Quartile | | : Zusammenfassung und Vergleich von Quantilen, Quartilen und Median {#tbl-quart-quant} Damit haben wir sogar eine Dreifachbelegung der "mittleren" Zahl. Zum einen handelt es sich um das 50% Quantil, weil 50% der Zahlen größer und 50% der Zahlen kleiner sind. Zum anderen handelt es sich auch um das 2$^{nd}$ Quartile. Da die Mitte einer Zahlenreihe als Median definiert ist, haben wir dann hier auch den Median vorliegen. Wir bestimmen die Quartile wie den Median. Wir müssen unterscheiden, ob wir eine ungerade Anzahl an Zahlen oder eine gerade Anzahl an Zahlen vorliegen haben. Ungerade Anzahl : Bei einer ungeraden Anzahl von Zahlen, ist das 1$^{st}$ Quartile die mittlere Zahl des unteren Mittels und das 3$^{rd}$ Quartile die mittlere Zahl des oberen Mittels des Vektors $y$: $$ 5.6, \underbrace{5.7,}_{1st\ Quartile} 7.6, 8.2, 8.9, \underbrace{9.1,}_{3rd\ Quartile} 11.8 $$ Gerade Anzahl : Bei einer geraden Anzahl von Zahlen, ist das 1$^{st}$ Quartile der Mittelwert der beiden mittleren Zahl des unteren Mittels und das 3$^{rd}$ Quartile der Mittelwert der beiden mittleren Zahlen des oberen Mittels des Vektors $y$. Ich habe hier einfach die Zahl 13.1 aus dem Hut gezaubert. Es könnte auch eine beliebige andere Zahl sein, die größer als 11.8 ist. Nur damit wir hier eine gerade Anzahl an Zahlen haben: $$ 5.6, \underbrace{5.7, 7.6,}_{1st\ Quartile = \tfrac{5.7+7.6}{2}=6.65} 8.2, 8.9, \underbrace{9.1, 11.8}_{3rd\ Quartile = \tfrac{9.1+11.8}{2}=10.45} \color{blue}{13.1} $$ Das 95% Quantile und das 97.25% Quantile werden wir später nochmal im statistischen Testen brauchen. Auch hier ist die Idee, dass wir die Daten in hundert Teile schneiden und uns dann die extremen Zahlen anschauen. In R können wir den Median einfach mit der Funktion `quantile()` berechnen. Wir berechnen hier das 25% Quantile also das 1$^{st}$ Quartile sowie das 50% Quantile also den Median und das 75% Quantile also das 3$^{rd}$ Quartile. ```{r } y |> quantile(probs = c(0.25, 0.5, 0.75)) |> round(2) c(y, 13.1) |> quantile(probs = c(0.25, 0.5, 0.75)) |> round(2) ``` Warum unterscheiden sich die händisch berechneten Quartile von den Quartilen aus R? Es gibt verschiedene Arten der Berechnung. In der Klausur nutzen wir die Art und Weise wie die händische Berechnung hier beschrieben ist. Später in der Anwendung nehmen wir die Werte, die R ausgibt. Die Abweichungen sind so marginal, dass wir diese Abweichungen in der praktischen Anwendung ignorieren wollen. ## Interquartilesabstand (IQR) Der Interquartilesabstand (IQR) beschreibt den Abstand zwischen dem 1$^{st}$ Quartile und dem 3$^{rd}$ Quartile. Daher ist der Interquartilesabstand (IQR) ähnlich der Spannweite zwischen dem maximalen und minimalen Wert. Wir benötigen das Interquartilesabstand (IQR) in der explorativen Datenanalyse wenn wir einen Boxplot erstellen wollen. $$ IQR = 3^{rd}\,\mbox{Quartile} - 1^{st}\,\mbox{Quartile} = 9.1 - 5.7 = 3.4 $$ Wir verwenden das IQR als Zahl eher selten. ::: callout-note ## Parametrik versus Nicht-Parametrik Wenn wir einen Zahlenvektor wie durch $y = \{`r str_c(y_dog, collapse = ", ")`\}$ beschrieben zusammenfassen wollen, haben wir zwei Möglichkeiten. 1) Die **parametrische Variante** indem wir *mit den Zahlen* rechnen und deskriptive Maßzahlen wie Mittelwert, Varianz und Standardabweichung berechnen. Diese Maßzahlen kommen aber in den Zahlen nicht vor. 2) Die **nicht-parametrische** Variante indem wir die Zahlen in Ränge umwandeln, also sortieren, und *mit den Rängen* der Zahlen rechnen. Die deskriptiven Maßzahlen wären dann Median, Quantile und Quartile. ::: ## Variationskoeffizient Im Gegensatz zu der Varianz ist der Variationskoeffizient ein relatives Streuungsmaß, das heißt, der Variationskoeffizient hängt nicht von der Maßeinheit von $y$ ab. Die Motivation für den Variationskoeffizient ist, dass ein $y$ mit großem Mittelwert häufig eine größere Varianz aufweist als eine mit einem kleinen Mittelwert. Da die Varianz und die daraus abgeleitete Standardabweichung nicht normiert sind, kann ohne Kenntnis des Mittelwerts nicht beurteilt werden, ob eine Varianz groß oder klein ist. Der Variationskoeffizient ist eine Normierung der Varianz. Ist die Standardabweichung somit größer als der Mittelwert, so ist der Variationskoeffizient größer 1. Der Variationskoeffizient wird häufig verwendet, um die Variation zwischen zwei verschiedenen Datensätzen zu vergleichen. Wir können den Variationskoeffizient basierend auf dem Mittelwert und der Standardabweichung berechnen. In unserem Beispiel würden wir als die Standardabweichung $s$ und den Mittelwert $\bar{y}$ in die Formel einsetzen. ::: panel-tabset ## Mathematik $$ v = \cfrac{s}{\bar{y}} = \cfrac{2.14}{8.13} = 0.26 $$ ## R (Schritt für Schritt) Einmal der Vektor `y` mit den Zahlen, die wir benutzen wollen. ```{r} y <- c(5.7, 8.9, 11.8, 5.6, 9.1, 8.2, 7.6) y ``` Die Summe von `y`. ```{r} sum(y) ``` Die Länge des Vektors `y` minus 1 oder eben die Anzahl $n - 1$ gleich der Fallzahl. ```{r} length(y) - 1 ``` Dann einmal die Formel für die Varianz zusammengebaut. Statt $8.13$ kannst du auch `sum(y)/length(y)` oder eben `mean(y)` schreiben. ```{r} sum((y - 8.13)^2)/(length(y) - 1) ``` Dann noch die Wurzel aus der Varianz um die Standardabweichung zu berechnen. Denn nichts anderes haben wir ja bis jetzt noch nicht berechnet. ```{r} sqrt(sum((y - 8.13)^2)/(length(y) - 1)) ``` Dann nochmal den Mittelwert berechnen den wir nochmal brauchen. Aber auch hier getht natürlich auch die Built-in Funktion `mean(y)`. ```{r} sum(y)/length(y) ``` Dann einmal alles zusammen und wir haben den Variationskoeffizient Schritt für Schritt berechnet. ```{r} sqrt(sum((y - 8.13)^2)/(length(y) - 1))/(sum(y)/length(y)) ``` ## R `{base}` ```{r} var_coef <- sd(y)/mean(y) var_coef ``` ::: Wir können den Variationskoeffizient auch basierend auf dem Median berechnen. $$ v_r=\cfrac{x_{0.75}-x_{0.25}}{\tilde{x}_{0.5}} $$ In unserem Fall müssen wir hier dann die Quartile und den Median in die Formel einsetzen. $$ v_r=\cfrac{9.1 - 5.7}{8.2} = 0.41 $$ Im Bereich der Agrarwissenschaften kommt der Variationskoeffizient eher selten vor. Der Variationskoeffizient ist eben eine statistische Maßzahl des Labors. Aber dennoch kommt der Variationskoeffizient immer mal wieder vor. Ich berechne denn Variationskoeffizient immer in R direkt aus der Standardabweichung und dem Mittelwert oder aber ich baue mir die Formel in R selber. So schwer ist es dann auch nicht. ```{r} var_coef <- function(y) { return(sd(y)/mean(y)) } var_coef(y) ``` ## Häufigkeiten Neben der Darstellung von kontinuierlichen Zahlen, wollen wir auch häufig kategoriale Zahlen sinnvoll darstellen und zusammenfassen. Zwar können wir auch ohne weiteres die mittlere Note berechnen, aber meistens wollen wir dann doch wissen, wie viele Noten jeweils vergeben worden sind. Auch wenn wir uns mit einer $0/1$ Variable beschäftigen, also zum Beispiel infiziert ja/nein, wollen wir diese Variablen zusammenfassen. Wir wollen hier also Häufigkeiten (eng. *frequency*) berechnen und darstellen. Dabei gibt es verschiedene Arten von Häufigkeiten, die wir uns jetzt nacheinander einmal anschauen. Fangen wir also einmal mit der Variable `infected` an. Wir haben in dieser Variable abgelegt, ob der Hund mit einem Floh infiziert ist `1` oder eben nicht infiziert ist `0`. Wie du siehst, kodieren wir das "Ja" mit einer 1 und das "Nein" mit einer 0. $$ y_{infected} = \{`r str_c(flea_dog_tbl$infected, collapse = ", ")`\}. $$ In R würde der Vektor der Zahlen etwas anders aussehen, aber das hat eher was mit der Schreibweise der Mathematik und der Informatik zu tun. Inhaltlich sehen wir hier gleichen Informationen. ```{r } y_infected <- c(0, 1, 1, 0, 1, 0, 0) ``` Schauen wir uns als einmal die drei Möglichkeiten die kategorialen Daten als Häufigkeiten abzubilden an. Wir können zum einen die absoluten Häufigkeiten berichten. Wir sagen also ganz einfach, wie viele Hunde sind von der Gesamtheit infiziert. Absolute Häufigkeit : Wir zählen die Anzahl an infizierten Tieren und berichten die Anzahl zusammen mit der gesamt Anzahl an Tieren. Also haben wir dann als absolute Häufigkeit $f_{absolut} = n_{infiziert} / n_{gesamt}$ zu berichten. Damit könne wir auch die absoluten Häufigkeiten einfach ausrechnen und berichten. Wir haben ja drei infizierte Hunde von sieben Hunden vorliegen. $$ f_{infected} = 3 / 7 $$ Als nächstes schauen wir uns die relativen Häufigkeiten an. Relative Häufigkeiten werden weit häufiger berichtet. Wir haben ja dann die guten, alten Prozente vorliegen. Relative Häufigkeit : Wir zählen die infizierten Tiere und teilen die Anzahl an infizierten Tiere durch die gesamte Anzahl an Tieren. Wir rechnen also die relative Häufigkeit mit $f_{relativ} = n_{infiziert} / n_{gesamt}$. Sieht erstmal aus wie die absolute Häufigkeit, aber hier rechnen wir den Term dann auch aus. Damit teilen wir dann unsere drei infizierten Hunde durch die gesamte Anzahl von sieben Tieren. $$ f_{infected} = \cfrac{3}{7} = 0.43 $$ Meistens schreiben wir dann aber einen Hybriden aus absoluter und relativer Häufigkeit mit $3 / 7\; (43\%)$. Wir ergänzen also die absoluten Häufigkeiten um die relativen Häufigkeiten. Ist dann eigentlich doppelt gemoppelt, aber wir wollen häufig auch sehen auf welcher Gesamtzahl die relative Häufigkeit sich begründet. Neben der klassischen Häufigkeit, die wir durch die prozentuale Angabe kennen, gibt es auch noch die Chance. Die Chance infiziert zu sein, ist was anderes als die Wahrscheinlichkeit infiziert zu sein. Die Wahrscheinlichkeit ist eine relative Häufigkeit. Die Chance berechnet sich dabei etwas anders, den die Chance ist ein Anteil. Chance : Die Chance beschreibt den Anteil der infizierten Tiere an den nicht infizierten Tieren. Oder aber wir schreiben für die Chance $f_{chance} = n_{1} : n_{0}$ mit $n_1$ gleich der Anzahl an infizierten Tieren und $n_0$ gleich der Anzahl der nicht infizierten also gesunden Tiere. Wie du im Folgenden siehst, ergibt sich bei der Chance ein anderer Wert als bei der relativen Häufigkeiten. Wir haben also eine andere Chance infiziert zu sein, als die Wahrscheinlichkeit infiziert zu sein. Das ist auch so gewollt, denn wir betrachten ja bei der Chance etwas anders. Wir schauen den Anteil der drei infizierten Tiere im Vergleich zu den vier gesunden Tieren an. Wir erhalten dann eine Chance von $75\%$ um infiziert zu sein. $$ f_{infected} = 3 : 4 = 0.75 $$ Wenn wir die Häufigkeiten berechnen wollen, dann nutzen wir auch wieder R. Es gibt viele Funktionen in R, die wir nutzen könne. Hier erstellen wir eine Tabelle in R mit der Funktion `tabyl()` aus dem R Paket `{janitor}`. Es gibt noch andere Möglichkeiten, die schauen wir uns aber gleich im nächsten Abschnitt an. Einmal die sehr simplen Form der Berechnung für die infizierten Hunden. Die Funktion `tabyl()` liefert neben der absoluten Häufigkeiten dann auch die relativen Häufigkeiten. Deshalb mag ich diese Funktion sehr gerne für das schnelle Nachschauen. ```{r} y_infected |> tabyl() ``` Oder aber etwas komplexer für die Noten der Hunde. Hier siehst du dann nochmal schöner, wie sich die Tabelle aufbaut. ```{r} flea_dog_tbl |> pull(grade) |> tabyl() ``` Damit sind wir dann auch schon durch mit den Häufigkeiten. Selten berichten wir die reinen Häufigkeiten jeweils separat sondern in einer großen Übersichtstabelle. Um diese großen Übersichtstabelle und deren Erstellung wollen wir uns jetzt im nächsten Abschnitt einmal anschauen. ## Automatisierung in R {#sec-automated-table} ::: callout-caution ## Ups, das hier ist mir aber zu wild! Der folgende Abschnitt ist nicht relevant für eine Klausur. Wir brauchen aber die Automatisierung in R um später sinnvoll Daten in einer Abschlussarbeit oder einem Projekt auswerten zu können. Also keine Angst, bitte überspringt den Abschnitt, wenn du nur für die Klausur lernst. ::: Im Folgenden wollen wir einmal den Datensatz zu den Gummibärchen zusammenfassen und zu beschreiben. Hier können wir nicht einfach so einen Überblick kriegen in dem wir uns einfach nur die Daten anschauen. Die Exceltabelle ist dafür viel zu lang um einen Überblick zu erlangen. Laden wir also einmal den Datensatz und wählen nur ein paar Spalten aus, damit wir hier nicht zu viel Tabellen produzieren. ```{r} #| message: false gummi_tbl <- read_excel("data/gummibears.xlsx") |> select(gender, height, age, count_color, most_liked) |> mutate(gender = as_factor(gender)) ``` Wir erhalten das Objekt `gummi_tbl` mit dem Datensatz in @tbl-data-dist-gummi nochmal als Auszug dargestellt. Wir brauchen aber nicht alle Spalten aus dem ursprünglichen Datensatz und somit ist die Tabelle etwas übersichtlicher. Wir schauen uns also dann mal zwei kontinuierlichen und kategorialen Variablen an. ```{r} #| message: false #| echo: false #| tbl-cap: Auszug aus den selektierten Daten zu den Gummibärchendaten mit zwei kontinuierlichen und kategorialen Variablen #| label: tbl-data-dist-gummi gummi_print_tbl <- gummi_tbl |> mutate(gender = as.character(gender)) rbind(head(gummi_print_tbl, 4), rep("...", times = ncol(gummi_print_tbl)), tail(gummi_print_tbl, 4)) |> kable(align = "c", "pipe") ``` Ich stelle jetzt zwei R Pakete mit `{gtsummary}` und `{modelsummary}` vor, die du nutzen kannst um Daten zusammenzufassen. Es gibt aber noch weit mehr Pakete, aber wir konzentrieren uns mal auf diese beiden Pakete. ::: callout-tip ## Was gibt es noch an Möglichkeiten? Neben den beiden vorgestellten gibt es natürlich auch [Alternativen zu `{gtsummary}` und `{modelsummary}`](https://modelsummary.com/index.html#alternative-packages). Da müsstest du dann aber mal selber schauen oder mich direkt Fragen. Wenn Interesse besteht kann ich auch noch andere Pakete vorstellen. ::: ### Mit dem Paket `{gtsummary}` Meiner Meinung nach ist das Paket `{gtsummary}` das Paket für die Erstellung von Übersichttabellen. Wie du auf der[Hilfeseite von `gtsummary`](https://www.danieldsjoberg.com/gtsummary/) sehen wirst, gibt es wirklich sehr viele Möglichkeiten eine schöne Tabelle zu bauen. Neben der Zusammenfassung kannst du auch $p$-Werte aus statistischen Tests ergänzen oder auch die Differenzen zwischen zwei Gruppen. Hier ist wirklich viel möglich in dem Paket. Fangen wir also einmal an eine Übersichtstabelle zu erstellen. Wir bauen eine simple Tabelle über alle Variablen in dem Datensatz `gummi_tbl` aufgeteilt nach dem Geschlecht. Das geht recht schnell und ohne viel Schnickschnack. ```{r} #| message: false #| warning: false gummi_tbl |> tbl_summary(by = gender) ``` Das ist schon toll, sich so schnell eine Übersicht über die Daten zu schaffen. Wir haben alle Informationen, die wir brauchen, um mal eine Idee der Daten zu erhalten. Das ist dann immer so eine Sache, meist wollen wir dann die Daten dann doch nicht so exakt zusammenfassen. Aber auch hier hilft `{gtsummary}` mit sehr vielen Optionen. In der @fig-desc-gt-table siehst du nochmal die Optionen in `{gtsummary}` übersetzt in die ausgegebene Tabelle. ![Darstellung der `{gtsummary}` Optionen in die ausgegebene Tabelle.](images/eda/desc-gt-table.png){#fig-desc-gt-table fig-align="center" width="100%"} Hier nochmal ein Beispiel mit mehr Optionen und dann einer anderen Darstellung. Siehe das hier aber nur als Beispiel, es gibt aber noch sehr viel mehr Optionen für die Darstellung. Du kannst auch `{mean} ({sd})` durch `{mean}+/-{sd}` ersetzen um eine andere Schreibweise zu haben. ```{r} #| message: false #| warning: false gummi_tbl |> tbl_summary( by = gender, statistic = list( all_continuous() ~ "{mean} ({sd})", all_categorical() ~ "{n} / {N} ({p}%)" ), digits = all_continuous() ~ 2, label = count_color ~ "Anzahl Farben", missing_text = "(Missing)" ) ``` Das ist soweit schon mal gut, aber wir wollen meist die Tabelle dann doch in Word haben. Nicht das du deine Abschlussarbeit auch [mit $\LaTeX$ schreiben](https://de.overleaf.com/) könntest. Wir können dafür dann über die Funktion `gtsave` aus dem R Paket `gt` unsere Tabelle dann in einem Worddokument speichern. Wie toll ist das denn? Aber Achtung, bitte nicht in dein Hauptdokument abspeichern sondern immer eine Datei für eine Tabelle. Sonst kann es sein, dass du dir aus Versehen mal deine Tabellen überschreibst. ```{r} #| message: false #| warning: false #| eval: false gummi_tbl |> tbl_summary(by = gender) |> as_gt() |> gt::gtsave(filename = "example.docx") ``` Frag mich gerne, wenn du weitere Informationen brauchst oder schau auch mal das [Cheatsheet für `gtsummary`](https://raw.githubusercontent.com/rstudio/cheatsheets/main/gtsummary.pdf) an. Du findest im Cheatsheet auch nochmal einen Überblick was alles möglich ist. Ich finde da den Überblick wirklich super. ### Mit dem Paket `{modelsummary}` Eine andere Möglichkeit ist das R Paket `{modelsummary}`. Hier haben wir auch die Möglichkeit neben Modellvergleiche auch Daten in schönen Tabellen zusammenzufassen. Auch hier hilft die [Hilfeseite von `{modelsummary}`](https://modelsummary.com/index.html) um über die vielen Möglichkeiten einen Überblick zu erlangen. Meiner Meinung nach braucht das Paket `{modelsummary}` etwas mehr Programmiererfahrung für die Bedienung, kann dafür dann aber auch mehr. Du musst dich vorab um fehlende Daten kümmern oder aber die Funktionen entsprechend umdefinieren. Also entfernen wir erstmal grob alle fehlenden Werte mit `na.omit()`. Das ist jetzt aber die etwas ungünstige Variante, da wir das jetzt über alle Variablen die fehlenden Werte entfernen. Sobald eine Variable einen fehlenden Wert hat, schmeißen wir die ganze Beobachtung raus. ```{r} gummi_clean_tbl <- gummi_tbl |> na.omit() ``` Jetzt nutzen wir die Funktion `datasummary_skim()` um einmal einen schnellen Überblick zu produzieren. Wir müssen die Funktion aber zweimal nutzen. Einmal um uns die kontinuierlichen Variablen `type = "numeric"` anzuschauen und einmal für die kategorialen Variablen `type = "categorical"`. Du kriegst zwar im Folgenden die fehlenden Werte angezeigt, aber das ist eben nur in der Funktion `datasummary_skim()` möglich. ```{r} gummi_clean_tbl |> datasummary_skim(type = "numeric") ``` Dann nochmal die Anzahl und die relative Häufigkeit für die kategorialen Variablen. Ich habe hier jetzt nicht nochmal tiefer die Ausgabe modifiziert. ```{r} gummi_clean_tbl |> datasummary_skim(type = "categorical") ``` Es gibt aber in dem R Paket `{modelsummary}` noch wirklich eine Menge mehr Optionen. Bitte schau da nochmal die Hilfeseite [`datasummary`: Crosstabs, frequencies, correlations, balance (a.k.a. "table 1"), and more](https://modelsummary.com/articles/datasummary.html) an. Wir gehen hier dann nicht tiefer auf die Möglichkeiten ein. Und auch hier kannst du ganz einfach deine Tabelle in ein Worddokument speichern. Ich habe mich hier an der Hilfeseite [`datasummary` als \*.docx abspeichern](https://modelsummary.com/articles/datasummary.html#output) orientiert und den Code etwas angepasst. Faktisch ergänzt du einfach die Option `output = "table.docx"`. Damit speicherst du dann deine `datasumary` Tabelle in die Datei `table.docx`. ```{r} #| message: false #| warning: false #| eval: false datasummary(height ~ gender * (mean + sd), data = gummi_clean_tbl, output = 'table.docx') ``` ## Referenzen {.unnumbered}

17.1 Genutzte R Pakete

17.2 Daten

17.3 Mittelwert

17.3.1 Arithmetisch

17.3.2 Geometrisch

17.3.3 Getrimmt

17.3.4 Winsorisiert

17.4 Varianz

17.5 Standardabweichung

17.6 Standardfehler oder Standard Error (SE)

17.7 Spannweite

17.8 Median

17.9 Quantile und Quartile

17.10 Interquartilesabstand (IQR)

17.11 Variationskoeffizient

17.12 Häufigkeiten

17.13 Automatisierung in R

17.13.1 Mit dem Paket {gtsummary}

17.13.2 Mit dem Paket {modelsummary}

Referenzen

17.13.1 Mit dem Paket `{gtsummary}`

17.13.2 Mit dem Paket `{modelsummary}`