R Code [zeigen / verbergen]
<- read_excel("data/animal_olympics.xlsx") olymp_tbl
Letzte Änderung am 31. July 2025 um 20:21:25
“The average teacher explains complexity; the gifted teacher reveals simplicity.” — Robert Breault
Wir brauchen immer mal wieder etwas komplexere Daten und deshalb habe ich die Datensätze, die häufiger vorkommen, hier einmal gebündelt. Die komplexeren Datensätze werden dann in den Kapiteln zur Regressionsanalyse und Modellierung genutzt. Dafür brauchen wir dann größere Datensätze an denen wir dann auch was erkennen können.
Wir beschäftigen uns ja zu Beginn mit den Sprungweiten von verschiedenen Floharten. Hier habe ich dann nochmal einen anderen Datensatz mitgebracht. In meinem kleinen Datensatz zur Olympiade der Tiere habe ich die wissenschaftliche Arbeit von Yang et al. (2014) als Grundlage genommen. Wir haben hier das Körpergewicht und die durchschnittliche Dauer des Urinierens vorliegen. Diese Liste habe ich dann einmal erweitert. Ich habe dann noch die Sprungweiten und Sprunghöhen der Tiere ergänzt, soweit es mit möglich war die entsprechenden Informationen zu finden.
<- read_excel("data/animal_olympics.xlsx") olymp_tbl
In der folgenden Tabelle findest du dann einmal einen Auszug aus den Daten. Ich habe hier einige Leerstellen, da ich nicht zu allen Tierarten die entsprechenden Informationen vorliegen habe. Dann müssen wir eben mit Leerstellen leben.
animal | sex | mass | duration | jump_height | jump_length |
---|---|---|---|---|---|
Bat | F | 0.03 | 0.32 | ||
Bison | M | 907 | 20 | 180 | 214 |
Cat | F | 5 | 18 | 150 | 183 |
Chihuahua | M | 3 | 4 | 40 | 76.2 |
Cow | 510 | 21 | 150 | ||
Dog | M | 71 | 24 | 150 | 121 |
… | … | … | … | … | … |
Rhino | M | 2200 | 17 | ||
Squirrel | 19 | 5 | 150 | 243 | |
Tapir | F | 318 | 9 | ||
Tapir | M | 318 | 59 | ||
White horse | F | 470 | 10 | ||
Zebra | M | 430 | 8 | 80 |
Die Daten beinhalten dann die folgenden erhobenen Variablen. Teilweise sind die Informationen dann aus Yang et al. (2014) und Cadiergues et al. (2000) entnommen. In anderen Fällen habe ich das Internet befragt und die erste Information, die valide klang, übernommen.
Dann können wir uns auch einmal einen Auszug aus den Daten in der folgenden Abbildung anschauen. Ich habe mit hier für den Zusammenhang zwischen der Dauer des Urinierens und dem Körpergewicht sowie dem Zusammenhang zwischen der Sprunghöhe und dem Sprunggewicht entschieden.
Wir nutzen den Datensatz in verschiedenen Kapiteln.
Du findest die Datei animal_olympics.xlsx
auf GitHub jkruppa.github.io/data/ als Excel Datei.
Im Folgenden schauen wir uns den anonymisierten Datensatz zu einer Ferkelinfektion an. Wir haben verschiedene Gesundheitsparameter an den Ferkeln gemessen und wollen an diesen Rückschließen, ob diese Gesundheitsparameter etwas mit der Infektion zu tun haben. Insgesamt haben wir gut \(400\) Ferkel an vier verschiedenen Orten in Niedersachsen gemessen.
age | sex | location | activity | crp | frailty | bloodpressure | weight | creatinin | infected |
---|---|---|---|---|---|---|---|---|---|
61 | male | northeast | 15.31 | 22.38 | robust | 62.24 | 19.05 | 4.44 | 1 |
53 | male | northwest | 13.01 | 18.64 | robust | 54.21 | 17.68 | 3.87 | 1 |
66 | female | northeast | 11.31 | 18.76 | robust | 57.94 | 16.76 | 3.01 | 0 |
59 | female | north | 13.33 | 19.37 | robust | 56.15 | 19.05 | 4.35 | 1 |
63 | male | northwest | 14.71 | 21.57 | robust | 55.38 | 18.44 | 5.27 | 1 |
55 | male | northwest | 15.81 | 21.45 | robust | 60.29 | 18.42 | 4.78 | 1 |
… | … | … | … | … | … | … | … | … | … |
54 | female | north | 11.82 | 21.5 | pre-frail | 55.32 | 19.75 | 3.92 | 1 |
56 | male | west | 13.91 | 20.8 | frail | 58.37 | 17.28 | 7.44 | 0 |
57 | male | northwest | 12.49 | 21.95 | pre-frail | 56.66 | 16.86 | 2.44 | 1 |
61 | male | northwest | 15.26 | 23.1 | robust | 57.18 | 15.55 | 3.08 | 1 |
59 | female | north | 13.13 | 20.23 | robust | 56.64 | 18.6 | 3.41 | 0 |
63 | female | north | 10.01 | 19.89 | robust | 57.46 | 18.6 | 4.2 | 1 |
Auch hier haben wir nur eingeschränkte Informationen zu den erhobenen Variablen. Daher müssen wir schauen, dass die Variablen in etwa Sinn ergeben.
Wir nutzen den Datensatz unter anderem in der logistischen Regression in sec-logistic.
Du findest die Datei infected_pigs.xlsx
auf GitHub jkruppa.github.io/data/ als Excel Datei.
In der folgenden Datentabelle wollen wir uns die Anzahl an Hechten in verschiedenen nordamerikanischen Flüßen anschauen. Jede Zeile des Datensatzes steht für einen Fluss. Wir haben dann in jedem Fluss die Anzahl an Hechten gezählt und weitere Flussparameter erhoben. Wir fragen uns, ob wir anhand der Flussparameter eine Aussage über die Anzahl an Hechten in einem Fluss machen können. Die Daten zu den langnasigen Hechten stammt von Salvatore S. Mangiafico - An R Companion for the Handbook of Biological Statistics.
stream | longnose | area | do2 | maxdepth | no3 | so4 | temp |
---|---|---|---|---|---|---|---|
basin_run | 13 | 2528 | 9.6 | 80 | 2.28 | 16.75 | 15.3 |
bear_br | 12 | 3333 | 8.5 | 83 | 5.34 | 7.74 | 19.4 |
bear_cr | 54 | 19611 | 8.3 | 96 | 0.99 | 10.92 | 19.5 |
beaver_dam_cr | 19 | 3570 | 9.2 | 56 | 5.44 | 16.53 | 17 |
beaver_run | 37 | 1722 | 8.1 | 43 | 5.66 | 5.91 | 19.3 |
bennett_cr | 2 | 583 | 9.2 | 51 | 2.26 | 8.81 | 12.9 |
… | … | … | … | … | … | … | … |
seneca_cr | 23 | 18422 | 9.9 | 45 | 1.58 | 8.37 | 20.1 |
south_br_casselman_r | 2 | 6311 | 7.6 | 46 | 0.64 | 21.16 | 18.5 |
south_br_patapsco | 26 | 1450 | 7.9 | 60 | 2.96 | 8.84 | 18.6 |
south_fork_linganore_cr | 20 | 4106 | 10 | 96 | 2.62 | 5.45 | 15.4 |
tuscarora_cr | 38 | 10274 | 9.3 | 90 | 5.45 | 24.76 | 15 |
watts_br | 19 | 510 | 6.7 | 82 | 5.25 | 14.19 | 26.5 |
Wie immer haben wir nicht so viele Informationen über die Daten vorliegen. Einiges können wir aber aus den Namen der Spalten in dem Datensatz ableiten. Wir haben in verschiedenen Flüssen die Anzahl an Hechten gezählt und noch weitere Flussparameter gemessen. Ein wenig müssen wir hier auch unsere eigene Geschichte spinnen.
Wir nutzen den Datensatz unter anderem in der Poisson Regression in sec-poisson.
Du findest die Datei longnose.csv
auf GitHub jkruppa.github.io/data/ als Csv Datei.
Im Folgenden schauen wir uns die Daten eines Pilotprojektes zum Anbau von Kichererbsen in Brandenburg an. Wir haben an verschiedenen anonymisierten Bauernhöfen Kichererbsen angebaut und das Trockengewicht als Endpunkt bestimmt. Darüber hinaus haben wir noch andere Umweltparameter erhoben und wollen schauen, welche dieser Parameter einen Einfluss auf das Trockengewicht hat.
temp | rained | location | no3 | fe | sand | forest | dryweight |
---|---|---|---|---|---|---|---|
25.26 | high | north | 5.56 | 4.43 | 63 | >1000m | 253.42 |
21.4 | high | northeast | 9.15 | 2.58 | 51.17 | <1000m | 213.88 |
27.84 | high | northeast | 5.57 | 2.19 | 55.57 | >1000m | 230.71 |
24.59 | low | north | 7.97 | 1.47 | 62.49 | >1000m | 257.74 |
26.51 | low | north | 6.29 | 4.3 | 59.09 | >1000m | 242.03 |
22.3 | low | northeast | 6.69 | 4.78 | 58.72 | >1000m | 236.98 |
… | … | … | … | … | … | … | … |
25.04 | low | northeast | 5.64 | 2.22 | 59.47 | >1000m | 240.28 |
28.77 | low | west | 6.55 | 2.26 | 61.11 | >1000m | 268.39 |
25.47 | low | north | 6.92 | 3.18 | 64.55 | <1000m | 268.58 |
29.04 | low | north | 5.64 | 2.87 | 53.27 | >1000m | 236.07 |
24.11 | high | northeast | 4.31 | 3.66 | 63 | <1000m | 259.82 |
28.88 | low | northeast | 7.92 | 2 | 65.75 | >1000m | 274.75 |
Es ist ja schon fast Mode, aber auch hier haben wir wenig bis gar keine Informationen zu den erhobenen Variablen. Daher machen wir das Beste aus der Sachlage und überlegen uns was hier passen könnte.
Wir nutzen den Datensatz unter anderem in der Gaussian Regression in sec-gaussian.
Du findest die Datei chickpeas.xlsx
auf GitHub jkruppa.github.io/data/ als Excel Datei.