7  Von komplexeren Daten

Letzte Änderung am 02. April 2024 um 09:52:43

“The average teacher explains complexity; the gifted teacher reveals simplicity.” — Robert Breault

Wir brauchen immer mal wieder etwas komplexere Daten und deshalb habe ich die Datensätze, die häufiger vorkommen, hier einmal gebündelt. Die komplexeren Datensätze werden dann in den Kapiteln zur Regressionsanalyse und Modellierung genutzt. Dafür brauchen wir dann größere Datensätze an denen wir dann auch was erkennen können.

7.1 Von infizierten Ferkeln

Im Folgenden schauen wir uns den anonymisierten Datensatz zu einer Ferkelinfektion an. Wir haben verschiedene Gesundheitsparameter an den Ferkeln gemessen und wollen an diesen Rückschließen, ob diese Gesundheitsparameter etwas mit der Infektion zu tun haben. Insgesamt haben wir gut \(400\) Ferkel an vier verschiedenen Orten in Niedersachsen gemessen.

Tabelle 7.1— Auszug aus dem Daten zu den kranken Ferkeln.
age sex location activity crp frailty bloodpressure weight creatinin infected
61 male northeast 15.31 22.38 robust 49.88 16.94 3.07 1
53 male northwest 13.01 18.64 robust 58.2 17.95 4.88 0
66 female northeast 11.31 18.76 robust 56.8 19.02 3.98 0
59 female north 13.33 19.37 robust 56.47 18.98 5.18 0
63 male northwest 14.71 21.57 robust 59.85 16.57 6.71 1
55 male northwest 15.81 21.45 robust 58.1 18.22 5.43 1
54 female north 11.82 21.5 robust 57.05 17.95 6.16 1
56 male west 13.91 20.8 pre-frail 50.84 18.02 6.52 1
57 male northwest 12.49 21.95 robust 55.51 17.73 3.94 1
61 male northwest 15.26 23.1 robust 58.5 18.23 2.73 1
59 female north 13.13 20.23 pre-frail 57.33 17.21 5.42 1
63 female north 10.01 19.89 robust 55.85 17.76 6.18 1

Auch hier haben wir nur eingeschränkte Informationen zu den erhobenen Variablen. Daher müssen wir schauen, dass die Variablen in etwa Sinn ergeben.

  • age, das Alter in Lebenstagen der untersuchten Ferkel.
  • sex, das bestimmte Geschlecht der Ferkel.
  • location, anonymisierter Ort der Untersuchung. Wir unterscheiden zwischen Norden, Nordosten, West und Nordwest in Niedersachsen.
  • activity, Minuten an Aktivität pro Stunde. Die Aktivität wurde über eine automatische Bilderkennung bestimmt. Dabei musste die Bewegung ein gewisses Limit übersteigen. Einfach rumgehen hat nicht gereicht um gezählt zu werden.
  • crp, der CRP-Wert in mg/l aus der Blutprobe. Das Ausmaß des CRP-Anstiegs gibt einen Hinweis auf die Schwere der zugrundeliegenden Krankheit.
  • frailty, die visuelle Einordnung des Gesundheitszustandes anhand der Beweglichkeit des Ferkels. Nach einem Punkteschema wurden die Ferkel in die drei Gruppen robust, pre-frail und frail eingeteilt.
  • bloodpressure, gemessener Blutdruck der Ferkel.
  • weight, das gemessene Gewicht der Ferkel in kg.
  • creatinin, der Creatinin-Wert aus der Blutprobe. Zu hohe Kreatinin-Werte können auf eine Nierenschwäche, Verletzungen der Muskulatur oder eine Entzündung der Haut und Muskulatur hindeuten.
  • infected, der Infektionsstatus zum Zeitpunkt der Untersuchung.

Wir nutzen den Datensatz unter anderem in der logistischen Regression in Kapitel 51.

Datei von den infizierten Ferkeln

Du findest die Datei infected_pigs.xlsx auf GitHub jkruppa.github.io/data/ als Excel Datei.

7.2 Von langnasigen Hechten

In der folgenden Datentabelle wollen wir uns die Anzahl an Hechten in verschiedenen nordamerikanischen Flüßen anschauen. Jede Zeile des Datensatzes steht für einen Fluss. Wir haben dann in jedem Fluss die Anzahl an Hechten gezählt und weitere Flussparameter erhoben. Wir fragen uns, ob wir anhand der Flussparameter eine Aussage über die Anzahl an Hechten in einem Fluss machen können.

Tabelle 7.2— Auszug aus dem Daten zu den langnasigen Hechten.
stream longnose area do2 maxdepth no3 so4 temp
basin_run 13 2528 9.6 80 2.28 16.75 15.3
bear_br 12 3333 8.5 83 5.34 7.74 19.4
bear_cr 54 19611 8.3 96 0.99 10.92 19.5
beaver_dam_cr 19 3570 9.2 56 5.44 16.53 17
beaver_run 37 1722 8.1 43 5.66 5.91 19.3
bennett_cr 2 583 9.2 51 2.26 8.81 12.9
seneca_cr 23 18422 9.9 45 1.58 8.37 20.1
south_br_casselman_r 2 6311 7.6 46 0.64 21.16 18.5
south_br_patapsco 26 1450 7.9 60 2.96 8.84 18.6
south_fork_linganore_cr 20 4106 10 96 2.62 5.45 15.4
tuscarora_cr 38 10274 9.3 90 5.45 24.76 15
watts_br 19 510 6.7 82 5.25 14.19 26.5

Wie immer haben wir nicht so viele Informationen über die Daten vorliegen. Einiges können wir aber aus den Namen der Spalten in dem Datensatz ableiten. Wir haben in verschiedenen Flüssen die Anzahl an Hechten gezählt und noch weitere Flussparameter gemessen. Ein wenig müssen wir hier auch unsere eigene Geschichte spinnen.

  • stream, beschreibt den Fluss, wo die Messung der Anzahl an langnasigen Hechten stattgefunden hat.
  • longnose, die Anzahl der Hechte, die in einem Flussarm in einer definierten Zeit gezählet wurden.
  • area, erfasste Oberfläche des Flusses in dem gemessenen Gebiet. Die Fläche wurde über Satelietenbilder bestimmt.
  • do2, gemessener Partialdruck von Sauerstoiff \(O_2\) im Wasser und damit auch der verfügbarer Sauerstoff (engl. Oxygen-Delivery, DO2) im Wasser.
  • maxdepth, die maximale Tiefe des Flusses über mindestens einen Kilometer. Kürze Tiefen wurden nicht berücksichtigt.
  • no3, die gemessene Nitratkonzentration im Wasser.
  • so4, die gemessene Schwefelkonzentration im Wasser.
  • temp, gemessene Temperatur in dem Flussarm zur Zeit der Zählung.

Wir nutzen den Datensatz unter anderem in der Poisson Regression in Kapitel 48.

Datei von den langnasigen Hechten

Du findest die Datei longnose.csv auf GitHub jkruppa.github.io/data/ als Csv Datei.

7.3 Von den Kichererbsen in Brandenburg

Im Folgenden schauen wir uns die Daten eines Pilotprojektes zum Anbau von Kichererbsen in Brandenburg an. Wir haben an verschiedenen anonymisierten Bauernhöfen Kichererbsen angebaut und das Trockengewicht als Endpunkt bestimmt. Darüber hinaus haben wir noch andere Umweltparameter erhoben und wollen schauen, welche dieser Parameter einen Einfluss auf das Trockengewicht hat.

Tabelle 7.3— Auszug aus dem Daten zu den Kichererbsen in Brandenburg.
temp rained location no3 fe sand forest dryweight
25.26 high north 5.56 4.43 63 >1000m 255.4
21.4 high northeast 9.15 2.58 51.17 <1000m 217.55
27.84 high northeast 5.57 2.19 55.57 <1000m 232.52
24.59 low north 7.97 1.47 62.49 >1000m 252.06
26.51 low north 6.29 4.3 59.09 >1000m 252.61
22.3 low northeast 6.69 4.78 58.72 >1000m 246.37
25.04 low northeast 5.64 2.22 59.47 >1000m 247.44
28.77 low west 6.55 2.26 61.11 >1000m 259.8
25.47 low north 6.92 3.18 64.55 >1000m 266.68
29.04 low north 5.64 2.87 53.27 >1000m 228.58
24.11 high northeast 4.31 3.66 63 >1000m 251.75
28.88 low northeast 7.92 2 65.75 <1000m 274.46

Es ist ja schon fast Mode, aber auch hier haben wir wenig bis gar keine Informationen zu den erhobenen Variablen. Daher machen wir das Beste aus der Sachlage und überlegen uns was hier passen könnte.

  • temp, die mittlere Temperatur über die Wachstumsperiode.
  • rained, erfasste Regenmenge im Vergleich zum 10jähigen Mittel.
  • location, anonymisierter Ort der Untersuchung.
  • no3, die gemessene Nitratkonzentration im Boden.
  • so4, die gemessene Eisenkonzentration im Boden.
  • sand, der Anteil an Sand im Boden.
  • forest, der Abstand zum nächsten geschlossenen Waldstück.
  • dryweight, das Trockengewicht der Kichererbsen gemittelt über eine Hektar.

Wir nutzen den Datensatz unter anderem in der Gaussian Regression in Kapitel 47.

Datei von den Kichererbsen in Brandenburg

Du findest die Datei chickpeas.xlsx auf GitHub jkruppa.github.io/data/ als Excel Datei.