6  Von Gummibärchen

Letzte Änderung am 16. November 2024 um 21:40:34

“Gummibär’n, hüpfen hier und dort und überall, sie sind für dich da wenn du sie brauchst, das sind die Gummibär’n!” — Gummibärenbande, Theme

Im Folgenden sehen wir in der Tabelle 6.1 einmal den Gummibärchen Datensatz, der im Laufe der letzten Jahre seit 2018 entstanden ist. Dabei wächst der Datensatz von Semester zu Semester immer ein wenig weiter. Jedes Semester darf Tütchen aufreißen und schauen was da so drin ist. Wir sind jetzt aktuell bei \(897\) Gummibärchentütchen mit insgesamt \(8293\) ausgezählen Gummibärchen. Insgesamt haben wir die vollständigen Daten von \(801\) Personen vorliegen. Vollständig heißt, dass wir dann keinen fehlenden Wert in einer Spalten für diese Beobachtungen vorliegen haben.

Erstellen des Gummibärchendatensatzes

Und jetzt ist es deine Aufgabe an dem Datensatz teilzuhaben und eine Zeile dieses Datensatzes zu werden. Wenn du also in der Vorlesung sitzt, dann bitte hier lang zum Gummibärchen Datensatz erstellen

Wenn dich der Ablauf technisch interessiert findest du in Kruppa und Kiehne (2019) und Kruppa und Sieg (2021) mehr Informationen und didaktische Hintergründe zu den Gummibärchen.

Tabelle 6.1— Auszug aus dem Daten zu den Gummibärchendaten.
year module darkred lightred orange yellow green white count_bears count_color most_liked gender age height semester
2018 FU Berlin 0 0 5 4 0 0 9 3 lightred m 35 193 10
2018 FU Berlin 0 3 1 4 1 1 10 5 yellow w 21 159 6
2018 FU Berlin 1 2 2 2 1 1 9 6 white w 21 159 6
2018 FU Berlin 2 0 2 1 2 3 10 5 white w 36 180 10
2018 FU Berlin 2 1 1 2 2 2 10 6 white m 22 180 3
2018 FU Berlin 2 4 1 2 0 1 10 5 white NA NA NA NA
2024 Mathematik_und_Statistik 1 2 1 0 3 1 8 5 darkred m 19 184 1
2024 Mathematik_und_Statistik 1 3 2 2 0 1 8 NA NA NA NA NA NA
2024 Mathematik_und_Statistik 1 0 2 1 1 3 8 5 lightred w 23 180 1
2024 Mathematik_und_Statistik 1 3 2 2 0 1 8 5 darkred m 22 170 1
2024 Mathematik_und_Statistik 1 3 0 1 2 1 8 5 green m 22 181 NA
2024 Mathematik_und_Statistik 3 0 3 0 2 0 8 3 darkred m 20 182 1

Wir erheben folgende Variablen im Datensatz. Dabei unterscheiden wir einmal für Variablen, die technischer Natur sind. Wir schreiben NA für eng. not available, wenn ein Eintrag fehlt.

Dann wollen wir aber auch noch etwas über den Studierenden wissen, der die Tüte aufgemacht hat. Wir erheben hier noch einge demographische Informationen:

Tja, bei einem Durchschnittspreis von \(2.29\) EUR pro Großtüte mit 20 Tütchen sind wir dann bei Gesamtausgaben von \(102\) EUR. Wer hat gesagt, dass Forschung günstig ist? Aktuell hat der Datensatz \(897\) Beobachtungen. Davon sind \(801\) Personen mit einem vollständigen Eintrag ohne fehlende Werte. Die Differenz erklärt sich teilweise aus vergessenen Werten und dadurch, dass ich in einigen Modulen mehrere Tütchen pro Person auszählen hab lassen. Da der Datensatz aber immer weiter wächst brauchen wir wirklich R dazu um den Datensatz uns anschauen zu können.

Datei von den Gummibärchen

Du findest die Datei gummibears.xlsx auf GitHub jkruppa.github.io/data/ als Excel Datei.

Referenzen

Kruppa J, Kiehne B. 2019. Statistik lebendig lehren durch Storytelling und forschungsbasiertes Lernen. Beiträge zu Praxis, Praxisforschung und Forschung 501.
Kruppa J, Sieg M. 2021. Spielerisch Daten reinigen. Seiten 93–103 in. Zeig mir Health Data Science! Springer.