6 Von Gummibärchen

Letzte Änderung am 02. March 2026 um 13:54:34

“Gummibär’n, hüpfen hier und dort und überall, sie sind für dich da wenn du sie brauchst, das sind die Gummibär’n!” — Gummibärenbande, Theme

Im Folgenden sehen wir in der Tabelle 6.1 einmal den Gummibärchen Datensatz, der im Laufe der letzten Jahre seit 2018 entstanden ist. Dabei wächst der Datensatz von Semester zu Semester immer ein wenig weiter. Jedes Semester darf Tütchen aufreißen und schauen was da so drin ist. Wir sind jetzt aktuell bei $1068$ Gummibärchentütchen mit insgesamt $9809$ ausgezählen Gummibärchen. Insgesamt haben wir die vollständigen Daten von $959$ Personen vorliegen. Vollständig heißt, dass wir dann keinen fehlenden Wert in einer Spalten für diese Beobachtungen vorliegen haben.

Erstellen des Gummibärchendatensatzes

Und jetzt ist es deine Aufgabe an dem Datensatz teilzuhaben und eine Zeile dieses Datensatzes zu werden. Wenn du also in der Vorlesung sitzt, dann bitte hier lang zum Gummibärchen Datensatz erstellen

Wenn dich der Ablauf technisch interessiert findest du in Kruppa & Kiehne (2019) und Kruppa & Sieg (2021) mehr Informationen und didaktische Hintergründe zu den Gummibärchen.

Tabelle 6.1— Auszug aus dem Daten zu den Gummibärchendaten.

year	module	darkred	lightred	orange	yellow	green	white	count_bears	count_color	most_liked	gender	age	height	semester
2018	FU Berlin	0	0	5	4	0	0	9	3	lightred	m	35	193	10
2018	FU Berlin	0	3	1	4	1	1	10	5	yellow	w	21	159	6
2018	FU Berlin	1	2	2	2	1	1	9	6	white	w	21	159	6
2018	FU Berlin	2	0	2	1	2	3	10	5	white	w	36	180	10
2018	FU Berlin	2	1	1	2	2	2	10	6	white	m	22	180	3
2018	FU Berlin	2	4	1	2	0	1	10	5	white	NA	NA	NA	NA
…	…	…	…	…	…	…	…	…	…	…	…	…	…	…
2026	Modellierung_landwirtschaftlicher_Daten	1	4	0	1	1	1	8	5	darkred	m	24	179	2
2026	Modellierung_landwirtschaftlicher_Daten	3	1	0	1	2	1	8	5	darkred	m	23	183	2
2026	Modellierung_landwirtschaftlicher_Daten	1	1	2	3	1	0	8	5	darkred	w	20	178	2
2026	Modellierung_landwirtschaftlicher_Daten	1	2	1	2	3	0	9	5	white	w	18	158	2
2026	Modellierung_landwirtschaftlicher_Daten	1	3	2	1	0	1	8	5	darkred	m	19	194	2
2026	Modellierung_landwirtschaftlicher_Daten	0	1	1	2	4	0	8	5	yellow	m	22	183	2

Wir erheben folgende Variablen im Datensatz. Dabei unterscheiden wir einmal für Variablen, die technischer Natur sind. Wir schreiben NA für eng. not available, wenn ein Eintrag fehlt.

year, das Jahr in dem die Daten erhoben wurden.
module, das Module in welchem die Daten erhoben wurden. Am Anfang wurde das Modul noch nicht erfasst.
darkred bis white, die Anzahl an Gummibärchen in der jeweiligen Farbe.
count_bears, die Anzahl an Gummibärchen in der entsprechenden Tüte.
count_color, die Anzahl an Farben und damit Geschmacksrichtungen in einer Tüte.

Dann wollen wir aber auch noch etwas über den Studierenden wissen, der die Tüte aufgemacht hat. Wir erheben hier noch einge demographische Informationen:

most_liked, der Lieblingsgeschmack des Studierenden.
gender, das Geschlecht des Studierenden. Aktuell gibt es nur männlich oder weiblich Studierende.
age, das Alter in Jahren [y] der Studierenden.
height, die Körpergröße des Studierenden in [cm]
semester, das aktuelle Semester des Studierenden. Wir unterscheiden nicht zwischen Bachelor und Master

Tja, bei einem Durchschnittspreis von $2.29$ EUR pro Großtüte mit 20 Tütchen sind wir dann bei Gesamtausgaben von $122$ EUR. Wer hat gesagt, dass Forschung günstig ist? Aktuell hat der Datensatz $1068$ Beobachtungen. Davon sind $959$ Personen mit einem vollständigen Eintrag ohne fehlende Werte. Die Differenz erklärt sich teilweise aus vergessenen Werten und dadurch, dass ich in einigen Modulen mehrere Tütchen pro Person auszählen hab lassen. Da der Datensatz aber immer weiter wächst brauchen wir wirklich R dazu um den Datensatz uns anschauen zu können.

Datei von den Gummibärchen

Du findest die Datei gummibears.xlsx auf GitHub jkruppa.github.io/data/ als Excel Datei.

Referenzen

Kruppa, J., & Kiehne, B. (2019). Statistik lebendig lehren durch Storytelling und forschungsbasiertes Lernen. Beiträge zu Praxis, Praxisforschung und Forschung, 501.

Kruppa, J., & Sieg, M. (2021). Spielerisch Daten reinigen. In Zeig mir Health Data Science! (S. 93–103). Springer.

# Von Gummibärchen {#sec-example-gummibears} *Letzte Änderung am `r format(fs::file_info("example-gummi-bears.qmd")$modification_time, '%d. %B %Y um %H:%M:%S')`* > *"Gummibär'n, hüpfen hier und dort und überall, sie sind für dich da wenn du sie brauchst, das sind die Gummibär'n!" --- Gummibärenbande, Theme* ```{r echo = FALSE} pacman::p_load(tidyverse, readxl, knitr, kableExtra, openxlsx) gummi_tbl <- read_excel("data/gummibears.xlsx") gummi_color_tbl <- gummi_tbl |> select(darkred:white) |> gather(color, count) count_bears <- sum(gummi_color_tbl$count) full_person <- gummi_tbl |> na.omit() |> nrow() ``` Im Folgenden sehen wir in der @tbl-gummi einmal den Gummibärchen Datensatz, der im Laufe der letzten Jahre seit 2018 entstanden ist. Dabei wächst der Datensatz von Semester zu Semester immer ein wenig weiter. Jedes Semester darf Tütchen aufreißen und schauen was da so drin ist. Wir sind jetzt aktuell bei $`r nrow(gummi_tbl)`$ Gummibärchentütchen mit insgesamt $`r count_bears`$ ausgezählen Gummibärchen. Insgesamt haben wir die vollständigen Daten von $`r full_person`$ Personen vorliegen. Vollständig heißt, dass wir dann keinen fehlenden Wert in einer Spalten für diese Beobachtungen vorliegen haben. ::: callout-caution ## Erstellen des Gummibärchendatensatzes Und jetzt ist es deine Aufgabe an dem Datensatz teilzuhaben und eine Zeile dieses Datensatzes zu werden. Wenn du also in der Vorlesung sitzt, dann bitte hier lang zum [Gummibärchen Datensatz erstellen](https://docs.google.com/spreadsheets/d/1hfY9XmVD02PIA5v7azh4r1jM_2uBO_TbPR-1GfA50Jw/edit?usp=sharing) Wenn dich der Ablauf technisch interessiert findest du in @kruppa2019statistik und @kruppa2021spielerisch mehr Informationen und didaktische Hintergründe zu den Gummibärchen. ::: ```{r} #| echo: false #| message: false #| warning: false #| label: tbl-gummi #| tbl-cap: Auszug aus dem Daten zu den Gummibärchendaten. gummi_tbl <- read_excel("data/gummibears.xlsx") rbind(head(gummi_tbl), rep("...", times = ncol(gummi_tbl)), tail(gummi_tbl)) |> kable(align = "c", "pipe") ``` Wir erheben folgende Variablen im Datensatz. Dabei unterscheiden wir einmal für Variablen, die technischer Natur sind. Wir schreiben `NA` für eng. *not available*, wenn ein Eintrag fehlt. - **year**, das Jahr in dem die Daten erhoben wurden. - **module**, das Module in welchem die Daten erhoben wurden. Am Anfang wurde das Modul noch nicht erfasst. - **darkred** bis **white**, die Anzahl an Gummibärchen in der jeweiligen Farbe. - **count_bears**, die Anzahl an Gummibärchen in der entsprechenden Tüte. - **count_color**, die Anzahl an Farben und damit Geschmacksrichtungen in einer Tüte. Dann wollen wir aber auch noch etwas über den Studierenden wissen, der die Tüte aufgemacht hat. Wir erheben hier noch einge demographische Informationen: - **most_liked**, der Lieblingsgeschmack des Studierenden. - **gender**, das Geschlecht des Studierenden. Aktuell gibt es nur männlich oder weiblich Studierende. - **age**, das Alter in Jahren \[y\] der Studierenden. - **height**, die Körpergröße des Studierenden in \[cm\] - **semester**, das aktuelle Semester des Studierenden. Wir unterscheiden nicht zwischen Bachelor und Master Tja, bei einem Durchschnittspreis von $2.29$ EUR pro Großtüte mit 20 Tütchen sind wir dann bei Gesamtausgaben von $`r floor(nrow(gummi_tbl)/20 * 2.29)`$ EUR. Wer hat gesagt, dass Forschung günstig ist? Aktuell hat der Datensatz $`r nrow(gummi_tbl)`$ Beobachtungen. Davon sind $`r full_person`$ Personen mit einem vollständigen Eintrag ohne fehlende Werte. Die Differenz erklärt sich teilweise aus vergessenen Werten und dadurch, dass ich in einigen Modulen mehrere Tütchen pro Person auszählen hab lassen. Da der Datensatz aber immer weiter wächst brauchen wir wirklich R dazu um den Datensatz uns anschauen zu können. ::: callout-tip ## Datei von den Gummibärchen Du findest die Datei `gummibears.xlsx` auf GitHub [jkruppa.github.io/data/](https://github.com/jkruppa/jkruppa.github.io/tree/master/data) als Excel Datei. ::: ## Referenzen {.unnumbered}