8 Von Datenbanken

Letzte Änderung am 30. October 2025 um 20:37:39

“You can have data without information, but you cannot have information without data.” — Daniel Keys Moran

In den vorherigen Kapiteln habe ich Datensätze vorgestellt, die eher von einem kleineren Format waren. Daher konnten wir die Daten auch recht einfach in einer Exceldatei abspeichern und dann einlesen. Manchmal haben wir aber so viele Daten vorliegen, dass wir unsere Daten nicht in einer Exceldatei speichern können. Oder aber, wir wollen, dass mehrere Personen gleichzeitig die Daten bearbeiten können. Personen können hier auch automatisierte Prozesse von Datenloggern sein. Dann nutzen wir häufig eine SQL-Datenbank. An der Hochschule nicht so häufig genutzt, ist das Datenformat in größeren Firmen mehr oder minder Standard.

Neben diesen Datenbanken, gibt es auch eine Reihe von Webseiten, die uns Daten bereitstellen. Auch diese Webseiten wollen wir uns dann hier in dem Kapitel einmal anschauen. Teilweise können wir dann aus R auf die Daten auf den Webseiten zugreifen, teilweise müssen wir die Daten dann als *.csv-Datei runterladen und in R einlesen.

Weitere Tutorien für Datenbanken

Wir oben schon erwähnt, kann dieses Kapitel nicht alles erschlagen. Deshalb hier noch ein paar weitere hilfreiche Links zu Tutorien.

Die Hilfeseite vom RStudio Connect to Data Sources and Systems erklärt nochmal sehr ausführlich, wie du auf verschiedenste Datentypen zugreifen kannst. Für mich immer meine erste Anlaufstelle für allgemeine Informationen.
SQL in R ist schon etwas älter und deshalb funktionieren auch nicht alle R Pakete von dort nicht mehr. Aber für den Überblick ist die Seite super. Auch um erstmal ein Verständnis für die Zusammenhänge zu gewinnen. Heutzutage gibt es dann mit {dbplyr} eine bessere Lösung.

8.1 Genutzte R Pakete

Wir wollen folgende R Pakete in diesem Kapitel nutzen.

R Code [zeigen / verbergen]

pacman::p_load(tidyverse, magrittr, 
               conflicted)

An der Seite des Kapitels findest du den Link Quellcode anzeigen, über den du Zugang zum gesamten R-Code dieses Kapitels erhältst.

8.2 Datenbanken

Erstmal eine Liste mit den wichtigsten Datenbanken, wo du Daten aus dem bereich der Agrarwissenschaften runterladen kannst. Teilweise gibt es auch R Pakete, die einen Zugriff auf die Datenbanken erlauben. Manchmal ist das dann aber unübersichtlicher, als sich die Daten direkt von den Webseiten als *.csv-Datei zu ziehen. Welche Datenbanken gibt es nun?

eurostat Data Browser ist die Quele für Daten aus der EU aus fast allen Fachbereichen. Also eine unüberschaubare Menge an Informationen, wo sicherlich das ein oder andere interessante zu finde ist.
CDC (Climate Data Center) ist die Quelle, wenn es um Klimadaten des deutschen Wetterdienstes geht. Also die Anlaufstellen, wenn du was brauchst für Deutschland und Wetter.
Climate Data Online ist die Datenbank, wenn es dann globaler mit den Klimadaten werden soll. Die Menge ist hier auch erschlagend und da braucht man immer so seine Zeit, bis man etwas gefunden hat.
Food and agriculture data ist die Datenbank der Food and Agriculture Organization (FAO) und bietet damit den Überblick über Agrardaten überhaupt. Mit dem R Paket {FAOSTAT} und der Vignette FAOSTAT: Download Data from the FAOSTAT Database können wir dann auch aus R direkt auf die Datenbanken zugreifen.
Our World in Data ist eine Sammlung von Daten zu allen möglichen Themen, die die Welt gerade bewegen. Hier findet sich eigentlich immer etwas unterstützendes für die Abschlussarbeit. Mit dem R Paket {owidR} haben wir auch eine Möglichkeit direkt auf die Datenbank von Our World in Data zuzugreifen. Teilweise ist es aber etwas umständlich.
The United Nations Statistics Division
undata - A world of information
AnAge Database of Animal Ageing and Longevity

R Code [zeigen / verbergen]

anage_tbl <- read_delim("data/anage_data.txt", delim = "\t")

Weitere spannende R Pakete und Informationen, die nicht direkt eine Datenbank sind.

Eine wunderbare Sammlung von Datensätzen aus dem Bereich der Agarwissenschaften liefert das R Paket {agridat}. Über die Hilfeseite agridat: Agricultural Datasets findest du dann einmal einen gesamten Überblick und auch die Informationen über einige ausgewählte Datensätze aus Dutzenden von Datensätzen. Alle Datensätze der wichtigen Bücher zu dem experimentellen Designs sind dort eigentlich enthalten und einmal kuratiert.
Hier noch der Link zu agridat - Datensätze mit Abbildungen in {desplot}. Du musst dann auf die jeweiligen Datensätze in der Liste klicken und dann kommst du zu dem Datensatz mit mehr Details sowie meistens auch einer Abbildung in {desplo}t.
Introduction to {dbplyr} zeigt keine eigene Datenbank aber die Möglichkeit auf SQL Datenbanken über R zuzugreifen.

```{r echo = FALSE} pacman::p_load(tidyverse, readxl, knitr, kableExtra, openxlsx) ``` # Von Datenbanken {#sec-database} *Letzte Änderung am `r format(fs::file_info("example-database.qmd")$modification_time, '%d. %B %Y um %H:%M:%S')`* > *"You can have data without information, but you cannot have information without data." --- Daniel Keys Moran* In den vorherigen Kapiteln habe ich Datensätze vorgestellt, die eher von einem kleineren Format waren. Daher konnten wir die Daten auch recht einfach in einer Exceldatei abspeichern und dann einlesen. Manchmal haben wir aber so viele Daten vorliegen, dass wir unsere Daten nicht in einer Exceldatei speichern können. Oder aber, wir wollen, dass mehrere Personen *gleichzeitig* die Daten bearbeiten können. Personen können hier auch automatisierte Prozesse von Datenloggern sein. Dann nutzen wir häufig eine [SQL-Datenbank](https://de.wikipedia.org/wiki/SQL). An der Hochschule nicht so häufig genutzt, ist das Datenformat in größeren Firmen mehr oder minder Standard. Neben diesen Datenbanken, gibt es auch eine Reihe von Webseiten, die uns Daten bereitstellen. Auch diese Webseiten wollen wir uns dann hier in dem Kapitel einmal anschauen. Teilweise können wir dann aus R auf die Daten auf den Webseiten zugreifen, teilweise müssen wir die Daten dann als `*.csv`-Datei runterladen und in R einlesen. ::: callout-tip ## Weitere Tutorien für Datenbanken Wir oben schon erwähnt, kann dieses Kapitel nicht alles erschlagen. Deshalb hier noch ein paar weitere hilfreiche Links zu Tutorien. - Die Hilfeseite vom RStudio [Connect to Data Sources and Systems](https://solutions.posit.co/connections/) erklärt nochmal sehr ausführlich, wie du auf verschiedenste Datentypen zugreifen kannst. Für mich immer meine erste Anlaufstelle für allgemeine Informationen. - [SQL in R](https://dept.stat.lsa.umich.edu/~jerrick/courses/stat701/notes/sql.html) ist schon etwas älter und deshalb funktionieren auch nicht alle R Pakete von dort nicht mehr. Aber für den Überblick ist die Seite super. Auch um erstmal ein Verständnis für die Zusammenhänge zu gewinnen. Heutzutage gibt es dann mit [`{dbplyr}`](https://dbplyr.tidyverse.org/articles/dbplyr.html) eine bessere Lösung. ::: ## Genutzte R Pakete Wir wollen folgende R Pakete in diesem Kapitel nutzen. ```{r echo = TRUE} #| message: false pacman::p_load(tidyverse, magrittr, conflicted) ``` An der Seite des Kapitels findest du den Link *Quellcode anzeigen*, über den du Zugang zum gesamten R-Code dieses Kapitels erhältst. ## Datenbanken Erstmal eine Liste mit den wichtigsten Datenbanken, wo du Daten aus dem bereich der Agrarwissenschaften runterladen kannst. Teilweise gibt es auch R Pakete, die einen Zugriff auf die Datenbanken erlauben. Manchmal ist das dann aber unübersichtlicher, als sich die Daten direkt von den Webseiten als `*.csv`-Datei zu ziehen. Welche Datenbanken gibt es nun? - [eurostat Data Browser](https://ec.europa.eu/eurostat/databrowser/explore/all/all_themes) ist *die* Quele für Daten aus der EU aus fast allen Fachbereichen. Also eine unüberschaubare Menge an Informationen, wo sicherlich das ein oder andere interessante zu finde ist. - [CDC (Climate Data Center)](https://www.dwd.de/EN/climate_environment/cdc/cdc_node_en.html) ist die Quelle, wenn es um Klimadaten des deutschen Wetterdienstes geht. Also die Anlaufstellen, wenn du was brauchst für Deutschland und Wetter. - [Climate Data Online](https://www.ncei.noaa.gov/cdo-web/) ist die Datenbank, wenn es dann globaler mit den Klimadaten werden soll. Die Menge ist hier auch erschlagend und da braucht man immer so seine Zeit, bis man etwas gefunden hat. - [Food and agriculture data](https://www.fao.org/faostat/en/#home) ist die Datenbank der *Food and Agriculture Organization (FAO)* und bietet damit den Überblick über Agrardaten überhaupt. Mit dem [R Paket `{FAOSTAT}`](https://cran.r-hub.io/web/packages/FAOSTAT/) und der Vignette [FAOSTAT: Download Data from the FAOSTAT Database](https://cran.r-hub.io/web/packages/FAOSTAT/vignettes/FAOSTAT.pdf) können wir dann auch aus R direkt auf die Datenbanken zugreifen. - [Our World in Data](https://ourworldindata.org/) ist eine Sammlung von Daten zu allen möglichen Themen, die die Welt gerade bewegen. Hier findet sich eigentlich immer etwas unterstützendes für die Abschlussarbeit. Mit dem [R Paket `{owidR}`](https://cran.r-project.org/web/packages/owidR/index.html) haben wir auch eine Möglichkeit direkt auf die Datenbank von [Our World in Data](https://ourworldindata.org/) zuzugreifen. Teilweise ist es aber etwas umständlich. - [The United Nations Statistics Division](https://unstats.un.org/UNSDWebsite/) - [undata - A world of information](https://data.un.org/) - [AnAge Database of Animal Ageing and Longevity](https://genomics.senescence.info/species/index.html) ```{r} #| warning: false #| message: false anage_tbl <- read_delim("data/anage_data.txt", delim = "\t") ``` Weitere spannende R Pakete und Informationen, die nicht direkt eine Datenbank sind. - Eine wunderbare Sammlung von Datensätzen aus dem Bereich der Agarwissenschaften liefert das R Paket `{agridat}`. Über die Hilfeseite [agridat: Agricultural Datasets](https://cran.r-project.org/web/packages/agridat/index.html) findest du dann einmal einen gesamten Überblick und auch die Informationen über einige ausgewählte Datensätze aus Dutzenden von Datensätzen. Alle Datensätze der wichtigen Bücher zu dem experimentellen Designs sind dort eigentlich enthalten und einmal kuratiert. - Hier noch der Link zu [agridat - Datensätze mit Abbildungen in `{desplot}`](https://kwstat.github.io/agridat/reference/index.html). Du musst dann auf die jeweiligen Datensätze in der Liste klicken und dann kommst du zu dem Datensatz mit mehr Details sowie meistens auch einer Abbildung in `{desplo}t`. - [Introduction to `{dbplyr}`](https://dbplyr.tidyverse.org/articles/dbplyr.html) zeigt keine eigene Datenbank aber die Möglichkeit auf SQL Datenbanken über R zuzugreifen.