Letzte Änderung am 13. January 2025 um 12:12:22

“You can have data without information, but you cannot have information without data.” — Daniel Keys Moran

In den vorherigen Kapiteln habe ich Datensätze vorgestellt, die eher von einem kleineren Format waren. Daher konnten wir die Daten auch recht einfach in einer Exceldatei abspeichern und dann einlesen. Manchmal haben wir aber so viele Daten vorliegen, dass wir unsere Daten nicht in einer Exceldatei speichern können. Oder aber, wir wollen, dass mehrere Personen gleichzeitig die Daten bearbeiten können. Personen können hier auch automatisierte Prozesse von Datenloggern sein. Dann nutzen wir häufig eine SQL-Datenbank. An der Hochschule nicht so häufig genutzt, ist das Datenformat in größeren Firmen mehr oder minder Standard.

Neben diesen Datenbanken, gibt es auch eine Reihe von Webseiten, die uns Daten bereitstellen. Auch diese Webseiten wollen wir uns dann hier in dem Kapitel einmal anschauen. Teilweise können wir dann aus R auf die Daten auf den Webseiten zugreifen, teilweise müssen wir die Daten dann als *.csv-Datei runterladen und in R einlesen.

Weitere Tutorien für

Wir oben schon erwähnt, kann dieses Kapitel nicht alles erschlagen. Deshalb hier noch ein paar weitere hilfreiche Links zu Tutorien.

  • Die Hilfeseite vom RStudio Connect to Data Sources and Systems erklärt nochmal sehr ausführlich, wie du auf verschiedenste Datentypen zugreifen kannst. Für mich immer meine erste Anlaufstelle für allgemeine Informationen.
  • SQL in R ist schon etwas älter und deshalb funktionieren auch nicht alle R Pakete von dort nicht mehr. Aber für den Überblick ist die Seite super. Auch um erstmal ein Verständnis für die Zusammenhänge zu gewinnen. Heutzutage gibt es dann mit {dbplyr} eine bessere Lösung.

8.1 Genutzte R Pakete

Wir wollen folgende R Pakete in diesem Kapitel nutzen.

R Code [zeigen / verbergen]
pacman::p_load(tidyverse, magrittr, 
               conflicted)

An der Seite des Kapitels findest du den Link Quellcode anzeigen, über den du Zugang zum gesamten R-Code dieses Kapitels erhältst.

8.2 Datenbanken

Erstmal eine Liste mit den wichtigsten Datenbanken, wo du Daten aus dem bereich der Agrarwissenschaften runterladen kannst. Teilweise gibt es auch R Pakete, die einen Zugriff auf die Datenbanken erlauben. Manchmal ist das dann aber unübersichtlicher, als sich die Daten direkt von den Webseiten als *.csv-Datei zu ziehen. Welche Datenbanken gibt es nun?

  • eurostat Data Browser ist die Quele für Daten aus der EU aus fast allen Fachbereichen. Also eine unüberschaubare Menge an Informationen, wo sicherlich das ein oder andere interessante zu finde ist.
  • CDC (Climate Data Center) ist die Quelle, wenn es um Klimadaten des deutschen Wetterdienstes geht. Also die Anlaufstellen, wenn du was brauchst für Deutschland und Wetter.
  • Climate Data Online ist die Datenbank, wenn es dann globaler mit den Klimadaten werden soll. Die Menge ist hier auch erschlagend und da braucht man immer so seine Zeit, bis man etwas gefunden hat.
  • Food and agriculture data ist die Datenbank der Food and Agriculture Organization (FAO) und bietet damit den Überblick über Agrardaten überhaupt.
  • Our World in Data ist eine Sammlung von Daten zu allen möglichen Themen, die die Welt gerade bewegen. Hier findet sich eigentlich immer etwas unterstützendes für die Abschlussarbeit.
  • The United Nations Statistics Division
  • undata - A world of information

Weitere spannende R Pakete und Informationen, die nicht direkt eine Datenbank sind.