Direkt zum Inhalt

Weller, K. (2019). Big Data & New Data: Ein Ausblick auf die Herausforderungen im Umgang mit Social-Media-Inhalten als neue Art von Forschungsdaten. In U. Jensen, S. Netscher, & K. Weller (Eds.), Forschungsdatenmanagement sozialwissenschaftlicher Umfragedaten (p. pp 193-210). Verlag Barbara Budrich. 10.3224/84742233.12

Zusammenfassung

Seit ungefähr einem Jahrzehnt wird (auch) in wissenschaftlichen Kontexten der Nutzen von neuartigen, großen Datenbeständen für das bessere Verständnis zahlreicher Lebensbereiche erprobt. Viele dieser neuartigen Daten stammen aus Internetplattformen. In den Fokus der Wissenschaftler/innen rücken beispielsweise Suchmaschinen (Choi/Varian 2012), Kommentarbereiche von Zeitungen (Ruiz et al. 2011) sowie Social-Media-Plattformen (z.B. Facebook, LinkedIn, reddit, Twitter, Pinterest oder Tumblr). Social-Media-Plattformen können aus verschiedenen Gründen interessant sein. Oft sind insbesondere Nutzernetzwerke, gekoppelt an Text oder Multimediainhalte, von Interesse. Generell haben Onlineplattformen das Potential, Einblicke in Nutzeraktivitäten zu geben, etwa durch das Auslesen von Suchbegriffen, die von Nutzer/innen eingegeben werden, durch das Auswerten des Klickverhaltens auf verschiedene Links, durch das Aufdecken verschiedener Nutzernetzwerke oder durch das komplette Auswerten ganzer Textbeiträge, was beispielweise Einblicke in Meinungen und Stimmungen verspricht. Manches daran ist neu, insbesondere die Vielfalt der Datenquellen, aber das grundlegende Prinzip erinnert stark an die Idee der prozessgenerierten Daten, die als nicht-reaktives Verfahren bereits ihren Platz in der sozialwissenschaftlichen Forschung gefunden haben, wie beispielsweise Daten zum Arbeitsmarkt, zur Einkommensstruktur, zur Mediennutzung, zum Bildungsstand. Dennoch wird im Kontext von Internetdaten auch oft von New Data gesprochen. Für Sozialwissenschaftler/innen werden Nutzungsdaten aus Internetportalen als eine mögliche neue Datenart angesehen, die – unabhängig von Einflüssen durch Studiendesigns – nicht nur Verhaltensweisen, sondern auch Meinungen offenlegen kann. Noch häufiger anzutreffen ist jedoch die Bezeichnung Big Data, die darauf anspielt, dass aus Internetdiensten große Menge von einzelnen Datenpunkten mit verhältnismäßig geringem Aufwand gewonnen werden können. Von großen Datensätzen zu sprechen, ist zwar in vielen Fällen angebracht, dennoch driften die Meinungen darüber, ab wann eine Datenmenge als groß anzusehen ist, innerhalb der Forschungsgemeinschaft und vor allem auch zwischen den einzelnen Disziplinen auseinander: Für die einen ist alles groß, was den Rahmen der manuellen Inhaltsanalyse sprengt oder was nicht mehr in eine Excel-Tabelle passt, für andere fängt groß erst bei mehreren Terrabyte an und erfordert den Einsatz verteilter Rechnersysteme für die Speicherung und Auswertung der Daten. Kitchin und McArdle (2016) vergleichen 26 Big-Data-Datensätze und zeigen auf, wie schwierig es ist, allgemeingültige definitorische Kriterien für die Charakterisierung von Big Data festzulegen. Die Frage, welche Art von Daten als Big Data bezeichnet werden, findet ganz unterschiedliche Auslegungen. Je nachdem, ob sie beispielsweise aus der Perspektive von Physiker/innen, Geograph/innen, Informatiker/innen, Geistes- oder Sozialwissenschaftler/innen betrachtet wird, umfasst die Bandbreite beispielsweise die Temperaturmessungen aller Wetterstationen über mehrere Jahre oder das gesamte Vokabular in Shakespeares Werken. Über Fächergrenzen hinweg gelten dabei Onlineumgebungen als interessante neue Datenquelle, die für ihre jeweiligen Fragestellungen neue Erkenntnisse versprechen (Kinder-Kurlanda/ Weller 2014: 96f). Aus sozialwissenschaftlicher Sicht ist das tatsächliche Datenvolumen mitunter eher nebensächlich. Entscheidender ist zunächst vielmehr die Frage nach der Datenqualität und der eigentlichen Aussagekraft von Datentypen, die ursprünglich nicht speziell für wissenschaftliche Fragestellungen gedacht waren und daher auf verschiedene Weise lückenhaft erscheinen können. Da vielfach insbesondere die Nutzeraktivitäten und von Nutzer/innen generierte Inhalte wie Texte, Fotos und Videos als interessante Daten angesehen werden, sind sogenannte Social-Media-Plattformen eine Quelle für neuartige Forschungsdaten und deren Analyse. Hierzu zählen beispielsweise Dienste wie Facebook, Twitter, Instagram oder Foursquare sowie die Online-Enzyklopädie Wikipedia oder von Privatpersonen betriebene Blogs. Oft werden sie als eigener Forschungsgegenstand betrachtet. Jedoch spielen sie auch zunehmend in Kombination mit anderen Forschungsdaten eine Rolle, etwa für Vergleiche mit klassischen Medienanalysen oder als Ergänzung zu Umfragedaten. In diesem Kapitel geht es darum, Social-Media-Daten als eine Beispielmenge von Big bzw. New Data vorzustellen. Es sollen grundsätzliche Möglichkeiten der Forschung mit Social-Media-Daten aufgezeigt (Abschnitt 11.1 und 11.2), aber auch die bislang offenen Probleme der wissenschaftlichen Nutzung erläutert werden. Für Letzteres werden insbesondere die Datenqualität thematisiert (Abschnitt 11.3) sowie Probleme der Archivierung von Social-Media-basierten Forschungsdaten (Abschnitt 11.4) und drohender Datenverfall (11.5).