Weller, K. (2019). Big Data & New Data: Ein Ausblick auf die Herausforderungen im Umgang mit Social-Media-Inhalten als neue Art von Forschungsdaten. In U. Jensen, S. Netscher, & K. Weller (Eds.), Forschungsdatenmanagement sozialwissenschaftlicher Umfragedaten (p. pp 193-210). Verlag Barbara Budrich. 10.3224/84742233.12
Zusammenfassung
Seit ungefähr einem Jahrzehnt wird (auch) in wissenschaftlichen Kontexten der Nutzen von
neuartigen, großen Datenbeständen für das bessere Verständnis zahlreicher Lebensbereiche
erprobt. Viele dieser neuartigen Daten stammen aus Internetplattformen. In den Fokus der
Wissenschaftler/innen rücken beispielsweise Suchmaschinen (Choi/Varian 2012), Kommentarbereiche von Zeitungen (Ruiz et al. 2011) sowie Social-Media-Plattformen (z.B. Facebook, LinkedIn, reddit, Twitter, Pinterest oder Tumblr). Social-Media-Plattformen können
aus verschiedenen Gründen interessant sein. Oft sind insbesondere Nutzernetzwerke, gekoppelt an Text oder Multimediainhalte, von Interesse. Generell haben Onlineplattformen das
Potential, Einblicke in Nutzeraktivitäten zu geben, etwa durch das Auslesen von Suchbegriffen, die von Nutzer/innen eingegeben werden, durch das Auswerten des Klickverhaltens auf
verschiedene Links, durch das Aufdecken verschiedener Nutzernetzwerke oder durch das
komplette Auswerten ganzer Textbeiträge, was beispielweise Einblicke in Meinungen und
Stimmungen verspricht.
Manches daran ist neu, insbesondere die Vielfalt der Datenquellen, aber das grundlegende
Prinzip erinnert stark an die Idee der prozessgenerierten Daten, die als nicht-reaktives Verfahren bereits ihren Platz in der sozialwissenschaftlichen Forschung gefunden haben, wie
beispielsweise Daten zum Arbeitsmarkt, zur Einkommensstruktur, zur Mediennutzung, zum
Bildungsstand. Dennoch wird im Kontext von Internetdaten auch oft von New Data gesprochen. Für Sozialwissenschaftler/innen werden Nutzungsdaten aus Internetportalen als eine
mögliche neue Datenart angesehen, die – unabhängig von Einflüssen durch Studiendesigns –
nicht nur Verhaltensweisen, sondern auch Meinungen offenlegen kann. Noch häufiger anzutreffen ist jedoch die Bezeichnung Big Data, die darauf anspielt, dass aus Internetdiensten
große Menge von einzelnen Datenpunkten mit verhältnismäßig geringem Aufwand gewonnen werden können.
Von großen Datensätzen zu sprechen, ist zwar in vielen Fällen angebracht, dennoch driften die Meinungen darüber, ab wann eine Datenmenge als groß anzusehen ist, innerhalb der
Forschungsgemeinschaft und vor allem auch zwischen den einzelnen Disziplinen auseinander: Für die einen ist alles groß, was den Rahmen der manuellen Inhaltsanalyse sprengt oder
was nicht mehr in eine Excel-Tabelle passt, für andere fängt groß erst bei mehreren Terrabyte
an und erfordert den Einsatz verteilter Rechnersysteme für die Speicherung und Auswertung
der Daten. Kitchin und McArdle (2016) vergleichen 26 Big-Data-Datensätze und zeigen auf,
wie schwierig es ist, allgemeingültige definitorische Kriterien für die Charakterisierung von
Big Data festzulegen.
Die Frage, welche Art von Daten als Big Data bezeichnet werden, findet ganz unterschiedliche Auslegungen. Je nachdem, ob sie beispielsweise aus der Perspektive von Physiker/innen, Geograph/innen, Informatiker/innen, Geistes- oder Sozialwissenschaftler/innen
betrachtet wird, umfasst die Bandbreite beispielsweise die Temperaturmessungen aller Wetterstationen über mehrere Jahre oder das gesamte Vokabular in Shakespeares Werken. Über
Fächergrenzen hinweg gelten dabei Onlineumgebungen als interessante neue Datenquelle,
die für ihre jeweiligen Fragestellungen neue Erkenntnisse versprechen (Kinder-Kurlanda/ Weller 2014: 96f). Aus sozialwissenschaftlicher Sicht ist das tatsächliche Datenvolumen mitunter eher nebensächlich. Entscheidender ist zunächst vielmehr die Frage nach der Datenqualität und der eigentlichen Aussagekraft von Datentypen, die ursprünglich nicht speziell
für wissenschaftliche Fragestellungen gedacht waren und daher auf verschiedene Weise lückenhaft erscheinen können.
Da vielfach insbesondere die Nutzeraktivitäten und von Nutzer/innen generierte Inhalte
wie Texte, Fotos und Videos als interessante Daten angesehen werden, sind sogenannte
Social-Media-Plattformen eine Quelle für neuartige Forschungsdaten und deren Analyse.
Hierzu zählen beispielsweise Dienste wie Facebook, Twitter, Instagram oder Foursquare sowie die Online-Enzyklopädie Wikipedia oder von Privatpersonen betriebene Blogs. Oft werden sie als eigener Forschungsgegenstand betrachtet. Jedoch spielen sie auch zunehmend in
Kombination mit anderen Forschungsdaten eine Rolle, etwa für Vergleiche mit klassischen
Medienanalysen oder als Ergänzung zu Umfragedaten. In diesem Kapitel geht es darum,
Social-Media-Daten als eine Beispielmenge von Big bzw. New Data vorzustellen. Es sollen
grundsätzliche Möglichkeiten der Forschung mit Social-Media-Daten aufgezeigt (Abschnitt
11.1 und 11.2), aber auch die bislang offenen Probleme der wissenschaftlichen Nutzung erläutert werden. Für Letzteres werden insbesondere die Datenqualität thematisiert (Abschnitt
11.3) sowie Probleme der Archivierung von Social-Media-basierten Forschungsdaten (Abschnitt 11.4) und drohender Datenverfall (11.5).
In dem vom BMBF geförderten Projekt FeKoM wurden Empfehlungen für forschungsethisches Handeln in der Kommunikations- und Medienwissenschaft systematisch erarbeitet, empirisch fundiert und der Scientific Community zur Verfügung gestellt.