NEWSLETTER ABONNIEREN
Sie interessieren sich für die Projekte und Ergebnisse unserer Zukunftslabore? Unser Newsletter fasst die wichtigsten Ereignisse alle zwei Monate zusammen.
Jetzt anmeldenWer ist HASE & IGEL?
Der Big Data Analyst HASE & IGEL hat sich darauf spezialisiert, durch KI-gestützte Big Data Analyse das Verhalten von Konsument*innen und Unternehmen im Markt zu verstehen und vorherzusagen. Mit einem Team aus Wirtschaftsinformatiker*innen, Data Scientists sowie Wirtschafts- und Sozialwissenschaftler*innen führt das Unternehmen Beratungsprojekte durch und entwickelt Software-as-a-Service-Lösungen, die Monitoring und Bewertung von Marktgeschehen sowie die Überprüfung und Optimierung der eigenen Effizienz und Effektivität im Markt ermöglichen.
Welche Herausforderung gab es?
Zahlreiche Prozesse in Medien, Politik, Wirtschaft und Wissenschaft beziehen Daten zu Suchhäufigkeiten und Suchtrends bei Google in ihre Entscheidungen ein – dies gilt unter anderem für Gremien der Bundesregierung, Landeskriminalämter, Leitmedien, zahlreiche Werbetreibende und hunderte wissenschaftliche Studien. Google stellt diese Daten kostenlos über Google Trends bereit - auf Basis von Stichproben, deren Repräsentativität zugesichert wird.
Während HASE & IGEL an einem Prognose-Tool arbeitete, fielen Widersprüche in den Google Daten auf, die Zweifel an der Repräsentativität aufkommen ließen: So zeigten Daten, die aus Google Trends für denselben Suchbegriff (z. B. „Kurzarbeit”) und denselben Zeitraum (z. B. 1. Quartal 2020) zu verschiedenen Zeitpunkten (z. B. einmal um 20 Uhr, einmal um 21 Uhr) abgerufen wurden, unterschiedliche Werte. Diese wichen so stark voneinander ab, dass die Trends mitunter in gänzlich verschiedene Richtungen wiesen. Dies hat weitreichende Auswirkungen, da Google Trends regelmäßig von Politik, Wirtschaft und Wissenschaft verwendet wird; besonders prominent im Kontext des Vorgehens gegen Corona.
Nachdem HASE & IGEL das Problem bei Google bekannt gemacht hatte, ohne dass es dort Gehör fand, entschloss sich das Unternehmen zu einer wissenschaftlichen Untersuchung. Hierfür wandte sich HASE & IGEL Geschäftsführer Jan Schoenmakers an seinen ZDIN-Partner: das Forschungszentrum L3S der Leibniz Universität Hannover (insbesondere Dr. Sergej Zerr). Darüber hinaus involvierte das Data-Unternehmen den Bereich Very Large Business Applications (VLBA) der Carl von Ossietzky Universität Oldenburg (insbesondere Felix Kruse und René Kessler).
Wie sah der Lösungsweg aus?
Um ein repräsentatives Bild der Google Schwächen zu erhalten, entwickelte Philipp Behnen, Data Scientist bei HASE & IGEL, ein Skript, mit dem dieselben Suchbegriffe automatisch zeit- und ortsversetzt bei Google Trends abgefragt wurden. Anhand von Kriterien wie Suchvolumen, Komplexität und Thema wurden die Suchbegriffe ausgewählt. Die Ergebnisse von Google Trends überführten die Beteiligten in eine relationale PostgreSQL Datenbank, die von der VLBA zur Verfügung gestellt wurde. Eine solche Datenbank ist leistungsstark, günstig und leicht mit vielen Datenquellen zu verbinden. Dadurch standen sie dem gesamten Forscherteam für statistische Analysen zu Verfügung. Insgesamt analysierten sie 6.800 Google Trends Ergebnisse, wobei L3S und HASE & IGEL die inferenzstatistischen Untersuchungen und VLBA die deskriptive Statistik übernahmen. Die deskriptive Statistik beschreibt die Datenmenge und die Stichprobe, während die Inferenzstatistik Aussage über die Grundgesamtheit trifft. Gemeinsam stellten die Projektpartner Schwankungen und Widersprüche der Google Daten fest und dokumentierten das Ausmaß der Google Trends Fehler in einem Whitepaper.
Binnen kürzester Zeit konnten wir über das ZDIN unbürokratisch ein hochqualifiziertes und hochmotiviertes Forscherteam zusammenbringen, das gemeinsam mit uns ein ebenso heikles wie anspruchsvolles Problem zu einem Thema anging, an das sich Viele nicht trauten. Schließlich ging es gegen eines der größten und einflussreichsten Unternehmen der Welt. Die Geschwindigkeit, Leidenschaft, Qualität und Kollegialität in der Zusammenarbeit waren beeindruckend und haben enorm starke Ergebnisse hervorgebracht. Wir entwickeln gemeinsam bereits zahlreiche weitere Projekte.
Welche Ergebnisse liegen vor?
Die Studie zeigte, dass im Schnitt mindestens 25 % der Daten, die Google zu Suchhäufigkeiten liefert, weder repräsentativ noch wiederholbar sind. Kurze Zeitabstände und manche Themenfelder sind noch wesentlich stärker betroffen, mitunter ist sogar die Mehrzahl der Daten von Google nicht verwendbar. Dies betraf unter anderem auch eine prominente Studie der Wirtschaftsweisen, die für die Entwicklung von Anti-Corona-Maßnahmen der Bundesregierung herangezogen wurde. Gegenargumente von Google konnten eindeutig widerlegt werden.
Google Trends kann damit nicht als zuverlässige Quelle genutzt werden, entsprechende Daten sollten ausschließlich nach umfassender statistischer und IT-seitiger Qualitätssicherung durch Expert*innen in Betracht gezogen werden. Die Studie konnte zeigen, unter welchen Bedingungen und mit welchen Sicherheitsmaßnahmen eine Arbeit mit Google-Daten noch möglich ist – und wo dies nicht der Fall ist.
Die als Whitepaper publizierte und von HASE & IGEL bei diversen Medien vorgestellte Studie fand reges Interesse: Unter anderem in der ARD (Mittagsmagazin, Tagesschau.de), im NDR, bei Tagesspiegel, heise und t3n schrieb sie über Tage hinweg Schlagzeilen. Das zugehörige Paper zählte schnell zu den erfolgreichsten Publikationen bei ResearchGate und führte zu Einladungen zu Konferenzbeiträgen. Inzwischen veröffentlichte das Autorenteam von HASE & IGEL, L3S und VLBA dazu auch ein peer-reviewtes Paper. Internationale Vertreter*innen von Google suchten das Gespräch mit den Projektteam und erkannten das Problem schließlich an.
Das Ziel der Beteiligten, die Anwender*innen über die Risiken des Tools mit breitem Fokus und hoher Reichweite aufzuklären, Strategien zum Umgang mit diesem Problem aufzuzeigen und Google zur Arbeit an den Fehlern in seinem Dienst zu bewegen, konnte damit vollauf erreicht werden. Eine Anschlussstudie für weitere Sprachen, Länder und Datenquellen von Google ist geplant.
Was hat das ZDIN beigetragen?
Als Oldenburger Unternehmen mit forschungslastiger Tätigkeit und hohem Innovationstempo begegneten sich Verantwortliche von HASE & IGEL und dem ZDIN gleich mehrfach – sowohl über das lokale Barcamp „Praxisforum Digitalisierung“ als auch über die Stadt Oldenburg. Bei gemeinsamen Orientierungs- und Expertengesprächen mit der Koordinierungsstelle entstand schnell der Wunsch, die Kompetenzen zu vernetzen und zusammen Projekte zu entwickeln. Die Google Trends Studie zeigt, dass der Innovationsberatungsprozess des ZDIN erfolgreich ist und Wissenschaft mit Wirtschaft für gemeinsamen Aktivitäten zusammenbringt. Das ZDIN bietet HASE & IGEL ein Forum für schnelle und vertrauensvolle Vernetzung und Zusammenarbeit mit hervorragenden Wissenschaftler*innen. So entsteht ein fruchtbarer Austausch zwischen den Forschungs- und Entwicklungskompetenzen des innovativen Startups und der wissenschaftlichen Partner des ZDIN, von dem beide Seiten profitieren.