„Man kann Umfrageinstituten maximal vorwerfen zu wenig herauszuarbeiten, wie fehlbar sie sein können“

Ein Gespräch mit Dr. Christian Fahrenbach

Mit Signal & Rauschen haben Sie ein Projekt gestartet, das auf extensive Datenanalyse bei der Vorhersage von Wahlergebnissen setzt, wieso?

Ich habe in den USA die Wahlkämpfe in den Jahren 2008, 2012 und 2016 mitverfolgt. Dort ist der Datenjournalismus beziehungsweise der Umfragejournalismus zu den Wahlen relativ weit. Das bekannteste Projekt ist vielleicht FiveThirtyEight. Das geht auf Methoden aus der Baseball-Berichterstattung zurück. Im Baseball ist es üblich, große Datenmengen zu sammeln und zu schauen, welche Muster sich aus ihnen ableiten lassen. Daran orientiert sich die Datenforschung rund um die Wahlen.

In Deutschland gab es diese Form der Datenanalyse früher eher nicht. Das ist inzwischen ein bisschen anders, es gibt auch ein paar sehr gute andere Projekte zur aktuellen Wahlsaison, zum Beispiel von PollyVote, Civey und INWT.

Ich fand an den Ideen aus den USA vor allem interessant, dass man nicht nur auf eine Umfrage setzt, sondern erkennt, dass es sinnvoller ist, sich mehrere Umfragen gleichzeitig anzuschauen. Genau das versuchen wir mit unserem Projekt.

„Man muss sich einfach klar machen, dass Umfragen nicht auf einen zehntel Prozentpunkt vorhersagen können, wie das Rennen ausgeht.“

Verliert man nicht die Inhalte aus dem Blick, wenn man sich so sehr auf die Zahlen konzentriert?

Den Vorwurf hört man immer wieder, wir haben versucht diesen Punkt bewusst zu berücksichtigen. Mein Mitgründer Dominik Wurnig und ich haben uns am Anfang das Ziel gesetzt, dass wir „weniger schlecht” vorhersagen wollen. Uns ist immer wichtig, nicht mit einer Attitüde aufzutreten, dass wir wissen, was passiert. Wir wollen ganz bewusst den Punkt machen, dass man vorsichtig sein muss und wir wollen die Hintergründe der Zahlenspielereien erklären und verdeutlichen, warum das ein kompliziertes Geschäft ist.

Was läuft Ihrer Meinung nach falsch in der Umfrageforschung?

Ehrlich gesagt läuft weniger in der Forschung etwas falsch als in der Präsentation in den Medien und beim Verständnis in der Bevölkerung. Man muss sich einfach klar machen, dass Umfragen nicht auf einen zehntel Prozentpunkt vorhersagen können, wie das Rennen ausgeht. Umfragen können immer nur eine Stichprobe einbeziehen und es ist schwer, Werte beziehungsweise Meinungen von bestimmten Bevölkerungsteilen zu erheben. Das prognostizierte Ergebnis kann immer plus oder minus zwei Prozentpunkte von der Realität abweichen.

Auch die Debatte um die angeblich falschen Vorhersagen bei der Trump-Wahl und beim Brexit wird nicht wirklich richtig geführt. Wissenschaftlich und quantitativ lagen die Umfragewerte  in Wirklichkeit nämlich ganz gut. Beide Male war das Problem, dass man sozusagen qualitativ daneben gelegen hat und gesagt hat, dass die andere Seite gewinnt. Bei Clinton und Trump ist es letztendlich so gewesen, dass 70.000 Leute in drei Bundesstaaten die Wahl entschieden haben. Das kann man in Umfragen nie erfassen.

Solche Systeme haben immer auch Grenzen, weil sonst die Befragung viel zu lange dauern oder zu teuer würde. Unterm Strich ist mein Eindruck, dass man den Umfrageinstituten maximal vorwerfen kann zu wenig herauszuarbeiten, wie fehlbar sie sein können. Aber sie treffen auch auf ein Publikum, das ihnen nur allzu gerne glaubt.

Ein Blick auf die Brexit-Umfragen zeigt: Bereits Tage vor der Abstimmung ging die Kurve der Befürworter des Brexit stark nach oben und beide Lager waren nahezu gleichauf.

 

Wie funktioniert Ihr Modell und was unterscheidet es von anderen?

In unserem Modell nutzen wir die Ergebnisse der aktuellen Umfragen und der Wahlen der vergangenen 20 Jahre. Die Daten stammen von der Webseite wahlrecht.de, deren Macher seit 20 Jahren alle Umfragen zusammenführen und statistisch aufbereiten. Unser Modell hat drei Stufen. Die erste Stufe ist ein Umfrageschnitt aus der vergangenen Woche, wir nennen das “Umfrageschnitt pur”. Wenn drei Umfragen veröffentlicht wurden, fließt jede zu genau einem Drittel in diesen Umfrageschnitt mit ein.

Die zweite Stufe ist, dass wir die Umfragen danach gewichten, wie viele Befragte es gibt, wie neu die Umfrage war, welche „Hauseffekte“ die Institute haben. Das heißt, wenn wir herausgefunden haben, dass ein Institut bei der SPD immer drei Prozent daneben liegt, lassen wir dessen SPD-Wert auch weniger in unseren Umfrageschnitt einfließen.

Die dritte Stufe ist die Prognose. Umfrageinstitute legen Wert darauf zu sagen, dass ihre Sonntagsfragen Umfragen sind und keine Prognose, das heißt, sie sind Momentaufnahmen und schauen eigentlich gar nicht in die Zukunft. Sie treffen keine Aussage für den 24. September. Wir haben aber versucht, eine Aussage für den 24. September zu treffen, weil wir gesehen haben, dass es in der Vergangenheit so war, dass Wahlergebnisse relativ stark mit Landtagswahl-Ergebnissen korrelieren.

Unser Modell beruht vor allem auf zwei Faktoren: den aktuellen Umfragen und den Landtagswahlergebnissen. Wir schauen, wie für einen bestimmten Zeitpunkt diese Anteile gewichtet werden müssen. Das heißt, drei Monate vor der Wahl zählen Landtagswahlergebnisse 80 Prozent und Umfragen nur 20 Prozent und je näher wir an die Wahl heranrücken, desto wichtiger werden die Umfragen. Diese werden dann genauer und die Landtagswahlergebnisse verlieren ihnen gegenüber an Bedeutung. Arndt Leininger, der als Wissenschaftler an unserem Projekt beteiligt ist, hatte dieses Landtagswahlenmodell selbst an der Hertie School of Governance erstellt. Für uns hat er das Modell mit unserem eigenen Umfrageschnitt erweitert.

„Ich könnte mir vorstellen, dass es ein Weg in die Zukunft wäre, stärker zu berücksichtigen mit welchen Schlagwörtern und Tonalitäten vorrangig einzelne Kandidaten in Suchmaschinen verbunden werden.“

Wie könnte die Umfrageforschung der Zukunft aussehen?

Ich könnte mir vorstellen, dass man anfängt, Umfragen mit immer mehr Faktoren zu kombinieren, weil die Bereitschaft an Umfragen teilzunehmen allgemein sinkt. Auch wenn das eine riesige Datenmenge wäre. Google hat zum Beispiel ein Projekt gestartet um zu schauen, welche Suchbegriffe es zu den Spitzenkandidaten gibt. Ich könnte mir vorstellen, dass es ein Weg in die Zukunft wäre, stärker zu berücksichtigen mit welchen Schlagwörtern und Tonalitäten vorrangig einzelne Kandidaten in Suchmaschinen verbunden werden und man so Lücken der Umfragen schließt.

Zur Person

Dr. Christian Fahrenbach ist Journalist und Berater in New York und Deutschland. Im Jahr der Bundestagswahl entschloss er sich Umfragejournalist zu sein. Gemeinsam mit dem Journalisten Dominik Wurnig hat er Signal & Rauschen gegründet, das vom Medieninnovationszentrum Babelsberg gefördert wird. Ihr gemeinsames Ziel: nicht nur Modelle berechnen, sondern auch das Business dahinter beschreiben.

Foto: Michael Wachert

Mehr zu dem Thema