Umfragen — Wahrsagerei?

Das Jahr 2016 hat dem Ansehen von Wahl- und Meinungsumfragen hart zugesetzt. Es reicht, nur einige der bösen Überraschungen zu nennen, die wir dem Vertrauen in Umfragen verdanken: Die Wahl Donald Trumps zum Präsidenten der USA, der Brexit oder die Wahlerfolge der AfD.

Harte Urteile über Umfragen überraschen daher nicht: Wahrsagerei, unwissenschaftliche Kaffeesatzleserei, methodisch auf dem Niveau der Astrologie. Solche Urteile werden damit begründet, dass die „Meinungsforscher nach geheimen Rezepten“ *1) die Rohdaten der Befragungen korrigieren. Außerdem sei „die undurchsichtige Korrektur der Ergebnisse .. bedenklich, denn Meinungsforscher beeinflussen durch ihre Vorhersagen den Verlauf von Wahlkämpfen und den Ausgang der Wahlen.“ *1)

Diese Kritik durch Thomas Grüter ist ernst zu nehmen. Gerade weil viele Bürger sich wegen unerfreulicher Überraschungen bei Wahlen und Referenden von vorausgehenden Umfrage-Resultaten getäuscht fühlen mögen.

Dennoch wird hier eine Gegenposition zu beiden Kritik-Punkten Grüters versucht:

Erstens, Meinungsforschung ist unverzichtbar für die politische Kultur und für den demokratischen Wettbewerb. Deshalb ist sie auch als Teil von Wahlkämpfen erwünscht.

Zweitens, die Unternehmen der Meinungsforschung stehen im Wettbewerb um Aufträge. Ihre Reputation hängt ab von der Qualität ihrer Umfragedaten und dem Test der Realität. Die Aussagefähigkeit der Daten kann der Bürger beurteilen, wenn er die Daten methodisch angemessen interpretiert. Die Wissenschaftlichkeit der Methoden wird nicht dadurch eingeschränkt, dass Institute ihren Umgang („Gewichtung“) mit erhobenen Rohdaten nicht im einzelnen publizieren. Das ist auf anderen Wettbewerbsmärkten nicht anders. Auch dort finden wissenschaftliche Methoden Anwendung, ohne Konkurrenten oder Öffentlichkeit unternehmerisch relevante Einblicke zu gewähren.

Umfragen sind Teil politischer Kultur.

„Meinungsforschung ist ein Verfahren zur Ermittlung von Einstellungen, Ansichten, Verhalten und Wünschen bei Individuen und Gruppen. Im politischen System dient Meinungsforschung“ damit als Grundlage von Entscheidungen. *2)

Der politische Wettbewerb kann zu Bürgernähe beitragen, wenn die Vorlieben und Abneigungen (Präferenzen) der Bürger hinreichend genau erfasst und untersucht werden. Dies würde durch engen Austausch zwischen Wissenschaft und Politik gefördert. Deshalb ist ein wesentlicher Beitrag von Meinungsforschung zur politischen Kultur darin zu sehen, dass universitäre Forschung Umfragedaten nutzt, um Einstellungen der Bevölkerung zu politischen Sachfragen zu untersuchen.

Das Institut für Meinungsforschung INFRATEST DIMAP nennt Beispiele für solche Forschungskooperation, für die es im Jahr 2016 Umfragedaten erhoben hat.*3)

• So wurden Erwerbstätige „zur subjektiven Statusverunsicherung und deren Folgen für   längerfristig bindende Entscheidungen in der eigenen Lebensführung“ im Auftrag der Universität Leipzig befragt.

• Einstellungen von Bundesbürgern zum Freihandelsabkommen TTIP erhob das Institut im Auftrag der ETH Zürich.

• In 13 europäischen Ländern wurde nach „Einstellungen und Haltungen der Bürger in Fragen von transnationaler Solidarität, sozialer Gerechtigkeit und Sozialpolitik im europäischen Kontext“ gefragt (Auftraggeber Universität Leipzig und Freie Universität Berlin).

• Der aktuelle Armuts- und Reichtumsbericht der Bundesregierung nutzte Forschungsarbeiten der Universität Osnabrück, deren Grundlage „im DeutschlandTREND erhobene Bevölkerungseinstellungen zu insgesamt 252 politischen Sachfragen“ bildeten.

Bürgernaher Politik können Befragungen der wahlberechtigten Deutschen wie der DeutschlandTREND von INFRATEST DIMAP im Auftrag der ARD-TV dienen. So wurde vor der Bundestagswahl im September 2013 gefragt: Welche Aufgaben sollten der nächsten Bundesregierung wichtig sein? *4)

Deutliche Mehrheiten zwischen 47 und 49 Prozent erachteten die folgenden politischen Aufgaben als äußerst wichtig: Bessere Vereinbarkeit von Beruf und Familie (49 %); Schuldenabbau (48 %); Einführung eines einheitlichen gesetzlichen Mindestlohns (47 %). Ein eher gespaltenes Meinungsbild (äußerst wichtig und wichtig gegenüber weniger wichtig) bestand bei Aufgaben wie: Abschaffung des Betreuungsgeldes oder Einführung einer PKW-Maut für ausländische Autofahrer.

Ebenso wirksam für den politischen Wettbewerb kann die Ansage der Wähler sein, wenn sie nach ihrem Urteil über die Fähigkeit der Parteien befragt werden, Probleme auf bestimmten Politikfeldern zu lösen. So wurde vor der Bundestagswahl 2013 der CDU/CSU gegenüber der SPD ein deutlicher Kompetenzvorsprung zugeschrieben bei folgenden Themen: Arbeitsplätze, Wirtschaft, Eurokrise, Zukunft. Die SPD lag vorn bei Sozialer Gerechtigkeit. *5)

Zu solchen Resultaten passt, dass die Große Koalition von CDU/CSU und SPD von 52 Prozent der Wahlberechtigten gut beurteilt wurde. Mehrheitlich schlecht fiel das Meinungsbild über CDU/CSU/Grüne und erst recht über SPD/Grüne/LINKE aus. *5)

Ganz besonders vor Wahlen möchten Bürger wissen, was sie mit ihrer Stimmabgabe bewirken können: Wollen sie zum Beispiel einer Partei am Rande der 5%-Hürde helfen, in den Bundestag zu kommen? Oder ist ihnen das Risiko zu groß, ihre Stimme zu verschwenden? Oder wollen Bürger ein Parteienbündnis daran hindern, die Mehrheit im Bundestag zu erringen? Oder mit ihrer Erst-Stimme bei der Wahlkreisbewerbung einer Persönlichkeit besonderes Vertrauen im Vergleich zu ihrer Partei ausdrücken?

Im Interesse solcher „strategischen Wähler“ hat der Politikwissenschaftler Jürgen Falter den umstrittenen Vorgang verteidigt, dass Institute noch zwei Tage vor der Bundestagswahl 2013 Umfragen veröffentlichten: „Je knapper es aussieht, desto mehr Zutrauen haben die Wähler, dass sie mit ihrer Stimme etwas ausrichten können“. Aus dieser Sichtweise ist der Einfluss von Umfragen auf den Ausgang von Wahlen sogar erwünscht, da die Wähler in ihrem Ziel gestärkt werden, „strategisch auf aktuelle Umfrage-Änderungen (zu) reagieren“. *6).

Umfragen gehören deshalb gerade für die „strategischen Wähler“ zu unserem demokratischen System. Als Teil demokratischer “checks and balances“. Sie allein garantieren jedoch keine angemessen problemorientierte Politik. Dass „politische Entscheidungsträger sich zu sehr von Umfrageergebnissen leiten lassen“ *6) statt von sachlich notwendigen Zielen, sollte von „strategischen“ Wählern erkannt und am Wahltag abgestraft werden.

Staatsbürger, die mit der Wahlentscheidung politische Wirkung anstreben, müssen sich selbst ein Urteil über die Qualität von Umfragedaten bilden, zumal deren angemessene Interpretation in den Medien nicht immer gewährleistet ist.

Zur Qualität von Wahlumfragen.

Hier soll eine Methodenlehre der Meinungsforschung gar nicht erst versucht werden. Vielmehr ist das Vorgehen vom Erlebnis der US-Wahlnacht bestimmt. Noch um 02.30 Uhr in der Nacht des 9. November 2016 glaubte ich an den Wahlerfolg von Hillary Clinton. Ab 03.15 Uhr wuchs die Sorge vor der bösen Überraschung bis zur Gewissheit.

Wieso konnten selbst so große Meinungsforscher wie Nate Silver irren? Oder ein angesehener deutscher Wissenschaftler, Andreas Graefe, langjähriger Leiter des Prognoseportals Pollyvote, das ähnlich der FiveThirtyEight-Methodik von Nate Silver verschiedene Umfragen, Informationen und Analysen zum US-Wahlkampf auswertete: „In der Vergangenheit gab es bisher keinen einzigen Tag, an dem Pollyvote den Gewinner falsch vorausgesagt hätte, der Prognosefehler ist deutlich geringer als bei anderen Verfahren.“ Selbstbewusst Prof. Graefe am 27.10.2016: „Es ist unwahrscheinlich, dass Hillary Clinton nicht die erste Präsidentin der USA wird“. *7)

Zweifellos ein Triumph für jene Umfrage-Skeptiker, die schon immer sagten, „dass Wahlprognosen ausgemachter Schwindel seien.“ *8) Der Politologe Stefan Marschall hat das Problem sachlich so zusammengefasst, „dass Umfragen immer zwischen zwei und fünf Prozent vom tatsächlichen Wert abweichen. Statistiker nennen dies Irrtumswahrscheinlichkeit.“ *8)

Deshalb ist es für den „strategischen Wähler“, der Umfragedaten in seine Entscheidung einbezieht, von zentraler Bedeutung, diese Daten angemessen zu interpretieren. Dabei helfen die Analysen, die angesehene Meinungsforscher und Statistiker wie Nate Silver, Andreas Graefe oder Laurent Millischer zu ihren Daten vorgelegt haben.

Millischer etwa betonte: Die wichtigste Information bei einer Wahlumfrage ist „nicht das Ergebnis, sondern die Ungenauigkeit, sei sie als Schwankungsbreite oder als 95-Prozent-Konfidenzintervall angeführt.“ *9) Damit hat Millischer das bei Wahl-Umfragen übliche Konfidenzintervall oder Konfidenzniveau von 95 Prozent bzw. die Irrtumswahrscheinlichkeit von 5 Prozent benannt.

Somit müsste unser „strategischer Wähler“ ein Umfrageergebnis von z. B. 40 % für die CDU/CSU wie folgt deuten:

In 95 Prozent aller Fälle, in denen aus der Gesamtzahl der Wahlberechtigten eine Stichprobe von z.B. 1500 Personen gezogen wird, würde ein gemessener Wert zwischen 37,5 und 42,5 Prozent erwartet. Höchstwahrscheinlich würde er bei 40 Prozent liegen.

In 5 Prozent aller Fälle, immerhin bei jeder 20. Stichprobe, würde jedoch ein Wert außerhalb des 95-Prozent-Konfidenzintervalls zu erwarten sein, also unter 37,5 oder über 42,5 Prozent.

Umfrage-Institute hätten demnach den Realitätstest ihrer Wahl-Prognosen bestanden, wenn ihre Ergebnisse nach der Wahl im Rahmen der angegebenen Schwankungsbreite (Konfidenzintervall) liegen.

Den Realitätstest von Wahlprognosen beeinflusst allerdings zusätzlich ein nicht genau messbarer systematischer Fehler: Das von Umfrage-Instituten angestrebte Konfidenzniveau gilt nur, wenn sämtliche Wahlberechtigten, erstens, die genau gleiche Chance gehabt hätten, in die Stichprobe zu gelangen und, zweitens, wahrheitsgemäß auf Fragen zu ihrer Wahlabsicht antworteten.

Schon die erste Annahme (gleiche Auswahlchance) trifft in der Regel nicht zu, da keine reine Zufallsstichprobe aus der Gesamtzahl der Wahlberechtigten gezogen wird: Abwesenheit, Antwortverweigerung, unterschiedliche Erreichbarkeit über Festnetz-Telefon, Mobil-Phone oder Internet sind nur einige der Faktoren, die zu einer Stichprobenauswahl führen, die ein mehr oder weniger verzerrtes Abbild der Gesamtheit der Wahlberechtigten darstellt.

Die Institute bilden daher eine Stichprobenauswahl nicht durch reine Zufallsauswahl, sondern per „Quotenverfahren“. Diese Stichprobe sollte der Wähler-Gesamtheit in Bezug auf bestimmte Merkmale entsprechen, die für die Wahlentscheidung wichtig sind: z. B. Alter, Geschlecht, Einkommen, Bildungsstand, Beruf, Wohnort. Die Quote (der Anteil) dieser Merkmale in der Stichprobe hätte bei diesem Vorgehen der betreffenden Quote in der Gesamtheit der Wahlberechtigten zu gleichen. Dann wären Schlüsse von Stichproben-Daten auf die Gesamtheit, z. B. die Wahlberechtigten, möglich und hinreichend aussagefähig.

Diese schwierige Arbeit wird von Könnern ihres Faches geleistet, die Erfahrung, statistische Analysen und weitere Informationen nutzen, um die „Rohdaten“ entsprechend dem Wissen über die Gesamtheit der Wahlberechtigten zu „gewichten“. Nur zur Illustration der komplizierten Arbeit des „Gewichtens“: Wären trotz Bemühung nur 25 Prozent Frauen in die Stichprobe zu bringen, deren Anteil insgesamt aber 50 Prozent ist, würden — im einfachsten Fall — die Antworten doppelt gezählt. *10)

Nate Silver, der Hillary Clintons Wahlsieg vorhersagte, analysierte gleichwohl vor der US-Wahl am 8. November 2016: „But the public polls — specifically including the highest-quality public polls — show a tight race in which turnout and late-deciding voters will determine the difference between a clear Clinton win, a narrow Clinton win and Trump finding his way to 270 electoral votes.“ *11)

Das oben erwähnte Problem einer verzerrten Stichprobenauswahl könnte dazu geführt haben, dass Anhänger von Trump unter-repräsentiert, weil sie besonders schwer erreichbar oder nicht zur Antwort bereit waren. Auch hätten ein später Stimmungswechsel („late swing“) und Mitläufer-Effekte („herding“) Trump begünstigt. Bewusst falsche, aber vermeintlich “politisch korrekte“ Antworten mögen die Bereitschaft, den bizarr auftretenden Kandidaten Trump zu wählen, im Umfragebild unterschätzt haben. Zusätzlich wird die Fähigkeit beider Kandidaten, die Wahlberechtigten tatsächlich zur Stimmabgabe zu bewegen (“voter turnout“), falsch beurteilt worden sein. *12)

Solche systematischen Fehler heben sich im Unterschied zu Zufallsfehlern, d.h. zufälligen Abweichungen von der „richtigen“ Stimmungslage bei allen Wahlberechtigten, durch wiederholte Befragungen nicht auf, sondern pflanzen sich fort. Die Folge: Ist eine Stichprobe „falsch“ zusammengesetzt und liefert „falsche“ Ergebnisse, dann auch die nächste usw., bis zur Überraschung am Wahltag. Auf systematische Stichproben- und Befragungsfehler ist daher besonders zu achten.

Das Ergebnis der US-Wahl wirkt sicher im deutschen Wahljahr 2017 als Alarm-Ruf für die deutschen Umfrage-Institute. Der „strategische“ Wähler wird deren Professionalität voraussetzen und anerkennen. Gerade im Bewusstsein der im USA-Fall aufgetretenen Unwägbarkeiten.

Mir sind verbreitete Vorwürfe wie „Kaffeesatzleserei“ oder „ausgemachter Schwindel“ an die Adresse der Umfrage-Institute zu bequem und leichtfertig. „Polling is an art, but it´s largely a scientific endeavour“ *13) — dies scheint ein faires Fazit.

*1) Thomas Grüter. WAHLPROGNOSEN. Meinung: An der Grenze zur Wahrsagerei. Den Ausgang von Wahlen vorherzusagen, wird immer schwieriger. Meinungsforscher lassen sich dadurch zu wenig belastbaren Spekulationen hinreißen, meint Thomas Grüter; Kommentar. 04.11.2016; www.spektrum.de/kolumne/meinung-an-der-grenze-zur-wahrsagerei/1428276.

*2) http://www.bpb.de/nachschlagen/lexika/handwoerterbuch-politisches-system/202068/meinungsforschung.

*3) INFRATEST DIMAP-NEWSLETTER. AKTUELLE UMFRAGEERGEBNISSE UND NEUIGKEITEN VON INFRATEST DIMAP, 21. Dezember 2016; http://www.infratest-dimap.de/?id=101

*4) MoMa-DeutschlandTREND September 2013 ARDmorgenmagazin; Welche Aufgaben sollten der nächsten Bundesregierung wichtig sein? http://www.infratest-dimap.de/index.php?

*5) Forschungsgruppe Wahlen. Umfrage vor der Bundestagswahl 09/2013. (Welche Partei löst die Probleme am besten. Bewertung von Koalitionsmodellen.) Forschungsgruppe Wahlen für das ZDF; http://www.forschungsgruppe.de/.

*6) Experten streiten sich über Wirkung von Umfragen. Gleich drei große Umfrageinstitute haben noch zwei Tage vor der Bundestagswahl eine Umfrage veröffentlicht – Experten sind sich in der Wirkung uneinig; Köln (dts Nachrichtenagentur). DTS-Meldung vom 20.09.2013.

*7) KOMMUNIKATIONSWISSENSCHAFTLER ANDREAS GRAEFE. „Es ist unwahrscheinlich, dass Hillary Clinton nicht die erste Präsidentin der USA wird“ von Katrin Ansorge. Donnerstag, 27. Oktober 2016; http://www.horizont.net/medien/. (Hervorhebung RS).

*8) Wie genau sind Wahlprognosen? David Hutham. 06.09.2013; http://www.derwesten.de/ (Hervorhebung RS).

*9) Wahlforschung ist kein Kaffeesudlesen: Jetzt wird abgerechnet! BLOG. LAURENT MILLISCHER. 1. Oktober 2013; derStandard.at.

*10) Vgl.: Hintergrund: Wahlumfragen aus wissenschaftlicher Sicht. DTS-Meldung vom 21.09.2013.

*11) Election Update: Don’t Ignore The Polls — Clinton Leads, But It´s A Close Race.

By Nate Silver. NOV 6, 2016 AT 1:10 PM. (Hervorhebung Nate Silver).

Nach der Wahl gestand Nate Silver ein: „Given the historical accuracy of polling and where each candidate´s support was distributed, the polls showed a race that was both fairly close and highly uncertain. This isn’t just a case of hindsight bias. It´s tricky to decide what tone to take in an article like this one — after all, we had Hillary Clinton favored.“ (Why FiveThirtyEight Gave Trump A Better Chance Than Almost Anyone Else. By Nate Silver. NOV 11, 2016 AT 4:09 PM).

*12) Vgl.: Paul Whiteley. Four possible explanations why most of the polls got the US election wrong. November 10, 2016; https://theconversation.com/four-possible-explanations …

*13) THE POLLING CRISIS. 304 | NATURE | VOL 538 | 20 OCTOBER 2016;

http://www.nature.com/polopoly_fs/1.20815!/menu/main/topColumns/topLeftColumn/pdf/538304a.pdf.

Überzeugend deshalb der Appell: „Wünschenswert wäre daher nicht nur größtmögliche methodische Transparenz seitens der Institute, sondern auch eine aufrichtige mediale Präsentation, die der nahe liegenden Versuchung, aus kleinen Schwankungen Nachrichten zu produzieren, widersteht und bestehende Unsicherheiten deutlicher kommuniziert.“ Johannes Piepenbrink, Demoskopie, Editorial, 14.10.2014; http://www.bpb.de/apuz/192957/editorial. Hier finden sich herausragende Beiträge zur Methodik der Meinungsforschung.