heureka

Wissenschaftliche Tugenden (2) Denken ist Silber, Überprüfen ist Gold

Von  

Die Objektivität in der Wissenschaft beruht darauf, dass unabhängige Forscher die Ergebnisse bestätigen können. Doch wer kümmert sich um diese unbeliebte Arbeit? Die Fachkollegen – und auch die Journalisten – warten auf spannende Neuigkeiten.

Die Skulptur „Der Denker“ von Auguste Rodin gibt es in zahlreichen Versionen. Diese hier ist – dem Titel der Kolumne zum Trotz – aus Bronze. Foto: dpa
Die Skulptur „Der Denker“ von Auguste Rodin gibt es in zahlreichen Versionen. Diese hier ist – dem Titel der Kolumne zum Trotz – aus Bronze. Foto: dpa

Stuttgart - Wenn man erst einmal daran glaubt, ist das Priming in der Psychologie eine lustige Sache. Der englische Begriff Priming lässt sich schwer übersetzen: gemeint ist eine Art Grundierung des Denkens, ein sanfter Druck in eine bestimmte Richtung, den man nicht merkt. Das Experiment, mit dem der Psychologe John Bargh von der Yale-Universität das Phänomen bekannt gemacht hat, geht so: Die Versuchsteilnehmer müssen aus mehreren Wörtern Sätze bilden. Einige Probanden bekommen gehäuft Wörter wie „Falte“, „vergesslich“ und „Florida“ vorgelegt. Florida gilt in den USA als Rentnerparadies. Mit diesen Wörtern will John Bargh die Probanden subtil an das Älterwerden erinnern. Nach dem angeblichen Ende des Versuchs, so seine Beobachtung, brauchen die Probanden für den knapp zehn Meter langen Weg vom Versuchsraum bis zum Fahrstuhl eine Sekunde länger als die Probanden, die nicht mit diesen Wörtern traktiert worden sind. Sie gehen langsamer, bloß weil sie an das Alter gedacht haben.

Inzwischen gibt es eine bunte Sammlung ähnlicher Effekte: Menschen glauben zum Beispiel weniger an Gott, wenn sie den „Denker“ von Rodin sehen, sie beantworten mehr Quizfragen richtig, wenn sie zuvor gebeten werden, sich einen Professor vorzustellen, und sie sind im Spiel kooperativer, wenn ein Rucksack im Raum ist – im Unterschied zu einer Aktentasche. Die Effekte sind klein und kaum ein Experiment ist bisher von Fachkollegen überprüft worden. Man punktet lieber mit einer eigenen Entdeckung. Der Psychologe Stéphane Doyen von der Freien Universität Brüssel hat hingegen eine Replikation versucht und vor zwei Jahren im Fachmagazin „PLOS One“ berichtet, dass er die erste Studie von John Bargh nicht bestätigen könne. Inzwischen gibt es noch weitere Fälle dieser Art (etwa von David Shanks vom University College London) und einen offenen Brief des Nobelpreisträgers Daniel Kahneman (hier als PDF), der darauf dringt, die Krise des Fachs durch systematische Bestätigungen zu beenden. Als ich Kahneman vor einem halben Jahr interviewen konnte, bestritt er, den Brief selbst an die Medien gespielt zu haben. Aber er stehe zum Inhalt. Beim Priming seien die Experimente aufwendig, weil man viel Zeit investieren müsse, bevor eine Versuchsperson einen Datenpunkt erzeugt.

Daten sind weniger verlässlich, als man annehmen könnte . . .

Dass die Bestätigung nicht einfach sein wird, zeigt der Fall von Matt Motyl. Er arbeitet an der Universität von Virginia in einem verwandten Bereich der Psychologie. Vor einigen Jahren hat er in einem Experiment herausgefunden, dass Menschen mit extremen politischen Ansichten schlechter darin sind, abgestufte Grautöne voneinander zu unterscheiden. Extremisten, so das vorläufige Fazit, neigen tatsächlich dazu, die Welt in Schwarz und Weiß zu sehen. Doch als Motyl das Experiment wiederholte, fand er den Effekt nicht mehr. Die Studie blieb daher unveröffentlicht und er blieb vorerst Doktorand (das Wissenschaftsmagazin „Nature“ hat über diesen Fall berichtet; den Artikel gibt es auch in einer deutschen Übersetzung). Im Herbst wird Motyl jedoch eine Stelle an der Universität von Illinois antreten, schreibt er in einer E-Mail.

Der Statistiker John Ioannidis von der Universität Stanford hat eine Erklärung für die Schwierigkeiten: Wenn eine Arbeitshypothese sehr unwahrscheinlich ist, dann ist es schwer, eine vertrauenswürdige Bestätigung zu erhalten. Er fasst das in einer Formel zusammen: Wenn man die Aussagekraft eines Experiments mit der Häufigkeit wahrer Hypothesen in dem jeweiligen Fachgebiet multipliziert, muss dies größer sein als die Wahrscheinlichkeit eines falschen Alarms.

Das lässt sich an einer medizinischen Diagnose erläutern. Nehmen wir an, dass einer von 1000 Menschen die Krankheit hat, um die es geht. Dann liegt die Häufigkeit wahrer Diagnosen hier bei 1 zu 1000. Und nehmen wir an, dass die Aussagekraft des verwendeten Tests bei 99,9 Prozent liegt: Er schlägt also bei 99,9 Prozent der Erkrankten an. Dann ist das Produkt 0,0999 Prozent. Dann sollte laut John Ioannidis der Test in weniger als 0,0999 Prozent der Fälle bei gesunden Probanden anschlagen. Und selbst wenn diese Bedingung erfüllt ist, gibt es keine Sicherheit, dass ein positiver Befund auf eine vorliegende Krankheit hinweist. Er stimmt bloß mit einer etwas größeren Wahrscheinlichkeit, als dass er falsch ist. Der Test würde unter 1000 Menschen den einen Kranken finden – doch ihm stünde (wenn die Wahrscheinlichkeit für einen falschen Alarm bei 0,1 Prozent liegt) ein Gesunder gegenüber, bei dem der Test ebenfalls anschlägt. Man hätte also zwei positive Testergebnisse – und nur eins davon wäre richtig.

. . . doch Journalisten berichten trotzdem

In der Psychologie dürften die Aussagekraft der Experimente geringer und die Wahrscheinlichkeit eines falschen Alarms höher sein. Wenn man das Argument von John Ioannidis ernst nimmt, sollte man gerade den überraschenden (und demnach unwahrscheinlichen) Ergebnissen wie dem Priming-Effekt daher nicht vorschnell trauen. Vor solchen Problemen ist übrigens selbst die Physik nicht gefeit: Der „Economist“ erinnert in diesem Zusammenhang an das Pentaquark, einen Zusammenschluss von fünf Quarks, der erst mehrfach nachgewiesen wurde, heute aber doch als umstritten gilt. Die Empfehlung von John Ioannidis lautet: Man sollte vor allem die Arbeitshypothesen, die man für sehr wahrscheinlich hält, in großen Studien untersuchen. Die Psychologen haben das Problem erkannt und wirken nervös. Die Wissenschaft sei in der Anfangsphase einer Revolution, schreibt Matt Motyl. Sein Rat: „Wenn Forscher gezwungen wären, alle ihre Entscheidungen zur Datenanalyse zu veröffentlichen, könnte man die Experimente einfacher überprüfen.“

Parallel zur wissenschaftlichen Diskussion müssten sich meiner Ansicht nach auch Wissenschaftsjournalisten überlegen, wie sie mit dem Problem der fehlenden Bestätigungen umgehen. Der Artikel von John Ioannidis trägt den Titel: „Warum die meisten veröffentlichten Forschungsergebnisse falsch sind“. Wenn das stimmt, berichten meine Kollegen und ich regelmäßig über Forschungsergebnisse mit kurzen Beinen.

(Bisher ist ein Artikel dieser Serie zur wissenschaftlichen Skepsis erschienen.)

Nachtrag: Einige Psychologen widersprechen den Kritikern – hier mein Überblick über die Debatte.