Gravitationswellen: Stilles Fiasko

Bild: DLR

Trotz hochgesteckter Erwartungen produzieren die Detektoren LIGO und VIRGO seit über zehn Monaten nur Fehlalarme. Das wirft grundsätzliche Fragen zur Methodik auf

Spätestens seit der Verleihung des Nobelpreises 2017 gilt die direkte Detektion von Gravitationswellen als gesichert. Seitdem sind Gravitationswellen ein selbstverständlicher Teil des Diskurses der Grundlagenphysik. Die Entscheidung des Nobelkomitees basierte auf dem ungewöhnlich starken Gravitationswellensignal GW150914, vorgestellt auf der legendären Pressekonferenz im Februar 2016 sowie auf dem Signal GW170817, dass der Verschmelzung von zwei Neutronensternen zugeordnet wurde, weil zwei weitere Teleskope ein koinzidentes Signal registriert hatten. Dazu später noch mehr.

Die Nachricht von der Entdeckung der Gravitationswellen wurde auch deshalb so enthusiastisch aufgenommen, weil man ein neues Zeitalter der Astronomie erwartete, in dem Gravitationswellen zusammen mit anderen Teleskopen ganz neue Erkenntnisse über das Universum liefern sollten. Nicht wenige verglichen dies mit Galileis erstmaligem Gebrauch des Teleskops 1609. Entsprechend gespannt war die internationale Gemeinschaft, als die Sensitivität der seit vier Jahren so erfolgreichen Detektoren nochmals erheblich verbessert wurde. Man musste kein Optimist sein, um für die seit April 2019 laufende Messereihe O3 Dutzende von sensationellen Ereignissen zu erwarten. Stattdessen lautet das Ergebnis: nichts.

Fehlalarme, ein bisschen zu häufig

Kein Signal der Gravitationswellenkollaboration konnte unabhängig verifiziert werden, stattdessen gab es eine unerklärlich große Anzahl von Fehlalarmen und Signalen, deren Glaubwürdigkeit nachträglich zurückgestuft wurde.

Bei 14 Ereignissen wäre eine Beobachtung durch andere Teleskope prinzipiell möglich gewesen, aber keine einzige (!) konnte bestätigt werden. Darüber hinaus wurden 19 Signale (rot markiert) zurückgezogen. Teilweise waren diese anfangs als hochsignifikant bewertet worden, beispielsweise wurde die False alarm rate für das Signal GW191117j mit einem Fehlalarm in 28 Milliarden Jahren (!) angegeben, für GW190822c mit einem in 5 Milliarden Jahren und für GW200108v immerhin noch mit einem in hunderttausend Jahren.

Dafür, dass die Messreihe noch kein ganzes Jahr läuft, ist das schon ziemlich viel "Alarmismus". Oder anders gesagt: Diese Berechnungen waren offensichtlich Unsinn. Wie kommt es, dass die Algorithmen der Qualitätssicherung hier derart versagen?

Auffällig ist zudem die Nomenklatur, die neben dem Datum zwei Buchstaben verwendet, was bedeutet, dass zum Beispiel bei dem Ereignis 190814bv am gleichen Tag schon 67 andere Signale intern als "Störungen" aussortiert wurden, obwohl sie von den Detektoren als Gravitationswellen registriert worden waren - nach welchen Kriterien dies geschieht, bleibt im Übrigen völlig intransparent. Wenig Vertrauen erweckt, dass der Rückruf oft erst dann erfolgte, wenn er von anderen möglichen Beobachtungen nicht bestätigt wurde, während man den Signalen von Schwarzen Löchern, die sich exklusiv durch Gravitationswellen zeigen, offenbar blind vertraut.

Sabine Hossenfelder, die schon mehrfach auf die Schwächen der LIGO-Datenanalyse hingewiesen hatte, spricht in ihrem vielgelesenen Blog die Kollaboration direkt an:

Wenn ihr nicht versteht, warum ein detektiertes Signal nicht so aussieht wie erwartet, wie könnt ihr ihm dann in den Fällen vertrauen, wenn es den Erwartungen entspricht?

Sabine Hossenfelder

In der Tat legt die oft improvisiert wirkende Interpretation der "Störungen" den Schluss nahe, dass es überhaupt kein systematisches Vorgehen gibt, wie echte Signale von Artefakten zu trennen sind, außer dass man eklatanten Widerspruch zu anderen (Nicht-)Beobachtungen vermeiden will. Denn allen 48 Entdeckungen ist bisher nur folgende lapidare Zeile gemeinsam: "no EM observation entries so far", zu Deutsch: Sonst hat es niemand gesehen.

Nicht zu vergessen ist, dass diejenigen Signale von Schwarzen Löchern, die LIGO/VIRGO exklusiv zu beobachten behauptet, in ziemlichem Widerspruch zu den bisherigen Modellen stehen, die Schwarze Löcher in diesem Massenbereich nicht für möglich halten.

Die Schwarzen Löcher der Gravitationswellen bilden eine eigene Population, die sich stark von der bisher bekannten unterscheidet. Bild: Albert-Einstein-Institut.

Besonders dreist war es, das Signal S190425z, das von einem einzigen (!) Detektor stammte, als verschmelzende Neutronensterne mit einer Falschalarmrate von 1:69000 Jahren auszugeben - im Widerspruch übrigens zu einem methodischen Artikel von LIGO selbst.

Das wirkliche Resultat: Scheitern einer falschen Methode

In den meisten Medien werden solche unbelegten Behauptungen von LIGO/VIRGO als Entdeckung gefeiert. Das wirkliche Ergebnis des seit April 2019 laufenden verbesserten Experimentes ist jedoch: die Datenauswertung der Kollaboration taugt nichts.

Wenn man die Entwicklung seit der Bekanntgabe der Entdeckung 2016 verfolgt, ist dies allerdings keine Neuigkeit. Als erste unabhängige Gruppe untersuchte ein Team um Andrew D. Jackson vom Niels-Bohr-Institut in Kopenhagen die Daten und fand bald merkwürdige Korrelationen in den Stör- bzw. Residualsignalen, deren Ursprung trotz gegenteiliger Behauptung der Kollaboration bis heute ungeklärt ist.

Das vermeintliche Störsignal entsteht, wenn man die Rohdaten (nach bestimmten Filterungen) mit sogenannten Templates vergleicht, d.h. theoretisch berechneten Signalen, die man aus numerischen Simulationen von Gravitationswellen erwartet. In der Datenanalyse ist so ein Vorgehen aber nur dann berechtigt, wenn man von der Existenz des Signals überzeugt sein kann und die Form genau kennt - andernfalls handelt es sich um ein Rezept zur Selbsttäuschung. Jackson erläuterte dies in einem Vortrag sehr anschaulich mit einem Vergleich zur automatischen Bilderkennung bei Autokennzeichen. Diese kann zwar mit einem verschwommenen Foto immer noch funktionieren, aber nur, weil eben alle Autos mit Kennzeichen genau definierter Größe und Buchstabenform herumfahren.

Abbildungen aus einem Vortrag von Andrew D. Jackson.

Wendet man den Algorithmus jedoch auf beliebige Bilder an, würde er aus jedem gelben Fleck mit schwarzen Punkten ein bestimmtes Autokennzeichen herauslesen. Genau das scheint im Moment mit den Gravitationswellen zu passieren.

Nichts ist schwerer, als sich nicht selbst zu betrügen.

Ludwig Wittgenstein

Ergebnis durch die Brille der Erwartung

Eigentlich ist dies nichts Neues: Kennt man die Zusammensetzung der Daten nicht ganz genau, erzeugt eine Filterung notwendig falsch-positive Resultate.

Ungefilterte Rohdaten der Laboratorien Hanford (oben) und Livingstone (unten). Nach verschiedenen Filterungen erhält man das "Signal" (100-fach vergrößert), auf welche dann die "Template"- Analysemethode angewandt wurde (nächste Abbildung). Bild: Cresswell et.al (2017)

In diesem Zusammenhang wurde im November 2018 eine Peinlichkeit offenbar, als die Kollaboration einräumen musste, dass die Unterscheidung von Signal und Residuum in der Erstveröffentlichung "für pädagogische Zwecke" "von Hand" erfolgt war. Ein noch größerer Skandal ist aber, dass die verwendeten Templates nicht immer veröffentlicht wurden, in einem Fall sogar nachträglich ausgetauscht. Dies gilt insbesondere für die beiden entscheidenden Signale GW150914 und GW170817.

Aus der LIGO-Originalveröffentlichung: Beobachtungsdaten (oben), Template (Mitte) und Restsignal (unten). Bild: LIGO Scientific Collaboration and Virgo Collaboration.

Erstentdeckung gerät langsam ins Zwielicht

In durchaus konstruktiver Kritik hat die Gruppe aus Kopenhagen eine Methode entwickelt, die ohne die berüchtigten Templates mit rein statistischen Methoden Signale entdeckt. Damit wurde das erste Ereignis vom September 2015 als klar signifikant identifiziert, aber - und jetzt wird es wirklich merkwürdig - eben nur dieses erste Ereignis GW150914!

Eine Übersicht der Signalstärken wurde für O3 bisher bezeichnenderweise nicht publiziert. Die Tatsache, dass inzwischen über 50 weitere Signale detektiert wurden, die wohl sämtlich wesentlich schwächer ausfielen, kann die von Anfang an bestehenden Zweifel an der Authentizität jenes allerersten Signals nur dramatisch verstärken. Eine so starke Gravitationswelle innerhalb einer ungesicherten Testphase konnte man kurz nach Inbetriebnahme noch als Glück bezeichnen, knapp fünf Jahre später hat dies aber allmählich einen schalen Beigeschmack. Wenn noch zehn Jahre lang kein statistisch signifikantes Signal auftaucht, soll man dann GW150915 immer noch für echt halten?

Verfechter der LIGO/VIRGO-Interpretation führen inzwischen hauptsächlich GW170817 als Evidenz für Gravitationswellen an, ein Ereignis, das erhebliche mediale Aufmerksamkeit auf sich zog, weil behauptet wurde, LIGO habe einen verschmelzenden Neutronenstern entdeckt, der dann von den Gammastrahlen-Teleskopen Integral und Fermi und von weiteren optischen Teleskopen bestätigt worden sei.

Dazu gibt es eine Reihe von Ungereimtheiten: LIGOs Detektion erfolgte erst Stunden nach dem Hinweis der anderen Teleskope, das gerade in Betrieb genommene Labor VIRGO trug kein erkennbares Signal bei, ein Netzwerkausfall bei LIGO/VIRGO und ESA am gleichen Tag, Zweifel an der Vereinbarkeit des Signals mit einem Neutronenstern, Überlagerung durch ein starkes Störsignal, das herausgefiltert werden musste, ein sehr schwaches optisches Signal usw., was in der Fachwelt diskutiert wird. Die Befürworter halten dagegen, LIGOs Richtungsangabe sei wesentlich genauer gewesen als die beiden anderen Teleskope, dies könne kein Zufall sein.

Wissenschaftlicher Leistungssport

Manche mögen es für plausibel halten, dass GW170817 von einer Gravitationswelle stammt, als Beweis taugen diese kleinteiligen Erwägungen jedoch nicht. Bei einer fundamental wichtigen Frage wie die direkte Detektion von Gravitationswellen muss man fordern, dass Evidenz nach vorher festgelegten Regeln und wissenschaftlichen Standards präsentiert wird.

Zu GW 170817 wurde noch immer kein Template veröffentlicht, welches unter Umständen eine Falsifizierung ermöglichen würde. Im offiziellen Katalog auf S. 21 ist es als einziges nicht angegeben, mehrere renommierte Forscher haben ergebnislos um das Template gebeten. Das ist skandalös. Wissenschaft bedeutet Reproduzierbarkeit.

Die Diskussion, ob das Signal GW170817 für die Existenz von Gravitationswellen spricht oder nicht, gleicht daher Überlegungen, ob ein gedopter Sportler seinen Weltrekord vielleicht auch ohne die nicht zugelassenen Substanzen geschafft hätte. Dazu kommt nun, dass in den folgenden Jahren der Sportler in zahlreichen Rennen seinen Rekord bisher nicht einstellen konnte… man fragt sich schon, warum sowohl bei GW150914 als auch bei GW170817 das jeweils erstmalige Ereignis, welches mit großen Pressekonferenzen gefeiert wurde, unter nicht regulären Umstanden zustande kam, aber unter verbesserten technischen Bedingungen in langen Messreihen nicht reproduziert werden kann.

Vielleicht irre ich mich ja in meiner Einschätzung und die Messreihe O3 liefert bis Ende April 2020 noch überzeugende Ereignisse. Einer anderen Interpretation der ausbleibenden Resultate sei aber hier schon vorgebeugt. Eine Anpassung der theoretischen Modelle an die unbequeme Realität der Messungen ist leider manchmal zu beobachten, und so kann man erwarten, dass im Falle des fortgesetzten Misserfolgs von O3 die Wahrscheinlichkeit des Verschmelzens von massiven Schwarzen Löchern und von sichtbaren Neutronensternen einfach als geringer angenommen wird. Die Schätzung für letztere ging in den letzten Jahren von 100 Ereignissen auf eines (!) pro Jahr zurück (Vergleich zu 2013). Für eine exakte Wissenschaft ist dies eine beunruhigende Flexibilität. Das Auftreten am Anfang der Messperiode und just vor dem Nobelpreis wird aber dadurch nur bizarrer.

So wird die wesentliche Programmierarbeit in der dänischen Gruppe von einem Wissenschaftler, Hao Liu, geleistet. Es ist klar, dass diese begrenzten Mittel kaum mit LIGO konkurrieren können. Mit sauberer, gründlicher Reproduktion von wichtigen Ergebnissen sind im Wissenschaftsbetrieb oft nicht viel Lorbeeren zu ernten.

Scheitern ist keine Sensation

Die hier beschriebenen Vorgänge in der Gravitationswellenphysik stellen eine Fehlentwicklung dar, die der eine oder andere Beobachter des Forschungsbetriebes schon in anderen Gebieten festgestellt haben mag. Daher lohnt ein wissenschaftssoziologischer Blick auf die Ereignisse.

Obwohl die Entdeckung oder der Ausschluss von bestimmten Objekten erkenntnistheoretisch den gleichen Wert haben, gibt es einen großen praktischen Unterschied, der erstere begünstigt. Ersehnte Entdeckungen sind einfach spannender als Fehlersuche. Das Prüfen, Suchen und Testen bei der Auswertung, das Erwägen eines Irrtums ist ein undankbares Geschäft, die Erwartung des Durchbruchs dagegen höchst erregend.

Niemand kann behaupten, dass Menschen in ihrer Urteilsfähigkeit davon unbeeinflusst bleiben.

Ehrgeiz ist der Tod des Denkens.

Ludwig Wittgenstein

Entdeckungen sind immer von einem plötzlichen Kippen der Stimmung in einer Wissenschaftsgemeinde begleitet, wie sie im vorliegenden Fall der Soziologe Harry Collins beschrieben hat. Innerhalb von wenigen Tagen nach der ersten E-Mail zu GW150914 überzeugte sich die Mehrheit der Wissenschaftler, es handle sich um ein reales Signal. Trotz der ausführlichen Tests, die in den folgenden Monaten durchgeführt wurden, handelte es sich dabei um einen psychologisch und soziologisch irreversiblen Vorgang, und erst recht gilt dies für die Pressekonferenz, die in noch kürzerer Zeit die meisten anderen Wissenschaftler von der Existenz der Wellen überzeugte. Entdeckungen sind immer plötzlich, sensationell, wecken Euphorie und Mitteilungsbedürfnis.

Es gibt keine Symmetrie zwischen etwas finden und etwas nicht finden. Etwas nicht zu finden, ist viel, viel schwieriger, als etwas zu finden…

Harry Collins

Der Misserfolg eines Experiments ist dagegen ein langsamer, schleichender Prozess mit aufkeimender Frustration, die gerne verdrängt wird und über die man eben nicht gerne spricht. Bei einer langen Serie von kleinen Enttäuschungen wie in der Messreihe O3 fehlt es einfach an einem geeigneten Zeitpunkt, der das Scheitern berichtenswert machen würde. Selbstredend tragen dazu wieder die Medien bei, die ja auch bei anderer Gelegenheit mehr zu sensationellen Hypes als nüchternen Sachanalysen neigen.

Der abschüssige Hang zum Gauklertum

Allgemein betrachtet, leidet die Grundlagenwissenschaft unter dem Leistungs-, Produktions- und Konkurrenzdenken, das letztlich der kapitalistischen Wirtschaftslogik entspringt. Unter Astronomen war man seit langem der Ansicht, LIGO müsse mit dem vielen investierten Geld irgendwann "liefern" - ein Scheitern des 2015 in Betrieb genommenen advanced LIGO Detektors hätte die weitere Finanzierung in Frage gestellt, obwohl die wissenschaftliche Leistung, eine derartige Detektorsensitivität erreicht zu haben, keineswegs geringer gewesen wäre.

Der ungesunde Druck, publikumswirksame Ergebnisse zu produzieren, überträgt sich mit einem falschen Belohnungssystem natürlich auch auf die einzelnen Forscher. Es herrscht Publikationsdruck, und manche widerstehen der Versuchung nicht, mit der auch in der Wissenschaft gültigen Währung der Aufmerksamkeit zu handeln.

Was gibt’s Neues am Himmel? -Kennen Majestät schon das Alte?

Der Astronom Friedrich Argelander zu König Friedrich Wilhelm IV.

Dadurch entstehen bizarre Meldungen wie von einem angeblichen Neutronensternpaar, für das es keine unabhängig Bestätigung gibt, einer angeblichen Supernovaexplosion, die sich als Illusion herausstellte, oder gar ein Schwarzes Loch von 70 Sonnenmassen, das LIGO vorschnell als Bestätigung seiner gewagten Behauptungen bezeichnete. Mehr als dem gelangweilten Internetsurfer die Zeit zu vertreiben, leisten diese Erkenntnisse nicht, von Fortschritt in grundsätzlichen Problemen der Physik ganz zu schweigen.

Es wird sich zeigen, ob die Gravitationswellenphysik zu einem unseriösen Produzenten von anderweitig unsichtbaren astronomischen Objekten wird, oder zu Integrität und wissenschaftlichen Standards zurückkehrt. Dafür ist folgendes unabdingbar:

  • Veröffentlichung aller bisher verwendeten Templates und sonstiger Daten, welche die Auswertung reproduzierbar macht.
  • Rückkehr zu einer vorurteilsfreien Datenanalyse ohne Templates, welche falsch-positive Signale in unkontrollierter Menge produzieren.
  • Festlegen eines fixen "Verfalldatums" für die zweifelhaften Ereignisse GW150914 und GW170817, zu dem diese nicht mehr als real angesehen werden, wenn nicht bis dahin ein Signal gleicher Stärke bzw. ein vergleichbares Signal mit unabhängiger Bestätigung durch andere Teleskope gefunden wird.
  • Feststellung, dass der Nachweis der direkten Detektion erst dann erbracht ist, wenn LIGO/VIRGO aufgrund von Messungen ein Ereignis vorhersagt, das von anderen Teleskopen bestätigt wird.

Dr. Alexander Unzicker ist Physiker, Jurist und Sachbuchautor. Sein Buch "Vom Urknall zum Durchknall" wurde 2010 von "Bild der Wissenschaft" als Wissenschaftsbuch des Jahres ausgezeichnet. Sein Buch "Auf dem Holzweg durchs Universum - warum CERN & Co. der Physik nicht weiterhelfen" erschien 2019 in aktualisierter Auflage.

(Alexander Unzicker)