Wissenschaftliches Fehlverhalten - von der Randerscheinung zum Flächenbrand

Wissenschaftliches Publizieren im Zeichen betriebswirtschaftlicher Massenproduktion

Frank Müller sammelt seit Jahren fragwürdige wissenschaftliche Publikationen aus den Natur- und Materialwissenschaften. Er berichtet von Fälschungsquoten im deutlich zweistelligen Prozentbereich sowie von der Schwierigkeit, solche Publikationen zu kennzeichnen oder aus dem wissenschaftlichen Diskurs zurückzuziehen, und macht Vorschläge zu Verbesserung des Kontrollsystems.

Herr Dr. Müller, Sie sammeln und protokollieren fragwürdige wissenschaftliche Publikationen aus den Natur- und Materialwissenschaften. Wie genau gehen Sie dabei vor?

Frank Müller: Dazu werden in regelmäßigen Abständen die Abbildungen in den aktuellen Publikationen der gängigen Verlage auf Unregelmäßigkeiten untersucht. Das mag an dieser Stelle an die Suche nach der Nadel im Heuhaufen erinnern - aber in diesem Heuhaufen liegen Tausende von Nadeln. Wenn wir jetzt solch eine Recherche starten würden, dann hätten wir in spätestens einer halben Stunde den ersten Treffer.

Und nach diesem ersten Treffer geht es dann lawinenartig. Bleibt man nämlich bei der betreffenden Autorengruppe, so ist es fast schon die Regel, dass in deren Publikationslisten weitere Arbeiten mit unlauterem Datenmaterial zu finden sind. Man kann so am Tag bis zu 20 Publikationen finden, die eine Meldung an die Zeitschriften mehr als rechtfertigen.

Wie fing Ihre Detektivarbeit an, was war das auslösende Moment?

Frank Müller: Das kann ich leider nicht mehr mit Bestimmtheit sagen. Es muss wohl ein Zufallsfund im Rahmen von Recherchen für eigene Arbeiten gewesen sein. Auffällig war damals, dass in mehreren Publikationen, in denen ähnliche, aber doch verschiedene Materialien diskutiert wurden, immer wieder dieselben Daten gezeigt wurden. Dass es sich um dieselben, und nicht nur um ähnliche Daten handelte, konnte man am exakt gleichen Untergrundrauschen erkennen. Rauschen ist ein statistisches Phänomen. Das bedeutet, dass Experimente, die unter exakt denselben Bedingungen durchgeführt werden, ähnliche, aber niemals dieselben Daten hervorbringen können. Die Daten müssen sich im Rauschmuster des Untergrundes unterscheiden.

Bei einer ausführlicheren Durchsicht der Publikationen der betreffenden Autorengruppe hat sich dann schnell gezeigt, dass die Verwendung identischer Daten oder gar die Manipulation von Daten hier der Standard zu sein schien. Nach langem Überlegen habe ich dann zum ersten Mal einen Herausgeber mit der Betreff-Zeile "Scientific misconduct in one of your journals' articles" angeschrieben.

Wie reagieren die Herausgeber der Journale auf Ihre Anfragen und Hinweise?

Frank Müller: Dazu muss ich vorwegnehmen, dass ich nur solche Fälle den Redaktionen melde, bei denen die Beweislage meiner Meinung nach keine Interpretationsspielräume offenlässt. Dennoch sind die Reaktionen der Herausgeber recht individuell.

In den meisten Fällen wird eine Untersuchung der Fälle eingeleitet, wobei zunächst die betroffenen Autoren um eine Stellungnahme gebeten werden. Manche Herausgeber sind sogar so transparent, dass sie mich an der Antwort der Autoren teilhaben lassen und evtl. um eine Bewertung bitten. Andere Herausgeber lassen den Fall von dritten Gutachtern untersuchen und informieren mich dann abschließend über die getroffene Entscheidung.

Es gibt aber auch Fälle, bei denen keinerlei Reaktion seitens der Zeitschrift erfolgt - selbst nach wiederholter Kontaktaufnahme meinerseits im Abstand von einigen Wochen, Monaten oder Jahren. Das kann sich dann aber plötzlich ganz anders verhalten, wenn z.B. die Position des Editor-in-Chief zwischenzeitlich neu besetzt wurde.

Bei wiederum anderen Zeitschriften erfolgt zwar eine Rückmeldung, aber die Art und Weise, wie man reagiert, vermittelt unmissverständlich den Eindruck, dass man hier nicht sonderlich an der Aufklärung interessiert ist.

Andere Editoren zucken nur mit den Schultern, weil sie schon lange resigniert haben: solche Fälle werde es immer geben und auf Grundlage der ehrenamtlichen Tätigkeiten der Editoren und Gutachter ließe sich die Flut gar nicht mehr eindämmen.

Aber selbst in den Fällen, bei denen das Ergebnis der Untersuchungen den Anfangsverdacht bestätigt und sich die Herausgeber für eine Retraction, eine De-Publikation des Artikels, entscheiden, kann es Jahre dauern, bis die Publikation letztendlich aus dem Verkehr gezogen ist. Ein Herausgeber, der mich über die Entscheidung zur Retraction einer Publikation informierte, hat das einmal sinngemäß so formuliert: "It is harder to get fraud science out of a journal than to get reliable science into the journal."

Das ist nicht ganz unkritisch, da z.B. Schlussfolgerungen, die auf der Grundlage von zurechtgebogenen Daten formuliert werden, weiterhin als Stand der Forschung zitiert werden und sich somit weiterverbreiten. Einige Zeitschriften begegnen diesem Problem, in dem sie eine "Expression of Concern" veröffentlichen, sobald eine Untersuchung bzgl. der Zweifelhaftigkeit einer Publikation eingeleitet worden ist. Das ist aber keineswegs der Standard.

Reaktionen von amüsant über dreist bis hin zu naiv oder gar dumm

Wie reagieren die Autoren/innen, wenn sie mit dem Vorwurf von wissenschaftlichem Fehlverhalten durch die Journale konfrontiert werden?

Frank Müller: Das reicht von amüsant, dreist bis hin zu naiv oder gar dumm.

Amüsant, weil es vermutlich irgendwo einen Leitfaden "Scientific Misconduct for Dummies" geben muss, denn die Standardreaktion auf den Vorwurf der Verwendung derselben Daten für unterschiedliche Experimente ist nahezu immer wortgleich. "We are sorry for this mistake. A PhD student (who is no longer at our department) obviously confused data when creating this figure."

Interessant wird es dann, wenn dieses Verwechseln von Daten sich durch Großteile der Publikationsliste eines "Senior Scientists" zieht, und die Autorenlisten all dieser betroffenen Publikationen nur einen Namen in ihrer Schnittmenge haben - nämlich den dieses "Senior Scientists". D.h., es gibt nicht diesen einen Daten-verwechselnden "PhD student", sondern das Daten-Verwechseln kommt offenbar von oben.

Dreist, weil ein "rebuttal letter" auch schon mal solche Hinweise enthält, dass man selbst ja eine erfahrene Größe in einer Institution sei, die innerhalb der nächsten Jahre weltweit die mit Abstand führende Rolle in der Wissenschaft einnehmen werde. Als aufgehender Stern am Firmament der Wissenschaft nehme man natürlich die ethischen Grundsätze des Publizierens besonders ernst. Zu dumm nur für "Sternchen", dass die Publikation dennoch zurückgezogen wurde.

Naiv, weil man glaubt, solch einen schweren Vorwurf wie den der Datenmanipulation auf überzeugende Weise ausräumen zu können, indem man identisches Rauschen einfach dadurch zu erklären versucht, dass man ja schließlich denselben experimentellen Aufbau verwendet habe und die Messungen unter den exakt gleichen Bedingungen durchgeführt wurden. "That's why data look a bit the same."

Dumm, wenn man den numerischen Beweis für die Datenmanipulation gleich selbst mitliefert. Oftmals werden die "Originaldaten" den Redaktionen zur Verfügung gestellt. Wenn die Daten vermeintlich verschiedener Experimente dann subtrahiert werden, erhält man fast ausschließlich Nullen. Im Bereich von Signalen wurden zwar einige Werte leicht geändert, aber das Gros des Untergrundes enthält in beiden Datensätzen bis zur x-ten Nachkommastelle dieselben Zahlenwerte.

Handelt es sich bei den betroffenen Journalen vor allem um Zeitschriften der Predatory Publisher?

Frank Müller: Klares Nein! Die meisten der Fälle, die ich untersucht bzw. gemeldet habe - und wir sind hier deutlich im dreistelligen Bereich - sind eher bei renommierten Zeitschriften bzw. Verlagen angesiedelt.

Gibt es Länder, dessen Autoren stärker als andere derartige solche Publikationen produzieren?

Frank Müller: Klares Ja! Nach meiner Erfahrung, die ich seit 2012/2013 gesammelt habe, kristallisieren sich immer mehr China und Indien als die beiden Epizentren heraus - zumindest in meinem Archiv sind das die mit Abstand am häufigsten vertretenen Nationen. Man könnte hier argumentieren, dass die Häufigkeit der Fälle von wissenschaftlichem Fehlverhalten sich einfach durch die hohe absolute Zahl an Wissenschaftlern in diesen beiden Ländern begründen lässt. Ich rede aber hier von einer relativen Häufigkeit.

"Wissenschaftliches Publizieren hat den Stellenwert einer Massenproduktion mit betriebswirtschaftlichen Vorgaben"

Können Sie eine Schätzung abgeben, welcher Anteil publizierter Artikel derart fragwürdig sein könnte?

Frank Müller: Das ist schwierig, da ich mich hier nur auf die paar hundert Fälle beziehen kann, die sich mittlerweile in meinem Archiv angesammelt haben. Ich kann aber folgende Zahlen anbieten, die zumindest aufhören lassen. Im Rahmen eines Experiments habe ich einmal in der Suchmaske eines der größten Wissenschaftsverlage die beiden Begriffe "XPS" und "India" eingegeben. "XPS" (= X-ray Photoelectron Spectroscopy) ist eine experimentelle Technik, mit der ich mich gut auskenne, so dass es hier nicht schwerfällt, Unregelmäßigkeiten zu erkennen. "India" ist - wie gerade erwähnt - ein Hotspot für wissenschaftliches Fehlverhalten. Die Suchliste wurde dann nach absteigendem Datum geordnet.

Ziel dieses Experimentes war es, die zuvor erwähnte relative Trefferquote auf folgende Weise zu bestimmen: Wie groß ist die Anzahl N der aktuellen Publikationen dieses Verlages, die man durchsuchen muss und die die beiden zuvor genannten Stichworte enthalten, bis man auf n=2 Publikationen mit manipuliertem Datenmaterial stößt? Und hier die erschreckenden Zahlen: N=5 bei n=2, d.h. die Trefferquote lag bei 40 %.

Da experimentelle Ergebnisse reproduzierbar sein müssen, habe ich dieses Experiment nach ein paar Wochen in exakt der gleichen Weise wiederholt. Das Ergebnis: N=6 bei n=2, d.h. hier lag die Quote bei 33 %.

Die Tragweite wird deutlicher, wenn man diese offensichtlich reproduzierbaren Ergebnisse einmal in Worte fasst: "Die Quote der aktuell beim Verlag X erschienen Publikationen, von deren Autoren/innen mindestens eine/r aus Indien kommt und in denen XPS als experimentelle Methode verwendet wird, liegt deutlich im zweistelligen Prozentbereich."

Bild: Frank Müller

Wird dieses Fehlverhalten nicht durch die Bewertungspraxis von Wissenschaft befördert?

Frank Müller: Die Bewertungsmetriken tragen sicher dazu bei. Meiner Meinung nach hat wissenschaftliches Publizieren mittlerweile den Stellenwert einer Massenproduktion mit betriebswirtschaftlichen Vorgaben bzgl. der Produktionszahlen und -ziele eingenommen.

Wenn ein/e Wissenschaftler/in sich ständig dem Druck des "Publish-or-Perish" ausgesetzt sieht, weil die Institution pro Jahr x Publikationen in Journalen mit Impact-Faktoren nicht unter y fordert, so kann das nur in den wenigstens Fällen unter Wahrung der gängigen Regeln der guten wissenschaftlichen Praxis erfolgen. Da wird dann schon einmal der ein oder andere Datensatz rausgekramt, die Datenpunkte durch Datenrauten ersetzt, die Syntax bewährter Textpassagen leicht geändert, und schon ist man dem Wert x wieder ein Stück näher. Das kann man unter Berücksichtigung der Vorgaben als eine Art des Selbsterhalts betrachten - an anderer Stelle hat es jemand aber als die "Erosion des Verhaltenskodex" bezeichnet.

Und diese Erosion ist mittlerweile so weit fortgeschritten, dass die Finger, wenn man sie sich einmal verbrannt hat, nicht allzu lange schmerzen. Kommen wir nochmal zu "Sternchen" zurück. Nachdem sich abzeichnete, dass der Editor-in-Chief die Retraction der betreffenden Publikation einleiten wird, war das Gejammer über den "blemish" des eigenen Namens natürlich riesengroß. Erstaunlich war aber, dass nur wenige Wochen nach dem Erscheinen der "Retraction Note" von "Sternchen" ein neues Paper mit gefälschten Daten publiziert wurde.

Sehen Sie eine Verbindung zu den Paper Mills?

Frank Müller: Es gibt da schon zumindest Indizien dafür. Wenn ich eben sagte, dass die Antworten der Autoren/innen auf den Vorwurf des wissenschaftlichen Fehlverhaltens durch die Herausgeber für Außenstehende z.T. einen hohen Unterhaltungswert haben, so habe ich an solche Fälle gedacht, bei denen man den Antwortschreiben entnehmen kann, dass es den Autoren/innen selbst an den Grundkenntnissen der experimentellen Techniken, die sie zum Einsatz bringen, mangelt.

Wie können auf diesen Techniken basierende Daten in der Publikation in einen einigermaßen plausiblen Kontext gebracht werden, wenn die Autoren/innen im "rebuttal letter" aber nicht einmal in Ansätzen wissen, von was sie überhaupt reden? Es kann also durchaus sein, dass in solchen Fällen die finanziellen Mittel nur für das Basis-Paket der Paper Mill ausgereicht haben, d.h. Ergebnisse erfinden, die entsprechenden Daten hierzu generieren und beim Journal einreichen. Das de Luxe- oder Comfort-Paket wäre aber die bessere Wahl gewesen, da die Mill sich dann auch noch um den "Rebuttal Letter" im Falle von Eventualitäten gekümmert hätte.

Abgesehen von den Editoren: Welche Akteure könnten eine Rolle bei der Eindämmung dieser Praxis spielen? Forschungsförderer? Universitäten?

Frank Müller: Am ehesten sehe ich hier die Chancen bei den Mittelgebern, denn leider habe ich bei den beiden anderen von Ihnen genannten Akteuren mehrfach feststellen müssen, dass wissenschaftliches Fehlverhalten eher halbherzig sanktioniert wird.

Die Mittelgeber haben hier durchaus die Möglichkeiten, die Daumenschrauben anzulegen und bei wiederholtem Fehlverhalten auch dementsprechend anzuziehen. Wenn im Rahmen eines Projektes von N Publikationen, die auf dieses Projekt beispielsweise in der Danksagung verweisen, n ≤ N Publikationen nicht aufgrund von Fehlern, sondern aufgrund von Regelverstößen zurückgezogen werden, so ist der Anteil n/N der Fördersumme von den Beteiligten aus ihrem Privatvermögen zurückzuzahlen. Eine Promotionsstelle über drei Jahre im schlimmsten Fall komplett aus der eigenen Tasche finanzieren zu müssen, kann auch bei den oberen Besoldungsstufen recht schmerzhaft sein.

Ein Beispiel zur Halbherzigkeit im Hinblick auf Sanktionen durch die Verlage: X soll für die Zeitschrift Y ein Manuskript begutachten. Er übernimmt Teile dieses Manuskripts und veröffentlicht sie als eigene Arbeit. Nachdem dies bekannt geworden ist und die darauffolgenden Untersuchungen abgeschlossen waren, teilte mir ein Editor mit, dass X künftig nicht mehr als Gutachter bei dem Verlag tätig sein dürfe. Diese Sanktion wird X vermutlich nicht allzu hart treffen, denn er wird künftig keine Zeit und Mühe mehr opfern müssen, um unentgeltliche Dienstleistungen für Y zu erbringen. Davon, dass X bei dem Verlag künftig nicht mehr als Autor tätig sein dürfe, war allerdings nicht die Rede. Meiner Meinung nach steht X bei diesem Verlag jetzt besser da als zuvor.

Sanktionen durch die Universitäten? Das hängt natürlich von der Universität ab. Nehmen wir hier einfach das Modell des "Cash per Publication". Um als Institution in der ersten Reihe sichtbar zu sein, zahlen einige chinesische Universitäten bis zu sechsstellige Honorare an Erstautoren einer Publikation in z.B. Nature oder Science. Diese zusätzlichen finanziellen Anreize sind geradezu ein Nährboden für unlauteres Verhalten.

Das Journal Nature selbst hatte auf diese Gefahr einmal in einer Editorial Note hingewiesen " … a researcher measuring science in terms of dollars might even be more tempted to plagiarize or fabricate data". Es ist nur schwer vorstellbar, dass eine Universität wissenschaftliches Fehlverhalten rigoros ahndet, wenn sie dieses Verhalten zuvor massiv befeuert hat. Wissenschaftliche Institutionen als Ordnungsmacht - da sehe ich nicht unbedingt einheitliche Standards und somit keine Chancengleichheit.

Welche Auswege aus dieser Krise sehen Sie?

Frank Müller: Keine, solange sich die Wissenschaft nicht von einem Virus befreit, an dem sie nicht erst seit dem Frühjahr 2020 leidet - nämlich der "Impactitis".

Keine, solange wissenschaftliches Fehlverhalten, besonders in wiederholten Fällen, nicht entschieden geächtet wird, und solange Sanktionen eher Sanktiönchen sind.

Keine, solange das Publizieren immer mehr um seiner selbst willen erfolgt und den eigentlichen Erkenntnisgewinn als ursprüngliche Triebfeder der Forschung immer mehr ablöst.

Wenn man wirklich etwas bewirken möchte, so muss man die gängigen Praktiken neu überdenken und z.T. über Bord werfen. Und hier könnte man schon mit einer Vielzahl von Kleinigkeiten vermutlich einiges bewirken.

An was denken Sie konkret?

Frank Müller: Eine Publikation ist mit dem Klicken des "Submit"-Buttons nach der Korrektur der Druckfahnen zementiert. Das heißt, dass im Rahmen eines Corrigendums oder Erratums allenfalls ein fehlerhaftes Vorzeichen, ein Zahlendreher o.ä. berichtigt werden dürfen. Aber wenn ganze Abbildungen angezweifelt werden müssen ("because student confused data"), dann muss das zwangsläufig die Retraction zur Folge haben. Selbst wenn es sich tatsächlich um ein Verwechseln von Datensätzen gehandelt haben sollte, dann ist es eben das selbst verschuldete Versäumnis der Autoren aufgrund mangelnder Verantwortung.

Das würde sicherlich auch dazu führen, dass Publizieren wieder mit größerer Sorgfalt erfolgt. Dass es an letzterer eindeutig mangelt, erkennt man schon daran, wenn man in die "Supporting Information" oder in die "Supplementary Materials" vieler Artikel reinschaut. Wie oft findet man hier noch die gelben Markierungen der aufgrund der Gutachten geänderten Textpassagen oder gar die Korrespondenz der Autoren untereinander?

Es sollte auch zum Standard werden, dass die Beiträge der einzelnen Autoren/innen transparent sind, um zuordnen zu können, wer für welche Daten verantwortlich ist. Dadurch könnten Ko-Autorenschaften im Fall der Fälle geschützt werden. Nicht jede Datenmanipulation erfolgt auf eine augenscheinlich plumpe Weise, wie in den Fällen, mit denen ich mich hauptsächlich befasse, d.h. Ko-Autoren/innen müssen nicht zwangsläufig wissen, dass es ein schwarzes Schaf in der Autorenliste gibt, das sie gerade mit in den Abgrund zieht.

Sicherlich wäre auch eine internationale Datenbank, in der die Fälle von wissenschaftlichem Fehlverhalten archiviert werden, sehr hilfreich. Ich denke da z.B. an eine Flensburger Version des Archivs des Office of Research Integrity. Solange jemand einen Eintrag in diesem Archiv vorzuweisen hat, ist jegliche Förderung aus öffentlichen Mittel blockiert. Der erste Eintrag verjährt nach einem Jahr, aber für jeden neuen Eintrag wird die Verjährungsfrist dieses Eintrags um ein weiteres Jahr erhöht. Nur solche progressiven Sanktionen können verhindern, dass weiterhin ganze Karriereleitern nur aus Lug und Trug gezimmert werden.

In dieser Datenbank könnte gleichzeitig auch das Verhalten der Zeitschriften hinsichtlich ihres Umgangs mit wissenschaftlichem Fehlverhalten dokumentiert werden.

Frank Müller und Ulrich Herb sind beide an der Universität des Saarlandes tätig und Projektpartner im von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekt "Summa cum fraude - Wissenschaftliches Fehlverhalten und der Versuch einer Gegenoffensive".

(Ulrich Herb)