Open Source und offene Tauschbörsen für das postgenomische Zeitalter?
Beim Streit um die Veröffentlichung der Genomdaten geht es um die Zukunft der Wissenschaft
Was eigentlich ein großer Schritt für die Menschheit sein und durch Vergleiche mit der Erfindung des Rads, dem Betreten des Monds oder der Atomspaltung als epochales Ereignis herausgestrichen werden sollte, erweist sich mehr und mehr auch als Einblick in die ganze banale Wettbewerbsstruktur, die natürlich auch die Wissenschaften längst umfasst hat. Gleichwohl zeigt die Sequenzierung des menschlichen Genoms, die nur die Grundlage der Genforschung bildet, dass wirkliche Fortschritte eher auf Kooperation denn auf privatwirtschaftliche Aneignung bauen müssten, zumindest was die Verfügbarkeit der grundlegenden Daten angeht.
Zwei Gruppen, zwei Zeitschriften, zwei Analysemethoden, zwei Organisationsmodelle mit unterschiedlichen Finanzierungen im Wettstreit um die Gunst der Aktionäre, künftige Erfolge, weitere Forschungsgelder, Anerkennung und Aufmerksamkeit. Die Neigung besteht, in einem solchen Antagonismus die Rollen des Guten und des Bösen zu verteilen. Schwer ist jedenfalls, sich diesem Schema fernzuhalten, das sich anbietet.
Der Druck musste schon groß gewesen, auch wenn er letztlich dem etwas müden Humangenomprojekt und dessen Finanzierung auf die Beine geholfen hat, wenn jetzt die "offizielle" - oder sollte man eher sagen: symbolische - Veröffentlichung des eigentlich noch lange nicht fertig sequenzierten Datenbestands möglichst schnell betrieben wurde. Die Eile - und die Angst, abgehängt zu werden - merkt man schon alleine daran, dass sowohl Nature als auch Science zwar gleichzeitig, aber Tage vor dem normalen Erscheinungstermin ihre Genomausgaben im Internet veröffentlicht haben. Immerhin war der Druck immerhin auch so groß, dass beide die Beiträge kostenlos zugänglich machen. Aber dann, man weiß es mittlerweile schon, beginnt der Streit.
|
|
Tatsächlich geht es nicht nur um die jetzige Veröffentlichung der Sequenzierungsdaten. Das mit öffentlichen Geldern finanzierte Humangenomprojekt hat die sequenzierten Daten innerhalb von 24 Stunden auf der öffentlich zugänglichen GenBank, auf Ensembl oder auf der DNA Data Bank of Japan zugänglich gemacht. Venter hingegen ist vor drei Jahren mit einem anderen Verfahren angetreten und behauptet, mit diesem wesentlich schneller und billiger das Genom sequenzieren zu können. Aber plötzlich gab Venter auf, sich nur auf diese Schrotschuss-Methode zu stützen und benutzte die vom Humangenomprojekt veröffentlichten Daten, um die Ergebnisse zu verbessern. Während das Humangenomprojekt das Genom in relativ große Einheiten zerlegt, die dann analysiert und wieder zusammengesetzt werden, um so Teil für Teil voranzugehen, wurde bei Venters Celera das Genom, bildlich ausgedrückt, in lauter kleine Teile zerlegt, die man durch massiven Einsatz von Computer dann einzuordnen versucht.
"The human genome, the common heritage of all humanity, is arguably the most valuable dataset the biomedical research community has ever known. It holds long-sought secrets of human development, physiology, and medicine.
The highest priority of the International Human Genome Sequencing Consortium is ensuring that sequencing data from the human genome are available to the world's scientists rapidly, freely, and without restriction." - National Human Genome Research Institute (NHGRI)
Venter begründete die Umkehr damit, er habe einfach Geld und Zeit sparen wollen und deswegen die Informationen des Humangenomprojekts benutzt, da so die Sequenzen schneller zugeordnet werden konnten. Allerdings ist mit dem Einstieg von Celera und der Drohung, das Humangenomprojekt zu überholen und als reine Verschwendung von Steuergeldern zu disqualifizieren, auch die Arbeitsgeschwindigkeit beim Konsortium angestiegen, was möglicherweise Venter bewogen hat, sich der freien Informationen zu bedienen. Celera hingegen hat die Daten zurückgehalten. Vertreter des Humangenomprojekts sahen in der Benutzung der Informationen ein indirektes Eingeständnis, dass die Schrotschussmethode nicht so gut wie gedacht funktioniert. Venter hingegen warf dem Humangenomprojekt vor, nicht nur langsam, sondern auch schlampig zu arbeiten, und beteuert auch jetzt noch weiterhin, dass seine Methode im Prinzip funktioniert habe, wenn da nicht wirtschaftliche Entscheidungen hätten getroffen werden müssen.
Nachdem im letzten Juni vorübergehend das Kriegsbeil begraben wurde und Bill Clinton und Tony Blair die erste Arbeitsversion angekündigt haben, die vom Humangenomprojekt und Celera veröffentlicht werden, schwelt der Streit noch immer. Erst wenn die Daten der beiden Gruppen überprüft und miteinander verglichen worden sind, wird man vielleicht Klarheit über die Effizienz der Methode von Celera erlangen können, auch wenn die vom Unternehmen veröffentlichten Sequenzierungsdaten durch die Kombination der Daten des Humangenomprojekts genauer und vollständiger sind.
Jetzt geht der Streit darum, in welcher Form Informationen, die zur Überprüfung und Weiterführung von wissenschaftlichen Erkenntnissen, die in Zeitschriften veröffentlicht werden, zugänglich sein sollen. Celera hat Science bekanntlich nicht gewährt, einen uneingeschränkten Zugriff zu den Daten zuzulassen, wie dies beim Humangenomprojekt der Fall ist. Interessierte Wissenschaftler dürfen nur jeweils eine Million Basen von den insgesamt drei Milliarden, aus denen das Genom besteht, pro Woche herunterladen. Wer mehr will, muss versichern, die Daten selbst nicht kommerziell zu verwenden. Ansonsten müssen Lizenzen gekauft werden.
Geschätzt wird, dass Celera bislang 50 zahlende Kunden für seine Datenbank hat. Auf die öffentlich zugänglichen Datenbanken des Humangenomprojekts haben hingegen bislang mindestens 100.000 Organisationen aus der ganzen Welt zugegriffen, darunter auch viele Wissenschaftler aus Indien, Brasilien, Mexiko oder China und von Universitäten oder Labors von Entwicklungsländern.
John Sulston, heftiger Kritiker von Celera und ehemaliger Leiter des britischen Sanger Centre, meint, dass die Bedingungen ohne Vorbild seien: "Wenn man einen Artikel veröffentlicht, der auf einer DNA-Sequenz basiert, dann stellt man diese in eine öffentliche Datenbank." Weil dies Celera und Science nicht machen wollten, habe man die Sequenzierungsdaten nicht gemeinsam veröffentlicht. Mike Dexter, Direktor des Wellcome Trust, der wiederum das Sanger Centre finanziert, wurde gestern bei einer Pressekonferenz noch schärfer: "Ein bizarres Pay-to-view-Verfahren zu haben, das das fast so ähnlich ist, wie sich digitales Fernsehen zu kaufen, um die Weltmeisterschaft zu sehen, ist für das menschliche Genom nicht richtig." Natürlich weist Venter solche Beschuldigungen weit von sich: "Unsere Sequenz ist zugänglich, aber durch Subskription. ... Die einzige Einschränkung ist, dass sie (die Wissenschaftler) nicht die Daten nehmen können, die wir produziert haben, und sie einem kommerziellen Konkurrenten zu geben, der sie verkaufen will." (Just das aber hat Celera mit den vom Humangenomprojekt veröffentlichten Daten gemacht, aber das sind ja Steuergelder, die man sich privat aneignen kann, wenn man schnell genug ist, denkt sich vielleicht Venter, dessen Maxime einst war: Speed matters.)
Scharf geht man denn beim Sanger Centre auch in einem Vergleich zwischen den Ergebnissen des HGP und denen von Celera gegen die Praxis des Unternehmens vor:
"Der größte Teil der Daten für Celeras Zusammenfügungen stammt aus dem öffentlichen Humangenomprojekt (HPG). Trotz diesem Vorteil ist Celeras Zusammenfügung nur mit der des HGP vergleichbar und von dieser abhängig."
Wie auch immer die Beurteilung ausfallen mag, so könnte es langfristig doch sein, dass nicht das schnelle, stromlinienförmige und effiziente kommerzielle Unternehmen, sondern der kooperative, deswegen aber natürlich nicht frei von Konkurrenzen arbeitende weltweite Verbund von 20 Instituten und Hunderten von Wissenschaftlern die Zukunft darstellt - mitsamt dem Prinzip der freien Zugänglichkeit zu den angesammelten Daten. Mehr denn je ist die Genforschung zu einer Forschung geworden, die gigantische Datenberge in Datenbanken anhäuft und mit geeigneten Programmen analysiert oder neue Daten hinzufügt. Die Sequenzierungsdaten - die höchsten 3 Prozent an Genen und den Rest an Junk-DNA enthalten, deren Funktion noch nicht bekannt ist - sind erst der Anfang. Doch während die fehlenden Daten ergänzt und die Löcher aufgefüllt werden, müssen die Sequenzen mit weiteren Beschreibungen ergänzt werden, um sinnvolle und nützliche Informationen zu eröffnen. Die Datenbank ist noch lange nicht fertig, sondern ist ständig im Fluss und muss angesichts der Größe der zu leistenden Aufgabe vermutlich weiterhin in einem internationalen Projekt weitergeführt werden. So steht zu erwarten, dass auch schon die Referenz auf Genomabschnitte noch lange nicht eindeutig sein wird und das gesamte System der Erläuterungen auf einer dynamischen und sich verändernden Grundlage und willkürlichen hierarchischen Segmentabschnitten aufbauen muss, so dass eine Erläuterung zu einem "Klonende" auch mit einer mRNA-Erläuterung verknüpft ist, auf deren Beginn wiederum die Erläuterung zu einem Exon verweist.
In Tag- und Nachtsitzungen hatte letztes Jahr, wie es sich für ein Wettrennen gehört, James Kent, ein ehemaliger Programmierer und jetziger Biologiestudent von der University of California at Santa Cruz ein Computerprogramm geschrieben, mit dem sich die vom Humangenomprojekt sequenzierten DNA-Fragmente überhaupt erst zu einer kohärenten Sequenz verbinden ließen. Kurz danach traten das Humangenomprojekt und Celera gemeinsam auf und verkündeten, jeweils eine erste Arbeitsversion des menschlichen Genoms fertiggestellt zu haben. Neben dem GigAssembler schrieb Kent auch einen Browser, mit dem sich die bislang bekannten zusätzlichen Informationen zu DNA-Sequenzen auf den einzelnen Chromosomen einsehen und suchen lassen. Der Browser, der Anfang Juli online gestellt wurde und erstmals eine zusammengefügte Sequenz bot, steht auf genome.ucsc.edu jedem zur Verfügung. Überdies ist es Biologen möglich, weitere Annotationen hinzuzufügen.
Wenn die Daten im Besitz eines Unternehmens und keine Open Source wären, wenn auf sie nicht frei zugegriffen und sie gemeinsam ergänzt werden könnten, dann würde bald die Übersicht in möglicherweise vielen einzelnen Datenbanken, die jeweils auf einem anderen Stand sind und andere Formate verwenden, verloren gehen. Dass mit der Sequenzierung erst der Anfang der Analyse gemacht wurde, heißt auch, dass man auch in quantitativer Hinsicht erst am Anfang steht. Und das wird vielleicht auch paradoxerweise an dem überraschendem Ergebnisse beider Gruppen deutlich, dass das menschliche Genom viel weniger Gene als bislang angenommen zu enthalten scheint. Die wachsende Komplexität der Lebewesen dokumentiert sich offenbar nicht in der bloßen Zahl der Gene, sondern möglicherweise in der wachsenden Zahl der Interaktionen auf der Ebene der Gene und der Proteine. So kann beispielsweise auch das Immunsystem mit vielleicht ein paar hundert Genen aus entsprechender Kombinatorik im Prinzip unendlich viele Reaktionen erzeugen. Noch haben wir nur ein unvollständiges "Buch", in dem wir nur sehr wenige Teile lesen können - und wahrscheinlich auch nicht ganz verstehen.
Die GenBank enthält bereits mehr als 10 hoch 10 Sequenzierungsdaten von Aminosäuren und verdoppelt ihren Umfang jährlich. Dazu kommen noch viele weitere Daten wie Gene, SNPs, Genexpressionsmuster, Proteine und ihre komplizierten dreidimensionalen Strukturen, Interaktionen zwischen Genen, RNA oder Proteinen. Die gewaltigen Mengen an Daten sinnvoll aufzubereiten, aktuell zu halten und zugänglich zu machen ist nur, aber natürlich auch eine technische Frage der Bioinformatik und der verfügbaren Rechenkapazitäten. Die Daten müssen abgeblichen, integriert und kombiniert werden, also, um eine Analogie zu verwenden, in ein Format wie HTML eingebettet werden, damit das Genomweb, das räumlich verteilt auf verschiedenen Servern liegen kann, mit einem Browser dargestellt werden kann, sich Inhalte über Mustererkennungsprogramme miteinander vergleichen lassen oder die Daten mittels eines Programms effektiv durchsucht werden können. Programme zur Identifikation von möglichen Genen wie BLAST setzen den Zugriff auf große Datenmengen aus unterschiedlichen Quellen voraus.
David Roos vom Department of Biology and Genomics Institute, University of Pennsylvania, macht in seinem Science-Beitrag "Bioinformatics--Trying to Swim in a Sea of Data" (291, Nr. 5507 vom 16.2.2001, pp. 1260-1261) deutlich, welche Anforderungen auf die Datenbanken der Genforschung zukommen: "Die mathematische Biologie ist eine fundamental kooperative Disziplin, die ihr Entstehen der Verfügbarkeit von reichhaltigen und umfassenden Datenmengen zur Analyse, Integration und Manipulation verdankt. Die Zugänglichkeit zu Daten und deren Verwendbarkeit sind daher entscheidend, was Sorgen über Strategien der Veröffentlichung von Daten entstehen lässt: Was sind Primärdaten, wer besitzt diese Ressourcen, wann und wie sollen Daten veröffentlicht werden und welche Beschränkungen sollen der weiteren Nutzung auferlegt werden?"
Roos ist der Meinung, dass die bislang etwa vom Humangenomprojekt betriebene Vorveröffentlichung der Daten beibehalten und erweitert werden sollte, da nur so der für die Bioinformatik notwendige schnelle Zugriff auf möglichst viele Daten möglich ist. Allerdings müsste für eine solche "altruistische" Veröffentlichung eine Art von Kompensation gefunden werden, damit die Forscher die angemessene Anerkennung und vielleicht einen zumindest rudimentären Schutz des geistigen Eigentums erhalten. Problem ist natürlich, ab wann die Benutzung solcher öffentlicher Datenbanken dennoch eine Genehmigung erforderlich machen sollte. Schwerwiegender aber ist, wie dies gerade Science und Celera vorgeführt haben, wenn nicht nur der Zugang zu den Daten, sondern vor allem das Herunterladen von Daten und deren Integrierung in eine andere Datenbank zur weiteren Verarbeitung beschränkt wird.
Roos führt gegen die Rechtfertigungsstrategie der Zeitschrift Science, die eine Garantie abgegeben hat, dass die Daten zugänglich bleiben werden, an, dass es für die Wissenschaft nicht nur darum gehe, ob die Daten korrekt seien, sondern dass man mit ihnen auch im Sinne des wissenschaftlichen Fortschritts weiterarbeiten dürfe: "Beispielsweise würde eine genomweite Analyse und eine neue Annotation von zusätzlichen Eigenschaften, die in der Datenbank von Celera identifiziert wurden, nicht veröffentlicht oder auf dem Web gepostet werden dürfen, ohne die proprietäre Natur der zugrundeliegenden Daten zu verletzen. Man kann diese Information auch nicht mit den von anderen Datenbanken verfügbaren Ressourcen kombinieren, z.B. mit den Informationen von zusätzlichen Arten, die für einen Vergleich zwischen Arten notwendig sind .... Es trifft sicherlich zu, dass der gegenwärtige Stand der Genomforschung niemals ohne die Freiheit erreicht worden wäre, die (korrekt zugeschriebenen) Informationen von GenBank/EMBL/DDBJ verwenden zu können." Für Roos ist diese Zugänglichkeit und Verwendbarkeit von riesigen Datenmengen aus unterschiedlichen Quellen für das "postgenomische Zeitalter" noch viel wichtiger.
Anders aber als bei der Sequenzierung und der puren bioinformatischen Identifizierung der Gene durch Mustererkennung, sofern dies möglich ist, müssen viele der Eigenschaften der Gene von Wissenschaftlern herausgefunden und angefügt werden. Und dabei kommt es schon jetzt zu Engpässen: "Die Geschwindigkeit der Sequenzierung des menschlichen Genoms hat die Möglichkeiten der Sequenzierungszentren überrundet, die Sequenz zu annotieren und zu verstehen, bevor man sie in den Datenbanken archiviert", erklärt Lincoln Stein vom Cold Spring Harbor Laboratory, New York. "Viele Gruppen sind als dritte Parteien in die Bresche gesprungen und erläutern gegenwärtig die menschliche Gensequenz durch eine Kombination aus computerbasierten und experimentellen Methoden. Ihre analytischen Instrumente, Datenmodelle und Visualisierungsmethoden sind unterschiedlich."
Weil das aber zu einer Fragmentarisierung führt, schlägt Stein eine Napster-ähnliche Tauschbörse vor. Sein projektiertes Distributed Sequence Annotation System oder DAS, ein dezentralisiertes System, bei dem ein Referenzserver nur die grundlegenden Strukturinformationen zum Genom enthält, während die übrigen Websites als "Annotationsserver" dienen. Die Erläuterungen sind eindeutig einer bestimmten Sequenz zugeordnet, deren Beginn und Ende definiert ist. Auf der Grundlage einer Client-Software lassen sich dann mit einer Art Browser wie bei Napster die Annotationsserver nach Informationen zu einer bestimmten Gensequenz durchsuchen. Die Server liefern die Ergebnisse in einem standardisierten Format, so dass der Browser die Erläuterungen von den verschiedenen Servern einbauen und sie in grafischer oder tabellarischer Form darstellen kann. Kontrollieren ließe sich allerdings nach diesem System, das stets aktualisiert wäre, nicht oder nur sehr schwer, welche Updates eingegeben werden dürfen.
Übrigens kommen solche Vorstellungen nicht nur bei den Genomforschern, sondern auch in der physikalischen Grundlagenforschung auf, in der die Datenmengen ebenfalls sprunghaft ansteigen. Bislang entstanden etwa bei Experimenten mit den Teilchenbeschleunigern "nur" ein par Terabytes pro Jahr, doch wenn etwa der Large Hadron Collider (LHC) in Cern fertig gestellt sein wird, erzeugen die Kollisionen der subatomaren Teilchen alleine einen jährlichen Datenstrom von mehreren Petabytes. Bei manchen Experimenten wie ATLAS erwartet man ein Datenaufkommen von 100 Gigabytes pro Sekunde. Damit vertausendfacht sich nicht nur das Datenaufkommen, sondern werden auch mehr Wissenschaftler zu diesen Zugang haben müssen. Mittlerweile hat sich hier ein Konsortium aus 16 Universitäten gebildet, um ein gemeinsames Netzwerk, das Grid Physics Network aufzubauen, durch das sich Daten weltweit dezentral abrufen lassen.
http://www.heise.de/tp/artikel/4/4926/1.htmlDarstellungsbreite ändern
Da bei großen Monitoren im Fullscreen-Modus die Zeilen teils unleserlich lang werden, können Sie hier die Breite auf das Minimum zurücksetzen. Die einmal gewählte Einstellung wird durch ein Cookie fortgesetzt, sofern Sie dieses akzeptieren.
