aus ein
Ansicht umschalten Baum an
Avatar von charazani
  • charazani

4 Beiträge seit 26.11.2005

Quark: Semantic Web und Gene Ontology

hallo,

zu dem Artikel muss ich jetzt doch mal eine Richtigstellung anbringen
(als jemand, der seit vielen Jahren in der Bioinformatik arbeitet).
Die Lebenswissenschaften werden sehr häufig als Vorzeigegebiet fuer
die erfolgreiche Anwendung von Semantic Web Techniken genannt. Das
ist Bloedsinn und wird nicht wahrer durch staendiges Wiederholen. Es
gibt nur wenige Leute in dem Bereich, die mal ein wenig mit Semantic
Web Kram herumprobiert haben (vor allem U-Man). Es gibt keine einzige
nennenswerte Anwendung, die heute Dinge wie RDF oder OWL verwenden
(aber WebServices, aber das kann man ja nur schlecht als Semantic Web
verkaufen). Man moege einfach Zeitschriften wie "Bioinformatics" oder
"BMC Bioinformatics" nach Semantic web durchsuchen und selber
urteilen. Hier erfindet sich die Semantic Web Community einen Mythos
(womoeglich um an Forschungsgelder zu kommen?).

Das genannten Projekt "Gene Ontology" wird vollkommen verdreht
dargestellt. Die Gene Ontology (GO) ist eine sehr erfolgreiche
Initiative, in der von vielen Biologen weltweit ein kontrolliertes
Vokabular zur Beschreibung von Genen und Proteinen erstellt wird. Zur
Zeit umfasst sie ca. 17.000 Begriffe, die in einer Art
Thesaurusstruktur angeordnet sind. Mit dem Semantic Web hat das genau
so viel zu tun, dass diese Struktur einen Directed Acyclic Graph
bilden, und das ist eine Untermenge von OWL Light. So wie auch ein
relationales Schema eine Untermenge von OWL Light ist, aber deswegen
noch lange nix mit dem Semantic Web zu tun hat.

Tatsaechlich verwenden die GO Leute OWL nicht und sind total genervt
von den dauernden Versuchen der Semantic Web / Ontology
Protagonisten, ihnen den Kram zu verkaufen. Auf vielen Workshops gibt
es Streit darueber. OWL fuer GO zu verwenden ist total witzlos, da
eben nur Thesaursstrukturen vorhanden sind. Da kann man nicht viel
Inferenz machen (aussre der eher trivialen Vererbung). Um mehr
Biologie auf formaler Ebene zu definieren, waere der Aufwand absolut
astronomisch bei unklarem Gewinn. Es gibt kaum erfolgreiche
Anwendungen symbolischer Inferenzmechanismen in der Biologie /
Bioinformatik - das ist Statistik und Kombinatorik.

Die Aussage, dass GO versuchen wuerde, mit Semantic Web Techniken
"600 Gendatenbanken" zu integrieren, ist Unfug. GO wird zur
Vereinheitlichung von Beschreibungen fuer Gene/Proteine in ca. 20-30
Datenbanken verwendet - was schon sehr viel ist. Das ist kein
Versuch, diese Datenbanken zu integrieren, sondern sicherzustellen,
dass ein Begriff wie "T cell mediated cytotoxicity" als
Funktionsbeschreibung eines Genes (a) dasselbe bedeutet, wenn es in
einer Maus-Datenbank oder einer Drosophila-Datenbank verwendet wird,
und (b) die Biologen auch diesen Begriff verwenden (und nicht "T-cell
med. toxicity" oder "Cytotoxic" oder ...), um die Suche zu
erleichtern. Es gibt einen huebschen Artikel (Siehe
http://www.websemanticsjournal.org/ps/pub/2004-9) von den GO Leuten
ueber ihre Erfolgsgeheimnis, und das "... community involvement;
clear goals; limited scope; simple, intuitive structure; continuous
evolution; active curation; and early use". Kein Wort von "formal
methods" oder "ability for symbolic reasoning".

Man mag ueber das Semantic Web denken, was man will, aber man sollte
Sachverhalte nicht derart verdreht darstellen. Kann man alles auch
leicht recherchieren, z.B. unter www.geneontology.org

Das musste ich loswerden. Mein erstes Posting in heise.de! Schoenes
Wochenende noch.
Bewerten
- +
Anzeige