Das Auffinden von Informationen im Web ist einfach – solange man weiß, nach was man konkret sucht. Manchmal verstecken sich nützliche Informationen allerdings auch innerhalb komplexer Dokumente und selbst sorgsam ausgewählte Schlüsselbegriffe bringen sie nicht auf den Schirm.
Semantische Suchtechnologien versprechen, solche Probleme zu lösen, indem sie die inhaltlichen Beziehungen innerhalb eines Textes analysieren und sie in einen für den Computer verständlichen Zusammenhang bringen. Dann werden auch Inhalte ausgespuckt, die das Suchwort nur in abgewandelter Form (oder sogar gar nicht) enthalten.
Ende April stellte Netbase Solutions, eine Firma aus dem kalifornischen Mountain View, eine neue Software vor, die Webseiten und Datenbanken durch eine neuartige Erfassung von Satzstrukturen zugänglicher machen soll. Der Demonstrator der Plattform zeigt dies anhand medizinischer Informationen.
Tippt ein Nutzer den Namen einer Krankheit in eine Suchmaschine, liegt sein Hauptinteresse zumeist in den auslösenden Faktoren, den Symptomen und den möglichen Therapieformen; ergänzt am besten um die Anzeige spezialisierter Fachärzte. Deshalb spucke die Software von Netbase nicht einfach nur eine Liste von Dokumenten aus, in denen die Krankheit vorkomme, erläutert Firmenchef Jonathan Spier.
Stattdessen soll die Plattform namens "Content Intelligence" Antworten auf häufig vorkommende Fragen gegeben. Beispielsweise wird eine Liste mit passenden Medikamenten gezeigt, ergänzt um Auszüge aus Dokumenten, die diese diskutieren. Das System sei dabei nicht als Standalone-Suchmaschine konzipiert, sagt Spier. Stattdessen hofft die Firma, die Plattform an Unternehmen zu verkaufen, die ihre Web-Angebote verbessern wollen.
Content Intelligence nutzt dabei die Verarbeitung natürlicher Sprache, um die Struktur von in Dokumenten enthaltenen Sätzen zu entschlüsseln. Andere semantische Suchtechniken tun das ebenfalls, konzentrieren sich aber normalerweise auf eine Datenbank aus Schlüsselbegriffen – und wie diese Worte untereinander in Beziehung stehen. Ein Werkzeug zum Durchsuchen medizinischer Studien könnte so beispielsweise mit einer Liste bekannter Namen von Medikamenten ausgestattet werden, die deren Beziehungen untereinander enthält. Im Ergebnis würde ein solches Werkzeug dann aber nur in spezifischen Interessensgebieten funktionieren und müsste für jedes neue Themengebiet angepasst werden, sagt Jens Tellefson, Vizepräsident für Marketing und Produktstrategie bei Netbase.
Content Intelligence soll das besser machen: Die Software konzentriert sich auf Formulierungen, die die Beziehung zwischen wichtigen Suchbegriffen beschreiben. Beispielsweise sucht das System, wenn es nach Medikamenten gefragt wird, nach Satzteilen wie "reduzieren das Risiko von". Der tatsächliche Name wird nicht benötigt. Dabei wird nicht nur ermittelt, wo eine solche Formulierung exakt vorkommt, sondern auch Satzteile mit ähnlicher Bedeutung erfasst. Auf diese Art lasse sich ein Beziehungsgeflecht zwischen Sätzen herstellen, sagt Tellefson. Das funktioniere für unterschiedliche Themengebiete, ständige Trainingsphasen fielen weg.
Spier zufolge hat Netbase fünf Jahre an einem Algorithmus gearbeitet, der Millionen von Dokumenten durchsuchen kann und dabei nach Formulierungen sucht, die Dokumentteile besonders interessant und relevant für den Nutzer machen.
Content Intelligence wird unter anderem als Plattform von illumin8 verwendet, einem Suchangebot des Wissenschaftsverlags Elsevier. Die Netbase-Software durchforstet dabei Web-Inhalte und wissenschaftliche Paper, die von dem Konzern verlegt wurden. Nach Eingabe eines Suchbegriffs listet illumin8 die Top-Forscher auf einem Gebiet, Firmen, die Produkte zum Thema geschaffen haben sowie potenzielle Kunden für die Anwendung einer neuen Technologie.
Colby Ellis, Leiter der Technologiegruppe bei Elsevier, meint, man habe Netbase engagiert, weil man ein Werkzeug gesucht habe, das die Inhalte des Verlages leichter zugänglich macht. Normale Suchmaschinen spuckten nur lange Listen mit Studien aus, die sich nur schwer vom Nutzer einordnen ließen. "Eine Technik, mit der die Leute herausfinden können, was tatsächlich in Inhalten steckt, ohne dass sie diese komplett lesen müssten, ist enorm wertvoll weil zeitsparend."
Susan Feldman, auf Suchtechnologien spezialisierte Analystin beim IT-Marktforscher IDC, glaubt, dass die Fähigkeiten von Software wie der von Netbase bei der Erfassung der enormen Datenmengen im Web helfen könnten. "Algorithmen, die mit natürlicher Sprache arbeiten, benötigten bislang immer viel zu viel Rechenzeit vorab." Firmenchef Spier zufolge soll die Content Intelligence-Plattform nun als nächstes Firmen angeboten werden, die im Bereich der Medizininhalte arbeiten. Aber auch auf andere Themengebiete sei sie leicht ausdehnbar.
Permalink: http://heise.de/-276369