Die Nadel im Bytehaufen

Finden statt suchen: Text Retrieval, Multimediadatenbanken, Dokumentenmanagement

Test & Kaufberatung | Kaufberatung

Gigabyteweise Programme, Daten, Dokumente - mit den Festplattenkapazitäten wächst automatisch auch der Sammeltrieb der Anwender. Leider bringen aber die Betriebssysteme selbst keine geeigneten Werkzeuge mit, um gesuchte Informationen, etwa Texte, Bilder, MP3-Daten oder Videoschnipsel einfach und schnell zu finden. Spezialisierte Programme müssen her.

Stolz hat man die neue 30-GByte-Platte im Rechner eingebaut, da will man doch den teuer erworbenen Speicherplatz nicht brach liegen lassen: Endlich ist wieder Platz für große MP3-Sammlungen, ganze Textarchive und dicke Videos - schließlich hält das Internet Abermillionen davon bereit. Ruck, zuck, quillt die Platte wieder über. Wo die Dateien stecken und was sie enthalten, muss sich der Anwender aber selbst merken, wenn es nach Microsoft und Apple geht.

Zwar legen Windows, Mac OS & Co. Dokumente inzwischen in speziellen, gleichnamigen Ordnern ab und bringen Suchfunktionen mit, um Informationen für den Anwender zu finden. Doch das gelingt nur notdürftig. Microsofts Explorer klappert die Laufwerke minutenlang nach Stichwörtern ab, weil er keinen Volltextindex anzulegen vermag: die nächste Suche dauert wieder so lang. Jede CD-ROM, jede Diskette, die dazukommt, macht das Ganze noch aufwändiger. Apples Sherlock ist da schon komfortabler, weil er auf Wunsch sämtliche Laufwerke indiziert, also die Inhalte von Dokumenten mit Hilfe eines Kompressionsverfahrens in einer vergleichsweise kleinen Datei ablegt, auf die er schneller zugreifen kann. Doch das funktioniert nur mit Textdateien, nicht aber etwa mit Word-Dokumenten oder anderen binären Formaten. Komfortable Suchinstrumente wie Wildcards (‘Me?er’ findet Meyer und Meier) oder gar reguläre Ausdrücke (‘M[ae][iy]e?r’ findet Meyer, Meier, Mayer und Maier, [1|#lit1]) fehlen. Boolesche Operatoren (UND, ODER, NICHT) gibt es nur eingeschränkt, und kombinieren lassen sie sich schon gar nicht.

Wer nur ungefähr weiß, was er sucht, sich nur an einen Bruchteil der Information erinnert, hat es also deutlich schwerer als etwa bei der sprichwörtlichen Suche nach der Nadel im Heuhafen. Zu ähnlich sind sich viele Dateien, zu eingeschränkt die Möglichkeiten, sie bereits auf Betriebssystem- oder Anwendungsebene mit aussagekräftigen Schlagworten zu versehen. Auf den folgenden Seiten haben wir uns daher jene Produkte, die einen Ausweg aus dem Dilemma versprechen, einmal genauer angeschaut.

Kleine Utilities, die vor allem externe Medien wie etwa CD-ROMs katalogisieren, um dem Anwender bei der Suche nach Dateinamen zu helfen, haben wir dabei außen vor gelassen. (Wer dennoch solche Helferlein wie etwa LookDisk für Windows oder CD-Finder für Mac OS sucht, findet sie auf der Shareware-CD, die c't 12/00 beilag, sowie unter [2|#lit2].) Wir haben uns auf die Suche nach Informationen konzentriert.

Im ersten Artikel der c´t 20/00 stellen wir Ihnen ab Seite 168 acht Volltext-Retrieval-Systeme vor, die eigene Indizes anlegen und den Anwender mehr oder weniger komfortabel darüber auf seine Daten zugreifen lassen. Ob in der digitalen Bibel, einer Gesetzessammlung oder der Sammlung von c't-Artikeln auf c'trom - mit Index dauert die Suche nur wenige Sekunden statt Minuten oder gar Stunden. Da es solche Programme schon ab 30 Mark zu kaufen gibt, sollten Sie eine Anschaffung nicht nur ernsthaft erwägen, wenn Sie häufiger mit Texten arbeiten, sondern auch, wenn Sie nur gelegentlich Textpassagen in Dokumenten suchen.

Der Testbericht in c´t 20/00 auf Seite 178 vergleicht neun Multimediadatenbanken, also jene Programme, die früher allein Bitmapformate katalogisierten, heutzutage aber auch mit Vektorgrafiken, Videos und Musikstücken zurechtkommen. Die Hersteller sprechen vollmundig vom ‘Media Asset Management’. Einige Kandidaten erlauben sogar bereits die rudimentäre Suche nach Bildinhalten (‘Query by content’): Anhand von Farb- und Kontrastvergleichen kann man so beispielsweise alle Bilder finden, die ein blauer Himmel ziert. Doch solche Algorithmen stecken noch in den Kinderschuhen. Einen Schritt in die richtige Richtung stellt immerhin ‘COBWEB’ dar, ein Projekt des Fraunhofer-Instituts, das die Suche nach Schablonen (‘digitale Fingerabdrücke’) verspricht [3|#lit3].

Wiederum einen anderen Ansatz verfolgen Dokumentenmanagementsysteme (DMS, c´t 20/00, S.188). Sie vermögen zwar zum Teil bestehende Datensammlungen zu importieren, doch um das Wiederfinden zu erleichtern, sollte man neue Dokumente besser gleich vom DMS aus anlegen und von vornherein mit Informationen spicken, anhand deren man später suchen könnte. Zum Teil haben sich die Systeme sogar auf bestimmte Dokumenttypen spezialisiert. Überdies erleichtern es solche Dokumentenmanager, bestimmte Dokumente in späteren Projekten wieder zu verwenden. (se)

[1] Heiner Högel: Mustergültig, Von Wildcards und Regulären Ausdrücken, c't 10/93, S. 218

[2] c't-Shareware-Archiv, www.heise.de/ct/shareware

[3] COBWEBB beim Fraunhofer-Institut für grafische Datenverarbeitung, www.igd.fhg.de

Kommentare

Anzeige
Anzeige