Menü
iX Magazin

Suchmaschine Lucene 3 räumt auf [Update]

vorlesen Drucken Kommentare lesen 22 Beiträge

Ein Sprung bei der Major Release muss nicht unbedingt neue Funktionen bringen. Das zeigt sich bei der freien Suchmaschine Lucene des Apache-Projekts: Ihre Entwickler bezeichnen Version 3 als "clean up release" ohne neue Funktionen.

Alle bisher als veraltet ("deprecated") markierten Fähigkeiten seien nun entfernt worden. Wer von der Vorgängerversion auf die neue umsteigen wolle, müsse deshalb zunächst den Code entfernen, den der Compiler als "deprecated" bemängelt. Lucene benötige nun mindestens Java 5, da es unter anderem dessen variable Argumente, Enumerationen und Autoboxing verwendet. Die in Java 5 vorhandene Unterstützung für Unicode 4 wird erst in Lucene 3.1 vollständig zum Tragen kommen. Zurzeit gibt es noch Schwierigkeiten mit den dort eingeführten "Supplementary Characters", die mit mehr als 16 Bit codiert werden.

Update: Für die Zukunft ist außerdem eine flexible Indizierung geplant, die die vollständige Anpassung des Indexformats ermöglicht. Darunter fällt Verbesserungen bei der numerischen Suche sowie verbesserte Wildcard- und Fuzzy-Abfragen. Ein paralleler Indexer soll Indizes verteilt aufbauen und anhand der Document-ID synchron halten. Dadurch sind Updates auf einzelne Felder möglich, ohne jedes Mal das ganze Dokument neu zu indizieren.


Zu den abgeschafften Funktionen gehört die Komprimierung von Feldern. Lucene kann weiterhin das alte Indexformat lesen, dekomprimiert jedoch Felder in diesem Format, wenn ein Segment-Merge oder eine Indexoptimierung ausgelöst werden. Wer komprimierte Felder wünscht, sollte dies mit Java-GZIP-Funktionen selbst umsetzen und für die Speicherung binäre Felder verwenden. (Isabel Drost) / (ck)