Lucene 4 mit Indizierungs-Plug-ins

 –  0 Kommentare

Die Alpha des Major Release 4.0.0 von Lucene ist veröffentlicht. Die Entwickler haben alle als "überholt" markierten APIs der Version 3.6.0 entfernt. Indizes aus Veröffentlichungen, die Lucene vor 3.0 erzeugt hat, unterstützt die aktuelle Release nicht mehr.

Neu ist die erweiterbare Codec-Architektur. Sie kontrolliert, wie Elemente des Index geschrieben sind. Es lassen sich eigene oder vorgegebene Codecs verwenden. Sie dienen der Kompatibilität mit Version 3.x, können zum Debuggen und zu Lernzwecken als Plain-Text-Dateien speichern, sind auf Bereiche mit wenig Postings optimiert oder notwendig zur Nutzung mit Hadoop.

Auch das Scoring ist jetzt erweiterbar. Das TF/IDF Vector Space Model bleibt die vorgegebene Auswahl. Eigene oder weitere vorgegebene Scoring Models lassen sich ebenfalls verwenden. So kann man eigene Kriterien zum Beurteilen der Relevanz von Begriffen nutzen.

Die neuen Document Value APIs sollen Lucenes Field Cache ersetzen. Der Field Cache dient dem schnelleren Aufrufen von Werten, die neue API soll den Prozess beschleunigen.

Aus der API zum Erstellen von Document Fields haben die Entwickler Fiedable und AbstractField entfernt. FieldType legt fest, wie Luzene den Wert eines Field im Index speichert. Vorgegebene Klassen lassen sich für häufig verwendete Fields wie ein Primary ID Field oder ein Primary Text Field nutzen. Sollte sich keine der vorgegebenen Klassen für den eigenen Einsatz eignen, lassen sich auch eigene FieldTypes anlegen.

Das Suchtempo wollen die Entwickler um bis zu 300 Prozent gesteigert haben. Auch den Bedarf an RAM konnten sie um bis zu 73 Prozent reduzieren.

Lucene erscheint bei der Apache Foundation. Als Programmbibliothek zur Volltextsuche kommt es unter anderem bei der Wikipedia und bei Twitter zum Einsatz. (fo)