Wer mehr über neuronale Suche erfahren will, muss aktuell einige fragmentierte Quellen und wissenschaftliche Papers in englischer Sprache wälzen. Dieser Artikel soll das zusammenführen und einen Einstieg in Dense Passage Retrieval (DPR) geben, ein solches neuronales Suchverfahren, das Dokumentensammlungen nach passenden Dokumenten durchsucht. Grundlegende Technik wie Tokenization, die Transformer-Architektur und Attention-Mechanismen beschreibt dieser Artikel nicht – diese Informationen sind im Internet aber leicht auffindbar.

Zusätzlich zu diesem Artikel zeigt ein Repository auf GitHub, wie sich diese Mathematik in Python-Code implementieren lässt.

Clemens Gutknecht Clemens Gutknecht ist Data Scientist/Engineer bei der BettercallPaul GmbH und spezialisiert auf Transformer-Modelle im Bereich NLP.

Leon Lukas Leon Lukas ist Machine Learning Engineer im IT-Referat der Stadt München, dort entwickelt er Modelle und betreut KI-Projekte.

Leon Marius Schröder Leon Marius Schröder ist Freelancer, Informatiker, seit 2012 spezialisiert auf neuronale Netze und im Institute for Applied AI tätig.

Beim Verständnis von DPR hilft zunächst der Vergleich mit den weitverbreiteten Information-Retrieval-Systemen, die auf TF-IDF basieren. Da TF-IDF als gute Baseline dient und auch in der Ära der neuronalen Netze seine Daseinsberechtigung hat, folgt hier ein kurzer Abriss dieser Methode. Der Artikel erklärt nur die wesentlichen Punkte, die für den Vergleich mit DPR hilfreich sind.