Microsoft gibt Toolkit für Distributed Machine Learning frei

Das Verarbeiten immer größerer Datenberge erfordert neue Werkzeuge. Dazu gehören Programme zum maschinellen Lernen. Ein solches Toolkit hat Microsoft nun zur freien Verwendung bereitgestellt.

Lesezeit: 1 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 8 Beiträge
Von

Forscher von Microsofts asiatischem Forschungsinstitut in Peking haben das Distributed Machine Learning Toolkit für Entwickler auf GitHub zur Verfügung gestellt. Das gaben sie in einem Forschungs-Blog bekannt. Solche selbstlernende Software benutzt viele Rechner gleichzeitig, um komplexe Probleme zu lösen. Sie kommt vor allem in Big-Data-Anwendungen zum Einsatz, etwa für die Bild-, Text- und Spracherkennung.

Mit dem SDK will Microsoft Entwicklern dabei helfen, bessere und schellere Programme beispielsweise für die Texterkennung zu erstellen.

(Bild: http://blogs.technet.com/b/inside_microsoft_research/archive/2015/11/12/microsoft-open-sources-distributed-machine-learning-toolkit-efficient-big-data-research.aspx)

Dahinter steht ein parametrisierbares Framework mit zahlreichen Programmierschnittstellen, die den Entwicklern dabei helfen sollen, sich auf das Wesentliche in diesem Umfeld - Datenmodelle und Training - zu konzentrieren. Laut Microsofts Forschern arbeitet das Toolkit erheblich schneller und kommt mit deutlich weniger zusammengeschalteten Rechnern aus als seine Vorläufer. Beispielsweise könne man ein Modell mit einer Million Topics, 200 Milliarden Eigenschaften und einem Wortschatz von 20 Millionen Wörtern auf einem einem Cluster von 24 Maschinen trainieren. Solche Anwendungen hätten bisher tausende Rechner benötigt.

Zu den Schlüsselkomponenten gehören der Parameter-Server (DMTK-Framework), ein Algorithmus zum Trainieren der Modelle (LightLDA) sowie ein Werkzeug zum Verarbeiten natürlicher Sprache (Distributed Word Embedding). Die Forscher versprechen sich durch die Öffnung eine Zusammenarbeit mit anderen Wissenschaftlern und Entwicklern, die das Funktionsspektrum des Toolkits erweitern sollen. Kürzlich hatte Google ein ähnliches Projekt vorgestellt. (jd)