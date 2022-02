Inhaltsverzeichnis Machine Learning: Labeling von Datensätzen mit Active Learning in der Praxis Twitter-Posts labeln Trainingsdaten auswerten Nutzen von Daten analysieren Praktische Umsetzung Fazit Artikel in iX 3/2022 lesen

Drei Dinge sind für überwachtes maschinelles Lernen essenziell: Daten, Algorithmen und Labels. An den ersten beiden herrscht kein Mangel. Bei Labels – also den Kategorien, in die Trainingsdaten eingeordnet werden – sieht es anders aus.

Während Beispieldatensätze aus dem Netz oft sorgfältig gelabelt sind, sind bei Daten aus der Praxis unvollständige oder mangelhafte Labels eher die Regel als die Ausnahme. Soll ein Algorithmus etwa im echten Leben Kreditkartenbetrug erkennen, hat selten mehr als eine Handvoll Daten die richtigen Labels.

In den meisten Fällen muss man seine Daten manuell labeln. Das ist zeitraubend, kostspielig, fehleranfällig und kann zu suboptimalen Modellen führen. Ganz besonders ärgerlich wird es dann, wenn viele der Labels für den Lernalgorithmus gar nicht wichtig sind, weil er entweder schon genug ähnliche Datenpunkte gesehen hat oder es sich um Ausreißer handelt. Hier hilft Active Learning: Der Algorithmus sucht aktiv nach interessanten Datenpunkten und legt sie einem Menschen zum Labeln vor. Das minimiert einerseits den Aufwand und führt andererseits zu robusteren Modellen.