Wu K, Zhang K, Fan W, Gao J und Edwards A
Ein effektiver Rahmen für die Klassifizierung unausgewogener Datenströme
Die Klassifizierung von Datenströmen mit schiefer Verteilung findet in realistischen Umgebungen viele Anwendungen; allerdings gibt es nur wenige Methoden, die dieses gemeinsame Problem der Datenstromklassifizierung und des unausgewogenen Datenlernens angehen . In diesem Artikel schlagen wir ein neuartiges, auf Wichtigkeitsstichproben basierendes, dynamisches Rahmenwerk zur Gewichtung von Merkmalsgruppen (DFGW-IS) vor, um dieses Problem anzugehen. Unser Ansatz befasst sich mit den intrinsischen Merkmalen von konzeptdriftenden, unausgewogenen Streaming-Daten. Insbesondere wird das sich ständig weiterentwickelnde Konzept von einem Ensemble behandelt, das anhand einer Reihe von Merkmalsgruppen trainiert wird, wobei jeder Unterklassifizierer (d. h. ein einzelner Klassifizierer oder ein Ensemble) nach seiner Unterscheidungskraft und seinem stabilen Niveau gewichtet wird. Die ungleichmäßige Klassenverteilung wird hingegen durch den Unterklassifizierer bekämpft, der in einer bestimmten Merkmalsgruppe eingebaut ist, wobei die zugrunde liegende Verteilung durch die Wichtigkeitsstichprobentechnik neu ausgeglichen wird. Wir liefern die theoretische Analyse der Generalisierungsfehlergrenze des vorgeschlagenen Algorithmus. Ausführliche Experimente mit mehreren schiefen Datenströmen zeigen, dass der vorgeschlagene Algorithmus nicht nur die konkurrierenden Methoden bei Standardbewertungsmetriken übertrifft, sondern sich auch gut an verschiedene Lernszenarien anpasst.