Feature Subset SelectionDie Feature Subset Selection (FSS), kurz Feature Selection oder Merkmalsauswahl, ist ein Ansatz aus dem maschinellen Lernen, bei dem nur eine Teilmenge der verfügbaren Features für maschinelles Lernen verwendet wird. FSS ist notwendig, weil es teilweise technisch unmöglich ist, alle Features mit einzubeziehen oder weil es Differenzierungsprobleme gibt, wenn eine große Anzahl an Features, aber nur eine kleine Zahl an Datensätzen vorhanden ist oder um Überanpassung des Modells zu vermeiden, siehe Verzerrung-Varianz-Dilemma. AnsätzeEs gibt drei Hauptansätze zur Feature Selection. Filter-Ansatz![]() Berechne ein Maß zur Unterscheidung von Klassen. Messe das Gewicht der Features und wähle die besten n aus. Auf dieses Feature Subset wird der Lernalgorithmus angewendet. Filter können entweder univariat (z. B. euklidische Distanz, Chi-Quadrat-Test) oder multivariat (z. B. Korrelationsbasierte Filter) die intrinsischen Eigenschaften der Daten berechnen. Feature selection durch Filtern ist ein spezieller Fall des Strukturlernens, welches z. B. im Kontext von Bayesschem Lernen häufig Anwendung findet. Vorteile:
Nachteile:
Wrapper-Ansatz![]() Durchsuche die Menge aller möglichen Feature-Subsets. Auf jedes Subset wird der Lernalgorithmus angewendet. Das Durchsuchen kann entweder deterministisch oder randomisiert erfolgen: Deterministische Algorithmen sind z. B.:
Randomisierte Algorithmen sind z. B.:
Vorteile:
Nachteile:
Embedded-Ansatz![]() Die Suche nach einer optimalen Untermenge ist direkt mit dem Lernalgorithmus verbunden. Vorteile:
Nachteile:
Beispiele:
Beispiele für AlgorithmenCorrelation Feature SelectionGute Untermengen von Features enthalten Features, welche stark mit der Zielvariablen korreliert sind, aber dennoch möglichst unkorreliert untereinander sind.[5] Correlation Feature Selection (CFS) wählt als Filter-Algorithmus die Untermengen mit vielen Features wie folgt aus: wobei die Korrelationskoeffizienten (z. B. Spearman-Korrelation oder Pearson-Korrelation) zwischen Zielvariable und Feature sind und die Korrelationskoeffizienten der Features und untereinander. BorutaBoruta[6] ist ein Algorithmus zur Feature Selection, welcher zunächst weitere zufällige Features einführt und die Feature Importance jedes Features mit der dieser zufälligen Features vergleicht: Features, welche häufig unwichtiger als diese zufälligen Features waren, werden verworfen. Relief-AlgorithmusRelief basierte Algorithmen folgen der Filtermethodik und analysieren Unterschiede der Features bei nächsten Nachbarn, welche andern Klassen angehören. RegularisierungRegularisierung mit dem L1-Loss wählt gewisse Features aus, siehe Lasso-Regression. Es ist ein Beispiel für den Embedded-Ansatz. Bei der Lasso-Regression (und orthogonalen Merkmalen) kann mithilfe von Subdifferentialen[7] die Soft-Threshold-Funktion hergeleitet werden, welche einige Parameter der Kleinste-Quadrate-Regression (OLS) direkt auf Null setzt: Feature Selection mit AnnealingFeature Selection mit Annealing erlaubt Feature Selection mit gewissen statistischen Garantien[8]. Siehe auchLiteratur
Einzelnachweise
|