Regularisierung des maschinellen Lernens anhand von Beispielen erklärt

Getty Images

Bei der Regularisierung beim maschinellen Lernen handelt es sich um eine Reihe von Techniken, mit denen sichergestellt wird, dass ein Modell des maschinellen Lernens auf neue Daten innerhalb desselben Datensatzes verallgemeinert werden kann. Diese Techniken können dazu beitragen, die Auswirkungen verrauschter Daten zu reduzieren, die außerhalb des erwarteten Musterbereichs liegen. Die Regularisierung kann das Modell auch verbessern, indem sie die Erkennung relevanter Randfälle innerhalb einer Klassifizierungsaufgabe erleichtert.

Stellen Sie sich einen Algorithmus vor, der speziell für die Erkennung von Spam-E-Mails entwickelt wurde. In diesem Szenario wird der Algorithmus darauf trainiert, E-Mails, die scheinbar von einer bekannten US-Apothekenkette stammen und nur ein einziges Bild enthalten, als wahrscheinlich Spam einzustufen. Dieser enge Ansatz birgt jedoch die Gefahr, treue Kunden der Kette zu enttäuschen, die sich darauf freuten, über die neuesten Verkäufe des Ladens informiert zu werden. Ein effektiverer Algorithmus würde andere Faktoren wie den Zeitpunkt der E-Mails, die Verwendung von Bildern und die Art der in den E-Mails eingebetteten Links berücksichtigen, um die E-Mails genau als Spam zu kennzeichnen.

Dieses komplexere Modell müsste jedoch auch die Auswirkungen berücksichtigen, die jede dieser Maßnahmen auf den Algorithmus hinzufügt. Ohne Regularisierung besteht die Gefahr, dass der neue Algorithmus übermäßig komplex ist, Verzerrungen unterliegt und keine Varianz erkennen kann. Wir werden diese Konzepte im Folgenden näher erläutern.

Kurz gesagt, die Regularisierung drängt das Modell dazu, seine Komplexität während des Trainings zu reduzieren, erklärte Bret Greenstein, Daten-, KI- und Analyseleiter bei PwC.

„Regularisierung fungiert als eine Art Strafe, die der Verlustfunktion oder dem Wert hinzugefügt wird, der verwendet wird, um Modellmerkmalen Bedeutung zuzuweisen“, sagte Greenstein. „Dieser Nachteil hindert das Modell daran, Parameter zu finden, die seinen Merkmalen möglicherweise eine übermäßige Bedeutung beimessen.“

Daher ist die Regularisierung ein wichtiges Werkzeug, das von Datenwissenschaftlern verwendet werden kann, um das Modelltraining zu verbessern, um eine bessere Generalisierung zu erreichen, oder um die Wahrscheinlichkeit zu erhöhen, dass das Modell bei unbekannten Beispielen eine gute Leistung erbringt.

Adnan Masood, Chefarchitekt für KI und maschinelles Lernen beim Beratungsunternehmen für digitale Transformation UST, sagte, sein Unternehmen nutze regelmäßig Regularisierung, um ein Gleichgewicht zwischen Modellkomplexität und Leistung herzustellen und dabei sowohl Unter- als auch Überanpassung geschickt zu vermeiden.

Überanpassung, wie oben beschrieben, tritt auf, wenn ein Modell zu komplex ist und Rauschen in den Trainingsdaten lernt. Eine Unteranpassung tritt auf, wenn ein Modell zu einfach ist, um zugrunde liegende Datenmuster zu erfassen.

„Regularisierung bietet ein Mittel, um das optimale Gleichgewicht zwischen diesen beiden Extremen zu finden“, sagte Masood.

Betrachten Sie ein weiteres Beispiel für den Einsatz der Regularisierung im Einzelhandel. In diesem Szenario möchte das Unternehmen ein Modell entwickeln, das vorhersagen kann, wann ein bestimmtes Produkt möglicherweise nicht vorrätig ist. Zu diesem Zweck hat das Unternehmen einen Trainingsdatensatz mit vielen Funktionen entwickelt, beispielsweise Daten zu vergangenen Verkäufen, Saisonalität, Werbeveranstaltungen und externen Faktoren wie Wetter oder Feiertagen.

Dies könnte jedoch zu einer Überanpassung führen, wenn das Modell zu eng an bestimmte Muster in den Trainingsdaten gebunden ist, und könnte daher bei der Vorhersage von Fehlbeständen auf der Grundlage neuer, unsichtbarer Daten weniger effektiv sein.

„Ohne Regularisierung könnte unser maschinelles Lernmodell die Trainingsdaten möglicherweise zu gut lernen und übermäßig empfindlich auf Rauschen oder Schwankungen in den historischen Daten reagieren“, sagte Masood.

In diesem Fall könnte ein Datenwissenschaftler ein lineares Regressionsmodell anwenden, um die Summe der quadrierten Differenz zwischen tatsächlichen und vorhergesagten Fehlbeständen zu minimieren. Dies hält das Modell davon ab, einem einzelnen Merkmal zu große Bedeutung beizumessen.

Darüber hinaus könnten sie einen Lambda-Parameter zuweisen, um die Stärke der Regularisierung zu bestimmen. Höhere Werte dieses Parameters erhöhen die Regularisierung und verringern die Modellkoeffizienten (Gewichte des Modells).

Wenn dieses regulierte Modell trainiert wird, wird ein Gleichgewicht zwischen der Anpassung der Trainingsdaten und der Kleinhaltung der Modellgewichte hergestellt. Das Ergebnis ist ein Modell, das bei den Trainingsdaten potenziell weniger genau und bei der Vorhersage von Fehlbeständen anhand neuer, unsichtbarer Daten genauer ist.

„Auf diese Weise hilft uns die Regularisierung dabei, ein robustes Modell aufzubauen, besser auf neue Daten zu verallgemeinern und Fehlbestände effektiver vorherzusagen, wodurch das Unternehmen seinen Lagerbestand besser verwalten und Umsatzeinbußen verhindern kann“, sagte Masood.

Er findet, dass die Regularisierung für den Umgang mit Über- und Unteranpassung von entscheidender Bedeutung ist. Es trägt auch indirekt dazu bei, Bias (Fehler aufgrund fehlerhafter Annahmen) und Varianz (Fehler aufgrund der Empfindlichkeit gegenüber kleinen Schwankungen in einem Trainingsdatensatz) zu kontrollieren und so ein ausgewogenes Modell zu ermöglichen, das sich gut auf unsichtbare Daten verallgemeinern lässt.

Niels Bantilan, Chef-ML-Ingenieur bei Union.ai, einer Orchestrierungsplattform für maschinelles Lernen, hält es für nützlich, sich Regularisierung als einen Weg vorzustellen, um zu verhindern, dass sich ein Modell für maschinelles Lernen die Daten während des Trainings merkt.

Beispielsweise könnte sich ein Hausautomationsroboter, der darauf trainiert ist, in einer Küche Kaffee zuzubereiten, versehentlich die Besonderheiten und Grundrisse dieser bestimmten Küche einprägen. Es wird wahrscheinlich kaputt gehen, wenn man ihm eine neue Küche präsentiert, deren Zutaten und Geräte sich von denen unterscheiden, die es auswendig gelernt hat.

In diesem Fall zwingt die Regularisierung das Modell dazu, übergeordnete Konzepte wie „Kaffeetassen werden in der Regel in Oberschränken aufbewahrt“ zu lernen, anstatt bestimmte Besonderheiten der ersten Küche zu lernen, wie z. B. „Kaffeetassen werden ganz oben links aufbewahrt“. Regal."

In der Wirtschaft ist die Regularisierung wichtig für die Operationalisierung des maschinellen Lernens, da sie Fehler mindern und Kosten sparen kann, da es teuer ist, Modelle ständig auf die neuesten Daten umzuschulen.

„Daher ist es sinnvoll, sicherzustellen, dass sie über eine gewisse Generalisierungsfähigkeit über ihre Trainingsdaten hinaus verfügen, damit die Modelle bis zu einem bestimmten Punkt mit neuen Situationen umgehen können, ohne sie auf teurer Hardware oder Cloud-Infrastruktur neu trainieren zu müssen“, sagte Bantilan.

Der Begriff „Überanpassung“ wird verwendet, um ein Modell zu beschreiben, das zu viel aus den Trainingsdaten gelernt hat. Dazu kann Rauschen gehören, etwa ungenaue Daten, die versehentlich von einem Sensor gelesen wurden, oder die absichtliche Eingabe fehlerhafter Daten durch einen Menschen, um einem Spamfilter oder Betrugsalgorithmus zu entgehen. Es können auch Daten enthalten sein, die für die jeweilige Situation spezifisch sind, aber für andere Anwendungsfälle nicht relevant sind, wie z. B. die Regalaufteilung in einem Geschäft, die für andere Geschäfte in einem Bestandsvorhersagegerät möglicherweise nicht relevant ist.

Eine Unteranpassung tritt auf, wenn ein Modell nicht gelernt hat, Features einer genauen Vorhersage für neue Daten zuzuordnen. Greenstein sagte, dass die Regularisierung manchmal zu einer Unteranpassung führen kann. In diesem Fall ist es wichtig, den Einfluss der Regularisierung während des Modelltrainings zu ändern. Unteranpassung hängt auch mit Bias und Varianz zusammen.

Bantilan beschrieb Bias beim maschinellen Lernen als den Grad, in dem die Vorhersagen eines Modells mit der tatsächlichen Grundwahrheit übereinstimmen. Beispielsweise wäre ein Spamfilter, der die Spam-/Nicht-Spam-Kennzeichnungen in Trainingsdaten perfekt vorhersagt, ein Low-Bias-Modell. Es könnte als voreingenommen angesehen werden, wenn es die ganze Zeit falsch war.

Die Varianz charakterisiert den Grad, in dem die Vorhersagen des Modells kleine Störungen in den Trainingsdaten verarbeiten können. Ein guter Test sei das Entfernen einiger Datensätze, um zu sehen, was passiert, sagte Bantilan. Bleiben die Vorhersagen des Modells gleich, gilt das Modell als Modell mit geringer Varianz. Wenn sich die Vorhersagen stark ändern, spricht man von hoher Varianz.

Greenstein stellte fest, dass eine hohe Varianz vorliegen kann, wenn ein Modell, das auf mehreren Datenvariationen trainiert wurde, scheinbar eine Lösung lernt, bei Testdaten jedoch Schwierigkeiten hat, die Leistung zu erbringen. Dies ist eine Form der Überanpassung, und die Regularisierung kann bei der Lösung des Problems hilfreich sein.

Bharath Thota, Partner im Bereich Advanced Analytics von Kearney, einem globalen Strategie- und Managementberatungsunternehmen, sagte, dass einige der häufigsten Anwendungsfälle in der Industrie die folgenden sind:

Die Regularisierung muss als praktische Technik im Prozess der Verbesserung von ML-Modellen und nicht als spezifischer Anwendungsfall betrachtet werden. Greenstein hat festgestellt, dass es am nützlichsten ist, wenn Probleme hochdimensional sind, das heißt, sie enthalten viele und manchmal komplexe Merkmale. Diese Art von Problemen ist anfällig für eine Überanpassung, da ein Modell möglicherweise keine vereinfachten Muster erkennen kann, um Merkmale Zielen zuzuordnen.

Die Regularisierung ist auch bei verrauschten Datensätzen hilfreich, beispielsweise bei hochdimensionalen Daten, bei denen die Beispiele stark variieren und einer Überanpassung unterliegen. In diesen Fällen lernen die Modelle möglicherweise eher das Rauschen als eine verallgemeinerte Darstellung der Daten.

Es eignet sich auch gut für nichtlineare Probleme, da Probleme, die nichtlineare Algorithmen erfordern, häufig zu einer Überanpassung führen können. Diese Art von Algorithmen deckt komplexe Grenzen für die Klassifizierung von Daten auf, die gut mit den Trainingsdaten übereinstimmen, aber nur teilweise auf Daten aus der realen Welt anwendbar sind.

Greenstein wies darauf hin, dass die Regularisierung eines von vielen Werkzeugen ist, die bei der Lösung von Herausforderungen mit einem Overfit-Modell helfen können. Andere Techniken wie Bagging, reduzierte Lernraten und Datenstichprobenmethoden können die Regularisierung je nach Problem ergänzen oder ersetzen.

Es gibt eine Reihe verschiedener Regularisierungstechniken. Die gebräuchlichsten Ansätze basieren auf statistischen Methoden wie der Lasso-Regularisierung (auch L1-Regularisierung genannt), der Ridge-Regularisierung (L2-Regularisierung) und der Elastic-Net-Regularisierung, die sowohl Lasso- als auch Ridge-Techniken kombiniert. Verschiedene andere Regulierungstechniken verwenden unterschiedliche Prinzipien, wie z. B. Ensembling, Dropout neuronaler Netze, Pruning von entscheidungsbaumbasierten Modellen und Datenerweiterung.

Masood sagte, dass die Wahl der Regularisierungsmethode und die Abstimmung des Regularisierungsstärkeparameters (Lambda) weitgehend vom spezifischen Anwendungsfall und der Art des Datensatzes abhängen.

„Die richtige Regularisierung kann die Modellleistung erheblich verbessern, aber die falsche Wahl könnte zu einer schlechteren Leistung führen oder sogar die Vorhersagekraft des Modells beeinträchtigen“, warnte Masood. Daher ist es wichtig, die Regularisierung mit einem soliden Verständnis sowohl der Daten als auch des vorliegenden Problems anzugehen.

Hier finden Sie kurze Beschreibungen der gängigen Regularisierungstechniken.

Lasso-Regression, auch L1-Regularisierung genannt. Die Lasso-Regularisierungstechnik, ein Akronym für kleinste absolute Schrumpfung und Auswahloperator, wird aus der Berechnung des Medians der Daten abgeleitet. Ein Median ist ein Wert in der Mitte eines Datensatzes. Es berechnet eine Straffunktion anhand absoluter Gewichte. Thota von Kearney sagte, dass diese Regularisierungstechnik die Sparsität im Modell fördert, was bedeutet, dass einige Koeffizienten auf genau Null gesetzt werden können, was eine effektive Merkmalsauswahl ermöglicht.

Ridge-Regression, auch bekannt als L2-Regularisierung. Die Ridge-Regulierung wird aus der Berechnung des Mittelwerts der Daten abgeleitet, bei dem es sich um den Durchschnitt einer Reihe von Zahlen handelt. Es berechnet eine Straffunktion unter Verwendung eines Quadrats oder eines anderen Exponenten jeder Variablen. Thota sagte, diese Technik sei nützlich, um die Auswirkungen irrelevanter oder korrelierter Merkmale zu reduzieren und helfe bei der Stabilisierung des Modellverhaltens.

Elastic Net (L1 + L2) Regularisierung. Elastic Net kombiniert sowohl L1- als auch L2-Techniken, um die Ergebnisse für bestimmte Probleme zu verbessern.

Ensemble. Diese Reihe von Techniken kombiniert die Vorhersagen aus einer Reihe von Modellen und reduziert so die Abhängigkeit von einem einzelnen Modell für die Vorhersage.

Ausfall des neuronalen Netzwerks. Dieser Prozess wird manchmal in Deep-Learning-Algorithmen verwendet, die aus mehreren Schichten neuronaler Netze bestehen. Dabei werden die Gewichte einiger Neuronen zufällig weggelassen. Bantilan sagte, dies zwinge den Deep-Learning-Algorithmus dazu, ein Ensemble von Subnetzwerken zu lernen, um die Aufgabe effektiv zu lösen.

Beschneiden von entscheidungsbaumbasierten Modellen. Dies wird in baumbasierten Modellen wie Entscheidungsbäumen verwendet. Durch das Beschneiden von Zweigen können die Entscheidungsregeln eines bestimmten Baums vereinfacht werden, um zu verhindern, dass er sich auf die Besonderheiten der Trainingsdaten verlässt.

Datenerweiterung. Diese Technikfamilie nutzt Vorkenntnisse über die Datenverteilung, um zu verhindern, dass das Modell die Besonderheiten des Datensatzes lernt. Beispielsweise könnten Sie in einem Anwendungsfall der Bildklassifizierung ein Bild horizontal spiegeln, Rauschen oder Unschärfe einführen oder ein Bild beschneiden. „Solange die Datenbeschädigung oder -änderung etwas ist, das wir in der realen Welt finden könnten, sollte das Modell lernen, mit solchen Situationen umzugehen“, sagte Bantilan.

Was ist Boosting beim maschinellen Lernen?

Wahl zwischen einem regelbasierten oder einem maschinellen Lernsystem

Was ist Clustering beim maschinellen Lernen?

So bauen und organisieren Sie ein Team für maschinelles Lernen