Zeitschrift für Elektrotechnik und Elektronik

Anleitung zum Herangehen an ein Machine-Learning-Problem

Mansi Priya  

Heute sind Algorithmen wie Schlagworte. Jeder versucht, verschiedene Arten von Algorithmen zu lernen – logistische Regression, Random Forests, Entscheidungsstrukturen, SVMs, Gradient Boosting-Algorithmen, neuronale Netzwerke usw. Jeden Tag werden neue Algorithmen entwickelt. Aber Data Science ist nicht nur das Anwenden verschiedener Algorithmen auf die Daten. Bevor Sie einen Algorithmus anwenden, müssen Sie Ihre Daten verstehen, da dies Ihnen später dabei hilft, die Leistung Ihrer Algorithmen zu verbessern. Für jedes Problem muss man dieselben Schritte wiederholen – Datenaufbereitung, Modellplanung, Modellerstellung und Modellbewertung – um die Genauigkeit zu verbessern. Wenn wir direkt mit der Modellerstellung beginnen, sind wir nach einer Iteration orientierungslos. Im Folgenden sind einige meiner Schritte zur Lösung jedes maschinellen Lernproblems aufgeführt: Als ersten Schritt schlage ich vor, Ihr Problem anhand eines guten Verständnisses des Geschäftsmarkts richtig zu verstehen. Es gibt kein Szenario wie: Hier sind die Daten, hier ist der Algorithmus und zack! Ein gutes Geschäftsverständnis wird Ihnen in den folgenden Schritten bei der Verarbeitung der Daten helfen. Wenn Sie beispielsweise keine Ahnung vom Bankensystem haben, werden Sie nicht verstehen, ob ein Merkmal wie das Einkommen eines Kunden einbezogen werden sollte oder nicht. Der nächste Schritt besteht darin, relevante Daten für Ihr Problem zu sammeln. Neben den Daten, die Sie intern in Ihrem Unternehmen haben, sollten Sie auch externe Datenquellen hinzufügen. Für eine Umsatzprognose sollten Sie beispielsweise das Marktszenario für den Verkauf Ihres Produkts verstehen. Das BIP kann Ihren Umsatz beeinflussen oder die Bevölkerung. Sammeln Sie also solche externen Daten. Denken Sie auch daran, dass Ihnen alle externen Daten, die Sie verwenden, auch in Zukunft zur Verfügung stehen sollten, wenn Ihr Modell bereitgestellt wird. Wenn Sie beispielsweise Bevölkerungsdaten in Ihrem Modell verwenden, sollten Sie diese Daten auch im nächsten Jahr sammeln können, um Prognosen für das nächste Jahr zu erhalten. Ich habe viele Leute gesehen, die nur ihre internen Daten verwenden, ohne die Bedeutung externer Daten für ihren Datensatz zu erkennen. Aber in Wirklichkeit haben externe Merkmale einen guten Einfluss auf unseren Anwendungsfall. Wenn Sie nun alle relevanten Daten für Ihr Problem gesammelt haben, müssen Sie sie für Training und Tests aufteilen. Viele Datenwissenschaftler befolgen die 70/30-Regel, um die Daten in zwei Teile aufzuteilen: Trainings- und Testdatensatz. Viele befolgen dagegen die 60/20/20-Regel, um die Daten in drei Teile aufzuteilen: Trainingsdatensatz, Testdatensatz und Validierungsdatensatz. Ich bevorzuge die zweite Option, weil Sie in diesem Fall den Testdatensatz zur Verbesserung Ihres Modells und den Validierungsdatensatz zur endgültigen Überprüfung Ihres Modells in einem tatsächlichen Szenario verwenden. Ich habe an einem Problem zur Vorhersage eines Kreditausfalls gearbeitet. Meine Genauigkeit lag bei 78 %. Ich habe mein Problem der Person vorgelegt, die für die mit Krediten verbundenen Finanzsysteme zuständig war.

Haftungsausschluss: Dieser Abstract wurde mit Hilfe von Künstlicher Intelligenz übersetzt und wurde noch nicht überprüft oder verifiziert