Zeitschrift für Computertechnik und Informationstechnologie

Random Forests Spam-E-Mail-Klassifizierungssystem

Khongbantabam Susila Devi

E-Mail ist ein schnelles und kostengünstiges Kommunikationsmittel für die Benutzer. Andererseits hat die Zahl der E-Mail-Benutzer in den letzten Jahren zu einem starken Anstieg von Spam-Mails geführt. Dieses Problem mit Spam-Mails ist eines der wesentlichen Risiken des Internets. Die wachsende Menge an Spam-Mails macht vertrauenswürdige Anti-Spam-Filter wichtig. Normalerweise senden die Spammer die unerwünschten und unaufgeforderten E-Mails an verschiedene Empfänger und diese Spam-Mails weisen in ihren Merkmalen meist dieselben Merkmale auf. Daher ist es wichtig, ein Abwehrsystem zu entwickeln, das Spam-Mails effektiv findet und einen alternativen Prozess für eigenständige Filter bietet. Daher wird in diesem Artikel ein neuartiger Rahmen für die Klassifizierung von E-Mails in Spam und Ham-Mails unter Verwendung der attributbasierten Random-Forest-Klassifizierung vorgeschlagen. Der Prozess beginnt mit der Berechnung der Wahrscheinlichkeit für Spam nach Bayes für jedes Token, das TF-IDF-Gewichtungsschema berechnet das Gewicht für jedes Token und die E-Mail, die Punkteberechnung erfolgt auf Grundlage der genetischen Fitness und schließlich wird der Klassifizierungsprozess mithilfe eines Random-Forest-Klassifikators durchgeführt, um die E-Mails in Spam und Ham-Mails zu klassifizieren. Die Ergebnisse werden hinsichtlich Klassifizierungsgenauigkeit, gewichteter Genauigkeit und F1-Maß mit vorhandenen Spam-Klassifizierungsmethoden verglichen. Die Ergebnisse zeigen, dass das vorgeschlagene System im Vergleich zu anderen vorhandenen Algorithmen vielversprechende Ergebnisse liefert.

Haftungsausschluss: Dieser Abstract wurde mit Hilfe von Künstlicher Intelligenz übersetzt und wurde noch nicht überprüft oder verifiziert