Hallo,
da ich bisher Spamassassin noch nicht trainiert habe, und bei Plesk das Training für jedes Postfach recht umständlich ist, wollte ich SA etwas Training verschaffen (habe SpamAssassin version 3.0.3).
Ich habe mich dabei nach Huschis Artikel http://www.huschi.net/11_177_de.html gehalten, ich muss jedoch was falsch gemacht haben, da es keinerlei Auswirkungen hat!
Nochmals zur Erläuterung meiner Schritte:
- ich habe /etc/spamassassin/local.cf (bzw. /etc/mail/spamassassin, softlink) und dort folgende Zeile am Ende hinzugefügt:
# use Bayes-Filter
use_bayes 1
bayes_path /var/spool/spamassassin/bayes # diesen Ordner habe ich erstellt (root), da er noch nciht existierte
bayes_file_mode 777
# auto-learn
auto_learn 1
Dabei sieht der Anfang der Datei wie folgt aus:
required_score 7
whitelist_from *@...
rewrite_header subject **** SPAM ****
und nachträglich kommen eben die Paar Zeilen weiter oben. Jetzt habe ich SA durch das Plesk Interface neu gestartet und mir von spamarchive.org alle aktuellen mbox-Dateien (Endung r2) unter /var/mail/spam heruntergeladen, diese anschließend entpackt und dann an sa-learn --spam --mbox /var/mail/spam zum Fraß vorgeworfen. Dabei erhielt ich (nach einigen Stunden, immerhin sind es mehrere 100 MB) mehrere dutzend "Fehlermeldungen", ganz selten
Parsing of undecoded UTF-32 at /usr/share/perl5/Mail/SpamAssassin/HTML.pm line 182.
und etwas öfters
Parsing of undecoded UTF-8 will give garbage when decoding entities at /usr/share/perl5/Mail/SpamAssassin/HTML.pm line 182.
Endausgabe: Learned from 132525 message(s) (136932 message(s) examined).
Ich habe im Artikel http://www.heise.de/open/artikel/74991/5 entdeckt, dass sa-learn mit dem Benutzer mail ausgeführt werden muss. Habe dies zwar versucht, aber sudo existiert unter Debian 3.1 wahrscheinlich nicht unter diesem Namen, und da ich mich mit sudo nicht sehr auskenne habe ich es sein lassen. Könnte dies wirklich auswirkungen haben, in Huschis Artikel war dieser Schritt nicht aufgeführt darum hielt ich es auch nicht für ausschlaggebend.
Ich habe Spamassassins Log-Dateien für eine eventuelle Ausgabe hier gesucht, leider aber keine gefunden.
Hat jemand eine Ahnung was bei der Prozedur falsch gemacht wurde?
Weiters habe ich den Artikel https://serversupportforum.de/threads/sa-learn-per-email-fuettern.1897/ gelesen, den ich schon eine Weile gesucht habe, und endlich gefunden. Habe diese Schritte bis zu Punkt 4 genau wie beschrieben ausgeführt. Den letzten Schritt "Achtung: entweder Logrotate für die 2 Dateien einschalten, oder, wenn alles funzt einfach 'verbose', 'logfile' und 'debug' in den Dateien auskommentieren." habe ich nicht verstanden und daher ausgelassen, vielleicht kann mir jemand diese etwas genauer erläutern. Obwohl: nachdem ich den anschließenden Teil gelesen habe schien es Probleme mit diesem Verfahren zu geben und habe deshalb einen Vorschlag/Idee:
Wenn ich mir eine Mailbox z.B. unter dem Namen spam, also /var/qmail/mailnames/domain.tld/spam/Maildir/cur errichte, und hier meine SPAM-mails hinschicke, dürfte es doch auch möglich sein durch einen Cron-Job täglich diese abarbeiten und anschließend löschen zu lassen, eta durch
sa-learn --spam /var/qmail/mailnames/domain.tld/spam/Maildir/cur
oder ähnlich, hat jemand vielleicht damit Erfahrung?
Danke und nette Grüße, Andreas
da ich bisher Spamassassin noch nicht trainiert habe, und bei Plesk das Training für jedes Postfach recht umständlich ist, wollte ich SA etwas Training verschaffen (habe SpamAssassin version 3.0.3).
Ich habe mich dabei nach Huschis Artikel http://www.huschi.net/11_177_de.html gehalten, ich muss jedoch was falsch gemacht haben, da es keinerlei Auswirkungen hat!
Nochmals zur Erläuterung meiner Schritte:
- ich habe /etc/spamassassin/local.cf (bzw. /etc/mail/spamassassin, softlink) und dort folgende Zeile am Ende hinzugefügt:
# use Bayes-Filter
use_bayes 1
bayes_path /var/spool/spamassassin/bayes # diesen Ordner habe ich erstellt (root), da er noch nciht existierte
bayes_file_mode 777
# auto-learn
auto_learn 1
Dabei sieht der Anfang der Datei wie folgt aus:
required_score 7
whitelist_from *@...
rewrite_header subject **** SPAM ****
und nachträglich kommen eben die Paar Zeilen weiter oben. Jetzt habe ich SA durch das Plesk Interface neu gestartet und mir von spamarchive.org alle aktuellen mbox-Dateien (Endung r2) unter /var/mail/spam heruntergeladen, diese anschließend entpackt und dann an sa-learn --spam --mbox /var/mail/spam zum Fraß vorgeworfen. Dabei erhielt ich (nach einigen Stunden, immerhin sind es mehrere 100 MB) mehrere dutzend "Fehlermeldungen", ganz selten
Parsing of undecoded UTF-32 at /usr/share/perl5/Mail/SpamAssassin/HTML.pm line 182.
und etwas öfters
Parsing of undecoded UTF-8 will give garbage when decoding entities at /usr/share/perl5/Mail/SpamAssassin/HTML.pm line 182.
Endausgabe: Learned from 132525 message(s) (136932 message(s) examined).
Ich habe im Artikel http://www.heise.de/open/artikel/74991/5 entdeckt, dass sa-learn mit dem Benutzer mail ausgeführt werden muss. Habe dies zwar versucht, aber sudo existiert unter Debian 3.1 wahrscheinlich nicht unter diesem Namen, und da ich mich mit sudo nicht sehr auskenne habe ich es sein lassen. Könnte dies wirklich auswirkungen haben, in Huschis Artikel war dieser Schritt nicht aufgeführt darum hielt ich es auch nicht für ausschlaggebend.
Ich habe Spamassassins Log-Dateien für eine eventuelle Ausgabe hier gesucht, leider aber keine gefunden.
Hat jemand eine Ahnung was bei der Prozedur falsch gemacht wurde?
Weiters habe ich den Artikel https://serversupportforum.de/threads/sa-learn-per-email-fuettern.1897/ gelesen, den ich schon eine Weile gesucht habe, und endlich gefunden. Habe diese Schritte bis zu Punkt 4 genau wie beschrieben ausgeführt. Den letzten Schritt "Achtung: entweder Logrotate für die 2 Dateien einschalten, oder, wenn alles funzt einfach 'verbose', 'logfile' und 'debug' in den Dateien auskommentieren." habe ich nicht verstanden und daher ausgelassen, vielleicht kann mir jemand diese etwas genauer erläutern. Obwohl: nachdem ich den anschließenden Teil gelesen habe schien es Probleme mit diesem Verfahren zu geben und habe deshalb einen Vorschlag/Idee:
Wenn ich mir eine Mailbox z.B. unter dem Namen spam, also /var/qmail/mailnames/domain.tld/spam/Maildir/cur errichte, und hier meine SPAM-mails hinschicke, dürfte es doch auch möglich sein durch einen Cron-Job täglich diese abarbeiten und anschließend löschen zu lassen, eta durch
sa-learn --spam /var/qmail/mailnames/domain.tld/spam/Maildir/cur
oder ähnlich, hat jemand vielleicht damit Erfahrung?
Danke und nette Grüße, Andreas