Bots ignorieren Robot.txt

shopuser

Member
Hallo,

ich hab das Problem das die Bots die Robot Regeln ingronieren, da steht z.B.


Code:
Disallow: /note/ajaxAdd/ordernumber/.*
Disallow: /note/delete/sDelete/.*
Disallow: /note/add/ordernumber/.*
Disallow: /.*./note/add/ordernumber/.*
Disallow: /.*./anfrage-formular?sInquiry=detail&sOrdernumber=.*
Disallow: /.*./inquiry-form?sInquiry=detail&sOrdernumber=


ich weiss nicht genau ob ich das so machen kann weiss anstelle der .* ist dann immer ein Artikelnummer auf einer Produktseite im Shop


wenn ich aber das so eintrage funtioniert es auch nicht Bing und Google und etc. ingnorieren das einfach und scanne ohne Ende

Code:
Disallow: /note/ajaxAdd/ordernumber/
Disallow: /note/delete/sDelete/
Disallow: /note/add/ordernumber/
Disallow: /.*./note/add/ordernumber=
Disallow: /inquiry-form?sInquiry=detail&sOrdernumber=



2024-10-24 07:37:15Access192.99.37.124200GET /inquiry-form?sInquiry=detail&sOrdernumber=A45568 HTTP/1.0
11.8 KSSL/TLS-Zugriff für Apache
 
Last edited:
ich weiss nicht genau ob ich das so machen kann weiss anstelle der .* ist dann immer ein Artikelnummer auf einer Produktseite im Shop



wenn ich aber das so eintrage funtioniert es auch nicht Bing und Google und etc. ingnorieren das einfach und scanne ohne Ende
Interpunktion?
 
Die robots.txt verhindert doch nur das auftauchen im Index in jenen die es respektieren, nicht das Crawlen?!?
Wenn es nicht gerade Bing oder Google sind ignorieren doch fast eh alle die robots. Zudem fehlt mir hier ein "User-agent: *" z.B.
Und Wildcard ist * nicht .*, es gibt kein regex ect.

.* matcht literal .irgendwas und nicht irgendwas

Was du also suchst ist: /inquiry-form?sInquiry=detail&sOrdernumber=*
 
Last edited:
Bots müssen sich an gar nichts halten. Und manche ignorieren Robots-Regeln einfach.

Wenn das Scannen verhindern willst, blockiere den Bot per RewriteConition über User-Agent und notfalls IP-Bereichen.
 
ok danke erstmal für info, ja aber bei den Bots handels es sich im Bing und Google wenn ich die per IP Blocke ist das nicht so günstig, bei MJBot oder anderen Schnüfflern hab ich das schon gemacht
 
bei den Bots handels es sich im Bing und Google wenn ich die per IP Blocke ist das nicht so günstig
Dann prüfst du eben noch per RewriteCond, ob die auf verbotene URL zugreifen, gibst denen dann einen HTTP-Header X-Robots-Tag: noindex zurück.
 
Den manuellen Aufwand zum sperren von IPs / Ranges willst du nicht treiben. Dann lieber etwas an die eigenen Bedürfnisse anpassen, was bereits existiert.
 
Dann prüfst du eben noch per RewriteCond, ob die auf verbotene URL zugreifen, gibst denen dann einen HTTP-Header X-Robots-Tag: noindex zurück.
Ok du denkst dei würden sich daran halten ? weil die URLs wie z.B.
/note/add/ordernumber/
/note/delete/sDelete/
haben schon einen noindex
 
Den manuellen Aufwand zum sperren von IPs / Ranges willst du nicht treiben. Dann lieber etwas an die eigenen Bedürfnisse anpassen, was bereits existiert.
Das Jail im fail2ban habe ich ja, aber muss man auch ständig anpassen, weil sich ständig die Versionen der Bots ändern, oder es nicht möglich ist weil sich die die Bots als User ausgeben, oder auch die Bot Abfragen scheinbar über ein redirect via verschleiert werden.
 
Ok du denkst dei würden sich daran halten ? weil die URLs wie z.B.
/note/add/ordernumber/
/note/delete/sDelete/
haben schon einen noindex
Dann schickst du sie halt in einen 403 od. 404

Die f2b Variante von Thorsten funktioniert nur global und nicht auf URI beschränkbar.
 
Die f2b Variante von Thorsten funktioniert nur global und nicht auf URI beschränkbar.
Den allergrößten Anteil bzw. alle derartigen Bots will man nicht haben. Auf keiner Site. Die sind einfach nur nutzlos und verschwenden Ressourcen.
 
Den allergrößten Anteil bzw. alle derartigen Bots will man nicht haben. Auf keiner Site. Die sind einfach nur nutzlos und verschwenden Ressourcen.
Ja, ich meine das ja bezogen auf "die Guten". Denke TE will seine anderen Seiten ja weiter in Google haben.
 
Back
Top