Bots ignorieren Robot.txt

shopuser · Oct 24, 2024

Hallo,

ich hab das Problem das die Bots die Robot Regeln ingronieren, da steht z.B.

Code:

Disallow: /note/ajaxAdd/ordernumber/.*
Disallow: /note/delete/sDelete/.*
Disallow: /note/add/ordernumber/.*
Disallow: /.*./note/add/ordernumber/.*
Disallow: /.*./anfrage-formular?sInquiry=detail&sOrdernumber=.*
Disallow: /.*./inquiry-form?sInquiry=detail&sOrdernumber=

ich weiss nicht genau ob ich das so machen kann weiss anstelle der .* ist dann immer ein Artikelnummer auf einer Produktseite im Shop

wenn ich aber das so eintrage funtioniert es auch nicht Bing und Google und etc. ingnorieren das einfach und scanne ohne Ende

Code:

Disallow: /note/ajaxAdd/ordernumber/
Disallow: /note/delete/sDelete/
Disallow: /note/add/ordernumber/
Disallow: /.*./note/add/ordernumber=
Disallow: /inquiry-form?sInquiry=detail&sOrdernumber=

2024-10-24 07:37:15

Access

192.99.37.124

200

GET /inquiry-form?sInquiry=detail&sOrdernumber=A45568 HTTP/1.0

11.8 K

SSL/TLS-Zugriff für Apache

nexus · Oct 24, 2024

shopuser said:
ich weiss nicht genau ob ich das so machen kann weiss anstelle der .* ist dann immer ein Artikelnummer auf einer Produktseite im Shop

wenn ich aber das so eintrage funtioniert es auch nicht Bing und Google und etc. ingnorieren das einfach und scanne ohne Ende

Interpunktion?

MadMakz · Oct 24, 2024

Die robots.txt verhindert doch nur das auftauchen im Index in jenen die es respektieren, nicht das Crawlen?!?
Wenn es nicht gerade Bing oder Google sind ignorieren doch fast eh alle die robots. Zudem fehlt mir hier ein "User-agent: *" z.B.
Und Wildcard ist * nicht .*, es gibt kein regex ect.

.* matcht literal .irgendwas und nicht irgendwas

Was du also suchst ist: /inquiry-form?sInquiry=detail&sOrdernumber=*

GwenDragon · Oct 24, 2024

Bots müssen sich an gar nichts halten. Und manche ignorieren Robots-Regeln einfach.

Wenn das Scannen verhindern willst, blockiere den Bot per RewriteConition über User-Agent und notfalls IP-Bereichen.

shopuser · Oct 24, 2024

ok danke erstmal für info, ja aber bei den Bots handels es sich im Bing und Google wenn ich die per IP Blocke ist das nicht so günstig, bei MJBot oder anderen Schnüfflern hab ich das schon gemacht

GwenDragon · Oct 24, 2024

shopuser said:
bei den Bots handels es sich im Bing und Google wenn ich die per IP Blocke ist das nicht so günstig

Dann prüfst du eben noch per RewriteCond, ob die auf verbotene URL zugreifen, gibst denen dann einen HTTP-Header X-Robots-Tag: noindex zurück.

Thorsten · Oct 24, 2024

Den manuellen Aufwand zum sperren von IPs / Ranges willst du nicht treiben. Dann lieber etwas an die eigenen Bedürfnisse anpassen, was bereits existiert.

shopuser · Oct 24, 2024

GwenDragon said:
Dann prüfst du eben noch per RewriteCond, ob die auf verbotene URL zugreifen, gibst denen dann einen HTTP-Header X-Robots-Tag: noindex zurück.

Ok du denkst dei würden sich daran halten ? weil die URLs wie z.B.
/note/add/ordernumber/
/note/delete/sDelete/
haben schon einen noindex

shopuser · Oct 24, 2024

Thorsten said:
Den manuellen Aufwand zum sperren von IPs / Ranges willst du nicht treiben. Dann lieber etwas an die eigenen Bedürfnisse anpassen, was bereits existiert.

Das Jail im fail2ban habe ich ja, aber muss man auch ständig anpassen, weil sich ständig die Versionen der Bots ändern, oder es nicht möglich ist weil sich die die Bots als User ausgeben, oder auch die Bot Abfragen scheinbar über ein redirect via

Meta-Webcrawler

Auf dieser Seite werden die User-Agent-Strings (UA-Strings) aufgeführt, die die gängigsten Webcrawler von Meta identifizieren. Außerdem wird erläutert, wofür jeder dieser Crawler verwendet wird.

www.facebook.com

verschleiert werden.

MadMakz · Oct 24, 2024

shopuser said:
Ok du denkst dei würden sich daran halten ? weil die URLs wie z.B.
/note/add/ordernumber/
/note/delete/sDelete/
haben schon einen noindex

Dann schickst du sie halt in einen 403 od. 404

Die f2b Variante von Thorsten funktioniert nur global und nicht auf URI beschränkbar.

Thorsten · Oct 24, 2024

MadMakz said:
Die f2b Variante von Thorsten funktioniert nur global und nicht auf URI beschränkbar.

Den allergrößten Anteil bzw. alle derartigen Bots will man nicht haben. Auf keiner Site. Die sind einfach nur nutzlos und verschwenden Ressourcen.

MadMakz · Oct 24, 2024

Thorsten said:
Den allergrößten Anteil bzw. alle derartigen Bots will man nicht haben. Auf keiner Site. Die sind einfach nur nutzlos und verschwenden Ressourcen.

Ja, ich meine das ja bezogen auf "die Guten". Denke TE will seine anderen Seiten ja weiter in Google haben.

Thorsten · Oct 24, 2024

Was geht und was nicht, sofern sich ein Bot daran hält, ist ja relativ einfach in Erfahrung zu bringen:

Robots Exclusion Standard – Wikipedia

de.wikipedia.org

Da ist also ziemlich viel Murks im Initialbeitrag.

Bots ignorieren Robot.txt

shopuser

Member

nexus

Well-Known Member

MadMakz

Active Member

GwenDragon

Registered User

shopuser

Member

GwenDragon

Registered User

Thorsten

SSF Facilitymanagement

shopuser

Member

shopuser

Member

Meta-Webcrawler

MadMakz

Active Member

Thorsten

SSF Facilitymanagement

MadMakz

Active Member

Thorsten

SSF Facilitymanagement

Robots Exclusion Standard – Wikipedia

We value your privacy