Domains bei Suchmaschinen ausschliessen

michael-08

New Member
Hallo, ich hab schon für das Problem gegooled! Als Antwort kommt bisher nur die robots.txt vor!

Wie kann ich eine Domain komplett bei Suchmaschinen "ausschliessen"? Habe bisher nur Alternativen gefunden einzelne Bereiche auszuklammern

Hier ein Link den ich verwendet habe

Hat jemand einen Ansatz?

edit:

Das gute ist, ich habe für diese Domain keine Webpage, sodass ich auch nirgends eine robots.txt unterbringe!?!!? Lediglich ein Adminpanel ist mit dieser Domain erreichbar! Werden die Suchmaschinen das trotzdem finden?
 
Last edited by a moderator:
Die Antwort bleibt robots.txt. Alle seriösen Suchmaschinen halten sich an den Inhalt dieser Datei.

Alternative wäre, den A Resource Record der Domain auf eine IP-Adresse zu setzen, an die kein Webserver gebunden ist, oder die Crawler mittels Paketfilter auszusperren. Letzteres ist allerdings sehr viel Arbeit und verhältnismäßig wirkungslos, da sich die IP-Ranges auch gerne mal über Nacht ändern.
 
Wie definiere ich in der robots.txt, dass die ganze Domain ausgeschlossen wird?

In der robots.txt definieren, dass verschiedene Inhalte nicht gefunden werden genügt in dem Falle nicht! Es soll die ganze Domain sowie Subdomains ausgeschlossen werden!

Mal angenommen Domain.tld hat noch die Subdomain panel.domain.tld! Wie erreiche ich, das panel.domain.tld ausgeschlossen wird? Hab dazu noch nichts gefunden!
 
Code:
User-agent: *
Disallow: /
Disallow: /

Die legst du in das Zielverzeichnis der Subdomain, der Domain etc. Die robots.txt ist so gesehen nicht domainspezifisch.

Allerdings: Wenn nirgends auf die Subdomain verlinkt wurde, ist die "Gefahr" gecrawlt zu werden ohnehin sehr gering.
 
Lediglich ein Adminpanel ist mit dieser Domain erreichbar! Werden die Suchmaschinen das trotzdem finden?

Wenn das Admin-Panel browser-basiert arbeitet, kann man auch eine robots.txt setzen. Was da drin stehen sollte, hat man Dir ja schon gesagt.

Alternativen wären:
  • abhängig vom User-Agent (*-bot) einen 404er zu senden
  • Authentifizierung auf HTTP-Ebene (also 401er)
  • Port verlegen
  • SSL Client Authentifizierung verlangen
  • und natürlich das Wichtigste: nirgendwo dorthin verlinken.
 
Geht es dir darum den Zugang zu verhindern? Dann kann auch eine .htaccess mit Passwortauthentifizierung helfen wenn du sie unterbringen kannst.
 
Die Antwort bleibt robots.txt.
Kann ich so nicht unterstreichen... ;)

Es gibt noch die Möglichkeit mit mod_rewrite:
Per RewriteCond den UserAgent auf irgendwelche BOTs abfragen (gut, die Liste könnte etwas länger werden...) und dann mit RewriteRule auf eine andere Domain umleiten. Am Besten noch mit einem 301.


PS:
natürlich das Wichtigste: nirgendwo dorthin verlinken.
Das gilt heute auch nicht mehr. Wer z.B. mit Chrome oder einer Google-Toolbar surft, meldet jede besuchte Domain an Google.

huschi.
 
Last edited by a moderator:
Wer z.B. mit Chrome oder einer Google-Toolbar surft, meldet jede besuchte Domain an Google.
Dieses Verhalten kann man aber in den Browsern (nicht nur Chrome) abschalten. Man muss nur daran denken...

Aber wie schon gesagt wurde, eine htaccess ins root Verzeichnis und gut ist.
 
Es gibt noch die Möglichkeit mit mod_rewrite:
Per RewriteCond den UserAgent auf irgendwelche BOTs abfragen
Die Crawler, die eine sinnvolle UserAgent-Kennung schicken, beachten i.d.R. auch den Inhalt der robots.txt. Außerdem wird die Liste, wie du ja schon geschrieben hast, sehr lang und verlangsamt den Zugriff auf den Server, da dann bei jedem Client erst die UserAgent-Kennung gegen die Liste geprüft werden muss.
 
Back
Top