DuckDuckBot – schon mal in Logs gesehen?

GwenDragon

Registered User
Angeblich soll der DuckDuckGo Robot exitieren, um Ergebnisse zu crawlen, ich sehe aber immer nur den UA "Mozilla/5.0 (compatible; DuckDuckGo-Favicons-Bot/1.0; +http://duckduckgo.com)" im access logs, der nach Favicons sucht.
 
Korrekt, dass ist hier auch so:
Code:
40.88.21.235 - - [25/Sep/2022:12:03:13 +0200] "GET / HTTP/1.1" 200 34644 "https://serversupportforum.de/" "Mozilla/5.0 (compatible; DuckDuckGo-Favicons-Bot/1.0; +http://duckduckgo.com)"
40.88.21.235 - - [25/Sep/2022:12:03:14 +0200] "GET /favicon.ico HTTP/1.1" 200 4653 "https://serversupportforum.de/favicon.ico" "Mozilla/5.0 (compatible; DuckDuckGo-Favicons-Bot/1.0; +http://duckduckgo.com)"
20.191.45.212 - - [25/Sep/2022:22:34:41 +0200] "GET / HTTP/1.1" 200 34436 "https://serversupportforum.de/" "Mozilla/5.0 (compatible; DuckDuckGo-Favicons-Bot/1.0; +http://duckduckgo.com)"
20.191.45.212 - - [25/Sep/2022:22:34:41 +0200] "GET /favicon.ico HTTP/1.1" 200 4653 "https://serversupportforum.de/favicon.ico" "Mozilla/5.0 (compatible; DuckDuckGo-Favicons-Bot/1.0; +http://duckduckgo.com)"
20.191.45.212 - - [25/Sep/2022:23:28:02 +0200] "GET / HTTP/1.1" 200 34452 "https://serversupportforum.de/" "Mozilla/5.0 (compatible; DuckDuckGo-Favicons-Bot/1.0; +http://duckduckgo.com)"
20.191.45.212 - - [25/Sep/2022:23:28:02 +0200] "GET /favicon.ico HTTP/1.1" 200 4653 "https://serversupportforum.de/favicon.ico" "Mozilla/5.0 (compatible; DuckDuckGo-Favicons-Bot/1.0; +http://duckduckgo.com)"
Wobei ich grundsätzlich diesen (und eigentlich alle unrelevanten) Bot(s) ausgeschlossen habe. Des Weiteren sind mir aber Netze aus den 20.'er Blöcken auch mehrfach unangenehm aufgefallen (Schwachstellen Scan's, übliches Script Scannen). Aus diesem Grund können viele Bereiche dieser sog. Microsoft Netze eh nicht zugreifen.
Code:
...
DROP       udp  --  20.224.163.240       0.0.0.0/0
DROP       udp  --  20.244.36.154        0.0.0.0/0
DROP       udp  --  20.254.136.159       0.0.0.0/0
DROP       tcp  --  20.224.163.240       0.0.0.0/0
DROP       tcp  --  20.244.36.154        0.0.0.0/0
DROP       tcp  --  20.254.136.159       0.0.0.0/0
...
Das ist aber ein anderes Thema.
 
Last edited:
Der DuckDuckGo Webcrawler ist in der Relevanz vernachlässigbar und imho eher für hoch-relevante Webseiten im Einsatz (bspw. Nachrichtenportale mit hoher Rate an Suchbegriffen), und hauptsächlich eher... beta. DuckDuckGo kauft so wie jeder andere auch seine organischen Suchergebnisse von Microsoft und Google, historisch hauptsächlich Microsoft. Vorher war Yahoo noch im Spiel aber deren Datenquelle ist mittlerweile auch Bing.

Will heissen: es kann dir eigentlich egal sein op du einen Crawler von denen findest, relevanter ist ob der Bing Crawler vorbei kommt :cool:

Beschreibung der DDG Datenquellen: https://www.accc.gov.au/system/files/DuckDuckGo.pdf
 
@d4f Die großen SuMas Yandex, Bing, Yahoo, Google kommen brav in Accesslogs vor.
Danke für das PDF, interessant.

Ich dachte DuckDuckGo wäre auch ein wichtiger Player. Was die Aktualität von Ergebnissen anbelangt, ist das eher minderwertig.
Ist auch egal, ich fragte nur aus Interesse warum DDG in den Logs diverser betreute Server fehlte.
 
DuckDuckGo hat regional eine nicht vernachlässigbare Marktdurchdringung (USA ca 2.5%), das bedeutet aber nicht notwendigerweise dass sie nicht externe Dienstleister verwenden um die Ergebnisse zu generieren. Die Kosten für eine eigene Suchmachine sind schlicht gigantisch.
 
Back
Top