Suchmaschinen PageRank

tomtitom

New Member
Hallo Leute,

Mich täte nun interessieren, ob der PageRank bei Suchmaschinen erst beim durchsuchen des Datenbestandes berechnet wird, oder ob dies schon beim webcrawlen passiert?!

Danke, mfg tom
 
Beim Indexieren an sich kann es noch nicht passieren, da zum PageRank ermitteln noch weitere Daten ausserhalb der eigenen HP benoetigt werden.
 
Das muss so ein fettes Cluster sein, damit die Suchanfragen so schnell bearbeitet werden können.

Denkst du das ein eigenes Skript immer im Hintergrund läuft und die Pageranks ermittels, und diese dann in der Datenbank ablegt?

Aber es muss doch eine Seite mehrere Pageranks haben, für die verschiedenen Suchbegriffe, das versteh ich irgendwie nicht so richtig:confused:

mfg tom
 
Vieleicht solltest du dich erstmal schlau machen, was der Pagerank überhaupt ist und wie er ermittelt wird, bevor du hier weiter wirre Vermutungen verkündest :D
 
Hey,

Hab noch eine Frage bezüglich Suchmaschinen.

In welch eine Art von Datenbank werden die gecrawlten Seiten gespeichert (mysql, sybase IO, oracle,...);

Danke, LG tom
 
Hi,

Ich möchte es nur mal für den Eigengebrauch testen.
Hab bei mir Zuhaus einen Server, mit dem ich ein bisschen rumspiel, tja und jetzt möchte ich sowas mal versuchen.

Die Programmierung ansich ist nicht das Problem, doch mich interessiert der Aufbau des Systems(Cluster, Datnebanken,...).

Danke, LG tom
 
Hab noch eine Frage bezüglich Suchmaschinen.
Stell doch bitte nicht so allgemeine Fragen!
Welche Suchmaschine interessiert dich konkret?

In welch eine Art von Datenbank werden die gecrawlten Seiten gespeichert
Falls Du die "cache"-Seiten meinst: Wahrscheinlich in einem Filesystem.
Falls Du die erkannten Stichwörter und die Verlinkung meinst: So kommt bei Google eine eigens dafür entwickelte Datenbank-Engine zum tragen.

Was die Hardware/Technik angeht so betreibt Google inzwischen mehrere Rechenzentren die sich regelmässig (angeblich nicht ständig) gegenseitig aktualisieren. Pro RZ steht natürlich ein entsprechender Cluster der z.T. mit RoundRobin-IP und LoadBalancer für die Suchanfragen angesteuert wird.

Google setzt angeblich durchweg Linux ein. Was ich mir aber anhand des Alters der Suchmaschine nicht wirklich vorstellen kann.

huschi.
 
Back
Top