Suchindex für alle Dateien auf dem Server erstellen

masterofnothing

New Member
Guten Morgen,

Ich suche nach einer Möglichkeit alle Dateien und Ordner unter /var/kunden/webs/ schnell zu durchsuchen.

Es sind viele Dateien, grep kommt einfach nicht durch.

Möglich wäre es doch eine Art Suchmaschine einzurichten, die per Cron z.B. immer um 3oo Uhr morgens gestartet wird, und die Kundenverzeichnisse crawlt. Diese erstellt einen Suchindex, der dann in Sekundenschnelle durchsucht werden kann.

Diese Suchmaschine sollte per Webinterface ansprechbar sein, also nicht nur via ssh root.

Zweck des ganzen ist es, Kundenwebs auf einem Freehoster auf Rechtsverstösse zu kontrollieren, indem z.B. nach Begriffen wie MP3 oder Warez gesucht wird.

Kennt Ihr dafür eine fertige Lösung? Oder ist Handarbeit gefragt?
Eingesetzt wird Debian Etch und SysCP.

Beste Grüsse
Stefan
 
Spontan kommt mir da Lucene ? Wikipedia in den Sinn. Die darauf basierenden Projekte sind aber hauptsächlich für die Verwendung mit einer grafischen Oberfläche gedacht.

Im PHP Journal war ein Artikel, wie man Lucene über PHP anspricht. Ist gar nicht mal so kompliziert. Eine einfache Suche mittels Script sollte also gut umsetzbar sein.
 
Schau dich am besten mal bei sourceforge.net nach Indexing Tools um, darüber habe ich regain - Home gefunden.

Wenn ich so über die Einleitungsseite lese, passt das ziemlich genau zu deinen Anforderungen.

MfG
 
Das Problem an beiden Lösungen ist, das man damit nicht den gesamten Server durchsuchen kann.

Ich möchte von aussen via Browser darauf zugreifen lassen, und trotzdem nicht nur ein einziges Web sondern alle Kundenordner durchsuchen.
 
Ein grep oder ähnliches um auf Texte in den Dateien zu prüfen, führt eh nur mäßig zum Erfolg.
Lass da lieber regelmäßig ein rekursives "ls" oder "find" drüber jagen und such nach rar, zip, exe, torrent, usw Files.
 
Wo liegt das Problem bei regain? Soweit ich die Hilfe deute, kann man da ziemlich genau festlegen, was man untersuchen will.

--marneus
 
Naja gut, aber Datenbanken werden z.B. nicht durchsucht oder?
D.h. wenn jemand seinen Content in die DB schreibt und mit PHP wieder ausgiebt(z.B. bei einem Blog oder Forum) dann wird Regain ja nicht fündig wenn nur der Quelltext durchsucht wird.
 
Es gibt IMHO keine allumfassende Lösung. Natürlich wird regain keine Daten Daten aus einer x-beliebigen DB herauslesen. Das wäre ja auch noch schöner. Du könntest aber z.B. die gesamte DB in einem regelmäßigen Abstand komplett dumpen und dann die resultierende Datei von regain durchsuchen lassen.

--marneus
 
Back
Top