Suchindex für alle Dateien auf dem Server erstellen

masterofnothing · Aug 13, 2008

Guten Morgen,

Ich suche nach einer Möglichkeit alle Dateien und Ordner unter /var/kunden/webs/ schnell zu durchsuchen.

Es sind viele Dateien, grep kommt einfach nicht durch.

Möglich wäre es doch eine Art Suchmaschine einzurichten, die per Cron z.B. immer um 3oo Uhr morgens gestartet wird, und die Kundenverzeichnisse crawlt. Diese erstellt einen Suchindex, der dann in Sekundenschnelle durchsucht werden kann.

Diese Suchmaschine sollte per Webinterface ansprechbar sein, also nicht nur via ssh root.

Zweck des ganzen ist es, Kundenwebs auf einem Freehoster auf Rechtsverstösse zu kontrollieren, indem z.B. nach Begriffen wie MP3 oder Warez gesucht wird.

Kennt Ihr dafür eine fertige Lösung? Oder ist Handarbeit gefragt?
Eingesetzt wird Debian Etch und SysCP.

Beste Grüsse
Stefan

mkr · Aug 13, 2008

Spontan kommt mir da Lucene ? Wikipedia in den Sinn. Die darauf basierenden Projekte sind aber hauptsächlich für die Verwendung mit einer grafischen Oberfläche gedacht.

Im PHP Journal war ein Artikel, wie man Lucene über PHP anspricht. Ist gar nicht mal so kompliziert. Eine einfache Suche mittels Script sollte also gut umsetzbar sein.

kannnix · Aug 13, 2008

Schau dich am besten mal bei sourceforge.net nach Indexing Tools um, darüber habe ich regain - Home gefunden.

Wenn ich so über die Einleitungsseite lese, passt das ziemlich genau zu deinen Anforderungen.

MfG

masterofnothing · Aug 17, 2008

Das Problem an beiden Lösungen ist, das man damit nicht den gesamten Server durchsuchen kann.

Ich möchte von aussen via Browser darauf zugreifen lassen, und trotzdem nicht nur ein einziges Web sondern alle Kundenordner durchsuchen.

Firewire2002 · Aug 17, 2008

Ein grep oder ähnliches um auf Texte in den Dateien zu prüfen, führt eh nur mäßig zum Erfolg.
Lass da lieber regelmäßig ein rekursives "ls" oder "find" drüber jagen und such nach rar, zip, exe, torrent, usw Files.

marneus · Aug 18, 2008

Wo liegt das Problem bei regain? Soweit ich die Hilfe deute, kann man da ziemlich genau festlegen, was man untersuchen will.

--marneus

masterofnothing · Aug 22, 2008

Naja gut, aber Datenbanken werden z.B. nicht durchsucht oder?
D.h. wenn jemand seinen Content in die DB schreibt und mit PHP wieder ausgiebt(z.B. bei einem Blog oder Forum) dann wird Regain ja nicht fündig wenn nur der Quelltext durchsucht wird.

marneus · Aug 24, 2008

Es gibt IMHO keine allumfassende Lösung. Natürlich wird regain keine Daten Daten aus einer x-beliebigen DB herauslesen. Das wäre ja auch noch schöner. Du könntest aber z.B. die gesamte DB in einem regelmäßigen Abstand komplett dumpen und dann die resultierende Datei von regain durchsuchen lassen.

--marneus

Suchindex für alle Dateien auf dem Server erstellen

masterofnothing

New Member

mkr

Registered User

kannnix

Registered User

masterofnothing

New Member

Firewire2002

Registered User

marneus

Registered User

masterofnothing

New Member

marneus

Registered User

We value your privacy