Server mehrmals täglich nicht zu erreichen

Status
Not open for further replies.

Notarzt

Registered User
Hallo zusammen,

ich habe ein ziemlich nerviges Problem. Mein vServer (Debian) bei S4Y ist merhmals täglich nicht zu erreichen. Das ist so natürlich nicht akzeptabel.
Ich habe dieses Problem bereits seit einigen Monaten. Früher war es so, daß der Server ca. alle 3-4 Tage nicht zu erreichen war. Erst ein Reboot hat ihn wieder zum Laufen gebracht. Hier war das Problem, daß angeblich die Platte voll war, obwohl noch ca. 50% Platz da war. Ich habe dann einfach per Cron den Server jede Nacht rebooten lassen. Das hat ganz gut geholfen. Da das natürlich keine so tolle Lösung war, hat der S4Y-Support mir zu einer Neuinstallation geraten, da nur diese das Problem angeblich beheben sollte.

Neuinstallation durchgeführt. Ca. einen Monat ging es dann auch ganz gut. Hatte nur ca. 1 Hänger pro Woche. ( Da läuft mein Windows-Rechner deutlich stabiler ;-) )Jetzt schmiert die Kiste ca. 1-3 Mal am Tag ab.
An den Support möchte ich mich nicht wenden. Da wird nichts gescheites dabei raus kommen! :mad:

Wer kann mir helfen, das Problem zu finden?

Gruß
Notarzt
 
Was sagen den die Logdateien in

/var/log/syslog und /var/log/messages

um den Zeitpunkt des Crashes?
 
Heute um 16.16 Uhr lief der Server noch. Da habe ich über den Shop noch eine Bestellung bekommen. Um 20.25 habe ich ihn rebootet.

Das sagt die var/log/syslog über den Zeitraum:

Jul 26 16:11:01 vsxxxxxx /USR/SBIN/CRON[14624]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 16:18:02 vsxxxxxx /USR/SBIN/CRON[19296]: (root) CMD ( run-parts --report /etc/cron.hourly)
Jul 26 16:21:01 vsxxxxxx /USR/SBIN/CRON[25859]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 16:31:01 vsxxxxxx /USR/SBIN/CRON[23907]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 16:41:01 vsxxxxxx /USR/SBIN/CRON[30915]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 16:51:02 vsxxxxxx /USR/SBIN/CRON[14626]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 17:01:02 vsxxxxxx /USR/SBIN/CRON[20962]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 17:06:33 vsxxxxxx proftpd[27523]: connect from 68.60.77.140 (68.60.77.140)
Jul 26 17:06:34 vsxxxxxx proftpd[27523]: vsxxxxxx.vserver.de (pcp02357824pcs.pthurn01.mi.comcast.net[68.60.77.140]) - FTP session opened.
Jul 26 17:06:34 vsxxxxxx proftpd[27523]: vsxxxxxx.vserver.de (pcp02357824pcs.pthurn01.mi.comcast.net[68.60.77.140]) - no such user 'anonymous'
Jul 26 17:06:34 vsxxxxxx proftpd[27523]: vsxxxxxx.vserver.de (pcp02357824pcs.pthurn01.mi.comcast.net[68.60.77.140]) - FTP session closed.
Jul 26 17:11:01 vsxxxxxx /USR/SBIN/CRON[14501]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 17:18:02 vsxxxxxx /USR/SBIN/CRON[1250]: (root) CMD ( run-parts --report /etc/cron.hourly)
Jul 26 17:21:01 vsxxxxxx /USR/SBIN/CRON[30854]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 17:31:02 vsxxxxxx /USR/SBIN/CRON[31684]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 17:41:01 vsxxxxxx /USR/SBIN/CRON[12643]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 17:51:02 vsxxxxxx /USR/SBIN/CRON[29795]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 18:01:02 vsxxxxxx /USR/SBIN/CRON[4868]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 18:11:07 vsxxxxxx /USR/SBIN/CRON[2435]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 18:18:02 vsxxxxxx /USR/SBIN/CRON[2115]: (root) CMD ( run-parts --report /etc/cron.hourly)
Jul 26 18:21:01 vsxxxxxx /USR/SBIN/CRON[15747]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 18:31:01 vsxxxxxx /USR/SBIN/CRON[2531]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 18:41:01 vsxxxxxx /USR/SBIN/CRON[2787]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 18:51:01 vsxxxxxx /USR/SBIN/CRON[3683]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 19:01:02 vsxxxxxx /USR/SBIN/CRON[28162]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 19:11:01 vsxxxxxx /USR/SBIN/CRON[20482]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 19:18:01 vsxxxxxx /USR/SBIN/CRON[21058]: (root) CMD ( run-parts --report /etc/cron.hourly)
Jul 26 19:21:02 vsxxxxxx /USR/SBIN/CRON[12260]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 19:31:02 vsxxxxxx /USR/SBIN/CRON[13697]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 19:41:01 vsxxxxxx /USR/SBIN/CRON[11361]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 19:51:01 vsxxxxxx /USR/SBIN/CRON[7296]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 20:01:01 vsxxxxxx /USR/SBIN/CRON[16674]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 20:11:01 vsxxxxxx /USR/SBIN/CRON[2593]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 20:18:01 vsxxxxxx /USR/SBIN/CRON[28547]: (root) CMD ( run-parts --report /etc/cron.hourly)
Jul 26 20:21:01 vsxxxxxx /USR/SBIN/CRON[28004]: (root) CMD ( /usr/local/confixx/confixx_counterscript.pl)
Jul 26 20:24:44 vsxxxxxx shutdown[13600]: shutting down for system reboot
Jul 26 20:24:50 vsxxxxxx init: Switching to runlevel: 6
Jul 26 20:25:53 vsxxxxxx spamd[15524]: server killed by

Um 17.06 Uhr scheint Jemand probiert zu haben, sich per FTP einzuloggen.

Die /var/log/messages ist nicht sehr aussagekräftig:

Jul 26 15:56:26 vsxxxxxx -- MARK --
Jul 26 16:16:26 vsxxxxxx -- MARK --
Jul 26 16:36:26 vsxxxxxx -- MARK --
Jul 26 16:56:26 vsxxxxxx -- MARK --
Jul 26 17:16:26 vsxxxxxx -- MARK --
Jul 26 17:36:26 vsxxxxxx -- MARK --
Jul 26 17:56:26 vsxxxxxx -- MARK --
Jul 26 18:16:26 vsxxxxxx -- MARK --
Jul 26 18:36:27 vsxxxxxx -- MARK --
Jul 26 18:56:27 vsxxxxxx -- MARK --
Jul 26 19:16:27 vsxxxxxx -- MARK --
Jul 26 19:36:27 vsxxxxxx -- MARK --
Jul 26 19:56:27 vsxxxxxx -- MARK --
Jul 26 20:16:27 vsxxxxxx -- MARK --
Jul 26 20:24:44 vsxxxxxx shutdown[13600]: shutting down for system reboot

Was bedeutet denn das -- MARK-- ???

Gruß
Notarzt
 
Also ich kann nichts unnormales feststellen. Auch der FTP User ist normal. Das sind Leute die IP Ranges checken und kucken ob man mit anonymen Usern reinkommt.

Das Mark kommt vom Syslogdämon. Der sagt einfach nur "Hallo, ich bin noch da"
 
Dieser Eintrag hier:
Jul 26 20:24:44 vsxxxxxx shutdown[13600]: shutting down for system reboot
Wurde der Reboot im Admin Menü in Auftrag gegeben oder passierte er "von alleine"
 
Da habe ich den Reboot in Auftrag gegeben. Er lief dann auch kurz. Um 23.17 habe ich gemerkt, daß er wieder hängt und habe ihn erneut rebootet. Heute Nacht ist er dann bis eben durchgelaufen.

Es kann sein, daß nur der Apache hängt. Denn ich konnte gestern Abend zwischen 20.25 Uhr und 23.17 Uhr über die Konsole arbeiten, während der Apache keine Seiten mehr geliefert hat.

Bringt uns das vielleicht weiter?

Gruß
Notarzt
 
Naja, du müsstest das "hängen" genauer beschreiben:
Was funktioniert, was nicht.

Wenn "nur" der Apache Dienst hängt, dann hängt noch nicht dein ganzer Server und dann ist kein Reboot nötig.
Gibt es auch Phasen wo "alles" hängt?

Welche Programme laufen alles auf deinem Vserver, vielleicht ist der auch nur überlastet. Schon mal irgendwie die Meldung "can not allocate Memory" in diesem Zusammenhang gesehen?
 
Es scheint so, als würde nur der Apache nicht mehr funktionieren.
Das äußert sich dadurch, daß meine Domains nicht erreichbar sind. Wenn ich das tagsüber feststelle, während ich an der Arbeit bin, kann ich den Apache leider nur durch einen Reboot wieder in Gang bringen, da ich über das Firmennetzwerk leider nicht anders an den Server komme.
Von Zuhause kann ich mich auch mittels Putty einloggen und könnte den Apache alleine neu starten. Habe ich aber bisher noch nicht probiert, ob das klappt.

Ob noch etwas anderes nicht mehr funktioniert, konnte ich noch nicht beobachten.

Welche Programme laufen alles auf deinem Vserver?

Ich habe die Standard-Debian-Installation. Keine zusätzliche Software installiert. Darauf laufen ein paar in PHP programmierte Shops mit MySQL-Datenbanken. Also nichts besonderes.

Vielleicht ist der auch nur überlastet. Schon mal irgendwie die Meldung "can not allocate Memory" in diesem Zusammenhang gesehen?
Eine solche Meldung habe ich bisher nicht gesehen. Wo muß ich denn nachschauen?
 
Installier mal "Webmin" auf deinem Server. Das ist eine Weboberfläsche für Systemoperationen. Damit kannst du den Apache per Browser von der Firma aus restarten.
 
Ich habe doch Confixx drauf. Damit führe ich die Reboots aus. Ist für mich die einzige Möglichkeit, den Server aus der Firma neu zu starten.
 
So, jetzt hängt er wieder. Ich kann keine meiner Domains abrufen.

Mit putty komme ich noch rein. Ist also nicht alles platt.
Habe den apache2 neu gestart. Kein Erfolg.
Habe inetd neu gestartet. kein Erfolg.

Mache jetzt einen reboot....

...Und läuft wieder.

Ich bräuchte mal ein paar Tipps, an welchen Stellen (möglichst genau. Bin nicht so fit mit Linux und Servern) ich beim nächsten Crash nachschauen muß.

Schon mal vielen Dank im Voraus!!!

Gruß
Notarzt
 
Moin

was sagt eigentlich die Apache Log bzw die Log von Apache ??
Falls es wirklich an apache liegt wirste auch was finden in den logs von apache ....
 
Hast du zufällig eine Firewall auf deinem Server laufen?
Wenn die Domains "ausfallen" kannst du sie dann noch pingen?
 
Eine Firewall habe ich nicht installiert. Es läuft nur der Kram, den S4Y bei einem Debian-vServer installiert.

Ping habe ich noch nicht probiert.
Kommt auf die Check-Liste für den nächsten Crash.

Habe gestern Abend mal, als er wieder hing, user_beancounters angeschaut:

Bei numtcpsock stand unter failcnt 4217. Alle anderen failcnt-Werte waren auf 0. Was heißt das?

@djrick:
Vielleicht ist der auch nur überlastet. Schon mal irgendwie die Meldung "can not allocate Memory" in diesem Zusammenhang gesehen?
Wo finde ich ggf. eine solche Meldung?

Gruß
Notarzt
 
Notarzt said:
Wo finde ich ggf. eine solche Meldung?
cat /proc/user_beancounters
=> Der wenn der Wert für failcnt bei "kmemsize" hochgeht..dann ist das ein Indiez dafür.

Der mit dem Ping wär mal eine gute Möglichkeit um dem Problem näher zu kommen, ich weiss nämlich noch nicht genau wo man bei dir ansetzen muss.
 
In den Apache access-Logfiles habe ich ein paar Einträge dieser Art gefunden:
211.107.244.219 - - [27/Jul/2005:04:10:14 +0200] "SEARCH /\x90\x04H\x04H\x04H\x04H\x04H\x04H\x04H\x04H\x04H\x04H\x04H\x...\x90\x90\x90\x90" 414 250 "-" "-"

Dazu steht in den Error-Logs:
[Wed Jul 27 04:10:14 2005] [error] [client 211.107.244.219] request failed: URI too long (longer than 8190)

Schießt mir vielleicht jemand den Server durch diese Anfrage ab?
 
Last edited by a moderator:
Status
Not open for further replies.
Back
Top