Server bleibt hängen

yoyo

Registered User
Hallo,

ich habe mir vor 2-3 Tagen einen zusätzlichen Server bei Leaseweb besorgt. So weit so gut, dass die Herren kein Rescuesystem etc. haben sollte bekannt sein. Also ist vorsicht angesagt! :)

Nun lief die Kiste 2 Tage ohne Probleme zu meiner vollen zufriedenheit. Heute morgen, um ca. 6:00 verabschiedete sich das Ding dann aber. Habe es dann (Langschläfer! :D) gegen 12 bemerkt und habe ihn neugestartet. 10 Minuten (fsck vermutlich...) später war er dann wieder da. Natürlich ab in /var/log und alles durchforstet. Zu meiner Enttäuschung musste ich aber feststellen, dass der komplette Server einfach hängen geblieben ist. Keine Messages in den Logs etc. einfach zack, weg. :(

Dann habe ich erstmal smartctl ausgepackt und musste Feststellen, dass die blöde Hitachi-Platte kein S.M.A.R.T. kann. Gut. "badblocks" laufen lassen, was mir immerhin gesagt hat, dass es keine fehlerhaften Blöcke gefunden hat.

Habe ihn dann einfach mal weiter laufen lassen... ("Wird schon nicht so schlimm gewesen sein ;)")... Tja. Jetzt, eben, gegen 18:00 ist das gleiche wieder passiert. Zack, Bumm. Die Kiste ist weg. Wieder nichts in den Logs etc. kein auffällig hoher Load.

Interessant find ich die zeitliche parallele zwischen den beiden Abstürzen. Habe mal in die Crons geguckt und konnte aber nichts finden, was zu dieser Zeit aufgerufen wird, bzw. was an einem Hänger schuld sein könnte.

Da ich bei Leaseweb kein Rescuesystem habe, kann ich auch kein memtest durchführen. Oder geht das mit irgendwelchen kniffen auch im Betrieb?
Die Leute von Leaseweb habe ich bereits angeschrieben, ob sie meine Kiste nach Hardwarefehlern durchsuchen könnten. Sie meinten, dass das kostenlos wäre, wenn sie welche finden. Wenn nicht, darf ich blechen. (Holländer halt! :mad: ;))

Habt ihr noch ne Idee, was ich überprüfen könnte etc?

Gruß,
Johannes
 
Hallo.

Wenn ich das richtig sehe, dann willst Du Software-Fehler ausschliessen bevor Du einen Hardware-Check evtl. bezahlst?
Naja die Jungs muessen ja auch nicht unbedingt etwas finden, selbst wenn es Probleme gibt (die koennen ja auch sporadisch auftreten, solange Du das Problem nicht gezielt reproduzieren kannst ist das "schlecht").

Gibt's denn wenigstens eine gratis;> Neuinstallation und sind da keine unersetzlichen Daten drauf?

Mir faellt da schon grundsaetzlich die eine oder andere Vorgehensweise ein:

Du kannst ja, wenn es der Einsatz des Systems erlaubt (weiss ja nicht was da Sache ist), mal schaun dass Du alles abschaltest ausser einem idlen Linux und schaun, ob binnen 24h wieder etwas passiert, wenn ja, dann die Fakten an den Provider geben, wenn nein eben nicht und weiter suchen.
So lassen sich zumindest Fehlfunktionen in den sonstigen Diensten ausschliessen wenngleich ein Minimum wirst Du laufen lassen muessen zumal Du nicht lokal rankommst.

Naja und als Dampfhammer Methode bzgl. Memtest fiele mir ein, eine Wartungspartition mit einem geeigneten Image zu begluecken, ich denke das ist den Aufwand dann aber nicht wert (zumal ich da adhoc kein geeignetes fertiges Image wuesste)?

Wenn die Platte ein Problem hat wird das schwer remote ausfindig zu machen sein, meist treten solche Probleme ja gerade dann auf, wenn auf die Platte zugegriffen wird, es muessen also noch andere Dienste laufen, die sowas taeten und dann laesst sich halt nicht ausschliessen, dass diese Dienste ein Software Problem haben;> .
Gleichzeitig bekommst Du remote und im Nachhinein keine brauchbaren Aufzeichnungen weil ja evtl. die Platte haengt -> Ende von Logaufzeichnung.

Ergo einen Hardwarefehler im Langzeittest (weil koennte sporadisch auftreten) eindeutig zu finden wird schwer und einen Softwarefehler ausschliessen funktioniert nicht, weil Du ja immer was laufen haben musst wenn Du nicht lokal rankommst (runlevel 1-2).

Mit einem eigenen Rettungssystem z.B. von einer kleinen Wartungspartition (vielleicht hat da jemand nen Tip fuer etwas fertiges geeignetes? Sonst halt z.B. das hier anpassen Damn Small Linux (DSL), 50 Megabytes Penguinenergie ... spaetestens jetzt ueberlegt man sich, doch die remote-hands zu bezahlen.) aus koenntest Du allerdings mal die gesamte restliche Platte auffuellen (z.B. aus /dev/zero), entweder innerhalb des fs oder roh und schaun, ob es da reproduzierbare Probleme gibt.
Bei Problemen an der Platte hat mir das bisher immer reproduzierbare Fehler geliefert (hier neben mir auf den alten Kisten im LAN).

Aber das ist Theorie, gesicherte Erkenntnis hast Du nunmal nur, wenn Du lokal ran kommst.

Was soll's denn kosten, wenn die da mal nachsehen?
Im Zweifel kann man halt nur hoffen, dass die das sehr sorgfaeltig checken koennen.

Ciao,
Mercy.
 
Our rates are Euro 24,75/15
minutes during business hours [Monday to Friday 8:30 till 17:30 CET] and
Euro 37,25/15 minutes [minimum charge 1 hour] outside office hours.


:-/

Nunja, sie weigern sich einen Hardwaretest durchzuführen, ohne dass ich mich bereit erklärge, etwaige Kosten für einen Softwarefehler zu tragen.
Da die Kiste aber heute morgen um 6 Uhr (wie ich das eigentlich erwartet hätte ;-)) nicht abgeschmiert ist, werde ich das erstmal weiter beobachten.
Das Ding mal 24h rausnehmen ist leider nicht drin, weil der Server schon produktiv läuft...
Vllt wars ja doch nur der vnstat-CronJob? :D

Mal weitergucken,...
 
Mit...

...welchen Parametern fährst du den Kernel? Was für eine CPU ist dadrin?

Ich habe seit kurzem den Ultarpower X2 mit Opteron Dual-Core von S4Y und der hatte kurzfristig eben diese Macke. Ohne Hinweise einfach offline. Seitdem ich nun ein paar Kernel-Parameter gesetzt habe, ist alles ok.

Parameter (AMD): noapic acpi=off
Parameter (Intel): noapic acpi=ht

Zusätlich habe ich "irqpoll", um eine Ungereimtheit auszugleichen und noch zwei weitere, die mit einem Fehler bzgl. "Lost Ticks bei unregelmäßig laufender HWClock" zu tun haben... aber die obigen Paramater bringen dich hoffentlich etwas weiter...

Gruß, Vevelt.
 
4 * 37,25 = 149€. Mein lieber Herr Gesangsverein...

Ja?

MOD: Full-Quote entfernt!
Es ist ein Athlon 64 drin. Ich habe im dmesg oder so mal seltsame Dinge zu ACPI und irq gelesen, das muss ich mir nochmal angucken. Ich fahre den standard-Debian-Kernel der dabei war, weil ich ohne Rescuesystem zu viel schiß habe, mir selbst einen zu bauen :cool:

Heute früh um 4 ist er wieder abgekackt. Immerhin hat er mehr als 24 Stunden gehalten -.-
 
Last edited by a moderator:
MOD: Full-Quote entfernt!

Der Standard-Kernel sollte auch ok sein, ich würde an deiner Stelle dann auch mal folgende Kernelparamter ausprobieren:
notsc no_timer_check irqpoll acpi=off noapic

Wie schon beschrieben, scheinen die letzten beiden Parameter die wichtigen zu sein, die vorderen habe ich setzen müssen, da bei meinem System (AMD Opteron 1214 Dual Core) ein paar Ungereimtheiten in den Logfiles aufgetaucht sind.

Wenn du GRUB als Bootloader einsetzt, dann kannst du die Parameter in /boot/grub/menu.lst setzen... :-)

Seit dieser Maßnahme läuft mein Server vollkommen stabil.
 
Last edited by a moderator:
Ja, habe ja acpi = off udn noapci gesetzt. Er rennt seitdem udn hatte keine seltsamen Meldungen mehr beim booten. Ich hoffe nur, dass das einfach nur das Problem war... :)
Wie war das denn bei euch ? Auch, dass die Kiste einfach einfriert? Oder hattet ihr noch was in den Logs?

gruß
 
MOD: Full-Quote entfernt!
Nö, es war auch nichts in den Logfiles zu finden... einfach offline die Kiste... :confused:
 
Last edited by a moderator:
Bis heute morgen um 4 uhr ohne Probleme. Und dann ist er wieder einfach hängen geblieben... -.

Ich versuch es jetzt mal mit: notsc no_timer_check irqpoll acpi=off noapic
 
MOD: Full-Quote entfernt!

Hm... bzgl. dieser Parameter sollten sich entsprechende Fehler im Messagelog finden lassen. :confused:
Was für ein Linux läuft denn auf dem Server? Hast du mal über ein Update/Upgrade nachgedacht?
 
Last edited by a moderator:
<MOD>
Bitte mal alle hier auf die Quotes/Zitate achten.
Hier muß man ja alles doppelt lesen... :(
</MOD>

huschi.
 
Welche Fehler sollten das denn sein?
Auf jeden Fall läuft die Kiste wieder, hoffe, dass sie jetzt einfach nciht mehr abschmiert...
Es läuft Debian Etch 64 Bit, also neuer gehts nicht :P
 
Und er ist schon wieder einfach hängen geblieben,... hmpf!

Hat jemand noch ne Idee? :rolleyes:
 
Back
Top