S4Y-Root 2x ausgefallen - HW-Defekt?

  • Thread starter Thread starter WDZaphod
  • Start date Start date
W

WDZaphod

Guest
Hallo Forum,

letzten Freitag war mein S4Y-Rootserver nach 180 Tagen uptime morgens nicht mehr erreichbar. Softreboot angefordert, nichts. Erst ein Hardreboot hat Ihn dann wieder online gebracht. Im Syslog war bis 4:00 morgens nichts auffälliges zu sehen (letzter Eintrag war der SysCP-Cronjob), danach nur die Startup-Meldungen. Auch der Rootkit-Checker hat nichts gemeldet.
Heute morgen das gleiche wieder - könnte es ein HW-Defekt sein? Wie wird sowas bei S4Y behandelt? Die Platten laufen als RAID1, und das meldet keine Fehler. Was tun? Irgendwelche Ideen?

Grüße!
 
Also ich würde einmal die Logfiles durchstöbern und Platten/Ram usw. eben was du mit Tools checken kannst überprüfen. Vielleicht findest du ja was.
 
Also ich würde einmal die Logfiles durchstöbern und Platten/Ram usw. eben was du mit Tools checken kannst überprüfen. Vielleicht findest du ja was.

Ich werde mir heut Abend nochmal das Apache-Log zu Gemüte ziehen, das Syslog ist wie gesagt sauber. Welche System-Prüftools gibt es denn für Debian?

Grüß & Danke!
 
memtest werde ich mal ausprobieren! Filesystem ist ok, hab ich schon gecheckt...

Das ist wieder ein Wahnsinns Support:
=================================
Hallo Support,
hier eine Beschreibung des Fehlers:
Der Server war vor einigen Tagen (Freitag?) morgens nicht erreichbar. Ein Softreboot brachte keine Änderung, erst ein Hardreboot. Weder war im Syslog etwas auffälliges zu finden (letzter Eintrag um 4:00 morgens, danach erst wieder um 12:00 die Startup-Meldungen), noch zeigte der Rootkit-Scanner irgendetwas an. Heute morgen wieder ein Ausfall.
Erste Vermutung: Hardwaredefekt?
Sollten die Daten auf der Festplatte irgendwie in Gefahr sein, bitte ich vorher um Mitteilung, da ich dann (per Rettungskonsole?) gerne noch eine aktuelle Sicherung ziehen würde.

mit freundlichen Grüßen,
=================================
Sehr geehrter Kunde,

nach einem Reboot läuft Ihr Server wieder.
Starting nmap 3.81 ( Nmap - Free Security Scanner For Network Exploration & Security Audits. ) at 2006-11-07 08:37 CET
Interesting ports on echo790.server4you.de (85.25.140.35):
(The 1653 ports scanned but not shown below are in state: closed)
PORT STATE SERVICE
21/tcp open ftp
22/tcp open ssh
25/tcp open smtp
53/tcp open domain
80/tcp open http
110/tcp open pop3
143/tcp open imap
993/tcp open imaps
995/tcp open pop3s
3306/tcp open mysql

Nmap finished: 1 IP address (1 host up) scanned in 0.461 seconds


Mit freundlichen Grüßen
=============================================
Hallo Frau xxx,

die interessante Frage ist: Warum war der Server offline?
180 Tage online ohne Fehler, jetzt 2 Ausfälle ohne Logeintrag innerhalb von 4 Tagen.
Sollte man das TIcket offen halten, zwecks Dokumentation falls es zu einem weiteren Ausfall kommt? Wie ließe sich ein Hardwaredefekt feststellen?

mit freundlichen Grüßen,
==============================================
Sehr geehrter Kunde,

bitte schauen Sie dafür in Ihre Logdateien ob Sie irgendwelchen interessanten Einträge finden. Ansonsten können Sie auch das Ticket schliessen.

Mit freundlichen Grüßen
==============================================

ARGH! Ich hab da schon nachgesehen, was ich auch geschrieben habe...
Ich lasse das Ticket am besten mal offen, falls in den nächsten 2 Wochen nochwas kommt.
Immerhin hab ich ja noch meine 2x15min Techniker-Einsatz mit im Platinum-Support dabei :D
 
GRMBL...
Als hätte ich es nicht gesagt. Warum erkenne ich als ComputerDAU ( :D ) sowas, ein Hoster aber nicht?

==============================================
Hallo Herr xxx,
meine Vermutung hat sich anscheinend bestätigt - Hardwaredefekt....
Als ich heute gg. 20:30 eine Datensicherung wegkopieren wollte, stürzte der Server erneut ab. Durch einen Reboot ließ er sich wiederbeleben.
Eben kam folgende Email:

This is an automatically generated mail message from mdadm
running on echo790.server4you.de

A Fail event had been detected on md device /dev/md1.

Faithfully yours, etc.

Wie ist die Vorgehensweise in diesem Fall? Ich hoffe, daß der Plattentausch keinen Datenverlust mit sich zieht, da sonst das RAID1 ja sinnlos wär.
Es stellt sich allerdigs die Frage, warum das System 3x crasht, bevor das RAID einen Fehler meldet?

mit freundlichen Grüßen,
========================================

Update 21:44 :
NARF, Kiste steht schon wieder. Diesesmal beim TARen des www-roots. Super, hoffentlich kann ich wenigstens per FTP ne aktuelle DaSi ziehen...
Wie kann sowas mit RAID1 passieren? :-(
 
Last edited by a moderator:
Das ist ein Software-RAID, da könnte höchstens ein Kanal am Plattencontroller ausgefallen sein :confused:
Ich muss aber sagen: S4Y hat am Support geschraubt, und das nicht zu knapp!
1st Level eine freundliche Dame, die im Gegensatz zu Ihren (auch freundlichen) Kolleginnen von vor einem halben Jahr ein "natives" deutsch spricht, was die Verständigung erheblich erleichtert. Wurde dann schnell an den 2nd Level vermittelt, der auch sehr freundlich war, und wirklich kompetente Tips gab.
So fühle ich mich wohler, vor einem halben Jahr was das wirklich u.a.S.
Stand: Hab aus dem Rettungssystem heraus die Platte gemountet, und per SCP wegkopiert. Um 9:00 schlappt der Fieldservice los, tauscht die def. Platte, synct das Raid wieder und meldet sich dann. Wenn das alles so klappt wie beschrieben, ist die Kiste um 10 wieder online :) . Nach meinen letzten Erfahrungen hätte ich gesagt: OJE, das Ding steht jetzt bestimmt ne Woche. Aber nach gestern Abend bin ich echt guter Dinge!
Jetzt noch die Frage: Der Sinn eines Software-RAID1 scheint nicht zu sein, daß die Kiste bei einem Plattendefekt weiter online bleibt, sondern nur, daß man keine Daten verliert. Ist diese Einschätzung richtig?

Update 12:20
Platte SDA wurde getauscht, nach Start meldet das System, SDB sei defekt. Vermutung von S4Y: Hardwaredefekt Mainboard / SATA-Controller. Hardware wurde gecheckt, aber kein Fehler feststellbar. Vermutung ist jetzt: Beide Platte synchon gestorben!
Vorgehen von S4Y: Neue Platte einbauen, Sync-Versuch der zuletzt noch lesbaren Platte auf die neue, dann die zweite alte herauswerfen, neue einbauen und Raid wieder aufbauen.
Über die Vorgehensweise werde ich permanent auf dem laufenden gehalten, der Support kam von selbst auf diese Idee - klar, ich bin ziemlich halsig wegen dem Doppelausfall. Aber ich habe das Gefühl, daß sich jemand drum kümmert , und das beruhigt doch ziemlich!
 
Last edited by a moderator:
So, Sorry für den Ausdruck:
SYSTEM IM ARSCH.

Klasse, Neuinstallation trotz RAID1...
Beide Platten im Teich, da fragt man sich doch, ob es wirklich an den Platten liegen konnte, oder ob vielleicht das Netzteil manchmal rumzuckt. :mad:
Jetzt bekomme ich den Server allem Anschein nach mit 2 neuen Platten wieder übergeben - ein dummes Gefühl im Bauch bleibt aber. Ich werde jetzt wohl jede Nacht 2GB DaSi ziehen müssen, um sicher zu sein.
Der nächste Server bekommt mindestens 2 IPs, dann läuft der Server in einer VM, die leicht zu sichern und noch leichter zu restoren ist, notfalls auch auf einem komplett anderen System :o
 
GRMBL...
Als hätte ich es nicht gesagt. Warum erkenne ich als ComputerDAU ( :D ) sowas, ein Hoster aber nicht?
Hi,

aus blanker Logik :)

Hallo Herr xxx,
meine Vermutung hat sich anscheinend bestätigt - Hardwaredefekt....
Als ich heute gg. 20:30 eine Datensicherung wegkopieren wollte, stürzte der Server erneut ab. Durch einen Reboot ließ er sich wiederbeleben.
Eben kam folgende Email:

Weil auch du es erst erkennen konntest, als das Raid weg geflogen war. Vorher hat das RAID Status OK gemeldet, und HW Test lief ja, wenn der auch nichts sagt, bleibt ja nicht viel, außer alle HW in den 2 Tage Regressionstest zu schicken(will kaum ein Kunde wirklich, und wenn doch -> Rescue starten, im motd sollte AFAIK stehen, wie man einen Stresstest macht).

Gruß MeMeD
 
So, heute ist das Ding wieder platt. Ein Hardreboot der Platinum-Hotline brachte NICHTS. Und das nachdem ich 2 Tage neu installiert hatte, immernoch am basteln bin, und daher noch kein Backup habe.
Sollten die Platten wieder defekt sein, gibts TERROR. Ich habe die Jungs darauf hingewiesen, daß 2 Festplatten nicht synchon sterben, daß da etwas von außen die Teile killen muss (Netzteil?). Trotz meiner Forderung wurde das Netzteil nicht getauscht. Sollten die Platten wieder im Teich sein, und nur ein Byte meiner Installation fehlen, dann wird noch diese Woche Klage eingereicht.
Es kann ja mal was kaputtgehen, keine Frage. Aber das was hier gerade abgeht ist der HIT. Ich hab SO einen Hals, und nochmal werde ich keinen S4Y-Server installieren. Mein nächster Install passiert auf einem Hetzner-Server, und ich werde den 2-Jahresvertrag gekündigt bekommen, daher sollte S4Y die Hufe schwingen und dafür sorgen, daß die Büchse wieder läuft. OHNE daß ich alles neu installieren muss :mad: :mad: :mad: :mad: :mad:
 
Wieso sollten 2 Platten NICHT synchron kaputt gehen können?
Was meinst Du warum ich mittlerweile per Streamer meine Backups mache? *g*
Is mir schon zu oft passiert, das die eine Platte die andere mitgerissen hat. Woran das liegt? Keine Ahnung, Netzteil kann es icht immer gewesen sein. Aber passiert ist es trotzdem oft genug *schulterzuck*
 
Wieso sollten 2 Platten NICHT synchron kaputt gehen können?

Das sagt mir meine Berufserfahrung, die auf 8 Jahren Administration von 2500 Maschinen beruht :)
Ne, mal ehrlich - wenn nach 6 Monaten innerhalb von wenigen Sekunden (wie sich herausgestellt hat) 2 unabhängige Geräte mit einer MTF von 60.000+ Stunden ausfallen, dann kommen nur externe Faktoren in Betracht.
Der Server läuft mittlerweile wieder, mein Puls und Andrenalin sind auf Normal-Level, und ich entspanne mich langsam. Diesesmal wurde eine Platte getauscht, und ENDLICH auch das Netzteil. Datenverlust gab es keinen, von daher ist für mich alles im grünen Bereich. Was mich ärgert ist halt das Risiko, welches unnötig eingegangen wurde....

Einen Streamer hab ich im dedicated leider nicht. Ein Fullbackup via DSL ist zwar praktikabel, das Restore mit 384k upstream leider nicht....
 
Ticket-ID. 10671xxxx
Betreff: Server nicht erreichbar...
Erstellt: 2006-12-29 20:46
Letzte Antwort: Friday, 29 December 20:46

Ich bin gaaanz ruhig... Ich rege mich nicht auf.... Ich atme tieeef durch..... :o

Ich lese gaaanz entspannt auf der Hetzner-Seite, wo es den DS3000 zum gleichen Preis gibt wie die Kiste, die ich jetzt habe....
Und ich freue mich über 6 IP-Adressen, mit denen ich meinen künftigen Webserver als VM laufen lassen kann, und damit bei Hardwaredefekten schnellstens wieder online bin :)

Ich brech ab, was zum H*nk*r ist den nun schon wieder los?! Die Büchse war bisher keine einzige Sekunde wg. eigenem Verschulden platt, keine erfolgreichen Hackerangriffe, nichts. Bin mal gespannt, was nun wieder los ist. Wenns die Festplatten wieder beide synchron gefraggelt hat, flippe ich aus. :mad:

Update 22:27 : Kiste wieder online nach Hardreboot. Im Syslog - nichts! (Nichts, was auffallen würde...)
Mal gespannt, wie lange es hält...

5.1.2007: Bis heute hat es gehalten. Kiste wieder weg, diesesmal crash um 3:38Uhr, wie immer: Keine Einträge. Nur das RAID hat sich neu berappelt. Hab Überprüfung von Techniker in Auftrag gegeben. Wenn kein greifbares Ergebnis, dann wars das für mich....
 
Last edited by a moderator:
22.2.2007: Server weg. Komplett und ohne Vorwarnung. Nach 3h wieder online, SDB getauscht. JA, wieder eine Platte kaputt. Die VIERTE .
Ich koche....
 
Back
Top