Server Ausfall - Hitze oder Stecker raus?!

Fat-Z

New Member
Hi @ all! Wir haben einen HP Server beim "Silver Server" in Wien in einem 1/4 Rack stehen. Gestern war auf einmal der Server nicht mehr zu erreichen! Per Telefon wurde uns versichert dass es keine nennenswerte Probleme im RC gibt.
Schleunigst haben wir uns auf die Socken gemacht um nachzusehen. Im RC angekommen ... katastrophale Bedingungen! Die Klimaanlage ist ausgefallen, überall standen rießige Industrie-Ventilatoren. Es hatte an dem Tag knapp 30Grad draußen, aber das war ein ******dreck im gegensatz zum inneren des RC :D und vorallem war niemand da! Alle Türen waren aufgerissen, wir sind ohne ID reingekommen! Da hätte jemand mit nem Transporter sich zur Tür hinstellen brauchen und alle Server mitnehmen können :mad:

Also nun das Problem:
Wir glauben dass der Server sich überhitzt hat und sich ausgeschalten hat. Aber dieser Server stand frei im Rack. Die beiden anderen die übereinander liegen, liefen ohne weiteres. Die Hintere Seite unseres 1/4 Rack war !offen!, da die einige Stromkabel für die Ventilatoren eingesteckt haben.
Wir glauben nun dass der Server (unabsichtlich), im Stress, ausgesteckt wurde.

Hier die Logs. Vllt. kann mir jemand sagen ob da was auffällig ist. (HP Server)

Code:
Jul 28 15:29:49 dbext -- MARK --
Jul 28 15:40:13 dbext shutdown[18327]: shutting down for system halt
Jul 28 15:40:13 dbext init: Switching to runlevel: 0
Jul 28 15:40:16 dbext authdaemond: stopping authdaemond children
Jul 28 15:40:16 dbext courierd: SHUTDOWN: Stopping...
Jul 28 15:40:16 dbext ntpd[2523]: ntpd exiting on signal 15
Jul 28 15:40:18 dbext kernel: Kernel logging (proc) stopped.
Jul 28 15:40:18 dbext kernel: Kernel log daemon terminating.
Jul 28 15:40:19 dbext exiting on signal 15
Jul 28 18:06:02 dbext syslogd 1.4.1#18: restart.

Bitte um baldige Hilfe. Danke!


MFG Fat-Z
 
Runlevel 0 bedeutet, dass das System gestoppt wurde. Ohne Passwort bzw. Einloggen ist so was nicht möglich. Mit Strg+Alt+Entf. auf der Tastatur kann man nur einen Reboot auslösen. Ich würde sagen, der Rechner hat sich dann vermutlich auf Grund der zu hohen Temperatur selbst herunter gefahren.
 
Danke! Aber das ist trotzdem komisch! Obwohl der Server FREI steht und eigentlich nur zu 20% ausgelastet ist und die anderen Zwei die direkt aufeinander stehen und über 60% ausgelastet sind, schalten er sich ab. :confused:


Gruss Fat-Z
 
Jedes techn. Element reagiert unterschiedlich. Vllt. war die Luftzirkulation nicht optimal oder oder oder. Zuerst einmal würde ich eine (nicht mehr so ganz) freundliche Email an den RZ-Betreiber schreiben und gleichzeitig rechtliche Schritte einleiten.

Bzgl. der Selbstabschaltung: Ich halte die Theorie für durchaus haltbar, wenngleich wir das wohl nicht so ohne weiteres beweisen können. Fakt ist jedoch, dass nicht einfach ein Stecker rausgezogen wurde. Dann wäre nämlich kein init 0 erfolgt.

--marneus
 
Ich bedanke mich vielmals für eure Hilfe :)

Der Server läuft jetzt wie gewohnt, Gott sei Dank ;)


LG Fat-Z
 
Allerdings, desweiteren würde ich da direkt Monitoring Tools drauf installieren - damit du überhaupt mal kontrollieren kannst wie heiß die Kiste wird.
 
Rofl und das gerade bei SIL ;) Ich weiss schon warum unsere Kisten im InterXion stehen obwohl mir unser (Ex-) Key Accounter ja sooo tolle ;) Konditionen verschafft hätte.
Mal abgesehn davon das die Klime ausfällt, sie Ventilatoren aufstellen und anscheinend die Kunden nicht informieren, wäre dieser "Tag der offene Türe" schon Grund genug den Rechtsanwalt einzuschalten und schnellstmöglich den Standort zu wechseln. Muss ja nicht im speziellen das IX sein. In Wien gibts da ja gottlob doch einige brauchbare Möglichkeiten die meiner Erfahrung nach alle besser als die SIL.
 
Back
Top