Moin moin,
mir ist vor ner knappen Stunde ein Server um die Ohren geflogen - supergeiler Zeitpunkt dafür, oder?
Nachdem das Monitoring Alarm geschlagen hat und auch ein SSH-Zugriff nicht mehr funktioniert hat, bin ich über den KVM-Switch auf die Kiste. Da hat sich nur die Meldung "sd 0:0:0:0: rejecting i/o to offline device" immer wieder wiederholt, und der Server war absolut nicht mehr ansprechbar. Beim ersten Reboot hat mir der Raid-Controller (3Ware 9650SE-4LPML) gesagt, dass eine Festplatte im DEGRADED Status ist und der Reboot ist mit ner Kernel Panic abgebrochen. Beim zweiten Reboot war der Status immerhin schonmal auf Rebuild und die Kiste ist zumindest mal wieder hochgefahren.
Aktuell sieht das Ganze so aus:
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 REBUILDING 52% - 256K 1862.62 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 DEGRADED u0 931.51 GB SATA 0 - WDC WD1002FBYS-02A6
p1 ECC-ERROR u0 931.51 GB SATA 1 - WDC WD1002FBYS-02A6
p2 OK u0 931.51 GB SATA 2 - WDC WD1002FBYS-02A6
p3 OK u0 931.51 GB SATA 3 - WDC WD1002FBYS-02A6
Hat jemand eine Idee, was genau da passiert sein kann und was ich jetzt am besten mache, um die Kiste am Leben zu erhalten? Natürlich werd ich jetzt erstmal den Rebuild abwarten, aber irgendwas muss ja zu diesem Problem geführt haben und das sollte wenn möglich, nicht so schnell nochmal passieren. Mail an den Hersteller-Support ist schon raus, aber das kann ja ggf. dauern.
der Andi
mir ist vor ner knappen Stunde ein Server um die Ohren geflogen - supergeiler Zeitpunkt dafür, oder?
Nachdem das Monitoring Alarm geschlagen hat und auch ein SSH-Zugriff nicht mehr funktioniert hat, bin ich über den KVM-Switch auf die Kiste. Da hat sich nur die Meldung "sd 0:0:0:0: rejecting i/o to offline device" immer wieder wiederholt, und der Server war absolut nicht mehr ansprechbar. Beim ersten Reboot hat mir der Raid-Controller (3Ware 9650SE-4LPML) gesagt, dass eine Festplatte im DEGRADED Status ist und der Reboot ist mit ner Kernel Panic abgebrochen. Beim zweiten Reboot war der Status immerhin schonmal auf Rebuild und die Kiste ist zumindest mal wieder hochgefahren.
Aktuell sieht das Ganze so aus:
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 REBUILDING 52% - 256K 1862.62 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 DEGRADED u0 931.51 GB SATA 0 - WDC WD1002FBYS-02A6
p1 ECC-ERROR u0 931.51 GB SATA 1 - WDC WD1002FBYS-02A6
p2 OK u0 931.51 GB SATA 2 - WDC WD1002FBYS-02A6
p3 OK u0 931.51 GB SATA 3 - WDC WD1002FBYS-02A6
Hat jemand eine Idee, was genau da passiert sein kann und was ich jetzt am besten mache, um die Kiste am Leben zu erhalten? Natürlich werd ich jetzt erstmal den Rebuild abwarten, aber irgendwas muss ja zu diesem Problem geführt haben und das sollte wenn möglich, nicht so schnell nochmal passieren. Mail an den Hersteller-Support ist schon raus, aber das kann ja ggf. dauern.
der Andi