Notfall: Server stürzt täglich, aber unregelmäßig ab

robhh

New Member
Hallo,

wir haben hier inzwischen den Notstand ausgerufen ;)
Wir sind bei s4You und haben dort nen root-Server mit Suse10.1.
Ich kann leider nichtmehr genau sagen wann es eingesetzt hat, aber wir haben inzwischen seit Wochen Aussetzer des Servers die in unregelmäßigen Abständen auftreten.

Die Serverhardware wurde von S4You bereits geprüft und für einwandfrei erklärt.
Die Logfiles sagen uns auch herzlich wenig, außer dass das System herunter gefahren wird... Aber wie kann das sein, das sind nicht wir die das system halt auslösen!

Ich hab hier mal einige Auszüge aus der message.log

Code:
Mar  7 17:14:31 login-server12 sshd[3252]: Accepted keyboard-interactive/pam for root from 80.171.48.39 port 32935 ssh2
Mar  7 17:14:31 login-server12 sshd[3252]: subsystem request for sftp
Mar  7 17:16:09 login-server12 sshd[3375]: Accepted keyboard-interactive/pam for root from 80.171.48.39 port 32968 ssh2
Mar  7 17:17:45 login-server12 kernel: st: Version 20050830, fixed bufsize 32768, s/g segs 256
Mar  7 17:20:01 login-server12 /usr/sbin/cron[3954]: (root) CMD (rcclamd restart #ClamAV Restart)
Mar  7 17:20:04 login-server12 syslog-ng[2376]: SIGHUP received, restarting syslog-ng
Mar  7 17:20:05 login-server12 syslog-ng[2376]: new configuration initialized
Mar  7 17:20:19 login-server12 shadow[4350]: group already exists - group=vscan, by=0
Mar  7 17:20:19 login-server12 useradd[4351]: account already exists - account=vscan, by=0
Mar  7 17:20:19 login-server12 shadow[4352]: default group changed - account=vscan, uid=65, gid=107, old gid=107, by=0
Mar  7 17:20:26 login-server12 syslog-ng[2376]: SIGHUP received, restarting syslog-ng
Mar  7 17:20:27 login-server12 syslog-ng[2376]: new configuration initialized
Mar  7 17:26:40 login-server12 shutdown[5040]: shutting down for system halt
Mar  7 17:26:41 login-server12 init: Switching to runlevel: 0
Mar  7 17:26:43 login-server12 saslauthd[2468]: server_exit     : master exited: 2468
Mar  7 17:26:43 login-server12 sshd[2738]: Received signal 15; terminating.
Mar  7 17:26:43 login-server12 xinetd[2737]: Exiting...

und 4minuten später:
Code:
Mar  7 17:30:36 login-server12 xinetd[2683]: xinetd Version 2.3.14 started with libwrap loadavg options compiled in.
Mar  7 17:30:36 login-server12 xinetd[2683]: Started working: 1 available service
Mar  7 17:30:37 login-server12 webmin[2389]: Webmin starting 
Mar  7 17:30:38 login-server12 kernel: BIOS EDD facility v0.16 2004-Jun-25, 2 devices found
Mar  7 17:30:41 login-server12 /usr/sbin/cron[3035]: (CRON) STARTUP (V5.0)
Mar  7 17:30:43 login-server12 kernel: eth0: no IPv6 routers present
Mar  7 17:30:46 login-server12 shutdown[3127]: shutting down for system halt
Mar  7 17:30:48 login-server12 init: Switching to runlevel: 0

und weitere 4min später:
Code:
Mar  7 17:34:31 login-server12 syslog-ng[2376]: syslog-ng version 1.6.8 starting
Mar  7 17:34:36 login-server12 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Mar  7 17:34:36 login-server12 kernel: EXT3 FS on md1, internal journal
Mar  7 17:34:36 login-server12 kernel: ACPI: Power Button (FF) [PWRF]
Mar  7 17:34:36 login-server12 kernel: ACPI: Power Button (CM) [PWRB]
Mar  7 17:34:36 login-server12 kernel: NET: Registered protocol family 10
Mar  7 17:34:36 login-server12 kernel: lo: Disabled Privacy Extensions
Mar  7 17:34:36 login-server12 kernel: IPv6 over IPv4 tunneling driver
Mar  7 17:34:36 login-server12 saslauthd[2539]: detach_tty      : master pid is: 2539
Mar  7 17:34:36 login-server12 saslauthd[2539]: ipc_init        : listening on socket: /var/run/sasl2//mux
Mar  7 17:34:37 login-server12 ifup:     sit0      
Mar  7 17:34:37 login-server12 syslog-ng[2376]: Changing permissions on special file /dev/xconsole
Mar  7 17:34:37 login-server12 syslog-ng[2376]: Changing permissions on special file /dev/tty10
Mar  7 17:34:37 login-server12 ifup:               No configuration found for sit0
Mar  7 17:34:37 login-server12 xinetd[2598]: Reading included configuration file: /etc/xinetd.d/chargen [file=/etc/xinetd.conf] [line=26]
Mar  7 17:34:37 login-server12 xinetd[2598]: Reading included configuration file: /etc/xinetd.d/chargen-udp [file=/etc/xinetd.d/chargen-udp] [line=12]
Mar  7 17:34:37 login-server12 xinetd[2598]: Reading included configuration file: /etc/xinetd.d/cvs [file=/etc/xinetd.d/cvs] [line=13]
Mar  7 17:34:37 login-server12 kernel: powernow-k8: Found 2 AMD Athlon 64 / Opteron processors (version 1.60.2)
Mar  7 17:34:37 login-server12 kernel: powernow-k8:    0 : fid 0xc (2000 MHz), vid 0xa (1300 mV)
Mar  7 17:34:37 login-server12 kernel: powernow-k8:    1 : fid 0xa (1800 MHz), vid 0xc (1250 mV)
Mar  7 17:34:37 login-server12 kernel: powernow-k8:    2 : fid 0x2 (1000 MHz), vid 0x12 (1100 mV)

Und heute ein wenig anders. Der Server war pingbar, aber weder per SSH noch FTP oder HTTP erreichbar. Den awstatsupdate-Cron hab ich mal vorrübergehend deaktiviert, aber das ist das einzige mal, dass dieser Cron unmittelbar bevor der Server weg war ausgeführt wurde.

Code:
Mar  9 02:27:01 login-server12 /usr/sbin/cron[18217]: (root) CMD (/root/uceprotect_spam_update/update   #Uceprotect Spamliste aktualisieren)
Mar  9 02:45:09 login-server12 syslog-ng[2375]: STATS: dropped 0
Mar  9 03:27:01 login-server12 /usr/sbin/cron[18601]: (root) CMD (/root/uceprotect_spam_update/update   #Uceprotect Spamliste aktualisieren)
Mar  9 03:45:10 login-server12 syslog-ng[2375]: STATS: dropped 0
Mar  9 04:17:01 login-server12 /usr/sbin/cron[18846]: (root) CMD (/usr/local/confixx/app-update.pl  #Webapplication Update)
Mar  9 04:27:01 login-server12 /usr/sbin/cron[18881]: (root) CMD (/root/uceprotect_spam_update/update   #Uceprotect Spamliste aktualisieren)
Mar  9 04:31:01 login-server12 /usr/sbin/cron[18936]: (root) CMD (/etc/reoback/run_reoback.sh #Backup Script)
Mar  9 04:45:10 login-server12 syslog-ng[2375]: STATS: dropped 0
Mar  9 05:27:01 login-server12 /usr/sbin/cron[19152]: (root) CMD (/root/uceprotect_spam_update/update   #Uceprotect Spamliste aktualisieren)
Mar  9 05:27:01 login-server12 /usr/sbin/cron[19154]: (root) CMD (/usr/sbin/ntpdate ntp2.intergenia.de 2>/dev/null >/dev/null && hwclock -w 2>/dev/null >/dev/null)
Mar  9 05:27:01 login-server12 /usr/sbin/cron[19161]: (root) CMD (/root/uceprotect_spam_update/update   #Uceprotect Spamliste aktualisieren)
Mar  9 05:45:11 login-server12 syslog-ng[2375]: STATS: dropped 0
Mar  9 06:00:01 login-server12 /usr/sbin/cron[19444]: (root) CMD ( /usr/sbin/awstats-update)
Mar  9 10:43:55 login-server12 syslog-ng[2393]: syslog-ng version 1.6.8 starting
Mar  9 10:43:56 login-server12 saslauthd[2431]: detach_tty      : master pid is: 2431


Ich hoffe ihr könnt mehr entdecken als ich.
Welche Möglichkeiten gibt es noch den Fehler zu lokalisieren?

Viele Grüße,

Robin
 
welche weiteren Informationen werden gebraucht um zu helfen?
wir haben hier wirklich alles uns erdenkliche geprüft und finden keinen Hinweis auf die Abstürze.

Hardware:
2GB RAM
Dual Core AMD Opteron 1212 64Bit
und wie schon gesagt das OS ist openSuse10.1
 
Hallo,

welcher Kernel läuft? Selbst compiliert, Default-Kernel der Distribution oder vom Provider bereitgestellt?

SMART-Protokoll der Festplatte (smartmontools installieren, smartctl ausführen).

Welche Dienste laufen auf dem Server?
 
hallo Charli,

Also der Kernel kommt vom Provider.

"Fuer eine optimale Hardwareunterstuetzung wurde von uns ein entsprechend
optimierter Kernel installiert."

kernelversion: 2.6.16

smartmontools installiert, aber leider folgendes:
smartctl -t long /dev/md1 -d scsi

Code:
Standard Inquiry (36 bytes) failed [Invalid argument]
Retrying with a 64 byte Standard Inquiry
Standard Inquiry (64 bytes) failed [Invalid argument]
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

auch mit:
smartctl -t long /dev/md1 -d scsi -T permissive (auch verypermissive)
Code:
Standard Inquiry (36 bytes) failed [Invalid argument]
Retrying with a 64 byte Standard Inquiry
Standard Inquiry (64 bytes) failed [Invalid argument]
Extended Background Self Test Failed

folgendes gibt top aus:
Code:
top - 01:23:40 up  4:22,  1 user,  load average: 0.05, 0.03, 0.01
Tasks: 142 total,   1 running, 141 sleeping,   0 stopped,   0 zombie
Cpu(s):  1.0% us,  0.6% sy,  0.0% ni, 97.1% id,  1.2% wa,  0.1% hi,  0.0% si
Mem:   2042260k total,   659564k used,  1382696k free,    81344k buffers
Swap:  2104496k total,        0k used,  2104496k free,   341676k cached

und folgendes free (in MB):
Code:
             total       used       free     shared    buffers     cached
Mem:          1994        643       1351          0         79        333
-/+ buffers/cache:        229       1764
Swap:         2055          0       2055

Welche Dienste laufen... apache, mysql, postfix, ssh, cron, spamassassin, ....puh das ist doch schon ne ganze Menge ;)
chkonfig -list
Code:
Makefile                  0:off  1:off  2:off  3:off  4:off  5:off  6:off
SuSEfirewall2_init        0:off  1:off  2:off  3:off  4:off  5:off  6:off
SuSEfirewall2_setup       0:off  1:off  2:off  3:off  4:off  5:off  6:off
acpid                     0:off  1:off  2:on   3:on   4:off  5:on   6:off
alsasound                 0:off  1:off  2:on   3:on   4:off  5:on   6:off
amavis.lock               0:off  1:off  2:off  3:off  4:off  5:off  6:off
apache2                   0:off  1:off  2:off  3:on   4:off  5:on   6:off
atalk                     0:off  1:off  2:off  3:off  4:off  5:off  6:off
atd                       0:off  1:off  2:off  3:off  4:off  5:off  6:off
autoyast                  0:off  1:off  2:off  3:off  4:off  5:off  6:off
clamd.lock                0:off  1:off  2:off  3:off  4:off  5:off  6:off
courier-authdaemon        0:off  1:off  2:off  3:on   4:off  5:on   6:off
courier-imap              0:off  1:off  2:off  3:on   4:off  5:on   6:off
courier-imap-ssl          0:off  1:off  2:off  3:on   4:off  5:on   6:off
courier-pop               0:off  1:off  2:off  3:on   4:off  5:on   6:off
courier-pop-ssl           0:off  1:off  2:off  3:on   4:off  5:on   6:off
cron                      0:off  1:off  2:on   3:on   4:off  5:on   6:off
dbus                      0:off  1:off  2:off  3:on   4:off  5:on   6:off
earlykbd                  0:off  1:off  2:off  3:off  4:off  5:on   6:off
earlysyslog               0:off  1:off  2:off  3:off  4:off  5:on   6:off
esound                    0:off  1:off  2:off  3:off  4:off  5:off  6:off
fam                       0:off  1:off  2:off  3:on   4:off  5:on   6:off
fbset                     0:off  1:on   2:on   3:on   4:off  5:on   6:off
fetchmail                 0:off  1:off  2:off  3:off  4:off  5:off  6:off
gpm                       0:off  1:off  2:off  3:off  4:off  5:off  6:off
gssd                      0:off  1:off  2:off  3:off  4:off  5:off  6:off
haldaemon                 0:off  1:off  2:off  3:on   4:off  5:on   6:off
idmapd                    0:off  1:off  2:off  3:off  4:off  5:off  6:off
inn                       0:off  1:off  2:off  3:off  4:off  5:off  6:off
ipxmount                  0:off  1:off  2:off  3:off  4:off  5:off  6:off
ircd                      0:off  1:off  2:off  3:off  4:off  5:off  6:off
irq_balancer              0:off  1:off  2:off  3:off  4:off  5:off  6:off
joystick                  0:off  1:off  2:off  3:off  4:off  5:off  6:off
kbd                       0:off  1:on   2:on   3:on   4:off  5:on   6:off  S:on
ldap                      0:off  1:off  2:off  3:off  4:off  5:off  6:off
lm_sensors                0:off  1:off  2:off  3:off  4:off  5:off  6:off
mailman                   0:off  1:off  2:off  3:off  4:off  5:off  6:off
mdadmd                    0:off  1:off  2:off  3:on   4:off  5:on   6:off
mysql                     0:off  1:off  2:on   3:on   4:off  5:on   6:off
named                     0:off  1:off  2:off  3:off  4:off  5:off  6:off
network                   0:off  1:off  2:on   3:on   4:off  5:on   6:off
nfs                       0:off  1:off  2:off  3:on   4:off  5:on   6:off
nfsboot                   0:off  1:off  2:off  3:on   4:off  5:on   6:off
nfsserver                 0:off  1:off  2:off  3:off  4:off  5:off  6:off
nscd                      0:off  1:off  2:off  3:on   4:off  5:on   6:off
ntop                      0:off  1:off  2:off  3:off  4:off  5:off  6:off
ntp                       0:off  1:off  2:off  3:off  4:off  5:off  6:off
nwe                       0:off  1:off  2:off  3:off  4:off  5:off  6:off
openct                    0:off  1:off  2:off  3:off  4:off  5:off  6:off
pcscd                     0:off  1:off  2:off  3:off  4:off  5:off  6:off
portmap                   0:off  1:off  2:off  3:on   4:off  5:on   6:off
postfix                   0:off  1:off  2:off  3:on   4:off  5:on   6:off
powerd                    0:off  1:off  2:off  3:off  4:off  5:off  6:off
powersaved                0:off  1:off  2:on   3:on   4:off  5:on   6:off
quotad                    0:off  1:off  2:off  3:off  4:off  5:off  6:off
random                    0:off  1:off  2:on   3:on   4:off  5:on   6:off
raw                       0:off  1:off  2:off  3:off  4:off  5:off  6:off
resmgr                    0:off  1:off  2:on   3:on   4:off  5:on   6:off
rpasswdd                  0:off  1:off  2:off  3:off  4:off  5:off  6:off
rpmconfigcheck            0:off  1:off  2:off  3:off  4:off  5:off  6:off
rsyncd                    0:off  1:off  2:off  3:off  4:off  5:off  6:off
saslauthd                 0:off  1:off  2:off  3:on   4:off  5:on   6:off
scanlogd                  0:off  1:off  2:off  3:off  4:off  5:off  6:off
sgraid                    0:off  1:off  2:off  3:off  4:off  5:off  6:off
skeleton.compat           0:off  1:off  2:off  3:off  4:off  5:off  6:off
slurpd                    0:off  1:off  2:off  3:off  4:off  5:off  6:off
smartd                    0:off  1:off  2:off  3:off  4:off  5:off  6:off
snmpd                     0:off  1:off  2:off  3:off  4:off  5:off  6:off
spamd                     0:off  1:off  2:off  3:on   4:off  5:on   6:off
spamd.lock                0:off  1:off  2:off  3:off  4:off  5:off  6:off
sshd                      0:off  1:off  2:off  3:on   4:off  5:on   6:off
svcgssd                   0:off  1:off  2:off  3:off  4:off  5:off  6:off
svnserve                  0:off  1:off  2:off  3:off  4:off  5:off  6:off
syslog                    0:off  1:off  2:on   3:on   4:off  5:on   6:off
sysstat                   0:off  1:off  2:off  3:off  4:off  5:off  6:off
vsftpd                    0:off  1:off  2:off  3:off  4:off  5:off  6:off
webmin                    0:off  1:off  2:on   3:on   4:off  5:on   6:off
xdm                       0:off  1:off  2:off  3:off  4:off  5:off  6:off
xinetd                    0:off  1:off  2:off  3:on   4:off  5:on   6:off
zope                      0:off  1:off  2:off  3:off  4:off  5:off  6:off


Ich sag erstmal gute Nacht!
 
Last edited by a moderator:
Wir haben in einer Nacht und Nebelaktion in der Hoffnung die Ausfälle zu beseitigen den Server neu aufgesetzt. Etwa 8 Stunden lief der Server... dann:
Code:
Mar 17 22:21:21 login-server12 sshd[3542]: Accepted keyboard-interactive/pam for root from 213.39.230.109 port 32815 ssh2
Mar 17 22:23:21 login-server12 kernel: st: Version 20050830, fixed bufsize 32768, s/g segs 256
Mar 17 22:27:31 login-server12 shutdown[4196]: shutting down for system halt
Mar 17 22:27:32 login-server12 init: Switching to runlevel: 0
Mar 17 22:27:33 login-server12 xinetd[2723]: Exiting...
Mar 17 22:27:33 login-server12 sshd[2749]: Received signal 15; terminating.
Mar 17 22:27:33 login-server12 saslauthd[2809]: server_exit     : master exited: 2809
Mar 17 22:27:34 login-server12 kernel: Kernel logging (proc) stopped.
Mar 17 22:27:34 login-server12 kernel: Kernel log daemon terminating.
Mar 17 22:27:35 login-server12 syslog-ng[2643]: syslog-ng version 1.6.8 going down

Ein Kollege (213.39.230.109) war während des Ausfalls per ssh eingeloggt wie man sehenkann und bekam noch die Meldung "System is going down for halt now" zu sehen.... Wer, Wie, Was kann das denn blos verursachen?!



EDIT:

folgendes habe ich nun gefunden:

This is an automatically generated mail message from mdadm
running on server12

A DegradedArray event had been detected on md device /dev/md1.

Faithfully yours, etc.


Also doch ein Hardware-Schaden?
 
Last edited by a moderator:
Jap, das sieht so aus, als ob Du Deine Daten auf jeden Fall schon mal täglich sichern solltest (wenn Du das nicht sowieso schon tust).

Was mir über Nacht noch eingefallen ist... schau Dir mal den Output von dmesg an. Da kündigen sich Hardwareprobleme normalerweise auch an.
 
Heute mittag war der Server wieder weg und konnte auch über den powerpanel von S4You nicht mehr rebootet werden... daraufhin haben wir etwas Druck gemacht und haben endlich zwei neue Festplatten bekommen... mal schauen obs jetzt besser lübt.

Viele Grüße,

Robin
 
Wen es interessiert:

Die neuen Festplatten haben absolut nichts gebracht. 9 Stunden nach dem Einbau gab es den ersten Absturz. Daraufhin wurde die komplette Hardware getauscht (6-7Stunden)... der Server schnurrt jetzt seit mehreren Tagen ohne Probleme... (Server4You hat damals 2 Hardware-Checks durchgeführt und immer für einwandfrei erklärt. Es hieß immer, es muss an der Software liegen - komisch nur dass die Festplatten die selben geblieben sind mit denen der Server vorher abgestürzt ist und es jetzt nach dem komplett Austausch ohne Probleme läuft...)

Wir hatten also über einen Monat nächtelange Arbeit, haben den Server 3mal neu aufgesetzt, haben stinkige Kunden, Kündigungen und hohe Kosten durch die nicht vorhandene und explizit verweigerte aber im Angebot angepriesene 0800-Nr von N4You!

Eine Antwort auf unsere Mail mit freundlicher und sachlicher Anfrage auf Entschädigung gabs bisher leider nicht....

Es kann nur besser werden, oder wie kann ich mich am besten aufmuntern!?
 
Last edited by a moderator:
haben stinkige Kunden, Kündigungen
Erstmal Glückwunsch dass der Fehler jetzt behoben ist - wobei es eigentlich (nach der ersten Neuinstallation) relativ klar war, dass es ein Hardware-Schaden sein muss... (Speicher usw.)

Und jetzt mal ganz offen: Als seriöser Provider solltest du mindestens einen Ersatzserver laufen haben... Somit kannst du die Kunden innerhalb kürzester Zeit auf dem Ersatzserver unterbringen und schon merken die nichts mehr davon... Wie du deinen Kunden das hier beschriebene Chaos zumuten kannst ist mir ein Rätsel... Dass der Service bei Server4You nicht "der Hit" ist und die Reaktionszeiten der Techniker (die manchmal auch nicht die "besten" sind) teilweise mieserabel sind, sollte doch langsam jedem klar sein...


Mfg

Stefan Schuster
 
naja wir sind recht klein und haben nur zwei weitere Rechner. Auf diesen Servern läuft unterschiedliche Software (vorallem durch verschiedene Kundensysteme die nicht miteinander kompatibel sind, fiel eine Menge Arbeit an), sodass Umzüge nicht bei allen Kunden in Frage kamen.

Aber ich muss dir Recht geben, wir sollten uns dringend überlegen jeweils zweit-Systeme anzulegen.

Viele Grüße
 
Und vielleicht noch einen weiteren Tipp aus der aktuellen IX: SLA's vereinbaren. Darin sind auch normalerweise Schadensersatzleistungen definiert.

Grüße
Sinepp
 
Back
Top