Server fährt immer wieder runter - Reboot, apache neustart... läuft

ah-tonius

New Member
Hallo!

Ich bin kein Fachmann, wenn es um meinen "1&1 Root-Server PS 2004" mit Plesk 8.4 - Suse Linux 10.1 geht.

Bekomme eine Email wenn eine Domain nicht erreichbar ist. Dann probiere ich aus, ob das stimmt. In der Regel ist das so. Dann versuche ich mit SSH den Server zu erreichen. Geht das nicht (steht also die Festplatte) gehte ich auf login.1und1.de und Reboote das System als Normales System.
Nach etwa 10 Minuten ist er wieder auferstanden und die Domains sind wieder erreichbar. Die letzten beiden male, musste ich allerdings dann nach SSH Zugang Apache neu starten.

Diese Art des Serverausfalls passiert unterschiedlich. Gerade vor einer Stunde wieder (für 20 min.), dann vor 2-3 Tagen in der Nacht für 6 Stunden (3-9 Uhr). Dann vor einer Woche....
Ich habe das Gefühl, die Intervalle werden enger und ich muß mehr tun (Apache neu starten).

Wo kann ich Infos bekommen, warum der Server runter gefahren ist?
Wie kann ich mich besser absichern, dass sowas nicht passiert?

Von 1und1-Support bekomme ich nur eine Email mit dem Hinweis, dass sich XYZ um mich gekümmert hat und ich doch sein Kümmern bewerten soll.
Der Support ist wohl nicht bereit Hinweise zu geben, denn XYZ hat sich nicht um mich gekümmert. Die Email ist ein Lüge.

Gruss Antonius
 
Hi,


nachdem du vermutlich keinen managed Server hast, ist es zunächst deine Aufgabe herauszufinden, was das Problem ist. Nicht das Problem des Supports :-)

Was du als nächstes machen musst: Die Ursache finden. D.h. logs in /var/log durchforsten und gucken, was da schief geht. Welche Anwendungen Fehlermeldungen verursachen und was letztendlich die Kiste zum abschmieren bringt.

Dennis
 
Hallo!

Danke, da liegt viel rum.
Habe mir gerade den IP_Blocker runter geladen und auch schon im zugehörigen Thema nach dem Einbau gefragt, denn auf der Anbieterseite gibts da keine Infos.

Die Datei warn hat 45.414 Einträge.

Es ist wohl ziemlich klar, dass man hier den Absturzfehler finden kann, wenn man sich auskennt. Ich werde erstmal den Blocker einbauen und dann mal sehen, dass die Meldungen kleiner werden.

Kann ich eigendlich Messages löschen?

Gruss Antonius
 
Hallo!
Wenn dir die genaue Absturzzeit bekannt ist, solltest du die letzten 10 bis 15 Minuten im Leben deines Servers anhand der Logfiles untersuchen. Bei SuSE spielt sich die interessanten Dinge meist in /var/log/messages ab.

Den Einsatz eines IP Tables Scripts halte ich zu diesem Zeitpunkt für eher gefährlich denn nützlich.

mfG
Thorsten
 
Ich tippe auf eine volle Partition oder kaputte (RAID-)Festplatte.
In beiden Fällen kann es vorkommen, daß die Fehlermeldungen gar nicht mehr in die Logfiles geschrieben werden können. Könnten aber evtl. per "Serieller Console" angezeigt werden.

huschi.
 
Hallo!

Habe gestern die Firewall von 1und1 aktiviert.
Ich hatte die mal vor 1000 Jahre aktiviert und da war nichts mehr erreichbar.
Seit dem habe ich da nicht mehr nachgeschaut.

Jezt kann ich zwar nicht mehr per FTP auf den Server (blöd), aber da gibts vielleicht eine Lösung (WinSCP geht, Filezilla nur nicht).

Aber es kommen nicht mehr so viele Besucher auf den Server, die da nichts zu suchen haben.

Einziger Gast war
PHP:
Dec 15 00:22:59 p15160098 sshd[11723]: Failed password for invalid user change from 80.87.64.115 port 34878 ssh2
Der mir in die messages von 1950 Einträgen alleine 1900 geschrieben hat.
Den würde ich nun auch noch gerne weg bekommen, was mir aber mit der 1und1 Firewall nicht gelungen ist (den zusätzlich eintragen).

Vielleicht baue ich mir jetzt (bzw. in ein paar Tagen) ein aktuelles Script (nicht ip_tables) ein und deaktiviere die 1und1 Firewall dann wieder.

Gruss Antonius
 
Hi

Habe da gerade auch schon im passenden Thema geschrieben.
und einen Link zu einer Deutschen FAQ rein geschrieben. FAQ german - Fail2ban

Gruss antonius
 
Hi,


du kannst mit "normalen" IP-Tables keine unerwünschten SSH-Zugriffe verhindern, ausser du kannst genau sagen, welche IP drauf zu greifen darf und welche nicht. Im Zeitalter von Providern mit dynamischen IPs ist das aber nicht wirklich möglich.

Lösung wie Huschi schon gesagt hat...


Zu deinem FTP-Problem: Liegt wohl an dem passive Mode von FTP, dessen Ports nun von der Firewall erfolgreich gefiltert werden. Das lässt sich am besten lösen, wenn man am FTP-Server spezielle Ports hierfür wählt und in der Firewall die Ports wieder zulässt.


Dennis
 
Eine weitere Lösung, die in 2 Minuten eingerichtet ist und 99.99% dieser automatisierten Versuche reduziert: Den SSH-Port verlegen (->Forensuche).
 
Hatte gerade kurz hintereinander Ausfälle:

in warn steht folgendes:
PHP:
Dec 16 20:07:33 p15160098 sshd[878]: error: Could not get shadow information for NOUSER
Dec 16 20:07:34 p15160098 sshd[882]: error: Could not get shadow information for NOUSER
Dec 17 00:00:13 p15160098 kernel: c016934b
Dec 17 00:00:13 p15160098 kernel: Modules linked in:
Dec 17 00:00:13 p15160098 kernel: EIP:    0060:[<c016934b>]    Not tainted VLI
Dec 17 00:00:13 p15160098 kernel: EFLAGS: 00010086   (2.6.16.53-070731a #1) 
Dec 17 00:00:13 p15160098 kernel:  BUG: events/0/5, lock held at task exit time!
Dec 17 00:00:13 p15160098 kernel:  [c059ad00] {cache_chain_mutex}
Dec 17 00:00:13 p15160098 kernel: .. held by:          events/0:    5 [cf7d3560, 110]
Dec 17 00:00:13 p15160098 kernel: ... acquired at:               cache_reap+0x11/0x1c0

Ich nehme an das ist ein Hardwarefehler ?

in der mail.info
PHP:
Dec 16 21:33:31 p15160098 qmail: 1229459611.683666 status: local 0/10 remote 0/20
Dec 17 00:27:32 p15160098 qmail: 1229470052.636220 delivery 1: deferral: 212.227.15.186_does_not_like_recipient./Remote_host_said:_451_cannot_relay_now_to_<epost@oebis.eu>,_please_try_again_later/Giving_up_on_212.227.15.186./
Dec 17 00:27:32 p15160098 qmail: 1229470052.636544 status: local 0/10 remote 0/20
Dec 17 00:27:39 p15160098 spamd[3280]: logger: removing stderr method 
Dec 17 00:27:41 p15160098 spamd[3281]: rules: meta test DIGEST_MULTIPLE has undefined dependency 'DCC_CHECK' 
Dec 17 00:27:41 p15160098 spamd[3281]: spamd: server started on UNIX domain socket /tmp/spamd_full.sock (running version 3.1.8) 
Dec 17 00:27:41 p15160098 spamd[3281]: spamd: server pid: 3281 
Dec 17 00:27:41 p15160098 spamd[3281]: spamd: server successfully spawned child process, pid 3282 
Dec 17 00:27:41 p15160098 spamd[3281]: spamd: server successfully spawned child process, pid 3283 
Dec 17 00:27:41 p15160098 spamd[3281]: prefork: child states: IS 
Dec 17 00:27:41 p15160098 spamd[3281]: prefork: child states: II 
Dec 17 00:34:08 p15160098 spamd[3406]: logger: removing stderr method 
Dec 17 00:34:10 p15160098 spamd[3407]: rules: meta test DIGEST_MULTIPLE has undefined dependency 'DCC_CHECK' 
Dec 17 00:34:10 p15160098 spamd[3407]: spamd: server started on UNIX domain socket /tmp/spamd_full.sock (running version 3.1.8) 
Dec 17 00:34:10 p15160098 spamd[3407]: spamd: server pid: 3407 
Dec 17 00:34:10 p15160098 spamd[3407]: spamd: server successfully spawned child process, pid 3408 
Dec 17 00:34:10 p15160098 spamd[3407]: spamd: server successfully spawned child process, pid 3409 
Dec 17 00:34:10 p15160098 spamd[3407]: prefork: child states: IS 
Dec 17 00:34:10 p15160098 spamd[3407]: prefork: child states: II

Normal habe ich nur diese Meldungen in warn
Wenn die 878 ein Port ist, dann kommt alle paar Stunden 8 Uhr 16 Uhr 20 Uhr einer und testet 50 Ports durch.
PHP:
Dec 16 20:07:33 p15160098 sshd[878]: error: Could not get shadow information for NOUSER

Ich habe von 0:27 eine Datei boot.omsg und von 0:34 die boot.msg, ich nehme an die Protokolle der Neustarts.

Gruss Antonius
 
Code:
Dec 17 00:00:13 p15160098 kernel: c016934b
Dec 17 00:00:13 p15160098 kernel: Modules linked in:
Dec 17 00:00:13 p15160098 kernel: EIP:    0060:[<c016934b>]    Not tainted VLI
Dec 17 00:00:13 p15160098 kernel: EFLAGS: 00010086   (2.6.16.53-070731a #1) 
Dec 17 00:00:13 p15160098 kernel:  BUG: events/0/5, lock held at task exit time!
Dec 17 00:00:13 p15160098 kernel:  [c059ad00] {cache_chain_mutex}
Dec 17 00:00:13 p15160098 kernel: .. held by:          events/0:    5 [cf7d3560, 110]
Dec 17 00:00:13 p15160098 kernel: ... acquired at:               cache_reap+0x11/0x1c0
Das sind die wirklich interessanten Stellen -- allerdings zeigst Du nur 10% der Fehlermeldung. Ob der Fehler durch Hardware-Probleme ausgelöst wird, kann man mit den wenigen Daten, die Du zeigst nicht annähernd sagen.
Die ganzen ssh-Meldungen sind harmlos und können --wie bereits erwähnt-- durch Verlegen des ssh-Ports vermieden werden.
 
Hallo!

Das ist alles was ich habe.

Dec 16 20:07:34 ist ein Eintrag der nächste, 4 Stunden später ist schon der Fehler, wo irgendwas nicht stimmt um Dec 17 00:00:13

Ich nehme an, später konnte nichts mehr geschrieben werden :eek:

Oder wo bekomme ich noch mehr Infos?

Gruss Antonius
 
Evtl. ist Dir ja mein obiger Beitrag entgangen:
Ich tippe auf eine volle Partition oder kaputte (RAID-)Festplatte.
In beiden Fällen kann es vorkommen, daß die Fehlermeldungen gar nicht mehr in die Logfiles geschrieben werden können. Könnten aber evtl. per "Serieller Console" angezeigt werden.
Partitionen anzeigen: df -hT
Ob Du Raid hast oder auf der seriellen Console nachgesehen hast, steh bisher nirgends.

huschi.
 
Hallo!

Also die Belegung der Platten kann ich unter plesk nachsehen, da ist in den letzten Wochen Ruhe eingekehrt, nachdem ich meine Domains sauber gemacht und dort den SPAM reduziert habe.

Wahrscheinlich war das Herunterfahren des Servers bis vor einigen Wochen ein Mischung aus Platte voll und dem aktuellen Fehler. Jetzt ist die Platte nicht mehr voll, da tritt dieser Fehler häufiger auf.

Fragt sich jetzt noch wo ich aus der Ferne eine kaputte Festplatte feststellen kann, wenn überhaupt.
Den Schnipsel aus warn habe ich auch an den 1und1 Support geschickt.
Die haben sich aber noch nicht gerührt.

Ich bin ab morgen 9 Uhr für 4 Tage nicht im Büro.
Schöne sch... wenn da der Server morgen Nachmittag ausfällt.

http://b1n.de/platte.gif

Gruss Antonius
 
Last edited by a moderator:
Da Du offensichtlich lieber glaubst, was Dir Plesk anzeigt, statt meinen Hinweisen nachzugehen und direkt am Server zu überprüfen, kann ich Dir hier nicht mehr weiter helfen.
Schönen Tag noch.

huschi.
 
Hi hatte gerade den Befehl ausgeführt:

Filesystem Type Size Used Avail Use% Mounted on
/dev/hda1 ext3 985M 475M 460M 51% /
udev tmpfs 120M 96K 120M 1% /dev
/dev/hda5 xfs 4.9G 1.4G 3.6G 28% /usr
/dev/hda6 xfs 4.9G 525M 4.4G 11% /var
/dev/hda7 xfs 15G 292K 15G 1% /home
/dev/hda8 xfs 11G 483M 11G 5% /srv
none tmpfs 120M 4.0K 120M 1% /tmp

Gruss Antonius
 
Hallo!

Hatte natürlich wieder Serverausfall als ich nicht da war.
3 x, wobei einmal der Server selber wieder hoch gefahren ist :eek:

Beim letzten Ausfall, bekomme ich mehr Informationen.

Code:
----
Dec 17 15:46:30 p15160098 sshd[25492]: error: Could not get shadow information for NOUSER
Dec 17 15:46:35 p15160098 sshd[25496]: error: Could not get shadow information for NOUSER
Dec 18 02:20:37 p15160098 syslog-ng[3123]: Changing permissions on special file /dev/xconsole
Dec 18 02:20:37 p15160098 syslog-ng[3123]: Changing permissions on special file /dev/tty10
Dec 18 02:20:37 p15160098 sshd[29357]: error: Could not get shadow information for NOUSER
----
Dec 18 02:20:38 p15160098 sshd[29363]: error: Could not get shadow information for NOUSER
Dec 18 17:21:32 p15160098 sshd[4558]: error: Could not get shadow information for NOUSER
Dec 18 17:22:40 p15160098 kernel:  <1>Unable to handle kernel paging request at virtual address bfff7460
Dec 18 17:22:40 p15160098 kernel: b78e4a64
Dec 18 17:22:40 p15160098 kernel: Modules linked in:
Dec 18 17:22:40 p15160098 kernel: EIP:    0073:[<b78e4a64>]    Not tainted VLI
Dec 18 17:22:40 p15160098 kernel: EFLAGS: 00010292   (2.6.16.53-070731a #1) 
Dec 18 17:23:24 p15160098 sshd[4761]: error: Could not get shadow information for NOUSER
Dec 18 18:53:24 p15160098 sshd[6269]: error: Could not get shadow information for NOUSER
----
Dec 18 22:03:13 p15160098 sshd[10035]: error: Could not get shadow information for NOUSER
Dec 18 22:03:14 p15160098 sshd[10039]: error: Could not get shadow information for NOUSER
* Dec 19 02:21:37 p15160098 syslog-ng[3128]: Changing permissions on special file /dev/xconsole
* Dec 19 02:21:37 p15160098 syslog-ng[3128]: Changing permissions on special file /dev/tty10
Dec 19 02:21:37 p15160098 statistics: Unable to execute logrotate.
Dec 19 02:21:49 p15160098 statistics: Unable to execute logrotate.
Dec 19 04:07:13 p15160098 statistics: Unable to execute logrotate.
Dec 19 04:56:23 p15160098 kernel: Modules linked in:
Dec 19 04:56:23 p15160098 kernel: EIP:    0060:[<c015fcb0>]    Not tainted VLI
Dec 19 04:56:23 p15160098 kernel: EFLAGS: 00010286   (2.6.16.53-070731a #1) 
Dec 19 04:56:23 p15160098 kernel:  <1>Fixing recursive fault but reboot is needed!
Dec 19 05:00:01 p15160098 kernel:  [<c014f2c3>] bad_page+0x63/0xa0
Dec 19 05:00:01 p15160098 kernel:  [<c014f7e8>] prep_new_page+0x78/0x80
Dec 19 05:00:01 p15160098 kernel:  [<c014fd96>] buffered_rmqueue+0x106/0x230
Dec 19 05:00:01 p15160098 kernel:  [<c0150008>] get_page_from_freelist+0x98/0xc0
Dec 19 05:00:01 p15160098 kernel:  [<c0150087>] __alloc_pages+0x57/0x320
Dec 19 05:00:01 p15160098 kernel:  [<c015aa87>] do_no_page+0x237/0x2e0
Dec 19 05:00:01 p15160098 kernel:  [<c015ad8c>] __handle_mm_fault+0x17c/0x330
Dec 19 05:00:01 p15160098 kernel:  [<c015cbee>] do_mmap_pgoff+0x43e/0x780
Dec 19 05:00:01 p15160098 kernel:  [<c011c7d8>] do_page_fault+0x188/0x65b
Dec 19 05:00:01 p15160098 kernel:  [<c011c650>] do_page_fault+0x0/0x65b
Dec 19 05:00:01 p15160098 kernel:  [<c0103aeb>] error_code+0x4f/0x54
Dec 19 08:56:28 p15160098 kernel: b7973a64
Dec 19 08:56:28 p15160098 kernel: Modules linked in:
Dec 19 08:56:28 p15160098 kernel: EIP:    0073:[<b7973a64>]    Tainted: G    B VLI
Dec 19 08:56:28 p15160098 kernel: EFLAGS: 00010296   (2.6.16.53-070731a #1) 
Dec 19 09:24:20 p15160098 sshd[5589]: error: Could not get shadow information for NOUSER
Dec 19 09:24:23 p15160098 sshd[5593]: error: Could not get shadow information for NOUSER

Vor einigen Minuten mußte ich MySQL neu starten.
Die Seiten mit PHP, ohne DB liefen, die anderen nicht.

1und1 will am 18.12.2008 für mich was gemacht haben.
(Sie selbst hatten bzw. ein Mitarbeiter aus Ihrem Hause hatte am 18.12.2008 Kontakt mit unserem technischen Support.)
Den Kontakt hat wahrscheinlich die Kaffeetasse oder mein Server gehabt.
Wo kann ich eventuelle Aktionen am Server sehen.

Gruss Antonius
 
Wo kann ich eventuelle Aktionen am Server sehen.
Evtl. Nachfragen?
Ansonsten in die bash-History gucken.
Aber evtl. haben die die Hardware geprüft?

Von der Fehlermeldung ausgehend, könnte es sein, daß Du irgendwo einen Fehler im Speicher-Chip hast.
Testen: Im Rescue-System booten und verschiedene RAM-Test-Programme laufen lassen.

huschi.
 
MOD: Full-Quote entfernt!

Hallo!

Kann ich das "Rescue-System booten" oder können das nur die von 1und1?

Gruss Antonius
 
Last edited by a moderator:
Back
Top