Netfabrik Basic: VZ Quotas geändert?

jumphigh · Mar 16, 2007

Netfabrik Basic: Broken libc? [war: VZ Quotas geändert?]

Hallo Forum,

ich habe den kleinsten VS (5 Euro) bei Netfabrik unter SuSE 9.3. Letzten November habe ich mich schon ans Forum gewandt, weil numfiles mit 1680 sehr niedrig eingestellt waren. Freundlicherweise wurde das Limit im Dezember auf 3008 angehoben und seit dem lief der Server zu meiner vollen Zufriedenheit. Ganz selten bin ich mal gegen die Memorybarriere gerannt, jedoch ohne Auswirkungen. Die Uptime war die selbe wie die des Hostes, nämlich 51 Tage!

Doch nun treten seit Montag, 12.03., , massive Probleme mit der dcachesize auf! Ohne dass ich etwas an der Config geändert habe, laufe ich jetzt ständig gegen dieses Limit. Davor liefen alle Dienste wochenlang durch, ohne dass ich nur einen Blick auf den Server werfen musste, jetzt kommen nach einem Reboot nicht mal mehr alle hoch. Die ersten Anzeichen finden sich am 12.03. um 16:26 in der mail.err.

Code:

Version: 2.5
       uid  resource                     held              maxheld              barrier                limit              failcnt
   2066086: kmemsize                  2861020              4235457              5644968              6209464                    0
            lockedpages                     0                    8                  302                  302                    0
            privvmpages                 41702                52390                77672                85456                    0
            shmpages                      640                 1312                16305                16305                    0
            dummy                           0                    0                    0                    0                    0
            numproc                        32                   42                   96                   96                    0
            physpages                   15554                29140                    0           2147483647                    0
            vmguarpages                     0                    0                14604           2147483647                    0
            oomguarpages                15554                29441                17750           2147483647                    0
            numtcpsock                      8                   14                  152                  152                    0
            numflock                       10                   13                  168                  183                    0
            numpty                          1                    1                   12                   12                    0
            numsiginfo                      0                    8                  256                  256                    0
            tcpsndbuf                   75008               196896              1133248              2214592                    0
            tcprcvbuf                  131072               265200              1133248              2214592                    0
            othersockbuf               159392               271800               524572               922896                    0
            dgramrcvbuf                     0                33000               524572               524572                    0
            numothersock                  104                  139                  198                  198                    0
            dcachesize                 645354               774225               751593               774141                  548
            numfile                      1142                 1763                 3008                 3008                    0
            dummy                           0                    0                    0                    0                    0
            dummy                           0                    0                    0                    0                    0
            dummy                           0                    0                    0                    0                    0
            numiptent                      10                   10                   32                   32                    0

Die Symptome:

1. Trotz keinerlei Configänderung gehen nicht mehr alle Dienste gleichzeitig. Apache 2 schafft es gar nicht mehr, wenn Postfix und Co. schon gestartet wurden. Die Logs zeigen dann Fehler wie nicht gefundene Dateien etc. Ich hatte sogar schon den Fall, dass mir ls nur das halbe Verzeichnis ausgab. Hier mal ein Beispiel aus dem PHP5-Log:

Code:

[16-Mar-2007 12:36:24] PHP Warning:  PHP Startup: Unable to load dynamic library '/usr/lib/php5/extensions/zlib' - /usr/lib/php5/extensions/zlib: cann
ot open shared object file: Cannot allocate memory in Unknown on line 0

2. Clamd gibt folgenden Fehler beim Start ab und läuft gar nicht mehr:

Code:

Fri Mar 16 12:38:32 2007 -> ERROR: fstat(): socket descriptor gone
Fri Mar 16 12:38:32 2007 -> ERROR: Main socket gone: fatal
Fri Mar 16 12:38:32 2007 -> Shutting down the main socket.
Fri Mar 16 12:38:32 2007 -> Closing the main socket.

3. Nachdem mir die Fehler am Dienstag aufgefallen waren, habe ich die fehlenden Dienste neu gestartet. Bisher zeigte mir ein "netstat -tap" auch immer die Namen der Prozesse mit an. Nach dem Fixingversuch waren nur noch die Namen der ohne Absturz durchgelaufenen Prozesse zu sehen, die neu gestarteten hatten nur noch einen Strich. Jetzt, nach etlichen Serverreboots, findet sich überall nur noch ein Strich, kein einziger Prozessname wird mehr angezeigt.

4. Ein Check auf geänderte Files mit "find / -mtime -6" bringt mir folgenden Fehler:

Code:

find: WARNING: Hard link count is wrong for /proc/vz: this may be a bug in your filesystem driver.  Automatically turning on find's -noleaf option.  Earlier results may have failed to include directories that should have been searched.

Sonst stimmen die Änderungen mit den Erwartungen überein.

5. Gut denke ich, versuche ich mal einen fsck für ReiserFS. Also will ich die Reiserprogramme über Yast installieren. Doch was passiert? Jetzt will dazu Yast immer die libc in einer 64-Bit-Version haben, welche sich nicht im Repositorium vom SuSE befindet. Bei mir ist nur libc in 32 Bit installiert, und wie gesagt, lief das bisher tadellos. Könnte es sein, dass Virtuozzo selbst mit einem 64-Bit-Kernel läuft (was mir uname sagt), die virtualisierten Childs aber 32 Bit sind?

6. Postfix meldet jetzt sowas in den Logs:

Code:

Mar 16 13:03:58 heptamer postfix/cleanup[9490]: fatal: fstat flow pipe write descriptor: Value too large for defined data type
Mar 16 13:03:59 heptamer postfix/smtpd[9474]: fatal: unable to connect to the public cleanup service
Mar 16 13:11:42 heptamer postfix/cleanup[24039]: fatal: fstat flow pipe write descriptor: Value too large for defined data type
Mar 16 13:11:43 heptamer postfix/smtpd[24035]: fatal: unable to connect to the public cleanup service
Mar 16 13:30:14 heptamer postfix/cleanup[3462]: fatal: fstat flow pipe write descriptor: Value too large for defined data type
Mar 16 13:30:15 heptamer postfix/smtpd[3436]: fatal: unable to connect to the public cleanup service
Mar 16 13:30:28 heptamer postfix/sendmail[6010]: fatal: root(0): unable to execute /usr/sbin/postdrop -r: Success

7. Bei einem Reboot werden jetzt immer in die Runlevel neue Links S10vzquota nach /etc/init.d/vzquota eingetragen. Das mag schon immer so gewesens ein, nur habe ich auch schon seit Januar 2006 überall S11vzquota drin stehen.

Irgendwie habe ich das Gefühl, dass das gar nicht mehr mein Server ist. :-(
In den Logs finden sich wie immer auch massenhaft Wörterbuchattacken auf SSH, aber dort geht nur Public/Private-Key zum Einloggen. Nur kann man einen VServer als Einbrecher so verändern, dass die Timestamps wie vorher erscheinen und auch sonst keine Anzeichen zu erkennen sind, d.h. dass verräterische Prozesse und Ports versteckt werden können? An den Kernel kommt man ja nicht dran.

Vielleicht liest das ja der Herr Brömme von Intergenia und kömmte mal auf meinem Knoten nachschauen. Irgendwie bin ich nicht bereit, für 2 Euro die Hotline anzurufen, wenn ich selbst nichts an meinem Server geändert habe. Auch die 10 Euro für eine Neuinstallation will ich nicht unbedingt ausgeben. ;-)
Ich habe eher den Eindruck, dass man meinen Server im laufenden Betrieb von 32 Bit auf 64 Bit verschoben hat oder dass mein virtuelles ReiserFS die Flocke macht. Denn die Probleme von Postfix und Clamd liegen nicht an der dcachesize, weil sich der failcnt beim Starten dieser Dienste nicht erhöht.

Sonst kann ich nur fragen, ob jemand ähnliche Probleme erlebt, oder ob man mir Tips geben kann, wie ich einen Einbruch ausschliesse.

MfG
Andreas

jumphigh · Mar 16, 2007

Ich möchte noch einmal auf diesen Postfix-Fehler hinweisen:

Code:

Mar 16 18:34:27 heptamer postfix/cleanup[27798]: fatal: fstat flow pipe write descriptor: Value too large for defined data type

Es tritt keinerlei failcnt in user_beancounters auf, also liegt es nicht an den Ressourcen meines VS! Was bedeutet denn das??? ICH WILL NICHT FÜR 10 EURO DAS DING NEU AUFSETZEN, MANNO. :-(

MfG
Andreas

PS: Ich habe mal nach dem Fehler gesucht. Viel kommt da ja nicht, aber bei einem Posting heißt es, die fstat-Version wäre irgendwie broken. Liegt diese Funktion nicht in libc? Das kann doch alles nicht wahr sein...

mbroemme · Mar 16, 2007

Hi,

@jumphigh

Musst du nicht, das fstat Problem ist ein Kernel Bug, das steht auch hier im Forum, such mal nach. Ich hab das im aktuellen Build schon korrigieren lassen, allerdings sind noch nicht alle NetFabrik Hostsysteme aktualisiert, weil man dazu immer alle Kunden informieren muss, alle runterfahren, alle wieder hochfahren etc... Das geht nicht mal eben fuer alle Systeme gleichzeitig.

jumphigh · Mar 17, 2007

Danke für die Antwort, Herr Broemme. Oder ist Maik besser?

Nur wie darf ich Ihre Aussage verstehen? Die von Ihnen erwähnten Postings sind von Januar/Februar, das Hostsystem lief seit 51 Tagen durch. Die Fehler fingen bei mir am Montag/Dienstag an, also Monat(e) später. Ist es möglich, dass mich erst jetzt der Kernelbug eingeholt hat?

Und ist das auch der Grund für das nun ständige Erreichen des dcachesize-Limits? Vorher hatte ich da einen Failcount von Null, nun knalle ich ständig dagegen. Oder liegt das auch nur am fehlerhaften Verhalten von Postix und Clamd? Hoffe ich jedenfalls. Und der Hardlink-Error beim find-Befehl bezüglich /proc/vz (Punkt 4 meiner Symptomeliste) ist normal?

Wann kann man denn mit dem Bugfixing rechnen? Im Moment bekomme ich halt keine Mails; wenn es noch länger dauert, müßte ich mal über eine Mailumleitung (was ginge denn noch ausser den DNS-MX umzusetzen?) nachdenken.

MfG
Andreas

PS: Danke, dass Sie sich hier im Forum bemühen. Jedoch muss ich Sie bitten, ob Intergenia nicht die Supportmöglichkeiten bei Netfabrik etwas überdenken könnte. Sicherlich bin ich mir bewußt, was ich für 5 Euro im Monat erwarten kann, und auch die Support- und Reinstallationskosten waren mir bekannt. Jedoch finde ich es nicht ok, wenn der Server wochenlang ohne Probleme läuft, und dann plötzlich nicht mehr will, ohne dass ich etwas geändert hätte. Da Ihnen mögliche Probleme bewußt waren, wäre doch eine Mitteilung in den News angebracht gewesen, oder? Ich war nämlich schon nahe dran, mir den Server neu aufsetzen zu lassen, nur um hinterher vor dem gleichen Problem zu stehen. Sicherlich wollen Sie Umsatz generieren, aber bitte doch nicht so...

tom.112 · Mar 17, 2007

Hallo,

@mbroemme - gleiches Problem bei mir

Wann gibt es denn da Abhilfe?

Grüße

Tom

mbroemme · Mar 17, 2007

Hi,

Montag Nacht.

Ich schreib gerade die News, taucht in Kuerze dann auch im PP auf.

tom.112 · Mar 17, 2007

Hmmmmm....... Das heißt dann in der Nacht auf Montag oder in der Nacht von Montag auf Dienstag?

derryl · Mar 19, 2007

Hi,

any news zu den Netfabrik Servern? Unserer ist seit letzten Donnerstag (15.03.) nicht erreichbar. Laut PP wurde das hostsystem ein paar Stunden nachdem es von aussen nicht mehr erreichbar war neu gestartet und zwar mit 7GB speicher statt mit den vorher 5GB. Zwei Anrufe beim Support 'ob man denn Ahnung hätte was los ist und wie lange die Störung dauert' waren komplett nutzlos. Man sollte so fair sein und auch überhaupt keinen Service anbieten wenn man überhaupt keinen bekommt, 1,86€/min sind für keine Auskunft zu viel. Leut Herr Broemme sollte seit 17.03.2007 News zu den aktuellen Störungen im PP erscheinen. Die letzten News sind immer noch vom 20.02.2007. Wo ist das Problem? Werden bei mir die News falsch angezeigt? Hat irgendjemand irgendwelche Infos zu dem Problem, bzw. gehen die System schon bei jemandem wieder?

mbroemme · Mar 20, 2007

@derryl:

Dann liegst du auf einem Hostsystem, dass kein Update bekommt, weil es kein Update braucht.

PS: Wieso frag ich eigentlich immer das gleiche? Wo keine Fehlermeldung, da kein Fehler. Ich hoffe das reicht und du weisst was zutun ist.

@tom.112: Das Datum definiert die Nacht, sprich in 20 Minuten ist Reboot angesagt.

tom.112 · Mar 20, 2007

@mbroemme: Danke! So wie es aussieht, scheint wieder alles zu funktionieren...

wakko · Mar 25, 2007

gleiches problem

wir haben auf unserem netfabrik-vserver basic (debian) genau das gleiche
problem.
teilweise ist aus speichermangel nicht mal ein einloggen via ssh
möglich. und ausser den standard-diensten läuft da garnix drauf.
also php oder gar python kann man getrost vergessen. an der config
des servers wurde von unserer seite nichts geändert, aber inzwischen
mussten wir sogar mysql abschalten, damit der apache wenigstens
die "temporär offline"-html-seite anzeigen kann.
zwischenzeitlich(vor 2 monaten) lief da sogar mal eine postgres-datenbank
drauf, inzwischen lässt sich kaum noch apt starten.
merkwürdig ist auch, dass "free" eigentlich ausreichend speicher anzeigt:

Code:

        total         used       free         shared    buffers     cached
Mem:        262144     161200     100944          0          0          0
-/+ buffers/cache:     161200     100944
Swap:            0          0          0

aber ein "cat /proc/user_beancounters" sieht so aus:

Code:

Version: 2.5                                                                                                                     
       uid  resource                     held              maxheld              barrier                limit              failcnt
   2066161: kmemsize                  3222304              4810126              5644968              6209464                    0
            lockedpages                     0                    0                  302                  302                    0
            privvmpages                 61583                69900                65536                73728                   93
            shmpages                      655                 1311                16305                16305                    0
            dummy                           0                    0                    0                    0                    0
            numproc                        28                   48                   96                   96                    0
            physpages                   31301                39684                    0  9223372036854775807                    0
            vmguarpages                     0                    0                32768  9223372036854775807                    0
            oomguarpages                40285                42305                32768  9223372036854775807                    0
            numtcpsock                     10                   17                  152                  152                    0
            numflock                        4                    8                  168                  183                    0
            numpty                          1                    2                   12                   12                    0
            numsiginfo                      0                    3                  256                  256                    0
            tcpsndbuf                   93760               288048              1133248              2214592                    0
            tcprcvbuf                  136784               530744              1133248              2214592                    0
            othersockbuf                 8056               301336               524572               922896                    0
            dgramrcvbuf                     0               318936               524572               524572                    0
            numothersock                   12                   46                  198                  198                    0
            dcachesize                 562437               759240               751593               774141                   17
            numfile                      1202                 1744                 3008                 3008                    0
            dummy                           0                    0                    0                    0                    0
            dummy                           0                    0                    0                    0                    0
            dummy                           0                    0                    0                    0                    0
            numiptent                      10                   10                   32                   32                    0

also ich denke, da wurde von seiten netfabrik irgendwas verkonfiguriert.
anders kann ich mir das nicht erklären.

kündigung geht wirklich nur per einschreiben, oder?

mbroemme · Mar 25, 2007

Hi,

@all: Mal als Info, das free zeigt wirklich den tatsaechlichen Verbrauch und freien Speicher an.

@dennis: Du siehst du hast 256 MB (ergibt sich 1.) aus free und 2.) aus dem Wert privmpages * 4, da das Pages und nicht kByte sind) Und hey, wer mit 256 MB RAM nicht klarkommt, der sollte eventuell einfach ueber einen großeren Server nachdenken, denn nach der Installation (im Auslieferungszustand) funktionierts ja einwandfrei. Bei dcachesize kann ich mal gucken ob man da noch was optimieren kann, beim Speicher aber definitiv nicht.

wakko · Mar 25, 2007

genau das ist es ja, was mich so verwirrt, dass nämlich scheinbar
ausreichend speicher zur verfügung steht, aber der betrieb trotzdem nicht
möglich ist.
sobald ich mysql starte geht garnichts mehr. da ist sogar für "free" zu wenig
speicher vorhanden.
ich dachte erst, es läge an einem fehlgeschlagenem clamav-update, aber selbst
die komplette deaktivierung von clamav incl. freshclam ist zwecklos.
also der vserver ist zur zeit nicht mit mysql nutzbar. und an der config haben
wir nichts verändert. und man muss inzwischen fast jedes mal rebooten, um
überhaupt per ssh zugreifen zu können.

mbroemme · Mar 26, 2007

Hi,

@dennis: Ich hab die dcachsize Werte mal verdoppelt, das sollte so ohne Probleme laufen.

jumphigh · Mar 26, 2007

Hallo Herr Brömme,

ich muss leider dennis2society zustimmen. Seit dem Restart vorige Dienstagnacht hält mein Server keine 24h mehr durch, ohne sich wegen Speichermangels aufzuhängen. Wie gesagt, habe ich an der Config vor und nach dem (behobenenem?) fstat-Bug nichts geändert, eher die Anzahl der Serverthreads bzw. -prozesse maximal verkleinert.

Wie Sie meinem ersten Posting entnehmen können, hatte ich früher so 41702 privvmpages mit einem Maximum unter 60000, jetzt klettert der Wert schon nach dem Neustart auf 62000 und Mails bleiben immer in der Postfixschlange stecken, weil Amavis nicht mehr will und die Barriere durchbrochen wird. Dann hängt immer das gesamte System, die resultierenden täglichen Restarts in der Frühe empfinde ich als Zumutung. Die dcachesize stimmt wieder (die war vor dem Bug Null und ist es jetzt wieder), aber es wird jetzt signifikant mehr Speicher verbraten. Oder besser gesagt: Der Speicher läuft zunehmend voll! Denn nach einem Restart geht ja alles, die in der Queue hängenden Mails werden von Amavis+Clamd wieder verarbeitet. Nur irgendwann innerhalb der folgenden Stunden hängt dann vieles.

Ich muss sagen, dass seit zwei Wochen der Server kaum noch zu gebrauchen ist! Davor war ich wirklich zufrieden, seit Sie numfiles auf 3008 angehoben hatten, aber jetzt finde ich die Situation zum Kotzen. Ich bin auf den Mailserver angewiesen!

Weiterhin haben Sie mir noch nicht erklärt, warum der Server 51 Tage lief, ich keinerlei Probleme hatte, und dann plötzlich vom fstat-Bug behelligt wurde! Ich behaupte, vorher waren wir besser dran. Ich werde das Gefühl nicht los, dass meine VM im laufenden Betrieb auf irgendwas schrottreifes migriert wurde. Waren das früher wirklich auch 7,77 GB Hostspeicher, oder nicht eher die geläufigeren 8 GB? Sie werden doch wohl nicht bei Ihrem eigenen SSV zugeschlagen haben???

MfG
Andreas

PS: Was mir noch einfällt: Ich hatte auch vor oder während des Autretens des fstat-Bugs Woche ein Clamd-Update von SuSE bezogen. Hat das irgendwas unverhältnismässig verändert? Aber andererseits schrieb ja dennis2society, dass das Verhalten auch ohne laufenden Clamd+freshclam auftritt.

mbroemme · Mar 26, 2007

Hi,

der fstat Bug tritt nur auf bei vielen Dateien auf einem Hostsystem und wenn genau der fstat Call ueber 32 Bit liegt (das tritt verdammt selten auf, denn eigentlich sind 32 Bit genug als Inode Anzahl, Sprich: Je groesser das Filesystem, desto hoeher ist die Wahrscheinlichkeit, da ueber die Zeit hinweg aber die Festplatten auch immer voller werden, Kunden machen ja was, wird es immer wahrscheinlicher) Wir haben ja auch ewig gebraucht den Bug ueberhaupt zu finden, vorher hatte sich nie ein Kunde beschwert.

Die Diskussion darueber moege man aber bitte auf der LKML fuehren, da existiert ein Eintrag und Patch zu dem Thema.

Nochwas wer an das Limit von 256MB RAM kommt, hey sorry der macht irgendwas falsch. Unsere VEs fuer unser PowerPanel verbraucht nichtmal soviel. An den privvmpages kann ich nunmal nichts aendern, wenn das nicht reicht bleibt nur ein Update ueber. Auch numfile von 3008 ist ansich fuer so eine VE viel zu hoch. Das sind "concurrent" File Deskriptoren, dass heisst "gleichzeitig" 3008. Wer es schafft gleichzeitig 3008 Files permanent offen zu halten, der sollte entweder seinen Server auf einen wesentlich groesseren wechseln oder seine MTA/AV/SPAM Kombination korrekt konfigurieren. Die numfile Probleme tretetn naemlich nur auf, wenn man extrem viele Mails lange und gleichzeitig in der Queue haelt und diese gescannt werden. Weiterhin kostet ja auch jeder offene File Deskriptor Speicher, was zu lasten deiner kmemsize geht.

wakko · Mar 26, 2007

Ich stimme Ihnen zu, dass 256 MB RAM für einen vServer
der kleinsten Ausführung total ausreichend sind. Das ist mehr als ich
erwartet hatte.
Das mit der Korrektur der dcachesize hat das Problem scheinbar behoben.
Allerdings läuft zur Zeit auch clamav noch nicht. Möglich, dass da das
fehlgeschlagene Update zu Problemen geführt hat.
Ich werde mal weiter danach forschen, ob es evtl. daran liegen könnte.

Aber schön zu wissen, dass hier jemand mitliest, der scheinbar schnell
und unbürokratisch Einfluss auf die Konfiguration bei den Netfabrik-vServern
hat, und das ganze auch noch am kostenpflichtigen Support vorbei.
Danke dafür.

mbroemme · Mar 26, 2007

Hi,

naja das dcachesize, war vielleicht wirklich etwas knapp bemessen, es ist ja schon bloed, wenn der Server zwar nach der Auslieferung funktioniert, aber zum Beispiel nicht mehr, sowie man eine Datenbank anlegt.

Der Wert jetzt ist voellig ausreichend und bietet auch dem Hostsystem (die wurden ja alle aufgeruestet mit RAM und Platten) genug Reserve. In diesem Sinne: Weiterhin viel Spass mit dem NetFabrik vSERVER.

wakko · Mar 26, 2007

Nur aus Interesse:
Laut einem Ihrer letzten Beiträge entsprechen die 256 MB RAM in
"free" einem privvmpages von ~65000 (also /4 ).
Allerdings zeigt mir "free" durchschnittlich > 128 MB freien Speicher an,
während der held-wert von privvmpages konstant bei ~64k liegt.
Denn rechnerisch müssten doch demnach die privvmpages bei ca. 32k
liegen. Widerspricht sich das nicht, oder habe ich da den Zusammenhang
falsch verstanden?

mbroemme · Mar 26, 2007

Hi,

das ist in der Tat etwas komisch, ich guck mir das heute Abend mal mit an.

Netfabrik Basic: VZ Quotas geändert?

New Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

New Member

Member

New Member

Member

New Member

New Member

New Member

Member

New Member

Member

New Member

We value your privacy