Server frieren ein - ich bin ratlos

  • Hallo,


    in letzter häufen sich bei mir die Serverabstürze durch stumpfes einfrieren. Nur dreimal gabs einen Eintrag in den Logs.
    Einmal ein httpd Speicherüberlauf,
    einmal ein php sigterm in einem Kunden-Account,
    und einmal ein Speicherüberlauf durch stats_load.sh


    Ich versuche mal, nicht zu weit auszuholen, und das Ganze strukturiert zu beschreiben, vielleicht habt ihr ja eine Idee.
    Die Server sind alle bei manitu Mietserver, insgesamt laufen da 8 Stück, sieben davon mit PD-Admin, der 8. macht nur Nagios.


    Mein alter Hauptserver "web1" fing vor knapp einem zwei Monaten unreproduzierbar damit an, vorangegangen war ein Einbruch durch ein unsicheres Kundenscript und das erlangen einer Root-Shell, welches wir aber beseitigen konnten.


    Die Abstürze kamen um diesen Zeitpunkt, eventuell auch schon vorher, ich kanns gerade garnicht genau sagen. Aber da war der Rechner auch schon 2 Jahre in Betrieb und sollte sowieso ersetzt werden.


    Also habe ich für diesen Server einen aktuellen Ersatz bestellt. Ein Kunde wollte ebenfalls einen neuen Server, also gleich zwei identische Rechner bestellt, findet ihr auf der Manitu-Seite als Rootserver L.


    Ein Ausflug nach Squeeze 64 ist grandios gescheitert, es hat Konflikte mit Libs gegeben, hatte ich hier im Forum an anderer Stelle beschrieben. Und die Test-Installation ist auch eingefroren, sobald PD-Admin und meine Pakete drauf waren. Ich habe das auf das noch nicht zu Ende getestete Manitu Squeeze Paket geschoben und kurzerhand wieder Lenny 32 installiert. Damit wars gut, dachte ich.


    Nun sind beide Rechner installiert und in Betrieb, und je nach Belastung auf dem Rechner passiert es nun wie oben beschrieben, dass er einfach einfriert. Ping geht noch, ssh will sich verbinden, wird aber auch nicht abgelehnt. Nach einem Reset läuft er wieder.


    Alle meine Rechner laufen mit demselben Setup, die alten Kundenserver unter etch oder lenny machen überhaupt keine Probleme, uptime teilweise über 700 Tage.
    Einziger Unterschied zu den Problemservern: Nur eine Festplatte.


    Alle Problem-Rechner haben folgendes gemeinsam:
    - 2 HDDs, der alte 160gb, die neuen 1TB
    - Raid 1 mit mdadm
    - Lenny


    Der alte web1 ist AMD Dualcore, die beiden neuen sind Quadcore. Alle sind eingefroren.


    Nun hat mir ein Kollege gesagt (der im übrigen deutlich fähiger ist als ich), dass er es mal mit IBM Platten gehabt hat, dass der smartd offline selftest ihm die Platten gefressen hat. Also habe ich /service/smartd/ erstmal komplett deaktiviert. Das würde auch zu dem Gesamtbild passen, denn die Smartmontools habe ich generell noch nicht lange im Einsatz, erst ca. ein halbes Jahr.


    Danach gabs aber leider noch einen Absturz.


    Derzeit ist es so einer pro Tag und Rechner. Mal zwei, mal laufen sie zwei Tage durch.
    Jedes mal synchroniert sich das Raid neu auf, zumindest auf der großen Partition.
    Partitionen gibts übrigens nur für /swap, /boot und /


    Eine andere Überlegung ging dahin, dass alle drei Rechner irgendwelche Hardwareprobleme haben, aber der eine läuft ja schon länger und hat nie Zicken gemacht.


    Der nächste Schritt wäre, den rsyslog remote loggen zu lassen, und mal für ein paar Tage eine KVM-Over-IP Konsole anschliessen zu lassen.
    Mehr Ideen hab ich derzeit nicht.
    Und wahrscheinlich übersteigen weitere Maßnahmen auch meine Fähigkeiten.
    Bis hierher komme ich eigentlich zurecht.
    Ich bin zwar kein Dau, aber auch kein Nerd...


    Können die Scheissdinger nicht einfach nur laufen...? So macht das keinen Spass.
    Und ich wäre echt sehr dankbar, wenn jemand eine brauchbare Idee hat oder mir Hilfe anbieten könnte.

    • Offizieller Beitrag

    Hallo,


    mein Beileid :(


    Wir betreiben mehrere Server, z.B: Hetzner EQ9 und EQ10, jeweils mit 4 1,5TB HDDs an einem 4 PORT HW RAID als RAID10. Als KVM verwenden wir eRIC G4 Karten.


    Die Hetzner 64bit Debian Images haben bisher noch keine Probleme bereitet.


    Von SW-RAIDs halte ich nichts; die haben bei mir bisher immer Probleme bereitet.


    Wir hatten mal ein Problem, dass sich sporadisch die Festplatten immer readonly gemountet hatten; das Problem war ein defektes SATA-Kabel. Könnte vielleicht
    soetwas vielleicht auch bei Dir zutreffen?


    mfg
    Twilo

  • Hallo Twilo,
    wenn man alles andere ausschliessen möchte, bleibt in der Tat nur das Raid über.


    Zitat

    Original von Twilo
    Von SW-RAIDs halte ich nichts; die haben bei mir bisher immer Probleme bereitet.


    Wie genau haben sich denn diese Probleme gezeigt?


    Zitat

    Original von Twilo
    Wir hatten mal ein Problem, dass sich sporadisch die Festplatten immer readonly gemountet hatten; das Problem war ein defektes SATA-Kabel. Könnte vielleicht
    soetwas vielleicht auch bei Dir zutreffen?


    Wahrscheinlich eher nicht, die Kabel wurden zumindest bei einem Rechner schon getauscht.

  • Hallo,


    kannst Du während des Freezes noch auf den Apache (ohne DB Verbindung), oder andere nicht auf die Festplatte zugreifende Dienste zugreifen?


    Ich kennen das beschriebene Problem in Verbindung mit hoher I/O Last. Insbesondere bei hängenden PHP Skripten (ImageMagick - convert etc.) und sehr hohe MySQL Zugriffen konnen wir diese Symptome trotz Wrapper beobachten. Was sagt das Monitoring? Läuft Munin, Hyperic o.ä.? Wie stark ist der MySQL Server ausgelastet?


    In Verbindung mit dem Software-Raid und der damit höheren I/O-Last, kann ich mir vorstellen das ein ähnliches Problem vorliegt. Wir haben neben der Optimierung div. Skripte den MySQL Server ausgelagert. Seit dem sind diese Hänger nicht mehr aufgetreten.

  • Sofern die Arbeitsspeicher- und Prozesslimits in der Angebotsverwaltung richtig konfiguriert sind, würde ich würde hier von einem Hardwarefehler ausgehen - insbesondere da es Probleme beim Software-RAID zu geben scheint.


    Viele Grüße
    Daniel Bradler

  • Danke für die vielen Hilfen!


    Ich glaube ich habs gefunden, das hier wars:

    Zitat

    Sofern die Arbeitsspeicher- und Prozesslimits in der Angebotsverwaltung richtig konfiguriert sind


    Und das in Verbindung mit einem uralten Perl-Shop-Script, welches ich seit Jahren unverändert für eine Handvoll Kunden einsetze - auf beiden betroffenen Servern.


    Irgendwann in den Anfangszeiten von PD-Admin habe ich in die Angebote mal irsinnige Zahlen eingestellt. Deswegen ist wohl früher auch der "alte web1" eingefroren, aber eben nur alle paar Wochen mal, wenn mehrere Zufälle zusammen gekommen sind. Diese Konfiguration habe ich dann über mehrere Serverumzüge durch das kopieren der vadmin-Tabellen mitgeschleift.


    Mit der neu eingesetzten mysql Version 5.1 haben sich die Fehler durch das Perl-Script gehäuft, und das Script ist oft "unsauber gestorben", oder hat mal eben die ganze Widerrufsbelehrung ins Error-Log geschrieben und ist dann hängen geblieben.
    Somit war der Speicher schneller voll als die Scripte abgebrochen sind, und das wars dann.


    Tja, und es ist wieder mal so banal, dass ich mich erstmal zwei Tage in die Ecke gestellt und geschämt habe :(
    Die Server laufen nun seit Montag Abend ohne weitere Störungen (mit Ausnahme des proftpd- Problems, anderer Thread). Ich hoffe Ihr tragt mir solche Dummheiten nicht allzu sehr nach, ich war echt am Ende. Wenn man zwei Wochen lang zu jeder Tages- und Nachtzeit von einer Nagios SMS an den Rechner geholt wird, und dann noch eine Stunde auf Fehlersuche geht, um es endlich zu finden, macht einen das irgendwann echt Mürbe und wahrscheinlich auch Betriebsblind.


    Also nochmal vielen Dank!

  • Ich muss den alten Thread nochmal hoch holen, weil sich das Problem noch nicht gegeben hat.
    Beide Server mit der neuen PD-Admin Version frieren regelmäßig ein, ein bis zweimal die Woche kommt das vor. Der Provider ist so nett und ist ein paar mal hingerannt, es sind immer panics vom httpd auf dem Schirm zu sehen.


    Gerade hab ich auch endlich mal einen Eintrag im ErrorLog gefunden:

    Code
    [error] server reached MaxClients setting, consider raising the MaxClients setting


    An den Einstellungen kann ich nicht noch mehr runter drehen, und bisher hatte keiner meiner Server solche Probleme. Erst seit dieser Version, in der dann auch eben mysql 5.1 mit installiert wurde. Ob das in Zusammenhang stehen kann? Alle anderen Server sind absolut problemlos und haben eine Uptime von hunderten von Tagen.

  • Zitat

    Original von Daniel Bradler
    Wie ist MaxClients bei Ihnen eingestellt?


    Bisher noch nicht, ich verändere ungerne die Standard-Einstellungen von PD-Admin. Hier steht nach wie vor eine 100, so wie es mit der Installation voreingestellt ist.

  • Welche Parameter, incl. diesem, wären dann ggf. auf welche Werte anzupassen?


    Bisher hatte ich allerdings niemals das Problem dass mir auch auf sehr gut ausgelasteten Systemen der Speicher voll läuft und der Rechner einfriert.


    Dazu wäre auch noch zu sagen, dass der Freeze auch mitten in der Nacht vor kommt. Gut, dann kann aber sein dass gerade google auf der Seite unterwegs ist...

  • Zitat

    Original von msnet
    Dazu wäre auch noch zu sagen, dass der Freeze auch mitten in der Nacht vor kommt.


    Nachts laufen die Backups von PD-Admin. Ist es möglich die Zeit des Stillstands mit den cronjobs zu vergleichen? Vielleicht ist es doch etwas mit der Festplatte und erhöhtem zugriff durch die Backups.

  • Zitat

    Original von msnet
    Welche Parameter, incl. diesem, wären dann ggf. auf welche Werte anzupassen?


    Ich würde es zunächst auf 250 einstellen und dann beobachten, ob das Problem weiterhin auftritt.


    Da Sie von einem "Freeze" sprechen, bin ich mir aber nicht sicher, ob es nicht noch weitere Probleme gibt. Generell sollte das Produkt aus der in der Angebotsverwaltung definierten Prozessanzahl und dem Arbeitspeicher pro Prozess deutlich kleiner sein als der Hauptspeicher des Servers. Bei einem Server mit 8 GB Arbeitsspeicher würde ich nicht mehr als 10-20 Prozesse mit 128 MB Speicher freigeben.


    Viele Grüße
    Daniel Bradler

  • Hallo,
    @ Lars
    Die Images welche seid 4Monaten verwendet werden haben eigentlich kein Problem mehr mit Netzwerkkartentreibern. Die Install laut der Wiki kann man sich eigentlich sparen. Ausserdem muesste er dann Eintraege "Link down" in den Logs stehen haben.


    Ich hatte einmal Probleme mit einfrierenden Servern gehabt als das Mainboard einen Defekt hatte. Wenn es allerdings mehrere Server betrifft koennte es vielleicht auch an fehlerhaften BIOS Einstellungen liegen. Dies hatte ich bei mehreren Servern schon gehabt.