Hallo,
in letzter häufen sich bei mir die Serverabstürze durch stumpfes einfrieren. Nur dreimal gabs einen Eintrag in den Logs.
Einmal ein httpd Speicherüberlauf,
einmal ein php sigterm in einem Kunden-Account,
und einmal ein Speicherüberlauf durch stats_load.sh
Ich versuche mal, nicht zu weit auszuholen, und das Ganze strukturiert zu beschreiben, vielleicht habt ihr ja eine Idee.
Die Server sind alle bei manitu Mietserver, insgesamt laufen da 8 Stück, sieben davon mit PD-Admin, der 8. macht nur Nagios.
Mein alter Hauptserver "web1" fing vor knapp einem zwei Monaten unreproduzierbar damit an, vorangegangen war ein Einbruch durch ein unsicheres Kundenscript und das erlangen einer Root-Shell, welches wir aber beseitigen konnten.
Die Abstürze kamen um diesen Zeitpunkt, eventuell auch schon vorher, ich kanns gerade garnicht genau sagen. Aber da war der Rechner auch schon 2 Jahre in Betrieb und sollte sowieso ersetzt werden.
Also habe ich für diesen Server einen aktuellen Ersatz bestellt. Ein Kunde wollte ebenfalls einen neuen Server, also gleich zwei identische Rechner bestellt, findet ihr auf der Manitu-Seite als Rootserver L.
Ein Ausflug nach Squeeze 64 ist grandios gescheitert, es hat Konflikte mit Libs gegeben, hatte ich hier im Forum an anderer Stelle beschrieben. Und die Test-Installation ist auch eingefroren, sobald PD-Admin und meine Pakete drauf waren. Ich habe das auf das noch nicht zu Ende getestete Manitu Squeeze Paket geschoben und kurzerhand wieder Lenny 32 installiert. Damit wars gut, dachte ich.
Nun sind beide Rechner installiert und in Betrieb, und je nach Belastung auf dem Rechner passiert es nun wie oben beschrieben, dass er einfach einfriert. Ping geht noch, ssh will sich verbinden, wird aber auch nicht abgelehnt. Nach einem Reset läuft er wieder.
Alle meine Rechner laufen mit demselben Setup, die alten Kundenserver unter etch oder lenny machen überhaupt keine Probleme, uptime teilweise über 700 Tage.
Einziger Unterschied zu den Problemservern: Nur eine Festplatte.
Alle Problem-Rechner haben folgendes gemeinsam:
- 2 HDDs, der alte 160gb, die neuen 1TB
- Raid 1 mit mdadm
- Lenny
Der alte web1 ist AMD Dualcore, die beiden neuen sind Quadcore. Alle sind eingefroren.
Nun hat mir ein Kollege gesagt (der im übrigen deutlich fähiger ist als ich), dass er es mal mit IBM Platten gehabt hat, dass der smartd offline selftest ihm die Platten gefressen hat. Also habe ich /service/smartd/ erstmal komplett deaktiviert. Das würde auch zu dem Gesamtbild passen, denn die Smartmontools habe ich generell noch nicht lange im Einsatz, erst ca. ein halbes Jahr.
Danach gabs aber leider noch einen Absturz.
Derzeit ist es so einer pro Tag und Rechner. Mal zwei, mal laufen sie zwei Tage durch.
Jedes mal synchroniert sich das Raid neu auf, zumindest auf der großen Partition.
Partitionen gibts übrigens nur für /swap, /boot und /
Eine andere Überlegung ging dahin, dass alle drei Rechner irgendwelche Hardwareprobleme haben, aber der eine läuft ja schon länger und hat nie Zicken gemacht.
Der nächste Schritt wäre, den rsyslog remote loggen zu lassen, und mal für ein paar Tage eine KVM-Over-IP Konsole anschliessen zu lassen.
Mehr Ideen hab ich derzeit nicht.
Und wahrscheinlich übersteigen weitere Maßnahmen auch meine Fähigkeiten.
Bis hierher komme ich eigentlich zurecht.
Ich bin zwar kein Dau, aber auch kein Nerd...
Können die Scheissdinger nicht einfach nur laufen...? So macht das keinen Spass.
Und ich wäre echt sehr dankbar, wenn jemand eine brauchbare Idee hat oder mir Hilfe anbieten könnte.