Re: Server fährt selbständig runter?

From: Bernd Walter <ticso(at)cicely7.cicely.de>
Date: Tue, 30 Oct 2012 11:17:32 +0100

On Mon, Oct 29, 2012 at 02:00:41PM +0100, Oliver Fromme wrote:
> Rainer Duffner wrote:
> > Hallo,
> >
> > ich habe aktuell einen Fall, wo ein Server (DL380-G6, 24GB
> > RAM, 8.3-AMD64) quasi von selber einen Shutdown macht.
> >
> > Das sieht dann so aus:
> >
> > [Sat Oct 27 03:09:28 2012] [warn] child process 64513 still did not
> > exit, sending a SIGTERM
> > [Sat Oct 27 03:09:28 2012] [warn] child process 64484 still did not
> > exit, sending a SIGTERM
> > [Sat Oct 27 03:09:30 2012] [notice] caught SIGTERM, shutting down
> >
> > Auf dem Syslog-Server kann man dann noch sehen:
> >
> > Oct 27 03:09:29 IP rc.shutdown 0d [user.notice] rc.shutdown: 90 second
> > watchdog timeout expired. Shutdown terminated.
> > Oct 27 03:09:29 IP init 21 [auth.alert] init: /bin/sh on /etc/rc.shut
> > down terminated abnormally, going to single user mode
> >
> > Auf dem Server läuft PHP-FPM (in etwa 200 Instanzen), die User kommen
> > aus dem LDAP.
> > So um 03:00 wird das PHP-FPM neu gestartet, auch auf weiteren Servern.
> >
> > Das führt dann wohl dazu, dass er den Server mal kurz nicht erreichen
> > kann:
> >
> > Oct 27 03:07:43 IP httpd 0e [user.info] httpd: nss_ldap: failed to bind
> > to LDAP server ldap://LDAP-IP/: Can\'t contact LDAP server
> > Oct 27 03:07:43 IP httpd 0e [user.info] httpd: nss_ldap: reconnected to
> > LDAP server ldap://LDAP-IP/
> > Oct 27 03:07:44 IP httpd 0e [user.info] httpd: nss_ldap: failed to bind
> > to LDAP server ldap://LDAP-IP/: Can\'t contact LDAP server
> > Oct 27 03:07:44 IP httpd 0e [user.info] httpd: nss_ldap: reconnected to
> > LDAP server ldap://LDAP-IP/
> >
> > Danach fängt er dann die shutdown-procedure an.
> >
> > Woher kann sowas kommen?
> >
> > Mir ist klar, dass das LDAP-Problem auch gelöst werden muss, aber
> > trotzdem ist die ganze Sache doch recht verwunderlich, oder?
>
> Mein erster Verdacht wäre, dass in irgendeinem Skript, das
> als root läuft, ein Tippfehler oder logischer Fehler ist,
> der dazu führt, dass ein Signal (SIGTERM, SIGINT, SIGUSR1
> oder SIGUSR2) an init (PID 1) geschickt wird. Skripte, die
> irgendwelche Daemonen bzw. Services restarten, würde ich
> mal gründlich prüfen.

Wäre auch mein erster Verdacht.
Da der Rechner einen sauberen shutdown to single user macht, wird
das ein SIGTERM gewesen sein.

> Shell-Skripte kann man recht gut debuggen, indem man ganz
> am Anfang eine Zeile "set -vx" einfügt. Dann werden während
> der Ausführung sowohl die gelesenen Zeilen als auch die
> eigentlich Kommandos (nach Expansion) nach stderr ausgegeben.
> Im Falle von cron-jobs bekommt man das dann gemailt, oder
> man leitet es in eine Datei um ("... 2> /root/mydebug.log").
>
> Ich glaube nicht, dass der Shutdown mit dem LDAP-Problem
> direkt zusammenhängt. Das wird nur Zufall sein.

failed to bind - nein, das sollte keinen shutdown auslösen.
Einen Panic vielleicht mit Bugs, aber das war ja ein sauberer shutdown.
Kann aber natürlich sein, dass da das kaputte Shellscript zu gehört,
aber das kann genauso gut irgendwo anders stecken.
Eine unmitelbare zeitliche Nähe gibt es ja auch nicht.
Falls möglich mal in Jails verlagern, dann können die Prozesse keinen
SIGTERM an den init schicken.

-- 
B.Walter <bernd@bwct.de> http://www.bwct.de
Modbus/TCP Ethernet I/O Baugruppen, ARM basierte FreeBSD Rechner uvm.
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Tue 30 Oct 2012 - 11:17:45 CET

search this site