Re: Hilfe beim Analysieren von regelmaessigen Crashes benoetigt

From: Bernd Walter <ticso(at)cicely7.cicely.de>
Date: Mon, 29 Oct 2012 11:32:56 +0100

On Mon, Oct 29, 2012 at 10:18:17AM +0100, Bjoern Engels wrote:
> On Mon, Oct 29, 2012 at 10:03:00AM +0100, Bernd Walter wrote:
> > On Mon, Oct 29, 2012 at 09:10:14AM +0100, Bjoern Engels wrote:
> > > seit dem Update auf 8.3 (Zufall?) crasht mein privater Server circa
> > > alle zwei Wochen morgens gegen 07:00h. Das hoert sich ja ganz nach einem
> > > Cronjob an, ich konnte aber keinen passenden dazu finden. Als das ein
> > > paar Mal aufgetreten war, habe ich die Debug-Optionen im Kernel
> > > aktiviert und die Maschine landet jetzt im Debugger, wenn das passiert.
> > > Mittels HP iLO komme ich dann an eine Remotekonsole. Leider ist die
> > > iLO-Konsole ziemlicher Schrott, in einer Script-Session siecht man,
> > > dass Zeichen durcheinander geraten etc pp. Ich habe hier einen Backtrace
> > > hinterlegt - wie gesagt, mag sein, dass da Zeichen zwischendurch fehlen
> > > oder Ein- und Ausgabe zeichenweise durcheinandergewuerfelt werden. :-(
> > >
> > > http://bsdpaste.bsdgroup.de/198910
> > >
> > > PID 5389 ist ein find-Prozess, auch bei den vorherigen Crashes war es
> > > ein find, was den Absturz ausgeloest hat. Ein haerndisches "find / -ls",
> > > das ich mal in eine Script-Session aufgerufen habe, laeuft uebrigens
> > > ohne Probleme durch.
> > >
> > > Hat jemand eine Idee, wie ich hier sinnvoll bei der Ursachensuche
> > > weiterkomme?
> >
> > Schon mal im single-user mode einen händischen fsck versucht?
> > Man sieht ja leider nur den Backtrace, aber nicht die Panic-Meldung,
> > falls es überhaupt ein panic war und kein machine check durch z.B.
> > einem kaputten RAM-Riegel.
>
> Ja, fsck habe ich mehrmals im single user mode laufen lassen, das
> brachte keine Fehler. An den defekten RAM-Riegel kann ich fast nicht
> glauben, es ist ECC-Speicher verbaut und die ProLiants loggen
> Speicherfehler und MCEs. Die Logs sind aber sauber. Und dann waere es ja
> schon ein sehr grosser Zufall, dass es immer dieser morgendliche find
> ist, der den Fehler ausloest.

Naja - das mit dem ECC ist immer so eine Sache.
RAM-Chips sind bei PC-RAM meistens nur 4-bit breit, aber wenn ein Chip
komplett ausfällt, dann sind halt bisweilen auch 4-bit weg.
Bei diversen Maschinen kann man ja daher auch RAM spiegeln.
Aber stimmt schon - wenn im Log vom Board nichts steht wird da wohl auch
kein Fehler gewesen sein.

> Ich werde wohl mal die Remote-Konsole in einer Script-Session starten,
> dann wird die Panic-Ausgabe ja hoffentlich mitgeloggt.

Tja - der stacktrace deutet für mich persönlich halt nur auf irgendwas
mit Filesystem oder dafür benötigte Hardware hin.
Pasnicmeldung könnte einen neuen Impuls liefern, sofern niemand anders
ein bekanntes Muster darin sieht.

-- 
B.Walter <bernd@bwct.de> http://www.bwct.de
Modbus/TCP Ethernet I/O Baugruppen, ARM basierte FreeBSD Rechner uvm.
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Mon 29 Oct 2012 - 11:33:09 CET

search this site