Re: server crash bei festplattenaktivität

From: Bernd Walter <ticso(at)cicely7.cicely.de>
Date: Fri, 27 Aug 2010 13:01:09 +0200

On Fri, Aug 27, 2010 at 11:45:56AM +0100, Marian Hettwer wrote:
> Hallo Bernd,
>
> On Fri, 27 Aug 2010 11:18:30 +0200, Bernd Walter
> <ticso(at)cicely7.cicely.de> wrote:
> > On Fri, Aug 27, 2010 at 09:47:07AM +0100, Marian Hettwer wrote:
> >>
> >> Was wäre denn als nächster Schritt ratsam? Ein script was "vmstat 1" >
> >> /root/foo.log schreibt?
> >> Mit welchen tools würdet ihr euch auf die Lauer legen um
> >> rauszubekommen was den panic verursacht?
> >
> > Consolen-Log - evtl. auch crashdump, was ebenfalls die Logeinträge
> > sichert, sofern die Festplatte dann noch mag.
> > Alles aus dem Userland heraus kann nur vor dem Panic protokollieren
> > und ist damit vermutlich wertlos.
> >
> Consolen Log ist schwer, da daß nur so ne remote VGA dingens konsole
> ist die man nur zeitlich begrenzt hat.

Du könntest den automatischen reboot bei einem panic abschalten
und ggfs kernel debugger einbauen.
Dann würde der Panic zumindest noch auf dem Bildschirm stehen.

> Preiswert hoster halt (Hetzner in dem fall).
> Da es ja reproduzierbar bei festplattenaktivität passiert hoffe ich auf
> der vga konsole mal den crash zu sehen.
> Reboot alleine macht er nicht. Das habe ich vorhin falsch
> wiedergegeben.
> Er hängt und reagiert nichtmehr auf ping. Ich denke ich werde da
> irgendwo einen netten panic sehen... falls ich die remote console habe.

Ah - dann kann es ein panic ohne autoreboot sein - hängt halt von
deiner config ab.
Oder es ist wirklich eine Platte - die klemmen sehr oft derart, dass
nichts mehr geht :(
Du wirst vermutlich auf dem Bildschirm eine Reihe von wilden
ata-timeouts sehen.
In dem Fall ist der Rechner normalerweise auch noch anpingbar.

> Also bringt vmstat und co vermutlich auch nix. hmpf.
>
> >> Klar ist nur: Festplatten aktivität. Scheinbar auch auf der primären
> >> Platte.
> >
> > Also Festplattenprobleme äußern sich meistens nicht in einem reboot,
> > sondern in Hänger.
> >
> Hänger ist korrekt.

Ok - also Augenmerk auf Festplatte.
 
> >> Die Kiste ist ein 8.0-release und ich wollte erstmal nen update auf
> >> 8.1 machen.
> >
> > Das kann ich nicht empfehlen, wenn es derartige Probleme gibt, die
> > möglicherweise auf Hardware zurückzuführen sind.
> Ich habe den Gedanken ebenfalls schon verworfen.
> Erstmal backups sicherstellen (die ja auf der 2. festplatte liegen...
> seit tagen nur zur Hälfte).
> Danach den panic/hänger erzwingen und hoffen auf der remote console was
> brauchbares zu sehen...

Wenn du ausreichend Platz hast mache einen Abzug mit dd, oder besser
mit recoverdisk.
Vielfach steigen Platten nur beim seek aus.

> > Im Verdacht steht bei solchen Symptomen bei mir sehr hoch Netzteil,
> > RAM und Co, was dann Filesystem-Panics auslöst.
> Netzteil ist ein gutes Stichwort. Als die Kiste das erste mal nachts
> ausstieg meldete sich Hetzner selbstständig und sagte "Wir ham mal das
> Netzteil getauscht, das war kaputt".
> Weiß der Teufel, vielleicht haben sie da wieder ein kaputtes Netzteil
> verbaut ;)

Oh - das ist natürlich auch spannend.
Dann kommt evtl. auch ein lockeres (S/P)ATA-Kabel in Verdacht, was CRCs
verursacht - ist ja am Kabelbaum kräftig gewackelt worden.
Oder ein Wackler in einem der berüchtigten 5,25'er Stromsteckern.
Passiert normalerweise nach längerem Betrieb eher selten, aber wenn da
schon jemand dran war.
Vieleicht gibt der Kernel ja Aufschluß darüber - manchmal aber leider
auch nicht.

-- 
B.Walter <bernd@bwct.de> http://www.bwct.de
Modbus/TCP Ethernet I/O Baugruppen, ARM basierte FreeBSD Rechner uvm.
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Fri 27 Aug 2010 - 13:01:18 CEST

search this site