Re: badmem fuer FreeBSD

From: Bernd Walter <ticso(at)cicely12.cicely.de>
Date: Sat, 25 Dec 2004 13:13:34 +0100

On Sat, Dec 25, 2004 at 12:04:19PM +0100, Ihsan Dogan wrote:
> On Friday, 24 Dec 2004 22:38 +0100, Bernd Walter wrote:
> > Ich kann mich da auch Olivers Meinung bezüglich der Fehlerstabilität
> > nicht anschließen.
> > Prinzipiel hat er schon recht, sofern es Hardware von Qualität ist.
> > Aber mit Qualitätsram sind Fehler pro Chip gesehen äußerst selten, auf
> > PCs kann man aber normalerweise nicht sonderlich viele RAM Chips
> > verbauen.
> > RAM Fehler auf PCs sind in der Regel auf schlechte Spannungsversorgung,
> > schlechter Steckkontakt oder mindere Qualität zurückzuführen - alles
> > Punkte die zumeist ganze Riegel manchmal gar mehrere beeinflussen.
>
> Oliver bezog sich aber auf Server. Genau in diesem Bereich kann
> man eigentlich davon ausgehen, dass die Hardware von guter
> Qualität ist.

Sollte man von ausgehen können, aber PCs sind nun mal vom Design her
keine Server.
Man hat nur eine sehr überschaubare Anzahl Speicherchips in Betrieb
und damit eine deutlich geringere Fehlerwahrscheinlichkeit auf echte
Chipfehler wie der Oliver die beschrieben hat.
Das ist nicht zu vergleichen mit Alphas wo Speicherriegel größer sind
als heutige PC Boards.
Hingegen gibt es auch bei Qualitäts PCs immer wieder Inkompatibilitäten
zwischen Speicherbausteinen, Chipset und BIOS.

> > > Ab Solaris 10 wird die Sachen insofern einfacher, weil das OS dann
> > > dem Admin mitteilt was defekt ist und ausgetauscht werden sollte.
> > > Allerdings nur auf Sparc Hardware.
> >
> > Das ist kein neues Feature von Solaris 10.
> > Nummern der DIMM Sockel habe ich schon mit einer SS10 unter Solaris 2.3
> > gesehen - ob der Bereich deaktiviert wurde kann ich aber nicht sagen.
>
> Bereiche werden erst seit Solaris 8 Kernel Update 108528-2x
> (muss irgendwo in der 20'er Gegend sein, bin mir nicht mehr
> sicher wo es genau eingeführt wurde) deaktiviert.
>
> Bis um mit Solaris 9 sagt wird nur gesagt, dass ECC Fehler auf
> einem bestimmten Riegel aufgetreten ist. Das OS sagt aber nicht,
> ob Hardware ausgetauscht werden muss oder nicht. Der Hintergrund
> liegt zum einem in dem, dass Admins heute bereits bei einem
> korrigierbaren ECC Fehler Riegel auswechseln, obwohl das noch
> kein Grund zur Besorgnis ist.

Ach so - es geht darum, dass der heute Admin Entscheidungshilfen
braucht.
Nunja - ein ECC Fehler ist in der Tat kein Defekt und einzelne
Bitfehler gehören prinzipbedingt zum DRAM dazu - deshalb kann man
DRAM auch nur mit ECC wirklich zuverlässig betreiben.
Softerrorrate nennt sich das ganze.

> SMF soll Hardware Fehler frühzeitig erkennen und durch
> deaktivieren der entsprechender Hardware unnötige Downtime
> verhindern.

Frühzeitig ist gut - Software kann Fehler nur erkennen sobald diese
auftreten.

-- 
B.Walter                   BWCT                http://www.bwct.de
bernd(at)bwct.de                                  info(at)bwct.de
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Sat 25 Dec 2004 - 13:15:24 CET

search this site