Re: badmem fuer FreeBSD

From: Ihsan Dogan <ihsan(at)dogan.ch>
Date: Sat, 25 Dec 2004 14:00:41 +0100

On Saturday, 25 Dec 2004 13:13 +0100, Bernd Walter wrote:

> > > Ich kann mich da auch Olivers Meinung bezüglich der Fehlerstabilität
> > > nicht anschließen.
> > > Prinzipiel hat er schon recht, sofern es Hardware von Qualität ist.
> > > Aber mit Qualitätsram sind Fehler pro Chip gesehen äußerst selten, auf
> > > PCs kann man aber normalerweise nicht sonderlich viele RAM Chips
> > > verbauen.
> > > RAM Fehler auf PCs sind in der Regel auf schlechte Spannungsversorgung,
> > > schlechter Steckkontakt oder mindere Qualität zurückzuführen - alles
> > > Punkte die zumeist ganze Riegel manchmal gar mehrere beeinflussen.
> >
> > Oliver bezog sich aber auf Server. Genau in diesem Bereich kann
> > man eigentlich davon ausgehen, dass die Hardware von guter
> > Qualität ist.
>
> Sollte man von ausgehen können, aber PCs sind nun mal vom Design her
> keine Server.
> Man hat nur eine sehr überschaubare Anzahl Speicherchips in Betrieb
> und damit eine deutlich geringere Fehlerwahrscheinlichkeit auf echte
> Chipfehler wie der Oliver die beschrieben hat.
> Das ist nicht zu vergleichen mit Alphas wo Speicherriegel größer sind
> als heutige PC Boards.
> Hingegen gibt es auch bei Qualitäts PCs immer wieder Inkompatibilitäten
> zwischen Speicherbausteinen, Chipset und BIOS.

Ist ja auch kein Vergleich. In PC's hat man ja nicht wirklich
viel Memory drinn. Wo wenig Memory drinn ist, treten halt auch
weniger Fehler auf.

> > Bis um mit Solaris 9 sagt wird nur gesagt, dass ECC Fehler auf
> > einem bestimmten Riegel aufgetreten ist. Das OS sagt aber nicht,
> > ob Hardware ausgetauscht werden muss oder nicht. Der Hintergrund
> > liegt zum einem in dem, dass Admins heute bereits bei einem
> > korrigierbaren ECC Fehler Riegel auswechseln, obwohl das noch
> > kein Grund zur Besorgnis ist.
>
> Ach so - es geht darum, dass der heute Admin Entscheidungshilfen
> braucht.

Das Problem ist, dass der Admin halt nicht mit der Maschine
sondern mit dem OS arbeitet und dementsprechend ist meinstens das
Hardware Wissen nicht unbedingt gegeben.

> > SMF soll Hardware Fehler frühzeitig erkennen und durch
> > deaktivieren der entsprechender Hardware unnötige Downtime
> > verhindern.
>
> Frühzeitig ist gut - Software kann Fehler nur erkennen sobald diese
> auftreten.

Dazu braucht es natürlich auch Unterstützung von der CPU und
funktioniert mit der aktuellen US-III CPU Generation (dazu
gehören auch die IV und IV+) nur bedingt. Interessant wird dieses
Feature erst mit der Rock CPU.

Gruss, Ihsan...

-- 
Swiss Unix User Group: http://www.suug.ch/
Software Packages for Solaris: http://www.blastwave.org/
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Sat 25 Dec 2004 - 14:06:32 CET

search this site