Re: badmem fuer FreeBSD

From: Ihsan Dogan <ihsan(at)dogan.ch>
Date: Sat, 25 Dec 2004 12:04:19 +0100

On Friday, 24 Dec 2004 22:38 +0100, Bernd Walter wrote:

> > Solaris verfolgt einen ähnlichen Ansatz wie Tru64. Es werden auch
> > dort die entsprechenden Pages ausser Betrieb gesetzt, allerdings
> > nur, wenn innerhalb von 24 Stunden 24 mal die gleichen Page einen
> > Fehler hatte. Wenn eine gewisse Prozent Zahl eines Riegels ausser
> > Betrieb ist, wird per Syslog auf ein defektes DIMM (inkl.
> > Board/DIMM Nummer sowie Partnummer) hingewiesen.
>
> Das funktioniert in der umfangreichen Form nur, wenn man die
> physikalische Organisation des Speichers kennt.
> Dazu ist immerhin genaue Kenntniss des jeweiligen Chipsets und der
> Organisation der jeweiligen Speicherbausteine erforderlich.
> Natürlich muss man prinzipiel hingehen und ganze MMU Seiten
> austauschen, aber genaue Kenntniss hat enorme statistische Einflüsse
> und das erkennen der Riegelgrenzen ist dann auch erforderlich.
> Ein echter Showstoper ist aber dass FreeBSD diverse Probleme damit hat
> wenn der physkalische Speicher lückenhaft ist - das klassische Loch
> unterhalb von 1M ist da schon störend genug.
> Ein weiteres Problem ist, dass längst nicht jeder Chipset über ECC
> korigierte Fehler berichtet.
> Auf Alphas bekommt man zwar jeden Fehler zuverlässig berichtet, kann
> aber leider auch nicht ohne weiteres auf den jeweiligen Riegel
> schließen, da das OS auch hier genauere Hardwarekenntniss braucht als
> Informationen vorliegen.

Aus diesem Grund funktioniert dieses Feature von Solaris nicht
auf x86 sondern nur auf sparc.

> Ich kann mich da auch Olivers Meinung bezüglich der Fehlerstabilität
> nicht anschließen.
> Prinzipiel hat er schon recht, sofern es Hardware von Qualität ist.
> Aber mit Qualitätsram sind Fehler pro Chip gesehen äußerst selten, auf
> PCs kann man aber normalerweise nicht sonderlich viele RAM Chips
> verbauen.
> RAM Fehler auf PCs sind in der Regel auf schlechte Spannungsversorgung,
> schlechter Steckkontakt oder mindere Qualität zurückzuführen - alles
> Punkte die zumeist ganze Riegel manchmal gar mehrere beeinflussen.

Oliver bezog sich aber auf Server. Genau in diesem Bereich kann
man eigentlich davon ausgehen, dass die Hardware von guter
Qualität ist.

> > Ab Solaris 10 wird die Sachen insofern einfacher, weil das OS dann
> > dem Admin mitteilt was defekt ist und ausgetauscht werden sollte.
> > Allerdings nur auf Sparc Hardware.
>
> Das ist kein neues Feature von Solaris 10.
> Nummern der DIMM Sockel habe ich schon mit einer SS10 unter Solaris 2.3
> gesehen - ob der Bereich deaktiviert wurde kann ich aber nicht sagen.

Bereiche werden erst seit Solaris 8 Kernel Update 108528-2x
(muss irgendwo in der 20'er Gegend sein, bin mir nicht mehr
sicher wo es genau eingeführt wurde) deaktiviert.

Bis um mit Solaris 9 sagt wird nur gesagt, dass ECC Fehler auf
einem bestimmten Riegel aufgetreten ist. Das OS sagt aber nicht,
ob Hardware ausgetauscht werden muss oder nicht. Der Hintergrund
liegt zum einem in dem, dass Admins heute bereits bei einem
korrigierbaren ECC Fehler Riegel auswechseln, obwohl das noch
kein Grund zur Besorgnis ist.

SMF soll Hardware Fehler frühzeitig erkennen und durch
deaktivieren der entsprechender Hardware unnötige Downtime
verhindern.

Gruss, Ihsan...

-- 
Swiss Unix User Group: http://www.suug.ch/
Software Packages for Solaris: http://www.blastwave.org/
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Sat 25 Dec 2004 - 12:05:00 CET

search this site