Re: badmem fuer FreeBSD

From: Bernd Walter <ticso(at)cicely12.cicely.de>
Date: Fri, 24 Dec 2004 22:38:38 +0100

On Fri, Dec 24, 2004 at 09:42:01PM +0100, Ihsan Dogan wrote:
> On Tuesday, 21 Dec 2004 14:48 +0100, Oliver Fromme wrote:
>
> > Tru64 (ehemals DEC UNIX) hat ein nettes Feature im Kernel:
> > Wenn eine gewisse Anzahl korrigierbare ECC-Fehler auftre-
> > ten, kopiert der kernel den Inhalt der betroffenen Page an
> > eine freie Stelle und disabled sie vollständig (und loggt
> > dies natürlich, inkl. Angabe des DIMM-Steckplatzes und RAM-
> > Chips). Das ganze passiert vollautomatisch und ist in der
> > Praxis äußerst hilfreich. Der Admin kann anhand der Log-
> > Einträge (deren Menge bzw. Häufigkeit) selbst entscheiden,
> > ob er den RAM-Riegel ersetzt, aber auf jeden Fall läuft die
> > Kiste erstmal verläßlich weiter, wie es sich für einen Ser-
> > ver gehört.
>
> Solaris verfolgt einen ähnlichen Ansatz wie Tru64. Es werden auch
> dort die entsprechenden Pages ausser Betrieb gesetzt, allerdings
> nur, wenn innerhalb von 24 Stunden 24 mal die gleichen Page einen
> Fehler hatte. Wenn eine gewisse Prozent Zahl eines Riegels ausser
> Betrieb ist, wird per Syslog auf ein defektes DIMM (inkl.
> Board/DIMM Nummer sowie Partnummer) hingewiesen.

Das funktioniert in der umfangreichen Form nur, wenn man die
physikalische Organisation des Speichers kennt.
Dazu ist immerhin genaue Kenntniss des jeweiligen Chipsets und der
Organisation der jeweiligen Speicherbausteine erforderlich.
Natürlich muss man prinzipiel hingehen und ganze MMU Seiten
austauschen, aber genaue Kenntniss hat enorme statistische Einflüsse
und das erkennen der Riegelgrenzen ist dann auch erforderlich.
Ein echter Showstoper ist aber dass FreeBSD diverse Probleme damit hat
wenn der physkalische Speicher lückenhaft ist - das klassische Loch
unterhalb von 1M ist da schon störend genug.
Ein weiteres Problem ist, dass längst nicht jeder Chipset über ECC
korigierte Fehler berichtet.
Auf Alphas bekommt man zwar jeden Fehler zuverlässig berichtet, kann
aber leider auch nicht ohne weiteres auf den jeweiligen Riegel
schließen, da das OS auch hier genauere Hardwarekenntniss braucht als
Informationen vorliegen.

Ich kann mich da auch Olivers Meinung bezüglich der Fehlerstabilität
nicht anschließen.
Prinzipiel hat er schon recht, sofern es Hardware von Qualität ist.
Aber mit Qualitätsram sind Fehler pro Chip gesehen äußerst selten, auf
PCs kann man aber normalerweise nicht sonderlich viele RAM Chips
verbauen.
RAM Fehler auf PCs sind in der Regel auf schlechte Spannungsversorgung,
schlechter Steckkontakt oder mindere Qualität zurückzuführen - alles
Punkte die zumeist ganze Riegel manchmal gar mehrere beeinflussen.

> Ab Solaris 10 wird die Sachen insofern einfacher, weil das OS dann
> dem Admin mitteilt was defekt ist und ausgetauscht werden sollte.
> Allerdings nur auf Sparc Hardware.

Das ist kein neues Feature von Solaris 10.
Nummern der DIMM Sockel habe ich schon mit einer SS10 unter Solaris 2.3
gesehen - ob der Bereich deaktiviert wurde kann ich aber nicht sagen.

-- 
B.Walter                   BWCT                http://www.bwct.de
bernd(at)bwct.de                                  info(at)bwct.de
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Fri 24 Dec 2004 - 22:40:46 CET

search this site