Re: badmem fuer FreeBSD

From: Ihsan Dogan <ihsan(at)dogan.ch>
Date: Fri, 24 Dec 2004 21:42:01 +0100

On Tuesday, 21 Dec 2004 14:48 +0100, Oliver Fromme wrote:

> Tru64 (ehemals DEC UNIX) hat ein nettes Feature im Kernel:
> Wenn eine gewisse Anzahl korrigierbare ECC-Fehler auftre-
> ten, kopiert der kernel den Inhalt der betroffenen Page an
> eine freie Stelle und disabled sie vollständig (und loggt
> dies natürlich, inkl. Angabe des DIMM-Steckplatzes und RAM-
> Chips). Das ganze passiert vollautomatisch und ist in der
> Praxis äußerst hilfreich. Der Admin kann anhand der Log-
> Einträge (deren Menge bzw. Häufigkeit) selbst entscheiden,
> ob er den RAM-Riegel ersetzt, aber auf jeden Fall läuft die
> Kiste erstmal verläßlich weiter, wie es sich für einen Ser-
> ver gehört.

Solaris verfolgt einen ähnlichen Ansatz wie Tru64. Es werden auch
dort die entsprechenden Pages ausser Betrieb gesetzt, allerdings
nur, wenn innerhalb von 24 Stunden 24 mal die gleichen Page einen
Fehler hatte. Wenn eine gewisse Prozent Zahl eines Riegels ausser
Betrieb ist, wird per Syslog auf ein defektes DIMM (inkl.
Board/DIMM Nummer sowie Partnummer) hingewiesen.

Ab Solaris 10 wird die Sachen insofern einfacher, weil das OS dann
dem Admin mitteilt was defekt ist und ausgetauscht werden sollte.
Allerdings nur auf Sparc Hardware.

Gruss, Ihsan...

-- 
Swiss Unix User Group: http://www.suug.ch/
Software Packages for Solaris: http://www.blastwave.org/
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Fri 24 Dec 2004 - 21:42:23 CET

search this site