Re: SATA Timeouts

From: Robert Eckardt <rol(at)robert-eckardt.de>
Date: Sun, 2 May 2010 11:09:50 +0200

Hallo Olli,

vielen Dank für deine Antwort.
Inzwischen habe ich einige Tests durchgeführt.

On Wed, 28 Apr 2010 10:40:24 +0200 (CEST), Oliver Fromme wrote
> Robert Eckardt wrote:
> > Die Timeouts scheinen in Verbindung mit smartd-Short-
> > Tests aufzutreten.
>
> Heißt das, dass das Problem _nicht_ mehr auftritt, wenn Du
> den smartd (vorübergehend) ausschaltest? Hast Du das mal
> getestet?

Ja, seit drei Tagen ist smartd aus und keine Probleme (nicht diese :-).
Der Short-Test lief um 3:00, also zu der Zeit wo größere Finds die
Platte beackern.
Mit diesen Einstellungen lief das System jedoch unter 6.2 lange Zeit
(über Jahre :-) ohne Probleme.
Meine Vermutung ist also, dass das Timing im ATA-Bereich "optimiert"
wurde und nun nicht mehr reicht, um die Platte vom Short-Test-Modus
in den normalen Betrieb wechseln zu lassen. Mir ist nämlich ebenfalls
aufgefallen, dass jetzt sehr viele Short- und Long-Tests auf
"Interrupted (host reset)" stehen.

> Wie sieht der entsprechende Abschnitt der smartd.conf genau
> aus? Manchmal hat dort ein unscheinbarer Tippfehler einen
> erheblichen Effekt, z.B. wenn man -c und -C verwechselt ...

/dev/ad4 -a -o on -S on -s (S/../.././03|L/../../6/14) -m rootAThome.roberte.eu
/dev/ad5 -a -o on -S on -s (S/../.././04|L/../../6/14) -m rootAThome.roberte.eu
/dev/ad6 -a -o on -S on -s (S/../.././05|L/../../5/11) -m rootAThome.roberte.eu
/dev/ad7 -a -o on -S on -s (S/../.././06|L/../../5/11) -m rootAThome.roberte.eu

... wobei zu dem Zeitpunkt:
      Name Status Components
mirror/gm0 COMPLETE ad4
                      ad6
mirror/gm2 COMPLETE ad5
                      ad7

> > Apr 27 03:02:34 gluon kernel: ad4: FAILURE - WRITE_DMA48 timed
> out LBA=1953525167
>
> Hast Du mal beobachtet, wie sich die LBAs verteilen? Ich
> nehme an, es sind jedesmal völlig unterschiedliche, oder?

Es sind häufig verschiedene, aber der oben genannte tritt am
häufigsten auf, denn es ist der letzte Block der Platte, was IMHO
auf Status-Updates von GEOM hinweist.

Die neuen Probleme, die ich bekommen habe sind Start-Stops einer
oder mehrerer Platten (ca. 3 Resets/Min, was z.T. zu einem
Start_Stop_Count von über 1000 geführt hat). Zunächst habe ich das
auf die Stromversorgung des neuen Wechselrahmen geschoben, aber
gestern trat es (nach Zusammenbau des Rechners) auch in der alten
Konfiguration auf.
Meine Vermutung sind Wackler in den SATA-Power- oder -Datenkabeln.
Einmal an den Steckern gewackelt und nun ist wieder Ruhe. ...

Grüße,
Robert

--
Dr. Robert Eckardt    ---    Robert.Eckardt(at)Robert-Eckardt.de
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Sun 02 May 2010 - 11:09:57 CEST

search this site