Jul 232008
 

Jede Festplatte besitzt einen eingebauten Standard, der vielleicht Jemandem beim Booten als BIOS-Meldung aufgefallen ist, aber noch nicht aktiv genutzt hat: Das S.M.A.R.T. Es ist eine Abkürzung für Self-Monitoring, Analysis and Reporting Technology. Es handelt sich dabei um die Möglichkeit, den Zustand der Festplatte zu überwachen. Hier werden Werte wie Start/Stop-Zyklen, Betriebssystunden und Fehlerzähler verwaltet. Da heutzutage jede Festplatte über diesen Standard verfügt, macht es gerade in IT-Infrastrukturen Sinn, diese Werte permanent zu überprüfen. Selbst bei Desktop-Rechnern oder Laptops macht es Sinn, von Zeit zu Zeit über diesen Standard den Zustand der Festplatte abzufragen.

Unter Linux gibt es für die automatische Überwachung die sog. smartmontools. Diese haben das Abfragetool smartctl, was den Zustand einer Platte abfragen kann. Ferner gibt es noch einen Daemon, der in regelmäßigen Abständen den Zustand der Festplatte(n) abfragt und im Fehlerfalle sogar eine EMail verschickt. Dadurch ist eine engmaschige Überwachung der Festplatten gewährleistet. Einer Studie von Google zufolge, kann auf diesem Wege ein Ausfall einer Festplatte zu 64% Wahrscheinlichkeit rechtzeitig vorhergesagt werden. Häufigster Indikator ist das Bad-Block-Remapping. Wird ein Festplattensektor schadhaft, verwendet die Festplatte automatisch einen Alternativblock. Dieser Vorgang wird von SMART mitgezählt. Häufen sich Remappings, wird es Zeit, die Platte auszuwechseln. Auch ein relativer langsamer Temperaturanstieg über Wochen ist ein Indikator für ein baldiges Ableben der Mechanik. Platten in kühlen Umgebungen (z.B. durch eine Klimaanlage) sollten nicht über 40 Grad überschreiten, tun sie es trotzdem, kann das ein Indikator für einen baldigen Ausfall sein. Was durch S.M.A.R.T nicht erfasst werden kann, ist der Ausfall der Elektronik.

Ich kann nur Jedem IT-Verantwortlichen die smartmontools ans Herz legen. Mir selbst haben die Tools schon viele Crashes vorhergesagt und größeren Schaden abgewendet. Gerade Betreiber von Root-Servern sollten auf den Einsatz der smartmontools nicht verzichten, da gerade dort die eingesetzten Festplatten nicht redundant in RAID-Verbünde eingegliedert sind.

Quellen:
http://labs.google.com/papers/disk_failures.pdf
http://smartmontools.sourceforge.net

Beispiel für ein Mail-Script:

SMART_MSG=/tmp/smart.msgcat > $SMART_MSG
echo "======================================================================" >>$SMART_MSG

# Append the output of smartctl -a to the message:
/usr/sbin/smartctl -a -d $SMARTD_DEVICETYPE $SMARTD_DEVICE >> $SMART_MSG

echo "======================================================================" >>$SMART_MSG
echo "-- " >>$SMART_MSG
echo "System administrator" >>$SMART_MSG

# Now email the message to the user at address ADD.  Solaris and
# other OSes may need to use /bin/mailx below.
/usr/bin/mail -s "$SMARTD_SUBJECT" $SMARTD_ADDRESS < $SMART_MSG
rm $SMART_MSG

und die Einbindung in die smartd-Konfiguration über die Datei smartd.conf:

/dev/sda -d ata -S on -m <EMail-adresse-des-Admins> -a -M exec /root/bin/smartmail.sh

Sorry, the comment form is closed at this time.