Viele von uns haben einen Festplattenausfall erlebt; Einige von uns haben sogar versucht, mehr über die Zuverlässigkeit von Festplatten und ihre tief verborgene Vorhersagefunktion herauszufinden, die Teil einer Technologie namens SMART ist. Man könnte argumentieren, dass SMART nicht so zuverlässig ist, wie es nicht in allen Fällen Versagen vorhersagt. Diese Tatsache ist teilweise richtig, aber die tatsächlichen inneren Abläufe dieses Selbstüberwachungssystems sind nicht so einfach. Lassen Sie uns versuchen, diese unsichere Situation zu beheben und zu untersuchen, wie SMART wirklich funktioniert. Lass uns anfangen:
SMART - Ein bisschen Geschichte
SMART, manchmal als SMART (Selbstüberwachungs-, Analyse- und Berichtstechnologie) geschrieben, ist ein System, das die internen Informationen Ihres Laufwerks überwacht. Es wurde ab dem Jahr 1992 entwickelt und ist jetzt in allen modernen IDE- und Serial ATA-Festplattenlaufwerken (HDDs) enthalten. Natürlich ist es ein Feature, das auch in Solid State Drives (SSDs) vorhanden ist.
Seine Geschichte umfasst eine Reihe von Namen wie Predictive Failure Analysis oder IntelliSafe und Input von allen wichtigen Festplattenherstellern: IBM, Seagate, Quantum, Western Digital. Schließlich wird die Dokumentation 2004 erstmals im Rahmen des Parallel ATA-Standards vorgestellt und bis 2008 regelmäßig überarbeitet.
Seine Erstellung basierte auf der Notwendigkeit, den Status einer Platte zu überwachen und es wird Ihnen sagen, ob die Festplatte im Begriff ist zu sterben. Während Sie vielleicht denken, dass SMART magisch erraten wird, ob das Laufwerk gesund ist, zeigt es tatsächlich eine Reihe von Variablen, deren Anzahl und Typ von Laufwerk zu Laufwerk variieren, die Indikatoren für seine Zuverlässigkeit sind. Für eine vollständige Liste von Attributen, da es ungefähr 50 von ihnen gibt (z. B. rohe Lesefehlerrate, Hochfahrzeit, gemeldete nicht korrigierbare Fehler, Einschaltzeit, Lastzykluszählung usw.), kann hier zugegriffen werden.
Abgesehen von einigen einzigartigen Versuchen (Google, Backblaze) sind die meisten SMART-Daten nicht dokumentiert. Das System bietet eine große Menge an internen Daten, aber es gibt viele Inkonsistenzen in der Statistik, hauptsächlich weil viele der Festplattenhersteller unterschiedliche Definitionen und Messungen verwenden. Zum Beispiel speichern manche Hersteller die Einschaltzeit als Stunden, während andere in Minuten oder Sekunden messen. Auch versucht keiner von ihnen zu erklären, welche der verschiedenen Attribute oder Variablen unsere Aufmerksamkeit wert sind und uns in Daten ertränken.
Bevor wir versuchen zu verstehen, welches der Attribute relevant ist, müssen wir zuerst zwischen den Hauptfehlertypen unterscheiden: vorhersehbar und nicht vorhersagbar. Der erste Typ umfasst die Fehler, die rechtzeitig auftreten und durch fehlerhafte Festplattenmechanik oder Beschädigungen der Plattenoberfläche verursacht werden. Die Probleme werden mit der Zeit schlimmer und die Festplatte wird irgendwann ausfallen. Nicht vorhersagbare Fehler werden durch plötzliche Ereignisse verursacht, von denen wir beispielsweise plötzliche Überspannungen erwähnen können.
HINWEIS: Es ist wichtig zu verstehen, dass SMART Ihnen nur dabei hilft, vorhersehbare Fehler zu erkennen.
Wichtige SMART-Attribute
Der Gesundheitszustand der Festplatte wird ständig durch den Einsatz mehrerer Sensoren überwacht. Die Werte werden unter Verwendung typischer Algorithmen gemessen, und dann werden die entsprechenden Attribute entsprechend den Ergebnissen optimiert.
In jedem Überwachungsprogramm, das Sie verwenden, haben alle SMART-Attribute folgende Felder:
- Bezeichner: Die Definition des Attributs. Es hat normalerweise eine Standardbedeutung und es wird mit einer Zahl zwischen 1 und 250 (zum Beispiel 9 ist Power-on Count) markiert. Alle Datenträgerüberwachungs- und -testprogramme enthalten jedoch den Namen und eine Beschreibung des Attributs in Textform.
- Schwellenwert: Der Mindestwert für das Attribut. Wenn dieser Wert erreicht ist, ist Ihre Festplatte im Begriff zu versagen.
- Wert: aktueller Wert des Attributs. Der Algorithmus berechnet diese Zahl basierend auf den Rohdaten. Eine neue Festplatte hat eine hohe Anzahl, das theoretische Maximum (100, 200 oder 253, je nach Hersteller), die während der Lebensdauer der Festplatte abnimmt.
- Worst: der kleinste Wert des Attributs, der jemals aufgezeichnet wurde.
- Daten: Rohwerte, die von einem Sensor oder einem Zähler geliefert werden. Dies sind die Daten, die von dem vom Hersteller der HDD entwickelten Algorithmus verwendet werden. Der Inhalt hängt vom Attribut und vom Hersteller der Festplatte ab. Normale Benutzer sollten diese überspringen.
- Flags: Der Zweck des Attributs. Dies wird normalerweise vom Hersteller festgelegt und variiert daher von Datenträger zu Datenträger. Jedes der Attribute ist entweder kritisch und kann einen bevorstehenden Ausfall (z. B. ID 5 neu zugewiesene Sektoren) oder statistisch ohne direkte Auswirkung auf den Status vorhersagen (z. B. ID 174 unerwartete Verlustleistung).
HINWEIS: Denken Sie immer daran, wenn Sie versuchen, den Status eines SMART-Attributs zu verstehen, überprüfen Sie die Werte dieser drei Felder: Wert, Schwellenwert und Flags. Beachten Sie auch, dass kleinere Werte ein Hinweis auf eine Verringerung der Zuverlässigkeit sind.
Die Scheibentemperatur ist ein stark diskutierter Parameter. Dennoch wird davon ausgegangen, dass Werte über 60 ° C die Lebensdauer einer Festplatte verringern und die Wahrscheinlichkeit von Schäden erhöhen. Wir empfehlen, einen Lüfter zu verwenden, um die Temperatur Ihrer Festplatten zu verringern und möglicherweise deren Lebensdauer zu verlängern.
Wie bereits erwähnt, sind nicht alle SMART-Attribute kritisch für die Fehlervorhersage. Die beiden oben genannten Studien zu Festplattenausfallraten und anderen Quellen stimmen darin überein, dass eine wichtige Hilfe bei der Identifizierung von fehlerhaften Laufwerken eine Neuzuteilung von ID 5-Sektoren ist. Die Neuzuweisung findet statt, wenn die Logik des Laufwerks einen beschädigten Sektor als Folge wiederholter weicher oder harter Fehler einem neuen physischen Sektor von seinen Ersatzteilen neu zuordnet. Dieses Attribut gibt an, wie oft eine Neuzuordnung stattgefunden hat, und es ist ein Hinweis auf den Verschleiß der Festplattenoberfläche.
Ein weiteres nützliches zu überwachendes Attribut ist ID 197 - Current Pending Sector Count. Dies zählt die "instabilen" Sektoren, also die beschädigten mit Lesefehlern, die auf eine Neuabbildung warten, eine Art "Bewährungs" -System. Die SMART-Algorithmen haben gemischte Gefühle in Bezug auf dieses bestimmte Attribut, da es manchmal nicht überzeugend ist, aber es wird gesagt, dass es eine frühere Warnung vor möglichen Problemen geben kann.
Der letzte dieser Indikatoren, der überwacht werden muss, ist ID 187 - Unkorrigierbare Fehler gemeldet. Es ist die Anzahl der Fehler, die nicht wiederhergestellt werden können, und es ist nützlich, weil es für alle Hersteller dieselbe Bedeutung zu haben scheint.
HINWEIS: Alle oben genannten SMART-Attribute haben einen Wert, der einfach zu interpretieren ist. Wenn sie eine Zahl von 1 oder mehr melden, ist es sehr wahrscheinlich, dass Ihr Laufwerk ausfällt, also starten Sie besser mit der Sicherung. Auch wenn dies nützliche Indikatoren für die Zuverlässigkeit des Laufwerks sind, sind sie dennoch nicht ungefährlich und Sie sollten sie mit den Empfehlungen Ihres gewählten HDD-Überwachungstools vergleichen.
Fazit
Dies war unsere kurze Studie über das Innenleben von SMART und seine Fähigkeiten, Festplattenausfälle zu überwachen und vorherzusagen. Der wichtigste Gesichtspunkt, an den Sie denken sollten, ist, dass dieses Selbstüberwachungssystem Ihnen hilft, den Status Ihrer Festplatte zu überprüfen. Wenn Sie diese SMART-Daten verwenden möchten, um festzustellen, ob Ihr eigenes Laufwerk Probleme hat, lesen Sie die unten empfohlenen Artikel.