Festplattenausfall simuliert

  • Guten Abend zusammen,

    ich habe heute mal das Worst Case Szenario ausprobiert: Parity + Disk 1 im standby, also mal von der Disk 1 das SATA Kabel entfernt. Nichts passiert, kein Nachrichten seitens unRAID (weder Weboberfläche noch Mail). Nach 30 Minuten kam immer noch nichts. Hab dann einfach mal auf einen Share unter Windows zugegriffen, nach 1-2 Sekunden hatte ich Zugriff und das Video wurde gestartet. Dann endlich kam in der Weboberfläche eine Meldung, zeitgleich auch eine Mail.

    Warum so verzögert? Was ist, wenn ich keine Mailbenachrichtigung aktiviert habe und mich eher selten (wenn alles läuft macht das ja auch keiner großartig) in der Weboberfläche aufhalte? Ich weiß, Mailbenachrichtigung (oder ähnlich) ist eigentlich Pflicht.

    Oder noch schlimmer: Disk 1 fällt aus, ich greife erst nach 1 Woche auf das NAS mal wieder zu und in dem Zeitraum gab es nur noch die Parity Platte? Was ist wenn die in der Zeit auch noch ausgefallen wäre, zum Beispiel direkt nach dem Hochfahren aufgrund meines Zugriffes? Oder das der SATA Controller ausgestiegen ist und alle Platten nicht mehr verfügbar sind?

    Bin da ehrlich gesagt leicht schockiert, dass da unRAID so harmlos damit umgeht. Übersehe ich da irgendwas oder ist die Vorgehensweise seitens des OS so normal? Man hat zwar externe Backups vorliegen, aber dennoch schmeckt mir das nicht.

    Gruß

  • Naja, abgesehen davon, dass dir ein NAS ohnehin 0% Datensicherheit bietet, kann es halt auch mal sein, dass es ein wenig dauert, bis die Mail ankommt oder das System anfängt zu meckern. UnRaid ist halt auch kein Monitoring-System. Wenn du sowas haben möchtest und schneller informiert werden magst, dann solltest du in Unraid wenigstens die System Notifications eingeschaltet haben. Ich lasse mich neben Mail und GUI noch per Messenger benachrichtigen.

    Ein Monitoring habe ich auch aufgesetzt. Das muss nur noch die SMART Werte aus den Disks auswerten und dann geht sogar schon bevor eine Platte kaputt geht eine Mail raus.

  • Die System Notifications hatte ich aktiviert und eingerichtet. Zusätzlich lasse ich mir zum Testen jede Stunde eine Nachricht vom Status des Arrays schicken. Habe das Ganze also nochmal probiert: Platten im Standby, Disk 1: Daten abgezogen, Strom abgezogen. Das System anschließend 3h laufen lassen.

    In der Zeit kamen 2 Mails vom Status des Arrays an (hat sich zeitlich etwas überschnitten):

    Event: Unraid Status
    Subject: Notice [UNRAID] - array health report [PASS]
    Description: Array has 3 disks (including parity & cache)
    Importance: normal

    Parity - WDC_WD15EARS-00MVWB0_WD-WMAZA2497899 (sdb) - standby [OK]
    Disk 1 - WDC_WD15EZRX-00D8PB0_01KATHR-0CC (sdd) - standby [OK]
    Cache - CT120BX500SSD1_1930E1902C6A (sdc) - standby [OK]

    Wie gesagt, Disk 1 hatte zu dem Zeitpunkt weder Strom noch Daten, die kann nicht "OK" sein. Weder auf der Weboberfläche, noch per Mailalarm kam irgendwas rein.

    Da in der Zeit kein Zugriff auf die Platten erfolgt, hab ich an Disk 1 wieder Daten ran und Strom, anschließend per Netzwerk auf die Daten zugegriffen. Platten fuhren hoch und zack meldete unRAID "Disk 1 - disabled". Also hat das OS es sehrvoll mitbekommen, dass ich die Disk 1 entfernt hatte, fand es aber nicht interessant genug, das zu melden. Im Log stand nämlich zu dem Zeitpunkt des Abziehends auch folgendes:


    Code
    May 14 15:53:40 UNRAID kernel: ata4: SATA link down (SStatus 0 SControl 300)
    May 14 15:53:45 UNRAID kernel: ata4: SATA link down (SStatus 0 SControl 300)
    May 14 15:53:51 UNRAID kernel: ata4: SATA link down (SStatus 0 SControl 300)
    May 14 15:53:51 UNRAID kernel: ata4.00: disabled
    May 14 15:53:51 UNRAID kernel: ata4.00: detaching (SCSI 4:0:0:0)
    May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Synchronizing SCSI cache
    May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Synchronize Cache(10) failed: Result: hostbyte=0x04 driverbyte=0x00
    May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Stopping disk
    May 14 15:53:51 UNRAID kernel: sd 4:0:0:0: [sdd] Start/Stop Unit failed: Result: hostbyte=0x04 driverbyte=0x00


    Also wie schon oben gesagt, das OS hat es sehrwohl mitbekommen. Monitoring-System hin und her, es handelt sich aber um ein NAS System und da verlange ich, dass mir gemeldet wird, wenn eine Platte einen Ausfall hat. Reicht ja schon wenn er wie wild anfangen würde per Beep-Code Meldung zu bringen.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!