Автор Тема: Файловая система на HDD часто перемонтируется в ro  (Прочитано 48702 раз)

Оффлайн kiav

  • Завсегдатай
  • *
  • Сообщений: 527
  • Стич-спасатель
    • Email
Именно HDD.
Спойлер
# hdparm -I /dev/sdb

/dev/sdb:

ATA device, with non-removable media
        Model Number:       WDC WD7500BPVT-00HXZT3                 
        Serial Number:      WD-WXM1EC1KAARS
        Firmware Revision:  01.01A01
        Transport:          Serial, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6
Standards:
        Supported: 8 7 6 5
        Likely used: 8
Configuration:
        Logical         max     current
        cylinders       16383   16383
        heads           16      16
        sectors/track   63      63
        --
        CHS current addressable sectors:   16514064
        LBA    user addressable sectors:  268435455
        LBA48  user addressable sectors: 1465149168
        Logical  Sector size:                   512 bytes                                                                                                                                       
        Physical Sector size:                  4096 bytes                                                                                                                                       
        Logical Sector-0 offset:                  0 bytes                                                                                                                                       
        device size with M = 1024*1024:      715404 MBytes                                                                                                                                     
        device size with M = 1000*1000:      750156 MBytes (750 GB)
        cache/buffer size  = 8192 KBytes
        Nominal Media Rotation Rate: 5400
Capabilities:
        LBA, IORDY(can be disabled)
        Queue depth: 32
        Standby timer values: spec'd by Standard, with device specific minimum
        R/W multiple sector transfer: Max = 16  Current = 16
        Advanced power management level: 128
        DMA: mdma0 mdma1 mdma2 udma0 udma1 *udma2 udma3 udma4 udma5 udma6
             Cycle time: min=120ns recommended=120ns
        PIO: pio0 pio1 pio2 pio3 pio4
             Cycle time: no flow control=120ns  IORDY flow control=120ns
Commands/features:
        Enabled Supported:
           *    SMART feature set
                Security Mode feature set
           *    Power Management feature set
           *    Write cache
           *    Look-ahead
           *    Host Protected Area feature set
           *    WRITE_BUFFER command
           *    READ_BUFFER command
           *    NOP cmd
           *    DOWNLOAD_MICROCODE
           *    Advanced Power Management feature set
                SET_MAX security extension
           *    48-bit Address feature set
           *    Device Configuration Overlay feature set
           *    Mandatory FLUSH_CACHE
           *    FLUSH_CACHE_EXT
           *    SMART error logging
           *    SMART self-test
           *    General Purpose Logging feature set
           *    64-bit World wide name
           *    IDLE_IMMEDIATE with UNLOAD
           *    {READ,WRITE}_DMA_EXT_GPL commands
           *    Segmented DOWNLOAD_MICROCODE
           *    Gen1 signaling speed (1.5Gb/s)
           *    Gen2 signaling speed (3.0Gb/s)
           *    Native Command Queueing (NCQ)
           *    Host-initiated interface power management
           *    Phy event counters
           *    Idle-Unload when NCQ is active
           *    NCQ priority information
                DMA Setup Auto-Activate optimization
                Device-initiated interface power management
           *    Software settings preservation
           *    SMART Command Transport (SCT) feature set
           *    SCT Write Same (AC2)
           *    SCT Features Control (AC4)
           *    SCT Data Tables (AC5)
                unknown 206[12] (vendor specific)
                unknown 206[13] (vendor specific)
                unknown 206[14] (vendor specific)
Security:
        Master password revision code = 65534
                supported
        not     enabled
        not     locked
                frozen
        not     expired: security count
                supported: enhanced erase
        162min for SECURITY ERASE UNIT. 162min for ENHANCED SECURITY ERASE UNIT.
Logical Unit WWN Device Identifier: 50014ee6ad6891da
        NAA             : 5
        IEEE OUI        : 0014ee
        Unique ID       : 6ad6891da
Checksum: correct

В логе сомнительные записи
Цитировать
окт 30 02:24:48 main.localdomain kernel: ata3.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
окт 30 02:24:48 main.localdomain kernel: ata3.01: BMDMA stat 0x66
окт 30 02:24:48 main.localdomain kernel: ata3.01: failed command: READ DMA EXT
окт 30 02:24:48 main.localdomain kernel: ata3.01: cmd 25/00:00:80:0b:d7/00:02:11:00:00/f0 tag 0 dma 262144 in
                                                     res 51/84:8f:f0:0b:d7/84:01:11:00:00/f0 Emask 0x30 (host bus error)
окт 30 02:24:48 main.localdomain kernel: ata3.01: status: { DRDY ERR }
окт 30 02:24:48 main.localdomain kernel: ata3.01: error: { ICRC ABRT }
окт 30 02:24:48 main.localdomain kernel: ata3: soft resetting link
окт 30 02:24:48 main.localdomain kernel: ata3.00: configured for UDMA/133
окт 30 02:24:48 main.localdomain kernel: ata3.01: configured for UDMA/33
окт 30 02:24:48 main.localdomain kernel: ata3: EH complete

Иногда с ошибками блоков
Цитировать
окт 30 03:17:23 main.localdomain kernel: ata3.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
окт 30 03:17:23 main.localdomain kernel: ata3.01: BMDMA stat 0x66
окт 30 03:17:23 main.localdomain kernel: ata3.01: failed command: READ DMA
окт 30 03:17:23 main.localdomain kernel: ata3.01: cmd c8/00:08:08:1d:00/00:00:00:00:00/f9 tag 0 dma 4096 in
                                                     res 51/84:00:10:1d:00/84:00:06:00:00/f9 Emask 0x30 (host bus error)
окт 30 03:17:23 main.localdomain kernel: ata3.01: status: { DRDY ERR }
окт 30 03:17:23 main.localdomain kernel: ata3.01: error: { ICRC ABRT }
окт 30 03:17:23 main.localdomain kernel: ata3: soft resetting link
окт 30 03:17:24 main.localdomain kernel: ata3.00: configured for UDMA/133
окт 30 03:17:24 main.localdomain kernel: ata3.01: configured for UDMA/33
окт 30 03:17:24 main.localdomain kernel: sd 2:0:1:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
окт 30 03:17:24 main.localdomain kernel: sd 2:0:1:0: [sdb] tag#0 Sense Key : Aborted Command [current]
окт 30 03:17:24 main.localdomain kernel: sd 2:0:1:0: [sdb] tag#0 Add. Sense: Scsi parity error
окт 30 03:17:24 main.localdomain kernel: sd 2:0:1:0: [sdb] tag#0 CDB: Read(10) 28 00 09 00 1d 08 00 00 08 00
окт 30 03:17:24 main.localdomain kernel: blk_update_request: I/O error, dev sdb, sector 151002376
окт 30 03:17:24 main.localdomain kernel: ata3: EH complete

Проблемные файловые системы проверял fsck (загружался в single режиме, размонтировал перед проверкой и проверял). Ошибок на уровне файловой системы нет.

По сети уже поискал. Версии две:
  • Нужно чистить/менять шлейф данных, кабель питания.
  • Нужно менять диск, т.к. он начал сыпаться.

Почему (как) система переключает файловые системы на "только для чтения"?
Как понять, что дело в кабеле или решить, что нужно бежать за новым диском?

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 10 259

Оффлайн kiav

  • Завсегдатай
  • *
  • Сообщений: 527
  • Стич-спасатель
    • Email
smartctl
# smartctl -a /dev/sdb
Спойлер
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.9.43-un-def-alt0.M80P.1] (ALT 6.6-alt1)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Scorpio Blue Serial ATA (AF)
Device Model:     WDC WD7500BPVT-00HXZT3
Serial Number:    WD-WXM1EC1KAARS
LU WWN Device Id: 5 0014ee 6ad6891da
Firmware Version: 01.01A01
User Capacity:    750 156 374 016 bytes [750 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Tue Oct 30 06:59:46 2018 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 241) Self-test routine in progress...
                                        10% of test remaining.
Total time to complete Offline
data collection:                (15900) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 156) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x7035) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       41
  3 Spin_Up_Time            0x0027   177   175   021    Pre-fail  Always       -       2108
  4 Start_Stop_Count        0x0032   097   097   000    Old_age   Always       -       3843
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   062   062   000    Old_age   Always       -       28234
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3835
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       64
193 Load_Cycle_Count        0x0032   108   108   000    Old_age   Always       -       276262
194 Temperature_Celsius     0x0022   113   106   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   197   000    Old_age   Always       -       2812
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
ATA Error Count: 2
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 2 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 01 30 4f c2 e0  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d6 01 be 4f c2 e0 00      00:07:36.721  SMART WRITE LOG
  b0 da 01 00 4f c2 e0 00      00:07:36.595  SMART RETURN STATUS
  80 44 00 00 44 57 e0 00      00:07:36.595  [VENDOR SPECIFIC]
  b0 d6 01 be 4f c2 e0 00      00:07:36.534  SMART WRITE LOG
  80 45 00 00 44 57 e0 00      00:07:36.533  [VENDOR SPECIFIC]

Error 1 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 01 30 4f c2 a0  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d6 01 be 4f c2 a0 00      00:03:32.817  SMART WRITE LOG
  b0 da 01 00 4f c2 a0 00      00:03:32.690  SMART RETURN STATUS
  80 44 00 00 44 57 a0 00      00:03:32.690  [VENDOR SPECIFIC]
  b0 d6 01 be 4f c2 a0 00      00:03:32.653  SMART WRITE LOG
  80 45 00 01 44 57 a0 00      00:03:32.653  [VENDOR SPECIFIC]

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Interrupted (host reset)      90%     28231         -
# 2  Conveyance offline  Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

smartctl -t long /dev/sdb заставить отработать не удалось. Постоянно пишет, что осталось 90% (необходимое время я ждал) и "Interrupted (host reset)".

whdd
Не понял там ничего. Команда man ничего не находит, да и не было в пакете ничего, кроме исполняемого файла.

smartctl я получил и так. А команды "Read test" и другие, более страшные, непонятно к чему приведут.

Оффлайн NickM

  • Завсегдатай
  • *
  • Сообщений: 896
Цитировать
199 UDMA_CRC_Error_Count    0x0032   200   197   000    Old_age   Always       -       2812

Позже гляньте - этот параметр растет или нет?

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 099
окт 30 02:24:48 main.localdomain kernel: ata3: soft resetting link
Я бы начал с осмотра конденсаторов на материнке. Электролитических, на предмет вздутия и, тем более, протечки электролита. Материнке лет сколько? Конденсаторы, кстати, перепаиваются легко, если умеючи. У нас такое за 15-30 минут ремонтируют.

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 10 259
smartctl
# smartctl -a /dev/sdb

Model Family:     Western Digital Scorpio Blue Serial ATA (AF)
Device Model:     WDC WD7500BPVT-00HXZT3

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       41
199 UDMA_CRC_Error_Count    0x0032   200   197   000    Old_age   Always       -       2812

https://www.ixbt.com/storage/hdd-smart-testing.shtml

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 10 259
А команды "Read test" и другие, более страшные, непонятно к чему приведут.

Понятно к чему, - к чтению поверхности блина.
Read test, он и на ZX Spectrum Тест чтения.

    whdd

Не понял там ничего. Команда man ничего не находит, да и не было в пакете ничего, кроме исполняемого файла.

В исполняемый файл вшит хэлп в псевдогуи по каждой опции.

Оффлайн kiav

  • Завсегдатай
  • *
  • Сообщений: 527
  • Стич-спасатель
    • Email
Я бы начал с осмотра конденсаторов на материнке. Электролитических, на предмет вздутия и, тем более, протечки электролита. Материнке лет сколько? Конденсаторы, кстати, перепаиваются легко, если умеючи. У нас такое за 15-30 минут ремонтируют.
Материнка древняя - ей более 5 лет (на наборе микросхем G41). Конденсаторы подсветил фонарем, вздутия не видно. Так они мелкие, можно и не заметить.
Пока думаю, что материнка ни причем, т.к. диска у меня два (SSD ни на что не жалуется, болячка только с HDD). Диск тоже не новый. Перетыкал я его в другой порт SATA, менял кабель данных. Все тоже самое. Сегодня вообще не дал загрузиться (потому пошел в магазин за новым диском).

По переносу данных на новый HDD ничего, кроме cp --archive в голову не приходит. Новый диск в 2,5 раза больше по объему.

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 099
Материнка древняя - ей более 5 лет (на наборе микросхем G41). Конденсаторы подсветил фонарем, вздутия не видно. Так они мелкие, можно и не заметить.
Они не мелкие обычно. И на торце насечки характерные, чтобы по ним разрывалось, а не в клочья чтобы. Вот несколько примеров:
https://datbaze.ru/wp-content/uploads/2018/01/Zamena-kondensatorov-na-materinskoy-plate.jpg
https://faqhard.ru/img/art/9a03.jpg
http://www.xtechx.ru/wp-content/uploads/2012/03/cracked_capacitor.jpg
По третьей ссылке почти незаметно, но оно есть.
Пока думаю, что материнка ни причем, т.к. диска у меня два
Так с чего контроллеру-то в ресет уходить из-за присоединённого устройства?

Оффлайн kiav

  • Завсегдатай
  • *
  • Сообщений: 527
  • Стич-спасатель
    • Email
По третьей ссылке почти незаметно, но оно есть.
Вот повезло то. У меня также на одном. На ощупь только определить можно. Как раз в районе портов SATA.

Я ни конденсаторов не найду (не в Москве), ни перепаяю толком.

Так с чего контроллеру-то в ресет уходить из-за присоединённого устройства?
Не понял. Толи контроллеру, таки, конец. Толи диску. Двусмысленный текст (ирония помешала точно понять).

Оффлайн Speccyfighter

  • Мастер
  • ***
  • Сообщений: 10 259
Я ни конденсаторов не найду (не в Москве),

спросите поисковик по своему региону про ремонт материнских плат.

ни перепаяю толком.

сами и не паяйте, - материнские платы с многослойной разводкой:
https://www.ixbt.com/mainboard/intel-mobo-qa-may2k3.shtml
Цитировать
Вопросы и ответы по системным платам и чипсетам от Intel

Платы Intel для настольных систем — четырехслойные. Особенности — полное соответствие спецификациям на чипсеты, всестороннее моделирование с использованием всех возможностей современных средств сквозного автоматизированного проектирования и измерение реальных характеристик на тестовых образцах в лабораториях.

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 099
Не понял. Толи контроллеру, таки, конец. Толи диску.
Контроллеру (но если делать, то надо все конденсаторы просмотреть, пухнет, как правило, не один). Ремонт копеечный, плохо только, что отдать перепаять некому.
« Последнее редактирование: 30.10.2018 18:56:28 от asy »

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 099
сами и не паяйте, - материнские платы с многослойной разводкой:
Многослойность, в общем-то, особенно не мешает. Просто не надо перегревать. Гораздо опаснее просто рядом наляпать припоя.

Оффлайн kiav

  • Завсегдатай
  • *
  • Сообщений: 527
  • Стич-спасатель
    • Email
Кончилось все тем, что мне придется покупать новую материнку и весь шлейф оборудования (процессор, память, ...), который она тянет. Нет никакого доверия к плате. Конденсатор - это только то, что я вижу. Сейчас я работаю с флешки, диски вообще отрубил.

Все дело в том, что доверие я потерял пока возился с whdd. BIOS начал жаловаться и на SSD (чего ранее не было). Может банально блок питания не тянет (он и ранее с двумя дисками пакостил). Да и в процессе копирования диска на новый было много плохих блоков, понял что это бессмысленно (думал потом растянуть разделы в gparted).

Старую материнку, если найду где, может и сдам в ремонт. Но есть сомнения, что на этом все закончится.

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 099
Старую материнку, если найду где, может и сдам в ремонт. Но есть сомнения, что на этом все закончится.
Конденсаторы влияют там на всё. Если выходит из строя что-то ещё, то оно просто выходит из строя. А с конденсаторами именно так - разные непонятные проблемы постепенно, и только в конце перестаёт стартовать. Их замена помогает в 90% случаев и на долго.