Unsafe shutdown count ssd что это

Обновлено: 05.07.2024

Твердотельные накопители SSD

280 МБ/с.
Реальная "полезная скорость" sata3

Пожалуйста, не путайте скорость интерфейса (ATA - 100/133, SATA1/2/3 - 150/300/600 МБ/сек) и реальную скорость записи на диск!

Диски бывают с интерфейсами - SATA III/II/I, NVMe, mSATA, PCIe-3.0/2.0, SAS, MiniPCIe, M.2, U.2.

Каталог последних версий firmware*
*Будьте внимательны: в некоторых случаях обновление прошивки уничтожает данные на носителе. Изучите рекомендации и требования по обновлению прошивки к конкретной модели на сайте производителя.
Прошивки Samsung
Бесплатная утилита для продления жизни SSD
- SSD Mini Tweaker +
12 мифов об оптимизации SSD, которые никогда не умрут
Взгляд на SSD со стороны

а, я что говорил выше и с чего начался спор?

на данный момент прогнозируемое SMART-атрибутами и вычисляемое по формуле выше составляет 26,58 года.

Да долбанули Вы его спьяну, вот и всё. Или кто-то из семьи, дети, например. Событие могло быть не накануне, а, например, за полгода, о чём могли и забыть.

Так велосипед изобретать не надо. Уже всё изобретено и используется в других сферах.
Неперепрограммируемое ПЗУ в проце, РПЗУ в отдельной микросхеме, 3 копии микропрограммы. Проц при старте проверяет микропрограмму в флешке, если что-то не сошлось, берёт следующую копию, если все три убиты, пробует переписать из своего ПЗУ. Надёжность сразу повышается порядка на 2.

На уменьшении возвратов по гарантии больше выиграют.

Если в технологиях и производстве есть ограничения, определяемые используемым оборудованием, то сделать нормальную логику - просто дело мозгов и "политической воли" - нет препятствий.

Загрузка микрокода.
Выполнено.
Расширенный техно-режим активирован.

Построение транслятора
Поиск модулей транслятора
Blk 0x0000: найден модуль "Defmap"
Blk 0x00B2: найден модуль "CTXFB"
Blk 0x05F8: найден модуль "CTXF5"
Blk 0x0676: найден модуль "CTXFB"

Построение транслятора
Модуль "Defmap". : Ok
Модуль "CTXFB". : Ok
Модуль "CTXF5". : Ok
Тест завершен

Построение транслятора
Построение транслятора
Модуль "Defmap". : Ok
Модуль "CTXFB". : Ok
Модуль "CTXF5". : Ok
Тест завершен

А это мертвый случай:
INTEL SSDSA2M160G2GN-2CV102M3-ChanCE Conflict

Загрузка микрокода.
Выполнено.
Расширенный техно-режим активирован.

Построение транслятора
Поиск модулей транслятора
Blk 0x0000: найден модуль "Defmap Ver. 8008"
Blk 0x0000: найден модуль "Defmap Ver. 8008"
Blk 0x0000: найден модуль "Defmap Ver. 8008"
Blk 0x0000: найден модуль "Defmap Ver. 8009"
Blk 0x0000: найден модуль "Defmap Ver. 8001"
Blk 0x0000: найден модуль "Defmap Ver. 8001"
Blk 0x0000: найден модуль "Defmap Ver. 8001"
Blk 0x0000: найден модуль "Defmap Ver. 8001"
Blk 0x0000: найден модуль "Defmap Ver. 8002"
Blk 0x0000: найден модуль "Defmap Ver. 8002"
Blk 0x0000: найден модуль "Defmap Ver. 8002"
Blk 0x0000: найден модуль "Defmap Ver. 8002"
Blk 0x0000: найден модуль "Defmap Ver. 8003"
Blk 0x0000: найден модуль "Defmap Ver. 8003"
Blk 0x0000: найден модуль "Defmap Ver. 8003"
Blk 0x0000: найден модуль "Defmap Ver. 8003"
Blk 0x0000: найден модуль "Defmap Ver. 8004"
Blk 0x0000: найден модуль "Defmap Ver. 8004"
Blk 0x0000: найден модуль "Defmap Ver. 8004"
Blk 0x0000: найден модуль "Defmap Ver. 8004"
Blk 0x0000: найден модуль "Defmap Ver. 8005"
Blk 0x0000: найден модуль "Defmap Ver. 8005"
Blk 0x0000: найден модуль "Defmap Ver. 8005"
Blk 0x0000: найден модуль "Defmap Ver. 8005"
Blk 0x0000: найден модуль "Defmap Ver. 8006"
Blk 0x0000: найден модуль "Defmap Ver. 8006"
Blk 0x0000: найден модуль "Defmap Ver. 8006"
Blk 0x0000: найден модуль "Defmap Ver. 8006"
Blk 0x0000: найден модуль "Defmap Ver. 8007"
Blk 0x0000: найден модуль "Defmap Ver. 8007"
Blk 0x0000: найден модуль "Defmap Ver. 8007"
Blk 0x0000: найден модуль "Defmap Ver. 8007"
Blk 0x0000: найден модуль "Defmap Ver. 8008"
Blk 0x1FD6: Блок модуля Context
Blk 0x1FD7: Блок модуля Context
Blk 0x1FD8: Блок модуля Context

Что мешает писать прошивки так, чтобы нечто подобное делал сам SSD без постороннего вмешательства? Только лень и пофигизм, ну или саботаж, чтобы чаще ломалось.

Если такой умный, ставь 2. 3 штуки SSD в рейд, и тебе будет почти пофиг, если какой-то из них накроется.

Ваши программы по 512 байтов можно и на бумаге писать, если мыши и плесень не съедят, 2000 лет гарантированного хранения без питания.


В серии статей SSD 101 мы рассмотрели SSD со всех сторон. А теперь проверим главный аргумент фанатов SSD — что эти устройства выходят из строя гораздо реже, чем старые добрые HDD. Они обычно объясняют, что в SSD нет движущихся частей, и предъявляют документы от производителей с мутными расчётами среднего времени до отказа (MTBF). Всё это хорошо для рекламы, но мы предпочитаем реальную статистику частоты отказов.

В своих ежеквартальных отчётах Drive Stats мы определяем отказ диска или как реактивный (диск не работает), или как проактивный (мы считаем, что отказ неизбежен). В случае HDD мы определяем проактивный отказ по специфической статистике SMART, которую сообщает сам диск и которую мы отслеживаем.

SMART, или S.M.A.R.T., расшифровывается как Self-monitoring, Analysis, and Reporting Technology и представляет собой систему мониторинга, встроенную в HDD и SDD. Основная функция — сообщать различные показатели, связанные с надёжностью диска, для предсказания отказов. Backblaze каждый день записывает атрибуты SMART всех работающих дисков.

То же самое для SSD. Различные модели сообщают разные показатели SMART, но некоторые совпадают. На сегодняшний день для SSD мы регистрируем 31 атрибут SMART-статистики. 25 из них перечислены ниже.

Оставшиеся шесть (16, 17, 168, 170, 218 и 245) мы не можем найти. Пожалуйста, напишите в комментариях, если у вас есть информация по отсутствующим атрибутам.

Мы только начинаем использовать статистику SMART для предупреждения отказов SSD. Многие атрибуты зависят от модели диска или производителя. Кроме того, у нас было пока мало отказов SSD, как вы увидите ниже. Это ограничивает количество данных для исследования. Так что в реальности мы пока не смогли предсказать ни одного отказа.

В серверах хранения данных в качестве загрузочных дисков работают и SSD, и HDD. В нашем случае называть их загрузочными неверно, поскольку они также хранят различные логи и т. д. Другими словами, регулярно читают, записывают и удаляют файлы, а не только выполняют загрузку сервера.

В первых серверах хранения данных мы использовали только HDD, поскольку они были дешёвыми и выполняли свою функцию. Так продолжалось до середины 2018 года, когда мы смогли купить SSD на 200 ГБ по цене около $50, что в нашем понимании было верхней ценовой границей для загрузочных дисков серверов хранения данных. Это был эксперимент, но всё получилось настолько хорошо, что с середины 2018 года мы перешли на использование только SSD и заменяли вышедшие из строя загрузочные HDD на SSD.

Итак, у нас две группы дисков — SSD и HDD — которые выполняют одинаковые функции, имеют одинаковую рабочую нагрузку и работают в одинаковых условиях в течение долгого времени. Естественно, мы решили сравнить частоту отказов загрузочных дисков SSD и HDD. Ниже приведены показатели отказов за весь срок службы для каждой группы по состоянию на II кв. 2021 года.

Годовая частота сбоев (AFR)

Количество дисков Средний возраст (мес.) Дней работы Всего сбоев AFR
SSD 1666 14,2 591 501 17 1,05%
HDD 1607 52,4 3 523 610 619 6,41%

Загрузочные диски. Отчётный период: апрель 2013 — июнь 2021

Всё понятно, SSD победили. Можно положить HDD на полку или на пол как ограничитель для двери. Но погодите, давайте сначала учтём несколько моментов, которые не вошли в таблицу.

  • Средний возраст SSD составляет 14,2 месяца, а средний возраст HDD — 52,4 месяца.
  • Возраст самых старых SSD — около 33 месяцев, а самых новых HDD — 27 месяцев.

Другим фактором является количество дней, сколько диски каждой группы проработали без сбоев. Большой разброс в количестве дней работы приводит к значительной разнице в доверительных интервалах двух групп, поскольку существенно различается количество наблюдений (т.е. дней работы).

Чтобы провести более точное сравнение, попробуем привести к общему знаменателю средний возраст и количество дней работы для SSD и HDD. Для этого можем перенестись назад во времени, когда группа HDD соответствовала группе SSD из II кв. 2021 года по среднему возрасту и количеству дней работы. Это позволит сравнить группы в один и тот же период жизненного цикла.

Взяв данные по HDD за IV кв. 2016 года, мы смогли сделать следующее сравнение.

Годовая частота сбоев (AFR)

Количество дисков Средний возраст (мес.) Дней работы Всего сбоев AFR
SSD на II кв. 2021 1666 14,2 591 501 17 1,05%
HDD на IV кв. 2016 1297 14,3 659 526 25 1,38%

Загрузочные диски. Отчётный период: апрель 2013 — указанный период

Неожиданно разница в AFR оказалась не такой уж большой. На самом деле статистика каждой группы находится в пределах 95%-ного доверительного интервала другой группы. Окно довольно широкое (плюс-минус 0,5%) из-за относительно небольшого количества дней работы накопителей.

Что же в итоге? Мы получили некоторые свидетельства, что в начале работы (в среднем до 14 месяцев в данном случае) SSD выходят из строя реже, но не намного. Но вы же покупаете диск не на 14 месяцев, а на годы. Что мы знаем об этом?

У нас есть данные по загрузочным HDD с 2013 года и по загрузочным SSD с 2018 года. На диаграмме показан Lifetime AFR каждого типа дисков до II кв. 2021 года.


Как видно, с 2018 года частота сбоев загрузочных HDD стала расти. Тенденция сохранялась в 2019 и 2020 годах, а в 2021 году (пока что) остановилась. Очевидно, что с увеличением возраста HDD увеличивается и частота отказов.

Интересно сравнить кривые в первых четырёх точках. Для флота HDD пятый год (2018) знаменовал резкий рост частоты отказов. Ждёт ли та же участь SSD в их пятый год? Хотя мы можем ожидать некоторого увеличения AFR по мере старения SSD, но будет ли оно таким же резким, как в случае с HDD?

Что же нам покупать: SSD или HDD? Учитывая то, что мы знаем на сегодняшний день, вряд ли можно использовать AFR как фактор при принятии решения. С учётом возраста и количества дней работы оба типа накопителей схожи, а разница недостаточна, чтобы оправдать дополнительные затраты на покупку SSD вместо HDD. На данном этапе лучше принимать решение на основе других факторов: стоимость, требуемая скорость, энергопотребление, требования к форм-фактору и так далее.

В ближайшие пару лет мы получим более полное представление об AFR для SSD. И тогда сможем решить, насколько велика разница в частоте отказов SSD и HDD. А сейчас мы не видим, чтобы она была значительной.

Что такое атрибуты SMART и как они могут быть полезны?

Каждый диск работает под заранее установленным набором атрибутов SMART и соответствующими предельными значениями, которые диск не должен проходить во время нормальной работы.

Описание некоторых атрибутов SMART Health Info отображается в следующей таблице. Эти атрибуты могут отличаться в зависимости от выбранного SSD-накопителя Intel или другого диска. Некоторые из этих атрибутов могут не поддерживаться вашим SSD-накопителем или диском.

Атрибуты SMART для SATA

Id

Атрибут и описание (SATA)

Количество секторов, переудвижных секторов

В нем отсчитываются номера снятых с производства блоков после выхода с производства (количество дефектов возросло).

Количество часов с отключением питания

Raw value reports the cumulative number of power-on hours over the life of the device.

Примечание. Статус включаемой/выключяемой функции УПРАВЛЕНИЯ питанием (DIPM) влияет на количество часов, о которые сообщили.

Количество циклов питания

В основе данных отчетов о накопительное количество событий цикла питания (включаем/выключение) в течение жизненного цикла устройства.

VailableReserved Space

Сообщает оставшееся количество резервных блоков. Нормализованное значение начинается с 100 (64h), что соответствует 100% доступности зарезервированного пространства. Пороговое значение для этого атрибута — 10% доступности.

Количество сбойов программы

В raw value отсчитываются общее количество сбойов программы. Нормализованное значение, начиная с 100, показывает процент сбой оставшегося допустимого значения программы.

Количество сбойов стирки

На простом значении отсчитываются общее количество стиранных данных. Нормализованное значение, начиная с 100, показывает процент сбой оставшегося допустимого стира.

Непредвиденное отключение питания

Отчеты о количестве нестандатных отключений, накопитель издает отчеты о времени работы SSD-накопителя. "Нестандерный выключение" - это отключение питания без НЕПОСРЕДСТВЕННОго ожидания в качестве последней команды (вне зависимости от активности PLI с помощью конденсаторов). Также она известна как "отключение отката питания" для одного магнитного диска.

Количество конечных обнаружений ошибок

Отчеты о количестве ошибок, с которыми сталкиваются во время проверки адресов логических блоков (LBA) на пути данных SSD. Нормализованное значение начинается с 100 и декрементов по 1 для каждого обнаруженного несоответствия тегов LBA. Пороговое значение : 90.

Количество неустанных ошибок

В raw-значении отсчитываются количество ошибок, которые не могут быть восстановлены с помощью кода коррекции ошибок (ECC).

Temperature (Температура) — воздушный поток (корпус)

Отчет о температуре корпусе SSD в градусах Цельсия. Простое значение:

  • Byte 0 = Текущая температура (°C)
  • Byte 2 = Новейшая минимальная температура (°C)
  • Byte 3 = Новейшая максимальная температура (°C)

Нормализовано значение : 100. Температура корпусов рассчитывается на основании смещения от внутреннего датчика температуры.

Безопасное количество выключения (отключение от отката питания)

В оккупном значении сообщается накопительное количество ненадежных (по-тому) событий выключения в течение всего времени службы устройства. Безопасное выключение происходит тогда, когда устройство выключено без ожидания НЕМЕДЛЕННОЙ является последней командой.

Temperature (температура) — внутреннее устройство

Отчет о внутренней температуре SSD-системы. Показания температуры — это значение, прямое от внутреннего датчика. Исходным значением является текущая температура. Нормализованное значение — это мин уравнения результатов (150-ток-терм, 100).

Количество ошибок CRC

Общее количество ошибок, с которыми сталкиваются ошибки интерфейса SATA.

Записи в хост

Raw value reports the total number of sectors written by the host system. Raw value increases by 1 for every 65 536 sectors written by the host.

Время рабочей нагрузки, износ носите информации

Измеряет износ, который износа можно увидеть на SSD-качестве (после сброса timed Workload Timed Workload Timer, атрибут E4) в процентах от максимальных циклов номинальной нагрузки.

Время рабочей нагрузки, коэффициент чтения/записи хоста

Процент операций загрузки/загрузки, которые являются операциями чтения (после сброса timed workload timed Timed Workload Timer, атрибут E4).

Timed Workload Timed Workload Timed Timed Workload Timed Timed Workload Time

Измеряет время, запамянутее (количество минут) с момента запуска этого времени рабочей нагрузки.

Доступное пространство для зарезервированного пространства

Сообщает оставшееся количество резервных блоков. Нормализованное значение начинается с 100 (64h), что соответствует 100% доступности зарезервированного пространства. Пороговое значение для этого атрибута — 10% доступности.

Индикатор износа носитла

Отчет о количестве циклов, которые прошли в медиафайле NAND. Нормализованное значение снижается линейно со 100 до 1 по мере увеличения среднего числа циклов стирки с 0 до максимальных номинальных циклов. Как только нормализованное значение достигает 1, их количество не уменьшается, хотя вероятно, на устройство может быть наложен значительный дополнительный износ.

Общее количество LBAS в письменной области

Кол-во секторов, написанных хостом.

Общее количество прочитано LBAs

Кол-во секторов, прочитано ведущим.

Атрибуты SMART для NVMe*

Id

Атрибут и описание (NVMe)

Критическое предупреждение

Эти биты, если установлены, пометить различные источники предупреждения.

  • Бит 0: Доступная запасная не выше порогового значения
  • Бит 1. Температура превышает допустимые значения
  • Бит 2. Надежность снижается из-за чрезмерных насчетов носите информации или внутренних ошибок
  • Бит 3. Носите информации находится в режиме только чтения
  • Бит 4. Ошибка резервной системы с энергоэкономией (например, ошибка теста конденсатора потери питания)
  • Биты 5–7: Зарезервировано

Любое из критически важных предупреждений может быть связано с асинхронным уведомлением о событии.

Температура

Сообщает общую текущую температуру устройства в Кельвине.

Доступные запасные части

Содержит нормализованный процент (от 0 до 100%) оставшейся доступной запасной емкости. Начинается от 100 и декрементов.

Доступное пороговое значение запасных частей

Пороговое значение установлено на 10%.

Оценка использования в процентах

(допустимые значения превышают 100%). Значение 100 указывает на то, что расчетная изостойкость устройства была пополнена, но может не указывать на неисправность устройства. Значение может превышать 100. Проценты с более чем 254 должны быть представлены как 255. Это значение должно быть обновлено один раз в час питания (если контроллер не находится в режиме сна).

Чтение единиц данных(в LBAS)

Содержит число 512 единиц данных, которые хост считает у контроллера. это значение не содержит метаданных. Это значение оценивается в тысячах (то есть значение 1 соответствует 1000 считыванным 512 bytes) и округлено. Если размер LBA является значением, кроме 512 бит, контроллер должен преобразовать количество считыванных данных в 512 бит.

Записи единиц данных(в LBAS)

Содержит 512 единиц данных, которые хост списыл контроллеру. это значение не содержит метаданных. Это значение сообщается в тысячах (то есть, значение 1 соответствует 1000 единицам из 512 написанных bytes) и округлено. Если размер LBA является значением, кроме 512 бит, контроллер должен преобразовать объем данных, написанный в 512 бит. Для набора команд NVM в это значение должны включаться логические блоки, написанные как часть операций записи. Это значение не должно повлиять на написание неустанных команд.

Команды чтения хоста

Здесь содержится номер команд чтения, которые были выданы контроллеру.

Команды записи хоста

Здесь содержится номер команд записи, которые были выданы контроллеру.

Контроллер время работы (через несколько минут)

Содержит время работы контроллера с командами I/O. Контроллер загружен, когда есть выдающаяся команда для очереди под контроллером. (В частности, команда была выдана в результате записи точки входа в очередь ввода/выхода в очередь отправки, и соответствующая запись очереди завершения еще не была размещена в связанной очереди ввода/завершения.) Это значение будет отчитанося в течение нескольких минут.

Циклы питания

Содержит количество циклов питания

Часы работы с питанием

Содержит количество часов работы с питанием. Это не относится к времени, когда питание контроллера было при низком энергосхеме.

Небезопасные отключения

Содержит количество небезопасного выключения. Этот подсчет будет приращен после того, как не будет получено уведомление о выключении системы (CC.SHN) до отключения питания.

Ошибки мультимедиа

Содержит количество ошибок, когда контроллер обнаружил невозвратимую ошибку целостности данных. В это поле включены ошибки, такие как неугрешимые ошибки ECC, ошибка проверки CRC или некорректное несоответствие тега LBA.

Количество входов в журнал сведений об ошибках

Содержит количество входов в журнал Информации об ошибках за время работы контроллера.

Предупреждение о времени перепада температур в композитном режим

Содержит количество времени в минуты, за которые контроллер работает, и температура композита превышает или равна полю (Warning Composite Temperature Threshold) (WCTEMP) и ниже критического порогового значения температуры (CCTEMP) в структуре идентифицирующих данных контроллера.

Критическое время композитной температуры

Контроллер имеет время в несколько минут, а температура композитной температуры (Composite Temperature Threshold) повышается до критического значения (CCTEMP) в структуре идентифицируемой структуры данных контроллера.

Атрибуты S.M.A.R.T.
Это характеристики, использующиеся при анализе состояния надежности накопителя.

Значения атрибутов S.M.A.R.T.

- Столбцы:
-- Value/Current - текущее значение (в диапазоне от 0/1 до 100/200/255) - надежность конкретного атрибута относительно его эталонного значения, которое определяется производителем.
---Максимальное значение атрибута означает максимальную стабильность. Чем значение ниже, тем быстрее текущий параметр деградирует.
-- Worst - означает наихудшее из всех когда-либо запротоколированных значений, т.е. наихудшее (бывшее) состояние атрибута.
-- Threshold - пороговое значение для каждого отдельно взятого атрибута.
---Если текущее значение атрибута ниже, чем пороговое, значит вероятность отказа (если этот параметр критичен) велика.
-- Raw - значение атрибута во внутреннем формате. Иногда значения могут нести бесполезную нагрузку, гораздо важнее, что из них вычисляется преобразованное значение.
-- Data - преобразованное значение атрибута, в большинстве случаев говорящее о состоянии параметра в доступной для восприятия форме.

Некритические атрибуты, сообщающие служебную информацию, не оказывающую прямого влияния на надежность диска.
-- Throughput Performance - средняя производительность диска по оценки программы само-диагностики. Регламентируется производителем.
-- Seek Time Performance - средняя производительность операции позиционирования магнитными головками. Аппаратно зависимый параметр.
-- Spin Up Time - время, затрачиваемое шпиндлем для того, чтобы выйти на расчетную скорость вращения. Ухудшение значение атрибута указывает на проблемы с приводом или подшипником.
-- Start/Stop Count - количество зафиксированных циклов запуска/остановки шпинделя.
-- Power-On Time Count - общее количество часов в рабочем состоянии. Значение зависит от отдельно взятого диска/производителя.
-- Power On/Off Retract Cycle - количество зафиксированных циклов полного включения/отключения.
-- Load/Unload Cycle Count - количество операция вывода блока магнитных головок в или из рабочей зоны.
-- Head Flying Hours - общее время, затраченное на позиционирование БМГ.

Читайте также: