Как посмотреть smart raid массива

Обновлено: 07.07.2024

Подскажите, как посмотреть смарт дисков, которые подключены к контроллеру LSI MegaRAID 9341-8i. Есть подозрение на то что один из дисков еле дышит, но как его вычислить не знаю.

r1sh писал(а): Подскажите, как посмотреть смарт дисков, которые подключены к контроллеру LSI MegaRAID 9341-8i. Есть подозрение на то что один из дисков еле дышит, но как его вычислить не знаю.

Table 34 Advanced Drive Properties

Indicates whether the Self-Monitoring Analysis and Reporting Technology (SMART) feature is enabled or disabled on the drive. The SMART feature monitors the internal performance of all motors, heads, and drive electronics to detect predictable drive failures.

А вообще в МСМ смотрим лог, там будет видно, что с каким диском не так.

MSM стоит но там в логах ничего нет, просто часто слышал от знакомых админов что контроллер не подавал вида о том что диск умирает пока не посмотрели смарт самого диска.

Я к чему хочу посмотреть состояние дисков, у нас 6х600гб 10000rpm hitachi диски в raid 1+0, на них крутится база ms sql 10гб 1с торговля, работает

60 человек, база mysql

2гб внутреняя crm Битрикс, сам терминальный сервер и всё. При этом последнее время 1С стала жутко тормозить, Битрикс по производительности жалуется на низкую скорость дисков.

Пару месяцев назад такого не было, нагрузка не возрастала, кол-во сотрудников не увеличивалось.

Первая мысль была на деградировавший диск

r1sh
Кто вам под базу посоветовал контроллер без кеша и обычные жесткие диски?
9341 хорошо работает с SSD дисками, т.к. с ними рекомендуется не использовать кеш RAID контроллера.
А с обычными дисками он довольно медленный.
MSM стоит но там в логах ничего нет, просто часто слышал от знакомых админов что контроллер не подавал вида о том что диск умирает пока не посмотрели смарт самого диска. Если на диске есть проблема, то контроллер не увидит ее, пока напрямую не столкнется с ней.
Чтобы избежать этого у всех контроллеров есть опция, которая позволяет запускать проверку целостности массива по расписанию. Такая проверка позволяет выявить назревающие проблемы заранее. msm вроде бы (!) смарт показывает только на уровне "с диском все хорошо" или "меняй диск, т.к. я выкинул его из массива", атрибутов я там не припомню r1sh писал(а): Первая мысль была на деградировавший диск Если бы вылетел диск, контроллер бы сказал. Настройте алерты на емейл и спите спокойно. Если на диске начнутся ББ или что еще, то вам сообщат. Tert писал(а): r1sh
Кто вам под базу посоветовал контроллер без кеша и обычные жесткие диски?
9341 хорошо работает с SSD дисками, т.к. с ними рекомендуется не использовать кеш RAID контроллера.
А с обычными дисками он довольно медленный.
MSM стоит но там в логах ничего нет, просто часто слышал от знакомых админов что контроллер не подавал вида о том что диск умирает пока не посмотрели смарт самого диска. Если на диске есть проблема, то контроллер не увидит ее, пока напрямую не столкнется с ней.
Чтобы избежать этого у всех контроллеров есть опция, которая позволяет запускать проверку целостности массива по расписанию. Такая проверка позволяет выявить назревающие проблемы заранее.

вы имеете ввиду, что контроллер без батарейки? кэш у него по идее есть?
диски sas 10k, обычные sata 7.2k
во многом был ограничен бюджет, я изначально настаивал на sas 15k но там цена была на 30% выше, по этому руководство отказало, подбирали по большей части в бюджет.

если честно, я в raid-контроллерах не очень хорошо разбираюсь, делал выборку на официаьлных сайтах адаптека и lsi, но там выдавал кучу вариантов, при том что raid 1+0 есть почти на каждом контроллере, по этому самому мне было сложно выбрать контроллер, доверился поставщику.

подскажите, эта проверка выявит "слабый" диск?

r1sh писал(а): Первая мысль была на деградировавший диск Если бы вылетел диск, контроллер бы сказал. Настройте алерты на емейл и спите спокойно. Если на диске начнутся ББ или что еще, то вам сообщат. точно насчёт ББ сообщат? коллеги сталкивались с тем что контроллеры adaptec не оповещали пока через smartctl не смотрели смарт и не видели что там всё печально. Понятно что смарт это не панацея и тот еще способ диагностики)

Всем привет! Сегодня расскажу, как узнать smart дисков на RAID контроллере Adaptec. Напомню SMART это некий набор показателей по которым можно определить состояния дисков в вашем сервере или компьютере. За частую на RAID контроллерах не возможно вытащить именно SMART HDD дисков, но не в случае RAID контроллера Adaptec, где это делается весьма удобно и легко, смотрим ниже, как это сделать. Уверен, что знакомство с данной утилитой окажется очень полезным, для начинающего администратора систем хранения данных.

Как мониторить smart дисков на RAID контроллере Adaptec

Для получения нужных нам значений, у вас должен быть установлен adaptec storage manager, открываем adaptec storage manager через меню пуск.

Как узнать smart дисков на RAID контроллере Adaptec-02

Вводим логин и пароль, напомню вы на том сервере где вы подключаетесь к утилите должны обладать правами локального администратора.

Как узнать smart дисков на RAID контроллере Adaptec-03

Щелкаем два раза по иконке Controller RAID

Как узнать smart дисков на RAID контроллере Adaptec-04

Выбираем диск у которого будет проводиться проверка состояния дисков

Как узнать smart дисков на RAID контроллере Adaptec-05

я для примера выберу Device 0

Как узнать smart дисков на RAID контроллере Adaptec-06

откроется окно "Properties", где наст интересует вкладка SMART, в которой есть все нужные нам показатели.

Как узнать smart дисков на RAID контроллере Adaptec-07

4 Responses to Как узнать smart дисков на RAID контроллере Adaptec

Иван, здравствуйте!
Подскажите, нормально ли для HDD SAS 300GB SEAGATE ST3300657SS, что в maxView Storage Manager всего 5 атрибутов SMART:

name Valeu
1. Current Drive Temperature in Celcius =36
2. Drive Trip Temperature in Celcius =68
3. Length of Defect List =0
4. Total Uncorrected Read Errors =0
5. Total Uncorrected Write Errors =0

И других атрибутов не показывает. Или maxView Storage Manager не умеет смотреть остальные атрибуты этого диска? До обновления версии maxView Storage Manager мне не показывал smart этого диска вообще.

Тут все зависит от контроллера и винтов, можно еще попробовать обновить драйвера для контроллера, я такое видел на lsi контроллерах

Команду «smartctl -d ata -a /dev/sdb» можно использовать для проверки жесткого диска и текущего состояния его соединения с системой. Но как с помощью команд smartctl проверить SAS или SCSI диски, спрятанные за RAID контроллером Adaptec в системах под управлением Linux ОС? Для этого необходимо использовать последовательные синтаксисы проверки SAS или SATA. Как правило — это логические диски для каждого массива физических накопителей в операционной системы. Команду /dev/sgX возможно использовать в качестве перехода через контроллеры ввода/вывода, которые обеспечиваюь прямой доступ к каждому физическому диску, подключенному к RAID контроллеру Adaptec.

Распознает ли Linux контроллер Adaptec RAID?

Для проверки Вы можете использовать следующую команду:

В результате выполнения команды получите следующее:

Загрузка и установка Adaptec Storage Manager для Linux

Необходимо установить Adaptec Storage Manager в соответсвии собранному дисковому массиву.

Проверяем состояния SATA диска

Команда для сканирования накопителя выглядит довольно просто:

В результате у Вас должно получится следующее:

Таким образом, /dev/sda — это одно устройство, которое было определено как SCSI устройство. Выходит, что у нас SCSI собран из 4 дисков, расположенных в /dev/sg . Введите следующую smartclt команду, чтобы проверить диск позади массива /dev/sda:

Контроллер должен сообщать о состоянии накопителя и уведомлять про ошибки (если такие имеются):

Для SAS диск используют следующий синтаксис:

В результате получим что то похожее на:

А вот команда для проверки следующего диска с интерфейсом SAS, названного /dev/sg2:

В /dev/sg1 заменяется номер диска. Например, если это RAID10 из 4-х дисков, то будет выглядеть так:

Проверить жесткий диск можно с помощью следующих команд:

Использование Adaptec Storage Manager

Другие простые команды для проверки базового состояния выглядят следующим образом:

Обратите внимание на то, что более новая версия arcconf расположена в архиве /usr/Adaptec_Event_Monitor. Таким образом, весь путь должен выглядеть так:

Вы можете самостоятельно проверить состояние массива Adaptec RAID на Linux с помощью ввода простой команды:

Или (более поздняя версия):

Примерный результат на фото:

По традиции, немного рекламы в подвале, где она никому не помешает. Напоминаем, что в связи с тем, что общая емкость сети нидерландского дата-центра, в котором мы предоставляем услуги, достигла значения 5 Тбит / с (58 точек присутствия, включения в 36 точек обмена, более, чем в 20 странах и 4213 пиринговых включений), мы предлагаем выделенные серверы в аренду по невероятно низким ценам, только неделю!.

Навожу короткую инструкция по мониторингу физических дисков под хардварным LSI 2108 RAID контроллером. Так же эта инструкция может пригодиться для мониторинга дисков под HP/Compaq Smart Array Controller, Areca SATA[/SAS] RAID controller и другими, используя инструмент smart в сочетании с специализированными программами. Перечень контроллеров, за которыми можно мониторить физические диски используя smartctl наведен здесь.

Немного о HDD интерфейсах

С интерфейсами все понятно, переходим к практике.

Мониторинг дисков используя megacli

Смотрим какие у нас есть диски.

Как видим, у нас LSI SAS MegaRAID контроллер, диски которого можно мониторить используя smartctl или же используя специализированную утилиту megacli. Для начала присмотримся к megacli. В стандартных репозиториях ее нет, но можно скачать с официального сайта и собрать с исходников. Но я рекомендую использовать специальный репозиторий (за который хочу сказать ОГРОМНОЕ спасибо) в котором есть почти весь набор специализированных утилиты под любой тип аппаратных рейдов.

Перечень всех доступных в репозитории утилит наведен здесь
Проверяем на ошибки физический диск megaraid используя megacli.

Теперь напишем маленький скрипт для мониторинга всех нужных параметров включая BBU.

Как видим у нас проблема с батареей (BBU) и ее нужно заменить.
По роботе с magacli есть целая книга-руководство.
Из полезных команд:

Мониторинг дисков используя smartctl

Для этого нам понадобиться тот же megacli, используя который, мы узнаем ID физических дисков и соответствующие им логические носители. Начнем.
Узнаем ID всех физических дисков за мегарейд контроллером ну и номера соответствующих логических дисков.

Расшифрую эту команду:

Теперь видно, что у нас три логических(виртуальных) диска в которые входят по несколько физических дисков с соответствующими ID. Посмотрим на сервере, сколько у нас есть дисков:

Все верно, у нас три логических диска в системе. Проводим аналогию с выводом команды megacli:

К примеру возьмем первый диск.

Каждая из ошибок имеет различные коды. Оригинал описания кодов взято из мануала по SCSI Seagate дискам:

Gigabytes processed [Total bytes processed: 05h]. This parameter code specifies the counter that counts the total number of bytes either successfully or unsuccessfully read, written or verified (depending on the log page) from the drive. If a transfer terminates early because of an unrecoverable error, only the logical blocks up to and including the one with the uncorrected data are counted. [smartmontools divides this counter by 10^9 before displaying it with three digits to the right of the decimal point. This makes this 64 bit counter easier to read.]

Total uncorrected errors [Total uncorrected errors: 06h]. This parameter code specifies the counter that contains the total number of blocks for which an uncorrected data error has occurred.

С всего этого нас интересует параметр Total uncorrected errors который показывает количество не исправленных ошибок. Если это число велико, то нужно запускать long тест и проверить, дополнительно, параметры физического диска в Megaraid контроллере.

Мониторинг дисков используя smartd

Читайте также: