Emergency spare raid что это

Обновлено: 05.07.2024

Основными факторами определяющими будущий уровень массива являются:

скорость
цена
отказоустойчивость

В итоге отношение этих трёх факторов даёт нам три возможных варианта нужного уровня рейд

Может показаться, что для RAID5, RAID6 нужно вложить больше денег, однако итоговая ёмкость массива при том же количестве дисков, что и в RAID1+0 будет больше. А это может стать определяющим фактором

Действительно ли вам нужен RAID0?

Перед тем как строить RAID0 на шпиндельных дисках обратите внимание на диски SSD. В зависимости от ваших потребностей вам может быть выгоднее купить один диск SSD, чем пару шпиндельных дисков с 7200rpm. С другой стороны если вы планируете высокоёмкостный массив и важно, чтобы был быстрый доступ к данным, то лучше смотреть в сторону шпиндельных дисков с 10000rpm в качестве кандидатов. Разница в цене между одним SSD и парой шпиндельных дисков может быть достадочно большой

Таким образом стоимость высокоёмкостного массива RAID0 или даже RAID10 на базе шпиндельных дисков будет значительно меньше. И большинстве случаев такой RAID вполне способен удовлетворить ваши потребности. Если же вам не нужен такой большой массив, то лучше взять один SSD вместо RAID0 или два SSD в RAID1 вместо RAID10. Кроме того минимальное время доступа таких RAID не уменьшается. Именно поэтому на сегодняшний день SSD будет лучшим выбором

RAID5 или RAID6?

Если вы планируете строить RAID5 общей ёмкостью более 15Тб, то лучшим решением будет всё же RAID6

RAID6 в этом смысле более надёжен

Горячая замена (hot spares)

Резервный диск hot spare является хорошим дополнением к отказоустойчивости массива повышая его надёжность. Если вылетел один из дисков в отказоустойчивом массиве (RAID1, RAID10, RAID5 или RAID6) массив стал уязвим. В таком случае вам нужно физически вытащить сбойный диск и на его место установить новый. Только после этого начнётся перестройка массива. Наличие диска hot spare позволяет контроллеру немедленно приступить к восстановлению, без вторжения со стороны администратора. Чем больше дисков в вашем массиве, тем больше вероятность того, что вам потребуется hot spare диск

Технология hot spare особенно эффективна, когда единственный диск hot spare доступен для нескольких массивов. Например в восьмидисковом NAS лучше построить RAID6, чем RAID5. Потому что в случае с RAID5 диск hot spare работает вхолостую ожидая своей участи, в то время как его лучше использовать в RAID6, что сделает операции чтения эффективнее и массив более отказоустойчивым. С другой стороны при наличии двух массивов RAID5 диск hot spare одинаково быстро доступен для любого из них, тем самым сокращая и без того немалые расходы

Программный RAID все-таки жив

Не недооценивайте реализацию RAID средствами ОС

такой RAID обеспечивает аналогичную, а может даже лучшую надёжность, по ставнению с интегрированими контроллерами начального уровня. Он также более надёжен, чем тот же RAID построеный на базе pci-raid-контроллера за 20$
RAID средствами ОС легче перенести с сервера на сервер. Нет риска в длительном простое, пока вы купите новый аналогичный контроллер на замену вышедшему из строя. Ему не нужны драйвера pci-raid-контроллера. Вы просто переносите диски на новое железо и всё
в случае с RAID0, RAID1, RAID10 у pci-raid-контроллера нет особых преймуществ, потому что он не занимается вычислительними операциями. Я не умаляю возможности pci-raid-контроллера работать с кешем записи, но для этого он должен комплектоваться BBU
потому многие современные NAS для домашнего пользования и малого бизнеса используют програмный RAID

Побочный эффект такого RAID:

нет гарантий в надёжной загрузке системы
значительное падение производительности сервера во время перестройки массива

Тестирование RAID

Свежепостроеный отказоустойчивый массив (RAID1, RAID10, RAID5, RAID6) нуждается в тестировании для того, чтобы знать как поведёт себя RAID в случае отказа одного из дисков

если ваше устройство поддерживает hot swap, вытягивайте любой диск на живой системе
если устройство не поддерживает hot swap, вытягивайте диск только после выключения устройства

После этого вы должны убедиться, что работающая система ведёт себя ожидаемым образом, массив доступен, есть возможность записывать и считывать данные. Желательно, чтобы вы получали уведомления о нештатной ситуации на мейл или по SMS. Средствами ПО контроллера проверьте определяется ли порт контроллера со сбойным диском. После этого отключите UPS от сети, через определённый период времени система должна корректно завершить работу

Тестирование лучше проводить до ввода в устройства эксплуатацию, чтобы вы знали как реагировать если что. Да и лишняя головная боль вам ни к чему если вдруг что-то пойдет не так

выход из строя RAID-контроллера, сопровождается как правило простоем пока купят аналогичный, а если такого нет впереди как правило бессоная ночь с восстановлением данных
выход из строя большего числа дисков, чем это допустимо
намеренное или случайное удаление или искажение пользователем рабочих файлов
пожары, наводнения и прочий форс-мажор
да мало ли что еще может быть

Всегда на замену должны быть диски нужного размера, всегда! Должен быть квалифицированный человек которорый сможет выполнить замену дисков для восстановления массива. Время реакции на возникшую проблему должно быть минимальным, иначе вы рискуете не пережить следующий подобный отказ. Но всё дело в том, что вы не будете знать когда нужно предпринимать экстренные меры если у вас не будет системы мониторинга

регулярная проверка SMART параметров дисков
очень желательно, чтоб ваш RAID-контроллер умел scrubbing. Scrubbing работает в моменты простоя считывая и контролируя характеристики чтения, что даёт вам возможность узнать о потенциальных сбойных секторах раньше, чем они появятся реально
любое необъяснимое падение производительности может означать проблемы с диском

Восстановление RAID

Существует один известный и широко обсуждаемый вопрос относительно RAID5.

Для того, чтобы восстановить массив из N дисков по C терабайт каждый, нужно считать C*(N-1) данных. Число бит которые необходимо считать определяется формулой

b = C * (N-1) * 8 * 10 12

Вероятность перестройки массива с удачным исходом определяется формулой

P = q b

Величину p указывает производитель в спецификации диска, и обычно она равна 10 -15 ошибок чтения на один бит

Значение URE производителя

Вероятность краха при

Эти расчёты выставляют проблему в худшем свете, чем это есть на самом деле и основаны они на несколько наивных утверждениях:

сбойные биты встречаются через одинаковые промежутки времени и расположены равномерно по всем дискам массива
единственная ошибка считывания во время перестройки массива убивает весь массив

Но оба эти утверждения не соответствуют дейтвительности, что делает рузультаты вычислений абсолютно бесполезными. Кроме того сама идея учёта ошибоксчитывания на по-битном уровне кажется сомнительной, учитывая то, что блочные устройства не могут считывать меньше, чем 512 байт данных за одну транзакцию

Таким образом утверждение в начале этого раздела может быть переопределено в нечто более практичное

Существует 50% вероятность того, что невозможно будет перестроить массив RAID5 ёмкостью 12Тб

Тоже самое можно сказать иначе

Если у вас есть 10Тб массив уровня RAID0, то существует вероятность 50%, что вы не сможете прочитать данные даже если вы их записали мгновение тому назад 1

Тем не менее никто не говорит о том, что RAID0 мёртв. Выше сказанное можно переформулировать по-другому

Подобные утверждения не могут быть правдой

перевод Александр Черных
системный администратор

Системный администратор. В сисадминстве с 2000 года. Участник cyberforum

В: Что такое RAID и зачем он нужен? Какой RAID лучше использовать?
О: Ответу на этот вопрос посвящен раздел [ RAID ].

В: Можно ли использовать в RAID массиве диски разного размера?
О: Да. можно. Но, при этом, используемая емкость у ВСЕХ дисков будет равна емкости наименьшего диска.
Из этого следует, что добавлять в уже существующий RAID массив можно только диски такого же или большего размера.

В: Можно ли использовать в RAID массиве диски разных производителей?
О: Да, можно. Но при этом надо иметь ввиду, что точные размеры дисков одинаковой емкости (36/73/146. ГБ) у разных производителей могут отличаться на несколько килобайт. Когда вы создаете новый RAID массив, на это можно не обращать внимание, но если вы добавляете диски к уже существующему массиву (например, меняете вышедший из строя диск), то важно, чтобы новый диск был больше чем старые, или точно такого же размера.

В: Что такое Write Through и Write Back?
О: Это способ записи данных, полученных RAID контроллером, на дисковый массив. По другому эти способы еще называются так: прямая запись ( Write Through ) и отложенная запись ( Write Back ). Какой из этих способов будет использоваться определяется в BIOS-е контроллера (либо при создании массива, либо позднее).

Write Through - данные записываются непосредственно на дисковый массив. Т.е. как только данные получены, они сразу же записываются на диски и после этого контроллер подает сигнал управляющей ОС о завершении операции.
Write Back - данные записываются сначала в кэш , и только потом (либо по мере заполнения кэш -а, либо в моменты минимальной загрузки дисковой системы) из кэш -а на диски. При этом, сигнал о завершении операции записи передается управляющей ОС сразу же по получении данных кэш -ем контроллера.

Избежать описанной проблемы можно или с помощью установки на RAID контроллер BBU (см. ниже), или посредством подключения всего сервера через источник бесперебойного питания (UPS) с функцией программируемого выключения.

Кстати, некоторые RAID контроллеры не позволяют включить функцию Write Back без установленного BBU .

В: Что такое BBU и зачем он нужен?
О: BBU (Battery Backup Unit ) необходим для предотвращения потери данных находящихся в кэш -е RAID контроллера и еще не записанных на диск (отложенная запись - "write-back caching"), в случае аварийного выключения компьютерной системы.

Существуют три разновидности BBU :

Просто BBU : это аккумулятор, который обеспечивает резервное питание кэша через RAID контроллер.
Переносимые (Transportable) BBU (tBBU): это аккумулятор, который размещен непосредственно на модуле кэш и питает его независимо от RAID контроллера. В случае выхода из строя RAID контроллера, это позволяет перенести данные, сохраненные в кэш -е, на резервный контроллер и уже на нем завершить операцию записи данных. : основная идея заключается в следующем: в случае сбоя питания RAID контроллер копирует содержимое кэш -а в энергонезависимую память (например, в случае с технологией Adaptec »Zero-Maintenance Cache Protection - на NAND флэш накопитель). Питание, необходимое для завершения этого процесса, обеспечивается встроенным супер-конденсатором. После восстановления питания, данные из флэш памяти копируются обратно в кэш контроллера.

В: Что такое Hot Spare (Hotspare)?
О: Hot Spare - (Резервная Замена Дисководов ("Горячее резервирование")) - Одна из наиболее важных особенностей, которую обеспечивает RAID контроллер, с целью достичь безостановочное обслуживание с высокой степенью отказоустойчивости. В случае выхода из строя диска, восстанавливающая операция будет выполнена RAID контроллером автоматически, если выполняются оба из следующих условий:

Имеется "резервный" диск идентичного объема, подключенный к тому же контроллеру и назначенный в качестве резервного, именно он и называется Hotspare ;
Отказавший диск входит в состав избыточной дисковой системы, например RAID 1 , RAID 3 , RAID 5 или RAID 0+1 .

Обратите внимание: резервирование позволяет восстановить данные, находившиеся на неисправном диске, если все диски подключены к одному и тому же RAID контроллеру.
"Резервный" диск может быть создан одним из двух способов:

Когда пользователь выполняет утилиту разметки, все диски, которые подключены к контроллеру, но не сконфигурированы в любую из групп дисководов, будут автоматически помечены как "резервные" ( Hotspare ) диски (автоматический способ поддерживается далеко не всеми контроллерами).
Диск может также быть помечен как резервный ( Hotspare ), при помощи соответствующей утилиты RAID контроллера.

В течение процесса автоматического восстановления система продолжает нормально функционировать, однако производительность системы может слегка ухудшиться.

Для того, что бы использовать восстанавливающую особенность резервирования, Вы должны всегда иметь резервный диск ( Hotspare ) в вашей системе. В случае сбоя дисковода, резервный дисковод автоматически заменит неисправный диск, и данные будут восстановлены. После этого, системный администратор может отключить и удалить неисправный диск, заменить его новым диском и сделать этот новый диск резервным.

В этом разделе использованы материалы с сайта "3dnews".

В: Что такое Copyback Hot Spare?
О: Copyback Hot Spare это функция RAID контроллера, которая позволяет пользователям закрепить физическое расположение диска "горячего резерва" ( Hot Spare ), что позволяет улучшить управляемость системы.

В: Что такое JBOD?
О: JBOD (Just a Bunch of Disks) это способ подключить диски к RAID контроллеру не создавая на них никакого RAID . Каждый из дисков доступен так же, как если бы он был подключен к обычному адаптеру. Эта конфигурация применяется когда необходимо иметь несколько независимых дисков, но не обеспечивает ни повышения скорости, ни отказоустойчивости.

В: Что такое размер страйпа (stripe size)?
О: размер страйпа ( stripe size ) определяет объем данных записываемых за одну операцию ввода/вывода. размер страйпа задается в момент конфигурирования RAID массива и не может быть изменен позднее без переинициализации всего массива. Больший размер страйпа обеспечивает прирост производительности при работе с большими последовательными файлами (например, видео), меньший - обеспечивает большую эффективность в случае работы с большим количеством небольших файлов.

В: Нужно ли заниматься архивированием данных в случае использования RAID?
О: Конечно да! RAID это вовсе не замена архивированию, основное его назначение это повышение скорости и надежности доступа к данным в нормальном режиме работы. Но только регулярное архивирование данных гарантировано обеспечит их сохранность при любых отказах оборудования, пожарах, потопах и прочих неприятностях.

storcli64 и smartctl определяют местонахождение информации о сбое жесткого диска

Способ определения положения жесткого диска и буквы диска

Section One : Introduction

strocli - это обновленная версия megacli, которая perccli для серверов Dell, использование точно такое же

Smartctl может просматривать интеллектуальную информацию о главном чипе управления диска

lsscsi может просматривать информацию о системе scsi, источником данных является / proc / scsi / scsi, этот документ здесь не представлен

Эти инструменты являются общими инструментами для просмотра информации, связанной с диском, и полезны для устранения неполадок, связанных с состоянием диска и проблемами с картами-рейдами

Section Two : Install package

Установите storcli или perccli и программно подключите команду к каталогу / usr / bin / для удобного использования команды:

ln -s /opt/MegaRAID/storcli/storcli64 /usr/bin/

ln -s /opt/MegaRAID/perccli/percclie64 /usr/bin/

Section Three : Step

perccli64 / c0 / eall / sall покажет, что диск имеет
img-/c0/eall/sall
На рисунке четыре раздела jbod. Как показывает опыт, буква диска системы разделов jbod обычно находится перед разделом raid, что означает, что раздел jbod будет из / dev / sda> / dev / sdd, а раздел raid из / запускается dev / sde;
DG обозначает группу дисков и представляет собой порядок, в котором raid сконфигурирован для группировки. 32: 4 и 32: 5 показаны на рисунке как группа томов.
perccli64 / c0 / vall покажите, что соответствующие отношения между DG и VD этого диска таковы

img-/c0/vall
Из рисунка видно, DG / В.Д. является группы томов RAID и система для того, соответствующие отношения между группами томов, как правило, только если группа сервера тома RAID в случае, операционная система VD0 из / DEV / SDA, и так далее; Однако, если сервер включает группу томов jbod, группа томов raid сортируется после jbod. В этом примере VD0 = / dev / sde. Если вы хотите найти / dev / sdf, VD = 1, что соответствует DG = 1

Возвращаясь к img- / c0 / eall / sall, когда DG равен 1, DID = 6, DID - это идентификатор устройства, эта концепция будет полезна позже, а слот №7 будет седьмым на сервере, что соответствует slt = 6. (От 0 до 6), в это время физическое расположение диска находится в / dev / sdf.

И наоборот, если вы видите индикатор сбоя жесткого диска на сервере, вы можете поменять местами соответствующую букву диска системного раздела.

Note:

Если на сервере нет группы томов jbod, все рейды, то в это время / c0 / vall может найти соответствующее отношение, чтобы найти отношение ассоциации

В реальной работе вы также можете выключить подсветку диска с помощью perccli64 / c0 / e32 / s6 locate, чтобы определить правильность расположения

Section Four : storcli/perccli Usage

Просмотр информации о контроллере

perccli64 show ctrlcount Посмотрите, сколько контроллеров - это несколько карт рейдов

perccli64 показать информацию о рейд-картах

Вы можете видеть, что есть только одна карта рейда, ctrl 0 также / c0

storcli64 /c0 show

Посмотрите на идентификатор устройства, номер слота и DriveGroup диска

Просмотр информации об указанном жестком диске

Note:

При просмотре информации об одной группе томов была обнаружена ошибка носителя, указывающая на неисправность жесткого диска.

Просмотр соответствия между дисками и разделами системного диска

Note:

VD: обычно считается порядком устройства жесткого диска в системе. Обычно, если в системе есть только raid-раздел, тогда VD = 0 - это / dev / sda, VD = 1 - это / dev / sdb и т. Д., Но если есть jbod Раздел, сначала расположите раздел jbod, например, если jbod достигает / dev / sdc, VD0 - это / dev / sdd и т. Д .;
DG: порядок, в котором группы томов настроены в карте рейда;

Команды, связанные с сбором журналов рейд-карт

storcli64 /c0 show time Показать время рейда

storcli64 /c0 show alilog logfile=node-x.alilog Получить alilog, все журналы включены

storcli64 /c0 show all logfile=node-x.all.log информация о рейд-карте

storcli64 /c0 show badblocks Информация о плохих секторах на диске

perccli64 /c0 show events filter=fatal Показывает уровень события как фатальный, вы можете получить информацию обо всех разрушительных событиях, найти сбой диска или сбой карты рейда

perccli64 /c0 show cc Проверка согласованности данных. Необходимо проверить согласованность данных нескольких дисков выше raid1, но raid0 на одном диске может не потребоваться, и неясно, повлияет ли это на производительность

Section Five : Smartctl Get Error info of Disks

Common Commands Usage Description

--scan Scan for devices

--scan-open Scan for devices and try to open each device

-x, --xall Show all information for device

-a, --all Show all SMART information for device

-i, --info Show identity information for device

-d TYPE, --device=TYPE Specify device type to one of: ata, scsi, nvme[,NSID], sat[,auto][,N][+TYPE], usbcypress[,X], usbjmicron[,p][,x][,N], usbprolific, usbsunplus, marvell, areca,N/E, 3ware,N, hpt,L/M/N, megaraid,N, aacraid,H,L,ID, cciss,N, auto, test

-s VALUE, --smart=VALUE Enable/disable SMART on device (on/off)

-o VALUE, --offlineauto=VALUE(ATA) Enable/disable automatic offline testing on device (on/off)

-S VALUE, --saveauto=VALUE(ATA) Enable/disable Attribute autosave on device (on/off)

-H, --health Show device SMART health status

-c, --capabilities(ATA,NVMe) Show device SMART capabilities

-A, --attributes Show device SMART vendor-specific Attributes and values

-l TYPE, --log=TYPE Show device log. TYPE: error, selftest, selective, directory[,g|s],
xerror[,N][,error], xselftest[,N][,selftest],
background, sasphy[,reset], sataphy[,reset],
scttemp[sts,hist], scttempint,N[,p],
scterc[,N,M], devstat[,N], ssd,
gplog,N[,RANGE], smartlog,N[,RANGE],
nvmelog,N,SIZE

-t TEST, --test=TEST Run test. TEST: offline, short, long, conveyance, force, vendor,N,
select,M-N, pending,N, afterselect,[on|off]

-X, --abort Abort any non-captive test on device

Get info for /dev/sdf

Посмотреть список всех устройств

Note:

В предыдущей главе мы нашли DID диска / dev / sdf в perccli, то есть device_id равен 6, то есть / dev / bus / 0 -d megaraid, 6

Просмотр информации о диске

Просмотр информации об атрибутах диска

Просмотр состояния диска

Note:

Что касается следующих результатов теста, это указывает, что результат теста PASSED, то есть диск все еще может использоваться, но список аварийного обнаружения WORST <THRESH, TYPE - Pre-fail, а WHEN_FAILED - In_the_past, что указывает на то, что диск предсказан как плохой.

Поступил вопрос от DBA, написать о том, как разбиты диски на массивы в сервере Oracle Linux. Я, честно говоря, уже и не помню что мы там конфигурировали, воспользуемся средствами операционной системы и утилитой StorCLI.

Утилита работает и в других операционных системах на базе Linux, есть версия и для Windows, но у меня именно Oracle Linux 7.6, работаю с тем что есть.

Окружение

Имеем сервер Supermicro 4U и серверную полку 4U, всего 48 жёстких дисков HDD 3.5' объёмом 6 Тб каждый.

В сервере также имеется Rear 2.5 x 2 Hot swap HDD — 2 SATA диска HDD 2.5' объёмом 1 Тб каждый.

Раньше уже писал про то, как разбить эти диски в зеркало для ОС:

Дополнительно известно, что в сервере установлены два RAID контроллера, один обслуживает диски сервера, второй — диски полки.

Массивы в операционной системе

Посмотрим что у нас примонтировано:

У нас есть два массива md10 и md20 по 66 Тб каждый. ОС крутится на md126.

lsblk показывает, что md10 — это RAID0, состоящий из двух дисков sda и sdb. md20 — это RAID0, состоящий из двух дисков sdc и sdc. md126 — это RAID1, состоящий из двух дисков sde и sdf.

mdadm — утилита для создания массивов в linux, /proc/mdstat — статистика и состояние массивов.

Мы видим, что md126 — raid1 из двух дисков, md127 — это IMSM контейнер для md126. md10 и md20 — RAID0 массивы из двух дисков.

Ясно, что md126 — это зеркало RAID1 из двух физических задних дисков сервера. А вот sda, sdb, sdc и sdd — это некие массивы RAID контроллеров сервера, нужно разобраться, из чего они состоят.

StorCLI

Утилиту ищем в секции DOWNLOAD.

Скачиваю утилиту storcli.

Это очень мощная утилита по управлению RAID контроллером. Сегодня нам понадобится минимум функционала для определения состава массивов.

Данная команда выведет детальную информацию. Среди всего списка нам понадобится:

Здесь мы увидим количество и модели контроллеров, их состояние.

Получим список виртуальных дисков для каждого контроллера:

Всего найдено 4 массива RAID10 по 32 Тб каждый. Это они у нас отображаются в операционной системе как sda, sdb, sdc, sdd.

Посмотрим на физические диски:

Этой информации нам достаточно, чтобы определить, что каждый RAID10 массив состоит из 12 дисков. Spare диски отсутствуют.

Результат

Мы выяснили, что на сервере созданы 4 hardware RAID10 массива по 12 дисков HDD 3.5' 6Тб и один software Intel RAID1 из 2 дисков HDD 2.5' 1Тб.

Далее 4 hardware RAID10 массива в операционной системе попарно объединены в RAID0 массивы средствами mdadm.

Читайте также: