Сколько дисков может выйти из строя в raid 5 массиве без потери информации

Обновлено: 07.07.2024

«Какой уровень RAID самый надежный?» Все знают, что наиболее распространенным является уровень RAID5, однако он отнюдь не лишен серьезных недостатков, которые неочевидны для неспециалистов.

RAID 0, RAID 1, RAID 5, RAID 10 или что такое уровни RAID?

В своей статье я попытаюсь охарактеризовать самые популярные уровни RAID, а затем сформулирую рекомендации по использованию этих уровней. Для иллюстрации статьи я построил диаграмму, на которой поместил эти уровни в трехмерном пространстве надежности, производительности и ценовой эффективности.

JBOD (Just a Bunch of Disks) – это простое объединение (spanning) жестких дисков, которое уровнем RAID формально не является. Томом JBOD может быть массив из одного диска или объединение нескольких дисков. Контроллеру RAID для работы с таким томом не требуется проведение каких-либо вычислений. На нашей диаграмме диск JBOD служит в качестве «ординара» или отправной точки – его значения надежности, производительности и стоимости совпадают с соответствующими показателями единичного жесткого диска.

RAID 0 (“Striping”) избыточности не имеет, а информацию распределяет сразу по всем входящим в массив дискам в виде небольших блоков («страйпов»). За счет этого существенно повышается производительность, но страдает надежность. Как и в случае JBOD, за свои деньги мы получаем 100% емкости диска.

Поясню, почему уменьшается надежность хранения данных на любом составном томе – так как при выходе из строя любого из входящих в него винчестеров полностью и безвозвратно пропадает вся информация. В соответствии с теорией вероятностей математически надежность тома RAID0 равна произведению надежностей составляющих его дисков, каждая из которых меньше единицы, поэтому совокупная надежность заведомо ниже надежности любого диска.

Хороший уровень – RAID 1 (“Mirroring”, «зеркало»). Он имеет защиту от выхода из строя половины имеющихся аппаратных средств (в общем случае – одного из двух жестких дисков), обеспечивает приемлемую скорость записи и выигрыш по скорости чтения за счет распараллеливания запросов. Недостаток заключается в том, что приходится выплачивать стоимость двух жестких дисков, получая полезный объем одного жесткого диска.

Изначально предполагается, что жесткий диск – вещь надежная. Соответственно, вероятность выхода из строя сразу двух дисков равна (по формуле) произведению вероятностей, т.е. ниже на порядки! К сожалению, реальная жизнь – не теория! Два винчестера берутся из одной партии и работают в одинаковых условиях, а при выходе из строя одного из дисков нагрузка на оставшийся увеличивается, поэтому на практике при выходе из строя одного из дисков следует срочно принимать меры – вновь восстанавливать избыточность. Для этого с любым уровнем RAID (кроме нулевого) рекомендуют использовать диски горячего резерва HotSpare. Достоинство такого подхода – поддержание постоянной надежности. Недостаток – еще большие издержки (т.е. стоимость 3-х винчестеров для хранения объема одного диска).

Зеркало на многих дисках – это уровень RAID 10. При использовании такого уровня зеркальные пары дисков выстраиваются в «цепочку», поэтому объем полученного тома может превосходить емкость одного жесткого диска. Достоинства и недостатки – такие же, как и у уровня RAID1. Как и в других случаях, рекомендуется включать в массив диски горячего резерва HotSpare из расчета один резервный на пять рабочих.

RAID 5, действительно, самый популярный из уровней – в первую очередь благодаря своей экономичности. Жертвуя ради избыточности емкостью всего одного диска из массива, мы получаем защиту от выхода из строя любого из винчестеров тома. На запись информации на том RAID5 тратятся дополнительные ресурсы, так как требуются дополнительные вычисления, зато при чтении (по сравнению с отдельным винчестером) имеется выигрыш, потому что потоки данных с нескольких накопителей массива распараллеливаются.

Недостатки RAID5 проявляются при выходе из строя одного из дисков – весь том переходит в критический режим, все операции записи и чтения сопровождаются дополнительными манипуляциями, резко падает производительность, диски начинают греться. Если срочно не принять меры – можно потерять весь том. Поэтому, (см. выше) с томом RAID5 следует обязательно использовать диск Hot Spare.

Помимо базовых уровней RAID0 - RAID5, описанных в стандарте, существуют комбинированные уровни RAID10, RAID30, RAID50, RAID15, которые различные производители интерпретируют каждый по-своему.

Суть таких комбинаций вкратце заключается в следующем. RAID10 – это сочетание единички и нолика (см. выше). RAID50 – это объединение по “0” томов 5-го уровня. RAID15 – «зеркало» «пятерок». И так далее.

Таким образом, комбинированные уровни наследуют преимущества (и недостатки) своих «родителей». Так, появление «нолика» в уровне RAID 50 нисколько не добавляет ему надежности, но зато положительно отражается на производительности. Уровень RAID 15, наверное, очень надежный, но он не самый быстрый и, к тому же, крайне неэкономичный (полезная емкость тома составляет меньше половины объема исходного дискового массива).

RAID 6 отличется от RAID 5 тем, что в каждом ряду данных (по английски stripe) имеет не один, а два блока контрольных сумм. Контрольные суммы - "многомерные", т.е. независимые друг от друга, поэтому даже отказ двух дисков в массиве позволяет сохранить исходные данные. Вычисление контрольных сумм по методу Рида-Соломона требует более интенсивных по сравнению с RAID5 вычислений, поэтому раньше шестой уровень практически не использовался. Сейчас он поддерживается многими продуктами, так как в них стали устанавливать специализированные микросхемы, выполняющие все необходимые математические операции.

Согласно некоторым исследованиям, восстановление целостности после отказа одного диска на томе RAID5, составленном из дисков SATA большого объема (400 и 500 гигабайт), в 5% случаев заканчивается утратой данных. Другими словами, в одном случае из двадцати во время регенерации массива RAID5 на диск резерва Hot Spare возможен выход из строя второго диска. Отсюда рекомендации лучших RAIDоводов: 1) всегда делайте резервные копии; 2) используйте RAID6!

Недавно появились новые уровни RAID1E, RAID5E, RAID5EE. Буква "Е" в названии означает Enhanced.

RAID level-1 Enhanced (RAID level-1E) комбинирует mirroring и data striping. Эта смесь уровней 0 и 1 устроена следующим образом. Данные в ряду распределяются точь-в-точь так, как в RAID 0. То есть ряд данных не имеет никакой избыточности. Следующий ряд блоков данных копирует предыдущий со сдвигом на один блок. Таким образом как и в стандартном режиме RAID 1 каждый блок данных имеет зеркальную копию на одном из дисков, поэтому полезный объем массива равен половине суммарного объема входящих в массив жестких дисков. Для работы RAID 1E требуется объединение трех или более дисков.

Мне очень нравится уровень RAID1E. Для мощной графической рабочей станции или даже для домашнего компьютера - оптимальный выбор! Он обладает всеми достоинствами нулевого и первого уровней - отличная скорость и высокая надежность.

Перейдем теперь к уровню RAID level-5 Enhanced (RAID level-5E). Это то же самое что и RAID5, только со встроенным в массив резервным диском spare drive. Это встраивание производится следующим образом: на всех дисках массива оставляется свободным 1/N часть пространства, которая при отказе одного из дисков используется в качестве горячего резерва. За счет этого RAID5E демонстрирует наряду с надежностью лучшую производительность, так как чтение/запись производится параллельно с бОльшего числа накопителей одновременно и spare drive не простаивает, как в RAID5. Очевидно, что входящий в том резервный диск нельзя делить с другими томами (dedicated vs. shared). Том RAID 5E строится минимум на четырех физических дисках. Полезный объем логического тома вычисляется по формуле N-2.

Как ни странно, никаких упоминаний об уровне RAID 6E на просторах Интернета я не нашел - пока такой уровень никем из производителей не предлагается и даже не анонсируется. А ведь уровень RAID6E ( или RAID6EE? ) можно предложить по тому же принципу, что и предыдущий. Диск HotSpare обязательно должен сопровождать любой том RAID, в том числе и RAID 6. Конечно, мы не потеряем информацию при выходе из строя одного или двух дисков, но начать регенерацию целостности массива крайне важно как можно раньше, чтобы скорее вывести систему из "критического" режима. Поскольку необходимость диска Hot Spare для нас не подлежит сомнению, логичным было бы последовать дальше и "размазать" его по тому так, как это сделано в RAID 5EE, чтобы получить преимущества от использования бОльшего количества дисков (лучшая скорость на чтении-записи и более быстрое восстановление целостности).

Уровни RAID в "числах".

В таблицу я собрал некоторые важные параметры почти всех уровней RАID, чтобы можно было сопоставить их между собой и четче понять их суть.

Произво дительность записи

Все "зеркальные" уровни — RAID 1, 1+0, 10, 1E, 1E0.

Давайте еще раз попробуем досконально разобраться, чем же различаются эти уровни?

RAID 1.
Это - классическое "зеркало". Два (и только два!) жестких диска работают как один, являясь полной копией друг друга. Выход из строя любого из этих двух дисков не приводит к потере ваших данных, так как контроллер продолжает работу с оставшимся диском. RAID1 в цифрах: двукратная избыточность, двукратная надежность, двукратная стоимость. Производительность на запись эквивалентна производительности одного жесткого диска. Производительность чтения выше, так как контроллер может распределять операции чтения между двумя дисками.

RAID 10.
Суть этого уровня в том, что диски массива объединяются парами в "зеркала" (RAID 1), а затем все эти зеркальные пары в свою очередь объединяются в общий массив с чередованием (RAID 0). Именно поэтому его иногда обозначают как RAID 1+0. Важный момент - в RAID 10 можно объединить только четное количество дисков (минимум - 4, максимум - 16). Достоинства: от "зеркала" наследуется надежность, от "нуля" - производительность как на чтение, так и на запись.

RAID 1Е.
Буква "E" в названии означает "Enhanced", т.е. "улучшенный". Принцип этого улучшения следующий: данные блоками "чередуются" ("striped") на все диски массива, а потом еще раз "чередуются" со сдвигом на один диск. В RAID 1E можно объединять от трех до 16 дисков. Надежность соответствует показателям "десятки", а производительность за счет большего "чередования" становится чуть лучше.

RAID 1Е0.
Этот уровень реализуется так: мы создаем "нулевой" массив из массивов RAID1E. Следовательно, общее количество дисков должно быть кратно трем: минимум три и максимум - шестьдесят! Преимущество в скорости при этом мы вряд ли получим, а сложность реализации может неблагоприятно отразиться на надежности. Главное достоинство - возможность объединить в один массив очень большое (до 60) количество дисков.

Сходство всех уровней RAID 1X заключается в их показателях избыточности: ради реализации надежности жертвуется ровно 50% суммарной емкости дисков массива.

Уровень RAID 5 используется, пожалуй, чаще всего. Он обеспечивает как страйпинг, так и вычисление и хранение контрольных сумм на случай необходимости коррекции/восстановления. В RAID 5 блок четности распределяется по всем дискам в массиве, обеспечивая более сбалансированную нагрузку на них. Контрольные суммы используются при коррекции/восстановлении данных в случае отказа одного из дисков. Для построения RAID 5 необходимо, как минимум, 3 диска (мы настоятельно рекомендум использовать, как минимум 4).

(+) : отказоустойчивость.
(+) : экономичность (в смысле полезного количества используемых дисков).
(+) : при чтении (по сравнению с отдельным винчестером) имеется выигрыш, потому что потоки данных с нескольких накопителей массива обрабатываются параллельно.
(-) : медленный цикл записи (2 операции чтения и 2 записи требуются для записи одного блока).
(-) : при выходе из строя одного из дисков — весь том переходит в критический режим (degrade), все операции записи и чтения сопровождаются дополнительными манипуляциями, резко падает производительность. При этом уровень надежности снижается до надежности одиночного диска. Если до полного восстановления массива выйдет из строя хотя бы еще один диск, то массив разрушается, и данные на нем восстановлению обычными методами не подлежат.

С томом RAID 5 можно использовать диск Hotspare . Основное время дополнительный диск простаивает, но при выходе из строя одного из дисков массива, его восстановление начинается немедленно с использованием Hotspare -диска.

При использовании одного тома RAID 5 данная конфигурация дисков является расточительной, эффективнее использовать RAID 6 . Целесообразность использования Hotspare -диска проявляется в системе из нескольких томов RAID 5 , в которой Hotspare диск назначен для каждого из томов RAID 5 , и может быть использован в случае необходимости для немедленного восстановления одного из томов.

Минимальное количество дисков: 3 (но лучше, как минимум, 4).

Результирующая емкость массива с использование RAID 5 составляет где N - количество дисков в массиве, а C - их емкость.

У нас есть сервер Dell PowerEdge T410 под управлением CentOS с массивом RAID-5, содержащим 5 дисков Seagate Barracuda 3 ТБ SATA. Вчера система рухнула (я не знаю, как именно, и у меня нет никаких журналов).

Загрузившись в BIOS RAID-контроллера, я увидел, что из 5 дисков диск 1 был помечен как «отсутствующий», а диск 3 - как поврежденный. Я принудительно скопировал диск 3 и заменил диск 1 новым жестким диском (того же размера). BIOS обнаружил это и начал восстанавливать диск 1 - однако он застрял на% 1. Индикатор прогресса вращения не двигался с места всю ночь; полностью заморожен

Какие у меня есть варианты? Есть ли способ попытаться восстановить, кроме как использовать какой-либо профессиональный сервис восстановления данных? Как два жестких диска могут выйти из строя одновременно? Кажется слишком случайным. Возможно ли, что диск 1 вышел из строя, и в результате диск 3 "вышел из синхронизации?" Если так, есть ли какая-либо утилита, которую я могу использовать, чтобы вернуть ее "в синхронизации"?

Да, большие диски sata имеют тенденцию делать это. (Восстановление 3 ТБ занимает много часов, пока вы подвержены двойным сбоям). Так что это ожидается, и именно поэтому RAID-5, использующий такую конфигурацию, абсолютно не рекомендуется. Я знаю, что это не очень помогает сейчас, но только к сведению - общий консенсус заключается в том, чтобы использовать RAID6 для дисков объемом более 1 ТБ (по крайней мере, когда мы говорим о 7200 об / мин). RAID 5 обеспечивает отказоустойчивость, но это компромиссный вариант - у вас устойчивость N + 1, но если у вас большие диски, у вас большое окно, в котором может возникнуть вторая ошибка. RAID-6 обеспечивает отказоустойчивость N + 2, которая обычно считается хорошей (вероятность тройного отказа намного ниже). Однако вы также найдете частоту отказов более дорогих дисков (например, не дешевых дисков SATA)

После того, как вы приняли неверный ответ, мне очень жаль мое еретическое мнение (которое уже несколько раз сохраняло такие массивы).

Ваш второй неисправный диск, вероятно, имеет небольшую проблему, возможно, сбой блока. Это причина, почему плохой инструмент синхронизации вашей плохой прошивки raid5 упал на него.

Вы можете легко сделать копию на уровне секторов с помощью низкоуровневого инструмента клонирования дисков (например, gddrescue , вероятно, очень полезен) и использовать этот диск в качестве нового диска3. В этом случае ваш массив выжил с незначительным повреждением данных.

Прошу прощения, наверное, уже слишком поздно, потому что суть ортодоксального ответа в этом случае: «множественный сбой в рейде5, вот и апокалипсис!»

Если вы хотите очень хороший, избыточный рейд, используйте программный рейд в Linux. Например, его макет данных о рейд-суперблоке общедоступен и задокументирован . Мне очень жаль, но это еще одно еретическое мнение.

@JamesRyan Я согласен, что это вызовет некоторые более поздние проблемы, и я даже согласен, что здесь есть основные проблемы. Однако он предлагает правильное решение о том, как вернуть некоторые функциональные возможности, и, поскольку ОП говорила о специалистах по восстановлению данных, я могу только предположить, что у них нет резервных копий, чтобы вернуть свои данные в противном случае. В конце концов, это решение будет только первой частью исправления: после того, как этот метод снова загрузит систему, вы, вероятно, захотите перенести файловую систему на 5 новых дисков, а затем сделать резервную копию. «Вы можете легко сделать копию инструментального блока для копирования на уровне сектора». Это действительно то, что вы хотели написать? @MikeFurlender Я думаю, что аппаратное обеспечение быстрее, но запатентовано и поэтому хрупко, так как вам нужно получить точно такой же контроллер в случае сбоя. Программный RAID не зависит от аппаратного обеспечения. Смотрите btrfs и zfs.

У вас двойной сбой диска. Это означает, что ваши данные ушли, и вам придется восстановить из резервной копии. Вот почему мы не должны использовать raid 5 на больших дисках. Вы хотите настроить свой рейд, чтобы у вас всегда была возможность противостоять двум сбоям диска, особенно на больших медленных дисках.

Есть две проблемы с RAID5. Первый: время восстановления 3 ТБ, учитывая, что медленный диск SATA может быть большим, что увеличивает шансы сложного сбоя. Другая причина - это неисправимая частота ошибок по битам - в спецификации большинства дисков SATA 1/10 ^ 14, что составляет примерно 12 ТБ данных. С 5-сторонним 3B RAID это становится почти неизбежным, когда требуется перестройка. Я использую RAID5 на своем дисковом массиве объемом 3 ТБ, я пытался получить второй массив для использования в качестве реплицированной копии первого. Таким образом, чтобы я потерял данные, потребовалось бы более 1 диска для одновременного отказа обоих массивов (поэтому мне потребовалось бы 4 диска), но при этом оставалось достаточно большое количество доступной емкости. Прочитав это, я теперь могу увеличить этот интервал времени для получения второго массива. У него, вероятно, только плохой блок на его диске3. Мне действительно интересно, почему профессиональный системный администратор никогда не слышал о инструментах копирования на уровне блоков. Не очень полезный ответ. Конечно, при двойном сбое диска на RAID 5 вероятность восстановления невелика. Но большинство сбоев двойного диска в RAID 5, вероятно, связано только с одним неисправным диском и несколькими неисправленными ошибками чтения на других дисках. В этом случае восстановление большей части данных все еще возможно при наличии правильных инструментов. Указатели на такие инструменты будут полезны.

Как отмечено в комментариях, большие диски SATA не рекомендуются для конфигурации RAID 5 из-за вероятности двойного сбоя во время перестройки, что приведет к сбою массива.
- Если это должен быть RAID четности, RAID 6 лучше, и в следующий раз используйте также горячий резерв.
- Диски SAS лучше по ряду причин, включая большую надежность, отказоустойчивость и более низкую частоту неисправимых битовых ошибок, которые могут вызвать URE (неисправимые ошибки чтения)
Если у вас есть 5 дисков (в соответствии с OP) и вы используете горячую замену, наверняка вы бы выбрали RAID10 вместо RAID6 . Ну, для начала - вы бы использовали 4 шпинделя в RAID 1 + 0, чтобы получить место на 2 дисках, оставляя один диск «запасным». Вы можете терпеть два отказа (правильные два по крайней мере). RAID6 даст вам место на 3 дисках и может также выдержать два сбоя (любые два). RAID1 + 0 обладает лучшими характеристиками производительности, меньшим штрафом на запись и потенциально лучшей производительностью произвольного чтения (чтение может обслуживаться с любого из двух шпинделей). Для пункта 2. Восстановление данных. Профессиональное восстановление данных с RAID5 может обойтись вам в 20 тысяч долларов. Кроме того, OP позволил перестроить работу в течение ночи, нагрузив диск, что может сделать восстановление более трудным или даже невозможным. Просто сообщаю заранее. Обязательно отправьте все диски.
Одновременный отказ возможен, даже вероятен, по причинам, указанным другими. Другая возможность состоит в том, что один из дисков вышел из строя некоторое время назад, и вы не проверяли его активно.

Убедитесь, что ваш мониторинг быстро обнаружит том RAID, работающий в ухудшенном режиме. Может быть, у вас не было выбора, но никогда не стоит учиться этим вещам в BIOS.
+1 за упоминание о забытом мониторинге. Важно отметить, что уже шаг «нормальный» -> «критический», а не шаг «критический» -> «сбой». Это относится также ко всем остальным типам резервирования (резервная интернет-линия, пиво в подвале, запасное колесо, . ).
Чтобы ответить "Как два жестких диска могут выйти из строя одновременно?" точно, я хотел бы процитировать из этой статьи :

Суть аргумента заключается в следующем. Поскольку диски становятся все больше и больше (примерно в два раза за два года), URE (неисправимая ошибка чтения) не улучшается с той же скоростью. URE измеряет частоту возникновения неисправимой ошибки чтения и обычно измеряется в виде ошибок на считанные биты. Например, скорость URE 1E-14 (10 ^ -14) подразумевает, что статистически неисправимая ошибка чтения будет возникать один раз при каждом считывании 1E14 бит (1E14 бит = 1,25E13 байт или приблизительно 12 ТБ).

.

Аргумент заключается в том, что по мере увеличения емкости диска и увеличения скорости URE с той же скоростью вероятность сбоя восстановления RAID5 со временем возрастает. Статистически он показывает, что в 2009 году емкость дисков выросла бы настолько, что было бы бессмысленно использовать RAID5 для любого значимого массива.

Итак, RAID5 был небезопасен в 2009 году. RAID6 тоже скоро будет. Что касается RAID1, я начал делать их из 3 дисков. RAID10 с 4 дисками также ненадежен.
Опять же, RAID - это не резервная альтернатива, а просто добавление «буферной зоны», во время которой диск может быть заменен, чтобы сохранить доступные данные . доступными. Другой вариант - использовать репликацию, которая потребовала бы одновременного сбоя двух массивов . гораздо менее вероятно, я бы подумал. Лично мне не нравится мантра о том, что RAID не является резервной копией. В словаре говорится: «человек, план, устройство и т. Д. Хранятся в резерве, чтобы служить заменой, если это необходимо». Если количество избыточности недостаточно, оно не сможет служить заменой. Если вы не заботитесь о резервировании RAID, вы можете его не использовать. Что касается того, что он не заменяет резервные копии вне диска и вне сайта, это совсем другое дело, с чем я согласен (конечно). так что вы думаете о тех, кто использует RAID-полосы без избыточности? в этом случае массив RAID используется исключительно для получения выигрыша в производительности, что является совершенно допустимым использованием IMO, на мой взгляд, RAID служит 2 целям: 1. для обеспечения скорости путем группировки дисков или 2. для обеспечения безопасности в случае, если Сбой дисков, гарантирующий, что данные все еще доступны. Любой, кто внедряет RAID, выберет тип RAID, который он хочет использовать, исходя из своих потребностей, скорости, надежности или их комбинации, но это все еще не делает RAID ни одной из форм резервного копирования. Когда люди говорят, что RAID не является резервной копией, они не говорят о доступности. Я думаю, что вы просто играете со словами. :)
Поток устарел, но если вы читаете, поймите, когда диск выходит из строя в массиве raid, проверьте возраст дисков. Если у вас есть несколько дисков в массиве raid, и им более 4-5 лет, велика вероятность, что другой диск выйдет из строя. *** СДЕЛАТЬ ИЗОБРАЖЕНИЕ или Резервное копирование **, прежде чем продолжить. Если вы считаете, что у вас есть резервная копия, проверьте ее, чтобы убедиться, что вы можете прочитать ее и восстановить из нее.

Причина в том, что вы оставляете годы нормального износа оставшихся дисков, поскольку они вращаются на полной скорости в течение нескольких часов. Чем больше число дисков 6 лет, тем больше вероятность того, что другой диск выйдет из строя из-за стресса. Если это RAID5, а вы разбили массив, то у вас есть резервная копия, но для восстановления диска объемом 2 ТБ потребуется 8 - 36 часов, в зависимости от типа контроллера raid и другого оборудования.

Мы регулярно заменяем весь рейд-улей на производственных серверах, если все диски старые. Зачем было тратить время на замену одного диска, а затем подождите, пока следующий не выйдет из строя через день, неделю, месяц или два. Каким бы дешевым ни был дисковод, его просто не стоит времени простоя.

Как правило, при покупке дисков в большом количестве у надежного торгового посредника вы можете запросить, чтобы диски поступали из разных партий, что важно по причинам, указанным выше. Далее, именно поэтому существует RAID 1 + 0. Если бы вы использовали 6 дисков в RAID 1 + 0, у вас было бы 9 ТБ данных с немедленной избыточностью, где не требуется перестройка тома.

В современном мире все уже давно поняли какой ценностью обладает информация и какой огромный потенциал заложен в развитии IT технологий. Поскольку сервера и компьютеры могут выходить из строя – автоматически возник вопрос как обеспечить безопасность данных, так как их потеря важной информации может обанкротить целые компании, а убытки могут достигать многих миллионов. В свою очередь это привело в появлению RAID массивов – технологии, которая призвана предотвратить потерю информации путем объединения нескольких накопителей в один массив. Однако, как показала практика – RAID массивы также могут ломаться.

В этой статье мы рассмотрим главные причины выхода из строя RAID массивов.

Содержание:

История развития RAID

В самом начале развития компьютерных технологий все внимание было направлено на том, как сделать компьютеры максимально удобными для пользователя. В те времена не существовало понятия «персональный компьютер», так как наиболее часто компьютеры использовались в военной промышленности (но там совсем другая история, так как военная индустрия обладает своими наработками по безопасности информации и т.д.) и в больших корпорациях. Но в те времена функционал компьютеров был очень небольшим и с ними по большей части работали программисты.

Даже в 1970х годах, когда Apple и Microsoft начали свою деятельность – вопрос о безопасности данных не был на первом месте. Все изменилось с появлением и развитием интернета, который начал охватывать все больше и больше стран и позволял пользователям обмениваться информацией. Стоит также отметить, что к тому времени все уже привыкли к персональным компьютерам и поняли, что они способны сильно облегчить жизнь обрабатывая огромные массивы информации. С появлением цифровых фотоаппаратов и видеокамер для личного использования всем стало ясно, что персональные компьютеры так или иначе будут практически в каждом доме. После этого начался бум цифровой индустрии, который автоматически поднял вопрос о безопасности данных. Немало этому посодействовали большие компании, которые уже в те времена обладали большими серверами для хранения данных, от которых сильно зависел уровень их эффективности. Поэтому, в 1987 году были придуманы RAID массивы. Их главным заданием было избежание потерь важной информации и поскольку технология была эффективной и предлагала на выбор несколько вариантов защиты данных, в зависимости от потребностей пользователя – она быстро приобрела распространение. Примерно так выглядит блок дисков, объединенных в RAID:

Несмотря на то, что никакой стандартизации не проводилось – следующие уровни массива RAID были приняты как стандарт:

Все остальные типы RAID массивов (такие как RAID 10, RAID 50 и т.д.) построены на вышеперечисленных типах RAID и так или иначе используют их концепцию.

Использование массивов RAID оказалось настолько эффективным, что на сегодняшний день практически все современные хранилища данных (сервера, NAS и т.д.) используют RAID массивы в том или ином виде.

Однако, несмотря всю надёжность такого решения стоит отметить, что вероятность потери данных все же осталась (хоть и сильно снизилась) так как даже RAID массивы иногда выходят из строя. Это может происходить по многим причинам и для того, чтобы узнать больше информации на эту тему читайте следующий пункт этой статьи.

Что такое деградированный режим RAID?

Также о переходе массива в деградированный режим может свидетельствовать символ «[U_]» при проверке состояния RAID массива в терминале. Обычно он находится возле поврежденного диска и означает, что он рассинхронизирован.

В этом случае следует немедленно заменить поврежденный диск так как в случае выхода из строя еще одного диска все данные массива будут потеряны.

Причины потери данных на RAID массивах

При использовании RAID массивов данные хранятся на таких же накопителях, что и в обычных компьютерах, которые могут ломаться и т.д. Технология RAID позволяет предотвратить потерю данных, но процесс восстановления информации может сильно затянуться, так как нередко при выходе из строя одного накопителя скорость работы всего RAID массива сильно снижается, особенно это актуально, когда речь заходит о терабайтах информации, как например на сервере. Кроме того, в некоторых случаях, чтобы заменить поврежденный носитель на новый – требуется отключение питания, что тоже не очень подходит для серверов. Поэтому лучше всего знать главные причины выхода из строя RAID массивов, чтобы иметь возможность предотвратить неприятности.

Итак, среди основных причин можно выделить следующие:

Выход из строя RAID контроллера

Контроллер RAID массива является одним из наиболее важных элементов, так как именно он отвечает за распределение данных между накопителями и позволяет работать с массивом как с единым накопителем. Если массив прекращает свою работу – наиболее часто это вызвано именно поломкой контроллера. Стоит отметить, что аппаратные контроллеры ломаются немного реже чем программные, но и стоят они на порядок дороже. Кроме того, между аппаратными контроллерами разных производителей нету совместимости. То есть, если вы приобрели контроллер от фирмы Supermicro то для восстановления работоспособности массива вам придется купить такую же модель. В противном случае вам придется создавать массив заново, что приведет к потере данных. Среди причин, из-за которых контроллер выходит и строя можно выделить такие как перепад напряжения или резкое отключение энергии. Это актуально как для аппаратных RAID контроллеров, так и для программных. Поэтому, обязательно позаботьтесь о бесперебойном источнике питания, чтобы обеспечить ваш RAID массив от возможных проблем.

Ошибка пересборки/сборки RAID массива

Во время каждой перезагрузки компьютера RAID массив пересобирается заново и от того, пройдет ли сборка нормально зависит дальнейшая работа массива. Если во время перестройки массива произойдёт перепад напряжения или другое форс-мажорное событие – массив не будет пересобран, и пользователь моет потерять данные.

Выход накопителя из строя

Все мы знаем, что главным предназначением RAID массивов является защита данных на случай выхода из строя одного или двух дисков. Обычно RAID массив без проблем справляется с этой задачей. Но иногда случаются ситуации, когда при выходе одного или нескольких дисков повреждаются данные на соседнем носителе и в такой ситуации RAID массив может оказаться полностью неработоспособным, что в свою очередь приведет к потере информации. Поэтому настоятельно рекомендуется периодически проверять состояние накопителей, из которых построен RAID массив.

Отсутствие разделов массива

Для обеспечения нормальной работы RAID массивов применяется технология чередования, главной задачей которой является распределение информации меду дисками в рамках одного логического тома. Это позволяет обеспечить высокий уровень производительности и защиты данных, однако, если механизм чередования будет повреждён – данные окажутся недоступными, даже если физически они в полной сохранности. Все дело в том, что RAID массив просто не смоет определить диски с данными и соответственно не сможет собрать массив для дальнейшей работы.

Поломка сервера

Хост компьютер, как и любой другой может поломаться или дать сбой. Это в свою очередь отобразится на RAID массиве. В 70% таких случаев данные оказываются недоступными.

Все вышеперечисленные поломки являются наиболее часто встречающимися причинами выхода из строя RAID массивов. Обычно, после таких поломок приходится использовать стороннее ПО для восстановления данных. О том, как восстановить данные на RAID массиве читайте в следующем пункте этой статьи.

Что делать при сбое RAID массива или если RAID массив не собирается после перезагрузки?

Если ваш RAID массив перестал работать после сбоя, либо не собирается после перезагрузки то для восстановления рабочего состояния без потери данных вам следует сначала извлечь данные массива, чтобы не повредить их во время восстановления работоспособности RAID. Для этого следует:

Шаг 1: Выключите питание вашего компьютера/сервера или NAS устройства и отсоедините накопители, из которых состоял RAID массив.

Шаг 2: Подсоедините эти диски в рабочему компьютеру (предварительно отключив его питание).

Шаг 3: Включите рабочий компьютер. Затем скачайте и установите програму RS RAID Retrieve следуя подсказкам мастера установки Windows.

Мы специально выбрали эту программу, так как она обладает широкими возможностями восстановления данных и интуитивно-понятным интерфейсом одновременно, а значит она отлично подходит как для неопытных пользователей, так и для профессионалов.

Шаг 4: Запустите программу RS RAID Retrieve дважды кликнув по иконке на рабочем столе. Перед вами откроется встроенный RAID конструктор.

Шаг 5: Выберите тип добавления RAID массива для сканирования. RS RAID Retrieve предлагает на выбор три варианта:
- Автоматический режим – позволяет просто указать диски, из которых состоял массив, и программа автоматически определит их порядок, тип массива и остальные параметры;
- Поиск по производителю – эту опцию следует выбрать, если вам известен производитель вашего RAID контроллера. Эта опция также автоматическая и не требует каких-либо знаний о структуре RAID массива. Наличие данных о производителе позволяют сократить время на построение массива, соответственно она быстрее предыдущей;
- Создание вручную – эту опцию стоит использовать если вы знаете какой тип RAID массива вы используете. В этом случае вы можете указать все параметры, которые вам известны, а те, которых вы не знаете – программа определит автоматически.
После того, как выберите подходящий вариант – нажмите «Далее»

Шаг 6: Выберите диски, из которых состоял RAID массив и нажмите «Далее». После этого начнется процесс обнаружения конфигураций массива. После его завершения нажмите «Готово»

Шаг 7: В окне программы выберите ваш массив, щелкните по нему правой кнопкой мыши и выберите «Сохранить диск», а затем укажите место для сохранения копии диска и снова нажмите «Сохранить»

После этого начнется копирование файлов в указанное место. Вы также можете сохранить отдельные файлы или восстановить потерянные данные, если нужно. Для этого дважды щелкните на массиве и выберите тип сканирования. RS RAID Retrieve предлагает на выбор два типа сканирования: быстрое сканирование и полное сканирование. Первый вариант стоит выбрать если вы просто хотите скопировать файлы на другой носитель, а второй вариант выберите если хотите восстановить утерянные данные.

Также на этом этапе выберите тип файловой системы вашего массива. RS RAID Retrieve поддерживает ВСЕ современные файловые системы. Теперь, когда все настроено, нажмите «Далее».

Начнётся процесс сканирования массива, по завершении которого вы увидите прежнюю структуру файлов и папок.

Шаг 8: Выберите файл, который хотите восстановить и жажды на нем щелкните. Затем выберите место, куда хотите восстановить утерянный файл. Это может быть жесткий диск, ZIP-архив, или FTP-сервер. Главное, чтобы место записи нового файлов отличалось от дисков массива. Затем нажмите «Восстановить»

Теперь, когда данные находятся в безопасности – можно приступать к восстановлению работоспособности самого массива. В первую очередь нужно найти причину проблемы и устранить ее.

RAID массив мажет не пересобираться после перезагрузки по следующим причинам:
- Ошибка в файле mdadm.conf (он находится не в том месте, или файл не существует);
- Ошибка сборки;
- Вирус или вредоносное ПО;
- Поврежденные сектора на RAID-дисках;
- Человеческая ошибка;
- Другие причины;
Первые две причины являются достаточно распространенными, поэтому на них стоит обратить особое внимание.

Если же причина или сбой были на физическом уровне – замените вышедшие из строя нужные элементы.

Если вы не хотите тратить время на исправление программных ошибок – вы можете просто создать RAID массив заново, а затем скопировать данные обратно из сохраненной копии.

Читайте также:

Сколько дисков может выйти из строя в raid 5 массиве без потери информации

RAID 0, RAID 1, RAID 5, RAID 10 или что такое уровни RAID?

Уровни RAID в "числах".

Все "зеркальные" уровни — RAID 1, 1+0, 10, 1E, 1E0.

Содержание:

История развития RAID

Что такое деградированный режим RAID?

Причины потери данных на RAID массивах

Выход из строя RAID контроллера

Ошибка пересборки/сборки RAID массива

Выход накопителя из строя

Отсутствие разделов массива

Поломка сервера

Что делать при сбое RAID массива или если RAID массив не собирается после перезагрузки?