Chipkill ecc что это

Обновлено: 04.07.2024

Память с коррекцией ошибок (Error correction code - ECC) – это тип памяти, использующийся в рабочих станциях и серверах. В первую очередь она предназначена для бизнеса и профессиональных задач где критически важна работа с данными. Такая память позволяет исправлять ошибки в памяти и бороться с повреждением данных. Также предполагается, что она может сократить количество сбоев в работе сервера или рабочей станции. Все это позволяет использовать ECC RAM в профессиональных сферах и бизнесе, включая финансовые институты и облачные вычисления, где ошибки с данными и простои недопустимы.

Память ECC против обычной памяти

Физически ECC память отличается от обычной не ECC памяти (та, что используется в потребительских компьютерах и ноутбуках) наличием 9 чипов памяти с одной стороны вместо 8 (чипы памяти используются для хранения данных, которые при вызове отправляются в ЦПУ). Дополнительный чип памяти как раз используется для обнаружения и исправления ошибок в других 8 чипах.

Какое оборудование поддерживает ECC память?

Память ECC рассчитана на нагрузки корпоративного уровня, поэтому большинство потребительских материнских плат для ПК ее не поддерживают или работают без функции корректировки ошибок. Для того чтобы в полной мере воспользоваться преимуществами такой памяти вам нужна системная плата для рабочих станций либо для серверов. ECC память также стоит несколько дороже, в сравнении с обычными модулями, как раз из-за дополнительного чипа памяти.

И опять же ECC память в первую очередь предназначена для серверов и рабочих станций, поэтому для ее работы вам потребуется производительный процессор. Из модельного ряда Intel только серверная линейка Xeon предназначена для работы с ECC памятью и компания таким образом пытается отделить потребительские продукты от профессиональных. С другой стороны, компания AMD предлагает для энтузиастов многопоточные чипы Threadripper, которые поддерживают работу с таким типом памяти.

Недостатки ECC памяти

Возможно это покажется странным, но ECC память несколько медленней обычной памяти из-за того, что для проверки данных на ошибки требуется время. Вместе с тем, в 2014 году компания Puget провела исследования, согласно которым ECC память оказалась на 0,25 процента медленнее обычной памяти, а регистровая ECC память на 0,44 процента медленней. На наш взгляд данное исследование больше доказывает, что различия в производительности весьма незначительны.

Как работает ECC память?

Коррекция ошибок – это математический процесс, который обеспечивает правильность данных, хранящихся в памяти. В случае ошибки ECC также позволяет системе в реальном времени воссоздать правильные данные.

Одним из способов работы ECC памяти является контроль четности. При этом методе используется дополнительный бит который записывает четность остальных битов. К сожалению, несмотря на то, что дополнительный бит четности позволяет определить ошибку, он никак не способствует ее решению и в этом случае выполнение программы просто прерывается.

Большинство вычислительных систем перемещают данные большими блоками по 64 бита (они называются «машинным словом»). Вместо генерации одного дополнительного бита четности для каждых восьми битов данных, ECC генерирует семь дополнительных битов на 64 бита данных. Система выполняет сложный математический алгоритм на дополнительных семи битах данных, чтобы гарантировать, что остальные 64 бита являются правильными. В случае, если один бит неверен (однобитовая ошибка), алгоритм ECC может восстановить данные. Однако при более крупных ошибках (два или более бит) такой алгоритм может лишь уведомить систему.

Регистровая память

ECC память не всегда является регистровой, но с другой стороны любая регистровая память всегда является ECC памятью.

Регистровая память содержит регистр, который располагается между чипами памяти и системным контроллером памяти. Это позволяет уменьшить электрическую нагрузку на контроллер, а также установить большее количество модулей на один канал.


Расположение элементов внутри CEC хорошо продумано и обеспечивает электромагнитнуюсовместимость, снижает вероятность возникновения ошибок, вызванных электрическими помехами, а также обеспечивает надежное крепление, которое предотвращает разрыв критически важных соединений при ударах или вибрации.

Встроенная избыточность


  • Резервные чипы памяти
  • N+1 вентиляторы, источники питания
  • Избыточные каналы ввода-вывода
  • Резервный сервисный процессор
  • Резервная HMC

Внутри корпуса N+1 подсистема питания и охлаждения обеспечивают полнуюизбыточность на случай выхода из строя блоков питания, контроллеров питания, устройств охлаждения, и даже кабелей питания. Как и в мэйнфреймах zSeries, возможна немедленная замена компонентов питания и охлаждения.

В серверах pSeries имеется резервный внутренний аккумулятор IBF (Internal Battery Features), который поддерживает работоспособность системы в случае падения напряжения. Для защиты от полного отключения питания сервер pSeries может использовать блоки бесперебойного питания (UPS) в сочетании с IBF или вместо него.

Замена компонентов без остановки системы


  • Жесткие диски
  • Вентиляторы, воздушные фильтры
  • Блоки питания
  • PCI адаптеры

Дисковая корзина позволяет производить горячуюзамену дисков, обеспечивая динамическуюреконфигурациюи замену дисков. Каждый PCI-адаптер имеет функциюгорячей замены и доступен с тыльной стороны корзины ввода/вывода. Таким образом, при обслуживании PCI-адаптеров нет необходимости переключать корзину в режим обслуживания, при котором необходимо выдвинуть корзину и все подключенные к ней кабели для извлечения PCI адаптера из верхней части корзины. Такие движения корзины туда и обратно могут вызвать дополнительные сбои, связанные с повреждением самих адаптеров или подключенных к ним кабелей.

Активная защитная система


  • Технология bit-steering в модулях памяти с избыточностью для поддержания работоспособности сервера
  • Исправление одиночных сбоев ( ECC ) в оперативной памяти и L2, L3 кэшах
  • Технология error scrubbing для предотвращения сбоев памяти

В чипах памяти также используется "чистка" памяти (Memory scrubbing) и устанавливается критическое число исправляемых ошибок, превышение которого приводит к замене соответствующего модуля на резервный (dynamic bit steering).

"Чистка" памяти – это процесс, состоящий из чтения содержимого памяти во время бездействия, проверки и исправления одиночных ошибок. Одиночные ошибки могут быть устойчивыми (заводской брак) или случайными (вызванные, например, электрическим шумом).

Память Chipkill


  • Исправляет ошибки памяти до 4-х бит на одну линейку чипа, т.е. компесирует потерючипа памяти
  • Высокоэффективная технология IBM обеспечивает исправление ошибок "на лету" прямо в DIMM
  • Базируется на стандартной памяти ECC
  • Надежность по сравнению с ECC возрастает в 600 раз

Если удалось обнаружить ошибку, то данные пропускаются через ECC логику и исправленные данные записываются обратно по соответствующим адресам. Такой алгоритм используется и после замены неисправного модуля на резервный. "Чисткой" занимается контроллер памяти и производит ее только во время бездействия, поэтому процесс чистки никак не отражается на производительности памяти.

Если возникает ситуация, когда в модуле памяти возникает ошибка, а все резервные биты уже исчерпаны, то для предотвращения отказа системы сервисный процессор инициирует запрос на обслуживание модуля памяти.

Что такое Registered (регистровые) DIMM?

Выше мы отметили, что в настольных платформах используются UDIMM (Unbuffered, небуферизованные), а в серверных часто встречаются RDIMM (Registered, регистровые). В случае UDIMM адресация памяти выполняется напрямую контроллером памяти, как и передача данных. В случае же RDIMM адресацию на себя берет отдельный чип-регистр, передача данных по-прежнему осуществляется напрямую контроллером памяти.

Цель RDIMM заключается в уменьшении нагрузки на контроллер, в результате на серверную материнскую плату можно устанавливать больше DIMM, существенно увеличивая емкость памяти сервера по сравнению с настольной системой. В случае полностью буферизованных модулей Fully Buffered DIMM (FB-DIMM) промежуточный буфер используется не только для адресации, но и для передачи данных. Стандарт LRDIMM (Load Reduced) является дальнейшей разработкой регистровой памяти, он обеспечивает еще большую емкость.


Кроме обычных планарных чипов памяти разработана технология "бутерброда" из нескольких чипов под названием 3DS DIMM. Она позволяет значительно увеличить емкость модулей. Наконец, есть модули NVDIMM (Non-volatile), данные в которых не стираются в случае сбоя питания. Модули NVDIMM разделяются на NVDIMM-F (Flash Storage), NVDIMM-N (DRAM), NVDIMM-P (Persistent Memory) и NVDIMM-X (NAND Flash Storage).

Что такое ECC?

ECC означает "Error Correction Code" или код коррекции ошибок. При чтении данных из памяти или записи в память код ECC позволяет исправлять одиночные битовые ошибки. Что повышает надежность работы памяти в окружениях, где это необходимо. Например, в серверах и рабочих станциях. Для кода ECC добавляются 8 дополнительных бит (64 базовых + 8 дополнительных = 72).

Алгоритм ECC позволяет исправлять битовые ошибки, а также определять два ошибочных бита, но уже не исправлять их. Технологии Chipkill или Advanced ECC расширяют алгоритм ECC, позволяя корректировать до 4 ошибочных битов и определять до 8 ошибочных битов. Если ошибок будет много, то данная функция позволяет скрыть сбойный чип в системе без перезагрузки (отсюда и название "Chipkill"), при этом сервер продолжает стабильную работу. Технологии Chipkill или Advanced ECC работают как массив RAID на жестких дисках, опираясь на распределенное избыточное хранение данных.



Технология Memory Scrubbing производит постоянную проверку памяти на наличие ошибок, результаты отправляются серверным утилитам управления, например, IPMI (Intelligent Platform Management Interface) в BMC (Baseboard Management Controller).

Но для работы ECC вместе с функцией ChipKill/Advanced ECC необходимо чтобы процессор, материнская плата с BIOS и оперативная память поддерживали ECC. Данная технология обязательна для всех RDIMM, но также встречаются и UDIMM с ECC.

Примеры серверной памяти

Ниже представлены два изображения Registered DIMM с ECC:

Beispiel für DDR4-RDIMM mit ECC im Detail

Beispiel für DDR4-RDIMM mit ECC im Detail

Приведены два серверных RDIMM, по крайней мере, с одной стороны установлены 18 чипов памяти, по центру чипы ECC и регистра. Типичные RDIMM выпускаются в емкостях 8, 16 и 32 Гбайт, с тактовой частотой 2400 МГц, 2666 МГц, 2933 МГц и 3200 МГц.

Подписывайтесь на группы Hardwareluxx ВКонтакте и Facebook, а также на наш канал в Telegram (@hardwareluxxrussia).

Включение этих функций что может дать? Ускорение работы?

2)
Разгон памяти и работа зависит от качества северного моста? ( в Евересте когда нажимаеншь на сер. мост показыаются свойства памяти)

3) Что это означает и какой режим быстрей? поговаривабт 2-ый
Контроллер памяти
Тип Dual Channel 128bit
Активный режим Single Channel 64 bit
получается у меня 64 bit стоит?

Заранее благодарю за ответы.

Модули памяти с контролем чётности имеют 9 микросхем не сторону, а не 8. Они дорогие, и встречаются редко.

Разгон памяти и работа зависит от качества северного моста?

Кроме АМД, в которых контроллер памяти встроен в процессор.
Дуал чаннэл работает быстрее сингла процентов на 10 примерно.

Модули памяти с контролем чётности имеют 9 микросхем не сторону, а не 8. Они дорогие, и встречаются редко.
Кроме АМД, в которых контроллер памяти встроен в процессор.
Дуал чаннэл работает быстрее сингла процентов на 10 примерно.

Обычно для этого одинаковые модули памяти нужно устанавливать в слоты памяти одинакового цвета. Но иногда бывает засада, что дуал чаннэл на конкретной модели материнки не реализован.

Тайминги памяти:
@ 400 МГц 6-6-6-18 (CL-RCD-RP-RAS) / 24-51-3-6-3-3 (RC-RFC-RRD-WR-WTR-RTP)
@ 333 МГц 5-5-5-15 (CL-RCD-RP-RAS) / 20-43-3-5-3-3 (RC-RFC-RRD-WR-WTR-RTP)
@ 266 МГц 4-4-4-12 (CL-RCD-RP-RAS) / 16-34-2-4-2-2 (RC-RFC-RRD-WR-WTR-RTP)

Функции модуля памяти:
Analysis Probe Нет
FET Switch External Запрещено
Weak Driver Поддерживается
Скажите пожалуйста у меня таже проблема с памятью что и у предыдущего?

Если я правильно понял, хотите получить двухканальный режим с одним модулем памяти?

Размер модуля 1 Гб (1 rank, 8 banks(этого должно быть 9?)

Если я правильно понял, хотите получить двухканальный режим с одним модулем памяти?

Читайте также: