Код устранения ошибок памяти

Обновлено: 06.07.2024

Память с коррекцией ошибок (Error correction code - ECC) – это тип памяти, использующийся в рабочих станциях и серверах. В первую очередь она предназначена для бизнеса и профессиональных задач где критически важна работа с данными. Такая память позволяет исправлять ошибки в памяти и бороться с повреждением данных. Также предполагается, что она может сократить количество сбоев в работе сервера или рабочей станции. Все это позволяет использовать ECC RAM в профессиональных сферах и бизнесе, включая финансовые институты и облачные вычисления, где ошибки с данными и простои недопустимы.

Память ECC против обычной памяти

Физически ECC память отличается от обычной не ECC памяти (та, что используется в потребительских компьютерах и ноутбуках) наличием 9 чипов памяти с одной стороны вместо 8 (чипы памяти используются для хранения данных, которые при вызове отправляются в ЦПУ). Дополнительный чип памяти как раз используется для обнаружения и исправления ошибок в других 8 чипах.

Какое оборудование поддерживает ECC память?

Память ECC рассчитана на нагрузки корпоративного уровня, поэтому большинство потребительских материнских плат для ПК ее не поддерживают или работают без функции корректировки ошибок. Для того чтобы в полной мере воспользоваться преимуществами такой памяти вам нужна системная плата для рабочих станций либо для серверов. ECC память также стоит несколько дороже, в сравнении с обычными модулями, как раз из-за дополнительного чипа памяти.

И опять же ECC память в первую очередь предназначена для серверов и рабочих станций, поэтому для ее работы вам потребуется производительный процессор. Из модельного ряда Intel только серверная линейка Xeon предназначена для работы с ECC памятью и компания таким образом пытается отделить потребительские продукты от профессиональных. С другой стороны, компания AMD предлагает для энтузиастов многопоточные чипы Threadripper, которые поддерживают работу с таким типом памяти.

Недостатки ECC памяти

Возможно это покажется странным, но ECC память несколько медленней обычной памяти из-за того, что для проверки данных на ошибки требуется время. Вместе с тем, в 2014 году компания Puget провела исследования, согласно которым ECC память оказалась на 0,25 процента медленнее обычной памяти, а регистровая ECC память на 0,44 процента медленней. На наш взгляд данное исследование больше доказывает, что различия в производительности весьма незначительны.

Как работает ECC память?

Коррекция ошибок – это математический процесс, который обеспечивает правильность данных, хранящихся в памяти. В случае ошибки ECC также позволяет системе в реальном времени воссоздать правильные данные.

Одним из способов работы ECC памяти является контроль четности. При этом методе используется дополнительный бит который записывает четность остальных битов. К сожалению, несмотря на то, что дополнительный бит четности позволяет определить ошибку, он никак не способствует ее решению и в этом случае выполнение программы просто прерывается.

Большинство вычислительных систем перемещают данные большими блоками по 64 бита (они называются «машинным словом»). Вместо генерации одного дополнительного бита четности для каждых восьми битов данных, ECC генерирует семь дополнительных битов на 64 бита данных. Система выполняет сложный математический алгоритм на дополнительных семи битах данных, чтобы гарантировать, что остальные 64 бита являются правильными. В случае, если один бит неверен (однобитовая ошибка), алгоритм ECC может восстановить данные. Однако при более крупных ошибках (два или более бит) такой алгоритм может лишь уведомить систему.

Регистровая память

ECC память не всегда является регистровой, но с другой стороны любая регистровая память всегда является ECC памятью.

Регистровая память содержит регистр, который располагается между чипами памяти и системным контроллером памяти. Это позволяет уменьшить электрическую нагрузку на контроллер, а также установить большее количество модулей на один канал.

Оперативная память – такая деталь системы, которая реже всех выходит из строя. Но спонтанные перезагрузки системы с BSOD и без него, вылеты игр или программного обеспечения, некорректные результаты обработки заданий в тяжёлом софте – всё это и многое другое может быть симптомами проблем именно с ней. На самом деле, такие проблемы возникают довольно часто и являются в основном следствием некорректной настройки самим пользователем, хотя исключать аппаратные проблемы всё же, нельзя. В этом материале мы познакомимся с актуальными модулями памяти для настольных систем, расскажем о возможных проблемах в их работе и причинах, по которым они возникают, а также поможем с диагностикой. Отчего ещё и почему могут возникать сбои в работе памяти? Что в итоге делать или не делать? Отвечая на эти вопросы, пытать мозг новичков мы не будем – расскажем всё простым языком для максимального понимания.




Из чего состоит модуль памяти?

Оперативная память с точки зрения схемотехники является очень простым устройством, если сравнивать с остальными электронными комплектующими системы и не брать в расчёт вентиляторы (в некоторых ведь есть простейший контроллер, реализующий PWM управление). Из каких компонентов собраны модули?

  1. Сами микросхемы – ключевые элементы, которые определяют скорость работы памяти.
  2. SPD (Serial Presence Detect) – отдельная микросхема, содержащая информацию о конкретном модуле.
  3. Ключ – прорезь в печатной плате, чтобы нельзя было установить модули одного типа в платы, их не поддерживающие.
  4. Сама печатная плата.
  5. Разного рода SMD компоненты, расположенные на печатной плате.

Конечно, набор составляющих далеко не полный. Но для минимальной работы памяти этого достаточно. А что ещё может быть? Чаще всего – радиаторы. Они помогают остудить высокочастотные микросхемы, функционирующие на повышенном напряжении (правда, не всегда на повышенном), а также при разгоне памяти пользователем.


Кто-то скажет, что это маркетинг и всё такое. В некоторых случаях – да, но не HyperX. Модули Predator с тактовой частотой 4000 МГц без труда прогревают радиаторы до отметки 43 градусов, что мы выяснили в материале о них. К слову, о перегреве сегодня ещё пойдёт речь.


Далее – подсветка. Какие-то производители устанавливают таковую определённого цвета, а какие-то – полноценную RGB, да ещё и с возможностью настройки как при помощи переключателей на самих модулях, так при помощи подключаемых кабелей, а также программного обеспечения материнской платы.


Но, к примеру, инженеры HyperX пошли дальше – они реализовали на плате инфракрасные датчики, которые требуются для полной синхронизации работы подсветки.


Углубляться мы в это не будем – материал не об этом, да и рассказывали о них ранее, поэтому, если кому интересно – знакомимся с видео ниже и читаем материал по делу дальше.

Чему быть – тому не миновать

Выбирая бюджетную память от малоизвестных производителей, вы получаете кота в мешке – такие модули могут быть собраны «на коленке в подвале дядюшки Ляо» и даже не знать, что такое контроль качества. Иными словами – проблемы могут быть и при первом включении. Память ValueRAM от Kingston, конечно же, к таковой не относится, хоть и ценники на неё близки к минимальным. Учитывая предыдущую главу, некоторые пользователи могут сказать, что чем больше компонентов, тем выше шанс их поломки. Логично, опровергнуть это нельзя. Но уверенность HyperX в своей продукции (в частности – модулях Predator RGB) такова, что на неё распространяется пожизненная гарантия! Но так всё равно – что может выйти из строя? Всякие светодиоды и прочие подобные элементы дизайна в расчёт мы не берём.

Повреждение ячеек памяти.

Каждая микросхема памяти содержит огромное количество таких ячеек, в которые записывается и из которых считывается колоссальное количество информации. В случае записи данных в повреждённую ячейку, они искажаются, что вызывает сбой работы системы или приложения.

Переразгон, неправильные тайминги и напряжение.

Каждый из нас когда-либо пробовал или хочет попробовать разогнать память. Допускается увеличение частоты памяти не на всех платформах, но, если вы уже обзавелись поддерживающей разгон материнской платой, то можете встретить на своём пути определённые проблемы. В современных реалиях разгон памяти зависит не только от самих микросхем, но и от встроенного в процессор контроллера памяти и разводки линий на материнской плате. Два последних аспекта влияют на разгон в меньшей степени, нежели используемые микросхемы памяти. Чем больше вы увеличиваете тактовую частоту модулей памяти, тем более вероятно появление ошибок в их работе. С таймингами – наоборот. Их снижение может приводить к нестабильной работе. Улучшить стабильность работы разогнанной памяти может помочь увеличенное на неё напряжение, что влечёт больший нагрев и снижение ресурса работы в целом, так же как и потенциальную возможность выхода из строя в любой момент. В общем, если система работает нестабильно, то первым делом возвращайте все настройки к заводским.

Да, высокие температуры памяти тоже могут влиять на стабильность работы системы. Поэтому, выбирая высокочастотные комплекты, стоит позаботиться об их охлаждении. Как минимум, они должны обладать радиаторами. То же самое касается и низкочастотных модулей, подверженных разгону с вашей стороны. Хотите установить набор быстрой памяти в рабочую систему, в которой производятся вычисления с её помощью? Не верите, что современная DDR4 с рабочим напряжением 1.2 В может сильно греться? Полюбуйтесь! Температура микросхем модулей, не оборудованных радиаторами, практически достигает 85 градусов, что является пределом для большинства микросхем. Впечатляет, не правда ли?


Механические повреждения
Любое неаккуратное движение – и вы можете повредить модуль памяти. Сколоть микросхему, SPD или в печатной плате лопнут дорожки. При некоторых повреждениях память ещё может работать, но с критическими ошибками. К примеру, скол SPD, что изображён на фото ниже, сделал модуль полностью неработоспособным. К разговору о радиаторах – они позволяют снизить практически до ноля вероятность механического повреждения памяти, если, конечно, вы чай или кофе на него не прольёте…


Другие источники проблем работы памяти, но когда память ни при чём.

Немногие знают, что существуют три буквы, способные упростить подбор компонентов системы – QVL. Расшифровка звучит как Qualified Vendors List, что на русском звучит как список совместимости. В него входят те комплектующие, с которыми производитель материнской платы проверил своё изделие и гарантирует корректную работу. По понятным причинам, проверить сотни наименований может не каждый. Но каждый уважающий себя производитель предлагает достаточно обширный список в нашем случае моделей оперативной памяти.

Синие экраны смерти, зависания и перезагрузки – неисправность точно в…

Из какого минимального набора электронных компонентов состоит ПК/ноутбук/моноблок? Из материнской платы, процессора, накопителя, блока питания и оперативной памяти. Все эти компоненты связаны между собой, поэтому если один из них работает нестабильно, то это вызывает сбои всей системы. Самым правильным путём диагностики будет тестирование каждого из этих компонентов в другой системе. Таким образом, методом исключения мы сможем определить «самое слабое звено» и заменить его. Но не всегда можно найти другую систему для таких действий. К примеру, далеко не каждый из ваших знакомых может обладать платой для проверки модулей с тактовой 4000 МГц или около того. Допустим, проблему выявили, и она заключается в памяти. Проверили несколько раз в разных слотах и на паре материнских плат — а она начала стабильно работать. Магия? Как говорится во вселенной Marvel, магия — это всего лишь неизученная технология, секрет которой в нашем случае очень прост. Контакты на модулях памяти со временем окисляются, что приводит к невозможности их корректной работы, а когда вы достаёте и возвращаете несколько раз, они немного шлифуются, после чего всё начинает работать нормально. На самом деле, окисление контактов — это самая распространенная проблема сбоев работы оперативной памяти (и не только), поэтому возьмите за правило — если возникли какие-либо проблемы с платформой, то вооружитесь обычным канцелярским ластиком и аккуратно протрите контакты с двух сторон. Это актуально как раз в тех случаях, когда проблемы возникают при работе памяти в её номинальном режиме, если до этого она месяцами или годами работала без сбоев.


Если ластик не помог

Что делать дальше? Если система работает с катастрофическими сбоями, то только проверять комплектующие на заведомо рабочей платформе. Если же подозрение именно на память, работающую в номинальном режиме, то можно выполнить несколько тестов. Существуют бесплатные и платные версии программ, некоторые работают из Windows/Linux, а некоторые из DOS или даже UEFI.

Начнём с того, что есть у каждого пользователя Windows 7 и новее. Как ни странно, встроенный в Windows тест памяти работает весьма эффективно и способен выявить ошибки. Запускается он двумя способами – из меню «Пуск»:



Результат нас ждёт один:

Если базовый или обычный тесты не выявили ошибок, то обязательно стоит провести тестирование в режиме «Широкий», который включает в себя тесты из предыдущих режимов, но дополнен MATS+, Stride38, WSCHCKR, WStride-6, CHCKR4, WCHCKR3, ERAND, Stride6 и CHCKR8.


Просмотреть результаты можно в приложении «Просмотр событий», а именно – «Журналы Windows» — «Система». Если событий много, то проще всего будет найти нужный нам журнал через поиск (CTRL+F) по названию MemoryDiagnostics-Results.


Данная программа является лучшим решением для поиска ошибок работы памяти. Она обладает достаточным количеством настроек и выводит результат в понятном виде. Сколько тестировать память? Чем больше – тем лучше, если вероятность появления ошибки мала. Если же какая-либо микросхема памяти явно проблемная, то результат не заставит себя долго ждать.


Существует также MemTest для Windows. Использовать тоже можно, но смысла будет меньше – он не тестирует ту область памяти, которая выделена для ОС и запущенных в фоне программ.


Так как эта программа не новая, то энтузиасты (в основном – азиаты) пишут для неё дополнительные оболочки, чтобы можно было удобно и быстро запускать сразу несколько копий для тестирования большого объёма памяти.


К сожалению, обновления этих оболочек, чаще всего, остаются на китайском языке.


А вот наши энтузиасты пишут свой софт. Яркий пример – TestMem5 от Serj.


В целом, можно и linpack ещё в список тестов привести, но для его работы потребуется и полная нагрузка на процессор, что чревато его перегревом, особенно, если используются AVX инструкции. Да и это не совсем подходящий для проверки памяти тест, скорее – для прогрева процессора с целью изучения эффективности системы охлаждения. Ну и на циферки посмотреть. В целом, это не для домашнего использования бенчмарк, у него совсем другое предназначение.

Быстрое решение всех проблем


Для получения дополнительной информации о продуктах HyperX и Kingston обращайтесь на сайты компаний.

Исправимые и/или неуядаемые события кода коррекции ошибок (ECC) для модулей памяти. Например:

Mmry ECC Sensor SMI Handler Warning Memory CPU: 1, DIMM: D0 DIMM Rank: 1. - Исправление ECC / другая исправленная ошибка памяти - Установлено.

Исправление проблемы

Ошибки данных в памяти регистрируются как исправные или неуправимые. См. инструкции ниже в зависимости от типа ошибки, с которой вы столкнулись:

Между действиями 2 и 3 в обоих сценариях переустановите модуль памяти (удалить и переустановить).

error types

  • Эта таблица является частью руководства по поиску и устранению неисправностей системного журнала событий для серверных системных® Intel®.
  • Утилита и получения системной информации поможет вам расшифровке местоположения DIMM.
  • Для минимизации ошибок рекомендуется использовать последнюю версию BIOS.

Другие темы
Роль памяти ECC
Как восстановиться после iERR для серверных® Intel®
Сбои на моем сервере и эта ошибка: Процессор ЦП Chk
Обновления микропрограммного обеспечения и советы по поиску и устранению неисправностей

Другие продукты

Эта статья относится к 158 продукция.

Продукция, выпуск которой прекращен

Вам нужна дополнительная помощь?

Оставьте отзыв

Содержание данной страницы представляет собой сочетание выполненного человеком и компьютерного перевода оригинального содержания на английском языке. Данная информация предоставляется для вашего удобства и в ознакомительных целях и не должна расцениваться как исключительная, либо безошибочная. При обнаружении каких-либо противоречий между версией данной страницы на английском языке и переводом, версия на английском языке будет иметь приоритет и контроль. Посмотреть английскую версию этой страницы.

Для работы технологий Intel может потребоваться специальное оборудование, ПО или активация услуг. // Ни один продукт или компонент не может обеспечить абсолютную защиту. // Ваши расходы и результаты могут отличаться. // Производительность зависит от вида использования, конфигурации и других факторов. // См. наши юридические уведомления и отказ от ответственности. // Корпорация Intel выступает за соблюдение прав человека и избегает причастности к их нарушению. См. Глобальные принципы защиты прав человека в корпорации Intel. Продукция и программное обеспечение Intel предназначены только для использования в приложениях, которые не приводят или не способствуют нарушению всемирно признанных прав человека.

Каковы признаки сбоя ОЗУ?

При проверке оперативной памяти на ошибки, следующие признаки указывают на то, что оперативная память вашего компьютера требует внимания:

  1. Снижение производительности.
  2. Произвольные перезагрузки.
  3. Частые ошибки BSOD.
  4. Компьютер отображает неверную RAM.
  5. Видеокарта не загружается.

1] Снижение производительности

Скриншот диспетчера задач, производительность озу в Windows 10

Итак, как определить, исправна ваша оперативная память? Если большинство приложений или программного обеспечения, установленных на вашем компьютере, часто дает сбой или для загрузки требуется больше времени, возможно, у вас неисправна оперативная память. В дополнение к этому вы также столкнетесь с некоторыми другими проблемами.

2] Случайные перезапуски

Скриншот перезагрузки Windows 10

Однако компьютер также случайным образом перезагружается при повреждении жесткого диска. Но если вы знаете, что ваш жесткий диск исправен, а компьютер часто перезагружается, особенно после инициализации рабочего стола, это признак плохой оперативной памяти.

Проверить Жесткий Диск можно при помощи этих программ.

3] Частые ошибки BSOD

Ошибка BSOD возникает из-за поврежденного программного обеспечения или неисправного оборудования. Следовательно, это не всегда показатель плохой оперативной памяти.

Скриншот BSOD в Windows 10

Давайте разберемся с этим на примере. Когда вы получаете Синий экран смерти (BSOD) каждый раз, когда запускаете определенное программное обеспечение, вполне вероятно, что программное обеспечение вызывает ошибку, а не оборудование. Но если вы заметите, что ваша система слишком часто выходит из строя, особенно при попытке установить новое приложение или программное обеспечение, ваша оперативная память может быть повреждена.

4] Неправильно отображается объем оперативной памяти.

Одним из симптомов сбоя ОЗУ является то, что система отображает меньше ОЗУ, чем есть на самом деле. Вы можете легко проверить, сколько оперативной памяти установлено в вашей системе, но процесс может отличаться для разных версий Windows.

Скриншот диспетчера задач оперативной памяти в Windows 10

В случае неисправности ОЗУ ваша система будет отображать меньше памяти, чем есть на самом деле.

5] Видеокарта не загружается

Вы могли слышать звуковой сигнал при включении компьютера. Одиночный звуковой сигнал при запуске компьютера означает, что он успешно распознал видеокарту.

Фото: Видеокарта не загружается в Windows 10.

Как проверить, исправна ли оперативная память?

Если у вас возникли вышеупомянутые проблемы, возможно, неисправна оперативная память вашей системы. Но ничего нельзя сказать без правильного диагноза. Следующие методы помогут диагностировать проблему:

  1. Очистите RAM и вставьте снова.
  2. Запустите средство диагностики памяти Windows.

1] Очистите оперативную память и снова вставьте ее.

Фото: очистка озу

Теперь вставьте его снова и проверьте, возникают ли указанные выше проблемы.

2] Запустите средство диагностики ОЗУ Windows.

Windows 10 поставляется со встроенным инструментом диагностики памяти . Этот инструмент проверяет оперативную память системы на наличие ошибок.

Скриншот Средство проверки памяти в Windows 10

Процесс займет некоторое время. После завершения ваша система будет перезагружена автоматически. Результат диагностики памяти будет доступен в средстве просмотра событий Windows после завершения сканирования. Следовательно, вы можете выполнить другое задание (если оно у вас есть), а не смотреть тест.

Скриншот Средство проверки ОЗУ в Windows 10

Диагностика ОЗУ в Windows 10.

Выполните следующие действия, чтобы просмотреть отчет о проверке работы оперативной памяти в средстве просмотра событий:

  • Введите «Просмотр событий» в поисковой строке Windows и щелкните приложение, чтобы запустить его.
  • Разверните раздел «Журналы Windows» слева и нажмите «Система». Подождите, пока средство просмотра событий загрузит все журналы Windows.
  • Нажмите на опцию «Найти» справа. Появится всплывающее окно.
  • Введите « MemoryDiagnostic » в это окно и нажмите «Найти далее». Он покажет вам результат диагностики памяти.

Скриншот просмотр событий, средство диагностики озу в Windows 10

Вот и все. Дайте нам знать в комментариях ниже, если у вас есть какие-либо вопросы.

Читайте также: