Pci e горячая замена

Обновлено: 04.07.2024

данной статье рассматривается микросхема фирмы Linear Technologies — контроллер Hot Swap для шины PCI Express , который позволяет значительно облегчить проектирование устройств, работающих с этой шиной.

Введение

С режимом работы Hot Swap сейчас знаком практически каждый. Накопитель Flash Drive, фотоаппарат, МР3-плеер можно подсоединить к компьютеру кабелем, записать или прочитать данные и отключить кабель. Никаких проблем с питанием, отключением компьютера, перезапуском. Но это в быту. А представьте, что нужно поменять модуль в промышленном вычислительном устройстве, например таком, как шлюз или сервер. Выключать все устройство? Сотни телефонных разговоров прервутся. Или прекратится сопровождение авиалайнеров. Не выключать сейчас и ждать до ночи? А если устройство не может работать в деградированном состоянии так долго? Что делать? Выход только один — применять в вычислительных устройствах модули и шины, поддерживающие режим Hot Swap, который позволяет подключать и отключать модули, не выключая все устройство. Данная задача имеет две составляющие: физическую и логическую. Логическая составляющая понятна тем, кто имел дело с конфигурацией карт в компьютере. Вычислительная система должна опознать модуль автоматически и произвести все необходимые действия по конфигурации в автоматическом или в диалоговом режиме. А вот физическая составляющая задачи обычно скрыта от пользователя. В данной статье вниманию читателей будет предложено решение по проектированию модулей, поддерживающих режим Hot Swap и предназначенных для работы с шиной PCI Express.

Проблема подключения питания и управления питанием

Итак, будем менять модуль «на ходу», не выключая вычислительную систему. Мы имеем в виду не маленький Flash-накопитель, а солидный вычислительный узел, потребляющий десятки ватт. В таком модуле для обеспечения фильтрации цепей питания должны быть установлены сотни конденсаторов общей емкостью не менее нескольких тысяч микрофарад. Что ждет вычислительную систему, если в нее «втыкать» такой модуль, не предприняв никаких дополнительных мер? Разряженные конденсаторы в момент подключения будут представлять собой короткое замыкание для источника питания. И, если источник питания при таком варварском эксперименте не выключится, то уж сбой в вычислительной системе будет гарантирован. Да и для самого модуля в таких экспериментах тоже ничего хорошего нет. Электролитические конденсаторы, стоящие в цепях питания, спроектированы так, что они выдерживают высокочастотные всплески напряжения, но только очень небольшой амплитуды. Превышение высокочастотной составляющей напряжения на этих конденсаторах приводит к их преждевременному отказу. Мало того, бросок тока в десятки ампер может вызвать нежелательный переходный процесс. Всплеск напряжения от такого броска способен вызвать повреждение компонентов самого модуля, а также компонентов вычислительной системы.

Из предыдущего описания можно сделать следующий вывод: в режиме Hot Swap надо контролировать процесс подключения питания к модулю таким образом, чтобы соблюсти требования по подъему напряжения питания для подключаемого модуля. Подъем напряжения должен быть, с одной стороны, достаточно медленным, чтобы не вызвать перегрузку источника питания, а, с другой стороны, достаточно быстрым, чтобы компоненты модуля нормально включились в работу. Другим словом, подъем напряжения должен быть контролируемым.

Но это еще не все проблемы с Hot Swap. Режим Hot Swap подразумевает, что в случае неисправности модуля вся остальная вычислительная система должна функционировать в деградированном состоянии. А это значит, что в случае превышения потребляемого модулем тока сверх допустимого для него уровня, такой модуль должен быть признан неисправным. Должно произойти его отключение от вычислительной системы, а также сформирован сигнал о том, что модуль неисправен и отключен.

Шина PCI Express

Шина PCI Express является логическим развитием шины PCI и PCI-Х. PCI Express — это новая технология организации передачи данных по последовательной шине, которая позволяет повысить производительность коммуникационных систем, серверов, настольных и переносных электронных средств. Стандарт PCI Express [1] очень быстро вытесняет устаревший PCI, но для нас сейчас главным является то, что эта шина поддерживает режим работы модулей с Hot Swap.

Питание PCI Express подается от двух источников: 12 и 3,3 В, кроме того, есть резервное питание 3,3 В — и все это поступает на разъемы слотов на системной плате (таблица).

LTC4242 — контроллер Hot Swap для шины PCI Express

Поскольку проектирование модулей, подключаемых к шине PCI Express, позволяет вынести все проблемы, связанные с режимом Hot Swap, в отдельную задачу, то, естественно, должны были появиться специализированные микросхемы. Компания Linear Technologies, известный производитель аналоговых микросхем и микросхем для питания, выпустила микросхему контроллера Hot Swap — LTC4242 [2]. Микросхема LTC4242 позволяет управлять питанием двух слотов шины PCI Express.

В состав данной микросхемы, кроме маломощных узлов, обеспечивающих режимы включения и контроля работы нагрузки, входят два низкоомных мощных полевых транзистора, коммутирующих шину резервного питания 3,3 В (AUX). Кроме того, микросхема имеет и встроенную защиту от перегрева, что позволяет повысить надежность работы этих транзисторов. Микросхема LTC4242 доступна в двух исполнениях: в корпусе SSOP36 и миниатюрном корпусе QFN38 (5×7 мм).

Рассмотрим варианты применения данной микросхемы. Микросхема LTC4242 в обычных приложениях использует 4 внешних N-канальных транзистора (в дополнение к двум встроенным) для коммутации напряжения питания на модули (рис. 1). Когда системный Hot Plug контроллер (HPC) определяет, что модуль правильно установлен в слот, он дает команду контроллеру Hot Swap на подачу питания. Напряжение питания линейно нарастает, что позволяет получить требуемый в данной системе переходный процесс. В дальнейшем LTC4242 продолжает следить за напряжением питания.

Рис. 1. Типовая схема включения контроллера «горячего подключения» LTC4242

На рис. 1 показаны четыре N-канальных проходных транзистора Q_1–4, которые совместно с двумя встроенными в микросхему транзисторами управляют подачей питания на две подключаемые платы. Резисторы R_1–4 предназначены для измерения тока в шинах питания. Резисторы R_5–8 служат для подавления автоколебания в транзисторах Q_1–4; компоненты R_s и C₁ формируют фильтр НЧ, обеспечивающий стабильный уровень питания микросхемы; конденсаторы C_G1–G4 контролируют пусковые токи на шинах 12 и 3,3 В. Компоненты C_G1–G4 и R_G1–G4 также представляют собой фильтр для цепи ограничителя тока нагрузки.

Контроллер HPC включает питание нагрузки (модулей) через выводы ON и AUXON контроллера LTC4242. Если защитные схемы по перегреву или перенапряжению определяют, что аварии нет, то единичный уровень сигнала на выводе FON открывает проходные транзисторы. Такой режим работы предоставляет пользователю возможность посылать в модули при включении импульс тока большего уровня, чем уровень нормального тока запуска для модулей, что позволяет при диагностике системы выявить неисправные узлы или контакты.

Управление пусковыми токами

Как было сказано выше, управление пусковыми токами является очень важной задачей для контроллера Hot Swap. В микросхеме LTC4242 управление пусковыми токами производится при помощи внешних компонентов. Конденсаторы включаются между выводами микросхемы — GATE и «землей». При включении через эту цепь протекает ток 9 мкA. При этом скорость нарастания напряжения на выводах GATE вычисляется так:

где C_ISS — входная емкость внешнего транзистора.

Пусковой ток течет через нагрузочный конденсатор C_LOAD и ограничивается следующим образом:

Таким образом, для 75-ваттного слота (см. табл.) с C_LOAD(12V) = 2000 мкФ, C_LOAD(3,3V) = 1000 мкФ, C_G1 = 15 нФ, C_G2 = 47 нФ и C_ISS = 3 нФ мы получим значения — ток I_INRUSH(12V) = 1 A и ток I_INRUSH(3,3V) = 0,18 A.

Чтобы обеспечить успешный запуск системы, величина пускового тока не должна превысить порог срабатывания защиты. Для цепи управления резервным питанием формула для пускового тока будет выглядеть следующим образом:

где SR — скорость нарастания напряжения 3,3 V_AUX.

При C_{LOAD(3,3VAUX)} = 150 мкФ (см. табл.) и SR = 1,2 В/мс ток I_{INRUSH(3,3VAUX)} = 0,18 A. Емкость C_{LOAD(3,3VAUX)} должна быть определена так, чтобы пусковой ток не превысил порог срабатывания защиты (550 мА).

Защита по току

Схема защиты по току для основного питающего напряжения имеет порог чувствительности 50 мВ с допуском 10%. Схема защиты по току для встроенных транзисторов сработает при превышении порога в 550 мА (с точностью 30%). Время срабатывания схемы защиты имеет задержку на уровне 20 мкс. Если перегрузка длится более 20 мкс, контроллер входит в состояние, называемое «режим перегрузки», и модули отключаются от питания системы. Выводы FAULT и AUXFAULT переходят в режим индикации перегрузки по току на любой из основных шин питания или на шине 3,3 V_AUX резервного питания соответственно.

Для того чтобы выйти из «режима перегрузки», напряжение на выводах ON и AUXON должно быть установлено на уровне менее 0,6 В. Другой путь выхода из «режима перегрузки» заключается в переходе напряжения источников питания ниже уровня перенапряжения (UV).

В дополнение к встроенному коммутатору цепи питания микросхема LTC4242 имеет быстродействующий ограничитель по току нагрузки. Этот узел представляет собой аналоговый усилитель, который обеспечивает двухуровневую защиту каждой из шин питания. RC-цепочки на входе выводов GATE обеспечивают стабильность работы этого усилителя, ограничивающего броски напряжения на резисторах R_1–4 до 100 мВ.

На рис. 2 показаны графики изменения напряжения на выходах, обслуживающих шину 3,3 В, которая закорочена нагрузкой 0,1 Ом без емкостей. Первичный пиковый ток ограничен сопротивлениями в питающем канале (сопротивление дорожки + сопротивление ключа R_DS(ON) + 0,1 Ом). Скорость нарастания этого тока ограничивается паразитной индуктивностью в питающем канале. Перед тем, как этот ток достигнет своего пикового значения, затвор принудительно разряжается и управление переходит под контроль встроенного ограничивающего усилителя. После 20 мкс встроенный ключ сработает и напряжение на выводе FAULT упадет.

Рис. 2. При коротком замыкании шины 3,3 В нагрузкой 30 мОм без емкостей происходит ограничение тока через 20 мкс, на выводе FAULT появляется нулевой сигнал

В другом случае, при закорачивании шины 3,3 V_AUX нагрузкой 30 мОм без емкостей, бросок тока быстро ограничивается (рис. 3).

Рис. 3. При коротком замыкании шины 3,3 V_AUX нагрузкой 30 мОм без емкостей происходит ограничение тока через 22 мкс, на выводе AUXFAULT появляется нулевой сигнал

Включение системы

В обычном порядке время включения системы начинается с момента определения карты расширения в слоте. Информация об этом факте подается на контроллер HPC, который запускает контроллер LTC4242, управляя последним по цепям сигналов ON/AUXON.

Альтернативой этому способу является передача управляющего сигнала на вывод EN. На рис. 4 показаны временные диаграммы при запуске системы в результате понижения напряжения на EN. Напряжение на выводах ON/AUXON (не показаны на рис. 4) остается высоким. К выводу EN можно подключить RC-цепочку для подавления пульсаций при установке модулей в вычислительную систему или их демонтаже. Как показано на рис. 5, при использовании R_D = 47 кОм и C_D = 33 нФ время задержки этой цепочки составит 1,4 мс, соответственно задержка подачи питания на слот (после прохода детектирующего сигнала BD_PRSNT) составит 2,8 мс.

Рис. 4. Последовательность подачи сигналов при включении устройства

Рис. 5. RC-цепочка, включенная между выводами EN и BD_PRSNT, служит для устранения дребезга

Скорость нарастания питающего напряжения 12 V_OUT и 3 V_OUT приблизительно определяется как dV/dt = 9 мкA/C_G1,G2. В случае со встроенным ключом питания скорость нарастания составит 1,2 В/мс. Когда выходное напряжение достигнет необходимого порога, происходит переключение сигналов на выводах PGOOD для шин 12/3,3 В и AUXPGOOD для шины 3,3 V_AUX (доступен для контроллера в корпусе QFN38) в активное низкое состояние. Мониторинг выходного напряжения продолжается далее в рабочем режиме, и когда это напряжение снижается ниже необходимого уровня, напряжение на выводах PGOOD и AUXPGOOD возрастает.

Вывод AUXPGOOD также может быть использован для наблюдения за выходным напряжением. На рис. 6 показано включение источников питания, когда напряжение на выходе 3,3 V_AUX превысит необходимый уровень (при условии отсутствия сбоя в системе).

Рис. 6. Подача основного напряжения осуществляется только после установления напряжения 3,3 V_AUX

Такую цепь следует использовать, если напряжение с вывода 3,3 V_AUX питает плату управления и контроля.

Выключение системы

При отключении питания системы происходит разряд затворов внешних транзисторов током 1 мА. Ток разряда затвора встроенного транзистора также имеет достаточно малое значение. Во избежание сбоев в системе встроенные ключи питания выключаются медленно. Встроенные транзисторы разряжают выходные нагрузочные емкости. После установки высокого напряжения на выводе EN устанавливаются напряжения на выводах PGOOD и AUXPGOOD. На рис. 7 показаны временные диаграммы напряжений при отключении системы, имеющей емкости по цепям питания, когда наблюдается скачок напряжения на EN.

Заключение

Микросхема LTC4242 Linear Technologies — это комплексное решение для Hot Swap приложений шины PCI Express. Функции быстрого ограничения тока и отключения цепи питания при неисправностях сокращают возможные повреждения устройства при жестких перегрузках и сбоях. Встроенные силовые транзисторы уменьшают стоимость системы и повышают ее надежность.

Стандартная пользовательская модель, как следует из названия, в первую очередь нацелена на пользователей, которые эксплуатируют системы со слотами Hot - Plug .

Стандартная пользовательская модель определяет два индикатора: индикатор питания и индикатор внимания. Платформа может обеспечить два индикатора в каждый слот или панель модуля, индикаторы могут быть реализованы на корпусе или модуле, детали реализации зависят от требований форм-фактора "горячего" подключения. Каждый индикатор находится в одном из трех состояний:

Системное ПО Hot - Plug обладает исключительным контролем над состоянием индикаторов за счет возможности записи в командный регистр, связанный с индикатором. Порт совместимый с Hot - Plug управляет частотой мерцания индикаторов, рабочим циклом и фазой.

Мерцающие индикаторы функционируют на частоте от 1 до 2 Гц с коэффициентом заполнения 50% (± 5%). Мерцающие индикаторы не должны быть синхронизированы и синфазны между портами.

Индикаторы должны находиться в непосредственной близости от связанного с ними слота Hot - Plug , если индикаторы реализованы на корпусе, чтобы соединение между индикаторами и слотом Hot - Plug было как можно более свободным.

Оба индикатора полностью контролируются системным ПО. Устройство коммутатора или корневого порта никогда не изменяет состояние индикатора при отклике на событие, типа сбоя питания или внезапного открытия защелки MRL , если только системное ПО специально не пошлет такую команду. Исключение предоставляется платформам, которые совместимы с механизмом определения контактной неисправности (типа "залипания") питания. В этом специфическом случае сбоя платформе разрешено "подавить" устройство коммутатора или корневого порта и силой включить индикатор питания (как указание, что плата расширения не может быть извлечена). Во всех случаях внутреннее состояние порта для индикатора питания должно соответствовать состоянию, выбранному программным обеспечением. Обработка системным ПО константных неисправностей является необязательной функциональностью и отдельно не описывается. Поэтому производитель платформы должен гарантировать, что эта дополнительная функциональность стандартной пользовательской модели выполняется дополнительным ПО, описывается в документации платформы или каким-либо другим способом.

Индикатор внимания

Индикатор внимания " Attention " желтого или янтарного цвета используется для указания на проблемы функционирования или указывает, что слот Hot - Plug находится в процессе идентификации, что позволяет локализовать его состояние (табл. 1).

Вопрос прост. Есть ли у кого-нибудь опыт успешного подключения платы PCIe? Нужны ли ему специальные материнские платы и карты, или он должен работать на всех потребительских устройствах?

4 ответа

Я использовал для проектирования аппаратное обеспечение PCI-Express, которое требовало полной поддержки «горячего подключения» в аппаратном и программном обеспечении, и это, безусловно, возможно, но оно довольно активно и требует обширной поддержки программного обеспечения - аппаратное обеспечение на самом деле довольно простое. Я должен был разработать аппаратное обеспечение, а затем реализовать поддержку BIOS (UEFI) и ядро (Linux) для горячего подключения произвольных устройств PCIe по оптоволокну и меди.

С точки зрения программного обеспечения следует помнить, что PCIe продолжает работу с программной моделью PCI, включая концепции шины, устройства, адресации функций. Когда PCI-шина перечислили, это делается как поиск по ширине:

В процессе перечисления входит часть пользовательского программного обеспечения, и вы должны зарезервировать заблаговременно номера шины PCI и сегменты памяти для будущих будущих устройств - это иногда называют прокладка шины . Это позволяет избежать необходимости повторного перечисления шины в будущем, что часто не может быть сделано без сбоев в работе системы. Устройство PCI имеет BAR ( регистры базового адреса ), которые запрашивают у хоста сколько и какое пространство (память или объем ввода-вывода) требуется устройству - вот почему вам не нужны перемычки как ISA больше :) Аналогичным образом, ядро Linux реализует PCIe hotplug через драйвер pciehp. Windows делает разные вещи на основе версии - более старые версии (я думаю, XP) игнорируют все, что говорит BIOS, и делают это собственное исследование. Более новые версии, я считаю, более уважают ACPI DSDT, предоставленные прошивкой хоста (BIOS /EFI), и будут включать эту информацию.

Это может показаться довольно привлекательным, и это так! Но помните, что любой ноутбук /устройство с слотом ExpressCard (которое реализует PCIe, поскольку вы можете использовать только USB-карты ExpressCards), должно сделать это, хотя в целом прокладка довольно проста - всего одна шина. Мое старое оборудование использовалось как коммутатор PCIe, у которого было еще 8 устройств, поэтому дополнение было несколько сложнее.

С точки зрения аппаратного обеспечения, это намного проще. GND-контакты карты сначала вступают в контакт, и мы установили IC-контроллер горячей замены из LTC или аналогичный на карту для питания последовательности после соединения. На этом этапе встроенная ASIC или FPGA начинает свою последовательность включения питания и начинает пытаться наладить связь с каналом PCI Express. Предполагая, что хост поддерживает горячее подключение и регистр PCI Express SLTCAP / SLTCTRL (в спецификации: регистр PCI Express Slot Capability Register, регистр управления слотом PCI Express. 2 для этого, а также - достаточно бит, чтобы разделить два регистратора). для этого порта была настроена так, чтобы указать, что порт поддерживает технологию «горячего подключения», программное обеспечение может начать перечислять новое устройство. Регистр состояния слота (SLTSTA, PCI Express Slot Status Register) содержит биты, которые целевое устройство может установить, указывая на неисправности питания, механическую защелку и, возможно, обнаружение присутствия + присутствие.

Вышеупомянутые регистры расположены в «Конфигурационном пространстве PCI (Express)», который представляет собой небольшую область карты памяти (4K для PCIe), выделенную для каждого потенциального bdf(Автобус: устройство: функция). Фактические регистры обычно находятся на периферийном устройстве.

Это много информации, которая напрямую не отвечает на ваш вопрос (см. ниже краткое резюме), но, надеюсь, это дает вам лучший опыт в понимании процесса. Если у вас есть какие-либо вопросы по конкретным частям процесса, дайте мне знать в комментарии здесь или запустите меня по электронной почте, и я могу обсудить дальше + обновить этот ответ с этой информацией.

Подводя итог - периферийное устройство должно быть спроектировано с поддержкой горячего подключения с помощью аппаратного POV. Правильно спроектированный хост /слот также способен работать с горячим подключением, а на материнской плате высокого класса я ожидаю, что он будет в безопасности. Тем не менее, поддержка программного обеспечения для этого - это еще один вопрос, и вы, к сожалению, обязаны BIOS, предоставленный вашим OEM-производителем.

На практике вы используете эту технологию при удалении /вставке PCIe ExpressCard с компьютера. Кроме того, высокопроизводительные blade-системы (телекоммуникационные или другие) также используют эту технологию регулярно.

Заключительный комментарий - сохраните PDF-файл, связанный с базовым спецификацией, PCI-SIG обычно заряжает баксы для этого:)

При условии, что соединения контроля состояния питания были разомкнуты разъемом с помощью переключателя вверх, и , съемный блок разоблачил эти контакты и настроен на их правильное использование и (как отмечает Джипи) программное обеспечение может обнаруживать событие hotplug и отвечать правильно, ответ да.

Как правило, эта возможность в основном используется в серверных фермах и центрах обработки данных для горячего подключения дисков PCIe, среди прочего; Я не уверен, что бытовое оборудование будет полностью hotplug способным (я понимаю, опционально в спецификации).

Имейте в виду, что предоставление необходимого оборудования для поддержки hotplug стоит денег (хотя большинство из них находится в конечной точке PCIe, оно все равно должно быть настроено, как правило, через eeprom), оно обычно не будет предлагаться в чувствительном к цене рынок.

Обратите внимание, что динамическое обновление карты адресов PCI добавляет сложность значительная к драйверу PCI (e); если новое устройство вставлено, то оно должно быть отображено на любую шину, на которой он живет, с соответствующими новыми переводами адресов, но если устройство удалено, а затем заменено чем-то другим , оно делает сохранение трек пространственных адресов PCI довольно сложный.

Без этой сложности подсистема PCI сканируется один раз (при сбросе системы) и остается статической; никаких дополнительных усилий не требуется.

Вот базовая спецификация PCIe v3.0 , стр. 514, раздел 6.7 о поддержке Hot Plug. Пример карты PCIe, которая поддерживает горячую вилку, можно увидеть здесь, любезно предоставлен iocrest . Очевидно, что более короткая трасса разъема маршрутизируется:

Однако на этой карте Axxon более короткая трасса может быть четко видна маршрутизированной на соседнюю , На физическом уровне эта карта не может поддерживать горячую вилку:

Предполагается работать на всех совместимых с PCIe аппаратных средствах, независимо от того, является ли все потребительское оборудование действительно совместимым, - это хороший вопрос, поскольку я не глубоко разбираюсь в спецификации PCIe, чтобы узнать о требованиях к тестированию, и даже тогда все розничные продавцы проверяют правильность претензии? Думаю, вряд ли кто-нибудь это сделает.

Как и все стандарты безопасности. Половина (<-гипербола?) На этикетках EE у нас есть, вы можете претендовать на совместимость с, без необходимости иметь все, что вы проверили. Поскольку hotplug не опасен для жизни, я не могу представить, чтобы люди были более строгими в этом отношении.

Я, например, никогда не пробовал и видел, как мой ноутбук Clevo полностью вытеснил настольный компьютер из моего дома, я не собираюсь его пробовать, так как модуль GPU в моем ноутбуке не требует возможности hotplug и тоже дорогой, не будучи Дэйвом Джонсом и получая $$$ за вид взрывающегося графического процессора.

Да, это работает. Я смог заставить его работать с hotplug линейкой линейки шасси маршрутизатора (содержащей 10 + PCIe-устройств). Шасси имеют 16 карт с возможностью подключения к шине. Любая карта может быть случайно вставлена или выведена случайно во время работы, не затрагивая операции трафика на других картах.

Сложность его работы зависит от среды процессора. На встроенном CPU работа - это просто настройка карты статических ресурсов и обработка событий изменения соединения путем подключения и отсоединения PCI-устройств. На x86 он гораздо более задействован из-за сложности обработки ошибок и взаимодействия с BIOS /OS.

В этом разделе мы рассмотрим следующие распространенные сценарии:

"горячая замена" сетевой карты PCI;
загрузка исправлений AIX и HACMP;
замена зеркального диска LVM;
обслуживание приложения.

"Горячая замена" сетевой карты PCI

Этот раздел описывает процесс "горячей замены" ( hot-plug replacement) сетевой карты PCI с использованием средства C- SPOC "PCI Hot Plug Replace a Network Interface Card ".

Специальные аспекты

При выполнении "горячей замены" сетевой интерфейсной карты PCI необходимо учитывать следующее:

Если сетевой интерфейс, для которого вы выполняете "горячую замену", представляет единственный доступный keepalive-путь на узле, где он находится, вы должны отключить HACMP на этом узле, чтобы не допустить разделение кластера при замене интерфейса. Этого можно избежать при наличии рабочей сети, отличной от IP, между узлами кластера.
SMIT позволяет выполнить постепенное завершение работы (graceful shutdown) на этом узле. При этом можно выполнить "горячую замену" сетевой интерфейсной карты вручную.
Поддерживается "горячая замена" сетевых интерфейсных карт Ethernet, TokenRing, FDDI и ATM. Этот процесс не поддерживается на коммуникационных устройствах, отличных от IP.
Следует вручную записать параметры IP-адреса для сетевого интерфейса, для которого выполняется замена, чтобы подготовиться к незапланированным отказам. Не следует пытаться изменять какие-либо параметры конфигурации в ходе выполнения "горячей замены".

SMIT -интерфейс упрощает процесс "горячей замены" сетевой интерфейсной карты PCI. HACMP поддерживает одновременное выполнение "горячей замены" только для одной сетевой карты PCI на узле.

Примечание. Если сетевой интерфейс был в рабочем состоянии до начала процесса замены, то между началом и завершением "горячей замены" интерфейс, для которого выполняется замена, находится в режиме обслуживания. На это время приостанавливается мониторинг связи в сети, пока не будет завершен процесс замены.

Сценарий 1 (только для работающих NIC)

Необходимо следовать приведенной ниже процедуре при "горячей замене" таких компонентов, как:

работающий сервисный сетевой интерфейс PCI в группе ресурсов с доступным несервисным интерфейсом;
работающий сервисный сетевой интерфейс PCI не в группе ресурсов с доступным несервисным интерфейсом;
доступный загрузочный сетевой интерфейс PCI с доступным несервисным интерфейсом.

Перейдите на узел, на котором требуется выполнить "горячую замену" сетевой интерфейсной карты PCI.
Введите smit hacmp .
В SMIT выберите System Management (C- SPOC ) > HACMP Communication Interface Management (Управление коммуникационными интерфейсами HACMP) > PCI Hot Plug Replace a Network Interface Card (Горячая замена сетевой интерфейсной карты PCI) и нажмите Enter. К этой панели также можно перейти с использованием быстрого пути smitty cl_pcihp . SMIT отображает список доступных сетевых интерфейсов PCI с возможностью "горячей замены".
Выберите сетевой интерфейс, для которого требуется выполнить "горячую замену". Нажмите Enter. Сервисный адрес интерфейса PCI переносится на доступный несервисный интерфейс.
SMIT предложит физически заменить сетевую интерфейсную карту. После замены карты система запросит подтверждения выполнения замены.

Если вы выберете Yes (Да), сервисный адрес будет перенесен обратно на сетевой интерфейс, для которого была выполнена "горячая замена". В сетях с синонимами сервисный адрес не будет перенесен обратно на первоначальный сетевой интерфейс, а останется синонимом на том же сетевом интерфейсе. "Горячая замена" завершена.

Если вы выберете No (Нет), необходимо вручную установить первоначальные значения параметров интерфейса:

выполните команду drslot , чтобы вывести PCI-слот из удаленного состояния (removed state);
выполите mkdev на физическом интерфейсе.
используйте команду ifconfig вместо smit chinet, cfgmgr или mkdev , чтобы не допустить конфигурирования повторяющихся IP-адресов или нежелательного загрузочного адреса.

Сценарий 2 (только для работающих NIC)

При "горячей замене" работающего сервисного сетевого интерфейса PCI в группе ресурсов без доступного несервисного интерфейса необходимо следовать приведенной ниже процедуре. Действия пп. 1–3 совпадают с предыдущим сценарием, так что в этом сценарии мы начинаем с быстрого пути smitty cl_pcihp .

Выберите сетевой интерфейс, для которого требуется выполнить "горячую замену", и нажмите Enter. SMIT предложит указать, следует ли перемещать группу ресурсов на другой узел в процессе замены, чтобы обеспечить ее доступность.
Если вы укажете, что это нужно сделать, SMIT предложит переместить группу ресурсов обратно на узел, на котором произошла "горячая замена" после завершения процесса замены. Если вы не переместите группу ресурсов на другой узел, он будет отключен в продолжение процесса замены.
SMIT предложит физически заменить сетевую интерфейсную карту. После замены карты система запросит подтверждения выполнения замены. Если вы выберите Yes (Да), "горячая замена" будет завершена. Если вы выберите No (Нет), необходимо вручную установить первоначальные значения параметров интерфейса:
1. выполните команду drslot, чтобы вывести PCI-слот из удаленного состояния (removed state);
2. выполите mkdev на физическом интерфейсе;
3. используйте команду ifconfig вместо smit chinet, cfgmgr или mkdev , чтобы не допустить конфигурирования повторяющихся IP-адресов или нежелательного загрузочного адреса;
4. (если применимо) переместите группу ресурсов обратно на узел, с которого он был перемещен на этапе 2.
Сценарий 3 (только для неработающих NIC)

Необходимо следовать приведенной ниже процедуре при "горячей замене" таких компонентов, как:
- неработающий сервисный сетевой интерфейс PCI в группе ресурсов с доступным несервисным интерфейсом;
- неработающий сервисный сетевой интерфейс PCI не в группе ресурсов с доступным несервисным интерфейсом;
- неработающий загрузочный сетевой интерфейс PCI с доступным несервисным интерфейсом.
Как и в предыдущем сценарии, мы снова начинаем с быстрого пути smitty. cl_pcihp .
1. Выберите сетевой интерфейс, для которого требуется выполнить "горячую замену", и нажмите Enter. SMIT предложит физически заменить сетевую интерфейсную карту.
2. После выполнения физической замены SMIT запросит подтверждение выполнения замены. Если вы выберете Yes (Да), "горячая замена" будет завершена. Если вы выберете No (Нет), необходимо вручную установить первоначальные значения параметров интерфейса:
  1. выполните команду drslot, чтобы вывести PCI-слот из удаленного состояния (removed state);
  2. выполите mkdev на физическом интерфейсе;
  3. используйте команду ifconfig вместо smit chinet, cfgmgr или mkdev, чтобы не допустить конфигурирования повторяющихся IP-адресов или нежелательного загрузочного адреса.
  "Горячая замена" сетевой интерфейсной карты ATM
  
  Сетевые интерфейсные карты ATM поддерживают использование нескольких логических интерфейсов на одной сетевой интерфейсной карте. "Горячая замена" сетевого интерфейса ATM выполняется так же, как и для других сетевых интерфейсных карт, за исключением следующего:
  - Все логические интерфейсы на заменяемой карте, не сконфигурированные для замены и управляемые HACMP, утрачиваются в процессе замены. Они не будут повторно сконфигурированы на новой установленной интерфейсной карте ATM. Все остальные логические интерфейсы на заменяемой сетевой интерфейсной карте ATM, сконфигурированные для замены и управляемые HACMP, восстанавливаются после завершения замены.
  - Так как на сетевой интерфейсной карте ATM можно сконфигурировать несколько сервисных интерфейсов, а значит, и несколько групп ресурсов для одного сетевого интерфейса ATM, то при "горячей замене" сетевой интерфейсной карты ATM, через SMIT выполняется процесс поочередного перемещения каждой группы ресурсов на интерфейсе ATM.
  Исправления
  
  Этот раздел описывает установку исправлений (APAR/ PTFS ) как в AIX, так и в HACMP. Мы рекомендуем загружать исправления и осуществлять обслуживание ежеквартально. Однако опрос клиентов показывает, что чаще эти операции выполняются два раза в год в сезоны отпусков. В некоторых случаях приходится отклоняться от стандартной практики при возникновении серьезных проблем.
  
  Некоторые исправления AIX можно загружать динамически без перезагрузки системы. Обновления ядра и драйвера устройств часто требуют перезагрузки, так как при их установке запускается bosboot. Чтобы определить, необходима ли перезагрузка системы , следует просмотреть файл . toc , создаваемый командой inutoc перед установкой исправлений. Файл содержит информацию о наборах файлов (filesets), подобную представленной в примере 7.1.
  Пример 7.1. Просмотр файла .toc перед установкой исправлений
  В приведенном примере набор файлов bos.64bit требует перезагрузки, на что указывает символ b в четвертом столбце. Символ N указывает на то, что перезагрузка необязательна.
  
  Применение исправлений HACMP подобно применению исправлений AIX. Наборы файлов, подлежащие обновлению, указывают, необходимо ли выполнять перезапуск кластера с использованием метода, указанного выше. Если есть неуверенность в последствиях загрузки тех или иных исправлений, следует проконсультироваться с группой поддержки.
  
  При обновлении программного обеспечения AIX или HACMP рекомендуется выполнить следующие действия:
  - Создать снимок кластера и сохранить его вне кластера.
  - Выполнить резервное копирование операционной системы и данных до выполнения обновления. Подготовьте план возврата в случае возникновения проблем при обновлении.
  - Всегда выполняйте первый запуск в тестовом кластере.
  - Если возможно, используйте обновление дисков.
  - Следуйте этим же общим правилам при применении исправлений приложения;
  - следуйте также указаниям для приложения.
  Общая процедура применения исправлений AIX и HACMP имеет следующий вид:
  - Примените (apply), не фиксируя (commit), APAR на дежурном узле ( standby node).
  - Выполняйте перемещение при сбое (постепенную остановку с переносом ресурсов, graceful shutdown with takeover) на дежурном компьютере ( standby machine).
  - Примените (apply) APAR на основном узле (primary node).
  Перед применением исправлений на дежурном узле ( standby node) необходимо остановить службы кластера. После применения исправлений при необходимости нужно перезагрузить узел. Для реинтеграции узла в кластер в качестве дежурного узла следует перезапустить службы кластера.
  
  Для того чтобы применить исправления на рабочих узлах, следует выполнить постепенную остановку служб кластера с переносом ресурсов (gracefully with takeover). После завершения переноса ресурсов службы кластера должны продолжить процесс остановки. После полной остановки служб кластера следует применить исправления, при необходимости перезагрузить узел и перезапустить службы кластера. В зависимости от политики перемещения при сбое для группы ресурсов, при реинтеграции узла в кластер, он может "подхватить" ресурсы. Если этого не произошло, можно использовать C- SPOC для перемещения группы ресурсов обратно на первоначальный узел.
  
  Читайте также: