Все выпуски  

Серверы, сетевое оборудование, тесты, характеристики, советы Кластеры как средство повышения отказоустойчивости систем 3


Информационный Канал Subscribe.Ru



Сумма Технологий - Серверные Системы

информационно-аналитический бюллетень
Проект компании "SumTech Servers Systems"
www.stss.ru

18.08.2005

Кластеры как средство повышения отказоустойчивости систем - 3 часть.

Физически общая дисковая подсистема может быть доступна узлам через параллельный SCSI интерфейс или через последовательный интерфейс Fibre Channel (FC). Использование SCSI интер-фейса обходится дешевле, но ограничивается слабой масштабируемостью решений и, обычно, при-меняется в недорогих кластерах содержащих не более двух узлов. FC является фактическим стандар-том при создании, так называемых, сетей хранения данных - Storage Area Network (SAN). В таких сетях, устройства хранения данных могут соединяться с узлами, подобно традиционной ЛВС, через концентраторы и коммутаторы. SAN обеспечивает доступ множества серверов к дисковой подсистеме, "привязывая" каждый узел к определенным дискам на определенном дисковом массиве. По каналам FC ввод/вывод организуется по стандартному протоколу SCSI, при котором операции чтения/записи идентифицируют определенное устройство хранения данных и определенный блок данных. Узел в кластер с SAN можно добавить, не выключая системы, поскольку коммутаторы FC поддерживают "горячее" подключение. Гибкость SAN архитектуры позволяет просто реализовать полностью отказоустойчивые конфигурации.

В показанном на рисунке примере, у кластера нет ни одного элемента оборудования, отказ которого может привести к потере работоспособности всей системы. При построении кластера по такой схеме необходимо выбирать материнские платы узлов с большим количеством слотов для карт расширения. Кроме трех слотов для сетевых адаптеров еще два слота материнской платы займут не показанные на рисунке адаптеры FC.

Как показывает практика, большинство проблем возникает как раз при построении простых и недорогих кластеров с общей дисковой подсистемой на базе параллельного SCSI интерфейса.

Неосмотрительность в выборе оборудования, непонимание основ SCSI технологии при на-стройке и тестировании, или даже элементарная неаккуратность при сборке, могут привести не толь-ко к созданию неработающей системы, но и к тому, что длительность простоев построенной системы из 2-х серверов будет больше, чем была бы у каждого из серверов по отдельности.

В качестве примера аппаратной реализации рассмотрим построение недорогого кластера из двух узлов. Допустим, что мы предполагаем использовать этот кластер для поддержания отказо-устойчивого файлового сервиса. Хотя аппаратная конфигурация не определяет тип ПО кластериза-ции, будем для удобства ориентироваться на MSCS из ОС MS Windows2000 Advanced Server.

Казалось бы, все просто: на 2 сервера с инсталлированной ОС устанавливаем по SCSI адапте-ру и кабелями к SCSI шине присоединяем общую дисковую стойку. Установленные в узлы сетевые адаптеры межузлового канала соединяем кросс-кабелем. Ставим Cluster Service, и все "понеслось" - ресурсы в Cluster Administrator перекидываются, файлы доступны. Ура, заработало, кластер готов! Но, скорее всего, все это проработает только до первой перезагрузки узлов. Здесь приходит понима-ние разницы между понятием работать и понятием устойчиво запускаться, и, дополнительно, что не так все просто как кажется.

Вроде бы все делалось правильно: оба сервера до объединения в кластер работали нормально, SCSI адаптеры из списка совместимого оборудования - Microsoft Hardware Compatibility List (HCL) для конфигураций SCSI/Cluster, кабели проверены, схема соединений верна, но кластер "не живет"! Для построения системы на базе SCSI интерфейса надо четко представлять, каким образом работает SCSI шина.

Следует отметить, что SCSI не идеально приспособлен для создания кластеров. Например, для включения и выключения питания одного из узлов кластера (или физического его отсоединения), в то время как другой узел продолжает нормально функционировать. Для успешной работы широкое распространение получили специальные устройства, которые можно назвать терминирующими пере-ключателями.

Устройства подобного типа при выключении питания на одном из серверов (возможно, вследствие серьезной аппаратной неисправности) изолируют SCSI-сегмент этого сервера от остатков кластера. В то же время переключатель начинает работать как терминатор, функции которого до сбоя выполнял SCSI-адаптер сервера. При включении сервера терминирующий переключатель определяет его присутствие и восстанавливает соединение между кластером и вновь прибывшим участником.

Алгоритм его работы достаточно прост. Для нормального функционирования SCSI-терминаторов на несколько разъемов SCSI-шины должно быть подано напряжение, так называемые линии TermPower. (Теоретически это должно делать только одно из устройств. Практически - ниче-го плохого не произойдет, если этим "займутся" все: тогда можно не беспокоиться, вынимая один из жестких дисков, не был ли он тем самым, единственным.) Если TermPower "теряется", переключа-тель инициирует сброс шины и физически разъединяет шину на 2 сегмента. При "появлении" TermPower переключатель после некоторого тайм-аута соединяет оба сегмента. Причем если во вре-мя задержки TermPower снова "пропадает", таймер задержки запускается снова.

Общие впечатления от кластерных решений на основе "обычного" SCSI неоднозначны. С од-ной стороны - простота и дешевизна конструкции. С другой стороны - огромное количество про-блем, причиной которых может стать элементарная неаккуратность. Неосмотрительность, начиная от выбора комплектующих и заканчивая настройкой и тестированием, может привести не только к соз-данию неработоспособной системы (наверное, наилучший вариант), но и к тому, что количество и длительность простоев кластерной системы из 2-х серверов будет выше, чем у каждого из серверов по отдельности.

Ну, а теперь о том, что является самым важным при построении кластеров. Это понимание того, что усложнение (увеличение количества совместно работающего оборудования) системы неиз-бежно приводит к снижению ее надежности, и, по сути, вступает в противоречие с самой целью по-строения кластера. Наличие большого количества работающих кластерных комплексов, поддержка производителей аппаратного обеспечения не смогут сделать кластерные решения менее сложными, чем они на самом деле являются. Некорректная настройка или не выявленные проблемы оборудова-ния могут послужить только еще одним источником сбоев и отказов вместо желаемого повышения отказоустойчивости. Многообразие технических средств, которые могут быть использованы для соз-дания кластеров, нисколько не облегчает решение этой задачи, а скорее делает ее еще более сложной. Оборудование от известных производителей или различные "полуфабрикаты" типа Cluster Kit, также не гарантируют ожидаемый результат.

Вывод прост: задача построения кластерных систем требует понимания необходимости мно-гократного повышения технического уровня работ по выбору, сборке, настройке и тестированию ап-паратных конфигураций. Успешность решения этой задачи определяется техническими знаниями и опытом специалистов, условиями и инструментами для выполнения данных работ. Только в том слу-чае, когда по результатам грамотного и полноценного тестирования констатируется безупречная со-вместная работа аппаратных средств, и когда в течение нескольких суток в режимах эмуляции сбоев проверяется весь программно-аппаратный комплекс, можно говорить о построении отказоустойчивой кластерной системы повышенной доступности.

Доступность 100% и отказоустойчивость

Кластеризация не может заменить мероприятий, обеспечивающих устойчивость к сбоям. Кла-стерная технология уменьшает вероятность отказа из-за сбоя одиночных устройств и смягчает по-следствия плановых отключений, однако не решает многих проблем и, поэтому, повышение доступ-ности сложного программно-аппаратного комплекса всегда будет оставаться непростой задачей.

Причины отказов
Железо, ПО - защита (резервирование каналов накопителей и т.д.)
Человек, среда - внештатные ситуации
Обслуживание - штатные ситуации

Надежность - время наработки на отказ, отсюда рост доступности.

Обеспечение максимальной надежности осуществляется путем использования электронных компонент высокой и сверхвысокой интеграции, поддержания нормальных режимов работы, в том числе тепловых. Отказоустойчивость обеспечивается путем использования специализированных компонент (ECC, Chip Kill модули памяти, отказоустойчивые блоки питания, и т.п.), а также с помо-щью технологий кластеризации. Благодаря кластеризации достигается такая схема функционирова-ния, когда при отказе одного из компьютеров задачи перераспределяются между другими узлами кластера, которые функционируют исправно. Причем одной из важнейших задач производителей кластерного программного обеспечения является обеспечение минимального времени восстановле-ния системы в случае сбоя, так как отказоустойчивость системы нужна именно для минимизации так называемого внепланового простоя. Многие забывают, что удобство в обслуживании, которое слу-жит уменьшению плановых простоев (например, замены вышедшего из строя оборудования) являет-ся одним из важнейших параметров систем высокой готовности. И если система не разрешает заме-нять компоненты без выключения всего комплекса, то ее коэффициент готовности уменьшается.

Александр Матвеев

*****

Последние публикации в разделе «Новости и обзоры»:

  • «SimNow: программа эмуляции AMD64»
    Компания AMD анонсировала SimNow — программу эмуляции AMD64, предоставляющую разработчикам приложений доступ к функциям следующего поколения процессоров AMD...
  • «Novell расширяет партнерство с производителями ПО»
    Компания Novell, поставщик инфраструктурного программного обеспечения, расширяет партнерство с VMware, разработчиком программ для создания нескольких виртуальных машин на одном компьютере...
  • «Intel: выпуск двухъядерного Xeon раньше срока»
    Корпорация Intel раньше объявленного срока приступает к выпуску серверных платформ на базе двухъядерных процессоров с технологией Hyper-Threading...
  • «Мониторинг серверов: DEKSI Network Inventory v.4.4.2»
    Обновилась мощная утилита DEKSI Network Inventory, которая поможет отследить работоспособность компьютеров и программного обеспечения на них. DEKSI Network Inventory позволяет экспортировать ценную информацию в MS Access, MS Excel, ODBC и Oracle. DEKSI Network Inventory поможет сетевым администратором автоматически устанавливать исправления от Microsoft на все клиентские компьютеры, после установки MBSA. В состав DNI также входит несколько других полезных утилит...

Имеющиеся у Вас материалы по тематике бюллетеня Вы можете опубликовать на нем, отправив их по адресу biznesolimp@mail.ru в имеющемся у Вас формате. Не забудьте указать Ваши координаты и информацию личного характера, которую желаете опубликовать вместе с предоставленными материалами.

В нашей конференции Вы можете обсудить новые темы:

  • Как зайти в Bios Proliant ml 370?

  • Подскажите, как зайти в Bios Proliant ml 370...
  • Что делать если размонтировался Raid

  • Подскажите, если рэйд размонтировался, возможно ли как то смонтировать заново рэйд что бы все данные на нём сохранились?? тип контроллера MegaRaid SCSI 320-1 рейд состоит из 5-ти дисков...
  • Abit ST6/SA6 - вырубается при старте

  • Проблемы с кондерами - пройденный этап. Теперь новая беда, уже несколько плат с одним симптомом, при включении мать стартует на неск. сек. и вырубается блок питания (видимо срабатывает защита), при этом сразу же нагревается микросхема Intel FW828..(южный мост) Есть подозрения (хочется надеется), что сами микросхемы живы, и что то с цепью питания, которое подается на нее. Но вот что именно? Или платы на помойку?...

Внимание! У нас открыт форум посвященный серверному и компьютерному оборудованию, программному обеспечению и телефонии!

Приглашаем Вас принять активное участие в жизни и развитии форума. Создавайте свои темы, дискутируйте с участниками и производителями компьютерной техники. Наши технические специалисты отвечают на любой вопрос по компьютерной и серверной тематике. Если возникли проблемы с Вашим оборудованием - не откладывайте её в долгий ящик, ведь есть МЫ - спросите у нас и получите ОПЕРАТИВНЫЙ БЕСПЛАТНЫЙ ответ в форуме, по почте или ICQ 177229825 (наши специалисты всегда On-Line).

Последние публикации из рубрики «Полезные советы по работе с компьютером»:

Локальные сети

Недоступный блок "Запомнить пароль" в Удаленном доступе к сети в Windows 9x.

Если у Вас проблемы с DUN при запоминании Вашего пароля, т.е. Вы видите, что опция "Запомнить пароль" отключена, то имеется несколько вариантов, которые надо проверить для решения этой проблемы.

  1. Удостоверьтесь, что на Вашей системе установлен "Клиент для сети Microsoft" (Панель управления – Сеть – Добавить... – Клиент – Добавить... Microsoft – Клиент для сети Microsoft).
  2. Вспомните, происходил ли запуск Windows так, чтобы при отображении диалогового окна входа в систему и запросе пароля Вы нажимали клавишу .
  3. У Вас может быть повреждён файл пароля. Произведите поиск файлов *.pwl в каталоге Windows и переименуйте все найденные файлы. Примечание: это действие заставит Вас создать файлы паролей заново.
  4. Проверьте системный реестр: – запустите Редактор системного реестра (REGEDIT.EXE); – найдите раздел HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Network\Real Mode Net – если Вы увидите, что значение параметра "Autologon" равно "00 00 00 00", то дважды щёлкните на этом параметре и измените значение на "01 00 00 00"; – выйдете из RegEdit и перезагрузите компьютер.

Simon Clausen

Отдохни (анекдоты, забавные истории):

Два программиста едут в переполненном автобусе. Один - другому:
- Что-то у меня с писюком! Толпа замирает.
- А что с ним?
- Да встает часто...
- Может, вирус какой?
- Да проверял, все стерильно...
- А висит хорошо?
- Крепко, тремя пальцами не поможешь...

*****

Приезжают американцы к нам и спрашивают: "Вы с какого возраста детей учите на компьютерах работать?" Наши отвечают: "С первого класса!" Американцы: "Ух ты, а можно посмотреть?" Приводят американцев в первый класс. На парте стоит четыре компьютера. Учительница говорит:
- Петров, возьми один компьютер и поставь его наподоконник.
- Дети, сколько компьютеров осталось?

Приглашаем авторов и журналистов, пишущих статьи по тематике информационных технологий!
Разместите их в бюллетене у нас совершенно – БЕСПЛАТНО!


Архив рассылки по адресу: http://www.stss.ru
Пишите нам: biznesolimp@mail.ru
ICQ: 177229825 (техническая поддержка - любые вопросы)
ICQ: 149756711 (отдел продаж)
ICQ: 340597008 (по вопросам размещения информации в рассылке)
Тел./Факс (095)737-55-77 (многоканальный - любые вопросы)

Online System Group - Создание сайта, создание интернет магазина. Профессиональные Веб - сайты - решения по разработке интернет магазинов и сайтов. Технология создания сайтов и интернет магазинов. Аренда интернет-магазинов от 50$.

Новый Иерусалим on-line: Все о Ново Иерусалимском монастыре, городская и районная информация, объявления, расписание автобусов и электричек, телефоны предприятий и частных лиц, православный чат, форум и много другой полезной информации.
Преподаватели православной воскресной школы ищут благотворителей, которые готовы помочь с помещением в городе Истра или Новый Иерусалим, возможно заключение договора некоммерческого партнерства. Будем рады любой помощи!!!

Подпишитесь на другие наши рассылки

Рассылки Subscribe.Ru
Секреты рекламы и создания интернет-магазинов
Скидки, подарки, призы...
1С и электронная коммерция
Серверы, сетевое оборудование, тесты, характеристики, советы
Рукопашный бой для девушек – выживание, психология, самозащита!
Милосердие. Чем ты можешь помочь ближнему.
Православные знакомства.

Subscribe.Ru
Поддержка подписчиков
Другие рассылки этой тематики
Другие рассылки этого автора
Подписан адрес:
Код этой рассылки: comp.hard.stss
Отписаться
Вспомнить пароль

В избранное