Новости

Бесплатно и качественно: как пресейл может задать тон проекту

Обычно гордостью команды становится внедрение. В тени несправедливо остается важнейшая работа по проработке решения. В нашем проекте по модернизации системы резервного копирования в банке эта скрытая часть айсберга оказалась трудозатратнее самого проекта. И не напрасно. Глубокая проработка помогла найти взвешенное решение для реальной бизнес-задачи и обосновать выбор дорогого, но более подходящего продукта — Dell EMC Data Domain 6800.

Система резервного копирования (СРК) в банке уже долго работала на базе ПО Veritas NetBackup. Но оборудование, на котором крутилась СРК, перестало справляться с нагрузкой.

Сигналом назревающей проблемы стала нехватка окна резервного копирования. СРК перестала успевать резервировать данные с серверов и рабочих станций за ночь, и часть заданий перекидывалась на рабочее время. В итоге для некоторых ресурсов копии делались не каждый день, а это создавало риск потери данных и нарушения уровня SLA в случае реальных сбоев.

Другая проблема — дефицит места на дисковой библиотеке. Чтобы как-то компенсировать это, заказчик сократил время хранения резервных копий на дисковой библиотеке с 14 дней до 7 дней. Это создало дополнительную нагрузку на приводы ленточной библиотеки, которые и без того были утилизирована практически полностью.

Дисковая библиотека использовалась для оперативного хранения резервных копий и обеспечивала параллельное выполнение заданий резервного копирования до 25 потоков одновременно.

Ленточная библиотека использовалась для долгосрочного хранения. По требованиям регулятора разные документы должны храниться от 1 до 5 лет. При дальнейшем росте нагрузки у заказчика возникли бы проблемы с соответствием регламентам ЦБ. Не очень позитивная перспектива.

Менять? Чинить? Расширять? Модернизировать?

Когда СРК начала «задыхаться», приближаясь к пределу своей производительности, у заказчика возник вопрос — где «узкое место» системы? Поскольку мы занимаемся сопровождением программной части СРК, ИТ-служба банка обратилась к нам с просьбой проанализировать работу системы.

В состав решения на тот момент входили такие компоненты:

  • 1 x мастер/медиа сервер NetBackup Solaris x86;
  • 1 x медиа-сервер для резервного копирования VMware;
  • 45 x медиа-серверов AIX;
  • 10 x медиа-серверов SPARC Solaris;
  • 1 x дисковая библиотека Dell EMC Data Domain 4200 в режиме VTL;
  • 1 x ленточная библиотека Oracle SL3000 c 8 приводами LTO6.

Для хранения оперативных резервных копий одновременно записывалось несколько потоков резервных копий с медиа-серверов и Enterprise-клиентов по протоколу FC на дисковую библиотеку. После этого копии дублировались на ленточные носители библиотеки Oracle SL3000 через мастер/медиа-сервер NetBackup по протоколу FC.

В банке насчитывается 830 клиентов СРК, в том числе порядка 730 виртуальных машин VMware, Enterprise-клиенты на AIX и Solaris, а также физические серверы x86. Исходный объем полной копии резервируемых данных составлял 115 ТБ.

Чтобы найти бутылочное горлышко, мы изучили статистику выполнения заданий NetBackup, конфигурацию ввода-вывода серверов резервного копирования, конфигурацию SAN, посмотрели на утилизацию приводов ленточной библиотеки и производительность дисковой библиотеки. Для этого заказчик предоставил нам диагностические отчеты:

  • nbsu — Veritas NetBackup Support Utility;
  • NetBackup DeployUtil и спецификацию лицензий ПО;
  • Brocade SAN Health о конфигурации сети хранения данных;
  • AutoSupport с дисковой библиотеки Data Domain.

Отчет nbsu — Veritas NetBackup Support Utility содержит исчерпывающую информацию о конфигурации NetBackup, включая сведения о производительности заданий системы резервного копирования. Эта информация представлена в выгрузке bpdbjobs — most_columns. Но ее нужно уметь парсить, а даты и время конвертировать из формата epoch в человеко-читаемый формат.

Вывод команды bpdbjobs помогает оценить производительность и длительность выполнения каждого задания. Так можно получить картину утилизации приводов ленточной библиотеки на временной шкале:

В nbsu есть данные об используемых носителях, сроках хранения и их распределении по пулам. Ниже сводная информация по срокам хранения носителей на базе NBU_available_media.txt из nbsu.

Отчет NetBackup DeployUtil позволяет оценить фактическое потребление лицензий ПО резервного копирования для разных моделей лицензирования — традиционной и по емкости. Он формируется в MS Excel, содержит полный перечень клиентов резервного копирования, информацию о платформе резервируемых серверов, используемой версии NetBackup и объемах резервируемых данных.

Отчет Brocade SAN Health описывает топологию сети хранения данных, конфигурацию зонирования, посмотреть на утилизацию ISL-линков.

Data Domain AutoSupport «рассказывает» о конфигурации дисковой библиотеки, эффективности хранения и производительности. После парсинга мы определили паттерны и получили тепловую карту нагрузки:

В итоге выяснилось, что «слабым звеном» была дисковая библиотека Dell EMC Data Domain 4200, работавшая в режиме VTL.

Мы сравнили фактические параметры и формальные требования к объему резервных копий и их частоте. Оказалось, что текущая емкость и производительность дисковой библиотеки не обеспечивают хранение оперативных РК с нужным сроком. Более того, именно из-за ограничений скорости чтения из Dell EMC DD4200 дублирование информации на ленты происходило в режиме, близком к предельному. Более низкая производительность DD на чтение обусловлена ресурсоемким процессом регидрации информации — восстановления последовательности блоков к исходному виду до дедупликации.

Все указывало на необходимость замены устаревшей дисковой библиотеки. Заказчику нужно было железо, поддерживающее поток данных в 5-6 Тбайт в час, с дополнительными контроллерами для обеспечения отказоустойчивости, а также увеличенной емкостью.

Три кандидата на выбор

Самым очевидным предложением в этом случае была замена Dell EMC Data Domain на более новую версию. Или альтернативой мог стать Veritas NetBackup Appliance. (Во многом это аналог Data Domain, причем в той же ценовой категории). Но оба варианта вызывали сомнения по бюджету.

Третий вариант — решение на базе серверов стандартной архитектуры с «родной» дедупликацией Veritas NetBackup — Media Server Deduplication Pool (MSDP).

Когда мы пришли к заказчику с предложением, оказалось, что он уже рассматривал решения и на базе Veritas NetBackup Appliance, и Dell EMC Data Domain от других поставщиков, но заказчик не был уверен насколько они оптимальны по соотношению цена/результат. Другими словами, наш вариант на стандартных серверах оказался кстати.

Пока банк тестировал конфигурации на базе Veritas NetBackup Appliance, мы консультировали ИТ-команду заказчика по особенностям использования дедупликации от Veritas, нюансам технологии Fibre Transport для передачи трафика СРК по SAN, механизмам создания синтетических копий на базе технологии NetBackup Accelerator, и предложили включить проверку этих технологий в программу тестирования. По итогам тестов заказчик одобрил наш вариант решения на базе двух стандартных серверов x86 с блочной СХД, поскольку в нем был реализован весь стэк протестированных технологий.

А еще мы подготовили предложение по замене Dell EMC Data Domain 4200 на более новую библиотеку. Для этого проекта была выбрана модель Dell EMC Data Domain 6800 HA — более мощная, вместительная и производительная модель. Преимуществом решения была высокая доступность библиотеки в конфигурации с двумя контроллерами. Дисковая библиотека в такой конфигурации перестает быть единой точкой отказа. В случае потери контроллера библиотека останется доступной за счет технологии NPIV и задания резервного копирования продолжатся автоматически.

В случае выбора решения на Data Domain заказчику не нужно было заменять клиентское ПО СРК Enterprise-клиент на SAN-клиент и объем работ по «встраиванию» его в ИТ-ландшафт был минимален. Это стало еще одним плюсом Dell EMC Data Domain 6800 HA.

Больше мощности + DD BOOST

Дисковая библиотека Dell EMC Data Domain 6800 поддерживает режим работы с двумя контроллерами (High Availability), а также может работать не только с протоколом VTL, но и с DD BOOST. Полезная емкость новой библиотеки составляет 174 ТБ без учета дедупликации и сжатия, тогда как емкость Dell EMC DD4200 ограничивалась 130 ТБ. Более того, мы оценили ожидаемую скорость работы дисковой библиотеки и показали заказчику, что она должна составлять от 5,3 до 8 ТБ в час при одновременном выполнении записи и чтения, полностью покрывая его потребности в резервном копировании и переносе данных на ленты.

Одновременная поддержка DD Boost и VTL оказалась полезной, поскольку можно было совместить использование технологий в случае проблем с совместимостью. Преимущества DD Boost очевидны:

  • вместо виртуальных ленточных носителей и пула возобновляемых носителей к системе подключается один общий дисковый пул;
  • управление сроками хранения переносится с уровня носителя (виртуальной ленты) на уровень образа резервной копии (image);
  • дедупликация в DD Boost может осуществляться как на уровне дисковой библиотеки, так и на уровне медиа-сервера NetBackup;
  • NetBackup сразу знает всё о репликации между дисковыми библиотеками;
  • возможность создания на уровне дисковой библиотеки синтетических полных резервных копий за время на создание инкрементальных.

Поскольку экосистема банка базируется на системе виртуализации VMware также полезной функцией DD Boost стало подключение NetBackup Accelerator для Vmware. Эта технология проводит трекинг измененных блоков VMware CBT (Changed Block Tracking) и на базе технологии дедупликации создает синтетическую полную резервную копию за время инкрементальной. При этом сохраняется возможность гранулярного восстановления файлов и приложений Microsoft (AD, SQL, Exchange, SharePoint) из резервных копий виртуальных машин.

Доступнее, но не лучше

Наша команда просчитала затраты перехода на различные варианты новых библиотек. Выяснилось, что реорганизация СРК с использованием стандартных серверов потребовала бы большего объема интеграционных работ. Но самое неприятное — это дополнительные риски для бизнеса: замена клиентского ПО резервного копирования, перенастройка политик и, как следствие, возможные даунтаймы для самых критичных серверов (более 50 серверов AIX/Solaris).

В результате заказчик выбрал переход на Dell EMC Data Domain 6800.

Dell EMC Data Domain 6800 была более дорогой альтернативой. Но ее использование позволяло снизить затраты на модернизацию в целом: не менять инфраструктуру СРК, свести к минимуму опасность потери данных и недоступности сервиса, а также не отказываться от старой библиотеки. Таким образом, добавление в систему еще одной DD увеличивало емкость хранения более чем в два раза, ничего не меня в уже отлаженных процессах. Сохранение поддержки протокола VTL не требовало дополнительных настроек на медиасерверах и Enterprise-клиентах NetBackup. Также не нужна было менять клиентское ПО резервного копирования, а задания резервного копирования легко перераспределялись между дисковыми библиотеками — уже установленной DD4200 и новой DD6800. SLP-политики переноса резервных копий на ленты также остались аналогичны прежним, только данные теперь поступают с двух дисковых библиотек.

Переход на новую систему

Ниже представлена целевая схема решения:

К моменту внедрения новой дисковой библиотеки необходимость в расширении мощностей для резервного копирования назрела настолько, что банк готов был бэкапить на нее продуктив до завершения всех тестов. Нам удалось отговорить заказчика от этого шага. Мы выполнили все проверки по программе испытаний, включая деструктивные тесты на отказоустойчивость.

Внедрение произошло быстро. Через две недели в банке работала новая дисковая библиотека. В итоге заказчик получил систему с большей емкостью и достаточным запасом производительности на ближайшие несколько лет. Показатели производительности по факту даже превзошли расчетные. Реальная производительность DD 6800 состав 8-9 ТБ в час (по расчетам от 5,3 ТБ), а емкость с учетом дедупликации и сжатия — порядка 1 Петабайта.

Поскольку мы просто расширили емкость дискового хранилища и не меняли архитектуру, стоимость лицензий NetBackup для банка осталась прежней — с точки зрения резервируемого объема данных и количества клиентов ничего не изменилось. Сейчас новая библиотека работает параллельно с Dell EMC DD 4200, но ее мощности вполне позволяют безболезненно вывести старую библиотеку из эксплуатации, если это потребуется.

Глубокая проработка на старте проекта по трудозатратам «перевесила» внедрение новой библиотеки. По сути, мы выполнили небольшой консалтинговый проект с просчетом возможных вариантов за 0 рублей. Но как оказалось не напрасно. Это позволило заказчику получить обоснование для модернизации, минимизировать риски и принять взвешенное решение.

Автор: Алексей Поляков, инженер-проектировщик систем хранения данных «Инфосистемы Джет»

Добавить комментарий

Кнопка «Наверх»