19.10.2023 Автор: Николай Носов С точки зрения функциональных возможностей отечественные программно определяемые хранилища еще отстают от продуктов ушедших с рынка зарубежных вендоров. Но разрыв сокращается.
Виртуальное вместо реального
Отделение логического уровня управления от физического аппаратного – подход не новый и широко используемый на практике. В частности, в программно определяемых хранилищах (Software Defined Storage, SDS) за счет создания виртуальной плоскости данных предоставление хранилища и управление им абстрагируются от базового оборудования. Это позволяет управлять отдельными пулами физических ресурсов хранения как единым логическим устройством, что повышает эффективность использования, гибкость выделения и легкость масштабирования ресурсов.
Путаницу в определения вносит термин «Programmable Storage», который тоже дословно переводят как «программно определяемое хранилище». Технология Programmable Storage использует ПО для управления и настройки в конкретных задачах физических устройств хранения данных без виртуализации и в этой статье не рассматривается.
Прообразом SDS можно считать появившиеся еще в 1987 г. RAID-массивы, объединившие диски в логические элементы, с которыми и работали операционные системы. С развитием технологий росла скорость передачи данных по сети, и в логические элементы стали объединять диски разных серверов. В дальнейшем к ним подключились дисковые массивы СХД, а в самых продвинутых решениях и облачные хранилища.
Начала набирать популярность конвергентная инфраструктура (Converged Infrastructure, CI) – предварительно настроенное аппаратное решение, которое объединяет хранилища, вычислительные и сетевые ресурсы в общую инфраструктуру, управляемую единым программным обеспечением. Конвергентная инфраструктура часто включала SDS, что дополнительно повышало ее эффективность.
Предварительно настроенное программно-аппаратное решение – как ноутбук. Запускать и работать легко, но менять конфигурацию «железа» замучаешься. Стремление к дезинтеграции вычислительных ресурсов с целью получения оптимальной для конкретной задачи конфигурации породило концепцию компонуемой инфраструктуры (Composable Infrastructure) – архитектуры центра обработки данных, в которой хранилища, вычислительные и сетевые ресурсы абстрагируются от их физического местоположения и управляются программным обеспечением через единую платформу управления. В примере с ноутбуком: нажал на кнопку – получил новые диски, нажал на другую – вернул их соседу.
Пример компонуемой инфраструктуры – блейд-шасси HPE Synergy, в которое при необходимости нарастить ресурсы вставляются серверы-лезвия с корзинами для дисков. Конструктив дает возможность прямого подключения дисков без участия RAID-контроллера, что необходимо при использовании серверов в качестве компонентов SDS. Управляется блейд через Composer – мини-сервер архитектуры х86 с модифицированным ядром Linux. На нем работает обеспечивающая единое управление лезвиями всех собранных корзин программа OneView.
В качестве компонуемой инфраструктуры можно рассматривать и облачную платформу, которая также позволяет пользователям создавать «под себя» вычислительную инфраструктуру и управлять ею.
Совсем нельзя обойтись без SDS при развертывании гиперконвергентной инфраструктуры (Hyper-converged Infrastructure, HCI). Совмещение слоя хранения и слоя вычислений на горизонтально масштабируемом и относительно типовом «железе», совмещение узла SDS и гипервизора на одном физическом хосте повысило гибкость и снизило расходы на ИТ.
Преимущества SDS оценили облачные провайдеры и начали активно внедрять технологию, повышающую эффективность использования хранилищ. Развивались и технологии доступа. Приобрели популярность объектные хранилища, позволяющие загружать, получать и удалять данные по имени. Пионером стала компания AWS, в 2006 г. запустившая основанный на объектном хранилище файловый хостинг Amazon Simple Storage Service (Amazon S3). Пользователи получили возможность в любое время задействовать любой объем данных, который не привязан к физическому носителю и доступен в любой точке сети, опутавшей весь мир.
Базовый функционал
При этом от SDS по-прежнему требуется поддерживать классический блочный доступ (интерфейс iSCSI), когда файлы разбиваются на «кусочки» одинакового размера, каждый с собственным адресом, но без метаданных (по сути, прямой доступ к жесткому диску), а также интерфейс NFS файлового хранилища, имеющего древовидную структуру из файлов и вложенных папок.
В число базовых требований к SDS входит и отказоустойчивость. Важно, чтобы архитектура SDS позволяла создавать систему с любым уровнем избыточности для защиты от потери данных в случае отказа одного или нескольких узлов. Также защиту данных и доступность системы обеспечивает использование методов шифрования, резервирования и репликации данных, в частности, удаленной асинхронной репликации (remote replication) – копирования данных на удаленную, находящуюся в другой локации систему хранения с задержкой, что позволяет задействовать более медленные сетевые каналы.
Для быстрого восстановления данных удобна функция создания мгновенных снимков (snapshot) – копий состояния системы или данных в определенный момент времени.
Чтобы конфиденциальную информацию нельзя было восстановить после удаления, применяют методы гарантированного удаления данных с жестких дисков и других устройств хранения. SDS обычно использует аппаратное обеспечение для перезаписи находящейся на устройстве информации случайными данными, что делает восстановление технически невозможным.
Полезны функции линейного наращивания производительности SDS, автоматическая балансировка нагрузки между узлами и контроль качества обслуживания (QoS), позволяющий поддерживать требуемый уровень производительности для рабочих нагрузок. Низкую задержку и повышенную производительность при чтении данных обеспечивает FlashCache – встроенный кеш чтения/записи на базе флеш-памяти.
Оптимизировать использование устройств хранения помогают сжатие и дедупликация – удаление дублирующих копий данных. Применяется inline-дедупликация, при которой дубликаты удаляются непосредственно в процессе записи данных, и post process-дедупликация, когда удаление дубликатов происходит после записи данных.
Для эффективного и экономичного управления в SDS служит многоуровневое хранение (tiering) – группировка отдельных наборов данных по уровням их технических характеристик, типу носителя и т.д. Перенос наиболее активных наборов данных на быстродействующие носители повышает производительность SDS, а редко используемых данных на дешевые медленные носители снижает расходы.
В настоящее время SDS применяются: для оптимизации использования дисковых ресурсов СХД в традиционных системах; в работающих с общим пулом вычислительных ресурсов гиперконвергентных инфраструктурах; в конвергентных и компонуемых инфраструктурах, имеющих отдельный пул хранения; в ряде облачных платформ (например, VMware vRealize Suite или Huawei FusionSphere).
Российский рынок до февраля 2022 г.
До февраля 2022 г. на российском рынке программно определяемых систем хранения присутствовали решения как отечественных («Аэродиск», «Рэйдикс», «Росплатформа» – последняя изначально предлагала коробочное ПО, работающее с любыми серверами стандартной архитектуры), так и зарубежных (Datacore, Microsoft, Nexenta, Open-E) компаний. В числе классических SDS, изначально разрабатывавшихся для объединения дисковых ресурсов серверов в единый пул, активно предлагалось решение PowerFlex (ранее Dell EMC ScaleIO) компании Dell Technologies.
Крупные компании, такие как Mail.ru (ныне «ВК Цифровые технологии», VK), имеющие большие команды разработчиков, использовали программно определяемые системы хранения с открытым кодом, прежде всего Ceph. Менее крупные использовали GlusterFS от Red Hat, не требующую высококвалифицированной поддержки при эксплуатации.
В области гиперконвергентных систем лидировали компания Nutanix и использующая доминирующее положение на рынке серверной виртуализации компания VMware, которая предлагала решения как для гиперконвергентных, так и для конвергентных инфраструктур. Решение VMware Virtual SAN (vSAN) позволяет объединять SSD-накопители и обычные диски, подключенные к локальным ESXi-серверам (хостам), в общее высокоустойчивое хранилище данных, к которому могут обращаться все узлы кластера vSphere самой популярной на корпоративном рынке платформы виртуализации.
Источник VMWare
Структура программно определяемого хранилища VMWare
На уровне управления (Control Plane) в SDS от VMware можно включать виртуальные тома хранилищ, даже расположенных в облаке, с блочным (SAN) и файловым (NAS) доступом, что удобно для построения гибридных архитектур. При этом систему виртуализации хранилищ vSAN не надо устанавливать – оно уже входит в состав гипервизора ESXi и жестко привязано к платформе виртуализации VMware vSphere.
Аналогами и конкурентами vSAN являются: Nutanix DSF, PowerFlex, Datacore Hyper-converged Virtual SAN, HPE StoreVirtual, в которых на каждом хосте запускается отдельная виртуальная машина, управляющая виртуализованными ресурсами хранения хоста в Control Plane. Все эти решения совместимы не только с VMware vSphere, но и с Microsoft Hyper-V, а HPE StoreVirtual – еще и с платформами на базе гипервизора KVM.
Существуют и решения с компонентной архитектурой. Пионером стала компания Cisco c решением Cisco UCS, затем на рынке появились программно-аппаратные комплексы Dell EMC PowerEdge MX и HPE Synergy.
Российский рынок после
Санкции и уход с российского рынка зарубежных вендоров ПО заставили бизнес пересмотреть стратегии развития ИТ и обратить внимание на отечественные решения, в том числе на SDS. Дополнительными стимулами к развертыванию этих систем стали:
К уже упоминавшимся проприетарным SDS-решениям компаний «Росплатформа», «Рэйдикс» и «Аэродиск» стоит добавить ряд коммерческих продуктов от компаний «Киберпротект» и «Базис». «Росплатформа» предлагает самостоятельный полноценное SDS-решение «Р-Хранилище» на базе наработок компании Parallels, «Киберпротект» – распределенное хранилище в составе своей «Кибер Инфраструктуры», российский SDS-продукт входит и в «Базис.DynamiX» – платформу для DevOps.
Кроме того, SDS входят в облачные платформы, в том числе зарегистрированные в Едином реестре российских программ для ЭВМ и баз данных (ЕРРП). Как правило, в связке с платформой виртуализации используются модификации open source SDS-решений. Например, в связке c ПК СВ «Брест» и «Альт Сервер Виртуализации» применяется Ceph. C доработки Ceph начинала в свое время и компания Mail.ru.
GlusterFS используется в российских платформах виртуализации, базирующихся на open source-решениях Red Hat (система управления виртуализацией oVirt) – SpaceVM (VeiL), «Ред ОС», HOSTVM, zVirt и ROSA Virtualization (НТЦ ИТ РОСА), причем РОСА предлагает и гиперконвергентное решение.
Вендоры SDS и HCI, разработавшие решения для рынка, которые включены в ЕРРП, и осуществившие известные внедрения в сторонних организациях, представлены в табл. 1.
Табл. 1. Наиболее известные российские разработчики программно определяемых хранилищ и их решения, включенные в ЕРРП
* В связке с «Р-Виртуализация» реализуется функционал HCI
Источник: ЕРРП
Одной из первых в нашей стране стала пропагандировать использование SDS и предложила свое решение компания «Росплатформа», давно и довольно успешно конкурировавшая с Nutanix на рынке гиперконвергентных систем. До февральских событий бизнес чаще предпочитал решения американской компании, а опасавшиеся санкций организации – продукт «Росплатформы».
Компания продает неисключительные права (лицензии) без ограничения срока действия и сертификаты на техническую поддержку. «Р-Хранилище» лицензируется по объему (в тера-байтах) полезного пространства виртуального хранилища, стоимость не зависит от числа серверов или дисков в кластере.
Отказоустойчивость достигается репликацией данных между серверами. Архитектура «Р-Хранилища» рассчитана на потерю любого физического сервера или группы серверов целиком, а не только отдельного диска. Все данные хранятся в нескольких копиях, при этом система никогда не хранит более одной копии на физическом сервере/стойке/комнате.
К преимуществам «Р-Хранилища» по сравнению с западными аналогами управляющий директор «Росплатформы» Сергей Члек отнес независимость от производителей серверного оборудования (решение устанавливается на любое Linux-совместимое оборудование), устойчивость к санкциям и круглосуточную поддержку.
Общие с «Р-Хранилищем» корни и во многом схожие характеристики имеет решение «КИБЕР Инфраструктура» компании «Киберпротект». В 2021 г. продукт «КИБЕР Инфраструктура» вошел в десятку лучших инновационных решений для управления ИТ-инфраструктурой и обеспечения ее информационной безопасности на конкурсе «Онланта.Tech».
НТЦ ИТ РОСА сделала ставку на open source и выпускает SDS- и HCI-решения, очень похо-жие на продукты Red Hat. Плюс подхода – системы удобные, проверенные на большой базе клиентов американского гиганта. Минус – зависимость от западных разработчиков, опреде-ляющих направления развития продуктов. Перспективным выглядит использование реше-ний в негосударственных компаниях, применявших ПО ушедших с рынка западных вендо-ров.
В основе SDS vStack Storage компании «Итглобалком Рус» лежит файловая система с мене-джером логических томов ZFS. Слой состоит из пулов, которые включают в себя диски каж-дого узла. В каждый момент времени пул работает на конкретном узле кластера. Один из ключевых атрибутов кластера – избыточность, при которой в работе инфраструктуры ис-пользуется больше элементов, чем требуется. Это позволяет обеспечить резервирование. Ес-ли один из узлов выйдет из строя, он будет исключен из кластера. При этом пулы потеряют по одному диску. После этого благодаря процедуре аварийного переключения пул с вышед-шего из строя узла и все работавшие на нем виртуальные машины станут доступны на дру-гом узле. Процедура аварийного переключения ресурсов выполняется автоматически.
Компания «Шаркс Датацентр» разработала платформу SharxStorage – распределенное, линейно масштабируемое блочное хранилище, имеющее высокую производительность и отказоустойчивость. Продукты компании используются преимущественно в решениях для транспортной отрасли федерального масштаба: в облачной платформе транспортно-логистических сервисов на базе «Транстелекома», инфраструктуре федерального оператора электронного пломбирования грузов СОПТ, для оплаты проезда и обеспечения функционирования АСУДД на ЦКАД и трассе М12 ГК «Автодор»..
В рамках конвергентной инфраструктуры может использоваться созданная компанией «СХД Баум» (ранее «СК-СХД») система BAUM Storage AI. В ноябре 2022 г. компания F+ tech (го-ловная структура «Марвел Дистрибуции») купила 49% акций ООО «СК-СХД» и собирается в перспективе занять около 30% российского рынка систем хранения данных.
Из последних новинок – появившееся в ЕРРП летом 2023 г. решение VK Cloud Storage. Типовой заказчик – строящий частное облако сервис-провайдер крупной корпорации. VK Cloud Storage – это коробочное решение, отчуждаемый софт, устанавливаемый в зоне клиента с оплатой за лицензии.
VK предлагает зональные хранилища, ассоциированные с конкретным ЦОДом. Причем разных типов – дешевые на дисках HDD и быстрые на NVMе и SSD. Клиент сам выбирает тип системы хранения и зону доступности. При этом в любой момент он может изменить решение, и VK в живом режиме перенесет его данные на другую систему хранения.
К категории SDS относятся несколько решений VK, включая блочные, файловые (базирующиеся на блочном) и объектные хранилища для платформы x86. Самое востребованное – S3-совместимое объектное хранилище, разработанное еще тогда, когда компания называлась Mail.ru. В нем используются помехоустойчивое кодирование с гарантированной избыточностью, автоматическая балансировка нагрузки между узлами, дедупликация и сжатие. Для ряда нагрузок в объектном хранилище реализован механизм FlashCache.
Среди других вендоров SDS стоит отметить компанию «Рейдикс», которая предлагает российскую программно определяемую СХД для задач, требующих высокой производительности. В частности, СХД на базе RAIDIХ использовалась в качестве хранилища для инфраструктуры HPC национального проекта по обмену академической информацией Academic Cloud – системы из 11 отказоустойчивых кластеров в Центре вычислительных наук института RIKEN (Япония).
vAIR компании «Аэродиск» поставляется как в виде ПО, так и в виде программно-аппаратного комплекса «Аэродиск Machine-V». В ЕРРП входит и поддерживающая систему виртуализации СХД «Аэродиск Восток», реализованная на российских процессорах «Эльбрус». Среди заказчиков компании – Агентство по страхованию вкладов, Росстандарт и Росавтодор.
Зарубежное или отечественное?
Сравним функциональные возможности отечественных и зарубежных решений SDS (табл. 2).
Данные для анализа технических характеристик получены от российских компаний, а недостающие взяты из публичных источников. Для сравнения базового функционала выбраны зарубежная проприетарная система (Dell EMC PowerFlex), оpen source-решение (Ceph) и продукты российских компаний («Рэйдикс», «СХД-Баум» и VK).
Табл. 2. Сравнение базового функционала российских и зарубежных решений SDS
Аналогичную работу проделали для HCI (табл. 3). В качестве образцов для сравнения взяли наиболее популярные до ухода с российского рынка западные решения VMware vSAN и Nutanix, а из российских – «Р-Хранилище», ROSA Virtualization, vAIR от компании «Аэродиск» и vStack.
Табл. 3. Сравнение базового функционала российских и зарубежных решений HCI
С точки зрения базовых функциональных возможностей российские решения в целом выглядят неплохо. Но у экспертов есть претензии к полноте реализации функций, простоте использования и качеству интерфейсов администрирования. Частая проблема конвергентных систем российских разработчиков – отсутствие тесной интеграции между пулами хранения и вычисления, что сказывается на производительности и надежности работы.
Каждому свое
У технологий есть свои ограничения. Ряд экспертов считает, что HCI – это нишевый продукт для однородных легких нагрузок типа виртуальных рабочих мест (Virtual Desktop Infrastructure, VDI), когда создается большое количество одинаковых образов рабочих машин пользователей. Если шаблоны, из которых идут основные запросы на чтение, «размазаны» по хостам, так что локальная копия есть на каждом гипервизоре, то задержки минимальны и скорость чтения хранилища приемлема.
Однако для виртуализированного ЦОДа более типична ситуация работы множества разных машин с различающимися нагрузками. В этом случае лучше выделить в отдельные группы серверы (хосты) для СХД (SDS, SAN или NAS) и виртуальных машин, а такая архитектура уже не может рассматриваться как гиперконвергентная.
Применение SDS для высоконагруженных приложений не всегда успешно. В этом случае целесообразнее ограничиться виртуализацией серверов или использовать невиртуализированную инфраструктуру.
Тем не менее своя ниша у SDS, бесспорно, есть, и системы этого класса будут применяться и дальше. Российские решения, хотя и отстают от западных, в целом обеспечивают основные потребности заказчиков и могут заместить продукты ушедших с рынка зарубежных вендоров.
|