Основы Big data, решение Huawei

Конспект вебинара HonorCup E=DC2 для сдачи HCNA Storage.

Huawei OceanStor 9000 – СХД Huawei для работы с BigData. В основе СХД лежит объектное хранение данных (OBS) с доступом  к объектам через API (S3/swift) и файловая система HDFS (подробнее в статье Big Data). В OceanStor 9000 так же есть поддержка работы как NAS – файловое хранение с поддержкой протоколов NFS, CIFS, FTP (как фича за деньги, судя по слайду). Получается, что в отличии от других СХД Huawei OceanStor (v3), поддерживающих блоковый + файловый тип хранения, этот СХД поддерживает объектный + файловый.

За счет полностью распределенной архитектуры система очень хорошо масштабируется при помощи отдельных узлов (до 288 узлов). Система поддерживает файловые системы размером до 40 петабайт, а скорость восстановления данных до 1ТБ/час. Сценарии применения: Big data типа видеонаблюдения масштаба города (smart city/safe city), онлайн-игры, банки, образование, облака – в общем, везде где есть много данных (более 500 терабайт).

 

В систему помимо классического функционала СХД типа мониторинга, хранения, управления файлами и backup, включены модули по доступу к объектному хранилищу, анализу больших данных и многопоточной обработке Hadoop.

 

Узлы и масштабирование

В общем случае существует два подхода наращивания мощности – добавление дисков (scale-up) и добавление узлов (scale-out или горизонтальное масштабирование). При добавлении дисков в систему мы рано или поздно наталкиваемся на ограничение в объеме дисков в этой системе (СХД) и/или каналу к СХД. При добавлении же узлов (самих СХД) этого ограничения нет. Поэтому в СХД OceanStor 9000 используется именно масштабирование посредством добавления узлов.

Форм фактор узлов OceanStor 9000 бывает разный и вместимость по дискам (2,5/3,5) так же разная. Два типа узлов: высокопроизводительные (P – Perfomance), высокоемкие (C – Capacity). Число означает максимальное количество дисков в одном узле (P12 – максимум 12, С72 – максимум 72). Причем в самой младшей модели используется SAS, затем во всех до C72 NL-SAS и процессор Intel IvyBridge, а в C72 вообще низкоскоростной, но дешевый по объему SATA и процессор Intel Atom. В производительные узлы можно подключать SSD.  Сзади узлы выглядят как обычные СХД. Для кэша контроллеров используются модули NVDIMM (non-volatile-DIMM: DIMM + батарейка + флешка). Количество однотипных узлов в системе OceanStor 9000 должно быть не менее 3. Можно реплицировать данные между высокопроизводительной и высокоемкими системами.

  

 

Сеть и интерфейсы

Подключение: клиенты цепляются к СХД через сеть front-end network. Связь между узлами системы делается через отдельную сеть back-end network, вариации скорости любые (1G/10G Ethernet, 40G infiniband).

Рекомендуется подключение через Huawei свичи 1G (S5300/S5700) и 10G (CE6810). Я думаю, по большому счету, без разницы какие Ethernet свичи, но в случае Infiniband, естественно, нужны специальные Infiniband свичи типа Mellanox.

 

Защита данных

Физически защита данных происходит за счет резервирования узлов. При конфигурировании можно указать уровень избыточности от N+1 до N+4. Математически защита делается не с помощью XOR, как в RAID, а с помощью Erasure code.

 

Балансировка и отказоустойчивость

Система способна перераспределять нагрузку  между узлами.  СХД имеет собственное доменное имя и внутри есть DNS сервер. Балансировка происходит за счет DNS – при подключении по домену раздаются разные IP адреса на основе загрузки узлов (CPU/memory/bandwidth). При поломке узла система переносит IP поломанного узла на другой узел. Для клиентов за счет использования DNS и float IP СХД всегда выглядит как одна система.  Где то я подобное видел –  tp.internet.beeline.ru 😀

 

 

Кэш

Кэш является глобальным между всеми узлами.

Как работает global cache при чтении/записи.

 

Группы узлов

Можно делать отдельные группы узлов используя node pool.

Кроме того СХД дает возможность использовать ее несколькими клиентами путем изоляции данных между разными арендодателями (облачное хранение).

 

Далее была еще куча слайдов, часть я перенес в статью, а часть дублирующихся там просто удалил. Касаются они общих для СХД технологий и в этой статье писать о них смысла нет:

  • Разные типы носителей с динамическим перераспределением между ними данных (SSD/HDD; SmartTier)
  • Квоты
  • WORM – write once read many
  • Snapshot
  • Репликации
  • Восстановление данных (видео)
  • Превентивное чтение связанных файлов
  • Дедубликация данных
  • Мониторинг СХД

 

Вопросы

все вопросы/ответы по теме тут

Leave a Reply