hadoop on openstack
DESCRIPTION
- Sahara как инструмент запуска и управления программным обеспечением для хранения и обработки больших массивов данных (Hadoop) на облаках под управлением OpenStack; - Общий обзор проекта Sahara, его ключевые возможности и архитектурные аспекты; - Варианты использования Sahara.TRANSCRIPT
![Page 1: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/1.jpg)
© MIRANTIS 2013 PAGE © MIRANTIS 2013
Sahara - Hadoop on OpenStack
Александр Игнатов
![Page 2: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/2.jpg)
© MIRANTIS 2013 PAGE
Содержание
•Обзор проекта
•Архитектура и ключевые возможности
•Варианты использования
![Page 3: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/3.jpg)
© MIRANTIS 2013 PAGE
OpenStack Data Processing - “Sahara”
Предназначен для обеспечения масштабируемого стека обработки данных и связанных с ними интерфейсами управления.
• Ключевые возможности:• Запуск и управление Hadoop кластерами на
OpenStack• Интеграция с различными Hadoop
дистрибутивами и инструментами• Запуск и управление Hadoop задачами
![Page 4: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/4.jpg)
© MIRANTIS 2013 PAGE
Текущее состояние проекта
•Incubated в релизе Icehouse (17 Апр)•Integrated в релизе Juno и последующих релизах
•Входит в состав Mirantis OpenStack•Покрытие OpenStack Tempest тестами•Тестирование на инфраструктуре сторонних компаний
![Page 5: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/5.jpg)
© MIRANTIS 2013 PAGE
Текущее состояние проекта (прод.)
•Основные компании-участники•Mirantis•Red Hat•Hortonworks
•Поддерживаемые Hadoop дистрибутивы•Vanilla Apache Hadoop - v1 & v2•Hortonworks Data Platform - v1 & v2•Cloudera и Spark в разработке
![Page 6: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/6.jpg)
© MIRANTIS 2013 PAGE
Архитектура
PythonSahara Client
RE
ST
AP
I
Horizon
Keystone
Auth
DAL
Nova|Heat|Cinder
Glance
Swift
Sahara Pages
HadoopVM
Vendor Plugins(Vanilla, HDP, ...)
HadoopVM
HadoopVM
HadoopVM
ProvisioningEngine
ImageRegistry
Sahara EDP
![Page 7: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/7.jpg)
© MIRANTIS 2013 PAGE
Основные возможности - Кластеринг
• Запуск и управление кластерами:• Шаблоны для конфигурации
кластера• REST API для запуска и управления• Масштабировние кластера• Обеспечение надежности HDFS• Управление расположением HDFS• Интеграция с Swift
• Управление кластером через Horizon UI
• Механизм плагинов для работы с разными дистрибутивами Hadoop
![Page 8: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/8.jpg)
© MIRANTIS 2013 PAGE
Топологии кластера
![Page 9: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/9.jpg)
© MIRANTIS 2013 PAGE
Шаблон NodeGroup
Определяет:
• Hadoop процессы
• Конфигурации процессов
• Тип расположения HDFS
• OpenStack ресурсы
![Page 10: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/10.jpg)
© MIRANTIS 2013 PAGE
Шаблон кластера
Определяет:
• Конфигурацию кластера
• Топологию кластера
• Кол-во виртуальных
машин в каждой группе
![Page 11: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/11.jpg)
© MIRANTIS 2013 PAGE
Надежность HDFS в облаке
Гипервизор 1
DN DN
DN
DN DN
DN
Блок данных
Гипервизор 2
![Page 12: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/12.jpg)
© MIRANTIS 2013 PAGE
Надежность HDFS: anti-affinity
DN
Гипервизор 1
TT | DN DN
Гипервизор 3
DN
Cluster ACluster B
DN
DN
Гипервизор 2
![Page 13: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/13.jpg)
© MIRANTIS 2013 PAGE
Надежность HDFS: hypervisor-awareness
DNDN DNDN DNDN
Блок данныхHDFS
Гипервизор 1 Гипервизор 2 Гипервизор 3
![Page 14: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/14.jpg)
© MIRANTIS 2013 PAGE
Надежность HDFS: Swift интеграция
Swift
HadoopJob #1
HDFSHadoopJob #2
...HadoopJob #N
входные даннные
выходные данные
![Page 15: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/15.jpg)
© MIRANTIS 2013 PAGE
User
Плагины1.1 дай параметры
3.1 добавь/удали ноды
2 запустить кластер
2.2 запусти кластер
1 запрос параметровплагина
Sahara
Плагин
2.1 проверь параметры кластера
3 добавить/удалить ноды
2.3 конфигурация
2.4 запуск сервисов2.5 запуск сервисов
3.2 конфигурация
3.3 запуск сервисов
![Page 16: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/16.jpg)
© MIRANTIS 2013 PAGE
Основные возможности - EDP
• Elastic Data Processing - API для выполнения MapReduce задач (аналог AWS EMR)• Источники данных: Swift, HDFS,
Ceph*• Типы задач: Jar, Pig, Hive
• Oozie для управления MapReduce
задачами
• Поддержка Hadoop 1 & 2 в EDP
• Выполнение задач на временных
кластерах
![Page 17: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/17.jpg)
© MIRANTIS 2013 PAGE
?
EDP. Шаг 1 - DataSources
swift://some_container/INPUTswift://some_container/OUTPUT
Swift
Sahara EDP
INPUT OUTPUT
![Page 18: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/18.jpg)
© MIRANTIS 2013 PAGE
EDP. Шаг 2 - Job Binaries
Swift
Sahara DB
1. Pig, Hive скрипты2. Исполняемые Jar файлы3. Подключаемые библиотеки
Sahara EDP
swift://some_container/script.pig
sahara-db://mapreduce.jar
![Page 19: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/19.jpg)
© MIRANTIS 2013 PAGE
EDP. Шаг 3 - Job Execution
Sahara
Swift
INPUTOUTPUT
DB: Jar, Pig
EDP
Jar, Pig
JobTrackerVM
Oozie VM
HadoopVM
HadoopVM
HadoopVM
workflow.xm
l
1. Параметры MR задач
2. URL в HDFS до исполняемых файлов и библиотек
3. URL для INPUT и OUTPUT
4. Учетные данные
Data Processing
![Page 20: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/20.jpg)
© MIRANTIS 2013 PAGE
Основные возможности - интеграция с OpenStack
• Интеграция с Neutron и Nova-Network
• Keystone trusts для асинхронных
операций
• Python клиент и CLI
• Интеграция с другими компонентами:• Heat• DevStack• Tempest
![Page 21: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/21.jpg)
© MIRANTIS 2013 PAGE
Варианты использования
Dev и QA
• Быстрое разворачивание кластера по требованию
• Увеличение гибкости и скорости инноваций
• Управляемый доступ к данным в “продакшене”
![Page 22: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/22.jpg)
© MIRANTIS 2013 PAGE
Варианты использования (продложение)
Analytics Use Cases
• Упрощенное выполнение задач - сложность поднятия и управления кластером скрыта “под капотом”
• Выпоняемые Hadoop задачи требуют значительных ресурсов только для короткого периода времени
• Использование свободных мощностей IaaS для Hadoop задач
![Page 23: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/23.jpg)
© MIRANTIS 2013 PAGE
Варианты использования (продолжение)
Administrators Use Cases
• Единая точка контроля за инфраструктурой
• Возможность выбора диструбитвов от разных вендоров для одних и тех же задач
• Интеграция со сторонними инструметами:o Ambari от Apache/HortonWorkso Cloudera Management Console
![Page 24: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/24.jpg)
© MIRANTIS 2013 PAGE
Планы на Juno релиз
• Различные улучшения EDP• новые типы задач• новые источники данных
• Новые плагины (Cloudera, Spark)
• Поддержка Ceph
• Установка на голое железо
![Page 25: Hadoop on OpenStack](https://reader036.vdocuments.net/reader036/viewer/2022081508/55878f08d8b42a3b5d8b46ac/html5/thumbnails/25.jpg)
© MIRANTIS 2013 PAGE
Q&A