spark overview (18.06.2015)

1 © 2015 IBM Corporation

Всеволод Грабельников, in/vsgrab

Андрей Орлов, in/andreyorlov

© 2015 IBM Corporation

Введение в Apache Spark

Всеволод Грабельников ([email protected])


Предисловие

MPP

Spark

DBMS

Flink

Spark это shared nothing MPP движок реализующий

архитектурные концепций, которые были ранее реализованы в

параллельных СУБД (DB2 DPF, Teradata, Netezza и.т.п.)

DB2

DataFlow

Netezza


Предисловие

Основная польза от Spark:– Точно так же, как в конце 70-х СУБД (и MPP СУБД)

облегчили написание, а главное выполнение запросов,

Spark позволяет разработчикам и аналитикам

упростить написание приложений для распределенной

обработки данных• Разработка приложений происходит на «более высоком»

уровне абстракции, благодаря RDD (Resilent Distributed Dataset)

• Система заботится о производительности Эффективно использует память (Bufferpools, Кеширование RDD в

памяти)

Управляет подчиненными процессами-агентами (subagents in

DBMS, Executors in Spark)

• Позволяет выполнять интерактивные запросы (spark-shell)

– Поддерживает различные нагрузки (SQL, Streaming,

Machine Learning, Работа с графами)


Кое-что о развитии Spark


Apache Spark – система для обработки больших данных– Скорость

• Использует распределенный in-memory

кэш

• Быстрее чем Map-Reduce

– Система общего назначения

• Позволяет обрабатывать разные задачи

• SQL, streaming (потоки),

сложная аналитика, графы

– Гибче и проще чем Map Reduce

• Spark написан на Scala

• Scala, Python и Java APIs

• Scala и Python интерактивные оболочки

• Работает на Hadoop, Mesos, автономно и

в облаке

Логистическая регрессия на Hadoop и Spark

from http://spark.apache.org


Коротко об истории Spark

2002 – MapReduce @ Google

2004 – MapReduce paper

2006 – Hadoop @ Yahoo

2008 – Hadoop Summit

2010 – Spark paper

2014 – Apache Spark top-level

2014 – 1.2.0 release in December

2015 – 1.3.0 release in March

Spark популярен!!!

Самый активный проект среди

Hadoop - экосистемы

Один из 3 наиболее активных

проектов Apache

Databricks - компания,

основанная создателями

Spark работавшими в UC

Berkeley AMPLab

Activity for 6 months in 2014

(from Matei Zaharia – 2014 Spark Summit)


Spark в экосистеме Hadoop

На текущий момент SPARK - подсистема, которая интегрируется

с YARN (управляет ресурсами кластера) вместе с другими

подсистемами

YARN

HDFS

Map/

Reduce 2

Hive Pig SparkHbase BigSQL Impala

Slider Llama


Spark в экосистеме Hadoop

Spark достаточно универсален и гибок:– Работает поверх YARN / HDFS, автономно и с MESOS

– Способен обрабатывать разные задачи:SQL, streaming (потоки),

машинное обучение и сложная аналитика, графы


Spark: немного деталей


Схема работы Spark

SparkContext

Driver ProgramCluster Manager

Worker Node

Executor

Task Task

Cache

Worker Node

Executor

Task Task

Cache

App

Каждое приложение на Spark выполняется как набор процессов,

координируемый Spark context object (driver program)– Spark context соединяется с Cluster Manager (автономным, Mesos/Yarn)

– Spark context получает executor (JVM instance)

на рабочих узлах (worker node)

– Spark context посылает задания для executor’ов


RDDs неизменяемы– Модификации создают новые RDDs

Содержит ссылки на партиционированные объекты

Каждая партиция (=секция) - подмножество общих данных

Секции назначаются

узлам в кластере

Секции находятся в

памяти (по-умолчанию)

RDDs помнят свою

«родословную»

Resilient Distributed Dataset (RDD)

Partition

Memory

partition

Partition

Partition

Partition

Memory

partition

Memory

partition

Memory

partition

RDD

Array


Spark Programming Model

Операции с RDDs (datasets)– Transformation

– Action

Трансформации используют lazy evaluation– Выполняется только в тот момент, когда операция с типом Action в этом

нуждается

Приложение состоит из ориентированного ациклического графа

(directed acyclic graph = DAG)– Каждый action превращается в отдельный JOB

– Параллелизм определяется числом RDD секций

RDD1 RDD2 RDD3

Act1

Act2

Job-1

Job-2


Spark Shells Большим преимуществом Spark является возможность

интерактивного анализа с помощью специальных оболочек.– Аналог в СУБД: SQL*Plus (Oracle), sqlcmd (MS SQL), nzsql (Netezza).

– Spark поддерживает интерактивные оболочки Scala и Python shell

<Scala

Python>


Code Execution (1)

// Create RDD

val quotes =

sc.textFile("hdfs:/sparkdata/sparkQuotes.txt")

// Transformations

val danQuotes = quotes.filter(_.startsWith("DAN"))

val danSpark = danQuotes.map(_.split(" ")).map(x =>

x(1))

// Action

danSpark.filter(_.contains("Spark")).count()

DAN Spark is cool

BOB Spark is fun

BRIAN Spark is great

DAN Scala is awesome

BOB Scala is flexible

File: sparkQuotes.txt

‘spark-shell’ provides Spark context as ‘sc’


Code Execution (2)

// Create RDD

val quotes =


// Transformations



x(1))

// Action


DAN Spark is cool

BOB Spark is fun




File: sparkQuotes.txt RDD: quotes


Code Execution (3)

// Create RDD

val quotes =


// Transformations



x(1))

// Action


DAN Spark is cool

BOB Spark is fun




File: sparkQuotes.txt RDD: quotes RDD: danQuotes


Code Execution (4)

// Create RDD

val quotes =


// Transformations



x(1))

// Action


DAN Spark is cool

BOB Spark is fun




File: sparkQuotes.txt RDD: quotes RDD: danQuotes RDD: danSpark


Code Execution (5)

// Create RDD

val quotes =


// Transformations



x(1))

// Action


DAN Spark is cool

BOB Spark is fun




File: sparkQuotes.txt

HadoopRDD

DAN Spark is cool

BOB Spark is fun




RDD: quotes

DAN Spark is cool


RDD: danQuotes

Spark

Scala

RDD: danSpark

1


Direct Acyclic Graph (DAG)

Посмотрим «план запроса»

Или перепишем в 1 строку

scala> danSpark.toDebugString

res1: String =

(2) MappedRDD[4] at map at <console>:16

| MappedRDD[3] at map at <console>:16

| FilteredRDD[2] at filter at <console>:14

| hdfs:/sparkdata/sparkQuotes.txt MappedRDD[1] at textFile at <console>:12

| hdfs:/sparkdata/sparkQuotes.txt HadoopRDD[0] at textFile at <console>:12

val danSpark = sc.textFile("hdfs:/sparkdata/sparkQuotes.txt").

filter(_.startsWith("DAN")).

map(_.split(" ")).

map(x => x(1)).

.filter(_.contains("Spark"))

danSpark.count()


SparkSQL


IBM анонсирует свою стратегию

по интеграции приложений и

улучшению Apache® Spark™

Наиболее важный Open Source проект с точки зрения IBM


Передача в Open Source SystemML

Обучение 1 Миллион Data Professionals

Открываем Spark Technology Center ~ 300 разработчиков

Основатель и спонсор AMPLab

Коммиты в Ядро проекта

Анонс IBM


SystemML – набор параллельных алгоритмов

Позволяет создавать свои собственные алгоритмы

Помогает data scientist сосредоточиться на написании алгоритма, а

не его имплементации

Ускоряет достижение результата для аналитиков

Передача SystemML в open source


Big Data University MOOC

Spark Fundamentals I and II

Advanced Spark Development series

Foundational Methodology for Data Science

Партнерство с Databricks, AMPLab, DataCamp и MetiStream

Курсы для обучения Data

Scientists и Data Engineers


Помощь заказчикам в адаптации технологий на основе Spark

Коммиты в проект

Создание обучающих курсов

Развитиеинтеграции продуктов IBM со Spark

Центр технологий Spark


Экосистема партнеров


Spark и платформа для аналитики IBM

Spark

Discovery & Exploration

ContentAnalytics

Prescriptive Analytics

Streaming Analytics

Business Intelligence & Predictive Analytics

DataManagement

ContentManagement

HadoopSystems

DataWarehousing

Information Integration & Governance

Apache Spark as a Service on IBM Bluemix (beta)

IBM Open Platform with Apache Hadoop может

использовать Spark как альтернативу MapReduce;

поддерживает все компоненты Apache Spark

Модули IBM BigInsights будут поддерживать Spark

Интеграция Spark моделей в IBM Streams

Java Code написанный для Spark работает в IBM Streams

Spark & IBM Streams могут работать на 1 кластере

Hadoop Systems

Streaming Analytics


Сейчас

IBM Open Platform with Apache

Hadoop

IBM InfoSphere Streams

IBM Platform Computing

Использование Spark в IBM

Планы на текущий год

Apache Spark as a Service on IBM Bluemix (in beta)

IBM Watson Analytics

SPSS Modeler & Analytics Server

IBM DataWorks

IBM PureData Systems (Netezza) with Fluid Query

IBM Commerce


Discover Сайт IBM Big Data Hub хаб новостей про большие данные

Learn Курс “Spark Fundamentals” в Big Data University

Try Spark Бета-программа Spark в облаке IBM Bluemix www.spark.tc/beta

Try Spark with Hadoop Скачать Hadoop IBM.com/Hadoop

Engage IBM Spark Technology Center www.spark.tc

Converse #SparkInsight

Напоследок:

http://www.ibmbigdatahub.com/

http://bigdatauniversity.com/bdu-wp/bdu-course/spark-fundamentals/

http://www.spark.tc/beta

../../../Documents/2015 IBM Analytics/02 - Events/06 - Jun 15 - Spark Sigmo/Seller Viewing Parties/IBM.com/Hadoop

http://www.spark.tc/