split query processing in polybase - harvard seasdaslab.seas.harvard.edu/classes/cs265/files/... ·...

34

Split Query Processing in Polybase Varun Sriram Frederick Widjaja

Upload: others

Post on 22-Sep-2020

4 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Split Query Processing in Polybase

Varun SriramFrederick Widjaja

Page 2: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Page 3: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Problem: Querying Data in Multiple Formats

Relational “Structured” Distributed File System “Unstructured”

Page 4: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Problem: Querying Data in Multiple Formats

Relational “Structured” Distributed File System “Unstructured”

When do we use each?

Page 5: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Problem: Querying Data in Multiple Formats

Relational “Structured” Distributed File System “Unstructured”

In what situations (if ever) do we need both?

Page 6: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Problem: Querying Data in Multiple Formats“SQL-on-Hadoop”

Native Hadoop systems Database-Hadoop hybrids

Page 7: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Problem: Querying Data in Multiple Formats“SQL-on-Hadoop”

Native Hadoop systems Database-Hadoop hybrids

Why do we need SQL to query each?

Page 8: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Existing Solution: EXTERNAL TABLES

Page 9: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Existing Solution: Hadapt

Page 10: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Hadapt: 2 selects and 1 join

HDFS

DB

Filter

Filter

Join via MapReduce

Join in PostgreSQL

Page 11: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Polybase: PDW Architecture

Page 12: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Polybase: EXTERNAL TABLES

Page 13: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Polybase: Communicating With HDFS

Page 14: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

Polybase USe CASES

Page 15: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

QUERY OPTIMIZATION

SELECT count (*) from CustomerWHERE acctbal < 0GROUP BY nationkey

Table Customer is stored on HDFS

Page 16: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

QUERY OPTIMIZATION

Page 17: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

QUERY OPTIMIZATION

Page 18: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

QUERY OPTIMIZATION

Page 19: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

QUERY OPTIMIZATION

Page 20: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

JOIN ON PDW/HDFS

Perform Join with Map-Reduce Perform Join in PDW

Page 21: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

JOIN ON HDFS/HDFS

Perform Join with Map-Reduce Perform Join in PDW

Page 22: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT GOALS

Page 23: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT GOALS

Is this the right approach?

Page 24: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT QUERY 1

SELECT TOP 10 unique1, unique2, unique4, stringu1, stringu2, string4FROM T1WHERE (unique1 % 100) < T1-SFORDER BY unique1

Table T1 is stored on HDFS

Page 25: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT QUERY 1 - Results

16 node PDW cluster and48 node Hadoop cluster(C-16/48)

30 node PDW cluster and30 node Hadoop cluster(C-30/30)

60 node PDW cluster and60 node Hadoop clusterco-located on the same nodes(C60)

Page 26: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT QUERY 2SELECT TOP 10 T1.unique1, T1.unique2, T2.unique3, T2.stringu1, T2.stringu2FROM T1 INNER JOIN T2 ON (T1.unique1 = T2.unique2)WHERE T1.onePercent < T1-SF AND T2.onePercent < T2-SFORDER BY T1.unique2

“Independent” join of T1 and T2

Page 27: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT QUERY 2

Page 28: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT QUERY 2 - Results

C-16/48 C-30/30 C60

Page 29: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT QUERY 2 - Results

C-16/48 C-30/30 C60

Page 30: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT QUERY 3SELECT TOP 10 T1.unique1, T1.unique2, T2.unique3, T2.stringu1, T2.stringu2FROM T1 INNER JOIN T2 ON (T1.unique1 = T2.unique1)WHERE T1.onePercent < T1-SF AND T2.onePercent < T2-SFORDER BY T1.unique2

“Correlated” join of T1 and T2

Page 31: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT QUERY 3

Page 32: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

EXPERIMENT QUERY 3 - Results

C-16/48 C-30/30 C60

Page 33: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

NEXT STEPS

Page 34: Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · 2019. 5. 13. · Native Hadoop systems Database-Hadoop hybrids Why do we need SQL

NEXT STEPS● Realistic workload experiments comparing to other versions of

database/Hadoop hybrid systems● More investigation into optimal cost-based query optimizers, and what

factors should go into it

Hadoop , Hadoop , Hadoop !!!

Hadoop Present - Open Enterprise Hadoop

Geek Sync I Polybase and Time Travel (Temporal Tables)

HYBRID SQL Server 2016 - AIS Network · Securing secrets—encryption options PolyBase HADOOP ... MapR Couchbase Fujitsu MemSQL VoltDB NuoDB Altibase Neo Technology TmaxSoft Clustrix

SQL Saturday Paris 2015 - Polybase

PolyBase in SQL Server 16 David J. DeWitt Rimma V. Nehme

Deep-Dive into Polybase - Gerhard Brueckl's BI Blog...Deep-Dive into Polybase Big Data for SQL Server 2016 Gerhard Brueckl 08.10.2016 SQLSaturday #555 Munich 2016 Our Sponsors 08.10.2016

Introduction to PolyBase

New features in ASP.NET 5 - Amazon S3 · 2016-04-14 · PolyBase PolyBase allows you to query distributed data sets. With the introduction of PolyBase you will be able to use Transact

Hadoop Training #4: Programming with Hadoop

Deep-Dive into SQL Server Polybasesqlkonferenz.de/files/1_2_1115_Deep Dive into Polybase.pdf · 2019-10-08 · Polybase •Introduction •Setup ... SSIS / Polybase SSRS / Power BI

SQL-on-Hadoop - Data Systems Laboratory @ Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/presentations/sql-on-hadoop.pdfSQL-on-Hadoop Aron Szanto and Jack Dent. Why do we

Hue: The Hadoop UI - Hadoop Singapore

Hadoop Installation Guide | Hadoop Configuration

Hadoop Operations Powered By ... Hadoop (Hadoop Summit 2014 Amsterdam)

SQL Server 2016 - assets.microsoft.com · PolyBase SQL Server Hadoop T-SQL query •Manage structured & unstructured data •Simple T-SQL to query Hadoop (HDFS) •JSON support Quote:

Polybase en SQL Server 2016

Split Query Processing in Polybase - Harvard SEASdaslab.seas.harvard.edu/classes/cs265/files/... · Split Query Processing in Polybase. vs. HDFS SQL. CREATE EXTERNAL TABLE hdfsCustomer

POLYBASE R+ S - Fransylv~Polybase_R__S_-_TDS.pdf · POLYBASE R+ S 3 in 1 prefabricated panel Advantageous thermal value* For cold applied or SBS bitumen system Flameless VOC free

Polybase: What, Why, How

PROFESSIONAL HADOOP® SOLUTIONS - Startseite€¦ · The Hadoop Ecosystem 7 Hadoop Core Components 7 Hadoop Distributions 10 Developing Enterprise Applications with Hadoop 12 Summary

SQL Server 2012 (V2) Parallel Data Warehouse Insights Server 2012 Parallel Data...•Polybase (Hadoop integration) Remote table copy from PDW to SMP • Creating a remote table on

Deeper insights across data with SQL Server 2016download.microsoft.com/download/F/C/2/FC21C981-4351-4434-A78A-3384...Deeper insights across data with SQL Server 2016 | 7 PolyBase PolyBase

SSP APS Laurent Marzouk Data Insight & Cloud Architecth41382. · 100-percent Apache Hadoop SQL Server Parallel Data Warehouse Microsoft HDInsight PolyBase APS delivers enterprise-ready

Hadoop 1.0 vs Hadoop 2.0

Hadoop Hadoop & Spark meetup - Altiscale

Continuous Delivery for Linux/Windows/Hadoop...Beta Cluster Hadoop JobTracker Jenkins Slave Hadoop node Hadoop node Hadoop node Hadoop node Slave Node Gateway Prod. Cluster PigServer

SQL-on-Hadoop - Harvard SEASdaslab.seas.harvard.edu › classes › cs265 › files › presentations › CS2… · The hybrids combine Hadoop scheduling and fault-tolerance with

Trivadis TechEvent 2016 Polybase challenges Hive relational access to non-relational HDFS by Olaf Nimz

Distributed Logging for Transaction Processing - Harvard SEASdaslab.seas.harvard.edu/reading-group/papers/distributed-logging.pdf · Distributed Logging for Transaction Processing

2. Hadoop - lsd.ls.fi.upm.eslsd.ls.fi.upm.es/nuevas-tendencias-en-sistemas-distribuidos/Hadoop_… · Hadoop Hadoop Software Ecosystem Hadoop MapReduce Hadoop Distributed File System

Hadoop Deployment Manual - Hyadespleiades.ucsc.edu/doc/bright/hadoop-deployment-manual.pdf2.2 Ncurses Installation Of Hadoop Using cm-hadoop-setup ... •The Hadoop Deployment Manual

Sponsorzy strategiczni Sponsorzy srebrni. PolyBase – data beyond tables Hubert Kobierzewski

Hadoop Trends & Hadoop on EC2

Curso Hadoop. FcoJavierLahozSevilla v1.0.pdf · Introducción+a Hadoop. InstalaciónenAWS • Parte+1.+Introducción+a Hadoop+ – ¿Que+es+Hadoop?+ – Versionesde+Hadoop+ – Gesón