美团技术沙龙03 - 实时数据仓库解决方案
Post on 16-Apr-2017
1.181 views
TRANSCRIPT
![Page 2: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/2.jpg)
大纲
Ø 案例:实时数据运营
Ø 实时计算平台
Ø 实时数据仓库
Ø 应用:RtDW直播间
Ø 经验总结
Ø 未来规划
![Page 3: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/3.jpg)
大纲
Ø 案例:实时数据运营
Ø 实时计算平台
Ø 实时数据仓库
Ø 应用:RtDW直播间
Ø 经验总结
Ø 未来规划
![Page 4: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/4.jpg)
什么是运营
• 运营就是一切帮助产品推广、使用、认知的
手段。
• 三个元素:产品,用户,渠道;
• 运营目标:营收,扩大用户群,用户活跃度;
• 运营要关注成本和产出,ROI,投资回报率;
• 运营必须目标导向,数据为基础;
![Page 5: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/5.jpg)
运营需求
��
���� ���
�� ��� �
� ��
![Page 6: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/6.jpg)
运营需求
![Page 7: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/7.jpg)
大纲
Ø 案例:实时数据运营
Ø 实时计算平台
Ø 实时数据仓库
Ø 应用:RtDW直播间
Ø 经验总结
Ø 未来规划
![Page 8: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/8.jpg)
数据处理系统
ApplicationDB
Flume Agent
Flume Collector
Canal
Kafka
��Hadoop���������
���
�����
�����
��� ����������
Nginx
Flume Agent
App
���� ��������
![Page 9: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/9.jpg)
实时计算平台
Flume Canal Binlog
� ��
����
Kafka
org binloglog app
Storm
LogParserTopology
AppTopology
Batch HBase
������
State Redis
Dim RedisStorm
![Page 10: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/10.jpg)
实时计算平台功能特性
• 开发
ü 测试开发平台;
ü 简单易用的拓扑框架;
ü Input/Dim/State/Output等一体化的解决方案;
• 服务
ü 延迟统计;
ü 依赖关系解析;
ü 报警服务;
ü 资源分组隔离;
![Page 11: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/11.jpg)
大纲
Ø 案例:实时数据运营
Ø 实时计算平台
Ø 实时数据仓库
Ø 应用:RtDW直播间
Ø 经验总结
Ø 未来规划
![Page 12: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/12.jpg)
例子:需求场景
, ,
![Page 13: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/13.jpg)
例子1
• 统计每个城市当天销售额
,,
Bolt_Join_Dimcity_id, money
Bolt_Aggrcity_id: SUM(money)
Statecity_id_20151125: xxx
![Page 14: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/14.jpg)
数据仓库架构 ODS�
Fact Dim
ETL��
ETL��
Summary
��
ODS
��� Dim
Fact+Dim
��� State
DB:Summary
���
DB:Fact+Dim
�����
����
![Page 15: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/15.jpg)
实时数据仓库区别
• 将事实和维度的Join前置到清洗阶段;
• 由于实时处理的低延时要求,维度Dim和状
态需要在内存中访问;
• 由于当天的数据量有限,Fact+Dim可以存
入DB中,支持展示时临时聚合;
• 实时数据展示区别于报表展示,需实时更
新;
![Page 16: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/16.jpg)
实时数据仓库
RedisHBase
Storm
Kafka .
Kafka.Fact
binloglog
rtdw.order
StormRtdw State
�����
��
Dim
RtdwSync RtdwSync
MySQL
Dim
rtdw.deal rtdw.poi rtdw.user
/MySQL/Redis/HBase
App
MySQL.RtDW
RtDW
Batch
Hive
Batch
����
���
![Page 17: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/17.jpg)
例子2
• 按Deal,From,City等维度统计当天销售额
, ,
Bolt_Join_Dimuser_id, deal_id,
order_id, city_id, money
Bolt_Join_Dimuser_id, deal_id,
order_id, from
user_id, deal_id, order_id, city_id, from, money
![Page 18: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/18.jpg)
策略-明细数据生产方案
ü 适合事实(Fact)数据清洗,
如订单数据;
ü 通过DimRedis支持Join维
度数据;
ü 通过数据库,支持多Fact
流Join,数据按天切表;
ü 支持需要二次聚合,如按
时间段统计订单量;
Fact
Dim
Fact
Key Part A Part B
![Page 19: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/19.jpg)
策略-聚合数据生产方案
ü 适合按维度统计,如按
Deal/POI统计结果;
ü 通过DimRedis支持Join维
度数据;
ü 利用StateRedis支持聚合;
ü 将聚合最终结果写出,而
不是增量结果;
Fact
Dim
Key Part A
State
![Page 20: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/20.jpg)
策略-维度数据统一建设
Fact���
������
������
� ��
Dim���
Fact���
������
������
� ��
![Page 21: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/21.jpg)
策略-状态数据存储
��������
��������
��������State��
State Reids Cluster
State Redis Cluster
State Redis Cluster
![Page 22: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/22.jpg)
例子3
• 实时统计新客
Bolt_Cal_Newbuyeruser_id, order_id
Hive ,user_id, order_id
HBasenewbuyer_batch
HBasenewbuyer_rt
![Page 23: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/23.jpg)
策略-去重
• 小数据量去重:利用Redis State的Set功能;
• 如:求Deal当天的UV;
• 大数据量精确去重:利用HBase的Key去重;
• 如:美团的新客计算;
• 大数据量约数去重:利用Redis State的
HyperLogLog算法;
![Page 24: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/24.jpg)
实时数据仓库现状
![Page 25: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/25.jpg)
实时数据仓库应用
• 大屏幕展示;
• 数据挖掘和筛选;
• 业务系统监控和预警;
• RtDW直播间:实时数据化运营;
![Page 26: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/26.jpg)
大纲
Ø 案例:实时数据运营
Ø 实时计算平台
Ø 实时数据仓库
Ø 应用:RtDW直播间
Ø 经验总结
Ø 未来规划
![Page 27: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/27.jpg)
RtDW直播间
• 运营和销售
• 实时指标和维度
• 定制化
• 丰富的展现
![Page 28: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/28.jpg)
RtDW直播间
![Page 29: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/29.jpg)
RtDW直播间
![Page 30: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/30.jpg)
大纲
Ø 案例:实时数据运营
Ø 实时计算平台
Ø 实时数据仓库
Ø 应用:RtDW直播间
Ø 经验总结
Ø 未来规划
![Page 31: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/31.jpg)
经验总结
• 仅实时化重点需求;
• Dim和State统一维护;
• 明细数据需求,基于DB,按天切表,临时
聚合;
• 实时和离线统计口径的一致性;
• 历史数据的重要性;
• 修补数据的方案的重要性;
![Page 32: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/32.jpg)
大纲
Ø 案例:实时数据运营
Ø 实时计算平台
Ø 实时数据仓库
Ø 应用:RtDW直播间
Ø 经验总结
Ø 未来规划
![Page 33: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/33.jpg)
未来规划
• 实时和离线计算逻辑统一;
• 高可靠数据解决方案;
• 开放共建实时数据仓库;
• …
![Page 34: 美团技术沙龙03 - 实时数据仓库解决方案](https://reader030.vdocuments.net/reader030/viewer/2022012304/5873a65f1a28aba3548b4f53/html5/thumbnails/34.jpg)