腾讯大数据之...
TRANSCRIPT
腾讯大数据之--实时精准推荐
腾讯-TEG-数据平台部
肖磊
大数据特点及应用领域
海量数据
PB级
数据种类
繁多
价值密度低
商业价值高
处理速度
更快
数据挖掘 数据分析
数据仓库 数据安全
大数据定义特点 大数据关键领域
议程
腾讯大数据系统架构
腾讯大数据应用-实时精准推荐
TDW 分布式数据仓库
实时查询
腾讯大数据系统架构
TRC 实时计算平台
TPR 精准推荐平台
Hive&Pig&IDE Hadoop
Lhotse
Gaia
TDBank数据实时采集
TDProcess流式计算
TDEngine分布式存储
1
2
3 算法库 Spark DNN深度学习模型
Hbase TDSI
TDW 分布式数据仓库
Hive / Pig查询处理引擎
Lhotse任务统一调度集成开发环境 IDE
计算引擎 MapReduce
存储引擎 HDFS
HADOOP集群
TD
Ban
k
数据采集
PG小数据处理
HBase实时查询
资源调度和管理 Gaia
自主研发的腾讯分布式数据仓库,支持百PB级的数据存储和计算,为公司产品提供海量、高效、稳定的大数据离线计算平台支撑和决策支持。
服务器 5000+台
CPU 100,000+核
内存 300+ TB
磁盘 70,000+块
存储容量 100+PB
每天Job数 1,000,000+
每天扫描数据量 6+ PB
存储利用率 80%+
CPU利用率 90%+
网络利用率 90%+
TDW 分布式数据仓库
TRC 实时计算平台
实时消息采集
流式数据计算
实时数据访问
TDBank TDProcess TDEngine
实时接入 流式计算 存储引擎
系统
监控
数据
分析
精准
推荐
基于在线消息流计算模型, 对海量数据进行实时计算处理
1-2s 采集平均时延 99.99% 可用度
500bn+ 最高日接入消息条数 1Trillion
1.5 Trillion 每天多维度交叉计算量
50ms 每次请求的时延
2bn+ 每秒应用引擎访数据次数
30bn 每天支撑推荐请求量
TRC 腾讯实时计算平台
TPR 精准推荐平台
以人为核心的个性化数据挖掘,提供“海量、精准、实时”
的个性化精准推荐服务
实时推荐系统接口
TDBank实时采集
TDProcess流式计算
TDEngine分布式存储引擎
Online Rec Engine实时推荐引擎
推荐系统接口
Hina系统
TDW
实时查询
老架构 – 天级 新架构 – 分钟级
TDW
Spark
2 亿+ 视频精准推荐量/天
1.5亿+ 电商精准推荐量/天
1 亿+ 新闻精准推荐量/天
150亿 + 效果广告精准推荐量/天
TPR 腾讯精准推荐平台
议程
腾讯大数据系统架构
腾讯大数据应用-实时精准推荐
用户画像为核心基础
以效果广告为代表的精准营销
以视频推荐为代表的相关推荐
以电商推荐为代表的效果推荐
QQ好友,微博等关系链推荐
QQ秀,APP应用类推荐
Tips定向推荐…
腾讯实时精准推荐实例
推荐系统关键点
数据
算法
系统 推荐引擎
用户
物品场景
人口属性(年龄,性别,学历…)
其他(搜索、付费、设备imei…)
用户画像
社交属性(QQ,qzone、朋友关系链…)
内容偏好(腾讯网,视频,微博)
电商兴趣(网购、拍拍、
易迅…)
游戏爱好(游戏时长、付费…)
数据-用户数据
• 8亿 月活跃用户数8亿
• 40亿 日均用户行为40亿次以上
• 100亿+ 单产品日均请求百亿量级
• 1000亿+ 用户关系链累积千亿量级
• 15000亿 日均支撑多维度交叉计算量
• …
格式多样
• 结构化数据 文本 图像 音频 视频 …
数据-场景
推荐位置变量:PC页面、客户端、无线侧
环境变量:雾霾、下雨、紫外线
时间变量:早中晚、周末、假日
空间变量:LBS数据
其他变量:实时行为、状态 …
推荐本质上是一种个性化排序
Ranking= scoring+sorting+filtering
特定场景如效果广告,排序准确+预测值精准
AD Ranking = scoring+PCTR+filtering
ECPM=CTR*CPC
指导思想:针对不同的推荐场景,基于不同的数据采用不同的算法策略
算法-简介
挑战-精准投放1 ‰ 用户-物品的评价/行为矩阵过于稀疏,密度千分位,甚至更低
1-3 用户看到推荐物品的曝光机会仅有1-3次/天
10,000 + 通常单个推荐位可投物品在10万级别以上
3-9 以效果广告为例,大部分推荐素材对应的的生命周期仅有3-9天左右
50 单次推荐请求控制时间50ms以内
10,000 + 通常单个推荐位可投物品在10万级别以上
10 bn+ 日均推荐请求量可达100亿次+
应对高性能的学习算法:分布式并行的LR,邻域CF,MF等算法
场景定制化的用户画像和物品特征提取
大数据对算法的挑战
算法示例 – Logistic Regression
特征构成
模型训练Spark上的分布式并行的高维LR算法支持高维特征+大训练数据集15分钟增量更新线上模型
用户基本属性,行为属性、兴趣标签..
用户
推荐位
位置特征信息...
物品
Tag、图像特征、类目、行业..
是否点击
1,0
+ + =+其他
上下文
LBS,时间,节假日,天气...
实时动态反馈特征
多粒度点击率,转化率
曝光次数
点击次数…
用户画像行为属性兴趣标签 …
项目,推荐位ID
项目特征信息推荐位特征信息 ...
时间LBS
天气节假日…
大数据对系统的挑战
CPU&IO密集
高吞吐率
低延迟
线性扩展
柔性
低成本
……
TDBank日接入消息平均1000+亿
平均采集延迟1-2秒
TDProcess日计算量10000+亿
秒级延迟
TDE存储量3T
毫秒级延迟
实时推荐引擎日请求100+亿
日推荐计算10000+亿
推荐延迟50ms以内
模型推送延迟分钟级
Recommender Interface
TDBank实时采集
TDProcess流式计算
TDEngine分布式存储引擎
Online Rec Engine实时推荐引擎
TDW
Spark
系统-实时精准推荐平台
实时全流程数据驱动的实时推荐
智能基于时序演进的智能推荐提取新特征的跨界推荐
移动融入LBS、体感等数据的移动场景推荐
未来发展方向初探
2011 2012 March 3 days 1 hour 1 Mins
实时-数据实时化示例
腾讯实时用户画像
-8亿 用户-10亿 + 交互行为-1000亿+ 关系链
数据流式处理 模型实时更新 数据实时化实时推荐
10%+
实时-全流程实时推荐价值
智能-基于时序演进的智能推荐
用户兴趣时序演变
• 传统推荐系统多侧重于当前时点的即时静态预测
• 智能推荐是预测用户未来一段时间的潜在需求并在适宜的时间给予用户精准推荐。
--Collaborative Evolution for User Profiling in Recommender Systems
智能-基于时序演进的智能推荐
时序模型示例
预测
智能-基于时序演进的智能推荐
Long-tail User
Different Time Intervals
• 都是女裙美图,结果不同
1.1% CTR 0.21% CTR
584W Imp 654W Imp
智能–提取新特征的跨界推荐
智能-提取新特征的跨界推荐•特征提取:CNN+DNN整体训练
•与LR融合:两种方式–1) Ensemble方式–2) 加特征方式,解决性能问题
•抽取其中CNN层输出的图像特征,加入LR
X1图片像素
X2:用户特征物品特征
X2:图像亮度、对比度等
CNN
DNN
Y2: Click ratio
抽取的图像特征
跨界模型学习-基于GPU单机多卡并行的DNN系统结构
•mini-batch结束
时:同步,参数交换
•Cache结束时:
同步,交换helper sum
智能-提取新特征的跨界推荐
-手机/可穿戴设备/APP/电商系统
-LBS数据/体感数据/用户关系链数据/交易数据
移动-融入LBS、体感等数据的移动场景推荐
Social Group Behavior: Analysis and Applica6on
Paul He(贺鹏) Data Center, SNG, Tencent
Interna6onal Conference on Machine Learning (ICML2014)
Workshop
Introduc6on: User Behavior Predic6on
• User behavior predic6on is fundamental problem – Recommender systems. – Informa6on retrieval.
• User behavior predic6on methods – Based on user historical behavior (Time series). – Based on the similar user behavior (Probability model & Associa6ve rules). – Based on social rela6onships & social group.
Introduc6on: Social Group Behavior
• Goal: – Predic6ng individual behavior based on group behavior predic6on.
• Based on : – Homophily & Social Influence. – Group members share similar traits and are likely to behave in the same way.
Outline
• Group detec6on. • Group behavior analysis
– Finding social groups which have homogeneous behavior. – Finding group members who behave in the same way.
• Group behavior predic6on – Finding a new popular item in a group and recommending the item to a right user in a given context.
Part I : Group Detec6on in Tencent Social Network
Social Network Data of Tencent PlaVorm
• Nodes 80M+,Links 100B+. • Different types of friendships:
– Offline & Online. – Current & Past.
Separa6ng Various Social Networks
current offline network
past offline network
current online network
past online network
• Challenges: – Different types of social network are mixed together. – However, different types of social networks have different characteris6cs.
social network (A snapshot)
Loca6on Based Social Network (LBSN)
• Loca6on bridges the gap between the physical world and online social network.
• LBSN maps offline social network. • Human mobility analysis + Community detec6on.
Real World Group Detec6on • Hierarchical group detec6on. • Group detec6on based on user interests and behaviors.
Interest groups
Part II : Group Behavior Analysis Based on App Propaga6on
Social Apps
• A social App named “TianTianKuPao”. • Users can invite friends to play and compete with each other.
Mining the Groups with High App Adop6on Rate • Adop6on rate of different groups are not evenly distributed. • The groups of high adop6on rate have homogeneous behaviors.
Target groups
What Characteris6cs Do the Groups with Homogeneous Behavior Have?
• Choosing loca6on based groups of different sizes. • Classifying groups into 3 types of app coverage: Top, Middle and Tail. • Analyzing the characteris6cs of these 3 types of groups
– Group members’ info, Group structure, Group behaviors, etc.
Who Has a Higher Acceptance of Innova6on?
• Choosing groups of two sizes (10-‐15 & 30-‐50). • In each size, choose groups with the app adop6on rate >70% .
• Classifying members into 4 types: Pioneers, Followers, Stragglers and Resisters. • Analyzing the characteris6cs of these 4 types of members.
Part III : Predic6on of group behavior and applica6on
Predic6ng Group Behavior for a New App
• To find out groups with poten6ally high app adop6on rate at the early stage – The real world groups (Hierarchical groups, Interest based groups, etc.) – Groups characteris6cs (Members’ info, Group structure, Group behaviors, etc.) – The new app spreading speed in the group.
Recommending the New App to the Members
• To find out suitable occasions to recommend the new app to the right members – Tagging the users’ types (Pioneers, Followers, Stragglers and Resisters)
according to characteris6cs of users. – Recommending the app to different types of users in different stages.
Team work @Data Center, SNG, Tencent Welcome to join us!
Thank you for your aken6on!
This is the end.