周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf ·...
TRANSCRIPT
![Page 1: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/1.jpg)
周报告
多源数据融合的协同过滤算法研究
刘四平 2016.6.22
指导老师:李仁发教授
![Page 2: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/2.jpg)
主要工作
公司项目的维护和修改
企业级数据分析平台的搭建和测试
需求调研和测试数据处理、分析流程
实现论文的实验以及评价方法
基于物品、物品的协同过滤实现
矩阵分解方法改进实现
![Page 3: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/3.jpg)
1、公司项目的维护和修改
以业务驱动的一整套web管理系统项目
1.1、图片、音、视频采集:下载队列管理
1.2、云管理:vmare虚拟化平台管理和监控
1.3、音、视频转码:提供接口服务和界面管理
1.4、单点登录验证系统
![Page 4: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/4.jpg)
1.1CAS单点登录
![Page 5: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/5.jpg)
1.2下载队列管理
网络资源下载队列——下载任务管理器
图片,音频,视频
![Page 6: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/6.jpg)
1.3云管理
vmare虚拟化平台管理和服务程序的监控
![Page 7: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/7.jpg)
1.4音视频转码
提供转码接口
![Page 8: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/8.jpg)
2、企业级数据分析平台搭建和测试
Cloudera公司基于Hadoop数据分析平台(CDH)
Hadoop:基础存储和集群资源管理和调度
Spark:分布式计算
Hive:数据仓库
Sqoop:数据迁移工具
![Page 9: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/9.jpg)
3、企业需求调研和实施
多源数据融合处理和分析
显式反馈、隐式反馈
数据来源分析整合:
微信:S1*P1
微博:S2*P2
主页:S3*P3
RSS订阅:S4*P4
Rating=S1*P1+S2*P2+S3*P3+P4*P4 for unique id
![Page 10: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/10.jpg)
4、数据分析流程
(1)定义输入数据源:HDFS/数据库
(2)抽取、转换、加载(ETL)操作
(3)定义输出操作:HDFS/数据库
(4)评测结果
![Page 11: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/11.jpg)
4、数据分析流程的管理
方案1、基于Spark的作业管理 Spark-Jobserver
管理Spark程序和作业
功能单一完善
方案2、Oozie工作流引擎
管理Hive,Spark,Sqoop等
![Page 12: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/12.jpg)
4、程序和作业的管理
定义程序执行流程
运行过程状态
![Page 13: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/13.jpg)
4、上传程序操作
上传编写好的Spark程序
作程序说明和参数说明
![Page 14: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/14.jpg)
协同过滤算法改进实现
采用ALS矩阵分解模型
结合基于物品的协同过滤
训练得到隐因子模型参数
根据评分,作正、负反馈评估
计算用户、物品向量之间的相似度
综合得到TOP-N的推荐结果
作计算方法的评估
Precision at 1 = 0.045033112582781455
Precision at 3 = 0.131401766004415
Precision at 5 = 0.16364238410596074
![Page 15: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/15.jpg)
Top-N推荐问题评测
对用户u推荐N个物品(记为R(u)),令用户u在测试集上喜欢的物品集合为T(u),然后可以通
过准确率/召回率评测推荐算法的精度:
![Page 16: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/16.jpg)
准确率、召回率和覆盖率的实现
![Page 17: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/17.jpg)
后期计划
小论文
软件著作权
关于实习
![Page 18: 周报告 多源数据融合的协同过滤算法研究esnl.hnu.edu.cn/liusiping_2016.06.22.pdf · 周报告 多源数据融合的协同过滤算法研究 刘四平2016.6.22 指导老师:李仁发教授](https://reader034.vdocuments.net/reader034/viewer/2022042511/5f9d68e56e0da424541a26ba/html5/thumbnails/18.jpg)
谢谢