统计之都五周年系列演讲 Capital of Statistics
统计之都五周年系列活动漫谈统计分析与 R 语言
刘思喆 范建宁@ 首都经济贸易大学
2011 年 5 月 24 日
Part1 Capital of Statistics
Part 1 :统计与 R 语言
Part1 Capital of Statistics
一些思考
为什么学统计?“ 我们这一代最聪明的人竟然都在这里思考着怎样让人们去大量地点击广告,真衰。”——数学天才 Jeff Hammerbacher , 2006 年,从哈佛毕业一年后加入 Facebook ,奠定了 Facebook 业务的基石─精准广告。两年后, Hammerbacher 开始怀疑人生, 2008 年,他从 Facebook 辞职了。
Hammerbacher 最早从事的职业是华尔街的“数量(统计)分析师”。
Part1 Capital of Statistics
统计分析师?
一名合格的统计分析师需要什么条件?• 把握数据来源(抽样要懂一些,数据库要懂一些)• 数据分析方法(统计模型、统计图形、数据挖掘)• 业务知识理解(商业问题转化为统计问题)
工具呢?
Part1 Capital of Statistics
计算机时必须的,如果没有计算机,则……
Part1 Capital of Statistics
工具呢?
• 软件,我要智能的!① 选择灵活的,而不是“傻瓜”的② 能解决前沿的统计问题③ 简单易学
• R 语言不出,谁与争锋!① 跪求 XX 软件注册码…… ⇒ R 完全免费!② XX 软件可以做 XX 分析吗? ⇒ R 不能做什么?
给个学习 R 的理由?
Part1 Capital of Statistics
R 是什么?
Ross Ihaka Robert Gentleman
Part1 Capital of Statistics
R 的优势
灵活
易学
免费
开源
更新快
√ √ × × √ ×
√ × √ √ √ √
√ × × × × ×
√ × × × × ×
√ × × × × ×
√ × × × × √求助方便
Part1 Capital of Statistics
R 的主页
Part1 Capital of Statistics
CRAN ( Comprehensive R Archive Networks )
Part1 Capital of Statistics
主流统计分析软件功能模块对照
Part1 Capital of Statistics
R 相关项目( I )
Part1 Capital of Statistics
R 相关项目( II )
Part1 Capital of Statistics
KDNuggets 网站对数据挖掘(分析)工具的调查
资料来源: http://www.kdnuggets.com/polls/
Part1 Capital of Statistics
一些简单运算
加、减、乘、除 > ((3+2)-4*5)/6 [1] -2.5求和、求积、累加、累乘 >
sum(1:100)+prod(1:4) [1] 5074 > cumsum(1:4) [1] 1 3 6 10 > cumprod(1:4) [1] 1 2 6 24
开方、乘方、对数、指数 >sqrt(5)-
log(3)+exp(25)^(1/3) [1] 4161.399枚举、组合 > combn(1:4,2) [,1] [,2] [,3] [,4] [,5]
[,6] [1,] 1 1 1 2 2 3 [2,] 2 3 4 3 4 4 > choose(5,3) [1] 10
Part1 Capital of Statistics
与 MatLab 相媲美的矩阵操作
• 生成矩阵• X=matrix(1:12, nr=3, nc=4, byrow = TRUE)• 转置• T(x)• 求逆> Y=matrix(1:9, nr=3, nc=3, byrow=TRUE)> Y [,1] [,2] [,3][1,] 1 2 3[2,] 4 5 6[3,] 7 8 9> det(Y) # 行列式[1] -9.517127e-16
Part1 Capital of Statistics
常用的 R 语言命令可以参考 R Reference Card
Part1 Capital of Statistics
• 三叶线• 方程• 生成 的离散序列,计算极坐标,在极坐
标中绘图 > theta = seq(0, 2 * pi, by = 0.01)> rho = 2 * sin(3 * theta)
> polar.plot(rho,rp.type="p",poly.col="green",line.col="blue",grid.col="red",lty=2)
极坐标图
Part1 Capital of Statistics
向日葵散点图
> data(iris)sunflowerplot(iris[,3:4],
col="gold",seg.col="gold")
Part1 Capital of Statistics
平滑散点图
smoothScatter(BinormCircle)
Part1 Capital of Statistics
散点图矩阵
> idx = as.integer(iris[["Species"]])
> pairs(iris[1:4], upper.panel = function(x, y, ...) points(x,
+ y, pch = c(17, 16, 6)[idx], col = idx), pch = 20,
+ oma = c(2, 2, 2, 2), lower.panel = panel.smooth,
+ diag.panel = panel.hist)
Part1 Capital of Statistics
相关矩阵图
> library(corrplot)> corrplot(corr, col = wb,
bg="gold2", order="PCA", addcolorlabel="no")
Part1 Capital of Statistics
脸谱图( I )
> library(TeachingDemos)> faces2(mtcars[, c("hp", "disp",
"mpg", "qsec", "wt")],+ which = c(14, 9, 11, 6, 5))
Part1 Capital of Statistics
脸谱图( II )
> library(aplpack)> data(longley)>
faces(longley[1:9,],face.type=1)
Part1 Capital of Statistics
统计模拟
• 蒲丰投针• 高尔顿板• 蒙特卡洛模拟与定积分
参考 animation 包
Part1 Capital of Statistics
曼德布洛特集合 (Mandelbrot set)
Part1 Capital of Statistics
……
曼德布洛特集合 (Mandelbrot set)
Part1 Capital of Statistics
统计图形这部分内容非常庞大,几乎每个图形后面都要涉及一套统计理论。即便简单的叙述,也至少需要 1 天的时间,这个部分先暂时打住。
大家可以期待谢益辉的《现代统计图形》
Part2 Capital of Statistics
Part 2 : R 语言应用实例
Part2 Capital of Statistics
统计学习和机器学习( Statistical and Machine Learning )
Part2 Capital of Statistics
实例——开机率的求解( I )
逻辑增长曲线具有以下性质: y 随着时间 t 的增加(至+∞ ),趋向于 K ,即K 为 y 的饱和值; y 的增长有一个拐点,拐点之前 y 的增长速度越来越快,拐点之后, y 的增长速度越来越慢,直至为 0 。
Part2 Capital of Statistics
实例——开机率的求解( II )
红色标记的点表示终端机实际使用率变化,而通过逻辑增长曲线拟合的终端机使用率,使用图中蓝色的曲线表示。从模型预测结果上看,最终终端机使用率将在 xx 天以后达到 64.86% 的理论峰值。
Part2 Capital of Statistics
旅行商问题( I )
旅行商问题是图论和优化组合的经典问题, TSP包专门求解旅行商问题,其核心函数为 solve_TSP() :
solve_TSP(x, method, control)
走遍中国问题:周游全中国,从北京出发,要游遍我国 34 个省级行政中心,最后回到北京,假设各个城市之间的距离为它们在地球上最短距离,请设计一条线路,是行程最短
Part2 Capital of Statistics
旅行商问题( II )
Part2 Capital of Statistics
1973-2010 年 1 级以上地震及核电站分布
Part2 Capital of Statistics
C4.5 决策树的应用
美国男子职业篮球联赛 2008-2009 赛季火箭队的赢球模式:同经验一致,得分 (PTS) 和篮板(DREB) 是火箭队赢球最重要的因素。当全队得分达到 102 分以上时,火箭队进攻行云流水,势不可当;一旦球队进攻不力 (得分低于 102) ,防守篮板成为主要因素,如果防守篮板数低于 31 个,输球概率比较高,但抢断 (STL) 大于 10 次时,仍有希望;防守篮板高于 31 时,三分试投数(3PA) 成为关键,如果能够控制在 19 次以内,球队赢球的概率依旧较高
Part2 Capital of Statistics
中国 TOP200 流行歌手关系
问题:
① 歌手的范围如何界定?是中文、英文、日文、韩文、法文等一起考虑,还是一个语种一个语种的考虑?—— 数据量
② 歌手列表如何获得?——数据获取③ 歌手间的关系如何获得?——依然是数据获取④ 如何衡量歌手的关系?——最后才是“模型”
Part3 Capital of Statistics
Part 3 :统计之都和 R 语言
Part3 Capital of Statistics
统计之都
主站:看看大家都在研究什么?SNA 、 LARS 、 WinBUGS 、 LDA 、精算……
论坛:今天的讲座没听懂?
维基:统计学百科全书?
和统计之都相关的:• R 语言会议• 数据挖掘邀请赛
Logo :统计印
Part3 Capital of Statistics
致谢
感谢首都经济贸易大学老师们组织的统计周活动感谢郑冰师妹的辛苦工作感谢 R 语言前辈们留下的宝贵财富感谢来听讲座的各位听众
希望在以后的 R 语言学习应用过程中,大家同样体会到统计的乐趣
稍等……还有范建宁师弟带来的 SNA 方面的知识分享