alteryxでkaggleに挑戦する #alteryx #alteryx_ug

22
AlteryxKaggleに挑戦する じょんすみす

Upload: johnsmith

Post on 24-Jan-2018

358 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

AlteryxでKaggleに挑戦するじょんすみす

Page 2: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

自己紹介

•じょんすみす• クラスメソッド株式会社 DI部

• どこにでもいる普通のアル中

• 札幌から来ました!

これ→

Page 3: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

本日のテーマ

• Kaggleってご存知ですか?

Page 4: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

本日のテーマ

• Kaggleってご存知ですか?• 機械学習のコンペサイト

Page 5: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

本日のテーマ

• KaggleにAlteryxで挑みます!

•今回はTitanicに挑戦します• Tutorial的なもの

• 乗客の情報から生存の有無を予測

Page 6: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

まずは試しにやってみる

Page 7: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

まずは試しにやってみる

Page 8: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

データを見てみる

Page 9: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

データを見てみる

Page 10: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

データを見てみる

Page 11: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

データを見てみる

Page 12: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

データを見てみる

※ Y軸にJitter入れてます

あれ?実はそんなに関連性ない?

Page 13: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

データを見てみる

なんとなくlogをとると、Ageの値が小さいほうで生存率が上がってるっぽい

他の変数との相関は微妙だったしとりあえず欠損値には平均を入れて18歳以上か否かのデータの有無で変わるか見てみる(欠損値の扱いは別途考える)

Page 14: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

Ageの変換

平均値で埋めて

Page 15: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

Ageの変換

いくつかの手法で試してみる

Page 16: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

Ageの変換

Ageをそのまま使った場合

変換した場合

Page 17: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

Ageの変換

Ageをそのまま使った場合

変換した場合

Page 18: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

チャレンジ2回目

ここでもう1回やっている

Page 19: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

Ageの推定今回は他のサイトの情報を参考にする

Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感

(http://www.mirandora.com/?p=1804)

敬称と年齢に関係あるという性質を利用(なぜそうしているかも直感的にわかりやすい)

※参考にしているのはこの記述のみで実際の手法を利用しているわけではありません

Page 20: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

Ageの推定結果は変わらず。。

Page 21: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

今後

• Ageの欠損値について• 他にもやり方はいろいろあり、Discussionに欠損値の話はある

• https://www.kaggle.com/c/titanic/discussion/3189など

• 年齢の分け方を18歳(日本基準の未成年)にしたが検証してない

• 機械学習のモデル選択・パラメータチューニング• 他の手法を試してみるとかもやってない

• Alteryxでは実装されていない手法もある

• Age以外にも注目してみる• nameなど直接使っていないの属性を利用

• SibSp, Parchに基づいて家族推定とかしたらまたなんかあるかも

Page 22: Alteryxでkaggleに挑戦する #alteryx #alteryx_ug

まとめと所感

• Alteryxでもkaggleに挑める• データを確認するための可視化

• 前処理・特徴抽出など

• アルゴリズム選択

•とはいえできないこともある• Alteryxでは単一ツールでは実現できない手法が有効な場合

• RツールやRun Commnadツールで実現自体は可能

• Galleryをあされば誰かが作ってくれてるかも?