alteryxでkaggleに挑戦する #alteryx #alteryx_ug
TRANSCRIPT
AlteryxでKaggleに挑戦するじょんすみす
自己紹介
•じょんすみす• クラスメソッド株式会社 DI部
• どこにでもいる普通のアル中
• 札幌から来ました!
これ→
本日のテーマ
• Kaggleってご存知ですか?
本日のテーマ
• Kaggleってご存知ですか?• 機械学習のコンペサイト
本日のテーマ
• KaggleにAlteryxで挑みます!
•今回はTitanicに挑戦します• Tutorial的なもの
• 乗客の情報から生存の有無を予測
まずは試しにやってみる
まずは試しにやってみる
データを見てみる
データを見てみる
データを見てみる
データを見てみる
データを見てみる
※ Y軸にJitter入れてます
あれ?実はそんなに関連性ない?
データを見てみる
なんとなくlogをとると、Ageの値が小さいほうで生存率が上がってるっぽい
他の変数との相関は微妙だったしとりあえず欠損値には平均を入れて18歳以上か否かのデータの有無で変わるか見てみる(欠損値の扱いは別途考える)
Ageの変換
平均値で埋めて
Ageの変換
いくつかの手法で試してみる
Ageの変換
Ageをそのまま使った場合
変換した場合
Ageの変換
Ageをそのまま使った場合
変換した場合
チャレンジ2回目
ここでもう1回やっている
Ageの推定今回は他のサイトの情報を参考にする
Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感
(http://www.mirandora.com/?p=1804)
敬称と年齢に関係あるという性質を利用(なぜそうしているかも直感的にわかりやすい)
※参考にしているのはこの記述のみで実際の手法を利用しているわけではありません
Ageの推定結果は変わらず。。
今後
• Ageの欠損値について• 他にもやり方はいろいろあり、Discussionに欠損値の話はある
• https://www.kaggle.com/c/titanic/discussion/3189など
• 年齢の分け方を18歳(日本基準の未成年)にしたが検証してない
• 機械学習のモデル選択・パラメータチューニング• 他の手法を試してみるとかもやってない
• Alteryxでは実装されていない手法もある
• Age以外にも注目してみる• nameなど直接使っていないの属性を利用
• SibSp, Parchに基づいて家族推定とかしたらまたなんかあるかも
まとめと所感
• Alteryxでもkaggleに挑める• データを確認するための可視化
• 前処理・特徴抽出など
• アルゴリズム選択
•とはいえできないこともある• Alteryxでは単一ツールでは実現できない手法が有効な場合
• RツールやRun Commnadツールで実現自体は可能
• Galleryをあされば誰かが作ってくれてるかも?