来栖川電算におけるamazon aws活用事例 jawsug_nagoya_20121006
DESCRIPTION
来栖川電算では様々な場面でAWSを活用しています。その中の典型的な活用事例を「JAWS-UG – Nagoya 勉強会 第4回」で紹介しました。 開発環境の共有、hadoopやmahoutを使ったデータマイニング、タンゴチュウなど幅広い紹介となっています。AWSやhadoopの活用を検討している方の参考になれば幸いです。一部タンゴチュウなどの宣伝になっていますが、気にせず見てください。TRANSCRIPT
有限会社 来栖川電算 山口陽平 Japan AWS User Group Nagoya 勉強会 第4回 2012.10.06
好きなAWS:cc2.8xlarge
自己紹介
過去に紹介したAWS活用事例
タンゴチュウMobileの開発事例
今まさに取り組んでいること
おまけ
参考文献
あじぇんだ
自己紹介
山口陽平
来栖川電算
プログラミング言語・型理論の研究者
世界を美しく記述することを夢見る0x22歳
名古屋工業大学大学院出身
未踏ソフトウェア経験
人を驚かせるのが好き
Nativeコードより速いJavaコード
1日でHaskellを作る
ハードリアルタイムJavaVM
1000台越え構成のペタバイト級分散DB
PC上で秒間1000万クエリ処理できるKVS
山 口 陽 平
※あくまでもイメージです。 実物に髪の毛はありません。
概要 名古屋工業大学発ベンチャー(2003年)
目的 ソフトウェアの品質・生産性向上
スタッフ 役員3人・正社員7人・アルバイト9人
データ作成6人・メイド(家政婦)1人
IPA未踏ソフトウェア経験者多数
社風 職人・挑戦・自由
昼食・夕食・飲み会は無料
来栖川電算
イオン千種 名大病院 名工大の間
が近い!
ソフトウェア開発支援
開発プロセス・ツールの改善
【例】アジャイルソフトウェア開発
ソフトウェア開発
超高性能・高品質・短納期
【例】ペタバイト級分散データベース(1000台以上)
ソフトウェア技術研究
ビッグデータの分析(hadoop・pig・mahout)
【例】大学病院・広告企業・組込企業
来栖川電算:サービス
BraidDB・BraidForm ⇒ 分散データベース
タンゴチュウ ⇒ 情景画像文字認識
来栖川電算:製品・研究
インテリジェントUIで、ユーザのそばへ這いよる。
来栖川電算:事業分野
インテリジェントUI
http://tangochu.jp
@tcfoxへ写真を呟くんだ!
インテリジェントUI
情景画像文字認識
インテリジェントUI
情景画像文字認識
従来のOCRとは戦場が違う
悪環境下での文字認識
手書き・様々な書体・かすれ・点描・きついパース・統一性のない並び・逆光・陰・影・グラデーション・モアレなど
インテリジェントUI
情景画像文字認識
電脳コイルみたいな世界を作るぞ!
過去に紹介した AWS活用事例
来栖川電算の開発環境
大学病院用データマイニング環境
広告企業用データマイニング環境
組込企業用データマイニング環境
過去に紹介したAWS活用事例
来栖川電算の開発環境
誰でも、いつでも、どこでも同じ環境で開発可能
全ての情報をサーバへ蓄積・いつでも復元可能
過去に紹介したAWS活用事例
来栖川電算の開発環境
EC2によりユーザ・お客様への提供手続きが簡素化
スクリプトによりデータ量を減らしつつ一貫性を維持
データ作成などの複雑なタスクのサポートが容易に
Hadoopによる冗長化で高アベイラビリティ
Pig+UDFにより手軽で自由な分析をサポート
過去に紹介したAWS活用事例
大学病院用データマイニング環境
最新手法でビッグデータを分析し、ニーズ・施策の発掘
分析期間・分析対象は何十倍にも増える予定
過去に紹介したAWS活用事例
広告企業用データマイニング環境
様々なアルゴリズムが並列計算に対応し始めている。
スポットでしか分析しないなら AWS は非常に安い。
過去に紹介したAWS活用事例
組込企業用データマイニング環境
Twitterのタイムラインが文字認識ジョブのキューとなる。 タイムラインのクロールだけなので負荷の心配はない。
過去に紹介したAWS活用事例
タンゴチュウ for Twitter
Evernoteのノートでジョブを管理する。
人手によるポーリングなので負荷がかかりにくい。
過去に紹介したAWS活用事例
タンゴチュウ for Evernote
単一障害点なし ⇒ 高アベイラビリティ
完全非同期 ⇒ 高スケーラビリティ
失敗を前提 ⇒ インスタンスをいつでも終了可能
過去に紹介したAWS活用事例
recognize.jp
タンゴチュウMobile 開発事例
教育用プロジェクト
Androidアプリ:写真をevernoteへ送信(ついでに文字認識)
Twitterとfacebookへも投稿するぞ。
タンゴチュウMobile開発事例
どんなソフト?
目的
見習いプログラマの教育用
見習いプログラマ
来栖川電算の抽象化技法(初級)研修を修了
Java・オブジェクト指向は分かる。
性能・保守性に関する気遣いができる。
Android・Webは初めて
タンゴチュウMobile開発事例
開発の目的
スマホ
画像の投稿 認識状態管理ノート取得 認識状態管理ノートの表示
受付サーバ 画像処理 S3への画像追加 SQSへのジョブ追加 Evernoteへのノート投稿 Facebook・Twitterへの投稿 認識状態管理ノートのダウンロード
認識サーバ SQSからのジョブ取得 S3からの画像取得 recognize.jpへの画像投稿 recognzie.jpからの認識結果取得 Evernoteのノートへ認識結果反映
タンゴチュウMobile開発事例
アーキテクチャ
受付サーバをELBでスケールアウト
画像処理に時間がかかる
受付サーバが各種SNSへアクセス
スマホからの通信を減らす
スマホへデータを返すときはzip化
認識サーバと受付サーバは別々に増減可能
認識に時間がかかることがある
タンゴチュウMobile開発事例
設計のポイント
AWSは社員教育と相性が良い ドキュメントが多い
ググれば大抵わかる
課題の参考資料を作らなくてよい
セットアップが減る
問題を起こす箇所が少ないので課題に専念できる
新人は環境構築でよくはまる
スムーズに使える
投入したデータを確認・編集しやすい
リソース調達に神経質にならなくてよい
そもそも安い
教育する社員数があらかじめ分かっていなくてもよい
課題の間だけリソースを確保すればよい
タンゴチュウMobile開発事例
やって分かったこと
今まさに 取り組んでいること
機械学習パイプラインをEC2へ
認識エンジンのパラメータ調整環境
文字認識の場合(大規模機械学習)
30タスク(8段) 2~3日/回(弊社最新マシン)
今まさに取り組んでいること
機械学習パイプライン
cc2.8xlarge(EC2最強インスタンス) CPU:88ECU ← Xeon E5-2670(2.6GHz 8core)× 2個 試に使ったら400秒の処理が100秒で終わった!凄い!
MEMORY:60.5GB
STORAGE:1690GB
PRICE ONDEMAND:時間 × 2.4$
RESERVED:年数 × 5000$ + 時間 × 0.361$
SPOT:時間 × 0.253$以上(すごく安くね?)
同等性能の自作マシン:40万円 + 時間 × 5円
今まさに取り組んでいること
cc2.8xlargeを調べてみた
1年ずっと使うなら自作が安い(スポット除く)
その前提正しい?
実験しない期間があるよね?
おそらくONDEMANDは割高
たくさんの実験を並行でしたいときもあるよね?
ONDEMANDかSPOT
SPOTが本当に安いのか調べてみよう!
今まさに取り組んでいること
費用を比較してみた
種類 1ヶ月 2ヶ月 3ヶ月 4ヶ月 5ヶ月 6ヶ月 7ヶ月 8ヶ月 9ヶ月 10ヶ月 11ヶ月 12ヶ月 ONDEMAND 14万円 28万円 41万円 55万円 69万円 83万円 97万円 111万円 124万円 138万円 152万円 166万円 RESERVED 42万円 44万円 46万円 48万円 50万円 52万円 55万円 57万円 59万円 61万円 63万円 65万円 SPOT(0.253$/H) 1万円 3万円 4万円 6万円 7万円 9万円 10万円 12万円 13万円 15万円 16万円 17万円 SPOT(0.506$/H) 3万円 6万円 9万円 12万円 15万円 17万円 20万円 23万円 26万円 29万円 32万円 35万円 自作 40万円 41万円 41万円 41万円 42万円 42万円 43万円 43万円 43万円 44万円 44万円 44万円
割と落札価格高い?
オンデマンドより高い金額で落札とか意味不明
使われていない期間も割とありそう。もう少し調査。
今まさに取り組んでいること
3ヶ月の落札価格推移
きた!きたで!
1日の60%が最低落札価格
1日の90%が最低落札価格の2倍以内
今まさに取り組んでいること
1日の落札価格推移
結論
cc2.8xlargeは速い。
普通のcore i7マシンの4倍
cc2.8xlargeのSPOTは安い。
自作の50%程度
1時間以内にセーブポイントまで進める工夫が必要
今まさに取り組んでいること
1日の落札価格推移
僕が使うので、みなさん使わないでください。
おまけ
宣伝とか
WebAPIで画像をPOSTするだけで文字認識
面倒なことは全部サーバでやってくれる!
recognize.jp トライアル期間がどんどん延長されてるよ!どんどんしてね!
毎月着実に成長している!
recognize.jp
賢く速くなってる!
0.00
1.00
2.00
3.00
4.00
5.00
6.00
7.00
20
11年
06月
20
11年
07月
20
11年
08月
20
11年
09月
20
11年
10月
20
11年
11月
20
11年
12月
20
12年
01月
20
12年
02月
20
12年
03月
20
12年
04月
20
12年
05月
20
12年
06月
20
12年
07月
20
12年
08月
20
12年
09月
処理時間
精度
行の場所と色を高速に抽出(文字認識までしない)
抽出した行を背景色で塗り潰すと・・・
recognize.jp
新機能①
ユーザ単語辞書(正規表現)が指定できる!
「¥[0-9]+」を指定すると・・・
recognize.jp
新機能②
〆切近し、急げ!
ドコモ様の文字認識APIも審査対象!
企業賞とか狙い目かも
そういえば・・・
Mashup Awards 8
ドコモ様が10月11日にリリース!使おう!
うつして翻訳
様々な職種が必要
研究者・プログラマ・デザイナ・企画屋
様々な技術を活用
画像処理・信号処理
機械学習・データマイニング
様々な分野の数学
様々なプログラミング技術
様々なプラットフォーム
凄い技術者に育てるのでやる気がある方は連絡してね。
怖い人はいないので安心
スタッフ募集中!
参考文献
リンクとか
来栖川電算
http://kurusugawa.jp/
タンゴチュウ(情景画像文字認識サービス)
http://tangochu.jp/
recognize.jp(情景画像文字認識API)
http://recognize.jp/
うつして翻訳
http://ma8.mashupaward.jp/
参考文献1
Mashup Awards 8
http://ma8.mashupaward.jp/
変ゼミのロゴジェネレータ(THANKS!)
http://bkaclub.web.fc2.com/henzemi_gen.html
参考文献2
ご清聴ありがとうございました