来栖川電算におけるamazonaws活用事例 jawsug nagoya勉強会 第2回 20111029
DESCRIPTION
来栖川電算では様々な場面でAmazonAWSを活用しています。その中の典型的な活用事例を「JAWS-UG – Nagoya 勉強会 第2回」で紹介しました。 開発環境の共有、hadoopやmahoutを使ったデータマイニング、タンゴチュウなど幅広い紹介となっています。AmazonAWSやhadoopの活用を検討している方の参考になれば幸いです。一部タンゴチュウの宣伝になっていますが、気にせず見てください。TRANSCRIPT
山口陽平
有限会社 来栖川電算
2011.10.29
自己紹介
Amazon AWS をどのように活用しているか?
来栖川電算の開発環境
大学病院用データマイニング環境
広告企業用データマイニング環境
組込企業用データマイニング環境
タンゴチュウ
AWS 活用ポイント
参考資料
目次
自己紹介
プログラミング言語・型理論の研究者
世界を美しく記述することを夢見る33歳
人を驚かせてなんぼ
Nativeコードより速いPure Javaコード
1日でHaskellを作る
ハードリアルタイムJava VM
1000台以上のサーバで構成されるペタバイト級分散データベース
PC上で1000万クエリ/秒を達成するKVS
来栖川電算
名古屋工業大学発(2003年設立)
ソフトウェアの品質・生産性の向上
IPA未踏ソフト経験者(を多数輩出)
山 口 陽 平
※あくまでもイメージです。 実物に髪の毛はありません。
Amazon AWS をどのように活用しているか?
来栖川電算の開発環境
誰でも、いつでも、どこでも同じ環境で開発可能
全ての情報をサーバへ蓄積・いつでも復元可能
Amazon AWS をどのように活用しているか?
来栖川電算の開発環境
EC2によりユーザ・お客様への提供手続きが簡素化
スクリプトによりデータ量を減らしつつ一貫性を維持
Hadoopによる冗長化で高アベイラビリティ
Pig+UDFにより手軽で自由な分析をサポート
Amazon AWS をどのように活用しているか?
大学病院用データマイニング環境
最新手法でビッグデータを分析し、ニーズ・施策の発掘
分析期間・分析対象は何十倍にも増える予定
Amazon AWS をどのように活用しているか?
広告企業用データマイニング環境
様々なアルゴリズムが並列計算に対応し始めている。
スポットでしか分析しないなら AWS は非常に安い。
Amazon AWS をどのように活用しているか?
組込企業用データマイニング環境
Amazon AWS をどのように活用しているか?
タンゴチュウ
状態を持たないように実現すれば安上がり、
アベイラビリティ・スケーラビリティもついてくる。
情景画像からの
文字認識サービス
http://tangochu.jp
説明前に宣伝させて!
タンゴチュウとは?
写真(情景画像)から単語を抽出
例えば メニュー チラシ お菓子のパッケージ レシート 名刺 看板 …
情景画像の文字認識とは?
情景画像の文字認識とは?
情景画像の文字認識とは?
従来のOCRとは戦場が違う
悪環境下での文字認識
手書き・様々な書体・かすれ・点描・きついパース・統一性のない並び・逆光・陰・影・グラデーション・モアレなど
目指すはこんなかっこいい世界!
タンゴチュウ for Twitter
手軽に文字認識を体験できる!
@tcfox
タンゴチュウ for Evernote
写真の検索・整理に役立つ!
見てくれてありがとう!
宣伝終了
Twitterのタイムラインが文字認識ジョブのキューとなる。 タイムラインのクロールだけなので負荷の心配はない。
Amazon AWS をどのように活用しているか?
タンゴチュウ for Twitter
Evernoteのノートでジョブを管理する。
人手によるポーリングなので負荷がかかりにくい。
Amazon AWS をどのように活用しているか?
タンゴチュウ for Evernote
Amazon AWS をどのように活用しているか?
recognize.jp
タンゴチュウが活用するNTTドコモ製文字認識API 行画像文字認識:大量のリクエストを迅速に処理
情景画像文字認識:長時間処理の終了を効率的に伝達
WebAPI の利用申請もしてるぞ!
単一障害点なし ⇒ 高アベイラビリティ
完全非同期 ⇒ 高スケーラビリティ
失敗を前提 ⇒ インスタンスをいつでも終了可能
Amazon AWS をどのように活用しているか?
recognize.jp
おすすめの状況 インターネット越しの環境共有
本番環境調達前の検証
大規模で一時的もしくは予測困難なスケールの確保
必要なこと スクリプトによる再現・デプロイの自動化
勝手に終了させられることが前提
推奨すること
帯域・セッション数・セッション維持時間を節約できる非同期なアーキテクチャ
AWS 活用ポイント
hadoop
http://hadoop.apache.org/
【UG】http://hugjp.org/
mahout
http://mahout.apache.org/
【UG】https://sites.google.com/site/mahoutjp/
タンゴチュウ
http://tangochu.jp/
参考資料