building text features for object image classification

Building text features for object image classification

福田考晃

はじめに

• Wang, Hoiem らによって提案 [CVPR,2009]

• なにをするものか？– 未知画像の既知カテゴリへの分類

• どのように？– 画像から得られる特徴– テキストの特徴 ( flickr tag ) 組み合わせて利用

手法の流れ

• 入力：未知画像• 処理：２つの識別器を構築

– ビジュアル識別器– テキスト識別器

• 出力：カテゴリ

ビジュアル特徴

• 5 つの特徴量を利用– SIFT– Gist– カラーヒストグラム– 勾配特徴– Unified 特徴 ( 上記４つをまとめたもの )

Gist

• 画像全体から得られる特徴量1. 画像を小領域に分割2. 任意周波数，方向の Gabor フィルタの応答算出

小領域に分割

Gabor filter

周波数，方向強

度

Unified 特徴の最適化

• ２枚を１組の画像対を利用• Unified 特徴

• 重みを変更し，以下の式を最小化

Si ：画像対の関係を表すSi = 1 : 同じカテゴリの画像Si = 0 : 異なるカテゴリの画像

： i 番目の画像対のカイ２乗距離

手法の流れ




インターネットから取得したデータセット

• 画像テキスト間の関係• 1,000,000 枚のデータセット

– 700,000 枚• 58 カテゴリで flickr を検索

– PASCAL + Caltech 256 カテゴリ– 300,000 枚

• 以下からダウンロード

手法の流れ




テキスト特徴

• Flickr データセットから6000 個のタグとグループ名を抽出

• 手順1. 画像入力2. K – Nearest Neighbor で k

個の画像を Flickr データセットから取得

3. 取得した画像のタグとグループ名から特徴量算出

手法の流れ




識別器の構築

• ビジュアル識別器• テキスト識別器• SVM の利用

– カイ二乗カーネル• 特徴量をカイ２乗距離へ射影

• 識別器の統合– ロジスティック回帰

• 検証用データセットを利用

K(x,y)= exp{-² (x,y)}

² (x,y) = i { (||xi-yi||) ² / ||xi+yi|| }

実験

• 以下を確認1. 異なるビジュアル特徴量におけるテキスト特徴の影響2. テキスト特徴とビジュアル特徴の統合の影響3. 学習画像の影響4. 補助データセットの画像枚数の影響5. カテゴリ名の影響

実験１

• 異なるビジュアル特徴におけるテキスト特徴の構築– KNN 精度に依存

• ビジュアル特徴に依存– 各特徴量の精度比較

• カラーヒストグラムが低• Unified が高

実験２

• テキスト特徴とビジュアル特徴の統合の影響– 互いが相互に作用

実験３

• 学習画像枚数の影響– 画像数少

• テキスト特徴の影響大– 画像数多

• テキスト特徴の影響小– 最も高い利得

• テキストとビジュアルが一致したとき

実験４

• 補助データセットの画像枚数– 200,000 〜 600,000

• 精度上昇大– 600,000 〜 1,000,000

• 精度上昇小

• 精度上昇 ≠ 枚数

実験５

• カテゴリ名の影響• 実験対象

– カテゴリ名に類似したタグが存在する　 (W)– カテゴリ名に類似したタグが存在しない (WO)

• 類似カテゴリの存在に依存しない

おわりに

• テキストの特徴– Flickr のタグ，グループ名を利用

• Unified 特徴量は有効に作用• テキスト識別器 + ビジュアル識別器 = 相互に作用• 学習画像数が少ない時テキスト特徴の影響大• 精度向上≠ 補助データセット枚数• カテゴリ名の影響はない

building text features for object image classification

Documents