2 neural attentionniitsuma/godozemi2017/o.pdfohta laboratory, okayama university...

観点付き評判分析のためのニューラルネットワークモデルの検討Examination of Neural Network model for Aspect-based Sentiment Analysis

朝倉遼

Ryo Asakura

岡山大学太田研究室

Ohta Laboratory, Okayama University

概要観点付き評判分析は, レビュー文書から様々な観

点を抽出し, それぞれに感情極性を付与するタスクであ

る. 本報告ではそのための Neural Attention を用いた

軽量なニューラルネットワークモデルを提案する. モ

デルの評価は SemEval コンペティションのデータセッ

トを用いて行い, 同コンペティションでも多く見られた

深層学習をベースとした手法と同等の精度を達成する

ことができた.

1 はじめに文書における感情極性分類は自然言語処理における

基本的なタスクの 1 つであり, 様々な手法の応用例が

ある. 近年は Neural Network (NN) を用いた手法が広

く用いられるようになり, Convolutional Neural Net-

work (CNN) が高い分類精度を達成している [2]. し

かし, 単純な感情極性分類は文書全体に対して posi-

tive/negative などのラベルを付与するだけであること

が多く, その場合, 文書全体に関する評価値しか得られ

ないため必ずしも有用とはいえない. 例えば, 1つの文

書に複数の感情極性が含まれていることも多いが, これ

に対処するための枠組みとして, 観点付き評判分析 [1]

(Aspect-based Sentiment Analysis; ABSA) がある.

ABSA では, 例えばレビューなどの文書内からレビュ

アーの評価観点を抽出し, それに対して感情極性を付与

する. 例えば “Food is good, but attitude of clerk is

so rude.”というレビューの場合, FOOD#QUALITY

カテゴリを抽出し, それに ”positive” の極性を, SER-

VICE#GENERAL に ”negative” を付与するという

ことになる. 本報告では評価のためのデータセットと

して SemEval 2016 の ABSA タスク*1のレストラン

ドメインのものを用いる. このデータセットには前述

のような entity#attribute で表現されるカテゴリが全

12 定義されている. そして, あるレビュー文書とそれ

に含まれる 1つ以上のカテゴリが与えられた場合, それ

ぞれのカテゴリに感情極性を付与するというタスクを,

このデータセットを使って行う.

Neural Attention は, NN の学習タスクにおいて, 任

意の複数のベクトルがある場合に, どれを重要視するか

を同時に学習する方法である. 本報告では, ABSA を行

*1 http://www.aclweb.org/anthology/S16-1002

うための Neural Attention を用いた NN のモデルを

提案する. 提案モデルは Neural Attention をベースと

した Long-short-term memory (LSTM) を用いた手法

[4] より小規模であるものの同等以上の感情極性抽出精

度を達成し, また, 計算量の削減による学習速度面での

優位性も確認できた.

2 Neural Attention

Attention 機構は通常, 各単語の重要度を表すベクト

ル, そのベクトルで重みを付けた文全体を表すベクトル

の 2つを計算する. 前者をスコアベクトル, 後者を文ベ

クトルと呼ぶことにし, それぞれ式 1, 式 2 で計算する

α = softmax(Xva) (1)

r = Xtα (2)

X ∈ RL×k は各行が単語ベクトルである行列である.ここで, Lを 1文の長さ, k は単語ベクトルの長さとし

ている. va ∈ Rk はあるカテゴリを表すベクトルであり, 全部で 12あるカテゴリのうちの 1つを表すベクト

ルである. これらはともに学習により最適化されたパ

ラメータである. α ∈ RL はスコアベクトルを表し, その各要素はある単語ベクトルとあるカテゴリベクトル

の線形和をとったものである. 単語とカテゴリの関連

が強いほどこの値は大きくなり, カテゴリベクトルはそ

の単語と似たベクトルとなる. よってカテゴリベクト

ルは単語ベクトル空間において, そのカテゴリに関連す

る単語群から平均的に近い場所に位置することになる

と考えられる. また, α は softmax 関数に通して正規

化されている.

次に, X の各列をスコアベクトル α で重みを付けて

平均し, 文ベクトル r ∈ Rk とする.

z = softmax(Wpr) (3)

式 3 は感情極性の推定である. 文ベクトル r を学習

済みのパラメータ Wp でアフィン変換し, softmax 関

数に通すことで z ∈ Rp を得る. p を感情極性ラベルの数とすると, z は各感情極性についての確率分布とな

る. 実際には positive, negative, neutral の 3ラベルが

あるため p == 3 となる.

3 関連研究Neural Attention ではベクトルの重要度を決定する

が, 自然言語処理の場合, そのベクトルは基本的に単語

ベクトルであり, 多くは単語に対してどの単語を対応

させるかを学習することになる. これは word-by-word

attention と呼ばれ, 多対多の対応関係を扱う. 一方, 文

中の各単語とある特定のエンティティを対応させる例

が [3] で紹介されており, これをそのまま観点付き評判

分析に応用した例が [4] である. [4] はあるカテゴリを

表すベクトルと RNN の各ステップの出力ベクトルの

非線形結合を元に, その対応の強さを算出している. し

かし, 単にカテゴリベクトルと任意のベクトル対応の強

さを算出するだけであれば, それぞれの線形和をとるこ

とが必要十分と考え, 本報告ではそれを 2 章の式 1 に

置き換えている. さらに, [4] では, スコアベクトルの算

出とその後の処理すべてを RNN の出力系列を用いて

行っているが, ABSA においては感情極性はカテゴリ

を表す単語の周辺のみを見れば十分決定できることが

多く, 逆に系列全体を見ることは他の観点に対する感情

極性の混入の危険性があると考えた. そのため, 本報告

では RNN は使用していない. これらにより, 実際に,

分類精度の向上が確認できた.

4 実験実験は SemEval 2016 Aspect-based Sentiment

Analysis のレストランドメインのデータセットを用い

て行った. データセットは英語のレストランレビュー

であり, 学習用が 2000 レビュー, テスト用が 676 レ

ビューとなっている. 例えば以下のレビュー文は実際

のデータセットからの抜粋である.

“The wine list has many good values.”

これに対し, 以下のようにタグが付けられている.

は category と polarity プロパティ

を持ち, 1 レビューに対して複数存在する場合も

ある. この例の場合, タスクは, 上記レビュー文と

DRINKS#PRICES に対して感情極性ラベルpositive

を予測することである. 評価はテスト用データセッ

トに現れる全 category のうち, 正しく感情極性ラベル

を付与できた割合でなされる. 1 章でも述べた通り,

category は entity#attribute の形で表現され, 全部で

12定義されている.

比較対象は CNN, Bi-directional Long short-term

memory (Bi-LSTM), Attention 機構を持った Bi-

LSTM [4] の 3つとした. CNN は [2] の手法を簡略化

したものを実装したものであり, 畳み込みフィルターの

数は 128, 1フィルターがカバーする単語の数は 3つで

固定した. Bi-LSTM は, 出力系列の次元を 150 とし

た. [4] は, SemEval 2014 での評価しか行なっておら

ず, 実装も公開されていないため, 独自に再現した実装

を用いた. また, すべての手法においてバッチサイズ

は 32 とし, モデルの勾配は back propagation で計算

し, 最適化は Adam[5] によって行った。Adam のパラ

メータは [5] で推奨されているものを用いた. 単語ベ

クトルの初期値は Google News Corpus の 300 次元

の単語ベクトル*2を用い, 学習中にさらに最適化される

ようにした. テストは交差検定などは行わない簡易的

な方法で行っている. 具体的には, 各モデルにおいて

毎 epoch ごとにテストデータでの評価値を算出し, 最

も高い予測精度をそのモデルの最終的な予測精度とし

た. また, モデルの学習は Intel Core i5 CPU で行い,

epoch ごとにかかる平均学習時間も算出した. テスト

データでの評価結果は表 1 となり, 提案手法が [4] を

含む比較手法より良い予測精度を出すことができ, ま

た, epoch あたりにかかる時間についても提案手法が

最も短い. 特に LSTM は他の手法より演算が多いため

epoch あたりに長い時間がかかってしまい, このよう

な結果となっている.

accuracy sec/epoch

提案手法 0.835 0.82

CNN 0.814 2.45

Bi-LSTM 0.790 13.8

Attention-based LSTM [4] 0.819 15.2

表 1: カテゴリを踏まえての感情極性の予測精度

5 まとめ本報告では，観点付き評判分析における Neural At-

tention の利用について考察し, 精度と計算コストを両

立したモデルを提案した．しかし, 現在用いているデー

タセットは非常に小さいため, このモデルをベースに事

前学習を効果的に行う手法についても検討する.

参考文献[1] Bing Liu, “Sentiment Analysis and Opinion Min-

ing“, 2012[2] Yoon Kim, “Convolutional Neural Networks for

Sentence Classification,” EMNLP, 2014[3] Rocktäschel, et al., “Reasoning about Entailment

with Neural Attention,” ICLR, 2016[4] Wang, et al., “Attention-based LSTM for Aspect-

level Sentiment Classification,” EMNLP, 2016.[5] Diederik P. Kingma and Jimmy Ba, “Adam:

A Method for Stochastic Optimization,” ICLR,2015.

*2 https://code.google.com/p/word2vec/

OCRを利用した学術論文閲覧支援インタフェースの検討 Examination of an interface for support of browsing scholarly papers using OCR

谷尻淳喜 Junki Tanijiri

岡山大学太田研究室 Ohta Laboratory, Okayama University

概要非専門家が学術論文のような専門性の高い文書を読む

場合，未知の語に遭遇する可能性が高く，内容を理解する

のに時間がかかる．そのため論文中の専門用語等の重要語

を予め自動抽出し，ユーザに提示する学術論文閲覧支援イ

ンタフェースを開発している．本稿では，この学術閲覧支

援インタフェースにおいて紙媒体の学術論文を閲覧できる

ようにする方法について報告する．

1 はじめに

近年のタブレット端末や電子書籍閲覧端末の普及により，

従来紙媒体で読んでいた文書をタブレット端末等を用いて

読む機会が増加した．この読書形態の変化に伴い，電子媒

体の閲覧支援に関する研究が行われるようになった．

柴田ら[1] は，娯楽を目的とした読み方では，ページめく

りが頻発しない限り，タブレット端末と紙媒体では認知負

荷に大きな違いはないことを報告した．しかし，答えを探

すことを目的とした業務での読み方では，複数のページの

移動が発生する場合，電子媒体ではページの行き来に時間

を要し，紙媒体のほうが優れていることが報告されている．

前野ら[2] は英語の学術論文を対象に，タブレット端末に

よる学術論文閲覧支援のためのインタフェースを開発した．

具体的には，予め論文中の重要語を自動抽出してユーザに

提示する機能や，任意の単語列に対して重要度等の解析結

果や Web 上の関連情報をユーザに提示する機能を提案した．

学術論文のように専門性の高い文書を読む場合，未知の

専門用語等に遭遇する可能性が高く，その度に辞書を引く，

Web サイトで検索するといった行為は効率が悪いため，前

野らの学術論文閲覧支援インタフェースは有用である．し

かし、本インタフェースは予め学術論文の PDF ファイルを

保持しておく必要があった．

そこで本稿では，OCR を用いて紙媒体の学術論文を認識

し，その論文 PDF を学術閲覧支援インタフェース上で閲覧

できる機能を提案する．また，論文 PDF をリアルタイムに

処理するための重要語抽出方法についても検討する．

2 紙論文の認識

2.1 動作の概要

本節では，紙媒体で閲覧している学術論文の PDF ファ

イルを取得し，学術論文閲覧支援インタフェース上で表示

するまでの動作の流れについて述べる．

図 1 に開発中の紙論文の認識動作の流れを示す．まずカ

メラ画面が表示される．ユーザは論文のタイトルページの

全体が入るように撮影する．iOS のカメラ機能の実装には

AVfoundation フレームワーク[3] を利用している．次に撮影

した画像からタップ操作によって論文タイトルを選択する

と，選択範囲内のテキストを OCR で読み取り，論文タイ

トルのテキストを抽出する．OCR は tesseract-OCR[4] を使

用している．続いて，抽出した論文タイトルを Google

Custom Search API[5] で検索し，論文 PDF を検索する．検

索結果から論文 PDF の URL を取得し，リンクを画面上に

表示する．ユーザがリンクをタップすると，学術論文閲覧

支援インタフェース画面上に論文 PDF を表示する．論文

PDF の表示後の学術論文閲覧支援インタフェースの具体的

な動作については 3 節で説明する．図 2 に設計中の紙論文

の認識画面を示す．撮影した論文画像の論文タイトルが選

択され，PDFへのリンクが表示されている．

2.2 OCRの認識誤りへの対応

OCR でテキストを認識する際，撮影したカメラ画像によ

っては認識誤りが発生する．そこで本稿では， Google

Custom Search API を利用して認識誤りを修正する．例えば，

“NTCIFL”のように誤った単語をこの API に渡すと，修

正候補として“NTCIR”を返してくれる．本インタフェー

スでは論文 PDF を検索する際にこの機能を利用する．具体

的には，認識した論文タイトルのテキストを単語に分割し，

1 単語ずつ API に渡して誤認識がないかをチェックする．

修正候補が発見された場合はその単語に置き換えて論文を

検索する．

3 学術論文閲覧支援インタフェース

本節では，2 節で論文 PDF ファイルを取得し，学術論文

閲覧支援インタフェース上に論文 PDF を表示した後の動作

の流れについて述べる．

図 1 紙論文の認識の流れ

まず論文 PDF からテキストを抽出し，そのテキストを形

態素解析する．形態素解析には Objective-C の

NSLinguisticTagger class[6] を用いる．次に抽出した名詞と

未知語の重要度を TF-IDF により計算する。次に重要度が

大きい上位 30語を重要語として表示する．ユーザが任意の

単語列を選択すると，選択した単語列に対し予め判定して

おいた重要度等の解析結果及び Web から収集した情報等を

表示して閲覧を支援する．

4 重要語抽出

本学術論文閲覧支援インタフェースでは語の重要度の算

出に TF-IDF 値を使用している．しかし，重要語の抽出に，

1 論文あたり約 2 分かかった．そこで本稿では，重要度の

算出時間を考慮した重要語抽出手法について検討する．

本稿では二つの手法を比較する．一つ目は PageRank ア

ルゴリズムを用いた手法である．以下にこの手法の計算手

順を示す．

1. Web ページのリンク関係の代わりに，語の自己相互

情報量(PMI) を用いる．PMI は同文中に出現する語

A と語 B の共起度を求めて算出する．

2. 得られた共起関係を基に語のグラフを構成する．語

A と語 B が同文中に共起するなら PMI を，共起して

いないなら“1 / 総単語数”として，語の共起関係を表

す行列を作成する．

3. 作成した行列に対して，べき乗法を用いて反復計算

を行い，得られた数値に基づいて語をランク付けす

る．

二つ目は，TF-IDF 値を求めるために検索する名詞・未知

語の数を限定することで抽出時間を減らす．具体的には論

文中の出現頻度(TF) の上位 n 語のみを CiNii[7] で検索して

TF-IDF 値を算出する．

5 実験評価

4 節で述べた重要語抽出手法の比較実験を行う．それぞ

れの手法で重要度を算出してから重要語が決定されるまで

の時間を計測し比較する．時間計測は Xcode の iPad Air

(10.0) Simulator 上で行った．また，本稿の著者が実験対象

の論文の全ての名詞・未知語の中から，適切な重要語 30語

を決定し，それぞれの手法で得られた重要語の正解率を算

出した．本実験では NTCIR-9 の PatentMT で発表された[8]

の論文を使用した．

実験結果を表 1 に示す．単語数はそれぞれの手法で重要

度を算出した語の数である．出現頻度(TF) の上位 100 語の

みと，実験に使用した論文の名詞・未知語の数である最大

519 語を比較した．PageRank では，519 語を対象とした場

合正解率が極端に低くなった．これは，出現頻度が極端に

低い語が重要語となっており，これらの語が共起すると，

PMI の値が非常に大きくなったことが主な原因である．単

語数を 100 語とした場合では，PageRank は実行時間が短い

が，TF-IDF が最も正解率が高くなった．TF と PageRank で

は，重要語として“data”や “word”といった一般的な語が多

く抽出された．一方，TF-IDF ではこのような他の文書にも

多く出現する語は抽出されず，その点が有効であった．

6 まとめ

本稿では，OCR を用いた紙媒体の学術論文の認識につい

て述べた．抽出時間を考慮した重要語抽出手法について検

討した結果，重要度の算出対象を 100 語とした場合，

PageRank では抽出時間は短いが，正解率が TF-IDF に及ば

なかった．今後は重要語抽出手法の改良を行いつつ，引き

続きインタフェースの設計を行う．

参考文献

[1] 柴田博仁，高野健太郎，大村賢悟，“電子書籍端末は紙を代替

できるか? 電子書籍端末の評価実験にもとづく考察”，富士ゼロ

ックステクニカルレポート，No.21，2012.

[2] 前野明子，“電子書籍閲覧端末による学術論文閲覧支援インタ

フェースに関する研究”，岡山大学大学院自然科学研究科修士

論文，2015.

[3] AVFoundation Programming Guide,

https://developer.apple.com/library/content/documentation/AudioVid

eo/Conceptual/AVFoundationPG/

[4] https://code.google.com/p/tesseract-ocr/

[5] https://developers.google.com/custom-search/?hl=ja

[6] https://developer.apple.com/reference/foundation/nslinguistictagger

[7] http://ci.nii.ac.jp/

[8] Jeff Ma，Spyros Matsoukas， “BBN’s Systems for the Chinese-

English Sub-task of the NTCIR-9 PatentMT Evaluation” ，

Proceedings of NTCIR-9 Workshop Meeting，pp.579-584，2011.

図 2 設計中の紙論文の認識画面

表 1 重要語抽出の実験結果

手法名単語数計測時間(sec) 正解率

TF (baseline) 519 0.015 0.400(12/30)

100 19.87 0.533(16/30)

519 116.23 0.533(16/30)

100 5.29 0.433(13/30)

519 145.21 0.167( 5/30)

TF-IDF

PageRank

doc2vecを利用した観光スポット類似度の検討Examination of sightseeing spot similarity using doc2vec

中川智也

Tomoya Nakagawa



概要インターネットの普及に伴い，ウェブ上には観

光スポットに関する情報も多く存在する．本稿では，

Yahoo!知恵袋に観光スポットに関する質問が投稿され

ていることに着目する．各観光スポットに関する質問

を doc2vec でベクトル化し，それを各観光スポットの

特徴ベクトルとする．そして，各観光スポットの特徴

ベクトルの類似度を算出し，これを観光スポットの類

似度として，評価を行う．

1 はじめに

近年，スマートフォンなどの通信機器の普及率が 9

割を超え [1]，インターネット上の情報にアクセスでき

る人口が大幅に増加した．さらに様々なネットサービ

スが登場し，人々が簡単にインターネット上で触れ合

い，意見や価値観を共有できるようになった．そのよ

うな人々の中には，これから計画している観光プラン

について質問する人や，観光体験情報を発信して知人

と共有する人がいる．

観光客が訪問する観光スポットを決める際，歴史的

な物に興味がある観光客は城や寺社仏閣，ショッピン

グに興味がある観光客は商店街やショッピングモール

等似たジャンルの観光スポットを選出しやすい．

本稿では，インターネット上の情報から観光スポッ

ト間の類似度を算出し，似た観光スポットを発見する．

Yahoo!知恵袋 [2] に投稿されている岡山県内の観光ス

ポットに関する質問に注目し，各観光スポットの特徴

ベクトルを求め，特徴ベクトルの類似度を算出する．

2 特徴ベクトル算出と類似度算出

本節では，Yahoo!知恵袋に投稿された観光スポット

に関する質問から各観光スポットの特徴ベクトルを求

め，この特徴ベクトルを用いて観光スポットの類似度

を算出する手法を説明する．

2.1 観光スポットに関する質問収集

Yahoo!知恵袋に投稿された質問の収集には Yahoo!

知恵袋の質問検索 API[3] を用いる．Yahoo!知恵袋は

質問の投稿時に，その質問のカテゴリを指定すること

ができる．旅行カテゴリの質問には，観光目的に関す

る記述が強く表れるため，「地域，旅行，おでかけ」カ

テゴリ下の「国内」カテゴリに投稿された質問を用い

る．本稿では，岡山県内の観光スポット名をクエリと

表 1: 岡山県内の代表的な観光スポットの質問数

観光スポット質問数

岡山後楽園 54

岡山城 280

美観地区 622

大原美術館 118

湯原温泉 176

して「国内」カテゴリの質問を収集する．このとき，観

光スポットの中には観光スポット名が曖昧なものが存

在する．例えば，岡山県内のレストラン「小樽」をクエ

リとして検索しても，北海道の「小樽」に関する質問も

ヒットする．そこで，[4]で提案した doc2vecと SVM

を用いる手法でこの曖昧性を解消しておく．

2.2 質問のベクトル化

曖昧性の解消された Yahoo!知恵袋の質問を，para-

graph vectorの実装の 1つである doc2vec[5]を用いて

ベクトル化を行う．paragraph vectorは，単語の特徴

を低次元な数値ベクトルで表現する word2vec[6][7] の

ベクトル化の対象を文章に拡張したものである．似た

文章からは似たベクトルが生成される性質がある．例

えば城や寺社仏閣に関する文章には歴史に関する単語

が共通して現れるため，似たベクトルが生成される．

2.3 特徴ベクトルの算出

2.2節で述べた質問ベクトルから各観光スポットの特

徴ベクトルを算出する．各観光スポットについて，そ

れぞれの観光スポットに関する全質問のベクトルから

重心ベクトルを算出する．これを観光スポットの特徴

ベクトルと定義する．

2.4 特徴ベクトルを用いた類似度算出

観光スポットの特徴ベクトルの類似度を算出し，こ

れを観光スポットの類似度とする．類似度にはコサイ

ン類似度を用いる．

3 評価実験

3.1 実験に使用した質問

岡山県内の観光スポット 161件について，2.1節で述

べた手法で収集した質問のうち，代表的な観光スポッ

トに関する質問数を表 1に示す．

表 2: 岡山後楽園に類似した観光スポット

観光スポット類似度

岡山城 0.92

大原美術館　 0.89

美観地区 0.85

井倉洞 0.77

吉備津神社 0.75

3.2 類似スポットの発見

まず，収集した質問を使って算出した岡山後楽園と

類似した観光スポットとその類似度を表 2 に示す．岡

山後楽園は江戸時代初期に造営された庭園であり，広

い芝生地や季節で移り変わる植物など，景観を楽しむ

ことができる観光スポットである．

類似度が最も高い岡山城は岡山後楽園の隣に位置し

ている安土桃山時代に建てられた城である．こちらも

歴史のある観光スポットで，城の造りや天守閣から岡

山後楽園や岡山の街並みが望め，景観を楽しむ観光ス

ポットと言える．岡山市の観光情報サイト [8]でも岡山

後楽園と岡山城のどちらも訪れるコースをモデルコー

スとして提案しており，岡山後楽園を訪れる観光客に

岡山城を薦めるのは適切と言える．

大原美術館と美観地区は倉敷市に位置しており，歴

史的価値のある美術品や江戸時代の街並みを楽しむこ

とができる．これらも観光情報サイトのモデルコース

で岡山後楽園と共に訪れるよう提案されており，岡山

後楽園を訪れる観光客に薦めるのは適切と言える．

次に，岡山県北にある湯原温泉と類似した観光スポッ

トとその類似度をを表 3 に示す．湯原温泉は西の横綱

露天風呂と評されており，低張性アルカリ高温泉を楽

しむことができる観光スポットである．

類似度が高い湯郷温泉，奥津温泉は，湯原温泉と合わ

せて美作三湯と称されており，どれも質の高い温泉を

体験することができる，似た性質を持つ観光スポット

と言える．

神庭の滝は，湯原温泉から 10kmほどの場所に位置し

ている滝である．神庭の滝は体験ができる観光スポッ

トではなく，滝の豪快さや周囲の自然などの景観を楽

しむ観光スポットであるが，類似度が高くなっている．

これは，質問の中に所在地を示す単語が含まれており，

特徴ベクトルの類似度が高くなったためと考えられる．

3.3 類似度の応用例

類似度を観光ルート推薦 [9]のスコアとして加える．

観光開始地点を岡山大学，終了地点を岡山駅とすると

岡山大学→吉備津神社→吉備津彦神社→岡山後楽園→

夢二郷土美術館→岡山城→岡山駅というルートが推薦

された．推薦された各観光スポットと岡山後楽園の類

表 3: 湯原温泉に類似した観光スポット

観光スポット類似度

湯郷温泉 0.89

奥津温泉 0.77

神庭の滝 0.71

蒜山高原 0.68

美観地区 0.63

似度の平均は 0.76だった．一方類似度を用いない場合

は，岡山大学→吉備津神社→吉備津彦神社→岡山後楽

園→岡山県立博物館→岡山城→岡山駅というルートが

推薦され，岡山後楽園の類似度の平均は 0.58 だった．

類似度をスコアに加えることで，岡山後楽園により類

似した観光スポットを推薦することが可能になる．

4 まとめ

本稿では，Yahoo!知恵袋に投稿されている質問から

観光スポットの特徴ベクトルを生成し，観光スポット

の類似度を算出した．岡山後楽園と湯原温泉の類似度

が高い観光スポットを発見する評価実験を行った結果，

どちらの観光スポットもそれぞれ似た性質を持つ観光

スポットが発見された．また，質問内に地名が共通す

るために特徴ベクトルが似た，地理的に近い観光スポッ

トも発見された．

参考文献[1] “ 総務省 ICT サービスの利用動向 ”，

http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h28/html/nc252110.html.

[2] “Yahoo!知恵袋”， https://chiebukuro.yahoo.co.jp/.

[3] “Yahoo!デベロッパーネットワークトップ”，http://developer.yahoo.co.jp/webapi/chiebukuro/chiebukuro/v1/questionsearch.html.

[4] 中川智也，新妻弘崇，太田学，“Yahoo!知恵袋を利用した施設名の曖昧性解消手法の提案”，第 9 回データ工学と情報マネジメントに関するフォーラム，2017.

[5] Quoc V, Le and Tomas Mikolov，“DistributedRepresentations of Sentences and Documents”，In Proceedings of The 31st International Confer-ence on Machine Learning，pp. 1188-1196，2014.

[6] Mikolov，T.，Sutskever，I.，Chen，K.，CorradoG. and Dean，J.，“Distributed representations ofwords and phrases and their compositionality”，Advances in Neural Information Processing Sys-tems，pp．3111-3119，2013.

[7] Mikolov，T.，Chen，K.，Corrado G. and Dean，J.“Efficient　 estimation of word representations invector space”， arXiv preprint arXiv:1301.3781，pp．1-12，2013．

[8]“おかやま観光ネット”，https://okayama-kanko.net/sightseeing/index.php．

[9] 中川智也，新妻弘崇，太田学，“マイクロブログを利用した観光ルート推薦における移動効率の改善”，第8回データ工学と情報マネジメントに関するフォーラム，2016．.

CRFによる参考文献書誌情報抽出のための辞書の整理Refining lexicons for CRF-based bibliography extraction from reference strings

松岡大樹

Daiki Matsuoka



概要学術論文の参考文献欄には，著者名やタイトルな

どの有用な書誌情報が集約されている．本研究では，

Conditional Random Field（CRF）を用いて参考文献文字列から書誌情報を自動抽出するが，CRFで利用する素性が抽出精度を決定する．これまでの研究から，高

精度抽出には辞書素性が有効であることがわかってい

るため，本研究では，辞書を整理して抽出精度の変化を

実験により確認する．

1 はじめに膨大な文書が格納されている電子図書館では，検索

やソート，文書間リンクなどの機能は必須と言える．

しかし，そのための書誌情報を人手でデータベースに

登録するコストは膨大である．そこで本研究では，川

上ら [1]と同様に，自然言語処理などのさまざまな分野で利用されている識別モデルの一つである CRFを用いて参考文献文字列から書誌情報を自動抽出する．[2]から， CRFによる参考文献書誌情報抽出には，辞書素性が有効であることがわかっているが，現在，同名のエ

ントリが複数の辞書に存在している．そこで本稿では，

辞書を整理して抽出精度の変化を実験により確認する．

2 CRFによる書誌情報抽出2.1 書誌情報抽出

本研究では，標準的なチェーンモデルの CRF[3]の定義を用いて，参考文献文字列をトークン列に変換し，そ

のトークン列に書誌要素ラベルを付与することで書誌

情報を自動抽出する．ゆえに，本研究では CRFを 2回適用するが，本稿では，書誌要素ラベル付与の精度を確

認するため，トークン化は人手で行っている．付与す

る書誌要素ラベルは，Author や Editor など 18 種類を定義している．

2.2 素性テンプレート

本研究では，工藤らが作成した CRF++*1を利用して書誌情報を抽出する．CRF++の素性テンプレートとして，58種類の Unigram素性と 1種類の Bigram素性の合計 59種類の素性を用いる．Unigram素性には，トークンの出現位置や文字数，トークンを構成する文字種

とその割合などがある．また，Bigram素性は付与され

*1 http://taku910.github.io/crfpp/

る書誌要素ラベルの連接に関する情報を表し，これに

より，例えば，著者名の後にタイトルがくるといった書

誌要素の出現順に関する制約を考慮することができる．

3 辞書の整理現在，素性として使用している辞書を表 1の前方 3列

にまとめる．これらの辞書には同名のエントリが存在

している．例えば，辞書Name (E)とMonthに “March”というエントリが存在する．しかし，実験で使用する

3 つの論文誌である，電子情報通信学会和文論文誌(IEICE-J)，電子情報通信学会英文論文誌 (IEICE-E)，情報処理学会論文誌 (IPSJ)の参考文献文字列に含まれる“March” というトークンには，Month のラベルが付与されている．そのため，このエントリはMonthの辞書のみにあるほうがよい．本稿では，重複するエントリ

を 1 つの辞書にのみ残し，辞書を整理することにより書誌情報抽出精度を評価する．

辞書を整理する手順として，まず，辞書に重複して現

れるエントリを抽出する．このとき抽出されたユニー

クなエントリは 7,309 件であった．次に，抽出されたエントリが実験で使用する 3 論文誌に含まれるトークンに完全一致，前方一致，後方一致，部分一致のいず

れかで一致する場合，そのトークンに付与されている

書誌要素ラベルをカウントする．そして，最も多く付

与されたラベルによって，そのエントリを残す辞書を

決定する．辞書とそれを決める書誌要素の対応を表 1に示す．Name (E) から Conference までの辞書は，それぞれの辞書の内容に類似する書誌要素に対応させ，

残る書誌要素の場合は全て Societyを残す辞書とした．例えば，あるエントリに一致するトークンに Editorのラベルが最も多く付与されていた場合，Name (E)の辞書にそのエントリを残し，それ以外の辞書から，その

エントリと同名のエントリを削除する．このとき，残

すとされた辞書にそのエントリがない場合はその辞書

に追加する．ただし，3論文誌のどのトークンにも一致しないエントリは，辞書が重複していても削除しない．

また，Name (J)においては，重複エントリが存在しなかったため，変更しなかった．

表 1: 辞書の整理

辞書名内容エントリ数（整理前）対応する書誌要素エントリ数（整理後）変化量

Name (E) 人名（英語） 97,941 Author, Editor, Translator, Author Other 93,055 -4,886Name (J) 人名（日本語） 10,425 – 10,425 –Month 月名 50 Month 49 -1Place 地名 44,925 Location 43,525 -1,400Publisher 出版社名 3,718 Publisher 3,673 -45Journal 論文誌名 97,646 Journal 97,424 -242Conference 会議名 3,204 Conference 3,214 +10Society 委員会名など 442 Title, Booktitle, Volume, Number, Page,

Day, Year, URL, Other1,080 +638

表 2: 辞書ごとの重複エントリ数

Name (E) Month Place Publisher Journal Conference SocietyName (E) (3,945) 12 3,222 84 106 135 37Month – (1) 2 0 0 0 0Place – – (0) 58 42 0 34Publisher – – – (1) 34 7 2Journal – – – – (0) 0 0Conference – – – – – (0) 1Society – – – – – – (0)

4 評価実験4.1 実験環境

辞書の整理による抽出精度の変化を評価するために，

電子情報通信学会和文論文誌（IEICE-J）4,787 件，電子情報通信学会英文論文誌（IEICE-E）4,497件，情報処理学会論文誌（IPSJ）4,574件の参考文献文字列データを使用する．また，評価指標として，一つの参考文

献文字列に含まれる書誌情報が過不足なく抽出された

参考文献文字列数を全参考文献文字列数で割ったもの

を書誌情報抽出精度とし，この精度は 5 分割交差検定を用いて算出する．評価の際には，荒内ら [4] の研究にならって書誌要素を再分類する．このとき，Author，Editor，Translator，Author Other は AUTHOR，Title，Booktitleは TITLE，Journal，Conferenceは JOURNAL，Location，URL，Otherは OTHERに分類し，正解判定において区別しない．

4.2 実験結果

整理後の辞書のエントリ数を表 1の後方 2列に示す．表 1より，Name (E)と Placeの辞書に重複するエントリが多く存在していたことがわかる．また，Societyのエントリ数が大幅に増加したこともわかる．重複した

エントリの数を表 2 に示す．表 2 から，Name (E) の辞書内の重複，および Place との重複が多いことがわかる．辞書の整理前後の書誌情報抽出精度を表 3 に示す．表 3 より，整理後の抽出精度はどの論文誌でも整理前より低下した．本実験において，書誌要素との対応

が明白な辞書は，Name (E)，Month，Place，Publisher，Journal，Conferenceの 6つしかなく，全ての書誌要素に対応する辞書があるわけではない．そこで，今後は，

表 3: 辞書の整理前後の書誌情報抽出精度

論文誌整理前整理後

IEICE-J 0.9695 0.9683IEICE-E 0.9726 0.9706IPSJ 0.9700 0.9694

書誌要素ごとに辞書を作成し，書誌要素と辞書を 1対 1に対応付けて抽出精度の評価を行う予定である．また，

どのラベルが間違って付与されているのか確認し，そ

の修正方法を検討したい．

5 おわりに本稿では，辞書を整理して参考文献書誌情報の抽出

精度の変化を確認したが，どの論文誌においても抽出

精度が低下した．今後は，辞書の整理方法についてさ

らに検討するとともに，Deep Neural Networkを用いた書誌情報抽出器を構築し，現在の CRFを用いた書誌情報抽出器との精度比較を行う予定である．

参考文献[1] 川上尚慶，太田学，高須淳宏，安達淳，“少量学習データによる参考文献書誌情報抽出精度の向上，情報処理学会論文誌データベース”，Vol. 8，No. 2，pp. 112，2015．

[2] D. Matsuoka, M. Ohta, A. Takasu, and J. Adachi, “Examination ofEffective Features for CRF-Based Bibliography Extraction fromReference Strings”, In Proc. of ICDIM 2016, pp. 243-248, 2016.

[3] J. Lafferty, A. McCallum, and F. Pereira, “Conditional RandomFields : Probabilistic Models for Segmenting and Labeling Se-quence Data”, In Proc. of 18th International Conference on Ma-chine Learning, pp. 282289, 2001.

[4] 荒内大貴，太田学，高須淳宏，安達淳，“CRF による和英文の参考文献文字列からの自動書誌要素抽出”，情報処理学会研究報告，Vol. 2012-DBS-156，No. 1，pp. 18，2012．

ニューラルネットワークによる英文空所補充問題の解法の検討Examination of solution of cloze deletion test for English sentences by neural network

玉城悠仁

Haruhito Tamaki



概要語学学習においては機械による誤り検出や誤り訂

正によって学習者を支援することが期待されている．

特に近年は，ニューラルネットワークを用いた自然言

語処理の研究が盛んに行われており，誤り検出や誤り

訂正にも応用されている．本研究では英文空所補充問

題を対象にニューラルネットワークの自然言語処理性

能を確認する．大学入試センター試験の空所補充問題

について実験を行い，その正答率を評価した．

1 はじめに現在，日本人の多くが，第二言語として英語を学ん

でいる．しかし，英語を母語としない日本人にとって，

正しい英語の使い分けは難しく，日本人の英作文には

様々な誤りがしばしば見られる．

そういった学習者を支援するために誤り検出や誤り

訂正の研究が行われているが，近年はニューラルネッ

トワーク (neural network; NN)を用いた手法が提案さ

れている．Xieら [1]は NNを用いたキャラクタベース

の文法誤り訂正モデルを作成し，代表的なベンチマー

クデータセットである CoNLL-2014 Shared Task デー

タセットにおいて高い性能を示した．また，小山田ら

[2]は Xieらのモデルを改良し，誤り訂正理由も同時に

推定するモデルを作成し，ほぼ同等の性能を示した．

本研究では，ニューラルネットワークによる誤り検

出や誤り訂正の可能性を探るため，英文の空所補充問

題への適用を試み，その性能を確認する．

2 提案手法本研究では NN を用いた英文空所補充問題の解答

に取り組む．NN のモデルとしては主に Long Short-

term Memory (LSTM) を用いる．NN のデータとし

ては，英語版Wikipediaから得られた英文を学習デー

タとし，大学入試センター試験の英文空所補充問題をテ

ストデータとした．テストデータとしては例えば “We

have to find {results，causes，solutions，benefits} tothe world’ s environmental problems.” などが与えら

れる．{}が空所部分を表し，{}内の各単語が選択肢を表す．この例の正答は solutionsであり，これを予測す

るモデルを作成する．

2.1 データの前処理

空所に入る語を予想する際，空所の前後の内容にそ

の根拠となる情報が含まれていると考えられる．そこ

で，英文の順方向に次の空所に入る語を予測すると同

時に，逆方向に前の空所に入る語を予測し，両者の予測

結果をマージして出力する単語ベースの双方向モデル

を作成した．このモデルでは空所を含む英文が与えら

れると空所の前後 10単語ずつから空所に入る単語を予

測する．そのため，空所の前後に 10単語以上ある入力

に対しては，空所から 10単語以上離れている部分を予

測には用いない．

2.2 ネットワーク構造

実験で用いるネットワークの構造を図 1に示す．図 1

において (Input Layerは入力層，LSTMは LSTM層，

Addはマージ層，Denseは全結合層，forardは順方向

に，reverseは逆方向に予測することを表す．

空所を 1 箇所含む問題が 1 問以上与えられるとそれ

をリストに変換し，ネットワークの入力として与える．

最初の入力は one-hot 表現の 3 次元のリストであり，

各問題の何単語目にどの単語が含まれているかを表す．

LSTMは再帰型 NNの一つであり，与えられた単語

群を見てそれらの次に来る単語などを出力するユニッ

トである．マージ層では二つの LSTM層の出力を加算

し，次の層へ出力する．最後に全結合層をもち，その後

に Softmax関数による確率の推定処理を行う．

最終的に得られる出力は 2 次元のリストであり，各

図 1: 実験で用いるネットワーク

問題の問題の空所に入る各単語の確率を表す．

3 評価実験3.1 実験データ

学習データには 2016 年 11 月 1 日時点での英語版

Wikipedia の記事データを整形し，そこから無作為に

抽出した英文を使用した．これらの文には 31,562種類

の英単語が含まれており，約 1.5MBの大きさのデータ

である．学習の際にはこの英文から 21語の組み合わせ

を，開始位置を 3語間隔で抽出する．83,907の組み合

わせが抽出され，各組み合わせの前半 10 語と後半 10

語を入力に，中央の 1 語をその入力に対する出力に用

いる．

テストデータには 2000年度から 2016年度に行われ

た大学入試センター試験の本試験の大問 2Aのうち，空

所の選択肢が全て単語 1語であり，かつ空所の前後に 5

語以上ずつ単語が含まれている問題 34問を使用した．

3.2 性能評価

モデルの性能は以下の二つの観点で評価し，それぞ

れ実験 1，実験 2と呼ぶ．また，評価尺度にはモデルが

選択した語と正答の語の一致率，すなわち正解率を用

いる．

実験 1 選択肢四つのうち，どの単語が最も適切か選択

できるか．

実験 2 選択肢を与えないで空所に入る語を予測でき

るか．

本研究では用いるモデルは入力から空所に入る単語

の確率を予測する．実験 1 ではこの確率を用いて選択

肢の 4 語から最も確率の高い語を空所に入る語として

決定する．

実験 2 では，確率が最大となる単語 1 語のみを常に

用いると過学習の問題が生じる．そのため，予測した

確率に基づいて生成した単語を利用する．この生成の

際に乱数を用いるため各回で異なる結果となる場合が

ある．そのため，実験 2 においては同じテストデータ

で 10回実験を行い，その合計で正解率を算出する．

実験結果を表 1に示す．実験 1は 4語の中から 1語

選び，実験 2は 31,562語の中から 1語選ぶ形式である

ので無作為に選んだ場合よりは高い正解率となったが，

実験 1と実験 2のいずれにおいてもあまり高い精度は

得られなかった．

表 1: モデルによる問題の解答結果

正解の問題数不正解の問題数正解率 (%)

実験 1 11 23 32.4

実験 2 1 339 0.294

3.3 考察

実験 1 において選択肢の 4 語が全単語のうち何番

目に高い確率であったかを確認した．正解した問題

の中にも確率の順位が低いものも見られた．例えば

“I’ m going to use e-mail to keep in {exchange，mind，touch，relation} with my friends in New Zealand.”という問題がある．各単語の確率の順位は exchange:

14,830, mind: 2,674, touch: 2,659, relation: 4,855で

あった．この問題には正答の touch が最も高い順位と

予想されてはいるが，2,659という順位は,単語全体の

中から正解を絞り込めているとは言い難い．

また，各問題に対して確率の上位 10件を確認したと

ころ上位 10件に含まれる単語は，“and”，“in”，“of”，

“was” など，どれも頻出する接続詞，前置詞，be動詞，

冠詞および “not”の 25種類のみであり，一般動詞や名

詞は現れなかった．

実験 2 において唯一正解した問題は “The fans

waited outside the door in the hope {for，of，to，with} catching sight of the movie star.” であり，正答は ofである．どの単語も順位の高い語であったため

正答である ofが選ばれたと考えられる．

これらのように現在のモデルでは前後の文脈から空

所を判断しているというよりも，頻出しやすい単語の

影響を受けていると考えられる．また，選択肢の中に

は学習データから作成した単語リストに含まれていな

い語もあった．今回はそれらの語が正答である問題は

無かったが，もし，このような語が正答である場合には

現在のモデルでは正解することができない．

今回使用したモデルはハイパーパラメータの調整を

していないため，学習データの拡張やハイパーパラメー

タの検証も今後の課題であるといえる．

4 まとめ本研究では NN を用いて英文空所補充問題に解答に

取り組んだ．LSTMを用いた双方向モデルにより大学

入試センター試験の問題の解答に取り組んだが，あま

り高い精度は得られなかった．現在のモデルは頻出語

の影響を強く受けすぎていると考えられるため，学習

データの与え方の工夫やハイパーパラメータの調整に

より，前後の文脈をより考慮するように改善すること

が今後の課題である．

参考文献[1] Z. Xie, A. Avati, N. Arivazhagan, D. Juraf-

sky, and A. Y. Ng. Neural language correctionwith character-based attention. arXiv:1603.09727[cs.CL], 2016.

[2] 小山田創哲, 兼村厚範, 石井信, “根拠を明示するニューラル文法誤り訂正”, DEIM Forum 2017,G4-3, 2017.

Flickrを利用した観光スポットの発見方法の検討 Examination of discovery of sightseeing spots using Flickr

陳嘉穎 Jiaying Chen


概要投稿型写真サイト Flickr 上に世界中の人々が投稿し

た旅行写真が膨大に蓄積されている．写真は撮影者の興

味・関心を写しているものと考えられるため，これを活用

した観光行動の分析や観光情報ツールの開発など多数行わ

れてきた．本稿では， Flickr に投稿された写真のデータセ

ットから，緯度経度情報を抽出する．そして Google Mapを

用いて緯度経度情報の施設名を明らかにして整理すること

で，観光スポットを発見する方法について検討する．

1 はじめに

近年，デジタルカメラやスマートフォンの普及により，

人々は日常生活や観光などにおいて，気軽に写真を撮影す

ることができるようになった．それらの写真の中には，機

器に付与されている GPS 機能によって，写真を撮影した地

点のジオタグが付与されているものが存在する．ジオタグ

とは，写真などに付加される緯度経度情報などのメタデー

タのことである．また，撮影した写真を Flickr のような写

真投稿サイトで共有するユーザも増加している．Flickr の

投稿には写真だけでなく，テキストやハッシュタグ，位置

情報，投稿時間などさまざまな情報が付随する．これらの

情報も写真のメタデータである．写真は撮影者の興味・関

心を写しているものと考えられるため，写真に付与されて

いるメタデータを解析することにより，観光スポットに関

係する情報が発見できる．このメタデータは非常に大量の

データが存在するため，大量のデータに埋もれた，穴場の

観光スポットを発見するのに有用な情報が得られる可能性

がある．本稿では，Flickr に投稿された写真に付与されて

いる緯度経度情報を抽出し，整理することにより，観光ス

ポットと穴場スポットを発見する方法について検討する．

2 観光スポットの発見方法

2.1 データセット

YFCC100M とは，写真投稿サイト Flickr に投稿されたお

よそ 1億枚のラベル付き写真と 80万個の動画のデータセッ

トのことである[1]．本稿では，このYFCC100Mのメタデー

タの分析を行う．

2.2 観光スポットの発見

YFCC100M のメタデータは表 1 にまとめられる．

yfcc100m_dataset.csv には写真/動画を投稿したユーザ ID や，

緯度経度情報などのメタデータが保存されている．

yfcc100m_places.csv には写真を撮影した地点名といった位

置情報が存在することがあるが，このような情報は少ない

ので，本稿では，yfcc100m_dataset.csv から緯度経度情報を

抽出する．そして Google Mapを用いて，それぞれの緯度経

度に対応する施設名を獲得する．人々が多くの写真を撮影

した地点には，人々が興味・関心のある場所が含まれてい

るので，観光スポットが存在する可能性が高い．本稿では

出現する頻度の高い地点を頻出スポットと定義する．頻出

スポットの中から観光スポットと穴場の観光スポットを発

見する方法について検討する．

3 評価実験

評価実験では，yfcc100m_dataset.csv から京都駅を中心と

する半径 20キロメートル範囲内の緯度経度情報を実験デー

タとして 500件抽出し，Google Mapを用いて，それぞれの

緯度経度に対応する施設名を手動で確認して，頻出スポッ

トを抽出した．

抽出された 500件の緯度経度のうち，Google Mapで施設

名が判別できないものが 66 件存在した．この 66 件は主に

山の中を表しており，緯度経度に対応する施設名は表示さ

れず，住所しか出てこなかった．だが，この中に穴場の観

光スポットが含まれる可能性が高いので，この 66件を対象

に，Google Map の航空写真を用いて，緯度経度を示す地点

とその周辺の施設を再度確認した．結果として，66 件のほ

とんどは有名な観光地ではなく，そのうち 26件が一戸建て

であった． 26件のうち， 1件の緯度経度のみ 4回出現した

ため，調べると「キーズカフェ京都八坂の塔」という店で

あった．残りの 40件の中にも，頻出スポットがあった．ま

た，500 件のうち，滋賀県大津市の緯度経度が 8 件抽出さ

れ，それ以外すべて京都府の緯度経度であった．本実験は

京都府内の観光スポットの調査が目的のため，この 8 件の

詳細は調べなかった．

本実験は 8件の滋賀県の緯度経度を除いて，492件の緯度

経度に対応する施設名を獲得し，図 1 に示すように 6 カテ

ゴリに分類した．ここで「地名」は，施設名として○○町，

○○通が表示されたところである．「その他」に入るのは，

一戸建てやビルなどである．図 2 は上位の頻出スポットで

ある．オレンジ色は 66 件の施設名が判別できなくて，

CSVファイル名メタデータの種類

yfcc100m_autotags.csv 各ラベルのスコア

yfcc100m_dataset.csv ユーザ ID，緯度経度など

yfcc100m_exif.csv 画像の EXIF情報

yfcc100m_places.csv 地名など位置情報

表 1：YFCC100Mのメタデータ

Google Map の航空写真で施設名を定めた頻出スポットであ

る．

4 考察

図1より，本実験で抽出された492件の緯度経度のうち，

「寺・神社・歴史的建造物」が 43%を占めて，約半数であ

る．図 2 より，最も出現頻度の高いのは「二条城」で，次

は「清水寺」と「京都御苑」である．図 2 に示した頻出ス

ポットの中で，「京都駅」，「嵐山駅」は駅で，観光者は

旅行中に行く可能性が高いが，観光スポットではないと考

える．また「室町通」は地名で，「Bella casa」はマンショ

ンであるため，この 2つも観光スポットではないと考える

図 2に示すオレンジの頻出スポットは 66件の施設名が判別

できないものであるため，この中に穴場の観光スポットが

存在する可能性がある．穴場の観光スポットというのは，

知名度が低いが，ほかの地点と比べて同等以上の満足が得

られる地点である[5]．オレンジの頻出スポットの中で，

「キーズカフェ京都八坂の塔店」は「嵐山駅」と同じ頻度

で出現した．また，トリップアドバイザー日本[4]により，

キーズカフェ京都八坂の塔店は 77件の口コミがあり，その

うち86%は「とてもよい」で，京都市のレストラン1,774軒

中 47位である．したがって，「キーズカフェ京都八坂の塔

店」は穴場の観光スポットである可能性が高いと考える．

評価実験では用いたデータ量が少なく，今後データを増

やす予定である．また，Google Map を使い手動で施設名を

獲得したが， Google Places APIの利用を予定している．そ

して，緯度経度を施設名に変換する前に，緯度経度情報の

統計処理を行うことを考えている．例えば，1 件の緯度経

度を中心とする半径 20メートルの円を同じ地点とみなす．

これにより，施設の広さによらない分析が可能となる．

5 まとめ

本稿では，Flickr に投稿された写真の緯度経度情報を抽

出し，Google Map でそれぞれの緯度経度に対応する施設名

を手動で確認し，観光スポットかどうかを判別した．また，

評価実験では Flickr のデータセットから 500 件の緯度経度

を抽出して，京都の観光スポットついて検討した．

6 参考文献

[1] “1 億枚ラベル付き画像データセット Yahoo Flickr

Creative Commons 100M(YFCC100M)を使う”．Qiita．

2017-4-18．http://qiita.com/_akisato/items/66deb481ea3cedf388fa

[2] 桜川直洋，廣田雅春，石川博，横山昌平，“ ジオタグ

付き写真を用いたイベントとその穴場スポットの発

見”，DEIM Forum 2016 H5-3，2016．

[3] 藤井慎太郎，加藤大受，遠藤雅樹，荘司慶行，廣田雅

春，石川博，“ジオタグ付き写真を用いた意外な写真

を撮影できる外れ値的な撮影条件の発見”，DEIM

Forum 2017 D3-3，2017．

[4] トリップアドバイザー日本．https://www.tripadvisor.jp/

[5] 西脇達也，北山大輔，“写真共有サイトを用いた穴場

スポットの抽出”，DEIM Forum 2015 P4-5，2015．

図 2：上位の頻出スポット

図 2：上位の頻出スポット

図 1：緯度経度情報 492件の内訳

http://qiita.com/_akisato/items/66deb481ea3cedf388fahttps://www.tripadvisor.jp/

重回帰分析を用いた土地価格推定モデルの検討 Examination of estimation models of land price by using multiple regression analysis

加藤暢之

Nobuyuki Kato


概要

Web 上に公開されている不動産の情報は土地の売買や部屋

の賃貸を行う際に有益な情報源となるが，ユーザの要求に合

致する土地物件を膨大な物件の中から発見するのは容易では

ない．そこで本研究では，ユーザの要求を満たす不動産情報

発見の支援を目的として，土地物件の価格推定を行うモデル

について検討する．本研究では，不動産ポータルサイトから

得た情報をもとに重回帰分析による土地価格推定モデルを作

成し，10分割交差検定により評価する．

1. はじめに

近年 Web上にはあらゆる情報が蓄積され，その量は加速度

的に膨れ上がっている．不動産情報もその一つであり，不動

産仲介業者のもつ情報が集約された不動産ポータルサイトが

いくつか存在している．本稿では，この不動産情報を Webか

ら収集し，重回帰分析を適用してその情報の関係を調べる．2

節でデータの収集と整理の方法を説明する．3 節で評価実験

の説明とその考察をする．4 節ではまとめと今後の課題を述

べる．

2. 提案手法

2.1. Webスクレイピングによるデータの抽出

Python のモジュールである BeautifulSoup[1]により Web 上

に存在する HTMLをパースし，指定した地域の不動産情報を

抽出する．本稿では不動産ジャパン[2]の Web サイトの情報を

BeautifulSoup で収集する．不動産ジャパンは物件ごとのペー

ジレイアウが統一されているため，BeautifulSoup を適用しや

すいという特徴がある．抽出したのは岡山県内の土地情報

3076 件である．

2.2. データの整形

BeautifulSoupを使ったWebスクレイピングにより抽出した

不動産情報を，本稿では次のように分類し整理する．また，表

1に変換の例を示す．

坪単価(円/坪)

本実験の重回帰分析で目的変数とする項目であり，他の項

目はすべて説明変数である．坪単価の値はデータを数値とし

てそのまま用いる．

公示地価(円/㎡)

公示地価がテキスト形式で存在する Webサイトである「あ

なたの街の地価ランキング・地価マップ」[3] をスクレイピン

グすることで公示地価を抽出する．公示地価の開示がない地

域は同市の公示地価を平均した値を使用する．

土地面積(㎡)

表 1: データの変換例

項目名変換前変換後坪単価 2万 9,200(円/坪) 29200 公示地価岡山県岡山市北区関西町 140898 用途地域第一種居住区域 4 古家の有無有 1

土地面積は表 1 の坪単価の例と同様にデータの値を数値と

してそのまま使用する．

接道状況

接道状況は角地，準角地，二方路地，三方路地に 1 を，そ

れ以外には 0を与える．

用途地域

用途地域とは住居，商業，工業など市街地の大枠を定める

もので，本実験では 11の地域区分を居住に適していないほど

大きな値をとるように 0から 10で設定した．

容積率

容積率とは敷地面積に対する延床面積の割合であり，一般

的に容積率が高い方が土地価格は上昇する．容積率の数値は

表 1の坪単価と同様にそのまま用いる．

地目

土地の主たる用途により 23種に分類される．実験ではこれ

らに 0から 22の IDを振った．

地勢

地表面の垂直方向，水平方向の広がりの様相のことであり，

本実験では，地勢情報から読み取れる土地内の高低差，土地

の標高の 2点について 0または 1を設定した．

都市計画区域

都道府県が指定する無秩序な市街化を防ぐための地域区分

であり，大きく分けて市街化区域，市街化調整区域，その他に

分かれる．実験では市街化区域，市街化調整区域の 2 項目に

分けて 0または 1で設定した．

古家の有無

一般的には古家がある方が高値であるため，古家のない更

地の場合は 0を，古家がある場合には 1を与える．

また，Web 上にデータが無い場合はデフォルトである 0 と

して扱う．

以上のようにデータを変換して整理する．

2.3. 重回帰分析によるモデル作成

2.1節，2.2節により作成した物件データを使用して重回帰

分析を行う．重回帰分析に使用したのは scikit-learn[4]の線形

回帰モデルである．

このモデルを使って次の式で土地価格をモデル化した．

(坪単価)

= (公示地価) × (影響度) + ⋯ + (古家の有無) × (影響度)

+ (切片)

3. 評価実験

3.1. 実験内容

2 節で説明した提案手法によって作成された推定モデルに

ついて 2つの評価実験を行った．

実験 1

2 節の手法に従って重回帰分析による土地価格推定モデ

ルを作成する．結果は表 1 であり，標準偏回帰係数の大き

い順に並べ替えている．ここで標準偏回帰係数とは，説明

変数である項目を正規化した後に重回帰分析して求められ

た偏回帰係数である．標準偏回帰係数は偏回帰係数間で影

響力の比較ができる．

表 2: 土地価格推定モデル

項目名標準偏回帰係数公示地価 0.044251 土地面積 0.042976 容積率 0.016272 市街化区域 0.011733 標高 0.009989 地目 0.007477 高低差 0.005318 用途地域 0.003160 市街化調整区域 0.002930 接道状況 0.001709 古家 0.000199

実験 2

重回帰分析に使用する説明変数のうち 1 つを除外して実

験 1 と同様に重回帰分析を行い，作成されたモデルの係数

和と誤差をまとめる．

ここで誤差とは重回帰分析により作成した線形モデルに

テストデータを適用した計算結果と実際の坪単価の差の絶

対値のことである．

また係数和とは全ての項目の標準偏回帰係数を合計した

値であり，説明変数全体としての目的変数への影響力を表し

ている．

表 3: 係数和と誤差

係数和誤差全特徴 0.146433 16081.6

- 公示地価 0.127560 102286.7 - 土地面積 0.105386 124151.8 - 接道状況 0.145179 169566.0 - 用途地域 0.146625 161598.2 - 容積率 0.134463 178338.7 - 地目 0.145242 29341.3 - 高低差 0.139770 17282.2 -標高 0.137999 17208.1 - 市街化区域 0.159203 17080.6 - 市街化調整区域 0.142614 16061.5 - 古家 0.146091 16083.6

3.2. 考察

実験1では，説明変数間の影響力の大きさを比較しており，

表 2 より公示地価と土地面積が実験で使用した項目の中では

最も影響力が大きいことが分かる．目的変数と一致している

場合の標準偏回帰係数は 1 であるので，最も標準偏回帰係数

が高い項目で 0.04という値は低い．テストの内容を確認する

と，公示地価が明記されておらず同市の平均地価を使用して

いるテストデータでは精度が低いことが確認できた．このこ

とからも公示地価の正確さはモデルの誤差の大きさに関わっ

てくることが推測される．

実験 2 より，重回帰分析から除外した際に最も影響力が下

がった項目は土地面積と，次いで公示地価であることから，

この 2 項目はモデル作成において大きな影響を与えているこ

とが分かる．影響度がほぼ変化していないもしくは上昇した

項目は接道状況，用途地域，地目，市街化区域，古家の有無の

5 項目である．この中でも市街化区域は標準偏回帰係数も比

較的高いにも関わらず除外した際の係数和が上昇している．

これより，モデルの改善には市街化区域の改善が最も必要で

あることが分かる．

次に誤差に着目すると，誤差の変化が顕著に表れている項

目が公示地価，土地面積，接道状況，用途地域，容積率の 5項

目であると読み取れる．この 5 項目はモデル作成において欠

かせない要素となっている．地目はある程度誤差が増加して

いるため影響力をもっていると推測できるが，残り 5 項目に

ついては除外した際にほぼ誤差に変化がない．これらのうち

標準偏回帰係数が高い項目は市街化区域と標高である．この

2 項目は目的変数への影響力は大きいが誤差のにあまり影響

していないため，データを整形する際にパラメータを工夫す

る必要がある．

4. まとめ

本研究では不動産ポータルサイトからWebスクレイピング

で抽出したデータをもとに項目ごとにデータを整理し，整理

したデータを使用して重回帰分析を行い，土地価格推定モデ

ルを作成した．

作成したモデルを使用した評価実験ではWeb上のテキスト

データを数値やベクトルに変換する際に改善の余地があるこ

とが示唆された．具体的には公示地価に関して平均をとる範

囲を狭めることによる数値の精度向上が必要であり，都市区

域の正成分は単純なパラメータであるにも関わらずモデルに

対して良い影響を与えていない．また，公示地価のようにモ

デルを作成する際にデータの欠落している部分を補間する方

法はこれから検討していく必要がある．

参考文献 [1] Leonard Richardson, Beautiful Soup Documentation,

2016.09.09

[2] 不動産ジャパン, http://www.fudousan.or.jp/

[3] あなたの街の地価ランキング・地価マップ ,

http://www.tikara.jp/

[4] F. Pedregosa, G. Varoquaux, A. Framfort, V. Michel, B.

Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R.

Weiss, V. Dubourg, J. Vanderplas, A. Passos, D.

Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay,

Scikit-learn: Machine Learning in Python, pp. 2825-

2830, 2011

Paragraph Vectorにおける二分法を用いたパラメータサーチの検討 Examination of parameter search of Paragraph Vector using a bisection method

久保田大貴 Daiki Kubota


概要 Paragraph Vector を用いると文章を特徴ベクトルで表

すことができ，ベクトルの類似度から高精度な文書分類が

可能になる．ただしそのためには多数存在するパラメータ

をそれぞれ適切な値に設定する必要があるが，パラメータ

の数やその範囲が大きく，探索に膨大な時間がかかる．本

稿では低コストパラメータ探索手法である，二分法を用い

たパラメータサーチについて検討する．

1 はじめに

近年Mikolovらによって提案された word2vec[1][2]が様々

な用途で利用されている．word2vec とは単語をベクトルと

して表現する手法である．またこれを拡張し，同じ原理で

文章を特徴ベクトル化する Paragraph Vector(PV)も提案され

た[3]．PVは，bag of wordsなどの文章を分析する手法が語

順を考慮できない問題を解決した手法である．PVは映画の

レビューの分析などのタスクで，従来よりも高精度な分析

を実現している．しかし，新たな学習データに対して高精

度な推定を行うためには，パラメータの再調整が必要であ

る．しかし，パラメータの組み合わせは多数存在し，その

中から最適なパラメータ値を求めるには膨大な時間がかか

る．

原ら[4]は，効率的なパラメータサーチ(parameter search,

PS)として二分法とランダムパラメータサーチ (random

parameter search, RPS)を組み合わせた手法を提案し，PS を

効率化した．

本稿では，原らの提案した二分法に基づく方法を複数の

パラメータに適用できるように拡張し，より効率的な PSに

ついて検討する．

2 原らのパラメータサーチ手法

原ら[4]は，二分法と RPSを組み合わせた効率的な PS を

提案した．

原らの手法で，探索対象であるパラメータは以下の 4 種

類である．

alpha: 学習率

iter: 反復学習の回数

min_count: 学習範囲に含む単語の出現回数の最低値

window: 文脈を考慮するために関連付ける前後の単

語数

この 4 種類のパラメータのうち 1つを選択して二分法で

探索し，残りのパラメータに対しては RPSを行う．原らの

PS のアルゴリズムの詳細は次のようなものである．選択さ

れたパラメータの探索範囲の区間上限と区間下限を定める．

そして，RPSの回数 nと二分法の繰り返し回数 iを定める．

区間上限と区間下限の平均値を中間点とする．選択したパ

ラメータを区間上限，区間下限，中間点の 3 つの値で固定

し，それぞれの残りのパラメータについては全て RPS を n

回行う．その際，学習データの 5 分割交差検定を行った評

価の平均を正解率とする．区間上限と区間下限の正解率を

比較し，低い方の点を，中間点と置き換える．そして，新

たな区間上限と区間下限とそれらの中間点で同様の探索を i

回繰り返す．2 回目以降は前回の探索で区間上限と区間下

限の正解率は既に算出されているため，新たに求める正解

率は新たな中間点のみである．i回の探索が終わると，区間

上限と区間下限と中間点の内，最も正解率が高かったもの

を適切なパラメータ値として出力する．

この手法を用いる際，iter, min_count, window などの離散

値のパラメータにおいて，i回の探索内で中間点を算出する

際，離散値から外れるとエラーを出力する．

3 提案手法

原らの手法[4]は，1 つのパラメータに対し，二分法を用

いて PSを行っていた．本稿ではこれを複数のパラメータに

拡張する．RPS の回数を少なくすると，実行時間は短くな

るが，正解率が安定しなくなる．そこで複数のパラメータ

に同時に二分法を用いて PSを行うことで，正解率の安定性

を保ちつつ，実行時間の削減を目指す．

具体的には，原らの二分法の手法[4]を二次元と三次元に

拡張した手法を利用する．二次元の場合，二分法を用いる

パラメータを 2つ選択する．仮にそのパラメータを A, Bと

すると，Aと B のそれぞれの区間上限と区間下限の組み合

わせ 4組を作る．そして，RPS の回数 n と二分法の繰り返

し回数 i を定める．A=alpha，B=window の場合の提案手法

の実行例を図 1に示す．先ほどの 4組のA，B以外のパラメ

ータに対し，RPS を n 回行う．この際，原らの手法[4]と同

様に，学習データの 5 分割交差検定を行い，その評価の平

均を正解率とする．また，両パラメータの中間点について

もその他のパラメータについて RPSを n回行う．先ほどの

Aと Bのそれぞれの区間上限と区間下限の組み合わせ 4組

の正解率の中で最も高かった地点と中間点で新たに区間上

限と区間下限を定める．この探索を i 回繰り返す．この時，

新たに求める正解率は中間点を含め 3つ(図 1のオレンジの

点)である．i 回の探索が終わると，求めた中で，最も正解

率が高かった点を適切なパラメータ値として出力する．

三次元の場合も同様に行う．このとき，3 つのパラメー

タの区間上限と区間下限の組み合わせは 8 組存在するため，

新たに求める正解率は中間点を含め 7つである．

図 1: A=alpha，B=windowの場合の提案手法の実行例

4 評価実験

Stanford Sentiment Treebank Dataset[5]に含まれるレビュー

文を評価ラベル毎に分類する評価実験を行った．Stanford

Sentiment Treebank Datasetは，あらかじめ訓練データ 8,544

件とテストデータ 2,210 件に分割されており，それぞれの

各レビュー文に Very Negative, Negative, Neutral, Positive,

Very Positiveの 5種類の評価ラベルが付与されている．本実

験では訓練データ及びテストデータそれぞれ先頭 1000件を

利用する．表 1 に評価ラベル毎の文数を示す．使用した

1000件の内訳と，括弧内は全データの内訳である．

本実験で探索するパラメータは alpha, min_count, window

の 3つである．原らの実験では iterも探索対象に含めていた

が，最も実行時間に影響を与えるパラメータであるため，

本稿では iterは 7に固定した．探索するパラメータの値は 9

ずつ用意したため，本実験の二分法の繰り返し回数は 3 回

となる．表 2に探索するパラメータ一覧を示す．

三次元の二分法で探索する場合，23 回正解率を算出する

ので，RPS の回数は二次元の二分法の場合はそれぞれ 2 回，

一次元の二分法の場合はそれぞれ 5 回行い，全てのパラメ

ータをRPSで行う場合は 23回とした．よって正解率の算出

回数は二次元の二分法の場合 22回，一次元の二分法の場合

25回，全て RPSの場合 23回となる．

以上の結果とグリッドサーチによる最適パラメータで算

出した結果を表 3 に示す．二分法を適用するパラメータ名

でその他の全てパラメータに RPSを行う場合，グリッドサ

ーチした場合(grid_search)，全てのパラメータにRPSを行う

場合(all_random)をそれぞれ表している．正解率と実行時間

については，それぞれ 3 回の実行結果の平均を示す．また

最大と最小は 3 回の実行の中で，最も大きい正解率と最も

小さい正解率を表している．

5 考察

表 3より，二分法を用いた PSを二次元以上に拡張すると，

正解率をほぼ保ったまま，実行時間を約半分に短縮できる

ことが分かった．しかし，二次元の二分法よりも三次元の

二分法の方が実行時間は長くなった．全てのパラメータを

RPS で求めた手法の実行時間が最も短かったことから，二

分法を用いる手法は RPSより，少し時間がかかることが分

かった．

6 まとめ

本稿では，二分法を用いた効率的な PSについて述べた．

原らの手法を拡張したことで，実行時間においてより良い

表 1: Stanford Sentiment Treebank Datasetの評価ラベル数

評価ラベル訓練データ内訳

先頭 1000件(全件)

テストデータ内訳

先頭 1000件(全件)

Very Negative 8(1,092) 12(279)

Negative 42(2,218) 48(633)

Neutral 146(1,624) 144(389)

Positive 488(2,322) 434(510)

Very Positive 316(1,288) 362(399)

合計 1,000(8,544) 1,000(2,210)

表 2: 実験で探索したパラメータ一覧

パラメータ名探索するパラメータの値

alpha 0.025, 0.05, 0.075, 0.1, 0.125, 0.15, 0.175,

0.2, 0.225

min_count 1, 2, 3, 4, 5, 6, 7, 8, 9

window 1, 2, 3, 4, 5, 6, 7, 8, 9

表 3: 手法毎の正解率と実行時間

二分法を適用する

パラメータ(手法)

正解率最大最小実行時

間[sec]

alpha 0.493 0.495 0.491 776.7

min_count 0.494 0.495 0.493 1,000.2

window 0.496 0.500 0.492 986.8

alpha, min_count 0.493 0.494 0.490 462.9

alpha, window 0.492 0.494 0.490 462.7

min_count, window 0.493 0.494 0.490 481.8

alpha, min_count,

window

0.494 - - 528.7

grid_search 0.502 - - 12,810.0

all_ramdom 0.493 0.496 0.489 400.0

結果を示したが，原らの手法[4]に比べて精度を改善する

には至らず，さらなる検討が必要である．

参考文献

[1] Mikolov, T., Sutskever, I., Chen, K., Corrado G. and Dean, J.:

Distributed representations of words and phrases and their

compositionality, Advances in Neural Information Processing Systems,

pp. 3111-3119, 2013.

[2] Mikolov, T., Chen, K., Corrado G. and Dean, J.: Efficient estimation

of word representations in vector space, arXiv preprint

arXiv:1301.3781, pp. 1-12, 2013.

[3] Le, Q. and Mikolov, T.: Distributed Representations of Sentences and

Documents, CoRR, abs/1405.4053, pp. 1-9, 2014.

[4] 原裕貴, 新妻弘崇, 太田学, ”Paragraph Vectorのための効率的なパ

ラメータサーチに関する研究”, 岡山大学工学部情報系学科特別

研究報告書, 2017.

[5] Socher, R., Perelygin, A., Wu, J. Y., Chuang, J., Manning, C. D., Ng,

A. Y. and Potts, C.: Recursive deep models for semantic

compositionality over a sentiment treebank, Proceedings of the 2013

Conference on Empirical Methods in Natural Language Processing, pp.

1-12, 2013.

5 5

0.225

windowwindow

9 ●

alpha

0.175

9 ●

7

alpha

0.1250.125

0.225

doc2vecによる学術論文の被引用箇所の推定方法の検討 Examination of estimation methods of cited parts in academic papers by doc2vec

田邊俊介

Shunsuke Tanabe


概要一般的に，学術論文には多くの参考文献がある．それら

は論文を理解する上で助けとなるが，すべてを確認するには

多くの時間と労力を要する．そのため，手がかり語を用いて

適切な被引用箇所を特定する手法が提案されているが，手が

かり語を人手で収集するため汎用性が低いという問題があっ

た．本稿では，閲覧論文中の引用箇所とそれに対する被引用

論文の文章を doc2vec によりベクトル化し，コサイン類似度

によって被引用箇所を特定する方法について検討する．

1 はじめに

学術論文では多くの場合，他の論文を引用して著者がその

研究に用いた手法やデータなどを裏付けている．そのため，

論文を読解するためにはそれらの閲覧が必要である．しかし，

１つの論文に対して数十件の被引用論文がある場合もあり，

すべてを確認するのは読み手にとって負担が大きい．

この問題に対する研究として，�