國立臺灣師範大學...
TRANSCRIPT
國立臺灣師範大學
資訊工程研究所碩士論文
指導教授侯文娟 博士
利用廣義知網及維基百科於
劇本文件之廣告推薦
Using E-HowNet and Wikipedia in
Advertisement Recommendation for Scripts
研究生 陳信裕 撰
中華民國 一零五 年 七 月
i
摘要
本論文的研究議題主要是因為觀察到目前電視劇進入廣告時段時大部分
的廣告內容很枯燥乏味又冗長而且廣告和電視劇的內容又不相關導致在此時
會有不少觀眾會選擇轉到其他電視台先觀看其他電視台的電視劇或是忙一些
手邊事情所以就造成這個時段的廣告廠商效益因此降低而且廣告播映都需使
用人力排程費時又費力因此本論文希望建立一個自動化劇本分析與廣告推薦
系統先從劇本內容分析與探勘重要的特徵詞作為模型中有效且具高準確率的
特徵讓所推薦的廣告在播出時能夠吸引觀眾的目光使廣告商品可以得到最大
效益
本論文實驗資料來源分別由兩種取得第一種來源是從金穗獎劇本網站中找
出 12 個劇本做為劇本文件資料第二種來源是從維基百科中搜尋廣告商品取得
廣告商品簡介做為廣告商品資料庫經由本論文所提方法實驗之後最後會以自
動化的方式互相比對用來驗證本實驗各項結果是否成功實驗結果評估對象包
含劇本重點度為 4 及 5 分的段落與最佳廣告之推薦
研究方法以兩項目標為導向包含(1)自動化計算各段落重點度與(2)推薦最
佳廣告為了計算各段落重點度使用先前研究方法自動化找出劇本中幫助分析
重點度的特徵詞這些特徵詞將是分析重點度時重要的關鍵而在最佳廣告推薦
於重點度為 4 及 5 分的段落內先找出所有特徵詞 Na接著使用廣義知網找出特
ii
徵詞 Na 上兩層的延伸詞作為幫助劇本段落內容與廣告商品之間的聯結經由
自動化比對後本研究將依據重點度為 4 及 5 分的段落特性進而得出最佳推薦
的廣告最後所得到的實驗結果再提供給廣告商選擇讓他們選擇在哪些段落可
以下與自家產品相關的廣告詳細的步驟與方法本文內會再敘述對於實驗結果
本研究以準確度當做評估的標準
關鍵字文件探勘劇本分析廣告推薦特徵詞廣義知網維基百科
iii
Abstract
The research topic of this paper is motivated based on the observation that when
entering the TV advertising time most of the advertising content is very tedious and
lengthy and no relevant ads for TV content It results that many viewers will choose to
turn to other channels or busy with some things at hand This situation will reduce the
benefits of advertising firms Besidesthe broadcast of ads needs to use the manpower
scheduling which is time-consuming and laborious Therefore this paper hopes to
establish an automated script analysis and advertisement recommendation system This
study extracts the important features via mining the scripts The features are used to
build a model with characteristics of high accuracy so that the recommended advertising
can attract the viewersrsquoeyes It will provide the maximum benefit for the advertised
goods
The experimental data of this study come from two sources the first one of 12
plays is from the Golden Harvest Awards script site scriptthe second one is from the
Wikipedia which contains the introduction of the searched advertised goods For
evaluating the proposed method an automated way is used The evaluation target is
focused on the script which contains a paragraph degree 4 or 5 stars Finally the best
advertising is recommended
iv
The study has two main goals (1) automated computing the emphasis degrees of
paragraphs and (2) recommending the best advertising In order to calculate the
emphasis degrees of paragraphs this study utilizes the previous related method to
automatically identify the focus of the script by analyzing the feature words The feature
words play an important role on the analysis of the emplasis degrees of paragraphsalso
called the focus of the scripts For the best ad recommendation this study first finds out
all the features of word NA from the paragraphs with the emphasis degrees 4 and 5 Then
E-HowNet is used to extend the contents of feature words by retrieving the parents and
grandparents words called the extension words Finally the collection of feature words
and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in
order to recommend the suitable advertising for these paragraphs The recommended
ads are provided to the advertisers for their references The detailed steps and methods
will be described in the paper The experimental results are evaluated by the accuracy
metric
Keywords text mining script analysis advertisement recommendation feature words
E-HowNet Wikipedia
v
謹獻給hellip
家人指導教授同學朋友自己及天上的爸爸和外婆
還有所有幫助過我的人
vi
誌 謝
本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然
語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議
以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的
問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業
期間劃上難忘的快樂時光
最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的
感激謝謝你們
vii
目錄
摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi
Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii
附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix
附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi
第一章 緒論1
第一節 研究動機1
第二節 研究背景2
第三節 研究目的3
第四節 論文架構3
第二章 相關研究探討4
第一節 相關研究文獻4
第二節 廣義知網9
第三節 中文斷詞系統11
第三章 研究方法14
第一節 緒論14
第二節 研究資料14
第三節 研究方法架構21
viii
第四節 研究方法描述23
第四章 實驗結果35
第一節 劇本段落與廣告產品之比對結果35
第二節 實驗評量結果41
第五章 結論與未來展望54
參考文獻56
ix
附表目錄
表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19
表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23
表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24
表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26
表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27
表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29
表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31
表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35
表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36
表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36
表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37
表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38
表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38
表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39
表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39
表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
i
摘要
本論文的研究議題主要是因為觀察到目前電視劇進入廣告時段時大部分
的廣告內容很枯燥乏味又冗長而且廣告和電視劇的內容又不相關導致在此時
會有不少觀眾會選擇轉到其他電視台先觀看其他電視台的電視劇或是忙一些
手邊事情所以就造成這個時段的廣告廠商效益因此降低而且廣告播映都需使
用人力排程費時又費力因此本論文希望建立一個自動化劇本分析與廣告推薦
系統先從劇本內容分析與探勘重要的特徵詞作為模型中有效且具高準確率的
特徵讓所推薦的廣告在播出時能夠吸引觀眾的目光使廣告商品可以得到最大
效益
本論文實驗資料來源分別由兩種取得第一種來源是從金穗獎劇本網站中找
出 12 個劇本做為劇本文件資料第二種來源是從維基百科中搜尋廣告商品取得
廣告商品簡介做為廣告商品資料庫經由本論文所提方法實驗之後最後會以自
動化的方式互相比對用來驗證本實驗各項結果是否成功實驗結果評估對象包
含劇本重點度為 4 及 5 分的段落與最佳廣告之推薦
研究方法以兩項目標為導向包含(1)自動化計算各段落重點度與(2)推薦最
佳廣告為了計算各段落重點度使用先前研究方法自動化找出劇本中幫助分析
重點度的特徵詞這些特徵詞將是分析重點度時重要的關鍵而在最佳廣告推薦
於重點度為 4 及 5 分的段落內先找出所有特徵詞 Na接著使用廣義知網找出特
ii
徵詞 Na 上兩層的延伸詞作為幫助劇本段落內容與廣告商品之間的聯結經由
自動化比對後本研究將依據重點度為 4 及 5 分的段落特性進而得出最佳推薦
的廣告最後所得到的實驗結果再提供給廣告商選擇讓他們選擇在哪些段落可
以下與自家產品相關的廣告詳細的步驟與方法本文內會再敘述對於實驗結果
本研究以準確度當做評估的標準
關鍵字文件探勘劇本分析廣告推薦特徵詞廣義知網維基百科
iii
Abstract
The research topic of this paper is motivated based on the observation that when
entering the TV advertising time most of the advertising content is very tedious and
lengthy and no relevant ads for TV content It results that many viewers will choose to
turn to other channels or busy with some things at hand This situation will reduce the
benefits of advertising firms Besidesthe broadcast of ads needs to use the manpower
scheduling which is time-consuming and laborious Therefore this paper hopes to
establish an automated script analysis and advertisement recommendation system This
study extracts the important features via mining the scripts The features are used to
build a model with characteristics of high accuracy so that the recommended advertising
can attract the viewersrsquoeyes It will provide the maximum benefit for the advertised
goods
The experimental data of this study come from two sources the first one of 12
plays is from the Golden Harvest Awards script site scriptthe second one is from the
Wikipedia which contains the introduction of the searched advertised goods For
evaluating the proposed method an automated way is used The evaluation target is
focused on the script which contains a paragraph degree 4 or 5 stars Finally the best
advertising is recommended
iv
The study has two main goals (1) automated computing the emphasis degrees of
paragraphs and (2) recommending the best advertising In order to calculate the
emphasis degrees of paragraphs this study utilizes the previous related method to
automatically identify the focus of the script by analyzing the feature words The feature
words play an important role on the analysis of the emplasis degrees of paragraphsalso
called the focus of the scripts For the best ad recommendation this study first finds out
all the features of word NA from the paragraphs with the emphasis degrees 4 and 5 Then
E-HowNet is used to extend the contents of feature words by retrieving the parents and
grandparents words called the extension words Finally the collection of feature words
and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in
order to recommend the suitable advertising for these paragraphs The recommended
ads are provided to the advertisers for their references The detailed steps and methods
will be described in the paper The experimental results are evaluated by the accuracy
metric
Keywords text mining script analysis advertisement recommendation feature words
E-HowNet Wikipedia
v
謹獻給hellip
家人指導教授同學朋友自己及天上的爸爸和外婆
還有所有幫助過我的人
vi
誌 謝
本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然
語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議
以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的
問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業
期間劃上難忘的快樂時光
最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的
感激謝謝你們
vii
目錄
摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi
Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii
附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix
附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi
第一章 緒論1
第一節 研究動機1
第二節 研究背景2
第三節 研究目的3
第四節 論文架構3
第二章 相關研究探討4
第一節 相關研究文獻4
第二節 廣義知網9
第三節 中文斷詞系統11
第三章 研究方法14
第一節 緒論14
第二節 研究資料14
第三節 研究方法架構21
viii
第四節 研究方法描述23
第四章 實驗結果35
第一節 劇本段落與廣告產品之比對結果35
第二節 實驗評量結果41
第五章 結論與未來展望54
參考文獻56
ix
附表目錄
表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19
表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23
表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24
表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26
表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27
表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29
表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31
表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35
表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36
表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36
表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37
表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38
表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38
表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39
表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39
表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
ii
徵詞 Na 上兩層的延伸詞作為幫助劇本段落內容與廣告商品之間的聯結經由
自動化比對後本研究將依據重點度為 4 及 5 分的段落特性進而得出最佳推薦
的廣告最後所得到的實驗結果再提供給廣告商選擇讓他們選擇在哪些段落可
以下與自家產品相關的廣告詳細的步驟與方法本文內會再敘述對於實驗結果
本研究以準確度當做評估的標準
關鍵字文件探勘劇本分析廣告推薦特徵詞廣義知網維基百科
iii
Abstract
The research topic of this paper is motivated based on the observation that when
entering the TV advertising time most of the advertising content is very tedious and
lengthy and no relevant ads for TV content It results that many viewers will choose to
turn to other channels or busy with some things at hand This situation will reduce the
benefits of advertising firms Besidesthe broadcast of ads needs to use the manpower
scheduling which is time-consuming and laborious Therefore this paper hopes to
establish an automated script analysis and advertisement recommendation system This
study extracts the important features via mining the scripts The features are used to
build a model with characteristics of high accuracy so that the recommended advertising
can attract the viewersrsquoeyes It will provide the maximum benefit for the advertised
goods
The experimental data of this study come from two sources the first one of 12
plays is from the Golden Harvest Awards script site scriptthe second one is from the
Wikipedia which contains the introduction of the searched advertised goods For
evaluating the proposed method an automated way is used The evaluation target is
focused on the script which contains a paragraph degree 4 or 5 stars Finally the best
advertising is recommended
iv
The study has two main goals (1) automated computing the emphasis degrees of
paragraphs and (2) recommending the best advertising In order to calculate the
emphasis degrees of paragraphs this study utilizes the previous related method to
automatically identify the focus of the script by analyzing the feature words The feature
words play an important role on the analysis of the emplasis degrees of paragraphsalso
called the focus of the scripts For the best ad recommendation this study first finds out
all the features of word NA from the paragraphs with the emphasis degrees 4 and 5 Then
E-HowNet is used to extend the contents of feature words by retrieving the parents and
grandparents words called the extension words Finally the collection of feature words
and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in
order to recommend the suitable advertising for these paragraphs The recommended
ads are provided to the advertisers for their references The detailed steps and methods
will be described in the paper The experimental results are evaluated by the accuracy
metric
Keywords text mining script analysis advertisement recommendation feature words
E-HowNet Wikipedia
v
謹獻給hellip
家人指導教授同學朋友自己及天上的爸爸和外婆
還有所有幫助過我的人
vi
誌 謝
本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然
語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議
以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的
問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業
期間劃上難忘的快樂時光
最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的
感激謝謝你們
vii
目錄
摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi
Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii
附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix
附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi
第一章 緒論1
第一節 研究動機1
第二節 研究背景2
第三節 研究目的3
第四節 論文架構3
第二章 相關研究探討4
第一節 相關研究文獻4
第二節 廣義知網9
第三節 中文斷詞系統11
第三章 研究方法14
第一節 緒論14
第二節 研究資料14
第三節 研究方法架構21
viii
第四節 研究方法描述23
第四章 實驗結果35
第一節 劇本段落與廣告產品之比對結果35
第二節 實驗評量結果41
第五章 結論與未來展望54
參考文獻56
ix
附表目錄
表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19
表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23
表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24
表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26
表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27
表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29
表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31
表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35
表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36
表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36
表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37
表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38
表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38
表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39
表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39
表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
iii
Abstract
The research topic of this paper is motivated based on the observation that when
entering the TV advertising time most of the advertising content is very tedious and
lengthy and no relevant ads for TV content It results that many viewers will choose to
turn to other channels or busy with some things at hand This situation will reduce the
benefits of advertising firms Besidesthe broadcast of ads needs to use the manpower
scheduling which is time-consuming and laborious Therefore this paper hopes to
establish an automated script analysis and advertisement recommendation system This
study extracts the important features via mining the scripts The features are used to
build a model with characteristics of high accuracy so that the recommended advertising
can attract the viewersrsquoeyes It will provide the maximum benefit for the advertised
goods
The experimental data of this study come from two sources the first one of 12
plays is from the Golden Harvest Awards script site scriptthe second one is from the
Wikipedia which contains the introduction of the searched advertised goods For
evaluating the proposed method an automated way is used The evaluation target is
focused on the script which contains a paragraph degree 4 or 5 stars Finally the best
advertising is recommended
iv
The study has two main goals (1) automated computing the emphasis degrees of
paragraphs and (2) recommending the best advertising In order to calculate the
emphasis degrees of paragraphs this study utilizes the previous related method to
automatically identify the focus of the script by analyzing the feature words The feature
words play an important role on the analysis of the emplasis degrees of paragraphsalso
called the focus of the scripts For the best ad recommendation this study first finds out
all the features of word NA from the paragraphs with the emphasis degrees 4 and 5 Then
E-HowNet is used to extend the contents of feature words by retrieving the parents and
grandparents words called the extension words Finally the collection of feature words
and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in
order to recommend the suitable advertising for these paragraphs The recommended
ads are provided to the advertisers for their references The detailed steps and methods
will be described in the paper The experimental results are evaluated by the accuracy
metric
Keywords text mining script analysis advertisement recommendation feature words
E-HowNet Wikipedia
v
謹獻給hellip
家人指導教授同學朋友自己及天上的爸爸和外婆
還有所有幫助過我的人
vi
誌 謝
本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然
語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議
以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的
問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業
期間劃上難忘的快樂時光
最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的
感激謝謝你們
vii
目錄
摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi
Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii
附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix
附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi
第一章 緒論1
第一節 研究動機1
第二節 研究背景2
第三節 研究目的3
第四節 論文架構3
第二章 相關研究探討4
第一節 相關研究文獻4
第二節 廣義知網9
第三節 中文斷詞系統11
第三章 研究方法14
第一節 緒論14
第二節 研究資料14
第三節 研究方法架構21
viii
第四節 研究方法描述23
第四章 實驗結果35
第一節 劇本段落與廣告產品之比對結果35
第二節 實驗評量結果41
第五章 結論與未來展望54
參考文獻56
ix
附表目錄
表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19
表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23
表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24
表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26
表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27
表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29
表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31
表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35
表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36
表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36
表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37
表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38
表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38
表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39
表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39
表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
iv
The study has two main goals (1) automated computing the emphasis degrees of
paragraphs and (2) recommending the best advertising In order to calculate the
emphasis degrees of paragraphs this study utilizes the previous related method to
automatically identify the focus of the script by analyzing the feature words The feature
words play an important role on the analysis of the emplasis degrees of paragraphsalso
called the focus of the scripts For the best ad recommendation this study first finds out
all the features of word NA from the paragraphs with the emphasis degrees 4 and 5 Then
E-HowNet is used to extend the contents of feature words by retrieving the parents and
grandparents words called the extension words Finally the collection of feature words
and extension words is compared to the paragraphs with 4 and 5 emphasis degrees in
order to recommend the suitable advertising for these paragraphs The recommended
ads are provided to the advertisers for their references The detailed steps and methods
will be described in the paper The experimental results are evaluated by the accuracy
metric
Keywords text mining script analysis advertisement recommendation feature words
E-HowNet Wikipedia
v
謹獻給hellip
家人指導教授同學朋友自己及天上的爸爸和外婆
還有所有幫助過我的人
vi
誌 謝
本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然
語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議
以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的
問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業
期間劃上難忘的快樂時光
最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的
感激謝謝你們
vii
目錄
摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi
Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii
附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix
附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi
第一章 緒論1
第一節 研究動機1
第二節 研究背景2
第三節 研究目的3
第四節 論文架構3
第二章 相關研究探討4
第一節 相關研究文獻4
第二節 廣義知網9
第三節 中文斷詞系統11
第三章 研究方法14
第一節 緒論14
第二節 研究資料14
第三節 研究方法架構21
viii
第四節 研究方法描述23
第四章 實驗結果35
第一節 劇本段落與廣告產品之比對結果35
第二節 實驗評量結果41
第五章 結論與未來展望54
參考文獻56
ix
附表目錄
表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19
表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23
表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24
表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26
表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27
表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29
表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31
表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35
表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36
表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36
表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37
表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38
表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38
表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39
表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39
表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
v
謹獻給hellip
家人指導教授同學朋友自己及天上的爸爸和外婆
還有所有幫助過我的人
vi
誌 謝
本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然
語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議
以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的
問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業
期間劃上難忘的快樂時光
最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的
感激謝謝你們
vii
目錄
摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi
Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii
附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix
附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi
第一章 緒論1
第一節 研究動機1
第二節 研究背景2
第三節 研究目的3
第四節 論文架構3
第二章 相關研究探討4
第一節 相關研究文獻4
第二節 廣義知網9
第三節 中文斷詞系統11
第三章 研究方法14
第一節 緒論14
第二節 研究資料14
第三節 研究方法架構21
viii
第四節 研究方法描述23
第四章 實驗結果35
第一節 劇本段落與廣告產品之比對結果35
第二節 實驗評量結果41
第五章 結論與未來展望54
參考文獻56
ix
附表目錄
表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19
表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23
表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24
表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26
表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27
表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29
表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31
表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35
表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36
表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36
表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37
表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38
表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38
表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39
表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39
表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
vi
誌 謝
本篇論文的完成要先感謝指導教授侯文娟老師感謝老師引導我進入自然
語言處理的領域細心教導相關知識並在我的研究方向提供了許多寶貴的建議
以及給予良好的實驗室環境也要感謝實驗室中學弟妹經常與我討論課業上的
問題和分享生活裡的喜悅也要感謝在學期間修課的每位老師讓我在碩士修業
期間劃上難忘的快樂時光
最後感謝家人在各方面的支助讓我得以完成碩士學位在此致上我最大的
感激謝謝你們
vii
目錄
摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi
Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii
附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix
附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi
第一章 緒論1
第一節 研究動機1
第二節 研究背景2
第三節 研究目的3
第四節 論文架構3
第二章 相關研究探討4
第一節 相關研究文獻4
第二節 廣義知網9
第三節 中文斷詞系統11
第三章 研究方法14
第一節 緒論14
第二節 研究資料14
第三節 研究方法架構21
viii
第四節 研究方法描述23
第四章 實驗結果35
第一節 劇本段落與廣告產品之比對結果35
第二節 實驗評量結果41
第五章 結論與未來展望54
參考文獻56
ix
附表目錄
表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19
表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23
表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24
表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26
表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27
表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29
表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31
表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35
表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36
表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36
表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37
表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38
表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38
表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39
表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39
表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
vii
目錄
摘要helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipi
Abstracthelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipiii
附表目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipix
附圖目錄helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellipxi
第一章 緒論1
第一節 研究動機1
第二節 研究背景2
第三節 研究目的3
第四節 論文架構3
第二章 相關研究探討4
第一節 相關研究文獻4
第二節 廣義知網9
第三節 中文斷詞系統11
第三章 研究方法14
第一節 緒論14
第二節 研究資料14
第三節 研究方法架構21
viii
第四節 研究方法描述23
第四章 實驗結果35
第一節 劇本段落與廣告產品之比對結果35
第二節 實驗評量結果41
第五章 結論與未來展望54
參考文獻56
ix
附表目錄
表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19
表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23
表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24
表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26
表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27
表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29
表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31
表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35
表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36
表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36
表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37
表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38
表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38
表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39
表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39
表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
viii
第四節 研究方法描述23
第四章 實驗結果35
第一節 劇本段落與廣告產品之比對結果35
第二節 實驗評量結果41
第五章 結論與未來展望54
參考文獻56
ix
附表目錄
表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19
表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23
表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24
表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26
表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27
表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29
表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31
表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35
表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36
表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36
表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37
表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38
表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38
表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39
表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39
表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
ix
附表目錄
表 1 中文斷詞系統詞性表helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip12
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip19
表 3 廣告產品 iPhone 的前後五項收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip23
表 4 廣告產品 iPhone的取出NA收集字helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip24
表 5 廣告產品 iPhone 的 NA 收集字出現次數helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip26
表 6 廣告產品 iPhone的NA收集字Google搜尋結果helliphelliphelliphelliphelliphelliphelliphelliphellip27
表 7 以 WIKI 項目為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 8 以WIKI項目為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 9 以 Google 搜尋為主TF 兩者前三項當作 Taghelliphelliphelliphelliphelliphelliphelliphelliphelliphellip29
表 10 以Google搜尋為主TFIDF兩者前三項當作Taghelliphelliphelliphelliphelliphelliphelliphellip29
表 11 劇本一段落 11-20的NA特徵詞及延伸詞helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip31
表 12 廣告產品「iPhone」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip35
表 13 廣告產品「TVBS新聞台」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip35
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果helliphelliphelliphelliphellip36
表 15 廣告產品「可口可樂」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 16 廣告產品「台糖量販」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip36
表 17 廣告產品「便當」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip36
表 18 廣告產品「信義房屋」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip37
表 19 廣告產品「香雞排」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 20 廣告產品「動物」與劇本一段落比對結果 helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 21 廣告產品「啤酒」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip37
表 22 廣告產品「排骨」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 23 廣告產品「速食麵」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip38
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphellip38
表 25 廣告產品「新光保全」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip38
表 26 廣告產品「腳踏車」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 27 廣告產品「電視」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip39
表 28 廣告產品「網路遊戲」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphellip39
表 29 廣告產品「遠傳電信」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphellip39
表 30 廣告產品「醫院」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 31 廣告產品「攝影」與劇本一段落比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphellip40
表 32 最佳廣告與劇本一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 33 最佳廣告與劇本二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
表 34 最佳廣告與劇本三段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip46
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
x
表 35 最佳廣告與劇本四段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 36 最佳廣告與劇本五段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 37 最佳廣告與劇本六段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 38 最佳廣告與劇本七段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip47
表 39 最佳廣告與劇本八段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 40 最佳廣告與劇本九段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 41 最佳廣告與劇本十段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 42 最佳廣告與劇本十一段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip48
表 43 最佳廣告與劇本十二段落內容比對結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip49
表 44 劇本中推薦廣告產品之準確率helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip52
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
xi
附圖目錄
圖 1 不同上下文的極性helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip5
圖 2 使用不同特徵集的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 3 三種系統的實驗結果helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip6
圖 4 廣義知網搜尋執行示意圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip10
圖 5 金穗獎優良劇本網站helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip15
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip16
圖 7 「iPhone」維基百科簡介helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 8 中文斷詞系統之輸出範例helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip17
圖 9 研究方法架構流程圖helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip22
圖 10 所有劇本重點度的分布狀況helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對helliphelliphelliphelliphelliphelliphellip41
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphelliphellip42
圖 13 廣告產品Google搜尋TF特徵組與劇本七段落之比對helliphelliphelliphelliphelliphellip42
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對helliphelliphelliphellip43
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphelliphelliphellip43
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對helliphelliphelliphellip44
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對helliphelliphelliphelliphellip44
圖 18 廣告產品Google搜尋TFIDF特徵組與劇本九段落之比對helliphelliphelliphellip45
圖 19 劇本七內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip50
圖 20 劇本十內容與廣告產品關聯之段落helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip51
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
1
第一章 緒論
第一節 研究動機
本研究目的主要是希望能夠利用自然語言分析的技術對劇本文件進而分析
進而得到一些有用的資訊使可利用詞性之特徵詞作為探討劇中場景是否有合適
的廣告商品之依據最初會有此想法是因為自己本身喜歡看電視劇對於每次
在觀看電視劇時每看完一個段落後進入廣告時段總是會出現一些很枯燥乏味
又無趣的廣告而當下反應就是會拿起遙控器轉到其他電視台先觀看其他電視
台的電視劇或節目等廣告結束再切回原來所觀看的電視台而在廣告時段中
大部分廣告播映都需要透過人力方式來編排導致費時費力又落在錯誤的時機點
上假設能夠讓廣告商品與觀眾所收看的電視劇中場景有相關聯使觀眾觀看廣
告的意願增加及時間停留越久對於廣告商的效益就會提高很多例如在 2015
年播映的台灣本土劇「嫁妝」劇中演員以工程師為客戶開發程式的過程將手機功
能介紹得相當詳細其他演員也在劇中實際演出將手機不小心掉入水中又拿起的
劇情使觀眾更容易高度關心相關商品假設在這段劇情後的廣告接著播出「XX
手機」肯定會讓觀眾更加容易得知商品的資訊而達到廣告商所要得到的效益
本論文就是想要藉由此次研究可以具體實現經由自動化分析劇本得到有用的資
訊再將得到的資料加以研究比對找出有效的方式讓被推薦之廣告可以吸引觀
眾目光使廣告商品得到較大的效益
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
2
第二節 研究背景
現今針對劇本研究目前並沒有方法可以將劇本有效的自動分析進而建議
出在適當時間點將廣告在對的時間和對的劇情後出現目前傳統常用方法是廣
告商要求電視台在哪個時間點或某電視劇及節目後將所要播放的廣告播出來
但是這樣實際效益並不大而本研究所提出的方法則是希望可以找出該劇本哪
個段落中場景出現相關廣告商所要推薦的廣告商品進而將正確的廣告在正確
的時機點播出幫助廣告商不必為了搶黃金時段也可以將廣告商品在正確時間
點播出而電視台也得到有效益的商機此法將減少人力花時間編排廣告並可
正確的推薦與劇情相關的廣告
本研究進行需要劇本資料與廣告商品簡介等資料所以在本實驗中共蒐集
12 個劇本(總共約 48 萬字左右)在廣告商品簡介部分從維基百科中搜尋廣告商
品得到廣告商品簡介作為資料庫在廣告產品方面共找了 20 種廣告產品進行實
驗本研究需耗時較長的部分是在廣告商品簡介上因為必須等待找出商品前後
五項的收集字挑除不是特徵詞 NA 的項目再進一步分析找出有用的特徵標籤
這方面需花的時間比較多一旦分析完成後即可評估本研究提出方法的效能
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
3
第三節 研究目的
在自然語言研究領域中越來越多的研究者有興趣於詞性的作用探討文章
的正負面的極性以及意見反饋所以本論文希望能夠透過不同於其他研究者的
方式應用自然語言處理技術分析劇本文件並比對文件詞性等特性而本論文
專注於在電視台相關的應用利用分析劇本段落與詞性的方式讓廣告商可以在
讓觀眾可以產生共鳴的片段後播出相對應的廣告商品
近幾年韓國電視劇在台灣受歡迎程度越來越好對於在處理廣告時需要
一些人力分析於找出下廣告的時機點所以個人認為假如可以設計出一個系統
只要將所要分析的劇本輸入後就能夠自動化輸出並顯示哪個段落可以推薦什
麼類型的廣告不但可以減少人力分析劇本所花的大量時間同時也分析出觀眾
可能產生共鳴的片段後的廣告商品可達到電視台與廣告商雙邊的效益
本研究目的為結合劇本與廣告然而目前此研究項目尚未有豐富的文獻可供
參考我們只能朝向發展新的研究方向努力盡量在不同文獻中找尋相關類似的
方法進而延伸或是發展期許達成良好的成果
第四節 論文架構
本論文的組織大綱如下第一章介紹研究動機及其研究背景第二章探討相
關文獻包含前人做過的研究及相關的工具介紹第三章是研究資料與研究方法
的說明第四章是實驗結果與分析最後的章節則總結本論文所做的研究並介
紹來未來可能的發展方向
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
4
第二章 相關研究探討
第一節 相關研究文獻
如第一章所述目前本論文研究項目尚未有豐富的文獻可供參考因此僅就
與本論文主題相關之文獻探討可參考使用之技術並整理如下
(一) 從 Blogger 情緒預測電影銷售介紹
此篇文章是由學者 Mishne 和 Glance (2006)所提出的該研究是運用情緒分
析方法分析 Blogger 數據的結果在電影的領域是否具有較好的相關性主要發
現是評論中的正向情緒確實是電影是否成功的一項重要的預測
此篇把 Blogger 上對於電影評價輿論分為正面(positive)負面(negative)及混
合(mixed)如圖 1 所示該篇作者分析電影發行前及發行後的部落格情緒評論
測試是否和電影票房有所關聯並且和單純提及電影的次數互相比較藉此了解
評論的影響程度
在他們的實驗中使用的不同的基於極性的測量方法得到的最佳相關值如下
bull在電影上映前長度為 20 個字的文本集中正向評論的數量
bull電影上映後長度 140 個字的文本集中的非中性評論的數量(此法和使用正向
評論數量的方式有著非常接近的效果)
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
5
圖 1 不同上下文的極性
(二) Twitter 新聞事件偵測
學者 Qin 等人則於 2013 年發表論文研究 Twitter 新聞事件偵測之議題
現今社會中社群網站已經變成是生活中重要的一部分此篇文獻所做的研
究將社群訊息分類分析資訊找出訊息內是否含有新聞相關的內容與本研
究相關的地方在於本研究也需要分析文件在文件中(在此指劇本)找出有用的
訊息以推薦正確的廣告以下為此文獻的介紹
一般來說tweets 可以被分成三類
1 新聞事件(news events)例如美國 911 爆炸案
2 關注性高的訊息(hot topic)散播於眾多使用者的議題像是星座運勢等
3 其他類別(heterogeneous collections)或無意義的非事件推特文(meaningless
non-event tweets)例如「想找人和我一起聊天」
本篇論文使用 SVM 分類器偵測事件特徵包含兩大類統計類(9 項)及社會
類(6 項)圖 2 即為此文獻運用不同的特徵集產生的實驗結果評量結果包括精確
度回收率與 F1 分數最後一欄是各組實驗與實驗 0 比較的 F1 差異值
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
6
圖 2 使用不同特徵集的實驗結果
此篇論文發展的系統稱為FRED文中還與其他已發表的兩個系統互相比較
Tweventu 及 Twevent比較結果如圖 3 所示在圖 3 中Evt 是偵測到的事件個
數P 為精確度R 是回收率F1 是 F1 分數結果顯示該論文所提出的方法優
於其他系統
圖 3 三種系統的實驗結果
在這篇文獻中可以看到用了非常多的數據顯示整個系統的表現力在進行
本實驗時此篇文獻幫助本實驗在比對資料時發想歸類方法
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
7
(三) 運用自然語言技術分類電影劇本
學者 Blackstock 和 Spitz 則於 2008 年發表論文使用自然語言技術進行電影
劇本之分類作者提及分類文字的方式無論是使用自然語言技術(NLP)或非
NLP 的技術都是可見的有很多分類的例子會使用作者書籍網站或甚至博客
條目進行分類在 Eliashberg 等人(2000)的研究中作者對不同類型的消費者研
究他們如何對一個特定的電影做出反應而 Blackstock 和 Spitz 的研究則從劇本
文件中抽取一些以自然語言為基的特徵經由 Naiumlve Bayes (John and Langley 1995)
及 Maximum Entropy Markov Model (McCallum 等人 2000)等分類器訓練及測試
用來分辨電影劇本的類別
此文獻運用自然語言技術分類電影劇本因本實驗是在劇本上做擴展實驗
所以有關劇本的文獻都曾參考但此篇文獻多偏重於語意分析最終只有參考分
類文字的方式用在本實驗分類特徵詞時
(四) 以半監督式學習技術進行不平衡語意分類
現今大多數的語意研究都假設已標註或未標註的語料庫中正向與負向的
意見是平衡的(balanced)但現實世界不見得如此這篇研究(Li 等人2011)即探
討此議題使用半監督式學習 (semi-supervised learning) 技術進行不平衡
(imbalanced)語意分類的研究方法是先找樣本獲得多個樣本後在樣本集中進
行訓練建立模組最後利用多組訓練模組建立多個分類再運用訓練出的分類測
試語意類別
(五) 電影人物互動網路之擷取與分析
該研究是由 Gil 等學者在 2011 年所提出主要由三個部分組成
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
8
1 從電影資料中擷取人物互動網路(character interaction network)並以加權
圖表示
2 計算人物互動網路中的資訊屬性(informative property)
3 建構邏輯迴歸及決策樹分類器利用這些屬性回答問題(例如不同類型
的互動網路是否可以表示不同的戲劇與電影類別)
最後就可以運用上述之方法快速分類戲劇或電影是屬於哪種類別
此篇文獻參考到使用不同方法找出不同實驗結果時可以組合之後再找出
更詳細的答案運用在本實驗時本研究先找出未來自動化高重點度的特徵詞
再結合每段落的資訊得出最佳推薦廣告即是本系統的最終結果且可以產生每
個段落廣告最佳播映時機點
(六) 劇本文件探勘與廣告推薦之研究
本篇研究是由沈信佑在 2016 年所提出主要研究實驗資料分別由兩種來源
取得第一種來源從金穗獎劇本找出 12 個劇本做為劇本文件資料第二種來源為
隨機取得的一些廣告群做為廣告商品資料庫
研究方法主要以兩個部分組成
1 計算各段落重點度
首先需找出劇本中幫助分析重點度的特徵詞而這些特徵詞將是日後分
析重點度時的關鍵
2 推薦最佳廣告
每個段落內先找出所有特徵詞 Na選取每個段落排名前三名的 Na 詞
接著使用廣義知網找出延伸詞幫助劇本內容與廣告商品的聯結然後
再找出重點度特徵詞後就可以分析劇本中各段落的評分狀況
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
9
此篇文獻所提供的方法能夠幫助本研究在分析劇本段落重點度時可以自動
化分析出段劇本落重點度使本研究在分析劇本重點度的部分可以有自動化分析
的方法依據
第二節 廣義知網
廣義知網(E-HowNet)是中央研究院資訊所詞庫小組於 2003 年與董振東先生
展開建構繁體字知網的合作計畫承續知網的語意定義機制將中央研究院詞庫
小組辭典(CKIPChinese Lexical Knowledge Base)中的九萬多詞條與知網連結在
研究過程中詞庫小組對知網的定義架構做了一些更動新增了多層次定義架構
與複雜關係表示式以簡單概念取代義原作為定義複雜概念的元素並設計複
雜關係的表達架構使繁體字知網逐漸發展成為一個新的知識表達模型稱為「廣
義知網」廣義知網的優點如下(參考 httpckipsvriissinicaedutw)
1不會被有限詞義限制能夠更精確的表達知識
2符合人的認知方式對使用者來說比較簡單可以讓使用者靈活的運用簡
單概念進行定義
3使用者用不同的簡單概念定義同一詞彙時仍然可以轉換為相同或相近的
詞義而且利用上下位承襲規範進行整合這樣子對於知網庫的建立能更
有一致性
4利用簡單概念定義複雜概念可以減少訊息的重複登錄只需把額外的訊
息補充說明即可因此表示式較清楚易懂當簡單概念出現歧義時解決
方法是以 WordNet 同義詞集(synset)加以限定藉著與 WordNet 同義詞集
的連結將可以限定詞義解決歧義詞的問題
5廣義知網的表示式比較容易轉換為自然語言
6複雜關係表示式便於定義任何具有多重結合關係的人際概念時空概念與
比較概念
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
10
運用廣義知網其中節點搜尋即可以對本研究找尋延伸詞的項目有相當大的
幫助可以快速的找到上兩層的詞如圖 4 所示在廣義知網查詢動物的上兩層
延伸詞查詢結果為動物生物
廣義知網提供三種搜尋功能
1節點查詢以字串直接查詢本體架構中的任意節點這些節點包括義原 (例
如sate | 狀態)詞彙(例如行動)及定義式(代表一個類別例如
ComeToWorld | 問世)所有出現在樹狀結構中的節點都可以在節點查
詢中找到這樣就可以迅速地找到相關的延伸詞
2定義式查詢這個方法是將所要查詢的字串輸入然後就可以查到由查詢
的字串為概念延伸的定義詞彙
3進階定義式查詢使用樹狀結構比對來找尋定義式利用樹狀節點比對來
查詢當樹狀結構 T1subeT2 時就可以從 T1 查詢到 T2(T1T2 各為樹由
廣義知網中定義)
圖 4 廣義知網搜尋執行示意圖
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
11
第三節 中文斷詞系統
根據統計一般的文章中約有百分之三到百分之五的未知詞因此一個演算
法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響由於並不存在
任何一個詞典或方法可以盡列所有的中文詞當處理不同領域的文件時領域相
關的特殊詞彙或專有名詞常常造成分詞系統因為參考詞彙的不足而產生錯誤的
切分為了解決這個問題最有效的方法是補充領域詞典加強詞彙的搜集因此
新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟領域關鍵詞彙多出現在
該領域的文件中而少出現在其它領域因此抽取關鍵詞時多利用此特性高頻的
關鍵詞比較容易抽取少數低頻的新詞不容事先搜集必須線上辨識構詞律
詞素詞彙及詞彙共現訊息為線上新詞辨識依據
本研究所使用的中文斷詞系統為中央研究院詞庫小組 (CKIPChinese
Lexical Knowledge Base)該中文斷詞系統提供了一個解決方案可線上即時分
詞功能為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統
此一系統包含一個約 10 萬詞的詞彙庫及附加詞類詞頻詞類頻率雙連詞類頻
率等資料分詞依據為此一詞彙庫及定量詞重疊詞等構詞規律及線上辨識的新
詞並解決分詞歧義問題含有詞類標記可附加文本中切分詞的詞類解決詞類
歧義並猜測新詞之詞類
運用此系統的主要原因是目前中文斷詞系統已經做得相當完善可以準確且
非常詳細的分析本次實驗資料的所有詞性本研究經由中文斷詞系統後得以順
利的進行後續分析分析出劇本與廣告產品簡介的詞性經過比對進而推薦可能
的最佳廣告產品
表 1 為中文斷詞系統可能產生的詞性列表亦即就是斷詞系統所有的詞性特
徵本研究可以進而利用這些特徵延伸發展創造屬於自己需要的用法目前他
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
12
人曾運用的應用包括語料庫統計值與全球資訊網統計值之比較斷詞系統曾使用
於 Queried keywords 的研究電影評論詞性的分析顯示應用是非常廣泛的
表 1 中文斷詞系統詞性表
精簡詞類 簡化標記 對應的CKIP詞類標記
A A A 非謂形容詞
C Caa Caa 對等連接詞如
和跟
POST Cab Cab 連接詞如等等
POST Cba Cbab 連接詞如的話
C Cbb Cbaa Cbba Cbbb Cbca Cbcb 關聯連接詞
ADV Da Daa 數量副詞
ADV Dfa Dfa 動詞前程度副詞
ADV Dfb Dfb 動詞後程度副詞
ASP Di Di 時態標記
ADV Dk Dk 句副詞
ADV D Dab Dbaa Dbab Dbb Dbc Dc Dd
Dg Dh Dj
副詞
N Na Naa Nab Nac Nad Naea Naeb 普通名詞
N Nb Nba Nbc 專有名稱
N Nc Nca Ncb Ncc Nce 地方詞
N Ncd Ncda Ncdb 位置詞
N Nd Ndaa Ndab Ndc Ndd 時間詞
DET Neu Neu 數詞定詞
DET Nes Nes 特指定詞
DET Nep Nep 指代定詞
DET Neqa Neqa 數量定詞
POST Neqb Neqb 後置數量定詞
M Nf Nfa Nfb Nfc Nfd Nfe Nfg Nfh Nfi 量詞
POST Ng Ng 後置詞
N Nh Nhaa Nhab Nhac Nhb Nhc 代名詞
Nv Nv Nv1Nv2Nv3Nv4 名物化動詞
T I I 感嘆詞
P P P 介詞
T T Ta Tb Tc Td 語助詞
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
13
Vi VA VA111213VA3VA4 動作不及物動詞
Vt VAC VA2 動作使動動詞
Vi VB VB1112VB2 動作類及物動詞
Vt VC VC2 VC313233 動作及物動詞
Vt VCL VC1 動作接地方賓語動詞
Vt VD VD1 VD2 雙賓動詞
Vt VE VE11 VE12 VE2 動作句賓動詞
Vt VF VF1 VF2 動作謂賓動詞
Vt VG VG1 VG2 分類動詞
Vi VH VH111213141517VH21 狀態不及物動詞
Vt VHC VH16 VH22 狀態使動動詞
Vi VI VI123 狀態類及物動詞
Vt VJ VJ123 狀態及物動詞
Vt VK VK12 狀態句賓動詞
Vt VL VL1234 狀態謂賓動詞
Vt V_2 V_2 有
T DE 的 之 得 地
Vt SHI 是
FW FW 外文標記
COLONcATEGORY 冒號
COMMACATEGORY 逗號
DASHCATEGORY 破折號
ETCCATEGORY 刪節號
EXCLAMATIONcATEGORY 驚嘆號
PARENTHESISCATEGORY 括弧
PAUSECATEGORY 頓號
PERIODCATEGORY 句號
QUESTIONcATEGORY 問號
SEMICOLONcATEGORY 分號
SPCHANGECATEGORY 雙直線
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
14
第三章 研究方法
第一節 緒論
本研究目標為分析繁雜的劇本內容希望可以將自然語言領域擴大範圍運用
在更多地方本研究觀察到目前電視廣告都是依照廣告商想要播放什麼類型的
商品廣告電視台就依廣告商的要求將廣告播放出來並沒有考慮此廣告是否能
讓觀眾產生共鳴本研究發現這個問題希望能有效快速又正確的在重要段落
結束後播出正確的廣告接下來本章會介紹研究來源與各種可能的結果與方法
本研究首先對劇本進行分析主要是在每個段落進廣告時可以正確將廣告商想
要的廣告播出並將此程序自動化跟以往人力方式不一樣的地方是人力方式
主要是先統計哪些時段觀眾收看人數最多廣告商再選擇買下哪個時段而播出廣
告本研究則分析每個時段可以產生哪個合適的廣告建議播出讓每個廣告時段
不會因為沒有合適的廣告而浪費時段也使電視台與廣告商之間取得效益平衡
第二節 研究資料
(一) 研究材料
劇 本 實 驗 資 料 庫 來 自 金 穗 獎 優 良 電 視 劇 本 網 站
(httpwwwmovieseedscomtw)本研究挑選 12 篇劇本進行分析與測試總共
493629 個字檔案大小為 17497KB金穗獎優良劇本網站如圖 5 所示本研究
使用的 12 篇劇本皆可由 98 年度金穗獎優良劇本得獎名單詳閱劇本全文12 篇劇
本名稱及資訊如下所示「他們在畢業前一天爆炸」出自於作者王盈心共 41253
個字「人狼謎蹤」出自於作者楊皓鈞共 41593 個字「再見全壘打」出自於作
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
15
者王瑋陳佳鍵共 30047 個字「我心凝望的愛情」出自於作者吳美枝共 37440
個字「哈皮與嬉皮」出自於作者黃淑筠共 38261 個字「神棄」出自於作者施
君涵共 33432 個字「球來就打」出自於作者涂芳祥共 65275 個字「野馬小
鴨頭」出自於作者徐錫彪王瑄錡共 47748 個字「黃金甲子園」出自於作者魏
德聖陳嘉蔚共 51259 個字「搏浪」出自於作者周美玲共 30641 個字「十
二月三十二日」出自於作者林真豪共 65636 個字及「我的超級阿公」出自於
作者高顥中謝柏逸共 27158 個字以「他們在畢業前一天爆炸」的劇本段落為
例如圖 6 所示會選擇金穗獎劇本的原因是因為這些劇本有些已經被翻拍成電
視劇及電影播出像是「我們在畢業前一天爆炸」片長為五集迷你連續劇每集
60 分鐘「球來就打」片長約 135 分鐘「黃金甲子園」片長約 185 分鐘可供後
續相關研究使用
圖 5 金穗獎優良劇本網站
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
16
圖 6 劇本「他們在畢業前一天爆炸」的劇本段落
廣告產品簡介出自於維基百科網站所提供的內容(httpszhwikipediaorgzh-
tw)本研究挑選 20 個廣告產品進行分析與測試產品名稱及資訊如下所示
「iPhone」共 887 個字「TVBS 新聞台」共 187 個字「中華職業棒球大聯盟」共
175 個字「可口可樂」共 426 個字「台糖量販」共 240 個字「便當」共 446 個
字「信義房屋」共 363 個字「香雞排」共 812 個字「動物」共 459 個字「啤
酒」共 914 個字「排骨」共 120 個字「速食麵」共 1141 個字「雄獅旅遊集團」
共 314 個字「新光保全」共 1310 個字「腳踏車」共 328 個字「電視」共 252
個字「網路遊戲」共 664 個字「遠傳電信」共 313 個字「醫院」共 277 個字
「攝影」共 365 個字會選擇這些當作廣告產品的原因是因為先前研究(沈信
佑2016)針對以上產品作為推薦廣告產品因為要分析出本研究方法與先前研究
方法之間比較所以選擇一樣的廣告產品來分析與探討以「iPhone」維基百科
簡介如圖 7 所示
11
浩爸不耐煩的過來把遙控器搶走電視關掉
兩人坐在餐桌兩邊滿桌豐盛的飯菜看起來溫馨的餐桌浩爸開口
浩爸開學怎麼樣
浩遠還好
隨即陷入一片深深的沉默
場9 日內景公車上
一年後
車子來到學校門口同學紛紛下車一胖一瘦兩名看起來乖寶寶的同學金王(歐金鑫
16歲)A賓(蔡嘉賓16歲)經過身旁
金王沒跟馬子一起喔
浩遠今天她媽送她hellip
兩人排隊下車浩遠卻還是座在位置上
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
17
圖 7 「iPhone」維基百科簡介
(二) 中文斷詞系統
本研究利用 CKIP 的中文斷詞系統 (httpckipsvriissinicaedutw)來進行分
析劇本以及廣告產品簡介並找出所有的詞性特徵因先前實驗研究已經將劇本
分析作成資料庫所以本研究只需將廣告產品簡介的內容輸入中文斷詞系統輸
出結果如圖 8 所示
圖 8 中文斷詞系統之輸出範例
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
18
參考沈信佑(2016)之作法將劇本分成每 10 個場景為一個段落(因為沒有正
確的標準所以目前先假定每 10 個場景會進入廣告時間)場景單位為在某場景
開始但還沒換下一個場景時以劇本 1 為例1 - 10 場景 3025 字11 - 20 場景
2917 個字21 - 30 場景 2743 個字31 - 40 場景 3939 個字41 - 50 場景 4154 個
字51 - 60 場景 2376 個字61 - 70 場景 3684 個字71 - 80 場景 3139 個字81
- 90 場景 1877 個字91 - 100 場景 3132 個字101 - 110 場景 3079 個字111 - 120
場景 3116 個字121 - end 場景 4056 個字經由觀察發現以 10 個場景為一段落
在字數長度上並無太大差異顯示出 10 個場景為一個段落是有效的方法對於在
未來研究上將設定段落方法給予更多的彈性例如設定每個段落字數設定每個
段落長度等以便後續擴大研究方向
接著如表 2 所示會看到 NANBNCNCDNDVAVBVACVC
VCLVDVEVFVGVHVHCVIVJVKVL這些是由中文斷詞
系統所產生的詞性中挑選在中文斷詞系統特徵詞中會挑選這 20 個詞性做為使
用主要原因是中文斷詞系統特徵詞中會出現一些詞性是沒有意義的像是 T 這
個詞性代表語助詞而研究實驗中無法依語助詞找出是否與該產品相關故無法
用上在除去類似這些無義詞性後最終選出表 2 中的 20 個特徵詞做為使用經
由先前研究指出詞性為 NA 的特徵詞可以做為劇本段落的代表詞再經由篩選 NA
後可以提供本研究系統進一步分析與探討
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
19
表 2 劇本 1 的 1-10 場景段落特徵詞頻率範例
詞性 頻率 詞性解釋 特徵詞例句
NA 300 普通名詞 臉電視圍牆新聞公車
NB 154 專有名詞 某某先生爸爸耶穌
NC 219 地方詞 學校客廳高中大禮堂
操場
NCD 50 位置詞 上面裡面四周東底下
ND 22 時間詞 1 月1 點1 年清晨傍晚
VA 84 動作不及物動詞 下車狂奔苦笑
VAC 0 動作使動動詞 使hellip成為令hellip為
VB 4 動作類及物動詞 道別開玩笑拉拔
VC 95 動作及物動詞 駕駛騎乘仰望倒入
VCL 27 動作皆地方賓語動詞 去爬上來到位於跑到
VD 8 雙賓動詞 搶偷賣
VE 20 動作句賓動詞 說想看形容聽認定
VF 7 動作謂賓動詞 企圖勸勉較準備繼續
VG 4 分類動詞 為算
VH 84 狀態不及物動詞 好出現怎麼辦愣有趣
VHC 2 狀態使動動詞 平衡空
VI 3 狀態類及物動詞 不以為然似懂非懂置信
VJ 8 狀態及物動詞 冒出剩熟悉發生維持
VK 12 狀態句賓動詞 覺得堅持明白希望詭
異
VL 3 狀態謂賓動詞 擅敢開始
廣告產品簡介從維基百科中搜尋出每個產品內容再將每個廣告產品簡介內
容輸入到中文斷詞系統進而輸出得到每個廣告產品簡介的詞性分析結果得到
的詞性分析結果將在進一步的分析作為廣告產品的特徵詞詳細方法在下面「廣
告產品簡介收集字分析」詳述
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
20
(三) 廣告產品簡介收集字分析
本論文之收集字分析主要是想要從廣告產品簡介中找出能夠代表廣告產品
的特徵詞再進一步從特徵詞與劇本段落分析出合適的廣告產品而分析出的資
訊可以提供廣告商做為依據讓廣告商可以決定是否在哪些段落符合自己的產品
而下產品廣告
因為先前研究者曾使用人工方式從劇本中標出人力標定詞再以人力標定詞
及每個段落頻率最高前三名且詞性為NA的詞跟廣告產品之間做比對由於此法費
時又費力所以本研究想要以自動化方式從廣告產品簡介中找出能夠代表廣告
產品的特徵詞再與劇本中重點度為4及5分的段落作比對進而找出每個段落合
適的廣告產品
收集字分析主要方法如下
1 廣告簡介經由中文斷詞系統輸出結果
2 從輸出結果找出廣告產品前後五項的收集字
3 前後五項收集字中取出詞性為NA的詞
4 以兩種方法分析出能夠代表廣告產品的特徵詞
(1)計算每個NA詞的出現次數
(2)利用Google搜尋廣告產品與每個NA詞之間的搜尋結果
5 以維基百科出現次數為主找出兩組特徵詞
6 以Google搜尋結果為主找出兩組特徵詞
7 最終每個廣告產品都可以找出四組廣告產品特徵詞
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
21
第三節 研究方法架構
研究方法之架構圖如圖 9 所示在圖 9 中第一部分的目的為從重點度為 4
及 5 分的段落找出所有詞性為 NA 的詞首先將金穗獎優良劇本經由中文斷詞系
統剖析出所有可以找出的特徵詞接著使用先前研究方法來自動化分析重點度
然後找出重點度為 4 及 5 分的段落裡所有詞性為 NA 的詞所找出來的 NA 詞再
使用廣義知網查詢出NA詞的上兩層延伸詞就能找出本實驗需要的劇本特徵詞
第二部分的目的在於從廣告產品簡介中找出代表廣告產品的特徵詞首先廣
告產品從維基百科中查詢出簡介內容再經由中文斷詞系統分析標示出詞性找
出廣告產品詞的前後五項收集字再從所有收集字中取出詞性為 NA 的詞接著
以兩種方法來計算出正規化頻率及 TF IDF再以維基百科次數為主及 Google 搜
尋為主取出各前三項找出四組特徵詞標籤廣告產品的四組特徵詞標籤與劇本
特徵詞比對最後將找出每個段落最佳推薦廣告即為本實驗最後產生的結果
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
22
圖 9 研究方法架構流程圖
金穗獎優良劇本
中文斷詞
系統
自動化分析
重點度
找出每個段落重
點度為 4 及 5 分
且詞性為 NA 的
詞
廣義知網
NA 延伸詞
廣告產品
延伸詞與介紹
比對 NA
與廣告標籤
產生每段落可用
之廣告產品
推薦最佳
廣告產品
維基百科
廣義知網
廣告產品
找出前後五項
收集字 取出 NA 收集字
計算 NA
收集字
出現次
數
搜尋與
廣告產
品之結
果
計算正規化頻率
及 TFIDF
廣告標籤選取策
略
中文斷詞
系統
段落重點度排序
廣告產品簡介
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
23
第四節 研究方法描述
本研究方法可以歸類成下列四大步驟說明(一)找出廣告產品收集字(二)計
算收集字作為特徵詞(三)廣告標籤選取策略(四)找出段落重點度為 4 及 5 分所
有 NA 詞和延伸詞各步驟的詳細說明如下
(一) 找出廣告產品收集字
將從維基百科所得到的廣告產品簡介經由中文斷詞系統分析後會得到廣告
產品簡介特徵詞從中找出廣告產品詞的前後五項收集字如表 3 以廣告產品
iPhone 舉例所示再取出詞性為 NA 的收集字如表 4 以廣告產品 iPhone 舉例所
示
表 3 廣告產品 iPhone 的前後五項收集字
項目 前五項 後五項
1 蘋果 公司 期下 研發 行動
電話
2 蘋果 公司 研發 手機 作業
系統 蘋果 公司
史蒂
夫
賈伯
斯 發布
3 舉行 產品 發布 推出 產品 正式 發售 蘋果 公司 旗下
4 蘋果 公司 旗下 智慧
型 手機 系列 個別 推出 款式 全球
5 款式 全球 銷量 智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機 伺服
器 專線 網路 視頻 標準 功能 音樂 語音 留言
7 蘋果 公司 開發
者 應用 程式 系列 機型 版本 代 先例
8 程式 系列 機型 版本 代 先例 手機 按鈕 設計 螢幕
9 螢幕 尺寸 機型 設計 系列 資料 網路 能力 功能 革命
性
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
24
10 資料 網路 能力 功能 革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理
器
高解
析度 鏡頭 相機 短片 特點
高解
析度 鏡頭 屏 視訊
12 視訊 鏡頭 影片 相機 鏡頭 核心 處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 屏 接頭
連接
線
14 核心 處理
器 屏 接頭
連接
線 擁有 生產 週期 其次 生產
15 連接
線 擁有 生產 週期 其次 生產 週期 天
響徹
雲霄 銷售
16 週期 其次 生產 週期 天 數字 智慧
型 手機 行業 程度
17 價值 公司 國家 型號 手機 美國 日本 國家
表 4 廣告產品 iPhone 的取出 NA 收集字
項目 前五項 後五項
1 蘋果 公司
行動
電話
2 蘋果 公司 手機
作業
系統 蘋果 公司
史蒂
夫
賈伯
斯
3 產品 產品 蘋果 公司
4 蘋果 公司
智慧
型 手機 款式 全球
5 款式 全球
智慧
型 手機
使用
者 介面 手機 螢幕 款式
6 手機
伺服
器 專線 網路 視頻 功能 音樂 語音 留言
7 蘋果 公司
開發
者 程式 機型 版本
8 程式 機型 版本 手機 按鈕 螢幕
9 螢幕 尺寸 機型 資料 網路 功能
革命
性
10 資料 網路 功能
革命
性 中央
處理
器
高解
析度 鏡頭 相機
11 處理 高解 鏡頭 相機 短片 高解 鏡頭 視訊
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
25
器 析度 析度
12 視訊 鏡頭 影片 相機 鏡頭 核心
處理
器 影片 相機 語音
13 處理
器 影片 相機 語音 助理 核心
處理
器 接頭
連接
線
14 核心
處理
器 接頭
連接
線
15
16 數字
智慧
型 手機
17 公司 國家 手機 美國 日本 國家
(二) 計算收集字作為特徵詞
由第一步驟得到篩選過後的 NA 收集字再計算每個 NA 收集字出現的次數
以及經過 Google 搜尋廣告產品與每個 NA 收集字之間的搜尋結果經過正規化
頻率(TF)以及 TFIDF 計算後如表 5 及 6 以廣告產品 iPhone 舉例所示
其中 TFIDFTFIDF 公式如公式(1)(2)(3)所示
(1)
(2)
(3)
公式(1)中119899119894119895為每項 NA 收集字出現次數sum 119899119896119895119896 為 NA 收集字出現頻率
加總tfij為 NA 收集字正規化頻率(TF)公式(2)中 log 以 10 為底|119863|設為 20
因本研究使用 20 個廣告產品|119895 ∶ 119905119894 isin 119889119895|為 NA 收集字出現在 20 個廣告中的次
數公式(3)是將公式(1)及(2)的結果相乘得到的結果作為廣告標籤選取
策略使用而以上三個公式也應用於 Google 搜尋廣告產品與每個 NA 收集字之
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
26
間進而計算結果
表 5 廣告產品 iPhone 的 NA 收集字出現次數
項目 出現頻率 正規化頻率(TF) IDF TFIDF
手機 8 0074766 130103 0097273
公司 7 0065421 030103 0019694
蘋果 6 0056075 130103 0072955
處理器 6 0056075 130103 0072955
鏡頭 5 0046729 100000 0046729
相機 5 0046729 100000 0046729
智慧型 3 0028037 130103 0036477
款式 3 0028037 130103 0036477
螢幕 3 0028037 130103 0036477
語音 3 0028037 130103 0036477
機型 3 0028037 130103 0036477
高解析度 3 0028037 130103 0036477
影片 3 0028037 130103 0036477
核心 3 0028037 130103 0036477
網路 3 0028037 100000 0028037
功能 3 0028037 100000 0028037
程式 2 0018692 130103 0024319
版本 2 0018692 130103 0024319
革命性 2 0018692 130103 0024319
視訊 2 0018692 130103 0024319
接頭 2 0018692 130103 0024319
連接線 2 0018692 130103 0024319
產品 2 0018692 100000 0018692
全球 2 0018692 100000 0018692
資料 2 0018692 082391 0015401
國家 2 0018692 069897 0013065
行動電話 1 0009346 130103 0012159
作業系統 1 0009346 130103 0012159
史蒂夫 1 0009346 130103 0012159
賈伯斯 1 0009346 130103 0012159
使用者 1 0009346 130103 0012159
介面 1 0009346 130103 0012159
專線 1 0009346 130103 0012159
視頻 1 0009346 130103 0012159
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
27
留言 1 0009346 130103 0012159
開發者 1 0009346 130103 0012159
按鈕 1 0009346 130103 0012159
中央 1 0009346 130103 0012159
短片 1 0009346 130103 0012159
助理 1 0009346 130103 0012159
數字 1 0009346 130103 0012159
伺服器 1 0009346 100000 0009346
音樂 1 0009346 100000 0009346
尺寸 1 0009346 100000 0009346
日本 1 0009346 069897 0006533
美國 1 0009346 060206 0005627
表 6 廣告產品 iPhone 的 NA 收集字 Google 搜尋結果
項目 搜尋結果 正規化頻率(TF) IDF TFIDF
日本 95000000 0216974 069897 0151658
公司 47400000 0108259 030103 0032589
資料 41100000 0093870 082391 0077340
全球 36600000 0083592 100000 0083592
國家 33300000 0076055 069897 0053160
功能 32700000 0074685 100000 0074685
中央 32400000 0074000 130103 0096276
美國 25300000 0057784 060206 0034789
網路 22200000 0050703 100000 0050703
版本 18700000 0042710 130103 0055567
手機 18100000 0041339 130103 0053783
核心 10200000 0023296 130103 0030309
產品 2100000 0004796 100000 0004796
尺寸 1910000 0004362 100000 0004362
留言 1560000 0003563 130103 0004636
使用者 1350000 0003083 130103 0004011
音樂 1210000 0002764 100000 0002764
影片 1040000 0002375 130103 0003090
程式 1020000 0002330 130103 0003031
蘋果 949000 0002167 130103 0002819
處理器 885000 0002021 130103 0002629
短片 677000 0001546 130103 0002011
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
28
螢幕 673000 0001537 130103 0002000
視頻 653000 0001491 130103 0001940
行動電話 633000 0001446 130103 0001881
款式 600000 0001370 130103 0001782
專線 592000 0001352 130103 0001759
助理 580000 0001325 130103 0001724
史蒂夫 543000 0001240 130103 0001613
伺服器 537000 0001226 100000 0001226
鏡頭 533000 0001217 100000 0001217
革命性 528000 0001206 130103 0001569
開發者 521000 0001190 130103 0001548
機型 520000 0001188 130103 0001546
接頭 514000 0001174 130103 0001527
作業系統 513000 0001172 130103 0001525
按鈕 493000 0001126 130103 0001465
數字 491000 0001121 130103 0001458
智慧型 458000 0001046 130103 0001361
介面 448000 0001023 130103 0001331
相機 413000 0000943 100000 0000943
連接線 404000 0000923 130103 0001201
高解析度 393000 0000898 130103 0001168
視訊 388000 0000886 130103 0001153
語音 361000 0000825 130103 0001073
賈伯斯 350000 0000799 130103 0001040
(三) 廣告標籤選取策略
從上述步驟的計算結果中選取出各前三項找出四組特徵詞標籤以維基百
科出現次數為主找出正規化頻率數值前三項 NA 詞及 TFIDF 數值前三項 NA
詞組成各一組有六項 NA 詞作為廣告產品特徵詞再以 Google 搜尋結果為主
找出正規化頻率(TF)數值前三項 NA 詞及 TFIDF 數值前三項 NA 詞組成各一
組有六項 NA 詞作為廣告產品特徵詞在本法中如果標籤在為主的標籤已出現
過則再往後一項選取補滿六項為止如表 7-10 以廣告產品 iPhone 舉例所示
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
29
表 7 以 WIKI 項目為主TF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
公司 資料
蘋果 全球
表 8 以 WIKI 項目為主TFIDF 兩者前三項當作 Tag
WIKI 項目 Google 搜尋項目
手機 日本
蘋果 中央
處理器 全球
表 9 以 Google 搜尋為主TF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
公司 蘋果
資料 處理器
表 10 以 Google 搜尋為主TFIDF 兩者前三項當作 Tag
Google 搜尋項目 WIKI 項目
日本 手機
中央 蘋果
全球 處理器
依據上述這個方法分析每個廣告產品的四組特徵詞組再將每個廣告產品的
四組特徵詞組與劇本段落比對分析就能夠找出每個段落合適的廣告產品進而
推薦廣告的資訊給予廣告商讓廣告商能夠在正確的段落後下正確的產品廣告
讓廣告商能夠有好的效益
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
30
(四) 找出段落重點度為 4 及 5 分所有 NA 詞和延伸詞
參考沈信佑(2016)的方法自動化分析出每個劇本段落的重點度本研究
主要分析劇本段落重點度為 4 及 5 分的段落因為覺得在高重點度的段落是廣告
商們最主要搶的黃金廣告時段所以本實驗主要分析重點度段落為 4 及 5 分劇
本段落重點度的分布狀況如圖 10 所示在沈信佑的研究方法主要是找出每個段
落最常出現的前三名 NA 特徵詞但也有可能會因為沒有被選到的 NA 特徵詞是
能夠代表段落的特徵詞所以本實驗主要是找出段落重點度為 4 及 5 分所有的 NA
特徵詞再透過廣義知網找出每個 NA 特徵詞的上兩層延伸詞作為劇本段落的
特徵詞進而與廣告產品特徵詞比對找出最佳推薦廣告如表 11 以劇本一段落
11-20 所示
圖 10 所有劇本重點度的分布狀況
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
31
表 11 劇本一段落 11-20 的 NA 特徵詞及延伸詞
Na 項目 階層 1 階層 2
獄警 人 人
座到 - -
犯人 人 人
樣子 外觀 外觀
電話 用具 器具
玻璃窗 萬物 物質
可樂瓶 - -
感覺 有知 感知狀態
名字 姓名 特性
人 動物 生物
複頌 - -
女朋友 女性 人
話題 內容 部件
報紙 書刊 讀物
蛋糕 食品 食物
警衛 人 人
臉 頭 身體部件
景 背景 背景
空間 萬物 物體
賓 人 人
壁報 報紙 書刊
身材 外觀 外觀
長相 外觀 外觀
男孩 人 人
肉雞 禽 獸
筆 文具 器具
蒼蠅 蟲 獸
運鈔車 車 交通工具
新聞 訊息 抽象物
簡報 語文 訊息
事 事情 萬物
一年級 - -
妹 姊妹 手足
痕跡 天然物 無生物
世 時段 時間
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
32
拳頭 手 手
同學 人 人
水 液 天然物
三年級 - -
老大 人 人
頭髮 毛 身體部件
墨鏡 用具 器具
身 身體部件 生物
制服 衣物 人工物
男生 人 人
肩膀 身 身體部件
個頭 高度 外觀
男 性別值 物體性質
門 萬物 抽象物
學長 同學 同學
敗類 人 人
語氣 風格 外觀
感情 精神 抽象物
錢 錢財 人工物
雙拳 - -
心情 精神 抽象物
禮拜 年 時段
命令 使動 使之動
個戲 - -
信用 能力 主觀描述
笑容 表情 外觀
口袋 衣物 人工物
銅板 貨幣 錢財
手 身體部件 動物
飲料 食物 人工物
馬子 女性 人
眉頭 毛 身體部件
眼神 外觀 特性
馬桶 用具 器具
隔間 房間 房屋
街道 設施 建築物
運動服 人 人
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
33
社員 領屬者 物體腳色
女 人 人
秩序 次序 數量
紅綠燈 交通號誌 符號
嘴 身體部件 動物
變燈 - -
學生 人 人
山坡 陸地 大地
羽球 運動器材 器具
活力 力量 主觀描述
健康操 - -
錄音機 機器 器具
兒歌 歌曲 歌曲
音樂 訊息 抽象物
精神 抽象物 萬物
女生 人 人
熟女 人 人
王道 方法 方法
體操 事務 事情
體育 事務 事情
老師 人 人
表現 舉止 人格特質
包包 - -
片 詞語 語言
封面 書刊 讀物
童顏 外觀 外觀
巨乳 - -
女優 - -
全校 - -
聲音 天然物 無生物
幹嘛 從事 從事
馬尾 尾 身體部件
把手 器具 用具
書包 用具 器具
夜景 背景 背景
座位 地方 地方
頭 身體部件 動物
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
34
簡訊 音訊 訊息
位置 位置相關 背景
水龍頭 器具 用具
動作 事務 事情
肩 身 身體部件
長髮 頭髮 毛
瀏海 頭髮 毛
眼睛 身體部件 動物
開架 取 變領屬
用品 器具 人工物
櫃旁 - -
包裝 用具 器具
藥盒 盒子 用具
大字 文字 語言
字 語言 信息載體
激素 化學物 人工物
避孕藥 藥物 人工物
依上表可以觀察到當要將劇本段落重點度為 4 及 5 分的所有 NA 詞在廣義
知網查詢上兩層延伸詞時可能會因為所要查詢的 NA 詞在廣義知網裡無法能夠
找出相關的延伸詞所以以rdquo-ldquo顯示而導致劇本段落所找出的延伸詞減少
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
35
第四章 實驗結果
第一節 劇本段落與廣告產品之比對結果
經過劇本自動化分析出重點度段落為 4 及 5 分找出所有 NA 特徵詞及延伸
詞與廣告產品簡介經過收集字分析後找出四組特徵詞將劇本段落特徵詞與
廣告產品特徵詞比對分析出劇本段落與廣告產品的比對結果結果如表 12-31
以劇本一為例0 代表為劇本段落特徵詞沒有比對到廣告特徵詞1 以上代表為劇
本段落特徵詞正確比對到廣告特徵詞的數量
表 12 廣告產品「iPhone」與劇本一段落比對結果
表 13 廣告產品「TVBS 新聞台」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 1 1 0 0
維基 TFIDF 0 0 0 0 1 1 0 0
搜尋 TF 0 0 0 0 1 1 0 0
搜尋 TFIDF 0 0 0 0 1 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 0 0 0 0
搜尋 TFIDF 1 0 0 0 0 0 0 0
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
36
表 14 廣告產品「中華職業棒球大聯盟」與劇本一段落比對結果
表 15 廣告產品「可口可樂」與劇本一段落比對結果
表 16 廣告產品「台糖量販」與劇本一段落比對結果
表 17 廣告產品「便當」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 1 1 1 2 0 0 0
維基 TFIDF 2 1 1 1 2 0 0 0
搜尋 TF 2 1 1 1 2 0 0 0
搜尋 TFIDF 2 1 1 1 2 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 0 0 1 0 1 0
維基 TFIDF 1 0 0 0 1 0 1 0
搜尋 TF 1 0 0 0 1 0 1 0
搜尋 TFIDF 1 0 0 0 1 0 1 0
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
37
表 18 廣告產品「信義房屋」與劇本一段落比對結果
表 19 廣告產品「香雞排」與劇本一段落比對結果
表 20 廣告產品「動物」與劇本一段落比對結果
表 21 廣告產品「啤酒」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 0 0 0 0 1 1
維基 TFIDF 1 1 0 0 0 0 1 1
搜尋 TF 1 1 0 0 0 0 1 1
搜尋 TFIDF 1 1 0 0 0 0 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 1 0 0 0 0 1
維基 TFIDF 0 0 1 0 0 0 0 1
搜尋 TF 0 0 1 0 0 0 0 1
搜尋 TFIDF 0 0 1 0 0 0 0 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 2 3 3 4 2 2 2 3
維基 TFIDF 2 3 3 4 2 2 2 3
搜尋 TF 2 2 3 3 2 2 2 2
搜尋 TFIDF 2 2 3 3 2 2 2 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 2 1
維基 TFIDF 1 1 1 1 1 1 2 1
搜尋 TF 1 1 1 1 1 1 2 1
搜尋 TFIDF 0 0 0 0 0 0 1 0
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
38
表 22 廣告產品「排骨」與劇本一段落比對結果
表 23 廣告產品「速食麵」與劇本一段落比對結果
表 24 廣告產品「雄獅旅遊集團」與劇本一段落比對結果
表 25 廣告產品「新光保全」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 2 1 1 1 1 0
維基 TFIDF 0 0 1 0 0 0 0 0
搜尋 TF 1 1 1 1 1 1 1 0
搜尋 TFIDF 0 0 1 1 0 0 1 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 0 1 1 1 0 2 0
維基 TFIDF 1 0 1 1 1 0 2 0
搜尋 TF 1 0 1 1 1 0 2 0
搜尋 TFIDF 1 0 1 1 1 0 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 1 1 1
維基 TFIDF 1 1 1 1 1 1 1 1
搜尋 TF 1 1 1 1 1 1 1 1
搜尋 TFIDF 1 1 1 1 1 1 1 1
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 1 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 1 0 0 0 0
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
39
表 26 廣告產品「腳踏車」與劇本一段落比對結果
表 27 廣告產品「電視」與劇本一段落比對結果
表 28 廣告產品「網路遊戲」與劇本一段落比對結果
表 29 廣告產品「遠傳電信」與劇本一段落比對結果
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 2 2 1 2 1 1 2
維基 TFIDF 0 2 1 0 2 1 0 2
搜尋 TF 1 2 2 1 2 1 1 2
搜尋 TFIDF 0 2 1 0 2 1 0 2
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 2 3 3 1
維基 TFIDF 1 0 0 0 1 2 2 0
搜尋 TF 1 1 1 1 2 3 3 1
搜尋 TFIDF 1 0 0 0 1 1 2 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 1 1 1 1 1 2 1 1
維基 TFIDF 0 0 0 0 0 1 0 0
搜尋 TF 1 1 1 1 1 2 1 1
搜尋 TFIDF 0 0 0 0 0 1 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
40
表 30 廣告產品「醫院」與劇本一段落比對結果
表 31 廣告產品「攝影」與劇本一段落比對結果
依表 12-31 可以觀察出經過劇本段落特徵詞與廣告產品特徵詞分析比對後
可以看出本實驗方法在劇本一中廣告產品「動物」「腳踏車」及「電視」有很
好的效果表現也可以看到使用不同的特徵組與劇本段落做比對得出來的結果
會有不同的效果但是也有在一些廣告產品沒有很好的效果表現可能是因為在
劇本段落裡的 NA 特徵詞跟廣告產品的特徵組沒有找到相對應的詞所以才會出
現沒有比對到的情況
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 0 0 0 0
維基 TFIDF 0 0 0 0 0 0 0 0
搜尋 TF 0 0 0 0 0 0 0 0
搜尋 TFIDF 0 0 0 0 0 0 0 0
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF 0 0 0 0 2 1 2 0
維基 TFIDF 0 0 0 0 1 1 1 0
搜尋 TF 0 0 0 0 1 1 1 0
搜尋 TFIDF 0 0 0 0 1 1 1 0
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
41
第二節 實驗評量結果
圖 11-18 為劇本與廣告特徵詞之實驗比對結果以劇本七及劇本九為例而
本系統將找出各段落比對結果最佳的廣告再與劇本各段落內容作比對找出最
佳推薦廣告如表 32-43 以劇本一為例所示最後得到每一個劇本推薦廣告的準
確率結果如表 44 所示
(一) 劇本與廣告特徵詞之比對結果
圖 11 廣告產品維基百科 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
42
圖 12 廣告產品維基百科 TFIDF 特徵組與劇本七段落之比對
圖 13 廣告產品 Google 搜尋 TF 特徵組與劇本七段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
43
圖 14 廣告產品 Google 搜尋 TFIDF 特徵組與劇本七段落之比對
圖 15 廣告產品維基百科 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落1-10 段落11-20 段落21-30 段落31-40 段落41-end
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
44
圖 16 廣告產品維基百科 TFIDF 特徵組與劇本九段落之比對
圖 17 廣告產品 Google 搜尋 TF 特徵組與劇本九段落之比對
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
維基百科 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
45
圖 18 廣告產品 Google 搜尋 TFIDF 特徵組與劇本九段落之比對
觀察圖 11-18可看出以四組廣告特徵詞在劇本七段落比對的結果雖然比對
成功的廣告產品比較少但在劇本七每個段落中至少都有比對到三個廣告產品
而在劇本九可觀察到以四組廣告特徵詞在每個段落比對成功廣告產品比較多在
維基百科 TF 特徵組與劇本九段落 51-60其中網路遊戲比對到 4 個特徵詞所以
分數為 4 分
(二) 最佳廣告與劇本段落內容之比對結果
最佳廣告與劇本段落內容比對的方法是找三個人做問卷而進行人力比對
問卷選項分別有符合中立不符合會使用這種方法主要是最佳廣告特徵詞依
自動比對劇本段落內容可能無法找到相同字而降低準確率所以找三個人做問卷
的方式而比對方法是三個人閱讀劇本內容比對最佳廣告找出是否合適人工評
量結果的確定採投票方式亦即如果二人以上認為符合則該推薦廣告視為符合
若二人以上認為不符合則該推薦廣告視為不符合若二人以上認為中立或是
三人意見都不相同時則該推薦廣告視為中立比對之結果進而計算每個劇本的
0
1
2
3
4
5
6
段落11-20 段落31-40 段落41-50 段落51-60 段落61-70 段落71-80
Google 搜尋 TFIDF
iPhone TVBS新聞台 中華職棒 可口可樂 台糖量販
便當 信義房屋 香雞排 動物 啤酒
排骨 速食麵 雄獅旅遊 新光保全 腳踏車
電視 網路遊戲 遠傳電信 醫院 攝影
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
46
準確率實驗結果如表 32-43 所示其中 V 代表為符合X 代表為不符合 - 代
表為中立
表 32 最佳廣告與劇本一段落內容比對結果
表 33 最佳廣告與劇本二段落內容比對結果
劇本二
1-10 11-20 21-30 31-40 41-50 51-60 61-70 81-90
維基 TF V V V V X V X V
維基 TFIDF - V V V X V X V
搜尋 TF V V X V - V X V
搜尋 TFIDF V V V V X V X V
表 34 最佳廣告與劇本三段落內容比對結果
劇本三
31-40 41-50 51-60 61-70 71-80 81-90 91-end
維基 TF V X V X V V V
維基 TFIDF V X V V V V X
搜尋 TF V X V X V V V
搜尋 TFIDF V X V V V V X
劇本一
11-20 21-30 31-40 41-50 51-60 71-80 91-100 121-end
維基 TF X V V X V V X V
維基 TFIDF X V V X V V X V
搜尋 TF X V V X V V X V
搜尋 TFIDF X V V X V V X V
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
47
表 35 最佳廣告與劇本四段落內容比對結果
劇本四
11-20 21-30 41-50 51-60 61-70
維基 TF X X V V V
維基 TFIDF V X V V V
搜尋 TF X X V V V
搜尋 TFIDF X X V V V
表 36 最佳廣告與劇本五段落內容比對結果
劇本五
1-10 21-30 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X V
維基 TFIDF X V X V V V V
搜尋 TF V V X V V X V
搜尋 TFIDF X V X V V V V
表 37 最佳廣告與劇本六段落內容比對結果
劇本六
1-10 21-30 31-40 61-70 71-80 81-90 101-110
維基 TF X V - X V V V
維基 TFIDF X V X V V V V
搜尋 TF X V - X V V V
搜尋 TFIDF X V X V V V V
表 38 最佳廣告與劇本七段落內容比對結果
劇本七
1-10 11-20 21-30 31-40 41-end
維基 TF V X V V X
維基 TFIDF V - V V X
搜尋 TF V X V V X
搜尋 TFIDF V - V V X
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
48
表 39 最佳廣告與劇本八段落內容比對結果
劇本八
21-30 41-50 51-60 61-70
維基 TF V - X V
維基 TFIDF V X V V
搜尋 TF V - X V
搜尋 TFIDF V X V V
表 40 最佳廣告與劇本九段落內容比對結果
劇本九
11-20 31-40 41-50 51-60 61-70 71-80
維基 TF V V X V V X
維基 TFIDF V V X V V X
搜尋 TF V V X V V X
搜尋 TFIDF V V X V X X
表 41 最佳廣告與劇本十段落內容比對結果
劇本十
1-10 31-40 41-50 51-60 61-70 71-80 91-end
維基 TF V X V V - V V
維基 TFIDF V V V V X V X
搜尋 TF V X V V - V V
搜尋 TFIDF V V V V X V X
表 42 最佳廣告與劇本十一段落內容比對結果
劇本十一
21-30 41-50 51-60
維基 TF X V V
維基 TFIDF V X V
搜尋 TF X V V
搜尋 TFIDF X V V
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
49
表 43 最佳廣告與劇本十二段落內容比對結果
劇本十二
21-30 41-50 61-70 81-end
維基 TF V X V V
維基 TFIDF V X V V
搜尋 TF V V V X
搜尋 TFIDF V V V X
觀察表 32-43可看出依據問卷的方式在最佳廣告與每劇本段落比對的結果
在多數劇本中可以很成功的比對到在表 43 可以看出劇本十二經過三人問卷的
比對結果可以有很好的成功結果而在表 39 劇本八段落 41-50 也有遇到中立的
結果但也有在有些段落可能沒有辦法成功的比對到而這部分可能在未來研究
可以再使用其他的方法做實驗進而提升好的結果
以下兩張圖為經由三人問卷的結果成功比對到的段落及推薦的最佳廣告產
品如圖 19 為劇本七段落 21-30 之節錄內容以此圖為範例說明本研究推薦廣告
商品的方法
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
50
圖 19 劇本七內容與廣告產品關聯之段落
在劇本七段落 21-30 之可用廣告產品中動物在段落 21-30 裡是分數最高者
而「變色龍」可以在廣告產品群比對時被「動物」比對到因此本系統在 21-30 的
重點度段落中推薦的廣告產品為「動物」再舉另一例如圖 20 所示
傑克森我們是從非洲的馬達加斯加島來的
賈霸是嗎我怎麼不知道我是馬達加斯加島的變色龍我們真的從非洲來
的
賈霸動了動頭上的高冠一臉困惑的表情牠對自己的身世一無
所知
嬉皮馬達加斯加島是變色龍的故鄉你不知道難怪你到現在都變不了
色真懷疑你是不是變色龍
賈霸的心情頓時感到沮喪
賈霸也許我真的不是變色龍helliphellip
嬉皮跟你開玩笑的啦(用手逗著賈霸頭頂上的高冠)就憑你頭上這頂高
冠有誰敢說你不是高冠變色龍
賈霸(開心地動了動頭上的高冠)真的我真的是高冠變色龍嗎
嬉皮如果有天我回到馬達加斯加島整座島都是蜥蜴helliphellip 哇生意鐵定
接不完到時候就可以開連鎖店了我要在全島各地開美容中心
賈霸非洲距離這裡有多遠啊
傑克森可遠呢坐船大概要一二個月吧
賈霸哇這麼遠那當初我們是怎麼來的幹嘛要離開故鄉來到這麼遠
的地方嬉皮你白癡啊當然是被抓來的
賈霸被抓來的helliphellip我們是黑奴嗎
賈霸嬉皮傑克森臉上都塗著黑色的海泥面膜
三隻變色龍眨了眨眼思考著這個問題
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
51
圖 20 劇本十內容與廣告產品關聯之段落
在劇本十段落 51-60 之可用廣告產品中電視在段落 51-60 裡是分數最高者
而「電視機」可以在廣告產品群比對時被「電視」比對到因此本系統在 51-60 的
重點度段落中推薦的廣告產品為「電視」
饅頭的媽媽在廚房切菜
饅頭忘我的坐在電視機前
電視機畫面大力水手
小梨子的媽媽將一條魚放入鍋裡煎油煙四溢
電視機畫面大力水手
小梨子坐在電視機前的地板上嘴巴微微張開活像個傻瓜直盯著卡
通
他的爸爸在一旁的沙發上也是嘴巴微微張開直盯著電視機幾乎跟小
梨子一個模樣
志偉的媽媽端著一鍋玉米濃湯放上餐桌「志偉叫你爸爸還有哥哥吃飯
了」說完又回到廚房
志偉完全沒有聽到媽媽的話深深被電視機畫面吸引
電視機畫面大力水手
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
52
(三) 劇本推薦廣告之準確率
本實驗推薦廣告之準確率如表 44 所示
表 44 劇本中推薦廣告產品之準確率
觀察表 44可以看出在每個劇本中在準確率都能夠達到六成以上的結果
只有少數幾個準確率不到六成的表現而利用四種特徵詞的方法平均準確率各為
6561695064566749
表 44 中在劇本四用維基百科 TFIDF 的特徵詞準確率可以達到 80主要
是劇本四在五個段落中能夠成功比對到四個段落而沒有成功比對到的段落 21-
30 是因為最佳廣告的特徵詞經由人力比對後沒有找到劇本段落內容能夠符合最
佳廣告特徵詞所以段落 21-30 的問卷結果是不符合
而在劇本八用維基百科 TF 及 Google 搜尋 TF 的特徵詞準確率只能有 50
劇本 維基百科
TF
維基百科
TFIDF
Google 搜尋
TF
Google 搜尋
TFIDF
劇本 1 6250 6250 6250 6250
劇本 2 7500 6250 6250 7500
劇本 3 7143 7143 7143 7143
劇本 4 6000 8000 6000 6000
劇本 5 7143 7143 7143 7143
劇本 6 5714 7143 5714 7143
劇本 7 6000 6000 6000 6000
劇本 8 5000 7500 5000 7500
劇本 9 6667 6667 6667 5000
劇本 10 7143 7143 7143 7143
劇本 11 6667 6667 6667 6667
劇本 12 7500 7500 7500 7500
平均準確
率 6561 6950 6456 6749
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
53
的結果主要是因為在段落 41-50 及段落 51-60 的關係在段落 41-50 與最佳廣
告的特徵詞經過人力比對後三人問卷的結果呈現中立而在段落 51-60 與最佳
廣告的特徵詞經過人力比對後三人問卷得到的結果是兩個人覺得是不符合因
為這兩個段落的原因導致得到的準確率不是很理想所以可能未來還需要再找
其他的方法或是不同的特徵詞選取使準確率改善而提升
就目前的實驗觀察發現此系統的表現力有時很好卻有時不夠好系統穩定
性還不夠相信之後如果能夠有更完善的資料庫供使用將可以更完善的改進本
系統進而提高系統效能讓輸出效果更能夠顯著表現
總而言之利用本系統能夠建議廣告商可以在哪個時段下廣告廣告商可在
劇本段落中找出最佳推薦廣告而花費較高的成本播映廣告得到較大的效益或
是在劇本段落中雖然是推薦廣告但是相關度較低時花費較低的成本播映廣告
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
54
第五章 結論與未來展望
本研究資料之劇本文件是從金穗獎優良劇本中挑出 12 個劇本進行研究在
廣告產品簡介方面是從維基百科查詢出廣告產品簡介內容進行分析研究另外
參考沈信佑研究的方法產生劇本重點度之結果在準備資料完成後先從分析
劇本開始劇本經中文斷詞系統找出所有劇本內的特徵詞
本論文特徵詞運用於兩大部分第一部分利用自動化分析重點度的方法來
分析劇本段落重點度為 4 及 5 分的段落再用中文斷詞系統找出所有 NA 特徵詞
以及利用廣義知網查詢所有 NA 特徵詞的上兩層延伸詞作為特徵詞使用第二部
分利用廣告產品簡介內容經過中文斷詞系統分析出所有詞性以廣告產品詞找出
前後5項的收集字再篩選出詞性為NA的收集字經過計算正規化頻率及TFIDF
之後找出四組代表廣告產品的特徵詞用來找出最佳推薦廣告驗證方式將劇
本段落特徵詞與廣告產品四組特徵詞之比對觀察找出段落分數最高前三名可
以用來呈現最佳推薦廣告最後將此結果輸出可提供結果給廣告商參考在哪
個時段下廣告
經由本次研究後發現本系統是可以得出預想呈現的結果但效益或其他特
徵的取得都是未來還可以改進及加強的地方期望找到更多能夠擴充劇本及廣
告產品的特徵詞一定會對本研究有非常大的幫助本研究未來可再發展的方向
可從兩個部分進行
一劇本特徵詞
在劇本段落特徵詞上本研究已實驗使用詞性 NA 尋找是非常合適的但是
如果想要更精確可以再加入更多特徵項目像是情感方面的特徵項目希望未
來能夠找到除了詞性特徵的其他方法找出更多不同的特徵使得本研究的準確
率能夠再提升也能在更多不同的領域運用像是可以應用於連續劇的置入性商
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
55
品推薦部落格網站經由本系統能夠推薦可播放廣告或是手機 APP 相關內容的
廣告推薦等
二廣告商品資料庫
期許未來可以擴充增加廣告資料庫因為目前並沒有可以公開取得相關廣告
資料如果未來可以收集到更多方面且更多元的廣告就可以能夠進行更詳細的
廣告資料分析而針對更多相關聯的廣告可以作更多的比對能夠把整體系統在
更精細的調整且提升效能
總而言之在未來發展上希望能夠使廣告產品資料庫實用化將處理過的
廣告產品能夠記錄在資料庫使廣告產品資料庫能夠越來越豐富且加大擴充資料
庫內容而資料比對方面也可以朝更多元化的方向找出更有效果的特徵使得
資料分析與處理方面可以更快更有效率
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
56
參考文獻
Blackstock A amp Spitz M (2008) Classifying movie scripts by genre with a MEMM
using NLP-Based features Available at December 12 2015 from
nlpstanfordeducoursecs224n200806pdf
Eliashberg J Jonker J J Sawhney M S Wierenga B (2000) MOVIEMOD An
implementable decision support system for pre-release market evaluation of motion
pictures Marketing Science Vol 19 No 3 pp 226-243
Gil S Kuenzel L amp Caroline S (2011) Extraction and analysis of character
interaction networks from plays and movies Technical report Stanford University
John G H amp Langley P (1995) Estimating continuous distributions in Bayesian
classifiers Proceedings of the Eleventh conference on Uncertainty in Artificial
Intelligence pp 338-345
Li S Wang Z Zhou G amp Lee S Y M (2011) Semi-supervised learning for
imbalanced sentiment classification Proceedings of the Twenty-Second
International Joint Conference on Artificial Intelligence Vol 22 No 3 pp 1826-
1831
McCallum A Freitag D amp Pereira F C (2000) Maximum entropy Markov models
for information extraction and segmentation ICML Vol 17 pp 591-598
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp
57
Mishne G amp Glance N S (2006) Predicting movie sales from blogger sentiment
Proceedings of AAAI Spring Symposium Computational Approaches to Analyzing
Weblogs pp 155-158
Qin Y Zhang Y Zhang M amp Zheng D (2013) Feature-rich segment-based news
event detection on twitter Proceedings of 2013 International Joint Conference on
Natural Language Processing pp 302-310
中文斷詞系統 from httpckipsvriissinicaedutw
沈信佑2016ldquo劇本文件探勘與廣告推薦之研究rdquo國立臺灣師範大學資訊工
程所碩士論文
金穗獎優良劇本 from httpwwwmovieseedscomtw
維基百科 from httpszhwikipediaorgzh-tw
廣義知網 from httpehownetiissinicaedutwindexphp