推薦文件系統 (1)

47
小小 1 小小小小小小小小

Upload: -

Post on 22-Jan-2017

427 views

Category:

Education


0 download

TRANSCRIPT

Page 1: 推薦文件系統 (1)

小黑

1

推薦文件系統初論

Page 2: 推薦文件系統 (1)

概述

2

以系統做分類所面臨的問題不同使用者對於挑選文件的標準不同。以程式判斷,人文研究者也難以判斷的文件,準確率讓人懷疑。

文件推薦系統希望能夠建立一個系統,能夠給予使用者推薦的文件或用字。讓使用者憑藉自行標準,篩選文件。系統只是作為一個輔助工具,而非決定工具。

Page 3: 推薦文件系統 (1)

概述

3

此系統功能希望能夠達到三個應用給予使用者推薦可能相關文件

使用者不需要再全部文件,而可以先閱讀推薦文件找到可能所選。(以清實錄康熙朝為例)找出未知的區別用字

在所選的P和N中,區別最大的用字是什麼?(以古契書鬮分契和杜賣契為例)找出以分類文件,可能錯誤文件

假設P和N是已知獨立二個體(鬮分契、杜賣契)。若N中有P中分數很高的文件,可能此文件其實是屬於P。代表原來分類是有瑕疵的(以古契書鬮分契和杜賣氣為例)

Page 4: 推薦文件系統 (1)

概述

4

建立一個系統,使用者需要選擇下列三種資料: Universe_Set

使用者所欲篩選的全部文件 Positive_Set

使用者認定為需求的文件 Negative_Set

使用者認為可能非需求的文件。

Page 5: 推薦文件系統 (1)

概述

5

先將文件以 2,3,4個字切開。利用詞頻透過演算法計算,找出「區別用字」。亦即在P相對於N中,較能夠區分P和N的用字。比對所有文件 (U)計算文件總分。來找出用字關連性高的文件。越高分代表與所選P相關性越高。

Page 6: 推薦文件系統 (1)

系統特性

6

特性及需求:主要是利用詞頻去記算區別用字,因此所選文件P和N須要達到一定數量,準確率才能較足夠若P缺乏共同意識,亦即缺乏較高頻用字,準確率也會較低。

Page 7: 推薦文件系統 (1)

系統特性

7

優點:1.使用者不需要自行判斷用字。2.將分類的標準的責任取決於使用者的判斷,避免程式的風險。對於介於模糊界上的文件,交由使用者自由意識判斷

缺點:1.由於計算相當費時,會是一個無法以網頁程式呈現的系統,可能必須為一個單機系統。2.系統和使用者需要實作幾次才能夠到達飽和?目前設計是仰賴使用者判斷。

Page 8: 推薦文件系統 (1)

未來工作

8

計算公式的調整原本公式N-gram以後,只以 t->q做分數 ranking的標準

更詳細精確的實作測試與比較

Page 9: 推薦文件系統 (1)

演算法探討以清實錄康熙朝臺灣相關及清實錄臺灣史料專輯比較為例

9

Page 10: 推薦文件系統 (1)

演算法探討

10

先對以下幾個名詞做解釋Universe(U):要撈取的全部文件 (本次研究為清實錄中康熙朝文件 )Positive_Set(P):已知正確的文件 (本次研究為清實錄臺灣史資料專輯康熙朝中 296 件 + 未收錄於清實錄臺灣史資料專輯但包含臺灣、澎湖此二關鍵字的文件 43

件 )Negative_Set(N):可能非需要文件。第一次是以 N =

U-P。

Page 11: 推薦文件系統 (1)

演算法探討

11

將 U中,按照兩個字、三個字、四個字切開。每個詞彙稱為 t令 代表詞彙 t,於 S 集合中出現的文件數。令 |S| 代表 S 集合中總文件數對每個詞彙 計算每個詞彙分數

分數計算須保留其獨特性、重要性、以及信任程度。(後面解釋 )

)(Sdft

Pt

Page 12: 推薦文件系統 (1)

區別用字要素

12

資訊技術找出區別用字: 區別用字的定義 (實例舉於 13 頁 -18 頁 )

具有獨特性: 這個詞彙在所選文集中,相對於其他文集中,非常獨特。

具有重要性: 這個詞彙在所選文集中,出現的次數非常的多 ( 但不一定是專屬於所選文集中的字 ),代表其有一定的影響性。

信任程度: 這部分解釋比較抽象,會於後面解釋這個詞彙的意義。

Page 13: 推薦文件系統 (1)

關鍵字分數計算

13

分數計算方式

)()(*))()((

UdfPdf

NNdf

PPdfscore

t

tttt

重要性 信任程度獨特性

Page 14: 推薦文件系統 (1)

獨特性 (1/2)

14

這個詞彙在所選文集中,相對於其他文集中,非常獨特。下列公式能夠找出詞彙的獨特性。

若詞彙 t 於 P中出現頻率很高。而於 N中出現頻率很低。=>t是一個獨特的用字。若詞彙 t 於 P中出現的頻率和於 N中出現頻率近乎相同=>t無法用以分辯 P 和N的不同。))()((

NNdf

PPdf tt

Page 15: 推薦文件系統 (1)

獨特性 (2/2)

15

若若若

))()((NNdf

PPdf tt

0))()(( NNdf

PPdf tt

0))()(( NNdf

PPdf tt

0))()(( NNdf

PPdf tt

此詞彙很可能維常用字,或至少為無法區分 P 和 N的詞彙

此詞彙於 P中,相對於 N中,相當獨特。

此詞彙於 P中,相對於 N中,為一個較偏向 N的獨特用字

Page 16: 推薦文件系統 (1)

重要性 (1/2)

16

這個詞彙在所選文集中,出現的次數非常的多 ( 但不一定是專屬於所選文集中的字 ),代表其有一定的影響性。下列公式能夠保留其重要性。

))()((NNdf

PPdf tt

Page 17: 推薦文件系統 (1)

重要性 (2/2)

17

假設 |P|=100 |N|=100 |U|=200 N=U-P 若詞彙 t1 於 P->2 篇文件 於 N->0件。其分數為 0.02-0=0.02 若詞彙 t2 於 P->50件文件 於 N->20 篇文件,則分數為 0.5-0.2=0.3。 0.3>>0.02 。 t2分數比 t1高 儘管 t1 比 t2獨特許多,但因為其於總文件中出現太少,代表 t1 並非重要用字,儘管非常獨特,分數仍然低分。而 t2 雖然不夠獨特,但因為其於 P中出現比例非常高,故仍然擁有較高的分數。保留其重要性。

Page 18: 推薦文件系統 (1)

信任程度 (1/2)(t->q的分數 )

18

信心程度:這部份解釋較為抽像。假設 t1 和 t2 兩個詞彙於 分數相等,而 t1 和 t2 於 U(全部文件中 )共出現於

100 份文件。但 t1 於 P中出於 50 份文件, t2 於 P中則出現 20次。 儘管 t1 和 t2分數相同。但我們對於 t1 擁有較高的信任,故分數應該比 t2高。故再乘以 )()(

UdfPdf

t

t

))()((NNdf

PPdf tt

Page 19: 推薦文件系統 (1)

信任程度 (2/2)(此部分為新加入,尚只有理論,還未有明確實驗 )

19

問題:若此詞彙 t,於P中和U中出現次數相同,不論出現幾次,亦即出現一次,跟出現五千次的。分數皆高且相等,無分辯性。無法去除常用字

)()(

UdfPdfscore

t

tt

Page 20: 推薦文件系統 (1)

關鍵字分數計算

20

分數計算方式

)()(*))()((

UdfPdf

NNdf

PPdfscore

t

tttt

重要性 信任程度獨特性

Page 21: 推薦文件系統 (1)

計算文件分數

21

對每篇文件 計算分數Length(d),代表文件 d的長度Ud

)(dLengthScore

Score Dt td

Page 22: 推薦文件系統 (1)

演算法

22

到目前這個步驟為止,每個文件被標示了分數。使用者可以依照需求,從最高分的往下看,選擇需要的文件。

Page 23: 推薦文件系統 (1)

NEGATIVE_SET

23

Page 24: 推薦文件系統 (1)

選擇 Negative_Set

24

我們目前選擇的 N = U-P。我們於本次實驗 ( 從清實錄康熙朝找與臺灣相關 ) 發現,效果並不好

原因: |N|過大,以至於不管何詞 ,此質皆趨近於零。以至於關鍵詞會只有其重要性,近乎無法展現獨特性。

)()(*))()((

UdfPdf

NNdf

PPdfscore

t

tttt

NNdft )(

Page 25: 推薦文件系統 (1)

選擇 Negative_Set

25

透過前面步驟原來的 Negative_Set(N=U-P),其實應名為

potential Negative_Set透過人工挑選,我們應該會擁有一組

Real_Negative_Set再以 Real_Negative_Set回頭跑程式。

下列的實驗是舊的實驗,是以下幾個特定關鍵字,作為Real_Negative_Set,方法概念上類似,但的確會有可能有較多疏漏。

Page 26: 推薦文件系統 (1)

選擇 Negative_Set實作 (1/3)

26

有意識地選擇真正的 Negative_Set是重要的。Negative_Set:

我們第一次使用 N=U-P當成 Negative_Set,結果出來近乎只要有福建便即入選。然而,於臺灣文件中,「福建」此詞雖然非常重要,但有「福建」的文章中,大部分並無與「臺灣」相關。

Page 27: 推薦文件系統 (1)

選擇 Negative_Set實作 (2/3)

27

有意識地選擇真正的 Negative_Set是重要的Negative_Set:

第二次則選擇康熙朝文件中,包含「福建」但未在 P 裡頭的文件做為 Negative_Set 結果品質立刻大幅改善。此作法並未刪除「福建」用字,而是將「福建屬於臺灣」和「福建不屬於臺灣」的用字,區隔開來。 此結果出來已有許多未曾發現但屬於臺灣的文件。然而我們發現許多「偽兵官」「投誠」等文字分數很高。當時不只是有明鄭有許多「僞兵官」,三藩底下的諸將,也仍然是「僞兵官」

Page 28: 推薦文件系統 (1)

選擇 Negative_Set實作 (3/3)

28

有意識地選擇真正的 Negative_Set是重要的Negative_Set:

第三次則使用包含雲南、江西 (三藩之亂地點 )、福建但不於 P中的文件做為 Negative_Set

效果顯著。成功將三藩用字分數降低,而將臺灣文件中較相關的關鍵字分數提高許多。 ( 海逆、海寇… .)

Page 29: 推薦文件系統 (1)

成果

29

技安以每次看最高分的五十筆,經過四次實驗,選擇正確或著錯誤,然後討論。 每次實驗室完,再重新丟入 Positive_set 和

Negative_Set 重跑分數,循環數次 技安從分數最高的 207 件 (不包含 Traing_Set)中,找到 54件與臺灣相關 (27%) 。 9 件不確定是否與臺灣相關,其他皆為不相關 換句話說,使用者只看了 207篇文件,就找到54篇文件是需要的。

Page 30: 推薦文件系統 (1)

功能:找出獨特區別用字

30

比如說,我們能夠找到一個康熙末年的攻打台灣的海盜,於清實錄臺灣史資料專輯完全沒有收錄。 (原作者可能不知道的人物 ) 於康熙末年,也有一個海賊在臺灣活動,「鄭盡心」福建人。為康熙年間騷擾渤海以至閩浙的大海盜。其記錄最早見於 1710 年、 1711 年間,鄭及其部下陳明隆企圖窺伺北臺,臺廈道陳璸命道標千總黃曾榮搜捕於淡水,無功而返。 1711 年 5 月 6 日刑部等衙門奏報閩浙總督范時崇已緝捕到鄭盡心,並請解京質審。

文章中有「鄭盡心」的文章 ( 六篇 ),皆未收入清實錄臺灣史資料專輯

Page 31: 推薦文件系統 (1)

實作二以古契書中的鬮分契和杜賣契為例

31

Page 32: 推薦文件系統 (1)

實作功能

32

上述清實錄實驗可以體現兩種功能給予使用者推薦可能相關文件找出未知的區別用字

下列則以古契書中的鬮分契和杜賣契為例,則也體現下列兩種功能找出未知的區別用字找出以分類文件,可能錯誤文件分別以杜賣契和鬮分契,正向和逆向各做一次實驗。

Page 33: 推薦文件系統 (1)

資料說明 (杜賣契 )

33

Universe_Set :古契書中分類屬於鬮分或杜賣的所有文件Positive_Set:杜賣契 (8189 件 )Negative_Set:鬮分契 (4570 件 )

Page 34: 推薦文件系統 (1)

單純以 Bigram計算

34

詞頻 (DF) 次數 比例即日 7897 0.96之事 6978 0.85不明 6965 0.85紙付 6852 0.83不干 6851 0.83四至 6794 0.82中人 6772 0.82出首 6717 0.82承買 6704 0.81東至 6695 0.81北至 6684 0.81南至 6680 0.81西至 6676 0.81掌管 6631 0.80

詞頻 (DF) 次數 比例付執 6567 0.80為中 6406 0.78為界 6397 0.78月日 6393 0.78足訖 6388 0.78此係 6384 0.77三面 6360 0.77今因 6318 0.77人等 6298 0.76界址 6292 0.76保此 6168 0.75字人 6142 0.75不敢 6137 0.74仝中 6134 0.74杜賣 6096 0.74日立 6074 0.74如有 6045 0.73他人 5989 0.73

Page 35: 推薦文件系統 (1)

35

詞彙 分數 杜賣契次數 全文件一力 99 4626 4662一杜 99 228 229一賣 99 5420 5432人財 99 2719 2745力出 99 326 328力扺 99 216 218力抵 99 4460 4505下時 99 294 296上出 99 449 452于人 99 269 271于買 99 115 116千休 99 4612 4620土不 99 1593 1603土無 99 1888 1895

詞彙 分數 杜賣契次數 全文件子親 99 233 235寸土 99 4157 4171干亦 99 3560 3569干並 99 608 609干承 99 1144 1155干買 99 3792 3797干銀 99 1584 1586不留 99 1834 1840中三 99 3685 3704中引 99 5552 5564中交 99 3600 3612中收 99 1546 1559中見 99 1311 1314中兩 99 698 703中送 99 795 799中當 99 114 115中實 99 420 421中銀 99 462 463

)()(

)()( UdfPdfscore

t

tPdfUdft tt

Page 36: 推薦文件系統 (1)

以演算法記算 (杜賣契 )(1/2)

36

詞彙 分數 杜賣契件數8189件 比例 鬮分契件數

4570件 比例不明 8185 6965 0.85 89 0.019中人 7997 6772 0.82 75 0.01出首 7936 6717 0.82 73 0.015為中 7544 6406 0.78 77 0.016不干 7525 6851 0.83 250 0.054三面 7439 6360 0.77 92 0.02保此 7375 6168 0.75 41 0.008仝中 7310 6134 0.74 48 0.01足訖 7296 6388 0.78 146 0.031立杜 7205 5951 0.72 13 0.002之事 7174 6978 0.85 413 0.09托中 7115 5891 0.71 18 0.003杜賣 7110 6096 0.74 94 0.020乏銀 7060 5866 0.71 25 0.005

Page 37: 推薦文件系統 (1)

以演算法記算 (杜賣契 )(2/2)

37

詞彙 分數 杜賣契件數8189件 比例 鬮分契件數

4570件 比例因乏 7025 5834 0.71 24 0.005首承 6964 5787 0.70 25 0.005盡根 6952 5958 0.72 91 0.019中引 6714 5546 0.67 12 0.002亦無 6685 5754 0.70 97 0.021如有 6654 6045 0.73 216 0.047來歷 6624 5541 0.67 37 0.008主之 6575 5448 0.66 18 0.003賣盡 6574 5453 0.66 20 0.004無重 6561 5434 0.66 17 0.003重張 6560 5430 0.66 16 0.003收足 6512 5605 0.68 94 0.02一賣 6440 5321 0.64 12 0.002收過 6356 5527 0.67 113 0.024

Page 38: 推薦文件系統 (1)

結果 (杜賣契 )

38

將鬮分契 (4570 件 ),以杜賣契詞頻記算文件分數。將最高分前一百份文件 (亦即與杜賣契最像的鬮分

契 ) 請靖玟觀看有 63件仍為鬮分契只有 11 篇為杜賣契卻有 23 篇為解紛字2 篇為墾契1 篇為婚書杜賣契效果尚可,於是將P和N反過來重新實驗一次

代表此二類型契書文字可能用字情況較類似

Page 39: 推薦文件系統 (1)

資料說明 (鬮分契 )

39

Universe_Set :古契書中分類屬於鬮分或杜賣的所有文件Positive_Set:鬮分契 (4570 件 )Negative_Set:杜賣契 (8189 件 )

Page 40: 推薦文件系統 (1)

單純以 Bigram計算

40

詞彙 次數 比例批明 4138 0.90字人 4018 0.87均分 3824 0.83月日 3813 0.83不得 3756 0.82各執 3675 0.80東至 3501 0.76西至 3495 0.76南至 3488 0.76北至 3487 0.76仝立 3484 0.76為界 3405 0.74代筆 3258 0.71土名 3167 0.69

詞彙 次數 比例兄弟 3092 0.67日仝 2948 0.64水田 2897 0.63壹紙 2840 0.62立鬮 2821 0.61爭長 2769 0.60拈得 2764 0.60約字 2742 0.6一批 2735 0.59鬮書 2723 0.59筆人 2700 0.59界址 2663 0.58長房 2618 0.57在場 2577 0.56拈鬮 2566 0.56執壹 2469 0.54至大 2465 0.53無憑 2409 0.52

Page 41: 推薦文件系統 (1)

41

詞彙 分數 鬮分契次數 全文件一旦 99 315 316一氣 99 155 156一議 99 255 256七世 99 111 112九世 99 1789 1797也此 99 196 197千古 99 114 115大枝 99 229 230大則 99 135 136山拈 99 131 132之和 99 108 109之風 99 418 420六畜 99 195 196公九 99 374 375

詞彙 分數 鬮分契次數 全文件公無 99 1730 1736公藝 99 732 735分條 99 201 202心協 99 105 106日焚 99 138 139日繁 99 580 584氏生 99 218 219冇竹 99 117 118世同 99 1460 1466世事 99 223 225付母 99 159 160古人 99 389 390古之 99 101 102古風 99 116 117失和 99 155 156旦分 99 175 176本鬮 99 113 114母生 99 124 125

)()(

)()( UdfPdfscore

t

tPdfUdft tt

Page 42: 推薦文件系統 (1)

以演算法記算 (鬮分契 )(1/2)

42

詞彙 分數 鬮分件數4570件 比例 杜賣契件數

8189件 比例各執 7767 3675 0.80 76 0.009均分 6343 3824 0.83 696 0.084立鬮 5934 2821 0.61 67 0.008爭長 5899 2769 0.60 43 0.005拈得 5561 2764 0.60 146 0.017拈鬮 5453 2566 0.56 44 0.005執壹 5271 2469 0.54 35 0.004鬮為 4925 2298 0.50 27 0.003壹樣 4788 2231 0.48 24 0.002長房 4709 2618 0.57 333 0.040邀請 4529 2120 0.46 29 0.003為定 4327 2084 0.45 67 0.008各管 4217 2132 0.46 136 0.016得爭 4040 1923 0.42 47 0.005

Page 43: 推薦文件系統 (1)

以演算法記算 (鬮分契 )(2/2)

43

詞彙 分數 鬮分契件數4570件 比例 杜賣契件數

8189件 比例仝立 4015 3484 0.76 1513 0.184競短 4010 1879 0.41 27 0.003同居 3939 1830 0.40 16 0.001長競 3908 1834 0.40 28 0.003無私 3894 1803 0.39 12 0.001樣各 3883 1810 0.39 20 0.002至公 3869 2060 0.45 202 0.024和氣 3866 1787 0.39 10 0.001九世 3851 1777 0.38 8 0.0009公無 3700 1705 0.37 6 0.0007後各 3422 1732 0.37 112 0.013房均 3164 1580 0.34 88 0.0107業各 3114 1564 0.34 93 0.011鬮書 3097 2723 0.59 1208 0.147

Page 44: 推薦文件系統 (1)

結果 (鬮分契 )

44

將杜賣契 (8189 件 ),以鬮分契詞頻記算文件分數。將最高分前一百份文件 (亦即與鬮分契最像的杜賣

契 ) 請乃文觀看此一百件皆應為鬮分契 (原來分類錯誤 )

換句話說,此方法可以針對過去已有metadata的資料作驗證,是否有分類錯誤。

Page 45: 推薦文件系統 (1)

結論與未來工作

45

結論:以程式來實作分類是危險的。這樣的系統設計,是將分類的責任還於使用者。系統只是協助提供可能性較高的文件。然而以目前的實驗結果觀察,確實有研究潛力。

未來工作:計算公式的調整

TF or DF?其他參數改良

實作的測試與比較需要搭配人文研究者長時間溝通和合作。

Page 46: 推薦文件系統 (1)

46

人名Term t df t→q QSDL中未收錄 姚啟聖   45 0.078 20  施琅   32 0.162 10  傑書   31 0.705 136  鄭錦   22 0.324 2  賴塔   20 0.25 89  劉國軒   19 0.171 3  吳興祚   19 0.404 15  萬正色   17 0.405 8  耿精忠   12 0.203 63  李率泰   12 0.067 18  覺羅滿保   10 0.036 28  耿繼茂   10 0.141 20  鄭克塽   9 0.164 0  朱一貴   8 0.033 1  楊捷   8 0.038 18  黃芳世   7 0.259 13  鄭成功   7 0.018 2  劉進忠   7 0.184 21  王尚   7 0.037 156

Page 47: 推薦文件系統 (1)

47

地名Term t df t→q QSDL中未收錄 福建   180 0.009 780  臺灣   111 0.005 40