紅樓夢線上研習 (textual analysis of the dream of the red chamber)

Post on 16-Jul-2015

535 Views

Category:

Education

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

國立政治大學

語言學研究所、資訊科學系

劉昭麟

2015年3月20日

這一份研習資料,以紅樓夢的內容來說明taiwandh的一些功能

以下練習步驟所舉的例子只是便利於舉例,並不是為了進行學術研究而使用的關鍵詞彙

在實際學術研究或者應用中,研究者當自行選擇所關注的關鍵詞彙

您可以分析其他「臺灣數位人文小小讚」上的語料,例如,三國演義、論語、孟子

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.2

taiwandh包含數個以Java程式語言所撰寫的文本分析軟體工具

您的電腦必須事先安裝了可以執行Java程式的Java Runtime Environment (JRE)才能使用taiwandh

絕大多數電腦都預先安裝了JRE,所以實際上您不須擔心這一問題

雖然我們的程式應該可以在 iOS作業系統上執行,但是因為我們沒有相關設備,因此從未切實測試 一些Apple機器還需要確認是否安裝了JDK

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.3

自「台灣數位人文小小讚」的「範例資料」下載「紅樓夢」

台灣數位人文小小讚網址資訊 https://sites.google.com/site/taiwandigitalhumanities/

您下載的檔案是一個壓縮檔案,裡面是一個包含紅樓夢文本資料的資料夾,請先解壓縮。並且請把所下載的資料放在一個資料夾裡面。這一個資料可以在任何您選擇的地方

以下將假設您稱呼這一個資料夾為「實習區」2015年3月20日 taiwandh.紅樓夢.4國立政治大學劉昭麟

自「台灣數位人文小小讚」的「軟體工具」下載最新版本的taiwandh

台灣數位人文小小讚網址資訊 https://sites.google.com/site/taiwandigitalhumanities/

請把所下載的檔案解壓縮,放到「實習區」。

請務必把壓縮檔案解壓縮,不要直接在壓縮檔案中執行我們的程式

2015年3月20日 taiwandh.紅樓夢.5國立政治大學劉昭麟

在「實習區」資料夾中,編輯一份新的文件檔案

假設您使用的檔名是「三要角.txt」

請把“寶玉”、“黛玉”和“寶釵”分別放在三行文字裡面

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.6

寶玉黛玉寶釵

以滑鼠左鍵雙擊「實習區」裡面的ui.jar檔案

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.7

如果工具軟體啟動成功,您應該會看到以下的一個小視窗

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.8

以滑鼠左鍵點擊中文檔案內碼查驗

您應該會看到下面這一個小視窗,請點選請選擇,然後選擇三要角.txt,然後點選開始查驗

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.9

如果您的檔案所使用的不是UTF8內碼,那麼您會看到右側的畫面

如果您的檔案所使用的是UTF8內碼,那麼您會看到右側的畫面

如果你的Java不是最新版本,或者您的檔案包含一些可疑的內碼,則會看到其他警訊

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.10

國內許多Windows作業系統預設的內碼都是BIG5

因為我們的軟體工具現在只處理以UTF8內碼的中文資料,所以我們可能需要使用BIG5轉換為UTF8

請點選請選擇,然後選擇三要角.txt,假設您使用三要角UTF8.txt來儲存轉換結果,然後點選開始轉換

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.11

點選關鍵詞彙時序分析

確認看到下面的視窗

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.12

在下面的視窗中 選擇維基文庫紅樓夢資料夾 選擇三要角UTF8.txt作為關鍵詞檔案 選擇目前資料夾(或者輸入資料夾名稱;請注意說明)

填寫DRCbasic作為輸出檔案名稱 然後開始分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.13

如果您的機器有上網,您應該看到下列的折線圖。(請注意:IE可能需要再經授權看到)

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.14

剛剛的折線圖是透過Google Chart來繪製的,有很多時候,您需要得知和應用所找到的頻率的數據。請用EXCEL看「實習區」中的DRCbasic.csv。

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.15

點選功能區域中的關鍵詞彙語境分析 選擇維基文庫紅樓夢資料夾 選擇三要角UTF8.txt作為關鍵詞檔案 選擇目前資料夾(請參照步驟九之一的說明) 填寫三要角語境分析作為輸出檔案名稱 選擇20作為前後文長度 (20是自訂的語境長度) 然後開始分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.16

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.17

關鍵詞彙時序分析結果csv

假設我們想要研究三要角跟十位金陵十二金釵何時、為何一起出現。

準備一份金陵十二金釵的資料

跟前面的步驟類似,我們必須確保這一個檔案的中文內碼是UTF8

假設您是用十二金釵utf8.txt來儲存這一檔案。

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.18

元春探春湘雲妙玉迎春惜春熙鳳巧姐李紈可卿

點選功能區域中的關鍵詞組總頻率分析 選擇維基文庫紅樓夢資料夾 選擇三要角UTF8.txt作為關鍵詞檔案 選擇十二金釵utf8.txt作為共現詞檔案 選擇目前資料夾(請參照步驟九之一說明) 選擇20作為前後文長度 填寫共現頻率分析作為輸出檔案名稱 然後開始分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.19

右側是所得的部分數據

這一些數據可以用來進行社會網路分析(social network analysis)

參考:NodeXL

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.20

寶玉,探春,57

黛玉,探春,52

寶釵,探春,51

寶玉,李紈,43

寶玉,湘雲,38

寶釵,李紈,37

寶釵,湘雲,35

寶玉,妙玉,32

黛玉,李紈,30

寶釵,迎春,25

點選功能區域中的關鍵詞組時序與語境分析 選擇維基文庫紅樓夢資料夾 選擇共現頻率分析.txt作為關鍵詞組檔案 選擇目前資料夾(請參照步驟九之一說明) 以 10作為最低共現頻率 (10 是一個可變、自訂的選項) 選擇20作為前後文長度 (20 是一個可變、自訂的選項) 填寫共現語境分析作為輸出檔案名稱 然後開始分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.21

語境前後文:共現語境分析.20.html

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.22

以EXCEL開啟共現時序的數據資料:共現語境分析.20.csv

這一些數據也可以用來進行社會網路分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.23

點選功能區域中的單一文本檔案分割 選擇維基文庫紅樓夢前四十回UTF8.txt 選擇目前資料夾(請注意說明) 填寫前四十回作為分割結果資料夾 選擇文字檔名 填寫“第[一二三四五六七八九十零百]+回 ”作為分割標示

上面這一行文字中的空白是必要的

選擇正則表示然後開始分析

2015年3月20日 國立政治大學劉昭麟 taiwandh.紅樓夢.24

top related