2015-1003 英語コーパス学会ワークショップ使用スライド
TRANSCRIPT
![Page 1: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/1.jpg)
Webアプリケーションを使ったコーパス研究のための統計的手法
英語コーパス学会(JAECS) 第41回大会 2015/10/03@愛知大学名古屋キャンパス
水本 篤(関西大学)
![Page 2: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/2.jpg)
自己紹介
![Page 3: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/3.jpg)
![Page 4: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/4.jpg)
竹内・水本(編著)(2012)
![Page 6: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/6.jpg)
•MS Excel(できるものだけ) • IBM SPSS • フリーのデータ解析環境R
![Page 7: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/7.jpg)
•MS Excel(できるものだけ) • IBM SPSS • フリーのデータ解析環境R
![Page 8: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/8.jpg)
•過去のJAECSでのWS(田畑, 2004; 金, 2007; 田中・小林, 2009; 阪上, 2013)
• 過去のLET全国大会WS(小林, 2011; 阪上, 2012, 2014) • “R passes SPSS in scholarly use” (Muenchen, 2014)
![Page 9: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/9.jpg)
ただ... RはCLI
![Page 10: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/10.jpg)
RをGUIで利用できる http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/Rcmdr-screenshot.html
R Commander(EZR)など
http://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/statmedEN.html
![Page 11: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/11.jpg)
https://sites.google.com/site/casualmacr/home
RをGUIで利用できる Mac用アプリのMacR
![Page 13: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/13.jpg)
さらに一歩進んで便利
(というか楽)なのが
Webアプリケーション
![Page 14: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/14.jpg)
これまでの経験から…
赤野・堀・投野(編著)(2014)石川・前田・山崎(編著)(2010)
![Page 18: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/18.jpg)
普段Rでやってること
•csvやxlsなどで元データを準備
•Rにデータを読み込む
•パッケージの関数を使って分析
![Page 23: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/23.jpg)
• 「ハンドブック」の量的チャプターのサンプルを使用して再現できる。
• アウトプットの見方がわかる • 自分でも簡単に分析できる。 • グラフを充実させている。 • Excelのデータをコピペするだけ。
langtest.jp
![Page 24: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/24.jpg)
ここにExcelからデータをコピペするだけ
![Page 25: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/25.jpg)
行列もいける。
![Page 27: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/27.jpg)
注意点•誰でもできる… だけに危険。
•ドキュメンテーションがない。
•サーバでRを走らせているので少し重い。
•自由度ゼロ(要望が有り次第改善予定)。
•コードが残らないので再現性に乏しい。
![Page 28: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/28.jpg)
• 学部生,修士課程の院生「ハンドブック」などの分析をハンズオンで実行し, 卒論,修論の分析で利用。
• 博士課程の院生,量的研究を行う研究者分析方法の確認,コードを見て自分でRを使う。(langtest.jp だけでは不十分と感じるはずなので)
対象と目的
![Page 29: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/29.jpg)
![Page 30: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/30.jpg)
![Page 31: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/31.jpg)
http://www.routledgetextbooks.com/textbooks/9781138024571/
![Page 32: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/32.jpg)
これまでに使用された国 (2015/09/30 現在)
![Page 34: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/34.jpg)
https://twitter.com/CorpusTan/status/640876418801405953
![Page 35: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/35.jpg)
Webアプリケーションを使ったコーパス研究のための統計的手法
![Page 36: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/36.jpg)
1. コンコーダンサーやウェブサイトからワードリスト作成,もしくは,特定の語・フレーズの頻度抽出(レマ化,頻度の標準化)
2. Rなどの統計解析ソフトで分析
基本的な分析の流れ
![Page 37: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/37.jpg)
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使ったコーパス研究のための統計解析
![Page 38: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/38.jpg)
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使ったコーパス研究のための統計解析
![Page 39: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/39.jpg)
全体
一部抽出
推測
1. 記述統計と推測統計
![Page 40: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/40.jpg)
母集団と標本
母集団
(未知)
標 本
(既知)推定
データ解析
Σ, F, t, p...
http://www.urano-ken.com/blog/2013/08/05/let2013-workshop/
![Page 41: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/41.jpg)
母集団μ = 15.3
標本A M = 14.7
標本BM = 15.9
標本C M = 15.2
標本DM = 15.4
標本EM = 15.1 http://www.urano-ken.com/blog/2013/08/05/let2013-workshop/
標本ごとに実現値は違う
![Page 42: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/42.jpg)
母集団μ = ?
標本A M = 14.7
http://www.urano-ken.com/blog/2013/08/05/let2013-workshop/
実際はM = μとして推定
![Page 43: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/43.jpg)
母集団μ = ?
実際はM = μとして推定
ScoreFrequency
30 40 50 60 70 80
05
1015
20
M = 50.59
![Page 44: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/44.jpg)
コーパスの代表性について
The web may not be “representative of anything other than itself,” as Kilgarriff and Grefenstette (2003: 333) point out – “but then neither are other corpora” (Boulton, 2012).
e.g., The web as “corpus”
![Page 45: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/45.jpg)
Hands-on 11. langtest.jpを開く2. “Basic Statistics Calculator” を開く3. JAECS2015data の「(1)記述統計」の「語数」を数字のみをコピペ
Basic statistics
![Page 46: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/46.jpg)
平均30点,標準偏差10点
MとSD
![Page 47: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/47.jpg)
頻度データの扱いに注意
•同じ内容をコーパスから作成したワードリスト(頻度データ)に適用しても意味がない。
•データの種類にあった分析方法を心がける。
![Page 48: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/48.jpg)
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使ったコーパス研究のための統計解析
![Page 49: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/49.jpg)
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使ったコーパス研究のための統計解析
![Page 50: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/50.jpg)
• Chi-square test: 22%
• Correlation: 17%
• ANOVA: 12%
• t-test: 11%
• log-linear analysis: 10%
• Followed by non-parametric techniques, multiple regression, logistic regression, etc.
どのような分析が多いか?“Quantitative research methods and study quality in Learner Corpus Research” Paquot & Plonsky (2015@LCR) reported by Dr. Akira Murakami https://twitter.com/mrkm_a/status/642802550928998400
![Page 51: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/51.jpg)
カイ2乗検定
コーパスA
コーパスB 合計
語X 40
語Y 40
合計 40 40 80
![Page 52: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/52.jpg)
カイ2乗検定
コーパスA
コーパスB 合計
語X 20 20 40
語Y 20 20 40
合計 40 40 80
![Page 53: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/53.jpg)
左が期待値,右が実測値
コーパスA
コーパスB 合計
語X 20 20 40
語Y 20 20 40
合計 40 40 80
コーパスA
コーパスB 合計
語X 15 25 40
語Y 25 15 40
合計 40 40 80
![Page 54: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/54.jpg)
カイ2乗値のイメージ
コーパスA
コーパスB 合計
語X 20 20 40
語Y 20 20 40
合計 40 40 80
コーパスA
コーパスB 合計
語X 15 25 40
語Y 25 15 40
合計 40 40 80
ズレ
![Page 55: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/55.jpg)
全体
一部抽出
推測
母集団から抽出
![Page 56: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/56.jpg)
0 1 2 3 4 5 6
0.0
0.2
0.4
0.6
0.8
1.0
df=1のときのカイ2乗分布曲線
Chi-square value
相対度数(確率密度) 同じ 違う
![Page 57: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/57.jpg)
カイ2乗値のイメージ
コーパスA
コーパスB 合計
語X 20 20 40
語Y 20 20 40
合計 40 40 80
コーパスA
コーパスB 合計
語X 15 25 40
語Y 25 15 40
合計 40 40 80
ズレ
(15-20)^2/20+(25-20)^2/20+(25-20)^2/20+(15-20)^2/20 = 5
![Page 58: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/58.jpg)
同じ 違う
0 1 2 3 4 5 6
0.0
0.2
0.4
0.6
0.8
1.0
df=1のときのカイ2乗分布曲線
Chi-square value
相対度数(確率密度)
ズレ
![Page 59: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/59.jpg)
結果の見方
• X-squared: カイ2乗値(大きいと「ズレ」が大きい)
• df: 自由度(行の数 − 1)×(列の数 − 1)
• p-value: p 値が0.05以下なら有意差あり
• 特定のセルの「期待値」が5以下の場合,カイ2乗検定は不正確
![Page 60: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/60.jpg)
残差分析
![Page 61: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/61.jpg)
Hands-on 21. langtest.jpを開く2. “Chi-square Test” を開く3. JAECS2015dataの「(2)カイ2乗」の該当部分をコピペ
Chi-square test
![Page 62: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/62.jpg)
コロケーション指標
• 相互情報量(MI)
• tスコア,zスコア
• ダイス係数,ジャッカード係数,コサイン類似度,シンプソン係数
![Page 63: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/63.jpg)
コロケーション指標
石川(2012) 石川(2008)
![Page 64: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/64.jpg)
で分析を実行する場合
← Shinyで使用
← Shinyで使用
この部分をRで使用
↑ワーキングディレクトリなどのファイルを参照
![Page 65: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/65.jpg)
で分析を実行する場合(カイ2乗検定)
![Page 66: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/66.jpg)
Hands-on 3
「小林(2015)の例」のセルの値をすべて10倍にして,10倍にする前と後で p 値がどう変化するか確認する。
Introduction to effect sizes
![Page 67: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/67.jpg)
統計的に有意な
p < .05(0.05以下)
statistically significant
![Page 68: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/68.jpg)
• 統計的検定の問題点- サンプルサイズが影響。- 有意差あり・なしのみの判断。- p 値は実質的な差を示さない。
効果量(effect size)
![Page 69: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/69.jpg)
• 効果量(effect size)- サンプルサイズに影響されない。- 効果の大小を示す。- 実質的な差を確認できる。
• APA 6th では報告が「不可欠」
![Page 70: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/70.jpg)
Cumming (2012)
ストップ p 値信仰
APA 6th (2009) 大久保・岡田 (2009)
「統計改革」
![Page 71: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/71.jpg)
The Basic and Applied Social Psychology
http://www.tandfonline.com/doi/abs/10.1080/01973533.2015.1012991#.Vb3tuJPtlBd
p値(帰無仮説検定)禁止!
![Page 72: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/72.jpg)
"it is important to note that one cannot use the chi-square value as a measure of effect size, i.e. as an indication of how strong the correlation between the two investigated variables is. This is due to the fact that the chi-square value is dependent on the effect size, but also on the sample size."
Gries (2009, p. 196)
![Page 74: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/74.jpg)
“log ratio as a means of taking effect size into consideration in the ranking of keyword results is being incorporated into a number of programs” (p. 105).
Culpeper, J., & Demmen, J. (2015). Keywords. In D. Biber & R. Reppen (Eds.), The Cambridge handbook of English corpus linguistics (pp. 90–105). Cambridge University Press.
コーパス言語学でも
log ratio = ”the binary log of the ratio of relative frequencies” (http://cass.lancs.ac.uk/?p=1133)
![Page 75: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/75.jpg)
https://benjamins.com/#catalog/journals/ijcl.20.3.01ant/details
http://www.laurenceanthony.net/software/protant/
![Page 76: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/76.jpg)
CasualConc https://sites.google.com/site/casualconcj/
Version 2.0: 効果量 r を特徴語抽出に利用
![Page 77: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/77.jpg)
langtest.jp — Cramer’s V
※ 行と列のいずれかが2のクロス表の場合は,
M=2となり,ファイ係数(四分点相関係数)と一致。
(一般的な)基準:
V = 0.1 効果量小
V = 0.3 効果量中
V = 0.5 効果量大
Vは0から1の値をとる(相関係数と同じ)
(with 95% CI)
![Page 78: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/78.jpg)
Cramer’s V 2×2の分割表
(= φ係数)の場合(四分点)相関係数の絶対値を求める
= 0.25
コーパスA語X
コーパスA語Y
コーパスB語X
コーパスB語Y
![Page 79: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/79.jpg)
langtest.jp — オッズ比
語Xは語Yと比べると,コーパスAよりもコーパスBで使われやすい。
コーパスA(語X): 15/25 = 0.60コーパスB(語X): 25/15 = 1.6667オッズ比: 0.6/1.6667 = 0.36
オッズ比 = 1 は2つのコーパスで差がないことを意味する。1以上だとコーパスA,1以下だとコーパスBで使われやすいという解釈になる。
(2×2の分割表のときのみ表示) (with 95% CI)
(1 / 0.36 = 2.778倍)
![Page 81: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/81.jpg)
Hands-on 41. langtest.jpを開く2. “Chi-square Test” を開く3. JAECS2015dataの「(2)カイ2乗」の該当部分をコピペ4. オッズ比,クラメールのV(φ係数)を確認
Calculating effect sizes
![Page 82: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/82.jpg)
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使ったコーパス研究のための統計解析
![Page 83: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/83.jpg)
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使ったコーパス研究のための統計解析
![Page 84: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/84.jpg)
相関係数• 2
1 1
.00 ± . 20 .00
.20 ± . 40
.40 ± . 70
.70 ± 1.00
![Page 85: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/85.jpg)
赤野・堀・投野(2014)「英語教師のためのコーパス活用ガイド」(p. 204)
![Page 86: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/86.jpg)
エッセイの総語数
英語習熟度
エッセイの総語数英語習熟度
エッセイの総語数
英語習熟度
エッセイの総語数
英語習熟度
エッセイ中のエラー数
英語習熟度
エッセイ中のエラー数
英語習熟度
エッセイ中のエラー数
英語習熟度
エッセイ中のエラー数
英語習熟度
�����������
r = .00 r = .30 r = .70 r = .90
r = .00 r = -.30 r = -.70 r = -.90
相関係数の効果量は「相関係数そのもの」で,
一般的には,0.1(小),0.3(中),0.5(大)
![Page 87: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/87.jpg)
Hands-on 51. langtest.jpを開く2. “Correlation” を開く3. JAECS2015dataの「(3)相関・多変量」の該当部分をコピペ
Correlation
![Page 88: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/88.jpg)
多変量解析
![Page 89: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/89.jpg)
(大まかな)目的クラスター分析(cluster analysis) → データを分類する 因子分析(exploratory factor analysis) → データの潜在因子を探る 主成分分析(principal component analysis) → データを圧縮する,結合する コレスポンデンス分析(correspondence analysis) → データを圧縮する(少ない次元にまとめる)
![Page 90: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/90.jpg)
主成分分析のイメージ
変数間の情報を圧縮して「合成得点」(主成分)を作る
![Page 91: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/91.jpg)
コレスポンデンス分析のイメージ
行と列の関係(相関)が
最大になるように並べ替える
![Page 93: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/93.jpg)
Tabata, T. (1995). Narrative style and the frequencies of very common words: A corpus-based approach to Dickens's first person and third person narratives. English Corpus Studies, 2, 91–109. Retrieved from http://www.lang.osaka-u.ac.jp/~tabata/papers/1995.pdf
Narrative Style & the Frequencies of Very Common Words 99
-200
-150
-100
-50
0
50
100
150
200
-400 -300 -200 -100 0 100 200 300 400
2nd PC (8.15 %)
1st PC (20.15 %)
the
and
be
of
a
in(p)
his
have
to(i)
he
with
to(p)
say
it
as
at
that(c)
on(p)
by(p)
her(a)
which(r)
him
for(p)
but
she
not
from
whenthis
all
an
they
look
or
out
there
into
one
who(r)
that(d)
very
if
little
up(adv)
go
so(a.d.)
do
upon(p)
take
their
make
no(a)
come
them
would
see
down
some
could
moreold
man
then
beforeher(pron)
other
over
again
itsthat(r)
time
two
than
about
head
himself
gentleman
knowwhat
reply aftermuch
any
face
great
hand
like(p)
eyes
turn
mother
get
such
on(adv)
seem
backsit
think
way
young
never
Figure 1. First person narratives versus Third person narratives: Word-plot(for the 100 most common words of the narrative corpus).
-100
0
100
200
300
400
500
600
-2000 -1500 -1000 -500 0 500 1000 1500
2nd PC
1st PC
David#1
David#2
David#3
David#4David#5
Esther#1
Esther#2Esther#3Esther#4
Pip#1
Pip#2Pip#3 Pip#4
SB#1
SB#2
SB#3
PP#1
PP#2
PP#3
OT#1
OT#2OT#3 OT#4
NN#1
NN#2
NN#3
BH#1
BH#2TTC#1
TTC#2
TTC#3
OMF#1
OMF#2
OMF#3
ED#1
ED#2
ED#3
First person narratives
Third person narratives
Figure 2. First person narratives versus Third person narratives: Texts in 4000-word segments (based on the 100 most common words of the narrative corpus).
![Page 94: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/94.jpg)
内田 諭 (2015).「CEFR レベルに基づいた教材コーパス—レベル別基準特性の抽出に向けて」『英語コーパス研究』22, 87–100.
![Page 95: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/95.jpg)
Tono, Y. (2013). Criterial feature extraction using parallel learner corpora and machine learning. In A. Díaz-Negrillo, N. Ballier, & P. Thompson (Eds.), Automatic treatment and analysis of learner corpus data (pp. 169–203). Amsterdam/Philadelphia: John Benjamins.
![Page 96: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/96.jpg)
Tono, Y. (2013). Criterial feature extraction using parallel learner corpora and machine learning. In A. Díaz-Negrillo, N. Ballier, & P. Thompson (Eds.), Automatic treatment and analysis of learner corpus data (pp. 169–203). Amsterdam/Philadelphia: John Benjamins.
![Page 97: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/97.jpg)
Hands-on 61. langtest.jpを開く
2. "Cluster Analysis","Principal Component Analysis", "Correspondence
Analysis"の3つを確認
3. JAECS2015data の「(3)相関・多変量」の該当部分をコピペ
Multivariate analysis
![Page 98: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/98.jpg)
参考
![Page 99: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/99.jpg)
http://www.lang.osaka-u.ac.jp/~tabata/JAECS2004/multi.html
http://www.lang.osaka-u.ac.jp/~tabata/JAECS2004/JAECS2004hand.pdf
![Page 100: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/100.jpg)
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使ったコーパス研究のための統計解析
![Page 101: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/101.jpg)
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使ったコーパス研究のための統計解析
![Page 102: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/102.jpg)
1. コンコーダンサーやウェブサイトからワードリスト作成,もしくは,特定の語・フレーズの頻度抽出(レマ化,頻度の標準化)
2. Rなどの統計解析ソフトで分析
コーパス研究の再現性は?
![Page 103: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/103.jpg)
前田・山森(編著)(2004)
「必要な情報はきちんと書く。情報は追試できるように書く。読者にわかりやすく書く。」(p. 172)
![Page 104: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/104.jpg)
Porte (2012)
![Page 105: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/105.jpg)
Replication や メタ分析に
必要な情報を書く
![Page 106: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/106.jpg)
「ダメ。ゼッタイ。」
•平均・標準偏差の記載なし。•人数・総数が不明。•信頼性係数などの報告なし。• p 値のみの報告。(* がたくさん。)
![Page 107: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/107.jpg)
(分析の)再現に必要な情報
•サンプルサイズ,平均,標準偏差•相関係数(対応ありデータ,SEMなど)
•信頼性係数(平均への回帰,相関の希薄化 の修正など)
![Page 108: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/108.jpg)
L2研究における「統計改革」
•「統計改革」がL2研究でも進んでいる。
• 各ジャーナルで Editorial や Guideline,特別号に方針が掲載されている。
http://onlinelibrary.wiley.com/doi/10.1111/lang.2015.65.issue-S1/issuetoc
![Page 109: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/109.jpg)
L2研究における「統計改革」Larson-Hall, J., & Plonsky, L. (2015). Reporting and interpreting quantitative research findings: What gets reported and recommendations for the field. Language Learning, 65/Supp. 1, 125–157. doi:10.1111/lang.12115
1. 記述統計報告の改善
2. 効果量とその信頼区間の報告
3. 測定道具の信頼性の報告
4. データ可視化の重視
5. データの公開
![Page 110: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/110.jpg)
L2研究における「統計改革」Larson-Hall, J., & Plonsky, L. (2015). Reporting and interpreting quantitative research findings: What gets reported and recommendations for the field. Language Learning, 65/Supp. 1, 125–157. doi:10.1111/lang.12115
1. 記述統計報告の改善
2. 効果量とその信頼区間の報告
3. 測定道具の信頼性の報告
4. データ可視化の重視
5. データの公開
![Page 111: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/111.jpg)
再現性は研究の基本
• データの二次利用を推奨すべき。例えば,使用したデータを(個人情報に気をつけて)オンラインなどで公開。
• Rなどのコードも 公開すれば,誰でも再現可能。
![Page 112: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/112.jpg)
コーパス研究の場合• 分析の各ステップで使用したデータやメモ書きは残しておく。論文中では可能な限り記載。
• 研究を生業とするのなら,データやコードの公開,分析再現の練習を惜しまない。
![Page 113: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/113.jpg)
どうやって やればいいですか?
![Page 115: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/115.jpg)
http://onlinelibrary.wiley.com/doi/10.1111/lang.12134/full
![Page 116: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/116.jpg)
http://www.iris-database.org/iris/app/home/index;jsessionid=CB9E46535FA0D81136CADA87BC414BA0
![Page 117: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/117.jpg)
https://osf.io/
Open Science Framework
Dataverse Projecthttp://dataverse.org/
![Page 118: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/118.jpg)
まとめ• langtest.jp
-「ハンドブック」などの分析確認- Rへの橋渡し
• コーパス研究のための統計解析 記述・推測統計,検定・効果量,相関・多変量解析
• 進む「統計改革」と研究の透明化
![Page 119: 2015-1003 英語コーパス学会ワークショップ使用スライド](https://reader030.vdocuments.net/reader030/viewer/2022021506/588200371a28abf05e8b47a9/html5/thumbnails/119.jpg)
を使って コーパス研究をはじめたい人
http://www.slideshare.net/langstat/presentationshttp://www.slideshare.net/sakaue/presentations