汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究...

10
汉语词汇测试自动命题研究 胡韧奋 1 1. 北京师范大学,北京市 100875摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空 词语选择、词语排序和单空词语选择四种词汇测试题型进行自动命题尝试,以满足不同语言信息、不同难 度的词汇知识考查。在词语特征的提取上,构建了一个覆盖词音、词形、词义、语法、搭配、偏误各层次 信息的词汇知识库,在句子特征的提取上,实现了语法项目自动识别、句子难度分析等算法,为自动命题 中的题干句、目标词和干扰项选择提供依据。通过词句选择和语块合成等步骤,生成四种题型共计 7263 道 词汇测试题。人工测试数据显示,词汇测试自动命题的初步尝试取得了较好的效果,约 58%的试题被评价 为完全合理,经人工简单调整,试题接受率达到 75.7%。 关键词:二语教学;词汇测试;自动命题 中图分类号:H087 文献标识码:A Automatic Generation of Chinese Vocabulary Test Questions Renfen Hu 1 (1.Beijing Normal University, Beijing, 100875, China) Abstract: In order to improve the generation efficiency vocabulary test questions, this paper discusses the automatic generation strategy of four types of questions: word listening, multi-word selection, word order and single word selection based on the research of Chinese specific language features and second language acquisition needs. A knowledge base was built to extract word-level features including pronunciation, senses, grammars, collocations, learnerserrors, etc. Sentence analysis modules were also built for automatic identification of grammatical constructions and the estimation of sentence difficulty degrees. By selecting proper sentences, target words and distractors and the chunk generation, 7263 vocabulary test questions were automatically generated in the experiment. The manual evaluation shows that the automatic generation strategy performs well with 58% of the questions evaluated as completely reasonable. After slight modification, the question acceptance rate increases to 75.7% Key words: second language acquisition; vocabulary test; automatic question generation 1 引言 在语言能力测试中,词汇是一项核心考察内容。Nation(2001)将二语学习者需要掌握的 词汇知识分为八个方面:(1)词的口语形式;(2)词的书写形式;(3)词的语法行为;(4)词的 搭配形式;(5)词的使用频率;(6)该词应用的文体;(7)词的意义;(8)词的语义联想网络。 因而,进行科学合理的词汇测试命题,需要对多维度的语言信息进行综合考虑,并选择合适 的文本作为试题来源,这对命题者的知识和经验有较高要求,也是一项较为耗时的工作。 随着自然语言处理技术及相关语言资源的发展,语言能力测试及评估逐步向信息化、智 能化发展。在试题自动生成领域,Mitkov and Ha(2003)、Brown et al.(2005)、Correia et al.(2010)、Goto et al.(2010)等学者做出了有益的探索,涉及题型主要为单空词语选择和 多空词语选择,命题对象为英语二语学习者。 收稿日期: 定稿日期: 基金项目:国家语委“十二五”科研规划项目“语言资源建设规划研究”(编号:YB125-124) 作者简介:胡韧奋(1988),,博士研究生,主要研究方向为计算机辅助语言教学。

Upload: others

Post on 27-Jun-2020

50 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究 胡韧奋1 (1. 北京师范大学,北京市 100875) 摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

汉语词汇测试自动命题研究

胡韧奋 1

(1. 北京师范大学,北京市 100875)

摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

词语选择、词语排序和单空词语选择四种词汇测试题型进行自动命题尝试,以满足不同语言信息、不同难

度的词汇知识考查。在词语特征的提取上,构建了一个覆盖词音、词形、词义、语法、搭配、偏误各层次

信息的词汇知识库,在句子特征的提取上,实现了语法项目自动识别、句子难度分析等算法,为自动命题

中的题干句、目标词和干扰项选择提供依据。通过词句选择和语块合成等步骤,生成四种题型共计 7263 道

词汇测试题。人工测试数据显示,词汇测试自动命题的初步尝试取得了较好的效果,约 58%的试题被评价

为完全合理,经人工简单调整,试题接受率达到 75.7%。

关键词:二语教学;词汇测试;自动命题

中图分类号:H087 文献标识码:A

Automatic Generation of Chinese Vocabulary Test Questions

Renfen Hu1

(1.Beijing Normal University, Beijing, 100875, China)

Abstract: In order to improve the generation efficiency vocabulary test questions, this paper

discusses the automatic generation strategy of four types of questions: word listening, multi-word

selection, word order and single word selection based on the research of Chinese specific language

features and second language acquisition needs. A knowledge base was built to extract word-level

features including pronunciation, senses, grammars, collocations, learners’ errors, etc.

Sentence analysis modules were also built for automatic identification of grammatical

constructions and the estimation of sentence difficulty degrees. By selecting proper sentences,

target words and distractors and the chunk generation, 7263 vocabulary test questions were

automatically generated in the experiment. The manual evaluation shows that the automatic

generation strategy performs well with 58% of the questions evaluated as completely reasonable.

After slight modification, the question acceptance rate increases to 75.7%

Key words: second language acquisition; vocabulary test; automatic question generation

1引言

在语言能力测试中,词汇是一项核心考察内容。Nation(2001)将二语学习者需要掌握的

词汇知识分为八个方面:(1)词的口语形式;(2)词的书写形式;(3)词的语法行为;(4)词的

搭配形式;(5)词的使用频率;(6)该词应用的文体;(7)词的意义;(8)词的语义联想网络。

因而,进行科学合理的词汇测试命题,需要对多维度的语言信息进行综合考虑,并选择合适

的文本作为试题来源,这对命题者的知识和经验有较高要求,也是一项较为耗时的工作。

随着自然语言处理技术及相关语言资源的发展,语言能力测试及评估逐步向信息化、智

能化发展。在试题自动生成领域,Mitkov and Ha(2003)、Brown et al.(2005)、Correia et

al.(2010)、Goto et al.(2010)等学者做出了有益的探索,涉及题型主要为单空词语选择和

多空词语选择,命题对象为英语二语学习者。

收稿日期: 定稿日期:

基金项目:国家语委“十二五”科研规划项目“语言资源建设规划研究”(编号:YB125-124)

作者简介:胡韧奋(1988—),女,博士研究生,主要研究方向为计算机辅助语言教学。

Page 2: 汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究 胡韧奋1 (1. 北京师范大学,北京市 100875) 摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

虽然汉语热在全球持续升温,截至目前,针对汉语的试题生成研究仍然十分罕见。与英

语等印欧语系语言相比,汉语是一种形态变化较少的语言,不具备性、数、格、时、体、态

等特征,其语法功能主要通过虚词和语序表示。从词汇测试的角度来说,汉语与英语的词汇

知识框架存在较大差异。例如英语词语选择题中,给出的选项常常是一个词语的不同变体,

如 run, runs, running, ran,需要学生基于句子的时态、语态等信息作出合理的判断。而

汉语的词汇测试题则侧重对于语序和虚词的考察,例如在新 HSK 汉语水平考试1中,常见对

量词、介词、连词等汉语特有词汇知识的考察,并且从 HSK 三级开始设有词语排序题,多涉

及一些汉语特殊句式或结构,如把字句、述补结构等。

基于以上考虑,我们将词音、词义、词频、语法、搭配等知识融入汉语词汇测试,结合

新 HSK 考试方案及需求,选择对词语听力、多空词语选择、词语排序和单空词语选择四种题

型进行自动命题尝试,以满足不同语言信息、不同难度的词汇知识考查。

在试验中,为了设置合理的目标词和干扰项,我们综合运用教材语料库、中介语语料库

等资源,对词音、词语难度、词频、偏误信息、搭配信息、相近词、语法信息等特征进行了

提取,构建了一个面向试题自动生成的词汇知识库,作为自动命题的基础资源。在进行题干

句选择时,我们构建了语法项目自动识别、句子难度分析等算法,为自动命题提供依据。

我们以一个汉语教材语料库(杨丽姣,2015)为文本来源,生成了四个类型共计 7263 道词

汇测试题,并通过人工评估测试了自动命题的有效性。数据表明,约 58%的词汇测试题被评

价为完全合理,经人工简单调整,试题接受率可达 75.7%,词汇测试自动命题的初步尝试取

得了较好的效果。

2词汇知识与题型设计 怎样才算习得了一个词语?词汇的教学和测试应该注重哪些方面?Nation(2001)所提

出的八条词汇知识给出了很好的解答。值得注意的是,二语词汇习得具有阶段性特征,学习

者并非一次性习得一个词语的所有知识,而是在长期的积累和运用中实现对各层次知识的充

分掌握。我们可以将这些知识的习得分为三个阶段:初级:习得词音、词形和词义,并构建

三者之间的关联;中级:习得语法行为和搭配形式;高级:进一步熟悉语法行为和搭配形式,

了解词语的文体和使用频率信息,与其他词语建立意义和用法上的关联。

可以看出,初级重在词汇的认识和理解,而中高级则重在词汇的运用,不仅包括使用词

语造句,也包括在写作中配合文体和主题选择恰当的词语。由此看来,针对二语学习者的词

汇测试题应当对不同阶段的测试需求予以考虑。通过对汉英多种语言标准化测试的调研,考

虑汉语词汇知识的特性及自动命题的可行性,我们选择了四种词汇测试题型作为自动命题的

初步实验对象,这四种题型分别侧重不同层次的语言信息,适应不同水平的学习者。

如表 1 所示,词语听力题侧重对词音和词形关联的考察,干扰项被设置为发音相近的词

语。多空词语选择,又称 word bank question,是一种语言测试中广泛应用的题型,主要

考察词形和词义的对应。该题型在新 HSK 三级、四级考试中出现,多涉及介词、连词等语法

词的使用,要求学习者不仅能够理解目标词含义及上下文语境信息,也对基本的语法格式有

所了解。词语排序题需要学习者在理解词义的基础上熟悉汉语各种特有的语法格式,例如,

示例中涉及的语法项目包括“选择疑问句”和“意愿表达”。在试题生成中,我们对《国际

汉语教学通用课程大纲》(国家汉办, 2009)中列出的语法项目进行了系统地考察,并在命题

时注重融入这些语法知识。单空词语选择题则对语法、搭配、甚至部分语用知识(如文体)

进行考察,与多空选择题相比,单空选择的干扰项多为词性一致、词义相近、用法相似的词

语,故而难度较大。这四种题型中,除了词语听力题外,其他三种题型均在新 HSK 汉语水平

考试中有所涉及,因而我们的自动命题程序可以在一定程度上参考人工命题的数据及策略。

1 新 HSK 汉语水平考试是一项国际汉语能力标准化考试,重点考查汉语非第一语言的考生在生活、学习和

工作中运用汉语进行交际的能力,共分六个级别。

Page 3: 汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究 胡韧奋1 (1. 北京师范大学,北京市 100875) 摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

题型 示例 词汇知识 语言水平

词语听力 选择你所听到的词语:

A. 电梯 B. 电视 C. 电池 D. 限制

词音、词形 初级

多空词语

选择

选择合适的词语填空:

A. 被 B. 起来 C. 一定 D. 关 E. 不过

1). 现在大家都买了商品房,住进了各种各样的小区,大门

一____,谁也不认识谁。(D)

2). 这倒也不____,也有两个字和这个新汉字的声音都没关

系的。(C)

3). 我想____了,孔雀也叫“雀”,它可不小。(B)

4). 它是从印度传到中国来的,在中国的史书上,它也____

叫做“孔鸟”。(A)

5). 可以是可以,____我的知识也有限,而且三言两语也讲

不清楚。(E)

词形、词义、

语法

中级

HSK-3,4

词语排序 将词或短语按正确的顺序排列,并加标点:

租 想租 你 还是 不想 (你想租还是不想租?)

词义、语法 中高级

HSK-3,4,5

单空词语

选择

选择合适的词语填空:

宜兴紫砂陶有悠久的历史和很高的艺术___。

A. 成果 B. 财富 C. 风格 D. 成就

语法、搭配、

语用

高级 HSK-6

表1. 词汇测试自动命题题型及示例

3词汇及文本特征提取 进行词汇测试自动命题时,主要面临两个问题:第一、选择合适的句子作为题干,第二、

选择合适的词语作为目标词或干扰项。因而,我们需要从命题需求出发,对词汇和句子层面

的特征进行提取,构建词语属性知识库和句子分析模块,为自动命题提供基础资源及决策依

据。

3.1 词汇知识库

由于自动命题面向汉语二语学习者,我们将国家汉办发布的新 HSK 大纲五千词2作为词

汇考察对象,并对其词音、难度、词频、偏误信息、搭配知识、相近词、语法项目等特征进

行提取。考虑到实词和虚词的词汇属性有所差异,表 2 分别给出了一个实词示例和一个虚词

示例。这些词汇知识不仅可服务于词汇测试题的自动生成,也可为二语教学、二语词典编纂

及相关研究工作提供参考。

词语 词音 音近词 级别 词频 易混淆词 偏误频次 语法项目

经验 jing1yan4 惊讶、精简、经典… HSK4 318 经历、体验 128 -

把 ba3 马、八、吧、扒… HSK3 5338 让、用、对 75 把字句、量词

搭配知识及意义用法相近词(经验) 搭配知识及意义用法相近词(把)

【量名】年 经验;条 经验

【动宾】积累 经验;总结 经验;有 经验…

【主谓】经验 丰富;经验 多…

【定中】丰富 的 经验;成功 经验;好 经验…

【相近词】知识、营养、藏书、内涵、信心…

【量名】把 椅子;把 伞;把 雨伞;把 双刃剑…

【介谓】把 X 放在;把 X 叫做;把 X 当做;把 X 交

给;把 X 给;把 X 当成…

【相近词】将、被、由、串、双、升、斤…

表 2. 词汇自动命题知识库示例

3.1.1 词音特征

在词音特征的提取上,我们使用 Python 工具包 pypinyin 为所有词语注音,并调用微软

Bing Speech提供的语音合成API3生成MP3格式的词语发音。由于词汇听力题中将字数相等、

读音相近的一组词语设为选项,我们构建了一个词汇语音相似度模型进行音近词的提取。计

2 新汉语水平考试(HSK)词汇(2012 年修订版):http://www.chinesetest.cn/godownload.do 3 Bing Speech API: https://www.microsoft.com/cognitive-services/en-us/speech-api

Page 4: 汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究 胡韧奋1 (1. 北京师范大学,北京市 100875) 摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

算词汇语音相似度时,若二者字数不等,则相似度计为 0,当字数相等时,依次计算每个字

的语音相似度,并取算术平均值作为词汇语音相似度。汉字的语音相似度计算取声母、韵母

和音调作为特征,由于韵母对读音的影响大于声母,音调影响最低,故将声韵调的权值设置

为 0.35,0.55,0.1。令 I、F、T 分别表示声母(initial)、韵母(final)、音调(tone)的相

似度,两个汉字之间的语音相似度 S 可采用公式 1 进行估计:

𝑆 = √0.35× 𝐼2 +0.55 × 𝐹2 + 0.1× 𝑇2 (1)

我们使用了胡韧奋等(2012)提出的声母、韵母、音调相似度矩阵来取得 I、F、T 值,

论文中声母的相似度估计考虑了发音部位和发音方法,韵母的相似度基于元音舌位图分别对

介音、韵腹、韵尾的语音距离进行测量,音调的相似度则基于调值线之间的平均距离进行估

计。在对大纲五千词每两个词之间的语音相似度进行计算后,对于单字、双字词,选择相似

度在 90%以上(不等于 100%)的词语作为音近词,对于多字词,选择相似度在 80%以上(不

等于 100%)的词语作为音近词,共获取到 13413 对符合条件的音近词。图 1 示出了音近词

网络中核心节点关系图,不难发现,这些词语发音多包含由 i 韵母和舌尖后音(zh, ch, sh)、

舌尖前音(z, c, s)组合的音节,这在一定程度上反映了汉语发音的声韵频率。语音相似

度数据不仅能够服务于二语教学相关应用,也可作为汉语语音研究的一个基础资源。

图 1. 基于语音相似度计算的核心音近词关系图 图 2. 学习者高频偏误词词云

3.1.2 词语难度

词语难度来源于新 HSK 五千词中的级别信息,词表中包括一级词 150 个,二级词 150

个,三级词 300 个,四级词 600 个,五级词 1300 个,六级词 2500 个。在设置目标词及干扰

项时,可根据题型的目标语言水平来选择合适级别的词汇。

3.1.3 词频

词语在不同的文体及语境中的使用频率有所差异,为了服务于二语词汇测试的需求,我

们选择汉语国际教育动态语料库(杨丽姣,2015)作为词频统计来源,统计时不计标点及外文

词。汉语国际教育动态语料库中的文本来源于 197 册经典对外汉语教材,规模约 14 万句,

可以帮助我们较好地估计二语教学情境下的词频信息。

3.1.4 词语偏误信息

学习者在哪些词汇上容易犯错?哪些词语之间容易相互混淆?真实的词汇偏误信息不

仅可以有效地帮助教师把握词汇教学要点,也可以为语言测试命题提供重要的参考。我们从

HSK 动态作文语料库4中提取了词汇层面的偏误信息,主要包括词语的偏误频次及易混淆词。

易混淆词的界定标准为:当目标词偏误频次在 10 次以上时,目标词误用为该词的频次占偏

误总频次的 20%以上。在提取偏误信息的过程中,我们发现,汉语中特有的虚词或意义较为

虚化的词语偏误频次较高,如图 2 所示,这些词语与汉语的语法知识密切相关,需要在自动

4 HSK 动态作文语料库是一个由北京语言大学建立的中介语语料库:http://202.112.195.8/hsk/login.asp

Page 5: 汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究 胡韧奋1 (1. 北京师范大学,北京市 100875) 摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

命题中给予特别关注。

3.1.5 词汇搭配知识

结合二语教学需求,我们定义了九种词语搭配形式,除了主谓搭配、动宾搭配、定中搭

配、状中搭配这四种通用的语法搭配类型外,我们还考虑到汉语中特有的五种搭配类型:量

词-名词搭配(如 “张”-“纸”)、介词-谓词搭配(如“把”-“放下”)、连词搭配(如“不

但”-“而且”)、介词-方位词搭配(如“在”-“旁边”)、述语-补语搭配(如“吃”-“饱”)。

搭配知识同样从汉语国际教育动态语料库中进行抽取。我们采用基于依存分析的搭配抽取方

法(Lin, 1998a),首先调用 LTP-Cloud (Che et al., 2010) 提供的自然语言处理工具对语

料库中的句子进行分词、词性标注、依存语法分析,然后基于词形、词性、词语位置、依存

边、父子节点等信息构建了 47 条规则,分别实现对每种搭配类型的提取。图 3 示出了一个

例句的依存分析树:

<sent id="5273" cont="王朋觉得这套公寓可能对他很合适。">

<word id="0" cont="王朋" pos="nh" parent="1" relate="SBV" />

<word id="1" cont="觉得" pos="v" parent="-1" relate="HED" />

<word id="2" cont="这" pos="r" parent="3" relate="ATT" />

<word id="3" cont="套" pos="q" parent="4" relate="ATT" />

<word id="4" cont="公寓" pos="n" parent="9" relate="SBV" />

<word id="5" cont="可能" pos="v" parent="9" relate="ADV" />

<word id="6" cont="对" pos="p" parent="9" relate="ADV" />

<word id="7" cont="他" pos="r" parent="6" relate="POB" />

<word id="8" cont="很" pos="d" parent="9" relate="ADV" />

<word id="9" cont="合适" pos="a" parent="1" relate="VOB" />

<word id="10" cont="。" pos="wp" parent="1" relate="WP" />

</sent>

图 3. 依存分析树示例

在分析句子时,依次读取每个节点的位置、词形、词性、父节点位置和依存边信息,并

与规则进行匹配。例句通过匹配规则生成了六条搭配:“套 公寓”(量名)、“可能 合适”(状

中)、“很 合适”(状中)、“对 X 合适”(介谓)、“公寓 合适”(主谓)、“觉得 合适”(动宾)。

以下为一条提取状中搭配的规则示例,表示当词语满足词性为副词或动词、依存边为 ADV(状

中结构)、其父节点词性为动词或形容词这三个条件时,可提取该节点和父节点词形组成一

条状中搭配。为了保证搭配提取的准确率,词语搭配属性中仅保留频次>=3 的搭配。

if word[pos] in [“d”,”v”] and word[relate] == “ADV” and parent[pos] in [“v”,”a”]:

collocation = word[cont] + parent[cont], type = “状中搭配”

3.1.6 相近词

搭配知识可以反映词汇的语义和语法特征,那么,当两个词语拥有较多相同的搭配知

识时,则意味着二者在用法和意义上有共通之处(Lin, 1998b)。基于这一前提假设,我们

进行了基于搭配数据的相近词(similar words)提取。近似度的计算需要首先计算搭配词语

之间的互信息,令 W1和 W2代表两个搭配词,R代表搭配类型,互信息 I(W1,W2,R)可通过如下

公式进行计算 (Hindle, 1990):

𝐼(𝑊1 ,𝑊2 , 𝑅) = 𝑙𝑜𝑔𝑃(𝑊1 ,𝑊2,𝑅)

𝑃(𝑇)×𝑃(𝑊1 |𝑅)×𝑃(𝑊2|𝑅) (2)

令 T(W)表示所有令 I(W,W’,R)值为正的搭配词及搭配类型对(W’,R),则词语 W1和 W2之间

的近似度 S(W1,W2)可通过公式 3 进行计算(Lin, 1998b):

𝑆(𝑊1 ,𝑊2) =∑ (𝐼(𝑊1,𝑊,𝑅)+𝐼(𝑊2,𝑊,𝑅))(𝑊,𝑅)∈𝑇(𝑊1)∩𝑇(𝑊2)

∑ 𝐼(𝑊1 ,𝑊,𝑅)(𝑊,𝑅)∈𝑇(𝑊1)+∑ 𝐼(𝑊2 ,𝑊,𝑅)(𝑊,𝑅)∈𝑇(𝑊2)

(3)

Page 6: 汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究 胡韧奋1 (1. 北京师范大学,北京市 100875) 摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

得到计算结果后,取字数相等、近似度大于 0.1 的词语作为意义和用法上相近的词语,

共计得到 12360 对相近词。以表 2 中的词语“把”为例,该词具有介词和量词两种词性,采

用这种基于搭配互信息的近似度计算方法,既可以提取出“将”、“被”、“由”等介词,又可

以提取出“串”、“双”、“升”、“斤”等量词。搭配知识和意义用法相近词主要服务于词语选

择题中的干扰项设置。

3.2 句子分析模块

3.2.1 语法项目识别

国家汉办发布的《国际汉语教学通用课程大纲》中给出了“常用汉语语法项目分级表”,

该表将 62 个常用语法项目按从简到难分为五级。其中,一级和二级语法项目中涉及一些基

本语法知识,如基本语序、代词、时间的表达等,考虑到词汇测试中对语法知识的考察侧重

汉语特殊用法,且相关题型以中高级水平学习者为命题对象,我们过滤了 15 个基础语法项

目,将余下 47 个语法项目作为句子分析目标5。

语法项目的自动识别同样基于语料的分词、词性标注和依存分析结果,我们根据每个语

法项目的形式制定了共计 52 条识别规则。规则原理与搭配提取类似,以图 3 依存树为例,

该句实现了三个语法项目的识别:程度副词(“很”)、常用量词(“套”)、介词_引进对象(“对

他”)。

3.2.2 句子难度分析

除了句子包含的语法项目信息外,句长和词语等级信息也对其复杂程度有重要影响。在

分词和词性标注的基础上,我们对句中词语个数及包含各级别词语的比例进行统计。计算词

数及比例时不计标点、英文、数字和姓名。

李桂梅等(2015)对新 HSK 考试中的词语控制原则进行了介绍,一级至四级考试中不允

许出现超纲词,五级可出现 15%超纲词,六级试题语料不受规定的五千词限制,但考点和词

语题选项中的词语应该在大纲五千词范围内。由此可见,人工命题对于词语等级信息要求十

分严格,我们可参考新 HSK 样卷中词语测试题的句长及等级信息来设定题干句的选择标准。

4词汇测试题的自动生成

四种题型虽然有不同的生成流程,但普遍涉及句子选择和词语选择。我们首先对国家汉

办公布 30 套新 HSK 样卷中相关题型的数据进行了分析,并根据每类题型的目标语言知识和

目标语言水平制定了候选词句的基本特征提取标准,如表 3 所示。在得到候选句和候选词后,

我们还需要针对不同题型的命题需求对候选词句做进一步选择。

题型 目标词等级 目标词词频 干扰项等级 句长 词语等级 语法项目

词语听力 HSK1,3 不限 HSK1-6 - 不限

多空选择 HSK3,4 ≥30 HSK3,4 8-20词 HSK1-4>80%

不含 HSK5,6

不限

词语排序 - - - 5-8词 同上 ≥1项

- - - 6-10词 HSK1-6>80%

HSK5-6>20%

≥2项

单空选择 HSK5,6 ≥10 不限 10-30词 HSK1-6>50%

HSK4-6>20%

≥1项

表 3. 候选词句基本特征提取标准

4.1 词语听力

新 HSK 初级水平测试中,考察词音的听力试题多将选项设为图片。考虑到自动命题的可

5 47 个语法项目分级列表:http://101.200.121.46/apendix1.pdf

Page 7: 汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究 胡韧奋1 (1. 北京师范大学,北京市 100875) 摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

行性,我们设计了听录音、选词语的题型,选项由读音相近的一组词语组成。由于词音、词

形知识的考察面向初级汉语水平测试,故而,我们选择新 HSK 一级、二级、三级词汇的录音

作为题干,干扰项的设置则基于词汇语音相似度模型的计算结果,取相似度最高的三个音近

词与目标词组成最终选项,并随机排列选项顺序(如知识库中符合条件的音近词数目小于 3,

则不做生成)。最终,生成了 170 道符合要求的词汇听力题。

4.2 多空词语选择

参考表 3 列出的人工命题数据,我们首先从汉语国际教育动态语料库中提取了 8560 句

语料作为候选题干。命题时,需要将五句一组进行组合,由于句中可能涉及多个目标词,在

选择每句的目标词时,遵循以下原则:①目标词在句中仅能出现一次,②五个目标词词性不

重复。如无法满足条件则读取下一个候选句。确定五个句子和相应目标词后,将选项随机排

序,共计生成了 1081 组多空词语选择题。

4.3 词语排序

首先,基于词数、词语等级比例和语法项目自动识别结果得到符合要求的语料 4255 句,

包括中级语料 3636 句,高级语料 621 句。样卷中的排序题一般设置 5-8 个排序单元,排序

单元可以为词,也可以为词构成的语块,例如,新 HSK 五级样卷中的一道排序题为“从 不

同的角度 我们 要学会 观察 事物”,其中,“不同的角度”和“要学会”均为语块构成的排

序单元。因而,进行排序题的自动生成时,需要结合语法知识的考察来对句中部分词语进行

组合。

具体来说,我们首先参考样卷数据,对句中词数和排序单元的个数进行了规定:当句中

词数小于 7 时,排序单元数目可为 4或 5,当词数大于或等于 7 时,排序单元数目可为 4、5

或 6。进行语块合成时,我们基于语法知识的考察需求确立了一批排序特征词或词序列,使

其不参与词语组合,例如连动句中的两个动词、动词与前置宾语、动词与间接宾语等。同时,

按照短语中的词粘合度高低对词语组合确立了从高到低四个优先级:

一级: 词语粘合度很高的数量短语、动词重叠形式;

二级: 词语粘合度较高的名词、动词短语,一般为由两个单字词构成的定中、状中、

述补、动宾结构;

三级: 词语粘合度较低的名词、动词短语,一般为一个单字词与一个双字词组成的定

中、状中、述补、动宾结构;

四级: 词语粘合度很低的介词短语,以及此前阶段未合成的定中结构名词短语、状中

或述补结构动词短语等。

进行语块合成时,一旦当排序单元数目达到要求,则返回当前结果。我们按照该方法生

成了词语排序题 4029 道。

4.4 单空词语选择

按照表 3 标准,首先从汉语国际教育动态语料库中提取了 3135 句符合单空选择题条件

的句子作为题干候选。当句中候选目标词多于一个时,则需考虑词汇知识库中语法项目、偏

误信息、词频等特征,按如下优先级做进一步筛选:(1)选择语法项目中的语法词;(2)选择

偏误频次较高的词语;(3)选择词频较高的词语。与多空词语选择一致,限制目标词在句中

只能出现一次。

确定句子和目标词之后,则可从知识库中偏误易混淆词和相近词中提取干扰项,实验中

优先提取高频易混淆词为干扰项,若无易混淆词或数目不足 3 时,则按相似度从高到低从相

近词中提取。为了确保干扰项不是一个正确选项,我们使用搭配数据对其进行校验。首先提

取句中目标词的所有搭配,然后将搭配中的目标词更换为干扰项,在知识库的搭配数据中查

找,如果全部能查找到,则认为该干扰项可能是一个正确选项,需做排除。得到三个合理的

干扰项后,将其与目标词随机排序进行输出。该过程生成单空词语选择题共计 1983 道。

Page 8: 汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究 胡韧奋1 (1. 北京师范大学,北京市 100875) 摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

5测试与评价 为了测试自动命题的效果,我们邀请了两名语言学专业背景的对外汉语教师对试题进行

人工评价。评价数据为 770 道自动生成的词汇测试试题,包括全部 170 道词语听力题、随机

抽取的 200 道多空词语选择题、200 道词语排序题和 200 道单空词语选择题。

人工评价一方面需要观察自动生成的试题在多大程度上可直接使用,另一方面也需要关

注自动命题辅助人工命题的可行性。因而,在提供测试数据时,当句中符合要求的目标词多

于一个,或者符合要求的干扰项数目多于三个时,我们会给出候选目标词和候选干扰项,供

评价者比较和参考。以下为一个单空选择题的测试样例6:

例题 1:好的比喻来自对生活的深入____和深刻思考。

A. 观察 B. 观看 C. 视察 D. 观测 候选干扰项: 总结,分析,修改,琢磨,腐蚀,寻找,打量,对待 候选目标词: 比喻,思考,深刻

人工评价主要从以下几个维度展开:(1)判断题干句的选择是否合理,需考虑句子内容、

难度、用词情况、语法知识等因素;(2)判断目标词的选择是否合理需考虑词义、难度、上

下文信息等因素;(3)判断干扰项的设置是否合理,需考虑难度、与目标词具有足够区分度

等因素;(4)对于词语排序题来说,需判断语块的合成是否合理,主要考虑构成语块的词语

粘合度、语法知识的考察等因素。

我们通过计算接受率(AR)来对不同层次的评价结果进行量化,原始接受率(OAR)为评价

者判断为完全合理的项数与总项数的百分比值,调整接受率(AAR)为评价者认为在简单修改

后合理可用的项数与总项数的百分比值。简单修改的标准为:(1)句子:进行 1-2 个词的替

换或增删;(2)目标词:可以从候选目标词中找到合适的替换词;(3)干扰项:可以从候选干

扰项中找到合适的替换词。统计原始接受率时,仅当两名评价者均认为该项合理时才接受其

为合理,统计调整接受率时,则需两名评价者就修改情况达成一致意见方可接受。测试结果

如表 4 所示。

题型 整题 题干句 目标词/语块 干扰项

OAR AAR NUM OAR AAR NUM OAR AAR NUM OAR AAR

词语听力 79.4 88.8 - - - 170 100.0 100.0 510 91.37 95.29

多空选择 34.0 57.0 1000 82.8 90.4 1000 95.2 96.8 - - -

词语排序 79.0 86.0 200 80.0 86.0 1056 99.62 100.0 - - -

单空选择 39.5 71.0 200 77.0 83.5 200 85.0 88.0 600 90.2 99.7

平均值 58.0 75.7 - 79.9 86.6 - 95.0 96.2 - 90.8 97.5

表 4. 试题人工评价数据

由表中数据可见,测试集中有 58%的试题被评价者认为命题完全合理,经简单修改后试

题接受率达到 75.7%。这说明自动命题的初步尝试取得了较好的效果,也说明自动命题可作

为提升人工命题效率的一个有效辅助手段。从题型数据来看,词语听力和词语排序效果较为

理想,多空和单空选择题的则接受率偏低,这主要是由于两类词语选择题涉及的信息较多,

如每道多空选择题在统计数据时仅当五组词句均选择合理且组合搭配得当时才能将该题视

为完全合理,而单空选择则涉及句子、目标词和三个干扰项,命题难度相对较大。

从命题的各个模块数据来看,目标词选择、语块合成和干扰项选择效果要优于题干句的

选择。我们对试题的评价结果进行了具体分析,发现不合理的题干句主要可分为以下几类:

(1)句义理解依赖背景知识或上下文信息,如句 1;(2)句中词语如代词、连词的使用与上下

文有较大关联,如句 2;(3)从时效性、题材的角度看,句子内容不适于二语学习者,如句 3;

(4)来源于对话文本,口语特征明显,不适于做测试题题干,如句 4。

6 四类题型的测试样题:http://101.200.121.46/apendix2.pdf

Page 9: 汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究 胡韧奋1 (1. 北京师范大学,北京市 100875) 摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

例句 1. 这样一来,愚公和家人只要往前一直走,就可以到对面的村庄,方便多了。 例句 2. 原来他现在住在中国人的家里。 例句 3. 从来不向外来压力屈服的中国政府和人民将沿着自己制定的计划生育政策继续前进。 例句 4. 跟您这么说吧,我们谁也不认识谁。

在单空和多空词语选择题中,目标词的选择不当主要有以下两点原因:(1)该词词义在

语境中不够典型,作为测试对象的意义不大,如句 5 中的“妇女”;(2)该词与背景知识或上

下文信息相关,不宜作为测试目标词,如句 6 中的“家庭”。

例句 5. 我很高兴有机会跟大家谈谈中国妇女的地位问题。 例句 6. 《金瓶梅》是中国第一部以家庭生活为题材的长篇小说。

干扰项生成中,听力题的不当干扰项主要是由于与目标词的语音相似度过高或过低,而

单空选择题中,虽然我们采用搭配数据对干扰项进行了排除,仍然难以避免正确干扰项的出

现,如下例中,目标词为“优美”,而干扰项“美妙”也可视为一个合理选项,评价者认为

需要从候选干扰项中选择词语“壮丽”或“流利”对其进行替换。生成正确干扰项的主要原

因在于我们的搭配数据集从教材语料库中抽取,相对规模较小,“美妙”-“协奏曲”这样合

理但频率较低的搭配无法通过该数据集进行校验。

例题 2:梁祝的故事伴随着____的小提琴协奏曲传向世界。 A. 通俗 B. 壮观 C. 优美 D. 美妙 候选干扰项:美丽,迷人,恶劣,壮丽,自信,感激,恶化,流利

在排序题的生成上,评价者反映部分排序题可以有多种正确排序方式,例如句 7 中,“现

在”可以出现在主语前或主语后。 200 道排序测试题中共有 22 道存在这种情况,考虑到汉

语的词序语序具有灵活性,测试中并未将这种现象归入不合理情形。

例句 7. 现在我们去别的城市也方便了。(排序题:我们 现在 了 去 也方便 别的城市)

通过对测试结果的分析,我们发现,在目前的命题策略中,通过新 HSK 词语等级信息计

算、语法项目自动识别和对样卷数据的分析利用,词句选择在难度控制上普遍效果较好,而

对词义和句义的把握则存在不足,这需要我们在后续的自动命题研究中从以下几个方面进行

改进:第一、在句子的选择上,一方面需要选择合适的文本来源,除了难度信息外,也需对

题材、体裁等信息进行筛选,另一方面需要从语法层面深入到语义层面,联系上下文对句子

结构和意义的独立性进行判断;第二、在目标词的选择上,除了词语等级、词性、语法属性

等较为表层的特征外,还需对词义的属性进行考虑,同时注重词语与上下文信息的关联度;

第三、在干扰项的选择上,需要引入更完善的排除和过滤方法,如基于更大规模的语料库提

取搭配数据集,或使用 Chinese Web N-Gram 数据集(Liu et al., 2010)进行校验等。此外,

注意到词语听力题受初级词数量限制,命题数量较少,仅有 170 道,我们还需要探索更多的

听力测试题型,如听句子选择词语、听句子回答问题等,以丰富测试的形式和内容。

6结论

词汇知识涉及语音、语义、语法、语用各个层次的信息,是二语教学中的重点和难点。

本文以汉语词汇测试题的自动生成为研究对象,从汉语语言的特殊性和实际教学需求出发,

选择对词语听力、多空词语选择、词语排序和单空词语选择四种题型进行了自动命题的初步

尝试。在词语特征的提取上,我们综合运用教材语料库、中介语语料库等资源,基于自然语

言处理技术,构建了一个面向自动命题的词汇知识库,覆盖词音、词语难度、词频、偏误、

搭配、相近词、语法等多层面信息。在句特征的提取上,我们实现了语法项目自动识别和句

子难度分析,为自动命题提供参考和依据。

通过题干句选择、目标词选择、语块合成、干扰项选择等命题步骤,我们共计生成了

7263 道词汇测试题。人工测试结果显示,词汇测试自动命题的初步尝试取得了较好的效果,

汉语语言测试自动命题具有进一步发展的可行性,同时,自动命题也可作为人工命题的有效

Page 10: 汉语词汇测试自动命题研究 - cips-cl.org · 汉语词汇测试自动命题研究 胡韧奋1 (1. 北京师范大学,北京市 100875) 摘要:为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空

辅助手段,提升其命题效率。此外,服务于命题特征提取的词汇知识库和句子分析模块还可

为二语教学、二语词典编纂及相关研究工作提供辅助和参考。

在后续研究中,我们计划通过挖掘更深层次的语言信息和引入其他语言资源,来提升词

句选择的有效性,完善自动命题策略,并希望探索自动命题技术在其他语言测试题型中的应

用。此外,我们还计划组织不同汉语水平的学习者参与词汇测试,通过实验从学生角度收集

反馈,并对试题自动生成的实用性进行验证。

参考文献

[1] Nation I S P. Learning vocabulary in another language[M]. Stuttgart: Ernst Klett Sprachen, 2001: 33. [2] Mitkov R, Ha L A. Computer-aided generation of multiple-choice tests[C]//Proceedings of the HLT-NAACL workshop on Building educational applications using natural language processing-Volume 2. Association for Computational Linguistics, Edmonton, Canada, 2003: 17-22. [3] Brown J C, Frishkoff G A, Eskenazi M. Automatic question generation for vocabulary assessment[C]//Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Vancouver, Canada, 2005: 819-826. [4] Correia R, Baptista J, Mamede N, et al. Automatic generation of cloze question distractors[C]//Proceedings of the Interspeech Satellite Workshop on Second Language Studies: Acquisition, Learning, Education and Technology, Waseda University, Tokyo, Japan. 2010. [5] Goto T, Kojiri T, Watanabe T, et al. Automatic generation system of multiple-choice cloze questions and its evaluation[J]. Knowledge Management & E-Learning: An International Journal, 2010, 2(3): 210-224. [6] 杨丽姣, 肖航. 汉语深层语义理解与知识表示——面向语义搜索的语料库语境信息标注研究[J]. 语言文字应用, 2015 (1): 107-116.

[7] 胡韧奋, 曹冰, 杜健一. 现代汉字形声字声符在普通话中的表音度测查[J]. 中文信息学报 , 2013, 27(3):

41-48. [8] Lin D. Extracting collocations from text corpora[C]//First workshop on computational terminology. University of Montreal, Montreal, Canada, 1998: 57-63. [9] Che W, Li Z, Liu T. LTP: A Chinese language technology platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations. Association for Computational Linguistics, Beijing, China, 2010: 13-16. [10] Hindle D. Noun classification from predicate-argument structures[C]//Proceedings of the 28th annual meeting on Association for Computational Linguistics. Association for Computational Linguistics, University of Pittsburgh, Pittsburgh, USA, 1990: 268-275. [11] Lin D. Automatic retrieval and clustering of similar words[C]//Proceedings of the 17th international conference on Computational linguistics-Volume 2. Association for Computational Linguistics, University of Montreal, Montreal, Canada, 1998: 768-774. [12] 国家汉办/孔子学院总部. 国际汉语教学通用课程大纲[Z]. 北京: 外语教学与研究出版社, 2009: 80-96.

[13] 李桂梅,张晋军,解妮妮,符华均. 新 HSK 词汇控制对试卷难度影响的研究[J]. 中国考试,2015,03:38-40. [14] Liu, F, Yang M and Lin D. Chinese Web 5-gram Version 1 LDC2010T06[Z]. Philadelphia: Linguistic Data Consortium, 2010.

作者联系方式:

胡韧奋

地址:北京市海淀区北京师范大学后主楼 2132B

邮编:100875

电话:13581850436

电子邮箱:[email protected]