基于自然语言处理的图书阅读难度自动分级研究_数码_

... 推荐5本经典自然语言处理书籍免费下载

王进+周慧+罗国峰+顾翔

摘要：图书阅读难度自动分级系统能够帮助儿童读者快速找到适合自己认知水平的图书。文章基于图书句子难度和字难度两个维度，建立了一个图书难度分级模型，并开发出对应的图书阅读难度自动分级系统。利用该系统对常见的儿童图书进行了测试，初步实验表明：从图书中随机选取字数达到2500-3000字时，图书阅读难度分级算法测试结果误差较小，综合使用字难度和句子难度的分级算法比单纯字难度分级算法和单纯句子难度分级算法的效果更好。该系统目前仅限于白话文图书应用。

关键词：分级阅读；句子难度；字难度；汉字常用字词库

中图分类号：TP391 文献标志码：A 文章编号：1006-8228（2017）08-01-05

Abstract： The automatic grading system of reading difficulty degree can help children find books that are suitable for their own cognitive level. Based on the two dimensions of sentence difficulty and word difficulty， this paper establishes a hierarchical model of reading difficulty degree， and develops an automatic grading system of reading difficulty degree. The common children's books are tested by this system， preliminary experiments show that when the randomly selected books with words up to 2500-3000， the grading algorithm of reading difficulty degree results in less errors， and the grading algorithm using both sentence difficulty and word difficulty has a better result than that only using sentence difficulty or word difficulty. The system is currently limited to the books of using vernacular.

Key words： graded reading； the sentence difficulty； the word difficulty； Chinese characters commonly used thesaurus

0 引言

2011年8月國务院制定的《中国儿童发展纲要（2011-2020）》[1]首次明确提出“推广面向儿童的图书分级制”，为不同年龄儿童提供适合其年龄特点的图书。图书分级阅读[2]是指从少儿的年龄特征、思维特征、社会化特征出发，根据阅读者不同年龄段的智力和心理发育程度，有针对性地为不同阅读能力的孩子提供合适的图书，为读者提供科学的阅读计划。

孩子的阅读热情可能因不能阅读到合适的图书而降低[3]。儿童在不同成长期的阅读兴趣和阅读发展有很大的变化，如何实现图书分级阅读以满足孩子不同的阅读需求已经成为一个亟待解决的问题[4]。

近年来一些国内出版社已经开始为儿童图书做分级标引，按照不同年龄段孩子的需要，重新编辑、出版一些作家的作品。但这种分级方法不但需要耗费大量的人力财力，还要花费大量的时间[5]。由于信息时代新书增长速度越来越快，传统的图书分级方法已经捉襟见肘，不能满足儿童迫切的阅读分级需求。因此，图书自动分级研究具有重要的现实意义[6]。

与西方发达国家相比，国内的图书分级阅读还不成熟[7-8]。中文图书分级阅读，需要学习国外的图书分级理论与实践成果，但由于欧美语系与汉语差异很大，针对其英文开发的分级系统并不适用于中文图书。因此，要促进国内分级阅读的推广，需要研究一种针对中文图书的分类方法。

本研究是以图书分级阅读为背景，研究图书阅读难度分级技术，通过抽取图书的自然语言特征，结合儿童认知发展规则，建立一套中文图书阅读难度分级模型，并实现一个可以在线测试图书的阅读难度分级系统，为儿童分级阅读提供服务。

1 图书分级阅读标准

欧美比较常见的分级阅读标准有两种。一种是A—Z分级阅读标准（Guided Reading Level），是一种指导型的阅读方式，把图书由易到难分成A—Z 26个级别。它是由凡塔斯和皮内尔两位阅读专家开发的一套图书分级系统。其原理是把全文词汇数量、单词数量、高频词汇数量与比例、低频词汇数量与比例、句子长度、句子复杂度、明晰度、句式、内容深度、主体熟悉度等作为分级因子，利用电脑自动分析，但其中的图例、句子复杂度、思想内涵等主观因素则靠阅读专家进行分析。A-Z法是一个应用较广泛的分级方法，被很多数据库所采用。

第二个分级标准，就是蓝思（Lexile）分级系统[9]，蓝思是衡量读者阅读水平和标识出版物难易程度时使用的单位。简单来说，一个蓝思（Lexile）是一个难度单位，读懂一本初级低幼读物与读懂一本百科全书之间差距的千分之一被定义为1个Lexile，蓝思最高分值为1700L。蓝思有一套阅读水准测评系统，包括词汇、阅读理解、熟练程度及写作几个部分的考核，儿童可以先对自己阅读水平进行测试，得到一个分值，然后选择相同分值的书籍。我国尚未形成出版社以外的第三方研究机构指定的权威性分布标准，2009年南方分级阅读研究中心推出“两个标准”后，还计划根据国际上流行的方法推出“儿童青少年分级阅读评价方法”。2009年接力儿童分级阅读研究中心推出了“分级阅读参考书目”，它在参考了国内外各种推荐书目以及顶级儿童文学奖项的基础上，精选出首批200种儿童分级阅读参考书目。国内的分级标准存在一些弱点，如：分级标准不够本地化、难以快速推广等。

2 基于自然语言处理的图书分级模型

图书阅读难度是基于自然语言处理[10]的研究，其主要研究图书字、词、语义、语法等因素对图书阅读理解的影响。本课题使用的是图书句子难度[11]和图书字难度两个特征。

与英语单词之间有空格不同，中文文本的处理需要首先进行分词。中文分词技术是将句子按照一定汉语序列分成一个一个单独的且有意义的词组。本课题采用的分詞器是IKAnalyzer分词技术[12]，能够较好地支持中英文、日期、罗马数字等的分词。

2.1 图书字难度

2013年6月5号国务院公开发布《通用规范汉字表》，其中一级字表收用了3500个常用汉字表[13]，我们根据其使用频率的高低依次分为五个等级，建立起几个字难度（该字在常用汉字中使用频率[14]）依次递增的字库。各级字频库信息如表1所示。

图书阅读分级系统计算图书字难度时，先把图书拆分为单个字符，再到五个字频库中依次匹配，在某级字库中匹配到则乘以该字库难度系数。如果五个常用字频库中都没有包含该字符，则自动建立一个新字频库，命名为六级字频库，难度系数赋值为6，并把该字符归结入这个新的字频库。

2.1.1 图书字难度算法设计

图书字难度算法公式的设计是基于常用汉字字频库来实现的，图书字难度与图书的字总数无关，与图书中陌生汉字成正相关，与图书中出现频率较高的汉字成负相关。因此设计图书字难度算法模型如下：

其中，

WD：图书字难度；

WF：图书中某个中文字符出现的频数；

L：常用汉字字符难度，级别分别为1、2、3、4、5、6；

WN：过滤掉StopWord后的图书字符数。

根据建立好的常用汉字字频库，把图书拆分为单个字符，统计其中每个汉字出现的频数，带入字难度计算公式得出图书字难度值。其过程如下：第一，过滤掉图书中StopWord和标点字符并保存到新文档中；第二，拆分过滤后的图书为单个字符并统计字频数；第三，每个字符逐一从六个难度依次递增的常用汉字字频库中匹配，匹配到之后用字符频数乘以该字符所在字频库级别即（WF*L）。

2.2 图书句子难度

阅读难度高的句子特征：句子长度过长（包含中文字符过多）；包含多个陌生词组；包含多个陌生短语；句子语法冗余；包含多个多义词等。相对长句而言，短句理解就相对容易得多，最短的句子可能就几个字，这样的句子没有研究的意义，在后期句子难度的计算中将作为过滤对象。对文章的理解是在对字、词理解的基础上串联而来，本研究中句子难度主要从句子长度、包含词组数和短语数以及词组和短语属于几级词汇表来计算评估，不涉及到语法功能和语义功能。例如：

A.喝酒就不能开车不然会很危险。

B.现在放学了。

C.今天下午开始进行毕业答辩了我想你应该准备得很充分了吧。

D.干嘛呢，讨厌。

从以上四句话中我们很直观得出四句话从难到易依次为C、A、D、B，从句子中的词组量多到少的排序也是C、A、D、B。

句子难度的计算需要建立词组库，将常用词组划分为甲、乙、丙，分别代表三个级别的词汇库，在此划分为儿童读物常用词汇、青少年读物常用词汇、成年读物常用词汇，各级词组库如表2所示。

在测试图书句子难度时，需要对整篇文章过滤掉一些没有意义的句子（只包含几个字符的句子），并以“。？！”为分割标志，拆分为单个句子，分别计算出每个句子的难度值，最后计算出一个平均值表示这篇文章的句子难度值。

初步设计图书句子难度的模型为：

图书句子难度=句子长度+词组因素

该模型选择三个因素，分别为句子包含字符数（即句子长度）、词组总数、所包含的甲乙丙三个等级词汇量。其中，甲乙丙三个等级词汇对图书的分级起到很重要的作用。最终得到句子难度度量公式为：

其中：

SD：图书句子难度。

SL：句子长度。

PN：句子中包含词组数量。

LN：句子中词汇的等级值之和。

λ：词难度系数在字、词、语法三个层面的难度选择的比例，λ1选择取1，λ2取5.625，λ1，λ2的取值引用文献[]的句子难度初步公式。

SN：过滤掉简单句子后的图书句子总数。

SD的值越大，句子阅读难度也较大。原因可能是句子长度过长，句子包含词汇量和乙丙级词汇较多。

3 系统设计与实现

本课题从图书字难度和句子难度两个维度来测评图书阅读难度值。结合常用字频库和词频库将图书拆分为单个字和词组来分析，计算出图书字难度和句子难度并把两个系数作为参考量，最后带入阅读难度公式得到一个较为可靠有效的图书阅读难度分数。

具体分级系统模块流程图如图1所示。其中，待测图书是一本txt格式的图书，StopWord[15]是图书中需要过滤的停止词，字频匹配计算是从建立的字难度依次递增的六级字库中逐一匹配出该字符并得出字符难度值，词频匹配计算是从建立的词难度依次递增的三级词库中逐一匹配出该词组并得出该词组难度值。

系统的要点分析如下。

⑴ 下载汉字常用字频库，由3500个常用中文汉字组成。并依据汉字出现频率高低把其分为五个等级的字频库，依次为一级字频库、二级字频库、三级字频库、四级字频库、五级字频库，作为评估图书字难度系数的参考标准。

⑵ 建立三个词难度依次递增的常用汉字词组库，作为评估句子难度的参考标准。

⑶ 构造出两个过滤类，并建立StopWord字库和StopWordGroup词组库过滤图书中停止词和停止词组。如：“的”、“地”、“得”、“哎呀”、“好啊”等。

⑷ 结合常用汉字字频库与常用中文词组库，设计图书字难度算法公式和图书句子难度公式，用来计算图书的字难度系数和句子难度系数。

⑸ 最后通过图书字难度系数和句子难度系数两个变量，带入图书阅读难度公式计算得出最终阅读难度系数。

该系统在测试时只选择图书中某页或某几页的内容参与测试，测评出的分数只能作为一个参考不能作为一个定性指标。

3.1 图书阅读难度分级算法设计与实现

在字难度和句子难度都已经确定的情况下，可以设计最终的图书阅读难度分级算法，本文设计的算法模型如下：

其中，RD为图书阅读难度值；WD为图书字难度值；SD为图书句子难度值；α为图书字难度系数；β为图书句子难度系数。

α与β是由经验确定两个参数，在后期图书阅读难度对比实验组中得出当α和β取值为0.5时得出的图书阅读难度值更加接近人工图书评分。即RD=0.5*WD+0.5*SD。

4 图书阅读难度分级系统评测

4.1 系统对比试验分析与改进

4.1.1 图书阅读难度分级系统算法对比试验

根据图书阅读难度值的公式模型：RD=α*WD+β*SD，我们可以看出图书阅读难度值是一个线性分布的点，那其中α和β两个系数该如何赋值，即是否偏重于图书句子难度或者图书字难度呢？我们设计了三种算法：算法1混合使用字难度和句子难度，其α=β=0.5；算法2偏重于句子难度，α=0，β=1；算法3偏重于字难度，α=1，β=0。实验以人工专家评分值为参考标准，将本系统计算的图书阅读难度结果与之对比，算出不同图书分级算法与人工评分的误差值。误差定义为：不同系统测评算法的评分值与人工测评的评分值的差绝对值的加权平均值。即：

实验数据如图2所示。

从三组对比试验数据可以明显看出：只有当图书阅读难度计算模型中图书字难度和句子难度系数取值相等，即图书阅读难度计算既不侧重于图书句子难度，也不侧重于图书字难度时，得到的结果更加接近人工专家的评分。

4.1.2 图书字数试验

测试图书时，仅抽取图书中部分内容测试，用该结果近似表示该图书的阅读难度。进行不同数量的字数抽取，评分结果存在差异，实验结果如图3所示。

通过对比实验数据发现：当图书类型和图书阅读难度算法固定不变时，从同一本书中抽取不同数字的图书内容进行测试，测试结果差异很大。随着抽检字数增加，误差逐渐收敛。试验数据显示当测试图书字数在2500-3000时，得到的图书阅读难度值与专家评分更接近，即测试出的图书阅读难度更准确。

4.1.3 图书类型试验

通过测试不同类型的图书，来探索本图书阅读难度分级系统是否能测评所有类型的图书，我们设计几组针对不同图书类型测评的对比实验。见图4。

在本次对比试验中，抽取测试的图书字数和进行计算的图书阅读难度公式模型为定量，以不同类型图书参与测试。从实验数据得出本系统在测评文言文类型的文章时会出现很大的误差。因此本图书阅读难度分级系统是以现代白话文为研究对象，测评出的分数才较为准确。

5 结束语

通过图书句子难度和字难度两个参数的分析与计算，通过IKAnalyzer分词技术和自行设计建立的字、词库可以实现图书字难度与句子难度的计算，以Eclipse开发软件为平台，能够实现图书阅读难度分级系统。为了使系统测评的结果更加具有说服力，使用几十本不同类型的图书做对比实验。结果表明：采用算法1（混合算法）针对测试字数为2500至3000字的现代白话文类型的图书，本文图书阅读难度自动分级系统可以达到与人工对图书难度的测评接近的水平。该系统应用在图书馆，为儿童快速选择适合的图书提供了便利。

参考文献（References）：

[1] 国务院.中国儿童发展纲要（2011-2020年）[EB/OL].（2011）[2017-03-17].http：//www.ccc.org.cn/html/Home/report/1076-1.htm.

[2] 白冰.少年儿童分级阅读及其研究[J].出版发行研究，2009.9：16-18

[3] 王新利.我国儿童分级阅读存在的问题及对策[J].图书馆，2012.2：114-116

[4] 詹莉波，尤建忠.儿童图书“分级阅读”在我国的生存现状与问题研究[J].中国图书评论，2010.6：114-118

[5] 吴亮芳，李建红.分级阅读推广的尴尬与出路[J].出版发行研究，2010.10：15-18

[6] 尤建忠.新世纪中国儿童分级阅读的发展现状与前景[J].出版广角，2011.2011.6：8-11

[7] 孫南南.美国分级阅读教育体系探究[J].沈阳师范大学学报：社会科学版，2011.35（3）：48-50

[8] 王晔.英美两国儿童分级阅读对我国的启示[J].现代情报，2013.33（12）：95-98

[9] STENNER A J. Measuring Reading Comprehension with the Lexile Framework[J]，1996.

[10] 成庆宗.统计自然语言处理[M].清华大学出版社，2008.

[11] 江少敏.句子难度度量研究[D].厦门大学硕士学位论文，2009.

[12] HONG C. Research on Chinese segmentation algorithm based on Hadoop cloud platform[C]//Information Technology and Mechatronics Engineering Conference，2015.

[13] 江铭虎.自然语言处理[M].高等教育出版社， 2006.

[14] 高定国，钟毅平，曾铃娟.字频影响常用汉字认知速度的实验研究[J].心理科学，1995.4：225-229

[15] YAO Z， ZE-WEN C. Research on the construction and filter method of stop-word list in text preprocessing[C]//2011 International Conference on Intelligent Computation Technology and Automation （ICICTA）. IEEE，2011：217-221