CN105630940A

CN105630940A - 一种基于可读性指标的信息检索方法

Info

Publication number: CN105630940A
Application number: CN201510976829.XA
Authority: CN
Inventors: 张程; 宋大为; 张鹏; 王博; 张文雅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2016-06-01
Anticipated expiration: 2035-12-21
Also published as: CN105630940B

Abstract

本发明公开了一种基于可读性指标的信息检索方法，使用搜索引擎搜索过程中，对符合搜索条件的文档按照其与查询的关键字的相关度进行排序，同时将符合搜索条件的文档、相关度排序和可读性得分组织成页面返回给用户，文本可读性得分＝M×(N×中文平均笔画数+(1-N)×中文难词频度)+(1-M)×(P×英文平均字符数+(1-P)×英文难词频度)，M调整中英文可读性的权重配比，N调整中文平均笔画数指标以及中文难词频度指标之间的权重配比，P调整英文平均字符数指标和英文难词频度指标之间的权重配比。本发明通过检索后返回文档的可读性得分，用户便于快速提取相关度较高文档中对于自身而言较为可读的部分，增加检索效率。

Description

一种基于可读性指标的信息检索方法

技术领域

本发明涉及一种信息检索方法，尤其涉及一种基于可读性指标的信息检索方法。

背景技术

信息检索是指从一个信息资源集中获取与信息需求相关信息资源的活动。在现代社会中，信息检索已成为人们发现与获取知识和信息的重要途径。针对传统信息检索而言，用户在向检索***提交一系列查询之后，检索***根据文档与查询之间的“相关性”和超链接结构的“重要性”返回结果列表供用户挑选阅读，具体过程如图1所示，图中展示了传统信息检索交互过程，当用户提交查询给搜索引擎后，搜素引擎根据相关技术，比如有向量空间模型计算文本相似度，根据PageRank算法计算文档权重等来计算出对应于用户提交查询应该返回的对应文档集，然后返回搜索结果给用户。

近来，可读性作为一项新兴指标在文档相关性^[1]、质量^[2]和实用性^[3]评价中占据重要地位。随着网络资源地***式增长以及用户多样化，如何为用户提供既与查询相关又可读的文档已成为亟需解决的问题。用户因教育背景、阅读动机、身体状况等因素，形成了一定程度的阅读能力差异。如图2所示，基于对用户阅读能力的考虑，我们根据个体的差异程度对个体进行聚类形成个体组，图形中用不同的纹理来体现用户之间的差异性，从开始没有用户进行聚类，到按照用户个体间差异聚类后，将用户聚类成不同的个体组，基于这种差异能够对个体进行相关聚类，并且聚类之后依旧存在一定程度群体差异，即相同的文本对于不同个体类而言具有不同的可读性。

由此可见，为提高用户检索体验，将可读性融入到信息检索过程具有重要意义。具体地，针对于搜索引擎初次返回的结果列表，既可以基于文本可读性进行重排序，又可以通过具体可读性标示予以体现，例如：可读性颜色指示(不同颜色代表不同可读性)，或者分值界定(根据一些可读性指标计算得到的可读性分值)等。

针对可读性指标已有数十年历史，一些经典的指标已经被广泛接受并利用，例如：金凯德等级水平(Flesch-KincaidGradeLevel)、迷雾指数(FOGIndex)、自动可读性指标(AutomatedReadabilityIndex)等^[4]。基于平均字长、平均句长、难词比例等词汇表面基本特征，这些经典的方法具有一定的有效性。近来，为提高可读性计算方法的准确性，一些可读性方法尝试使用机器学习的思想将可读性计算问题转化成分类和预测问题，例如使用支持向量机(SupportVectorMachine)^[5]、回归(Regression)^[6]、插值预测(InterpolationPrediction)^[7]等，然而这些方法却难以支持无监督的可读性在线预测。

截至目前，搜索引擎并没有显示标示检索结果相对于用户可读性的功能。

[参考文献]

[1]ZhangY,ZhangJ,LeaseM,etal.Multidimensionalrelevancemodelingviapsychometricsandcrowdsourcing.Proceedingsofthe37thinternationalACMSIGIRconferenceonResearch&developmentininformationretrieval.ACM,2014:435-444.

[2]BenderskyM,CroftWB,DiaoY.Quality-biasedrankingofwebdocuments.ProceedingsofthefourthACMinternationalconferenceonWebsearchanddatamining.ACM,2011:95-104.

[3]YilmazE,VermaM,CraswellN,etal.Relevanceandeffort:ananalysisofdocumentutility.Proceedingsofthe23rdACMInternationalConferenceonConferenceonInformationandKnowledgeManagement.ACM,2014:91-100.

[4]ChallJS,DaleE.Readabilityrevisited:ThenewDale-Challreadabilityformula.BrooklineBooks,1995.

[5]PetersenSE,OstendorfM.Amachinelearningapproachtoreadinglevelassessment.Computerspeech&language,2009,23(1):89-106.

[6]CrossleySA,DuftyDF,McCarthyPM,etal.Towardanewreadability:Amixedmodelapproach.Proceedingsofthe29thannualconferenceoftheCognitiveScienceSociety.2007:197-202.

[7]PitlerE,NenkovaA.Revisitingreadability:Aunifiedframeworkforpredictingtextquality.ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics,2008:186-195.

发明内容

针对现有技术中存在的问题，本发明提出一种基于可读性指标的信息检索方法，综合了用户可读性评价技术以及在线更新数据技术，另外，针对一些特殊群体用户可以自己定做属于自己可读性评价水平的接口。

本发明中所提及到的文本可读性是指：用户在理解并且领会一段文本或者一篇文档内容过程中的难易程度。

为了解决上述技术问题，本发明提出的一种基于可读性指标的信息检索方法，包括以下步骤：

步骤一、当用户使用搜索引擎以希望查询的关键字进行搜索时，搜索引擎从索引中检索出符合搜索条件的文档；

步骤二、搜索引擎在搜索过程中，对符合搜索条件的文档按照其与查询的关键字的相关度进行排序，同时进行文本可读性得分的计算，将符合搜索条件的文档、相关度排序和可读性得分组织成页面返回给用户；其中可读性得分按照如下方法计算：

文本可读性＝M×(N×中文平均笔画数+(1-N)×中文难词频度)+(1-M)×(P×英文平均字符数+(1-P)×英文难词频度)

式中，对于文档中同时出现英文以及中文的情况下，可调参数M负责调整对于该文档中中英文可读性的权重配比；可调参数N，负责调整文档中中文部分的中文平均笔画数指标以及中文难词频度指标之间的权重配比；可调参数P，负责调整文档中英文部分的英文平均字符数指标和英文难词频度指标之间的权重配比。

进一步讲，步骤2中，可调参数M的值域为[0,1]，当文档着重于中文可读性的情况下,M值大于0.5；当文档着重于英文可读性的情况下，M的值小于0.5；可调参数N的值域为[0，1]，当文档着重于中文平均笔画数的情况下,N值大于0.5；当文档着重于中文难词频度的情况下，N的值小于0.5；可调参数P的值域为[0，1]，当文档着重于英文平均字符数的情况下,P值大于0.5；当文档着重于英文难词频度的情况下，P的值小于0.5。

另外，本发明针对有一定能力并且对自身认知程度有一定程度了解的用户，开放了文本可读性可自定义的接口。从而可让用户可以根据自身需求动态调整计算方法。

与现有技术相比，本发明的有益效果是：

本发明可以作为搜索引擎展现方式的一部分，以及用户可定制搜索引擎的一部分。通过检索后返回文档的可读性得分，用户便于快速提取相关度较高文档中对于自身而言较为可读的部分，增加检索效率。同时，可以根据自身情况来调节对于搜索结果可读性的评价算法进而更加贴合用户自身需求。

例1:假设群体A为计算机相关群体，群体B为金融相关群体，那么根据当前搜索引擎的返回结果，当两群体在其他搜索条件完全相同的情况下搜索相同关键词，如果返回的某条文本中包含Python关键字，那么该条文本对于群体A的可读性更强，对于群体B可读性相对较低。

例2:假设群体A经常搜索中文关键字，群体B经常搜索英文关键字，那么根据当前搜索引擎的返回结果，当两群体在其他搜索条件完全相同的情况下搜索相同关键词，如果返回的某条文本只包含英文，那么该条文本对于群体B的可读性更强，对于群体A可读性相对较低

附图说明

图1是传统信息检索交互流程图；

图2是基于用户阅读能力的相关聚类示意图；

图3是一种基于可读性指标的检索方法交互流程图；

图4使用用户自定义算法之前***检索结果图；

图5使用用户自定义算法之后***检索结果图；

图6是用户自定义算法界面图；

图7是本发明基于可读性指标的检索方法的主体框架图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步详细描述，所描述的具体实施例仅对本发明进行解释说明，并不用以限制本发明。

本发明提出的一种基于可读性指标的信息检索方法，包括以下步骤：

步骤二、搜索引擎在搜索过程中，对符合搜索条件的文档按照其与查询的关键字的相关度进行排序，同时进行文本可读性得分的计算，将符合搜索条件的文档、相关度排序和可读性得分组织成页面返回给用户；目前国内搜索引擎以中文和英文内容为主要搜索结果，因此本发明主要考虑对中文以及英文内容可读性的处理。其中，中文以字为单位，英文以词为单位，中英文的单位不同导致其对可读性计算方式过程中存在差异。

对于中文，一句话中笔画数越多认知难度相对越高(从直观上对汉字的认识是由易到难的，而相比于难字，易字的笔画数相比要少一些)。对于英文，一句话中每个单词所含有的英文字母越少，其可读性就更好。这里将中文中单位字以及英文中的单位词统称为字，那么定义中英文句子中字的难易程度指标如公式(1):

对于中英文中字的具体评价方式，仅仅使用字难易程度指标的处理是不够的，语言以字为单位，语言中句子是由词构成的，那么还需要定义中英文中难词频度指标；中、英文中难词频度指标计算方式相同；最后，需要将上述定义的指标进行汇总以及归一化处理，从而的得出可读性算法公式。具体内容如下：

1基于汉字笔画数以及英文单词长度的字难易程度指标可读性计算

1.1汉字部分

通常情况下，汉字的笔画数越多，则该汉字从视觉上认知的复杂度就会变得越高。同时，该汉字相对于用户来说其可能性就会随之降低。因此，通过一段中文文本中平均汉字复杂度来作为该段文本的可读性指标之一。计算方法如公式(2)所示：

GB2312对所收录汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区位码。区位码的具体含义如下所示：

01-09区为特殊符号。

16-55区为一级汉字，按照拼音排序

56-87区为二级汉字，按部首/笔画排序。

10-15区及88-94区则未有编码。

在GB2312中，每个汉字以及符号以两个字节来表示。第一个字节称为“高位字节”(也称区字节)。第二个字节称为“低位字节”(也称“位字节”)。“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。由于一级汉字从16区起始，汉字区的“高位字节”的范围是0xB0-0xF7，“低位字节”的范围是0xA1-0xFE，占用的码位是72*94＝6768。其中有5个空位是D7FA-D7FE。

首先，将给出的汉字用GB2312的格式进行编码，用其GB2312码来计算该汉字所在汉字表中的偏移值，假设高位字节用C1表示，低位字节用C2表示，偏移值计算公式如公式(3)所示：

offset＝(C1-0xB0)×(0xFE-0xA0)+(C2-0xA1)(3)

然后通过该偏移值(offset)从已知的笔画数表中查询求得该汉字的笔画数。例如：

汉字“好”对应的GB2312编码为\xba\xc3。

C1＝\xba

C2＝\xc3

带入公式(3)，求得offset＝974，查表后得知，“好”的偏移值所对应的值为6，所以“好”的笔画数为6。

1.2英文部分

相对于汉字，英文处理更为直观。通常情况下，单词认知难度会随着单词的变长而提高。因此，本发明通过求文本中单词平均字符长度的方式来作为英文部分的文本可读性指标之一，具体如公式(4)所示：

2中英文难词频度指标的计算

难词对文档可读性而言占据重要地位。通过参考常用词表，可以得出文本中中文难词所占比例以及英文难词所占比例。具体计算过程如公式(5)所示。

3全文可读性算法公式

综上，可以求出文本中中英文难词词频以及英文平均字符长度以及中文平均笔画数。如公式(6)所示，对相应结果进行了归一化处理，因此，可读性得分可以按照式(6)计算：

文本可读性＝M×(N×中文平均笔画数+(1-N)×中文难词频度)+(1-M)×(P×英文平均字符数+(1-P)×英文难词频度)(6)

式(6)中，M，N，P均为可调参数，取值范围均为(0，1)。根据不同的分类群体来调整M，N，P可调参数的值，从而达到对不同的情况得到一个比较好的效果。

对于文档中同时出现英文以及中文的情况下，

可调参数M负责调整对于该文档中中英文可读性的权重配比；可调参数M的值域为[0，1]，当文档着重于中文可读性的情况下，M值大于0.5；当文档着重于英文可读性的情况下，M的值小于0.5。

可调参数N，负责调整文档中中文部分的中文平均笔画数指标以及中文难词频度指标之间的权重配比；可调参数N的值域为[0，1]，当文档着重于中文平均笔画数的情况下，N值大于0.5；当文档着重于中文难词频度的情况下，N的值小于0.5。

可调参数P，负责调整文档中英文部分的英文平均字符数指标和英文难词频度指标之间的权重配比。可调参数P的值域为[0，1]，当文档着重于英文平均字符数的情况下，P值大于0.5；当文档着重于英文难词频度的情况下，P的值小于0.5。

最后求得的文本可读性(文本难度)取值范围为[0，1]，为了方便用户认知，如图4所示，可以使最终结果扩大5倍，使其取值范围为[0，5]，这样最终结果保留到小数点后x位，方便用户认知。

另外，为了让一些有一定能力并且对自身认知程度有一定程度了解的用户，可以针对自身情况得到一个最佳文本可读性的值，允许用户自定义文本可读性的计算方法。图4所示为用户自定义算法之前的检索结果。图5所示为用户自定义算法之后的结果。图6所示为用户自定义算法页面，用户可以自行创建不同的算法方式，***把返回的文档标题以及摘要提供给了用户，通过自定义对提供接口的计算方式来满足自己的需求，图6所展示的就是用户通过简单设定返回值为0.3。这样，针对搜索引擎返回的每一篇文档，对应的文本可读性为0.3，如上文提到的，对0.3进行乘以5的放大操作，最终显示的文本可读性为1.5，如图5所示。

整体***选用python完成，python语言也拥有动态加载代码的特性，这样，保证用户在提交自定义文本可读性代码之后算法可以及时生效。

通过图1展示了传统信息检索交互过程，当用户提交查询给搜索引擎后，搜素引擎根据相关技术，比如有向量空间模型计算文本相似度，根据PageRank算法计算文档权重等来计算出对应于用户提交查询应该返回的对应文档集，然后返回搜索结果给用户。基于对用户阅读能力的考虑，根据个体的差异程度对个体进行聚类形成个体组，如图2所示，图形中用不同的纹理来体现用户之间的差异性，从开始没有用户进行聚类，到按照用户个体间差异聚类后，将用户聚类成不同的个体组。针对个体组，本发明提出一种基于可读性指标的信息检索方法，融入了文本可读性的概念图3给出了具体的检索交互过程，用户提交查询给搜索引擎，搜索引擎根据相关技术计算出对应于用户提交查询应该返回的对应文档集合，并且根据用户群体差异以及个体差异计算出针对不同个体的文档可读性得分，然后将搜素结果以及文档可读性得分返回给用户。通过使用图6所提供的用户自定义算法界面，有助于用户针对自身阅读情况对可读性进行自定义，用户通过***后台，对文本可读性得分计算部分代码的编写来适应自身的计算需求。图4和图5则对是否加入用户自定义的可读性的检索结果进行了对比，图4中是没有加入用户自定义可读性的检索结果，图5是用户使用了用户自定义可读性的检索结果。

本发明的主体架构如图7所示，用户首先发起查询请求到服务器，最后由服务器响应用户的查询请求。而服务器部分整体的架构如下所述：用python语言的tornado框架做该web主体部分。该框架既满足了MVC的基本要求，同时也为高性能的异步框架满足了性能上的需求。其中，整体用nginx作为前端，方便程序做负载均衡，并且方便后续对其性能的扩充。整体后端文本索引部分由solr完成。solr负责对文本进行索引等一系列的处理。由于本发明涉及到文本的中英文处理，因此使用jieba分词进行数据清洗工作。对于可读性计算方面，充分使用了python的动态特性从而实现用户根据其自身需求扩充可读性算法的功能，即提供给用户一个接口，该接口以索引返回的文本为入口，以文本可读性得分为出口。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于可读性指标的信息检索方法，其特征在于：包括以下步骤：

式中，对于文档中同时出现英文以及中文的情况下，

可调参数M，负责调整对于该文档中中英文可读性的权重配比；

可调参数N，负责调整文档中中文部分的中文平均笔画数指标以及中文难词频度指标之间的权重配比；

可调参数P，负责调整文档中英文部分的英文平均字符数指标和英文难词频度指标之间的权重配比。

2.根据权利要求1所述基于可读性指标的信息检索方法，其特征在于：步骤2中，

可调参数M的值域为[0,1]，当文档着重于中文可读性的情况下,M值大于0.5；当文档着重于英文可读性的情况下，M的值小于0.5；

可调参数N的值域为[0，1]，当文档着重于中文平均笔画数的情况下,N值大于0.5；当文档着重于中文难词频度的情况下，N的值小于0.5；

可调参数P的值域为[0，1]，当文档着重于英文平均字符数的情况下,P值大于0.5；当文档着重于英文难词频度的情况下，P的值小于0.5。