CN111832278A - 文档流畅度的检测方法、装置、电子设备及介质 - Google Patents

文档流畅度的检测方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN111832278A
CN111832278A CN202010543222.3A CN202010543222A CN111832278A CN 111832278 A CN111832278 A CN 111832278A CN 202010543222 A CN202010543222 A CN 202010543222A CN 111832278 A CN111832278 A CN 111832278A
Authority
CN
China
Prior art keywords
document
value
detected
paragraph
fluency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010543222.3A
Other languages
English (en)
Other versions
CN111832278B (zh
Inventor
甘昆鹭
薛璐影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010543222.3A priority Critical patent/CN111832278B/zh
Publication of CN111832278A publication Critical patent/CN111832278A/zh
Application granted granted Critical
Publication of CN111832278B publication Critical patent/CN111832278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了文档流畅度的检测方法、装置、电子设备及介质,涉及云计算和自然语言处理技术领域。具体实现方案为:通过计算待检测文档的优美度值、通顺度值和错误度值,进而根据计算得到的优美度值、通顺度值和错误度值,生成待检测文档的流畅度值,由此,实现了文档优美度、通顺度和错误度的自动检测,从而实现了文档流畅度的检测。当本申请的方案应用于作文评阅时,实现了作文的自动评阅,能够从优美度、通顺度和错误度多个方面对作文进行评分,相较于基于教师人工对作文进行打分的方式,能够节省人力和时间,提高作文审阅效率,且评阅标准统一,能够提高作文评分的准确率。

Description

文档流畅度的检测方法、装置、电子设备及介质
技术领域
本申请的实施例总体上涉及计算机技术领域,并且更具体地,涉及云计算和自然语言处理技术领域。
背景技术
作文是学生语文和英语考试的必备题型,通过作文可以综合考察学生运用语言的能力和水平。
目前,对于作文的评阅多是基于教师人工打分的方式实现的,人工打分方式存在一些问题。从阅卷者的角度来说,作文的评阅需要耗费大量的人力和时间,并且评阅标准无法统一,主观性强,导致评分的准确率较低。因此,如何实现作文的自动评阅以使教师得到解放,提高作文评分的准确率,成为亟待解决的课题。
发明内容
本申请提供了一种文档流畅度的检测方法、装置、电子设备及介质。
根据第一方面,提供了一种文档流畅度的检测方法,包括:
获取待检测文档;
计算所述待检测文档的优美度值;
计算所述待检测文档的通顺度值和错误度值;以及
根据所述待检测文档的优美度值、所述通顺度值和所述错误度值生成所述待检测文档的流畅度值。
根据第二方面,提供了一种文档流畅度的检测装置,包括:
获取模块,用于获取待检测文档;
第一计算模块,用于计算所述待检测文档的优美度值;
第二计算模块,用于计算所述待检测文档的通顺度值;
第三计算模块,用于计算所述待检测文档的错误度值;以及
生成模块,用于根据所述待检测文档的优美度值、所述通顺度值和所述错误度值生成所述待检测文档的流畅度值。
根据第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的文档流畅度的检测方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面所述的文档流畅度的检测方法。
本申请提供的文档流畅度的检测方法、装置、电子设备及介质,存在如下有益效果:
通过计算待检测文档的优美度值、通顺度值和错误度值,进而根据计算得到的优美度值、通顺度值和错误度值,生成待检测文档的流畅度值,由此,实现了文档优美度、通顺度和错误度的自动检测,从而实现了文档流畅度的检测。当本申请的方案应用于作文评阅时,实现了作文的自动评阅,能够从优美度、通顺度和错误度多个方面对作文进行评分,相较于基于教师人工对作文进行打分的方式,能够节省人力和时间,提高作文审阅效率,且评阅标准统一,能够提高作文评分的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的文档流畅度的检测方法的流程示意图;
图2是根据本申请第二实施例的文档流畅度的检测方法的流程示意图;
图3是对句子进行依存句法分析的示例图;
图4是根据本申请第三实施例的文档流畅度的检测方法的流程示意图;
图5是根据多个特征进行优美度检测的过程示例图;
图6是根据本申请第四实施例的文档流畅度的检测方法的流程示意图;
图7是根据本申请第五实施例的文档流畅度的检测方法的流程示意图;
图8是错误检测模型的网络结构示例图;
图9是根据本申请第六实施例的文档流畅度的检测装置的结构示意图;
图10是根据本申请第七实施例的文档流畅度的检测装置的结构示意图;
图11是根据本申请第八实施例的文档流畅度的检测装置的结构示意图;
图12是根据本申请第九实施例的文档流畅度的检测装置的结构示意图;
图13是根据本申请第十实施例的文档流畅度的检测装置的结构示意图;
图14是用来实现本申请实施例的文档流畅度的检测方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请的文档流畅度的检测方法、装置、电子设备及介质。
作文的语言表达是作文评阅中主要检测的方面,语言表达检测包括检测语言的表达是否优美和语言表达是否流畅两个方面。其中,语言表达优美主要体现在情感和语言美感上,而语言流畅主要体现在语句的通顺度和是否有语法和错别字错误上。
目前,对于作文的自动审阅,仅能实现对作文中的文本进行纠错,且仅能对固定模板的错别字错误或较低级的语法错误进行纠错,可解决的错误类型单一,对于作文中经常出现的病句错误、逻辑性错误,或用词不当等错误,缺乏有效的成熟技术,检测准确率和召回率较低。
针对上述问题,本申请公开了一种文档流畅度的检测方法,通过计算待检测文档的优美度值、通顺度值和错误度值,进而根据计算得到的优美度值、通顺度值和错误度值,生成待检测文档的流畅度值,由此,实现了文档优美度、通顺度和错误度的自动检测,从而实现了文档流畅度的检测。当本申请的方案应用于作文评阅时,实现了作文的自动评阅,能够从优美度、通顺度和错误度多个方面对作文进行评分,且评阅标准统一,能够提高作文评分的准确率。
图1是根据本申请第一实施例的文档流畅度的检测方法的流程示意图,该方法可以由本申请提供的文档流畅度的检测装置执行,也可以由本申请提供的电子设备执行,其中,电子设备可以是服务器,也可以是台式电脑、笔记本电脑、智能手机、可穿戴式设备等终端设备。下面以由本申请提供的文档流畅度的检测装置来执行本申请提供的文档流畅度的检测方法为例来解释说明本申请。
如图1所示,该文档流畅度的检测方法,可以包括以下步骤:
步骤101,获取待检测文档。
其中,待检测文档比如可以是学生的作文、用户创作的文章等。
本实施例中,可以通过不同的方式获取待检测文档。
作为一种示例,当待检测文档为学生手写的作文时,教师可以对学生手写的作文进行拍照,得到包含用户的作文的图片,并将图片上传至文档流畅度的检测装置,文档流畅度的检测装置通过对教师上传的图片进行光学字符识别(Optical CharacterRecognition,OCR),获取得到学生的作文,将获得的作文作为待检测文档。
作为一种示例,当学生需要对所作的作文进行自检,或者其他用户需要检测创作的文章时,可以在文档流畅度的检测装置提供的输入界面中直接录入文本文字,在录入完成后,文档流畅度的检测装置即获得待检测文档。
步骤102,计算待检测文档的优美度值。
美的语言作用于创作者的语感,语感包括通顺感、分寸感、韵律感等。具体地说,语感就是规范用字、文从字顺。能引起美感的语言通常是表情达意清楚、连贯得体、绘声绘色、有质感而又个性鲜明的语句。
本申请实施例中,为了评价待检测文档是否语言表达优美,可以计算待检测文档的优美度值,基于待检测文档的优美度值来评价待检测文档的表达是否优美。
作为一种可能的实现方式,本实施例中,可以预先训练一个优美句二分类器,通过优美句二分类器计算待检测文档中每个句子的优美句概率,进而根据每个句子的优美句概率,得到待检测文档的优美度值。比如,可以计算每个句子的优美句概率的均值,将所得均值作为待检测文档的优美度值。
其中,优美句二分类器的训练数据可以从互联网数据中获取并标注得到,比如从互联网数据中获取大量的中小学生作文、网络作家的文章等,并对获取的文章、作文进行标注,标注出作文、文章中的语句是否是优美句,产生大量的有效标注语句样本作为训练数据对二分类网络进行训练,得到训练好的优美句二分类器用于待检测文档的优美句检测。
步骤103,计算待检测文档的通顺度值和错误度值。
本实施例中,获取了待检测文档之后,还可以计算待检测文档的通顺度值,以及计算待检测文档的错误度值。
语言通顺指的是语言规范、准确、连贯、得体。语言的通顺不在于辞藻的华丽,而在于文从子顺,准确地表情达意。从而,本实施例中,可以通过计算待检测文档中各个段落的混淆度、各个句子的搭配异常情况来确定待检测文档的通顺度值。
其中,段落的混淆度可以通过预先训练的中文深度神经网络(Deep NeuralNetwork,DNN)语言模型计算得到,中文DNN语言模型可以计算得到每个句子的困惑度,困惑度能够体现语句的通顺情况,困惑度越小则表明语句越通顺。根据每个句子的困惑度,可以得到段落的混淆度值。比如,可以计算每个句子的困惑度的均值作为段落的混淆度,或者,可以对各个句子的困惑度进行加权求和得到段落的混淆度,本申请对此不作限制。
段落中各个句子的搭配异常情况,可以将各个句子的困惑度与预设的困惑度阈值进行比较,将困惑度大于困惑度阈值的句子确定为异常句,并计算段落包含的异常句在整个段落中的占比,得到段落中各个句子的搭配异常情况。
接着,根据段落的搭配异常情况和段落的混淆度,可以确定段落的通顺度值,根据待检测文档中每个段落的通顺度值,即可确定但检测文档的通顺度值。
作为一种示例,可以对同一段落的搭配异常情况和段落的混淆度进行加权求和,得到段落的通顺度值。
作为一种示例,可以预先定义段落的通顺度值的计算公式,根据预定义的计算公式来计算获得段落的通顺度值。本示例中,段落的通顺度值的具体计算方式将在后续实施例中给出,为避免重复,此处不作详细说明。
进一步地,确定了待检测文档中各个段落的通顺度值之后,即可根据各个段落的通顺度值,确定待检测文档的通顺度值。比如,可以对各个段落的通顺度值进行加权求和,得到待检测文档的通顺度值。又比如,可以计算各个段落的通顺度值的均值,将所得的均值确定为待检测文档的通顺度值。
本实施例中,计算待检测文档的错误度值时,可以检测待检测文档中的语病、错别字等错误,其中,可检测的语病错误涉及写作中常犯的错误,包括成分残缺、搭配不当、重复赘余等,错别字检测则侧重于对易错字和易混字以及形近字的检测。通过检测待检测文档中的语病错误和错别字错误,可以确定待检测文档的错误度值。
作为一种示例,可以预先训练得到用于对待检测文档进行错误检测的错误检测模型,错误检测模型能够检测出待检测文档包含的错误类型以及对应错误类型的得分,根据检测出的错误类型的得分,即可确定待检测文档的错误度值。
作为一种示例,可以预先训练得到用于对待检测文档进行错误检测的错误检测模型,错误检测模型能够检测出待检测文档包含的错误类型,并预先针对每种错误类型设置对应的分数值,进而,利用错误检测模型检测出待检测文档中存在的错误类型之后,根据预先设置的各个错误类型对应分数值,通过求和的方式可以确定出待检测文档的错误度值。
需要说明的是,步骤102和步骤103的执行顺序不分先后,两者可以同时执行,也可以顺序执行,本实施例仅以步骤103在步骤102之后执行作为示例来解释说明本申请,而不能作为对本申请的限制。
步骤104,根据待检测文档的优美度值、通顺度值和错误度值生成待检测文档的流畅度值。
本实施例中,获取了待检测文档的优美度值、通顺度值和错误度值之后,可以根据获取的优美度值、通顺度值和错误度值,确定待检测文档的流畅度值。
作为一种示例,可以根据语言表达的优美度、通顺度和错误度对于语言表达流畅的影响程度,预先为优美度、通顺度和错误度分配预设的权重,其中,优美度、通顺度和错误度的权重之和为1。进而,在获取了待检测文档的优美度值、通顺度值和错误度值之后,根据预设的权重对待检测文档的优美度值、通顺度值和错误度值进行加权求和计算,得到待检测文档的流畅度值。
本实施例的文档流畅度的检测方法,通过获取待检测文档,并计算待检测文档的优美度值、通顺度值和错误度值,进而根据待检测文档的优美度值、通顺度值和错误度值生成待检测文档的流畅度值,由此,实现了文档优美度、通顺度和错误度的自动检测,从而实现了文档流畅度的检测。并且,当应用于作文评阅时,实现了作文的自动评阅,能够从优美度、通顺度和错误度多个方面对作文进行评分,相较于基于教师人工对作文进行打分的方式,能够节省人力和时间,提高作文审阅效率,且评阅标准统一,能够提高作文评分的准确率。
语句中的美感可以在用词、断句、情感色彩等方面中体现,为了准确地检测待识别文档的优美度值,在本申请实施例一种可能的实现方式中,可以从不同角度获取待识别文档的特征来计算待识别文档的优美度值。下面结合附图2进行详细说明。
图2是根据本申请第二实施例的文档流畅度的检测方法的流程示意图。如图2所示,在如图1所示实施例的基础上,步骤102可以包括以下步骤:
步骤201,对待检测文档进行切分以形成多个子句。
作为一种示例,对于获取的待检测文档,可以根据逗号“,”、分号“;”等分句符号,将待检测文档切分为多个子句。
步骤202,获取多个子句的主体结构特征。
其中,主体结构特征可以由句子中主谓宾之间的相关性以及词性搭配组成。
本实施例中,对于切分得到的每个子句,可以利用自然语言处理中的依存分析工具对子句进行依存句法分析,依存分析工具利用句子中词与词之间的依存关系来表示词语的句法结构信息,比如主谓宾、定状补等结构信息,用于获取句子的结构信息。
举例而言,图3是对句子进行依存句法分析的示例图。如图3所示,对于句子“会议宣布了首批资深院士名单”,经过依存分析工具进行分析后,可以确定该句子的核心是“宣布”,“会议”与“宣布”构成主谓关系,“宣布”与“名单”构成动宾关系,“首批”与“院士”、“资深”与“院士”、“院士”与“名单”之间均为定中关系。
对于子句的主体结构,可以计算主谓宾词之间的相关性以及词性搭配组成主体结构特征。其中,主谓宾之间的相关性可以采用词粒度的语言模型n-gram模型计算,具体地,采用n-gram语言模型计算主谓宾搭配的语言混淆度(preplexity,ppl)。其中,n-gram语言模型的训练语料可以是收集的大量的文章语料,比如,训练语料可以是两千万左右的文章语料,仅从大量的文章语料中提取主谓宾主干成分作为训练数据对n-gram语言模型进行训练。计算各个子句中第j个子句的主谓宾相关性,可以采用如下公式(1)计算得到。
Figure BDA0002539755480000071
其中,simj表示第j个子句的主谓宾相关性,pplmax表示所有子句的语言混淆度中的最大值,pplj表示第j个子句中的语言混淆度值。
进而,根据第j个子句中主谓宾相关性以及词性搭配,可以组成得到第j个句子的主体结构特征。
仍以图3所示的例子为例,提取的主谓宾分别为会议、宣布、名单,则计算“会议宣布名单”的语言混淆度,并根据语言混淆度计算会议宣布名单之间的主谓宾相关性,将计算得到的主谓宾相关性、主谓宾成分在句子“会议宣布了首批资深院士名单”中的位置和利用依存分析模型得到的每个成分的置信度,确定为该句子的主体结构特征。
对于每个子句均采用上述过程进行分析,即可确定每个子句的主体结构特征。
步骤203,获取多个子句的基础语句特征。
本实施例中,对于每个子句,可以获取子句中出现的词性、命名实体作为该子句的基础语句特征。
步骤204,根据多个子句的主体结构特征和基础语句特征生成待检测文档的优美度值。
本实施例中,获取了多个子句的主体结构特征和基础语句特征之后,可以根据多个子句的主体结构特征和基础语句特征,生成待检测文档的优美度值。
作为一种可能的实现方式,在获取了多个子句的主体结构特征和基础语句特征之后,可以采用拼接的方式将同一子句的主体结构特征和基础语句特征进行拼接,得到拼接后的特征,进而将拼接后的特征输入至预先训练好的优美句二分类器中,得到各个子句的优美句概率情况,进而根据各个子句的优美句概率情况,确定待检测文档的优美度值。比如,可以计算各个子句的优美句概率均值作为待检测文档的优美度值。
本实施例的文档流畅度的检测方法,通过对待检测文档进行切分以形成多个子句,并获取多个子句的主体结构特征和基础语句特征,进而根据多个子句的主体结构特征和基础语句特征生成待检测文档的优美度值,由此,在确定待检测文档的优美度时,不仅考虑了主谓宾搭配的恰当性这一客观指标,还考虑了基础语句特征这一底层特征,有利于提高优美度检测的准确性。
对于一个句子而言,其中除了包含主谓宾成分外,还包括一些修饰成分,比如定语、形容词等修饰词,语言修饰的合理性对于语句的优美度也存在着一定的影响。从而,在本申请实施例一种可能的实现方式中,还可以获取多个子句的修饰依赖特征,并在确定待检测文档的优美度值时,根据多个子句的主体结构特征、基础语句特征和修饰依赖特征生成待检测文档的优美度值。
其中,子句的修饰依赖特征可以根据形容词、副词等修饰词与所修饰成分之间的相关性确定,具体实现过程将在后续实施例中给出,此处不作详细描述。
在根据多个子句的主体结构特征、基础语句特征和修饰依赖特征生成待检测文档的优美度值时,可以先采用拼接的方式将同一子句的主体结构特征、基础语句特征和修饰依赖特征进行拼接,再将拼接后的特征输入至预先训练好的优美句二分类器中,得到各个子句的优美句概率情况,进而根据各个子句的优美句概率情况,确定待检测文档的优美度值。比如,可以计算各个子句的优美句概率均值作为待检测文档的优美度值。
通过获取多个子句的修饰依赖特征,根据多个子句的主体结构特征、基础语句特征和修饰依赖特征生成待检测文档的优美度值,由此,在句子的主体机构特征和基础语句特征的基础上,进一步考虑了语句修饰的合理性这一客观指标,提高了语言优美度检测的全面性,实现了从多个角度对待检测文档进行优美度评价。
句子之间的相关性也影响着语句的优美度,在本申请实施例一种可能的实现方式中,在获取多个子句的主体结构特征、基础语句特征和修饰依赖特征的基础上,还可以获取多个子句的子句相关性特征,进而根据多个子句的主体结构特征、基础语句特征、修饰依赖特征和子句相关性特征生成待检测文档的优美度值,下面结合附图4进行详细说明。
图4是根据本申请第三实施例的文档流畅度的检测方法的流程示意图,如图4所示,在如图1所示实施例的基础上,步骤102可以包括以下步骤:
步骤301,对待检测文档进行切分以形成多个子句。
步骤302,获取多个子句的主体结构特征。
步骤303,获取多个子句的基础语句特征。
本实施例中,对步骤301-步骤303的描述可以参见前述实施例中对步骤201-步骤203的描述,此处不再赘述。
步骤304,获取多个子句的修饰依赖特征。
对于子句中包含的形容词、副词、定语等修饰成分,比如,例句“会议宣布了首批资深院士名单”中,“首批资深院士”为修饰成分,可以计算修饰成分与所修饰成分之间的相关性,比如计算例句中修饰成分“首批资深院士”与所修饰成分“名单”之间的相关性,计算方式可以参见前述实施例中计算主谓宾相关性的计算方式。具体地,利用n-gram语言模型计算各个子句中修饰成分与所修饰成分搭配的语言混淆度ppl,进而根据上述公式(1)计算得到各个子句中修饰成分相关性,进而根据各个修饰成分相关性得到修饰依赖特征。
本申请实施例中,当子句中包含多个修饰成分时,比如既包含了形容词,又包含了副词,则可以分别计算各个修饰成分与所修饰成分之间的相关性得到多个修饰成分相关性,进而计算多个修饰成分相关性的平均值作为子句的修饰依赖特征,或者,选择最大的修饰成分相关性作为子句的修饰依赖特征。
步骤305,获取多个子句的子句特征。
步骤306,根据多个子句的子句特征生成多个子句之间的子句相关性特征。
本实施例中,对于切分的每个子句,可以获取各个子句的子句特征,其中,子句特征可以用子句之间的相关性表示。
作为一种可能的实现方式,可以采用基于卷积神经网络(Convolutional NeuralNetworks,CNN)的文本相似度模型来计算各个子句之间的相关性,其中,基于CNN的文本相似度模型是基于文本CNN(Text CNN)结构,采用百科亿级语料数据训练得到的。利用文本相似度模型计算得到各个子句之间的相关性,即得到各个子句的子句特征。
接着,根据多个子句的子句特征,可以生成多个子句之间的子句相关性特征。
作为一种示例,可以计算所有子句的子句特征的平均值,即计算所有子句的子句之间的相关性的平均值,作为多个子句之间的子句相关性特征。
需要说明的是,本实施例中,获取多个子句的各个特征的顺序不分先后,可以同时获取各个特征,也可以先后获取各个特征,本实施例仅以先后获取各特征作为示例来解释说明本申请,而不能作为对本申请的限制。
通过获取多个子句的子句特征进而获取多个子句之间的子句相关性特征,为优美度检测时考虑句子之间的相关性提供了条件,有利于提高优美度检测的准确性。
步骤307,将多个子句的主体结构特征、基础语句特征、修饰依赖特征和子句相关性特征进行拼接以生成输入特征。
语句是否优美不仅包含客观的语句主谓宾搭配是否恰当、语句修饰是否合理,还包括用词语言美感等主观感受,因此本实施例中,在获取子句的特征时,既获取了主体结构特征和修饰依赖特征这两个描述客观指标的特征,还获取了语句的基础语句特征和子句相关性特征,接着,采用拼接的方式将获取的同一子句的主体结构特征、基础语句特征、修饰依赖特征和子句相关性特征进行特征组合,得到各个子句对应的输入特征。
步骤308,将输入特征输入至随机森林模型以生成待检测文档的优美度值。
本实施例中,获取了输入特征后,可以将输入特征输入至随机森林模型中,生成待检测文档的优美度值。
其中,随机森林模型的训练样本可以是中小学作文标注数据、网络文章标注数据等,标注出训练样本中的语句是否是优美句,优美句的标准和标注结果可以由语文教师进行标注和校准,产生大量的有效标注语句样本对随机森林模型进行训练,进而将待检测文档包含的各个子句对应的输入特征输入至训练好的随机森林模型中,得到待检测文档的优美度值。
在本申请实施例一种可能的实现方式中,随机森林模型还可以输出各个输入特征对应的子句属于优美句或普通句的概率,再通过统计待检测文档中包含的优美句数量占总句子数的比值,得到待检测文档的优美度值。
图5是根据多个特征进行优美度检测的过程示例图。如图5所示,根据句子中的主语、谓语和宾语生成主体结构特征,根据形容词、副词等修饰词生成句子的修饰依赖特征,根据句子中出现的词性、命名实体生成基础语句特征,并根据子句之间的关系(图5中以子句1和子句2为例)生成子句相关性特征,进而将各个特征进行组合后输入至随机森林模型中,得到优美句或普通句的检测结果。
本实施例的文档流畅度的检测方法,通过获取待检测文档中多个子句的主体结构特征、基础语句特征、修饰依赖特征和子句相关性特征,并将多个子句的主体结构特征、基础语句特征、修饰依赖特征和子句相关性特征进行拼接以生成输入特征,进而将输入特征输入至随机森林模型以生成待检测文档的优美度值,由此,在对文档进行优美度评价时,考虑了主谓宾搭配、修饰成分搭配、句子之间的相关性和基础语句特征多个方面,实现了优美度的多角度评价,有利于提高优美度评价的准确性。
图6是根据本申请第四实施例的文档流畅度的检测方法的流程示意图,如图6所示,在如图1所示实施例的基础上,步骤103中,计算待检测文档的通顺度值,可以通过以下步骤实现:
步骤401,获取待检测文档的每个段落。
步骤402,计算每个段落的段落混淆度值。
本实施例中,对于待检测文档中包含的每个段落,可以计算各个段落的段落混淆度值。
作为一种可能的实现方式,在计算每个段落的段落混淆度值时,可以先获取每个段落之中的多个句子,再分别计算多个句子的多个语言困惑度值,进而根据段落之中多个句子对应的多个语言困惑度值生成段落对应的段落混淆度值。
具体实现时,可以利用亿级文档大数据长句语料训练深度神经网络(Deep NeuralNetworks,DNN)语言模型,DNN语言模型语言计算长句的通顺度。利用DNN语言模型语言计算长句的通顺度时,具体利用DNN语言模型语言计算长句的语言困惑度值,语言困惑度越小则语句越通顺。
本实施例中,利用DNN语言模型得到每个句子的语言困惑度值之后,可以进一步得到段落的段落混淆度值。
作为一种示例,可以计算段落中每个句子对应的语言困惑度值的平均值,将所得平均值作为该段落的段落混淆度值。
或者,作为一种示例,可以比较段落中每个句子对应的语言困惑度值的大小,将语言困惑度值的最大值作为该段落的段落混淆度值。
通过获取每个段落之中的多个句子,再分别计算多个句子的多个语言困惑度值,进而根据段落之中多个句子对应的多个语言困惑度值生成段落对应的段落混淆度值,由此,实现了待检测文档中每个段落对应的段落通顺度的检测,为检测待检测文档的通顺度奠定了基础。
步骤403,计算每个段落的短句搭配异常值。
本实施例中,对于待检测文档中包含的每个段落,还可以计算各个段落中的短句搭配异常值。
在本申请实施例一种可能的实现方式中,在计算每个段落的短句搭配异常值时,可以先获取每个段落之中的句子,再获取句子之中的多个短句,计算多个短句之间的搭配度值,并将多个短句之间的搭配度值分别与预设困惑度阈值进行比较,如果多个短句之间的搭配度值大于预设困惑度阈值,则将句子标记为异常句子,进而获取每个段落之中异常句子的数量,并根据异常句子的数量生成短句搭配异常值。
其中,预设困惑度阈值可以根据经验或实际需求设定,也可以通过样本确定。当根据样本确定时,可以一定数量的通顺情况较差的句子作为样本并由专家人员进行标注,确定预设困惑度阈值。
本实施例中,多个短句之间的搭配度值可以通过n-gram语言模型确定,搭配度值可以用n-gram语言模型输出的困惑度值表示。
具体实现时,可以通过爬虫技术得到万级作文短语料数据作为训练数据,训练n-gram语言模型,利用n-gram语言模型检测各个短句和搭配,计算各个短句和搭配的困惑度值来表示短句和搭配之间的搭配度值。
本实施例中,利用n-gram语言模型得到多个短句之间的搭配度值之后,可以将多个短句之间的搭配度值与预设困惑度阈值进行比较,当句子中多个短句之间的搭配度值大于预设困惑度阈值时,则将该句子标记为异常句子,统计段落中包含的异常句子的数量,并计算一个段落中包含的异常句子的数量占该段落中句子总数量的比值,得到该段落的短句搭配异常值。
通过获取段落中句子包含的多个短句,并计算多个短句之间的搭配度值,当多个短句之间的搭配度值大于预设困惑度阈值时,将句子标记为异常句子,进而根据每个段落之中异常句子的数量生成短句搭配异常值,由此,实现了对段落中异常搭配的短句的检测,通过确定段落的短句搭配异常值,为检测待检测文档的通顺度奠定了基础。
需要说明的是,本实施例中,步骤402和步骤403的执行顺序不分先后,本实施例仅以步骤403在步骤402之后执行作为示例来解释说明本申请,而不能作为对本申请的限制。
步骤404,根据每个段落的段落混淆度值和短句搭配异常值生成每个段落的通顺度值。
本实施例中,确定了待检测文档中每个段落的段落混淆度值和短句搭配异常值之后,可以根据每个段落的段落混淆度值和短句搭配异常值生成每个段落的通顺度值。
作为一种可能的实现方式,可以通过如下公式(2)生成段落的通顺度值。
Figure BDA0002539755480000121
其中,Pi表示第i个段落的通顺度值,epi为第i个段落的短句搭配异常值,pplmax为第i个段落之中多个语言困惑度值之中的最大值,ppli为第i个段落的段落混淆度值。
通过利用预设的公式来计算每个段落的通顺度值,为通顺度值的计算提供了统一的计算标准,有利于保证通顺度值计算的准确性。
步骤405,根据每个段落的通顺度值生成待检测文档的通顺度值。
本实施例中,确定了待检测文档中每个段落的通顺度值之后,可以进一步得到待检测文档的通顺度值。比如,可以计算各个段落的通顺度值的均值,将所得的均值确定为待检测文档的通顺度值。
本实施例的文档流畅度的检测,通过计算待检测文档中每个段落的段落混淆度值,以及计算每个段落的短句搭配异常值,进而根据每个段落的段落混淆度值和短句搭配异常值生成每个段落的通顺度值,再根据每个段落的通顺度值生成待检测文档的通顺度值,由此,实现了待检测文档的通顺度检测,在检测通顺度时,既考虑了句子的通顺度,又考虑了句子中短句间的搭配度,从而能够提高通顺度检测的准确性。
文档中字词的错误、语病等也影响着文档的评分,从而,在本申请实施例一种可能的实现方式中,还可以根据待检测文档包含的错误类型来确定待检测文档的错误度值,以提高待检测文档评分的准确性。下面结合附图7进行详细说明。
图7是根据本申请第五实施例的文档流畅度的检测方法的流程示意图,如图7所示,在如图1所示实施例的基础上,步骤103中,计算待检测文档的错误度值,可以通过以下步骤实现:
步骤501,获取待检测文档之中每个句子的错误类型,其中,错误类型包括错别字错误和搭配错误。
其中,错别字错别的检测比如可以侧重于检测待检测文档中的易错字、易混字、形近字等;搭配错误可以指待检测文档中包含的语病,包括但不限于成分残缺、搭配不当、重复赘余等。
作为一种可能的实现方式,本实施例中,获取待检测文档中每个句子的错误类型时,可以通过预先训练的错误检测模型进行检测。图8是错误检测模型的网络结构示例图。如图8所示,该错误检测模型包括特征层、双向长短期记忆网络(Long Short-Term Memory,LSTM)层和条件随机场(Conditional Random Fields,CRF)层,其中,特征层由知识增强语义表示模型(Enhanced Representation from kNowledge IntEgration,ERNIE)和依存分析模型组成。
利用图8所示的错误检测模型,以例句“我们都是一家人”为例,将该例句输入至错误检测模型中,先经过特征层得到嵌入特征,具体地,利用ERNIE模型进行词嵌入,ERNIE模型加入了分词实体识别,学习了词与实体的表达,采用ERNIE模型最后四层的权值向量进行拼接作为动态语义特征。利用依存分析模型对例句进行标注得到例句语法结构方面的特征,其中,依存分析模型利用句子中词与词之间的依存关系来表示词语的句法结构信息,比如主谓宾、定状补等结构关系,用于获取句子的结构信息。进而将语法结构方面的离散特征进行连续化得到词粒度的嵌入,与语义特征的字粒度嵌入进行拼接,得到句子的嵌入特征。接着,将句子的嵌入特征输入至双向LSTM层,采用双向LSTM学习上下文。接着,将双向LSTM层的输出输入至CRF层,采用条件随机场进行错误类型标注,输出句子存在的错误类型。
本实施例中,利用图8所示的错误检测模型,可以获取待检测文档中每个句子的错误类型。
步骤502,根据每个句子的错误类型生成待检测文档的错误度值。
本实施例中,获取了待检测文档中每个句子的错误类型之后,可以根据每个句子的错误类型,生成待检测文档的错误度值。
作为一种示例,可以预先针对每种错误类型设置对应的分数值,进而,获取了待检测文档中每个句子的错误类型之后,根据预先设置的各个错误类型对应的分数值,通过求和的方式可以确定出待检测文档的错误度值。
本实施例的文档流畅度的检测方法,通过获取待检测文档之中每个句子的错误类型,并根据每个句子的错误类型生成待检测文档的错误度值,由此,实现了待检测文档的错误检测,能够检测出待检测文档中存在的错别字错误和搭配错误,有利于提高待检测文档的评分的准确性。
进一步地,在本申请实施例一种可能的实现方式中,如图7所示,在获取了待检测文档之中每个句子的错误类型之后,还可以包括以下步骤:
步骤503,根据错误类型判断是否属于可纠正错误类型。
其中,可纠正错误类型可以预设设定,比如可纠正错误类型可以包括错别字错误、关联词搭配错误等。
步骤504,如果属于可纠正错误类型,则获取对应的纠正结果并进行提示。
本实施例中,获取了待检测文档中每个句子的错误类型之后,可以将获取的错误类型与可纠正错误类型进行比对,判断待检测文档中是否存在可纠正错误类型。当某个句子的错误类型属于可纠正错误类型时,则获取对应的纠正结果并进行提示,以提醒用户正确的字词或搭配,从而有助于帮助用户改正错误,提高写作水平。
实际应用中,可以根据专家知识和爬虫获取的语料数据准备常见易错字对照字典,以及形近字字典、固定搭配字典,并利用这些字典数据生成混淆字典,混淆字典中每个待纠错的字词对应一个混淆列表,该混淆列表为纠错模型的候选集。针对检测到的错误类型和错误所在的位置,提取上下文作为短句,提取整句作为长句,对错误位置的字词进行混淆字典的候选结果替换,对短句和长句的替换结果分别利用语言模型计算混淆度,将使得混淆度最小的候选纠错结果确定为最终的纠错结果并提示给用户。
本实施例的文档流畅度的检测方法,通过在错误类型属于可纠正错误类型时,获取对应的纠正结果并进行提示,由此,能够帮助用户纠正错误,提高用户的写作水平。
根据本申请的实施例,本申请还提供了一种文档流畅度的检测装置。
需要说明的是,实际应用中,可以通过云计算平台实现本申请提供的文档流畅度的检测方法。云计算平台上可以部署优美句二分类器、DNN语言模型、n-gram模型等模型,通过云计算平台对待检测文档进行处理,得到待检测文档的流畅度值。
图9是根据本申请第六实施例的文档流畅度的检测装置的结构示意图。如图9所示,该文档流畅度的检测装置60包括:获取模块610、第一计算模块620、第二计算模块630、第三计算模块640以及生成模块650。
其中,获取模块610,用于获取待检测文档。
第一计算模块620,用于计算所述待检测文档的优美度值。
第二计算模块630,用于计算所述待检测文档的通顺度值。
第三计算模块640,用于计算所述待检测文档的错误度值。
生成模块650,用于根据所述待检测文档的优美度值、所述通顺度值和所述错误度值生成所述待检测文档的流畅度值。
在本申请实施例一种可能的实现方式中,如图10所示,在如图9所示实施例的基础上,第一计算模块620,包括:
切分单元621,用于对所述待检测文档进行切分以形成多个子句;
第一获取单元622,用于获取所述多个子句的主体结构特征;
第二获取单元623,用于获取所述多个子句的基础语句特征;以及
第一生成单元624,用于根据所述多个子句的主体结构特征和基础语句特征生成所述待检测文档的优美度值。
进一步地,在本申请实施例一种可能的实现方式中,如图11所示,在如图10所示实施例的基础上,第一计算模块620,还包括:
第三获取单元625,用于获取所述多个子句的修饰依赖特征;
本实施例中,第一生成单元624还用于根据所述多个子句的主体结构特征、所述基础语句特征和所述修饰依赖特征生成所述待检测文档的优美度值。
在本申请实施例一种可能的实现方式中,如图11所示,第一计算模块620,还包括:
第四获取单元626,用于获取所述多个子句的子句特征;
确定单元627,用于根据所述多个子句的子句特征生成所述多个子句之间的子句相关性特征;
本实施例中,第一生成单元624还用于根据所述多个子句的主体结构特征、所述基础语句特征、所述修饰依赖特征和所述子句相关性特征生成所述待检测文档的优美度值。
作为一种可能的实现方式,第一生成单元624将所述多个子句的主体结构特征、所述基础语句特征、所述修饰依赖特征和所述子句相关性特征进行拼接以生成输入特征,并将所述输入特征输入至随机森林模型以生成所述待检测文档的优美度值。
在本申请实施例一种可能的实现方式中,如图12所示,在如图9所示实施例的基础上,第二计算模块630,包括:
第五获取单元631,用于获取所述待检测文档的每个段落。
第一计算单元632,用于计算所述每个段落的段落混淆度值。
作为一种可能的实现方式,第一计算单元632获取所述每个段落之中的多个句子,分别计算所述多个句子的多个语言困惑度值,并根据所述段落之中所述多个句子对应的多个语言困惑度值生成所述段落对应的段落混淆度值。
第二计算单元633,用于计算所述每个段落的短句搭配异常值。
作为一种可能的实现方式,第二计算单元633获取所述每个段落之中的句子,并获取所述句子之中的多个短句,计算所述多个短句之间的搭配度值,如果所述多个短句之间的搭配度值大于预设困惑度阈值,则将所述句子标记为异常句子,并获取所述每个段落之中异常句子的数量,根据所述异常句子的数量生成所述短句搭配异常值。
第二生成单元634,用于根据所述每个段落的段落混淆度值和所述短句搭配异常值生成所述每个段落的通顺度值。
作为一种可能的实现方式,第二生成单元通过以下公式生成所述段落的通顺度值:
Figure BDA0002539755480000161
其中,epi为第i个段落的所述短句搭配异常值,pplmax为所述第i个段落之中所述多个语言困惑度值之中的最大值,ppli为所述第i个段落的段落混淆度值。
第三生成单元635,用于根据所述每个段落的通顺度值生成所述待检测文档的通顺度值。
在本申请实施例一种可能的实现方式中,如图13所示,在如图9所示实施例的基础上,第三计算模块640,包括:
第六获取单元641,用于获取所述待检测文档之中每个句子的错误类型,其中,所述错误类型包括错别字错误和搭配错误。
第四生成单元642,用于根据所述每个句子的错误类型生成所述待检测文档的错误度值。
进一步地,如图13所示,该文档流畅度的检测装置60还包括:
判断模块660,用于根据所述错误类型判断是否属于可纠正错误类型。
纠正模块670,用于当所述错误类型属于所述可纠正错误类型时,获取对应的纠正结果并进行提示。
需要说明的是,前述对文档流畅度的检测方法实施例的解释说明,也适用于该实施例的文档流畅度的检测装置,其实现原理类似,此处不再赘述。
本申请实施例的文档流畅度的检测装置,通过获取待检测文档,并计算待检测文档的优美度值、通顺度值和错误度值,进而根据待检测文档的优美度值、通顺度值和错误度值生成待检测文档的流畅度值,由此,实现了文档优美度、通顺度和错误度的自动检测,从而实现了文档流畅度的检测。并且,当应用于作文评阅时,实现了作文的自动评阅,能够从优美度、通顺度和错误度多个方面对作文进行评分,相较于基于教师人工对作文进行打分的方式,能够节省人力和时间,提高作文审阅效率,且评阅标准统一,能够提高作文评分的准确率。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图14所示,是用来实现本申请实施例的文档流畅度的检测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图14所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图14中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文档流畅度的检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文档流畅度的检测方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文档流畅度的检测方法对应的程序指令/模块(例如,附图9所示的获取模块610、第一计算模块620、第二计算模块630、第三计算模块640以及生成模块650)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文档流畅度的检测方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据执行文档流畅度的检测方法的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至执行文档流畅度的检测方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
执行文档流畅度的检测方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图14中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与执行文档流畅度的检测方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过计算待检测文档的优美度值、通顺度值和错误度值,进而根据计算得到的优美度值、通顺度值和错误度值,生成待检测文档的流畅度值,由此,实现了文档优美度、通顺度和错误度的自动检测,从而实现了文档流畅度的检测;并且,应用于作文评阅时,实现了作文的自动评阅,能够从优美度、通顺度和错误度多个方面对作文进行评分,相较于基于教师人工对作文进行打分的方式,能够节省人力和时间,提高作文审阅效率,且评阅标准统一,能够提高作文评分的准确率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (24)

1.一种文档流畅度的检测方法,包括:
获取待检测文档;
计算所述待检测文档的优美度值;
计算所述待检测文档的通顺度值和错误度值;以及
根据所述待检测文档的优美度值、所述通顺度值和所述错误度值生成所述待检测文档的流畅度值。
2.如权利要求1所述的文档流畅度的检测方法,其中,所述计算所述待检测文档的优美度值,包括:
对所述待检测文档进行切分以形成多个子句;
获取所述多个子句的主体结构特征;
获取所述多个子句的基础语句特征;以及
根据所述多个子句的主体结构特征和基础语句特征生成所述待检测文档的优美度值。
3.如权利要求2所述的文档流畅度的检测方法,其中,还包括:
获取所述多个子句的修饰依赖特征,其中,根据所述多个子句的主体结构特征、所述基础语句特征和所述修饰依赖特征生成所述待检测文档的优美度值。
4.如权利要求3所述的文档流畅度的检测方法,其中,还包括:
获取所述多个子句的子句特征;
根据所述多个子句的子句特征生成所述多个子句之间的子句相关性特征,其中,根据所述多个子句的主体结构特征、所述基础语句特征、所述修饰依赖特征和所述子句相关性特征生成所述待检测文档的优美度值。
5.如权利要求4所述的文档流畅度的检测方法,其中,所述根据所述多个子句的主体结构特征、所述基础语句特征、所述修饰依赖特征和所述子句相关性特征生成所述待检测文档的优美度值,包括:
将所述多个子句的主体结构特征、所述基础语句特征、所述修饰依赖特征和所述子句相关性特征进行拼接以生成输入特征;以及
将所述输入特征输入至随机森林模型以生成所述待检测文档的优美度值。
6.如权利要求1所述的文档流畅度的检测方法,其中,所述计算所述待检测文档的通顺度值,包括:
获取所述待检测文档的每个段落;
计算所述每个段落的段落混淆度值;
计算所述每个段落的短句搭配异常值;
根据所述每个段落的段落混淆度值和所述短句搭配异常值生成所述每个段落的通顺度值;以及
根据所述每个段落的通顺度值生成所述待检测文档的通顺度值。
7.如权利要求6所述的文档流畅度的检测方法,其中,所述计算所述每个段落的短句搭配异常值,包括:
获取所述每个段落之中的句子;
获取所述句子之中的多个短句;
计算所述多个短句之间的搭配度值;
如果所述多个短句之间的搭配度值大于预设困惑度阈值,则将所述句子标记为异常句子;以及
获取所述每个段落之中异常句子的数量,并根据所述异常句子的数量生成所述短句搭配异常值。
8.如权利要求6所述的文档流畅度的检测方法,其中,所述计算所述每个段落的段落混淆度值,包括:
获取所述每个段落之中的多个句子;
分别计算所述多个句子的多个语言困惑度值;以及
根据所述段落之中所述多个句子对应的多个语言困惑度值生成所述段落对应的段落混淆度值。
9.如权利要求6所述的文档流畅度的检测方法,其中,通过以下公式生成所述段落的通顺度值:
Figure FDA0002539755470000021
其中,epi为第i个段落的所述短句搭配异常值,pplmax为所述第i个段落之中所述多个语言困惑度值之中的最大值,ppli为所述第i个段落的段落混淆度值。
10.如权利要求1所述的文档流畅度的检测方法,其中,所述计算所述待检测文档的错误度值,包括:
获取所述待检测文档之中每个句子的错误类型,其中,所述错误类型包括错别字错误和搭配错误;以及
根据所述每个句子的错误类型生成所述待检测文档的错误度值。
11.如权利要求10所述的文档流畅度的检测方法,其中,在所述获取所述待检测文档之中每个句子的错误类型之后,还包括:
根据所述错误类型判断是否属于可纠正错误类型;以及
如果属于所述可纠正错误类型,则获取对应的纠正结果并进行提示。
12.一种文档流畅度的检测装置,包括:
获取模块,用于获取待检测文档;
第一计算模块,用于计算所述待检测文档的优美度值;
第二计算模块,用于计算所述待检测文档的通顺度值;
第三计算模块,用于计算所述待检测文档的错误度值;以及
生成模块,用于根据所述待检测文档的优美度值、所述通顺度值和所述错误度值生成所述待检测文档的流畅度值。
13.如权利要求12所述的文档流畅度的检测装置,其中,所述第一计算模块,包括:
切分单元,用于对所述待检测文档进行切分以形成多个子句;
第一获取单元,用于获取所述多个子句的主体结构特征;
第二获取单元,用于获取所述多个子句的基础语句特征;以及
第一生成单元,用于根据所述多个子句的主体结构特征和基础语句特征生成所述待检测文档的优美度值。
14.如权利要求13所述的文档流畅度的检测装置,其中,所述第一计算模块,还包括:
第三获取单元,用于获取所述多个子句的修饰依赖特征;
所述第一生成单元,还用于根据所述多个子句的主体结构特征、所述基础语句特征和所述修饰依赖特征生成所述待检测文档的优美度值。
15.如权利要求14所述的文档流畅度的检测装置,其中,所述第一计算模块,还包括:
第四获取单元,用于获取所述多个子句的子句特征;
确定单元,用于根据所述多个子句的子句特征生成所述多个子句之间的子句相关性特征;
所述第一生成单元,还用于根据所述多个子句的主体结构特征、所述基础语句特征、所述修饰依赖特征和所述子句相关性特征生成所述待检测文档的优美度值。
16.如权利要求12所述的文档流畅度的检测装置,其中,所述第一生成单元将所述多个子句的主体结构特征、所述基础语句特征、所述修饰依赖特征和所述子句相关性特征进行拼接以生成输入特征,并将所述输入特征输入至随机森林模型以生成所述待检测文档的优美度值。
17.如权利要求12所述的文档流畅度的检测装置,其中,所述第二计算模块,包括:
第五获取单元,用于获取所述待检测文档的每个段落;
第一计算单元,用于计算所述每个段落的段落混淆度值;
第二计算单元,用于计算所述每个段落的短句搭配异常值;
第二生成单元,用于根据所述每个段落的段落混淆度值和所述短句搭配异常值生成所述每个段落的通顺度值;以及
第三生成单元,用于根据所述每个段落的通顺度值生成所述待检测文档的通顺度值。
18.如权利要求17所述的文档流畅度的检测装置,其中,所述第二计算单元获取所述每个段落之中的句子,并获取所述句子之中的多个短句,计算所述多个短句之间的搭配度值,如果所述多个短句之间的搭配度值大于预设困惑度阈值,则将所述句子标记为异常句子,并获取所述每个段落之中异常句子的数量,根据所述异常句子的数量生成所述短句搭配异常值。
19.如权利要求17所述的文档流畅度的检测装置,其中,所述第一计算单元获取所述每个段落之中的多个句子,分别计算所述多个句子的多个语言困惑度值,并根据所述段落之中所述多个句子对应的多个语言困惑度值生成所述段落对应的段落混淆度值。
20.如权利要求17所述的文档流畅度的检测装置,其中,所述第二生成单元通过以下公式生成所述段落的通顺度值:
Figure FDA0002539755470000051
其中,epi为第i个段落的所述短句搭配异常值,pplmax为所述第i个段落之中所述多个语言困惑度值之中的最大值,ppli为所述第i个段落的段落混淆度值。
21.如权利要求12所述的文档流畅度的检测装置,其中,所述第三计算模块,包括:
第六获取单元,用于获取所述待检测文档之中每个句子的错误类型,其中,所述错误类型包括错别字错误和搭配错误;以及
第四生成单元,用于根据所述每个句子的错误类型生成所述待检测文档的错误度值。
22.如权利要求21所述的文档流畅度的检测装置,其中,所述装置还包括:
判断模块,用于根据所述错误类型判断是否属于可纠正错误类型;以及
纠正模块,用于当所述错误类型属于所述可纠正错误类型时,获取对应的纠正结果并进行提示。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的文档流畅度的检测方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的文档流畅度的检测方法。
CN202010543222.3A 2020-06-15 2020-06-15 文档流畅度的检测方法、装置、电子设备及介质 Active CN111832278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010543222.3A CN111832278B (zh) 2020-06-15 2020-06-15 文档流畅度的检测方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010543222.3A CN111832278B (zh) 2020-06-15 2020-06-15 文档流畅度的检测方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN111832278A true CN111832278A (zh) 2020-10-27
CN111832278B CN111832278B (zh) 2024-02-09

Family

ID=72898782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010543222.3A Active CN111832278B (zh) 2020-06-15 2020-06-15 文档流畅度的检测方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN111832278B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527968A (zh) * 2020-12-22 2021-03-19 大唐融合通信股份有限公司 一种基于神经网络的作文评阅方法和***
CN113011164A (zh) * 2021-03-17 2021-06-22 平安科技(深圳)有限公司 数据质量检测方法、装置、电子设备及介质
CN113435179A (zh) * 2021-06-24 2021-09-24 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
WO2022174495A1 (zh) * 2021-02-19 2022-08-25 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831558A (zh) * 2012-07-20 2012-12-19 桂林电子科技大学 不依赖人工预评分的大学英语作文自动评分***及方法
KR20140060379A (ko) * 2012-10-25 2014-05-20 에스케이텔레콤 주식회사 문장타입 분류에 의한 작문 평가 장치 및 방법
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
CN107797981A (zh) * 2016-08-31 2018-03-13 科大讯飞股份有限公司 一种目标文本识别方法及装置
CN108764074A (zh) * 2018-05-14 2018-11-06 山东师范大学 基于深度学习的主观题智能阅卷方法、***及存储介质
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法
CN109190108A (zh) * 2018-07-20 2019-01-11 北京理琪教育科技有限公司 语文作文自动批改方法和***
CN110489743A (zh) * 2019-07-22 2019-11-22 联想(北京)有限公司 一种信息处理方法、电子设备和存储介质
CN110826329A (zh) * 2019-11-13 2020-02-21 创意信息技术股份有限公司 一种基于困惑度的自动作文评分方法
CN110826298A (zh) * 2019-11-13 2020-02-21 北京万里红科技股份有限公司 一种智能辅助定密***中使用的语句编码方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831558A (zh) * 2012-07-20 2012-12-19 桂林电子科技大学 不依赖人工预评分的大学英语作文自动评分***及方法
KR20140060379A (ko) * 2012-10-25 2014-05-20 에스케이텔레콤 주식회사 문장타입 분류에 의한 작문 평가 장치 및 방법
CN107797981A (zh) * 2016-08-31 2018-03-13 科大讯飞股份有限公司 一种目标文本识别方法及装置
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
CN108764074A (zh) * 2018-05-14 2018-11-06 山东师范大学 基于深度学习的主观题智能阅卷方法、***及存储介质
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法
CN109190108A (zh) * 2018-07-20 2019-01-11 北京理琪教育科技有限公司 语文作文自动批改方法和***
CN110489743A (zh) * 2019-07-22 2019-11-22 联想(北京)有限公司 一种信息处理方法、电子设备和存储介质
CN110826329A (zh) * 2019-11-13 2020-02-21 创意信息技术股份有限公司 一种基于困惑度的自动作文评分方法
CN110826298A (zh) * 2019-11-13 2020-02-21 北京万里红科技股份有限公司 一种智能辅助定密***中使用的语句编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张翠翠;周国祥;俞磊;石雷;王青青;: "基于MVC的试卷生成及主观题判卷算法研究", ***仿真学报, no. 01 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527968A (zh) * 2020-12-22 2021-03-19 大唐融合通信股份有限公司 一种基于神经网络的作文评阅方法和***
WO2022174495A1 (zh) * 2021-02-19 2022-08-25 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质
CN113011164A (zh) * 2021-03-17 2021-06-22 平安科技(深圳)有限公司 数据质量检测方法、装置、电子设备及介质
CN113011164B (zh) * 2021-03-17 2023-10-20 平安科技(深圳)有限公司 数据质量检测方法、装置、电子设备及介质
CN113435179A (zh) * 2021-06-24 2021-09-24 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113435179B (zh) * 2021-06-24 2024-04-30 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111832278B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN111832278B (zh) 文档流畅度的检测方法、装置、电子设备及介质
Councill et al. What’s great and what’s not: learning to classify the scope of negation for improved sentiment analysis
CN110852087A (zh) 中文纠错方法和装置、存储介质及电子装置
US10496756B2 (en) Sentence creation system
US20130179169A1 (en) Chinese text readability assessing system and method
CN111310440B (zh) 文本的纠错方法、装置和***
CN103154936A (zh) 用于自动化文本校正的方法和***
KR20080021017A (ko) 텍스트 기반의 문서 비교
Zaninello et al. Multiword expression aware neural machine translation
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
RU2665261C1 (ru) Восстановление текстовых аннотаций, связанных с информационными объектами
Chang et al. Error diagnosis of Chinese sentences using inductive learning algorithm and decomposition-based testing mechanism
CN111832281A (zh) 作文评分方法、装置、计算机设备及计算机可读存储介质
Dascălu et al. Towards an integrated approach for evaluating textual complexity for learning purposes
KR102251554B1 (ko) 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법
CN112597768B (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN112599129A (zh) 语音识别方法、装置、设备和存储介质
Samuel et al. The dark side of sentiment analysis: An exploratory review using lexicons, dictionaries, and a statistical monkey and chimp
CN112395873B (zh) 对白角色标注模型的生成方法、装置及电子设备
CN114330285A (zh) 语料处理方法、装置、电子设备及计算机可读存储介质
Jeyasheeli et al. Sentence Generation for Indian Sign Language Using NLP.
Adewumi Vector representations of idioms in data-driven chatbots for robust assistance
CN116562278B (zh) 一种词语相似性检测方法及***
Alosaimy Ensemble Morphosyntactic Analyser for Classical Arabic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant