CN107797981B - 一种目标文本识别方法及装置 - Google Patents

一种目标文本识别方法及装置 Download PDF

Info

Publication number
CN107797981B
CN107797981B CN201610790466.5A CN201610790466A CN107797981B CN 107797981 B CN107797981 B CN 107797981B CN 201610790466 A CN201610790466 A CN 201610790466A CN 107797981 B CN107797981 B CN 107797981B
Authority
CN
China
Prior art keywords
text
sentence
target
value
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610790466.5A
Other languages
English (en)
Other versions
CN107797981A (zh
Inventor
施亮亮
付瑞吉
胡国平
宋巍
秦兵
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201610790466.5A priority Critical patent/CN107797981B/zh
Publication of CN107797981A publication Critical patent/CN107797981A/zh
Application granted granted Critical
Publication of CN107797981B publication Critical patent/CN107797981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种目标文本识别方法及装置,其中方法包括:获取待处理的文本,所述文本包含一条或多条自然语言语句;获取每条语句的特征值,其中所述特征值为所述语句是目标语句的概率;根据每条语句的特征值获取所述文本的预设指标值;根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别。本发明可自动评判一篇文本是否属于目标文本(例如优美文章),从而大大提高了目标文本的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。

Description

一种目标文本识别方法及装置
技术领域
本案涉及自然语言处理领域,尤其是一种目标文本识别方法及装置。
背景技术
人们在阅读各种文本(例如文章、学生的作文或其他文本内容)时,往往会有判断当前文本是否属于目标文本(例如优美文章)的需求。现有的目标文本识别方法一般是依靠人工对文章进行阅读,例如老师逐一阅读学生的作文,然后再判断该文章是否属于目标文章。
然而,发明人在实现本发明的过程中发现,随着信息技术的飞速发展,教育行业也开始步入信息化时代,涌现出了众多的在线教育平台,越来越多的学生也开始***台上,大量学生作为用户进行在线学***台用户。在这种新形势下,老师的工作量开始成倍增长,尤其是老师对作文是否是目标文本的评判,更是费时费力。同时,老师一篇篇的批改作文时,主观性往往较大,不同老师对同一篇作文是否是目标文本的评判结果很有可能不同,即识别结果完全依赖阅读文章的人,不利于学生作文水平的提高。因此,当前在线教育等行业亟须一种可以高效、客观的识别出目标文本的方法。
发明内容
本发明提供一种目标文本识别方法及装置,以提高对目标文本识别的效率。
根据本发明实施例的第一方面,提供了一种目标文本识别方法,所述方法包括:
获取待处理的文本,所述文本包含一条或多条自然语言语句;
获取每条语句的特征值,其中所述特征值为所述语句是目标语句的概率;
根据每条语句的特征值获取所述文本的预设指标值;
根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别。
可选的,所述预设指标值包括以下一种或多种:
各语句特征值的最大值;
各语句特征值的最小值;
各语句特征值的平均值;
目标语句占比,用于指示所述文本中目标语句数量与所述文本中语句总数的比值;
目标语句分布,用于指示所述文本中各目标语句在所划分的不同区间内的分布;
目标语句指定集合的特征值均值。
可选的,获取所述文本的目标语句分布,包括:
将特征值的取值划分为多个区间;
统计所述文本中落入每个所述区间的目标语句数;
计算落入每个所述区间的目标语句数与所述文本中语句总数的比值,以得到每个所述区间内目标语句占比,将所有所述区间内目标语句占比作为所述文本的目标语句分布。
可选的,获取所述文本的目标语句指定集合的特征值均值,包括:
根据预设规则确定所述文本的目标语句指定集合;
计算所述集合内语句特征值的平均值,以得到所述文本的目标语句指定集合的特征值均值。
可选的,所述根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别,包括:
将所述文本的所述预设指标值作为所述目标文本识别模型的输入;
接收所述目标文本识别模型的输出,其中所述输出为所述文本属于目标文本的概率;
当所述概率大于预设阈值时,则判断所述文本属于目标文本。
可选的,所述接收所述目标文本识别模型的输出之后,所述方法还包括:
将所述文本属于目标文本的概率反馈给用户;
或者,
将所述文本是否属于目标文本的识别结果反馈给用户。
可选的,获取每条语句的特征值,包括:
提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;
根据预先构建的目标语句识别模型及每条所述语句的识别特征,获取每条所述语句的所述特征值。
可选的,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,包括:
对当前语句进行分词;
获取分词后得到每个词的词向量;
根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层。
可选的,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,包括:
将当前语句每个词的词向量输入所述LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强;
再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。
可选的,所述第二特征包括以下一种或多种:
词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
是否包含成语;
不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
根据本发明实施例的第二方面,提供了一种目标文本识别装置,所述装置包括:
输入模块,用于获取待处理的文本,所述文本包含一条或多条自然语言语句;
特征提取模块,用于获取每条语句的特征值,其中所述特征值为所述语句是目标语句的概率;
指标值获取模块,用于根据每条语句的特征值获取所述文本的预设指标值;
识别模块,用于根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别。
可选的,所述预设指标值包括以下一种或多种:
各语句特征值的最大值;
各语句特征值的最小值;
各语句特征值的平均值;
目标语句占比,用于指示所述文本中目标语句数量与所述文本中语句总数的比值;
目标语句分布,用于指示所述文本中各目标语句在所划分的不同区间内的分布;
目标语句指定集合的特征值均值。
可选的,获取所述文本的目标语句分布,包括:
将特征值的取值划分为多个区间;
统计所述文本中落入每个所述区间的目标语句数;
计算落入每个所述区间的目标语句数与所述文本中语句总数的比值,以得到每个所述区间内目标语句占比,将所有所述区间内目标语句占比作为所述文本的目标语句分布。
可选的,获取所述文本的目标语句指定集合的特征值均值,包括:
根据预设规则确定所述文本的目标语句指定集合;
计算所述集合内语句特征值的平均值,以得到所述文本的目标语句指定集合的特征值均值。
可选的,所述识别模块用于:
将所述文本的所述预设指标值作为所述目标文本识别模型的输入;
接收所述目标文本识别模型的输出,其中所述输出为所述文本属于目标文本的概率;
当所述概率大于预设阈值时,则判断所述文本属于目标文本。
可选的,所述装置还包括:
反馈模块,用于将所述文本属于目标文本的概率反馈给用户,或者,将所述文本是否属于目标文本的识别结果反馈给用户。
可选的,获取每条语句的特征值,包括:
提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;
根据预先构建的目标语句识别模型及每条所述语句的识别特征,获取每条所述语句的所述特征值。
可选的,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,包括:
对当前语句进行分词;
获取分词后得到每个词的词向量;
根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层。
可选的,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,包括:
将当前语句每个词的词向量输入所述LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强;
再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。
可选的,所述第二特征包括以下一种或多种:
词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
是否包含成语;
不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明先获取文本中每条语句的特征值,其中所述特征值为所述语句是目标语句的概率,然后根据每条语句的特征值获取所述文本的预设指标值,再根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别,从而可自动评判一篇文本是否属于目标文本(例如优美文章),大大提高了目标文本的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明示例性实施例示出的一种目标文本识别方法的流程图;
图2是根据本发明示例性实施例示出的一种目标文本识别方法的流程图;
图3是根据本发明示例性实施例示出的一种目标文本识别方法的流程图;
图4是根据本发明示例性实施例示出的一种目标文本识别方法的流程图;
图5是根据本发明示例性实施例示出的一种目标文本识别方法的流程图;
图6是根据本发明示例性实施例示出的第一识别模型的结构示意图;
图7是根据本发明示例性实施例示出的一种目标文本识别装置的示意图;
图8是根据本发明示例性实施例示出的一种目标文本识别装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种目标文本识别方法的流程图。该方法例如可用于手机、电脑等终端或服务器等。
参见图1所示,该方法可以包括:
步骤S101,获取待处理的文本,所述文本包含一条或多条自然语言语句。
例如可以接收学生作文等作为待处理的文本。在本发明中,自然语言语句可以简称为语句,也可以通俗的称为句子。可以根据文本中的标点将文本拆分成句子,即,将以句号、问号、感叹号、省略号等结尾的内容作为一句。
步骤S102,获取每条语句的特征值,其中所述特征值为所述语句是目标语句的概率。
作为示例,目标语句可以是优美句子,相应的,此时特征值也可以称为优美度。可以预先算得每条语句的特征值。本发明的着眼点在于根据已算得的特征值如何识别目标文本,而对于特征值的具体定义以及如何获取语句的特征值,本实施例则并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计,可以在此处使用的这些设计都没有背离本发明的精神和保护范围。
步骤S103,根据每条语句的特征值获取所述文本的预设指标值。
对于预设指标值的具体内容本实施例也并不进行限制。作为示例,预设指标值可以包括以下一种或多种:
各语句特征值的最大值;
各语句特征值的最小值;
各语句特征值的平均值;
目标语句占比,用于指示所述文本中目标语句数量与所述文本中语句总数的比值;
目标语句分布,用于指示所述文本中各目标语句在所划分的不同区间内的分布;
目标语句指定集合的特征值均值;等等。
步骤S104,根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别。
例如可以预先收集大量的文本并进行人工标记,从而作为训练样本,通过训练预先构建所述目标文本识别模型。使用时,将一篇文本的所述预设指标值输入到所述目标文本识别模型中,从而根据输出判断该文本是否属于目标文本。例如输出可以是该文本属于目标文本的概率,对于优美文章这种场景来说,该概率可以称为该文章的优美度。
本实施例先获取文本中每条语句的特征值,其中所述特征值为所述语句是目标语句的概率,然后根据每条语句的特征值获取所述文本的预设指标值,再根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别,从而可自动评判一篇文本是否属于目标文本(例如优美文章),大大提高了目标文本的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。
下面再对一些预设指标值进行进一步描述。
作为示例,参见图2所示,获取所述文本的目标语句分布,可以包括:
步骤S201,将特征值的取值划分为多个区间。
步骤S202,统计所述文本中落入每个所述区间的目标语句数。
步骤S203,计算落入每个所述区间的目标语句数与所述文本中语句总数的比值,以得到每个所述区间内目标语句占比,将所有所述区间内目标语句占比作为所述文本的目标语句分布。
具体区间数可以根据应用需求确定,例如,可以将当前文章中所有目标语句的特征值划分为10个区间(具体区间化方法本发明也不作限定,如可以等分区间),统计所述文本中落入每个所述区间的目标语句数,并计算落入每个所述区间的目标语句数与所述文本中语句总数的比值,从而可得到每个所述区间内目标语句占比,也即所述文本的目标语句分布。
作为示例,参见图3所示,获取所述文本的目标语句指定集合的特征值均值,可以包括:
步骤S301,根据预设规则确定所述文本的目标语句指定集合。
例如,可以将特征值按从大到小排序时排在前列的10个语句作为指定集合。
步骤S302,计算所述集合内语句特征值的平均值,以得到所述文本的目标语句指定集合的特征值均值。
参见图4所示,在本实施例或本发明其他某些实施例中,所述根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别,可以包括:
步骤S401,将所述文本的所述预设指标值作为所述目标文本识别模型的输入。
步骤S402,接收所述目标文本识别模型的输出,其中所述输出为所述文本属于目标文本的概率。
步骤S403,当所述概率大于预设阈值时,则判断所述文本属于目标文本。
作为示例,所述目标文本识别模型可以为常见分类模型,如支持向量机模型、决策树模型等。
所述目标文本识别模型可以通过预先训练得到。例如可以将文本的所述预设指标值及该文本是否属于目标文本的人工标注标签作为训练样本,对该模型的参数进行训练、更新。
此外,在本实施例或本发明其他某些实施例中,所述接收所述目标文本识别模型的输出之后,所述方法还可以包括:
将所述文本属于目标文本的概率反馈给用户;
或者,
将所述文本是否属于目标文本的识别结果反馈给用户。
本实施例先获取文本中每条语句的特征值,其中所述特征值为所述语句是目标语句的概率,然后根据每条语句的特征值获取所述文本的预设指标值,再根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别,从而可自动评判一篇文本是否属于目标文本(例如优美文章),大大提高了目标文本的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。
对于语句的特征值的定义及如何获取语句的特征值,本实施例并不进行限制,下面进行举例说明:
参见图5所示,在本实施例或本发明其他某些实施例中,获取每条语句的特征值,可以包括:
步骤S501,提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征。
第一特征和第二特征可分别从语义、文字这两个不同角度对语句进行描述。在使用时,语句的识别特征可以包括第一特征或第二特征,或者包括第一特征和第二特征的组合。对于第一特征和第二特征的具体内容,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计,可以在此处使用的这些设计都没有背离本发明的精神和保护范围。
步骤S502,根据预先构建的目标语句识别模型及每条所述语句的识别特征,获取每条所述语句的所述特征值。
例如可以预先收集大量的文本并进行人工标记,从而作为训练样本,通过训练预先构建所述目标语句识别模型。使用时,将一条语句的识别特征输入到所述目标语句识别模型中,从而根据输出判断该语句是否属于目标语句。例如输出可以是该语句属于目标语句的概率,对于优美句子这种场景来说,该概率可以称为该语句的优美度。
在本实施例或本发明其他某些实施例中,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,可以包括以下步骤:
对当前语句进行分词;
获取分词后得到每个词的词向量;
根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层。其中RNN为recurrent neural networks循环神经网络,LSTM为Long-Short Term Memory。
对于具体的分词技术本实施例并不进行限制,例如可以使用条件随机场的方法对文本进行分词,等等。可以利用word2vec方法训练得到每个词的词向量。对于一个语句,其词向量可以表示为(w1,w2,...wn)。
作为示例可参见图6所示,图6为第一识别模型的一种示例性结构,可以包括LSTM-RNN层、pA(pseudo Attention)操作层、加权求和(weighted sum)层及输出层。
作为示例,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,具体可以包括:
i)将当前语句每个词的词向量输入所述LSTM-RNN层。
将一个语句的词向量(w1,w2,...wn)作为LSTM-RNN层的输入,通过LSTM-RNN层对当前语句进行编码,编码过程中保存每个词的历史信息,得到LSTM-RNN层的第t个节点取值ht为ht=LSTM(wt,ht-1),其中LSTM()为对输入词向量进行编码的函数,ht-1为第t-1个节点的取值,即第t个节点的历史信息。LSTM-RNN属于现有技术,在此不再赘述。
ii)将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强。
LSTM-RNN层的输出为pA操作层的输入。由于对节点使用了pA向量进行点积操作,所以称为pA操作层。通过对每个节点保存的历史信息进行增强,可以防止出现节点的历史信息随着时间的推移出现衰减的情况。得到增强后的第t个节点的取值αt为αt=dot(ht,a),其中,dot()为点积操作函数,a为pA向量的元素,pA向量为模型参数,其具体取值可以通过大量文本数据训练得到。此外,节点属于神经网络等领域的现有技术,对此本发明不再展开赘述。
iii)再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和。
具体加权求和之前,可以先对pA向量增强后节点的取值进行规整,得到规整后的第t个节点取值βt
Figure BDA0001103834250000141
再对βt及节点取值ht进行加权求和,即得到h,
Figure BDA0001103834250000142
iv)将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。
作为示例预设公式可以为p=sigmoid(W*h+b),其中p即为输出,W和b为模型参数,其具体取值可以通过大量文本数据训练得到。
当然,在本发明其他实施例中,所述第一识别模型也可以使用其它模型描述,如CNN(Convolutional neural networks)或LSTM(Long-Short Term Memory)等。也可以分别使用不同神经网络模型分别描述第一识别模型,分别获得当前语句的第一特征,再将这多个第一特征共同作为当前语句的第一特征。
在本实施例或本发明其他某些实施例中,所述第二特征可以包括以下一种或多种:
1)词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
具体实施时,提取当前语句的词性分布,可以包括:
统计当前语句中的总词数,计算当前语句中每种词性(例如名词、动词、形容词、副词、连接词等)的词的个数与所述总词数的比值,以得到当前语句的词性分布。
例如,如当前语句为“小草开始偷偷地从地里钻出来”,分词后得到“小\形容词草\名词开始\动词偷偷\副词地\其它词从\其它词地\名词里\其它词钻\动词出来\动词”,当前语句中词总数为10,其中名词有2个,动词有3个,形容词有1个,副词有1个,连接词0个,其它词有3个,则该句中名词、动词、形容词、副词、连接词及其它词的词性分布为:0.2,0.3,0.1,0.1,0.0,0.3。
2)平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
具体实施时,提取当前语句的平均词频,可以包括:
分别统计当前语句中每个词在所收集的所有文本中出现的次数,计算所述次数的平均值,以得到当前语句的平均词频。
3)最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
具体实施时,提取当前语句的最大词频和最小词频,可以包括:
分别统计当前语句中每个词在所收集的所有文本中的出现次数,选取所述次数的最大值和最小值分别作为当前语句的最大词频和最小词频。
4)是否包含成语;
具体实施时,可以根据预先构建的成语表,依次检测当前语句中每个词是否为成语,如果当前语句中有词是成语,则认为当前语句中包含成语,否则,认为当前语句中不包含成语。进一步的具体可以使用0或1表示,如1表示当前句子包含成语,0表示当前句子不包含成语。
5)不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
具体实施时,提取当前语句的不重复词占比,可以包括:
分别找到当前语句中的不重复词,其中不重复词为在字形上不相同的词,统计所述不重复词的总数,将所述不重复词的总数与当前语句总词数的比值作为当前语句的不重复词占比。
例如,当前语句为“小草开始偷偷地从地里钻出来”,分词后得到“小草开始偷偷地从地里钻出来”,共10个词,其中包含2个相同词,即前一个“地”和后一个“地”,以及8个不相同的词,则该语句中不重复词占比为
Figure BDA0001103834250000161
6)重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
具体实施时,提取当前语句的重复词类型数,可以包括:
分别找到当前语句中的重复词,其中重复词为在字形上相同的词,将当前语句内所述重复词的类型数量作为所述重复词类型数,其中同一种重复词算作一个类型。
例如,当前语句为“你好,你好,欢迎光临”,其中“你”和“好”分别出现了两次,为重复词,且二者的字形不同,因此当前语句的重复词类型数为2。
在本实施例或本发明其他某些实施例中,根据预先构建的目标语句识别模型及每条所述语句的识别特征,获取每条所述语句的所述特征值,可以包括:
将当前语句的识别特征作为所述目标语句识别模型的输入;
接收所述目标语句识别模型的输出,其中所述输出为当前语句属于目标语句的概率;
当所述概率大于预设阈值时,则确定当前语句属于目标语句。
作为示例,所述目标语句识别模型可以为常见分类模型,如支持向量机模型、决策树模型等。
所述目标语句识别模型可以通过预先训练得到。例如可以将语句的识别特征及该语句是否属于目标语句的人工标注标签作为训练样本,对该模型的参数进行训练、更新。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图7是根据本发明一示例性实施例示出的一种目标文本识别装置的示意图。该装置例如可用于手机、电脑等终端或服务器等。
参见图7所示,该装置可以包括:
输入模块701,用于获取待处理的文本,所述文本包含一条或多条自然语言语句;
特征提取模块702,用于获取每条语句的特征值,其中所述特征值为所述语句是目标语句的概率;
指标值获取模块703,用于根据每条语句的特征值获取所述文本的预设指标值;
识别模块704,用于根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别。
在本实施例或本发明其他某些实施例中,所述预设指标值可以包括以下一种或多种:
各语句特征值的最大值;
各语句特征值的最小值;
各语句特征值的平均值;
目标语句占比,用于指示所述文本中目标语句数量与所述文本中语句总数的比值;
目标语句分布,用于指示所述文本中各目标语句在所划分的不同区间内的分布;
目标语句指定集合的特征值均值。
在本实施例或本发明其他某些实施例中,获取所述文本的目标语句分布,可以包括:
将特征值的取值划分为多个区间;
统计所述文本中落入每个所述区间的目标语句数;
计算落入每个所述区间的目标语句数与所述文本中语句总数的比值,以得到每个所述区间内目标语句占比,将所有所述区间内目标语句占比作为所述文本的目标语句分布。
在本实施例或本发明其他某些实施例中,获取所述文本的目标语句指定集合的特征值均值,可以包括:
根据预设规则确定所述文本的目标语句指定集合;
计算所述集合内语句特征值的平均值,以得到所述文本的目标语句指定集合的特征值均值。
在本实施例或本发明其他某些实施例中,所述识别模块可以用于:
将所述文本的所述预设指标值作为所述目标文本识别模型的输入;
接收所述目标文本识别模型的输出,其中所述输出为所述文本属于目标文本的概率;
当所述概率大于预设阈值时,则判断所述文本属于目标文本。
参见图8所示,在本实施例或本发明其他某些实施例中,所述装置还可以包括:
反馈模块705,用于将所述文本属于目标文本的概率反馈给用户,或者,将所述文本是否属于目标文本的识别结果反馈给用户。
在本实施例或本发明其他某些实施例中,获取每条语句的特征值,可以包括:
提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;
根据预先构建的目标语句识别模型及每条所述语句的识别特征,获取每条所述语句的所述特征值。
在本实施例或本发明其他某些实施例中,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,可以包括:
对当前语句进行分词;
获取分词后得到每个词的词向量;
根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层。
在本实施例或本发明其他某些实施例中,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,可以包括:
将当前语句每个词的词向量输入所述LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强;
再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。
在本实施例或本发明其他某些实施例中,所述第二特征可以包括以下一种或多种:
词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
是否包含成语;
不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
本实施例先获取文本中每条语句的特征值,其中所述特征值为所述语句是目标语句的概率,然后根据每条语句的特征值获取所述文本的预设指标值,再根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别,从而可自动评判一篇文本是否属于目标文本(例如优美文章),大大提高了目标文本的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (16)

1.一种目标文本识别方法,其特征在于,所述方法包括:
获取待处理的文本,所述文本包含一条或多条自然语言语句;
获取每条语句的特征值,其中所述特征值为所述语句是目标语句的概率;
根据每条语句的特征值获取所述文本的预设指标值;
根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别;其中,所述获取每条语句的特征值,包括:
对当前语句进行分词;
获取分词后得到每个词的词向量;
将当前语句每个词的词向量输入预先构建的第一识别模型中的LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述第一识别模型中的pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强,所述pA向量为模型参数;
再将pA操作层的输入及pA操作层的输出共同作为所述第一识别模型中的加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述第一识别模型中的输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征,基于所述语句的第一特征,获取所述语句的特征值。
2.根据权利要求1所述的方法,其特征在于,所述预设指标值包括以下一种或多种:
各语句特征值的最大值;
各语句特征值的最小值;
各语句特征值的平均值;
目标语句占比,用于指示所述文本中目标语句数量与所述文本中语句总数的比值;
目标语句分布,用于指示所述文本中各目标语句在所划分的不同区间内的分布;
目标语句指定集合的特征值均值。
3.根据权利要求2所述的方法,其特征在于,获取所述文本的目标语句分布,包括:
将特征值的取值划分为多个区间;
统计所述文本中落入每个所述区间的目标语句数;
计算落入每个所述区间的目标语句数与所述文本中语句总数的比值,以得到每个所述区间内目标语句占比,将所有所述区间内目标语句占比作为所述文本的目标语句分布。
4.根据权利要求2所述的方法,其特征在于,获取所述文本的目标语句指定集合的特征值均值,包括:
根据预设规则确定所述文本的目标语句指定集合;
计算所述集合内语句特征值的平均值,以得到所述文本的目标语句指定集合的特征值均值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别,包括:
将所述文本的所述预设指标值作为所述目标文本识别模型的输入;
接收所述目标文本识别模型的输出,其中所述输出为所述文本属于目标文本的概率;
当所述概率大于预设阈值时,则判断所述文本属于目标文本。
6.根据权利要求5所述的方法,其特征在于,所述接收所述目标文本识别模型的输出之后,所述方法还包括:
将所述文本属于目标文本的概率反馈给用户;
或者,
将所述文本是否属于目标文本的识别结果反馈给用户。
7.根据权利要求1所述的方法,其特征在于,获取每条语句的特征值,包括:
提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;
根据预先构建的目标语句识别模型及每条所述语句的识别特征,获取每条所述语句的所述特征值。
8.根据权利要求7所述的方法,其特征在于,所述第二特征包括以下一种或多种:
词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
是否包含成语;
不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
9.一种目标文本识别装置,其特征在于,所述装置包括:
输入模块,用于获取待处理的文本,所述文本包含一条或多条自然语言语句;
特征提取模块,用于获取每条语句的特征值,其中所述特征值为所述语句是目标语句的概率;
指标值获取模块,用于根据每条语句的特征值获取所述文本的预设指标值;
识别模块,用于根据所述预设指标值及预先构建的目标文本识别模型,对所述文本是否属于目标文本进行识别;所述特征提取模块,在获取每条语句的特征值时,还用于:
对当前语句进行分词;
获取分词后得到每个词的词向量;
将当前语句每个词的词向量输入预先构建的第一识别模型中的LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述第一识别模型中的pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强,所述pA向量为模型参数;
再将pA操作层的输入及pA操作层的输出共同作为所述第一识别模型中的加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述第一识别模型中的输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征,基于所述语句的第一特征,获取所述语句的特征值。
10.根据权利要求9所述的装置,其特征在于,所述预设指标值包括以下一种或多种:
各语句特征值的最大值;
各语句特征值的最小值;
各语句特征值的平均值;
目标语句占比,用于指示所述文本中目标语句数量与所述文本中语句总数的比值;
目标语句分布,用于指示所述文本中各目标语句在所划分的不同区间内的分布;
目标语句指定集合的特征值均值。
11.根据权利要求10所述的装置,其特征在于,获取所述文本的目标语句分布,包括:
将特征值的取值划分为多个区间;
统计所述文本中落入每个所述区间的目标语句数;
计算落入每个所述区间的目标语句数与所述文本中语句总数的比值,以得到每个所述区间内目标语句占比,将所有所述区间内目标语句占比作为所述文本的目标语句分布。
12.根据权利要求10所述的装置,其特征在于,获取所述文本的目标语句指定集合的特征值均值,包括:
根据预设规则确定所述文本的目标语句指定集合;
计算所述集合内语句特征值的平均值,以得到所述文本的目标语句指定集合的特征值均值。
13.根据权利要求9所述的装置,其特征在于,所述识别模块用于:
将所述文本的所述预设指标值作为所述目标文本识别模型的输入;
接收所述目标文本识别模型的输出,其中所述输出为所述文本属于目标文本的概率;
当所述概率大于预设阈值时,则判断所述文本属于目标文本。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
反馈模块,用于将所述文本属于目标文本的概率反馈给用户,或者,将所述文本是否属于目标文本的识别结果反馈给用户。
15.根据权利要求9所述的装置,其特征在于,获取每条语句的特征值,包括:
提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;
根据预先构建的目标语句识别模型及每条所述语句的识别特征,获取每条所述语句的所述特征值。
16.根据权利要求15所述的装置,其特征在于,所述第二特征包括以下一种或多种:
词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
是否包含成语;
不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
CN201610790466.5A 2016-08-31 2016-08-31 一种目标文本识别方法及装置 Active CN107797981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610790466.5A CN107797981B (zh) 2016-08-31 2016-08-31 一种目标文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610790466.5A CN107797981B (zh) 2016-08-31 2016-08-31 一种目标文本识别方法及装置

Publications (2)

Publication Number Publication Date
CN107797981A CN107797981A (zh) 2018-03-13
CN107797981B true CN107797981B (zh) 2021-06-04

Family

ID=61528776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610790466.5A Active CN107797981B (zh) 2016-08-31 2016-08-31 一种目标文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN107797981B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108876166A (zh) * 2018-06-27 2018-11-23 平安科技(深圳)有限公司 财务风险验证处理方法、装置、计算机设备及存储介质
CN109189918B (zh) * 2018-07-12 2020-11-27 北京奇艺世纪科技有限公司 一种内容识别、内容分发方法、装置及电子设备
CN111832278B (zh) * 2020-06-15 2024-02-09 北京百度网讯科技有限公司 文档流畅度的检测方法、装置、电子设备及介质
CN114579740B (zh) * 2022-01-20 2023-12-05 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887443B (zh) * 2009-05-13 2012-12-19 华为技术有限公司 一种文本的分类方法及装置
CN103246655A (zh) * 2012-02-03 2013-08-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置及***
CN103473356B (zh) * 2013-09-26 2017-01-25 苏州大学 一种篇章级情感分类方法及装置
CN104915356B (zh) * 2014-03-13 2018-12-07 ***通信集团上海有限公司 一种文本分类校正方法及装置
US9858262B2 (en) * 2014-09-17 2018-01-02 International Business Machines Corporation Information handling system and computer program product for identifying verifiable statements in text
CN104516986B (zh) * 2015-01-16 2018-01-16 青岛理工大学 一种语句识别方法及装置
CN105787461B (zh) * 2016-03-15 2019-07-23 浙江大学 基于文本分类和条件随机场的文献不良反应实体识别方法

Also Published As

Publication number Publication date
CN107797981A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US10942962B2 (en) Systems and methods for categorizing and moderating user-generated content in an online environment
US9224155B2 (en) Systems and methods for managing publication of online advertisements
KR101715118B1 (ko) 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
CN108090099B (zh) 一种文本处理方法及装置
CN106919551B (zh) 一种情感词极性的分析方法、装置及设备
CN109492213B (zh) 句子相似度计算方法和装置
CN108319581B (zh) 一种自然语言语句评价方法及装置
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN107797981B (zh) 一种目标文本识别方法及装置
CN110781273B (zh) 文本数据处理方法、装置、电子设备及存储介质
Valakunde et al. Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、***及存储介质
CN108090098B (zh) 一种文本处理方法及装置
CN109960791A (zh) 判断文本情感的方法及存储介质、终端
CN111832281A (zh) 作文评分方法、装置、计算机设备及计算机可读存储介质
CN113672731A (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
CN107783958B (zh) 一种目标语句识别方法及装置
CN114139537A (zh) 词向量的生成方法及装置
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
US20230325424A1 (en) Systems and methods for generating codes and code books based using cosine proximity
Nama et al. Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach
CN109241993B (zh) 融合用户和整体评价信息的评价对象情感分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant