CN107783958B - 一种目标语句识别方法及装置 - Google Patents
一种目标语句识别方法及装置 Download PDFInfo
- Publication number
- CN107783958B CN107783958B CN201610792978.5A CN201610792978A CN107783958B CN 107783958 B CN107783958 B CN 107783958B CN 201610792978 A CN201610792978 A CN 201610792978A CN 107783958 B CN107783958 B CN 107783958B
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- current
- current sentence
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种目标语句识别方法及装置,其中方法包括:获取待处理的文本,其中所述文本包含一条或多条自然语言语句;提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。本发明可自动发现属于目标语句(例如优美句子)的语句,从而大大提高了目标语句的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。
Description
技术领域
本发明涉及自然语言处理领域,尤其是涉及一种目标语句识别方法及装置。
背景技术
人们在阅读文章(例如学生的作文或其他文本内容)时,往往会出于某种目的而在文章中寻找一些目标语句,如优美句子等。现有的目标语句识别方法一般是依靠人工对文章进行阅读,然后指出文章中的目标语句。例如,老师在对作文进行批改时,可以标出作文中的优美句子,并给出相应评语,这对学生提高作文水平有重大意义,其中所述优美句子一般可指表达优美、见解独特等的句子,如使用较多成语、引经据典的句子等等。
然而,发明人在实现本发明的过程中发现,随着信息技术的飞速发展,教育行业也开始步入信息化时代,涌现出了众多的在线教育平台,越来越多的学生也开始***台上,大量学生作为用户进行在线学***台用户。在这种新形势下,老师的工作量开始成倍增长,尤其是老师对作文的批改,更是费时费力。同时,老师一篇篇的批改作文时,主观性往往较大,不同老师对同一篇作文中哪些是目标语句的评判结果很有可能不同,即识别结果完全依赖阅读文章的人,不利于学生作文水平的提高。因此,当前在线教育等行业亟须一种可以高效、客观的识别出目标语句的方法。
发明内容
本发明提供一种目标语句识别方法及装置,以提高对文本中目标语句进行识别时的效率。
根据本发明实施例的第一方面,提供一种目标语句识别方法,所述方法包括:
获取待处理的文本,其中所述文本包含一条或多条自然语言语句;
提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;
根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。
可选的,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,包括:
对当前语句进行分词;
获取分词后得到每个词的词向量;
根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层。
可选的,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,包括:
将当前语句每个词的词向量输入所述LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强;
再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。
可选的,所述第二特征包括以下一种或多种:
词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
是否包含成语;
不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
可选的:
提取当前语句的词性分布,包括:
统计当前语句中的总词数,计算当前语句中每种词性的词的个数与所述总词数的比值,以得到当前语句的词性分布;
提取当前语句的平均词频,包括:
分别统计当前语句中每个词在所收集的所有文本中出现的次数,计算所述次数的平均值,以得到当前语句的平均词频;
提取当前语句的最大词频和最小词频,包括:
分别统计当前语句中每个词在所收集的所有文本中的出现次数,选取所述次数的最大值和最小值分别作为当前语句的最大词频和最小词频;
提取当前语句的不重复词占比,包括:
分别找到当前语句中的不重复词,其中不重复词为在字形上不相同的词,统计所述不重复词的总数,将所述不重复词的总数与当前语句总词数的比值作为当前语句的不重复词占比;
提取当前语句的重复词类型数,包括:
分别找到当前语句中的重复词,其中重复词为在字形上相同的词,将当前语句内所述重复词的类型数量作为所述重复词类型数,其中同一种重复词算作一个类型。
可选的,所述根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句,包括:
将当前语句的识别特征作为所述目标语句识别模型的输入;
接收所述目标语句识别模型的输出,其中所述输出为当前语句属于目标语句的概率;
当所述概率大于预设阈值时,则确定当前语句属于目标语句。
可选的,所述识别出所述文本中的目标语句之后,所述方法还包括:
在所述文本中使用预设方式对目标语句进行标记。
根据本发明实施例的第二方面,提供一种目标语句识别装置,所述装置包括:
输入模块,用于获取待处理的文本,其中所述文本包含一条或多条自然语言语句;
特征提取模块,用于提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;
识别模块,用于根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。
可选的,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,包括:
对当前语句进行分词;
获取分词后得到每个词的词向量;
根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层。
可选的,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征时,包括:
将当前语句每个词的词向量输入所述LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强;
再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。
可选的,所述第二特征包括以下一种或多种:
词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
是否包含成语;
不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
可选的:
提取当前语句的词性分布,包括:
统计当前语句中的总词数,计算当前语句中每种词性的词的个数与所述总词数的比值,以得到当前语句的词性分布;
提取当前语句的平均词频,包括:
分别统计当前语句中每个词在所收集的所有文本中出现的次数,计算所述次数的平均值,以得到当前语句的平均词频;
提取当前语句的最大词频和最小词频,包括:
分别统计当前语句中每个词在所收集的所有文本中的出现次数,选取所述次数的最大值和最小值分别作为当前语句的最大词频和最小词频;
提取当前语句的不重复词占比,包括:
分别找到当前语句中的不重复词,其中不重复词为在字形上不相同的词,统计所述不重复词的总数,将所述不重复词的总数与当前语句总词数的比值作为当前语句的不重复词占比;
提取当前语句的重复词类型数,包括:
分别找到当前语句中的重复词,其中重复词为在字形上相同的词,将当前语句内所述重复词的类型数量作为所述重复词类型数,其中同一种重复词算作一个类型。
可选的,所述识别模块用于:
将当前语句的识别特征作为所述目标语句识别模型的输入;
接收所述目标语句识别模型的输出,其中所述输出为当前语句属于目标语句的概率;
当所述概率大于预设阈值时,则确定当前语句属于目标语句。
可选的,所述装置还包括:
标记模块,用于在所述文本中使用预设方式对目标语句进行标记。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明根据语句在语义方面的特征和\或在文字方面的特征,以及通过训练而预先构建的目标语句识别模型对文本中的各条自然语言语句进行识别,从而可自动发现属于目标语句(例如优美句子)的语句,大大提高了目标语句的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明示例性实施例示出的一种目标语句识别方法的流程图;
图2是根据本发明示例性实施例示出的一种目标语句识别方法的流程图;
图3是根据本发明示例性实施例示出的第一识别模型的结构示意图;
图4是根据本发明示例性实施例示出的一种目标语句识别方法的流程图;
图5是根据本发明示例性实施例示出的一种目标语句识别方法的流程图;
图6是根据本发明示例性实施例示出的一种目标语句识别装置的示意图;
图7是根据本发明示例性实施例示出的一种目标语句识别装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种目标语句识别方法的流程图。该方法例如可用于手机、电脑等终端或服务器等。
参见图1所示,该方法可以包括:
步骤S101,获取待处理的文本,其中所述文本包含一条或多条自然语言语句。
例如可以接收学生作文等作为待处理的文本。在本发明中,自然语言语句可以简称为语句,也可以通俗的称为句子。可以根据文本中的标点将文本拆分成句子,即,将以句号、问号、感叹号、省略号等结尾的内容作为一句。
步骤S102,提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征。
第一特征和第二特征可分别从语义、文字这两个不同角度对语句进行描述。在使用时,语句的识别特征可以包括第一特征或第二特征,或者包括第一特征和第二特征的组合。对于第一特征和第二特征的具体内容,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计,可以在此处使用的这些设计都没有背离本发明的精神和保护范围。
步骤S103,根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。
例如可以预先收集大量的文本并进行人工标记,从而作为训练样本,通过训练预先构建所述目标语句识别模型。使用时,将一条语句的识别特征输入到所述目标语句识别模型中,从而根据输出判断该语句是否属于目标语句。例如输出可以是该语句属于目标语句的概率,对于优美句子这种场景来说,该概率可以称为该语句的优美度。
本实施例根据语句在语义方面的特征和\或在文字方面的特征,以及通过训练而预先构建的目标语句识别模型对文本中的各条自然语言语句进行识别,从而可自动发现属于目标语句(例如优美句子)的语句,大大提高了目标语句的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。
参见图2所示,在本实施例或本发明其他某些实施例中,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,可以包括:
步骤S201,对当前语句进行分词。
对于具体的分词技术本实施例并不进行限制,例如可以使用条件随机场的方法对文本进行分词,等等。
步骤S202,获取分词后得到每个词的词向量。
例如,可以利用word2vec方法训练得到每个词的词向量。
对于一个语句,其词向量可以表示为(w1,w2,...wn)。
步骤S203,根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层。其中RNN为recurrent neural networks循环神经网络,LSTM为Long-Short TermMemory。
作为示例可参见图3所示,图3为第一识别模型的一种示例性结构,可以包括LSTM-RNN层、pA(pseudo Attention)操作层、加权求和(weighted sum)层及输出层。
作为示例,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,具体可以包括:
i)将当前语句每个词的词向量输入所述LSTM-RNN层。
将一个语句的词向量(w1,w2,...wn)作为LSTM-RNN层的输入,通过LSTM-RNN层对当前语句进行编码,编码过程中保存每个词的历史信息,得到LSTM-RNN层的第t个节点取值ht为ht=LSTM(wt,ht-1),其中LSTM()为对输入词向量进行编码的函数,ht-1为第t-1个节点的取值,即第t个节点的历史信息。LSTM-RNN属于现有技术,在此不再赘述。
ii)将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强。
LSTM-RNN层的输出为pA操作层的输入。由于对节点使用了pA向量进行点积操作,所以称为pA操作层。通过对每个节点保存的历史信息进行增强,可以防止出现节点的历史信息随着时间的推移出现衰减的情况。得到增强后的第t个节点的取值αt为αt=dot(ht,a),其中,dot()为点积操作函数,a为pA向量的元素,pA向量为模型参数,其具体取值可以通过大量文本数据训练得到。此外,节点属于神经网络等领域的现有技术,对此本发明不再展开赘述。
iii)再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和。
iv)将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。
作为示例预设公式可以为p=sigmoid(W*h+b),其中p即为输出,W和b为模型参数,其具体取值可以通过大量文本数据训练得到。
当然,在本发明其他实施例中,所述第一识别模型也可以使用其它模型描述,如CNN(Convolutional neural networks)或LSTM(Long-Short Term Memory)等。也可以分别使用不同神经网络模型分别描述第一识别模型,分别获得当前语句的第一特征,再将这多个第一特征共同作为当前语句的第一特征。
在本实施例或本发明其他某些实施例中,所述第二特征可以包括以下一种或多种:
1)词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
具体实施时,提取当前语句的词性分布,可以包括:
统计当前语句中的总词数,计算当前语句中每种词性(例如名词、动词、形容词、副词、连接词等)的词的个数与所述总词数的比值,以得到当前语句的词性分布。
例如,如当前语句为“小草开始偷偷地从地里钻出来”,分词后得到“小\形容词草\名词开始\动词偷偷\副词地\其它词从\其它词地\名词里\其它词钻\动词出来\动词”,当前语句中词总数为10,其中名词有2个,动词有3个,形容词有1个,副词有1个,连接词0个,其它词有3个,则该句中名词、动词、形容词、副词、连接词及其它词的词性分布为:0.2,0.3,0.1,0.1,0.0,0.3。
2)平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
具体实施时,提取当前语句的平均词频,可以包括:
分别统计当前语句中每个词在所收集的所有文本中出现的次数,计算所述次数的平均值,以得到当前语句的平均词频。
3)最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
具体实施时,提取当前语句的最大词频和最小词频,可以包括:
分别统计当前语句中每个词在所收集的所有文本中的出现次数,选取所述次数的最大值和最小值分别作为当前语句的最大词频和最小词频。
4)是否包含成语;
具体实施时,可以根据预先构建的成语表,依次检测当前语句中每个词是否为成语,如果当前语句中有词是成语,则认为当前语句中包含成语,否则,认为当前语句中不包含成语。进一步的具体可以使用0或1表示,如1表示当前句子包含成语,0表示当前句子不包含成语。
5)不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
具体实施时,提取当前语句的不重复词占比,可以包括:
分别找到当前语句中的不重复词,其中不重复词为在字形上不相同的词,统计所述不重复词的总数,将所述不重复词的总数与当前语句总词数的比值作为当前语句的不重复词占比。
6)重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
具体实施时,提取当前语句的重复词类型数,可以包括:
分别找到当前语句中的重复词,其中重复词为在字形上相同的词,将当前语句内所述重复词的类型数量作为所述重复词类型数,其中同一种重复词算作一个类型。
例如,当前语句为“你好,你好,欢迎光临”,其中“你”和“好”分别出现了两次,为重复词,且二者的字形不同,因此当前语句的重复词类型数为2。
参见图4所示,在本实施例或本发明其他某些实施例中,所述根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句,可以包括:
步骤S401,将当前语句的识别特征作为所述目标语句识别模型的输入。
步骤S402,接收所述目标语句识别模型的输出,其中所述输出为当前语句属于目标语句的概率。
步骤S403,当所述概率大于预设阈值时,则确定当前语句属于目标语句。
作为示例,所述目标语句识别模型可以为常见分类模型,如支持向量机模型、决策树模型等。
所述目标语句识别模型可以通过预先训练得到。例如可以将语句的识别特征及该语句是否属于目标语句的人工标注标签作为训练样本,对该模型的参数进行训练、更新。
其中人工标注标签可以分为两种,即当前语句是目标语句或者当前语句不是目标语句,如使用0或1表示,标注为1时,表示当前语句是目标语句,标注为0时,表示当前语句不是目标语句。具体标注时,同一语句可分别交由两个标注员进行标注,如果二者的标注结果一致,则认为标注正确,否则可将当前语句交由领域专家标注,以领域专家标注结果为准。通过训练样本对该模型的参数进行更新,训练结束后,得到所述目标语句识别模型的参数取值。具体训练过程不再赘述。
此外,参见图5所示,在本实施例或本发明其他某些实施例中,所述识别出所述文本中的目标语句之后,所述方法还可以包括:
步骤S104,在所述文本中使用预设方式对目标语句进行标记。
例如,以目标语句为优美句子为例,在识别出文章中的优美句子后,可以在文章中将相应优美句子标记出来,具体标记方法本发明不作限定,例如可以使用其它颜色字体、粗体、下划线等标记优美句子,或者使用框图的方式,将优美句子放入框图中,等等。
本实施例根据语句在语义方面的特征和\或在文字方面的特征,以及通过训练而预先构建的目标语句识别模型对文本中的各条自然语言语句进行识别,从而可自动发现属于目标语句(例如优美句子)的语句,大大提高了目标语句的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图6是根据本发明一示例性实施例示出的一种目标语句识别装置的示意图。该装置例如可用于手机、电脑等终端或服务器等。
参见图6所示,该装置可以包括:
输入模块601,用于获取待处理的文本,其中所述文本包含一条或多条自然语言语句;
特征提取模块602,用于提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征;
识别模块603,用于根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。
在本实施例或本发明其他某些实施例中,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,可以包括:
对当前语句进行分词;
获取分词后得到每个词的词向量;
根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层。
在本实施例或本发明其他某些实施例中,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征时,可以包括:
将当前语句每个词的词向量输入所述LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强;
再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。
在本实施例或本发明其他某些实施例中,所述第二特征可以包括以下一种或多种:
词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
是否包含成语;
不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
在本实施例或本发明其他某些实施例中:
提取当前语句的词性分布,可以包括:
统计当前语句中的总词数,计算当前语句中每种词性的词的个数与所述总词数的比值,以得到当前语句的词性分布;
提取当前语句的平均词频,可以包括:
分别统计当前语句中每个词在所收集的所有文本中出现的次数,计算所述次数的平均值,以得到当前语句的平均词频;
提取当前语句的最大词频和最小词频,可以包括:
分别统计当前语句中每个词在所收集的所有文本中的出现次数,选取所述次数的最大值和最小值分别作为当前语句的最大词频和最小词频;
提取当前语句的不重复词占比,可以包括:
分别找到当前语句中的不重复词,其中不重复词为在字形上不相同的词,统计所述不重复词的总数,将所述不重复词的总数与当前语句总词数的比值作为当前语句的不重复词占比;
提取当前语句的重复词类型数,可以包括:
分别找到当前语句中的重复词,其中重复词为在字形上相同的词,将当前语句内所述重复词的类型数量作为所述重复词类型数,其中同一种重复词算作一个类型。
在本实施例或本发明其他某些实施例中,所述识别模块可以用于:
将当前语句的识别特征作为所述目标语句识别模型的输入;
接收所述目标语句识别模型的输出,其中所述输出为当前语句属于目标语句的概率;
当所述概率大于预设阈值时,则确定当前语句属于目标语句。
参见图7所示,在本实施例或本发明其他某些实施例中,所述装置还可以包括:
标记模块604,用于在所述文本中使用预设方式对目标语句进行标记。
本实施例根据语句在语义方面的特征和\或在文字方面的特征,以及通过训练而预先构建的目标语句识别模型对文本中的各条自然语言语句进行识别,从而可自动发现属于目标语句(例如优美句子)的语句,大大提高了目标语句的识别效率;同时,本发明的识别标准是基于客观的特征及模型,使得识别结果也较为客观,从而避免了人工识别时的主观性问题。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (12)
1.一种目标语句识别方法,其特征在于,所述方法包括:
获取待处理的文本,其中所述文本包含一条或多条自然语言语句;
提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征,其中,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,包括:
对当前语句进行分词;
获取分词后得到每个词的词向量;
根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层,所述LSTM-RNN层用于对当前语句的词向量进行编码,得到对应的节点取值,所述LSTM-RNN层的输出作为所述pA操作层的输入,所述pA操作层是指利用pA向量与每个节点的取值进行点积操作的结构层,所述pA向量为模型参数;
根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。
2.根据权利要求1所述的方法,其特征在于,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,包括:
将当前语句每个词的词向量输入所述LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强;
再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。
3.根据权利要求1所述的方法,其特征在于,所述第二特征包括以下一种或多种:
词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
是否包含成语;
不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
4.根据权利要求3所述的方法,其特征在于:
提取当前语句的词性分布,包括:
统计当前语句中的总词数,计算当前语句中每种词性的词的个数与所述总词数的比值,以得到当前语句的词性分布;
提取当前语句的平均词频,包括:
分别统计当前语句中每个词在所收集的所有文本中出现的次数,计算所述次数的平均值,以得到当前语句的平均词频;
提取当前语句的最大词频和最小词频,包括:
分别统计当前语句中每个词在所收集的所有文本中的出现次数,选取所述次数的最大值和最小值分别作为当前语句的最大词频和最小词频;
提取当前语句的不重复词占比,包括:
分别找到当前语句中的不重复词,其中不重复词为在字形上不相同的词,统计所述不重复词的总数,将所述不重复词的总数与当前语句总词数的比值作为当前语句的不重复词占比;
提取当前语句的重复词类型数,包括:
分别找到当前语句中的重复词,其中重复词为在字形上相同的词,将当前语句内所述重复词的类型数量作为所述重复词类型数,其中同一种重复词算作一个类型。
5.根据权利要求1所述的方法,其特征在于,所述根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句,包括:
将当前语句的识别特征作为所述目标语句识别模型的输入;
接收所述目标语句识别模型的输出,其中所述输出为当前语句属于目标语句的概率;
当所述概率大于预设阈值时,则确定当前语句属于目标语句。
6.根据权利要求1所述的方法,其特征在于,所述识别出所述文本中的目标语句之后,所述方法还包括:
在所述文本中使用预设方式对目标语句进行标记。
7.一种目标语句识别装置,其特征在于,所述装置包括:
输入模块,用于获取待处理的文本,其中所述文本包含一条或多条自然语言语句;
特征提取模块,用于提取每条所述语句的识别特征,其中所述识别特征包括第一特征和\或第二特征,所述第一特征用于指示所述语句在语义方面的特征,所述第二特征用于指示所述语句在文字方面的特征,其中,当所述识别特征包括第一特征时,提取每条所述语句的第一特征,包括:
对当前语句进行分词;
获取分词后得到每个词的词向量;
根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征,其中所述第一识别模型依次包括LSTM-RNN层、pA操作层、加权求和层及输出层,所述LSTM-RNN层用于对当前语句的词向量进行编码,得到对应的节点取值,所述LSTM-RNN层的输出作为所述pA操作层的输入,所述pA操作层是指利用pA向量与每个节点的取值进行点积操作的结构层,所述pA向量为模型参数;
识别模块,用于根据预先构建的目标语句识别模型及所述文本中每条所述语句的识别特征,识别出所述文本中的目标语句。
8.根据权利要求7所述的装置,其特征在于,所述根据当前语句每个词的词向量及预先构建的第一识别模型,获取当前语句的第一特征时,包括:
将当前语句每个词的词向量输入所述LSTM-RNN层;
将所述LSTM-RNN层的输出作为所述pA操作层的输入,在所述pA操作层中使用pA向量与每个节点的取值进行点积操作,以对每个节点保存的历史信息进行增强;
再将pA操作层的输入及pA操作层的输出共同作为所述加权求和层的输入,由所述加权求和层对节点的取值及pA向量增强后节点的取值进行加权求和;
将所述加权求和的结果输入到所述输出层,通过所述输出层内的预设公式得到当前语句属于目标语句的初步概率,并将所述初步概率作为所述语句的第一特征。
9.根据权利要求7所述的装置,其特征在于,所述第二特征包括以下一种或多种:
词性分布,用于指示当前语句中每种词性的词在当前语句中所占的词数比例;
平均词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的平均值;
最大词频和最小词频,用于指示当前语句中各个词在所收集的所有文本中出现次数的最大值和最小值;
是否包含成语;
不重复词占比,用于指示当前语句内不重复的词在当前语句中所占的词数比例;
重复词类型数,用于指示当前语句内重复词的类型数量,其中同一种重复词算作一个类型。
10.根据权利要求9所述的装置,其特征在于:
提取当前语句的词性分布,包括:
统计当前语句中的总词数,计算当前语句中每种词性的词的个数与所述总词数的比值,以得到当前语句的词性分布;
提取当前语句的平均词频,包括:
分别统计当前语句中每个词在所收集的所有文本中出现的次数,计算所述次数的平均值,以得到当前语句的平均词频;
提取当前语句的最大词频和最小词频,包括:
分别统计当前语句中每个词在所收集的所有文本中的出现次数,选取所述次数的最大值和最小值分别作为当前语句的最大词频和最小词频;
提取当前语句的不重复词占比,包括:
分别找到当前语句中的不重复词,其中不重复词为在字形上不相同的词,统计所述不重复词的总数,将所述不重复词的总数与当前语句总词数的比值作为当前语句的不重复词占比;
提取当前语句的重复词类型数,包括:
分别找到当前语句中的重复词,其中重复词为在字形上相同的词,将当前语句内所述重复词的类型数量作为所述重复词类型数,其中同一种重复词算作一个类型。
11.根据权利要求7所述的装置,其特征在于,所述识别模块用于:
将当前语句的识别特征作为所述目标语句识别模型的输入;
接收所述目标语句识别模型的输出,其中所述输出为当前语句属于目标语句的概率;
当所述概率大于预设阈值时,则确定当前语句属于目标语句。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
标记模块,用于在所述文本中使用预设方式对目标语句进行标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610792978.5A CN107783958B (zh) | 2016-08-31 | 2016-08-31 | 一种目标语句识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610792978.5A CN107783958B (zh) | 2016-08-31 | 2016-08-31 | 一种目标语句识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107783958A CN107783958A (zh) | 2018-03-09 |
CN107783958B true CN107783958B (zh) | 2021-07-02 |
Family
ID=61451435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610792978.5A Active CN107783958B (zh) | 2016-08-31 | 2016-08-31 | 一种目标语句识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107783958B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325234B (zh) * | 2018-10-10 | 2023-06-20 | 深圳前海微众银行股份有限公司 | 语句处理方法、设备及计算机可读存储介质 |
CN111767709A (zh) * | 2019-03-27 | 2020-10-13 | 武汉慧人信息科技有限公司 | 一种对英文文本进行纠错及句法分析的逻辑方法 |
CN110147542A (zh) * | 2019-05-23 | 2019-08-20 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391837A (zh) * | 2014-11-19 | 2015-03-04 | 熊玮 | 一种基于格语义的智能语法分析方法 |
WO2015165372A1 (en) * | 2014-04-29 | 2015-11-05 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for classifying object based on social networking service, and storage medium |
CN105427858A (zh) * | 2015-11-06 | 2016-03-23 | 科大讯飞股份有限公司 | 实现语音自动分类的方法及*** |
CN105808689A (zh) * | 2016-03-03 | 2016-07-27 | 中国地质大学(武汉) | 一种基于人工神经网络的水系实体语义相似性度量方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004764A (zh) * | 2010-11-04 | 2011-04-06 | 中国科学院计算机网络信息中心 | 互联网不良信息检测方法以及*** |
US20150310862A1 (en) * | 2014-04-24 | 2015-10-29 | Microsoft Corporation | Deep learning for semantic parsing including semantic utterance classification |
CN104850540A (zh) * | 2015-05-29 | 2015-08-19 | 北京京东尚科信息技术有限公司 | 进行语句识别的方法及装置 |
CN105550291B (zh) * | 2015-12-10 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 文本分类方法和装置 |
CN105787461B (zh) * | 2016-03-15 | 2019-07-23 | 浙江大学 | 基于文本分类和条件随机场的文献不良反应实体识别方法 |
-
2016
- 2016-08-31 CN CN201610792978.5A patent/CN107783958B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015165372A1 (en) * | 2014-04-29 | 2015-11-05 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for classifying object based on social networking service, and storage medium |
CN104391837A (zh) * | 2014-11-19 | 2015-03-04 | 熊玮 | 一种基于格语义的智能语法分析方法 |
CN105427858A (zh) * | 2015-11-06 | 2016-03-23 | 科大讯飞股份有限公司 | 实现语音自动分类的方法及*** |
CN105808689A (zh) * | 2016-03-03 | 2016-07-27 | 中国地质大学(武汉) | 一种基于人工神经网络的水系实体语义相似性度量方法 |
Non-Patent Citations (1)
Title |
---|
基于语义特征的自动文本分类方法;胡晓辉 等;《计算机与现代化》;20101130(第183期);第9-11、15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107783958A (zh) | 2018-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
US11151130B2 (en) | Systems and methods for assessing quality of input text using recurrent neural networks | |
CN108182177A (zh) | 一种数学试题知识点自动化标注方法和装置 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及*** | |
EP3926531B1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
CN111062220B (zh) | 一种基于记忆遗忘装置的端到端意图识别***和方法 | |
CN111753545A (zh) | 嵌套实体识别方法、装置、电子设备和存储介质 | |
CN106919551B (zh) | 一种情感词极性的分析方法、装置及设备 | |
CN111737968A (zh) | 一种作文自动批改及评分的方法及终端 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
CN111563384A (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN107797981B (zh) | 一种目标文本识别方法及装置 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN112287100A (zh) | 文本识别方法、拼写纠错方法及语音识别方法 | |
CN114595327A (zh) | 数据增强方法和装置、电子设备、存储介质 | |
TW201544976A (zh) | 自然語言處理系統、自然語言處理方法、及自然語言處理程式 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN113672731A (zh) | 基于领域信息的情感分析方法、装置、设备及存储介质 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN114139537A (zh) | 词向量的生成方法及装置 | |
CN110263321B (zh) | 一种情感词典构建方法及*** | |
CN111813941A (zh) | 结合rpa和ai的文本分类方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |