CN107977358A

CN107977358A - 语句识别方法及装置、计算机存储介质和终端

Info

Publication number: CN107977358A
Application number: CN201711178150.1A
Authority: CN
Inventors: 张家重; 赵亚欧; 王玉奎
Original assignee: Inspur Financial Information Technology Co Ltd
Current assignee: Inspur Financial Information Technology Co Ltd
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-05-01

Abstract

一种语句识别方法及装置、计算机存储介质和终端，所述方法包括：获取待识别语句和对应的原始语句集；对原始语句集中的原始语句逐一遍历，分别计算遍历至的当前原始语句与待识别语句之间的浅层语义分析数值和词语语义分析数值；基于所得到的浅层语义分析数值和词语语义分析数值，计算得到待识别语句与当前原始语句之间的相似度数值，直至原始语句集中的所有原始语句遍历完成；获取计算得到的数值最大的相似度数值，并将数值最大的相似度数值与预设的相似度阈值进行比较；当确定数值最大的相似度数值大于相似度阈值时，将数值最大的相似度数值对应的原始语句，作为与待识别语句相匹配的语句。上述的方案，可以提高语句相似度计算的准确性。

Description

语句识别方法及装置、计算机存储介质和终端

技术领域

本发明涉及语句识别技术领域，特别是涉及一种语句识别方法及装置、计算机存储介质和终端。

背景技术

基于金融领域的自助机器人问答***主要是通过检索预先准备的金融专业知识库，获取问题答案。其关键技术是将用户问题与问答库中的问题进行一一匹配，计算问题-问题之间的相似度，然后根据截断阈值，返回结果。由于中文表达方式灵活多样，相同语义可以对应不同表达方式，因此，如何有效的计算相同语义问题之间相似度，就成为了亟待一个重要问题。

传统语句相似度计算方法，包括基于关键字重叠的方法，基于词语语义的方法，基于词语向量空间的方法和基于表层语法分析的方法等。

因此，现有的语句识别方法存在着准确性差的问题，严重影响了用户的使用体验。

发明内容

本发明实施例解决的技术问题是如何提高语句识别的准确性。

为解决上述问题，本发明实施例提供了一种语句识别方法，包括：

获取待识别语句和对应的原始语句集；

对所述原始语句集中的原始语句逐一遍历，分别计算遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值和词语语义分析数值；

基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述待识别语句与当前原始语句之间的相似度数值，作为当前原始语句对应的相似度数值，直至所述原始语句集中的所有原始语句遍历完成；

获取计算得到的数值最大的所述相似度数值，并将所述数值最大的相似度数值与预设的相似度阈值进行比较；

当确定所述数值最大的相似度数值大于所述相似度阈值时，将所述数值最大的相似度数值对应的原始语句，作为与所述待识别语句相匹配的语句。

可选地，所述计算遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值，包括：

分别计算遍历至的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值；

基于计算得到的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到当前原始语句与所述待识别语句之间的浅层语义分析数值。

可选地，所述基于计算得到的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到当前原始语句与所述待识别语句之间的浅层语义分析数值，包括：

将计算得到的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均，得到所述遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值。

可选地，所述计算遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值，包括：

计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值和词对语句相似度数值；

基于计算得到的当前原始语句与所述待识别语句之间的同义词词林相似度数值和词对语句相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值；

基于计算得到的遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值。

可选地，所述计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值，包括：

且：

N＝5-H；

其中，S(w₁,w₂)表示当前原始语句与所述待识别语句之间的同义词词林相似度数值，w1、w2分别表示待识别的语句与当前原始语句，c1和c2分别表示w1、w2在词林中编号，H表示w1、w2之间的深度，sub(c1，n)、sub(c2，n)分别表示c1、c2编号的前n位，N表示w1、w2在同义词词林中的距离。

可选地，所述基于计算得到的当前原始语句与所述待识别语句之间的同义词词林相似度数值和词对语句相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值，包括：

其中，M(S₁,S₂)表示遍历至的当前原始语句与所述待识别语句之间词对相似度矩阵。

且：

其中，SematicSim(S₁,S₂)表示与遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值，S₁,S₂分别表示遍历至的当前原始语句与所述待识别语句，M(S₁,S₂)表示遍历至的当前原始语句与所述待识别语句之间任意词对相似度矩阵，max_row(i)表示矩阵M(S₁,S₂)中的第i行的最大值，max_col(j)表示矩阵M(S₁,S₂)中的第j列的最大值，Sim(S₁,S₂)表示遍历至的当前原始语句与所述待识别语句之间的语义相似度数值，Sim(S₂,S₁)表示所述待识别语句与遍历至的当前原始语句之间的语义相似度数值，m、n分别表示语句S₁,S₂中的关键词的数量。

可选地，待识别语句与当前原始语句之间的相似度数值，包括：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)；

其中，所述TotalSim(S1,S2)表示所述待识别语句与当前原始语句之间的相似度数值，SyntaxSim(S₁,S₂)表示所述待识别语句与当前原始语句之间浅层语义相似度分析数值。

本发明实施例还提供了一种语句识别装置，包括：

获取单元，适于获取待识别语句和对应的原始语句集；

计算单元，适于对所述原始语句集中的原始语句逐一遍历，分别计算遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值和词语语义分析数值，基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述待识别语句与当前原始语句之间的相似度数值，作为当前原始语句对应的相似度数值，直至所述原始语句集中的所有原始语句遍历完成；

获取比较单元，适于获取计算得到的数值最大的所述相似度数值，并将所述数值最大的相似度数值与预设的相似度阈值进行比较；

确定单元，适于当确定所述数值最大的相似度数值大于所述相似度阈值时，将所述数值最大的相似度数值对应的原始语句，作为与所述待识别语句相匹配的语句。

可选地，所述计算单元，适于分别计算遍历至的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值；基于计算得到的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到当前原始语句与所述待识别语句之间的浅层语义分析数值。

可选地，所述计算单元，适于将计算得到的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均，得到所述遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值。

可选地，所述计算单元，适于计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值；基于计算得到的当前原始语句与所述待识别语句之间的同义词词林相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值；基于计算得到的遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值。

可选地，所述计算单元，适于采用如下的公式计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值：

且：

N＝5-H；

可选地，所述计算单元，适于采用如下的公式计算遍历至的当前原始语句与所述待识别语句之间的词对相似度数值：

可选地，所述计算单元，适于采用如下的公式计算得到遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值：

且：

其中，SematicSim(S₁,S₂)表示与遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值，max_row(i)表示矩阵M(S₁,S₂)中的第i行的最大值，max_col(j)表示矩阵M(S₁,S₂)中的第j列的最大值，Sim(S₁,S₂)表示遍历至的当前原始语句与所述待识别语句之间的语义相似度数值，Sim(S₂,S₁)表示所述待识别语句与遍历至的当前原始语句之间的语义相似度数值，m、n分别表示语句S₁,S₂中的关键词的数量。

可选地，所述计算单元，适于采用如下的公式计算得到所述待识别语句与当前原始语句之间的相似度数值：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)；

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一项所述的语句识别方法的步骤。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一项所述的语句识别方法的步骤。

与现有技术相比，本发明的技术方案具有以下的优点：

上述的方案，在计算待识别语句与原始语句集中的原始语句的相似性时，分别计算遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值和词语语义分析数值，并基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述待识别语句与当前原始语句之间的相似度数值，既能够分析语句中关键词之间的顺序关联和语法成分，又可以增强同义词的处理能力，故可以提语句相似度计算的准确性，进而可以提高语句识别的准确性。

附图说明

图1是本发明实施例中的一种语句识别方法的流程图；

图2是本发明实施例中的一种语句识别装置的结构示意图。

具体实施方式

为解决现有技术中存在的上述问题，本发明实施例采用的技术方案在计算待识别语句与原始语句集中的原始语句的相似性时，分别计算遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值和词语语义分析数值，并基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述待识别语句与当前原始语句之间的相似度数值，可以提语句相似度计算的准确性，进而可以提高语句识别的准确性。。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1示出了本发明实施例中的一种语句识别方法的流程图。如图1所示的语句识别方法，具体可以包括如下的操作：

步骤S101：获取待识别语句和对应的原始语句集。

在具体实施中，所述待识别的语句可以采用语音识别技术对用户输入的语句进行识别得到。

所述原始语句集，由与所述待识别语句相关联的多个原始语句构成，可以通过相应的方式获取与待识别语句对应的原始语句集。

步骤S102：对所述原始语句集中的原始语句逐一遍历，分别计算遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值和词语语义分析数值。

在具体实施中，可以按照顺序对原始语句集中的多个原始语句进行遍历，并将每次遍历到的原始语句作为当前原始语句。当获取到遍历到的当前原始语句时，可以分别计算当前原始语句与待识别语句之间的浅层语义分析数值和词语语义分析数值。

在具体实施中，计算当前原始语句与待识别语句之间的浅层语义分析数值，包括：

(1)首先，分别计算遍历至的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，其中：

A、所述计算遍历至的当前原始语句与所述待识别语句之间的词形相似度数值，主要是计算两个语句中相同关键词所占的比例，重点考察两个语句在形态上的相似性。

在本发明一实施例中，采用如下的公式计算遍历至的当前原始语句与所述待识别语句之间的词形相似度数值：

其中，word(S1)、word(S2)分别表示语句S1、S2所含关键词的个数，sameWord(S1，S2)表示语句S1、S2具有的相同关键词的数目，wordSim(S1,S2)表示两个语句的词形相似度。

这里需要指出的时，在上述计算过程中，如果语句中关键词重复出现，则只进行一次计数。在实际应用中发现，关键词的词性对语句语义影响较大。因此具体操作上并不直接统计关键词出现的次数，而是统计关键词词性所对应的权重。对于名词，权重为5，即名词出现一次加5；动词权重为3，其他词性的关键词权重赋为1。

B、所述当前原始语句与所述待识别语句之间的词形相似度数值，词序相似度计算主要是计算语句中关键词出现的顺序，这反映了两个语句相同关键词在位置上的相似程度。其计算公式如下：

其中，ordSim(S1，S2)表示语句S1、S2的词序相似度，Inv(S1,S2)表示语句S1中关键词在S2中的逆序数，maxInv(S1,S2)表示语句S1、S2中相同关键词的最大逆序数。

C、所述当前原始语句与所述待识别语句之间的语句长度相似数值，主要从语句所含词语个数来衡量两个语句的相似性，其实质还是衡量语句的形态相似性。

在本发明一实施例中，采用如下的公式计算遍历到的当前原始语句与所述待识别语句之间的语句长度相似数值：

其中，lenSim(S1,S2)表示语句的长度相似度，abs代表绝对值函数，len(S1)、len(S2)代表语句S1，S2所含词汇的个数。

D、所述当前原始语句与所述待识别语句之间的语句距离相似数值，主要通过当前原始语句与所述待识别语句之间的关键词的距离来衡量语句的相似度。

在本发明一实施例中，采用如下的公式计算当前原始语句与所述待识别语句之间的语句距离相似数值：

其中，disSim(S1,S2)代表语句距离相似度，sameDis代表语句S1和S2中共同出现的关键词之间的最大距离，dis(S1)、dis(S2)分别代表S1、S2中出现的关键词之间的最大距离。

(2)当计算得到的遍历至的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值时，可以基于计算得到的遍历至的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到的遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值。

在本发明一实施例中，计算得到的遍历至的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均，计算得到的遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值，即：

SyntaxSim(S₁,S₂)＝α·wordSame(S₁,S₂)+β·lenSame(S₁,S₂)+γ·ordSame(S₁,S₂)+δ·disSim(S₁,S₂)(5)

其中，syntaxSim(S1,S2)代表语句S1、S2的表层语法相似度，α、β、γ、δ分别代表每种相似度所对应权重，在本发明一实施例中中，α、β、γ、δ的值分别取0.6，0.2，0.1和0.1。

在具体实施中，所述计算遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值，包括：

首先，计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值和词对语句相似度数值。

在本发明一实施例中，采用如下的公式计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值，包括：

其中：

N＝5-H(8)

在具体实施中，当计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值和词对语句相似度数值时，可以基于计算得到的当前原始语句与所述待识别语句之间的同义词词林相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值。

在本发明一实施例中，采用如下的公式基于计算得到的当前原始语句与所述待识别语句之间的同义词词林相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值：

其中，

步骤S103：基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述待识别语句与当前原始语句之间的相似度数值，作为当前原始语句对应的相似度数值。

在本发明一实施例中，采用如下的公式计算待识别语句与当前原始语句之间的相似度数值：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)(13)

步骤S104：判断所述原始语句集中的所有原始语句是否遍历完成；当判断结果为是时，可以执行步骤S106；反之，则可以执行步骤S105。

步骤S105：获取所述原始语句集中的下一原始语句作为遍历至的当前原始语句，并从步骤S102开始执行。

步骤S106：获取计算得到的数值最大的所述相似度数值，并判断所述数值最大的相似度数值是否大于预设的相似度阈值；当判断结果为是时，可以执行步骤S107；反之，则可以执行步骤S108。

在具体实施中，所述相似度阈值可以根据实际的需要进行设置，在此不做限制。

步骤S107：将所述数值最大的相似度数值对应的原始语句，作为与所述待识别语句相匹配的语句。

在具体实施中，当确定所述数值最大的相似度数值大于所述相似度阈值时，将所述数值最大的相似度数值对应的原始语句，作为与所述待识别语句相匹配的语句。

步骤S108：确定所述原始语句集中不存在于所述待识别语句相吸纳匹配的原始语句。

当确定所述数值最大的相似度数值小于或等于所述相似度阈值时，则表明相应的原始语句集中不存在所述待识别语句相吸纳匹配的原始语句。

上述的方案，在计算待识别语句与原始语句集中的原始语句的相似性时，分别计算遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值和词语语义分析数值，并基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述待识别语句与当前原始语句之间的相似度数值，，既能够分析语句中关键词之间的顺序关联和语法成分，也增强了同义词的处理能力，因而可以提语句相似度计算的准确性，进而可以提高语句识别的准确性。

图2示出了本发明实施例中的一种语句识别装置的结构。参见图2，一种语句识别装置20，可以包括获取单元201、计算单元202、获取比较单元203和确定单元204，其中：

获取单元201，适于获取待识别语句和对应的原始语句集；

计算单元202，适于对所述原始语句集中的原始语句逐一遍历，分别计算遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值和词语语义分析数值，基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述待识别语句与当前原始语句之间的相似度数值，作为当前原始语句对应的相似度数值，直至所述原始语句集中的所有原始语句遍历完成；

获取比较单元203，适于获取计算得到的数值最大的所述相似度数值，并将所述数值最大的相似度数值与预设的相似度阈值进行比较；

确定单元204，适于当确定所述数值最大的相似度数值大于所述相似度阈值时，将所述数值最大的相似度数值对应的原始语句，作为与所述待识别语句相匹配的语句。

在本发明一实施例中，所述计算单元202，适于分别计算遍历至的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值；基于计算得到的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到当前原始语句与所述待识别语句之间的浅层语义分析数值。

在本发明一实施例中，所述计算单元202，适于将计算得到的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均，得到所述遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值。

在本发明一实施例中，所述计算单元202，适于计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值；基于计算得到的当前原始语句与所述待识别语句之间的同义词词林相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值；基于计算得到的遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值。

在本发明一实施例中，所述计算单元202，适于采用如下的公式计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值：

且：

N＝5-H；

在本发明一实施例中，所述计算单元202，适于所述计算单元，适于采用如下的公式计算遍历至的当前原始语句与所述待识别语句之间的词对相似度数值：

在本发明一实施例中，所述计算单元202，适于采用如下的公式计算得到遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值：

且：

在本发明一实施例中，所述计算单元202，适于采用如下的公式计算得到所述待识别语句与当前原始语句之间的相似度数值：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)；

其中，TotalSim(S1,S2)表示所述待识别语句与当前原始语句之间的相似度数值，SyntaxSim(S₁,S₂)表示所述待识别语句与当前原始语句之间浅层语义相似度分析数值。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的语句识别方法的步骤。其中，所述的语句识别方法的步骤请参见前述部分的介绍，不再赘述。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的语句识别方法的步骤。其中，所述的语句识别方法的步骤请参见前述部分的介绍，不再赘述。

采用本发明实施例中上述方案，在计算待识别语句与原始语句集中的原始语句的相似性时，分别计算遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值和词语语义分析数值，并基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述待识别语句与当前原始语句之间的相似度数值，既能够分析语句中关键词之间的顺序关联和语法成分，又可以增强同义词的处理能力，故可以提语句相似度计算的准确性，进而可以提高语句识别的准确性。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例的方法及***做了详细的介绍，本发明并不限于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语句识别方法，其特征在于，包括：

获取待识别语句和对应的原始语句集；

2.根据权利要求1所述的语句识别方法，其特征在于，所述计算遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值，包括：

3.根据权利要求2所述的语句识别方法，其特征在于，所述基于计算得到的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到当前原始语句与所述待识别语句之间的浅层语义分析数值，包括：

4.根据权利要求1-3任一项所述的语句识别方法，其特征在于，所述计算遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值，包括：

5.根据权利要求4所述的语句识别方法，其特征在于，所述计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值，包括：

且：

<mrow> <mi>H</mi> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>5</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>8</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>4</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>5</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>3</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>2</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&NotEqual;</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>

N＝5-H；

6.根据权利要求5所述的语句识别方法，其特征在于，所述基于计算得到的当前原始语句与所述待识别语句之间的同义词词林相似度数值和词对语句相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值，包括：

7.根据权利要求6所述的语句相似度计算方法，其特征在于，所述基于计算得到的遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值，包括：

且：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <mi>max</mi> <mo>_</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <mi>max</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

8.根据权利要求1所述的语句识别方法，其特征在于，所述基于所得到的浅层语义分析数值和词语语义分析数值，计算得到所述待识别语句与当前原始语句之间的相似度数值，包括：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)；

9.一种语句识别装置，其特征在于，包括：

获取单元，适于获取待识别语句和对应的原始语句集；

10.根据权利要求9所述的语句识别装置，其特征在于，所述计算单元，适于分别计算遍历至的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值；基于计算得到的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值，计算得到当前原始语句与所述待识别语句之间的浅层语义分析数值。

11.根据权利要求10所述的语句识别装置，其特征在于，所述计算单元，适于将计算得到的当前原始语句与所述待识别语句之间的词形相似度数值、词序相似度数值、语句长度相似度数值和语句距离相似度数值进行加权平均，得到所述遍历至的当前原始语句与所述待识别语句之间的浅层语义分析数值。

12.根据权利要求9-11任一项所述的语句识别装置，其特征在于，所述计算单元，适于计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值和词对语句相似度数值；基于计算得到的当前原始语句与所述待识别语句之间的同义词词林相似度数值和词对语句相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值；基于计算得到的遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值，计算得到遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值。

13.根据权利要求12所述的语句识别装置，其特征在于，所述计算单元，适于采用如下的公式计算遍历至的当前原始语句与所述待识别语句之间的同义词词林相似度数值：

且：

N＝5-H；

14.根据权利要求13所述的语句识别装置，其特征在于，所述计算单元，适于采用如下的公式计算得到遍历至的当前原始语句与所述待识别语句之间的词对语句相似度数值：

15.根据权利要求14所述的语句相似度计算装置，其特征在于，所述计算单元，适于采用如下的公式计算得到遍历至的当前原始语句与所述待识别语句之间的词语语义分析数值：

且：

16.根据权利要求9所述的语句识别装置，其特征在于，所述计算单元，适于采用如下的公式计算得到所述待识别语句与当前原始语句之间的相似度数值：

TotalSim(S1,S2)＝λ·SyntaxSim(S₁,S₂)+μ·SematicSim(S₁,S₂)；

17.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至8任一项所述的语句识别方法的步骤。

18.一种终端，其特征在于，包括存储器和处理器，所述存储器上储存有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行权利要求1至8任一项所述的语句识别方法的步骤。