CN106126492A

CN106126492A - 基于双向lstm神经网络的语句识别方法及装置

Info

Publication number: CN106126492A
Application number: CN201610394281.2A
Authority: CN
Inventors: 安超; 黄志杰; 曾琰; 陈俊良; 屈银川
Original assignee: Beijing Gaodig Information Technology Co Ltd
Current assignee: Hunan Sifang Tianjian Information Technology Co., Ltd
Priority date: 2016-06-07
Filing date: 2016-06-07
Publication date: 2016-11-16
Anticipated expiration: 2036-06-07
Also published as: CN106126492B

Abstract

本发明公开了一种基于双向LSTM神经网络的语句识别方法及装置，属于模式识别与自然语言理解技术领域。该方法包括：获取第一输入***和第二输入***中语句的第一切词序列x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝{x₂₁，x₂₂，……，x_2m}；建立两个双向LSTM神经网络模型；将第一切词序列和第二切词序列分别作为两个双向LSTM神经网络模型的第一输入序列和第二输入序列；通过双向LSTM神经网络模型的参数对第一输入序列和第二输入序列进行标准化，以获得标准化后的第一输出和第二输出；比较第一输出y₁和第二输出y₂，以实现语义识别。该装置通过切词获取单元获取语句切词序列，网络模型建立单元建立模型，并输入选取单元、计算单元、比较单元以实现语义理解。

Description

基于双向LSTM神经网络的语句识别方法及装置

技术领域

本发明涉及模式识别与自然语言理解技术领域，特别涉及基于双向LSTM神经网络的语句识别方法及装置。

背景技术

随着互联网信息的***式增长，社区问答(CQA)门户网站，如雅虎问答、Quora的和百度知道，正在快速发展。作为一个分享知识和经验的平台，CQA门户网站已经积累了多个领域的形式多样的数据，并以问题和候选答案的形式组织着。用户通过CQA网站获得答案知识主要包括两个步骤。首先，检索已发布的相似的问题，收集类似问题的候选答案。然后，根据对候选答案进行质量评估，获得与用户查询相比最相关的答案。在用户和CQA网站的交互过程中，句子相似度计算，具体地说是问题相似度计算起着关键性的作用。文本检索会议TREC下的实时问答比赛正是为该研究而发起的一项国际性赛事。

TREC全称Text REtrieval Conference，即文本检索会议。它由一系列有关信息检索的研讨会构成，并包含多个子任务。例如，实时问答比赛针对推送的问题流，要求参赛***实时地给出相应的答案。我们参赛的基本流程包括以下三个部分：用户意图理解、相似问题检索以及答案质量评估和排序。由于强制的实时性和问题的开放性，相似度计算起着举足轻重的作用。然而，由于词的多义性和句子结构的多样性，评估两个句子之间的语义关联度是一个非常复杂的任务。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于双向LSTM神经网络的语句识别方法及装置。

本发明提供一种基于双向LSTM神经网络的语句识别方法，所述方法包括：

获取第一输入***和第二输入***中语句的第一切词序列

x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝{x₂₁，x₂₂，……，x_2m}；

建立两个双向LSTM神经网络模型；

将所述第一切词序列和所述第二切词序列分别作为所述两个双向LSTM神经网络模型的第一输入序列和第二输入序列；

通过所述双向LSTM神经网络模型的参数对所述第一输入序列和所述第二输入序列进行标准化，以获得标准化后的第一输出y₁和第二输出y₂；

比较所述第一输出y₁和第二输出y₂，以实现语义识别；

其中，n为所述第一切词序列的元素数量，m为所述第二切词序列的元素数量。

优选的，所述建立两个双向LSTM神经网络模型，其中，每个双向LSTM神经网络模型包括：输入、输入门、遗忘门、记忆细胞、tanh函数、隐藏层、反馈部、输出门；其中，在输入的序列为t时，参数的计算公式如下：

G_feedback(t)＝sigmoid(W_fxx_t+W_fh1h_t-1+W_fm1m_t-1+W_fh2h_t+1+W_fm2m_t+1+e_f)；

G_input(t)＝sigmoid(W_ih1h_t-1+W_im1m_t-1+W_ifG_feedback(t)+W_ih2h_t+1+W_im2m_t+1+e_i)；

G_disremember(t)＝sigmoid(W_dh1h_t-1+W_dm1m_t-1+W_dfG_feedback(t)+W_dh2h_t+1+W_dm2m_t+1+e_d)；

m_t＝G_disremember(t)xm_t-1+G_disremember(t)xm_t+1+G_input(t)xtanh(W_mfG_feedback(t)+W_mh1h_t-1+W_mh2h_t+1+e_m)；

G_output(t)＝sigmoid(W_ofG_feedback(t)+W_oh1h_t-1+W_om1m_t-1+W_oh2h_t+1+W_om2m_t+1+e_o)；

h_t＝G_output(t)xm_t；

y_t＝softmax_k(W_yhh_t+e_y)；

其中，

G_feedback(t)为序列为t时反馈门的输出；

W_fx1为序列为t时反馈门与序列为t时输入x_t的权值；

W_fh1为序列为t时反馈门与序列为t-1时隐藏层输入h_t-1之间的权值；

W_fh2为序列为t时反馈门与序列为t+1时隐藏层输入h_t+1之间的权值；

W_fm1为序列为t时反馈门与序列为t-1时记忆细胞输入m_t-1之间的权值；

W_fm2为序列为t时反馈门与序列为t+1时记忆细胞输入m_t+1之间的权值；

G_input(t)为序列为t时输入门的输出；

W_ih1为序列为t时输入门与序列为t-1时隐藏层输入h_t-1之间的权值；

W_ih2为序列为t时输入门与序列为t+1时隐藏层输入h_t+1之间的权值；

W_im1为序列为t时输入门与序列为t-1时记忆细胞输入m_t-1之间的权值；

W_im2为序列为t时输入门与序列为t+1时记忆细胞输入m_t+1之间的权值；

W_if为序列为t时输入门与序列为t时反馈门之间的权值；

G_disremember(t)为序列为t时遗忘门的输出；

W_dh1为序列为t时遗忘门与序列为t-1时隐藏层输入h_t-1之间的权值；

W_dh2为序列为t时遗忘门与序列为t+1时隐藏层输入h_t+1之间的权值；

W_dm1为序列为t时遗忘门与序列为t-1时记忆细胞输入m_t-1之间的权值；

W_dm2为序列为t时遗忘门与序列为t+1时记忆细胞输入m_t+1之间的权值；

W_mf为序列为t时记忆细胞与序列为t时反馈门之间的权值；

W_mh1为序列为t时记忆细胞与序列为t-1时隐藏层输入h_t-1之间的权值；

W_mh2为序列为t时记忆细胞与序列为t+1时隐藏层输入h_t+1之间的权值；

W_of为序列为t时输出门与序列为t时反馈门之间的权值；

W_oh1为序列为t时输出门与序列为t-1时隐藏层输入h_t-1之间的权值；

W_oh2为序列为t时输出门与序列为t+1时隐藏层输入h_t+1之间的权值；

W_om1为序列为t时输出门与序列为t-1时记忆细胞输入m_t-1之间的权值；

W_om2为序列为t时输出门与序列为t+1时记忆细胞输入m_t+1之间的权值；

W_yh为序列为t时输出与序列为t时隐藏层输入h_t之间的权值；

sigmoid(x)函数为

tanh(x)函数为

softmax_k(x)函数为其中，x_k为第k个softmax函数的输入，k大于1，且小于K；

x_t为序列为t时的输入；

y_t为序列为t时的输出；

h_t为序列为t时隐藏层的输入；

m_t为序列为t时记忆细胞的输出；

e_f为序列为t时反馈门的偏差值；

e_i为序列为t时输入门的偏差值；

e_d为序列为t时遗忘门的偏差值；

e_m为序列为t时记忆细胞的偏差值；

e_o为序列为t时输出门的偏差值；

e_y为序列为t时输出的偏差值。

优选的，

当t为1时，参数的计算公式如下：

G_feedback(t)＝sigmoid(W_fxx_t+W_fh2h_t+1+W_fm2m_t+1+e_f)；

G_input(t)＝sigmoid(W_if G_feedback(t)+W_ih2h_t+1+W_im2m_t+1+e_i)；

G_disremember(t)＝sigmoid(W_df G_feedback(t)+W_dh2h_t+1+W_dm2m_t+1+e_d)；

m_t＝G_disremember(t)x m_t+1+G_input(t)x tanh(W_mf G_feedback(t)+W_mh2h_t+1+e_m)；

G_output(t)＝sigmoid(W_of G_feedback(t)+W_oh2h_t+1+W_om2m_t+1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

当t为输入x中的最后一个序列时，上述参数的计算公式如下：

G_feedback(t)＝sigmoid(W_fxx_t+W_fh1h_t-1+W_fm1m_t-1+e_f)；

G_input(t)＝sigmoid(W_ih1h_t-1+W_im1m_t-1+W_if G_feedback(t)+e_i)；

G_disremember(t)＝sigmoid(W_dh1h_t-1+W_dm1m_t-1+W_df G_feedback(t)+e_d)；

m_t＝G_disremember(t)x m_t-1+G_input(t)x tanh(W_mf G_feedback(t)+W_mh1h_t-1+e_m)；

G_output(t)＝sigmoid(W_of G_feedback(t)+W_oh1h_t-1+W_om1m_t-1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)。

优选的，

计算输入的第一切词序列中最后一个序列x₁n时，参数的计算公式如下：

G_feedback(1_n)＝sigmoid(W_fxx_{1_n}+W_fh1h_{1_n-1}+W_fm1m_{1_n-1}+W_fh2h_{2_1}+W_fm2m_{2_1}+e_f)；

G_input(1_n)＝sigmoid(W_ih1h_{1_n-1}+W_im1m_{1_n-1}+W_if G_feedback(1_n)+W_ih2h_{2_1}+W_im2m_{2_1}+e_i)；

G_disremember(1_n)＝sigmoid(W_dh1h_{1_n-1}+W_dm1m_{1_n-1}+W_df G_feedback(1_n)+W_dh2h_{2_1}+W_dm2m_{2_1}+e_d)；

m_{1_n}＝G_disremember(1_n)xm_{1_n-1}+G_disremember(1_n)x m_{2_1}+G_input(1_n)x tanh(W_mfG_feedback(1_n)+W_mh1h_{1_n-1}+W_mh2h_{2_1}+e_m)；

G_output(1_n)＝sigmoid(W_of G_feedback(1_n)+W_oh1h_{1_n-1}+W_om1m_{1_n-1}+W_oh2h_{2_1}+W_om2m_{2_1}+e_o)；

h_{1_n}＝G_output(1_n)x m_{1_n}；

y_{1_n}＝softmax_k(W_yhh_{1_n}+e_y)；

其中，1_n表示的是第一切词序列x₁中最后一个序列x_1n；2_1表示的是第二切词序列x₂中第一序列x₂₁；

计算输入的第二切词序列中第一个序列x₂₁时，参数的计算公式如下：

G_feedback(2_1)＝sigmoid(W_fxx_{2_1}+W_fh1h_{1_n}+W_fm1m_{1_n}+W_fh2h_{2_2}+W_fm2m_{2_2}+e_f)；

G_input(2_1)＝sigmoid(W_ih1h_{1_n}+W_im1m_{1_n}+W_if G_feedback(2_1)+W_ih2h_{2_2}+W_im2m_{2_2}+e_i)；

G_disremember(2_1)＝sigmoid(W_dh1h_{1_n}+W_dm1m_{1_n}+W_df G_feedback(2_1)+W_dh2h_{2_2}+W_dm2m_{2_2}+e_d)；

m_t＝G_disremember(2_1)x m_{1_n}+G_disremember(2_1)x m_{2_2}+G_input(2_1)x tanh(W_mf G_feedback(2_1)+W_mh1h_{1_n}+W_mh2h_{2_2}+e_m)；

G_output(2_1)＝sigmoid(W_of G_feedback(2_1)+W_oh1h_{1_n}+W_om1m_{1_n}+W_oh2h_{2_2}+W_om2m_{2_2}+e_o)；

h_{2_1}＝G_output(2_1)x m_{2_1}；

y_{2_1}＝softmax_k(W_yhh_{2_1}+e_y)；

其中，1_n表示的是第一切词序列x₁中最后一个序列x_1n；2_1表示的是第二切词序列x₂中第一序列x₂₁，2_2表示的是第二切词序列x₂中第二序列x₂₂。

优选的，所述比较所述第一输出y₁和所述第二输出y₂是通过计算所述第一输出y₁和所述第二输出y₂的相似性。

优选的，所述比较所述第一输出y₁和所述第二输出y₂是通过余弦相似性来计算相似性，计算公式为cose余弦值的范围在[-1，1]之间，值越趋近于1，第一输出y₁和第二输出y₂相应的相似度也越高。

基于同样的发明构思，本发明还提供一种基于LSTM神经网络的语句识别装置，所述装置包括：

切词获取单元，用于获取语句的切词序列，获取第一输入***和第二输入***中语句的第一切词序列x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝{x₂₁，x₂₂，……，x_2m}；

网络模型建立单元，用于建立双向LSTM神经网络模型，建立两个双向LSTM神经网络模型；

输入选取单元，用于将所述切词获取单元获取的切词序列选择作为所述网络模型建立单元的输入，将所述第一切词序列和所述第二切词序列分别作为所述两个双向LSTM神经网络模型的第一输入序列和第二输入序列；

计算单元，用于将输入选取单元选取的输入引入所述网络模型建立单元建立的双向LSTM神经网络模型的参数计算中计算，使得所述切词序列标准化，以获得标准化后的输出，通过所述双向LSTM神经网络模型的参数对所述第一输入序列和所述第二输入序列进行标准化，以获得标准化后的第一输出y₁和第二输出y₂；

比较单元，用于比较所述计算单元的输出，比较所述第一输出y₁和第二输出y₂，以实现语义识别；

优选的，所述网络模型建立单元中的每个双向LSTM神经网络模型包括：输入、输入门、遗忘门、记忆细胞、tanh函数、隐藏层、反馈部、输出门；其中，在输入的序列为t时，参数的计算公式如下：

G_input(t)＝sigmoid(W_ih1h_t-1+W_im1m_t-1+W_if G_feedback(t)+W_ih2h_t+1+W_im2m_t+1+e_i)；

G_disremember(t)＝sigmoid(W_dh1h_t-1+W_dm1m_t-1+W_df G_feedback(t)+W_dh2h_t+1+W_dm2m_t+1+e_d)；

m_t＝G_disremember(t)x m_t-1+G_disremember(t)x m_t+1+G_input(t)xtanh(W_mf G_feedback(t)+W_mh1h_t-1+W_mh2h_t+1+e_m)；

G_output(t)＝sigmoid(W_of G_feedback(t)+W_oh1h_t-1+W_om1m_t-1+W_oh2h_t+1+W_om2m_t+1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

其中，

G_feedback(t)为序列为t时反馈门的输出；

W_fx1为序列为t时反馈门与序列为t时输入x_t的权值；

G_input(t)为序列为t时输入门的输出；

W_if为序列为t时输入门与序列为t时反馈门之间的权值；

G_disremember(t)为序列为t时遗忘门的输出；

W_mf为序列为t时记忆细胞与序列为t时反馈门之间的权值；

W_of为序列为t时输出门与序列为t时反馈门之间的权值；

W_yh为序列为t时输出与序列为t时隐藏层输入h_t之间的权值；

sigmoid(x)函数为

tanh(x)函数为

x_t为序列为t时的输入；

y_t为序列为t时的输出；

h_t为序列为t时隐藏层的输入；

m_t为序列为t时记忆细胞的输出；

e_f为序列为t时反馈门的偏差值；

e_i为序列为t时输入门的偏差值；

e_d为序列为t时遗忘门的偏差值；

e_m为序列为t时记忆细胞的偏差值；

e_o为序列为t时输出门的偏差值；

e_y为序列为t时输出的偏差值。

优选的，所述网络模型建立单元中参数计算时，

当t为1时，参数的计算公式如下：

G_feedback(t)＝sigmoid(W_fxx_t+W_fh2h_t+1+W_fm2m_t+1+e_f)；

G_input(t)＝sigmoid(W_if G_feedback(t)+W_ih2h_t+1+W_im2m_t+1+e_i)；

G_disremember(t)＝sigmoid(W_df G_feedback(t)+W_dh2h_t+1+W_dm2m_t+1+e_d)；

G_output(t)＝sigmoid(W_of G_feedback(t)+W_oh2h_t+1+W_om2m_t+1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

G_feedback(t)＝sigmoid(W_fxx_t+W_fh1h_t-1+W_fm1m_t-1+e_f)；

G_input(t)＝sigmoid(W_ih1h_t-1+W_im1m_t-1+W_if G_feedback(t)+e_i)；

G_disremember(t)＝sigmoid(W_dh1h_t-1+W_dm1m_t-1+W_df G_feedback(t)+e_d)；

G_output(t)＝sigmoid(W_of G_feedback(t)+W_oh1h_t-1+W_om1m_t-1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)。

优选的，所述网络模型建立单元中参数计算时，

G_input(1_n)＝sigmoid(W_ih1h_{1_n-1}+W_im1m_{1_n-1}+W_ifG_feedback(1_n)+W_ih2h_{2_1}+W_im2m_{2_1}+e_i)；

G_disremember(1_n)＝sigmoid(W_dh1h_{1_n-1}+W_dm1m_{1_n-1}+W_dfG_feedback(1_n)+W_dh2h_{2_1}+W_dm2m_{2_1}+e_d)；

m_{1_n}＝G_disremember(1_n)x m_{1_n-1}+G_disremember(1_n)x m_{2_1}+G_input(1_n)x tanh(W_mfG_feedback(1_n)+W_mh1h_{1_n-1}+W_mh2h_{2_1}+e_m)；

G_output(1_n)＝sigmoid(W_ofG_feedback(1_n)+W_oh1h_{1_n-1}+W_om1m_{1_n-1}+W_oh2h_{2_1}+W_om2m_{2_1}+e_o)；

h_{1_n}＝G_output(1_n)x m_{1_n}；

y_{1_n}＝softmax_k(W_yhh_{1_n}+e_y)；

G_input(2_1)＝sigmoid(W_ih1h_{1_n}+W_im1m_{1_n}+W_ifG_feedback(2_1)+W_ih2h_{2_2}+W_im2m_{2_2}+e_i)；

G_disremember(2_1)＝sigmoid(W_dh1h_{1_n}+W_dm1m_{1_n}+W_dfG_feedback(2_1)+W_dh2h_{2_2}+W_dm2m_{2_2}+e_d)；

m_t＝G_disremember(2_1)x m_{1_n}+G_disremember(2_1)x m_{2_2}+G_input(2_1)x tanh(W_mfG_feedback(2_1)+W_mh1h_{1_n}+W_mh2h_{2_2}+e_m)；

h_{2_1}＝G_output(2_1)xm_{2_1}；

y_{2_1}＝softmax_k(W_yhh_{2_1}+e_y)；

优选的，所述比较单元中比较所述第一输出y₁和所述第二输出y₂是通过计算所述第一输出y₁和所述第二输出y₂的相似性。

优选的，所述比较单元中比较所述第一输出y₁和所述第二输出y₂是通过余弦相似性来计算相似性，计算公式为cosθ余弦值的范围在[-1，1]之间，值越趋近于1，第一输出y₁和第二输出y₂相应的相似度也越高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明一较佳实施方式的基于双向LSTM神经网络的语句识别方法的流程图；

图2示出了本发明一个实施例的双向LSTM神经网络的模型结构示意图；

图3示出了图2中双向LSTM神经网络的模型的流程图；

图4示出了图2中一实施例的结构图；

图5示出了图2中又一实施例的结构图；

图6示出了本发明又一较佳实施方式的基于双向LSTM神经网络的语句识别装置的流程图。

具体实施方式

本申请提供基于双向LSTM神经网络的语句识别方法及装置，解决了现有技术中的技术问题。

本申请实施例中的技术方案为解决上述的技术问题，总体思路如下：

实施例一

本申请提供的基于双向LSTM神经网络的语句识别方法，请参阅图1，具体包括如下步骤：

步骤100，获取第一输入***和第二输入***中语句的第一切词序列x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝{x₂₁，x₂₂，……，x_2m}；n≥1且n为整数，m≥1且m为整数。

其中，所述步骤100中获取第一输入***和第二输入***中语句的第一切词序列x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝{x₂₁，x₂₂，……，x_2m}，即为对第一输入***和第二输入***中的语句进行切词后，获得第一切词序列x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝{x₂₁，x₂₂，……，x_2m}。

所述对第一输入***和第二输入***中的语句进行切词，主要是以词语为一个单位进行切词，例如“语言的识别”切词包括“语/言/的/识/别”、“语言/的/识别”、“语言的/识别”等，本申请中切词主要是以词语为单位，同时对词语的词性(例如动词、介词、名词等)及位置作标记。

步骤200，建立两个双向LSTM神经网络模型；

其中，所述步骤200中所述两个双向LSTM神经网络模型包括输入、输出、向前迭代层、向后迭代层。请参阅图2，所述两个双向LSTM神经网络模型中向前迭代层与向后迭代层共同得到的结果为输出结果。具体的，请参阅图3，从输入到隐藏层定义为一个双向LSTM神经网络，在每个双向LSTM神经网络中定义x_t-1为输入的第t-1个序列，x_t为输入的第t个序列，x_t+1为输入的第t+1个序列，……；第t个序列的双向LSTM神经网络包括反馈门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器。定义隐藏层输出y_t-1为输出的第t-1个序列，y_t为输出的第t个序列，y_t+1为输出的第t+1个序列，……。

在输入的序列为t时，参数的计算公式如下；

m_t＝G_disremember(t)x m_t-1+G_disremember(t)x m_t+1+G_input(t)x tanh(W_mf G_feedback(t)+W_mh1h_t-1+W_mh2h_t+1+e_m)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

其中，

G_feedback(t)为序列为t时反馈门102的输出；

W_fx1为序列为t时反馈门102与序列为t时输入x_t的权值；

W_fh1为序列为t时反馈门102与序列为t-1时隐藏层输入h_t-1之间的权值；

W_fh2为序列为t时反馈门102与序列为t+1时隐藏层输入h_t+1之间的权值；

W_fm1为序列为t时反馈门102与序列为t-1时记忆细胞输入m_t-1之间的权值；

W_fm2为序列为t时反馈门102与序列为t+1时记忆细胞输入m_t+1之间的权值；

G_input(t)为序列为t时输入门110的输出；

W_ih1为序列为t时输入门110与序列为t-1时隐藏层输入h_t-1之间的权值；

W_ih2为序列为t时输入门110与序列为t+1时隐藏层输入h_t+1之间的权值；

W_im1为序列为t时输入门110与序列为t-1时记忆细胞输入m_t-1之间的权值；

W_im2为序列为t时输入门110与序列为t+1时记忆细胞输入m_t+1之间的权值；

W_if为序列为t时输入门110与序列为t时反馈门102之间的权值；

G_disremember(t)为序列为t时遗忘门109的输出；

W_dh1为序列为t时遗忘门109与序列为t-1时隐藏层输入h_t-1之间的权值；

W_dh2为序列为t时遗忘门109与序列为t+1时隐藏层输入h_t+1之间的权值；

W_dm1为序列为t时遗忘门109与序列为t-1时记忆细胞输入m_t-1之间的权值；

W_dm2为序列为t时遗忘门109与序列为t+1时记忆细胞输入m_t+1之间的权值；

W_mf为序列为t时记忆细胞104与序列为t时反馈门102之间的权值；

W_mh1为序列为t时记忆细胞104与序列为t-1时隐藏层输入h_t-1之间的权值；

W_mh2为序列为t时记忆细胞104与序列为t+1时隐藏层输入h_t+1之间的权值；

W_of为序列为t时输出门108与序列为t时反馈门102之间的权值；

W_oh1为序列为t时输出门108与序列为t-1时隐藏层输入h_t-1之间的权值；

W_oh2为序列为t时输出门108与序列为t+1时隐藏层输入h_t+1之间的权值；

W_om1为序列为t时输出门108与序列为t-1时记忆细胞输入m_t-1之间的权值；

W_om2为序列为t时输出门108与序列为t+1时记忆细胞输入m_t+1之间的权值；

W_yh为序列为t时输出与序列为t时隐藏层106输入h_t之间的权值；

sigmoid(x)函数为

tanh(x)函数为

x_t为序列为t时的输入101；

y_t为序列为t时的输出107；

h_t为序列为t时隐藏层106的输入；

m_t为序列为t时记忆细胞104的输出；

e_f为序列为t时反馈门102的偏差值；

e_i为序列为t时输入门110的偏差值；

e_d为序列为t时遗忘门109的偏差值；

e_m为序列为t时记忆细胞104的偏差值；

e_o为序列为t时输出门108的偏差值；

e_y为序列为t时输出107的偏差值。

另外，当t为1时，上述参数的计算公式如下：

G_feedback(t)＝sigmoid(W_fxx_t+W_fh2h_t+1+W_fm2m_t+1+e_f)；

G_input(t)＝sigmoid(W_ifG_feedback(t)+W_ih2h_t+1+W_im2m_t+1+e_i)；

G_disremember(t)＝sigmoid(W_dfG_feedback(t)+W_dh2h_t+1+W_dm2m_t+1+e_d)；

m_t＝G_disremember(t)x m_t+1+G_input(t)x tanh(W_mfG_feedback(t)+W_mh2h_t+1+e_m)；

G_output(t)＝sigmoid(W_ofG_feedback(t)+W_oh2h_t+1+W_om2m_t+1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)。

G_feedback(t)＝sigmoid(W_fxx_t+W_fh1h_t-1+W_fm1m_t-1+e_f)；

G_input(t)＝sigmoid(W_ih1h_t-1+W_im1m_t-1+W_ifG_feedback(t)+e_i)；

G_disremember(t)＝sigmoid(W_dh1h_t-1+W_dm1m_t-1+W_dfG_feedback(t)+e_d)；

m_t＝G_disremember(t)x m_t-1+G_input(t)x tanh(W_mfG_feedback(t)+W_mh1h_t-1+e_m)；

G_output(t)＝sigmoid(W_ofG_feedback(t)+W_oh1h_t-1+W_om1m_t-1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)。

步骤300，将所述第一切词序列和所述第二切词序列分别作为所述两个双向LSTM神经网络模型的第一输入序列和第二输入序列；

其中，所述步骤300中将第一切词序列x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝{x₂₁，x₂₂，……，x_2m}输入步骤100中建立的两个双向LSTM神经网络模型，作为双向LSTM神经网络模型中的输入。

步骤400，通过所述双向LSTM神经网络模型的参数对所述第一输入序列和所述第二输入序列进行标准化，以获得标准化后的第一输出y₁和第二输出y₂；

其中，所述步骤400中通过所述双向LSTM神经网络模型的参数对所述第一输入序列和所述第二输入序列进行标准化，具体为通过双向LSTM神经网络模型中的参数计算得出输出y₁和y₂。

步骤500，比较所述第一输出y₁和第二输出y₂，以实现语义识别；

其中，所述步骤500中所述比较所述第一输出y₁和第二输出y₂通过计算所述第一输出y₁和所述第二输出y₂的相似性，具体为通过余弦相似性来计算，

计算其中cosθ余弦值的范围在[-1，1]之间，值越趋近于1，代表两个向量的方向越趋近于0，即第一输出y₁和第二输出y₂相应的相似度也越高，表示第一输入***中输入的语句和第二输入***中输入的语句语义相似度高。

所述比较所述第一输出y₁和第二输出y₂可以通过设置阀值来判断第一输入***中语句与第二输入***中语句的语义等同程度。

本申请采用的余弦相似性来比较第一输出y₁和第二输出y₂，在其他实施方式中，也可以采用其他标准的相似性度量公式来计算。

实施例二

基于同样的发明构思，本申请还提供一种基于双向LSTM神经网络的语句识别方法，请参阅图4和图5，本实施例与实施例一不同的是，实施例一是将第一输入***中的语句和第二输入***中的语句输入双向LSTM神经网络模型中后是隔离开的，见图4；而本实施例中将第一输入***中的语句和第二输入***中的语句输入双向LSTM神经网络模型中后联接起来，见图5。

步骤200，建立两个双向LSTM神经网络模型；

其中，所述步骤100中所述两个双向LSTM神经网络模型包括输入、输出、向前迭代层、向后迭代层。请参阅图2，所述两个双向LSTM神经网络模型中向前迭代层与向后迭代层共同得到的结果为输出结果。具体的，请参阅图3，从输入到隐藏层定义为一个双向LSTM神经网络，在每个双向LSTM神经网络中定义x_t-1为输入的第t-1个序列，x_t为输入的第t个序列，x_t+1为输入的第t+1个序列，……；第t个序列的双向LSTM神经网络包括反馈门、输入门、输出门、遗忘门、记忆细胞、tanh函数、隐藏层、乘法器。定义隐藏层输出y_t-1为输出的第t-1个序列，y_t为输出的第t个序列，y_t+1为输出的第t+1个序列，……。

在输入的序列为t时，参数的计算公式如下：

m_t＝G_disremember(t)x m_t-1+G_disremember(t)x m_t+1+G_input(t)x tanh(W_mfG_feedback(t)+W_mh1h_t-1+W_mh2h_t+1+e_m)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

其中，

G_feedback(t)为序列为t时反馈门102的输出；

W_fx1为序列为t时反馈门102与序列为t时输入x_t的权值；

G_input(t)为序列为t时输入门110的输出；

W_if为序列为t时输入门110与序列为t时反馈门102之间的权值；

G_disremember(t)为序列为t时遗忘门109的输出；

W_of为序列为t时输出门108与序列为t时反馈门102之间的权值；

sigmoid(x)函数为

tanh(x)函数为

x_t为序列为t时的输入101；

y_t为序列为t时的输出107；

h_t为序列为t时隐藏层106的输入；

m_t为序列为t时记忆细胞104的输出；

e_f为序列为t时反馈门102的偏差值；

e_i为序列为t时输入门110的偏差值；

e_d为序列为t时遗忘门109的偏差值；

e_m为序列为t时记忆细胞104的偏差值；

e_o为序列为t时输出门108的偏差值；

e_y为序列为t时输出107的偏差值。

当t为1时，上述参数的计算公式如下：

G_feedback(t)＝sigmoid(W_fxx_t+W_fh2h_t+1+W_fm2m_t+1+e_f)；

G_input(t)＝sigmoid(W_if G_feedback(t)+W_ih2h_t+1+W_im2m_t+1+e_i)；

G_disremember(t)＝sigmoid(W_df G_feedback(t)+W_dh2h_t+1+W_dm2m_t+1+e_d)；

G_output(t)＝sigmoid(W_of G_feedback(t)+W_oh2h_t+1+W_om2m_t+1+e_o)；

h_t＝G_output(t)x m_t：

y_t＝softmax_k(W_yhh_t+e_y)o

G_feedback(t)＝sigmoid(W_fxx_t+W_fh1h_t-1+W_fm1m_t-1+e_f)；

G_input(t)＝sigmoid(W_ih1h_t-1+W_im1m_t-1+W_if G_feedback(t)+e_i)；

G_disremember(t)＝sigmoid(W_dh1h_t-1+W_dm1m_t-1+W_df G_feedback(t)+e_d)；

G_output(t)＝sigmoid(W_of G_feedback(t)+W_oh1h_t-1+W_om1m_t-1+e_o)；

h_t＝G_output(t)x m_t：

y_t＝softmax_k(W_yhh_t+e_y)。

其中，所述步骤400中通过所述双向LSTM神经网络模型的参数对所述第一输入序列和所述第二输入序列进行标准化，具体为通过双向LSTM神经网络模型中的参数对输入的第一切词序列x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝{x₂₁，x₂₂，……，x_2m}计算得出输出y₁和y₂。

本实施例中通过双向LSTM神经网络模型中的参数计算得出输出y₁和y₂时，与实施例一中不同的是计算输入的第一切词序列中最后一个序列x₁n和计算输入的第二切词序列中第一个序列x₂₁时，具体如下：

计算输入的第一切词序列中最后一个序列x₁n时，

G_input(1_n)＝sigmoid(W_ih1h_{1_n-1}+W_im1m_{1_n-1}+W_if G_feedback(1_n)+W_ih2h_{2_1}+W_im2m_{2_}1+e_i)；

h_{1_n}＝G_output(1_n)x m_{1_n}；

y_{1_n}＝softmax_k(W_yhh_{1_n}+e_y)；

其中，1_n表示的是第一切词序列x₁中最后一个序列x_1n；2_1表示的是第二切词序列x₂中第一序列x₂₁。

计算输入的第二切词序列中第一个序列x₂₁时，

h_{2_1}＝G_output(2_1)x m_{2_1}；

y_{2_1}＝softmax_k(W_yhh_{2_1}+e_y)；

实施例二中将第一输入***和第二输入***中的两个语句联接起来，提高了对所述两个语句相关性判断的准确性。

基于同样的发明构思，本申请还提供一种基于LSTM神经网络的语句识别装置，请参阅图6，所述装置包括：

切词获取单元601，用于获取语句的切词序列，获取第一输入***和第二输入***中语句的第一切词序列x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝{x₂₁，x₂₂，……，x_2m}；

网络模型建立单元602，用于建立双向LSTM神经网络模型，建立两个双向LSTM神经网络模型；

所述网络模型建立单元中的每个双向LSTM神经网络模型包括：输入、输入门、遗忘门、记忆细胞、tanh函数、隐藏层、反馈部、输出门；其中，在输入的序列为t时，参数的计算公式如下：

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

其中，

G_feedback(t)为序列为t时反馈门的输出；

W_fx1为序列为t时反馈门与序列为t时输入x_t的权值；

G_input(t)为序列为t时输入门的输出；

W_if为序列为t时输入门与序列为t时反馈门之间的权值；

G_disremember(t)为序列为t时遗忘门的输出；

W_mf为序列为t时记忆细胞与序列为t时反馈门之间的权值；

W_of为序列为t时输出门与序列为t时反馈门之间的权值；

W_yh为序列为t时输出与序列为t时隐藏层输入h_t之间的权值；

sigmoid(x)函数为

tanh(x)函数为

x_t为序列为t时的输入；

y_t为序列为t时的输出；

h_t为序列为t时隐藏层的输入；

m_t为序列为t时记忆细胞的输出；

e_f为序列为t时反馈门的偏差值；

e_i为序列为t时输入门的偏差值；

e_d为序列为t时遗忘门的偏差值；

e_m为序列为t时记忆细胞的偏差值；

e_o为序列为t时输出门的偏差值；

e_y为序列为t时输出的偏差值。

作为一方面，请参阅图4，所述网络模型建立单元的两个模型相互不联接时，所述网络模型建立单元中参数计算时，

当t为1时，参数的计算公式如下：

G_feedback(t)＝sigmoid(W_fxx_t+W_fh2h_t+1+W_fm2m_t+1+e_f)；

G_input(t)＝sigmoid(W_ifG_feedback(t)+W_ih2h_t+1+W_im2m_t+1+e_i)；

G_disremember(t)＝sigmoid(W_dfG_feedback(t)+W_dh2h_t+1+W_dm2m_t+1+e_d)；

G_output(t)＝sigmoid(W_ofG_feedback(t)+W_oh2h_t+1+W_om2m_t+1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

G_feedback(t)＝sigmoid(W_fxx_t+W_fh1h_t-1+W_fm1m_t-1+e_f)；

G_input(t)＝sigmoid(W_ih1h_t-1+W_im1m_t-1+W_ifG_feedback(t)+e_i)；

G_disremember(t)＝sigmoid(W_dh1h_t-1+W_dm1m_t-1+W_dfG_feedback(t)+e_d)；

G_output(t)＝sigmoid(W_ofG_feedback(t)+W_oh1h_t-1+W_om1m_t-1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)。

作为另一方面，请参阅图5，所述网络模型建立单元的两个模型相互联接时，所述网络模型建立单元中参数计算时，计算输入的第一切词序列中最后一个序列x₁n时，参数的计算公式如下：

m_{1_n}＝G_disremember(1_n)x m_{1_n-1}+G_disremember(1_n)x m_{2_1}+G_input(1_n)xtanh(W_mfG_feedback(1_n)+W_mh1h_{1_n-1}+W_mh2h_{2_1}+e_m)；

h_{1_n}＝G_output(1_n)x m_{1_n}；

y_{1_n}＝softmax_k(W_yhh_{1_n}+e_y)；

m_t＝G_disremember(2_1)xm_{1_n}+G_disremember(2_1)xm_{2_2}+G_input(2_1)xtanh(W_mf G_feedback(2_1)+W_mh1h_{1_n}+W_mh2h_{2_2}+e_m)；

h_{2_1}＝G_output(2_1)xm_{2_1}；

y_{2_1}＝softmax_k(W_yhh_{2_1}+e_y)；

输入选取单元603，用于将所述切词获取单元获取的切词序列选择作为所述网络模型建立单元的输入，将所述第一切词序列和所述第二切词序列分别作为所述两个双向LSTM神经网络模型的第一输入序列和第二输入序列；

计算单元604，用于将输入选取单元选取的输入引入所述网络模型建立单元建立的双向LSTM神经网络模型的参数计算中计算，使得所述切词序列标准化，以获得标准化后的输出，通过所述双向LSTM神经网络模型的参数对所述第一输入序列和所述第二输入序列进行标准化，以获得标准化后的第一输出y₁和第二输出y₂；

比较单元605，用于比较所述计算单元的输出，比较所述第一输出y₁和第二输出y₂，以实现语义识别；

所述比较单元中比较所述第一输出y₁和所述第二输出y₂是通过计算所述第一输出y₁和所述第二输出y₂的相似性。所述比较单元中比较所述第一输出y₁和所述第二输出y₂是通过余弦相似性来计算相似性，计算公式为cosθ余弦值的范围在[-1，1]之间，值越趋近于1，第一输出y₁和第二输出y₂相应的相似度也越高。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于双向LSTM神经网络的语句识别方法，其特征在于，所述方法包括：

获取第一输入***和第二输入***中语句的第一切词序列x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝{x₂₁，x₂₂，……，x_2m}；

建立两个双向LSTM神经网络模型；

比较所述第一输出y₁和第二输出y₂，以实现语义识别；

2.如权利要求1所述的语句识别方法，其特征在于，所述建立两个双向LSTM神经网络模型，其中，每个双向LSTM神经网络模型包括：输入、输入门、遗忘门、记忆细胞、tanh函数、隐藏层、反馈部、输出门；其中，在输入的序列为t时，参数的计算公式如下：

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

其中，

G_feedback(t)为序列为t时反馈门的输出；

W_fx1为序列为t时反馈门与序列为t时输入x_t的权值；

G_input(t)为序列为t时输入门的输出；

W_if为序列为t时输入门与序列为t时反馈门之间的权值；

G_disremember(t)为序列为t时遗忘门的输出；

W_mf为序列为t时记忆细胞与序列为t时反馈门之间的权值；

W_of为序列为t时输出门与序列为t时反馈门之间的权值；

W_yh为序列为t时输出与序列为t时隐藏层输入h_t之间的权值；

sigmoid(x)函数为

tanh(x)函数为

x_t为序列为t时的输入；

y_t为序列为t时的输出；

h_t为序列为t时隐藏层的输入；

m_t为序列为t时记忆细胞的输出；

e_f为序列为t时反馈门的偏差值；

e_i为序列为t时输入门的偏差值；

e_d为序列为t时遗忘门的偏差值；

e_m为序列为t时记忆细胞的偏差值；

e_o为序列为t时输出门的偏差值；

e_y为序列为t时输出的偏差值。

3.如权利要求2所述的语句识别方法，其特征在于，

当t为1时，参数的计算公式如下：

G_feedback(t)＝sigmoid(W_fxx_t+W_fh2h_t+1+W_fm2m_t+1+e_f)；

G_input(t)＝sigmoid(W_ifG_feedback(t)+W_ih2h_t+1+W_im2m_t+1+e_i)；

G_disremember(t)＝sigmoid(W_dfG_feedback(t)+W_dh2h_t+1+W_dm2m_t+1+e_d)；

G_output(t)＝sigmoid(W_ofG_feedback(t)+W_oh2h_t+1+W_om2m_t+1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

G_feedback(t)＝sigmoid(W_fxx_t+W_fh1h_t-1+W_fm1m_t-1+e_f)；

G_input(t)＝sigmoid(W_ih1h_t-1+W_im1m_t-1+W_ifG_feedback(t)+e_i)；

G_disremember(t)＝sigmoid(W_dh1h_t-1+W_dm1m_t-1+W_dfG_feedback(t)+e_d)；

G_output(t)＝sigmoid(W_ofG_feedback(t)+W_oh1h_t-1+W_om1m_t-1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)。

4.如权利要求2所述的语句识别方法，其特征在于，

h_{1_n}＝G_output(1_n)x m_{1_n}；

y_{1_n}＝softmax_k(W_yhh_{1_n}+e_y)；

G_output(2_1)＝sigmoid(W_ofG_feedback(2_1)+W_oh1h_{1_n}+W_om1m_{1_n}+W_oh2h_{2_2}+W_om2m_{2_2}+e_o)；

h_{2_1}＝G_output(2_1)x m_{2_1}；

y_{2_1}＝softmax_k(W_yhh_{2_1}+e_y)；

5.如权利要求1至4任一所述的语句识别方法，其特征在于，所述比较所述第一输出y₁和所述第二输出y₂是通过计算所述第一输出y₁和所述第二输出y₂的相似性；

作为优选，所述比较所述第一输出y₁和所述第二输出y₂是通过余弦相似性来计算相似性，计算公式为cosθ余弦值的范围在[-1，1]之间，值越趋近于1，第一输出y₁和第二输出y₂相应的相似度也越高。

6.一种基于LSTM神经网络的语句识别装置，其特征在于，所述装置包括：

切词获取单元，用于获取语句的切词序列，获取第一输入***和第二输入***中语句的第一切词序列x₁＝{x₁₁，x₁₂，……，x_1n}和第二切词序列x₂＝[x₂₁，x₂₂，……，x_2m}；

比较单元，用于比较所述计算单元的输出，比较所述第一输出y₁和第二输出y₂，以实现语义识别。

7.如权利要求6所述的语句识别装置，其特征在于，所述网络模型建立单元中的每个双向LSTM神经网络模型包括：输入、输入门、遗忘门、记忆细胞、tanh函数、隐藏层、反馈部、输出门；其中，在输入的序列为t时，参数的计算公式如下：

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

其中，

G_feedback(t)为序列为t时反馈门的输出；

W_fx1为序列为t时反馈门与序列为t时输入x_t的权值；

G_input(t)为序列为t时输入门的输出；

W_if为序列为t时输入门与序列为t时反馈门之间的权值；

G_disremember(t)为序列为t时遗忘门的输出；

W_mf为序列为t时记忆细胞与序列为t时反馈门之间的权值；

W_of为序列为t时输出门与序列为t时反馈门之间的权值；

W_yh为序列为t时输出与序列为t时隐藏层输入h_t之间的权值；

sigmoid(x)函数为

tanh(x)函数为

x_t为序列为t时的输入；

y_t为序列为t时的输出；

h_t为序列为t时隐藏层的输入；

m_t为序列为t时记忆细胞的输出；

e_f为序列为t时反馈门的偏差值；

e_i为序列为t时输入门的偏差值；

e_d为序列为t时遗忘门的偏差值；

e_m为序列为t时记忆细胞的偏差值；

e_o为序列为t时输出门的偏差值；

e_y为序列为t时输出的偏差值。

8.如权利要求7所述的语句识别装置，其特征在于，所述网络模型建立单元中参数计算时，

当t为1时，参数的计算公式如下：

G_feedback(t)＝sigmoid(W_fxx_t4W_fh2h_t+1+W_fm2m_t+1+e_f)；

G_input(t)＝sigmoid(W_ifG_feedback(t)+W_ih2h_t+1+W_im2m_t+1+e_i)；

G_disremember(t)＝sigmoid(W_dfG_feedback(t)+W_dh2h_t+1+W_dm2m_t+1+e_d)；

G_output(t)＝sigmoid(W_ofG_feedback(t)+W_oh2h_t+1+W_om2m_t+1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)；

G_feedback(t)＝sigmoid(W_fxx_t+W_fh1h_t-1+W_fm1m_t-1+e_f)；

G_input(t)＝sigmoid(W_ih1h_t-1+W_im1m_t-1+W_ifG_feedback(t)+e_i)；

G_disremember(t)＝sigmoid(W_dh1h_t-1+W_dm1m_t-1+W_dfG_feedback(t)+e_d)；

G_output(t)＝sigmoid(W_ofG_feedback(t)+W_oh1h_t-1+W_om1m_t-1+e_o)；

h_t＝G_output(t)x m_t；

y_t＝softmax_k(W_yhh_t+e_y)。

9.如权利要求7所述的语句识别装置，其特征在于，所述网络模型建立单元中参数计算时，

h_{1_n}＝G_output(1_n)x m_{1_n}；

y_{1_n}＝softmax_k(W_yhh_{1_n}+e_y)；

h_{2_1}＝G_output(2_1)x m_{2_1}；

y_{2_1}＝softmax_k(W_yhh_{2_1}+e_y)；

10.如权利要求6至9任一所述的的语句识别装置，其特征在于，所述比较单元中比较所述第一输出y₁和所述第二输出y₂是通过计算所述第一输出y₁和所述第二输出y₂的相似性；

作为优选，所述比较单元中比较所述第一输出y₁和所述第二输出y₂是通过余弦相似性来计算相似性，计算公式为cosθ余弦值的范围在[-1，1]之间，值越趋近于1，第一输出y₁和第二输出y₂相应的相似度也越高。