CN108595409A

CN108595409A - 一种基于神经网络的需求文档和服务文档匹配方法

Info

Publication number: CN108595409A
Application number: CN201810217155.9A
Authority: CN
Inventors: 邹祥文; 吴悦
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2018-09-28

Abstract

本发明涉及一种基于神经网络的需求文档和服务文档匹配方法。本发明利用需求文档和服务文档结构，通过对文档进行提取，利用段落嵌入将文档转化为向量，通过长短期记忆神经网络对文章进行分割，在分割文本上利用卷积神经网络计算相似度，求得所有分割文档的相似度后计算加权平均值；最终得到需求文档和服务文档的相似度。

Description

一种基于神经网络的需求文档和服务文档匹配方法

技术领域

本发明涉及计算机自然语言处理领域，主要针对于需求文档和服务文档的匹配，具体涉及一种基于神经网络的需求文档和服务文档匹配方法。

背景技术

随着互联网迅速发展和普及，现代企业生产方式变成以技术为基础的互相协作。为了寻找相互协作的企业，需求方编写符合企业需求的需求文档，而技术方编写企业技术能力对应的服务文档，通过连接互联网，加快发现协作企业，减少企业时间和人力成本。

企业需求文档包含企业需要解决的问题以及解决该问题时需要达到的指标，企业服务文档则包含概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划。如何通过需求文档和服务文档快速为企业寻找合作伙伴成为当下一个热点和难点。

目前常用的文档匹配方法通过将文本转化为文档向量空间模型(Vector SpaceModel,VSM)，在逆文档频率(Term Frequency–Inverse Document Frequency Model,TF-IDF)模型的基础上通过距离函数计算两个文档的相似度，距离越小就越相似。由于需求文档可能会包含需要合作企业同时满足的几项需求，而服务文档可能会列举企业目前能够最大程度提供的技术服务，服务文档需要满足需求文档中绝大多数或者全部的情况下才是正确的匹配，目前的匹配方法在这方面还存在不足。

发明内容

为了克服目前的匹配方法在需求文档和服务文档匹配上的不足，提高需求文档和服务文档匹配的准确率，本发明提出了一种基于神经网络的需求文档和服务文档匹配方法，利用需求文档和服务文档的内容的特殊性，提取文档内容，在更细粒度进行匹配，最后综合得出匹配结果。

为达到上述目的，本发明采用下述技术方案：

步骤1：输入一篇需求文档和一篇服务文档作为待匹配文档，需求文档包含企业需要解决的问题以及解决该问题时需要达到的指标，服务文档则包含概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划；

步骤2：根据文档内容判断输入文档是需求文档或服务文档；

步骤2.1：包括企业需要解决的问题以及解决该问题时需要达到的指标部分则是需求文档，提取企业需要解决的问题以及解决该问题时需要达到的指标部分；

步骤2.2：包括概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划部分则是服务文档，提取概述解决该难题技术的方法、解决过类似项目的经验、承接本项目具备的技术储备、所获得的相关专利、拟采取的研究方法、主要实现的技术指标和项目进度计划部分；

步骤2.3：最终的需求文档和服务文档的相似度要对所有需求文档提取部分与所有服务文档提取部分计算相似度，以下取需求文档的需要解决的问题和服务文档的概述解决该难题技术的方法为例；

步骤3：对需求文档的需要解决的问题部分和服务文档的概述解决该难题技术的方法部分中的句子进行段落嵌入(Paragraph Embedding,PE)处理，获得句子向量；

步骤4：通过长短期记忆网络(Long Short-Term Memory,LSTM)判断文档分割点；

步骤4.1：将获得的句子向量输入训练好的长短期记忆网络(Long Short-TermMemory,LSTM)中，由长短期记忆网络输出结果判断前一句子是否是一个分割点；

步骤4.2：根据分割点将一个部分分割成意思不同的几段文本，对需求文档的问题部分就是一个个需求，服务文档的解决部分就是一个个方法。

步骤5：根据处理结果类型构造相似度模型输入；

步骤5.1：如果是需求文档，则将一个需求的所有句子通过PE模型处理后得到句子向量构成一个矩阵，同时取一个方法的所有句子向量构成另一个矩阵；

步骤5.2：如果是服务文档，则将一个方法的所有句子通过PE模型处理后得到句子向量构成一个矩阵，同时取一个需求的所有句子向量构成另一个矩阵；

步骤6：将两个矩阵作为输入通过训练好的卷积神经网络(Convolutional NeuralNetworks,CNNs)计算相似度，每个需求交叉的和每个方法计算相似度，对每个需求取相似度最大的值作为这一需求的最终值；

步骤7：对相似度值加权平均获得最终相似度；

步骤7.1：获取每个需求最终值后求加权平均值作为需求文档的需要解决的问题最终相似度值；

步骤7.2：上述步骤以需求文档的需要解决的问题和服务文档的概述解决该难题技术的方法为例，需求文档包含需要解决的问题以及解决该问题时需要达到的指标部分，根据上述方法再求得需求文档解决该问题时需要达到的指标部分相似度，求两部分加权平均值作为需求文档和服务文档最终相似度；

步骤8：最终相似度和预设阈值相比较，大于阈值则两篇文档匹配，小于阈值则两篇文档不匹配。

其中，步骤4所述的分割点是指文档的前一句和后一句所述意思不相同，则前一句是一个分割点。长短期记忆网络历史信息更新公式为：

C_t＝0(when h_t-1→1)

其中C_t时长短期记忆网络t时刻的历史信息，h_t-1是上一个状态的输出。

更新历史信息时，如果前一时间得到的输出是分割点，则将C_t更新为0，不是分割点则不处理。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著技术进步：通过文本分割方法对需求文档和服务文档进行分割，获得具体的需求和服务，最后基于具体的需求和服务计算匹配度，解决了需求文档和服务文档匹配时需要大部分或者全部满足的问题。将出现的指标信息单独构造一维加入原始输入矩阵，解决了需求文档和服务文档中指标信息对匹配结果的影响。在求得各分割文档相似度后又进行了交叉匹配，取最佳匹配结果，解决了因用户习惯不同对匹配结果的影响。

附图说明

图1为本发明流程图。

图2为本发明相似度计算模型卷积网络图。

图3为本发明相似度计算模型中卷积操作图。

图4为本发明相似度计算模型中相似度层图。

图5为本发明交叉匹配图。

具体实施方式

实施例1

下面结合本发明中的附图，对本发明的技术方案进行清晰、完整地描述。

本发明提出了一种需求文档和服务文档匹配发明，具体流程图如图1所示具体实施步骤如下：

步骤2：根据文档内容判断输入文档是需求文档或服务文档；

在词嵌入(Word Embedding,WE)模型中，每个单词都能被映射到文档矩阵W中惟一一列，列的索引就是单词在词汇中的位置，然后将词向量级联起来就能预测句子中的下一个单词。给定一个单词序列w₁，w₂，w₃，…，w_T，词嵌入模型的目标就是最大化平均log概率，计算公式如式(I)所示：

其中概率p是正确预测下一词的概率。

预测任务通过多分类器来完成，例如softmax分类器，计算公式如式(Ⅱ)所示：

对于每一个输入单词i，y_i是非归一化对数概率，计算公式如式(Ⅲ)所示：

y＝b+Uh(w_t-k，…，w_t+k；W)(Ⅲ)

其中U和b是softmax分类器的参数，h由从W提取的单词矢量的连接或平均值构成。

PE模型的灵感来自于WE，段落嵌入也能够用来预测句子中的下一单词。每一个段落单词被映射到矩阵D中惟一一列，而每个单词被映射到矩阵W中惟一一列。和WE模型相比，PE模型唯一变化在公式(Ⅲ)，h由从W提取的单词矢量的连接或平均值构成变成由W和D构成。

LSTM网络包含三种门结构：遗忘门(Forget Gate)、输入门(Input Gate)和输出门(Output Gate)。每个门作用不同，具体作用如下：

遗忘门：遗忘门用来对保存的历史信息进行处理。遗忘门运算使用当前输入信息和上一时间状态，然后通过一层sigmoid层，输出范围[0,1]，当输出为0，舍弃历史信息，当输入为1时，保留历史信息。判断丢弃与否使用公式(Ⅳ)：

f_t＝σ(W_f[h_t-1，x_t]+b_f)(IV)

其中σ代表sigmoid函数，x是由PE模型处理后得到了向量，h代表输出结果，判断是否是分割点，w是长短期记忆网络连接参数，b是偏置值，f决定我们在t时刻要遗忘的信息。

输入门：输入门决定对历史信息怎样更新。输入门可以对输入信息运算后得知是否将当前输入更新到历史信息中。包含一个sigmoid层和一个tanh层，sigmoid层决定我们将更新什么，tanh层产生新的候选值。计算公式如式(Ⅴ)和式(Ⅵ)所示：

i_t＝σ(W_f[h_t-1，x_t]+b_i)(V)

其中i决定更新的数值，h代表输出结果，判断是否是分割点，w是长短期记忆网络连接参数，b是偏置值，C_t是长短期记忆网络t时刻的历史信息。

从遗忘门获取了历史信息，从输入门获取了更新候选键，使用如(Ⅶ)公式更新历史信息：

其中C是长短期记忆网络的历史信息，f由公式(Ⅳ)计算所得，决定了t时刻要遗忘的信息，i由公式(Ⅴ)计算所得，决定了更新的数值。

输出门：输出门用来控制当前节点输出信息。首先会通过一个sigmoid层来决定输出那些信息，然后与tanh层输出相乘得到输出。计算公式如式(Ⅷ)和式(Ⅸ)所示：

o_t＝σ(W_f[h_t-1，x_t]+b_o)(VIII)

h_t＝o_t*tanh(C_t)(IX)

其中σ代表sigmoid函数，x是由PE模型处理后得到了向量，h代表输出结果，判断是否是分割点，w是长短期记忆网络连接参数，b是偏置值。

获取LSTM输出后，通过一层sigmoid层，使得输出处于[0,1]之间，当输出接近1时，代表前一节点是分割点，反之则是连续点。

使用公式(Ⅹ)更新历史信息时，如果前一时间得到的输出是分割点，则将Ct更新为0，不是分割点则不处理。

C_t＝0(when h_t-1→1)(X)

公式(Ⅳ)到(Ⅹ)中σ代表sigmoid函数，x代表输入，h代表输出，判断是否是分割点w代表连接参数，b代表偏置值。

步骤5：根据处理结果类型构造相似度模型输入；

本发明中CNNs模型如图2所示。

CNNs网络一般分为输入层，输出层，卷积层和全连接层。

输入层：输入层直接作用于输入矩阵，本发明中是经过PE模型处理后的分割文本句子矩阵。

输出层：经过CNNs处理后的输出，本发明输出是两段文本的相似度。

卷积层：对输入进行特征提取。由卷积层和采样层组成。卷积层作用是提取输入数据的特征，不同卷积核提取到的特征不同。采样层作用是减少数据的同时还要保留下重要信息，以加快处理速度，同一层的采样神经元共享权值。采样层采用了sigmoid函数作为激活函数，使得采样层具有位移不变性。

获取分割文本之后，对于文本进行分词处理，留下TF-IDF高的词，由于需求和服务中经常含有指标信息，因此本文还会留下所有数字，使用PE模型对分割后文本每个句子进行处理，将所得句子向量组合成矩阵，数字重复后作为单独的一维。

需求文档和服务文档形成的矩阵先经过各自卷积层，卷积处理后再连接一层相似度层，最后通过一层全连接层输出相似度。

为了尽可能多的获取文本的特征，使用两种卷积操作，如图3所示：左边的窗口大小为2，整个单词向量。右边窗口大小也为2时每次只包括单词向量的一个维度。实际实验中，窗口大小采用了1，Dim/2和∞三种

经过采样层时，对于两种卷积所获得的结果分别使用最大值池化、最小值池化和均值池化，不同池化方法能够收集到不同的信息，方便进行后面的处理。

相似度层使用的相似度发明是余弦相似度。由于使用了最大值、最小值和均值三种池化方法，因此，它们要相互求取相似度，由于采样之后结果是矩阵，因此对于每个矩阵，每一行都与另一矩阵每一行求相似度，每一列都与另一矩阵每一列求相似度，如图4所示。比如假设最大值池化后结果是一个N×M的矩阵。矩阵的第i行要和另一个矩阵的N行求取相似度，矩阵的第M列要和另一矩阵的第j列求取相似度，最终求得的结果作为相似度层，同时还要对整个矩阵和另一个矩阵求一次相似度，由于对行和列求相似度的结果比对整个矩阵求相似度结果多，因此复制对整个矩阵求得的相似度结果，使得三者权重相等，最终连接一个全连接层输出相似度结果。

全连接层：和传统神经网络中全连接层一样，本发明在输出之前使用一层全连接层。

步骤7：对相似度值加权平均获得最终相似度；

最终相似度计算是在需求文档每一个部分的分割结果和服务文档每个部分的分割结果上进行的，如图5所示，由于需求文档仅有两个部分，即需要解决的问题以及解决该问题时需要达到的指标，因此每个部分进行文本分割后都会与服务文档每个部分分割后的结果交叉求相似度，取交叉结果的最大值作为该部分匹配值，比如需求文档的需要解决的问题部分分割出N个片段，服务文档概述解决该难题技术的方法部分分割出M个结果，交叉计算后有N×M个匹配结果，对需求文档每个部分取相似度最大的值作为这一部分的最终值，获取需求文档所有部分最终值后求加权平均值作为需求文档的需要解决的问题最终相似度值。同理，需求文档的需要解决的问题部分和服务文档所有部分求最佳交叉结果。

上述步骤以需求文档的需要解决的问题和服务文档的概述解决该难题技术的方法为例，需求文档包含需要解决的问题以及解决该问题时需要达到的指标部分，根据上述方法再求得需求文档解决该问题时需要达到的指标部分相似度，求两部分加权平均值作为需求文档和服务文档最终相似度。

其中，所述步骤4中的分割点是指文档的前一句和后一句所述意思不相同，则前一句是一个分割点。所述的长短期记忆网络的历史信息更新公式为：

C_t＝0(when h_t-1→1)

其中C_t是长短期记忆网络t时刻的历史信息，h_t-1是上一个状态的输出，判断是否是分割点。

Claims

1.一种基于神经网络的需求文档和服务文档匹配方法，其特征在于操作步骤如下：

步骤2：根据文档内容判断输入文档是需求文档或服务文档；

步骤3：对需求文档的需要解决的问题部分和服务文档的概述解决该难题技术的方法部分中的句子进行段落嵌入处理，获得句子向量；

步骤4：通过长短期记忆网络判断文档分割点；

步骤4.1：将获得的句子向量输入训练好的长短期记忆网络中，由长短期记忆网络输出结果判断前一句子是否是一个分割点；

步骤5：根据处理结果类型构造相似度模型输入；

步骤6：将两个矩阵作为输入通过训练好的卷积神经网络计算相似度，每个需求交叉的和每个方法计算相似度，对每个需求取相似度最大的值作为这一需求的最终值；

步骤7：对相似度值加权平均获得最终相似度；

2.根据权利要求1所述的基于神经网络的需求文档和服务文档匹配方法,其特征在于：

所述步骤4中的分割点是指文档的前一句和后一句所述意思不相同，则前一句是一个分割点。所述的长短期记忆网络的历史信息更新公式为：

C_t＝0(when h_r-1→1)

其中C_t时长短期记忆网络t时刻的历史信息，h_t-1是上一个状态的输出,判断是否是分割点；