CN106484664B

CN106484664B - 一种短文本间相似度计算方法

Info

Publication number: CN106484664B
Application number: CN201610920608.5A
Authority: CN
Inventors: 简仁贤; 陈秀龙
Original assignee: Intelligent Technology (shanghai) Co Ltd
Current assignee: Intelligent Technology (shanghai) Co Ltd
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2019-03-01
Anticipated expiration: 2036-10-21
Also published as: CN106484664A

Abstract

本发明公开了一种短文本间相似度计算方法，获取语料数据，对语料数据进行预处理，得到训练语料；根据训练语料，得到关键词提取模型，利用分词工具对训练语料分词，并用word2vec训练获得词向量集；获得用户输入文本和候选问答对的问题，分别得到分词结果和关键词提取结果；根据分词结果和关键词提取结果，通过词向量集计算出候选问答对的问题和用户输入文本的词向量，通过词向量获得句向量，计算两个句向量间的相似度；通过用户输入的文本和候选问答对的问题中包含的信息进行相似度的修正，得到修正后的相似度。本发明通过对用户输入和候选问答对的问题句向量间的余弦相似度计算，并通过句子的句型、命名实体和代词修正相似度。

Description

一种短文本间相似度计算方法

技术领域

本发明涉及互联网技术领域，尤其涉及智能人机对话领域。

背景技术

随着人类社会信息化的不断演进以及人工服务成本的不断上升，人们越来越希望通过自然语言与计算机进行交流，人机智能聊天***成为这样的历史背景下诞生的产物。

在现有的人机对话***主要有两种实现方法，一种是检索模型，另一种是生成模型。检索模型把一轮人机对话当成是一次信息检索的过程，通过事先准备好一定数据量问答对，并将问答对(它由一个问题和若干个答案组成)中的问题建立好索引。当用户输入一句或若干句话时，就把它当成一次检索，在所有候选问答对中找到与它语义最相近的问题，然后将该问题的答案返回给该用户，完成一轮人机对话。因此要想获得较合适的答案关键就在于如何找到与用户的输入语义最相似的问题。由于在人机对话***中用户输入和候选问答对中的问题通常是由一句或若干短句组成的短文本，所以就将问题落在了短文本间相似度计算上。

现有技术中，计算短文本间相似度的方法就是将用户输入和候选问答对的问题各自转换相同维数的句子向量，向量的每个维度值是该用户输入或者候选问答对的问题中各自的词语(或称为分词)的TF*IDF值，然后通过如计算余弦相似度来衡量两者之间的相似性来对所有候选问答对排序，该方法是搜索引擎中常见的方法。但使用向量的TF*IDF计算余弦相似度来找最相似的问题的方法只考虑了句子之间的文本相似度，即字面上有多少重复的分词来判断句子间相似度，这显然是不够的，比如“我很困”与“我想睡觉”语义是一样的但字面上几乎没有太多重复的词，该方法就无法应对这种情况。另外，由于人机对话***通常使用的是短句，因此TF基本上为1，无太大作用，这也会影响该方法的效果。

因此现有技术中的缺陷是，通过分词的TF*IDF值计算用户输入与候选问答对的问题的词向量的余弦相似度，只考虑了句子之间的文本相似度，即只可以通过字面上有多少重复的分词来判断句子的相似度，这样会使相似度的判断十分不准确，直接导致人机对话***中回复用户的信息是不准确的。

发明内容

本发明要解决的技术问题是提供一种短文本间相似度计算方法，采用了对用户输入或者候选问答对的问题进行分词和关键词提取，获得对应的词向量，根据词向量，计算获得对应的句向量，然后计算得到两个句向量间的相似度，最后通过句子的句型、命名实体和代词对相似度进行修正，使相似度变得更准确，进而提高了人机对话***中回复用户的准确性。

为解决上述技术问题，本发明提供的技术方案是：

本发明提供一种短文本间相似度计算方法，包括：

步骤S1，获取语料数据，对所述语料数据进行预处理，得到训练语料；

步骤S2，根据所述训练语料，得到关键词提取模型，利用分词工具对所述训练语料分词，并用word2vec训练获得词向量集；

步骤S3，获得用户输入文本和候选问答对的问题，对所述候选问答对的问题和所述用户输入文本通过所述分词工具分别进行分词，对所述候选问答对的问题和所述用户输入文本分别通过所述关键词提取模型进行关键词提取，得到所述候选问答对的问题的分词结果和关键词提取结果，及所述用户输入文本的分词结果和关键词提取结果；

步骤S4，根据所述候选问答对的问题的分词结果和关键词提取结果，通过所述词向量集获得所述候选问答对的问题的词向量，根据所述用户输入文本的分词结果和关键词提取结果，通过所述词向量集获得所述用户输入文本的词向量；

步骤S5，根据所述候选问答对的问题的词向量，计算获得所述候选问答对的问题的句向量，根据所述用户输入文本的词向量，计算获得所述用户输入文本的句向量；

步骤S6，根据所述候选问答对的问题的句向量和所述用户输入文本的句向量，计算两个句向量间的相似度；

步骤S7，根据所述句向量间的相似度，通过所述用户输入的文本和所述候选问答对的问题中包含的信息进行相似度的修正，得到修正后的相似度。

本发明是一种短文本间相似度计算方法的技术方案为先获取语料数据，对所述语料数据进行预处理，得到训练语料，根据所述训练语料，得到关键词提取模型，利用分词工具对所述训练语料分词，并用word2vec训练获得词向量集；获得用户输入文本和候选问答对的问题，对所述候选问答对的问题和所述用户输入文本通过所述分词工具分别进行分词，对所述候选问答对的问题和所述用户输入文本分别通过所述关键词提取模型进行关键词提取，得到所述候选问答对的问题的分词结果和关键词提取结果，及所述用户输入文本的分词结果和关键词提取结果；接着根据所述候选问答对的问题的分词结果和关键词提取结果，通过所述词向量集获得所述候选问答对的问题的词向量，根据所述用户输入文本的分词结果和关键词提取结果，通过所述词向量集获得所述用户输入文本的词向量；根据所述候选问答对的问题的词向量，计算获得所述候选问答对的问题的句向量，根据所述用户输入文本的词向量，计算获得所述用户输入文本的句向量；根据两个句向量，计算两个句向量间的相似度；最后根据所述句向量间的相似度，通过所述用户输入的文本和所述候选问答对的问题中包含的信息进行相似度的修正，得到修正后的相似度。

本发明是一种短文本间相似度计算方法采用了对用户输入文本和候选问答对的问题进行分词和提取关键词的处理，然后根据分词和关键词计算用户输入文本和候选问答对的问题的词向量，然后分别计算这两个词向量，得到用户输入文本和候选问答对的问题的句向量，最后通过计算得到两个句向量间的余弦相似度，进一步通过用户输入的文本和候选问答对的问题中包含的信息对相似度进行修正，得到更加准确的相似度，使人机对话***中，回复用户的回答更准确。

进一步地，所述用户输入的文本和所述候选问答对的问题中包含的信息为文本句型、命名实体和人称代词，所述命名实体包括地名和机构名称。

根据用户输入的文本和候选问答对的问题的句向量，计算两个句向量间的相似度，这种方法获得的相似度在多数情况下是准确的，但在需要考虑句型、命名实体及人称代词等情况下只根据两个句向量间的相似度作为判断文本的语义是否相似的依据仍不够准确，因此要对相似度进行修正，本发明还分析用户输入的文本和候选问答对的问题的信息，就是对文本中的句型，命名实体和人称代词进行分析，进一步修正相似度，进而提高人就对话***回复用户问题的准确性。

进一步地，所述步骤S2中，获得所述关键词提取模型包括：

步骤S21，获得关键词训练语料，根据所述关键词训练语料，进行分词，得到分词结果；

步骤S22，根据所述分词结果，通过人工标注的方式标注所述分词结果中的关键词，得到人工标注后的关键词训练语料；

步骤S23，根据所述人工标注后的关键词训练语料，通过最大熵训练得到关键词提取模型。

通过关键词提取模型可以提取分词中的关键词，即分词包含关键词，因为关键词更能代表文本的语义，所以提取分词中的关键词，结合关键词会比只使用分词计算的相似度更加精确。为了训练关键词提取模型，先获得关键词训练语料，这些关键词语料可以和词向量的训练语料不同，然后通过人工标注的方法在分词中标注出关键词，通过最大熵的方法建立训练模型，任何新的未标注的文本输入到这个模型中，该模型会自动输出哪些是关键词哪些不是关键词，以此获得关键词集，以帮助提高句向量间的相似度。

进一步地，所述关键词提取模型为一个2分类的分类器。上述提取关键词的模型是一个2分类的分类器，通过这个分类器可以预测句子中哪些词为关键词，提高提取关键词的准确性。

进一步地，所述词向量集通过word2vec模型训练得到。word2vec训练工具是一种神经网络模型，这种模型训练方法获得的词向量的语义是通过和它经常一起出现就越相似，就是说这种模型训练方法获得的词向量的语义信息是根据词的共现来捕获。通过word2vec模型训练得到词向量，再结合关键词的信息可以计算得到更准确的句向量，使相似度更精确。

进一步地，所述候选问答对的问题的词向量和所述用户输入文本的词向量维数相同。词向量的维数要相同，这样才方便下面计算分词向量的平均值，关键词词向量的平均值，然后再经计算得到相应的候选问答对问题的句向量和用户输入文本的句向量，最后计算出这两个句向量间的相似度，因此，得到的词向量的维数要相同，得到词向量的维数要相同。

进一步地，所述命名实体和人称代词通过字典方法获得。对相似度进行修正可以通过命名实体和人称代词，命名实体中本发明主要考虑地名或机构名。命名实体的修正是为了解决如地名的不同直接导致两句话语义不相似，如“北京有什么好吃的”与“天津有什么好吃的”，这两句话除了地名不同，语义是相似的，因此需要通过命名实体对相似度的修正，可以根据句子中出现的地名或机构名是否一致直接判断出两句话的相似度，提高了对句子间相似度的判断。因此本发明使用字典方法，字典文件包含中国主要地级市，且每个地名间相互独立无包含关系。

进一步地，所述语料数据通过网络爬虫技术获得。通过爬虫技术获得大量语料，爬虫技术是一种自动获取网页内容的程序，通过爬虫获得一些贴吧、问答社区、论坛、微博、百科、新闻等特别是内容较长语义信息丰富同时又比较口语化的帖子及回复等作为训练语料，使得语料信息全面丰富，语料的选择会影响到训练模型的好坏，最终影响相似度。

进一步地，所述句向量间的相似度通过余弦相似度的方法计算。根据两个句向量间的余弦计算方法计算两个句向量间的余弦值，余弦值越接近1，就表明夹角越接近0度，也就是两个句向量越相似。余弦计算方法快速简单，可提高***性能。

进一步地，所述分词工具为汉语言处理工具包hanlp。通过分词工具对训练语料进行分词，本发明选用的分词工具是hanlp(Han Language Processing)，hanlp是开源自由的汉语言处理包，是由一系列模型与算法组成的Java工具包，可以实现中文分词，关键词提取，索引分词等一系列功能，还具有提供词法分析、句法分析、语义理解等完备的功能。hanlp具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。因此本发明选用hanlp作为分词工具。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1示出了本发明第一实施例所提供的一种短文本间相似度计算方法的流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

实施例一

图1示出了本发明第一实施例所提供的一种短文本间相似度计算方法的流程图。如图1所示，根据本发明第一实施例的短文本间相似度计算方法包括：

步骤S1，获取语料数据，对语料数据进行预处理，得到训练语料；

步骤S2，根据训练语料，得到关键词提取模型，利用分词工具对训练语料分词，并用word2vec训练获得词向量集；

步骤S3，获得用户输入文本和候选问答对的问题，对候选问答对的问题和用户输入文本通过分词工具分别进行分词，对候选问答对的问题和用户输入文本分别通过关键词提取模型进行关键词提取，得到候选问答对的问题的分词结果和关键词提取结果，及用户输入文本的分词结果和关键词提取结果；

步骤S4，根据候选问答对的问题的分词结果和关键词提取结果，通过词向量集计算出候选问答对的问题的词向量，根据用户输入文本的分词结果和关键词提取结果，通过词向量集计算出用户输入文本的词向量；

步骤S5，根据候选问答对的问题的词向量，计算获得候选问答对的问题的句向量，根据用户输入文本的词向量，计算获得用户输入文本的句向量；

步骤S6，根据候选问答对的问题的句向量和用户输入文本的句向量，计算两个句向量间的相似度；

步骤S7，根据句向量间的相似度，通过用户输入的文本和候选问答对的问题中包含的信息进行相似度的修正，得到修正后的相似度。

本发明是一种短文本间相似度计算方法的技术方案，先获取语料数据，对语料数据进行预处理，得到训练语料，根据训练语料，得到关键词提取模型，利用分词工具对训练语料分词，并用word2vec训练获得词向量集；获得用户输入文本和候选问答对的问题，对候选问答对的问题和用户输入文本通过分词工具分别进行分词，对候选问答对的问题和用户输入文本分别通过关键词提取模型进行关键词提取，得到候选问答对的问题的分词结果和关键词提取结果，及用户输入文本的分词结果和关键词提取结果；接着根据候选问答对的问题的词向量，计算获得候选问答对的问题的句向量，根据用户输入文本的词向量，计算获得用户输入文本的句向量；根据候选问答对的问题的句向量和用户输入文本的句向量，计算两个句向量间的相似度；根据句向量间的相似度，通过用户输入的文本和候选问答对的问题中包含的信息进行相似度的修正，得到修正后的相似度。

本发明是一种短文本间相似度计算方法，采用了对用户输入文本和候选问答对的问题进行分词和提取关键词的处理，然后根据分词和关键词及词向量集获得用户输入文本和候选问答对的问题的词向量，然后分别计算这两者的词向量，得到用户输入文本和候选问答对的问题的句向量，最后通过计算得到两个句向量间的余弦相似度，进一步通过用户输入的文本和候选问答对的问题中包含的信息对相似度进行修正，得到更加准确的相似度，使人机对话***中，回复用户的回答更准确。

具体地，语料数据通过网络爬虫技术获得。通过爬虫技术获得大量语料，爬虫技术是一种自动获取网页内容的程序，通过爬虫获得一些贴吧、问答社区、论坛、微博、百科、新闻等特别是内容较长语义信息丰富同时又比较口语化的帖子及回复等作为训练语料，使得语料信息全面丰富，语料的选择会影响到训练模型的好坏，也就直接影响分词和关键词提取及词向量集，最终影响相似度。

还要对爬到的语料数据进行预处理，得到训练语料，主要是对非中文内容、黄色信息和广告等做了一定的过滤。之后将同一内容的多段文字拼接成一行，繁体字转成简体字，再做分词，将标点符号去掉并用空格代替。

语料数据预处理后，具体地，通过word2vec模型训练得到每个词的词向量。word2vec训练工具是一种神经网络模型，这种模型训练方法获得的词向量的语义信息是根据词的贡献来捕获的。通过word2vec模型训练得到词向量集，再结合关键词的信息可以计算得到更准确的句向量，使相似度更精确。

通过训练语料获得关键词提取模型。要先对训练语料进行分词，然后再由人工去标注句子中的关键词(未被标注的即为非关键词)，然后用最大熵训练一个2分类的分类器。用户输入文本与候选问答对的问题在分词后输入关键词抽取模型，模型会对每个分词做一个2分类，预测是否为关键词，以此便可获得各自的关键词集。为了进一步提升***性能，所有问答对中的问题的分词和关键词提取可以提前做好。通过分词工具和关键词提取模型得到用户输入文本和问答对中的问题对应的分词和关键词。进而通过word2vec的词向量集得到用户输入文本和问答对中的问题中每个词对应的词向量。

计算用户输入文本和问答对中的问题对应的句向量，计算方法都是0.8*(所有分词的词向量的平均值)+0.2*(关键词词向量的平均值)。向量的平均值就是把各个向量的对应维度值相加然后除以向量个数。另外分词包含了关键词，所以这种计算方法是对关键词进行加权，因为关键词更能代表文本的语义。0.8与0.2的权重是通过多次试验得出的结论。由于词向量都是300维，所以用户输入与候选问答对中的问题的句向量也都为300维。

具体地，分词工具为汉语言处理工具包hanlp。通过分词工具对训练语料进行分词，本发明选用的分词工具是hanlp(Han Language Processing)，hanlp是开源自由的汉语言处理包，是由一系列模型与算法组成的Java工具包，可以实现中文分词，关键词提取，索引分词等一系列功能，还具有提供词法分析、句法分析、语义理解等完备的功能。hanlp具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。因此本发明选用hanlp作为分词工具。

得到用户输入文本和问答对中的问题对应的句向量后，要计算句向量间的相似度，通过余弦相似度的方法计算，它的值域是[0,1]。根据两个向量间的余弦计算方法计算两个向量间的余弦值，余弦值越接近1，就表明夹角越接近0度，也就是两个句向量越相似。余弦计算方法快速简单，可提高***性能。

本发明最主要的是通过用户输入文本和候选问答对的问题中包含的信息对相似度进行修正，此信息主要包括文本句型、命名实体和人称代词，命名实体本发明主要考虑地名和机构名称等。这些信息在所述中的句向量相似度中并未考虑，因此需要利用此信息进行修正。

根据日常对话经验及实验结果来看，结合以下三种情况对相似度进行修正：

第一种情况，根据文本句型对相似度进行修正。

当用户输入的文本信息是“是非问句”时，例如：“你昨天去过天坛吗？”，或者“正反问句”，例如：“你有没有去过天坛？”，通常和“陈述句”类型的问答对的问题语义上相差大，即如果用户输入的短文本是“是非问句”或“正反问句”的句型，而候选问答对中的问题为“陈述句”时，所得相似度需进一步减小，同理若用户输入为“陈述句”而候选问答对的问题为“是非问句”或“正反问句”时，所得相似度需减小(具体减小比例需根据***使用的问答对这个语料及通过实验来决定，本发明根据现有语料和实验，建议相似度减小30％左右)。

类似还有“肯定句”与“否定句”。***实现上使用语言学规则用句型模板来判断句型。

第二种情况，根据命名实体对相似度进行修正。

如果用户输入文本和候选问答对中的问题各自包含一个同类型的命名实体(如都有一个地名，或都有一个机构名)，但两者包含地名不同且地名间无包含关系(如北京与海淀区就属于包含关系)时，所得相似度需减小(具体减小比例需要根据***使用语料及通过实验来决定，本发明根据现有语料和实验，建议相似度减小50％左右)。实现上，为了控制解决的问题的边界和***运行效率，本发明使用字典方法，字典文件包含中国主要地级市，每个地名间相互独立无包含关系。这样就避免了因为在训练语料中地名相关导致计算出的语义相似度过高(如“北京有什么好吃的？”与“上海有什么好吃的？”，“北京”与“上海”经常在训练语料中一起出现，它们的词向量很相关，但这两个句子语义相差大)。机构名也类似处理。

第三种情况，根据人称代词对相似度进行修正。

如果用户输入文本和候选问答对中的问题各自包含一个代词，如用户输入文本为“我今天去天坛玩了”与候选问答对中的问题为“他今天去天坛玩了”，此时，两句话中的人称代词存在差异，所得相似度需进一步减小(具体减小比例需要根据***使用语料及通过实验来决定，本发明根据现有语料和实验，建议相似度减小50％左右)。实现上也使用字典方法，字典文件包含常用代词。

需要说明的是，本发明中通过以上三种方式修正相似度，还可以通过其他方式判断文本的语义，进一步修正相似度。

本发明通过以上方法可以较准确地计算人机对话***中的这种短文本间的语义相似度的准确性，更好地充分利用有限的问答对资料，提高人机对话***的用户体验。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种短文本间相似度计算方法，其特征在于，包括：

步骤S7，根据所述句向量间的相似度，通过所述用户输入文本和所述候选问答对的问题中包含的信息进行相似度的修正，得到修正后的相似度。

2.根据权利要求1所述短文本间相似度计算方法，其特征在于，

所述用户输入的文本和所述候选问答对的问题中包含的信息为文本句型、命名实体和人称代词，所述命名实体包括地名和机构名称。

3.根据权利要求1所述短文本间相似度计算方法，其特征在于，

所述步骤S2中，获得所述关键词提取模型包括：

4.根据权利要求1所述短文本间相似度计算方法，其特征在于，

所述关键词提取模型为一个2分类的分类器。

5.根据权利要求1所述短文本间相似度计算方法，其特征在于，

所述候选问答对的问题的词向量和所述用户输入文本的词向量维数相同。

6.根据权利要求2所述短文本间相似度计算方法，其特征在于，

所述命名实体和人称代词通过字典方法获得。

7.根据权利要求1所述短文本间相似度计算方法，其特征在于，

所述语料数据通过网络爬虫技术获得。

8.根据权利要求1所述短文本间相似度计算方法，其特征在于，

所述句向量间的相似度通过余弦相似度的方法计算。

9.根据权利要求1所述短文本间相似度计算方法，其特征在于，

所述分词工具为汉语言处理工具包hanlp。