CN112036177A

CN112036177A - 基于多模型融合的文本语义相似度信息处理方法及***

Info

Publication number: CN112036177A
Application number: CN202010735606.5A
Authority: CN
Inventors: 杨万征; 蔡超; 程国艮
Original assignee: Global Tone Communication Technology Co ltd
Current assignee: Global Tone Communication Technology Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-12-04

Abstract

本发明属于专利检索技术领域，公开了一种基于多模型融合的文本语义相似度信息处理方法及***，获取专利数据，并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理，得到相应的词向量特征与句向量特征；通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量；计算专利的组合特征向量与数据库中其他专利组合特征向量的相似度。本发明使用无监督学习模型极大减少了算法模型对标注数据的需求，并且通过句向量的使用，可以深入挖掘文章的深层语义特征，极大减少了实时计算的计算量，加快反馈速度。

Description

基于多模型融合的文本语义相似度信息处理方法及***

技术领域

本发明属于专利检索技术领域，尤其涉及一种基于多模型融合的文本语义相似度信息处理方法及***。

背景技术

目前，文本语义相似度计算是自然语言处理领域一个重要的研究方向，其研究成果被广泛应用于检索***、查重***等，可以帮助用户快速找到其想要的，挖掘用户深层需求，规避因表达方式不同造成的结果差异，具有很高的学术研究价值及工业应用价值。

文本语义相似度计算研究方向大致分为两种。一种是科研方向，其人员组成多为各高校学者或企业科研人员，其常用技术方法如：Simase_LSTM,RCNN,DSSM等，技术方向多为使用深层神经网络，采用有监督学习方式进行模型训练，追求更高的语义层面理解。以最简单的Simase_LSTM模型为例，其模型结构如下，首先将文本进行分词处理，随后将单词转化为对应特征向量，再将其送入LSTM模型提取其语义特征，通过文本向量进行相似度计算。

文本语义相似度计算另一大研究方向为工业应用方向，其主要研究目的是为了提升检索引擎质量、寻找相似文本，因工业应用的数量级要远大于科研领域的样本集，且工业应用有严格的速度要求，故而工业中使用的文本语义相似度计算方式往往相对简单。如：LDA模型、PLSA模型、LFM模型，其通过一种先验概率统计模型，计算不同词集生成不同主题的概率统计，然后通过主题概率相似度计算两篇文本的相似度。

现有科研类文本语义相似度计算方法多为使用深度神经网络模型，采用有监督学习方法进行模型训练，该类型算法需要大量有标注样本支撑，然而在工业领域，数据量往往很多，但有标注的数据往往很少，尤其是项目创立之初，有标注数据便显得更加可遇而不可求，文本类标注数据不同于图像，因其需要对文章存在主观理解，故而对标注人员的要求往往更高。因此在项目之初的工业领域是不便于开展大规模有监督学习算法的。

深度神经网络类算法所需要的计算量也很大，在少量数据上可行，但将其应用于少则几个G多则几个T甚至是几个PB的工业级数据上，为语义检索一篇文章的相似文章，需要反复执行单个神经网络上亿次，其反馈时长注定无法接受。

现有工业领域语义相似度检测算法多为基于字符的先验概率统计模型，但其无法捕获上下文及语序关系，故而只能定义为一种浅层语义相似度计算。

通过上述分析，现有技术存在的问题及缺陷为：(1)现有文本语义相似度计算方法采用有监督学习方法进行模型训练，需要大量有标注样本支撑；且计算量大；

(2)现有语义相似度检测算法多为基于字符的先验概率统计模型，但无法捕获上下文及语序关系。

(3)现有基于深度学习的模型，如：Simase_LSTM,RCNN,DSSM等，计算量较大，需要高配置GPU服务器支持，硬件成本较高。

解决以上问题及缺陷的难度为：

解决上述问题及缺陷(1)需要大量的人工标注，不但需要投入人工雇佣成本，同时，专利属于一种专业性强的问题，准确评价两篇专利之间的相似程度需要非常专业的审查人员深思熟虑后才可确定，人员级别要求高，且标注效率低。

解决上述问题及缺陷(2)需要使用链式模型，如：RNN、LSTM等，该类模型的使用又会引发对硬件设备及标注数据的需求，即：引起问题及缺陷(1)和问题及缺陷(3)

解决上述问题及缺陷(3)仅需给予资金支持，购买高配置服务器即可，但该***主要面向特定人群开发，受众人群较少，使用率较低，容易造成硬件资源浪费。

解决以上问题及缺陷的意义为：

解决上述问题及缺陷(1)可以减轻对标准人员的压力与需求，为项目研发压缩成本。

解决上述问题及缺陷(2)可以获取文本深层语义特征，提高***整体的检出质量。

解决上述问题及缺陷(3)可以减少对服务器的配置需求，减少成本投入，提高设备使用率。

发明内容

针对现有技术存在的问题，本发明提供了一种基于多模型融合的文本语义相似度信息处理方法。

本发明是这样实现的，一种基于多模型融合的文本语义相似度信息处理方法包括：

步骤一，获取专利库中的专利数据，并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理，得到相应的词向量特征与句向量特征；

步骤二，通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量；同时利用权利要求和说明书数据训练句向量模型，利用标题和摘要数据训练词向量模型；

步骤三，分别存储步骤二得到的专利库中各个专利的组合特征以及训练好的词向量模型以及句向量模型；

步骤四，采集待检索专利的相关数据，并对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理，得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征；

步骤五，将得到的待检索专利的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合得到待检专利的组合特征；

步骤六，将得到的待检索专利的组合特征与专利库中存储的各个专利的组合特征进行逐一相似度计算。

进一步，步骤一中，所述针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理得到相应的词向量特征与句向量特征包括：

对标题、摘要进行分词处理，提取关键词，并利用词向量模型将提取的关键词转化为对应词向量特征；

对权利要求和说明书进行分词处理，并利用句向量模型将权利要求和说明书内容转化为对应的句向量特征。

进一步，所述词向量模型使用中间词汇预测上下文词汇，结合梯度下降算法，最小化预测的上下词汇与真实上下词汇之差，所述词向量模型转化得到的用于准确反馈词间关系的词向量。

进一步，所述句向量模型使用段落向量和中心词汇向量共同预测上下文词汇，通过窗口在段落中滑动，段落向量伴随窗口进行转移，段落向量趋于稳定，即可代表文本内容。

进一步，步骤四中，所述对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理，得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征包括：

对待检索专利的标题、摘要进行分词处理，并提取关键词，利用训练好的词向量模型将提取的关键词转化为对应的词向量特征；

对待检索专利的权利要求、说明书进行分词处理，利用训练好的句向量模型转化为对应的句向量特征。

本发明的另一目的在于提供一种实施所述基于多模型融合的文本语义相似度信息处理方法的基于多模型融合的文本语义相似度信息处理***，所述基于多模型融合的文本语义相似度信息处理***包括：

数据获取模块，用于获取待检索专利的相关数据；

文本语义提取模块，用于基于多模型分别提取专利数据的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征；

特征融合模块，用于将提取得到的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行融合得到待检索专利的组合特征；

相似度计算模块，用于基于得到的待检索专利的组合特征与数据库中预先存储的其他专利的组合特征进行相似度计算；

数据库，用于存储相关专利数据、专利组合特征数据以及训练好的词向量模型与句向量模型。

本发明另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取专利库中的专利数据，并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理，得到相应的词向量特征与句向量特征；

通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量；同时利用权利要求和说明书数据训练句向量模型，利用标题和摘要数据训练词向量模型；

分别存储得到的专利库中各个专利的组合特征以及训练好的词向量模型以及句向量模型；

采集待检索专利的相关数据，并对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理，得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征；

将得到的待检索专利的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合得到待检专利的组合特征；

将得到的待检索专利的组合特征与专利库中存储的各个专利的组合特征进行逐一相似度计算。

本发明另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明另一目的在于提供一种实施所述基于多模型融合的文本语义相似度信息处理方法的检索、查重终端。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

测试方式说明：

数据范围：2000+万中文专利数据

检索方式：输入被驳回专利，查看top100其XYA文件的检出率，不进行任何关键词、IPC过滤。

效果说明：通过以上数据对照不难发现，只通过浅层的关键词-词向量语义的检出率最低，通过使用句向量进行深层语义检索能够在XY文件检出率上有较大提升，因XY文件更加侧重在内容的相似，而A文件更侧重在内容相关，属浅层相关，通过对两种特征向量进行特征融合，其效果明显高于任何一种特征表示方式。

本发明通过融合多个模型，从浅层语义与深层语义两个方面计算文本相似度，既能保证相似文本检出结果不脱离人们基于字符级别的主观意识，同时又能够挖掘相似语义内容。并且本发明模型架构从始至终均采用无监督学习进行建模，无需任何标注数据。通过对专利库中专利数据的离线计算，也可极大压缩实时计算时所需的计算，加快实时反馈速度。

本发明模型架构使用无监督学习模型——词向量模型、句向量模型，极大减少了算法模型对标注数据的需求，并且通过句向量的使用，可以深入挖掘文章的深层语义特征，并且，模型左侧部分，针对专利数据库中的专利可以进行离线计算，实时计算时，仅需与缓存的综合特征向量进行逐一对比，极大减少了实时计算的计算量，加快反馈速度。

对比的技术效果或者实验效果有：

测试方式说明：

数据范围：2000+万中文专利数据

通过对比试验设备及检出用时，该技术方案在模型融合的使用上极大的提高了整体检出率，但丝毫没有牺牲检出用时，在与对照***的对比上，整体检出效果有了极大提高，尽管在检出用时上增加了0.1s，但所需硬件设备减小了8倍。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于多模型融合的文本语义相似度信息处理方法流程图。

图2是本发明实施例提供的基于多模型融合的文本语义相似度信息处理方法原理图。

图3是本发明实施例提供的基于多模型融合的文本语义相似度信息处理***结构示意图；

图中：1、数据获取模块；2、文本语义提取模块；3、特征融合模块；4、相似度计算模块；5、数据库。

图4是本发明实施例提供的词向量模型特征提取示意图。

图5是本发明实施例提供的句向量模型特征提取示意图。

图6是本发明实施例提供的向量模型构建示意图。

图7是本发明实施例提供的组合特征提取示意图。

图8是本发明实施例提供的组合特征融合示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于多模型融合的文本语义相似度信息处理方法，下面结合附图对本发明作详细的描述。

如图1-图2所示，本发明实施例提供的基于多模型融合的文本语义相似度信息处理方法包括：

S101，获取专利库中的专利数据，并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理，得到相应的词向量特征与句向量特征；

S102，通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量；同时利用权利要求和说明书数据训练句向量模型，利用标题和摘要数据训练词向量模型；

S103，分别存储步骤S102得到的专利库中各个专利的组合特征以及训练好的词向量模型以及句向量模型；

S104，采集待检索专利的相关数据，并对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理，得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征；

S105，将得到的待检索专利的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合得到待检专利的组合特征；

S106，将得到的待检索专利的组合特征与专利库中存储的各个专利的组合特征进行逐一相似度计算。

步骤S101中，本发明实施例提供的针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理得到相应的词向量特征与句向量特征包括：

本发明实施例提供的词向量模型使用中间词汇预测上下文词汇，结合梯度下降算法，最小化预测的上下词汇与真实上下词汇之差，所述词向量模型转化得到的用于准确反馈词间关系的词向量。

本发明实施例提供的句向量模型使用段落向量和中心词汇向量共同预测上下文词汇，通过窗口在段落中滑动，段落向量伴随窗口进行转移，段落向量趋于稳定，即可代表文本内容。

步骤S104中，本发明实施例提供的对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理，得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征包括：

如图3所示，本发明实施例提供的基于多模型融合的文本语义相似度信息处理***包括：

数据获取模块，用于获取待检索专利的相关数据；

下面结合具体实施例对本发明的技术方案作进一步说明。

实施例1：

对于专利库中的专利数据，针对标题、摘要、权利要求、说明书使用不同的模型进行处理，因为每部分的词频分布、文本长度、句法结构存在较大差异，故而需要将四部分使用不同模型分别处理。

针对标题、摘要，因其文本长度较短，多为专业技术名词及其解释词汇，文体简洁，因此针对标题摘要，首先进行分词操作，然后提取关键词，将关键词送入词向量模型，将其转化为对应词向量。此处使用词向量模型，是因为词向量模型是一种无监督模型，通过窗口在文章内滑动，截取文章片段，如图4所示，使用中间词汇预测上下文词汇，该模型无需任何标注数据，结合梯度下降算法，最小化预测的上下词汇与真实上下词汇之差即可，其最终产物——词向量可准确反馈词间关系，故而使用该方法挖掘专利标题摘要部分浅层语义。

针对权利要求和说明书部分，因该部分文本较长，多为3000-10000字不等，存在较多上下句引用关系，故而此处分词过后使用句向量挖掘其深层语义。句向量模型是词向量的一种变体，同样也是无监督学习模型，在词向量的基础之上引入段落向量，与词向量不同的是，句向量使用段落向量和中心词汇向量共同预测上下文词汇，通过窗口在段落中滑动，段落向量会伴随窗口进行转移，待段落向量趋于稳定，即可代表文本内容。

通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为文章的组合特征向量，计算两两之间相似度，只需计算两两之间的组合特征相似度即可。

综上所述，该模型架构使用无监督学习模型——词向量模型、句向量模型，极大减少了算法模型对标注数据的需求，并且通过句向量的使用，可以深入挖掘文章的深层语义特征，并且，模型左侧部分，针对专利数据库中的专利可以进行离线计算，实时计算时，仅需与缓存的综合特征向量进行逐一对比，极大减少了实时计算的计算量，加快反馈速度。

基于多模型融合的文本语义相似度信息处理方法具体包括：

1.针对专利库中专利的标题、摘要、权利要求、说明书分别进行分词。

2.使用标题和摘要数据训练词向量模型。

3.使用权利要求和说明书数据训练句向量模型。

4.保存训练好的模型。

5.针对专利库中的所有专利分别计算。

6.针对标题、摘要、权利要求、说明书分别进行分词。

7.针对标题、摘要提取关键词。

8.计算标题关键词和摘要关键词对应的词向量特征。

9.计算权利要求和说明书的句向量特征。

10.将标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合。

11.将组合特征进行离线存储。

12.计算待检专利的组合特征。

13.将待检专利的组合特征与专利库中预计算的组合特征进行逐一相似度计算。

14.根据相似度计算结果，选择所需数据。

本发明可使用神经网络替代句向量模型进行计算。

本发明可使用中文词向量模型或其他变种词向量计算方式替代文中所述词向量计算方式。

本发明可使用同样模型架构，但是不同数据源，如使用论文数据，利用词向量计算摘要特征向量，利用句向量计算正文特征向量，使用二者组合特征计算语义相似度。

实施例2

基于多模型融合的文本语义相似度信息处理方法包括：

步骤1，针对论文数据库中的论文标题、摘要分别进行分词操作。

步骤2，使用标题、摘要训练词向量模型。

步骤3，将论文中的全文数据，按照引言、背景、实验、效果对比等大的章节进行拆分，对各个章节进行分词操作。

步骤4，使用上述步骤3所得各个章节的词列表训练句向量模型。

步骤5，保存步骤2所得词向量模型及步骤4所得句向量模型。

步骤6，使用词向量模型及句向量模型对本地论文数据库中的论文进行分模块特征提取。

步骤7，构建特征融合方法，将上述步骤6所得特征进行融合。

步骤8，对上述所提取特征及原文信息进行存储。

步骤9，将待检索论文标题、摘要进行分词操作。

步骤10，使用上述词向量模型，针对论文及摘要中的关键词信息进行向量转换。

步骤11，将待检索论文全文信息进行按章节拆分，并进行分词操作。

步骤12，使用上述句向量模型，进行特征提取。

步骤13，使用上述步骤7采纳的特征融合方式进行特征融合。

步骤14，将待检索论文的组合特征与论文数据库中预计算的组合特征进行逐一相似度计算。

步骤15，根据相似度计算结果，选择所需数据。

本发明可使用神经网络替代句向量模型进行计算。

下面结合实例效果对比对本发明作进一步描述。

***：Centos7。

设备：8核16线程128G内存*1台。

数据集：100万中文专利。

通过对比以上实验对照组，不难发现不同分词方法对特征提取影响较大，综合对照，选用分词算法2。

模型融合会使XYA的检出率趋于平均，不会出现X文件检出率远高于A文件检出率，或A文件检出率远高于X文件检出率，针对XYA文件检出率可简单理解为模型对深层语义及浅层语义的特征提取能力，使用模型融合，可均衡融合深层语义及浅层语义。

在特征融合的使用上，因特征维度并不改变，在检出时间上并不会增加。

通过使用特征融合，因同时考虑了深层语义及浅层语义，在检出率上会远高于单一模型。

对比不同特征维度及其检出用时的变化，伴随特征维度的增长，模型检出率会得以提升，其代价是会牺牲检出用时，特征维度的选择需要根据业务要求，综合考虑质量和速度。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多模型融合的文本语义相似度信息处理方法，其特征在于，所述基于多模型融合的文本语义相似度信息处理方法包括：

2.如权利要求1所述基于多模型融合的文本语义相似度信息处理方法，其特征在于，所述针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理得到相应的词向量特征与句向量特征包括：

3.如权利要求1所述基于多模型融合的文本语义相似度信息处理方法，其特征在于，所述词向量模型使用中间词汇预测上下文词汇，结合梯度下降算法，最小化预测的上下词汇与真实上下词汇之差，所述词向量模型转化得到的用于准确反馈词间关系的词向量。

4.如权利要求1所述基于多模型融合的文本语义相似度信息处理方法，其特征在于，所述句向量模型使用段落向量和中心词汇向量共同预测上下文词汇，通过窗口在段落中滑动，段落向量伴随窗口进行转移，段落向量趋于稳定，即可代表文本内容。

5.如权利要求1所述基于多模型融合的文本语义相似度信息处理方法，其特征在于，所述对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理，得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征包括：

6.一种实施如权利要求1-5所述基于多模型融合的文本语义相似度信息处理方法的基于多模型融合的文本语义相似度信息处理***，其特征在于，所述基于多模型融合的文本语义相似度信息处理***包括：

数据获取模块，用于获取待检索专利的相关数据；

7.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

9.一种实施如权利要求1-5所述基于多模型融合的文本语义相似度信息处理方法的检索、查重终端。