CN112257419B

CN112257419B - 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质

Info

Publication number: CN112257419B
Application number: CN202011227890.1A
Authority: CN
Inventors: 汪敏; 严妍; 肖国泉; 裴非; 肖克; 彭祖剑; 邵罗树; 赵达; 石鑫
Original assignee: Beijing Kaipuyun Information Technology Co ltd; Cape Cloud Information Technology Co ltd
Current assignee: Beijing Xinghe Zhiyuan Technology Co.,Ltd.
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-05-28
Anticipated expiration: 2040-11-06
Also published as: CN112257419A

Abstract

本发明提供一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质，对专利数据库中的所有文献进行词袋统计和词向量计算，得到对应的词袋数据和词距离数据；建立模型，输入内容或考题号，在题库数据中获取待审专利的标题、摘要、权利要求书、说明书进行多种组合，并分别根据词袋算法和语义算法进行粗选和细选，针对选择后数据进行文本相似度分析，将分析结果融合排序得到综合相似度，经查重筛选，给出待查专利的可疑答案集合。本发明提升了检索速度，采用两轮筛选，第一轮粗选旨在快速缩小对比范围，第二轮细选旨在兼顾提高准确率；可以有效节省人力和时间，帮助专利审查员缩减相关专利审查范围，提高审查效率。

Description

一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质

技术领域

本发明属于数据查重技术领域，尤其涉及一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质。

背景技术

专利是一种受法律保护的特殊文件，是政府对社会发明创造的一种保护手段，在国家专利管理部门受理专利申请后，需要对专利进行有效审查，而审查过程中的查重工作无疑是重要环节之一，现有查重***常用的查重算法是词袋算法或者语义算法。

词袋算法，是指根据文本内容的分词统计词袋结果进行相似度计算，源于文本分类技术。在信息检索中，它假定对于一个文本，忽略其词序、语法和句法，将其仅仅看作是一个词集合，或者说是词的一个组合。文本中每个词的出现都是独立的，不依赖于其它词是否出现，或者说这篇文章的任意一个位置词汇都不受前面句子的影响而独立选择的。

语义算法，是指将文本内容转化为特征向量进行相似度计算。首先把词处理成实数向量，完成向量化，把特征从词汇表大小的高维度空间降低到一个相对低的维度空间；再使用简单的代数运算来发现它们之间的语义相似度，并且保证向量间的相对相似度和语义相似度是相关的。计算向量间的相似度可以采用诸如余弦相似度的方法。

但是，现有技术针对专利查重算法使用方式单一且结果准确率不高，审查人员在专利审查过程中需要付出大量的时间和精力，工作效率较低且存在审核意见主观性强的问题。

发明内容

本发明为了弥补现有技术的不足，提供一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质，本技术方案权衡了针对字面的词袋算法和针对语义的语义算法的优缺点，旨在从字面和语义两方面双管齐下，将两种算法相融合来综合审查专利文献的重复度，提升专利审查效率。

本发明的实施例是这样实现的：

第一方面，本发明实施例提供了基于词频和语义计算专利文献相似度的智能检索方法，应用于服务器，具体实现步骤是：首先对专利数据库中的所有文献进行词袋统计和词向量计算，得到对应的词袋数据和词距离数据；然后建立模型，待用户输入内容或考题号，在目前加载的题库数据中获取待审专利的标题、摘要、权利要求书、说明书四部分内容进行多种组合，并分别根据词袋算法和语义算法进行粗选和细选，针对选择后数据进行文本相似度分析，将分析结果融合排序得到综合相似度，以此为标准进行客观有效的查重筛选，最后给出待查专利的可疑答案集合。

进一步地，粗选是指：根据组合结果从专利语料库中生成字典和词典；结合生成的字典和词典，从专利数据库中为每篇专利获取词袋，根据词袋的不同属性生成词袋文件，词袋文件的集合形成词袋库；根据考题内容,从词袋库中取出对应专利的词袋,由词袋得到文本内容；根据词袋算法将每条考题不同字段的组合词袋与全量专利的相应词袋进行逐一比较，计算得出语义相似值；将对应的每篇专利的不同组合词袋的TopN₁结果融合取交集，再对剩余组合词袋按语义相似值从大到小排序，取出一定数量凑足TopN₁作为粗选的结果集，从而形成粗选集；统计出所有考题对应的粗选集，将其传给细选算法模型作为输入。

进一步地，细选是指：对词袋使用粗选算法，对各个不同组合词袋的结果集进行词袋算法相似值计算，并赋予一定权重；再使用语义算法，将词袋中所有词和考题中词逐一进行余弦相似度计算得到相似值，并将所有相似值累加，得到两篇专利整体的语义相似度；不同字段的组合词袋分别对应一个总相似值，并赋予一个权重；对多个词袋和语义的相似值连同权重进行计算和累加，将结果作为相似值进行排序，得到TopN₂作为细选的结果集，从而形成细选集，作为检索结果。

第二方面，本发明实施例还提供了一种基于单台服务器的数据智能检索的方法，具体实现步骤是：从题库的XML文件中提取专利信息和内容并进行入库操作，提取的内容在专利数据库内经初步清洗和整理后，下载成指定字段的CSV文件；对全量内容进行分词、去停用词、筛选高频词汇后，构建向量模型；对向量模型数据进行加载，结合基于字面的词袋算法和基于语义的语义算法的多组融合结果，预测出排名靠前的专利。

进一步地，预测是指：对从原始专利数据中提取的所有文本形式的内容数据进行分词，将分词结果作为待训练的文本信息文件；调用word2vec模型，将分词结果转化为可计算的特征向量形式；结合停用词和高频词筛选得到一定数量的有效词汇，计算每个词与其它所有词汇的余弦相似值，从而得到词距离；统计筛选后所有词的词袋和权重，预测检索结果。

第三方面，本发明实施例还提供了一种基于词频和语义计算专利文献相似度的智能检索装置，应用于服务器，该装置包括以下组件：

数据处理模块：用于从题库中将所有专利文本内容按照字段和重要性进行提取，得到用于建模的数据标准格式；

智能计算模块：用于对提取的标准数据进行各类计算，得到文本中体现其频率、语义、权重的模型数据；

模型构建模块：用于对模型数据进行建模计算，对计算结果进行组合优化，再结合业务要求构建智能检索模型；

模型预测模块：用于将智能检索模型进行封装，根据用户输入信息预测出相似结果排名。

进一步地，数据处理模块中专利文本内容主要是指专利的字段内容，包括标题、摘要、权利声明、说明书等内容数据。

进一步地，智能计算模块中各类计算是指各种数据处理方法，包括分词、构建词向量、统计词袋、计算词距离、计算词权重等，得到的建模数据质量直接关联后续建模的效果和质量，有大约150万的词用于词频计算，11万的词向量用于语义计算。

进一步地，模型构建模块中建模计算是指粗选方式和细选方式，采用粗选方式对标题、摘要、权利声明三个字段组合进行快速筛选，再采用细选方式对标题、摘要、权利声明和说明书四个字段组合进行词频加语义计算。

第四方面，本发明实施例还提供了一种电子设备，包括：存储器和处理器，存储器与处理器连接，存储器用于存储程序代码指令，处理器用于调用存储器中存储的程序代码指令，按照获得的程序执行如第一方面、第二方面实施例所提供的方法。

第五方面，本发明实施例还提供了一种存储介质，该存储介质存储有处理器可执行的程序代码指令，存储介质包括多条程序代码指令，多条指令被配置成使处理器执行如第一方面、第二方面实施例所提供的方法。

本发明提供的一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质，相比于现有技术具有以下优点：

本发明首先提升了检索速度，采用两轮筛选，第一轮粗选旨在快速缩小对比范围，第二轮细选旨在兼顾提高准确率，其查询结果的前十名大概率是审查员需要的结果；其次，机器检索是按照统一的算法进行相似度计算，评判标准比人工审查更为客观。使用计算机进行大量重复性的对比工作，可以有效节省人力和时间，帮助专利审查员缩减相关专利审查范围，提高审查效率。

附图说明

图1为实施例一提供的一种基于词频和语义计算专利文献相似度的智能检索方法的流程图。

图2为实施例二提供的一种基于单台服务器的数据智能检索方法的流程图。

图3为实施例三提供的一种基于词频和语义计算专利文献相似度的智能检索装置的流程图。

图4为实施例四提供的一种电子设备的结构示意图。

图5为实施例五提供的一种网络***的交互示意图。

具体实施方式

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可以找说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和有点能够更明显易懂，以下为本发明的具体实施方式。

实施例一

参见图1，为本实施例提供的一种基于词频和语义计算专利文献相似度的智能检索方法，所举实例只用于解释本发明，并非用于限定本发明的范围。该方法具体包括以下步骤：

S101、针对题库的全部专利数据，提取与考题内容相关的文本信息，整理成结构化数据，形成分词结果；

S102、针对上述全部专利数据的分词结果进行词袋统计和词向量转化计算，得到每个词的权重值，作为模型预测的预加载数据；

S103、加载上述全部词袋、词向量、词汇数据，根据考题公开号进行全量匹配查询，比较模型预测的相似度，返回排名靠前的考题结果。

其中，S101中所述“考题”是指用户输入的标识号，所述“题库”是指用户查询的一个或多个专利数据库，S101进一步包括：

S1011、获取题库的全部专利数据；

S1012、提取与考题内容相关的文本信息；

S1013、分词处理，形成结构化数据；

S1014、得到分词结果。

其中，S102进一步包括：

S1021、针对上述分词结果进行词袋统计，完成粗选；

S1022、针对粗选结果再次进行词袋统计和词向量转化计算，完成细选；

S1023、计算细选结果的权重值；

S1024、构建数据向量模型。

其中，S102中所述“词的权重值”的计算公式为：

公式中，分母加上1是为了避免分母为0

其中，相比其它权重计算方法，采用IDF权重计算方法的准确率最高，每个词的IDF权重值域在0.3-13左右。

其中，S103进一步包括：

S1031、加载数据向量模型的全部词袋、词向量、词汇数据；

S1032、根据考题公开号进行全量匹配查询，得到模型预测数据；

S1033、比较模型预测数据的相似度；

S1034、返回排名靠前的专利公开号，得到考题结果。

其中，S1021进一步包括：

S10211、根据分词结果从专利语料库中生成字典和词典；

S10212、结合生成的字典和词典，从专利数据库中为每篇专利获取词袋，根据词袋的不同属性生成词袋文件，词袋文件的集合形成词袋库；

S10213、根据考题内容,从词袋库中取出对应专利的词袋,由词袋得到文本内容；

S10214、根据词袋算法将每条考题不同字段的组合词袋与全量专利的相应词袋进行逐一比较，计算得出语义相似值；将对应的每篇专利的不同组合词袋的TopN₁结果融合取交集，再对剩余组合词袋按语义相似值从大到小排序，取出一定数量凑足TopN₁作为粗选的结果集，从而形成粗选集；

S10215、统计出所有考题对应的粗选集，将其传给细选算法模型作为输入。

其中，S10211中所述“字典”是包含考题内容中所有出现的中文字、重要性及其唯一序号；所述“词典”是去除停用词以及按照高频数量筛选后的结果，即每个词、重要性及其唯一序号。

其中，S10212中所述“词袋文件”中的词袋部分包含一篇专利中的词序号(或字序号)和词频数(或字频数)，每条记录以专利公开号作为唯一标识，并且一篇专利可以由不同的部分(如标题、摘要等)得出不同的词袋，因此，一篇专利可以根据字典或词典生成多个词袋文件。

其中，S1022进一步包括：

S10221、对词袋再次执行S1021所述粗选算法，对各个不同组合词袋的结果集进行词袋算法相似值计算，并赋予一定权重；

S10222、使用语义算法，将词袋中所有词和考题中词逐一进行余弦相似度计算得到相似值，并将所有相似值累加，得到两篇专利整体的语义相似度；不同字段的组合词袋分别对应一个总相似值，并赋予一个权重；

S10223、对多个词袋和语义的相似值连同权重进行计算和累加，将结果作为相似值进行排序，得到TopN₂作为细选的结果集，从而形成细选集，作为检索结果。

其中，S10222中所述“余弦相似度计算”是指对N维变量进行余弦相似度计算，公式为：

其中，单个字段语义的cosθ余弦值大部分在0.5以上，本发明将组合词频与语义余弦的组合进行融合，得到相似度最终结果。

其中，本实施例所述方法是应用于实施例五中所述电子设备200的解调方法。

实施例二

参见图2，为本实施例提供的一种基于单台服务器的数据智能检索方法，所举实例只用于解释本发明，并非用于限定本发明的范围。该方法具体包括以下步骤：

S201、从题库的XML文件中提取专利信息和内容并进行入库操作，提取的内容在专利数据库内经初步清洗和整理后，下载成指定字段的CSV文件；

S202、对全量内容进行分词、去停用词、筛选高频词汇后，构建向量模型；

S203、对向量模型数据进行加载，结合基于字面的词袋算法和基于语义的语义算法的多组融合结果，预测出排名靠前的专利。

其中，S203进一步包括：

S2031、对从原始专利数据中提取的所有文本形式的内容数据进行分词，将分词结果作为待训练的文本信息文件；

S2032、调用word2vec模型，将分词结果转化为可计算的特征向量形式；

S2033、结合停用词和高频词筛选得到一定数量的有效词汇，计算每个词与其它所有词汇的余弦相似值，从而得到词距离；

2034、统计筛选后所有词的词袋和权重，预测检索结果。

其中，所述“word2vec模型”是输入一个词的序列(一段文本)，输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量，将特征向量映射到D维空间中，使得语义越相近的两个词之间的距离越小。word2vec模型适合大型数据训练，具有训练速度高效的优点。

其中，本实施例所述方法是按照实施例一中所述方法通过执行程序代码完成数据智能检索。

实施例三

参见图3，为本实施例提供的一种基于词频和语义计算专利文献相似度的智能检索装置210，所举实例只用于解释本发明，并非用于限定本发明的范围。该装置具体包括以下组件：

数据处理模块211：用于从题库中将所有专利文本内容按照字段和重要性进行提取，得到用于建模的数据标准格式；

智能计算模块212：用于对提取的标准数据进行各类计算，得到文本中体现其频率、语义、权重的模型数据；

模型构建模块213：用于对模型数据进行建模计算，对计算结果进行组合优化，再结合业务要求构建智能检索模型；

模型预测模块214：用于将智能检索模型进行封装，根据用户输入信息预测出相似结果排名。

其中，所述数据处理模块211中专利文本内容主要是指专利的字段内容，包括标题、摘要、权利声明、说明书等内容数据。

其中，所述智能计算模块212中各类计算是指各种数据处理方法，包括分词、构建词向量、统计词袋、计算词距离、计算词权重等，得到的建模数据质量直接关联后续建模的效果和质量，有大约150万的词用于词频计算，11万的词向量用于语义计算。

其中，所述模型构建模块213中建模计算是指粗选方式和细选方式，采用粗选方式对标题、摘要、权利声明三个字段组合进行快速筛选，再采用细选方式对标题、摘要、权利声明和说明书四个字段组合进行词频加语义计算。

其中，专利审查人员在进行专利查重时，在所述智能检索装置210中输入需要查重的专利公开号(可以批量查询)，该装置会依次获取专利信息，并与专利数据库中的所有文献进行比对，先用词袋算法对文献的不同部分(如标题、摘要、声明、说明)进行第一轮快速粗选，在粗选的结果中再结合语义算法对文献的不同部分进行第二轮细选，最后，该装置快速得出精准答案，专利审查员再根据审查需要进行更专业的人工审查。

其中，现有检索***在检索Top50的准确率平均约为35％左右；而所述智能检索装置210针对部分测试考题的准确率能达到50％以上，且大部分测试考题的准确率平均维持在40％以上。

其中，所述智能检索装置210处理单条考题检索的响应时间，目前已经平均维持在0.2s以内，相比其它现有检索***基本保持一致甚至略快。

其中，本实施例所述智能检索装置210，其实现原理及产生的技术效果与实施例一和实施例二中各所述方法相同，为简要描述，本实施例中未提及之处，可参考前述方法实施例中相应内容。

实施例四

参见图4，为本实施例提供的一种电子设备200，所举实例只用于解释本发明，并非用于限定本发明的范围。所述电子设备200包括：智能检索装置210、存储器220和处理器230。

其中，所述智能检索装置210、存储器220、处理器230各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。

其中，上述各元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述智能检索装置210包括至少一个可以软件或固件(firmware)的形式存储于所述存储器220中或固化在所述电子设备200的操作***(OS)中的软件功能模块。所述处理器230用于执行所述存储器220中存储的可执行模块，比如，所述智能检索装置210包括的软件功能模块或计算机程序。

其中，所述存储器220不限于随机存取存储器(RAM)，只读存储器(ROM)，可编程只读存储器(PROM)，可擦除只读存储器(EPROM)，电可擦除只读存储器(EEPROM)等。

其中，所述存储器220用于存储程序，所述处理器230在接收到执行指令后，执行所述程序。本发明实施例一、实施例二和实施例三中所执行的方法均可以应用于本实施例所述电子设备200的处理器230中，或者由处理器230实现。

其中，所述处理器230可能是一种集成电路芯片，具有信号的处理能力。所述处理器230可以是通用处理器，包括中央处理器(CPU)、网络处理器(NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器，或者也可以是任何常规的处理器等。

其中，本实施例所述电子设备200可以是实施例五中所述服务器110。

实施例五

参见图5，为本实施例提供的一种网络***100，所举实例只用于解释本发明，并非用于限定本发明的范围。所述网络***100包括：服务器110和客户终端120，客户终端120通过网络与服务器110进行数据交互。

其中，所述服务器110在数据载入加速时，将预设提示信息发送至与所述服务器110通信的客户终端120。

其中，所述服务器110不限于网络服务器、数据库服务器、云端服务器等。所述客户终端120不限于个人电脑(PC)、智能手机、平板电脑、移动上网设备(MID)、个人数字助理(PDA)等电子设备。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。并且，各个实施例公开并不局限于上面已经描述并在附图中示出的精确结构，还可以在不脱离其范围进行各种修改和改变。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于词频和语义计算专利文献相似度的智能检索方法，其特征在于：包括以下步骤：

S103、加载上述全部词袋、词向量、词汇数据，根据考题公开号进行全量匹配查询，比较模型预测的相似度，返回排名靠前的考题结果；

其中，所述S102进一步包括以下步骤：

S1021、针对上述分词结果进行词袋统计，完成粗选；

S1023、计算细选结果的权重值；

S1024、构建数据向量模型；

其中，所述S1021进一步包括以下步骤：

S10211、根据分词结果从专利语料库中生成字典和词典；

S10214、根据词袋算法将每条考题不同字段的组合词袋与全量专利的相应词袋进行逐一比较，计算得出词频相似值；将对应的每篇专利的不同组合词袋的TopN₁结果融合取并集，从而形成粗选集；

S10215、统计出所有考题对应的粗选集，将其传给细选算法模型作为输入；

其中，所述S1022进一步包括以下步骤：

S10223、对多个词袋和语义的相似值连同权重进行计算和累加，将结果作为相似值进行排序，得到TopN₂作为细选的结果集，从而形成细选集，作为检索结果；其中，所述S103进一步包括以下步骤：

S1031、加载数据向量模型的全部词袋、词向量、词汇数据；

S1033、比较模型预测数据的相似度；

S1034、返回排名靠前的文献，得到考题结果。

2.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法，其特征在于：所述S101进一步包括以下步骤：

S1011、获取题库的全部专利数据；

S1012、提取与考题内容相关的文本信息；

S1013、分词处理，形成结构化数据；

S1014、得到分词结果。

3.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法，其特征在于：S101中所述“考题”是指用户输入的标识号，所述“题库”是指用户查询的一个或多个专利数据库；S102中所述“每个词的权重值”的阈值范围在0.3-13左右，计算准确率最高。

4.一种基于单台服务器的数据智能检索方法，其特征在于：包括以下步骤：

S203、对向量模型数据进行加载，结合基于字面的词袋算法和基于语义的语义算法的多组融合结果，预测出排名靠前的专利；

其中，所述S203进一步包括以下步骤：

2034、统计筛选后所有词的词袋和权重，预测检索结果。

5.一种基于词频和语义计算专利文献相似度的智能检索装置，其特征在于：该装置包括以下模块：

模型预测模块：用于将智能检索模型进行封装，根据用户输入信息预测出相似结果排名；

其中，智能计算模块中所述“各类计算”是指各种数据处理方法，包括分词、构建词向量、统计词袋、计算词距离和计算词权重，得到的建模数据质量直接关联后续建模的效果和质量，有大约150万的词用于词频计算，11万的词向量用于语义计算；

模型构建模块中所述“建模计算”是指粗选方式和细选方式，采用粗选方式对标题、摘要、权利声明三个字段组合进行快速筛选，再采用细选方式对标题、摘要、权利声明和说明书四个字段组合进行词频加语义计算。

6.如权利要求5所述的一种基于词频和语义计算专利文献相似度的智能检索装置，其特征在于：

数据处理模块中所述“专利文本内容”主要是指专利的字段内容，包括标题、摘要、权利声明、说明书的内容数据。

7.一种电子设备，其特征在于：所述电子设备包括：存储器和处理器，所述存储器与所述处理器连接；所述存储器用于存储程序；所述处理器用于调用存储于所述存储器中的程序，以执行如权利要求1-4任一项所述的方法。

8.一种存储介质，其特征在于：所述存储介质存储有处理器可执行的程序代码于计算机内，所述存储介质包括多条指令，所述多条指令被配置成使所述处理器执行如权利要求1-4任一项所述的方法。