CN112036177A - 基于多模型融合的文本语义相似度信息处理方法及*** - Google Patents

基于多模型融合的文本语义相似度信息处理方法及*** Download PDF

Info

Publication number
CN112036177A
CN112036177A CN202010735606.5A CN202010735606A CN112036177A CN 112036177 A CN112036177 A CN 112036177A CN 202010735606 A CN202010735606 A CN 202010735606A CN 112036177 A CN112036177 A CN 112036177A
Authority
CN
China
Prior art keywords
vector characteristics
model
word
word vector
sentence vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010735606.5A
Other languages
English (en)
Inventor
杨万征
蔡超
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Tone Communication Technology Co ltd
Original Assignee
Global Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Tone Communication Technology Co ltd filed Critical Global Tone Communication Technology Co ltd
Priority to CN202010735606.5A priority Critical patent/CN112036177A/zh
Publication of CN112036177A publication Critical patent/CN112036177A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于专利检索技术领域,公开了一种基于多模型融合的文本语义相似度信息处理方法及***,获取专利数据,并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理,得到相应的词向量特征与句向量特征;通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量;计算专利的组合特征向量与数据库中其他专利组合特征向量的相似度。本发明使用无监督学习模型极大减少了算法模型对标注数据的需求,并且通过句向量的使用,可以深入挖掘文章的深层语义特征,极大减少了实时计算的计算量,加快反馈速度。

Description

基于多模型融合的文本语义相似度信息处理方法及***
技术领域
本发明属于专利检索技术领域,尤其涉及一种基于多模型融合的文本语义相似度信息处理方法及***。
背景技术
目前,文本语义相似度计算是自然语言处理领域一个重要的研究方向,其研究成果被广泛应用于检索***、查重***等,可以帮助用户快速找到其想要的,挖掘用户深层需求,规避因表达方式不同造成的结果差异,具有很高的学术研究价值及工业应用价值。
文本语义相似度计算研究方向大致分为两种。一种是科研方向,其人员组成多为各高校学者或企业科研人员,其常用技术方法如:Simase_LSTM,RCNN,DSSM等,技术方向多为使用深层神经网络,采用有监督学习方式进行模型训练,追求更高的语义层面理解。以最简单的Simase_LSTM模型为例,其模型结构如下,首先将文本进行分词处理,随后将单词转化为对应特征向量,再将其送入LSTM模型提取其语义特征,通过文本向量进行相似度计算。
文本语义相似度计算另一大研究方向为工业应用方向,其主要研究目的是为了提升检索引擎质量、寻找相似文本,因工业应用的数量级要远大于科研领域的样本集,且工业应用有严格的速度要求,故而工业中使用的文本语义相似度计算方式往往相对简单。如:LDA模型、PLSA模型、LFM模型,其通过一种先验概率统计模型,计算不同词集生成不同主题的概率统计,然后通过主题概率相似度计算两篇文本的相似度。
现有科研类文本语义相似度计算方法多为使用深度神经网络模型,采用有监督学习方法进行模型训练,该类型算法需要大量有标注样本支撑,然而在工业领域,数据量往往很多,但有标注的数据往往很少,尤其是项目创立之初,有标注数据便显得更加可遇而不可求,文本类标注数据不同于图像,因其需要对文章存在主观理解,故而对标注人员的要求往往更高。因此在项目之初的工业领域是不便于开展大规模有监督学习算法的。
深度神经网络类算法所需要的计算量也很大,在少量数据上可行,但将其应用于少则几个G多则几个T甚至是几个PB的工业级数据上,为语义检索一篇文章的相似文章,需要反复执行单个神经网络上亿次,其反馈时长注定无法接受。
现有工业领域语义相似度检测算法多为基于字符的先验概率统计模型,但其无法捕获上下文及语序关系,故而只能定义为一种浅层语义相似度计算。
通过上述分析,现有技术存在的问题及缺陷为:(1)现有文本语义相似度计算方法采用有监督学习方法进行模型训练,需要大量有标注样本支撑;且计算量大;
(2)现有语义相似度检测算法多为基于字符的先验概率统计模型,但无法捕获上下文及语序关系。
(3)现有基于深度学习的模型,如:Simase_LSTM,RCNN,DSSM等,计算量较大,需要高配置GPU服务器支持,硬件成本较高。
解决以上问题及缺陷的难度为:
解决上述问题及缺陷(1)需要大量的人工标注,不但需要投入人工雇佣成本,同时,专利属于一种专业性强的问题,准确评价两篇专利之间的相似程度需要非常专业的审查人员深思熟虑后才可确定,人员级别要求高,且标注效率低。
解决上述问题及缺陷(2)需要使用链式模型,如:RNN、LSTM等,该类模型的使用又会引发对硬件设备及标注数据的需求,即:引起问题及缺陷(1)和问题及缺陷(3)
解决上述问题及缺陷(3)仅需给予资金支持,购买高配置服务器即可,但该***主要面向特定人群开发,受众人群较少,使用率较低,容易造成硬件资源浪费。
解决以上问题及缺陷的意义为:
解决上述问题及缺陷(1)可以减轻对标准人员的压力与需求,为项目研发压缩成本。
解决上述问题及缺陷(2)可以获取文本深层语义特征,提高***整体的检出质量。
解决上述问题及缺陷(3)可以减少对服务器的配置需求,减少成本投入,提高设备使用率。
发明内容
针对现有技术存在的问题,本发明提供了一种基于多模型融合的文本语义相似度信息处理方法。
本发明是这样实现的,一种基于多模型融合的文本语义相似度信息处理方法包括:
步骤一,获取专利库中的专利数据,并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理,得到相应的词向量特征与句向量特征;
步骤二,通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量;同时利用权利要求和说明书数据训练句向量模型,利用标题和摘要数据训练词向量模型;
步骤三,分别存储步骤二得到的专利库中各个专利的组合特征以及训练好的词向量模型以及句向量模型;
步骤四,采集待检索专利的相关数据,并对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理,得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征;
步骤五,将得到的待检索专利的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合得到待检专利的组合特征;
步骤六,将得到的待检索专利的组合特征与专利库中存储的各个专利的组合特征进行逐一相似度计算。
进一步,步骤一中,所述针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理得到相应的词向量特征与句向量特征包括:
对标题、摘要进行分词处理,提取关键词,并利用词向量模型将提取的关键词转化为对应词向量特征;
对权利要求和说明书进行分词处理,并利用句向量模型将权利要求和说明书内容转化为对应的句向量特征。
进一步,所述词向量模型使用中间词汇预测上下文词汇,结合梯度下降算法,最小化预测的上下词汇与真实上下词汇之差,所述词向量模型转化得到的用于准确反馈词间关系的词向量。
进一步,所述句向量模型使用段落向量和中心词汇向量共同预测上下文词汇,通过窗口在段落中滑动,段落向量伴随窗口进行转移,段落向量趋于稳定,即可代表文本内容。
进一步,步骤四中,所述对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理,得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征包括:
对待检索专利的标题、摘要进行分词处理,并提取关键词,利用训练好的词向量模型将提取的关键词转化为对应的词向量特征;
对待检索专利的权利要求、说明书进行分词处理,利用训练好的句向量模型转化为对应的句向量特征。
本发明的另一目的在于提供一种实施所述基于多模型融合的文本语义相似度信息处理方法的基于多模型融合的文本语义相似度信息处理***,所述基于多模型融合的文本语义相似度信息处理***包括:
数据获取模块,用于获取待检索专利的相关数据;
文本语义提取模块,用于基于多模型分别提取专利数据的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征;
特征融合模块,用于将提取得到的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行融合得到待检索专利的组合特征;
相似度计算模块,用于基于得到的待检索专利的组合特征与数据库中预先存储的其他专利的组合特征进行相似度计算;
数据库,用于存储相关专利数据、专利组合特征数据以及训练好的词向量模型与句向量模型。
本发明另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取专利库中的专利数据,并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理,得到相应的词向量特征与句向量特征;
通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量;同时利用权利要求和说明书数据训练句向量模型,利用标题和摘要数据训练词向量模型;
分别存储得到的专利库中各个专利的组合特征以及训练好的词向量模型以及句向量模型;
采集待检索专利的相关数据,并对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理,得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征;
将得到的待检索专利的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合得到待检专利的组合特征;
将得到的待检索专利的组合特征与专利库中存储的各个专利的组合特征进行逐一相似度计算。
本发明另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取专利库中的专利数据,并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理,得到相应的词向量特征与句向量特征;
通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量;同时利用权利要求和说明书数据训练句向量模型,利用标题和摘要数据训练词向量模型;
分别存储得到的专利库中各个专利的组合特征以及训练好的词向量模型以及句向量模型;
采集待检索专利的相关数据,并对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理,得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征;
将得到的待检索专利的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合得到待检专利的组合特征;
将得到的待检索专利的组合特征与专利库中存储的各个专利的组合特征进行逐一相似度计算。
本发明另一目的在于提供一种实施所述基于多模型融合的文本语义相似度信息处理方法的检索、查重终端。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
Figure BDA0002604929210000061
Figure BDA0002604929210000071
测试方式说明:
数据范围:2000+万中文专利数据
检索方式:输入被驳回专利,查看top100其XYA文件的检出率,不进行任何关键词、IPC过滤。
效果说明:通过以上数据对照不难发现,只通过浅层的关键词-词向量语义的检出率最低,通过使用句向量进行深层语义检索能够在XY文件检出率上有较大提升,因XY文件更加侧重在内容的相似,而A文件更侧重在内容相关,属浅层相关,通过对两种特征向量进行特征融合,其效果明显高于任何一种特征表示方式。
本发明通过融合多个模型,从浅层语义与深层语义两个方面计算文本相似度,既能保证相似文本检出结果不脱离人们基于字符级别的主观意识,同时又能够挖掘相似语义内容。并且本发明模型架构从始至终均采用无监督学习进行建模,无需任何标注数据。通过对专利库中专利数据的离线计算,也可极大压缩实时计算时所需的计算,加快实时反馈速度。
本发明模型架构使用无监督学习模型——词向量模型、句向量模型,极大减少了算法模型对标注数据的需求,并且通过句向量的使用,可以深入挖掘文章的深层语义特征,并且,模型左侧部分,针对专利数据库中的专利可以进行离线计算,实时计算时,仅需与缓存的综合特征向量进行逐一对比,极大减少了实时计算的计算量,加快反馈速度。
对比的技术效果或者实验效果有:
Figure BDA0002604929210000072
Figure BDA0002604929210000081
测试方式说明:
数据范围:2000+万中文专利数据
检索方式:输入被驳回专利,查看top100其XYA文件的检出率,不进行任何关键词、IPC过滤。
效果说明:通过以上数据对照不难发现,只通过浅层的关键词-词向量语义的检出率最低,通过使用句向量进行深层语义检索能够在XY文件检出率上有较大提升,因XY文件更加侧重在内容的相似,而A文件更侧重在内容相关,属浅层相关,通过对两种特征向量进行特征融合,其效果明显高于任何一种特征表示方式。
通过对比试验设备及检出用时,该技术方案在模型融合的使用上极大的提高了整体检出率,但丝毫没有牺牲检出用时,在与对照***的对比上,整体检出效果有了极大提高,尽管在检出用时上增加了0.1s,但所需硬件设备减小了8倍。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于多模型融合的文本语义相似度信息处理方法流程图。
图2是本发明实施例提供的基于多模型融合的文本语义相似度信息处理方法原理图。
图3是本发明实施例提供的基于多模型融合的文本语义相似度信息处理***结构示意图;
图中:1、数据获取模块;2、文本语义提取模块;3、特征融合模块;4、相似度计算模块;5、数据库。
图4是本发明实施例提供的词向量模型特征提取示意图。
图5是本发明实施例提供的句向量模型特征提取示意图。
图6是本发明实施例提供的向量模型构建示意图。
图7是本发明实施例提供的组合特征提取示意图。
图8是本发明实施例提供的组合特征融合示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于多模型融合的文本语义相似度信息处理方法,下面结合附图对本发明作详细的描述。
如图1-图2所示,本发明实施例提供的基于多模型融合的文本语义相似度信息处理方法包括:
S101,获取专利库中的专利数据,并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理,得到相应的词向量特征与句向量特征;
S102,通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量;同时利用权利要求和说明书数据训练句向量模型,利用标题和摘要数据训练词向量模型;
S103,分别存储步骤S102得到的专利库中各个专利的组合特征以及训练好的词向量模型以及句向量模型;
S104,采集待检索专利的相关数据,并对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理,得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征;
S105,将得到的待检索专利的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合得到待检专利的组合特征;
S106,将得到的待检索专利的组合特征与专利库中存储的各个专利的组合特征进行逐一相似度计算。
步骤S101中,本发明实施例提供的针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理得到相应的词向量特征与句向量特征包括:
对标题、摘要进行分词处理,提取关键词,并利用词向量模型将提取的关键词转化为对应词向量特征;
对权利要求和说明书进行分词处理,并利用句向量模型将权利要求和说明书内容转化为对应的句向量特征。
本发明实施例提供的词向量模型使用中间词汇预测上下文词汇,结合梯度下降算法,最小化预测的上下词汇与真实上下词汇之差,所述词向量模型转化得到的用于准确反馈词间关系的词向量。
本发明实施例提供的句向量模型使用段落向量和中心词汇向量共同预测上下文词汇,通过窗口在段落中滑动,段落向量伴随窗口进行转移,段落向量趋于稳定,即可代表文本内容。
步骤S104中,本发明实施例提供的对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理,得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征包括:
对待检索专利的标题、摘要进行分词处理,并提取关键词,利用训练好的词向量模型将提取的关键词转化为对应的词向量特征;
对待检索专利的权利要求、说明书进行分词处理,利用训练好的句向量模型转化为对应的句向量特征。
如图3所示,本发明实施例提供的基于多模型融合的文本语义相似度信息处理***包括:
数据获取模块,用于获取待检索专利的相关数据;
文本语义提取模块,用于基于多模型分别提取专利数据的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征;
特征融合模块,用于将提取得到的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行融合得到待检索专利的组合特征;
相似度计算模块,用于基于得到的待检索专利的组合特征与数据库中预先存储的其他专利的组合特征进行相似度计算;
数据库,用于存储相关专利数据、专利组合特征数据以及训练好的词向量模型与句向量模型。
下面结合具体实施例对本发明的技术方案作进一步说明。
实施例1:
对于专利库中的专利数据,针对标题、摘要、权利要求、说明书使用不同的模型进行处理,因为每部分的词频分布、文本长度、句法结构存在较大差异,故而需要将四部分使用不同模型分别处理。
针对标题、摘要,因其文本长度较短,多为专业技术名词及其解释词汇,文体简洁,因此针对标题摘要,首先进行分词操作,然后提取关键词,将关键词送入词向量模型,将其转化为对应词向量。此处使用词向量模型,是因为词向量模型是一种无监督模型,通过窗口在文章内滑动,截取文章片段,如图4所示,使用中间词汇预测上下文词汇,该模型无需任何标注数据,结合梯度下降算法,最小化预测的上下词汇与真实上下词汇之差即可,其最终产物——词向量可准确反馈词间关系,故而使用该方法挖掘专利标题摘要部分浅层语义。
针对权利要求和说明书部分,因该部分文本较长,多为3000-10000字不等,存在较多上下句引用关系,故而此处分词过后使用句向量挖掘其深层语义。句向量模型是词向量的一种变体,同样也是无监督学习模型,在词向量的基础之上引入段落向量,与词向量不同的是,句向量使用段落向量和中心词汇向量共同预测上下文词汇,通过窗口在段落中滑动,段落向量会伴随窗口进行转移,待段落向量趋于稳定,即可代表文本内容。
通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为文章的组合特征向量,计算两两之间相似度,只需计算两两之间的组合特征相似度即可。
综上所述,该模型架构使用无监督学习模型——词向量模型、句向量模型,极大减少了算法模型对标注数据的需求,并且通过句向量的使用,可以深入挖掘文章的深层语义特征,并且,模型左侧部分,针对专利数据库中的专利可以进行离线计算,实时计算时,仅需与缓存的综合特征向量进行逐一对比,极大减少了实时计算的计算量,加快反馈速度。
基于多模型融合的文本语义相似度信息处理方法具体包括:
1.针对专利库中专利的标题、摘要、权利要求、说明书分别进行分词。
2.使用标题和摘要数据训练词向量模型。
3.使用权利要求和说明书数据训练句向量模型。
4.保存训练好的模型。
5.针对专利库中的所有专利分别计算。
6.针对标题、摘要、权利要求、说明书分别进行分词。
7.针对标题、摘要提取关键词。
8.计算标题关键词和摘要关键词对应的词向量特征。
9.计算权利要求和说明书的句向量特征。
10.将标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合。
11.将组合特征进行离线存储。
12.计算待检专利的组合特征。
13.将待检专利的组合特征与专利库中预计算的组合特征进行逐一相似度计算。
14.根据相似度计算结果,选择所需数据。
本发明可使用神经网络替代句向量模型进行计算。
本发明可使用中文词向量模型或其他变种词向量计算方式替代文中所述词向量计算方式。
本发明可使用同样模型架构,但是不同数据源,如使用论文数据,利用词向量计算摘要特征向量,利用句向量计算正文特征向量,使用二者组合特征计算语义相似度。
实施例2
基于多模型融合的文本语义相似度信息处理方法包括:
步骤1,针对论文数据库中的论文标题、摘要分别进行分词操作。
步骤2,使用标题、摘要训练词向量模型。
步骤3,将论文中的全文数据,按照引言、背景、实验、效果对比等大的章节进行拆分,对各个章节进行分词操作。
步骤4,使用上述步骤3所得各个章节的词列表训练句向量模型。
步骤5,保存步骤2所得词向量模型及步骤4所得句向量模型。
步骤6,使用词向量模型及句向量模型对本地论文数据库中的论文进行分模块特征提取。
步骤7,构建特征融合方法,将上述步骤6所得特征进行融合。
步骤8,对上述所提取特征及原文信息进行存储。
步骤9,将待检索论文标题、摘要进行分词操作。
步骤10,使用上述词向量模型,针对论文及摘要中的关键词信息进行向量转换。
步骤11,将待检索论文全文信息进行按章节拆分,并进行分词操作。
步骤12,使用上述句向量模型,进行特征提取。
步骤13,使用上述步骤7采纳的特征融合方式进行特征融合。
步骤14,将待检索论文的组合特征与论文数据库中预计算的组合特征进行逐一相似度计算。
步骤15,根据相似度计算结果,选择所需数据。
本发明可使用神经网络替代句向量模型进行计算。
本发明可使用中文词向量模型或其他变种词向量计算方式替代文中所述词向量计算方式。
本发明可使用同样模型架构,但是不同数据源,如使用论文数据,利用词向量计算摘要特征向量,利用句向量计算正文特征向量,使用二者组合特征计算语义相似度。
下面结合实例效果对比对本发明作进一步描述。
***:Centos7。
设备:8核16线程128G内存*1台。
数据集:100万中文专利。
Figure BDA0002604929210000141
Figure BDA0002604929210000151
通过对比以上实验对照组,不难发现不同分词方法对特征提取影响较大,综合对照,选用分词算法2。
模型融合会使XYA的检出率趋于平均,不会出现X文件检出率远高于A文件检出率,或A文件检出率远高于X文件检出率,针对XYA文件检出率可简单理解为模型对深层语义及浅层语义的特征提取能力,使用模型融合,可均衡融合深层语义及浅层语义。
在特征融合的使用上,因特征维度并不改变,在检出时间上并不会增加。
通过使用特征融合,因同时考虑了深层语义及浅层语义,在检出率上会远高于单一模型。
对比不同特征维度及其检出用时的变化,伴随特征维度的增长,模型检出率会得以提升,其代价是会牺牲检出用时,特征维度的选择需要根据业务要求,综合考虑质量和速度。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种基于多模型融合的文本语义相似度信息处理方法,其特征在于,所述基于多模型融合的文本语义相似度信息处理方法包括:
获取专利库中的专利数据,并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理,得到相应的词向量特征与句向量特征;
通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量;同时利用权利要求和说明书数据训练句向量模型,利用标题和摘要数据训练词向量模型;
分别存储得到的专利库中各个专利的组合特征以及训练好的词向量模型以及句向量模型;
采集待检索专利的相关数据,并对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理,得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征;
将得到的待检索专利的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合得到待检专利的组合特征;
将得到的待检索专利的组合特征与专利库中存储的各个专利的组合特征进行逐一相似度计算。
2.如权利要求1所述基于多模型融合的文本语义相似度信息处理方法,其特征在于,所述针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理得到相应的词向量特征与句向量特征包括:
对标题、摘要进行分词处理,提取关键词,并利用词向量模型将提取的关键词转化为对应词向量特征;
对权利要求和说明书进行分词处理,并利用句向量模型将权利要求和说明书内容转化为对应的句向量特征。
3.如权利要求1所述基于多模型融合的文本语义相似度信息处理方法,其特征在于,所述词向量模型使用中间词汇预测上下文词汇,结合梯度下降算法,最小化预测的上下词汇与真实上下词汇之差,所述词向量模型转化得到的用于准确反馈词间关系的词向量。
4.如权利要求1所述基于多模型融合的文本语义相似度信息处理方法,其特征在于,所述句向量模型使用段落向量和中心词汇向量共同预测上下文词汇,通过窗口在段落中滑动,段落向量伴随窗口进行转移,段落向量趋于稳定,即可代表文本内容。
5.如权利要求1所述基于多模型融合的文本语义相似度信息处理方法,其特征在于,所述对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理,得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征包括:
对待检索专利的标题、摘要进行分词处理,并提取关键词,利用训练好的词向量模型将提取的关键词转化为对应的词向量特征;
对待检索专利的权利要求、说明书进行分词处理,利用训练好的句向量模型转化为对应的句向量特征。
6.一种实施如权利要求1-5所述基于多模型融合的文本语义相似度信息处理方法的基于多模型融合的文本语义相似度信息处理***,其特征在于,所述基于多模型融合的文本语义相似度信息处理***包括:
数据获取模块,用于获取待检索专利的相关数据;
文本语义提取模块,用于基于多模型分别提取专利数据的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征;
特征融合模块,用于将提取得到的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行融合得到待检索专利的组合特征;
相似度计算模块,用于基于得到的待检索专利的组合特征与数据库中预先存储的其他专利的组合特征进行相似度计算;
数据库,用于存储相关专利数据、专利组合特征数据以及训练好的词向量模型与句向量模型。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取专利库中的专利数据,并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理,得到相应的词向量特征与句向量特征;
通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量;同时利用权利要求和说明书数据训练句向量模型,利用标题和摘要数据训练词向量模型;
分别存储得到的专利库中各个专利的组合特征以及训练好的词向量模型以及句向量模型;
采集待检索专利的相关数据,并对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理,得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征;
将得到的待检索专利的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合得到待检专利的组合特征;
将得到的待检索专利的组合特征与专利库中存储的各个专利的组合特征进行逐一相似度计算。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取专利库中的专利数据,并针对专利数据中专利的标题、摘要、权利要求、说明书采用不同模型分别进行分词处理,得到相应的词向量特征与句向量特征;
通过融合标题的词向量特征、摘要的词向量特征、权利要求的句向量特征、说明书的句向量特征作为专利的组合特征向量;同时利用权利要求和说明书数据训练句向量模型,利用标题和摘要数据训练词向量模型;
分别存储得到的专利库中各个专利的组合特征以及训练好的词向量模型以及句向量模型;
采集待检索专利的相关数据,并对待检索专利的标题、摘要、权利要求、说明书分别进行分词处理,得到对应的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征;
将得到的待检索专利的标题词向量特征、摘要词向量特征、权利要求句向量特征、说明书句向量特征进行组合得到待检专利的组合特征;
将得到的待检索专利的组合特征与专利库中存储的各个专利的组合特征进行逐一相似度计算。
9.一种实施如权利要求1-5所述基于多模型融合的文本语义相似度信息处理方法的检索、查重终端。
CN202010735606.5A 2020-07-28 2020-07-28 基于多模型融合的文本语义相似度信息处理方法及*** Pending CN112036177A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010735606.5A CN112036177A (zh) 2020-07-28 2020-07-28 基于多模型融合的文本语义相似度信息处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010735606.5A CN112036177A (zh) 2020-07-28 2020-07-28 基于多模型融合的文本语义相似度信息处理方法及***

Publications (1)

Publication Number Publication Date
CN112036177A true CN112036177A (zh) 2020-12-04

Family

ID=73583308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010735606.5A Pending CN112036177A (zh) 2020-07-28 2020-07-28 基于多模型融合的文本语义相似度信息处理方法及***

Country Status (1)

Country Link
CN (1) CN112036177A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529302A (zh) * 2020-12-15 2021-03-19 中国人民大学 专利申请授权成功率的预测方法、***及电子设备
CN112883722A (zh) * 2021-03-04 2021-06-01 中山大学 一种基于云数据中心分布式文本摘要方法
CN112989790A (zh) * 2021-03-17 2021-06-18 中国科学院深圳先进技术研究院 基于深度学习的文献表征方法及装置、设备、存储介质
CN113254586A (zh) * 2021-05-31 2021-08-13 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN113761890A (zh) * 2021-08-17 2021-12-07 汕头市同行网络科技有限公司 一种基于bert上下文感知的多层级语义信息检索方法
CN114201963A (zh) * 2021-12-14 2022-03-18 智慧芽信息科技(苏州)有限公司 专利申请人的匹配方法、装置、电子设备及存储介质
CN114398968A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115794999A (zh) * 2023-02-01 2023-03-14 北京知呱呱科技服务有限公司 一种基于扩散模型的专利文档查询方法及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536677A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种专利文本相似度计算方法
CN109190112A (zh) * 2018-08-10 2019-01-11 合肥工业大学 基于双通道特征融合的专利分类方法、***及存储介质
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111428044A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536677A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种专利文本相似度计算方法
CN109190112A (zh) * 2018-08-10 2019-01-11 合肥工业大学 基于双通道特征融合的专利分类方法、***及存储介质
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111428044A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张庆颖: "基于Simhash和CNN的相似新闻推荐", 中国优秀硕士学位论文全文数据库 信息科技辑 *
李峰;侯加英;曾荣仁;凌晨;: "融合词向量的多特征句子相似度计算方法研究", 计算机科学与探索 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529302A (zh) * 2020-12-15 2021-03-19 中国人民大学 专利申请授权成功率的预测方法、***及电子设备
CN112883722A (zh) * 2021-03-04 2021-06-01 中山大学 一种基于云数据中心分布式文本摘要方法
CN112989790A (zh) * 2021-03-17 2021-06-18 中国科学院深圳先进技术研究院 基于深度学习的文献表征方法及装置、设备、存储介质
CN112989790B (zh) * 2021-03-17 2023-02-28 中国科学院深圳先进技术研究院 基于深度学习的文献表征方法及装置、设备、存储介质
CN113254586A (zh) * 2021-05-31 2021-08-13 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN113254586B (zh) * 2021-05-31 2021-11-05 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN113761890A (zh) * 2021-08-17 2021-12-07 汕头市同行网络科技有限公司 一种基于bert上下文感知的多层级语义信息检索方法
CN113761890B (zh) * 2021-08-17 2024-04-16 汕头市同行网络科技有限公司 一种基于bert上下文感知的多层级语义信息检索方法
CN114201963A (zh) * 2021-12-14 2022-03-18 智慧芽信息科技(苏州)有限公司 专利申请人的匹配方法、装置、电子设备及存储介质
CN114398968A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115794999A (zh) * 2023-02-01 2023-03-14 北京知呱呱科技服务有限公司 一种基于扩散模型的专利文档查询方法及计算机设备

Similar Documents

Publication Publication Date Title
CN112036177A (zh) 基于多模型融合的文本语义相似度信息处理方法及***
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
CN110298033B (zh) 关键词语料标注训练提取***
CN109493977B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN107832414B (zh) 用于推送信息的方法和装置
CN108287822B (zh) 一种中文相似问题生成***与方法
CN106570171B (zh) 一种基于语义的科技情报处理方法及***
CN107423282B (zh) 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN113961685A (zh) 信息抽取方法及装置
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN111027306A (zh) 一种基于关键词抽取和词移距离的知识产权匹配技术
CN113343108A (zh) 推荐信息处理方法、装置、设备及存储介质
CN117332789A (zh) 一种面向对话场景的语义分析方法及***
Singh et al. Writing Style Change Detection on Multi-Author Documents.
CN115238039A (zh) 文本生成方法、电子设备及计算机可读存储介质
CN114493783A (zh) 一种基于双重检索机制的商品匹配方法
Geetha et al. Kannada text summarization using latent semantic analysis
Barroca et al. Enriching a fashion knowledge graph from product textual descriptions
CN116933782A (zh) 一种电商文本关键词提取处理方法及***
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
CN113641788A (zh) 一种基于无监督的长短影评细粒度观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination