CN112732944A - 一种文本检索的新方法 - Google Patents

一种文本检索的新方法 Download PDF

Info

Publication number
CN112732944A
CN112732944A CN202110130895.0A CN202110130895A CN112732944A CN 112732944 A CN112732944 A CN 112732944A CN 202110130895 A CN202110130895 A CN 202110130895A CN 112732944 A CN112732944 A CN 112732944A
Authority
CN
China
Prior art keywords
retrieval
entity
constructing
deep learning
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110130895.0A
Other languages
English (en)
Inventor
卢奕南
赵延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202110130895.0A priority Critical patent/CN112732944A/zh
Publication of CN112732944A publication Critical patent/CN112732944A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种文本检索的新方法,其方法包括的步骤为:第一部分、使用知识图谱中构造多关系下的实体表示词典集,从多个角度描述实体语义;第二部分、利用查询和文档集训练深度学习网络得到模型;第三部分、给定一个检索问题和测试文档集中利用训练好的神经网络模型进行检索。本发明的有益效果:本发明引入多关系实体表示能够有效的引入先验知识,对于提高算法对语义的理解能力并且减少数据的使用需求有着重要作用。同时使用深度学习方法,合理的引入注意力机制将是深度学习算法优化的关键。最后,随着信息检索文献和方法的成熟,应用更有效的图谱实体学习方法和更合理的深度学习网络结构,将会实现文本及检索领域的更大突破。

Description

一种文本检索的新方法
技术领域
本发明涉及一种文本检索方法,特别涉及一种文本检索的新方法。
背景技术
目前,在过去的几年中深度学习模型和知识图谱表示推理有了很大的进展,并在各个领域取得了重要突破。深度学习网络因为其端到端的优秀提取特征能力,以及层数的叠加带来的计算收益在很多方面超越了传统的机器学习算法,在深度学习模型上发展的词向量和文本表示模型已经广泛的应用在自然语言的各种分支中。知识图谱能够描述实体的概念和实体之间关系,并构成巨大的网络关系图,其中的概念经过人工审核准确而可靠。通过知识图谱,能够准确的存储有关实体的知识,在问答和检索,实体连接等任务上都有可靠的表现。信息检索的目的是在庞大的文本库中寻找有效的模型及算法,信息检索领域取得的发展离不开机器学习和自然语言处理领域的取得的巨大突破。
发明内容
本发明的目的是利用现有的知识图谱表示方法和深度学习排序学习模型提出新的文本检索模型,以提高准确率而提供的一种文本检索的新方法。
本发明提供的文本检索的新方法,其方法包括如下步骤:
第一部分、使用知识图谱中构造多关系下的实体表示词典集,从多个角度描述实体语义,具体步骤如下:
步骤1、根据任务需要构造一个知识图谱,并由三元组进行表示,即包含主语、谓词和宾语的描述;
步骤2、采用基于网络表示学习中的DeepWalk的方法进行多关系的知识图嵌入,得到各个关系下的实体表示词典集;
第二部分、利用查询和文档集训练深度学习网络得到模型,具体步骤如下:
步骤1、构建训练集数据,同时将各检索问题和文档集进行各关系下的实体表示;
步骤2、网络输入多关系下的每对检索和文档的实体表示,构建相应的多个相似度矩阵;
步骤3、对每个矩阵进行基于高斯核的特征提取,并引入多头自注意力机制,提取各个关系下的特征;
步骤4、构建全连接层,求得各个特征的排序分数,计算出它们的平均值;
步骤5、利用Pairwise方法进行深度学习的训练;
第三部分、给定一个检索问题和测试文档集中利用训练好的神经网络模型进行检索,具体步骤如下:
步骤1、将检索语句和测试文档集进行多个关系的实体表示;
步骤2、对每对检索语句和文档表示构建特征,利用训练得到的神经网络模型得到各个测试检索文档的排序分数;
步骤3、根据排序分数对文档进行排序。
本发明的有益效果:
本发明提供的文本检索的新方法,能够增强单词多层面的语义理解,实现端到端的特征提取与排序打分,取得比主流文本检索方法更好的效果。本发明中利用基于知识图谱训练的多关系实体向量替代传统网络中的词向量作为输入,根据已有的知识图谱库以及文本库中的文献自建适合该任务的知识图谱,通过知识图谱实体方法提取出多种关系的向量字典。并引入改进的多头自注意力机制,将检索问题中实体向量的自注意力分配与实体网络特征提取的结果相结合,以提取检索问题中词汇之间的相互依赖关系。本发明引入多关系实体表示能够有效的引入先验知识,对于提高算法对语义的理解能力并且减少数据的使用需求有着重要作用。同时使用深度学习方法,合理的引入注意力机制将是深度学习算法优化的关键。最后,随着信息检索文献和方法的成熟,应用更有效的图谱实体学习方法和更合理的深度学习网络结构,将会实现文本及检索领域的更大突破。
具体实施方式
本发明提供的文本检索的新方法,其具体方法如下所述:
所需条件:普通PC机,并安装有linux***,服务器***环境为Unbantu;数据集使用Explicit Semantic Ranking在学术搜索引擎The Semantic Scholar(S2)中总结并公开的搜索日志数据,主要使用语言为Python3.6和Tensorflow1.8.0;安装有matplotlib,numpy,pandas,这些常用的数据处理工具。
实现步骤如下:
第一部分、使用知识图谱中的实体表示方法,分别对多个关系网络中的实体节点进行图表示训练得到各单关系下的实体表示词典集,具体步骤如下:
步骤1、根据任务需要构造一个知识图谱,图谱三元组来自FreeBase,并由三元组进行表示,即包含主语,谓词和宾语的描述;
步骤2、针对图谱中的主要关系,采用基于网络表示学习中的DeepWalk的方法进行多个单关系的知识图嵌入,得到多个关系的实体表示词典集,网络结构中共计算了三种关系下的实体表示词典集,分别是:作者和实体之间的关系,实体和实体之间的联系,会议与实体之间的关系;这三种关系都会形成各自的简化图谱,借用DeepWalk方法训练出了这三种关系的实体向量,然后建立全文本包含的实体向量字典,字典前部分索引遵循FreeBase实体索引方式,将三种关系的字典统一词序,得到相同顺序的三种不同关系的实体表示方式;
第二部分、构造训练集,通过高斯核和多头自注意力机制进行特征提取,构造全连接层进行Pairwise方法的训练,获得神经网络模型及相关参数,具体步骤如下:
步骤1、构建训练集,对实验文本库中的检索问题和查询文档进行两两匹配的人工打分进行分级,按照检索、正例结果、反例结果这样的三元组进行匹配得到训练样本集,利用多关系实体向量字典集和实体连接进行检索问题和查询文档的实体表示;
步骤2、一个样本中的问题及文档的多关系实体表示作为网络输入,构建多个相似度矩阵M,每一个元素Mij是问题和文本中实体向量i和j的相似度,一般采用余弦相似度:
Figure BDA0002925247850000041
步骤3、特征提取,首先使用核技巧来提取相似度矩阵中的区间段特征值φ(M),第k个高斯核函数计算方式如下:
Figure BDA0002925247850000042
Figure BDA0002925247850000043
根据不同查询词提取的特征进行对数累加,
Figure BDA0002925247850000044
是相似度矩阵中第i个查询词所对应行的特征提取值,是由不同的高斯核映射拼接在一起计算:
Figure BDA0002925247850000045
然后引入多头自注意力机制,利用问题语句的实体表示,计算多头自注意力模块中注意力权重比值;
步骤4:将得到的多个关系下的特征向量与神经网络全连接层相结合,计算排序分数,计算方式如下:
f(q,d)=tanh(wTφ(M)+b)
其中,w和b是神经网络中需要学习的参数,tanh是激活函数,再计算多关系下的排序分数的均值为s(q,d);
步骤5:使用Pairwise的训练方法,每个训练样本的损失计算公式如下:
L(q,d+,d-;θ)=max(0,1-s(q,d+)+s(q,d-))
最终网络会通过梯度下降减少总体损失值来调整个阶段的参数,使其训练结束后损失达到最小,保留最终的网络参数值,其中采用Adam的梯度下降训练方式,参数采用随机高斯分布来做初始化设置,学习速率为0.001;
第三部分、对新的检索问题和测试文档集利用训练好的神经网络模型进行打分排序,得到检索结果,具体步骤如下:
步骤1、将检索语句和测试文档集进行实体连接,并利用实体字典集进行多个关系下的实体向量表示;
步骤2、对得到的每对查询语句和文档表示经过高斯核特征提取和多头注意力机制,由训练得到的全连接层计算多个关系的排序分数,求得平均值得到排序分数;
步骤3、根据排序分数对文档进行排序。

Claims (1)

1.一种文本检索的新方法,其特征在于:其方法包括如下步骤:
第一部分、使用知识图谱中构造多关系下的实体表示词典集,从多个角度描述实体语义,具体步骤如下:
步骤1、根据任务需要构造一个知识图谱,并由三元组进行表示,即包含主语、谓词和宾语的描述;
步骤2、采用基于网络表示学习中的DeepWalk的方法进行多关系的知识图嵌入,得到各个关系下的实体表示词典集;
第二部分、利用查询和文档集训练深度学习网络得到模型,具体步骤如下:
步骤1、构建训练集数据,同时将各检索问题和文档集进行各关系下的实体表示;
步骤2、网络输入多关系下的每对检索和文档的实体表示,构建相应的多个相似度矩阵;
步骤3、对每个矩阵进行基于高斯核的特征提取,并引入多头自注意力机制,提取各个关系下的特征;
步骤4、构建全连接层,求得各个特征的排序分数,计算出它们的平均值;
步骤5、利用Pairwise方法进行深度学习的训练;
第三部分、给定一个检索问题和测试文档集中利用训练好的神经网络模型进行检索,具体步骤如下:
步骤1、将检索语句和测试文档集进行多个关系的实体表示;
步骤2、对每对检索语句和文档表示构建特征,利用训练得到的神经网络模型得到各个测试检索文档的排序分数;
步骤3、根据排序分数对文档进行排序。
CN202110130895.0A 2021-01-30 2021-01-30 一种文本检索的新方法 Pending CN112732944A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110130895.0A CN112732944A (zh) 2021-01-30 2021-01-30 一种文本检索的新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110130895.0A CN112732944A (zh) 2021-01-30 2021-01-30 一种文本检索的新方法

Publications (1)

Publication Number Publication Date
CN112732944A true CN112732944A (zh) 2021-04-30

Family

ID=75594885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110130895.0A Pending CN112732944A (zh) 2021-01-30 2021-01-30 一种文本检索的新方法

Country Status (1)

Country Link
CN (1) CN112732944A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553444A (zh) * 2021-07-27 2021-10-26 之江实验室 一种基于超边的审计知识图谱表示模型及关联推理方法
CN113987155A (zh) * 2021-11-25 2022-01-28 中国人民大学 一种融合知识图谱与大规模用户日志的会话式检索方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030897A1 (en) * 2007-07-26 2009-01-29 Hamid Hatami-Hanza Assissted Knowledge Discovery and Publication System and Method
US20130330008A1 (en) * 2011-09-24 2013-12-12 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN108399238A (zh) * 2018-03-01 2018-08-14 福州大学 一种融合文本概念化和网络表示的观点检索***及方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN110223742A (zh) * 2019-06-14 2019-09-10 中南大学 中文电子病历数据的临床表现信息抽取方法和设备
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111241285A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 问题回答类型的识别方法、装置、设备及存储介质
CN111353030A (zh) * 2020-02-26 2020-06-30 陕西师范大学 基于旅游领域知识图谱的知识问答检索方法及装置
CN111597327A (zh) * 2020-04-22 2020-08-28 哈尔滨工业大学 一种面向舆情分析的无监督式多文档文摘生成方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030897A1 (en) * 2007-07-26 2009-01-29 Hamid Hatami-Hanza Assissted Knowledge Discovery and Publication System and Method
US20130330008A1 (en) * 2011-09-24 2013-12-12 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN108399238A (zh) * 2018-03-01 2018-08-14 福州大学 一种融合文本概念化和网络表示的观点检索***及方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN110223742A (zh) * 2019-06-14 2019-09-10 中南大学 中文电子病历数据的临床表现信息抽取方法和设备
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111241285A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 问题回答类型的识别方法、装置、设备及存储介质
CN111353030A (zh) * 2020-02-26 2020-06-30 陕西师范大学 基于旅游领域知识图谱的知识问答检索方法及装置
CN111597327A (zh) * 2020-04-22 2020-08-28 哈尔滨工业大学 一种面向舆情分析的无监督式多文档文摘生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
毕磊: "基于图谱实体表示与排序学习的文本检索方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553444A (zh) * 2021-07-27 2021-10-26 之江实验室 一种基于超边的审计知识图谱表示模型及关联推理方法
CN113987155A (zh) * 2021-11-25 2022-01-28 中国人民大学 一种融合知识图谱与大规模用户日志的会话式检索方法
CN113987155B (zh) * 2021-11-25 2024-03-26 中国人民大学 一种融合知识图谱与大规模用户日志的会话式检索方法

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN109255031A (zh) 基于知识图谱的数据处理方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN106055675B (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN107818164A (zh) 一种智能问答方法及其***
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及***
CN111160564B (zh) 一种基于特征张量的中文知识图谱表示学习方法
US20210018332A1 (en) Poi name matching method, apparatus, device and storage medium
CN108021555A (zh) 一种基于深度卷积神经网络的问句相似度度量方法
CN112765312A (zh) 一种基于图神经网络嵌入匹配的知识图谱问答方法和***
CN112800203B (zh) 一种融合文本和知识表征的问答匹配方法及***
CN112990296A (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、***及设备
CN110688489A (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN112988917A (zh) 一种基于多种实体上下文的实体对齐方法
CN112732944A (zh) 一种文本检索的新方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN115525751A (zh) 一种基于知识图谱的智能问答***和方法
CN111581365B (zh) 一种谓词抽取方法
CN115795018B (zh) 一种面向电网领域的多策略智能搜索问答方法及***
CN112668481A (zh) 一种遥感图像语义抽取方法
CN112084312A (zh) 一种基于知识图构建的智能客服***
CN116955558A (zh) 基于知识图谱推理的地学数据集问答方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210430