CN108520038A

CN108520038A - 一种基于排序学习算法的生物医学文献检索方法

Info

Publication number: CN108520038A
Application number: CN201810279010.1A
Authority: CN
Inventors: 杨志豪; 彭钰莹; 林鸿飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-03-31
Filing date: 2018-03-31
Publication date: 2018-09-11
Anticipated expiration: 2038-03-31
Also published as: CN108520038B

Abstract

本发明涉及数据挖掘和搜索引擎技术领域，一种基于排序学习算法的生物医学文献检索方法，包括以下步骤：(1)利用原始查询进行检索并提取结果，(2)构建推荐模型对查询概念进行评级，(3)构建查询优化模型并对原始查询进行细化，(4)构建查询扩展模型并对查询进行扩展，(5)融合排序模型，(6)利用新查询进行检索并提取结果。本发明方法能够利用生物医学领域的知识库等资源对用户提交的原始查询进行扩展，在扩展中使用了排序算法用于扩展词汇重要性度量，通过查询扩展过程对用户提交的查询进行了补充和完善，保证了查询结果的准确性，进一步满足了用户的信息需求。

Description

一种基于排序学习算法的生物医学文献检索方法

技术领域

本发明涉及一种基于排序学习算法的生物医学文献检索方法，属于数据挖掘和搜索引擎技术领域。

背景技术

近年来，随着生物医学领域的快速发展，生物医学相关研究取得了较多有价值的成果，这些成果不仅促成了一些曾经看似难以解决的疾病的治疗，从更深远的角度看，也推动了人类对于自身认识的发展和深入。但是随着生物医学文献数量的飞速增加，相关信息的数量也在呈指数性增加，海量的文献和信息为生物医学研究者和相关从业人员的信息获取带来了难题，而传统的手工信息获取方式已经逐渐变得不再适用，因此，需要借助于信息检索的技术和方法，协助相关人员获取所需的信息。

传统的信息检索技术能够根据用户提交的查询，对文档进行相关性排序，并将排序结果返回给用户。而直接将传统的信息检索方法应用于生物医学文献的检索任务中，很难取得较好的检索性能，其原因在于未能充分的考虑生物医学领域的固有特点，比如生物医学领域具有较多的专业词汇，而这些专业词汇往往同时存在很多同义词和缩写词的情况。如果能在传统的信息检索方法中充分的考虑生物医学领域的特点，将会进一步提高生物医学信息检索的性能。

查询扩展技术是传统信息检索领域的关键技术之一。它能够在用户提交的原始查询的基础上，根据用户的检索意图，对查询进行补充和完善，从而得到更符合用户检索意图的查询，提高检索的性能。现有的查询扩展方法可以分为两大类：一类是基于文档集合的查询扩展方法，这类方法以全部数据文档集合或者部分数据文档集合为研究对象，从中提取与查询相关的内容，完善原始查询；另一类是基于外部扩展资源的查询扩展技术，外部资源主要包括有词典资源、检索***查询日志，锚文本和***等，很多研究表明利用外部扩展资源完善原始查询，可以更好的完成查询扩展任务，进而提升检索的性能。

要建立针对于生物医学领域的文献检索，首先应该了解该领域的特点和资源。在生物医学领域的文献中存在着大量的专业词汇，而这些词汇又包含了很多同义词和缩写词等复杂情况，这为检索***的建立带来了巨大的挑战，多种名称的情况，如果在检索中只查询其中的一个名字，很难检索到所有相关的文献。值得庆幸的是，在生物医学领域还存在着许多固有的知识库和资源，例如医学主题词表MeSH，如果能在检索的过程中充分的利用这些资源，将会对生物医学文献检索的性能带来巨大的提升。

排序是信息检索中的核心问题，传统的排序模型大多数都带有参数，为了可以获得更好的排序性能，需要调节这些参数，参数调节是非常繁琐的，容易过拟合。而机器学习技术已经在自动调节参数、多实例融合、避免过拟合上表现出了优势。排序学习learningto rank是机器学习与信息检索相结合的研究领域，排序学习算法是一系列用于信息检索中对文档排序的监督学习算法的总称，它的主要特点在于应用机器学习的技术来解决信息检索中的排序问题，通过训练集训练排序模型，将训练好的模型应用于测试集的排序任务中，可获得较好的检索排序性能。

发明内容

为了克服现有技术中存在的不足，本发明目的是提供一种基于排序学习算法的生物医学文献检索方法，通过该方法能让用户获得准确的生物医学文献，有效的补充和完善用户的信息需求。

为了实现上述发明目的，解决已有技术中所存在的问题，本发明采取的技术方案是：一种基于排序学习算法的生物医学文献检索方法，包括以下步骤：

步骤1、利用原始查询进行检索并提取结果，首先搭建一个信息检索***，输入M组原始查询，通过检索后，得到每个查询对应的前N条查询结果文档，再将查询结果文档放到一个查询池中；

步骤2、构建推荐模型对查询概念进行评级，每个查询由一个或n个概念组成，需要一个模型来评估在查询中的每个概念，并对该概念进行评级，具体分成重要概念、基本概念、弱相关概念和无关概念四个等级，然后给四个等级的概念分别赋予四个概率，即重要概念赋予概率3，基本概念赋予概率2，弱相关概念赋予概率1，无关概念赋予概率0；推荐模型确定一个概念在生物医学领域上是重要的还是不重要的，然后确定是要保持该概念还是移除它，推荐模型需要两种类型的信息：一是如何将概念映射到一组语义类型中，二是如何评价每个基于语义类型的概念，作为推荐模型是由语义映射工具和加权投票方法两部分所构建；使用语义映射工具MetaMap将概念映射成行为、临床药物、生物体这样的语义类型，语义映射工具MetaMap依赖于统一医学语言***UMLS，将临床概念映射到不同的语义类型，一些语义类型与搜索任务无关，一些语义类型与搜索任务相关；由于概念会映射到一般和特定类型的混合，仅使用映射得到的这些混合类型还不能直接改进检索，还需采用加权投票的方法，对语义类型进行投票，来判断是否该概念对搜索任务表现重要，具体概念评级通过公式(1)进行描述，

式中Rate表示概率，i表示任意概念concept，分段函数a＝-2，b＝0，c＝5，sum表示权重和，weight表示权重，Important表示重要，Essential表示基本，Weak表示弱相关，Irrelevant表示无关；

步骤3、构建查询优化模型并对原始查询进行细化，给定一个原始查询经过构建查询优化模型后得到的评级结果，并对原始查询进行细化，若该概念被评为无关概念，则从原始查询中删除该概念，若该概念被评为弱相关概念，则减少原始查询中该概念的权重，若该概念被评为基本概念，则保持原始查询中该概念的权重不变，若该概念被评为重要概念，则增加原始查询中该概念的权重，具体包括以下子步骤：

(a)删除无关概念，对每个文档进行打分并采用公式(2)进行描述，

式中，Score表示分数，d表示文档，Q表示查询，t表示查询Q中的无关概念项，qtw表示Q中的单项权重，w(t,d)表示文档d中的单项权重；

(b)减少弱相关概念的权重，对每个文档进行打分并采用公式(3)进行描述，

式中，Qr表示减少弱相关概念项的集合，w_r表示减少弱相关概念项的权重；

(c)保持基本概念权重不变；

(d)增加重要概念的权重，对每个文档进行打分并采用公式(4)进行描述，

式中，Q_b表示增加重要概念项的集合，w_b表示增加重要概念项的权重；

(e)被评为重要概念在摘要中出现则认为该查询与这个文档相关，对每个文档进行打分并采用公式(5)进行描述，

式中，使用λ来控制摘要和正文之间在权重上的比重问题；

(f)最终评分功能，将这些改进结合在一个评分方程中，对每个文档进行打分并采用公式(6)进行描述，

式中，w_b、w_r、λ使用K倍交叉验证；

步骤4、构建查询扩展模型并对查询进行扩展，具体包括以下子步骤：

(a)基于医学主题词表MeSH的查询扩展词的选择，在前面加权的基础上，使用医学主题词表MeSH对查询进行基于本体的扩展，以减少临床查询中存在的临床概念的模糊性，基于医学主题词表MeSH的扩展与一般扩展不同，因为它不使用反馈文档来获取扩展术语，而是从查询中提取医学概念，并使用医学主题词表MeSH库进行扩展，它依赖于每个概念通过推荐模型后的评级结果，只扩展被评级为重要概念，而评为其他三个等级的概念不被展开；

(b)对扩展词进行排序学习建模，采用的排序学习算法，分别是回归算法Regression、基于文档对的算法Ranknet和基于文档列表的算法LambdaMART，近年研究表明，这三种算法在检索中可以取得好的排序性能，所以将其引用到查询扩展词排序模型训过程中，对扩展词进行重新排序和加权；

(c)扩展词的相关性标注，在利用扩展模型得到扩展词的集合之后，要对扩展词的相关性进行标注，标注的目的是为了利用排序学***均准确率MAP值对检索结果进行评价，当把扩展词加入原始查询中进行检索时，若平均准确率MAP值对比原始查询结果提高，则对该扩展词标注1，否则为0，相关性标注采用公式(7)进行描述，

式中，MAP表示平均准确率值，t表示扩展词，q表示原始查询，Label表示标注结果值；

(d)对扩展词进行特征选取，为了训练排序模型，需要对扩展词进行特征建模，通过不同特征表示扩展词与原始查询的相关性，扩展词的特征包括扩展词在数据集合中出现的词频率、文档频率、文本相似度BM25得分、扩展词与查询词共现次数，在模型训练的过程中，每一个扩展词都被表示成特征向量的形式；

(e)基于排序学习算法的二次检索，训练好排序模型后，排序模型对查询扩展词进行重新排序，按照排序对扩展词赋予不同的权重，将重新加权后的扩展词加入到原始查询中形成新查询，利用新查询输入检索***进行检索；

步骤5、融合排序模型，对上述两种设计方法进行融合：一种通过查询优化模型执行改进，将通过推荐模型后的查询概念评级，对其进行细化，删除或重新加权查询概念，得到新查询；另一种是通过查询扩展模型，执行基于医学主题词表MeSH的扩展，将通过推荐模型后的查询概念评级，只扩展评级为重要的概念，对该查询概念扩展词进行排序学习建模，赋予扩展词合适的权重，然后将权重高的扩展词加入原始查询，得到新查询；除了上述的融合模型外，也可以单一通过查询优化模型或者查询扩展模型对原始查询进行改进，从而提高检索效率，打分采用公式(8)进行描述，

式中，ISR(i)表示文档i的组合分数，N(i)表示文档i出现的排名列表的数量，R_k表示排名列表k中的文档i的排名；

步骤6、利用新查询进行检索并提取结果，经过上述三个查询改进模型，可以得到改进后的新查询，将新查询输入检索***，能得到精准的查询结果文档，从而提高检索效率；实验采用文本检索会议TREC2015年评测的数据集，将查询分为训练集、验证集、测试集，用于排序学***均准确率MAP、准确率P@k、归一化累计折损NDCG@k三种评价指标对实验结果进行评价。

本发明有益效果是：一种基于排序学习算法的生物医学文献检索方法，包括以下步骤：(1)利用原始查询进行检索并提取结果，(2)构建推荐模型对查询概念进行评级，(3)构建查询优化模型并对原始查询进行细化，(4)构建查询扩展模型并对查询进行扩展，(5)融合排序模型，(6)利用新查询进行检索并提取结果。与已有技术相比，本发明方法能够利用生物医学领域的知识库等资源对用户提交的原始查询进行扩展，在扩展中使用了排序算法用于扩展词汇重要性度量，通过查询扩展过程对用户提交的查询进行了补充和完善，保证了查询结果的准确性，进一步满足了用户的信息需求。

附图说明

图1是本发明方法步骤流程图。

图2是本发明结果对比折线图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于排序学习算法的生物医学文献检索方法，包括以下步骤：

步骤1、利用原始查询进行检索并提取结果，首先搭建一个信息检索***，输入M组原始查询，通过检索后，得到每个查询对应的前N条查询结果文档，再将查询结果文档放到一个查询池中，本发明N取10；其中搜索引擎的原始查询记录主要是指针对于生物医学文献的检索***所记录的查询历史以及相应的查询结果，当无相关历史查询记录的情况时，可以通过构造生物医学查询和检索的方式，人工获得查询及其检索结果的记录。检索方法可以采用传统信息检索中的多种排序模型，包括但不限于向量空间模型，文本相似度BM25检索模型等。

式中Rate表示概率，i表示任意概念concept，分段函数a＝-2，b＝0，c＝5，sum表示权重和，weight表示权重，Important表示重要，Essential表示基本，Weak表示弱相关，Irrelevant表示无关；表1说明了使用语义映射工具MetaMap来识别临床概念，并将概念映射到多个UMLS语义类型。

表1

如表1所示，概念例证的语义类型范围是非常广泛的，这些类型中的一些与搜索任务无关，而一些可能非常相关；由于概念可能映射到一般和特定类型的混合，仅使用这些类型来改进检索并不直接。接下来进行加权投票的方法，通过该方法，对语义类型进行投票，再来判断是否对搜索任务该概念表现重要。

投票方式如下：首先，将从MetaMap中获取的每一种语义类型手动的放置在三个袋子中的一个：一个用于已经确定为生物医学领域强相关的语义类型，如临床发现，症状和疾病；一个用于确定为生物医学领域弱相关的语义类型，如人类日常活动或休闲活动；一个与生物医学领域不相关的语义类型，如时间和地理类型。然后，给袋子分配权重，使得具有很强临床关系的第一个袋子A具有高的权重，第二个具有弱临床关系的B袋子具有比第一个低的权重，而第三个无关袋子C具有负权重。以上行为使用语义类型的UMLS描述手动完成。推荐模型通过将语义映射工具MetaMap应用于数据集所示的主题摘要；MetaMap自动提取查询中的概念，并对每个概念输出可能的语义类型的列表。然后，根据上述三个袋中的这些类型的存在，通过为出现在该袋中的每个语义类型添加相应的袋子重量来计算该概念的投票总和。使用这个投票的结果来决定应该给每个概念评分。用推荐模型定义四个评分作为输出，这些评分是：重要概念(rate＝3)，基本概念(rate＝2)，弱相关概念(rate＝1)和无关概念(rate＝0)。该模型根据以下公式2-1决定评级，袋子权重分别为A＝5，B＝1，C＝-1。式中，分段函数中a＝-2，b＝0，c＝5。计算最终的得分情况。

(a)删除无关概念，即概率＝0，这表明该概念映射的大多数语义类型在临床上是不相关的，预期删除不相关的概念可以提高检索的有效性。这是通过从文档分数函数中排除所删除的术语来执行的，因为信息检索***通过针对查询计算每个文档的分数来执行检索。使用InExpB2发散随机DFR模型，对每个文档进行打分并采用公式(2)进行描述，

(b)减少弱相关概念的权重，即概率＝1，概念的权重将会降低，这对应于该概念在临床上不相关和临床上较弱相关的语义类型之间共享其大部分语义类型，对每个文档进行打分并采用公式(3)进行描述，

(c)保持基本概念权重不变，即概率＝2，这表明这样的概念在回答查询时是必不可少的。

(d)增加重要概念的权重，即概率＝3，表明这个概念映射的大部分语义类型都是临床医学上重要的类型。因此，回答临床询问很大程度将取决于这一概念，应该通过增加其在查询中的权重来强调该概念的重要性，以此提高检索性能，对每个文档进行打分并采用公式(4)进行描述，

(e)被评为重要概念在文档摘要中出现则认为该查询与这个文档相关，对每个文档进行打分并采用公式(5)进行描述，

式中，使用λ来控制摘要和正文之间在权重上的比重问题；

式中，w_b、w_r、λ使用K倍交叉验证；

(a)基于医学主题词表MeSH的查询扩展词的选择，在前面加权的基础上，使用医学主题词表MeSH对查询进行基于本体的扩展，以减少临床查询中存在的临床概念的模糊性，基于医学主题词表MeSH的扩展与一般扩展不同，因为它不使用反馈文档来获取扩展术语，而是从查询中提取医学概念，并使用医学主题词表MeSH库进行扩展，它依赖于每个概念通过推荐模型后的评级结果，只扩展被评级为重要概念，而评为其他三个等级的概念不被展开；具体过程如下：第一概念识别，使用MetaMap和推荐模型来识别查询中的重要概念；第二概念匹配，使用PubMed将每个概念与其实际的MeSH条目相关联；第三相似度估计，计算MeSH树中每个概念与其兄弟和后代节点之间的语义距离；第四概念扩展，扩展每个MeSH概念及其条目，兄弟姐妹和后代；第五扩展组合，在一个列表中整合要扩展的概念；第六对扩展词进行排序学习建模。

(d)对扩展词进行特征选取，为了训练排序模型，需要对扩展词进行特征建模，通过不同特征表示扩展词与原始查询的相关性，扩展词的特征包括扩展词在数据集合中出现的词频率、文档频率、文本相似度BM25得分、扩展词与查询词共现次数，在模型训练的过程中，每一个扩展词都被表示成特征向量的形式，如表2所示。

表2

在表2中，特征1和特征2利用了文档中的词频和文档频率信息，能够表征扩展词出现的频率以及在所在文档出现的频率；特征3利用了共现信息，可以进一步表征扩展词与查询之间的相似度关系；特征4利用了扩展词与查询对的共现信息，相比较特征3，特征4进一步加强语义信息，可以体现该扩展词与整个查询的关系；特征5利用了BM25得分，进一步表现扩展词加入原始查询后在文档上的表现。本发明使用的特征都是从实验数据集合中提取的，实验数据集采用了TREC提供的CDS2015数据集。在数据集文档中，每一篇文档包含title、abstract、title+abstract三个域，基于不同的数据域进行特征抽取，对于特征1和2还进行了取对数、除以特征最大值，得到另外4个新特征，结合表中列出的5个特征，在每个域分别抽取特征，针对每个扩展词得到27个不同特征。

步骤6、利用新查询进行检索并提取结果，经过上述三个查询改进模型，可以得到改进后的新查询，将新查询输入检索***，能得到精准的查询结果文档，从而提高检索效率；实验采用文本检索会议TREC2015年评测的数据集，将查询分为训练集、验证集、测试集，用于排序学***均准确率MAP、准确率P@k、归一化累计折损NDCG@k三种评价指标对实验结果进行评价，在评价指标NDCG@k下的结果对比折线图，如图2所示。具体来说，检索部分，搭建基于Lucene的检索***，生物医学文献预处理部分，采用Porter算法进行词干化处理，使用停用词表对数据集去停用词。对原始预料建立索引，在检索得到的前N篇文献中，利用扩展技术得到前k个扩展词集合，针对每个扩展词进行特征抽取和标注，之后按8:1:1划分训练集、验证集、测试集，采用五倍交叉验证进行模型训练，最后将训练好的模型对测试集的扩展词进行排序，将重新加权的扩展词加入原始查询中进行二次检索。其中，设置相关参数N＝10，k＝100，扩展词与原始查询相结合的比例为0.2和0.8。采用MAP、P@k、NDCG@k三种评价指标对实验结果进行评价，如表3所示。QD表示直接用原始查询进行初次检索后的结果，QR表示经过查询优化后的新查询进行检索后的结果，Regression、Ranknet和LambdaMART分别代表利用MeSH扩展后，对扩展词重排序后得到的新查询检索后的结果，ISR代表融合查询重组和基于排序学习的查询扩展后得到的结果。

表3

Claims

1.一种基于排序学习算法的生物医学文献检索方法，其特征在于包括以下步骤：

(c)保持基本概念权重不变；

式中，使用λ来控制摘要和正文之间在权重上的比重问题；

式中，w_b、w_r、λ使用K倍交叉验证；