CN112667571A

CN112667571A - 一种生物医学文献搜索排序方法及装置

Info

Publication number: CN112667571A
Application number: CN201910980643.XA
Authority: CN
Inventors: 郭敏; 裴健新; 余晴; 于雪
Original assignee: Kangmaxin Shanghai Intelligent Technology Co ltd
Current assignee: Kangmaxin Shanghai Intelligent Technology Co ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2021-04-16

Abstract

本发明公开了一种生物医学文献搜索排序方法及装置，其方法包括：获取用户输入的查询内容；对查询内容进行预处理，获取至少包含一个搜索词的搜索词集；在指定的数据搜索平台搜索该搜索词集，获取相关医学文献；对该相关医学文献按照相关性从高到低进行粗排序；在粗排序后的相关医学文献中，提取排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献；将目标医学文献输入训练好的优化排序模型进行优化排序，输出优化排序后的目标医学文献；将优化排序后的目标医学文献及提取后剩下的粗排序相关医学文献输出给用户。通过本发明，可更加精准的进行搜索排序，向用户展示用户想要获取的搜索查询的相关内容，大大提升了用户体验。

Description

一种生物医学文献搜索排序方法及装置

技术领域

本发明涉及数据搜索领域，尤其涉及一种生物医学文献搜索排序方法及装置。

背景技术

随着生物医学文献大数据增多,用户对生物医学大数据的搜索需求也随着具体的生物问题的不同需求而增长，针对查询检索最相关的文章越来越有挑战性。用户查询要求越来越高，不仅要求搜索速度的快速，而且要求搜索出的文献前后排序更好，能够很快的找到所需要的信息。

现有的生物医学搜索排序技术，在信息检索中，BM25(BM代表最佳匹配)是一种用来评价搜索词和文献之间相关性的算法。它基于20世纪70年代和80年代由StephenE.Robertson，

和其他人开发的概率检索框架。BM25F是典型BM25的改进算法，BM25在计算相关性时把文献当做整体来考虑，但随着搜索技术的发展，文献慢慢的被结构化数据所代替，每个文献都会被切分成多个独立的域，尤其是垂直化的搜索。比如网页有可能被切分成标题，内容，主题词等域，这些域对文章主题的权重不能同等对待，所以权重就要有所偏重，BM25没有考虑这点，所以BM25F在此基础上做了一些改进，就是不再单单的将单词作为个体考虑，而且将文献也按照field划分为个体考虑。在BM25F算法中，文献所得的分数越大，表明这个文献越相关，而且只有搜索词里的字符都包含时才可以，现阶段生物医学文献查询，基本基于文献的一些因素，例如标题，文本等，就会产生这样的结果，例如有的文献可能有关，但是当你把它放在前面时，用户没有点击去看，不是用户最想看到的，使搜索排序没有达到一个比较好的排序效果，直接推送给用户，影响到用户的搜索结果，降低了用户的体验。

发明内容

为解决上述技术问题，本发明提供一种生物医学文献搜索排序方法及装置，具体的，本发明的技术方案如下：

一方面，本发明公开了一种生物医学文献搜索排序方法，包括：获取用户输入的查询内容；对所述查询内容进行预处理，获取至少包含一个搜索词的搜索词集；在指定的数据搜索平台搜索所述搜索词集，获取与所述搜索词集相关的相关医学文献；对所述相关医学文献按照相关性从高到低进行粗排序；在粗排序后的相关医学文献中，提取排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献；将所述目标医学文献输入训练好的优化排序模型进行优化排序，输出优化排序后的目标医学文献；将优化排序后的目标医学文献及提取后剩下的粗排序相关医学文献输出给用户。

优选地，所述对所述相关医学文献按照相关性从高到低进行粗排序具体包括：计算所述搜索词集中的每个搜索词的逆文本频率指数、词频；当前需要评分的文献的长度及全部文献的平均长度；按照下述公式计算对所述相关医学文献进行评分，并按照评分的大小对所述相关医学文献进行排序：

其中，参数d为所述相关医学文献中当前需要评分的评分文献，q为搜索词集，score(d，q)为针对所述搜索词集q，所述评分文献d的排序得分；t为所述搜索词集中的单个搜索词；TFt为搜索词t的词频；IDFt为搜索词t的逆文本频率指数；dl为当前需要评分的文献d的长度；avdl为包含所述搜索词集中的搜索词t的所有相关医学文献的平均长度；k1为自由调节参数、b为自由调节参数。

优选地，所述生物医学文献搜索排序方法还包括：训练所述优化排序模型；具体包括：获取训练样本数据，所述训练样本数据包括生物医学文献及其搜索、点击数据；提取所述训练样本数据的特征，并对所述训练样本数据进行标签处理；将标签处理后的训练样本数据按照预设的比例划分为训练集、测试集和验证集；调用指定的机器学习库中的排序模型，设置所述排序模型的学习参数；加载所述训练集、测试集对初始训练模型进行训练；根据预设的衡量排序质量的评价指标，采用所述验证集中的训练样本数据对训练后的模型进行验证测试；将验证测试通过的模型作为训练好的优化排序模型。

优选地，所述提取所述训练样本数据的特征具体包括：提取所述训练样本数据中的医学文献的基本信息、停用词信息、所述搜索词集中的搜索词在所述医学文献的指定域出现的参数信息、及流量信息；其中，所述医学文献的流量信息包括：所述医学文献的点击数、收藏数、点赞数之中的任意一个或多个。

优选地，所述对所述训练样本数据进行标签处理具体包括：根据所述训练样本数据中的搜索点击数据，计算所述训练样本数据中用户搜索的相关医学文献的相关度得分；按照所述训练样本数据中的相关医学文献的相关度得分的高低进行排序，并排序结果作为黄金标准；根据所述黄金标准，将所述训练样本数据中的各医学文献分为几个档次，并设以对应的标签。

优选地，根据所述黄金标准，将所述训练样本数据中用户搜索获得的各医学文献分为几个档次，并设以对应的标签。具体包括：在所述训练样本数据中用户搜索获得的各医学文献中，若所述医学文献处于所述黄金标准中排序前10的医学文献，则设置所述医学文献的标签设置为12减去其搜索排序号的值；若所述医学文献处于所述黄金标准中排序10至20之间的医学文献，则设置所述医学文献的标签设置为2；若所述医学文献处于所述黄金标准中排序大于20的医学文献，则设置所述医学文献的标签设置为1；若所述医学文献不在所述黄金标准中，则设置所述医学文献的标签设置为0。

优选地，调用的排序模型为LambdaMART模型，所述设置所述排序模型的学习参数具体包括：设置LambdaMART参数中树的数量为200，学习率为0.3。

另一方面，本发明还公开了一种生物医学文献搜索排序装置，采用权利要求1-7任本发明任一项所述的生物医学文献搜索排序方法进行搜索排序，所述生物医学文献搜索排序装置包括：输入获取模块，用于获取用户输入的查询内容；预处理模块，用于对所述查询内容进行预处理，获取至少包含一个搜索词的搜索词集；数据库搜索模块，用于在指定的数据搜索平台搜索所述搜索词集，获取与所述搜索词集相关的相关医学文献；粗排序模块，用于对所述相关医学文献按照相关性从高到低进行粗排序；提取模块，用于在粗排序后的相关医学文献中，提取排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献；优化排序模块，用于将所述目标医学文献输入训练好的优化排序模型进行优化排序，输出优化排序后的目标医学文献；输出反馈模块，用于将优化排序后的目标医学文献及提取后剩下的粗排序相关医学文献输出给用户。

优选地，所述生物医学文献搜索排序装置，所述生物医学文献搜索排序装置还包括：用于训练所述优化排序模型的模型训练模块，所述模型训练模块具体包括：样本获取子模块，用于获取训练样本数据，所述训练样本数据包括生物医学文献及其搜索、点击数据；样本处理子模块，用于提取所述训练样本数据的特征，并对所述训练样本数据进行标签处理；样本划分子模块，用于将标签处理后的训练样本数据按照预设的比例划分为训练集、测试集和验证集；模型选取子模块，用于调用指定的机器学习库中的排序模型，设置所述排序模型的学习参数；加载训练子模块，用于加载所述训练集、测试集对初始训练模型进行训练；验证子模块，用于根据预设的衡量排序质量的评价指标，采用所述验证集中的训练样本数据对训练后的模型进行验证测试；并将验证测试通过的模型作为训练好的优化排序模型。

优选地，所述样本处理子模块包括：特征提取单元，用于提取所述训练样本数据中的医学文献的基本信息、停用词信息、所述搜索词集中的搜索词在所述医学文献的指定域出现的参数信息、及流量信息；其中，所述流量信息包括所述医学文献的点击数、收藏数、点赞数之中的任意一个或多个；标签处理单元，用于对所述训练样本数据进行标签处理；处理方式具体包括：所述标签处理单元根据所述训练样本数据中的搜索点击数据，计算所述训练样本数据中用户搜索的相关医学文献的相关度得分；所述标签处理单元按照得分的高低对所述相关医学文献进行排序，并排序结果作为黄金标准；所述标签处理单元根据所述黄金标准，将所述训练样本数据中的各医学文献分为几个档次，并设以对应的标签。

本发明至少包括以下一项技术效果：

(1)本发明不同于传统的排序搜索方法，仅按照相关度等单一因素进行搜索排序，而是针对用户的查询内容先获取相关文献，并对相关文献按照相关性进行粗排序后，再利用机器学习模型进一步进行优化排序，从而大大提升了排序的准确性，使得排序的结果更为接近用户想要的结果，提升了用户体验。

(2)本发明中选取粗排序后的排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献，进而对其进行优化排序，而不是全部再进行优化排序，一方面，排序靠后的相关医学文献的相关度较低，不太可能是用户想要搜寻的结果，另一方面，只选取靠前的一部分相关医学文献，可以大大提升优化排序的效率，提升搜索查询的速度。

(3)本发明的粗排序综合考虑了词频、逆文本频率指数、文献长度及所有文献的平均长度等等因素，最终计算出来的文献相关度评分更为准确。

(4)本发明在粗排序的基础上，增加了一层利用机器学习对粗排序后的部分文献进行重新排序，更为智能化，尤其是，考虑了点击量、收藏数、点赞数等等流量信息，真正达到了优化排序的效果，大大提升了用户搜索体验。

(5)本发明采用LambdaMART模型，且设置200棵树一起决策，采用0.3的学习率，其余则采用默认设置。相比默认的采用1000棵树，0.1的学习率，本发明的设置在时间上少训练了800棵树，训练集上评估指标上涨了近4％，验证集上评估指标上涨了近1％，测试集上评估指标上涨了近0.4％，在减少训练时间的情况下训练出好的模型。在训练树少的情况下达到相同的效果，在最少的时间内训练出效果最好的模型。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种生物医学文献搜索排序方法的一个实施例的流程图；

图2为本发明中训练优化排序模型的流程图；

图3为本发明一种生物医学文献搜索排序装置的一个实施例的结构框图；

图4为本发明的生物医学文献搜索排序装置进行搜索排序的工作流程图；

图5为本发明中的模型训练模块的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘出了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

具体实现中，本申请实施例中若描述有终端设备，该终端设备包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机、家教机或平板计算机之类的其他便携式设备。还应当理解的是，在某些实施例中，所述终端设备并非便携式通信设备，而是具有触摸敏感表面(例如：触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，若描述了包括显示器和触摸敏感表面的终端设备，应当理解的是，该终端设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。

终端设备支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄像机应用程序、Web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明公开了一种生物医学文献搜索排序方法，包括：

S101，获取用户输入的查询内容；

用户待输入的生物医学关键词，即搜索词。例如：estrogen receptor alpha,generegulation,brain，antiproliferative valrubicin，mucin protease stomach等生物医学主题词。

S102，对查询内容进行预处理，获取至少包含一个搜索词的搜索词集；

具体的，对查询内容进行预处理主要是指对查询内容进行分词处理，例如，如果搜索内容为多个词语时，先将搜索内容变为一个一个搜索词，这些搜索词的集合便为搜索词集。

更进一步的，该预处理还可以包括对搜索词进行同义词查找处理，比如，通过分词处理，获取到单个的搜索词后，再根据已经建立好的同义词哈希表，把每个搜索词的同义词也作为查询的目标。

S103，在指定的数据搜索平台搜索该搜索词集，获取与搜索词集相关的相关医学文献；

具体的，指定的数据搜索平台，比如ElasticSearch(非关系型数据库和实时的搜索平台)，通过上一步骤中获取到所有搜索词组成的搜索词集后(查询目标)，便可在该数据搜索平台中进行搜索，以获得与用户输入的查询内容相关的医学文献。

S104，对相关医学文献按照相关性从高到低进行粗排序；

获取数据库中与用户输入的查询内容相关的相关医学文献后，再将其按照相关性从高到低进行粗排序。具体的，对文献进行相关性粗排序，可利用传统相关度计算方法，比如，采用BM25算法，或者BM25F(一种基于概率检索模型提出的算法)粗排序(经过BM25F算法得到的排序结果)。

S105，在粗排序后的相关医学文献中，提取排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献；

具体的，比如将文献按照分数高低进行排序得到粗排序结果，然后切割前10％文献(一般不超过100，如果超过，切割前100文献)进行下一步优化。

S106，将目标医学文献输入训练好的优化排序模型进行优化排序，输出优化排序后的目标医学文献；

具体的，由于粗排序可能仅依据相关性的算法来进行排序，但并未考虑到点击量、或者点赞数等等因素，这样仅按相关性排序下来的文献有些可能并不一定是用户想要查找的，也就并不能给用户造成良好的用户体验，因此，在对这些相关医学文献进行粗排序后，还需要对其进行进一步的优化排序，为了提升排序的效率，相关性较差的医学文献则无需再进行优化排序，故只需选取指定数量或者指定百分比的相关医学文献来作为目标医学文献进行优化排序。为了使得优化排序的效果更好，则可采用机器学习训练获取优化排序模型，利用训练好的优化排序模型进行优化排序，从而获得更接近用户想要的排序结果。

S107，将优化排序后的目标医学文献及提取后剩下的粗排序相关医学文献输出给用户。

最后，将优化排序的结果和剩余的粗排序文献结合起来展示给用户，具体的，比如经过粗排序后的相关医学文献有1000篇，若指定排序的前100篇进行优化排序，将这前100篇相关医学文献进行优化排序后，将这100篇相关医学文献按照优化排序的结果进行排序，这100篇相关医学文献后面则紧跟粗排序剩余的900篇相关医学文献，当然，这900篇相关医学文献按照粗排序的先后顺序进行排序。

上述实施例中，步骤S104对对相关医学文献按照相关性从高到低进行粗排序具体包括：

S1041，计算搜索词集中的每个搜索词的逆文本频率指数、词频；当前需要评分的文献的长度及全部文献的平均长度；

具体的，我们以粗排序采用BM25F算法为例，我们需要计算出每个搜索词的逆文本频率指数IDF、词频TF、当前需要评分的文献的长度dl、及全部文献的平均长度avdl。

关于逆文本频率指数IDF的计算，则可采用下述公式：

其中，N为数据库中的医学文献的总数，n为包含搜索词的医学文献数，平滑因子1(为了避免分子为0)与包含搜索词的文献总数加上平滑因子1(为了避免分母为0)之比。

关于词频TF，由于不同字段(标题，医学主题词，摘要)对文献整体贡献不一样，字段也具有自己的权重，因此在特定的字段中出现比在其他字段中出现更为重要。比如在计算字段的权重时，在标题中出现的搜索词比在摘要中出现的更为重要标题权重为5，医学主题词权重为5，摘要权重为1。

具体的，计算TF(词频)可采用下列公式：

其中，occurrences of t in f表示分别计算每个搜索词在特定字段(比如标题、摘要等)中出现的次数)，FL代表字段的长度，FW代表权重。

因为不同字段影响不同，因此，我们还需要计算它们的平均权重。首先，求当前需要评分的文献的长度dl，再求取所有相关医学文献的平均长度(avdl)：

avdl＝average of dlacross documents (4)

S1042，按照下述公式计算对相关医学文献进行评分，并按照评分的大小对相关医学文献进行排序：

其中，参数d为相关医学文献中当前需要评分的评分文献，q为搜索词集，score(d，q)为针对搜索词集q，评分文献d的排序得分；t为搜索词集中的单个搜索词；TFt为搜索词t的词频；IDFt为搜索词t的逆文本频率指数；dl为当前需要评分的文献d的长度；avdl为包含搜索词集中的搜索词t的所有相关医学文献的平均长度；k1为自由调节参数、b为自由调节参数。

具体的，对包含所有搜索词的文献进行评分，既各个搜索词相关的文献求交集。参数d是文献，q是全部的搜索词，也就是搜索词集，t是当搜索词大于2个，单个的搜索词，BM25F公式中包含2个自由调节参数分别为k1(1.2)，b(0.75)。我们对k1，b进行更改测试，在对k1保持不变的情况下先对b进行不断的对比更改测试然后与黄金标准进行对比得到最优的b值，一般将这个值设定在0到1000的范围内，同理可得最优的k1值，它们可以作为合适的自由调节参数。

本发明方法的领域实施例，在上述实施例的基础上，生物医学文献搜索排序方法还包括：训练该优化排序模型；具体的，训练该优化排序模型如图2所示，具体包括：

S201，获取训练样本数据，该训练样本数据包括生物医学文献及其搜索、点击数据；

具体的，比如可采用爬虫软件等爬取网站搜索日志数据以及用户搜索及点击的生物医学文献作为训练数据。

S202，提取训练样本数据的特征，并对训练样本数据进行标签处理；

具体的，构建特征，用以机器学习训练。提取训练样本数据的特征具体包括：提取训练样本数据中的医学文献的基本信息、停用词信息、搜索词集中的搜索词在医学文献的指定域出现的参数信息、及流量信息；其中，医学文献的流量信息包括：医学文献的点击数、收藏数、点赞数之中的任意一个或多个。

较佳的，本发明构建了27个特征用以训练模型，例如：

1.文献语言。

2.文献日期。

3.文献类别(这些特征都可以从数据库文献字段中直接提取)。

4.文献是否有可用于全文搜索(我们首先获取到数据库中可用于全文搜索的文献，然后在我们根据搜索词搜索出的文献进行比较，存在为1，否则为0)。

5.文献标题的字符数量。

6.摘要的字符数量。

7.医学主题词的字符数量。

8.标题中出现stop词(文献中出现次数比较多，但没有意义的词，例如：a，are，about，and,after，befor，but…)的频率(标题中stop词的数量与标题单词总数之比。)。

9.摘要中出现stop词(停用词)的频率(摘要中stop词的数量与摘要单词总数之比。)。

10.搜索词在文献标题的权重(本发明在这把搜索词以及他们的同义词都取得，计算他们在文献标题中的权重)。

11.搜索词在文献标题出现次数(定义一个计数器，出现一次就加1)。

12.搜索词在文献标题中出现次数与搜索词个数的比率。

13.搜索词在文献标题的平均位置(定义标题字符位置，当与搜索词字符相同时，记录此时字符串的位置，然后把所有出现的位置加起来求平均)。

14.搜索词在文献摘要的权重(本发明在这把搜索词以及他们的同义词都取得，计算他们在文献摘要中的权重)。

15.搜索词在文献摘要出现次数(定义一个计数器，出现一次就加1)，

16.搜索词在文献摘要中出现次数与搜索词个数的比率。

17.搜索词在文献摘要的平均位置(定义摘要字符位置，当与搜索词字符相同时，记录此时字符串的位置，然后把所有出现的位置加起来求平均)。

18.搜索词在医学主题词中的权重(本发明在这把搜索词以及他们的同义词都取得，计算他们在医学主题词中的权重)。

19.搜索词在医学主题词出现次数(定义一个计数器，出现一次就加1)。

20.搜索词在医学主题词中出现次数与搜索词个数的比率。

21.搜索词在医学主题词的平均位置(定义医学主题词字符位置，当与搜索词字符相同时，记录此时字符串的位置，然后把所有出现的位置加起来求平均)。

22.搜索词非字母又非数字的字符数量。

23.搜索词的数量。

24.不重复的搜索词的数量。

25.文献的点击数。

26.文献的收藏数。

27.文献的点赞数。

把这些特征作为特征训练模型，优化排序，特别是本发明额外加入文献点击率，收藏率，点赞数，使得综合得到更好的排序结果。

提取特征后，再对这些训练样本进行标签处理，方可让其输入排序模型进行训练。关于构建标签，对训练样本数据进行标签处理具体包括：

步骤A、根据训练样本数据中的搜索点击数据，计算训练样本数据中用户搜索的相关医学文献的相关度得分；

步骤B、按照训练样本数据中的相关医学文献的相关度得分的高低进行排序，并排序结果作为黄金标准；

步骤C、根据黄金标准，将训练样本数据中用户搜索获得的各医学文献分为几个档次，并设以对应的标签。具体的，在所述训练样本数据中用户搜索获得的各医学文献中，若所述医学文献处于所述黄金标准中排序前10的医学文献，则设置所述医学文献的标签设置为12减去其搜索排序号的值；若所述医学文献处于所述黄金标准中排序10至20之间的医学文献，则设置所述医学文献的标签设置为2；若所述医学文献处于所述黄金标准中排序大于20的医学文献，则设置所述医学文献的标签设置为1；若所述医学文献不在所述黄金标准中，则设置所述医学文献的标签设置为0。

例如，将q作为查询，d作为文献，a(d，q)是q之后d的摘要请求数。f(d，q)是q之后d的全文请求数。FT代表语料库中可获得全文的文章子集。1FT(d)是指标函数，使得1FT(d)：＝(1表示如果d∈FT，全文可用；0表示如果

则全文不可用)。μ∈(0，1)是摘要与全文点击的权重，λ∈R+是PubMed中不存在全文链接的论文的数量，K为相关度得分，d的相关性得分关于q的计算方法如下：

K＝μ·a(d,q)+(1-μ)·f(d,q)+a(d,q)λ·(1-1FT(d)) (6)

然后进行排序，将排好序的文献作为黄金标准，然后将我们的搜索文献与黄金标准进行比较，比如：

1.文献在前10个出现，用12减去它的索引作为标签。

2.索引在10和20之间的，给他们标签为2。

3.索引大于20的标签为1。

4.不在黄金标准中的标签为0。

按照上述方式将档次设定在0到11范围内。

S203，将标签处理后的训练样本数据按照预设的比例划分为训练集、测试集和验证集；

S204，调用指定的机器学习库中的排序模型，设置所述排序模型的学习参数；

具体的，该步骤主要是构建机器学习的模型，指定的机器学习库，比如，可以采用ranklib包，里面包含有8种排序算法的库。因此，可Ranklib就是一套优秀的Learning toRank领域的开源实现。因此，可调用ranklib库模型，设置模型的学习参数。

较佳的，由微软发布的LambdaMART是一款较好的Learning to Rank模型。因此，可构建LambdaMART模型来作为此次训练的排序模型。设置学习参数，本发明中设置200棵树进行决策学习，采用0.3的学习率，其余则采用默认设置。而PubMed的Best Match中默认采用的是1000颗树，0.1的学习率，而本发明采用200棵树一起决策，采用0.3的学习率，在训练树少的情况下达到相同的效果，在最少的时间内训练出效果最好的模型，在时间上少训练了800棵树，训练集上评估指标上涨了近4％，验证集上评估指标上涨了近1％，测试集上评估指标上涨了近0.4％，在减少训练时间的情况下训练出好的模型。

此外，本发明中LambdaMART模型的构建，参考了PubMed的Best Match，做了一定的改进。例如下载的Best Match数据代码有些小问题，提取pmid，只能接受pmid的个数是9位，如果大于9位就会报错，而本发明构建LambdaMART模型则进行修改完善，优化了代码，从而可以接受大于9位的pmid。此外，还改进了切割搜索词的同义词部分，他切出来的是单个字母，不是整个词。

S205，加载训练集、测试集对初始训练模型进行训练；

S206，根据预设的衡量排序质量的评价指标，采用验证集中的训练样本数据对训练后的模型进行验证测试；

具体的，前面步骤中将训练数据划分为训练集，测试集，验证集三部分，然后将训练集，测试集作为训练数据传入去训练模型参数，用验证集测试，将NDCG@K(比如，本实施例可采用K值为20，即只关心前20个是否排序正确，若不够20即关心全部是否排序正确)作为评价指标训练模型。

S207，将验证测试通过的模型作为训练好的优化排序模型。

最后，验证测试通过的模型则可作为训练好的优化排序模型，从利用其对粗排序后的指定数量的相关医学文献进行进一步的优化排序，提升排序效果，提高用户体验。

基于相同的技术构思，本发明还公开了一种生物医学文献搜索排序装置，该装置可采用本发明的生物医学文献搜索排序方法来对用户查询的生物医学文献进行搜索排序，具体的，本发明的生物医学文献搜索排序装置的一个实施例，结构框图如图3所示，该装置的一个实施例的工作流程示意图如图4所示。该生物文献搜索排序装置包括：

输入获取模块100，用于获取用户输入的查询内容；

预处理模块200，用于对查询内容进行预处理，获取至少包含一个搜索词的搜索词集；具体的，对查询内容进行预处理主要是指对查询内容进行分词处理，例如，如果搜索内容为多个词语时，先将搜索内容变为一个一个搜索词，这些搜索词的集合便为搜索词集。

数据库搜索模块300，用于在指定的数据搜索平台搜索该搜索词集，获取与搜索词集相关的相关医学文献；具体的，指定的数据搜索平台，比如ElasticSearch(非关系型数据库和实时的搜索平台)，通过上一步骤中获取到所有搜索词组成的搜索词集后(查询目标)，便可在该数据搜索平台中进行搜索，以获得与用户输入的查询内容相关的医学文献。

粗排序模块400，用于对相关医学文献按照相关性从高到低进行粗排序；获取数据库中与用户输入的查询内容相关的相关医学文献后，再将其按照相关性从高到低进行粗排序。具体的，对文献进行相关性粗排序，可利用传统相关度计算方法，比如，采用BM25、或者BM25F(一种基于概率检索模型提出的算法)进行粗排序。

提取模块500，用于在粗排序后的相关医学文献中，提取排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献；

为了提升排序的效率，相关性较差的医学文献则无需再进行优化排序，故只需选取指定数量或者指定百分比的相关医学文献来作为目标医学文献进行优化排序。

优化排序模块600，用于将目标医学文献输入训练好的优化排序模型进行优化排序，输出优化排序后的目标医学文献；

具体的，由于粗排序可能仅依据相关性的算法来进行排序，但并未考虑到点击量、或者点赞数等等因素，这样仅按相关性排序下来的文献有些可能并不一定是用户想要查找的，也就并不能给用户造成良好的用户体验，因此，在对这些相关医学文献进行粗排序后，还需要对其靠前的指定数量进行进一步的优化排序。

输出反馈模块700，用于将优化排序后的目标医学文献及提取后剩下的粗排序相关医学文献输出给用户。

关于粗排序模块进行粗排序，可采用BM25或BM25F算法进行排序。具体的，对文献进行相关性粗排序，利用传统相关度计算方法，本发明以BM25F为例讲解，计算文献的score(分数)，对文献排序。分别计算每个词语的IDF(逆文本频率指数)等，得到所有的pmid(PubMed中文献唯一标识码)，文献内容。

具体的，粗排序模型具体包括：

逆文本频率指数计算子模块，用于计算每个搜索词的逆文本频率IDF，具体可采用下述公式进行计算，其中：N是数据库中所有的生物医学文献总数，n是包含搜索词的文献数，平滑因子1(为了避免分子为0)与包含搜索词的文献总数加上平滑因子1(为了避免分母为0)之比。

词频计算子模块，用于计算搜索词的词频。具体的计算过程包括：先求取交集，得到包含所有搜索词的文档，由于字段对文档整体权重不一样，字段也具有自己的权重，因此在特定的字段中出现比在其他字段中出现更为重要。比如在计算文档的权重时，文档标题中出现的搜索词比在文章中出现的更为重要。比如在计算字段的权重时，在标题中出现的搜索词比在摘要中出现的更为重要标题权重为5，医学主题词权重为5，摘要权重为1。接下来获取每个字段不同的长度，计算所有字段加权的频率之和，搜索词在文档特定字段中频率越高，就表示这个文档越重要。根据下列公式求解：

其中，occurrences of t in f(分别计算每个搜索词在特定字段中出现的次数)，FL(字段的长度)，FW(权重)。

文献长度计算子模块，用于计算当前评分的文献长度及全部生物医学文献的平均长度。因为不同字段影响不同，我们计算所有字段的平均权重。求全部文献的平均长度(avdl)。

avdl＝average of dl across documents (4)

评分子模块，用于计算出每一个搜索词的分数，然后把他们加和，得到文档最终的分数，根据如下公式计算：

其中，对包含所有搜索词的文献进行评分，既各个搜索词相关的文献求交集。参数d是文献，q是全部的搜索词)，t是当搜索词大于2个，单个的搜索词，BM25F公式中包含2个自由调节参数分别为k1(1.2)，b(0.75)。对k1，b进行更改测试，在对k1保持不变的情况下先对b进行不断的对比更改测试然后与黄金标准进行对比得到最优的b值，一般将这个值设定在0到1000的范围内，同理可得最优的k1值，它们可以作为合适的自由调节参数，

将这些相关医学文献按照分数高低进行排序得到粗排序结果，然后切割排序靠前的指定数量或者指定百分比的医学文献进行优化排序，比如选择粗排序后排序前10％文献(但是不超过100，如果超过，切割前100文献)进行下一步优化。

本发明的生物医学文献搜索排序装置的另一个实施例，在上述装置实施例的基础上，本实施例的生物医学文献搜索排序装置还包括：用于训练优化排序模型的模型训练模块，如图5所示，模型训练模块800具体包括：

样本获取子模块810，用于获取训练样本数据，训练样本数据包括生物医学文献及其搜索、点击数据；具体的，比如把网站搜索日志数据，把用户搜索及点击的生物医学文章作为训练数据。

样本处理子模块820，用于提取所述训练样本数据的特征，并对训练样本数据进行标签处理；

提取特征用以机器学习训练。提取的特征，例如，文档日期，语言，搜索词在标题出现的次数，权重，在医学主题词出现的权重，以及点击率，点赞数、收藏率等。我们加入这个文档被点击的数量，收藏的数量，这两个特征一定程度上能反映用户对这篇文章认为很好，把它们作为特征训练模型，优化排序，综合得到更好的排序结果。

样本划分子模块830，用于将标签处理后的训练样本数据按照预设的比例划分为训练集、测试集和验证集；具体的，比如分别按照80％、10％、10％的比例，将训练样本数据划分为训练集、测试集和验证集。

模型选取子模块840，用于调用指定的机器学习库中的排序模型，设置所述排序模型的学习参数；具体的，该步骤主要是构建机器学习的模型，指定的机器学习库，比如，可以采用ranklib包，里面包含有8种排序算法的库。因此，可Ranklib就是一套优秀的Learningto Rank领域的开源实现。因此，可调用ranklib库模型，设置模型参数。

较佳的，由微软发布的LambdaMART是一款较好的Learning to Rank模型。因此，可构建LambdaMART模型来作为此次训练的排序模型。设置参数，PubMed的Best Match中默认采用的是1000颗树，0.1的学习率，而本发明采用200棵树一起决策，采用0.3的学习率，其他为默认设置，在训练树少的情况下达到相同的效果，在最少的时间内训练出效果最好的模型，在时间上少训练了800棵树，训练集上评估指标上涨了近4％，验证集上评估指标上涨了近1％，测试集上评估指标上涨了近0.4％，在减少训练时间的情况下训练出好的模型。

加载训练子模块850，用于加载训练集、测试集对初始训练模型进行训练；

验证子模块860，用于根据预设的衡量排序质量的评价指标，采用验证集中的训练样本数据对训练后的模型进行验证测试；并将验证测试通过的模型作为训练好的优化排序模型。

具体的，将训练集、测试集作为训练数据传入去训练模型参数后，再用测试集中的样本数据进行测试，将NDCG@k作为评价指标训练模型。

当模型训练完毕后，再选取排序靠前的一部分进行优化排序。比如，将粗训练的切割出来的前100文档优化排序，然后再与粗训练剩下的放在一起。输出反馈模块，再将排好序的相关文档按照这个顺序输出给用户，满足用户搜索需求。

较佳的，在上述装置实施例的基础上，样本处理子模块820包括：

特征提取单元821，用于提取训练样本数据中的医学文献的基本信息、停用词信息、搜索词集中的搜索词在医学文献的指定域出现的参数信息、及流量信息；其中，流量信息包括医学文献的点击数、收藏数、点赞数之中的任意一个或多个。

具体的，基本信息包括文献语言、文献日期、文献类别、文献标题字符数量、文献是否可用于全文搜索、文献摘要的字符数量、医学主题词的字符数量等。停用词信息包括标题、摘要中出现停用词的频率；搜索词在医学文献的指定域出现的参数信息包括搜索词在文献标题的权重、搜索词在文献标题出现次数、搜索词在文献标题中出现次数与搜索词个数的比率、搜索词在文献标题的平均位置、搜索词在文献摘要的权重、搜索词在文献摘要出现次数、搜索词在文献摘要中出现次数与搜索词个数的比率、搜索词在文献摘要的平均位置、搜索词在医学主题词中的权重、搜索词在医学主题词出现次数、搜索词在医学主题词中出现次数与搜索词个数的比率、搜索词在医学主题词的平均位置、搜索词非字母又非数字的字符数量、搜索词的数量、不重复的搜索词的数量等。流量信息包括文献的点击数、文献的收藏数、文献的点赞数等。

标签处理单元822，用于对训练样本数据进行标签处理；处理方式具体包括：标签处理单元根据训练样本数据中的搜索点击数据，计算训练样本数据中用户搜索的相关医学文献的相关度得分；标签处理单元按照得分的高低对相关医学文献进行排序，并排序结果作为黄金标准；标签处理单元根据黄金标准，将训练样本数据中的各医学文献分为几个档次，并设以对应的标签。

K＝μ·a(d,q)+(1-μ)·f(d,q)+a(d,q)λ·(1-1FT(d)) (6)

1.文献在前10个出现，用12减去它的索引作为标签。

2.索引在10和20之间的，给他们标签为2。

3.索引大于20的标签为1。

4.不在黄金标准中的标签为0。

按照上述方式将档次设定在0到11范围内。

采用上述方式，则可准确的为各训练样本数据进行标签处理，从而有利于后续的机器学习。

本发明的生物医学文献的排序方法与本发明的生物医学文献的排序装置对应，其方法实施例的技术细节同样适用于本发明的生物医学文献的排序装置实施例，为减少重复，不再赘述。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种生物医学文献搜索排序方法，其特征在于，包括：

获取用户输入的查询内容；

对所述查询内容进行预处理，获取至少包含一个搜索词的搜索词集；

在指定的数据搜索平台搜索所述搜索词集，获取与所述搜索词集相关的相关医学文献；

对所述相关医学文献按照相关性从高到低进行粗排序；

在粗排序后的相关医学文献中，提取排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献；

将所述目标医学文献输入训练好的优化排序模型进行优化排序，输出优化排序后的目标医学文献；

将优化排序后的目标医学文献及提取后剩下的粗排序相关医学文献输出给用户。

2.根据权利要求1所述的一种生物医学文献搜索排序方法，其特征在于，所述对所述相关医学文献按照相关性从高到低进行粗排序具体包括：

计算所述搜索词集中的每个搜索词的逆文本频率指数、词频；当前需要评分的文献的长度及全部文献的平均长度；

按照下述公式计算对所述相关医学文献进行评分，并按照评分的大小对所述相关医学文献进行排序：

其中，参数d为所述相关医学文献中当前需要评分的评分文献，q为搜索词集，score(d，q)为针对所述搜索词集q，所述评分文献d的排序得分；

t为所述搜索词集中的单个搜索词；

TFt为搜索词t的词频；

IDFt为搜索词t的逆文本频率指数；

dl为当前需要评分的文献d的长度；

avdl为包含所述搜索词集中的搜索词t的所有相关医学文献的平均长度；

k1为自由调节参数、b为自由调节参数。

3.根据权利要求1所述的一种生物医学文献搜索排序方法，其特征在于，还包括：

训练所述优化排序模型；具体包括：

获取训练样本数据，所述训练样本数据包括生物医学文献及其搜索、点击数据；

提取所述训练样本数据的特征，并对所述训练样本数据进行标签处理；

将标签处理后的训练样本数据按照预设的比例划分为训练集、测试集和验证集；

调用指定的机器学习库中的排序模型，设置所述排序模型的学习参数；

加载所述训练集、测试集对初始训练模型进行训练；

根据预设的衡量排序质量的评价指标，采用所述验证集中的训练样本数据对训练后的模型进行验证测试；

将验证测试通过的模型作为训练好的优化排序模型。

4.根据权利要求3所述的一种生物医学文献搜索排序方法，其特征在于，所述提取所述训练样本数据的特征具体包括：

提取所述训练样本数据中的医学文献的基本信息、停用词信息、所述搜索词集中的搜索词在所述医学文献的指定域出现的参数信息、及流量信息；其中，所述医学文献的流量信息包括：所述医学文献的点击数、收藏数、点赞数之中的任意一个或多个。

5.根据权利要求3所述的一种生物医学文献搜索排序方法，其特征在于，所述对所述训练样本数据进行标签处理具体包括：

根据所述训练样本数据中的搜索点击数据，计算所述训练样本数据中用户搜索的相关医学文献的相关度得分；

按照所述训练样本数据中的相关医学文献的相关度得分的高低进行排序，并排序结果作为黄金标准；

根据所述黄金标准，将所述训练样本数据中用户搜索获得的各医学文献分为几个档次，并设以对应的标签。

6.根据权利要求5所述的一种生物医学文献搜索排序方法，其特征在于，根据所述黄金标准，将所述训练样本数据中用户搜索获得的各医学文献分为几个档次，并设以对应的标签。具体包括：

在所述训练样本数据中用户搜索获得的各医学文献中，若所述医学文献处于所述黄金标准中排序前10的医学文献，则设置所述医学文献的标签设置为12减去其搜索排序号的值；

若所述医学文献处于所述黄金标准中排序10至20之间的医学文献，则设置所述医学文献的标签设置为2；

若所述医学文献处于所述黄金标准中排序大于20的医学文献，则设置所述医学文献的标签设置为1；

若所述医学文献不在所述黄金标准中，则设置所述医学文献的标签设置为0。

7.根据权利要求3所述的一种生物医学文献搜索排序方法，其特征在于，调用的排序模型为LambdaMART模型，所述设置所述排序模型的学习参数具体包括：

设置LambdaMART参数中树的数量为200，学习率为0.3。

8.一种生物医学文献搜索排序装置，其特征在于，采用权利要求1-7任一项所述的生物医学文献搜索排序方法进行搜索排序，所述生物医学文献搜索排序装置包括：

输入获取模块，用于获取用户输入的查询内容；

预处理模块，用于对所述查询内容进行预处理，获取至少包含一个搜索词的搜索词集；

数据库搜索模块，用于在指定的数据搜索平台搜索所述搜索词集，获取与所述搜索词集相关的相关医学文献；

粗排序模块，用于对所述相关医学文献按照相关性从高到低进行粗排序；

提取模块，用于在粗排序后的相关医学文献中，提取排序靠前的指定数量或指定百分比的相关医学文献作为目标医学文献；

优化排序模块，用于将所述目标医学文献输入训练好的优化排序模型进行优化排序，输出优化排序后的目标医学文献；

输出反馈模块，用于将优化排序后的目标医学文献及提取后剩下的粗排序相关医学文献输出给用户。

9.根据权利要求8所述的一种生物医学文献搜索排序装置，其特征在于，还包括：用于训练所述优化排序模型的模型训练模块，所述模型训练模块具体包括：

样本获取子模块，用于获取训练样本数据，所述训练样本数据包括生物医学文献及其搜索、点击数据；

样本处理子模块，用于提取所述训练样本数据的特征，并对所述训练样本数据进行标签处理；

样本划分子模块，用于将标签处理后的训练样本数据按照预设的比例划分为训练集、测试集和验证集；

模型选取子模块，用于调用指定的机器学习库中的排序模型，设置所述排序模型的学习参数；

加载训练子模块，用于加载所述训练集、测试集对初始训练模型进行训练；

验证子模块，用于根据预设的衡量排序质量的评价指标，采用所述验证集中的训练样本数据对训练后的模型进行验证测试；并将验证测试通过的模型作为训练好的优化排序模型。

10.根据权利要求9所述的一种生物医学文献搜索排序装置，其特征在于，所述样本处理子模块包括：

特征提取单元，用于提取所述训练样本数据中的医学文献的基本信息、停用词信息、所述搜索词集中的搜索词在所述医学文献的指定域出现的参数信息、及流量信息；其中，所述流量信息包括所述医学文献的点击数、收藏数、点赞数之中的任意一个或多个；

标签处理单元，用于对所述训练样本数据进行标签处理；处理方式具体包括：所述标签处理单元根据所述训练样本数据中的搜索点击数据，计算所述训练样本数据中用户搜索的相关医学文献的相关度得分；所述标签处理单元按照得分的高低对所述相关医学文献进行排序，并排序结果作为黄金标准；所述标签处理单元根据所述黄金标准，将所述训练样本数据中的各医学文献分为几个档次，并设以对应的标签。