CN112270178B

CN112270178B - 医疗文献簇的主题确定方法、装置、电子设备及存储介质

Info

Publication number: CN112270178B
Application number: CN202011152154.4A
Authority: CN
Inventors: 柴玲
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-02-01
Anticipated expiration: 2040-10-23
Also published as: WO2021189920A1; CN112270178A

Abstract

本申请涉及医疗科技技术领域，具体公开了一种医疗文献簇的主题确定方法、装置、电子设备及存储介质。该方法包括：对多篇医疗文献进行聚类，得到至少一个医疗文献簇；确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献；确定所述每个医疗文献簇对应的候选短语集；根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集，确定所述每个医疗文献簇对应的主题。

Description

医疗文献簇的主题确定方法、装置、电子设备及存储介质

技术领域

本申请涉及文本识别技术领域，具体涉及一种医疗文献簇的主题确定方法、装置、电子设备及存储介质。

背景技术

公共医疗(public medicine，PUBMED)数据库包含了大量的医疗文献，海量医疗文献中往往包含着某一医疗领域的研究方向的发展趋势，通过对医疗领域的医疗文献进行阅读，可提高相关领域研究者们和相关公共卫生政策制定者们制定决策的效率和精度。

为了提高对医疗文献的可以查找和阅读的效率，可使用自然语言处理的技术挖掘各篇医疗文献之间的相关性，基于各篇医疗文献之间的相关性多海量的医疗文献进行聚类，得到多个医疗文献簇，这样就可以把海量的医疗文献分成了多个医疗文献簇，阅读者就可以根据每个医疗文献簇的主题从多个文献簇中查找自己想要获取的医疗文献簇。

目前，在对医疗文献进行聚类后，由于医疗文献具有很强的专业性，往往需要专家为每个医疗文献簇手动标注主题，导致标注医疗文献主题的成本较高，且标注效率较慢。

发明内容

本申请实施例提供了一种医疗文献簇的主题确定方法、装置、电子设备及存储介质。提高对医疗文献簇的主题的标注效率和精度。

第一方面，本申请实施例提供一种医疗文献簇的主题确定方法，包括：

对多篇医疗文献进行聚类，得到至少一个医疗文献簇；

确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献；

确定所述每个医疗文献簇对应的候选短语集；

根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集，确定所述每个医疗文献簇对应的主题。

第二方面，本申请实施例提供一种医疗文献簇的主题确定装置，包括：

获取单元，用于获取多篇医疗文献；

处理单元，用于对所述多篇医疗文献进行聚类，得到至少一个医疗文献簇；

所述处理单元，还用于确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献；

所述处理单元，还用于确定所述每个医疗文献簇对应的候选短语集；

所述处理单元，还用于根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集，确定所述每个医疗文献簇对应的主题。

第三方面，本申请实施例提供一种电子设备，包括：处理器，所述处理器与存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得计算机执行如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例，具有如下有益效果：

可以看出，在本申请实施例中，先从每个文献簇中确定出目标医疗文献以及候选短语集，然后，根据每个文献簇对应的目标医疗文献以及候选短语集确定出每个医疗文献簇对应的主题，从而无需人工标注医疗文献簇的主题，提高了对医疗文献簇的主题的标注效率和标注精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种医疗文献簇的主题确定方法的流程示意图；

图2为本申请实施例提供的一种有向图的示意图；

图3为本申请实施例提供的一种确定医疗文献的评分的流程示意图；

图4为本申请实施例提供的一种医疗文献簇的主题确定装置的功能单元组成框图；

图5为本申请实施例提供的一种医疗文献簇的主题确定装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1为本申请实施例提供的一种医疗文献簇的主题确定方法的流程示意图。该方法包括以下步骤：

101：对多篇医疗文献进行聚类，得到至少一个医疗文献簇。

该多篇医疗文献可以为PUBMED数据库中与某一种疾病相关的多篇医疗文献，比如，该多篇医疗文献可以为与肺癌、胃癌、肿瘤相关的医疗文献。

示例性，可根据多篇医疗文献主题之间的相似度，对该多篇医疗文献进行聚类，得到该至少一个医疗文献簇，即将该多篇医疗文献中主题相似的医疗文献归类唯一个文献簇。比如，可根据多篇医疗文献之间的共被引和主题之间的语义相似度对该多篇医疗文献进行聚类。聚类所使用的聚类算法可以为K-means聚类算法、最大期望聚类算法EM(英文：Expectation Maximization)、或者层次聚类算法HAC(英文：Hierarchical AgglomerativeClustering)，等。

102：确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献。

示例性的，获取每个医疗文献簇中医疗文献之间的引用关系；根据每个医疗文献簇中医疗文献之间的引用关系，确定每个医疗文献簇中各篇医疗文献的评分，其中，每篇医疗文献的评分用于表示每篇医疗文献的重要性程度，即医疗文献的质量；然后，根据评分从大到小的顺序确定每个医疗文献簇中的目标文献。示例性的，可根据评分从大到小的顺序从每个医疗文献簇中选取预设比例的文献作为目标文献。比如，某个医疗文献簇中的医疗文献的数量为100，预设比例为10％，则按照评分从大到小的顺序从这100篇医疗文献中选出前十篇医疗文献作为这个医疗文献簇的目标医疗文献。

具体来说，根据每个医疗文献簇中医疗文献之间的引用关系确定每个医疗文献簇对应的有向图；根据每个医疗文献簇对应的有向图以及pagerank算法确定该有向图中每个节点的评分，可得到每个医疗文献簇中每篇医疗文献的评分，即根据每篇医疗文献与其他医疗文献之间的路径确定该医疗文献的评分。此外，还可基于该有向图确定该医疗文献簇对应的邻接矩阵，根据该邻接矩阵确定每个医疗文献簇的评分。

举例来说，医疗文献簇包括医疗文献A、医疗文献B和医疗文献C，且医疗文献B引用了医疗文献A，医疗文献C引用了医疗文献B，可建立如图2所示的有向图。根据pagerank算法以及该有向图可分别确定出医疗文献A医疗文献B以及医疗文献C对应的评分。在通过邻接矩阵确定每篇医疗文献的评分的情况下，医疗文献A对应的评分为医疗文献A到医疗文献B之间的评分，以及与医疗文献A到医疗文献C之间的评分之和。且医疗文献A对应的评分可通过公式(1)表示：

S＝1*γ+1*γ² 公式(1)；

S为医疗文献A对应的评分，1*γ表示医疗文献A到医疗文献B之间的评分，1*γ²表示医疗文献A到医疗文献C之间的评分，γ为预设的超参数，0＜γ＜1。

示例性的，还可结合pagerank算法和邻接矩阵综合确定每篇医疗文献的评分，下文会详细叙述这种将两者结合来确定每篇医疗文献的评分的方式。

103：确定所述每个医疗文献簇对应的候选短语集。

示例性的，根据每个医疗文献簇中各篇医疗文献的标题和摘要，确定每个医疗文献簇中各篇医疗医疗文献对应的短语，即对每个医疗文献簇中各篇医疗文献的标题和摘要进行关键词提取，得到每篇医疗文献对应的短语，比如，可以通过语言处理工具包stanfordNLP从每篇医疗文献中标注出每篇医疗文献的短语；然后，将每个医疗文献簇中各篇医疗文献对应的短语组成第一短语集，并对该第一短语集进行筛选得到每个医疗文献簇对应的候选短语集。

示例性的，对于医疗文献来说，会存在很多缩写的情况，因此可将该第一短语集中的缩写短语映射成全称，得到第二短语集。比如，可以通过scispacy工具包中的缩写检测算法检测第一短语集中出现的缩写短语，并将缩写短语映射成全称，比如，可将“NSCLC”映射成“Non-small cell lung cancer”。

进一步地，对第二短语集中的短语进行清洗，比如，可将第二短语集中仅包含一个单词的短语删除，得到第三短语集。因为一个单词构成的短语很有可能是医疗领域的通用词汇，这种词汇对于主题的确定是无意义的，比如，patient是医疗领域通用的词汇，但是这个词体现不出每篇医疗文献的本身特点；另外，一个单词的短语所包含的语义也是有限的，难以表达出每篇医疗文献的本身特点，因此需要将这种短语从第二短语集中清洗掉；

进一步地，确定该第三短语集中语义相同的短语，并将该第三短语集中语义相同的短语替换为标准化短语，得到第四短语集，并将该第四短语集作为该每个医疗文献簇对应的候选短语集。即将这些语义相同的短语替换为一个与该语义对应的标准化短语。比如，短语“lung cancer survival rate”和短语“survival rate of lung cancer”的语义相同，都是表达“肺癌的生存率”，而“肺癌的生存率”对应的标准化短语为“lung cancersurvival rate”，则将短语“lung cancer survival rate”和短语“survival rate oflung cancer”替换为短语“lung cancer survival rate”，使用一个标准化的短语替代原本的两个短语。其中，每个语义对应的标准化短语可以是人工提前设置好的。

当然，在实际应用中，在第三短语集中出现语义相同的短语情况下，可随机保留这些语义相同的短语中一个短语，将其他的短语从第三短语集中删除，得到该第四短语集，这样该第四短语集中每个语义也只会对应一个短语。

可以看出，将语义相同的短语进行替换或者删除，可以避免候选短语集中出现语义相同的短语，避免了使用语义相同的短语表征医疗文献簇的主题的情况，提高了医疗文献簇的主题的语义丰富性。

104：根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集，确定所述每个医疗文献簇对应的主题。

示例性的，可对每个医疗文献簇中的目标医疗文献的标题进行词嵌入，得到每个医疗文献簇对应的第一特征向量。其中，对每个医疗文献簇中的目标医疗文献的标题进行词嵌入可通过完成训练的Biobert模型实现，该Biobert模型是通过医疗领域的医疗文献作为训练语料进行训练得到的，因此该Biobert模型对医学领域的语言处理会更加精确，能准确的提取出医疗文献的语义也正，其中，对Biobert模型进行训练可通过有监督的方式进行训练得到，不再赘述。

应理解，在该目标医疗文献的数量为一个的情况下，则将该目标医疗文献的标题进行词嵌入得到的特征向量作为该第一特征向量；在该目标医疗文献的数量为多个的情况下，则可对每篇目标医疗文献的标题进行词嵌入，得到每篇目标医疗文献对应的特征向量，然后，将多篇目标医疗文献对应的多个特征向量按位取平均值后，得到该第一特征向量。

举例来说，若目标医疗文献包括医疗文献A和医疗文献B，且医疗文献A和医疗文献B的特征向量分别为[0.1,0.3,0.5,0.7]、[0.3,0.3,0.7,0.9]，则按位取均值后，得到第一特征向量为[0.2,0.3,0.6,0.8]。

进一步地，对该候选短语集中每个短语进行词嵌入，得到该候选短语集中每个短语的第二特征向量，其中，对每个短语进行词嵌入也可通过上述的Biobert模型实现，不再叙述；然后，对该候选短语集中每个短语的每个单词进行词嵌入，得到每个单词对应的第三特征向量；根据每个单词对应的第三特征向量，确定该候选短语集中每个短语对应的第四特征向量，即将每个短语中的每个单词对应的第三特征向量按位求均值，并将按位求均值得到的特征向量作为每个短语对应的第四特征向量。举例来说，将短语“lung cancersurvival rate”中的四个单词词分别进行词嵌入，得到四个特征向量，并将该四个特征向量按位求均值，得到该短语对应的第二特征向量。

进一步地，确定候选短语集中每个短语的词频-逆文本频率(term frequencyinverse document frequency，TF-IDF)。其中，每个短语的TF-IDF为该短语的词频(termfrequency，TF)与该短语的逆文本频率(inverse document frequency，IDF)的乘积。示例性的，获取每个医疗文献簇对应的候选短语集中每个短语在该医疗文献簇中出现的次数，将每个短语在该医疗文献簇中出现的次数与该医疗文献簇中医疗文献的总数量之间的比值作为每个短语的TF。因此，候选短语集中每个短语的TF可以通过公式(2)表示：

其中，TF_phr为短语的词频，D_contain-phr为该短语在医疗文献簇中出现的次数，D_cluster为该医疗文献簇中医疗文献的总数量。

示例性的，候选短语集中每个短语的IDF可通过公式(3)表示：

最后，根据每个医疗文献簇对应的第一特征向量、候选短语集中每个短语对应的第二特征向量、该候选短语集中每个短语对应的第四特征向量以及该候选短语集中每个短语的TF-IDF，确定每个医疗文献簇对应的主题。

示例性的，确定每个医疗文献簇对应的第一特征向量与该候选短语集中每个短语对应的第二特征向量之间的第一相似度；确定每个医疗文献簇对应的第一特征向量与该候选短语集中每个短语对应的第四特征向量之间的第二相似度；最后，根据每个短语对应的第一相似度、第二相似度以及TF-IDF，确定每个医疗文献簇与该候选短语集中每个短语之间的第三相似度。比如，可以对该第一相似度、第二相似度以及TF-IDF进行加权处理，得到该第三相似度。

示例性的，上述的相似度可以为向量之间的余弦相似度。因此，第三相似度可以通过公式(4)表示：

sim(phr,cluster)＝β*cos_sim(vec₁,vec₂)+(1-β)*cos_sim(vec₁,vec₄)+(1-β)*TF-IDF 公式(4)；

其中，sim(phr,cluster)为医疗文献簇与每个短语之间的第三相似度，cos_sim为求余弦相似度操作，vec₁为医疗文献簇对应的第一特征向量，vec₂为候选短语集中每个短语对应的第二特征向量，vec₄候选短语集中每个短语对应的第四特征向量，β为预设参数，0≤β≤1。

然后，根据候选短语集中每个短语的第二特征向量，确定该候选短语集中任意两个短语之间的第四相似度。示例性的，该第四相似度也可以为预先相似度，因此，第四相似度可以通过公式(5)表示：

sim(phr₁,phr₂)＝cos_sim(vec₂₁,vec₂₂) 公式(5)；

其中，phr₁为候选短语集中的一个短语，phr₂为候选短语集中的另外一个短语，sim(phr₁,phr₂)为候选集中这两个候选短语之间的第四相似度，vec₂₁为候选短语集中的一个短语对应的第二特征向量，vec₂₂为候选短语集中的另外一个短语对应的第二特征向量。

最后，根据每个医疗文献簇与候选短语集中每个短语之间的第三相似度以及该候选短语集中任意两个短语之间的第四相似度，确定每个医疗文献簇对应的主题。

示例性的，将候选集中第三相似度最大的短语作为一个目标短语，并将该目标短语从该候选短语集中移动到目标短语集；然后，根据该候选短语集的剩余短语中每个短语与医疗文献簇之间的第三相似度，以及与该目标短语集中每个目标短语之间的第二相似度，确定剩余短语中每个短语对应的最大边界相关(Maximal Marginal Relevance，MMR)分值，比如，可根据剩余短语中每个短语与医疗文献簇之间的第三相似度，以及与该目标短语集中每个目标短语之间的第二相似度，得到与该目标短语集中每个目标短语对应的第五相似度，并将最大的第五相似度作为剩余短语中每个短语的MMR分值；然后，将剩余短语中的MMR分值最大的短语从候选短语集中移动到目标短语集。最后，再次确定该候选短语集的剩余短语中每个短语对应的MMR分值，并将剩余的短语中MMR分值最大的短语移动到目标短语集，依次迭代，直至该目标短语集中的目标短语的数量达到预设数量，停止迭代，并将该目标短语集中的目标短语作为每个医疗文献簇的主题。

示例性的，剩余短语中每个短语的MMR分值可通过公式(6)表示：

其中，PHR表示每个医疗文献簇对应的候选短语集，K为目标短语集，phr_i∈PHR\K表示属于候选短语集，切但不属于目标短语集中的第i个短语，即剩余短语中的第i个短语，MMR_i为第i个短语的MMR分值，phr_j∈K表示目标短语集中的第j个短语，sim(phr_i,cluster)为第i个短语与医疗文献簇之间的第三相似度，

为第i个短语与第j个短语之间的第四相似度，argmax表示最大化取值，即在遍历目标短语集中的目标短语之后，将最大值作为第i个短语的MMR分值，α为预设参数。最后，在遍历剩余短语中每个短语之后，可得到剩余短语中每个短语的MMR分值。

举例说明，某个医疗文献簇的候选短语集包括短语A、短语B、短语C、短语D以及短语E，并且短语A与该医疗文献簇之间的第三相似度最大，则先将短语A作为一个目标短语，并将该短语A从候选短语集中移动到目标短语集，此时候选短语集的剩余短语包括短语B、短语C、短语D以及短语E；然后，计算剩余短语中每个短语的MMR分值，即将每个短语与该医疗文献簇之间的第三相似度以及与短语A之间的第二相似度代入到上述公式(6)，分别得到短语B、短语C、短语D以及短语E对应的MMR分值；假设，短语B的MMR分值最大，则将短语B从候选集合中移动到目标短语集，则此时候选短语集中剩余短语包括短语C、短语D以及短语E。最后，将剩余短语中每个短语与该医疗文献簇之间的第三相似度以及与短语A之间的第二相似度代入到上述公式(6)，得到与短语A对应的一个相似度，并将该短语与该医疗文献簇之间的第三相似度以及与短语B之间的第二相似度代入到上述公式(6)，得到与短语B对应的一个相似度，将这两个相似度中最大的相似度作为这个短语的MMR分值。依次确定剩余短语中每个短语的MMR分值，则可得到短语C、短语D和短语E的MMR分值。假设短语C的MMR分值最大，则将短语C从候选集中移动到目标短语集。如预设数量为三个短语，这个时候目标短语集中已经有了三个短语，停止迭代，将短语A、短语B和短语C作为该医疗文献簇的主题。

可以看出，在计算每个短语与医疗文献簇的第一特征向量(即表征了医疗文献簇的主题特征)之间的相似度的过程中，分别使用了每个短语的第二特征向量(即短语的语义特征)以及第四特征向量(即单词的词性特征)计算与医疗文献簇之间的第一相似度和第二相似度。之所以将每个短语分词，以单词为粒度确定每个短语和医疗文献簇的第一特征向量之间的第二相似度。主要避免一些短语比较长，其本身和医疗文献簇的主题不相关，但是由于短语较长可能会频繁包含一些与主题相关的单词，但是这些单词可能是医疗领域的词汇，比如patient，这样在对这些长短语进行语义特征提取的过程中，可能会受这些高频词汇的影响，使这些长短语的语义特征与医疗文献簇的主题相关，会误将这些长短语作为医疗文献簇的主题，导致抽取出的文献簇的主题精度比较低。而通过对每个短语分词，从每个单词本身出发，不考虑单词的上下文语境，这样就会将一些本身不与主题相关但频繁出现的单词归类为通用词汇，在进行第二相似度计算的过程中，得到的第二相似度比较小，这样在加权之后，得到第三相似度也会相对较小，从而不会将这样的短语作为医疗文献簇的主题，进而使最终抽取出的医疗文献簇的主题相对更加精确。

在本申请的一个实施例方式中，本申请的医疗文献簇的主题确定方法还可应用到智慧医疗技术领域。比如，通过本申请的医疗文献簇的主题确定方法，可以快速且准确的标注出每个医疗文献簇的主题，这样可以使医生准确的查询到自己想要获取的医疗文献簇，为医生提供相关的文献参考，提高医生的诊断效率，进而推动医疗科技的发展。

参阅图3，图3为本申请实施例提供的一种确定每篇医疗文献的评分的流程示意图。该方法包括以下步骤：

301：获取每个医疗文献簇中的多篇医疗文献之间的引用关系。

302：根据所述多篇医疗文献的引用关系，确定所述多篇医疗文献对应的有向图。

303：根据所述多篇医疗文献对应的有向图以及所述多篇医疗文献中每篇医疗文献的发表时间，确定所述多篇医疗文献中每篇医疗文献的评分。

示例性的，该多篇医疗文献对应的有向图以及pagerank算法，确定该多篇医疗文献中每篇医疗文献的第一评分。

具体的，与确定网页重要性的方法类似，根据该有向图(即多篇医疗文献之间的引用关系，类似网页的连接关系)确定所述多篇医疗文献对应的转移矩阵；然后，根据该多篇医疗文献的数量确定每篇医疗文献的初始概率，即每篇医疗文献的初始概率为1/N，N为该多篇医疗文献的数量；根据该初始概率、转移矩阵以及预设的超参，进行多次迭代，得到每篇医疗文献的第一评分，其中，该第一评分也可以反映每篇医疗文献的质量。

示例性的，先对该多篇医疗文献的第一评分进行归一化，得到该多篇医疗文献中每篇医疗文献对应的第二评分；然后，根据所述有向图以及所述每篇医疗文献对应的第二评分，得到医疗文献i对应的评分。

示例性的，根据该有向图以及每篇医疗文献的第二评分，确定该多篇医疗文献中除所述医疗文献i之外的其他医疗文献中每篇医疗文献对该医疗文献i的第三评分；将所述其他医疗文献中每篇医疗文献对该医疗文献i的第三评分以及所述医疗文献i的第二评分进行求和，得到该医疗文献i对应的评分。

具体的，根据该有向图，确定该其他医疗文献中引用了医疗文献i的医疗文献以及未引用该医疗文献i的医疗文献(即有向图中的孤立节点)，其中，引用医疗文献i的医疗文献包括直接引用该医疗文献i和间接引用该医疗文献i，比如，如图2所示，引用医疗文献A的医疗文献包括直接引用医疗文献A的医疗文献B以及间接引用医疗文献A的医疗文献C；根据医疗文献j的第二评分和发表时间、所述医疗文献i的第二评分以及所述预设时间节点，确定该医疗文献j对该医疗文献i的第三评分，其中，该医疗文献j为引用该医疗文献i中的任意一篇医疗文献，j的取值为1到M，M为引用该医疗文献i的医疗文献的数量；确定未引用医疗文献i的医疗文献对该医疗文献i的第三评分为0。

示例性的，在该医疗文献j直接引用该医疗文献i的情况下，则可确定该医疗文献j与该医疗文献i的第二评分之间的第一均值，以及该医疗文献j的发表时间与该医疗文献i的发表时间之间的第一时间差；根据该第一均值以及该第一时间差，确定该医疗文献j对医疗文献i的第三评分。

示例性的，在医疗文献j间接引用该医疗文献i的情况下，以三篇医疗文献进行举例说明，比如，医疗文献j直接引用医疗文献k(未引用医疗文献i)，且医疗文献k直接引用医疗文献i的情况下，则可确定所述医疗文献j对所述医疗文献j对医疗文献k的第三评分，以及所述医疗文献k对所述医疗文献i的第三评分，并将所述医疗文献j对所述医疗文献k的第三评分以及所述医疗文献k对所述医疗文献i的第三评分的乘积，作为所述医疗文献j对所述医疗文献i的第三评分。具体的，可确定医疗文献j与医疗文献k的第二评分之间的第二均值，以及该医疗文献j的发表时间与医疗文献i的发表时间之间的第二时间差，根据该第二均值以及第二时间差确定该医疗文献j对医疗文献k的第三评分；并确定医疗文献k与医疗文献i的第二评分之间的第三均值，以及该医疗文献k的发表时间与医疗文献i的发表时间之间的第三时间差，根据该第三均值以及第三时间差确定该医疗文献k对医疗文献i的第三评分。

示例性的，医疗文献j对医疗文献i的第三评分可以通过公式(7)表示：

Pr(i,j)为医疗文献j对医疗文献i的第三评分，Pr(i)为医疗文献i的第二评分，Pr(j)为医疗文献j的第二评分，T_j为医疗文献j的发表时间，T_i为医疗文献i的发表时间，其中，其他情况包括医疗文献j未引用医疗文献i。

示例性的，医疗文献i的评分可以通过公式(8)表示：

其中，Pr_i ^H为医疗文献i的评分，Pr(i,j)为医疗文献j对医疗文献i的第三评分，Pr_i ²为医疗文献i的第二评分。之所以最后叠加每篇医疗文献的第二评分，主要是考虑一些孤立的医疗文献本身是具有一定影响力的，避免将这种医疗文献的评分设置为0，从而使每篇医疗文献的评分更加具有说服力。

参阅图4，图4本申请实施例提供的一种医疗文献簇的主题确定装置的功能单元组成框图。医疗文献簇的主题确定装置400，包括：获取单元401和处理单元402，其中：

获取单元401，获取单元，用于获取多篇医疗文献；

处理单元402，用于对所述多篇医疗文献进行聚类，得到至少一个医疗文献簇；

处理单元402，还用于确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献；

处理单元402，还用于确定所述每个医疗文献簇对应的候选短语集；

处理单元402，还用于根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集，确定所述每个医疗文献簇对应的主题。

在一些可能的实施方式中，在确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献方面，处理单元402，具体用于：

获取所述每个医疗文献簇中医疗文献之间的引用关系；

根据所述每个医疗文献簇中医疗文献之间的引用关系，确定所述每个医疗文献簇中各篇医疗文献的评分，所述各篇医疗文献的评分用于表征所述各篇医疗文献的重要性程度；

根据评分从大到小的顺序确定所述每个医疗文献簇中的目标医疗文献。

在一些可能的实施方式中，在确定所述每个医疗文献簇对应的候选短语集方面，处理单元402，具体用于：

根据所述每个医疗文献簇中各篇医疗文献的标题和摘要，确定所述每个医疗文献簇中各篇医疗文献对应的短语；

将所述每个医疗文献簇中各篇医疗文献对应的短语组成第一短语集；

对所述第一短语集中的短语进行筛选，得到所述每个医疗文献簇对应的候选短语集。

在一些可能的实施方式中，在对所述第一短语集中的短语进行筛选，得到所述每个医疗文献簇对应的候选短语集方面，处理单元402，具体用于：

将所述第一短语集中的缩写短语映射成全称，得到第二短语集；

将所述第二短语集中仅包含一个单词的短语删除，得到第三短语集；

确定所述第三短语集中语义相同的短语，并将所述第三短语集中语义相同的短语替换为标准化短语，得到第四候短语集；

将所述第四短语集作为所述每个医疗文献簇对应的候选短语集。

在一些可能的实施方式中，在根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集，确定所述每个医疗文献簇对应的主题方面，处理单元402，具体用于：

对所述每个医疗文献簇中的目标医疗文献的标题进行词嵌入，得到所述每个医疗文献簇对应的第一特征向量；

对所述候选短语集中的每个短语进行词嵌入，得到所述候选短语集中每个短语对应的第二特征向量；

对所述候选短语集中每个短语中的每个单词进行词嵌入，得到每个单词对应的第三特征向量；

根据所述每个单词对应的第三特征向量，确定所述候选短语集中每个短语对应的第四特征向量；

确定所述候选短语集中每个短语的词频-逆文本频率TF-IDF；

根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF，确定所述每个医疗文献簇对应的主题。

在一些可能的实施方式中，在根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF，确定所述每个医疗文献簇对应的主题方面，处理单元402，具体用于：

确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第二特征向量之间的第一相似度；

确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第四特征向量之间的第二相似度；

根据所述第一相似度和所述第二相似度以及所述TF-IDF值，确定所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度；

根据所述候选短语集中每个短语的第二特征向量，确定所述候选短语集中任意两个短语之间的第四相似度；

根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度，确定所述每个医疗文献簇对应的主题。

在一些可能的实施方式中，在根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度，确定所述每个医疗文献簇对应的主题方面，处理单元402，具体用于：

从所述候选短语集中选取第三相似度最大的短语作为一个目标短语，并将所述目标短语从所述候选短语集中移动到目标短语集；

根据所述候选短语集的剩余短语中每个短语，与所述每个医疗文献簇之间的第三相似度以及与所述目标短语集中每个目标短语的第二相似度，确定所述剩余短语中每个短语对应的最大边界相关MMR分值；

将所述剩余短语中的MMR分值最大的短语从所述候选短语集中移动到所述目标短语集；

重复执行确定所述候选短语集剩余短语中每个短语对应的MMR分值以及将所MMR分值最大的短语移动到所述目标短语集的操作，直至所述目标短语集中的目标短语的数量达到预设数量；

将达到预设数量的目标短语集中的目标短语作为所述每个医疗文献簇的主题。

参阅图5，图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示，电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据，并可以将存储503存储的数据传输给处理器502。

处理器502用于读取存储器503中的计算机程序执行以下操作：

对多篇医疗文献进行聚类，得到至少一个医疗文献簇；

确定所述每个医疗文献簇对应的候选短语集；

在一些可能的实施方式中，在确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献方面，处理器502，具体用于执行以下操作：

获取所述每个医疗文献簇中医疗文献之间的引用关系；

在一些可能的实施方式中，在确定所述每个医疗文献簇对应的候选短语集方面，处理器502，具体用于执行以下操作：

在一些可能的实施方式中，在对所述第一短语集中的短语进行筛选，得到所述每个医疗文献簇对应的候选短语集方面，处理器502，具体用于执行以下操作：

在一些可能的实施方式中，在根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集，确定所述每个医疗文献簇对应的主题方面，处理器502，具体用于执行以下操作：

确定所述候选短语集中每个短语的词频-逆文本频率TF-IDF；

在一些可能的实施方式中，在根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF，确定所述每个医疗文献簇对应的主题方面，处理器502，具体用于执行以下操作：

在一些可能的实施方式中，在根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度，确定所述每个医疗文献簇对应的主题方面，处理器502，具体用于执行以下操作：

具体地，上述收发器501可为图4所述的实施例的医疗文献簇的主题确定装置400的获取单元401，上述处理器502可以为图4所述的实施例的医疗文献簇的主题确定装置400的处理单元402。

应理解，本申请中医疗文献簇的主题确定装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices，简称：MID)或穿戴式设备等。上述医疗文献簇的主题确定装置仅是举例，而非穷举，包含但不限于上述医疗文献簇的主题确定装置。在实际应用中，上述医疗文献簇的主题确定装置还可以包括：智能车载终端、计算机设备等等。

本申请实施例还提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种医疗文献簇的主题确定方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种医疗文献簇的主题确定方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种医疗文献簇的主题确定方法，其特征在于，包括：

对多篇医疗文献进行聚类，得到至少一个医疗文献簇；

确定所述每个医疗文献簇对应的候选短语集；

根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集，确定所述每个医疗文献簇对应的主题，具体包括：对所述每个医疗文献簇中的目标医疗文献的标题进行词嵌入，得到所述每个医疗文献簇对应的第一特征向量；对所述候选短语集中的每个短语进行词嵌入，得到所述候选短语集中每个短语对应的第二特征向量；对所述候选短语集中每个短语中的每个单词进行词嵌入，得到每个单词对应的第三特征向量；根据所述每个单词对应的第三特征向量，确定所述候选短语集中每个短语对应的第四特征向量；确定所述候选短语集中每个短语的词频-逆文本频率TF-IDF；根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF，确定所述每个医疗文献簇对应的主题。

2.根据权利要求1所述的方法，其特征在于，所述确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献，包括：

获取所述每个医疗文献簇中医疗文献之间的引用关系；

3.根据权利要求1或2所述的方法，其特征在于，所述确定所述每个医疗文献簇对应的候选短语集，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述第一短语集中的短语进行筛选，得到所述每个医疗文献簇对应的候选短语集，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF，确定所述每个医疗文献簇对应的主题，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度，确定所述每个医疗文献簇对应的主题，包括：

7.一种医疗文献簇的主题确定装置，其特征在于，包括：

获取单元，用于获取多篇医疗文献；

所述处理单元，还用于根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集，确定所述每个医疗文献簇对应的主题，具体用于：对所述每个医疗文献簇中的目标医疗文献的标题进行词嵌入，得到所述每个医疗文献簇对应的第一特征向量；对所述候选短语集中的每个短语进行词嵌入，得到所述候选短语集中每个短语对应的第二特征向量；对所述候选短语集中每个短语中的每个单词进行词嵌入，得到每个单词对应的第三特征向量；根据所述每个单词对应的第三特征向量，确定所述候选短语集中每个短语对应的第四特征向量；确定所述候选短语集中每个短语的词频-逆文本频率TF-IDF；根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF，确定所述每个医疗文献簇对应的主题。

8.一种电子设备，其特征在于，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行权利要求1-6任一项方法中的步骤的指令。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-6任一项所述的方法。