CN117076658B

CN117076658B - 基于信息熵的引文推荐方法、装置及终端

Info

Publication number: CN117076658B
Application number: CN202311055447.4A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Nanjing Langtuo Technology Investment Co ltd
Current assignee: Nanjing Langtuo Technology Investment Co ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2024-05-03
Anticipated expiration: 2043-08-22
Also published as: CN117076658A

Abstract

本发明实施例公开了一种基于信息熵的引文推荐方法、装置及终端，通过搜索模型结合用户的偏好信息从文献数据库中匹配出N个第一候选引文，然后基于第一候选引文生成特征集合，基于特征集合中的关键向量计算信息熵，基于信息熵得到各第一候选引文的局部活跃度，从而确定第二候选引文，最后利用多因子融合模型计算对应的第二候选引文与关键信息的匹配度，并基于匹配度确定目标引文。这样的方法使用信息熵来得到局部活跃度，提高了推荐的引文与用户的文本的关联性，同时也提高了引文搜索效率和匹配度。

Description

基于信息熵的引文推荐方法、装置及终端

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于信息熵的引文推荐方法、装置及存储介质。

背景技术

在科学文章写作过程中，通过引用现有文献来支撑自己观点是写作重要的一部分，随着文献的越来越多，写作人员在寻找合适的参考文献时，可以通过关键词的检索方式检索出一些相关的，但是其阅读量还是比较大。

对此，传统引文推荐方法可以直接从内容的角度进行大篇幅对比搜索的方法，但是基于内容的方法仅仅通过提取关键词来匹配相关联内容，但存在语义模糊的缺点，并且搜索出来的文献在文本质量上也无法保证。

因此，如何避免现有的引文推荐方法搜索引文效率不高且不能准确匹配，仍然是本领域技术人员亟待解决的问题。

发明内容

基于此，本发明提供一种基于信息熵的引文推荐方法、装置及存储介质，可以提高引文搜索效率和匹配度。

第一方面，提供一种基于信息熵的引文推荐方法，包括：

获取用户输入的关键信息和用户信息；

利用预设的搜索模型中的引擎搜索网络，基于所述关键信息从文献数据库中匹配出满足条件的引用文献集，以及利用所述搜索模型中的兴趣偏好网络确定所述用户信息对应的偏好信息；

基于所述偏好信息对所述引用文献集中的各文献进行排序，并选择排序靠前的N个文献作为第一候选引文；

利用自然语言处理算法，提取各所述第一候选引文的特征集合，其中所述特征集合包括多个不同维度的关键向量；

以各所述第一候选引文的关键向量计算出各所述第一候选引文的信息熵，并基于所述信息熵从N个第一候选引文中确定至少两个第二候选引文；

利用多因子融合模型，基于各所述关键向量计算出对应的第二候选引文与所述关键信息的匹配度，并基于所述匹配度确定目标引文。

可选的，所述方法还包括：

采集用户在文献数据库中的历史操作数据，其中所述历史操作数据包括检索关键信息、发表的文献和翻阅的文献；

提取所述历史操作数据中的关键特征，并基于所述关键特征确定体现用户的兴趣偏好的中间向量，基于所述中间向量构建分布式的偏好图谱；

利用Seq2Seq结构对所述偏好图谱进行训练学习，得到兴趣偏好网络；

将所述兴趣偏好网络与搜索引擎中的引擎搜索网络进行合并融合，得到搜索模型。

可选的，所述将所述兴趣偏好网络与搜索引擎中的引擎搜索网络进行合并融合，得到搜索模型，包括：

通过相似度计算网络，将所述兴趣偏好网络与搜索引擎中的引擎搜索网络进行关联，并配置所述兴趣偏好网络的解码层和所述引擎搜索网络的输出层的权重，得到搜索模型。

可选的，所述利用自然语言处理算法，提取各所述第一候选引文的特征集合，包括：

遍历各所述第一候选引文识别其中的标题信息、引文内容、引文中的引用信息和作者信息；

分别提取所述标题信息、所述引文内容、所述引用信息和所述作者信息的关键词，并利用词向量模型将各所述关键词转换为关键向量，得到各所述第一候选引文的特征集合。

可选的，所述以各所述第一候选引文的关键向量计算出各所述第一候选引文的信息熵，基于所述信息熵从N个第一候选引文中确定至少两个第二候选引文，包括：

从各所述第一候选引文的特征集合中选择所述引文内容和所述标题信息的各关键向量依次作为随机变量；

利用信息熵计算公式，计算各所述随机变量在所述引文内容和所述标题信息中的出现概率；

将各所述随机变量的出现概率求均值，得到对应的第一候选引文的信息熵；

根据局部活跃度计算公式，基于所述信息熵计算出对应的第一候选引文的局部活跃度，并基于所述局部活跃度从N个第一候选引文中确定至少两个第二候选引文。

可选的，所述信息熵计算公式为：

H(X)＝-∑_x∈XP(x)logP(x))，

其中，X为随机变量，所述随机变量的信息量是：

分别是n篇第一候选引文各自的随机变量的数量差值与n篇第一候选引文数量差值总和之比。

可选的，所述局部活跃度计算公式为：

其中，A(i)代表各信息熵的平均值，i为随机变量，k和n为常量，局部活跃度Y通过归一化处理后得到。

第二方面，提供一种基于信息熵的引文推荐装置，包括：

获取模块，用于获取用户输入的关键信息和用户信息；

搜索模块，用于利用预设的搜索模型中的引擎搜索网络，基于所述关键信息从文献数据库中匹配出满足条件的引用文献集，以及利用所述搜索模型中的兴趣偏好网络确定所述用户信息对应的偏好信息；基于所述偏好信息对所述引用文献集中的各文献进行排序，并选择排序靠前的N个文献作为第一候选引文；

特征提取模块，用于利用自然语言处理算法，提取各所述第一候选引文的特征集合，其中所述特征集合包括多个不同维度的关键向量；

计算模块，用于以各所述第一候选引文的关键向量计算出各所述第一候选引文的信息熵，并基于所述信息熵从N个第一候选引文中确定至少两个第二候选引文；以及第二计算模块利用多因子融合模型，基于各所述关键向量计算出对应的第二候选引文与所述关键信息的匹配度；

确定模块，用于基于所述匹配度确定目标引文。

可选的，所述基于信息熵的引文推荐装置还包括：模型构建模块，用于：

可选的，所述模型构建模块具体用于：

可选的，所述特征提取模块具体用于：

可选的，所述计算模块具体用于：

可选的，所述信息熵计算公式为：

H(X)＝-∑_x∈XP(x)logP(x))，

其中，X为随机变量，所述随机变量的信息量是：

可选的，所述局部活跃度计算公式为：

第三方面，提供一种芯片，包括第一处理器，用于从第一存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如上所述的基于信息熵的引文推荐方法的各个步骤。

第四方面，提供一种终端，包括第二存储器、第二处理器以及存储在所述第二存储器中并可在所述第二处理器上运行的计算机程序，第二处理器执行所述计算机程序时实现如上介绍的基于信息熵的引文推荐方法的各个步骤。

上述基于信息熵的引文推荐方法、装置、芯片及存储介质，获取用户输入的关键信息和用户信息；利用预设的搜索模型中的引擎搜索网络，基于所述关键信息从文献数据库中匹配出满足条件的引用文献集，以及利用所述搜索模型中的兴趣偏好网络确定所述用户信息对应的偏好信息；基于所述偏好信息对所述引用文献集中的各文献进行排序，并选择排序靠前的N个文献作为第一候选引文；利用自然语言处理算法，提取各所述第一候选引文的特征集合，其中所述特征集合包括多个不同维度的关键向量；以各所述第一候选引文的关键向量计算出各所述第一候选引文的信息熵，并基于所述信息熵从N个第一候选引文中确定至少两个第二候选引文；利用多因子融合模型，基于各所述关键向量计算出对应的第二候选引文与所述关键信息的匹配度，并基于所述匹配度确定目标引文。本发明实施例的方案通过信息熵的计算，可以求得各特征在决定一篇文章是否值得被引用时的所代表的权重大小。量化并可视化该权重，将有利于日后其他研究者在该技术上研究时获得突破。同时，改变该局部活跃度计算方法后，理论上可以有效调整局部活跃度因子在多因子融合模型上的权重至更精确值，获得更有说服力的结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于信息熵的引文推荐方法的基本流程示意图；

图2为本发明实施例提供的构建搜索模型的流程示意图；

图3为本发明实施例提供的基于信息熵的引文推荐装置的基本结构框图；

图4为本发明实施例提供的一种终端的基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(AI：Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

具体地请参阅图1，图1为本实施例提供的基于信息熵的引文推荐方法的基本流程示意图。

如图1所示，一种基于信息熵的引文推荐方法，包括：

S11、获取用户输入的关键信息和用户信息。

该步骤中，用户输入的关键信息可以理解为是用户研究的论文或者是技术相关的内容，可以是关键词、算法，设置是功能、一段文字表达等等。

在实际应用中，该关键信息还可以是由研究的论文和/或技术的检索语句或者检索式。具体的，通过关键词提取算法，如GPT算法，对论文或者技术中的语句进行解析，以得到对应的关键词，并基于关键词构建检索式。

在本实施例中，该关键信息可以用户的某一篇文本，也可以是多篇文本，通过获取用户在文本数据库中的触控操作，以从多篇文本中选择目标文本，然后去除文本中等无关的文本内容以及停用词，如摘要，然后利用TF-IDF算法提取剩余的文本中所有语句中的关键词，对提取到的关键词中重复的词语进行去重操作，得到关键信息。

本实施例中，所述用户信息指的是可以体现用户对于各技术领域中的技术文献的关注程度的信息，如用户的技术领域或者是技术材料的标记信息。

S12、利用预设的搜索模型中的引擎搜索网络，基于关键信息从文献数据库中匹配出满足条件的引用文献集，以及利用搜索模型中的兴趣偏好网络确定用户信息对应的偏好信息。

本实施例中，该搜索模型是基于Seq2Seq模型、注意力机制和引擎搜索模型融合构建得到，具体的构建流程如下：

具体的，所述将所述兴趣偏好网络与搜索引擎中的引擎搜索网络进行合并融合，得到搜索模型包括：通过相似度计算网络，将所述兴趣偏好网络与搜索引擎中的引擎搜索网络进行关联，并配置所述兴趣偏好网络的解码层和所述引擎搜索网络的输出层的权重，得到搜索模型。

如图2所示，构建搜索模型的具体实现流程包括：

S21，收集用户的查阅信息，并构建深度学习Seq2Seq模型来表征作者的兴趣偏好。

在实际应用中，该Seq2Seq模型包括编码层、中间层和解码层，其首尾两端分别是编码层和解码层，中间层生成带语义信息的中间向量。

S22，将其兴趣偏好进行向量化表示并存储备用。

该步骤中，利用Seq2Seq模型采取分布式表示的方法学习用户兴趣，Seq2Seq模型中编码层最后时刻的输出——中间向量即为带有语义信息的兴趣表达，且维度较one-hot低，后续进行语义相关性计算的时候有利于提升运算效率。

S23，将用户的兴趣模型与目前流行的开源搜索引擎Lucene进行结合计算相似度，得到搜索模块。

具体的，将输出的分布式兴趣表达融合到Lucene自带的原生排序算法中，实现个性化搜索功能。

本实施例中，将关键信息输入至搜索模型中，搜索模型中的引擎搜索网络基于所述关键信息从文献数据库中进行检索，得到初步检索结果，具体的将关键信息基于关键词提取算法，从中提取出关键词，然后构建检索式从文献数据库中的检索出与其关联的文献，然后基于用户信息确定用户的偏好。

S13、基于偏好信息对引用文献集中的各文献进行排序，并选择排序靠前的N个文献作为第一候选引文。

本实施例中，基于偏好确定文献的类型，基于类型从文献数据库中提取对应的文献，最后将基于检索式检索的文献和偏好提取的文献进行对比，选择对比一致的文献作为第一候选引文。

优选的，这里的对比具体是计算基于检索式检索的文献和偏好提取的文献中各文献的相似度，并基于相似度对文献进行排序，选择排序靠前的N个文献作为第一候选引文。

在本实施例中，在基于偏好信息对检索到的文献进行排序时，具体可以基于GRU来实现，基于GRU的实现的原理具体如下：

步骤1：输入用户A在检索界面的查询语句q，权重系数α，A文章数据集。

步骤2：将每个作者发表的文章标题集合存储在数据集D中。

步骤3：将标题集D输入端到端模型训练至收敛并保存参数备用。

步骤4：调用参数将数据集D输入到已完成训练的模型并存储语义中间向量。

步骤5：将搜索结果的前100篇文档标题逐一输入训练好的模型中生成对应文档的表征向量。

步骤6：通过公式(1)计算分别查询者兴趣向量和前100篇文档标题的相似度。

步骤7：据公式(2)以及α系数计算线性融合后的得分。

步骤8：将上一步得到的评分由高到低排序。

步骤9：输出TOP-N个性化搜索结果，即是得到N个第一候选引文。

S14、利用自然语言处理算法，提取各第一候选引文的特征集合，该特征集合包括多个不同维度的关键向量。

该步骤中，所述利用自然语言处理算法，提取各所述第一候选引文的特征集合，包括：

分别提取所述标题信息、所述引文内容、所述引用信息和所述作者信息的关键词，并利用词向量模型将各所述关键词转换为关键向量，得到各所述第一候选引文的特征集合，其中，词向量模型为word2vec模型。

本实施例中，利用TF-IDF算法从词频的角度去提取第一候选引文的特征词，具体的依次从向下采样和向上采样的方式，划分出关键词，计算向下采样中的各关键词的词频和向上采样中的各关键词的词频，基于该词频来选择目标特征词，然后将目标特征词转换为关键向量。

在实际应用中，该关键向量具体包括文章标题的关键词向量、文献ID向量和作者向量，具体的实现流程如下：

步骤1：文章标题的关键词向量表示。

首先用Word2vec工具生成文章标题的词向量，再生成关键词的词向量，然后用两部分求和后再用均值表示，从而构造Paper2vec向量，便于后续挖掘文章与文章内容上的相关度，如公式(3)和(4)所示：

P_i＝(v_i1,v_i2,…,v_ic,…,v_in) (3)

W_i(ij)＝(w_j1,w_j2,…,w_jc,…,w_jn),j∈{1,2,3,…,K_i} (4)

i代表某篇文章标号，K_i为第i篇文章标题词和关键词的总数，P_i是文章i的单词的向量化表示，n是向量的维度，W_i(ij)为文章i第j个词的向量表示，w_jc是n维词向量中c维度的值，最后论文i的向量P_i如公式(5)所示：

步骤2：文章参考文献ID向量表示。

为了挖掘文章i与其参考文献的相关关系，先对每篇文章一个唯一的ID编号，相当于这篇文章在文章集合中的身份证号码，在此基础上将其ID与参考文献的ID连接在同一行，对文章i的ID和它参考文献列表的ID用Word2vec构造ID2vec，分布式表达结果用公式(6)表示：

ID_i＝(d_i1,d_i2,…,d_ic,…,d_in) (6)

公式(6)即为文章i的ID向量表示，d_ic为其第n维的值。

步骤3：作者向量表示。

使用非重叠窗口方法和Word2vec共同构建Auther2vec表示作者关系，将作者与其参考文献的作者放置在一行，假设存在作者j，j与其参考文献作者的向量化表达如公式(7)所示：

A_j＝(a_j1,a_j2,…,a_jc,…,a_jn) (7)

S15、以各第一候选引文的关键向量计算出各第一候选引文的信息熵，并基于信息熵从N个第一候选引文中确定至少两个第二候选引文。

具体的，从各所述第一候选引文的特征集合中选择所述引文内容和所述标题信息的各关键向量依次作为随机变量；

本实施例中，在计算信息熵之前，还包括基于文章标题的关键词向量、文献ID向量和作者向量，计算出各第二候选引文的不同变量因子，然后基于各变量因子进行融合计算，得到信息熵。

其中，对于各变量因子的计算，具体如下：

步骤1：整体影响力。

在论文数据库中，发表时间长的文章要比新发表文章在被引用情况上更有优势，因为多出的时间里文章仍然在人们视线范围中，为了解决旧的文章影响力过大和内容优质的新文章影响力不足的问题，在融合了入链出链因子的PageRank基础上加入衰减函数，最终计算如公式(8)所示：

PR代表总体PageRank值，d为其阻尼系数，按照常用的方法这里用0.85，α为其系数，decay代表引入的相应的衰减函数，Wⁱⁿ和W^out分别表示链入因子和链出因子，计算方法如公式(9)和(10)所示：

是链入和链出因子的计算公式，B(v)代表文章v的引用论文合集，I_p和O_p分别是v引用论文的链入以及链出。I_u和O_u分别代表文章u的链入和链出。

步骤2：局部活跃度。

为了进一步细化整体衰减值，以三年为转折点引入局部活跃度来调整推荐效果，如公式(11)所示：

f(p)表示p文的局部活跃度，t＝文献发表年份和推荐年份的差值，表示该文献发表年份和当前推荐任务的年份相差的年份数。c是近三年的文章被引次数，次数越多说明文献质量越高，研究成果越新，参考价值越大。

在实际应用中，该局部活跃度的计算是基于信息上来计算，具体的所述信息熵计算公式为：

H(X)＝-∑_x∈XP(x)logP(x))，

其中，X为随机变量，所述随机变量的信息量是：

所述局部活跃度计算公式为：

步骤3：查询相关度。利用重启随机游走算法来改进排序，首先假设存在一个粒子，该粒子可以在图结构网络中的任意节点间游走，初始游走规律为随机的方式。此粒子从一个初始节点a出发，在节点网络中随机游走，每走一步都有一定概率α回到a节点重新游走，游走到与当前节点相互连接的下一节点b的概率为1-α，该算法的模型结构数学化表达如公式(12)和(13)所示。

r^(t+1)＝(1-α)Mr^(t)+αq (12)

公式(12)中，r^(t)表示在第r^(t)步游走粒子随机游走到节点a的概率值，q为查询语句分析处理后的向量表示，r⁰为第0步处于初始节点的状态，此时r⁰＝q。公式(13)中M为随机游走算法中的概率转移矩阵，a和b代表节点表号，c代表节点a和b之间的链接关系，具体到本研究，若a文献引用了b文献，或者b文献引用了a文献，c取值为1，若互相没有引用关系，则取值为0。

步骤4：作者相关度。作者之间的联系对引用文献来说也是十分重要的影响因素，实际研究中文章的作者≥1，如果挖掘其组合关系可以对排序结果做进一步优化。在Author2vec的处理结果中，可得用户向量表示V_u＝[x₁,x₂,x₃,…,x_n]，将待选结果中文献的所有作者向

量计算出来后与检索者计算余弦相似度即可表示用户关系，如公式(14)所示，u表示用户，p表示文章，k是作者数量。

S16、利用多因子融合模型，基于各关键向量计算出对应的第二候选引文与关键信息的匹配度，并基于匹配度确定目标引文。

该步骤中，利用多因子融合模型基于各变量因子共同实现推荐任务，将其做线性融合处理以从多个方面考量为用户更精准的推荐引文。整体影响力ZT改善了PR算法向旧文偏移的问题，局部活跃度因子JB考虑到发表时间对论文引用情况的影响，查询相关度CX提高了相似度高文献的排名，作者关系ZZ引入了合作关系变量，从研究关系入手提升效果。因子融合如公式(15)所示，

综上，本申请通过搜索模型结合用户的偏好信息从文献数据库中匹配出N个第一候选引文，然后基于第一候选引文生成特征集合，基于特征集合中的关键向量计算信息熵，基于信息熵得到各第一候选引文的局部活跃度，从而确定第二候选引文，最后利用多因子融合模型计算对应的第二候选引文与关键信息的匹配度，并基于匹配度确定目标引文。这样的方法使用信息熵来得到局部活跃度，提高了推荐的引文与用户的文本的关联性，同时也提高了引文搜索效率和匹配度。

为解决上述技术问题，本发明实施例还提供一种基于信息熵的引文推荐装置。具体请参阅图3，图3为本实施例提供的基于信息熵的引文推荐装置的基本结构框图，包括：

获取模块，用于获取用户输入的关键信息和用户信息；

确定模块，用于基于所述匹配度确定目标引文。

可选的，所述模型构建模块具体用于：

可选的，所述特征提取模块具体用于：

可选的，所述计算模块具体用于：

可选的，所述信息熵计算公式为：

H(X)＝-∑_x∈XP(x)logP(x))，

其中，X为随机变量，所述随机变量的信息量是：

可选的，所述局部活跃度计算公式为：

综上，通过信息熵的计算，可以求得各特征在决定一篇文章是否值得被引用时的所代表的权重大小。量化并可视化该权重，将有利于日后其他研究者在该技术上研究时获得突破。同时，改变该局部活跃度计算方法后，理论上可以有效调整局部活跃度因子在多因子融合模型上的权重至更精确值，获得更有说服力的结果。

为解决上述技术问题，本发明实施例还提供一种芯片，该芯片可以为通用处理器，也可以为专用处理器。该芯片包括处理器，处理器用于支持终端执行上述相关步骤，例如从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行，以实现上述各个实施例中的基于信息熵的引文推荐方法。

可选的在一些示例下，该芯片还包括收发器，收发器用于接受处理器的控制，用于支持终端执行上述相关步骤，以实现上述各个实施例中的基于信息熵的引文推荐方法。

可选的，该芯片还可以包括存储介质。

需要说明的是，该芯片可以使用下述电路或者器件来实现：一个或多个现场可编程门阵列(field programmable gate array，FPGA)、可编程逻辑器件(programmablelogicdevice，PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。

本发明还提供一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行所述计算机程序时实现如上所述的基于信息熵的引文推荐方法的步骤。

具体请参阅图4，图4为示出的一种终端的基本结构框图，该终端包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该终端的非易失性存储介质存储有操作***、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种基于信息熵的引文推荐方法。该终端的处理器用于提供计算和控制能力，支撑整个终端的运行。该终端的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种基于信息熵的引文推荐方法。该终端的网络接口用于与终端连接通信。本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的电子设备。这种电子设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信***)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal DigitalAssistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位***)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile InternetDevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述实施例提供的基于信息熵的引文推荐方法的步骤。

本实施例还提供了一种计算机程序，该计算机程序可以分布在计算机可读介质上，由可计算装置来执行，以实现上述介绍的基于信息熵的引文推荐方法的至少一个步骤；并且在某些情况下，可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。

本实施例还提供了一种计算机程序产品，包括计算机可读装置，该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于信息熵的引文推荐方法，其特征在于，包括：

获取用户输入的关键信息和用户信息；

利用多因子融合模型，基于各所述关键向量计算出各个第二候选引文与所述关键信息的匹配度，并基于所述匹配度确定目标引文；

所述用户信息表示用户对各技术领域中的技术文献的关注程度的信息；

所述关键信息的获取方式包括：

获取用户在文本数据库中的触控操作，以从多篇文本中选择目标文本，然后去除文本中无关的文本内容以及停用词，然后利用TF-IDF算法提取剩余的文本中所有语句中的关键词，对提取到的关键词中重复的词语进行去重操作，得到关键信息；

或者，对研究论文或者技术中的语句进行解析，以得到对应的关键词，并基于关键词构建检索式，得到关键信息。

2.如权利要求1所述的基于信息熵的引文推荐方法，其特征在于，所述方法还包括：

3.如权利要求2所述的基于信息熵的引文推荐方法，其特征在于，所述将所述兴趣偏好网络与搜索引擎中的引擎搜索网络进行合并融合，得到搜索模型，包括：

4.如权利要求1-3中任意一项所述的基于信息熵的引文推荐方法，其特征在于，所述利用自然语言处理算法，提取各所述第一候选引文的特征集合，包括：

5.如权利要求4所述的基于信息熵的引文推荐方法，其特征在于，所述以各所述第一候选引文的关键向量计算出各所述第一候选引文的信息熵，基于所述信息熵从N个第一候选引文中确定至少两个第二候选引文，包括：

6.一种基于信息熵的引文推荐装置，其特征在于，包括：

获取模块，用于获取用户输入的关键信息和用户信息；

计算模块，用于以各所述第一候选引文的关键向量计算出各所述第一候选引文的信息熵，并基于所述信息熵从N个第一候选引文中确定至少两个第二候选引文；以及第二计算模块利用多因子融合模型，基于各所述关键向量计算出各个第二候选引文与所述关键信息的匹配度；

确定模块，用于基于所述匹配度确定目标引文；

所述获取模块获取的用户信息表示用户对各技术领域中的技术文献的关注程度的信息；

所述获取模块获取关键信息的获取方式包括：

7.一种芯片，其特征在于，包括：第一处理器，用于从第一存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如如权利要求1至5任一项所述的基于信息熵的引文推荐方法的各个步骤。

8.一种终端，其特征在于，包括第二存储器、第二处理器以及存储在所述第二存储器中并可在所述第二处理器上运行的计算机程序，其特征在于，所述第二处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于信息熵的引文推荐方法的步骤。