CN106951517A

CN106951517A - 狭隘范围内文献的多样性查询方法

Info

Publication number: CN106951517A
Application number: CN201710163193.6A
Authority: CN
Inventors: 才智; 李彤; 兰许; 丁治明
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-03-19
Filing date: 2017-03-19
Publication date: 2017-07-14
Anticipated expiration: 2037-03-19
Also published as: CN106951517B

Abstract

本发明公开了狭隘范围内文献的多样性查询方法，以期要得到k条基于关键词的多样性文献，方法的实现步骤如下：步骤一：构建数据关系，设计静态离线排序评价分数；步骤二：输入关键词生成备选的OS；步骤三：根据得到的OS，选取评价分数最高的元组，根据已选择的分数最高节点对其他剩余节点进行文本相似性和关联多样性削弱，再根据文本相似性和关联多样所占的权重返回给用户k条全面的信息。

Description

狭隘范围内文献的多样性查询方法

技术领域

本发明属于数据挖掘领域，涉及狭隘范围内文献的多样性查询方法。

背景技术

众所周知,科学技术的发展依赖于继承性和创造性。任何科技成果都是在已有知识的基础上发展起来的，学***,也预示着未来发展的趋势和方向。文献信息检索是科学研究的向导。要进行有价值的科学研究，研究人员必须依赖文献检索，全面获取相关文献信息，及时了解各学科领域出现的新问题、新观点，掌握已有文献成果，以确定自己的研究起点和研究目标。通过文献信息检索，可以培养信息意识和获取新知识的能力，提高自学能力，掌握了文献信息检索的方法和技能，将大大地缩短收集资料的时间，提高利用文献的准确率，可以不断更新知识，提高自身综合素质。

随着信息技术和互联网的发展，在文献领域里逐渐采用了最新的科技成果。文字印刷型的文献，陆续采用了电子计算机编辑、激光照相排版等先进技术，但在查询文献时会看到一些影印版的文献，这些只有摘要，作者和题目，没有引用关系、甚至有错误的文献，以万方数据库和中国知网为例，只能考虑文献的主题词、标引词或者文章本身进行查询，缺失文献与其他文献之间的引用关系，大大丢失了重要相关性信息。没有引用关系用于文献检索，会降低检索精度和质量。

文本通常根据其固有的特征来度量其相似性。文本的特征包括文本的内容特征和非内容特征两种。非内容特征包括文档的大小、类型、位置、拥有者等特征，通常比较具体。文本的内容特征包括文本的结构特征、关键词词频统计特征和关键词的语义特征等。文本的相似性度量在信息检索、文本分类、文本查重等领域得到了广泛应用。关联关系是一种结构化的关系，指一种对象和另一种对象有联系。关联关系是数据挖掘、知识发现和许多应用的前提条件，能够为数据挖掘和应用提供额外的聚类依据、语义信息等。例如在检索一篇文献时，根据这篇文献的合作作者检索到另一篇文献。本专利中这讨论的关系就是指文献作者的关系。对输入的关键词，我们将在整个的元组中运用算法(详见步骤3.4)得到重要信息，若仅运用PageRank或是ObjectRank计算的静态值来返回信息，则可能会使多条相似的信息重复出现且排名分数可能会很高，所以为了使信息能够在最大限度上呈现给用户更多样化的信息，优化排名，引入文本相似性(Sim)和关系多样性(Div)两种权衡信息重要性的方法。这种方法不仅能够大大减少时间的消耗，提高返回信息的效率，而且能够满足用户对搜索信息的多样化需求，在一定程度上优化了基于多样性的关键词查询。

发明内容

本发明提供一种狭隘范围内文献的多样性查询方法，对用户所输入的关键词，然后根据关键词与各元组信息之间的文本相似性和关系多样性进行削弱，运用算法返回给全面的基于多样性的关键词。

一种狭隘范围内文献的多样性查询方法，其步骤为：

步骤1：构建数据关系，设计静态离线排序评价分数；

步骤1.1：收集并整理数据集，构建数据关系。由于只有摘要，作者和题目，没有引用关系，只利用文献的作者和文献ID；

步骤1.2：根据链接分析算法PageRank计算每一个节点的评价分数，每个节点v_i都存在相应的矢量r_i，则通过以下公式来计算矢量r的评价分数：

其中d是一个阻尼系数；A是一个n*n矩阵，其中A_ij＝α(e)， G(V_G,E_G)为模式图，e_G就是在模式图中从v_i到v_j的边，α(e)为权转移率，OutDeg(u,e_G)表示u的出度，S是节点的任意子集，s＝[s₁,...,s_n]^T，如果v_i在S中，则s_i＝0；

综上，迭代计算出数据集中各个节点的评价分数。

步骤2：输入关键词生成备选的元组；

输入关键词，在步骤一中过滤掉与关键词不符的信息，生成备选的元组；

步骤3：根据得到的元组用算法(详见步骤3.4)生成最终含有k个节点的队列H_k。

步骤3.1：在得到的元组中选择静态离线排序评价分数最高的节点；

步骤3.2：关系多样性Div；

为避免过高同一作者的信息的重复出现，应选择输出多样化的信息，所以给出一个如下关系多样性削弱量的计算方法：

其中，g(v_i)是指与v_i相似的元组节点；z(g(v_i))是指在备选元组内与v_i节点相同的元组节点的总和。dv(v_i)的值域是(0,1]。定义dv[z]为节点在备选元组中出现z次的关系多样性削弱量值，k为输出总的信息条数；令k＝10，“Bob”出现2次，即z＝2，则

公式(2)的主要思想是：在查询文献时不太希望检索到的文献都是同一作者所写的，为解决这一问题会将已选择的文献的作者进行削弱，即计算在整个元组集合中一共出现的次数，则该作者出现的频率为出现的次数/k，那么在待选元组中是该作者所写的文献就会被削弱为1-作者出现的频率；

步骤3.3：文本相似性Sim；

鉴于在一个元组中一个元组节点与其他元组节点在文本内容上的相似性很高，但是这些节点可能拥有较高的静态值，若将全部都输出出来，就会得到不是很全面的信息，由此，通过以下公式来计算文本相似性：

其中v_j是待选元组中的一个元组节点，而v_i是已经选择输出的元组节点，i的值是从1到已输出的元组节点个数，最大为k。

在日常工作中经常要对两个文本是否相似进行判定,如判定文字录入稿与标准稿的相似性以评判录入的正确性；判定两份文稿是否雷同；在信息检索中,给定一组关键字,检索含有这组关键字或含有部分关键字的信息。判定文本的相似性有很多方法,如判定文字录入的正确性可采用“字符频度统计”方法，信息检索中可采用“关键字匹配”方法,但这些方法往往不考虑所比较的元素的顺序,如“abc”和“cba”可能被认为是完全相似的,这显然是不合理的。本方法利用Jaccard公式进行相似度计算，取两个元组中词组的交集与并集。

步骤3.4：关联多样性与文本相似性的权重比例；

假设关系多样性削弱量值所占权重为α，则剩余节点削弱后的关系多样性削弱量值为dv(v_i)×α；假设文本相似性所占权重为β，其中α+β＝1，则剩余节点削弱后的文本值为Sim(v_j)×β；通过以下公式来计算剩余节点对关联多样性与文本相似性进行削弱后的分数：

DF(v_i)＝r×(dv(vi)×α+Sim(v_j)×β) (4)

综上，计算出剩余节点通过对关联多样性与文本相似性进行削弱后的分数，再从中选出分数最高的节点。所以选出结果的过程为：

1.)初始化队列H_k为空，构建数据关系；

2.)计算每一个节点的分数；

3.)输入关键词，生成备选元组，得到分数最高的节点加入H_k中，l＝1

4.)当l<k时转5.)，否则转9.)；

5.)计算关联(作者)多样性的削弱dv(v_i)的值；

6.)用已选的节点的文本对待选节点的文本相似性进行计算；

7.)根据关联多样性与文本相似性所占权重，计算新的分数；

8.)得到分数最高的节点加入H_k中，l++，转5.)；

9.)返回队列H_k；

此时返回的H_k即所需的将要检索到的k条信息。

经实验结果证明，本方法得到的实验效果显著。

附图说明

图1为本发明的实施流程图。

具体实施方式

下面结合相关附图对本发明进行解释和阐述：

输入关键词“Data Mining”，生成备选元组，自然数k为检索到的信息总条数，假设k＝10，如果只依据公式1计算的评价分数输出结果，前10条结果如表1，2所示。

表1 10条文献所对应的序号，题目与评价分数

表2 10条文献所对应的作者

步骤3.1：选择分数最高的节点，即序号为1的文献将入队列H中，根据公式2和公式3对其他9个节点进行关联多样性和文本相似性削弱。

步骤3.2：关联多样性；

Jiawei Han在这10条元组中共出现3次，Raymond T.Ng仅出现一次，即则对作者中包含Jiawei Han的元组进行关联的削弱，即对序号为4和序号为10的文献进行削弱。

步骤3.3：文本相似性；

根据在队列H中的节点的题目的关键词，计算其余9个节点的与其的相似性。将那些虚词去掉后计算v_i∩v_j与v_i∪v_j的值，即序号为2的文献与其相似性序号为3的文献与其相似性序号为4的文献与其相似性序号为5的文献与其相似性序号为6的文献与其相似性序号为7的文献与其相似性序号为8的文献与其相似性序号为9的文献与其相似性序号为10的文献与其相似性

步骤3.4：关联多样性与文本相似性的权重比例；

首先假设α＝0.8，β＝0.2，则根据公式3计算出剩余节点通过对关联多样性与文本相似性进行削弱后的分数，如图表3所示：

表3选取序号为1的文献节点后，根据算法计算剩余节点的评价分数结果

选择分数最高的节点，即序列为2的文献将入队列H中，循环上述的操作，直至队列H中有10个节点，循环结束。

当关键词为“Data Mining”，自然数k＝10，关联多样性与文本相似性的权重比例α＝0.8，β＝0.2时的输出结果如表4所示：

表4当α＝0.8，β＝0.2时输出结果

当关键词为“Data Mining”，自然数k＝10，关联多样性与文本相似性的权重比例α＝0.2，β＝0.8时的输出结果如表5所示：

表5当α＝0.2，β＝0.8时输出结果

Claims

1.一种狭隘范围内文献的多样性查询方法，其特征在于：该方法的步骤为：

步骤1：构建数据关系，设计静态离线排序评价分数；

步骤1.1：收集并整理数据集，构建数据关系；由于只有摘要，作者和题目，没有引用关系，只利用文献的作者和文献ID；

r = d A r + (1 - d) \frac{s}{| S |} - - - (1)

综上，迭代计算出数据集中各个节点的评价分数；

步骤2：输入关键词生成备选的元组；

步骤3：根据得到的元组用算法(详见步骤3.4)生成最终含有k个节点的队列H_k；

步骤3.2：关系多样性Div；

d v (v_{i}) = 1 - \frac{z (g (v_{i}))}{k} - - - (2)

其中，g(v_i)是指与v_i相似的元组节点；z(g(v_i))是指在备选元组内与v_i节点相同的元组节点的总和；dv(v_i)的值域是(0,1]；定义dv[z]为节点在备选元组中出现z次的关系多样性削弱量值，k为输出总的信息条数；令k＝10，“Bob”出现2次，即z＝2，则

步骤3.3：文本相似性Sim；

S i m (v_{j}) = 1 - \frac{| v_{i} \cap v_{j} |}{| v_{i} \cup v_{j} |} - - - (3)

其中v_j是待选元组中的一个元组节点，而v_i是已经选择输出的元组节点，i的值是从1到已输出的元组节点个数，最大为k；

在日常工作中经常要对两个文本是否相似进行判定,如判定文字录入稿与标准稿的相似性以评判录入的正确性；判定两份文稿是否雷同；在信息检索中,给定一组关键字,检索含有这组关键字或含有部分关键字的信息；判定文本的相似性有很多方法,如判定文字录入的正确性可采用“字符频度统计”方法，信息检索中可采用“关键字匹配”方法,但这些方法往往不考虑所比较的元素的顺序,如“abc”和“cba”可能被认为是完全相似的,这显然是不合理的；本方法利用Jaccard公式进行相似度计算，取两个元组中词组的交集与并集；

步骤3.4：关联多样性与文本相似性的权重比例；

DF(v_i)＝r×(dv(vi)×α+Sim(v_j)×β) (4)

综上，计算出剩余节点通过对关联多样性与文本相似性进行削弱后的分数，再从中选出分数最高的节点。

2.根据权利要求1所述的一种狭隘范围内文献的多样性查询方法，其特征在于：选出结果的过程为：

1.)初始化队列H_k为空，构建数据关系；

2.)计算每一个节点的分数；

4.)当l<k时转5.)，否则转9.)；

5.)计算关联(作者)多样性的削弱dv(v_i)的值；

6.)用已选的节点的文本对待选节点的文本相似性进行计算；

7.)根据关联多样性与文本相似性所占权重，计算新的分数；

8.)得到分数最高的节点加入H_k中，l++，转5.)；

9.)返回队列H_k；

此时返回的H_k即所需的将要检索到的k条信息；

经实验结果证明，本方法得到的实验效果显著。