CN106951517A - 狭隘范围内文献的多样性查询方法 - Google Patents

狭隘范围内文献的多样性查询方法 Download PDF

Info

Publication number
CN106951517A
CN106951517A CN201710163193.6A CN201710163193A CN106951517A CN 106951517 A CN106951517 A CN 106951517A CN 201710163193 A CN201710163193 A CN 201710163193A CN 106951517 A CN106951517 A CN 106951517A
Authority
CN
China
Prior art keywords
node
diversity
document
tuple
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710163193.6A
Other languages
English (en)
Other versions
CN106951517B (zh
Inventor
才智
李彤
兰许
丁治明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710163193.6A priority Critical patent/CN106951517B/zh
Publication of CN106951517A publication Critical patent/CN106951517A/zh
Application granted granted Critical
Publication of CN106951517B publication Critical patent/CN106951517B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了狭隘范围内文献的多样性查询方法,以期要得到k条基于关键词的多样性文献,方法的实现步骤如下:步骤一:构建数据关系,设计静态离线排序评价分数;步骤二:输入关键词生成备选的OS;步骤三:根据得到的OS,选取评价分数最高的元组,根据已选择的分数最高节点对其他剩余节点进行文本相似性和关联多样性削弱,再根据文本相似性和关联多样所占的权重返回给用户k条全面的信息。

Description

狭隘范围内文献的多样性查询方法
技术领域
本发明属于数据挖掘领域,涉及狭隘范围内文献的多样性查询方法。
背景技术
众所周知,科学技术的发展依赖于继承性和创造性。任何科技成果都是在已有知识的基础上发展起来的,学***,也预示着未来发展的趋势和方向。文献信息检索是科学研究的向导。要进行有价值的科学研究,研究人员必须依赖文献检索,全面获取相关文献信息,及时了解各学科领域出现的新问题、新观点,掌握已有文献成果,以确定自己的研究起点和研究目标。通过文献信息检索,可以培养信息意识和获取新知识的能力,提高自学能力,掌握了文献信息检索的方法和技能,将大大地缩短收集资料的时间,提高利用文献的准确率,可以不断更新知识,提高自身综合素质。
随着信息技术和互联网的发展,在文献领域里逐渐采用了最新的科技成果。文字印刷型的文献,陆续采用了电子计算机编辑、激光照相排版等先进技术,但在查询文献时会看到一些影印版的文献,这些只有摘要,作者和题目,没有引用关系、甚至有错误的文献,以万方数据库和中国知网为例,只能考虑文献的主题词、标引词或者文章本身进行查询,缺失文献与其他文献之间的引用关系,大大丢失了重要相关性信息。没有引用关系用于文献检索,会降低检索精度和质量。
文本通常根据其固有的特征来度量其相似性。文本的特征包括文本的内容特征和非内容特征两种。非内容特征包括文档的大小、类型、位置、拥有者等特征,通常比较具体。文本的内容特征包括文本的结构特征、关键词词频统计特征和关键词的语义特征等。文本的相似性度量在信息检索、文本分类、文本查重等领域得到了广泛应用。关联关系是一种结构化的关系,指一种对象和另一种对象有联系。关联关系是数据挖掘、知识发现和许多应用的前提条件,能够为数据挖掘和应用提供额外的聚类依据、语义信息等。例如在检索一篇文献时,根据这篇文献的合作作者检索到另一篇文献。本专利中这讨论的关系就是指文献作者的关系。对输入的关键词,我们将在整个的元组中运用算法(详见步骤3.4)得到重要信息,若仅运用PageRank或是ObjectRank计算的静态值来返回信息,则可能会使多条相似的信息重复出现且排名分数可能会很高,所以为了使信息能够在最大限度上呈现给用户更多样化的信息,优化排名,引入文本相似性(Sim)和关系多样性(Div)两种权衡信息重要性的方法。这种方法不仅能够大大减少时间的消耗,提高返回信息的效率,而且能够满足用户对搜索信息的多样化需求,在一定程度上优化了基于多样性的关键词查询。
发明内容
本发明提供一种狭隘范围内文献的多样性查询方法,对用户所输入的关键词,然后根据关键词与各元组信息之间的文本相似性和关系多样性进行削弱,运用算法返回给全面的基于多样性的关键词。
一种狭隘范围内文献的多样性查询方法,其步骤为:
步骤1:构建数据关系,设计静态离线排序评价分数;
步骤1.1:收集并整理数据集,构建数据关系。由于只有摘要,作者和题目,没有引用关系,只利用文献的作者和文献ID;
步骤1.2:根据链接分析算法PageRank计算每一个节点的评价分数,每个节点vi都存在相应的矢量ri,则通过以下公式来计算矢量r的评价分数:
其中d是一个阻尼系数;A是一个n*n矩阵,其中Aij=α(e), G(VG,EG)为模式图,eG就是在模式图中从vi到vj的边,α(e)为权转移率,OutDeg(u,eG)表示u的出度,S是节点的任意子集,s=[s1,...,sn]T,如果vi在S中,则si=0;
综上,迭代计算出数据集中各个节点的评价分数。
步骤2:输入关键词生成备选的元组;
输入关键词,在步骤一中过滤掉与关键词不符的信息,生成备选的元组;
步骤3:根据得到的元组用算法(详见步骤3.4)生成最终含有k个节点的队列Hk
步骤3.1:在得到的元组中选择静态离线排序评价分数最高的节点;
步骤3.2:关系多样性Div;
为避免过高同一作者的信息的重复出现,应选择输出多样化的信息,所以给出一个如下关系多样性削弱量的计算方法:
其中,g(vi)是指与vi相似的元组节点;z(g(vi))是指在备选元组内与vi节点相同的元组节点的总和。dv(vi)的值域是(0,1]。定义dv[z]为节点在备选元组中出现z次的关系多样性削弱量值,k为输出总的信息条数;令k=10,“Bob”出现2次,即z=2,则
公式(2)的主要思想是:在查询文献时不太希望检索到的文献都是同一作者所写的,为解决这一问题会将已选择的文献的作者进行削弱,即计算在整个元组集合中一共出现的次数,则该作者出现的频率为出现的次数/k,那么在待选元组中是该作者所写的文献就会被削弱为1-作者出现的频率;
步骤3.3:文本相似性Sim;
鉴于在一个元组中一个元组节点与其他元组节点在文本内容上的相似性很高,但是这些节点可能拥有较高的静态值,若将全部都输出出来,就会得到不是很全面的信息,由此,通过以下公式来计算文本相似性:
其中vj是待选元组中的一个元组节点,而vi是已经选择输出的元组节点,i的值是从1到已输出的元组节点个数,最大为k。
在日常工作中经常要对两个文本是否相似进行判定,如判定文字录入稿与标准稿的相似性以评判录入的正确性;判定两份文稿是否雷同;在信息检索中,给定一组关键字,检索含有这组关键字或含有部分关键字的信息。判定文本的相似性有很多方法,如判定文字录入的正确性可采用“字符频度统计”方法,信息检索中可采用“关键字匹配”方法,但这些方法往往不考虑所比较的元素的顺序,如“abc”和“cba”可能被认为是完全相似的,这显然是不合理的。本方法利用Jaccard公式进行相似度计算,取两个元组中词组的交集与并集。
步骤3.4:关联多样性与文本相似性的权重比例;
假设关系多样性削弱量值所占权重为α,则剩余节点削弱后的关系多样性削弱量值为dv(vi)×α;假设文本相似性所占权重为β,其中α+β=1,则剩余节点削弱后的文本值为Sim(vj)×β;通过以下公式来计算剩余节点对关联多样性与文本相似性进行削弱后的分数:
DF(vi)=r×(dv(vi)×α+Sim(vj)×β) (4)
综上,计算出剩余节点通过对关联多样性与文本相似性进行削弱后的分数,再从中选出分数最高的节点。所以选出结果的过程为:
1.)初始化队列Hk为空,构建数据关系;
2.)计算每一个节点的分数;
3.)输入关键词,生成备选元组,得到分数最高的节点加入Hk中,l=1
4.)当l<k时转5.),否则转9.);
5.)计算关联(作者)多样性的削弱dv(vi)的值;
6.)用已选的节点的文本对待选节点的文本相似性进行计算;
7.)根据关联多样性与文本相似性所占权重,计算新的分数;
8.)得到分数最高的节点加入Hk中,l++,转5.);
9.)返回队列Hk;
此时返回的Hk即所需的将要检索到的k条信息。
经实验结果证明,本方法得到的实验效果显著。
附图说明
图1为本发明的实施流程图。
具体实施方式
下面结合相关附图对本发明进行解释和阐述:
输入关键词“Data Mining”,生成备选元组,自然数k为检索到的信息总条数,假设k=10,如果只依据公式1计算的评价分数输出结果,前10条结果如表1,2所示。
表1 10条文献所对应的序号,题目与评价分数
表2 10条文献所对应的作者
步骤3.1:选择分数最高的节点,即序号为1的文献将入队列H中,根据公式2和公式3对其他9个节点进行关联多样性和文本相似性削弱。
步骤3.2:关联多样性;
Jiawei Han在这10条元组中共出现3次,Raymond T.Ng仅出现一次,即则对作者中包含Jiawei Han的元组进行关联的削弱,即对序号为4和序号为10的文献进行削弱。
步骤3.3:文本相似性;
根据在队列H中的节点的题目的关键词,计算其余9个节点的与其的相似性。将那些虚词去掉后计算vi∩vj与vi∪vj的值,即序号为2的文献与其相似性序号为3的文献与其相似性序号为4的文献与其相似性序号为5的文献与其相似性序号为6的文献与其相似性序号为7的文献与其相似性序号为8的文献与其相似性序号为9的文献与其相似性序号为10的文献与其相似性
步骤3.4:关联多样性与文本相似性的权重比例;
首先假设α=0.8,β=0.2,则根据公式3计算出剩余节点通过对关联多样性与文本相似性进行削弱后的分数,如图表3所示:
表3选取序号为1的文献节点后,根据算法计算剩余节点的评价分数结果
选择分数最高的节点,即序列为2的文献将入队列H中,循环上述的操作,直至队列H中有10个节点,循环结束。
当关键词为“Data Mining”,自然数k=10,关联多样性与文本相似性的权重比例α=0.8,β=0.2时的输出结果如表4所示:
表4当α=0.8,β=0.2时输出结果
当关键词为“Data Mining”,自然数k=10,关联多样性与文本相似性的权重比例α=0.2,β=0.8时的输出结果如表5所示:
表5当α=0.2,β=0.8时输出结果

Claims (2)

1.一种狭隘范围内文献的多样性查询方法,其特征在于:该方法的步骤为:
步骤1:构建数据关系,设计静态离线排序评价分数;
步骤1.1:收集并整理数据集,构建数据关系;由于只有摘要,作者和题目,没有引用关系,只利用文献的作者和文献ID;
步骤1.2:根据链接分析算法PageRank计算每一个节点的评价分数,每个节点vi都存在相应的矢量ri,则通过以下公式来计算矢量r的评价分数:
r = d A r + ( 1 - d ) s | S | - - - ( 1 )
其中d是一个阻尼系数;A是一个n*n矩阵,其中Aij=α(e), G(VG,EG)为模式图,eG就是在模式图中从vi到vj的边,α(e)为权转移率,OutDeg(u,eG)表示u的出度,S是节点的任意子集,s=[s1,...,sn]T,如果vi在S中,则si=0;
综上,迭代计算出数据集中各个节点的评价分数;
步骤2:输入关键词生成备选的元组;
输入关键词,在步骤一中过滤掉与关键词不符的信息,生成备选的元组;
步骤3:根据得到的元组用算法(详见步骤3.4)生成最终含有k个节点的队列Hk
步骤3.1:在得到的元组中选择静态离线排序评价分数最高的节点;
步骤3.2:关系多样性Div;
为避免过高同一作者的信息的重复出现,应选择输出多样化的信息,所以给出一个如下关系多样性削弱量的计算方法:
d v ( v i ) = 1 - z ( g ( v i ) ) k - - - ( 2 )
其中,g(vi)是指与vi相似的元组节点;z(g(vi))是指在备选元组内与vi节点相同的元组节点的总和;dv(vi)的值域是(0,1];定义dv[z]为节点在备选元组中出现z次的关系多样性削弱量值,k为输出总的信息条数;令k=10,“Bob”出现2次,即z=2,则
公式(2)的主要思想是:在查询文献时不太希望检索到的文献都是同一作者所写的,为解决这一问题会将已选择的文献的作者进行削弱,即计算在整个元组集合中一共出现的次数,则该作者出现的频率为出现的次数/k,那么在待选元组中是该作者所写的文献就会被削弱为1-作者出现的频率;
步骤3.3:文本相似性Sim;
鉴于在一个元组中一个元组节点与其他元组节点在文本内容上的相似性很高,但是这些节点可能拥有较高的静态值,若将全部都输出出来,就会得到不是很全面的信息,由此,通过以下公式来计算文本相似性:
S i m ( v j ) = 1 - | v i &cap; v j | | v i &cup; v j | - - - ( 3 )
其中vj是待选元组中的一个元组节点,而vi是已经选择输出的元组节点,i的值是从1到已输出的元组节点个数,最大为k;
在日常工作中经常要对两个文本是否相似进行判定,如判定文字录入稿与标准稿的相似性以评判录入的正确性;判定两份文稿是否雷同;在信息检索中,给定一组关键字,检索含有这组关键字或含有部分关键字的信息;判定文本的相似性有很多方法,如判定文字录入的正确性可采用“字符频度统计”方法,信息检索中可采用“关键字匹配”方法,但这些方法往往不考虑所比较的元素的顺序,如“abc”和“cba”可能被认为是完全相似的,这显然是不合理的;本方法利用Jaccard公式进行相似度计算,取两个元组中词组的交集与并集;
步骤3.4:关联多样性与文本相似性的权重比例;
假设关系多样性削弱量值所占权重为α,则剩余节点削弱后的关系多样性削弱量值为dv(vi)×α;假设文本相似性所占权重为β,其中α+β=1,则剩余节点削弱后的文本值为Sim(vj)×β;通过以下公式来计算剩余节点对关联多样性与文本相似性进行削弱后的分数:
DF(vi)=r×(dv(vi)×α+Sim(vj)×β) (4)
综上,计算出剩余节点通过对关联多样性与文本相似性进行削弱后的分数,再从中选出分数最高的节点。
2.根据权利要求1所述的一种狭隘范围内文献的多样性查询方法,其特征在于:选出结果的过程为:
1.)初始化队列Hk为空,构建数据关系;
2.)计算每一个节点的分数;
3.)输入关键词,生成备选元组,得到分数最高的节点加入Hk中,l=1
4.)当l<k时转5.),否则转9.);
5.)计算关联(作者)多样性的削弱dv(vi)的值;
6.)用已选的节点的文本对待选节点的文本相似性进行计算;
7.)根据关联多样性与文本相似性所占权重,计算新的分数;
8.)得到分数最高的节点加入Hk中,l++,转5.);
9.)返回队列Hk
此时返回的Hk即所需的将要检索到的k条信息;
经实验结果证明,本方法得到的实验效果显著。
CN201710163193.6A 2017-03-19 2017-03-19 狭隘范围内文献的多样性查询方法 Expired - Fee Related CN106951517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710163193.6A CN106951517B (zh) 2017-03-19 2017-03-19 狭隘范围内文献的多样性查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710163193.6A CN106951517B (zh) 2017-03-19 2017-03-19 狭隘范围内文献的多样性查询方法

Publications (2)

Publication Number Publication Date
CN106951517A true CN106951517A (zh) 2017-07-14
CN106951517B CN106951517B (zh) 2020-06-19

Family

ID=59472491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710163193.6A Expired - Fee Related CN106951517B (zh) 2017-03-19 2017-03-19 狭隘范围内文献的多样性查询方法

Country Status (1)

Country Link
CN (1) CN106951517B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304531A (zh) * 2018-01-26 2018-07-20 北京泰尔英福网络科技有限责任公司 一种数字对象标识符引用关系的可视化方法及装置
CN113609264A (zh) * 2021-06-28 2021-11-05 国网北京市电力公司 电力***节点的数据查询方法、装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280104A (zh) * 2010-06-11 2011-12-14 北大方正集团有限公司 一种基于智能标引的文件语音化处理方法和***
US20140337271A1 (en) * 2012-09-21 2014-11-13 Sas Institute Inc. System for efficiently generating k-maximally predictive association rules with a given consequent
CN105760502A (zh) * 2016-02-23 2016-07-13 常州普适信息科技有限公司 一种基于大数据文本挖掘的商品质量情感词典构建***
CN105912646A (zh) * 2016-04-09 2016-08-31 北京工业大学 一种基于多样性和比例特性的关键词检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280104A (zh) * 2010-06-11 2011-12-14 北大方正集团有限公司 一种基于智能标引的文件语音化处理方法和***
US20140337271A1 (en) * 2012-09-21 2014-11-13 Sas Institute Inc. System for efficiently generating k-maximally predictive association rules with a given consequent
CN105760502A (zh) * 2016-02-23 2016-07-13 常州普适信息科技有限公司 一种基于大数据文本挖掘的商品质量情感词典构建***
CN105912646A (zh) * 2016-04-09 2016-08-31 北京工业大学 一种基于多样性和比例特性的关键词检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI G ET AL.: "Direction-Aware Spatial Keyword Search", 《INTERNATIONAL CONFERENCE ON DATA ENGINEERING》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304531A (zh) * 2018-01-26 2018-07-20 北京泰尔英福网络科技有限责任公司 一种数字对象标识符引用关系的可视化方法及装置
CN113609264A (zh) * 2021-06-28 2021-11-05 国网北京市电力公司 电力***节点的数据查询方法、装置
CN113609264B (zh) * 2021-06-28 2022-09-02 国网北京市电力公司 电力***节点的数据查询方法、装置

Also Published As

Publication number Publication date
CN106951517B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
Jomsri et al. A framework for tag-based research paper recommender system: an IR approach
US9070087B2 (en) Methods and systems for investigation of compositions of ontological subjects
Al-Tamimi et al. Active learning for Arabic text classification
Ahmed et al. Analysis of K-means, DBSCAN and OPTICS Cluster algorithms on Al-Quran verses
Paul et al. Detecting hate speech using deep learning techniques
Kalampokis et al. On predicting election results using twitter and linked open data: the case of the UK 2010 election
CN106951517A (zh) 狭隘范围内文献的多样性查询方法
Ma et al. Tag-latent dirichlet allocation: Understanding hashtags and their relationships
Yeasmin et al. Multi-category bangla news classification using machine learning classifiers and multi-layer dense neural network
Youssif et al. Hsws: Enhancing efficiency of web search engine via semantic web
Wang et al. SOTagRec: A combined tag recommendation approach for stack overflow
Desai et al. A comparative study of information retrieval models for short document summaries
Oghli et al. Comparison of basic information retrieval models
CN112528196B (zh) 一种互联网舆情热度指数实时生成自动监测***及方法
Phu et al. English sentiment classification using a Fager & MacGowan coefficient and a genetic algorithm with a rank selection in a parallel network environment
Khabia et al. A cluster based approach with n-grams at word level for document classification
JP2020113267A (ja) リーディングリストを生成するシステム及び方法
Adib et al. Enhancing trust accuracy among online social network users utilizing data text mining techniques in apache spark
CN117522463B (zh) 基于bert的中空遮阳***需求预测方法
Gondaliya et al. Journey of Information Retrieval to Information Retrieval Tools-IR&IRT A Review
us Sahar et al. Bayesian sentiment analytics for emerging trends in unstructured data streams
CN107093021A (zh) 电网工程物资合同履约诚信舆情监控***
Chelcioiu et al. Semantic Meta-search Using Cohesion Network Analysis
Hou et al. A Framework for Distributed Representations of Domain Embedding
Zhao et al. Orientation Mining-Driven Approach to Analyze Web Public Sentiment.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200619

CF01 Termination of patent right due to non-payment of annual fee