CN105005620B - 基于查询扩展的有限数据源数据获取方法 - Google Patents

基于查询扩展的有限数据源数据获取方法 Download PDF

Info

Publication number
CN105005620B
CN105005620B CN201510437403.7A CN201510437403A CN105005620B CN 105005620 B CN105005620 B CN 105005620B CN 201510437403 A CN201510437403 A CN 201510437403A CN 105005620 B CN105005620 B CN 105005620B
Authority
CN
China
Prior art keywords
query
word
expansion
data source
total number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510437403.7A
Other languages
English (en)
Other versions
CN105005620A (zh
Inventor
陆伟
乐兴虎
程齐凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201510437403.7A priority Critical patent/CN105005620B/zh
Publication of CN105005620A publication Critical patent/CN105005620A/zh
Application granted granted Critical
Publication of CN105005620B publication Critical patent/CN105005620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于查询扩展的有限数据源数据获取方法,本发明通过查询扩展技术执行多次查询以获取尽可能多的记录,可以有效地避开返回记录数的限制;以最少的查询次数穷尽此类数据源中的相关文档,本发明通过多次查询直至穷尽有限数据源中所有相关文档;本发明将该方法应用与实际的信息检索中,能以较少的查询扩展次数从有限数据源中获取所有相关的数据。

Description

基于查询扩展的有限数据源数据获取方法
技术领域
本发明属于信息处理技术领域,尤其涉及信息检索领域中的查询扩展以及局部上下文分析方法。
背景技术
互联网可以视为一个不断增长的文本语料库,不同领域的专家学者建议将互联网上的资源作为语料的获取来源。对语言学家而言,Web是重要的语言数据来源;自然语言处理领域 (NLP),很多研究使用互联网上的文本数据并获得成功,研究包括机器翻译﹑术语抽取﹑拼音检查和语法检查等。可以说,Web相当于一个巨型的免费语料库,收录不同类型资源的搜索引擎、在线数据库便是开启这个语料库的“钥匙”,可以视作存储特定类型资源的数据源。许多研究通过搜索引擎这类数据源获取语料数据建设新的语料库或优化现有语料库,通过获取新闻文本数据用于舆情***建设和新闻热点发现。然而这类数据源具有许多限制,首先他们只存储采集自因特网的有限信息,其次这些数据源只向用户提供查询的接口,用户只能通过查询从中获取与查询相关的数据,最后数据源对返回数据的数目也有较大限制。在本文中,定义具有上述三点性质的互联网数据源为有限数据源。常见的有限数据源包括搜索引擎、数字图书馆、视频网站等包含大量数据资源的信息服务***。
虽然有限数据源可以为研究者提供大量语料数据,但是其有限的检索结果数限制了研究者对数据的获取,根据2014年对通用搜索引擎的统计数据,谷歌网页搜索一次检索最多返回 400条记录,百度网页搜索一次检索最多返回760条记录,雅虎网页搜索一次检索最多返回 1000条记录。
针对上述问题,一种可行的方法就是通过多次拓展查询来穷尽相关数据,但是每次拓展查询可能会有大量重复的检索结果,导致查询次数过多,数据获取效率低,无法获取所有相关的数据。
发明内容
本发明针对上述现有技术所存在的问题,提供一种基于查询扩展的有限数据源数据获取方法。
本发明的技术方案为一种基于查询扩展的有限数据源数据获取方法,包含以下步骤:
步骤1,用初始查询表达式Q在总文档数为N的有限数据源中检索,获取前n篇文档S,构成初始查询的结果集R,对前n篇文档S进行正文提取、分词和词性标注,对所有词进行词性过滤,从所有词中选取概念词集C,按公式(1)计算概念词集C中每个概念词ci与查询词wi之间的共现度,根据概念词ci与查询词wi之间的共现度f(c,Q),对所有概念词进行逆向排序,选取前k个概念词作为扩展词集;
其中,共现度计算公式中idf(wi)为查询词wi的逆文档频率,λ为常量;默认值为1;co_degree(c,wi)为每个查询词wi与概念C之间的共现数,概念C与初始查询表达式Q之间的共现度为概念C与初始查询表达式Q所有的查询词wi的共现数的成积和;
Sum(d)为有限数据源中的文档总数,dwi为有限数据源中包含词wi的文档总数,idf(wi)词语普遍重要性的度量;
步骤2,根据扩展词集构造查询表达式,查询表达式为S+ti,然后进行k次查询得到k 个查询结果集;ti(i=1,2,…,n)为第一层查询扩展时,第i次查询的查询扩展词。
步骤3,判断k次查询累积返回的不重复文档总数是否超过总文档数N,如果未达到,则按照步骤1从每个初始查询的结果集R中选取m个扩展词,进行第二层查询扩展,此时总共查询k×m次,此时的查询表达式为S+tii;其间,如果累积返回的文档总数超过总数N,则停止;tii(i=1,2,…,k;i=1,2,…,m)为第二层查询扩展时,第ii次查询的查询扩展词。
步骤4,按照步骤2和步骤3迭代进行查询扩展,直到累计返回的文档总数等于总数N;此累计返回的文档总数N指不重复的文档数;
本发明的有益效果是:一种基于查询扩展的有限数据源数据获取方法,本发明通过查询扩展技术执行多次查询以获取尽可能多的记录,可以有效地避开返回记录数的限制;以最少的查询次数穷尽此类数据源中的相关文档,本发明能以较少的查询扩展次数从有限数据源中获取所有相关的数据。
附图说明
图1是本发明的方法流程图。
具体实施方式
如图1,本发明提供一种基于查询扩展的有限数据源数据获取方法,包含以下步骤:
步骤1,用初始查询表达式Q在总文档数为N的有限数据源中检索,获取前n篇文档S,构成初始查询的结果集R,对前n篇文档S进行正文提取、分词和词性标注,对所有词进行词性过滤,从所有词中选取概念词集C,按公式(1)计算概念词集C中每个概念词ci与查询词wi之间的共现度,根据概念词ci与查询词wi之间的共现度f(c,Q),对所有概念词进行逆向排序,选取前k个概念词作为扩展词集;
其中,共现度计算公式中idf(wi)为查询词wi的逆文档频率,λ为常量;默认值为1;co_degree(c,wi)为每个查询词wi与概念C之间的共现数,概念C与初始查询表达式Q之间的共现度为概念C与初始查询表达式Q所有的查询词wi的共现数的成积和;
Sum(d)为有限数据源中的文档总数,dwi为有限数据源中包含词wi的文档总数,idf(wi)词语普遍重要性的度量;
步骤2,根据扩展词集构造查询表达式,查询表达式为S+ti,然后进行k次查询得到k 个查询结果集;ti(i=1,2,…,n)为第一层查询扩展时,第i次查询的查询扩展词。
步骤3,判断k次查询累积返回的不重复文档总数是否超过总文档数N,如果未达到,则按照步骤1从每个初始查询的结果集R中选取m个扩展词,进行第二层查询扩展,此时总共查询k×m次,此时的查询表达式为S+tii;其间,如果累积返回的文档总数超过总数N,则停止;tii(i=1,2,…,k;i=1,2,…,m)为第二层查询扩展时,第ii次查询的查询扩展词。
步骤4,按照步骤2和步骤3迭代进行查询扩展,直到累计返回的文档总数等于总数N;此累计返回的文档总数N指不重复的文档数。

Claims (1)

1.一种基于查询扩展的有限数据源数据获取方法,其特征在于,包含以下步骤:
步骤1,用初始查询表达式Q在总文档数为N的有限数据源中检索,获取前n篇文档S,构成初始查询的结果集R,对前n篇文档S进行正文提取、分词和词性标注,对所有词进行词性过滤,从所有词中选取概念词集C,按公式(1)计算概念词集C中每个概念词ci与查询词wi之间的共现度,根据概念词ci与查询词wi之间的共现度f(c,Q),对所有概念词进行逆向排序,选取前k个概念词作为扩展词集;
其中,共现度计算公式中idf(wi)为查询词wi的逆文档频率,λ为常量,默认值为1;
co_degree(c,wi)为每个查询词wi与概念C之间的共现数,概念C与初始查询表达式Q之间的共现度为概念C与初始查询表达式Q所有的查询词wi的共现数的乘积和;
Sum(d)为有限数据源中的文档总数,dwi为有限数据源中包含词wi的文档总数,idf(wi)为词语普遍重要性的度量;
步骤2,根据扩展词集构造查询表达式,查询表达式为S+ti,然后进行k次查询得到k个查询结果集;ti(i=1,2,…,n)为第一层查询扩展时,第i次查询的查询扩展词;
步骤3,判断k次查询累积返回的不重复文档总数是否超过总文档数N,如果未达到,则按照步骤1从每个初始查询的结果集R中选取m个扩展词,进行第二层查询扩展,此时总共查询k×m次,此时的查询表达式为S+tii;其间,如果累积返回的文档总数超过总数N,则停止;tii(i=1,2,…,k;i=1,2,…,m)为第二层查询扩展时,第ii次查询的查询扩展词;
步骤4,按照步骤2和步骤3迭代进行查询扩展,直到累计返回的文档总数等于总数N;此累计返回的文档总数N指不重复的文档数。
CN201510437403.7A 2015-07-23 2015-07-23 基于查询扩展的有限数据源数据获取方法 Active CN105005620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510437403.7A CN105005620B (zh) 2015-07-23 2015-07-23 基于查询扩展的有限数据源数据获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510437403.7A CN105005620B (zh) 2015-07-23 2015-07-23 基于查询扩展的有限数据源数据获取方法

Publications (2)

Publication Number Publication Date
CN105005620A CN105005620A (zh) 2015-10-28
CN105005620B true CN105005620B (zh) 2018-04-20

Family

ID=54378296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510437403.7A Active CN105005620B (zh) 2015-07-23 2015-07-23 基于查询扩展的有限数据源数据获取方法

Country Status (1)

Country Link
CN (1) CN105005620B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927770B (zh) * 2021-04-12 2023-09-08 徐州市通用科技有限公司 医疗数据共享方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902806A (zh) * 2012-10-17 2013-01-30 深圳市宜搜科技发展有限公司 一种利用搜索引擎进行查询扩展的方法及***
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索***
CN103886099A (zh) * 2014-04-09 2014-06-25 中国人民大学 一种模糊概念的语义检索***及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902806A (zh) * 2012-10-17 2013-01-30 深圳市宜搜科技发展有限公司 一种利用搜索引擎进行查询扩展的方法及***
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索***
CN103886099A (zh) * 2014-04-09 2014-06-25 中国人民大学 一种模糊概念的语义检索***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
对象检索中的实体信息查询扩展算法研究;尹杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415;第2015年卷(第04期);第I139-374页 *

Also Published As

Publication number Publication date
CN105005620A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
KR102196583B1 (ko) 키워드 자동 추출 방법 및 장치
US20150269163A1 (en) Providing search recommendation
Manjari et al. Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm
US10528662B2 (en) Automated discovery using textual analysis
CN107844493B (zh) 一种文件关联方法及***
US10810245B2 (en) Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations
US11874882B2 (en) Extracting key phrase candidates from documents and producing topical authority ranking
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和***
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
KR20220119745A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체
CN102650986A (zh) 一种用于文本复制检测的同义词扩展方法及装置
CN105224624A (zh) 一种实现倒排链快速归并的方法和装置
Cao et al. Searching for truth in a database of statistics
CN111651675A (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
KR101753768B1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN105005620B (zh) 基于查询扩展的有限数据源数据获取方法
Kučić Creating a Web Corpus Using GO
Bama et al. A mathematical approach for mining web content outliers using term frequency ranking
Zemnickis Data Warehouse Data Model Improvements from Customer Feedback.
CN105653660A (zh) 一种检索关键字的联想方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant