CN105005620B - 基于查询扩展的有限数据源数据获取方法 - Google Patents
基于查询扩展的有限数据源数据获取方法 Download PDFInfo
- Publication number
- CN105005620B CN105005620B CN201510437403.7A CN201510437403A CN105005620B CN 105005620 B CN105005620 B CN 105005620B CN 201510437403 A CN201510437403 A CN 201510437403A CN 105005620 B CN105005620 B CN 105005620B
- Authority
- CN
- China
- Prior art keywords
- query
- word
- expansion
- data source
- total number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于查询扩展的有限数据源数据获取方法,本发明通过查询扩展技术执行多次查询以获取尽可能多的记录,可以有效地避开返回记录数的限制;以最少的查询次数穷尽此类数据源中的相关文档,本发明通过多次查询直至穷尽有限数据源中所有相关文档;本发明将该方法应用与实际的信息检索中,能以较少的查询扩展次数从有限数据源中获取所有相关的数据。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及信息检索领域中的查询扩展以及局部上下文分析方法。
背景技术
互联网可以视为一个不断增长的文本语料库,不同领域的专家学者建议将互联网上的资源作为语料的获取来源。对语言学家而言,Web是重要的语言数据来源;自然语言处理领域 (NLP),很多研究使用互联网上的文本数据并获得成功,研究包括机器翻译﹑术语抽取﹑拼音检查和语法检查等。可以说,Web相当于一个巨型的免费语料库,收录不同类型资源的搜索引擎、在线数据库便是开启这个语料库的“钥匙”,可以视作存储特定类型资源的数据源。许多研究通过搜索引擎这类数据源获取语料数据建设新的语料库或优化现有语料库,通过获取新闻文本数据用于舆情***建设和新闻热点发现。然而这类数据源具有许多限制,首先他们只存储采集自因特网的有限信息,其次这些数据源只向用户提供查询的接口,用户只能通过查询从中获取与查询相关的数据,最后数据源对返回数据的数目也有较大限制。在本文中,定义具有上述三点性质的互联网数据源为有限数据源。常见的有限数据源包括搜索引擎、数字图书馆、视频网站等包含大量数据资源的信息服务***。
虽然有限数据源可以为研究者提供大量语料数据,但是其有限的检索结果数限制了研究者对数据的获取,根据2014年对通用搜索引擎的统计数据,谷歌网页搜索一次检索最多返回 400条记录,百度网页搜索一次检索最多返回760条记录,雅虎网页搜索一次检索最多返回 1000条记录。
针对上述问题,一种可行的方法就是通过多次拓展查询来穷尽相关数据,但是每次拓展查询可能会有大量重复的检索结果,导致查询次数过多,数据获取效率低,无法获取所有相关的数据。
发明内容
本发明针对上述现有技术所存在的问题,提供一种基于查询扩展的有限数据源数据获取方法。
本发明的技术方案为一种基于查询扩展的有限数据源数据获取方法,包含以下步骤:
步骤1,用初始查询表达式Q在总文档数为N的有限数据源中检索,获取前n篇文档S,构成初始查询的结果集R,对前n篇文档S进行正文提取、分词和词性标注,对所有词进行词性过滤,从所有词中选取概念词集C,按公式(1)计算概念词集C中每个概念词ci与查询词wi之间的共现度,根据概念词ci与查询词wi之间的共现度f(c,Q),对所有概念词进行逆向排序,选取前k个概念词作为扩展词集;
其中,共现度计算公式中idf(wi)为查询词wi的逆文档频率,λ为常量;默认值为1;co_degree(c,wi)为每个查询词wi与概念C之间的共现数,概念C与初始查询表达式Q之间的共现度为概念C与初始查询表达式Q所有的查询词wi的共现数的成积和;
Sum(d)为有限数据源中的文档总数,dwi为有限数据源中包含词wi的文档总数,idf(wi)词语普遍重要性的度量;
步骤2,根据扩展词集构造查询表达式,查询表达式为S+ti,然后进行k次查询得到k 个查询结果集;ti(i=1,2,…,n)为第一层查询扩展时,第i次查询的查询扩展词。
步骤3,判断k次查询累积返回的不重复文档总数是否超过总文档数N,如果未达到,则按照步骤1从每个初始查询的结果集R中选取m个扩展词,进行第二层查询扩展,此时总共查询k×m次,此时的查询表达式为S+tii;其间,如果累积返回的文档总数超过总数N,则停止;tii(i=1,2,…,k;i=1,2,…,m)为第二层查询扩展时,第ii次查询的查询扩展词。
步骤4,按照步骤2和步骤3迭代进行查询扩展,直到累计返回的文档总数等于总数N;此累计返回的文档总数N指不重复的文档数;
本发明的有益效果是:一种基于查询扩展的有限数据源数据获取方法,本发明通过查询扩展技术执行多次查询以获取尽可能多的记录,可以有效地避开返回记录数的限制;以最少的查询次数穷尽此类数据源中的相关文档,本发明能以较少的查询扩展次数从有限数据源中获取所有相关的数据。
附图说明
图1是本发明的方法流程图。
具体实施方式
如图1,本发明提供一种基于查询扩展的有限数据源数据获取方法,包含以下步骤:
步骤1,用初始查询表达式Q在总文档数为N的有限数据源中检索,获取前n篇文档S,构成初始查询的结果集R,对前n篇文档S进行正文提取、分词和词性标注,对所有词进行词性过滤,从所有词中选取概念词集C,按公式(1)计算概念词集C中每个概念词ci与查询词wi之间的共现度,根据概念词ci与查询词wi之间的共现度f(c,Q),对所有概念词进行逆向排序,选取前k个概念词作为扩展词集;
其中,共现度计算公式中idf(wi)为查询词wi的逆文档频率,λ为常量;默认值为1;co_degree(c,wi)为每个查询词wi与概念C之间的共现数,概念C与初始查询表达式Q之间的共现度为概念C与初始查询表达式Q所有的查询词wi的共现数的成积和;
Sum(d)为有限数据源中的文档总数,dwi为有限数据源中包含词wi的文档总数,idf(wi)词语普遍重要性的度量;
步骤2,根据扩展词集构造查询表达式,查询表达式为S+ti,然后进行k次查询得到k 个查询结果集;ti(i=1,2,…,n)为第一层查询扩展时,第i次查询的查询扩展词。
步骤3,判断k次查询累积返回的不重复文档总数是否超过总文档数N,如果未达到,则按照步骤1从每个初始查询的结果集R中选取m个扩展词,进行第二层查询扩展,此时总共查询k×m次,此时的查询表达式为S+tii;其间,如果累积返回的文档总数超过总数N,则停止;tii(i=1,2,…,k;i=1,2,…,m)为第二层查询扩展时,第ii次查询的查询扩展词。
步骤4,按照步骤2和步骤3迭代进行查询扩展,直到累计返回的文档总数等于总数N;此累计返回的文档总数N指不重复的文档数。
Claims (1)
1.一种基于查询扩展的有限数据源数据获取方法,其特征在于,包含以下步骤:
步骤1,用初始查询表达式Q在总文档数为N的有限数据源中检索,获取前n篇文档S,构成初始查询的结果集R,对前n篇文档S进行正文提取、分词和词性标注,对所有词进行词性过滤,从所有词中选取概念词集C,按公式(1)计算概念词集C中每个概念词ci与查询词wi之间的共现度,根据概念词ci与查询词wi之间的共现度f(c,Q),对所有概念词进行逆向排序,选取前k个概念词作为扩展词集;
其中,共现度计算公式中idf(wi)为查询词wi的逆文档频率,λ为常量,默认值为1;
co_degree(c,wi)为每个查询词wi与概念C之间的共现数,概念C与初始查询表达式Q之间的共现度为概念C与初始查询表达式Q所有的查询词wi的共现数的乘积和;
Sum(d)为有限数据源中的文档总数,dwi为有限数据源中包含词wi的文档总数,idf(wi)为词语普遍重要性的度量;
步骤2,根据扩展词集构造查询表达式,查询表达式为S+ti,然后进行k次查询得到k个查询结果集;ti(i=1,2,…,n)为第一层查询扩展时,第i次查询的查询扩展词;
步骤3,判断k次查询累积返回的不重复文档总数是否超过总文档数N,如果未达到,则按照步骤1从每个初始查询的结果集R中选取m个扩展词,进行第二层查询扩展,此时总共查询k×m次,此时的查询表达式为S+tii;其间,如果累积返回的文档总数超过总数N,则停止;tii(i=1,2,…,k;i=1,2,…,m)为第二层查询扩展时,第ii次查询的查询扩展词;
步骤4,按照步骤2和步骤3迭代进行查询扩展,直到累计返回的文档总数等于总数N;此累计返回的文档总数N指不重复的文档数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510437403.7A CN105005620B (zh) | 2015-07-23 | 2015-07-23 | 基于查询扩展的有限数据源数据获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510437403.7A CN105005620B (zh) | 2015-07-23 | 2015-07-23 | 基于查询扩展的有限数据源数据获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105005620A CN105005620A (zh) | 2015-10-28 |
CN105005620B true CN105005620B (zh) | 2018-04-20 |
Family
ID=54378296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510437403.7A Active CN105005620B (zh) | 2015-07-23 | 2015-07-23 | 基于查询扩展的有限数据源数据获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105005620B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927770B (zh) * | 2021-04-12 | 2023-09-08 | 徐州市通用科技有限公司 | 医疗数据共享方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902806A (zh) * | 2012-10-17 | 2013-01-30 | 深圳市宜搜科技发展有限公司 | 一种利用搜索引擎进行查询扩展的方法及*** |
CN103838833A (zh) * | 2014-02-24 | 2014-06-04 | 华中师范大学 | 基于相关词语语义分析的全文检索*** |
CN103886099A (zh) * | 2014-04-09 | 2014-06-25 | 中国人民大学 | 一种模糊概念的语义检索***及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7269546B2 (en) * | 2001-05-09 | 2007-09-11 | International Business Machines Corporation | System and method of finding documents related to other documents and of finding related words in response to a query to refine a search |
-
2015
- 2015-07-23 CN CN201510437403.7A patent/CN105005620B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902806A (zh) * | 2012-10-17 | 2013-01-30 | 深圳市宜搜科技发展有限公司 | 一种利用搜索引擎进行查询扩展的方法及*** |
CN103838833A (zh) * | 2014-02-24 | 2014-06-04 | 华中师范大学 | 基于相关词语语义分析的全文检索*** |
CN103886099A (zh) * | 2014-04-09 | 2014-06-25 | 中国人民大学 | 一种模糊概念的语义检索***及方法 |
Non-Patent Citations (1)
Title |
---|
对象检索中的实体信息查询扩展算法研究;尹杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415;第2015年卷(第04期);第I139-374页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105005620A (zh) | 2015-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
KR102196583B1 (ko) | 키워드 자동 추출 방법 및 장치 | |
US20150269163A1 (en) | Providing search recommendation | |
Manjari et al. | Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm | |
US10528662B2 (en) | Automated discovery using textual analysis | |
CN107844493B (zh) | 一种文件关联方法及*** | |
US10810245B2 (en) | Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations | |
US11874882B2 (en) | Extracting key phrase candidates from documents and producing topical authority ranking | |
CN102789464A (zh) | 基于语意识别的自然语言处理方法、装置和*** | |
KR101651780B1 (ko) | 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템 | |
KR20220119745A (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체 | |
CN102650986A (zh) | 一种用于文本复制检测的同义词扩展方法及装置 | |
CN105224624A (zh) | 一种实现倒排链快速归并的方法和装置 | |
Cao et al. | Searching for truth in a database of statistics | |
CN111651675A (zh) | 一种基于ucl的用户兴趣主题挖掘方法及装置 | |
KR101753768B1 (ko) | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 | |
JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN105005620B (zh) | 基于查询扩展的有限数据源数据获取方法 | |
Kučić | Creating a Web Corpus Using GO | |
Bama et al. | A mathematical approach for mining web content outliers using term frequency ranking | |
Zemnickis | Data Warehouse Data Model Improvements from Customer Feedback. | |
CN105653660A (zh) | 一种检索关键字的联想方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |