CN1790321A - 一种用于海量文本快速相似搜索的方法 - Google Patents

一种用于海量文本快速相似搜索的方法 Download PDF

Info

Publication number
CN1790321A
CN1790321A CN 200510117001 CN200510117001A CN1790321A CN 1790321 A CN1790321 A CN 1790321A CN 200510117001 CN200510117001 CN 200510117001 CN 200510117001 A CN200510117001 A CN 200510117001A CN 1790321 A CN1790321 A CN 1790321A
Authority
CN
China
Prior art keywords
similarity
fast
magnanimity
index
magnanimity text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200510117001
Other languages
English (en)
Inventor
杨建武
吴於茜
陈晓鸥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CN 200510117001 priority Critical patent/CN1790321A/zh
Publication of CN1790321A publication Critical patent/CN1790321A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于海量文本快速相似搜索的方法,属于智能信息处理技术。当数据集的维数较高(超过20)或数据量很大(超过10万)时,现有技术方法的性能迅速降低,难以满足海量文本的相似搜索。本发明提出一种海量文本快速相似搜索方法。它提出两步搜索策略,首先通过快速预选进行文本的预搜索,从而快速排除绝大多数的不相关文档,然后在剩余的小结果集上进一步判断相似性。该方法具有很高的效率,可适用于对海量文本的搜索。本发明的方法在海量信息智能检索、文本消重、内容引用发现等应用领域中具有广泛的应用前景。

Description

一种用于海量文本快速相似搜索的方法
技术领域
本发明属于智能信息处理技术,具体涉及的是一种用于海量文本快速相似搜索的方法。
背景技术
在信息检索和数据挖掘等技术领域,经常需要在对象集合中查找与某个给定对象“相似”的对象,如,相似的文档、图片、多媒体片断,这种的查找称为“相似搜索”。相似搜索不同于通常所说的查询或检索。通常查询或检索指的是精确检索,所要求的是“精确地”匹配对象的一个或几个基本特征,而相似搜索的查找目标是多种基本特征的综合评价。随着因特网等信息技术的发展,信息量***性增长,对海量文本数据进行相似搜索在海量信息智能检索、文本消重、内容引用发现等应用领域中具有广泛的应用前景。
多年来,人们已提出了多种相似搜索的方法,这些方法采用的技术大致可分为如下4类:
(1)基于距离的变换方法。这类方法将数据对象进行映射变换,保持数据对象之间的距离不变,利用低维空间中的高效查询技术。实际应用中,往往难以找到合适的变换方法,使这类方法的通用性差。
(2)基于空间的分割方法。这类方法将整个数据空间分割为规则或不规则的子空间,如k-d-树、R-树、SS-树、SS+-树、SR-树等。但当维数增加时,这类方法将退化为线性扫描,性能显著下降,该现象被称为维数灾难。
(3)基于距离的索引方法。这类方法根据数据对象之间的距离利用树形结构进行索引,获得查询的高效性,如mvp-树和gh-树。
(4)基于单元格的填充方法。它是将高维空间分割为规则的单元格,对单元格进行编码或索引,将其映射到一维空间上,其相似搜索结果存在着遗漏问题。
目前,第(2)和(3)类方法是被广泛采用的方法,其基本思想都是通过对高维空间进行分割并用树形结构进行索引组织。研究实验表明,当数据集的维数较高(超过20)或数据量很大(超过10万)时,这些高维索引方法的性能迅速降低,不适合文本数据集等海量高维数据的相似搜索。
随着因特网的发展,网页等文本数据***性增长,而且文本向量通常是数万维的,传统的基于多维索引的相似搜索难以实现海量文本的快速相似搜索。
发明内容
针对现有技术中存在的缺陷,本发明的目的是为海量文本提供一种快速的相似搜索方法。该方法能够显著地提高海量文本相似搜索的效率。
为了实现本发明所述的目的,本发明提出基于快速预选进行相似搜索的两步搜索策略。包括以下步骤:
1)内容读取:读取查询文档的内容;
2)快速预选:利用重要特征快速排除绝大多数的不相关文档,获得小的预选结果集;
3)相似计算:逐个计算预算结果与查询文档的相似度;
4)结果输出:按相似度选择结果并输出。
在步骤2快速预选中可通过事先建立索引以便加快预选过程。其索引可以是多种类型的索引,包括:倒排索引、高维索引或多重索引。
进一步的,可通过事先建立倒排索引以便加快预选过程快速预选中。其步骤包括:
1)特征分析:对查询文档进行分析,计算获得最重要的少数几个词作为特征词以及其权重值;
2)条件生成:将特征词及其权重按逻辑运算组成检索条件;
3)内容检索:根据检索条件利用倒排索引对目标文档集进行检索。
再进一步,采用关键词提取技术进行特征分析,获取特征词及其权重。
再进一步,特征词及其权重按“与”运算组成检索条件;
进一步的,选取最后结果通过考察两方面情况:最小相似度阈值和相似度排序中的位置。
本发明的效果在于:本发明由于通过两步式搜索过程,首先通过快速预选实现无关文本的快速过滤,在几乎不降低准确度的情况下使得海量文档相似搜索的速度大为加快。实验表明,在普通PC环境下(CPU为P42.0G,内存为1.0GB),10个小时可构建100万文档的索引库,并可在1秒左右找出与任意指定的一篇文档最相似的10个文档。
本发明方法与现有技术的主要区别在于,本发明中将海量文本相似搜索的过程分成两步,在第一步通过快速预选进行预搜索,快速排除大量无关的文本,从而提高搜索过程并使得该方法可适用于海量文本的相似搜索。
附图说明
图1是本发明所述方法的流程图;
图2是索引构建时间随数据总量的变化示意图;
图3是10-NN相似搜索性能随数据量变化对比试验示意图;
图4是10-NN相似搜索准确性与关键词选取个数及预选集大小的关系示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
本发明在普通PC上进行实验,实验选用的数据是从因特网上抓取的新闻类中文网页,对网页处理后的纯文本文件,每个文件为一篇新闻稿件,共100多万篇,约4GB。
如图1所示,一种用于海量文本快速相似搜索的方法,包括以下步骤:
1)内容读取:读取查询文档的内容;
2)特征分析:对查询文档进行分词并利用关键词提取技术,计算获得最重要的少数几个词作为特征词以及其权重值,本实施例中选择10个特征词,并为了进行分析对比,本实施例中还分别选择了30个和100个特征词进行分析;
3)条件生成:将特征词及其权重按“与”运算组成检索条件;
4)内容检索:根据检索条件通过全文检索的方法利用倒排索引对目标文档集进行检索;
5)预选结果:对检索结果根据检索的评分大小选择部分结果作为预选结果,实施例中分别选择前10个、前20个、......、前90个、前100个结果作为预选结果进行分析;
6)相似计算:逐个计算预算结果与查询文档的相似度;
7)结果输出:按相似度排序并选择前10个结果输出。
实验中选用基于多维索引树SS+-树的相似搜索与本发明的方法进行对比实验。对比实验算法中采用相同相似度计算公式。
本发明首先在不同规模数据集上,对索引构建效率与搜索效率进行了对比实验,在相同的软硬件环境下,主要从时间上进行对比。如图2和图3所示。图2表明,在小数据量的环境下,SS+-树的索引构建速度快,但数据量超过10万之后,倒排索引的索引构建速度更快,并随数据量的增加其优势更明显。与图2类似,图3表明,在小数据量的环境下,基于SS+-树的相似搜索速度更快,但数据量超过数万之后,本发明所述的方法提出的倒排索引的相似搜索具有更好的速度,并随数据量的增加其优势更明显,甚至达到数十倍的速度。
本发明进一步对其准确性进行了实验,因为理论上基于SS+-树的相似搜索可保证完全正确,所以以其为准确度的标准参考。以100万文档做倒排索引,以10万文档分别作为查询文档,分别计算本文方法各种情况下的准确度并进行统计分析,结果如图4所示。实验表明,选取100个特征词具有很好的准确度;选取30个特征词时,预选结果集大小为50时,其准确度能达到95%;仅选取10个特征词时,预选结果集大小为100时,其准确度可达到90%左右。
综合以上实验结果,本发明提出一种海量文本快速相似搜索方法在对海量文本集进行相似搜索时,其速度远远高于现有技术SS+-树等方法。因此,本发明的所述的方法相对于现有技术来说,具有显著的效果。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (10)

1.一种用于海量文本快速相似搜索的方法,包括以下步骤:
1)内容读取:读取查询文档的内容;
2)快速预选:利用重要特征快速排除绝大多数的不相关文档,获得小的预选结果集;
3)相似计算:逐个计算预算结果与查询文档的相似度;
4)结果输出:按相似度选择结果并输出。
2.如权利要求1所述的一种用于海量文本快速相似搜索的方法,其特征在于:在第2步所述的快速预选中通过事先建立索引以便加快预选过程。
3.如权利要求2所述的一种用于海量文本快速相似搜索的方法,其特征在于:所述的索引是倒排索引。
4、如权利要求2所述的一种用于海量文本快速相似搜索的方法,其特征在于:所述的索引是高维索引或多重索引。
5.如权利要求3所述的一种用于海量文本快速相似搜索的方法,其特征在于:建立所述倒排索引的步骤包括:
1)特征分析:对查询文档进行分析,计算获得最重要的少数几个词作为特征词以及其权重值;
2)条件生成:将特征词及其权重按逻辑运算组成检索条件;
3)内容检索:根据检索条件利用倒排索引对目标文档集进行检索。
6.如权利要求5所述的一种用于海量文本快速相似搜索的方法,其特征在于:在步骤1)中采用关键词提取技术进行分析,获取特征词及其权重。
7.如权利要求5所述的一种用于海量文本快速相似搜索的方法,其特征在于:在步骤1)中计算获得最重要的3至30个词作为特征词。
8.如权利要求5或6所述的一种用于海量文本快速相似搜索的方法,其特征在于:在步骤2)中将特征词及其权重按“与”运算组成检索条件。
9.如权利要求8所述的一种用于海量文本快速相似搜索的方法,其特征在于:在步骤4中通过考察两方面情况以便选取最后结果:最小相似度阈值和相似度排序中的位置。
10.如权利要求1、2、3、4、5、6或7所述的一种用于海量文本快速相似搜索的方法,其特征在于:在步骤4中通过考察两方面情况以便选取最后结果:最小相似度阈值和相似度排序中的位置。
CN 200510117001 2005-10-28 2005-10-28 一种用于海量文本快速相似搜索的方法 Pending CN1790321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200510117001 CN1790321A (zh) 2005-10-28 2005-10-28 一种用于海量文本快速相似搜索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510117001 CN1790321A (zh) 2005-10-28 2005-10-28 一种用于海量文本快速相似搜索的方法

Publications (1)

Publication Number Publication Date
CN1790321A true CN1790321A (zh) 2006-06-21

Family

ID=36788183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510117001 Pending CN1790321A (zh) 2005-10-28 2005-10-28 一种用于海量文本快速相似搜索的方法

Country Status (1)

Country Link
CN (1) CN1790321A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231641B (zh) * 2007-01-22 2010-05-19 北大方正集团有限公司 一种自动分析互联网上热点主题传播过程的方法及***
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106909628A (zh) * 2017-01-24 2017-06-30 南京大学 一种基于区间的文本相似搜索方法
CN107798637A (zh) * 2016-08-30 2018-03-13 北京国双科技有限公司 同案异判文书的获取方法及装置
CN108073616A (zh) * 2016-11-14 2018-05-25 北京航天长峰科技工业集团有限公司 一种基于大数据技术的海量文档关键词快速检索方法
CN109815475A (zh) * 2017-11-22 2019-05-28 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算设备及***
CN117290460A (zh) * 2023-11-24 2023-12-26 中孚信息股份有限公司 一种海量文本相似度计算方法、***、装置及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231641B (zh) * 2007-01-22 2010-05-19 北大方正集团有限公司 一种自动分析互联网上热点主题传播过程的方法及***
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN107798637A (zh) * 2016-08-30 2018-03-13 北京国双科技有限公司 同案异判文书的获取方法及装置
CN108073616A (zh) * 2016-11-14 2018-05-25 北京航天长峰科技工业集团有限公司 一种基于大数据技术的海量文档关键词快速检索方法
CN106909628A (zh) * 2017-01-24 2017-06-30 南京大学 一种基于区间的文本相似搜索方法
CN109815475A (zh) * 2017-11-22 2019-05-28 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算设备及***
CN109815475B (zh) * 2017-11-22 2023-03-21 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算设备及***
CN117290460A (zh) * 2023-11-24 2023-12-26 中孚信息股份有限公司 一种海量文本相似度计算方法、***、装置及存储介质

Similar Documents

Publication Publication Date Title
CN1790321A (zh) 一种用于海量文本快速相似搜索的方法
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
US10346257B2 (en) Method and device for deduplicating web page
Hull Improving text retrieval for the routing problem using latent semantic indexing
US8161036B2 (en) Index optimization for ranking using a linear model
CN106484797B (zh) 基于稀疏学习的突发事件摘要抽取方法
CN102902826B (zh) 一种基于基准图像索引的图像快速检索方法
CN108197117A (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN100433018C (zh) 电子文档与某一领域相关程度的判别方法及其应用
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN1818908A (zh) 一种在搜索引擎中应用搜索者反馈信息的方法
CN101694670A (zh) 一种基于公共子串的中文Web文档在线聚类方法
WO2002025574A3 (en) Data clustering methods and applications
CN1851709A (zh) 嵌入式多媒体基于内容的查询和检索的实现方法
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及***
CN110543595A (zh) 一种站内搜索***及方法
Keogh Efficiently finding arbitrarily scaled patterns in massive time series databases
CN112527948B (zh) 基于句子级索引的数据实时去重方法及***
Farhoodi et al. Applying machine learning algorithms for automatic Persian text classification
CN1924854A (zh) 智能移动终端的桌面搜索方法
CN103064984A (zh) 垃圾网页的识别方法及***
CN115618014B (zh) 一种应用大数据技术的标准文献分析管理***及方法
US20120117090A1 (en) System and method for managing digital contents
CN1773517A (zh) 基于中文分词技术的蛋白质序列特征提取方法
CN101075263A (zh) 融合伪相关反馈与检索技术的自动图像标注方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication