CN102411630A - 一种属性搜索方法 - Google Patents

一种属性搜索方法 Download PDF

Info

Publication number
CN102411630A
CN102411630A CN2011104334686A CN201110433468A CN102411630A CN 102411630 A CN102411630 A CN 102411630A CN 2011104334686 A CN2011104334686 A CN 2011104334686A CN 201110433468 A CN201110433468 A CN 201110433468A CN 102411630 A CN102411630 A CN 102411630A
Authority
CN
China
Prior art keywords
attribute
searching
text
search
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104334686A
Other languages
English (en)
Inventor
汤鲲
史波良
宋波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Original Assignee
NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd filed Critical NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Priority to CN2011104334686A priority Critical patent/CN102411630A/zh
Publication of CN102411630A publication Critical patent/CN102411630A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明申请***息技术领域的一种属性搜索方法,其在对原始待检索目标的净文本建立索引的同时,充分提取原始待检索目标的属性信息,并将净文本和提取的属性信息合并后存放;在进行检索的时候,对关键词命中的净文本+属性信息中的属性进行加载和判断,只返回符合所有属性检索条件的检索目标,从而实现属性检索和行为检索的功能。本发明申请能够在一些细分的搜索引擎应用场景中提供属性检索和行为检索的能力,实现部分语义检索能力。

Description

一种属性搜索方法
技术领域
本专利申请公开一种信息技术领域的信息检索技术,特别是对检索目标的相关属性进行检索的方法。
背景技术
商业化的搜索引擎能够对很多文字信息进行检索,但是限于对自然语言理解过程的处理能力,目前的商业化搜索引擎都只是停留在文字符号层面,即使是有一些经过语义处理的检索过程,都只是进行简单的语义转化后的关联搜索。比如你想搜索去年6月份上映的电影,输入的关键词不一定能够被搜索引擎识别和重构为其搜索语义的场景,时间不是被翻译为2010年6月1日到6月30日,而是翻译为几个符号后,再进行相关的检索和归并。而如果你想检索某个论坛板块的很活跃的用户,可能出来的并不是你想要的东西。
假设你在检索你的本地邮件或者WEB邮件,你想在你众多的邮件里面找到一个附件大于1M的邮件,或者附件中含有某种类型的文件,或者检索附件数量大于某一个数字的邮件,或者其他可以用检索目标的属性来描述的东西,比如发给某个目标客户的邮件,出现在“密送”或者“抄送”里的某个客户等等,这些属性带有某种使用者的行为特征,而你作为使用者对这些行为特征可能比关键词特征更熟悉或更容易记住。而常规的商业化搜索引擎提供的检索能力都不足以描述这些行为,只支持字符匹配而不是语义匹配。比如你在在检索你的聊天信息的时候,可能会搜索聊天信息里面的时间段,没有搜索引擎的话你只能手动上下翻页,但是搜索引擎如果没有对聊天内容清单里面的各种时间信息进行特别处理的话,也无法检索昨天早上的聊天内容之类的模糊检索。
因此能够支持待检索目标的相关属性检索,能够解决一部分语义检索的问题,还能够解决一部分行为检索的问题。
一般的商业化搜索引擎会对收集到的数据进行解析、过滤、净文本信息提取等预处理,再对净文本建立索引以供检索。净文本和索引都会保存在本地或者分布式的***上,当用户进行关键词检索的时候,搜索引擎会在索引中对关键词进行检索,返回含有该检索操作中关键词的净文本内容及相关的URI。
发明内容
本专利申请中的搜索引擎在进行预处理的时候,会对收集到的数据的相关属性进行详细的提取,比如该数据的出现时间、有关联的各种对象等属性信息。对于论坛的帖子,会对帖子正文内容和标题进行提取外,还会对帖子的出现时间、浏览量、跟帖数、活跃用户等进行提取;对于新闻、博客、微博、视频等也做类似的处理,视频虽然不能对视频内容作检索,但是可以预处理视频的标题和评论等内容;在处理邮件的时候,对邮件的发信时间、收信时间、发件人、抄送人、密送人、收件人、附件的数量、附件的文件名/大小、属于垃圾邮件、伪造邮件等信息进行提取;对聊天的各个帐号、内容/出现时间、群的名称等进行提取,等等。凡是可以用来进行属性检索和行为特征描述的各种属性信息都将其提取出来。然后提取净文本。
在完成预处理后,按照正常建立索引的过程对净文本进行处理。然后将净文本附加前面提取的各种属性,以特殊的词汇分隔以便于净文本与属性的分离;然后再按照常规净文本的保存方法保存到本地或者分布式***里,索引则按照常规索引的保存方法保持到本地或者分布式***里。
在用户进行关键词检索的时候,设置了属性检索条件以后,搜索引擎会对索引中的关键词进行检索,在返回含有该检索操作中关键词的净文本内容及相关的URI前,先对净文本后面依附的属性进行加载和判断,符合全部属性检索条件的再返回其净文本内容和URI,实现属性检索和行为检索的目标。
或者简要地说,通过对待检索的目标进行充分的属性提取后,将其与待检索目标的净文本混合,存放在***的存储中。在检索关键词并命中净文本+属性以后,对命中的净文本的属性进行加载和判断,只返回满足所有属性检索条件的净文本的URI及包含关键词位置信息的净文本。
对检索结果如返回的URI和文本信息等的改变均不构成对本申请中方案的核心内容的实质性改变。对属性内容、提取方法或者属性条件判断方法的改变均不构成对本申请中方案的核心内容的实质性改变。对净文本、属性、索引文件的存放方法/加载方法,以及净文本与属性的混合、分离、属性加载等方法的改变均不构成对本申请中方案的核心内容的实质性改变。对净文本与属性进行分开存放、同步加载的方法,其本质上还是与本方法的上作原理一致,还导致了两次IO,性能可能会下降,不构成对本申请中方案的核心内容的实质性改变。
附图说明
附图1为建立索引和检索过程示意图。
具体实施方式
如图1所示,本申请的属性检索过程如下:
步骤1:本专利申请的***方案中,***在接收各种原始文档后,完成净文本的提取和各种属性的提取,分别生成净文本和属性集;净文本一份送到索引引擎建立索引,一份送到合并引擎;净文本和属性集以特殊词汇分隔后混合,然后存储在本地或者分布式存储里,其位置和编号代表了净文本和属性集的位置;索引也存放在本地或者分布式存储里。
步骤2:本专利申请的***方案中,***在进行检索前先加载索引,完成关键词的检索,得到净文本+属性集,然后根据分隔词汇来分离并加载属性,对各个属性对照属性检索条件进行是否符合属性检索条件的判断;如果该净文本的属性集符合所有属性检索条件的要求则根据净文本的位置和编号生成URI,对关键词位置进行标识后,作出属性检索命中的响应,然后处理下一条命中的净文本,直到该检索关键词的所有命中的净文本都处理完成后,***返回检索结果,完成该次带属性检索的关键词检索。
本技术方案能够为细分的搜索引擎市场如web网站提供待检索目标如邮件、论坛、聊天室的快速属性检索功能,甚至能够在某些业务场景下提供行为检索的功能,极大地方便了用户,扩充了常规搜索引擎的应用范围,为搜索引擎走向商业细分市场提供了非常有特色的技术支撑。

Claims (2)

1.一种属性搜索方法,其特征在于:通过对待检索的目标进行充分的属性提取后,将其与待检索目标的净文本混合,存放在***的存储中。
2.一种属性搜索方法,其特征在于:在检索关键词并命中净文本+属性以后,对命中的净文本的属性进行加载和判断,只返回满足所有属性检索条件的净文本的URI及包含关键词位置信息的净文本。
CN2011104334686A 2011-12-22 2011-12-22 一种属性搜索方法 Pending CN102411630A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104334686A CN102411630A (zh) 2011-12-22 2011-12-22 一种属性搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104334686A CN102411630A (zh) 2011-12-22 2011-12-22 一种属性搜索方法

Publications (1)

Publication Number Publication Date
CN102411630A true CN102411630A (zh) 2012-04-11

Family

ID=45913701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104334686A Pending CN102411630A (zh) 2011-12-22 2011-12-22 一种属性搜索方法

Country Status (1)

Country Link
CN (1) CN102411630A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577597A (zh) * 2013-11-15 2014-02-12 北京奇虎科技有限公司 基于当前浏览页面的关键词搜索***
CN104063400A (zh) * 2013-03-22 2014-09-24 腾讯科技(深圳)有限公司 数据搜索方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996190A (zh) * 2009-08-12 2011-03-30 北京大学 一种从网页中抽取信息的方法及装置
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996190A (zh) * 2009-08-12 2011-03-30 北京大学 一种从网页中抽取信息的方法及装置
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063400A (zh) * 2013-03-22 2014-09-24 腾讯科技(深圳)有限公司 数据搜索方法和装置
WO2014146450A1 (en) * 2013-03-22 2014-09-25 Tencent Technology (Shenzhen) Company Limited Method, device and system for data searching
CN103577597A (zh) * 2013-11-15 2014-02-12 北京奇虎科技有限公司 基于当前浏览页面的关键词搜索***

Similar Documents

Publication Publication Date Title
US11429680B2 (en) Topic subscription method and apparatus, and storage medium
US8380697B2 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US7765212B2 (en) Automatic organization of documents through email clustering
US7672956B2 (en) Method and system for providing a search index for an electronic messaging system based on message threads
CA2865184C (en) Method and system relating to re-labelling multi-document clusters
US20070143298A1 (en) Browsing items related to email
US12008032B2 (en) Automatic detection and transfer of relevant image data to content collections
WO2009032023A1 (en) System and methods for clustering information
CN1913546A (zh) 一种手机短信分类存储的方法
CN102591475A (zh) 一种在线编辑器的内容输入方法及***
JP2008033687A (ja) 検索クエリー作成装置
CN102457817B (zh) 一种手机报中新闻内容的抽取方法及***
CN111191111A (zh) 内容推荐方法、装置及存储介质
KR20150018880A (ko) 정보 취합 분류의 디스플레이 방법 및 시스템
CN102624770B (zh) 信息摘录方法及基于云计算的摘录信息网络存储管理***
US20110145345A1 (en) Methods, systems,and computer program products for retrieving a file of machine readable data
CN102411630A (zh) 一种属性搜索方法
CN104252537B (zh) 基于邮件特征的索引分片方法
CN111782970B (zh) 一种数据分析方法和装置
CN117056477A (zh) 一种案例数据的检索方法、装置、设备及可读存储介质
CN102955791A (zh) 网络信息搜索与分类服务***
JP5272585B2 (ja) 情報処理装置、情報分類方法及びプログラム
CN109885763B (zh) 一种基于用户头像的博文推荐方法
Yin et al. Automatically locating salutation and signature blocks in emails
CN116955291A (zh) 智能化文件管理方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120411