CN102622358A - 一种搜索信息的方法和*** - Google Patents
一种搜索信息的方法和*** Download PDFInfo
- Publication number
- CN102622358A CN102622358A CN2011100297758A CN201110029775A CN102622358A CN 102622358 A CN102622358 A CN 102622358A CN 2011100297758 A CN2011100297758 A CN 2011100297758A CN 201110029775 A CN201110029775 A CN 201110029775A CN 102622358 A CN102622358 A CN 102622358A
- Authority
- CN
- China
- Prior art keywords
- label
- information
- labels
- client
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种搜索信息的方法和***,首先收集信息,对每一条信息设置不少于1个标签;将每一条信息的任意两个标签分成一组,并将每一组的两个标签及其之间的对应关系存储到数据库中,并设置计数值对一组标签出现次数进行计数;将每一个标签对应的信息存储到数据库中;客户端输入用于搜索信息的关键词;搜索数据库中的对应标签,获取与对应标签分在一组的全部标签,作为第一级标签,并将第一级标签按照计数值从大到小排序;将对应标签和第一级标签反馈给客户端,客户端根据获得的标签,搜索对应的信息。采用了本发明的技术方案,能够节省获取信息的时间成本,加强从不同角度对信息的认识。
Description
技术领域
本发明涉及海量信息检索技术领域,尤其涉及一种搜索信息的方法和***。
背景技术
借助互联网技术的发展,每天在我们所生活在的这个世界出现了大量的信息,信息的增长速度绝对是一件近乎恐怖的事情。海量信息会让我们感到烦躁,因为面对大量的信息,我们有时会不知从何开始从何结束,当这些信息被阅读完毕,新的信息又来了。我们同时还要花费更大的精力来辨别信息内在联系,对时间成本消耗也是不容忽视的。
在海量信息的***上,传统的搜索引擎解决了人们在海量信息包含有特定关键词的单向信息查找方式。搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。
上述技术方案对知识探索是建立在使用***的人本身已经形成的知识点网络之上,使用***的人通过输入一些特定的标签或者关键词来搜索相关知识信息时,当他想获得从其他角度看待该知识点时,由于已经受限于自己知识网络,他所能得到的信息一定是不全面的。当他尝试用其它构想的关键词时,又面临搜索***反馈回大量的无用信息造成信息过载, 也就无法***形成自己的知识网络。
发明内容
本发明的目的在于提出一种搜索信息的方法和***,能够节省获取信息的时间成本,加强从不同角度对信息的认识。
为达此目的,本发明采用以下技术方案:
一种搜索信息的方法,包括以下步骤:
A、收集信息,对每一条信息设置不少于1个标签,用于标识信息;
B、将每一条信息的任意两个标签分成一组,并将每一组的两个标签及其之间的对应关系存储到数据库中,并设置计数值对数据库中每一组标签出现次数进行计数;
C、将每一个标签对应的信息存储到数据库中;
D、客户端输入用于搜索信息的关键词;
E、根据关键词搜索数据库中的对应标签,获取与对应标签分在一组的全部标签,作为对应标签的第一级标签,并将第一级标签按照计数值从大到小排序;
F、将对应标签和第一级标签反馈给客户端,客户端根据获得的标签,搜索对应的信息。
步骤E中,对于全部第一级标签,获取与每一个第一级标签分在一组的全部标签,作为对应标签的第二级标签,并将第二级标签按照计数值从大到小排序。
客户端预设数值,作为获取对应标签的标签级数。
将获取的全部标签以对应标签为中心,形成标签网络,反馈给客户端。
另外,客户端选择一个标签,重复步骤E和步骤F。
一种搜索信息的***,包括标签索引单元、数据库、标签挖掘单元和客户端,数据库分别与标签索引单元和标签挖掘单元连接,客户端与标签挖掘单元连接,其中,标签索引单元用于收集信息的标签;数据库用于存储标签组、标签对应的信息和标签组出现的次数;标签挖掘单元用于根据客户端输入的关键词从数据库获取对应的标签,并组织成标签网络反馈给客户端;客户端用于输入关键词、选择关键词,并接收标签挖掘单元反馈的标签网络。
采用了本发明的技术方案,把原来相互独立分散毫不关联的信息,通过对信息标签内在关系的建立,从而在大的信息层面把信息重新有意义的组织起来,当人们在***上输入关键词时,会自动调出与该关键词相关的知识网络,每个与之相关的知识点都是从海量信息里挖掘出的关系,信息量越大关系也就越准确,每个知识点都可以无限探索下去,在为人们建立自己的更全面的知识网络提供更有价值的参考同时,也使获得相关信息的准确性更高。
附图说明
图1是本发明具体实施方式中搜索信息的***结构示意图。
图2是本发明具体实施方式中搜索信息的流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本发明技术方案的主要思想是是通过对每一个信息进行标签化处理,把该信息最精华的部分通过多个简短短语进行唯一标识,这样当海量信息经过处理后就会形成一个基于标签的巨型知识网络。网络里每一个节点就是一个标签,每对标签之间存在一个权重的关系来判断它们之间相似性。每个标签也包含关联的具体信息,这样形成了一个标签与标签、标签与信息、信息与信息相紧密联系的立体知识网络。这个巨型网络同时也是一个动态网络,随着每个新标签加入,节点之间的关系也会相应进行调整,网络自生长并且充满活力。
图1是本发明具体实施方式中搜索信息的***结构示意图。如图1所示,该搜索信息的***包括标签索引单元101、数据库102、标签挖掘单元103和客户端104,数据库分别与标签索引单元和标签挖掘单元连接,客户端与标签挖掘单元连接。
其中,标签索引单元收集信息的标签,数据库存储标签组、标签对应的信息和标签组出现的次数,标签挖掘单元根据客户端输入的关键词从数据库获取对应的标签,并组织成标签网络反馈给客户端,客户端输入关键词、选择关键词,并接收标签挖掘单元反馈的标签网络。
图2是本发明具体实施方式中搜索信息的流程图。如图2所示,该搜索信息的流程包括以下步骤:
步骤201、收集海量的信息,对每一条信息设置多个标签,用于标识该条信息。
步骤202、将每一条信息的任意两个标签分成一组,并将每一组的两个标签及其之间形成的对应关系存储到数据库中,并设置计数值对数据库中每一组标签出现次数进行计数,即出现一次,计数值加1。
步骤203、将每一个标签对应的信息也存储到数据库中。
步骤204、客户端输入用于搜索信息的关键词。
步骤205、根据关键词搜索数据库中的对应标签,获取与对应标签分在一组的全部标签,作为对应标签的第一级标签,并将第一级标签按照计数值从大到小排序,计数值越大,表示两个标签之间的关系越密切。
客户端可以预设一个数值,作为获取对应标签的标签级数。例如这个数值为2,那么对于全部第一级标签,再获取与每一个第一级标签分在一组的全部标签,作为对应标签的第二级标签,并将第二级标签按照计数值从大到小排序。
如果这个数值为3,还可以继续对第二季标签去获取分在一组的全部标签,作为对应标签的第三级标签,并将第三级标签按照计数值从大到小排序。
步骤206、将对应标签和第一级标签反馈给客户端,或者将获取的全部标签以对应标签为中心,形成标签网络,反馈给客户端,客户端根据获得的标签,搜索对应的信息。
另外,也可以通过客户端去选择一个标签,对这个标签重复步骤205和步骤206,这样只要信息足够多,就可以对每一个标签无限地探索下去,以获取与该关键词相关的知识网络。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种搜索信息的方法,其特征在于,包括以下步骤:
A、收集信息,对每一条信息设置不少于1个标签,用于标识信息;
B、将每一条信息的任意两个标签分成一组,并将每一组的两个标签及其之间的对应关系存储到数据库中,并设置计数值对数据库中每一组标签出现次数进行计数;
C、将每一个标签对应的信息存储到数据库中;
D、客户端输入用于搜索信息的关键词;
E、根据关键词搜索数据库中的对应标签,获取与对应标签分在一组的全部标签,作为对应标签的第一级标签,并将第一级标签按照计数值从大到小排序;
F、将对应标签和第一级标签反馈给客户端,客户端根据获得的标签,搜索对应的信息。
2.根据权利要求1所述的一种搜索信息的方法,其特征在于,步骤E中,对于全部第一级标签,获取与每一个第一级标签分在一组的全部标签,作为对应标签的第二级标签,并将第二级标签按照计数值从大到小排序。
3.根据权利要求2所述的一种搜索信息的方法,其特征在于,客户端预设数值,作为获取对应标签的标签级数。
4.根据权利要求2或者3所述的一种搜索信息的方法,其特征在于,将获取的全部标签以对应标签为中心,形成标签网络,反馈给客户端。
5.根据权利要求1-3中任一权利要求所述的一种搜索信息的方法,其特征在于,客户端选择一个标签,重复步骤E和步骤F。
6.一种搜索信息的***,其特征在于,包括标签索引单元、数据库、标签挖掘单元和客户端,数据库分别与标签索引单元和标签挖掘单元连接,客户端与标签挖掘单元连接,其中,标签索引单元用于收集信息的标签;数据库用于存储标签组、标签对应的信息和标签组出现的次数;标签挖掘单元用于根据客户端输入的关键词从数据库获取对应的标签,并组织成标签网络反馈给客户端;客户端用于输入关键词、选择关键词,并接收标签挖掘单元反馈的标签网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100297758A CN102622358A (zh) | 2011-01-27 | 2011-01-27 | 一种搜索信息的方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100297758A CN102622358A (zh) | 2011-01-27 | 2011-01-27 | 一种搜索信息的方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102622358A true CN102622358A (zh) | 2012-08-01 |
Family
ID=46562281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100297758A Pending CN102622358A (zh) | 2011-01-27 | 2011-01-27 | 一种搜索信息的方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102622358A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279513A (zh) * | 2013-05-22 | 2013-09-04 | 百度在线网络技术(北京)有限公司 | 产生内容标签的方法、提供多媒体内容信息的方法及装置 |
CN103366060A (zh) * | 2013-07-10 | 2013-10-23 | 江苏省电力设计院 | 变电站三维设计电气断面图设备材料表的生成方法 |
CN103810544A (zh) * | 2012-11-06 | 2014-05-21 | 金蝶软件(中国)有限公司 | 一种获取技能标签的方法及相关装置 |
CN104239314A (zh) * | 2013-06-09 | 2014-12-24 | 天津海量信息技术有限公司 | 一种扩展检索词的方法和*** |
CN105282177A (zh) * | 2015-11-16 | 2016-01-27 | 上海晶赞科技发展有限公司 | 一种受众数据安全可控传输方法 |
CN107291930A (zh) * | 2017-06-29 | 2017-10-24 | 环球智达科技(北京)有限公司 | 权重数的计算方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1648901A (zh) * | 2005-02-03 | 2005-08-03 | 中国科学院计算技术研究所 | 大规模关键词匹配的方法和*** |
JP4024906B2 (ja) * | 1997-09-08 | 2007-12-19 | 株式会社東芝 | タグ付文書検索システム |
CN101114295A (zh) * | 2007-08-11 | 2008-01-30 | 腾讯科技(深圳)有限公司 | 检索在线广告资源的方法和装置 |
CN101192220A (zh) * | 2006-11-21 | 2008-06-04 | 财团法人资讯工业策进会 | 标签建构方法及*** |
CN101458708A (zh) * | 2008-12-05 | 2009-06-17 | 北京大学 | 检索结果聚类方法及装置 |
CA2666016A1 (en) * | 2008-05-15 | 2009-11-15 | Mathieu Audet | Method for building a search algorithm and method for linking documents with an object |
KR20100071359A (ko) * | 2008-12-19 | 2010-06-29 | 한국전자통신연구원 | 태그 기반 정보 검색 장치, 방법 및 태그 관리 방법 |
CN101876999A (zh) * | 2009-12-04 | 2010-11-03 | 中国人民解放军信息工程大学 | 一种生成传真索引的方法、报文分析装置和传真检索*** |
-
2011
- 2011-01-27 CN CN2011100297758A patent/CN102622358A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4024906B2 (ja) * | 1997-09-08 | 2007-12-19 | 株式会社東芝 | タグ付文書検索システム |
CN1648901A (zh) * | 2005-02-03 | 2005-08-03 | 中国科学院计算技术研究所 | 大规模关键词匹配的方法和*** |
CN101192220A (zh) * | 2006-11-21 | 2008-06-04 | 财团法人资讯工业策进会 | 标签建构方法及*** |
CN101114295A (zh) * | 2007-08-11 | 2008-01-30 | 腾讯科技(深圳)有限公司 | 检索在线广告资源的方法和装置 |
CA2666016A1 (en) * | 2008-05-15 | 2009-11-15 | Mathieu Audet | Method for building a search algorithm and method for linking documents with an object |
CN101458708A (zh) * | 2008-12-05 | 2009-06-17 | 北京大学 | 检索结果聚类方法及装置 |
KR20100071359A (ko) * | 2008-12-19 | 2010-06-29 | 한국전자통신연구원 | 태그 기반 정보 검색 장치, 방법 및 태그 관리 방법 |
CN101876999A (zh) * | 2009-12-04 | 2010-11-03 | 中国人民解放军信息工程大学 | 一种生成传真索引的方法、报文分析装置和传真检索*** |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810544A (zh) * | 2012-11-06 | 2014-05-21 | 金蝶软件(中国)有限公司 | 一种获取技能标签的方法及相关装置 |
CN103279513A (zh) * | 2013-05-22 | 2013-09-04 | 百度在线网络技术(北京)有限公司 | 产生内容标签的方法、提供多媒体内容信息的方法及装置 |
CN103279513B (zh) * | 2013-05-22 | 2017-03-01 | 百度在线网络技术(北京)有限公司 | 产生内容标签的方法、提供多媒体内容信息的方法及装置 |
CN104239314A (zh) * | 2013-06-09 | 2014-12-24 | 天津海量信息技术有限公司 | 一种扩展检索词的方法和*** |
CN104239314B (zh) * | 2013-06-09 | 2018-01-19 | 天津海量信息技术股份有限公司 | 一种扩展检索词的方法和*** |
CN103366060A (zh) * | 2013-07-10 | 2013-10-23 | 江苏省电力设计院 | 变电站三维设计电气断面图设备材料表的生成方法 |
CN103366060B (zh) * | 2013-07-10 | 2016-12-28 | 中国能源建设集团江苏省电力设计院有限公司 | 变电站三维设计电气断面图设备材料表的生成方法 |
CN105282177A (zh) * | 2015-11-16 | 2016-01-27 | 上海晶赞科技发展有限公司 | 一种受众数据安全可控传输方法 |
CN107291930A (zh) * | 2017-06-29 | 2017-10-24 | 环球智达科技(北京)有限公司 | 权重数的计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701216B (zh) | 一种信息推送方法及装置 | |
CN101055585B (zh) | 文档聚类***和方法 | |
CN104182389B (zh) | 一种基于语义的大数据分析商业智能服务*** | |
CN101408886B (zh) | 通过分析文档的段落来选择该文档的标签 | |
CN102236663B (zh) | 一种基于垂直搜索的查询方法、***和装置 | |
CN101408887B (zh) | 推荐词条以指定本体空间 | |
CN106339383B (zh) | 一种搜索排序方法及*** | |
CN103970871B (zh) | 存储***中基于溯源信息的文件元数据查询方法与*** | |
CN106339502A (zh) | 一种基于用户行为数据分片聚类的建模推荐方法 | |
CN103226618B (zh) | 基于数据集市挖掘的相关词提取方法及*** | |
CN102622358A (zh) | 一种搜索信息的方法和*** | |
CN105335402B (zh) | 基于静态Cache的搜索方法、索引数据生成方法以及装置 | |
CN102306176B (zh) | 一种基于数据仓库内在特征的olap关键词查询方法 | |
CN101727454A (zh) | 用于对象自动分类的方法和*** | |
CN104021125B (zh) | 一种搜索引擎排序的方法、***以及一种搜索引擎 | |
CN101639831A (zh) | 一种搜索方法、装置及*** | |
CN102201001A (zh) | 基于倒排技术的快速检索方法 | |
CN102968417A (zh) | 一种应用于计算机网络中的搜索方法和*** | |
CN107180093A (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN105787097A (zh) | 一种基于文本聚类的分布式索引构建方法及*** | |
CN104050235A (zh) | 基于集合选择的分布式信息检索方法 | |
CN104615734B (zh) | 一种社区管理服务大数据处理***及其处理方法 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
KR20150018880A (ko) | 정보 취합 분류의 디스플레이 방법 및 시스템 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120801 |