CN102693225A - 互联网咨询协调过滤方法 - Google Patents
互联网咨询协调过滤方法 Download PDFInfo
- Publication number
- CN102693225A CN102693225A CN2011100671765A CN201110067176A CN102693225A CN 102693225 A CN102693225 A CN 102693225A CN 2011100671765 A CN2011100671765 A CN 2011100671765A CN 201110067176 A CN201110067176 A CN 201110067176A CN 102693225 A CN102693225 A CN 102693225A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- collaborative filtering
- algorithm
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种互联网咨询协调过滤方法,包括:根据用户检索需求,对其进行初始化处理;根据协调过滤算法输出根据算法得到的检索结果。其中协调过滤算法可以是Clustering方法或分组算法中的一种。
Description
技术领域
本发明涉及信息检索领域,尤其涉及一种互联网咨询协调过滤方法。
背景技术
当今世界,随着网络技术的发展,诸如WWW,Netnews,Mailing list等各种各样的情报源不断涌现,使得人们有可能从更多的情报源中收集信息。与此同时,大量的情报造成了信息的***,使人们为了获得所需的情报不得不花费大量宝贵的时间,从而使情报收集变得近乎失去了意义。
为解决这个问题,出现了各种不同的办法和方案。但同时也存在着共同的问题:想要获得的情报虽然并不存在,但由于用户无法判断而还在执迷不悟地检索;想要得到的情报的确存在,然而由于方法不当而找不到这些信息;在情报检索过程中,收集到大量的洪水般的多余情报致使有用的信息被淹没;至今为止,从互联网上获取信息有情报检索、情报过滤和浏览等几种方法。
而通常的独立进行情报收集的做法,造成了即使是关心同样内容的用户也无法实现情报共有/共享。而在现实世界里,对于关心共同话题,共同内容的用户来说,一个最重要的问题就是进行高效的情报交流和共享。但是十分遗憾的是传统的手法实现这种共有/共享是不可能的。相互间独立的情报收集是现有各种主要检索软件的致命伤,是一种不可取的方式。互联网的发展,迫切需要一个用于信息收集、具有智能的检索支援***。
为解决上述的问题,出现了协调过滤这样一种崭新的方法。协调过滤法充分利用了他人的知识进行情报收集。而这些知识常常包含了间接、甚至直接解决问题的重要信息。这种做法大大减少了收集情报所需的时间和工作量。更具体地说,根据用户的爱好和要求,***自动提供/推荐各类信息,也即推荐服务(Recommence Service)的方法。
协调过滤方法是基于情报流通传播,以提高收集效率为目标的情报收集的方法。情报流通是指
(1)为持不同问题的用户自动寻找解决问题的情报;
(2)向持相同问题的用户提供推荐服务;
(3)需要寻找关注某特定问题的用户群,进而得到为解决问题所必需的信息。②则是将这些用户的特征归纳起来,做到情报的交换。协调过滤方法则将上述的过程自然地融为一体。所以,我们可以为协调过滤做以下的定义。
协调过滤(Collaborative Filtering)的定义是:从人类的情报收集活动中,归纳抽象出其所对应的爱好,关心,意图等形态意识,并通过获取的收集情报及归纳抽象出的形态意识,对人类进行分类,实现类似人类间的情报交换的手段。
作为协调过滤方法的一种,为实现能从洪水般的情报中抽取用户必要的信息,推荐***(RecommenceSystem)常备使用。另外,为能实现利用者爱好的自动追踪及判断,Agent***(Agent system)技术及人工智能技术的研究利用,也有很大的潜力。
下表列出了协调过滤法的主要特点。
由上表可知,想开发成功的制品,就需要扬长避短,在前述的技术构成要素之上施行细致的调整。可以这样说,怎样将各种技术要素有机地结合成一个完整的***,是本***商品化成败的关键。
发明内容
为解决上述存在的问题与缺陷,本发明提供了一种互联网咨询协调过滤方法,适用于任意数据库的任意属性的识别,其检索方法包括:
根据用户检索需求,对其进行初始化处理;
根据协调过滤算法输出根据算法得到的检索结果。
本发明提供的技术方案的有益效果是:通过对用户检索需求中词语或语句的分析,预测用户查询词语或语句的属性信息,并根据词语或语句不同的属性信息进行分类查询,返回更精确,用户满意度更高的检索结果。
协调过滤的算法可以分成3类。
其一,Active Collaborative Filtering。利用这一技术,互相了解的用户之间可以相互指定,(当然有安全保密上的限制),获得彼此有用的信息(包含电子邮件)。可以和这个领域之内的专家保持同步。
其二,Automated Collaborative Filtering和Feature Guided Automated Collaborative Filtering。从效率和精度的角度多方分析的结果上看,Feature Guided Automated Collaborative Filtering遥遥领先。
其三,Content-Based Collaborative Filtering。首先是以文章情报为对象,然后再考虑其它的媒介。
在Cluster诸算法之中,Wood法和群平均法的精度较好。
分组计算方面,基本上是利用类似算法。分组所使用的类似算法中Jaccard’s Coefficient法,平均最小二乘距离法,改良二值距离法的精度比较理想。
Clustering方法和分组算法的目的是相同的。Clustering的特点是精度高,但处理速度较慢。分组算法则恰恰相反。可以靠***控制参数来平衡这两种方法的使用,根据***的规模灵活调整。
判别类似的对象有4种,即用户(属性)对用户(属性)的类似,文章(属性)对文章(属性)的类似,用户(属性)对文章(属性)的类似及关键字的类似。判断的对象不同,评价结果也各不相同。对于用户间的类似和文章间的类似来说,按Jaccard’s Coefficient法,平均最小二乘距离法,改良二值距离法距离法,皮尔森相关法的顺序,计算精度比较理想。而对用户和文章的类似来说,则按改良二值距离法,Jaccard’s Coefficient法,平均最小二乘距离法,皮尔森相关法的顺序,为计算精度的顺次。关键字的类似考虑用统计学的方法去实现。另外,由于必须确定提供范围的域值,所以同距离算法相比,相关算法要适合得多。如果将上面几种方法组合起来使用,相信还会进一步提高推荐精度。
对一般用户主要提供以下服务:
·推荐服务:寻找和对象用户的相似用户,把对象用户未访问过的文章向其推荐;
·提供类似文章服务:提供和对象文章类似的文章的一览;
·检索结果的过滤服务:在检索结果的基础上,根据实施检索的用户的爱好,对结果进行挑选。
·新到情报的推荐服务:根据各个用户的不同要求,在一定的时期内,把新到情报提供给用户;
·用户特征指定服务:允许用户将其关注的单词/文章等在***里登记或删除;
·类似关键字的提供服务:***可提供与检索用关键字相类似的关键字一览表;
·热门网页的提供服务:提供受欢迎的网页的地址;
·个性广告的提供服务:对互联网服务商(ISP)来说,可根据用户的特点、爱好而主动提供恰到好处的广告;
为管理操作的方便,同时也向***管理员提供机能丰富的服务。
关于体系结构:
·采用适合于互联网WWW服务***开发的Java语言,以Servlet的形式开发;
·协调过滤***属于Multi-Agent***的一种,所以必须具有其分散处理的特性。本***将采用计算机分散技术的标准-CORBA(Common Object Request Broker Architecture),来实现分散化处理;
·采用DBMS对情报进行管理。并利用JDBC与本***其它部分相连;
·自然语言的解析处理会占用***相当多的时间,将尽可能采用C++语言,以库函数(LIB)的形式提供。与本***其它部分的连接准备使用JNI;
·本***允许事先设定用户的特征情报,同时如即使不作任何设定,可根据用户操作处理的轨迹,***将自动推测出用户的爱好及其迁移。但同时不准备以单纯的访问操作或检索关键字影响用户爱好的迁移,为此计划提供控制情报和相应的控制处理。另一方面,也将考虑***的规模及负荷;
·管理者可同时进行大批量文章的收集、保存处理,抽取文章的属性并对其管理。亦可从检索结果中,通过一般用户的访问操作来实现上述处理。但保存与否,可通过访问次数来控制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种互联网咨询协调过滤方法,包括:
根据用户检索需求,对其进行初始化处理;
根据协调过滤算法输出根据算法得到的检索结果。
2.如权利要求1所述的互联网咨询协调过滤方法,其中协调过滤算法可以是Clustering方法或分组算法中的一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100671765A CN102693225A (zh) | 2011-03-21 | 2011-03-21 | 互联网咨询协调过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100671765A CN102693225A (zh) | 2011-03-21 | 2011-03-21 | 互联网咨询协调过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102693225A true CN102693225A (zh) | 2012-09-26 |
Family
ID=46858682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100671765A Pending CN102693225A (zh) | 2011-03-21 | 2011-03-21 | 互联网咨询协调过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102693225A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1624684A (zh) * | 2003-12-02 | 2005-06-08 | 索尼株式会社 | 信息处理器、信息处理方法和计算机程序 |
CN101719145A (zh) * | 2009-11-17 | 2010-06-02 | 北京大学 | 基于图书领域本体的个性化搜索方法 |
-
2011
- 2011-03-21 CN CN2011100671765A patent/CN102693225A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1624684A (zh) * | 2003-12-02 | 2005-06-08 | 索尼株式会社 | 信息处理器、信息处理方法和计算机程序 |
CN101719145A (zh) * | 2009-11-17 | 2010-06-02 | 北京大学 | 基于图书领域本体的个性化搜索方法 |
Non-Patent Citations (2)
Title |
---|
张磊: "个性化信息分发及概念检索的研究", 《中国博士学位论文全文数据库信息科技辑》 * |
陈华等: ""个性化搜索引擎推荐算法研究"", 《计算机应用研究》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Phasinam et al. | Applicability of internet of things in smart farming | |
Phaneendra et al. | Big Data-solutions for RDBMS problems-A survey | |
Banterle et al. | Competitive performance analysis and European Union trade: The case of the prepared swine meat sector | |
CN105005600B (zh) | 一种访问日志中url的预处理方法 | |
CN108446964B (zh) | 一种基于移动流量dpi数据的用户推荐方法 | |
CN102591876A (zh) | 搜索结果排序方法及装置 | |
CN102254043A (zh) | 一种基于语义映射的服装图像检索方法 | |
CN104394118A (zh) | 一种用户身份识别方法及*** | |
CN105095219A (zh) | 微博推荐方法和终端 | |
CN105159971B (zh) | 一种云平台数据检索方法 | |
CN103559619A (zh) | 一种服装尺码信息的应答方法及*** | |
CN113064866A (zh) | 一种电力业务数据整合*** | |
CN109948909A (zh) | 一种电网数据采集分析方法及*** | |
CN110134719A (zh) | 一种结构化数据敏感属性的识别与分类分级方法 | |
CN103970891A (zh) | 一种基于情境的用户兴趣信息查询方法 | |
CN109033281A (zh) | 一种知识资源库的智能推送*** | |
CN105183809A (zh) | 一种云平台数据查询方法 | |
CN106846082A (zh) | 基于硬件信息的旅游冷启动用户产品推荐***及方法 | |
Latinovic et al. | Big Data as the basis for the innovative development strategy of the Industry 4.0 | |
CN104915388A (zh) | 一种基于谱聚类和众包技术的图书标签推荐方法 | |
CN101840438B (zh) | 面向源文献元关键词的检索*** | |
CN113051484B (zh) | 确定热点社交类信息的方法及装置 | |
CN102693225A (zh) | 互联网咨询协调过滤方法 | |
Lu et al. | Genderpredictor: a method to predict gender of customers from e-commerce website | |
CN108062563A (zh) | 一种基于类别均衡的代表样本发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice |
Addressee: Zhao Hongli Document name: the First Notification of an Office Action |
|
DD01 | Delivery of document by public notice |
Addressee: Zhao Hongli Document name: Notification that Application Deemed to be Withdrawn |
|
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120926 |
|
WD01 | Invention patent application deemed withdrawn after publication |