CN102693225A

CN102693225A - 互联网咨询协调过滤方法

Info

Publication number: CN102693225A
Application number: CN2011100671765A
Authority: CN
Inventors: 赵红利
Original assignee: Individual
Current assignee: Individual
Priority date: 2011-03-21
Filing date: 2011-03-21
Publication date: 2012-09-26

Abstract

一种互联网咨询协调过滤方法，包括：根据用户检索需求，对其进行初始化处理；根据协调过滤算法输出根据算法得到的检索结果。其中协调过滤算法可以是Clustering方法或分组算法中的一种。

Description

互联网咨询协调过滤方法

技术领域

本发明涉及信息检索领域，尤其涉及一种互联网咨询协调过滤方法。

背景技术

当今世界，随着网络技术的发展，诸如WWW，Netnews，Mailing list等各种各样的情报源不断涌现，使得人们有可能从更多的情报源中收集信息。与此同时，大量的情报造成了信息的***，使人们为了获得所需的情报不得不花费大量宝贵的时间，从而使情报收集变得近乎失去了意义。

为解决这个问题，出现了各种不同的办法和方案。但同时也存在着共同的问题：想要获得的情报虽然并不存在，但由于用户无法判断而还在执迷不悟地检索；想要得到的情报的确存在，然而由于方法不当而找不到这些信息；在情报检索过程中，收集到大量的洪水般的多余情报致使有用的信息被淹没；至今为止，从互联网上获取信息有情报检索、情报过滤和浏览等几种方法。

而通常的独立进行情报收集的做法，造成了即使是关心同样内容的用户也无法实现情报共有/共享。而在现实世界里，对于关心共同话题，共同内容的用户来说，一个最重要的问题就是进行高效的情报交流和共享。但是十分遗憾的是传统的手法实现这种共有/共享是不可能的。相互间独立的情报收集是现有各种主要检索软件的致命伤，是一种不可取的方式。互联网的发展，迫切需要一个用于信息收集、具有智能的检索支援***。

为解决上述的问题，出现了协调过滤这样一种崭新的方法。协调过滤法充分利用了他人的知识进行情报收集。而这些知识常常包含了间接、甚至直接解决问题的重要信息。这种做法大大减少了收集情报所需的时间和工作量。更具体地说，根据用户的爱好和要求，***自动提供/推荐各类信息，也即推荐服务(Recommence Service)的方法。

协调过滤方法是基于情报流通传播，以提高收集效率为目标的情报收集的方法。情报流通是指

(1)为持不同问题的用户自动寻找解决问题的情报；

(2)向持相同问题的用户提供推荐服务；

(3)需要寻找关注某特定问题的用户群，进而得到为解决问题所必需的信息。②则是将这些用户的特征归纳起来，做到情报的交换。协调过滤方法则将上述的过程自然地融为一体。所以，我们可以为协调过滤做以下的定义。

协调过滤(Collaborative Filtering)的定义是：从人类的情报收集活动中，归纳抽象出其所对应的爱好，关心，意图等形态意识，并通过获取的收集情报及归纳抽象出的形态意识，对人类进行分类，实现类似人类间的情报交换的手段。

作为协调过滤方法的一种，为实现能从洪水般的情报中抽取用户必要的信息，推荐***(RecommenceSystem)常备使用。另外，为能实现利用者爱好的自动追踪及判断，Agent***(Agent system)技术及人工智能技术的研究利用，也有很大的潜力。

下表列出了协调过滤法的主要特点。

由上表可知，想开发成功的制品，就需要扬长避短，在前述的技术构成要素之上施行细致的调整。可以这样说，怎样将各种技术要素有机地结合成一个完整的***，是本***商品化成败的关键。

发明内容

为解决上述存在的问题与缺陷，本发明提供了一种互联网咨询协调过滤方法，适用于任意数据库的任意属性的识别，其检索方法包括：

根据用户检索需求，对其进行初始化处理；

根据协调过滤算法输出根据算法得到的检索结果。

本发明提供的技术方案的有益效果是：通过对用户检索需求中词语或语句的分析，预测用户查询词语或语句的属性信息，并根据词语或语句不同的属性信息进行分类查询，返回更精确，用户满意度更高的检索结果。

协调过滤的算法可以分成3类。

其一，Active Collaborative Filtering。利用这一技术，互相了解的用户之间可以相互指定，(当然有安全保密上的限制)，获得彼此有用的信息(包含电子邮件)。可以和这个领域之内的专家保持同步。

其二，Automated Collaborative Filtering和Feature Guided Automated Collaborative Filtering。从效率和精度的角度多方分析的结果上看，Feature Guided Automated Collaborative Filtering遥遥领先。

其三，Content-Based Collaborative Filtering。首先是以文章情报为对象，然后再考虑其它的媒介。

在Cluster诸算法之中，Wood法和群平均法的精度较好。

分组计算方面，基本上是利用类似算法。分组所使用的类似算法中Jaccard’s Coefficient法，平均最小二乘距离法，改良二值距离法的精度比较理想。

Clustering方法和分组算法的目的是相同的。Clustering的特点是精度高，但处理速度较慢。分组算法则恰恰相反。可以靠***控制参数来平衡这两种方法的使用，根据***的规模灵活调整。

判别类似的对象有4种，即用户(属性)对用户(属性)的类似，文章(属性)对文章(属性)的类似，用户(属性)对文章(属性)的类似及关键字的类似。判断的对象不同，评价结果也各不相同。对于用户间的类似和文章间的类似来说，按Jaccard’s Coefficient法，平均最小二乘距离法，改良二值距离法距离法，皮尔森相关法的顺序，计算精度比较理想。而对用户和文章的类似来说，则按改良二值距离法，Jaccard’s Coefficient法，平均最小二乘距离法，皮尔森相关法的顺序，为计算精度的顺次。关键字的类似考虑用统计学的方法去实现。另外，由于必须确定提供范围的域值，所以同距离算法相比，相关算法要适合得多。如果将上面几种方法组合起来使用，相信还会进一步提高推荐精度。

对一般用户主要提供以下服务：

·推荐服务：寻找和对象用户的相似用户，把对象用户未访问过的文章向其推荐；

·提供类似文章服务：提供和对象文章类似的文章的一览；

·检索结果的过滤服务：在检索结果的基础上，根据实施检索的用户的爱好，对结果进行挑选。

·新到情报的推荐服务：根据各个用户的不同要求，在一定的时期内，把新到情报提供给用户；

·用户特征指定服务：允许用户将其关注的单词/文章等在***里登记或删除；

·类似关键字的提供服务：***可提供与检索用关键字相类似的关键字一览表；

·热门网页的提供服务：提供受欢迎的网页的地址；

·个性广告的提供服务：对互联网服务商(ISP)来说，可根据用户的特点、爱好而主动提供恰到好处的广告；

为管理操作的方便，同时也向***管理员提供机能丰富的服务。

关于体系结构：

·采用适合于互联网WWW服务***开发的Java语言，以Servlet的形式开发；

·协调过滤***属于Multi-Agent***的一种，所以必须具有其分散处理的特性。本***将采用计算机分散技术的标准-CORBA(Common Object Request Broker Architecture)，来实现分散化处理；

·采用DBMS对情报进行管理。并利用JDBC与本***其它部分相连；

·自然语言的解析处理会占用***相当多的时间，将尽可能采用C++语言，以库函数(LIB)的形式提供。与本***其它部分的连接准备使用JNI；

·本***允许事先设定用户的特征情报，同时如即使不作任何设定，可根据用户操作处理的轨迹，***将自动推测出用户的爱好及其迁移。但同时不准备以单纯的访问操作或检索关键字影响用户爱好的迁移，为此计划提供控制情报和相应的控制处理。另一方面，也将考虑***的规模及负荷；

·管理者可同时进行大批量文章的收集、保存处理，抽取文章的属性并对其管理。亦可从检索结果中，通过一般用户的访问操作来实现上述处理。但保存与否，可通过访问次数来控制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种互联网咨询协调过滤方法，包括：

根据用户检索需求，对其进行初始化处理；

根据协调过滤算法输出根据算法得到的检索结果。

2.如权利要求1所述的互联网咨询协调过滤方法，其中协调过滤算法可以是Clustering方法或分组算法中的一种。