CN102693225A - 互联网咨询协调过滤方法 - Google Patents

互联网咨询协调过滤方法 Download PDF

Info

Publication number
CN102693225A
CN102693225A CN2011100671765A CN201110067176A CN102693225A CN 102693225 A CN102693225 A CN 102693225A CN 2011100671765 A CN2011100671765 A CN 2011100671765A CN 201110067176 A CN201110067176 A CN 201110067176A CN 102693225 A CN102693225 A CN 102693225A
Authority
CN
China
Prior art keywords
information
user
collaborative filtering
algorithm
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100671765A
Other languages
English (en)
Inventor
赵红利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2011100671765A priority Critical patent/CN102693225A/zh
Publication of CN102693225A publication Critical patent/CN102693225A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种互联网咨询协调过滤方法,包括:根据用户检索需求,对其进行初始化处理;根据协调过滤算法输出根据算法得到的检索结果。其中协调过滤算法可以是Clustering方法或分组算法中的一种。

Description

互联网咨询协调过滤方法
技术领域
本发明涉及信息检索领域,尤其涉及一种互联网咨询协调过滤方法。
背景技术
当今世界,随着网络技术的发展,诸如WWW,Netnews,Mailing list等各种各样的情报源不断涌现,使得人们有可能从更多的情报源中收集信息。与此同时,大量的情报造成了信息的***,使人们为了获得所需的情报不得不花费大量宝贵的时间,从而使情报收集变得近乎失去了意义。
为解决这个问题,出现了各种不同的办法和方案。但同时也存在着共同的问题:想要获得的情报虽然并不存在,但由于用户无法判断而还在执迷不悟地检索;想要得到的情报的确存在,然而由于方法不当而找不到这些信息;在情报检索过程中,收集到大量的洪水般的多余情报致使有用的信息被淹没;至今为止,从互联网上获取信息有情报检索、情报过滤和浏览等几种方法。
而通常的独立进行情报收集的做法,造成了即使是关心同样内容的用户也无法实现情报共有/共享。而在现实世界里,对于关心共同话题,共同内容的用户来说,一个最重要的问题就是进行高效的情报交流和共享。但是十分遗憾的是传统的手法实现这种共有/共享是不可能的。相互间独立的情报收集是现有各种主要检索软件的致命伤,是一种不可取的方式。互联网的发展,迫切需要一个用于信息收集、具有智能的检索支援***。
为解决上述的问题,出现了协调过滤这样一种崭新的方法。协调过滤法充分利用了他人的知识进行情报收集。而这些知识常常包含了间接、甚至直接解决问题的重要信息。这种做法大大减少了收集情报所需的时间和工作量。更具体地说,根据用户的爱好和要求,***自动提供/推荐各类信息,也即推荐服务(Recommence Service)的方法。
协调过滤方法是基于情报流通传播,以提高收集效率为目标的情报收集的方法。情报流通是指
(1)为持不同问题的用户自动寻找解决问题的情报;
(2)向持相同问题的用户提供推荐服务;
(3)需要寻找关注某特定问题的用户群,进而得到为解决问题所必需的信息。②则是将这些用户的特征归纳起来,做到情报的交换。协调过滤方法则将上述的过程自然地融为一体。所以,我们可以为协调过滤做以下的定义。
协调过滤(Collaborative Filtering)的定义是:从人类的情报收集活动中,归纳抽象出其所对应的爱好,关心,意图等形态意识,并通过获取的收集情报及归纳抽象出的形态意识,对人类进行分类,实现类似人类间的情报交换的手段。
作为协调过滤方法的一种,为实现能从洪水般的情报中抽取用户必要的信息,推荐***(RecommenceSystem)常备使用。另外,为能实现利用者爱好的自动追踪及判断,Agent***(Agent system)技术及人工智能技术的研究利用,也有很大的潜力。
下表列出了协调过滤法的主要特点。
Figure BSA00000455005900011
Figure BSA00000455005900021
由上表可知,想开发成功的制品,就需要扬长避短,在前述的技术构成要素之上施行细致的调整。可以这样说,怎样将各种技术要素有机地结合成一个完整的***,是本***商品化成败的关键。
发明内容
为解决上述存在的问题与缺陷,本发明提供了一种互联网咨询协调过滤方法,适用于任意数据库的任意属性的识别,其检索方法包括:
根据用户检索需求,对其进行初始化处理;
根据协调过滤算法输出根据算法得到的检索结果。
本发明提供的技术方案的有益效果是:通过对用户检索需求中词语或语句的分析,预测用户查询词语或语句的属性信息,并根据词语或语句不同的属性信息进行分类查询,返回更精确,用户满意度更高的检索结果。
协调过滤的算法可以分成3类。
其一,Active Collaborative Filtering。利用这一技术,互相了解的用户之间可以相互指定,(当然有安全保密上的限制),获得彼此有用的信息(包含电子邮件)。可以和这个领域之内的专家保持同步。
其二,Automated Collaborative Filtering和Feature Guided Automated Collaborative Filtering。从效率和精度的角度多方分析的结果上看,Feature Guided Automated Collaborative Filtering遥遥领先。
其三,Content-Based Collaborative Filtering。首先是以文章情报为对象,然后再考虑其它的媒介。
在Cluster诸算法之中,Wood法和群平均法的精度较好。
分组计算方面,基本上是利用类似算法。分组所使用的类似算法中Jaccard’s Coefficient法,平均最小二乘距离法,改良二值距离法的精度比较理想。
Clustering方法和分组算法的目的是相同的。Clustering的特点是精度高,但处理速度较慢。分组算法则恰恰相反。可以靠***控制参数来平衡这两种方法的使用,根据***的规模灵活调整。
判别类似的对象有4种,即用户(属性)对用户(属性)的类似,文章(属性)对文章(属性)的类似,用户(属性)对文章(属性)的类似及关键字的类似。判断的对象不同,评价结果也各不相同。对于用户间的类似和文章间的类似来说,按Jaccard’s Coefficient法,平均最小二乘距离法,改良二值距离法距离法,皮尔森相关法的顺序,计算精度比较理想。而对用户和文章的类似来说,则按改良二值距离法,Jaccard’s Coefficient法,平均最小二乘距离法,皮尔森相关法的顺序,为计算精度的顺次。关键字的类似考虑用统计学的方法去实现。另外,由于必须确定提供范围的域值,所以同距离算法相比,相关算法要适合得多。如果将上面几种方法组合起来使用,相信还会进一步提高推荐精度。
对一般用户主要提供以下服务:
·推荐服务:寻找和对象用户的相似用户,把对象用户未访问过的文章向其推荐;
·提供类似文章服务:提供和对象文章类似的文章的一览;
·检索结果的过滤服务:在检索结果的基础上,根据实施检索的用户的爱好,对结果进行挑选。
·新到情报的推荐服务:根据各个用户的不同要求,在一定的时期内,把新到情报提供给用户;
·用户特征指定服务:允许用户将其关注的单词/文章等在***里登记或删除;
·类似关键字的提供服务:***可提供与检索用关键字相类似的关键字一览表;
·热门网页的提供服务:提供受欢迎的网页的地址;
·个性广告的提供服务:对互联网服务商(ISP)来说,可根据用户的特点、爱好而主动提供恰到好处的广告;
为管理操作的方便,同时也向***管理员提供机能丰富的服务。
关于体系结构:
·采用适合于互联网WWW服务***开发的Java语言,以Servlet的形式开发;
·协调过滤***属于Multi-Agent***的一种,所以必须具有其分散处理的特性。本***将采用计算机分散技术的标准-CORBA(Common Object Request Broker Architecture),来实现分散化处理;
·采用DBMS对情报进行管理。并利用JDBC与本***其它部分相连;
·自然语言的解析处理会占用***相当多的时间,将尽可能采用C++语言,以库函数(LIB)的形式提供。与本***其它部分的连接准备使用JNI;
·本***允许事先设定用户的特征情报,同时如即使不作任何设定,可根据用户操作处理的轨迹,***将自动推测出用户的爱好及其迁移。但同时不准备以单纯的访问操作或检索关键字影响用户爱好的迁移,为此计划提供控制情报和相应的控制处理。另一方面,也将考虑***的规模及负荷;
·管理者可同时进行大批量文章的收集、保存处理,抽取文章的属性并对其管理。亦可从检索结果中,通过一般用户的访问操作来实现上述处理。但保存与否,可通过访问次数来控制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种互联网咨询协调过滤方法,包括:
根据用户检索需求,对其进行初始化处理;
根据协调过滤算法输出根据算法得到的检索结果。
2.如权利要求1所述的互联网咨询协调过滤方法,其中协调过滤算法可以是Clustering方法或分组算法中的一种。
CN2011100671765A 2011-03-21 2011-03-21 互联网咨询协调过滤方法 Pending CN102693225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100671765A CN102693225A (zh) 2011-03-21 2011-03-21 互联网咨询协调过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100671765A CN102693225A (zh) 2011-03-21 2011-03-21 互联网咨询协调过滤方法

Publications (1)

Publication Number Publication Date
CN102693225A true CN102693225A (zh) 2012-09-26

Family

ID=46858682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100671765A Pending CN102693225A (zh) 2011-03-21 2011-03-21 互联网咨询协调过滤方法

Country Status (1)

Country Link
CN (1) CN102693225A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1624684A (zh) * 2003-12-02 2005-06-08 索尼株式会社 信息处理器、信息处理方法和计算机程序
CN101719145A (zh) * 2009-11-17 2010-06-02 北京大学 基于图书领域本体的个性化搜索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1624684A (zh) * 2003-12-02 2005-06-08 索尼株式会社 信息处理器、信息处理方法和计算机程序
CN101719145A (zh) * 2009-11-17 2010-06-02 北京大学 基于图书领域本体的个性化搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张磊: "个性化信息分发及概念检索的研究", 《中国博士学位论文全文数据库信息科技辑》 *
陈华等: ""个性化搜索引擎推荐算法研究"", 《计算机应用研究》 *

Similar Documents

Publication Publication Date Title
Phasinam et al. Applicability of internet of things in smart farming
Phaneendra et al. Big Data-solutions for RDBMS problems-A survey
Banterle et al. Competitive performance analysis and European Union trade: The case of the prepared swine meat sector
CN105005600B (zh) 一种访问日志中url的预处理方法
CN108446964B (zh) 一种基于移动流量dpi数据的用户推荐方法
CN102591876A (zh) 搜索结果排序方法及装置
CN102254043A (zh) 一种基于语义映射的服装图像检索方法
CN104394118A (zh) 一种用户身份识别方法及***
CN105095219A (zh) 微博推荐方法和终端
CN105159971B (zh) 一种云平台数据检索方法
CN103559619A (zh) 一种服装尺码信息的应答方法及***
CN113064866A (zh) 一种电力业务数据整合***
CN109948909A (zh) 一种电网数据采集分析方法及***
CN110134719A (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN103970891A (zh) 一种基于情境的用户兴趣信息查询方法
CN109033281A (zh) 一种知识资源库的智能推送***
CN105183809A (zh) 一种云平台数据查询方法
CN106846082A (zh) 基于硬件信息的旅游冷启动用户产品推荐***及方法
Latinovic et al. Big Data as the basis for the innovative development strategy of the Industry 4.0
CN104915388A (zh) 一种基于谱聚类和众包技术的图书标签推荐方法
CN101840438B (zh) 面向源文献元关键词的检索***
CN113051484B (zh) 确定热点社交类信息的方法及装置
CN102693225A (zh) 互联网咨询协调过滤方法
Lu et al. Genderpredictor: a method to predict gender of customers from e-commerce website
CN108062563A (zh) 一种基于类别均衡的代表样本发现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Zhao Hongli

Document name: the First Notification of an Office Action

DD01 Delivery of document by public notice

Addressee: Zhao Hongli

Document name: Notification that Application Deemed to be Withdrawn

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120926

WD01 Invention patent application deemed withdrawn after publication