CN102073641A - 对消费者生成媒体信息进行处理的方法、装置和程序 - Google Patents

对消费者生成媒体信息进行处理的方法、装置和程序 Download PDF

Info

Publication number
CN102073641A
CN102073641A CN2009102218861A CN200910221886A CN102073641A CN 102073641 A CN102073641 A CN 102073641A CN 2009102218861 A CN2009102218861 A CN 2009102218861A CN 200910221886 A CN200910221886 A CN 200910221886A CN 102073641 A CN102073641 A CN 102073641A
Authority
CN
China
Prior art keywords
information
consumer
media information
cgm
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009102218861A
Other languages
English (en)
Inventor
何楠
王主龙
贾文杰
葛付江
贾晓建
王新文
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN2009102218861A priority Critical patent/CN102073641A/zh
Publication of CN102073641A publication Critical patent/CN102073641A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种对消费者生成媒体信息进行处理的方法,所述方法包括步骤:从不同的信息供应源收集并抽取消费者生成媒体信息;根据与抽取得到的消费者生成媒体信息相对应的过滤策略对所述消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。本发明还提供用于实现这种方法的装置及其程序。根据本发明的方法和装置根据用户的特定需求而提供定制的CGM信息,从而显著提高了CGM信息的处理和使用效率,且不会对用户增加额外的操作负担。

Description

对消费者生成媒体信息进行处理的方法、装置和程序
技术领域
本发明总体上说涉及信息处理的技术领域,更具体而言,涉及对消费者生成媒体CGM信息进行处理的方法、装置以及程序。
背景技术
消费者生成媒体(Consumer-generated Media,CGM)指任何人(不必然是专业的媒体工作者)都可以在网上创建的内容,其可通过数字技术被其他消费者使用。CGM可包括网络日志或“博客(Blog)”、移动电话博客或“mo-blog”、论坛(BBS)、电子讨论消息、新闻组、留言板(messageboard)、BBS模拟服务(BBS emulating services)、产品预览和讨论网站、支持消费者意见的在线零售站点、社会网络、媒体库、以及数字图书馆等。可见,CGM信息一般是指在CGM网站上或者网页上包括的各种内容,例如,博文、消费者留言、消费者的发帖(post)等。CGM信息通常是文本,但是也包括音频文件和流式视频文件(MP3、网络广播等)、动画(flash等),以及任何其他形式的多媒体。博文、消费者留言、消费者的发帖等是典型的CGM信息的例子,当然,CGM网站或者网页本身也可被视为一种CGM信息。因而,从广义上讲,CGM信息包括所有与CGM相关的内容和信息。此外,在本说明书的上下文中,“消费者”泛指网络这种信息创建和传播工具的消费和使用者,而不仅仅是指通常意义上的某种具体商品的消费者。
随着计算机及网络技术的迅猛发展,个人空间的需求、网站创建的简单化、通过网络进行交互的快速和便捷等多种因素推动了CGM在类型和数量两个方面的极大发展,随之而来的是海量的CGM信息。面对种类和数量日益增多的CGM,如何根据实际需要充分有效地利用所获得的CGM信息是值得研究的课题。
举例来说,一个用户需要了解某个商品的技术性能信息,则通过在搜索引擎中键入与该商品有关的词或短语,作为搜索结果就可以得到一系列网站或网页,或者可以通过登录与该商品有关的产品预览和讨论网站与该商品的使用者进行在线或者离线的讨论和交流。但是,经验告诉我们,所得到的这些海量的CGM信息包罗万象,除了所需要的商品技术性能信息,还可能包括该商品的价格、外形、使用说明、生产过程、其他用户的使用评价等各种信息,甚至除了包含关键词以外内容与该商品毫无关系的信息。往往从这些信息中筛选得到最终想要的信息需要花费用户大量的时间和精力,降低了对CGM信息的处理效率和CGM信息自身的效用。现有技术中提供了一些可以帮助用户解决该问题的方法,例如,一般的搜索引擎都具有高级搜索功能,用户可通过输入与要搜索的主题相关的多层次的关键字来收窄搜索范围并获得相对精确的搜索结果。但是有时用户也许只知道要搜索的主题的很少的信息,因此这种方法只能在有限的程度上解决该问题。此外,例如还可以通过构建专业的搜索表达式并使用专业的搜索工具来获得较为精确的搜索结果。但是,毕竟绝大多数的普通用户并不具备这种专业能力,因此这种方法实际上给用户增加了额外的操作负担,无法普及,从而难以从根本上改善对CGM信息的处理效率。
上面只是一个例子。现实中存在许多需要对CGM信息进行有效地再利用的情形,但是迄今并未发现对CGM信息进行有效地处理的理想工具或者技术。
发明内容
综上可见,需要一种能够对CGM信息进行有效地处理以便为用户提供与其特定需求相适应的定制的CGM信息的方法和装置。
根据本发明的实施例涉及一种对消费者生成媒体信息进行处理的方法,所述方法包括步骤:
从不同的信息供应源收集并抽取消费者生成媒体信息;
根据与抽取得到的消费者生成媒体信息相对应的过滤策略对消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及
基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。
根据本发明的实施例还涉及一种对消费者生成的信息CGM进行处理的装置,所述装置包括:
收集和抽取单元,被配置成从不同的信息供应源收集并抽取消费者生成媒体信息;
过滤单元,被配置成根据与通过收集和抽取单元得到的消费者生成媒体信息相对应的过滤策略对消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及
整合单元,被配置成基于用户定制的规则来对通过过滤单元得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。
根据本发明的实施例又涉及一种存储有机器可读取的指令代码的程序产品,所述指令代码由机器读取并执行时,可执行如上所述的对消费者生成的信息CGM进行处理的方法。
根据本发明实施例的对消费者生成媒体CGM信息进行处理的方法和装置能够根据用户的特定需求而提供定制的CGM信息,从而显著提高了CGM信息的处理和使用效率,且避免了对用户增加额外的操作负担。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,使其相对于在依据本发明实际制造的示例性装置中的其它部件变得更大。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出了根据本发明的实施例的对消费者生成媒体CGM信息进行处理的方法的流程简图;
图2是示出了图1所示的实施例的对CGM信息进行处理的方法的一种具体实现方式的流程简图;
图3是示出了在如图2所示的方法中的信息收集和抽取处理的一个具体实例的流程简图;
图4是示出了在如图2所示的方法中的信息过滤处理的一个具体实例的流程简图;
图5是示出了在如图2所示的方法中的情感分析与整合处理的一个具体实例的流程简图;
图6是示意性地示出在经过如图5所示的情感分析与整合处理之后获得的各CGM信息及其对应的评价值的柱状图的屏幕快照;
图7是示意性地示出在经过如图5所示的整合处理之后获得的按时间段计量的定制的CGM信息的数量的曲线图的屏幕快照;
图8是示意性地示出在经过如图5所示的整合处理之后获得的按时间段计量的定制的CGM信息的数量的曲线和柱状图的屏幕快照;
图9A和9B是示意性地示出在经过如图5所示的整合处理之后获得的按时间段计量的定制的CGM信息的数量的饼状图的屏幕快照;
图10是示意性地示出在经过如图5所示的整合处理之后获得的定制的CGM信息的时间跨度图的屏幕快照;
图11A和11B是经过如图5所示的情感分析与整合处理之后获得的定制的CGM信息的示意图;
图12是通过如图5中所示的确定关键事件的处理所获得的一个关键事件的示例;
图13是示出了根据本发明的实施例的对消费者生成媒体CGM信息进行处理的装置的简化框图;和
图14示出可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图1是示出了根据本发明的实施例的对消费者生成媒体CGM信息进行处理的方法100的流程简图。如图1所示,所述方法100从步骤S110开始。在步骤S120,从不同的信息供应源收集并抽取消费者生成媒体CGM信息。接着,在步骤S130,根据与抽取得到的CGM信息相对应的过滤策略对CGM信息进行过滤,以获得与预定主题相关的CGM信息。然后,在步骤S140,基于用户定制的规则来对过滤得到的CGM信息进行整合,以便获得定制的CGM信息。
图2是示出了图1所示的实施例的对消费者生成媒体CGM信息进行处理的方法的一种具体实现方式的流程简图。如图2所示,根据该实现方式的对CGM信息进行处理的方法200包括在212从作为信息供应源的因特网210收集各种CGM信息,并在214对收集得到的CGM信息进行抽取处理。在216根据相应的过滤策略对于抽取得到的CGM信息进行过滤。然后在218基于定制的规则对于经过过滤处理的CGM信息进行分析与整合处理。作为分析与整合处理的结果,可以在220将定制的CGM信息例如通过可视化的方式展示给用户。此外,如果发生了预先定义的关键事件,则还可以在222确定关键事件,并且可选地,将该关键事件报告给用户以提醒其注意(图中未示出)。所确定的关键事件可以响应于用户的特定要求而向用户报告,这可以避免每当发现关键事件就报告给用户,使得用户不甚其烦,从而改善CGM信息处理的人性化(下文将详细描述)。
下面将结合图3-12通过举例的方式对如图2所示的对消费者生成媒体CGM信息进行处理的方法200的各步处理进行详细描述。
图3是示出了在如图2所示的方法中的信息收集和抽取处理212,214(在图3中用304表示)的一个具体实例的流程简图。
如图3所示,可从各种信息供应源302收集CGM信息,这些信息供应源302包括但不限于RSS/ATOM源(Feed)310、论坛320、搜索引擎330和用户定义的URLs(统一资源定位符)/Site(网站)340。下面逐一描述从这些信息供应源收集和抽取CGM信息的处理。
RSS为Really Simple Syndication(简易供稿)的缩写,是某一站点用来和其它站点之间共享内容的一种简易方式,也叫聚合内容。RSS,原意是把网站内容如标题、链接、部分内文甚至全文转换为可扩展标记语言(XML:eXtensible MarkupLanguage)的格式,以向其它网站供稿。RSS源实际上是一个xml文件,文件中包含了文章的更新信息(由该源的提供者所提供的更新信息)。ATOM是RSS的继承者,其在处理Feed中提供的所有内容方面被设计得更加容易,为此目的,RSS中的description标记在ATOM中被分割成两个元素summary和content。鉴于RSS/ATOM源是本领域技术人员熟知的概念,在此不进一步详细描述。博客、新闻等通常来自RSS/ATOM源310,如上所述的,这些信息的组织性较强,例如一般采用XML格式,因此在收集和抽取处理304中可通过例如FeedFetcher等工具来对其进行收集处理。Feed Fetcher是Google的Reader和Google个性主页订阅器的Robot(机器人),或者说Crawler(爬行器)。用户在Google阅读器或Google主页订阅了某个用户的博客时,Google的Feedfetcher就会定时地随着RSS地址去找该用户的站点爬取Feed(源或者订阅源)。随后从爬取获得的内容中抽取得到XML格式的数据,并存储到数据库360中。当然,本领域技术人员容易理解,这里使用的FeedFetcher只是一个例子,还可以使用任何其他合适的信息获取工具来实现从RSS/ATOM源(Feed)310收集XML格式的数据。
正所上述,利用Feed Fetcher从RSS/ATOM源310收集得到的CGM信息通常具有很好的组织形式。以收集得到的发帖(post)形式的评论为例,通过信息抽取处理可以容易抽取得到按照该发帖的发帖人、发帖时间、发帖标题、发帖内容等组织的特定信息。举例而言,假设从某个站点下载(即收集)到有关主题(topic)1:“笔记本电脑-的某个网页,在该网页中包含有N个发帖,并且这些发帖的全文符合XML格式。例如,N个发帖中的发帖1是发帖人麦克于2001年1月1日创建的标题为“笔记本电脑的电池寿命”的发帖。则对于该发帖1可以抽取其中包括的特定信息,即,发帖人为“麦克”、发帖时间为“2001年1月1日”、发帖标题为“笔记本电脑的电池寿命”,其中发帖的具体内容包括在该发帖的主体(body)部分。于是所收集并抽取的这些特定信息可以XML格式的数据存储在数据库360中,例如,“<发帖人>麦克</发帖人>”,“<标题>笔记本电脑的电池寿命</标题>”,等等。可以看到,用XML数据的格式存储数据,有利于把抽取的CGM按照该CGM信息的构成形式以及各构成部分的详情等进行整理,以便于后续处理(后面将详述)。
此外,对于网站内容中不是全文而只有标题、链接、部分内文等等符合XML格式的情况,需要通过网站对应的URL来获取网页的内容。例如,可通过如下工具中的至少一种来从URL获取网页内容:Gecko(参见http://en.wikipedia.org/wiki/Gecko_%28layout_engine%29),以及其他工具(参见http://en.wikipedia.org/wiki/List_of_layout_engines)。基于所获得的网页内容进行的抽取处理例如可以通过预定义的包装器(Wrapper)和/或通过基于模板检测生成的包装器等技术来进行(图中未示出),下面将会进一步详细描述。
论坛320通常包括一系列URL。因此,可以通过上述Gecko等工具来通过URL收集得到相应网页的内容。所获得的来自论坛320的CGM信息(例如论坛页面)绝大多数基于各种模板组织,具有规则的组织形式。因此,通过预先对构成CGM信息的网页收集分析可以预定义一些模板,在326的抽取处理中利用预定义的包装器中所包含的这些预定义的模板的来对收集得到的CGM信息进行匹配,以便根据模板的结构而抽取预定格式的数据,例如XML格式的数据。但是模板是多种多样的,并且经常会改变,因而预定义的模板可能无法涵盖所有可能出现的模板。为此,先使用预定义包装器对收集得到CGM信息进行匹配,如果匹配失败,则在322进行模板检测,并在324根据检测到的模板生成新的包装器,然后通过利用新生成的包装器完成匹配,以便从收集得到的CGM信息中抽取相应信息。例如,可利用题目为“针对模板生成网页的一种数据自动抽取方法(Automatic Data Extraction from Template-Generated Web Pages),作者为杨少华等,发表于Journal of Software,第19卷第2期,2008年2月号,第209-223页的参考文献中所公开的方法来进行图3中322和324的模板检测和包装器生成,并利用检测出的模板从实例网页中抽取数据。或者,例如,可通过题目为″一种全自动生成网页信息抽取Wrapper的方法″,作者为梅雪、程学旗等,发表于《中文信息学报》2008年第22卷第1期第22-29页的文献中公开的方法来实现在预定义的模板对收集得到CGM信息进行的匹配失败的情况下通过信生成的包装器执行信息抽取处理。在这种方法中,对于不是基于已知模板组织的CGM信息,可以通过模板检测,利用网页设计模板的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法等,提取出网页中各个信息单元,并输出相应的包装器。然后利用这些输出的包装器对同类网页进行信息抽取,以便得到预定格式的数据,例如XML格式的数据。
在此对包装器进行简要说明。包装器是用于网页(web)信息抽取的工具,可使用软件构件的形式,其用于将隐含在HTML文档中的信息抽取出来,并且转换成能够进一步处理的以某种数据结构存储的数据。例如,可采用机器学习的方法来构造包装器。在包装器构造过程中,预先提供标注好的样本,通过机器学习算法自动学习提取知识,并以适当的模型(即,模板)进行存储,在遇到新的网页时,提取已存储的模型与网页进行匹配,如果匹配,则从网页中抽取相应信息片段。在基于机器学习的包装器进行信息抽取的过程中,预处理步骤完成文本特征抽取。学习算法在文本特征的基础上学习抽取模型,并保存在包装器中。在进行信息抽取时,包装器比较待抽取对象是否与已抽取的模型匹配,如果匹配,则基于该模型获得目标信息。包装器的基本概念以及功能为本领域技术人员所知,在此不再赘述。
对于来自论坛320的基于已知模板组织的CGM信息,在326直接利用预定义的包装器(其包含预定义的模板)进行匹配时确定组织CGM信息所使用的模板的结构,然后就可以基于所确定的模板来抽取CGM信息中各种特定的信息。仍然以上面的发帖1为例,通过预定义的包装器进行匹配而确定发帖1所使用的模板的结构为:域(field)1:标题;域2:发帖人;域3:发帖时间;域4:发帖的主体。于是,就可以根据此模板结构来识别发帖1中的各个域并从相应的域中抽取相对应的特定信息,并作为XML格式数据存储在数据库360中。对于来自论坛320的不是基于已知模板组织的CGM信息,如上所述,可以通过模板检测和包装器生成等处理来从所收集的CGM信息中抽取相应的特定信息,并作为XML格式数据存储在数据库360中。如上所述,如果从RSS/ATOM源310收集得到的CGM信息不是全部基于XML格式,则也可以通过这种预定义的包装器和/或通过基于模板检测生成的包装器的技术来类似地进行信息抽取处理。
对于用户定义的URLs/网站340,例如可在342利用“蜘蛛(Spider)”等工具来进行动态网页下载,通过指定的URL来获取站点中网页的内容。Spider是搜索引擎的一个自动程序,它的作用是访问互联网上的HTML网页,建立索引数据库,使用户能在搜索引擎中搜索到特定用户网站的网页。例如,Google的蜘蛛程序Spider对网页数据的抓取是通过读取网页文本内容,并顺着页面中的链接层层深入,从而获得对全站内容的抓取。例如,可利用名称为“JavaScript引擎在动态网页采集技术中的应用”,作者为王映等,发表于《计算机应用》第24卷第2期,2004年2月号,第34-36页的参考文献中公开的技术或者利用SpiderMonkey(参见https://developer.mozilla.org/en/SpiderMonkey)技术在342从用户定义的URLs/网站340收集CGM信息,例如获取动态网页的内容,在获取网页内容,即CGM信息之后,在344使用各种适当的工具,如预定义的包装器等,进行信息抽取。虽然图3中没有示出,但是容易理解,如果在信息抽取过程中预定义的包装器无法与待抽取的网页实现匹配,则也可以利用类似上述322和324的模板检测以及包装器生成处理等来实现信息的抽取处理。同样地,将经过收集和抽取处理得到的XML格式的数据存储到数据库360中,以供后续处理之用。
作为信息供应源的搜索引擎330通常包括搜索引擎列表以及关键词,其中关键词可以是用户自定义的或者***的缺省设置。对于关键词在搜索引擎中得到的查询结果,可通过上述Gecko等工具获取查询结果页面的网页内容。需要指出,从搜索引擎330返回的CGM信息具有一定的特殊性。因为从搜索引擎330得到的内容的数据量有限而形式多样,所以首先可以根据实际需要判断是否存在不需要收集的信息。例如,如果需要收集对于某种商品的文字评论,则基本上可将搜索引擎330返回的图片、音乐等内容判断为与此无关因而不进行收集处理。对于收集得到的网页内容(即CGM信息),例如可在332通过利用预先定义的包装器来进行信息抽取处理,与326的处理类似。同样地,虽然图3中没有示出,但是容易理解,如果在信息抽取过程中预定义包装器无法与待抽取的网页实现匹配,则也可以利用类似上述322和324的模板检测以及包装器生成处理等来实现信息的抽取处理。从搜索引擎返回的结果大多数是基于模板生成,具有高度组织性,所以从搜索引擎收集到所需的信息后,后续的抽取处理方式与对来自论坛320的CGM信息的抽取处理方式类似。将经过收集和抽取处理得到的XML格式的数据也存储到数据库360中。现有的CGM信息处理方法一般不将搜索引擎中返回的内容作为信息收集和抽取对象,因为如上所述的,从搜索引擎得到的信息形式多样,无法如同到BBS或者博客页面上直接抓取所需信息那样简单地处理。根据本发明的实施例的CGM信息处理方法也将搜索引擎纳入到信息供应源中来,从而扩大了CGM信息处理的范围,提高了CGM信息处理效率并且拓宽了CGM信息的效用。
需要注意,虽然在图3所示出的信息收集和抽取处理的具体实例中通过信息抽取处理获得的是XML格式的数据,但是,本领域技术人员理解,在此XML格式的数据实际上只是CGM信息的结构化表现形式的一种具体例子,也可以使用能够标识出所收集的CGM信息的各个部分的组成结构及其内容的其他任何数据格式,例如JSON(JavaScript Object Notation)数据格式是另外一个选择。JSON是一种轻量级的数据交换格式,易于阅读和编写,同时也易于机器解析和生成。可通过例如网站http://json.org/xml.html获得有关JSON数据格式的介绍,在此不再赘述。此外,数据库360除了存储通过信息抽取处理获得的XML格式的数据以外,也可以存储通过收集处理得到的各种CGM信息。容易理解,在图3的实例中对来自不同的信息供应源302的CGM信息进行收集和抽取处理所获得的XML格式的数据都存储在同一个数据库360中,但是,这些XML格式的数据当然也可以存储在各自对应的独立的数据库中。此外,用于存储XML格式的数据以及存储所收集的CGM信息的数据库也可以是不同的数据库。
接着结合图4描述在如图2所示的方法中的信息过滤处理的一个具体实例的简化流程。如图4所示,以数据库360中存储的数据作为输入在410-450进行网页类型判断处理。具有不同网页类型的不同的网页不仅在信息如何发布以及如何显示方面不同,而且在内容方面也有所不同。在本说明书的上下文中,“网页类型”包括但不限于BBS、博客、新闻、SNS(Social Network Site,社交网站)、新闻组、产品预览和讨论网站、支持消费者意见的在线零售站点,等等。可以进行网页类型判断处理,以便对于不同类型的网页应用不同的过滤策略。例如,可通过发明名称为“判断网页类型的方法和装置”,发明人为何楠等,申请号为200910133695X的中国专利申请中所公开的方法来判断网页类型。该专利申请中公开的判断网页类型的方法包括:基于待判断网页的URL,在预先存储的规则列表中进行规则匹配,其中规则列表包括多条用于确定网页类型的规则记录;如果规则匹配成功,则依据匹配到的规则得到待判断网页的网页类型;如果规则匹配失败,则从待判断网页的URL和/或HTML源代码中提取预定特征,并基于由从提取的预定特征中选择的特征构成的特征向量,使用分类器对待判断网页进行网页类型分类,以得到待判断网页的网页类型。通过利用这种方法,能够融合规则识别方案与基于统计学习的识别方案的优点,并且能够实现对包括博客、论坛、新闻等在内的各类网页类型进行判断。此外,也可以利用由Pranam Kolari、Tim Finin和AnupamJoshi在2006年发表的论文“SVMs for the Blogosphere:BlogIdentification and Splog Detection”中提出的一种基于SVM(支持向量机)的博客识别方法,其中使用的特征主要包括网页中的词、网页的统一资源定位符(URL)、网页中的锚文本(anchor text)等,通过组合不同的特征,达到了很好的识别效果。也可以利用名称为“Identifying a web pageas belonging to a blog”的美国专利申请US2007/0294252A1(2007年12月20日公开)中提出的和Pranam Kolari的方法类似的基于机器学习的博客页面判断方法,不同的是该US专利申请提出了判定阈值T,如果网页为博客页面的概率P小于阈值T,则从网页中提取另外的特征来重新判断。此外,还可以利用由Tomoyuki Nanno等人在2004年发表的论文“Automatic Collection and Monitoring of Japanese Weblogs”中提出的博客识别方法来进行网页类型判定,这种方法不使用统计机器学习,而是分析HTML(超文本标记语言)页面的特征,将包含符合一定特征的文章条目的页面判别为博客页面。这些条目的特征包括:每个条目在头部需要包含一个日期表示,这些日期有一致的格式,而且按照升序或者降序排列。
在网页类型判断处理中,如果在410判断网页类型为BBS/博客/其他,则在420继续执行Spam(兜售信息)过滤处理。“兜售信息”是指未经索要而主动提供的信息,基本属于一种垃圾信息,所以需要过滤掉。例如,可通过题目为“Detecting spam web pages through content analysis”,作者为Alexandros Ntoulas等,发表于International World Wide WebConference,Proceedings of the 15th international conference on WorldWide Web(2006年),第83-92页的参考文献中公开的方法来过滤兜售信息。
随后,在430,450对经过Spam过滤的信息进行相关性判断处理。相关性判断是指确定网页与某个主题之间的相关性。作为相关性判断的前提,需要设定一个或者多个主题,其中每一个主题包括描述以及一个或者多个关键字和关键短语。在430针对每一个主题检查每一个网页,并且根据网页和相应主题之间的相关性程度来为每一个主题/网页对赋予分值。接着,在450将经过相关性评分处理获得的分值与某一个预定的阈值比较,如果分值超过该预定的阈值则确定该网页与该主题相关(“是”分支),并将相应网页存储到数据库460中。可通过各种合适的方法来实现这种相关性判断处理。例如,可通过名称为“Improved Algorithms for TopicDistillation in a Hyperlinked Environment”,作者为Krishna Bharat和Monika R.Henzinger,发表于Annual ACM Conference on Research andDevelopment in Information Retrieval,Proceedings of the 21st annualinternational ACM SIGIR conference on Research and development ininformation retrieval(1998年),第104-111页的参考文献中所公开的方法来实现该处理。此外,如果在410经过网页类型判断处理之后判断网页类型为新闻,则在440直接执行相关性评分处理。接着,在450将经过相关性评分处理获得的分值与某一个预定的阈值比较,如果分值超过该预定的阈值则确定该网页与该主题相关(“是”分支),并将相应网页存储到数据库460中。同样可以通过上述Krishna Bharat等公开的方法来实现该处理。
通过进行网页类型判断处理,并根据不同的网页类型应用不同的过滤策略,可以显著改善过滤处理的效率和准确性。
接下来结合图5描述在如图2所示的方法中的情感分析与整合处理的一个具体实例的简化流程图。如图5所示,在510针对在数据库460中存储的网页进行情感分析(sentimental analysis)。通过情感分析,对数据库460中的网页赋予相应的评价值,该评价值可以表示情感的倾向性及其程度。例如,可以用评价值的正/负来代表意见的正面/负面性,并且正/负评价值的分值越高,表示正面/负面的情感倾向程度越大。例如,可通过名称为“Seeing stars:Exploiting class relationships for sentimentcategorization with respect to rating scales”,作者为Bo Pang and LillianLee.,发表于Proceedings of ACL(2005),第115-124页的参考文献中公开的方法进行情感分析处理。可以在540将情感分析所得到的评价值与预定的阈值进行比较。如果评价值超过阈值(″是″),则在550确定被赋予该评价值的网页构成关键事件,可视实际需要决定是否向用户报告该关键事件。在此,预定阈值也可以是一个预定的阈值范围,并规定在评价值落入该预定阈值范围的情况下确定出现关键事件。所谓“关键事件”是指用户比较关注的事件,这种事件可以与具有负面情感倾向性的信息有关,也可以与具有正面情感倾向性的信息有关,可根据实际需要进行设定。
情感分析可以依据不同的情感评价规则而进行。例如,对于网页上的发帖,可以根据发帖中主体内容的正面和负面性来进行情感分析,可以根据发帖人的重要性级别来进行情感分析,或者可以根据发帖的时间来进行情感分析。以不同的情感评价规则进行情感分析所得到的评价值及其含义也是不同的,这可以根据实际需要来设定。在一种实施方式中,可以预先规定各种情感评价规则,包括但不限于如下内容:情感评价对象,即,基于CGM信息的哪个部分(作者、主体内容、题目、创建时间等等)来进行情感分析;评分标准,即,情感评价对象中如何的内容将会被赋予如何的评价值;情感影响程度,即,评价值与情感倾向性(正面影响还是负面影响)之间的对应关系。虽然通常规定正的评价值越高则正面影响性或影响程度越大,反之亦然,但是也可以根据需要设定任何其他对应关系。此外,根据实际需要评分标准可以也可以是多种多样的,例如可以规定只要被进行情感分析的CGM信息中存在某个敏感词汇就将该CGM信息的情感分析评价值设定为高或者低。例如,以发帖作为待进行情感分析的评价对象,如果在庆祝国家重大节日例如国庆节的时间段期间,只要发帖的题目中或者主体内容中或甚至其作者中出现“新中国60周年华诞”、“庆祝国庆”等措辞,则可直接对相应的发帖赋予高的正评价值,说明具有较高的积极的情感影响性或影响程度。这种预先规定的情感评价规则可以根据用户的实际要求来设定,并且可以包括进行情感分析所需的任何合适的内容而不限于上面所列举出的项目。在一种可替选的实施方式中,预先规定的情感评价规则也可以作为历史信息进行存储,以供新近进行的情感分析处理参考使用。容易理解,由于可以根据用户预定的情感评价规则来进行情感分析,使得情感分析处理更加灵活并且更加贴合用户的实际需求,这提升了CGM信息处理的价值。
在进行情感分析之后,可在520对经过情感分析的CGM信息进行整合处理。整合处理的一个例子是将内容相似的网页聚合在一起,即聚类处理。下面是以伪代码形式给出的这种网页聚类的例子的实现过程:
Figure B2009102218861D0000131
上述伪代码形式的聚类处理表示如下的过程:
创建种类C1
将网页P1归属为种类C1
对于从网页P2到Pn中的网页Pi
对于从种类C1到Cm中的种类Cj
计算Pi与Cj之间的相似性Si,j
选择相似性Si,1到Si,m中的最大的相似性Si,k
如果Si,k>预定的阈值T
将网Pi归属为种类Ck
否则
创建新的种类Cm+1
将网页Pi归属到种类Cm+1
结束
结束
上述整合处理体现的是一种基于网页内容的聚类处理。在上述的聚类处理中,i,j,k,n,m为各种参数P,C,S的索引,取正整数。可通过各种编程语言编写的程序来实现上述的聚类处理,当然也可以通过具有上述这种聚类功能的硬件或者固件,或者软件、硬件、固件的任意结合来实现。在上述的聚类处理中,对于每一个网页判断其与已经存在的网页的网页种类(category)相同还是属于一个新的种类。如果是前者,则将该网页归入种类与其相同的已经存在的网页的簇(cluster)中;如果是后者,则针对该网页建立一个新的网页种类。如果在线进行CGM信息处理,CGM信息经过前面的收集和抽取、过滤、情感分析等处理以连续不间断的形式提供,因此优选地,这种聚类处理方式以增量的方式进行,即,只判断重新进入的网页是否归属于前面已存在的网页的网页簇,而不是每进入一个新网页就将全部网页重新再进行一次聚类处理。这样可以提高整合处理的效率。当然,如果CGM信息处理是离线进行,也可以不使用增量聚类方式,而是针对在离线之前缓冲的所有CGM信息经历前面一系列处理之后得到的信息进行聚类处理。上面的聚类处理是所谓的“走一遍(one pass)”式聚类处理,当然,也可以使用任何已知的聚类方法来这种聚类处理。
在上述例子中,整合处理是针对网页进行的,并且是基于网页内容进行的聚类处理。本领域技术人员理解,也可以针对各种类型的CGM信息(例如,网站,视频等等)进行整合处理,并且也可以基于内容以外的其他属性(例如创建时间、作者、来源、评价值等)进行整合处理。在一种可替选实施方式中,也可以基于各种属性的任意组合进行整合处理。上述的进行整合所基于的各种属性和条件等等可视为是整合规则,并且这种整合规则可以是定制的,即,根据用户的实际需要进行任意设定。例如,如果将CGM信息的创建时间、作者和主题内容的组合作为整合规则,那么就可以通过整合获得作者A在XX年XX月至YY年YY月之间发表的与主题ZZ有关的CGM信息。可以看出,整合处理将具有某种共性或者一致性的CGM信息进行关联,这种共性是由定制的整合规则所决定的。例如,仍以网页作为待进行整合处理的CGM信息,如果将创建时间作为整合规则,则创建时间相同或者相近的网页可认为具有共性或者一致性;类似地,如果将作者作为整合规则,则作者相同的网页可认为具有共性或者一致性;或者,如果将主题内容作为整合规则,则主题相同或者相近的网页可认为具有共性或者一致性,等等。用户对整合规则的定制例如可以通过对上述聚类过程中相似性Si,k、相似性判断阈值T等参数的设定和调整来实现。例如,相似性判断阈值T越高,聚类得到的簇将越多。
需要注意,虽然在图5中整合处理在情感分析处理之后进行,但是本领域技术人员了解,针对此还可以有各种可替选方案。在一种可替选方案中,如果不需要进行情感分析及其评价值,则可以省略在510,540和550的处理。在另一种可替选方案中,可以将在510,540和550的处理与在520的整合处理并行地进行。此外,由于整合处理是将相应的CGM信息按照特定的整合规则进行整理,因此还可以在进行510,540和550的处理之前进行在520的整合处理。
经过整合处理之后所获得的定制的CGM信息例如可以通过视觉化的方式呈现给用户。视觉化可通过各种合适的显示手段来实现。例如,可通过显示屏等显示装置实现这种呈现。在通过显示屏来呈现定制的CGM信息的情况下,图6-12给出了在经过如图5所示的情感分析和/或整合处理之后获得的向用户展示的定制的CGM信息的屏幕快照。当然,本领域技术人员理解,经过整合处理之后所获得的定制的CGM信息也可以存储在合适的存储装置中供其他用途而不向用户展示。或者,可以通过其他适当的展示方式,例如音频,文字描述,或者音频、视频和文字描述的任意组合等方式向用户展示。
图6是示出了在经过如图5所示的情感分析和整合处理(在该例子中为聚类处理)之后获得的各CGM信息的资讯源及其对应的评价值的柱状图。在此,“资讯源”是指通过聚类这种整合处理后具有某种共性(例如具有相同的作者或相同的创建时间等)的CGM信息的源头。在一个资讯源中可以包括因为具有某种共性而被聚类在一起的若干具体的CGM信息,下面被称为是与该资讯源对应的或者该资讯源所属的具体资讯。如图所示,横坐标表示资讯源ID(标识符,identifier),表示在对CGM信息进行聚类处理后为所得到的每一个资讯源(即经过聚类处理得到的每一个簇)分配的唯一的ID,即EID。纵坐标表示经过情感分析之后相应的资讯源所获得的评价值。在图6中,标号为“I”的若干资讯源的评价值为“0”,标号为“II”的若干资讯源的评价值为正,标号为“III”的若干资讯源的评价值为负。在该例子中,可以规定评价值为0表示中性的评价,评价值为正表示积极的评价,评价值为负表示消极的评价,并且正评价值越高影响越积极,负评价值越低则影响越消极。当然,这只是一种示例,可以根据实际情况设定各种不同的评价标准。点击其中条状的评价图可直接链接到相应的资讯源并获取该资讯源所属的各具体资讯,例如博文、消费者留言、消费者的发帖,等等。
下面举例说明确定资讯源的评价值的一种方法。假设网页P1,P2,P3被聚类为资讯源A。网页P1,P2,P3的评价值分别为-2,+1,0,则资讯源A的评价值可以为三者的算术平均后四舍五入,即,(-2+1+0)/3≈0。当然,可以根据实际需要采取其他任何确定资讯源的评价值的适当方法,例如通过资讯源所属的各具体资讯的评价值的加权平均值等来获得资讯源的评价值。此外,可以通过与图6类似的图形来展示在进行聚类处理之前各CGM信息(例如网页)的评价值。
图7是示出了在经过如图5所示的整合处理(在该例子中为聚类处理)之后获得的按时间段计量的定制的CGM信息的数量的曲线图的屏幕快照。横坐标表示以周计量的时间段,纵坐标表示CGM信息的数据量。假设在该例子中是按照CGM信息的作者对所获得的CGM信息进行聚类处理。如图所示,在第一周结束的时间点,曲线1与纵坐标的交点“(0,105)”表示经过聚类处理后所获得的定制的CGM信息中包括有105个作者的相关内容,即,经过聚类处理得到100个“资讯源”。曲线2与横坐标的交点“(0,210)”表示与这100个作者相关的CGM信息(例如,这些作者发表的评论、博文等)的数量为210条,即,可以认为与该100个资讯源对应的具体资讯是210条。可见,曲线1表示的是定制的CGM信息中资讯源的数量,曲线2表示的是定制的CGM信息中与资讯源对应的具体资讯的数量。此外,通过点击“过去的12个月”、“过去的10周”、“过去的40天”等链接可以改变聚类处理所涵盖的时间的跨度。在此需要注意,在该具体例子中,点击“过去的12个月”、“过去的10周”、“过去的40天”等链接并不导致重新聚类,而是改变横轴标度对应的时间范围。如点击“过去的12个月”,则横坐标为1的点对应第一个月,如果点击“过去的10周”,则横坐标为1的点对应第一周。
容易理解,根据不同的聚类规则(即整合规则)进行聚类处理,可以获得不同的资讯源及其具体资讯的配置。此外,在图7的例子中,也可以针对每一个资讯源(即,CGM信息作者)来绘制各自对应的具体资讯数量曲线。
图8是示出了在经过如图5所示的整合处理(在该例子中为聚类处理)之后获得的按时间段计量的定制的CGM信息的数量的曲线和柱状图的屏幕快照。横坐标表示以月计量的时间段,左边的纵坐标表示定制的CGM信息中资讯源的数量,右边的纵坐标表示与资讯源对应的(即,资讯源所属的)相应的具体资讯(例如发帖)的数量。曲线1表示资讯源的数量,曲线2表示具体资讯源所属的具体资讯的数量。在柱状图中,位于左边的较低的柱状表示资讯源的数量,位于右边的较高的柱状表示资讯源所属的具体资讯的数量。从图中可以形象地看到在2008年1月,2008年2月和2008年3月的定制的CGM信息(包括资讯源及具体资讯)的数量以及相互比较情况。
图9A和9B是示出了在经过如图5所示的整合处理(在该例子中为聚类处理)之后获得的按时间段计量的定制的CGM信息的数量的饼状图的屏幕快照。图9A的饼状图表示定制的CGM信息中资讯源的数量,例如,其中的“2008.02,243”表示2008年2月获得的CGM信息中的资讯源的数量为243条。图9B的饼状图表示资讯源所属的具体资讯(例如发帖)的数量,例如,其中的“2008.02,540”表示2008年2月获得的具体资讯的数量为540条。
图10是示出了在经过如图5所示的整合处理(在该例子中为聚类处理)之后获得的定制的CGM信息的时间跨度图的屏幕快照。图中给出了各个不同的资讯源(Resource)从开始到结束所经历的时间范围,对于每一个资讯源给出开始(Start)和结束(Finish)的时间点,同时给出了时间段的条状图示。点击条状图示可以连接到相应的资讯源的详情。
图11A是经过如图5所示的情感分析与整合处理之后获得的按照列表形式统计的定制的CGM信息的示意图。需要注意,在图11A所示出的例子中,作为整合处理的另外一种可替选方式,应用了根据用户定制的规则对GCM信息进行分类的处理。即,由用户或***预先指定若干类别,然后以分类的方式,将所有待整合的网页(即CGM信息)赋以一个或多个类别。如图11A所示,根据用户的需求,按照内容预先确定CGM信息的7个类别,即:“公司形象”、“潜在品牌盗用”、“代理商”、“投诉意见”、“产品相关”、“人事问题”、“其他”,然后基于待整合的CGM信息的内容将其划分到这7个类别中,从而得到定制的CGM信息。同时可以给出每个类别下相关CGM信息的总数量,如图11A的图表中的“信息数量”一栏的数字所示出的,以及给出具有特定评价值(从0到-10)的CGM信息的数量(如图表中“详细”右边的括号中的数字给出的)。可见,这种分类处理相当于为所有的CGM信息赋予表明其特定性质的类别“标签”。本领域技术人员理解,也可以在进行分类处理之后再进行如前所述的聚类处理。在这种情况下,可以展示与图11A类似的图表,但图11A中的“信息数量”可以用来显示经过分类处理和聚类处理之后相关资讯源的数量。当然,上述图11A中的这种图表仅仅是一种示意性的例子,可以根据实际需要对CGM信息经过整合处理后得到结果进行各种形式的展示,细节在此不再赘述。
图11B给出了对CGM信息进行分类和聚类两种处理后得到的定制的CGM信息的一个例子。如图11B所示,用列表方式展示所有定制的CGM信息。对每条信息给出序号、信息标题、相关文章数、评价值、类别、信息编号和信息发生的时间。图中给出了一个示例。例如在“1.xxxx公司的xxxx产品上市(61,0,产品相关,EID:7118)(2009-09-01)”中,“1”为信息序号,“xxxx公司的xxxx产品上市”为信息标题,“产品相关”为信息类别的名称,“61”为相关文章数(即,与“产品相关”这一类别相关联的资讯源中所属的具体资讯的数量),“0”为评价值,“7118”为信息编号(即,为经过聚类处理得到的每一个资讯源(即,簇)分配的唯一的信息ID,即EID),“2009-09-01”为信息发生时间。点击信息标题可以连接到该CGM信息的详情,点击图中的按钮图标“按相关文章数排序”,“按开始时间排序”,“按结束时间排序”,“按事件ID排序”,“按评价值排序”可以使定制的CGM信息按相应的方式排序,以便查询。上述网页分类的处理例如可以使用题目为“Web classification using support vector machine”、发表于“Workshop On Web Information And Data Management”,2002年,第96-99页中的技术来实现。同样地,图11B中的这种展示方式也仅仅是一种示意性的例子,可以根据实际需要对经过分类和聚类处理后得到定制的CGM信息进行各种形式的展示,细节在此不再赘述。
上述参照图11A描述的这种以分类方式实现的整合处理与结合图6-10所描述的以聚类方式实现的整合处理不同,图6-10中示出的整合结果是通过聚类处理获得的。聚类处理是将本身没有类别的网页(即,聚类所针对的样本)聚集成不同的组,这样的一组网页的集合叫做网页簇。而分类处理是预先规定不同的类别,然后按照一定的规则将网页确定为属于相应的类别。
虽然在上面的具体例子中,分类处理是针对网页进行的,但是本领域技术人员理解,也可以针对各种类型的CGM信息(例如,网站,视频等等)进行分类处理,并且也可以基于CGM信息的内容以外的其他属性(例如创建时间、作者、来源、评价值等)进行这种分类处理。在一种可替选实施方式中,也可以基于各种属性的任意组合进行分类处理。上述的进行分类处理所基于的各种属性和条件等等可视为是分类规则,即整合规则,并且这种整合规则可以是定制的,即,根据用户的实际需要进行任意设定。
上述的两种对CGM信息进行整合的处理,即聚类处理和分类处理,可以择其一进行,也可以两者都进行。在两种类型的整合处理都进行的情况下,其处理顺序可以是任意的。即,可以先进行聚类处理,再进行分类处理,也可以依照相反的顺序进行,或者,两者同时并行进行亦无不可。仍以上述图11A-11B中的例子来说明,例如分类处理基于网页的内容进行,通过分类处理后得到属于“公司形象”这一类别的网页100个,但是其中可能存在50个内容雷同***的网页。假设聚类处理也基于网页的内容进行,则通过适当地设置聚类处理的参数,对这100个网页进行聚类处理可以对其进行“细化”。例如,将属于“公司形象”这一类别的100个网页聚类到有关“公司高管言论”、“社会舆论对公司的评价”、“公司在社会公益方面的形象”等网页簇中,便利于用户进行相关信息查询。而且,这种聚类处理由于可以把内容类似的网页都聚集到一起,所以针对上述存在抄袭现象的网页可以起到一个“过滤”作用,即,用户不必查看大量内容重复的冗余网页,而只需要查看一个网页簇中的一个或者少数几个就可以了解该网页簇中所有网页涉及的内容。可见,由于聚类处理和分类处理可以根据不同的整合规则、从不同的角度对CGM信息进行整合处理,二者对CGM信息的整合处理可以进行互补,从而进一步提升对CGM信息处理的效率和价值。此外,虽然在上面的例子中聚类处理和分类处理两者都是基于网页的内容进行,但是,这两种整合处理也可以基于网页的不同属性来进行,例如,分类处理基于网页内容进行,而聚类处理可以基于网页创建时间进行。具体的整合规则可由用户根据需要来定制。
图12是如图5中所示的关键事件的一个示例。图中列出了该关键事件的报告日、标题、开始时间和结束时间、通过情感分析给出的评价值、事件摘要、来源等。其中,评价值“-3”表示该事件属于负面事件,并且由于该评价值“-3”落入了预定的阈值范围“-10至10”因此被确定为关键事件。事件标题以及评价值可用不同的字体或者颜色标注出,以便引起用户的关注。点击“转载或报道”可以向其他用户发布该关键事件。点击“来源”可以链接到该关键事件所在的网站来获取该事件的详情。容易理解,关键事件一般是指用户比较关注的事件,因此可以根据用户的不同关注点而调整用于确定关键事件的标准。如图12中的xxxx公司比较关注公司产品质量和服务问题,因此可将内容涉及xxxx公司的产品或者服务作为确定关键事件的标准,由此可通过所确定的关键事件促使该公司深入调查事件并寻找解决之道。如果用户比较关心在某个特定的时间点附近发生的事件,则可以以时间作为标准来确定关键事件。例如,在距离该特定时间点越近的时间点所创建的CGM信息将被赋予越高的正的评价值,并且将落入评价值的阈值范围(例如较高的正的评价值端点值或者数值范围)的CGM信息确定为是关键事件。从而用户可获得关键事件以供进行相应的后续处理。对关键事件的定位的便捷性也改善了对CGM信息的处理效率。
从上述分析可看出,可以根据用户不同的定制规则对经过收集和抽取处理以及过滤处理的CGM信息进行整合处理以获得定制的CGM信息。例如,可以以CGM信息(例如发帖)的主题内容为基准执行整合,于是可依照不同的主题提供定制的CGM信息。再例如,可以以CGM信息的作者为基准执行整合,于是定制的CGM信息依照不同的作者来编排。此外,还可以以CGM信息的创建时间、持续时间等时间信息为基准执行整合,于是定制的CGM信息可按照时间顺序被提供。也可以利用通过上述列举的整合规则的任意组合规则作为定制的整合规则。例如,可以使得CGM信息按照时间顺序以及作者进行整合,则整合得到的定制的CGM信息提供各不同时间段当中与各个不同作者相关的CGM信息,或者提供针对每一个作者在不同时间段中的相关的CGM信息。当然,可以根据实际需求设定其他任何适当的整合规则,例如CGM信息来源、评价值等,具体细节不再赘述。由于在前面的CGM信息的收集和抽取处理、过滤处理中已经获得了各种CGM信息以及与之相关的特性,诸如CGM信息的构成形式以及各构成部分的详情(例如通过XML格式的数据来体现)、CGM信息与特定主题的相关性、对CGM信息的情感分析评价值等,因此便于在信息整合处理中按照用户定制的规则对信息进行适当的整合,这显著改善了对CGM信息处理的效率和灵活性,提高了CGM信息的效用。而且,用户仅需要给出定制的整合规则就可获取与其需求相适应的定制的CGM信息,无需用户进行额外的专业操作,这增加了操作的便捷性。本领域技术人员了解,定制的整合规则可以在进行CGM信息处理时实时地给出,也可以预先设定定制的整合规则以供整合处理时使用。此外,还可以存储整合的历史数据以便在后续的整合处理时参考使用。这种定制的整合规则的设定的灵活性也提高了CGM信息处理的灵活性以及与实际需求的高度契合性。
此外,本发明另外的实施例还提供了一种对消费者生成的信息CGM进行处理的装置。图13中示出了这种装置1300,其包括:收集和抽取单元1310,其从不同的信息供应源收集并抽取消费者生成媒体信息。过滤单元1320,其根据与通过所述收集和抽取单元得到的消费者生成媒体信息相对应的过滤策略对消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息。整合单元1330,其基于用户定制的规则来对通过所述过滤单元得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。
上述装置1300及其所包括的各个单元1310、1320和1330可以被配置成执行上面参照图1-5所描述的各种操作。关于这些操作的进一步细节,可以参考以上描述的各个实施例、具体实施方式和实例,这里不再详细描述。
上面已通过框图、流程图和/或实施例进行了详细描述,阐明了根据本发明的实施例的装置和/或方法的不同实施方式。当这些框图、流程图和/或实施例包含一个或多个功能和/或操作时,本领域的技术人员明白,这些框图、流程图和/或实施例中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中,本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而,本领域的技术人员会认识到,本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如,以在一个或多个计算机***上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如,以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。
例如,上述装置1300中各个组成模块、单元、子单元可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的计算机(例如图14所示的通用计算机1400)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能。
图14示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。
在图14中,中央处理单元(CPU)1401根据只读存储器(ROM)1402中存储的程序或从存储部分1408加载到随机存取存储器(RAM)1403的程序执行各种处理。在RAM 1403中,还根据需要存储当CPU 1401执行各种处理等等时所需的数据。CPU 1401、ROM 1402和RAM 1403经由总线1404彼此连接。输入/输出接口1405也连接到总线1404。
下述部件也连接到输入/输出接口1405:输入部分1406(包括键盘、鼠标等等)、输出部分1407(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1408(包括硬盘等)、通信部分1409(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1409经由网络例如因特网执行通信处理。根据需要,驱动器1410也可连接到输入/输出接口1405。可拆卸介质1411例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1410上,使得从中读出的计算机程序根据需要被安装到存储部分1408中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质1411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图14所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1411。可拆卸介质1411的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1402、存储部分1408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
因此,本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的对CGM信息进行处理的方法。相应地,用于承载这种程序产品的上面列举的各种存储介质也包括在本发明的公开中。
在上面的描述中提及的各个参考文献,为了简明起见,通过引用将它们并入于此,这种引用如同在本说明书中对这些参考文献进行了详尽描述。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
通过上面对本发明的实施例的描述可知,本发明涵盖的技术方案包括但不限于如下附记所描述的内容:
附记1、一种对消费者生成媒体信息进行处理的方法,所述方法包括步骤:
从不同的信息供应源收集并抽取消费者生成媒体信息;
根据与抽取得到的消费者生成媒体信息相对应的过滤策略对所述消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及
基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。
附记2、如附记1所述的对消费者生成媒体信息进行处理的方法,其中,所述的整合步骤包括对于过滤得到的消费者生成媒体信息基于所述消费者生成媒体信息的内容、创建时间、作者、来源、评价值中的至少一种属性进行聚类和/或分类。
附记3、如附记1或2所述的对消费者生成信息进行处理的方法,其中,所述方法还包括在所述整合步骤之前对于所述过滤步骤得到的与预定主题相关的消费者生成媒体信息进行情感分析,或者在所述整合步骤之后对整合所得到的定制的消费者生成媒体信息进行情感分析,以便对接受情感分析的消费者生成媒体信息赋予相应的评价值。
附记4、如附记3所述的对消费者生成信息进行处理的方法,其中,根据预定的情感评价规则来进行所述的情感分析,所述情感评价规则至少包括:情感评价对象;评分标准;情感影响程度。
附记5、如附记3或4所述的对消费者生成媒体信息进行处理的方法,还包括将消费者生成媒体信息的评价值与预定的阈值范围进行比较,如果评价值落入所述预定的阈值范围,则确定具有该评价值的消费者生成媒体信息属于关键事件。
附记6、如附记5所述的对消费者生成媒体信息进行处理的方法,其中,根据用户的请求而将所述关键事件报告给所述用户。
附记7、如附记1-6中任何一项所述的对消费者生成媒体信息进行处理的方法,其中,所述信息供应源包括搜索引擎,并且所述收集和抽取步骤通过预定义的包装器对于从搜索引擎获得的消费者生成媒体信息进行抽取处理。
附记8、如附记1-7中任何一项所述的对消费者生成媒体信息进行处理的方法,其中,所述方法还包括在所述过滤步骤之前对抽取得到的消费者生成媒体信息中的网页的类型进行判断,以便在所述过滤步骤中针对不同类型的网页而应用与网页类型相对应的过滤策略。
附记9、一种对消费者生成的信息CGM进行处理的装置,所述装置包括:
收集和抽取单元,被配置成从不同的信息供应源收集并抽取消费者生成媒体信息;
过滤单元,被配置成根据与通过所述收集和抽取单元得到的消费者生成媒体信息相对应的过滤策略对所述消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及
整合单元,被配置成基于用户定制的规则来对通过所述过滤单元得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。
附记10、如附记9所述的装置,其中,所述的整合单元被配置成对于过滤得到的消费者生成媒体信息,基于所述消费者生成媒体信息的内容、创建时间、作者、来源、评价值中的至少一种属性进行聚类和/或分类。
附记11、如附记9或10所述的装置,还包括情感分析单元,其被配置成对于通过所述过滤单元得到的与预定主题相关的消费者生成媒体信息进行情感分析,或者对于通过所述整合单元所得到的定制的消费者生成媒体信息进行情感分析,以便对接受情感分析的消费者生成媒体信息赋予相应的评价值。
附记12、如附记11所述的装置,其中,所述情感分析单元被配置成根据预定的情感评价规则来进行所述的情感分析,所述情感评价规则至少包括:情感评价对象;评分标准;情感影响程度。
附记13、如附记11或12所述的装置,其中,所述情感分析单元还被配置成将消费者生成媒体信息的评价值与预定的阈值范围进行比较,如果评价值落入所述预定的阈值范围,则确定具有该评价值的消费者生成媒体信息属于关键事件。
附记14、如附记13所述的装置,其中,所述装置响应于用户的请求而将所述关键事件报告给所述用户。
附记15、如附记9-14中任何一项所述的装置,其中,所述信息供应源包括搜索引擎,所述收集和抽取单元被配置成通过预定义的包装器对于从搜索引擎获得的消费者生成媒体信息进行抽取处理。
附记16、如附记9-15中任何一项所述的装置,还包括网页类型判断单元,其被配置成对通过所述收集和抽取单元抽取得到的消费者生成媒体信息中的网页的类型进行判断,其中,所述过滤单元被配置成针对不同类型的网页而应用与网页类型相对应的过滤策略。
附记17.一种存储有机器可读取的指令代码的程序产品,
所述指令代码由机器读取并执行时,可执行如附记1-8中任何一项所述的对消费者生成媒体信息进行处理的方法。
附记18.一种承载有如附记17所述的程序产品的存储介质。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims (10)

1.一种对消费者生成媒体信息进行处理的方法,所述方法包括步骤:
从不同的信息供应源收集并抽取消费者生成媒体信息;
根据与抽取得到的消费者生成媒体信息相对应的过滤策略对所述消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及
基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。
2.如权利要求1所述的对消费者生成媒体信息进行处理的方法,其中,所述的整合步骤包括对于过滤得到的消费者生成媒体信息,基于所述消费者生成媒体信息的内容、创建时间、作者、来源、评价值中的至少一种属性进行聚类和/或分类。
3.如权利要求1或2所述的对消费者生成信息进行处理的方法,其中,所述方法还包括在所述整合步骤之前对于所述过滤步骤得到的与预定主题相关的消费者生成媒体信息进行情感分析,或者在所述整合步骤之后对整合所得到的定制的消费者生成媒体信息进行情感分析,以便对接受情感分析的消费者生成媒体信息赋予相应的评价值。
4.如权利要求3所述的对消费者生成信息进行处理的方法,其中,根据预定的情感评价规则来进行所述的情感分析,所述情感评价规则至少包括:情感评价对象;评分标准;情感影响程度。
5.如权利要求3或4所述的对消费者生成媒体信息进行处理的方法,还包括将消费者生成媒体信息的评价值与预定的阈值范围进行比较,如果评价值落入所述预定的阈值范围,则确定具有该评价值的消费者生成媒体信息属于关键事件。
6.如权利要求5所述的对消费者生成媒体信息进行处理的方法,其中,根据用户的请求而将所述关键事件报告给所述用户。
7.一种对消费者生成的信息CGM进行处理的装置,所述装置包括:
收集和抽取单元,被配置成从不同的信息供应源收集并抽取消费者生成媒体信息;
过滤单元,被配置成根据与通过所述收集和抽取单元得到的消费者生成媒体信息相对应的过滤策略对所述消费者生成媒体信息进行过滤,以获得与预定主题相关的消费者生成媒体信息;以及
整合单元,被配置成基于用户定制的规则来对通过所述过滤单元得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息。
8.如权利要求7所述的装置,还包括情感分析单元,其被配置成对于通过所述过滤单元得到的与预定主题相关的消费者生成媒体信息进行情感分析,或者对于通过所述整合单元所得到的定制的消费者生成媒体信息进行情感分析,以便对接受情感分析的消费者生成媒体信息赋予相应的评价值。
9.如权利要求8所述的装置,其中,所述情感分析单元被配置成根据预定的情感评价规则来进行所述的情感分析,所述情感评价规则至少包括:情感评价对象;评分标准;情感影响程度。
10.如权利要求8或9所述的装置,其中,所述情感分析单元还被配置成将消费者生成媒体信息的评价值与预定的阈值范围进行比较,如果评价值落入所述预定的阈值范围,则确定具有该评价值的消费者生成媒体信息属于关键事件。
CN2009102218861A 2009-11-19 2009-11-19 对消费者生成媒体信息进行处理的方法、装置和程序 Pending CN102073641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102218861A CN102073641A (zh) 2009-11-19 2009-11-19 对消费者生成媒体信息进行处理的方法、装置和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102218861A CN102073641A (zh) 2009-11-19 2009-11-19 对消费者生成媒体信息进行处理的方法、装置和程序

Publications (1)

Publication Number Publication Date
CN102073641A true CN102073641A (zh) 2011-05-25

Family

ID=44032185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102218861A Pending CN102073641A (zh) 2009-11-19 2009-11-19 对消费者生成媒体信息进行处理的方法、装置和程序

Country Status (1)

Country Link
CN (1) CN102073641A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646134A (zh) * 2012-03-29 2012-08-22 百度在线网络技术(北京)有限公司 一种用于确定消息记录中的消息会话的方法和设备
CN102799599A (zh) * 2011-05-27 2012-11-28 富士通株式会社 用户生成媒体信息的处理方法及装置
CN103246676A (zh) * 2012-02-10 2013-08-14 富士通株式会社 对消息进行聚类的方法和设备
CN104899309A (zh) * 2015-06-12 2015-09-09 百度在线网络技术(北京)有限公司 展示事件评论观点的方法和装置
CN106033578A (zh) * 2015-03-13 2016-10-19 阿里巴巴集团控股有限公司 信息的提示方法及装置
CN106294530A (zh) * 2015-06-29 2017-01-04 阿里巴巴集团控股有限公司 规则匹配的方法和***
CN108416642A (zh) * 2017-12-05 2018-08-17 青岛海尔工业智能研究院有限公司 一种产品定制方法、装置及服务器
CN109558499A (zh) * 2018-10-12 2019-04-02 苏州佳世达光电有限公司 多媒体信息自动组合方法、装置及***
CN110781371A (zh) * 2019-10-16 2020-02-11 维沃移动通信有限公司 一种内容处理方法及电子设备
CN111737455A (zh) * 2019-12-02 2020-10-02 北京京东尚科信息技术有限公司 文本识别方法、装置、电子设备和介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799599A (zh) * 2011-05-27 2012-11-28 富士通株式会社 用户生成媒体信息的处理方法及装置
CN103246676A (zh) * 2012-02-10 2013-08-14 富士通株式会社 对消息进行聚类的方法和设备
CN102646134A (zh) * 2012-03-29 2012-08-22 百度在线网络技术(北京)有限公司 一种用于确定消息记录中的消息会话的方法和设备
CN106033578A (zh) * 2015-03-13 2016-10-19 阿里巴巴集团控股有限公司 信息的提示方法及装置
CN104899309A (zh) * 2015-06-12 2015-09-09 百度在线网络技术(北京)有限公司 展示事件评论观点的方法和装置
CN104899309B (zh) * 2015-06-12 2019-04-30 百度在线网络技术(北京)有限公司 展示事件评论观点的方法和装置
CN106294530A (zh) * 2015-06-29 2017-01-04 阿里巴巴集团控股有限公司 规则匹配的方法和***
CN108416642A (zh) * 2017-12-05 2018-08-17 青岛海尔工业智能研究院有限公司 一种产品定制方法、装置及服务器
CN109558499A (zh) * 2018-10-12 2019-04-02 苏州佳世达光电有限公司 多媒体信息自动组合方法、装置及***
CN110781371A (zh) * 2019-10-16 2020-02-11 维沃移动通信有限公司 一种内容处理方法及电子设备
CN110781371B (zh) * 2019-10-16 2021-11-30 维沃移动通信有限公司 一种内容处理方法及电子设备
CN111737455A (zh) * 2019-12-02 2020-10-02 北京京东尚科信息技术有限公司 文本识别方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN102073641A (zh) 对消费者生成媒体信息进行处理的方法、装置和程序
Rehm Towards automatic Web genre identification: a corpus-based approach in the domain of academia by example of the Academic's Personal Homepage
JP5879260B2 (ja) マイクロブログメッセージの内容を分析する方法及び装置
US8135669B2 (en) Information access with usage-driven metadata feedback
Kontostathis et al. A survey of emerging trend detection in textual data mining
JP4489994B2 (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
CA2578513A1 (en) System and method for online information analysis
CN110362740B (zh) 一种水利门户信息混合推荐方法
CN109165367B (zh) 一种基于rss订阅的新闻推荐方法
CN105426514A (zh) 个性化的移动应用app推荐方法
KR101984937B1 (ko) 전통문화 3d 디지털 연표 표출 시스템
CN102855282A (zh) 一种文档推荐方法及装置
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN110245816A (zh) 基于浏览器历史记录的用户工作效率可视评估方法
Rabiei et al. Using text mining techniques for identifying research gaps and priorities: a case study of the environmental science in Iran
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
Prabowo et al. A comparison of feature selection methods for an evolving RSS feed corpus
CN111859108A (zh) 一种舆情***搜索词推荐***
Batra et al. Review of machine learning approaches to semantic web service discovery
TW201421265A (zh) 智慧型新聞分析系統
Grüblbauer et al. Social media monitoring tools as instruments of strategic issues management
US11403654B2 (en) Identifying competitors of companies
Oudshoff et al. Knowledge discovery in virtual community texts: Clustering virtual communities
Scharl et al. Extraction and interactive exploration of knowledge from aggregated news and social media content
CN102376057A (zh) 对消费者生成媒体信息进行处理的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110525