CN103902674A - 特定主题的评论数据的采集方法和装置 - Google Patents

特定主题的评论数据的采集方法和装置 Download PDF

Info

Publication number
CN103902674A
CN103902674A CN201410103248.0A CN201410103248A CN103902674A CN 103902674 A CN103902674 A CN 103902674A CN 201410103248 A CN201410103248 A CN 201410103248A CN 103902674 A CN103902674 A CN 103902674A
Authority
CN
China
Prior art keywords
comment
data
particular topic
website
comment data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410103248.0A
Other languages
English (en)
Other versions
CN103902674B (zh
Inventor
李羽
颜俊伟
张俊彬
王军伟
罗剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410103248.0A priority Critical patent/CN103902674B/zh
Publication of CN103902674A publication Critical patent/CN103902674A/zh
Application granted granted Critical
Publication of CN103902674B publication Critical patent/CN103902674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种特定主题的评论数据的采集方法和装置。其中该方法包括:根据特定主题构造搜索词,并根据搜索词进行搜索以获取多个具有评论数据的网站;分别从多个具有评论数据的网站中提取与特定主题对应的评论数据,并根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站;获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据;获取多个评论目标中属于特定主题的特定评论目标,并将特定评论目标对应的评论数据与特定主题相关联。本发明的特定主题的评论数据的采集方法,实现了互联网全局评论数据的整合,提升了评论数据的质量,自动化程度高,用户体验好。

Description

特定主题的评论数据的采集方法和装置
技术领域
本发明涉及搜索技术领域,特别涉及一种特定主题的评论数据的采集方法和装置。
背景技术
随着电子商务以及互联网技术的不断发展,网络上的评论信息日益丰富,用户可通过互联网搜索需要了解的主题的相关评论信息。但是,搜索引擎将与搜索词相关的信息提供给用户,这些信息中包括用户需要的评论信息,也包括了用户不需要的咨询信息或者广告信息等,甚至包括与用户需要的特定主题不相关的评论信息。因而需要用户手动进行进一步筛选和整理,非常不便。
目前,具有评论信息的网站,可对评论信息进行整理并进行数据挖掘,以将整理和挖掘结果提供给用户,但是,由于每个网站上的数据都是网站自身的局部数据,因而无法为用户提供整个互联网的全局数据。并且,对局部数据进行数据挖掘得到的结论有所偏颇。如果用户要获取全网的评论信息的,需要对不同站点的评论信息进行手动查找和整理,自动化程度低。
发明内容
本发明旨在至少在一定程度上解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种特定主题的评论数据的采集方法。该方法能够实现互联网全局评论数据的整合,提升评论数据的质量,自动化程度高,用户体验好。
本发明的第二个目的在于提出一种特定主题的评论数据的采集装置。
为达上述目的,本发明第一方面实施例提出了一种特定主题的评论数据的采集方法,包括:根据特定主题构造搜索词,并根据搜索词进行搜索以获取多个具有评论数据的网站;分别从多个具有评论数据的网站中提取与特定主题对应的评论数据,并根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站;获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据;获取多个评论目标中属于特定主题的特定评论目标,并将所述特定评论目标对应的评论数据与所述特定主题相关联。
本发明实施例的特定主题的评论数据的采集方法,通过从多个具有评论数据的网站中筛选出至少一个候选网站,然后从至少一个候选网站中获取与每个评论目标对应的评论数据并与相应评论目标所属的主题进行关联存储,实现了互联网全局评论数据的整合,得到的评论数据与搜索的评论目标的关联度高,质量好,便于用户获取对特定主题的全网评论数据,从而使用户对该特定主题的认知更加全面准确,并且无需用户手动查找和整理,简便快捷,自动化程度高,用户体验好。
本发明第二方面实施例提出了一种特定主题的评论数据的采集装置,包括:构造模块,用于根据特定主题构造搜索词;搜索模块,用于根据搜索词进行搜索以获取多个具有评论数据的网站;提取模块,用于分别从多个具有评论数据的网站中提取与特定主题对应的评论数据;筛选模块,用于根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站;第一获取模块,用于获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据;第二获取模块,用于获取多个评论目标中属于特定主题的特定评论目标;以及关联模块,用于将所述特定评论目标对应的评论数据与所述特定主题相关联。
本发明实施例的特定主题的评论数据的采集装置,通过从多个具有评论数据的网站中筛选出至少一个候选网站,然后从至少一个候选网站中获取与每个评论目标对应的评论数据并与相应评论目标所属的主题进行关联存储,实现了互联网全局评论数据的整合,得到的评论数据与搜索的评论目标的关联度高,质量好,便于用户获取对特定主题的全网评论数据,从而使用户对该特定主题的认知更加全面准确,并且无需用户手动查找和整理,简便快捷,自动化程度高,用户体验好。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的特定主题的评论数据的采集方法的流程图;
图2为根据本发明又一个实施例的特定主题的评论数据的采集方法的流程图;
图3为根据本发明一个实施例的获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据的流程图;
图4为根据本发明一个实施例的将不同结构的评论数据进行结构统一化的示意图;
图5为根据本发明一个实施例的一种检索效果显示界面的示意图;
图6为根据本发明一个实施例的特定主题的综合评论信息显示界面的示意图;
图7为根据本发明一个实施例的特定主题的评论数据的采集装置的结构框图;以及
图8是根据本发明又一个实施例的特定主题的评论数据的采集装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面参考附图描述根据本发明实施例的特定主题的评论数据的采集方法和装置。
目前,用户可通过搜索引擎或具有评论数据的网站来获取针对特定主题的评论数据,但是,通过搜索引擎获取到的并不全是针对特定主题的评论数据,而通过具有评论数据的网站得到的大多是局部数据,难以进行全局数据挖掘,需要对不同站点的评论数据进行手动查找和整理,自动化程度低,用户体验差。
为此,本发明提出了一种特定主题的评论数据的采集方法,包括以下步骤:根据特定主题构造搜索词,并根据搜索词进行搜索以获取多个具有评论数据的网站;分别从多个具有评论数据的网站中提取与特定主题对应的评论数据,并根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站;获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据;获取多个评论目标中属于特定主题的特定评论目标,并将特定评论目标对应的评论数据与特定主题相关联。
图1为根据本发明一个实施例的特定主题的评论数据的采集方法的流程图。
如图1所示,特定主题的评论数据的采集方法包括:
S101,根据特定主题构造搜索词,并根据搜索词进行搜索以获取多个具有评论数据的网站。
其中,主题是指能够用统一概念描述的某一类别的实体,比如:电影、音乐、游戏、景点等。
在本发明的实施例中,可根据特定主题构造一个或多个搜索词,具体地,可通过主题内容提取关键词作为搜索词,然后通过搜索引擎等工具对搜索词进行搜索,再将搜索结果按照来源网站进行聚类,得到多个具有评论数据的网站,例如,对于特定主题美食,可根据构造的不同的美食名称、对食物的评价词等搜索词获取www.dianping.com、book.douban.com等网站。具体的获取过程将在后续的实施例中进行详细的说明。
S102,分别从获取到的多个具有评论数据的网站中提取与特定主题对应的评论数据,并根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站。
具体地,可分别在多个具有评论数据的网站中对特定主题的评论数据进行搜索,得到每个网站中与特定主题相关的多个评论数据,然后对每个网站中的评论数据进行数量统计和内容分析,以得到每个网站的评论数据的数量和评论内容中的无意词比例,并筛选出评论数据的数量较多且评论内容中的无意词比例较低的至少一个网站作为候选网站。
其中,无意词比例是指网站的评论数据中包含“嘻嘻”、“哈哈”、“呵呵”等无意词或其他与当前评论目标无关的内容的评论数据的数量占该网站评论数据总数的比例。
S103,获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据。
其中,评论目标是指某一可被评论的具体的产品或事物,例如,可以是某电影、某一型号的汽车、某一首歌曲等具体产品,也可以是某电影公司、某汽车品牌、某个物业公司等事物。
具体地,可获取每个候选网站中的多个评论目标,并分别获取与评论目标对应的评论数据,例如评论内容、评论来源、评论人和评论时间等。
S104,获取多个评论目标中属于特定主题的特定评论目标,并将特定评论目标对应的评论数据与该特定主题相关联。
具体地,可对多个评论目标进行分析和归类,以确定每个评论目标所属的主题,然后将每个与特定评论目标对应的评论数据与该评论目标所属的特定主题进行关联,从而形成由评论数据到对应的评论目标再到所属主题的关联和/或由评论数据到所属主题的直接关联。其中,存储结构可以有多种,在此不再一一列举。
本发明实施例的特定主题的评论数据的采集方法,通过从多个具有评论数据的网站中筛选出至少一个候选网站,然后从至少一个候选网站中获取与每个评论目标对应的评论数据并与相应评论目标所属的主题进行关联存储,实现了互联网全局评论数据的整合,得到的评论数据与搜索的评论目标的关联度高,质量好,便于用户获取对特定主题的全网评论数据,从而使用户对该特定主题的认知更加全面准确,并且无需用户手动查找和整理,简便快捷,自动化程度高,用户体验好。
图2是根据本发明又一个实施例的特定主题的评论数据的采集方法的流程图。为了提升用户体验,可根据评论内容、评论来源、评论人和评论时间为特定主题的评论数据建立索引,并对评论数据进行数据挖掘,并根据数据挖掘结果为用户提供每个特定主题的综合评论信息。具体地,如图2所示,特定主题的评论数据的采集方法包括以下步骤:
S201,根据特定主题构造搜索词,并根据搜索词进行搜索以获取多个具有评论数据的网站。
其中,主题是指能够用统一概念描述的某一类别的实体,比如:电影、音乐、游戏、景点等。
在本发明的实施例中,可根据特定主题构造一个或多个搜索词,具体地,可通过主题内容提取关键词作为搜索词,然后通过搜索引擎等工具对搜索词进行搜索,以获取多个具有评论数据的网站,例如,对于特定主题美食,可根据构造的不同的美食名称、对食物的评价词等搜索词获取www.dianping.com、book.douban.com等网站。
在本发明的一个具体实施例中,根据搜索词进行搜索以获取多个具有评论数据的网站具体包括:根据搜索词进行搜索以获取M个URL(Uniform Resoure Locator,统一资源定位符)地址,然后对获取到的M个URL地址进行解析,得到M个URL地址对应的M个来源网站,并对这M个来源网站进行聚类分析,例如M个URL地址中有A个来自P网站,有B个来自Q网站等,最终得到N个具有评论数据的网站,其中,M和N为正整数,且M大于等于N。
S202,分别从获取到的多个网站中提取与特定主题对应的评论数据,并根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站。
具体地,可分别在多个具有评论数据的网站中对特定主题的评论数据进行搜索,得到每个网站中与特定主题相关的多个评论数据,然后对每个网站中的评论数据进行数量统计和内容分析,以得到每个网站的评论数据的数量和评论内容的质量(例如评论内容中的无意词比例较低,则网站的评论数据质量较好)。其中,无意词比例是指网站的评论数据中包含“嘻嘻”、“哈哈”、“呵呵”等无意词或其他与当前评论目标无关的内容的评论数据的数量占该网站评论数据总数的比例。然后根据每个网站的评论数据的数量和质量对多个网站进行筛选,选出评论数据的数量较多且质量较好的至少一个网站作为候选网站。
S203,获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据。
其中,评论目标是指某一可被评论的具体的产品或事物,例如,可以是某电影、某一型号的汽车、某一首歌曲等具体产品,也可以是某电影公司、某汽车品牌、某个物业公司等事物。
在本发明的一个实施例中,如图3所示,获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据具体包括:
S2031,获取每个候选网站中的多个URL地址,并抓取每个URL地址对应的数据。
具体地,对于每个候选网站,可获取该网站中所有需要抓取的URL地址,并用网络爬虫等工具下载多个URL地址对应的网页内容,从而得到每个URL地址对应的数据。
S2032,对每个URL地址对应的数据进行语义分析和图像识别。
具体地,可对每个URL地址对应的评论数据中的文字内容进行语义分析,对图片内容进行图像识别,然后去除网页中的广告、页面交互元素等内容,提取出例如商品价格、商品评分、用户评论、评论人数、购买人数等评论数据的相关内容。
S2033,根据语义分析结果和图像识别结果获取每个URL地址对应的数据的评论目标和评论目标对应的评论数据。
其中,评论数据包括评论内容、评论来源、评论人和评论时间中的至少一种。
具体地,可根据语义分析结果和图像识别结果中的商品名称、型号等获取每个URL地址对应的数据的评论目标,以及与评论目标对应的评论内容、评论来源、评论人和评论时间等数据。
S204,获取多个评论目标中属于特定主题的特定评论目标,并将特定评论目标对应的评论数据与特定主题相关联。
具体地,可对多个评论目标进行分析和归类,以确定每个评论目标所属的主题,然后将每个与特定评论目标对应的评论数据与该评论目标所属的特定主题进行关联,从而形成由评论数据到对应的评论目标再到所属主题的关联和/或由评论数据到所属主题的直接关联。
在本发明的一个实施例中,可从语义分析结果和图像识别结果中提取出用户感兴趣的内容,并把不同网站的不同结构的数据统一成相同结构来表示,还可以根据预设存储结构存储特定主题的评论内容、评论来源、评论人和评论时间,如图4所示,即为将不同结构的评论数据进行结构统一化的一种可能的形式。具体的结构统一化方法还有多种,在此不再一一列举。这样,就实现了全局数据在结构上的统一,使来自不同候选网站、结构各异的评论数据都具有统一的格式,为评论数据的检索、全局数据显示和后续可能的数据挖掘工作提供了便利。
其中,预设存储结构可由开发者设计,可以有多种,在此不再一一列举。
S205,分别根据评论内容、评论来源、评论人和评论时间为特定主题的评论数据建立索引。
具体地,在本发明的一个实施例中,还可以根据评论内容、评论来源、评论人和评论时间为特定主题的评论数据建立索引,例如按照评论内容(如好评、中评、差评等),按照评论来源(如不同的网站),按评论人(如评论账号、账号等级等),或按照评论时间等建立索引。从而在用户搜索特定评论目标的评论数据时,可以按照索引中的多种分类条件对评论数据进行筛选,如图5所示为一种可能的检索效果,用户可直接按照评论内容(如好评、中评、差评)、评论来源(如易车网、腾讯汽车、新浪汽车等)对评论内容进行筛选,还可以按照评论时间的顺序来筛选和查看。
S206,分别根据评论内容、评论来源、评论人和评论时间对特定主题的评论数据进行数据挖掘,并根据数据挖掘结果生成每个特定主题的综合评论信息。
具体地,可分别根据评论内容、评论来源、评论人和评论时间对特定主题的评论数据进行数据挖掘,并根据数据挖掘结果生成每个特定主题的综合评论信息。举例而言,如图6所示,可筛选评论内容中出现频率较高的词语生成特定评论目标的标签;也可以筛选采用率较高的评论内容并进行归纳总结,生成特定评论目标的综合评论信息;也可对评论数据进行统计,生成宏观的统计图表,如网友印象等;还可以根据评论来源、评论人的经验等级对评论数据进行加权统计,以获取对特定评论目标的综合评分。
本发明实施例的特定主题的评论数据的采集方法,分别根据评论内容、评论来源、评论人和评论时间对特定主题的评论数据建立索引,方便用户对特定主题的全网评论数据进行筛选,为每个特定主题的综合评论信息,使数据挖掘结果更加直观,实现了互联网全局评论数据的整合,使用户对该特定主题的认知更加全面准确,并且无需用户手动查找和整理,简便快捷,自动化程度高,用户体验好。
为了实现上述实施例,本发明还提出一种特定主题的评论数据的采集装置。
一种特定主题的评论数据的采集装置,包括:构造模块,用于根据特定主题构造搜索词;搜索模块,用于根据搜索词进行搜索以获取多个具有评论数据的网站;提取模块,用于分别从多个具有评论数据的网站中提取与特定主题对应的评论数据;筛选模块,用于根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站;第一获取模块,用于获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据;第二获取模块,用于获取多个评论目标中属于特定主题的特定评论目标;以及关联模块,用于将特定评论目标对应的评论数据与特定主题相关联。
图7是根据本发明一个实施例的特定主题的评论数据的采集装置的结构框图。
如图7所示,特定主题的评论数据的采集装置包括:构造模块100、搜索模块200、提取模块300、筛选模块400、第一获取模块500、第二获取模块600和关联模块700。
具体地,构造模块100用于根据特定主题构造搜索词。其中,主题是指能够用统一概念描述的某一类别的实体,比如:电影、音乐、游戏、景点等。
搜索模块200用于根据搜索词进行搜索以获取多个具有评论数据的网站。
在本发明的实施例中,构造模块100可根据特定主题构造一个或多个搜索词,更具体地,构造模块100可通过主题内容提取关键词作为搜索词,然后通过搜索模块200对搜索词进行搜索,再将搜索结果按照来源网站进行聚类,得到多个具有评论数据的网站,例如,对于特定主题美食,可根据构造的不同的美食名称、对食物的评价词等搜索词获取www.dianping.com、book.douban.com等网站。
提取模块300用于分别从多个具有评论数据的网站中提取与特定主题对应的评论数据。
筛选模块400用于根据每个网站中的评论数据的质量和/或数量从多个网站中筛选出至少一个候选网站。
更具体地,提取模块300可分别在多个具有评论数据的网站中对特定主题的评论数据进行搜索,得到每个网站中与特定主题相关的多个评论数据,然后筛选模块400对每个网站中的评论数据进行数量统计和内容分析,以得到每个网站的评论数据的数量和评论内容中的无意词比例,并筛选出评论数据的数量较多且评论内容中的无意词比例较低的至少一个网站作为候选网站。其中,无意词比例是指网站的评论数据中包含“嘻嘻”、“哈哈”、“呵呵”等无意词或其他与当前评论目标无关的内容的评论数据的数量占该网站评论数据总数的比例。
第一获取模块500用于获取至少一个候选网站中的多个评论目标和与多个评论目标对应的多个评论数据。其中,评论目标是指某一可被评论的具体的产品或事物,例如,可以是某电影、某一型号的汽车、某一首歌曲等具体产品,也可以是某电影公司、某汽车品牌、某个物业公司等事物。更具体地,第一获取模块500可获取每个候选网站中的多个评论目标,并分别获取与评论目标对应的评论数据,例如评论内容、评论来源、评论人和评论时间等。
第二获取模块600用于获取多个评论目标中属于特定主题的特定评论目标。
关联模块700用于将特定评论目标对应的评论数据与特定主题相关联。
更具体地,第二获取模块600可对多个评论目标进行分析和归类,以确定每个评论目标所属的主题,然后关联模块700将每个与特定评论目标对应的评论数据与该评论目标所属的特定主题进行关联,从而形成由评论数据到对应的评论目标再到所属主题的关联和/或由评论数据到所属主题的直接关联。其中,存储结构可以有多种,在此不再一一列举。
本发明实施例的特定主题的评论数据的采集装置,通过从多个具有评论数据的网站中筛选出至少一个候选网站,然后从至少一个候选网站中获取与每个评论目标对应的评论数据并与相应评论目标所属的主题进行关联存储,实现了互联网全局评论数据的整合,得到的评论数据与搜索的评论目标的关联度高,质量好,便于用户获取对特定主题的全网评论数据,从而使用户对该特定主题的认知更加全面准确,并且无需用户手动查找和整理,简便快捷,自动化程度高,用户体验好。
图8是根据本发明又一个实施例的特定主题的评论数据的采集装置的结构框图。
如图8所示,特定主题的评论数据的采集装置包括:构造模块100、搜索模块200、搜索子模块210、第一获取子模块220、提取模块300、筛选模块400、第一获取模块500、第二获取子模块510、分析子模块520、第三获取子模块530、第二获取模块600、关联模块700、建立模块800和数据挖掘模块900。其中,搜索模块200包括搜索子模块210和第一获取子模块220;第一获取模块500包括第二获取子模块510、分析子模块520和第三获取子模块530。
其中,搜索子模块210用于根据多个搜索词进行搜索以获取M个统一资源定位符URL地址。
第一获取子模块220用于获取M个URL地址对应的M个网站,并对M个网站进行聚类分析,以获取N个具有评论数据的网站,其中,M和N为正整数,且M大于等于N。
更具体地,搜索子模块210可根据搜索词进行搜索以获取M个URL(Uniform ResoureLocator,统一资源定位符)地址,然后第一获取子模块220对获取到的M个URL地址进行解析,得到M个URL地址对应的M个来源网站,并对这M个来源网站进行聚类分析,例如M个URL地址中有A个来自P网站,有B个来自Q网站等,最终得到N个具有评论数据的网站,其中,M和N为正整数,且M大于等于N。
第二获取子模块510用于获取每个候选网站中的多个URL地址,并抓取每个URL地址对应的数据。更具体地,对于每个候选网站,第二获取子模块510可获取该网站中所有需要抓取的URL地址,并用网络爬虫等工具下载多个URL地址对应的网页内容(如文字、图片、符号等),从而得到每个URL地址对应的数据。
分析子模块520用于对每个URL地址对应的数据进行语义分析和图像识别。更具体地,分析子模块520可对每个URL地址对应的评论数据中的文字内容进行语义分析,对图片内容进行图像识别,然后去除网页中的广告、页面交互元素等内容,提取出例如商品价格、商品评分、用户评论、评论人数、购买人数等评论数据的相关内容。
第三获取子模块530用于根据语义分析结果和图像识别结果获取每个URL地址对应的数据的评论目标和评论目标对应的评论数据。其中,评论数据包括评论内容、评论来源、评论人和评论时间中的至少一种。更具体地,第三获取子模块530可根据语义分析结果和图像识别结果中的商品名称、型号等获取每个URL地址对应的数据的评论目标,以及与评论目标对应的评论内容、评论来源、评论人和评论时间等数据。
在本发明的一个实施例中,关联模块700还用于根据预设存储结构存储特定主题的评论内容、评论来源、评论人和评论时间。更具体地,关联模块700可根据预设存储结构存储特定主题的评论内容、评论来源、评论人和评论时间,把不同网站的不同结构的数据统一成相同结构来表示,如图4所示,即为将不同结构的评论数据进行结构统一化的一种可能的形式。具体的结构统一化方法还有多种,在此不再一一列举。这样,就实现了全局数据在结构上的统一,使来自不同候选网站、结构各异的评论数据都具有统一的格式,为评论数据的检索、全局数据显示和后续可能的数据挖掘工作提供了便利。
建立模块800用于分别根据评论内容、评论来源、评论人和评论时间为特定主题的评论数据建立索引。更具体地,建立模块800可以根据评论内容、评论来源、评论人和评论时间为特定主题的评论数据建立索引,例如按照评论内容(如好评、中评、差评等),按照评论来源(如不同的网站),按评论人(如评论账号、账号等级等),或按照评论时间等建立索引。从而在用户搜索特定评论目标的评论数据时,可以按照索引中的多种分类条件对评论数据进行筛选,在本发明的一个实施例中,如图5所示为一种可能的检索效果,用户可直接按照评论内容(如好评、中评、差评)、评论来源(如易车网、腾讯汽车、新浪汽车等)对评论内容进行筛选,还可以按照评论时间的顺序来筛选和查看。
数据挖掘模块900用于分别根据评论内容、评论来源、评论人和评论时间对特定主题的评论数据进行数据挖掘,并根据数据挖掘结果生成每个特定主题的综合评论信息。更具体地,数据挖掘模块900可分别根据评论内容、评论来源、评论人和评论时间对特定主题的评论数据进行数据挖掘,并根据数据挖掘结果生成每个特定主题的综合评论信息。举例而言,如图6所示,数据挖掘模块900可筛选评论内容中出现频率较高的词语生成特定评论目标的标签;也可以筛选采用率较高的评论内容并进行归纳总结,生成特定评论目标的综合评论信息;也可对评论数据进行统计,生成宏观的统计图表;还可以根据评论来源、评论人的经验等级对评论数据进行加权统计,以获取对特定评论目标的综合评分。
本发明实施例的特定主题的评论数据的采集装置,可分别根据评论内容、评论来源、评论人和评论时间对特定主题的评论数据建立索引,方便用户对特定主题的全网评论数据进行筛选,为每个特定主题的综合评论信息,使数据挖掘结果更加直观,实现了互联网全局评论数据的整合,使用户对该特定主题的认知更加全面准确,并且无需用户手动查找和整理,简便快捷,自动化程度高,用户体验好。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。

Claims (12)

1.一种特定主题的评论数据的采集方法,其特征在于,包括:
根据特定主题构造搜索词,并根据所述搜索词进行搜索以获取多个具有评论数据的网站;
分别从所述多个具有评论数据的网站中提取与所述特定主题对应的评论数据,并根据每个所述网站中的评论数据的质量和/或数量从所述多个网站中筛选出至少一个候选网站;
获取所述至少一个候选网站中的多个评论目标和与所述多个评论目标对应的多个评论数据;
获取所述多个评论目标中属于所述特定主题的特定评论目标,并将所述特定评论目标对应的评论数据与所述特定主题相关联。
2.如权利要求1所述的方法,其特征在于,所述根据所述搜索词进行搜索以获取多个具有评论数据的网站具体包括:
根据所述搜索词进行搜索以获取M个统一资源定位符URL地址;
获取所述M个URL地址对应的M个网站,并对所述M个网站进行聚类分析,以获取N个具有评论数据的网站,其中,M和N为正整数,且M大于等于N。
3.如权利要求1所述的方法,其特征在于,所述获取所述至少一个候选网站中的多个评论目标和与所述多个评论目标对应的多个评论数据具体包括:
获取每个所述候选网站中的多个URL地址,并抓取每个所述URL地址对应的数据;
对所述每个所述URL地址对应的数据进行语义分析和图像识别;
根据所述语义分析结果和所述图像识别结果获取所述每个所述URL地址对应的数据的评论目标和所述评论目标对应的评论数据。
4.如权利要求1所述的方法,其特征在于,所述评论数据包括评论内容、评论来源、评论人和评论时间中的至少一种,在所述将所述特定评论目标对应的评论数据与所述特定主题相关联之后,还包括:
根据预设存储结构存储所述特定主题的评论内容、评论来源、评论人和评论时间。
5.如权利要求4所述的方法,其特征在于,还包括:
分别根据所述评论内容、所述评论来源、所述评论人和评论时间为所述特定主题的评论数据建立索引。
6.如权利要求4所述的方法,其特征在于,还包括:
分别根据所述评论内容、所述评论来源、所述评论人和评论时间对所述特定主题的评论数据进行数据挖掘,并根据所述数据挖掘结果生成所述每个特定主题的综合评论信息。
7.一种特定主题的评论数据的采集装置,其特征在于,包括:
构造模块,用于根据特定主题构造搜索词;
搜索模块,用于根据所述搜索词进行搜索以获取多个具有评论数据的网站;
提取模块,用于分别从所述多个具有评论数据的网站中提取与所述特定主题对应的评论数据;
筛选模块,用于根据每个所述网站中的评论数据的质量和/或数量从所述多个网站中筛选出至少一个候选网站;
第一获取模块,用于获取所述至少一个候选网站中的多个评论目标和与所述多个评论目标对应的多个评论数据;
第二获取模块,用于获取所述多个评论目标中属于所述特定主题的特定评论目标;以及
关联模块,用于将所述特定评论目标对应的评论数据与所述特定主题相关联。
8.如权利要求7所述的装置,其特征在于,所述搜索模块进一步包括:
搜索子模块,用于根据所述多个搜索词进行搜索以获取M个统一资源定位符URL地址;以及
第一获取子模块,用于获取所述M个URL地址对应的M个网站,并对所述M个网站进行聚类分析,以获取N个具有评论数据的网站,其中,M和N为正整数,且M大于等于N。
9.如权利要求7所述的装置,其特征在于,所述第一获取模块进一步包括:
第二获取子模块,用于获取每个所述候选网站中的多个URL地址,并抓取每个所述URL地址对应的数据;
分析子模块,用于对所述每个所述URL地址对应的数据进行语义分析和图像识别;以及
第三获取子模块,用于根据所述语义分析结果和所述图像识别结果获取所述每个所述URL地址对应的数据的评论目标和所述评论目标对应的评论数据。
10.如权利要求7所述的装置,其特征在于,所述评论数据包括评论内容、评论来源、评论人和评论时间中的至少一种,所述关联模块还用于根据预设存储结构存储所述特定主题的评论内容、评论来源、评论人和评论时间。
11.如权利要求10所述的装置,其特征在于,还包括:
建立模块,用于分别根据所述评论内容、所述评论来源、所述评论人和评论时间为所述特定主题的评论数据建立索引。
12.如权利要求10所述的装置,其特征在于,还包括:
数据挖掘模块,用于分别根据所述评论内容、所述评论来源、所述评论人和评论时间对所述特定主题的评论数据进行数据挖掘,并根据所述数据挖掘结果生成所述每个特定主题的综合评论信息。
CN201410103248.0A 2014-03-19 2014-03-19 特定主题的评论数据的采集方法和装置 Active CN103902674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410103248.0A CN103902674B (zh) 2014-03-19 2014-03-19 特定主题的评论数据的采集方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410103248.0A CN103902674B (zh) 2014-03-19 2014-03-19 特定主题的评论数据的采集方法和装置

Publications (2)

Publication Number Publication Date
CN103902674A true CN103902674A (zh) 2014-07-02
CN103902674B CN103902674B (zh) 2017-10-27

Family

ID=50993996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410103248.0A Active CN103902674B (zh) 2014-03-19 2014-03-19 特定主题的评论数据的采集方法和装置

Country Status (1)

Country Link
CN (1) CN103902674B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486682A (zh) * 2014-12-30 2015-04-01 康佳集团股份有限公司 一种查看电视节目评论的方法
CN106126592A (zh) * 2016-06-20 2016-11-16 北京小米移动软件有限公司 搜索数据的处理方法及装置
CN106446276A (zh) * 2016-10-21 2017-02-22 天津海量信息技术股份有限公司 多数据对象的关联MapReduce挖掘方法
CN106777202A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 基于搜索的资讯信息推荐方法及装置
CN106777206A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 影视剧类关键词搜索展现方法及装置
WO2018014759A1 (zh) * 2016-07-18 2018-01-25 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和***
CN107861994A (zh) * 2017-10-18 2018-03-30 福建中金在线信息科技有限公司 日志整理方法及装置
CN108228794A (zh) * 2017-12-29 2018-06-29 三角兽(北京)科技有限公司 信息管理装置、信息处理装置及自动回复/评论方法
CN108520441A (zh) * 2018-04-04 2018-09-11 网易无尾熊(杭州)科技有限公司 数据处理方法、介质、***和计算设备
CN110008395A (zh) * 2018-09-17 2019-07-12 北京字节跳动网络技术有限公司 评论内容的呈现方法、装置、存储介质及终端
CN111639172A (zh) * 2020-06-01 2020-09-08 复旦大学 在线评论筛选装置
CN111798223A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据收集方法、装置、存储介质及电子设备
CN112287102A (zh) * 2019-08-29 2021-01-29 北京京东尚科信息技术有限公司 数据挖掘方法和装置
CN112507146A (zh) * 2020-11-27 2021-03-16 北京达佳互联信息技术有限公司 信息处理方法、装置、电子设备及存储介质
CN112883154A (zh) * 2021-01-28 2021-06-01 平安科技(深圳)有限公司 文本主题挖掘方法、装置、计算机设备及存储介质
CN113723087A (zh) * 2021-09-15 2021-11-30 北京字跳网络技术有限公司 信息处理方法、装置、设备、可读存储介质及产品
CN114363310A (zh) * 2016-04-15 2022-04-15 电子湾有限公司 跨不同站点采用数据
CN112507146B (zh) * 2020-11-27 2024-07-30 北京达佳互联信息技术有限公司 信息处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
US20110231416A1 (en) * 2010-03-22 2011-09-22 Brandon Lee Goodchild Drake Analyzing script for scanning mass internet content
CN103164438A (zh) * 2011-12-13 2013-06-19 北大方正集团有限公司 一种网络评论的采集方法及***
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
US20110231416A1 (en) * 2010-03-22 2011-09-22 Brandon Lee Goodchild Drake Analyzing script for scanning mass internet content
CN103164438A (zh) * 2011-12-13 2013-06-19 北大方正集团有限公司 一种网络评论的采集方法及***
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104486682A (zh) * 2014-12-30 2015-04-01 康佳集团股份有限公司 一种查看电视节目评论的方法
CN114363310B (zh) * 2016-04-15 2023-07-18 电子湾有限公司 跨不同站点采用数据
CN114363310A (zh) * 2016-04-15 2022-04-15 电子湾有限公司 跨不同站点采用数据
CN106126592A (zh) * 2016-06-20 2016-11-16 北京小米移动软件有限公司 搜索数据的处理方法及装置
CN106126592B (zh) * 2016-06-20 2021-09-14 北京小米移动软件有限公司 搜索数据的处理方法及装置
WO2018014759A1 (zh) * 2016-07-18 2018-01-25 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和***
CN107632984A (zh) * 2016-07-18 2018-01-26 阿里巴巴集团控股有限公司 一种聚类数据表的展现方法、装置和***
CN106446276A (zh) * 2016-10-21 2017-02-22 天津海量信息技术股份有限公司 多数据对象的关联MapReduce挖掘方法
CN106777202A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 基于搜索的资讯信息推荐方法及装置
CN106777206A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 影视剧类关键词搜索展现方法及装置
CN107861994A (zh) * 2017-10-18 2018-03-30 福建中金在线信息科技有限公司 日志整理方法及装置
CN107861994B (zh) * 2017-10-18 2021-07-02 福建中金在线信息科技有限公司 日志整理方法及装置
CN108228794A (zh) * 2017-12-29 2018-06-29 三角兽(北京)科技有限公司 信息管理装置、信息处理装置及自动回复/评论方法
CN108520441A (zh) * 2018-04-04 2018-09-11 网易无尾熊(杭州)科技有限公司 数据处理方法、介质、***和计算设备
CN110008395A (zh) * 2018-09-17 2019-07-12 北京字节跳动网络技术有限公司 评论内容的呈现方法、装置、存储介质及终端
CN111798223A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据收集方法、装置、存储介质及电子设备
CN112287102A (zh) * 2019-08-29 2021-01-29 北京京东尚科信息技术有限公司 数据挖掘方法和装置
CN112287102B (zh) * 2019-08-29 2024-04-16 北京京东尚科信息技术有限公司 数据挖掘方法和装置
CN111639172A (zh) * 2020-06-01 2020-09-08 复旦大学 在线评论筛选装置
CN112507146A (zh) * 2020-11-27 2021-03-16 北京达佳互联信息技术有限公司 信息处理方法、装置、电子设备及存储介质
CN112507146B (zh) * 2020-11-27 2024-07-30 北京达佳互联信息技术有限公司 信息处理方法、装置、电子设备及存储介质
CN112883154A (zh) * 2021-01-28 2021-06-01 平安科技(深圳)有限公司 文本主题挖掘方法、装置、计算机设备及存储介质
CN113723087A (zh) * 2021-09-15 2021-11-30 北京字跳网络技术有限公司 信息处理方法、装置、设备、可读存储介质及产品
CN113723087B (zh) * 2021-09-15 2023-02-28 北京字跳网络技术有限公司 信息处理方法、装置、设备、可读存储介质及产品

Also Published As

Publication number Publication date
CN103902674B (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN103902674A (zh) 特定主题的评论数据的采集方法和装置
US10546005B2 (en) Perspective data analysis and management
Priem et al. Scientometrics 2.0: New metrics of scholarly impact on the social Web
US9600530B2 (en) Updating a search index used to facilitate application searches
US20110078206A1 (en) Tagging method and apparatus based on structured data set
US20140358630A1 (en) Apparatus and process for conducting social media analytics
KR101566616B1 (ko) 빅데이터 처리를 통한 광고의사결정시스템 및 방법
CN105095288A (zh) 数据分析方法及数据分析装置
US10042913B2 (en) Perspective data analysis and management
CN104102733A (zh) 搜索内容提供方法和搜索引擎
CN103500158A (zh) 批注电子文档的方法和装置
US20170228378A1 (en) Extracting topics from customer review search queries
CN102915358B (zh) 导航网站实现方法和装置
CN104503988A (zh) 搜索方法及装置
US20160092915A1 (en) Method and system of enhancing online contents value
CN102915357B (zh) 一种实现网站导航的方法和装置
Pla Karidi et al. Automatic ground truth dataset creation for fake news detection in social media
KR101614843B1 (ko) 사회 이슈에 대한 은폐를 탐지하는 방법 및 판단 장치
CN104156458A (zh) 一种信息的提取方法及装置
CN105354265A (zh) 一种自动构建投放关键词关联结构的方法及装置
CN104036036A (zh) 网页搜索的提示方法和装置
Donig et al. Web archive analytics: Blind spots and silences in distant readings of the archived web
CN104408131B (zh) 直达号关键词的推荐方法和装置
Pérez-Granados et al. Sentiment analysis in Colombian online newspaper comments
US20180033056A1 (en) Competitor trend-based social content ideation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant