CN106844403A - 信息处理方法和装置 - Google Patents

信息处理方法和装置 Download PDF

Info

Publication number
CN106844403A
CN106844403A CN201510892230.8A CN201510892230A CN106844403A CN 106844403 A CN106844403 A CN 106844403A CN 201510892230 A CN201510892230 A CN 201510892230A CN 106844403 A CN106844403 A CN 106844403A
Authority
CN
China
Prior art keywords
information
user
opinion rating
mark
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510892230.8A
Other languages
English (en)
Other versions
CN106844403B (zh
Inventor
刘嘉
钦滨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510892230.8A priority Critical patent/CN106844403B/zh
Publication of CN106844403A publication Critical patent/CN106844403A/zh
Application granted granted Critical
Publication of CN106844403B publication Critical patent/CN106844403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种信息处理方法和装置,其中,方法包括:基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息;根据预先获得的信息判断模型,分别针对爬取到的各用户评述信息,获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级;在信息***中存储所述指定产品及其标注评价等级的用户评价信息。本发明实施例可以使用户可以全面了解汽车的评价信息。

Description

信息处理方法和装置
技术领域
本发明涉及互联网技术,尤其是一种信息处理方法和装置。
背景技术
当前,汽车已成为大众出行、货物运输的主要运载工具。针对各种品牌、型号的汽车,互联网上存在并不断涌现海量的评价信息,如何快速获取这些互联网上对汽车的评价信息并对其进行分析研究,对汽车生产厂商和行业研究人员而言,都是一项具有巨大挑战、但却非常有价值的工作。对汽车厂商而言,可以从用户的评论信息中掌握其产品的使用优缺点、以及在市场上的评价排序。同时,汽车口碑对消费者也非常重要,为消费者选择汽车品牌、型号提供了参考。
在实现本发明的过程中,发明人发现,现有技术中,尚不存在一种全面了解汽车口碑的方式,汽车厂商、行业研究人员、消费者只能针对特定品牌、型号的汽车,从各汽车论坛搜索其评价信息,信息了解不全面,信息获取效率低下。
发明内容
本发明实施例所要解决的一个技术问题是:提供一种信息处理方法和装置,以使用户可以全面了解汽车的评价信息。
根据本发明实施例的一个方面,提供的一种信息处理方法,包括:
基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息;
根据预先获得的信息判断模型,分别针对爬取到的各用户评述信息,获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级;
在信息***中存储所述指定产品及其标注评价等级的用户评价信息。
在本发明另一实施例的信息处理方法中,还包括获取所述爬取规则的操作;
所述爬取规则具体为基于用户对互联网上指定产品的用户评述信息进行分析后设定的关键词设置的爬取标准;所述关键词包括指定产品的指标参数。
在本发明另一实施例的信息处理方法中,所述从互联网爬取指定产品的用户评述信息包括:
利用网络爬虫,对第三方平台网站的口碑专栏里的任意一个或多个版块进行定向爬取,获得用户评述信息;
所述口碑专栏里的版块包括:车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置、油耗。
在本发明另一实施例的信息处理方法中,还包括:
响应于检测到新建语料包,对新建语料包进行学习,形成所述信息判断模型;所述语料包基于对各种评价等级的特征的总结形成,所述特征包括关键词和/或关键句型;或者
响应于检测到语料包被更新,对更新后的语料包进行学习,并对所述信息判断模型进行更新。
在本发明另一实施例的信息处理方法中,所述获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级包括:
获取用户评述信息中各特征对应的评价等级,所述特征包括关键词和/或关键句型;
响应于所述用户评述信息中包含同时对应多个不同评价等级的无效特征,去除同时对应多个不同评价等级的无效特征;
对所述用户评述信息中特征去除无效特征后得到的各有效特征分别标注相应的评价等级。
在本发明另一实施例的信息处理方法中,所述将标注评价等级的用户评价信息存储到信息***中之前,还包括:
根据分类要素对用户评述信息进行分类,获得用户评述信息的类别;所述指定产品为汽车时,所述分类要素包括车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置与油耗中的任意一种或多种;
所述在信息***中存储所述指定产品及其标注评价等级的用户评价信息包括:根据用户评述信息的类别,在信息***中的相应位置存储所述指定产品及其标注评价等级的用户评价信息。
在本发明另一实施例的信息处理方法中,所述获取用户评述信息对应的评价等级之后,还包括:
判断是否获取到用户评述信息对应的评价等级;
响应于获取到用户评述信息对应的评价等级,执行所述对用户评论信息标注获取到的评价等级的操作;
否则,响应于未获取到用户评述信息对应的评价等级,输出未获取到评价等级的用户评述信息,并接收用户针对未获取到评价等级的用户评述信息反馈的评价等级;对未获取到评价等级的用户评述信息标注用户反馈的评价等级。
在本发明另一实施例的信息处理方法中,基于预先设置的爬取周期或用户输入的爬取指令,执行所述基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息的操作。
根据本发明实施例的另一个方面,提供的一种信息处理装置,包括:
获取单元,用于基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息;
标注单元,用于根据预先获得的信息判断模型,分别针对爬取到的各用户评述信息,获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级;
存储处理单元,用于在信息***中存储所述指定产品及其标注评价等级的用户评价信息。
在本发明另一实施例的信息处理装置中,还包括:
第一存储单元,用于存储所述爬取规则;所述爬取规则具体为基于用户对互联网上指定产品的用户评述信息进行分析后设定的关键词设置的爬取标准;所述关键词包括指定产品的指标参数。
基于本发明上述实施例提供的信息处理方法和装置,基于预先设置的爬取规则,从互联网爬取指定产品(例如但不限于汽车)的用户评述信息;根据预先获得的信息判断模型,分别获取各用户评述信息对应的评价等级并对其标注评价等级,之后,将标注评价等级的用户评价信息汇总到信息***中,通过信息***全面收录指定产品各种评价等级的用户信息,形成了一个用户口碑评价体系,使用户从信息***可以方便、全面地查询产品各方面的口碑信息,解决了现有技术用户对产品信息了解不全面、信息获取效率低下等问题,为产品厂商、行业研究人员、消费者提供了诸多便利。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明信息处理方法一个实施例的流程图。
图2为本发明实施例中形成语料包的一个实施例的流程图。
图3为本发明信息处理方法另一个实施例的流程图。
图4为本发明信息处理装置一个实施例的结构示意图。
图5为本发明信息处理装置另一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明信息处理方法一个实施例的流程图。如图1所示,该实施例的信息处理方法包括:
102,基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息。
本发明实施例中的指定产品例如可以是汽车、电动车、手机终端、房产等任意产品。
104,根据预先获得的信息判断模型,分别针对爬取到的各用户评述信息,获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级。
其中的评价等级用于反映用户对该指定产品的评价,例如根据用户对产品的评价好坏可以将评价等级分为包括正性(+1)、中性(0)、负性(-1)三个评价等级,正性(+1)表示用户对该产品的评价为正面评价,中性(0)表示用户对该产品评价一般,不好不差,负性(-1)用户对该产品的评价为负面评价。
106,在信息***中存储上述指定产品及其标注评价等级的用户评价信息,即:在信息***中进行上述指定产品及其标注评价等级的用户评价信息的关联性存储,在信息***中便可基于指定产品获取其标注评价等级的用户评价信息。
具体地,本发明各实施例中的操作102可以根据实际需求,基于预先设置的爬取周期或用户输入的爬取指令触发,即可以周期性地或者在用户有需求时触发执行本发明实施例的信息处理方法,来形成汇总有关于该指定产品标注评价等级的用户评价信息的信息***,或者对信息***中的用户评价信息进行更新。
基于本发明上述实施例提供的信息处理方法,基于预先设置的爬取规则,从互联网爬取指定产品(例如但不限于汽车)的用户评述信息;根据预先获得的信息判断模型,分别获取各用户评述信息对应的评价等级并对其标注评价等级,之后,将标注评价等级的用户评价信息汇总到信息***中,通过信息***全面收录指定产品各种评价等级的用户信息,形成了一个用户口碑评价体系,使用户从信息***可以方便、全面地查询产品各方面的口碑信息,为产品厂商、行业研究人员、消费者提供了诸多便利。
在本发明信息处理方法的另一个实施例中,还包括获取爬取规则的操作,包括但不限于接收用户临时输入的爬取规则,或者获取用户预先设置的爬取规则。其中,爬取规则具体为基于用户对互联网上指定产品的用户评述信息进行分析后设定的关键词设置的爬取标准。
例如,在一个具体示例中,可以通过如下方式获取爬取规则:针对互联网上的用户评述信息(即:评论性语句)进行人工分析,确定可能反映用户体验、影响产品口碑的词汇并提取出来设定为关键词,例如,对用户评述信息“SelectShift6速手自一体变速箱有着不错的响应速度,换挡逻辑也很清晰,能够快”分析获知,其中的关键词“响应速度”、“换挡逻辑”会影响汽车产品的口碑,因此提取关键词“响应速度”、“换挡逻辑”;根据分析结果设定后续从互联网爬取用户评述信息的爬取规则,该爬取规则可以是,只爬取包括用户设定的关键词的用户评述信息。
为了实现对指定产品信息的全面获取,在另一个具体示例中,爬取规则的关键词中除了可能反映用户体验、影响产品口碑的词汇,还可以根据该指定产品的产品特点,设置该指定产品的指标参数,并设置爬取规则中的关键词包括该指定产品的指标参数。例如,针对汽车产品,可以设置爬取规则中的关键词包括品牌、型号、排量等各项指标参数,在用户评述信息“详细车型情况表如下:奇骏车型最新价格变化报价车型指导...”就属于要爬取的信息范围。
其中,为了获得比较权威的用户评述信息,建立客观、严谨的产品口碑体系,在本发明信息处理方法的另一个实施例中,从互联网爬取指定产品的用户评述信息时,可以利用网络爬虫,对第三方平台权威网站的口碑专栏进行定向爬取,例如,分别针对口碑专栏里的车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置、油耗等任意一个或多个版块中的用户评述信息进行爬取,获得用户评述信息。其中的网络爬虫(简称:爬虫),是一种自动获取网页内容的程序,是搜索引擎的一个重要组成部分。
在本发明信息处理方法的又一个实施例中,还包括:检测到新建语料包时,对新建语料包进行学习,形成信息判断模型。其中的语料包基于对各种评价等级的特征的总结形成,该特征可以包括关键词和/或关键句型。另外,在检测到语料包被更新时,还可以对更新后的语料包进行学习,并根据学习结果对信息判断模型进行更新。
其中的句型也即句式,一个句子必须按照一定的模式来组织,这个模式称为句式,句式可以包括:陈述句、疑问句、祈使句、感叹句、被字句、把字句、反问句、设问句、肯定句、否定句等。根据句子的表述方式结合句末情感词,可以确定句子的句式,例如,“…多好啊”为感叹句,“难道…好吗?”为反问句,“…不…”为否定句。可以总结各种评价等级的特征,例如,正性(+1)、中性(0)、负性(-1)三个评价等级分别对应的关键词和/或关键句型,形成语料包。装置对该语料包进行学习,便可以形成信息判断模型,后续爬取到用户评述信息时,分析其特征,并基于信息判断模型分析其特征对应的评价等级,从而实现对用户评述信息评价等级的确定。
图2为本发明实施例中形成语料包的一个实施例的流程图。如图2所示,可以通过如下操作形成语料包:
202,针对互联网上的用户评述信息进行人工分析,确定可能反映用户体验、影响产品口碑的词汇并提取出来设定为关键词。
204,根据分析结果设定爬取规则,该爬取规则包括:爬取包括用户设定的关键词的用户评述信息。
即:根据该爬取规则,当识别出一条用户评述信息中包括用户设定的关键词时,则利用网络爬虫爬取该条用户评述信息;当识别出一条用户评述信息未包括用户设定的关键词时,爬虫将其忽略,不进行爬取。
例如,用户设定的关键词包括“响应速度”、“换挡逻辑”,则用户评述信息“SelectShift6速手自一体变速箱有着不错的响应速度,换挡逻辑也很清晰,能够快”就属于网络爬虫爬取的对象。
206,利用网络爬虫,对第三方平台权威网站的口碑专栏进行定向爬取,获得一定数量的用户评述信息。
其中,用户评述信息的具体数量多少,应该使这些用户评述信息支持或基本支持获得各种评价等级可能对应的特征。
之后,分别针对每一条用户评述信息,执行操作208~210。
208,根据预先设置的分类要素对用户评述信息进行分类,获得用户评述信息的类别。
例如,汽车产品的类别可以为:车型分类(宝马、兰博基尼、丰田、大众)、排量分类(1.6排、1.3排)、空间分类、动力分类等。
210,根据用户评述信息的类别,确定用户评述信息对应的评价等级并对用户评论信息标注评价等级。
212,根据各用户评论信息的评价等级,人工总结各种评价等级对应的特征,包括关键词和/或关键句型,形成语料包。
先人工对足够多用户评述信息进行评价等级判定,并标注评价等级,例如,正性(+1)、中性(0)、负性(-1);分别总结各种评价等级(中性、正性、负性)的关键词及句型形成语料包,例如“不舒服、太慢”就属于负性语料。
对语料包进行学习,形成信息判断模型便可判定用户评述信息的评价等级。例如,根据学习语料包形成的信息判断模型,对用户评述信息“作为多用途汽车的MPV车型,以往留给人们的印象是宽敞、实用,算得上是家庭用车的好选择”便可以判定其评价等级为正性,判断依据具体为信息判断模型中“算得上是…的好选择”这个关键句型对应正性。
在实际应用中,一条用户评述信息中可能包括多个由关键词和/或关键句型形成的特征,不同特征可能对应于对指定产品不同指标参数的评价,例如,用户评述信息“AA牌1.6排汽车外观非常漂亮,但是空间太小,装饰也不是特别好”,就包含了三个特征“外观…漂亮”、“空间…小”、“装饰也不…好”,分别对汽车产品外观、空间、装饰三方面指标参数进行了评价。则在本发明上述实施例的操作104中,获取一条用户评述信息对应的评价等级时,具体可以分别获取该用户评述信息中各特征对应的评价等级。如果用户评述信息中的某个特征同时对应多个不同评价等级,例如,若特征“空间大…小…其实也还算可以”即同时对应了正性(+1)、中性(0)、负性(-1)三个评价等级,则该特征无法反映用户对该产品的评价倾向,本发明实施例中将该类特征称为无效特征,先去除用户评述信息包括的特征中同时对应多个不同评价等级的无效特征,然后再其余的各有效特征分别标注相应的评价等级。
另外,为了使用户可以方便地了解产品某方面的用户口碑,在执行操作106前,可以根据预先设置的分类要素对用户评述信息进行分类,获得用户评述信息的类别,这样,操作106中,具体根据用户评述信息的类别,例如汽车产品可以按照车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置、油耗等分类要素分类,在信息***中的相应位置存储上述指定产品及其标注评价等级的用户评价信息,这样,用户在信息***中,针对上述指定产品便可以分类获取各用户评述信息及其评价等级,并可以获知其评价等级的总体情况,例如正性、负性、中性用户评述信息的数量,并了解竞争产品在各方面的评价等级优劣,即口碑好坏。例如,在一个具体应用中,可以从信息***方便地检索出1.6排量的所有车型的口碑排序,以及各种性能(空间、动力、操控性等)的口碑排序。
具体示例中,可以先根据预先设置的分类要素对用户评述信息进行分类,然后再根据用户评述信息的类别获取根据用户评述信息对应的评价等级;也可以在获取根据用户评述信息对应的评价等级后,再根据预先设置的分类要素对用户评述信息进行分类并进行评价等级标注;另外,还可以在对用户评论信息标注获取到的评价等级后再对用户评述信息进行分类。
图3为本发明信息处理方法另一个实施例的流程图。如图3所示,该实施例的信息处理方法包括:
302,利用网络爬虫,基于预先设置的爬取规则,对第三方平台权威网站的口碑专栏进行定向爬取,获得指定产品的用户评述信息,并分别针对爬取到的每一条用户评述信息,执行操作304。
本发明实施例中的指定产品例如可以是汽车、电动车、手机终端、房产等任意产品。指定产品为汽车时,具体可以分别针对口碑专栏里的车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置、油耗等任意一个或多个版块中的用户评述信息进行爬取,分别获得指定产品在各方面的用户评述信息。
304,根据预先设置的分类要素对用户评述信息进行分类,获得用户评述信息的类别。
306,根据信息判断模型,获取用户评述信息在相应类别下的评价等级。
其中的评价等级用于反映用户对该指定产品的评价,例如根据用户对产品的评价好坏可以将评价等级分为包括正性(+1)、中性(0)、负性(-1)三个评价等级,正性(+1)表示用户对该产品的评价为正面评价,中性(0)表示用户对该产品评价一般,不好不差,负性(-1)用户对该产品的评价为负面评价。
308,判断是否获取到用户评述信息对应的评价等级。
若获取到用户评述信息对应的评价等级,执行操作,310。否则,若未获取到用户评述信息对应的评价等级,执行操作312。
310,对用户评论信息标注获取到的评价等级。
之后,执行操作316。
312,输出未获取到评价等级的用户评述信息,并接收用户针对该未获取到评价等级的用户评述信息反馈的评价等级。
对于无法获取到用户评述信息对应评价等级的用户评述信息,反馈给用户进行人工确定,有效保证了对用户评述信息评价等级确定的准确率。
314,对该未获取到评价等级的用户评述信息标注用户反馈的评价等级。
316,信息***中该用户评价信息所属类别的相应位置存储上述指定产品及其标注评价等级的用户评价信息。
进一步地,在上述实施例中,通过操作312获得该用户评述信息的评价等级后,可以对该用户评述信息进行分析,总结该用户评述信息的特征和评价等级,据此对语料包进行更新,并对更新后的语料包进行学习,然后根据学习结果对信息判断模型进行更新,以便在后续爬取到具有同样特征的用户评述信息时,可以获取到具有同样特征的用户评述信息的评价等级。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图4为本发明信息处理装置一个实施例的结构示意图。该实施例的信息处理装置可用于实现本发明上述各信息处理方法实施例。如图4所示,该实施例的信息处理装置包括获取单元、标注单元和存储处理单元。其中:
获取单元,用于基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息。
本发明实施例中的指定产品例如可以是汽车、电动车、手机终端、房产等任意产品。在一个具体示例中,获取单元可以具体利用网络爬虫,对第三方平台网站的口碑专栏进行定向爬取,例如,指定产品为汽车时,分别针对口碑专栏里的车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置、油耗等任意一个或多个版块中的用户评述信息进行爬取,获得用户评述信息。
在另一个具体示例中,获取单元具体可基于预先设置的爬取周期或用户输入的爬取指令,执行基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息的操作。
标注单元,用于根据预先获得的信息判断模型,分别针对获取单元爬取到的各用户评述信息,获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级。
存储处理单元,用于在信息***中存储上述指定产品及其标注评价等级的用户评价信息。
基于本发明上述实施例提供的信息处理装置,基于预先设置的爬取规则,从互联网爬取指定产品(例如但不限于汽车)的用户评述信息;根据预先获得的信息判断模型,分别获取各用户评述信息对应的评价等级并对其标注评价等级,之后,将标注评价等级的用户评价信息汇总到信息***中,通过信息***全面收录指定产品各种评价等级的用户信息,形成了一个用户口碑评价体系,使用户从信息***可以方便、全面地查询产品各方面的口碑信息,为产品厂商、行业研究人员、消费者提供了诸多便利。
图5为本发明信息处理装置另一个实施例的结构示意图。如图5所示,与图4所示的实施例相比,该实施例的信息处理装置还包括第一存储单元,用于存储上述预先设置的爬取规则,该爬取规则具体可以是基于用户对互联网上指定产品的用户评述信息进行分析后设定的关键词设置的爬取标准。其中的关键词可以包括指定产品的指标参数。
另外,再参见图5,在本发明信息处理装置的又一个实施例中,还可以包括学习单元、第二存储单元和第三存储单元。其中:
学习单元,用于在检测到新建语料包时,对新建语料包进行学习,形成信息判断模型;或者,在检测到语料包被更新时,对更新后的语料包进行学习,并对信息判断模型进行更新;。其中,语料包基于对各种评价等级的特征的总结形成,该特征包括关键词和/或关键句型。
第二存储单元,用于存储语料包。
第三存储单元,用于存储信息判断模型。
在本发明上述各信息处理装置实施例的一个具体示例中,标注单元具体可以获取用户评述信息中各特征对应的评价等级,特征包括关键词和/或关键句型;在用户评述信息中包含同时对应多个不同评价等级的无效特征时,去除同时对应多个不同评价等级的无效特征,然后对用户评述信息中特征去除无效特征后得到的各有效特征分别标注相应的评价等级。
另外,再参见图5,在本发明信息处理装置的又一个实施例中,还可以包括分类单元,用于根据分类要素对用户评述信息进行分类,获得用户评述信息的类别。指定产品为汽车时,其中的分类要素例如可以是车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置与油耗中的任意一种或多种。相应地,该实施例中,存储处理单元具体根据用户评述信息的类别,在信息***中的相应位置存储上述指定产品及其标注评价等级的用户评价信息。
再参见图5,在本发明信息处理装置的再一个实施例中,还可以包括判断单元和交互单元。其中:
判断单元,用于判断标注单元是否获取到用户评述信息对应的评价等级。
交互单元,用于根据判断单元的判断结果,在标注单元未获取到用户评述信息对应的评价等级时,输出未获取到评价等级的用户评述信息,并接收用户针对未获取到评价等级的用户评述信息反馈的评价等级。
相应地,标注单元对未获取到评价等级的用户评述信息标注交互单元接收到的、用户反馈的评价等级。
本发明上述实施例的信息处理装置包括处理器和存储器,上述获取单元、标注单元、存储处理单元、第一存储单元、学习单元、第二存储单元、第三存储单元、分类单元、判断单元和交互单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来全面收录指定产品各种评价等级的用户信息,形成一个用户口碑评价体系,使用户从信息***可以方便、全面地查询产品各方面的口碑信息。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息;根据预先获得的信息判断模型,分别针对爬取到的各用户评述信息,获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级;将标注评价等级的用户评价信息存储到信息***中。
另外,本发明实施例还提供了一种信息***,用于存储基于本发明上述任一信息处理方法或装置标注评价等级后的用户评价信息。该信息***全面收录了指定产品各种评价等级的用户信息,形成了一个用户口碑评价体系,使用户从信息***可以方便、全面地查询产品各方面的口碑信息,为产品厂商、行业研究人员、消费者提供了诸多便利。
本发明实施例公开了以下技术方案:
1、一种信息处理方法,包括:
基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息;
根据预先获得的信息判断模型,分别针对爬取到的各用户评述信息,获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级;
在信息***中存储所述指定产品及其标注评价等级的用户评价信息。
2、根据1所述的方法,还包括获取所述爬取规则的操作;
所述爬取规则具体为基于用户对互联网上指定产品的用户评述信息进行分析后设定的关键词设置的爬取标准;所述关键词包括指定产品的指标参数。
3、根据1或2所述的方法,所述从互联网爬取指定产品的用户评述信息包括:
利用网络爬虫,对第三方平台网站的口碑专栏里的任意一个或多个版块进行定向爬取,获得用户评述信息;所述口碑专栏里的版块包括:车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置、油耗。
4、根据1至3任意一项所述的方法,还包括:
响应于检测到新建语料包,对新建语料包进行学习,形成所述信息判断模型;所述语料包基于对各种评价等级的特征的总结形成,所述特征包括关键词和/或关键句型;或者
响应于检测到语料包被更新,对更新后的语料包进行学习,并对所述信息判断模型进行更新。
5、根据1至4任意一项所述的方法,所述获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级包括:
获取用户评述信息中各特征对应的评价等级,所述特征包括关键词和/或关键句型;
响应于所述用户评述信息中包含同时对应多个不同评价等级的无效特征,去除同时对应多个不同评价等级的无效特征;
对所述用户评述信息中特征去除无效特征后得到的各有效特征分别标注相应的评价等级。
6、根据1至5任意一项所述的方法,所述将标注评价等级的用户评价信息存储到信息***中之前,还包括:
根据分类要素对用户评述信息进行分类,获得用户评述信息的类别;所述指定产品为汽车时,所述分类要素包括车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置与油耗中的任意一种或多种;
所述在信息***中存储所述指定产品及其标注评价等级的用户评价信息包括:根据用户评述信息的类别,在信息***中的相应位置存储所述指定产品及其标注评价等级的用户评价信息。
7、根据1至6任意一项所述的方法,所述获取用户评述信息对应的评价等级之后,还包括:
判断是否获取到用户评述信息对应的评价等级;
响应于获取到用户评述信息对应的评价等级,执行所述对用户评论信息标注获取到的评价等级的操作;
否则,响应于未获取到用户评述信息对应的评价等级,输出未获取到评价等级的用户评述信息,并接收用户针对未获取到评价等级的用户评述信息反馈的评价等级;对未获取到评价等级的用户评述信息标注用户反馈的评价等级。
8、根据1至7任意一项所述的方法,基于预先设置的爬取周期或用户输入的爬取指令,执行所述基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息的操作。
9、一种信息处理装置,包括:
获取单元,用于基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息;
标注单元,用于根据预先获得的信息判断模型,分别针对爬取到的各用户评述信息,获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级;
存储处理单元,用于在信息***中存储所述指定产品及其标注评价等级的用户评价信息。
10、根据9所述的装置,还包括:
第一存储单元,用于存储所述爬取规则;所述爬取规则具体为基于用户对互联网上指定产品的用户评述信息进行分析后设定的关键词设置的爬取标准;所述关键词包括指定产品的指标参数。
11、根据9或10所述的装置,所述获取单元,具体利用网络爬虫,对第三方平台网站的口碑专栏里的任意一个或多个版块进行定向爬取,获得用户评述信息;所述口碑专栏里的版块包括:车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置、油耗。
12、根据9至11任意一项所述的装置,还包括:
学习单元,用于在检测到新建语料包时,对新建语料包进行学习,形成所述信息判断模型;所述语料包基于对各种评价等级的特征的总结形成,所述特征包括关键词和/或关键句型;或者,在检测到语料包被更新时,对更新后的语料包进行学习,并对所述信息判断模型进行更新;
第二存储单元,用于存储语料包;
第三存储单元,用于存储信息判断模型。
13、根据9至12任意一项所述的装置,所述标注单元,具体用于:
获取用户评述信息中各特征对应的评价等级,所述特征包括关键词和/或关键句型;
响应于所述用户评述信息中包含同时对应多个不同评价等级的无效特征,去除同时对应多个不同评价等级的无效特征;
对所述用户评述信息中特征去除无效特征后得到的各有效特征分别标注相应的评价等级。
14、根据9至13任意一项所述的装置,还包括:
分类单元,用于在存储处理单元将标注评价等级的用户评价信息存储到信息***中之前,根据分类要素对用户评述信息进行分类,获得用户评述信息的类别;所述指定产品为汽车时,所述分类要素包括车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置与油耗中的任意一种或多种;
所述存储处理单元,具体根据用户评述信息的类别,信息***中的相应位置存储所述指定产品及其标注评价等级的用户评价信息。
15、根据9至14任意一项所述的装置,还包括:
判断单元,用于判断所述标注单元是否获取到用户评述信息对应的评价等级;
交互单元,用于根据所述判断单元的判断结果,在所述标注单元未获取到用户评述信息对应的评价等级时,输出未获取到评价等级的用户评述信息,并接收用户针对未获取到评价等级的用户评述信息反馈的评价等级;
所述标注单元对未获取到评价等级的用户评述信息标注用户反馈的评价等级。
16、根据9至15任意一项所述的装置,所述获取单元,基于预先设置的爬取周期或用户输入的爬取指令,执行所述基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息的操作。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置、***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法、装置和***。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法、装置和***。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息;
根据预先获得的信息判断模型,分别针对爬取到的各用户评述信息,获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级;
在信息***中存储所述指定产品及其标注评价等级的用户评价信息。
2.根据权利要求1所述的方法,其特征在于,还包括获取所述爬取规则的操作;
所述爬取规则具体为基于用户对互联网上指定产品的用户评述信息进行分析后设定的关键词设置的爬取标准;所述关键词包括指定产品的指标参数。
3.根据权利要求1或2所述的方法,其特征在于,所述从互联网爬取指定产品的用户评述信息包括:
利用网络爬虫,对第三方平台网站的口碑专栏里的任意一个或多个版块进行定向爬取,获得用户评述信息;所述口碑专栏里的版块包括:车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置、油耗。
4.根据权利要求1至3任意一项所述的方法,其特征在于,还包括:
响应于检测到新建语料包,对新建语料包进行学习,形成所述信息判断模型;所述语料包基于对各种评价等级的特征的总结形成,所述特征包括关键词和/或关键句型;或者
响应于检测到语料包被更新,对更新后的语料包进行学习,并对所述信息判断模型进行更新。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级包括:
获取用户评述信息中各特征对应的评价等级,所述特征包括关键词和/或关键句型;
响应于所述用户评述信息中包含同时对应多个不同评价等级的无效特征,去除同时对应多个不同评价等级的无效特征;
对所述用户评述信息中特征去除无效特征后得到的各有效特征分别标注相应的评价等级。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述将标注评价等级的用户评价信息存储到信息***中之前,还包括:
根据分类要素对用户评述信息进行分类,获得用户评述信息的类别;所述指定产品为汽车时,所述分类要素包括车型、空间、动力、操控性、舒适度、外观、内饰、性价比、配置与油耗中的任意一种或多种;
所述在信息***中存储所述指定产品及其标注评价等级的用户评价信息包括:根据用户评述信息的类别,在信息***中的相应位置存储所述指定产品及其标注评价等级的用户评价信息。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述获取用户评述信息对应的评价等级之后,还包括:
判断是否获取到用户评述信息对应的评价等级;
响应于获取到用户评述信息对应的评价等级,执行所述对用户评论信息标注获取到的评价等级的操作;
否则,响应于未获取到用户评述信息对应的评价等级,输出未获取到评价等级的用户评述信息,并接收用户针对未获取到评价等级的用户评述信息反馈的评价等级;对未获取到评价等级的用户评述信息标注用户反馈的评价等级。
8.根据权利要求1至7任意一项所述的方法,其特征在于,基于预先设置的爬取周期或用户输入的爬取指令,执行所述基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息的操作。
9.一种信息处理装置,其特征在于,包括:
获取单元,用于基于预先设置的爬取规则,从互联网爬取指定产品的用户评述信息;
标注单元,用于根据预先获得的信息判断模型,分别针对爬取到的各用户评述信息,获取用户评述信息对应的评价等级并对用户评论信息标注获取到的评价等级;
存储处理单元,用于在信息***中存储所述指定产品及其标注评价等级的用户评价信息。
10.根据权利要求9所述的装置,其特征在于,还包括:
第一存储单元,用于存储所述爬取规则;所述爬取规则具体为基于用户对互联网上指定产品的用户评述信息进行分析后设定的关键词设置的爬取标准;所述关键词包括指定产品的指标参数。
CN201510892230.8A 2015-12-07 2015-12-07 信息处理方法和装置 Active CN106844403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510892230.8A CN106844403B (zh) 2015-12-07 2015-12-07 信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510892230.8A CN106844403B (zh) 2015-12-07 2015-12-07 信息处理方法和装置

Publications (2)

Publication Number Publication Date
CN106844403A true CN106844403A (zh) 2017-06-13
CN106844403B CN106844403B (zh) 2020-04-14

Family

ID=59151114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510892230.8A Active CN106844403B (zh) 2015-12-07 2015-12-07 信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN106844403B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107632974A (zh) * 2017-08-08 2018-01-26 夏振宇 适用于多领域的中文分析平台
CN107944060A (zh) * 2018-01-02 2018-04-20 天津大学 一种面向汽车垂直网站的产品信息检索方法
CN109297974A (zh) * 2017-07-25 2019-02-01 发那科株式会社 信息处理装置
CN111581479A (zh) * 2020-05-11 2020-08-25 北京精准沟通传媒科技股份有限公司 一站式数据处理的方法、装置、存储介质及电子设备
CN112016964A (zh) * 2020-08-27 2020-12-01 李忠耘 一种二手车动态定价方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102514571A (zh) * 2012-01-05 2012-06-27 潍柴动力股份有限公司 驾驶员驾驶经济性评价***及方法
CN103236163A (zh) * 2013-04-28 2013-08-07 北京航空航天大学 一种基于群智网络的交通拥堵规避提示***
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102514571A (zh) * 2012-01-05 2012-06-27 潍柴动力股份有限公司 驾驶员驾驶经济性评价***及方法
CN103236163A (zh) * 2013-04-28 2013-08-07 北京航空航天大学 一种基于群智网络的交通拥堵规避提示***
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109297974A (zh) * 2017-07-25 2019-02-01 发那科株式会社 信息处理装置
US10664754B2 (en) 2017-07-25 2020-05-26 Fanuc Corporation Information processing apparatus
CN109297974B (zh) * 2017-07-25 2021-03-02 发那科株式会社 信息处理装置
CN107632974A (zh) * 2017-08-08 2018-01-26 夏振宇 适用于多领域的中文分析平台
CN107632974B (zh) * 2017-08-08 2021-04-13 北京微瑞思创信息科技股份有限公司 适用于多领域的中文分析平台
CN107944060A (zh) * 2018-01-02 2018-04-20 天津大学 一种面向汽车垂直网站的产品信息检索方法
CN107944060B (zh) * 2018-01-02 2020-07-31 天津大学 一种面向汽车垂直网站的产品信息检索方法
CN111581479A (zh) * 2020-05-11 2020-08-25 北京精准沟通传媒科技股份有限公司 一站式数据处理的方法、装置、存储介质及电子设备
CN112016964A (zh) * 2020-08-27 2020-12-01 李忠耘 一种二手车动态定价方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN106844403B (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN106844403A (zh) 信息处理方法和装置
CN109492229B (zh) 一种跨领域情感分类方法和相关装置
CN107766787A (zh) 人脸属性识别方法、装置、终端及存储介质
CN103353872B (zh) 一种基于神经网络的教学资源个性化推荐方法
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109408809A (zh) 一种基于词向量的针对汽车产品评论的情感分析方法
CN112732915A (zh) 情感分类方法、装置、电子设备及存储介质
CN104199818B (zh) 一种基于分类的社会化推荐方法
CN109461037A (zh) 评论观点聚类方法、装置和终端
CN106446287A (zh) 面向众包场景问答***答案聚合方法和***
CN109918642A (zh) 基于委员会查询的主动学习框架的情感分析方法及***
CN108665064A (zh) 神经网络模型训练、对象推荐方法及装置
CN109472305A (zh) 答案质量确定模型训练方法、答案质量确定方法及装置
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN106383895A (zh) 信息推荐方法、装置以及终端设备
CN112115993B (zh) 一种基于元学习的零样本和小样本证件照异常检测方法
CN109800300A (zh) 一种学习内容推荐方法及***
CN107992595A (zh) 一种学习内容推荐方法、装置及智能设备
CN107870990A (zh) 一种汽车推荐方法及装置
CN109189894A (zh) 一种答案抽取方法及装置
CN112784608A (zh) 试题推荐方法、装置、电子设备和存储介质
CN105844508A (zh) 一种基于动态周期神经网络的商品推荐方法
CN111966888B (zh) 融合外部数据的基于方面类别的可解释性推荐方法及***
CN104850645B (zh) 一种基于矩阵分解的主动学习评分引导方法及***
CN110377727A (zh) 一种基于多任务学习的多标签文本分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant