CN110276065A - 一种处理物品评论的方法和装置 - Google Patents

一种处理物品评论的方法和装置 Download PDF

Info

Publication number
CN110276065A
CN110276065A CN201810213834.9A CN201810213834A CN110276065A CN 110276065 A CN110276065 A CN 110276065A CN 201810213834 A CN201810213834 A CN 201810213834A CN 110276065 A CN110276065 A CN 110276065A
Authority
CN
China
Prior art keywords
keyword
article
comment
comment text
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810213834.9A
Other languages
English (en)
Inventor
刘俊
范超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810213834.9A priority Critical patent/CN110276065A/zh
Publication of CN110276065A publication Critical patent/CN110276065A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种处理物品评论的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取物品对应的评论样本数据;所述样本评论数据中包括对应于所述物品的评论文本;根据所述评论文本计算所述物品的关键词;计算所述物品各关键词的词频;根据所述词频展示各所述关键词。该实施方式能够对物品评论进行处理,对其中有价值的信息进行提取和展示。

Description

一种处理物品评论的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种处理物品评论的方法和装置。
背景技术
随着信息多元化的发展,各行业除了海量结构化数据需要处理之外,还会产生大量的文本类数据。对于电子商务等领域而言,文本类数据量最大的就是对于商品等物品的评论信息,这些评论信息直接代表着用户对商品的反馈,影响着企业策略和其他用户的第一印象。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有技术中对物品的评论逐条显示在物品对应页面中,无法凸出物品的特点,难以根据评论获取到有价值的信息。
发明内容
有鉴于此,本发明实施例提供一种处理物品评论的方法和装置,能够对物品评论进行处理,对其中有价值的信息进行提取和展示。
为实现上述目的,根据本发明实施例的一个方面,提供了一种处理物品评论的方法,包括:
获取物品对应的评论样本数据;所述样本评论数据中包括对应于所述物品的评论文本;
根据所述评论文本计算所述物品的关键词;
计算所述物品各关键词的词频;
根据所述词频展示各所述关键词。
可选的,计算所述物品各关键词的词频的步骤包括:
计算所述物品对应的评论文本中各关键词出现的次数与全部关键词出现的总次数之比,以得到各关键词的实际词频;
计算各关键词在所述物品对应的评论文本中出现的次数与其在所述物品所属品类的全部物品对应的评论文本中出现的次数之比,以得到词频系数;
将所述实际词频与所述词频系数相乘,以得到各关键词的改进词频;
可选的,计算所述物品对应的评论文本中各关键词出现的次数的步骤包括:
获取所述物品对应的各评论文本的文本权重值;
分别计算各关键词在各评论文本中出现的实际次数;
分别将各关键词在各评论文本中的实际次数与该评论文本的文本权重值相乘,以得到各关键词的改进次数;
分别计算各关键词在全部评论文本中的改进次数之和,以得到所述物品对应的评论文本中各关键词出现的次数。
可选的,在获取所述物品对应的各评论文本的文本权重值的步骤前,还包括:
根据各评论文本所对应用户的评价值和/或各评论文本中实际包含关键词的个数计算各评论文本的文本权重值。
可选的,根据所述词频展示各所述关键词的步骤包括:
依据词频由高到低的顺序对各关键词进行排序;
根据排序后的所述关键词生成词云,在所述物品对应的界面展示所述词云。
可选的,在根据所述评论样本数据计算所述物品的关键词的步骤前,还包括:
在用户输入针对物品的评论文本时,判断所述评论文本是否符合输入条件;将符合所述输入条件的评论文本作为所述物品的评论样本数据;其中,所述输入条件包括以下各项中的至少一项:所述评论文本中的关键词个数不少于预设的个数阈值、所述评论文本的字数不少于预设的字数阈值。
可选的,根据所述评论文本计算所述物品的关键词的步骤包括:
对所述评论文本进行分词处理,以得到所述物品的关键词。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种处理物品评论的装置,包括:
样本获取模块,用于获取物品对应的评论样本数据;所述样本评论数据中包括对应于所述物品的评论文本;
分词模块,用于根据所述评论文本计算所述物品的关键词;
词频计算模块,用于计算所述物品各关键词的词频;
展示模块,用于根据所述词频展示各所述关键词。
可选的,所述词频计算模块还用于:
计算所述物品对应的评论文本中各关键词出现的次数与全部关键词出现的总次数之比,以得到各关键词的实际词频;
计算各关键词在所述物品对应的评论文本中出现的次数与其在所述物品所属品类的全部物品对应的评论文本中出现的次数之比,以得到词频系数;
将所述实际词频与所述词频系数相乘,以得到各关键词的改进词频;
可选的,所述词频计算模块还用于:
获取所述物品对应的各评论文本的文本权重值;
分别计算各关键词在各评论文本中出现的实际次数;
分别将各关键词在各评论文本中的实际次数与该评论文本的文本权重值相乘,以得到各关键词的改进次数;
分别计算各关键词在全部评论文本中的改进次数之和,以得到所述物品对应的评论文本中各关键词出现的次数。
可选的,所述词频计算模块还用于:
根据各评论文本所对应用户的评价值和/或各评论文本中实际包含关键词的个数计算各评论文本的文本权重值。
可选的,所述展示模块还用于:
依据词频由高到低的顺序对各关键词进行排序;
根据排序后的所述关键词生成词云,在所述物品对应的界面展示所述词云。
可选的,所述装置还包括:
输入模块,用于在用户输入针对物品的评论文本时,判断所述评论文本是否符合输入条件;将符合所述输入条件的评论文本作为所述物品的评论样本数据;其中,所述输入条件包括以下各项中的至少一项:所述评论文本中的关键词个数不少于预设的个数阈值、所述评论文本的字数不少于预设的字数阈值。
可选的,所述分词模块还用于:
对所述评论文本进行分词处理,以得到所述物品的关键词。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种处理物品评论的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器至少实现:
获取物品对应的评论样本数据;所述样本评论数据中包括对应于所述物品的评论文本;
根据所述评论文本计算所述物品的关键词;
计算所述物品各关键词的词频;
根据所述词频展示各所述关键词。
为实现上述目的,根据本发明实施例的又一个方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时至少实现:
获取物品对应的评论样本数据;所述样本评论数据中包括对应于所述物品的评论文本;
根据所述评论文本计算所述物品的关键词;
计算所述物品各关键词的词频;
根据所述词频展示各所述关键词。
上述发明中的一个实施例具有如下优点或有益效果:因为采用了根据物品的评论获取关键词,计算关键词的词频并根据词频展示关键词的技术手段,从而解决了现有技术的评论***功能简单的技术问题,使用户可以从评论中获取到更准确的信息,给用户以更好的使用体验。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的处理物品评论的方法的主要步骤的示意图;
图2是适于应用本发明实施例提供的处理物品评论的方法的评论处理***的主要架构示意图;
图3是根据本发明实施例的处理物品评论的装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性***架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的处理物品评论的方法的主要步骤的示意图。
如图1所示,本发明实施例提供一种处理物品评论的方法,尤其适用于互联网运营场景。本实施例中所指“物品”并非限定于实体物品,任意商品、服务、媒体文件等可供用户进行评论的对象都可以归属于本实施例中的“物品”。
本实施例提供的方法包括:
S10,获取物品对应的评论样本数据;所述样本评论数据中包括对应于所述物品的评论文本。对一个物品而言,其评论文本通常有多项,为了提高关键词选取的准确性,本步骤中获取的评论样本数据的数量应尽可能较多。除评论文本外,在样本评论数据中还可以包含其他类型的信息,在后续实施例中进行说明。
S11,根据所述评论文本计算所述物品的关键词。选取关键词的常用方法是对评论文本进行分词,可以引入通用的分词库,也可以根据需要输入一些语料对分词库进行扩展。分词的方法有很多,常用的有基于字典、词库匹配的分词方法,基于词频统计的分词方法和基于知识理解的分词方法等。在经过分词处理后,评论文本中的无效和重复内容被删除,语气词等无效词语也被删除,保留下来的词语即为本实施例中所指的关键词。
S12,计算所述物品各关键词的词频。“词频”是指某一词出现的频率,在本实施例中具体表示某一关键词在其对应物品的全部关键词中出现的频率,也可表达为所占的比例。关键词词频的基本计算方法是用该关键词出现的次数除以全部关键词的总个数。
S13,根据所述词频展示各所述关键词。为了更好地体现物品的特点,以及提取用户针对该物品评论所表达的主要观点,本步骤以各关键词的词频来表示各关键词的重要程度,在将各关键词按照词频由高到低的顺序进行排序后进行展示。展示的具体形式可以例如根据关键词的词频生成词云,或选取词频最高的数个关键词进行凸出显示等。
从上面所述可以看出,本实施例提供的方法因为采用了根据物品的评论获取关键词,计算关键词的词频并根据词频展示关键词的技术手段,从而解决了现有技术的评论***功能简单的技术问题,使用户可以从评论中获取到更准确的信息,给用户以更好的使用体验。
在一些可选的实施例中,S12,计算所述物品各关键词的词频的步骤包括:
计算所述物品对应的评论文本中各关键词出现的次数与全部关键词出现的总次数之比,以得到各关键词的实际词频。“实际词频”即现有技术意义上的词频,表示各关键词的出现次数分别占全部关键词总次数的实际比例。
计算各关键词在所述物品对应的评论文本中出现的次数与其在所述物品所属品类的全部物品对应的评论文本中出现的次数之比,以得到词频系数。物品某一关键词的词频系数的数值越大,说明该关键词更为集中地出现在该物品的评论文本中,即该关键词更有可能表示了该物品独有的特征,此类关键词可以更加准确地表示特定物品的特征;因此,本实施例中为此类关键词设置了词频系数,用于在实际词频相同时,将此类关键词凸出表示。
将所述实际词频与所述词频系数相乘,以得到各关键词的改进词频。改进词频即为步骤S12中所指的“词频”。
本实施例在前面实施例的基础上,进一步对词频的计算方法进行了改进,使计算得到的各关键词的词频可以更加准确地表示物品的特点,从而提高了词频计算的准确度,增强展示关键词时可以达到的提示效果。
在一些可选的实施例中,计算所述物品对应的评论文本中各关键词出现的次数的步骤包括:
获取所述物品对应的各评论文本的文本权重值。文本权重值是用于表示评论文本重要程度的系数,例如,若该评论文本的发送用户具备较好的用户评价(例如用户信用等级较高、用户发布过的评论数量较多)或评论文本自身的质量较高(例如评论文本中包含的关键词个数大于某一预设值)等,则认为该评论文本可以更好地表达物品特点,评论文本中的关键词与本物品具有更高的关联度,因此赋予其较高的文本权重值。具体计算中,可以选择用户评价、文本质量或者其他可以表示评论文本重要程度的属性中的一个或者多个,进行加权运算从而得到文本权重值。
分别计算各关键词在各评论文本中出现的实际次数。实际次数即为各评论文本在经过分词处理后得到的各关键词的实际个数。
分别将各关键词在各评论文本中的实际次数与该评论文本的文本权重值相乘,以得到各关键词的改进次数。例如,若某一评论文本经分词后包含的关键词为“去污快速”,则“去污”和“快速”的实际次数均为1;改评论文本对应的文本权重值为2,则计算得到的“去污”和“快速”的改进次数均为1*2,即2次。
分别计算各关键词在全部评论文本中的改进次数之和,以得到所述物品对应的评论文本中各关键词出现的次数。
本实施例通过对关键词出现次数的计算进行改进,使得重要程度较高的评论文本中所包含的关键词在词频统计时可以获得更多的次数,从而使重要程度较高的评论文本在最终的词频统计结果中可以起到更加重要的作用,提高词频与本物品的关联度。
在一些可选的实施例中,在S11,根据所述评论样本数据计算所述物品的关键词的步骤前,还包括:
在用户输入针对物品的评论文本时,判断所述评论文本是否符合输入条件;将符合所述输入条件的评论文本作为所述物品的评论样本数据;其中,所述输入条件包括以下各项中的至少一项:所述评论文本中的关键词个数不少于预设的个数阈值、所述评论文本的字数不少于预设的字数阈值。
本实施例对评论文本的输入进行一定程度的引导。当用户输入的评论文本符合输入条件时,则允许用户提交评论文本;当用户输入的评论文本不符合输入条件时,不允许用户提价评论文本,并可以提示用户需要做出何种改变(例如“评论字数不得少于15字”或者“请输入更加准确的评论”)。在实现本实施例时,判断评论文本中关键词的个数前需要对评论文本进行分词处理,由于只是初步的筛选,为了提高效率避免用户长时间等待,可以采用较为简单的分词算法,主要可以区分词性、识别出常见的语气词、识别出重复词即可。
本实施例提供了一种通过当前用户输入获取评论文本的方法。对于已有的历史评论文本,也可以作为评论样本数据进行获取。为了提高计算的简便性和准确度,在获取时可以首选对历史评论文本进行初步的清洗,尽可能保留有意义的关键词加入后续的词频计算。
为了进一步说明本发明实施例提供的方法,下面通过一个基于该方法构建的***来说明该方法在电子商务领域的应用。本***主要用于对商品的评论信息进行收集和处理,并根据评论信息生成词云在商品界面进行展示。
图2是适于应用本发明实施例提供的处理物品评论的方法的评论处理***的主要架构示意图。
如图2所示,本实施例提供的评论处理***200主要包括:
外部信息采集单元210,主要用于采集外部电子商务网站的商品评论数据。
数据缓存单元220,用于缓存外部信息采集单元210采集到的商品评论数据。
第一数据质量标准单元230用于对缓存的商品评论数据进行校对修改(主要包括过滤脏数据,以及剔除不符合要求的数据),并将校对修改后的商品评论数据存储至数据存储单元240。
数据存储单元240用于存储商品评论数据。可以采用MySQL、Hbase等多种存储***实现。
线上评论交互单元250,用于采集本电子商务网站内部的线上商品评论数据,以及用于与数据分析应用层270的各应用进行对接。
输入引导单元260,用于在线上评论交互单元250采集商品评论数据的过程中,实时地根据输入条件对数据进行矫正,对不符合输入条件的评论不允许提交通过。商品评论数据提交成功采集后,保存至数据存储单元240。
数据分析应用层270是一个供实现机器学***台,可以基于Apache Spark、Hadoop等分布式集群构建,采用Python、R、Scala、C等语言,提供编程计算,调度配置的工作开发环境,用于构建模型,并根据数据存储单元240中的商品评论数据基于模型进行运算,从而实现各式应用。数据分析应用层包括:
模型构建单元272,用于从数据存储单元240提取商品评论数据,并根据预设模型对商品评论数据进行处理,以得到后续应用。
第二数据质量标准单元274,用于为第一数据质量标准单元230和输入引导单元260中应用的输入条件或质量标准提供支持。
关键词词云生成单元276,用于根据商品评论数据生成关键词云,在商品相关页面显示。
其他扩展应用278,除上述应用外,基于本***架构还可以添加其他与商品评论相关的应用。
本***中,外部信息采集单元210和线上评论交互单元250所采集的数据具有相同的格式,以便于后续计算。对于外部信息采集单元210,可以通过设置适当的API(Application Programming Interface,应用程序编程接口)与外部网站进行对接,以便将外部网站的评论获取为与本站相匹配的商品评论数据。数据存储单元240中的一种示例性的商品评论数据存储形式如表1所示:
表1 商品评论数据存放表
表1中,“商品品类”表示商品所属类别,通常根据行业规范和商业习惯进行划分。“对应本站Sku编码”是指商品在本站中所采用的SKU编码;SKU全称为Stock Keeping Unit,即库存量单位,最初是物流领域的概念,在电子商务中广泛表示商品唯一对应的标识码。“评论文本”为商品评论的具体文本内容;“信息来源”用于表示商品评论数据的来源网站;“评论生成时间”用于表示商品评论信息录入的时间,通常可以根据时间戳进行确定;“评论距离购买时间间隔”是指评论生成时间距离发表此评论的用户最近一次购买该商品时间的间隔。
前面提到,第二数据质量标准单元274用于为第一数据质量标准单元230和输入引导单元260中应用的输入条件或质量标准提供支持,二者原理相似,下面仅以输入引导单元260为例说明其工作原理:
在用户输入评论文本后,首先对评论文本进行分词处理,可以引入通用的分词库,也可以根据业务需求输入相关语料对分词库进行扩展。分词的方式有很多,例如基于字典、词库匹配的分词方法,基于词频度统计的分词方法和基于知识理解的分词方法等。或者可以借助Python分词包进行分词,它是基于Trie树结构(又称前缀树或字典树,是一种有序树状的数据结构,用于保存关联数组,其中的键通常是字符串)实现高效的词图扫描,生成文本中汉字所有可能成词情况所构成的有向无环图。比如,如果用户输入“好好好好好好”,在进行分词并合并重复词处理后,会变成一个词“好”。在进行处理后的文本内容中,计算关键词的个数,从而判断该评论的质量得分,即文本权重值。此外,还可以限制关键词的最小数量,若用户输入的文本中关键词的数量小于该关键词的最小数量则无法成功提交,从而提高评论质量。除了质量得分外,还可以加入“评价距离购买时间间隔”、“是否配图”等信息进行加权计分。以上为针对各项商品评论数据进行计分,从而生成文本权重值的方案,在对大量商品评论数据进行计分处理后,可以根据商品评论数据所对应的用户,对用户进行评分,从而产生例如“高质量评分用户标签”等对于用户的评价项。
关键词词云生成单元276用于生成关键词云。词云是一种词语的展示形式,在预设的图案中,根据词语的重要程度以不同的大小或特效展示词语,从而使观看者对词语所表示的内容有一个直观的了解。
现有生成关键词词云的方式,通常先做文本语句拆分,去除停顿词等无关词汇后再对剩余的关键词进行词频统计,最后根据统计结果进行排序并生成词云。现有技术存在的问题在于,对于大多数商品,特别是同类别商品而言,关键词的词频差别很小,难以体现出各商品的特点。问了解决这一问题,本实施例在词频计算和关键词次数计算两方面进行了改进。
首先,现有技术中对于某一商品中关键词词频的计算公式如下:
公式1中,TFij表示在商品j的评论中关键词i的词频,nij表示商品j的评论中关键词i出现的次数,N表示商品j评论中关键词的总类别数。
本实施例中的改进公式1:对商品各条评论文本中关键词的个数进行计算时,在实际关键词个数的基础上附加文本权重值,文本权重值可以根据评论文本质量(评价标准可以例如其他用户对该评论文本的点赞数)、发表评论文本的用户质量、评论文本中关键词的数量等进行加权运算得到,总体而言,文本权重值越高,则说明该评论文本对于商品特征描述越准确,因此在统计该评论文本中的关键词时会额外对其数量进行计数。根据本实施例,计算商品中关键词出现次数的公式如下:
公式2中,Nij表示改进后商品j的评论中关键词i出现的次数,L表示商品j评论的总条数,scorejl表示商品j第l条评论的文本权重值,nijl表示商品j中关键词i在第l条评论中出现的次数。
本实施例中的改进公式2:加入了同品类商品中关键词的个数情况对词频进行调整,从而可以在次数相同的情况下,使得在某一特定商品中出现次数相对于同品类其他商品而言更多的关键词具有更高的词频,以体现其重要性。根据本实施例,计算商品中关键词词频的公式如下
公式3中,TF-Newij表示改进后商品j评论中关键词i的词频,Nij表示改进后的商品j评论中关键词i的出现次数,Nik表示改进后的商品j所属品类k中全部商品的评论中关键词i的出现次数,M表示商品j评论中关键词的总类别数。
基于本实施例中的方法计算得到的改进后词频,可以更加准确地体现特定商品中关键词的重要程度,从而在生成词云后提高用户对于商品特征的辨识度,还能够在用户输入评论文本时起到积极的引导作用。
图3是根据本发明实施例的处理物品评论的装置的主要模块的示意图
如图3所示,根据本发明实施例还提供了一种处理物品评论的装置300,包括:
样本获取模块301,用于获取物品对应的评论样本数据;所述样本评论数据中包括对应于所述物品的评论文本;
分词模块302,用于根据所述评论文本计算所述物品的关键词;
词频计算模块303,用于计算所述物品各关键词的词频;
展示模块304,用于根据所述词频展示各所述关键词。
在一些可选的实施例中,所述词频计算模块303还用于:
计算所述物品对应的评论文本中各关键词出现的次数与全部关键词出现的总次数之比,以得到各关键词的实际词频;
计算各关键词在所述物品对应的评论文本中出现的次数与其在所述物品所属品类的全部物品对应的评论文本中出现的次数之比,以得到词频系数;
将所述实际词频与所述词频系数相乘,以得到各关键词的改进词频;
在一些可选的实施例中,所述词频计算模块303还用于:
获取所述物品对应的各评论文本的文本权重值;
分别计算各关键词在各评论文本中出现的实际次数;
分别将各关键词在各评论文本中的实际次数与该评论文本的文本权重值相乘,以得到各关键词的改进次数;
分别计算各关键词在全部评论文本中的改进次数之和,以得到所述物品对应的评论文本中各关键词出现的次数。
在一些可选的实施例中,所述词频计算模块303还用于:
根据各评论文本所对应用户的评价值和/或各评论文本中实际包含关键词的个数计算各评论文本的文本权重值。
在一些可选的实施例中,所述展示模块304还用于:
依据词频由高到低的顺序对各关键词进行排序;
根据排序后的所述关键词生成词云,在所述物品对应的界面展示所述词云。
在一些可选的实施例中,所述装置300还包括:
输入模块305,用于在用户输入针对物品的评论文本时,判断所述评论文本是否符合输入条件;将符合所述输入条件的评论文本作为所述物品的评论样本数据;其中,所述输入条件包括以下各项中的至少一项:所述评论文本中的关键词个数不少于预设的个数阈值、所述评论文本的字数不少于预设的字数阈值。
在一些可选的实施例中,所述分词模块302还用于:
对所述评论文本进行分词处理,以得到所述物品的关键词。
从上面所述可以看出,本实施例提供的装置因为采用了根据物品的评论获取关键词,计算关键词的词频并根据词频展示关键词的技术手段,从而解决了现有技术的评论***功能简单的技术问题,使用户可以从评论中获取到更准确的信息,达到了提高关键词展示准确度的技术效果。
图4示出了可以应用本发明实施例的处理物品评论的方法或处理物品评论的装置的示例性***架构400。
如图4所示,***架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的商品评论数据进行分析等处理,并将处理结果以词云等形式反馈给终端设备。
需要说明的是,本发明实施例所提供的处理物品评论的方法一般由服务器405执行,相应地,处理物品评论的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
图5是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机***500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明的实施例,上文主要步骤的示意图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤的示意图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括样本获取模块、分词模块、词频计算模块和展示模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,样本获取模块还可以被描述为“用于获取物品对应的评论样本数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
获取物品对应的评论样本数据;所述样本评论数据中包括对应于所述物品的评论文本;
根据所述评论文本计算所述物品的关键词;
计算所述物品各关键词的词频;
根据所述词频展示各所述关键词。
根据本发明实施例的技术方案因为采用了根据物品的评论获取关键词,计算关键词的词频并根据词频展示关键词的技术手段,从而解决了现有技术的评论***功能简单的技术问题,使用户可以从评论中获取到更准确的信息,到了提高关键词展示准确度的技术效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (16)

1.一种处理物品评论的方法,其特征在于,包括:
获取物品对应的评论样本数据;所述样本评论数据中包括对应于所述物品的评论文本;
根据所述评论文本计算所述物品的关键词;
计算所述物品各关键词的词频;
根据所述词频展示各所述关键词。
2.根据权利要求1所述的方法,其特征在于,计算所述物品各关键词的词频的步骤包括:
计算所述物品对应的评论文本中各关键词出现的次数与全部关键词出现的总次数之比,以得到各关键词的实际词频;
计算各关键词在所述物品对应的评论文本中出现的次数与其在所述物品所属品类的全部物品对应的评论文本中出现的次数之比,以得到词频系数;
将所述实际词频与所述词频系数相乘,以得到各关键词的改进词频。
3.根据权利要求2所述的方法,其特征在于,计算所述物品对应的评论文本中各关键词出现的次数的步骤包括:
获取所述物品对应的各评论文本的文本权重值;
分别计算各关键词在各评论文本中出现的实际次数;
分别将各关键词在各评论文本中的实际次数与该评论文本的文本权重值相乘,以得到各关键词的改进次数;
分别计算各关键词在全部评论文本中的改进次数之和,以得到所述物品对应的评论文本中各关键词出现的次数。
4.根据权利要求3所述的方法,其特征在于,在获取所述物品对应的各评论文本的文本权重值的步骤前,还包括:
根据各评论文本所对应用户的评价值和/或各评论文本中实际包含关键词的个数计算各评论文本的文本权重值。
5.根据权利要求1所述的方法,其特征在于,根据所述词频展示各所述关键词的步骤包括:
依据词频由高到低的顺序对各关键词进行排序;
根据排序后的所述关键词生成词云,在所述物品对应的界面展示所述词云。
6.根据权利要求1所述的方法,其特征在于,在根据所述评论样本数据计算所述物品的关键词的步骤前,还包括:
在用户输入针对物品的评论文本时,判断所述评论文本是否符合输入条件;将符合所述输入条件的评论文本作为所述物品的评论样本数据;其中,所述输入条件包括以下各项中的至少一项:所述评论文本中的关键词个数不少于预设的个数阈值、所述评论文本的字数不少于预设的字数阈值。
7.根据权利要求1所述的方法,其特征在于,根据所述评论文本计算所述物品的关键词的步骤包括:
对所述评论文本进行分词处理,以得到所述物品的关键词。
8.一种处理物品评论的装置,其特征在于,包括:
样本获取模块,用于获取物品对应的评论样本数据;所述样本评论数据中包括对应于所述物品的评论文本;
分词模块,用于根据所述评论文本计算所述物品的关键词;
词频计算模块,用于计算所述物品各关键词的词频;
展示模块,用于根据所述词频展示各所述关键词。
9.根据权利要求8所述的装置,其特征在于,所述词频计算模块还用于:
计算所述物品对应的评论文本中各关键词出现的次数与全部关键词出现的总次数之比,以得到各关键词的实际词频;
计算各关键词在所述物品对应的评论文本中出现的次数与其在所述物品所属品类的全部物品对应的评论文本中出现的次数之比,以得到词频系数;
将所述实际词频与所述词频系数相乘,以得到各关键词的改进词频。
10.根据权利要求9所述的装置,其特征在于,所述词频计算模块还用于:
获取所述物品对应的各评论文本的文本权重值;
分别计算各关键词在各评论文本中出现的实际次数;
分别将各关键词在各评论文本中的实际次数与该评论文本的文本权重值相乘,以得到各关键词的改进次数;
分别计算各关键词在全部评论文本中的改进次数之和,以得到所述物品对应的评论文本中各关键词出现的次数。
11.根据权利要求10所述的装置,其特征在于,所述词频计算模块还用于:
根据各评论文本所对应用户的评价值和/或各评论文本中实际包含关键词的个数计算各评论文本的文本权重值。
12.根据权利要求8所述的装置,其特征在于,所述展示模块还用于:
依据词频由高到低的顺序对各关键词进行排序;
根据排序后的所述关键词生成词云,在所述物品对应的界面展示所述词云。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
输入模块,用于在用户输入针对物品的评论文本时,判断所述评论文本是否符合输入条件;将符合所述输入条件的评论文本作为所述物品的评论样本数据;其中,所述输入条件包括以下各项中的至少一项:所述评论文本中的关键词个数不少于预设的个数阈值、所述评论文本的字数不少于预设的字数阈值。
14.根据权利要求8所述的装置,其特征在于,所述分词模块还用于:
对所述评论文本进行分词处理,以得到所述物品的关键词。
15.一种处理物品评论的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201810213834.9A 2018-03-15 2018-03-15 一种处理物品评论的方法和装置 Pending CN110276065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810213834.9A CN110276065A (zh) 2018-03-15 2018-03-15 一种处理物品评论的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810213834.9A CN110276065A (zh) 2018-03-15 2018-03-15 一种处理物品评论的方法和装置

Publications (1)

Publication Number Publication Date
CN110276065A true CN110276065A (zh) 2019-09-24

Family

ID=67957702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810213834.9A Pending CN110276065A (zh) 2018-03-15 2018-03-15 一种处理物品评论的方法和装置

Country Status (1)

Country Link
CN (1) CN110276065A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895652A (zh) * 2019-09-27 2020-03-20 广州视源电子科技股份有限公司 一种评论信息的处理方法、装置、***、设备和存储介质
CN111460261A (zh) * 2020-04-13 2020-07-28 同济大学 一种多平台网络录播课程整合平台及方法
CN112989020A (zh) * 2019-12-17 2021-06-18 北京沃东天骏信息技术有限公司 信息处理方法、装置和计算机可读存储介质
CN113129071A (zh) * 2021-04-29 2021-07-16 北京数聚智连科技股份有限公司 一种商家产品sku分析方法和装置
CN113836410A (zh) * 2021-09-22 2021-12-24 中国第一汽车股份有限公司 车辆声品质评估方法、装置、评估设备及存储介质
CN116579351A (zh) * 2023-07-14 2023-08-11 广州淘通科技股份有限公司 一种用户评价信息的分析方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916627A (ja) * 1995-04-24 1997-01-17 Toshiba Corp 情報フィルタ装置及び情報フィルタ方法
US20070112760A1 (en) * 2005-11-15 2007-05-17 Powerreviews, Inc. System for dynamic product summary based on consumer-contributed keywords
JP2007157048A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 体験情報評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
KR20110038247A (ko) * 2009-10-08 2011-04-14 동국대학교 산학협력단 키워드 추출 장치 및 방법
CN102682120A (zh) * 2012-05-15 2012-09-19 合一网络技术(北京)有限公司 一种网络评论精华文章的获取方法、装置和***
KR101491627B1 (ko) * 2013-07-30 2015-02-11 성균관대학교산학협력단 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템
CN106557483A (zh) * 2015-09-25 2017-04-05 阿里巴巴集团控股有限公司 一种数据处理、数据查询方法及设备
CN107679069A (zh) * 2017-08-18 2018-02-09 国家计算机网络与信息安全管理中心 基于新闻数据及相关评论信息的一种特定群体发现方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916627A (ja) * 1995-04-24 1997-01-17 Toshiba Corp 情報フィルタ装置及び情報フィルタ方法
US20070112760A1 (en) * 2005-11-15 2007-05-17 Powerreviews, Inc. System for dynamic product summary based on consumer-contributed keywords
JP2007157048A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 体験情報評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
KR20110038247A (ko) * 2009-10-08 2011-04-14 동국대학교 산학협력단 키워드 추출 장치 및 방법
CN102682120A (zh) * 2012-05-15 2012-09-19 合一网络技术(北京)有限公司 一种网络评论精华文章的获取方法、装置和***
KR101491627B1 (ko) * 2013-07-30 2015-02-11 성균관대학교산학협력단 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템
CN106557483A (zh) * 2015-09-25 2017-04-05 阿里巴巴集团控股有限公司 一种数据处理、数据查询方法及设备
CN107679069A (zh) * 2017-08-18 2018-02-09 国家计算机网络与信息安全管理中心 基于新闻数据及相关评论信息的一种特定群体发现方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895652A (zh) * 2019-09-27 2020-03-20 广州视源电子科技股份有限公司 一种评论信息的处理方法、装置、***、设备和存储介质
CN112989020A (zh) * 2019-12-17 2021-06-18 北京沃东天骏信息技术有限公司 信息处理方法、装置和计算机可读存储介质
CN111460261A (zh) * 2020-04-13 2020-07-28 同济大学 一种多平台网络录播课程整合平台及方法
CN113129071A (zh) * 2021-04-29 2021-07-16 北京数聚智连科技股份有限公司 一种商家产品sku分析方法和装置
CN113836410A (zh) * 2021-09-22 2021-12-24 中国第一汽车股份有限公司 车辆声品质评估方法、装置、评估设备及存储介质
WO2023045796A1 (zh) * 2021-09-22 2023-03-30 中国第一汽车股份有限公司 车辆声品质评估方法、装置、评估设备及存储介质
CN113836410B (zh) * 2021-09-22 2024-03-15 中国第一汽车股份有限公司 车辆声品质评估方法、装置、评估设备及存储介质
CN116579351A (zh) * 2023-07-14 2023-08-11 广州淘通科技股份有限公司 一种用户评价信息的分析方法及装置
CN116579351B (zh) * 2023-07-14 2024-03-19 广州淘通科技股份有限公司 一种用户评价信息的分析方法及装置

Similar Documents

Publication Publication Date Title
CN110276065A (zh) 一种处理物品评论的方法和装置
CN109697641A (zh) 计算商品相似度的方法和装置
CN108171276A (zh) 用于生成信息的方法和装置
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN110390408A (zh) 交易对象预测方法和装置
CN108984554A (zh) 用于确定关键词的方法和装置
CN110516033A (zh) 一种计算用户偏好的方法和装置
CN107908662A (zh) 搜索***的实现方法和实现装置
CN110633398A (zh) 中心词的确认方法、搜索方法、装置和存储介质
CN110309293A (zh) 文本推荐方法和装置
CN115578486A (zh) 图像生成方法、装置、电子设备和存储介质
CN110223095A (zh) 确定商品属性的方法、装置、设备和存储介质
KR102575415B1 (ko) 마케터의 작업량 기간의 예약 가능 광고 정보 제공방법 및 장치
Kucher et al. Analysis of VINCI 2009-2017 proceedings
CN110019802A (zh) 一种文本聚类的方法和装置
CN114036921A (zh) 一种政策信息匹配方法和装置
US20230085684A1 (en) Method of recommending data, electronic device, and medium
CN109993592A (zh) 信息推送方法和装置
CN113239273B (zh) 用于生成文本的方法、装置、设备以及存储介质
CN109886702A (zh) 一种判定业务活动中异常行为的方法和装置
CN110110267A (zh) 提取对象特征、搜索对象的方法和装置
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN109767249A (zh) 预测性价比的方法和装置
CN107483595A (zh) 信息推送方法和装置
CN109344386B (zh) 文本内容标识方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination