CN106021433A - 一种商品评论数据的口碑分析方法和装置 - Google Patents
一种商品评论数据的口碑分析方法和装置 Download PDFInfo
- Publication number
- CN106021433A CN106021433A CN201610321688.2A CN201610321688A CN106021433A CN 106021433 A CN106021433 A CN 106021433A CN 201610321688 A CN201610321688 A CN 201610321688A CN 106021433 A CN106021433 A CN 106021433A
- Authority
- CN
- China
- Prior art keywords
- attribute
- file
- word
- evaluation
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种商品评论数据的口碑分析方法及装置,包括:接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理;当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapp i ng算法得到的;判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。
Description
技术领域
本发明涉及数据挖掘、机器学习技术领域,尤其涉及一种商品评论数据的口碑分析方法和装置。
背景技术
随着电子商务的发展,互联网上用户的商品评论数据与日俱增,商品评论数据具有多种行业、多属性、多方位评价等特点。多行业是指,电商经营的商品种类多种多样,有家电、有手机、有汽车等;多属性是指,每一个商品包含多个方面的属性,例如手机包括屏幕、电池、尺寸、颜色、价格等,而汽车包括油耗、外观、价格、操控、动力、座椅、中控台等等;多方位评价是指,表达同一个含义的说法很多,例如,讲“手机外观漂亮”的说法有“外观漂亮”、“外观大气”、“外观不错”、“外形很喜欢”、“外观高大上”等。
因此,对商品评论数据进行口碑分析能够为商家改进产品质量和服务质量提供数据支持。但现有技术只能够根据商品评论数据的某一种特点提出口碑分析的解决方案,并不能综合针对商品评论数据的多种特点尤其对于海量的商品评论数据的多种特点提出口碑分析的解决方案。
发明内容
本发明提供一种商品评论数据的口碑分析方法和装置,可以综合针对商品评论数据的多种特点尤其对于海量的商品评论数据的多种特点提出口碑分析的解决方案。
一方面,本发明实施例提供了一种商品评论数据的口碑分析方法,包括:
接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理;
当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;其中,所述属性树文件用于表示属性文件中多种属性存在的上下级关系,所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。
另一方面,本发明实施例提供一种商品评论数据的口碑分析装置,包括:
接收模块,用于接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理;
提取模块,用于当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
判断模块,用于判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;其中,所述属性树文件用于表示属性文件中多种属性存在的上下级关系,所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
第一判定模块,用于当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。
本发明实施例可以综合针对商品评论数据的多种特点尤其对于海量的商品评论数据的多种特点提出口碑分析的解决方案,对商品评论数据进行口碑分析能够为商家改进产品质量和服务质量提供数据支持。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明第一实施例提供的商品评论数据的口碑分析方法的流程示意图;
图2为本发明第二实施例提供的商品评论数据的口碑分析方法的流程示意图;
图3为本发明第三实施例提供的商品评论数据的口碑分析方法的流程示意图;
图4为本发明第三实施例基于图3中步骤101提供的商品评论数据的口碑分析方法的流程示意图;
图5为本发明第三实施例基于图3中步骤102提供的商品评论数据的口碑分析方法的流程示意图;
图6为本发明第四实施例提供的商品评论数据的口碑分析方法的第一部分流程示意图;
图7为本发明第四实施例提供的商品评论数据的口碑分析方法的第二部分流程示意图;
图8为本发明第四实施例提供的汽车评论生成的口碑数据结果示意图;
图9为本发明第五实施例提供的商品评论数据的口碑分析装置的结构模块示意图;
图10为本发明第六实施例提供的电子终端的结构模块示意图。
具体实施方式
以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者***中还存在另外的相同要素。
为能更好地理解本发明实施例介绍的方案,申请人在具体描述实施例之前解释下本发明实施例应用到的专业术语的含义,具体如下表1所示。
表1
请参阅图1,为本发明第一实施例提供一种商品评论数据的口碑分析方法,在步骤104,接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理。
在步骤105,当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的。
在步骤106,判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;其中,所述属性树文件用于表示属性文件中多种属性存在的上下级关系,所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的。
在步骤107,当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。
本发明实施例可以综合针对商品评论数据的多种特点尤其对于海量的商品评论数据的多种特点提出口碑分析的解决方案,对商品评论数据进行口碑分析能够为商家改进产品质量和服务质量提供数据支持。
请参阅图2,为本发明第二实施例提供一种商品评论数据的口碑分析方法,在步骤104,接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理。
在步骤105,当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的。
在步骤106,判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;其中,所述属性树文件用于表示属性文件中多种属性存在的上下级关系,所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的。
在步骤107,当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。
在步骤108,当判定所述属性词不存在所述属性树文件中或所述评价词不存在所述评价词文件中时,将所述属性词或评价词对应的口碑数据作为目标口碑数据。在这里,对于遗漏的口碑词汇,设计回收机制,保证口碑词汇量的持续扩充。
本发明实施例可以综合针对商品评论数据的多种特点尤其对于海量的商品评论数据的多种特点提出口碑分析的解决方案,对商品评论数据进行口碑分析能够为商家改进产品质量和服务质量提供数据支持。
与现有技术相比,本发明实施例的优势在于:
第一,综合使用PageRank、PMI和Bootstrapping等算法,尽可能地实现***的自动化,节约人力成本和时间成本;
第二,在关键环节设计生成属性树文件和聚类映射文件,保证口碑分析的正确性;
第三,对于遗漏的口碑词汇,设计回收机制,保证口碑词汇量的持续扩充。
请参阅图3,为本发明第三实施例提供的一种商品评论数据的口碑分析方法,其与第一实施例、第二实施例大致相同,不同之处在于,在步骤104之前还包括属性树文件、评价文件、规则文件和聚类映射文件的生成,具体可以如下。
在步骤101,获取输入的待训练商品评论数据,提取所述待训练商品评论数据的属性种子词和评价种子词。具体的,所述步骤101通过PageRank算法和/或PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词。
(一)步骤101基于PageRank算法提取商品评论数据的属性种子词和评价种子词。PageRank是搜索引擎中的一种网页排名算法,其通过网页之间的超链接计算得到每一个网页的重要性得分。具体的,通过PageRank算法提取所述待训练商品评论数据的属性种子词和评价种子词的实现可以如图4展示的流程图所示。
在步骤1011,对待训练文本进行分词,并进行词性标注;其中,所述待训练文本中包括待训练商品评论数据。
在本方案中,所述词性指的根据词语特点进行的词语分类,例如:名词、形容词、动词、代词、数量词等。
在步骤1012,提取所述待训练文本中待训练商品评论数据的待训练名词和待训练形容词;其中,所述待训练名词和待训练形容词位于同个待训练文本,且所述待训练名词位于待训练形容词之前。
具体的,所述提取所述文件中待训练商品评论数据的待训练名词和待训练形容词包括:设定一个大小为n的窗口,窗口滑过所有待训练文本;当窗口滑到某段待训练文本上时,如果窗口内的词语满足既有名词又有形容词、且名词在形容词前面的条件(例如:车身很美观,空间很大),就将所述名词和形容词作为待训练名词和待训练形容词提取出来;其中,所述n为大于零的正整数。
在步骤1013,根据所述待训练名词和待训练形容词构建二分图G(V1,V2,E);其中,二分图的V1为提取出的所有待训练名词,V2为提取出的所有待训练形容词。
具体的构造方法为:二分图的V1为提取出的所有待训练名词,V2为提取出的所有待训练形容词,如果待训练名词和待训练形容词在同一个窗口中被取出,就在这两个节点上加上无向边,作为二分图的边集E。
在步骤1014,给二分图的V1和V2随机分配权值PG(v1i)和PG(v2j),并对权值PG(v1i)和PG(v2j)进行调整;其中v1i表示V1中的第i个节点,v2j表示V2中的第j个节点,调整权值的公式为:
其中p为参数(p其意义为随机跳转概率,这里可以取值为0.85),c2j为节点v2j的边数,c1i为节点v1i的边数,n1为V1的节点数,n2为V2的节点数,M(v1i)表示和节点v1i相连接的节点,M(v2j)表示和节点v2j相连接的节点。
在步骤1015,重复步骤1014利用调整权值的公式进行权值调整的过程,迭代执行N次直至收敛即权重值PG(v1i)和PG(v2j)趋于稳定不变。
在步骤1016,对V1,V2节点根据权值从大到小排序并输出这些词语,得到属性种子词和评价种子词。
(二)步骤101基于PMI算法提取商品属性和商品评价种子词。PMI(Pointwise Mutual Information)是一种信息论和统计学中用来描述两个随机变量之间相关性大小的方法。具体的,通过PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词的实现方式可以如下所示。
通过以下公式确定属性词X和评价词Y共同出现的概率PMI(X,Y):
其中,X和Y为随机变量,p(X,Y)表示X和Y的联合概率,p(X)、p(Y)分别表示X和Y的概率。计算得到的PMI数值越大,则说明X和Y共同出现的概率越大。
通过计算评论数据中词汇的PMI可以得到属性种子词和评价种子词。在某一可行的实施方式中,当计算出来p(X,Y)大于预设阈值时,p(X,Y)对应的属性词X和评价词Y为属性种子词和评价种子词。
在步骤102,以所述属性种子词和评价种子词作为输入,调用Bootstrapping算法进行训练学习,生成并得到属性文件、评价文件、规则文件和“属性-评价”配对文件。步骤102的实现可以如图5所示的流程图所示。
在步骤1021,以训练语料以及包括属性种子词的属性种子词列表和包括评价种子词的评价种子词列表作为Bootstrapping算法的输入。具体的,所述训练语料为待训练商品评论数据。
在步骤1022,以每一“属性-评价”种子词对作为Bootstrapping算法的输入,从所述训练语料中遍历得出两个词汇之间存在的其他词汇,作为学习得到的规则输出。具体的,“属性-评价种子词”为属性种子词和评价种子词随机配对得到。
在步骤1023,以上述学到的规则作为Bootstrapping算法的输入,遍历所述训练语料,学习得到“属性-评价”扩展词对。故应当理解的是,“属性-评价”配对文件为对“属性-评价”种子词对进行步骤1022和1023后学习出来的。
在步骤1024,重复进行上述步骤1022的学习规则的过程和步骤1023的学习“属性-评价”扩展词对的过程,并设置迭代次数,得到属性文件、评价文件、“属性-评价”配对文件和规则文件。
在步骤103,根据所述属性文件生成属性树文件,根据所述“属性-评价”配对文件生成聚类映射文件。
在本实施例中,根据所述属性文件生成属性树文件主要用于解决多种属性之间存在上下级关系的问题。众所周知,一个商品可能包含有多个属性,并且属性之间可能存在上下级关系,例如手机评论中“速度”可能指“物流速度”,也可能指“手机运行的速度”,此时,单独以“速度”一词作为口碑的属性词,则不够准确。在本发明实施例中,通过设计属性树来构建商品的属性列表以及属性之间的上下级关系。具体的,所述根据所述属性文件生成属性树文件可以包括:
以所述属性文件作为属性树模型的输入,删除不准确的属性词,并添加遗漏属性词;
根据各属性之间的上下级关系,构建并生成属性树文件。具体的,属性树模型(也可以理解为属性树文件)格式可以为:一行表示一个属性,其后跟该属性的父节点,子节点和父节点之间以':'(英文冒号)分割,若一个属性有多个父节点,则父节点之间以'/'(斜线)分割。
在本实施例中,根据所述“属性-评价”配对文件生成聚类映射文件用于解决同义词属性和同义口碑聚类的问题。在大量的商品评论数据中,同一商品的一个属性可能会有不同的说法,例如,“外观”的同义词有“外形”“外表”,“舒适性”的同义词有“舒适感”“舒适度”等。另外,表达同一个意思的说法有多种。为了解决同义口碑聚类问题,本发明实施例中设计聚类映射文件,通过查找该映射文件,即可将表达相同含义的口碑映射到同一种说法上。具体的,所述根据所述“属性-评价”配对文件生成聚类映射文件包括:将属性的同义词、评价的同义词进行归类,生成聚类映射文件。具体的,聚类映射文件格式可以为:
"标准属性词:标准属性词/属性同义词1/属性同义词2/属性同义词3#评价词11/评价词12/评价词13&评价词21/评价词22&评价词31/评价词32/评价词33"。
在本发明上述实施例中,所述评价文件包括评价词列表,所述商品评论数据的口碑分析方法还包括:对评价文件进行筛选,删除评价文件中无效的评价词。删除无效或不需要的评价词可以使最终的评价文件中的评价词更为准确,从而可以使最终输出的口碑数据更具有数据支持的作用。
本发明实施例可以综合针对商品评论数据的多种特点尤其对于海量的商品评论数据的多种特点提出口碑分析的解决方案,对商品评论数据进行口碑分析能够为商家改进产品质量和服务质量提供数据支持。
与现有技术相比,本发明实施例的优势在于:
第一,综合使用PageRank、PMI和Bootstrapping等算法,尽可能地实现***的自动化,节约人力成本和时间成本;
第二,在关键环节设计生成属性树文件和聚类映射文件,保证口碑分析的正确性;
第三,对于遗漏的口碑词汇,设计回收机制,保证口碑词汇量的持续扩充。
请参阅图6至图8,图6和图7为本发明第四实施例提供的商品评论数据的口碑分析方法流程示意图,图8为利用本发明实施例汽车评论生成的口碑数据结果。本实施例大致分为以下过程:训练过程和预测过程。其中,训练过程可以线下进行也可以线上进行,主要用于生成属性树文件、评价文件、规则文件和聚类映射文件,以为后续的预测过程应用。预测过程主要用于线上应用,以根据输入的商品评论数据生成对应的口碑数据。
(Ⅰ)训练过程的实施步骤可以如图6所示,具体如下。
第一步,批量输入某一商品的评论数据(即待训练商品评论数据),例如输入手机的评论数据。此步骤的数据量越大,训练得到的口碑模型的覆盖范围越全。
第二步,选择PageRank算法和/或者PMI算法提取商品的属性种子词和评价种子词。其实现过程可如前述实施例一至三所述,在此不再赘述。
第三步,以第二步生成的属性种子词和评价种子词作为输入,调用Bootstrapping算法进行模型训练,生成属性文件、评价文件、规则文件和“属性-评价”配对文件;
第四步,人工或智能设计属性文件,生成属性树文件;设计“属性-评价”配对文件,生成聚类映射文件;对评价文件进行筛选,删除不需要的评价词。
第五步,保存属性树文件、聚类映射文件、评价文件、规则文件,用于线上预测时使用。
(Ⅱ)预测过程的实施步骤可以如图7所示,具体如下。
第一步,输入商品的评论数据(即待分析商品数据),并对商品评论数据进行分句处理。
第二步,针对评论中的每一条子句,遍历规则文件,判断其是否符合某一条规则,若不符合,则输出为空,结束;若符合某一条规则,则进入第三步。
第三步,根据符合的规则提取出属性词和评价词,判断属性词是否在属性树文件中,若在,进入第四步,否则,进入第五步。
第四步,判断评价词是否在评价文件中,若在,进入第六步,否则,进入第五步。
第五步,返回口碑分析结果,并保存口碑至待确定口碑文件中,结束。
第六步,从聚类映射文件中找到对应的标准口碑,返回该标准口碑,结束。
本实施例的具体应用可以如图8所示,当输入针对汽车标致308的商品评论数据时,通过上述预测过程的实施后,可以分析并提取出“空间大”、“空间满意”等口碑数据。
与现有技术相比,本发明实施例的优势在于:
第一,综合使用PageRank、PMI和Bootstrapping等算法,尽可能地实现***的自动化,节约人力成本和时间成本;
第二,在关键环节设计生成属性树文件和聚类映射文件,保证口碑分析的正确性;
第三,对于遗漏的口碑词汇,设计回收机制,保证口碑词汇量的持续扩充。
请参阅图9,本发明第五实施例提供一种商品评论数据的口碑分析装置,包括:
接收模块901,用于接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理;
提取模块902,用于当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
判断模块903,用于判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;其中,所述属性树文件用于表示属性文件中多种属性存在的上下级关系,所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
第一判定模块904,用于当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。
进一步的,所述商品评论数据的口碑分析装置第二判定模块:用于当判定所述属性词不存在所述属性树文件中或所述评价词不存在所述评价词文件中时,将所述属性词或评价词对应的口碑数据作为目标口碑数据。
进一步的,所述商品评论数据的口碑分析装置还包括:
获取模块,用于获取输入的待训练商品评论数据,提取所述待训练商品评论数据的属性种子词和评价种子词;
第一生成模块,用于以所述属性种子词和评价种子词作为输入,调用Bootstrapping算法进行训练学习,生成并得到属性文件、评价文件、规则文件和“属性-评价”配对文件;
第二生成模块,用于根据所述属性文件生成属性树文件,根据所述“属性-评价”配对文件生成聚类映射文件。
进一步的,所述评价文件包括评价词列表,所述装置还包括筛选模块:用于对评价文件进行筛选,删除无效的评价词。
进一步的,所述获取模块具体用于:通过PageRank算法和/或PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词。具体的,所述获取模块包括:
分词单元,用于对待训练文本进行分词,并进行词性标注;其中,所述待训练文本中包括待训练商品评论数据;
提取单元,用于提取所述待训练文本中待训练商品评论数据的待训练名词和待训练形容词;其中,所述待训练名词和待训练形容词位于同个待训练文本,且所述待训练名词位于待训练形容词之前;
构建单元,用于根据所述待训练名词和待训练形容词构建二分图G(V1,V2,E);其中,二分图的V1为提取出的所有待训练名词,V2为提取出的所有待训练形容词;
调整单元,用于给二分图的V1和V2随机分配权值PG(v1i)和PG(v2j),并对权值PG(v1i)和PG(v2j)进行调整;其中v1i表示V1中的第i个节点,v2j表示V2中的第j个节点,调整权值的公式为:
其中p为参数,c2j为节点v2j的边数,c1i为节点v1i的边数,n1为V1的节点数,n2为V2的节点数,M(v1i)表示和节点v1i相连接的节点,M(v2j)表示和节点v2j相连接的节点;
迭代单元,用于重复利用调整权值的公式进行权值调整,迭代执行N次直至收敛;
排序单元,用于对V1,V2节点根据权值从大到小排序并输出这些词语,得到属性种子词和评价种子词。
进一步的,所述提取单元,具体用于:设定一个大小为n的窗口,窗口滑过所有待训练文本;当窗口滑到某段待训练文本上时,如果窗口内的词语满足既有名词又有形容词,且名词在形容词前面的条件,就将所述名词和形容词作为待训练名词和待训练形容词提取出来;其中,所述n为大于零的正整数。
进一步的,所述调整单元具体用于:如果待训练名词和待训练形容词在同一个窗口中被取出,就在这两个节点上加上无向边,作为二分图的边集E。
进一步的,所述获取模块具体用于通过以下公式确定属性词X和评价词Y共同出现的概率PMI(X,Y):
其中,X和Y为随机变量,p(X,Y)表示X和Y的联合概率,p(X)、p(Y)分别表示X和Y的概率;
通过计算评论数据中词汇的PMI可以得到属性种子词和评价种子词。
进一步的,所述第一生成模块件包括:
第一输入单元,用于以训练语料以及包括属性种子词的属性种子词列表和包括评价种子词的评价种子词列表作为Bootstrapping算法的输入;
第二输入单元,用于以每一“属性-评价”种子词对作为Bootstrapping算法的输入,从所述训练语料中遍历得出两个词汇之间存在的其他词汇,作为学习得到的规则输出;
第三输入单元,用于以上述学到的规则作为Bootstrapping算法的输入,遍历所述训练语料,学习得到“属性-评价”扩展词对;
输出单元,用于重复进行上述学习规则的过程和学习“属性-评价”扩展词对的过程,并设置迭代次数,得到属性文件、评价文件、“属性-评价”配对文件和规则文件。
进一步的,所述第二生成模块具体用于:
以所述属性文件作为输入,删除不准确的属性词,并添加遗漏属性词;
根据各属性之间的上下级关系,构建并生成属性树文件。
进一步的,所述第二生成模块具体用于:将属性的同义词、评价的同义词进行归类,生成聚类映射文件。
本实施例提供的商品评论数据的口碑分析装置可以执行上述第一至第四方法实施例中相应的步骤。
请参阅图10,示出了本发明第六实施例提供的一种电子终端,包括:
存储器(memory)1000;
通信接口(Communications Interface)1020;
一个或多个处理器(processor)1030;以及,
一个或多个模块1021,所述一个或多个模块被存储在所述存储器中并被配置成由所述一个或多个处理器执行,所述一个或多个模块1021用于执行以下步骤的指令:
接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理;
当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;其中,所述属性树文件用于表示属性文件中多种属性存在的上下级关系,所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。
综上所述,与现有技术相比,本发明实施例的优势在于:
第一,综合使用PageRank、PMI和Bootstrapping等算法,尽可能地实现***的自动化,节约人力成本和时间成本;
第二,在关键环节设计生成属性树文件和聚类映射文件,保证口碑分析的正确性;
第三,对于遗漏的口碑词汇,设计回收机制,保证口碑词汇量的持续扩充。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (24)
1.一种商品评论数据的口碑分析方法,其特征在于,包括:
接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理;
当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;其中,所述属性树文件用于表示属性文件中多种属性存在的上下级关系,所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。
2.根据权利要求1所述的方法,其特征在于,还包括:当判定所述属性词不存在所述属性树文件中或所述评价词不存在所述评价词文件中时,将所述属性词或评价词对应的口碑数据作为目标口碑数据。
3.根据权利要求1所述的方法,其特征在于,所述接收输入的待分析商品评论数据之前还包括:
获取输入的待训练商品评论数据,提取所述待训练商品评论数据的属性种子词和评价种子词;
以所述属性种子词和评价种子词作为输入,调用Bootstrapping算法进行训练学习,生成并得到属性文件、评价文件、规则文件和“属性-评价”配对文件;
根据所述属性文件生成属性树文件,根据所述“属性-评价”配对文件生成聚类映射文件。
4.根据权利要求3所述的方法,其特征在于,所述评价文件包括评价词列表,所述方法还包括:对评价文件进行筛选,删除无效的评价词。
5.根据权利要求3所述的方法,其特征在于,所述提取所述待训练商品评论数据的属性种子词和评价种子词包括:通过PageRank算法和/或PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词。
6.根据权利要求5所述的方法,其特征在于,通过PageRank算法提取所述待训练商品评论数据的属性种子词和评价种子词包括:
对待训练文本进行分词,并进行词性标注;其中,所述待训练文本中包括待训练商品评论数据;
提取所述待训练文本中待训练商品评论数据的待训练名词和待训练形容词;其中,所述待训练名词和待训练形容词位于同个待训练文本,且所述待训练名词位于待训练形容词之前;
根据所述待训练名词和待训练形容词构建二分图G(V1,V2,E);其中,二分图的V1为提取出的所有待训练名词,V2为提取出的所有待训练形容词;
给二分图的V1和V2随机分配权值PG(v1i)和PG(v2j),并对权值PG(v1i)和PG(v2j)进行调整;其中v1i表示V1中的第i个节点,v2j表示V2中的第j个节点,调整权值的公式为:
其中p为参数,c2j为节点v2j的边数,c1i为节点v1i的边数,n1为V1的节点数,n2为V2的节点数,M(v1i)表示和节点v1i相连接的节点,M(v2j)表示和节点v2j相连接的节点;
重复利用调整权值的公式进行权值调整,迭代执行N次直至收敛;
对V1,V2节点根据权值从大到小排序并输出这些词语,得到属性种子词和评价种子词。
7.根据权利要求6所述的方法,其特征在于,所述提取所述待训练文本中待训练商品评论数据的待训练名词和待训练形容包括:
设定一个大小为n的窗口,窗口滑过所有待训练文本;当窗口滑到某段待训练文本上时,如果窗口内的词语满足既有名词又有形容词,且名词在形容词前面的条件,就将所述名词和形容词作为待训练名词和待训练形容词提取出来;其中,所述n为大于零的正整数。
8.根据权利要求7所述的方法,其特征在于,当所述根据所述待训练名词和待训练形容词构建二分图G(V1,V2,E)时:
如果待训练名词和待训练形容词在同一个窗口中被取出,就在这两个节点上加上无向边,作为二分图的边集E。
9.根据权利要求5所述的方法,其特征在于,通过PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词包括:
通过以下公式确定属性词X和评价词Y共同出现的概率PMI(X,Y):
其中,X和Y为随机变量,p(X,Y)表示X和Y的联合概率,p(X)、p(Y)分别表示X和Y的概率;
通过计算评论数据中词汇的PMI可以得到属性种子词和评价种子词。
10.根据权利要求3所述的方法,其特征在于,所述以所述属性种子词和评价种子词作为输入,调用Bootstrapping算法进行训练学习,生成并得到属性文件、评价文件、规则文件和“属性-评价”配对文件包括:
以训练语料以及包括属性种子词的属性种子词列表和包括评价种子词的评价种子词列表作为Bootstrapping算法的输入;
以每一“属性-评价”种子词对作为Bootstrapping算法的输入,从所述训练语料中遍历得出两个词汇之间存在的其他词汇,作为学习得到的规则输出;
以上述学到的规则作为Bootstrapping算法的输入,遍历所述训练语料,学习得到“属性-评价”扩展词对;
重复进行上述学习规则的过程和学习“属性-评价”扩展词对的过程,并设置迭代次数,得到属性文件、评价文件、“属性-评价”配对文件和规则文件。
11.根据权利要求3所述的方法,其特征在于,所述根据所述属性文件生成属性树文件包括:
以所述属性文件作为输入,删除不准确的属性词,并添加遗漏属性词;
根据各属性之间的上下级关系,构建并生成属性树文件。
12.根据权利要求3所述的方法,其特征在于,所述根据所述“属性-评价”配对文件生成聚类映射文件包括:将属性的同义词、评价的同义词进行归类,生成聚类映射文件。
13.一种商品评论数据的口碑分析装置,其特征在于,包括:
接收模块,用于接收输入的待分析商品评论数据,并对所述待分析商品评论数据进行分句处理;
提取模块,用于当判定所述待分析商品评论数据中具有匹配所述规则文件的规则的子句时,则根据匹配的规则提取所述待分析商品评论数据的属性词和评价词;其中,所述规则文件是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
判断模块,用于判断所述属性词是否存在属性树文件中,判断所述评价词是否存在评价文件中;其中,所述属性树文件用于表示属性文件中多种属性存在的上下级关系,所述属性文件、评价文件均是将待训练商品评论数据的属性种子词和评价种子词输入Boostrapping算法得到的;
第一判定模块,用于当判定所述属性词存在所述属性树文件中且所述评价词存在所述评价词文件中时,从聚类映射文件中匹配所述属性词和评价词对应的口碑数据,获得目标口碑数据。
14.根据权利要求13所述的装置,其特征在于,还包括第二判定模块:用于当判定所述属性词不存在所述属性树文件中或所述评价词不存在所述评价词文件中时,将所述属性词或评价词对应的口碑数据作为目标口碑数据。
15.根据权利要求13所述的装置,其特征在于,还包括:
获取模块,用于获取输入的待训练商品评论数据,提取所述待训练商品评论数据的属性种子词和评价种子词;
第一生成模块,用于以所述属性种子词和评价种子词作为输入,调用Bootstrapping算法进行训练学习,生成并得到属性文件、评价文件、规则文件和“属性-评价”配对文件;
第二生成模块,用于根据所述属性文件生成属性树文件,根据所述“属性-评价”配对文件生成聚类映射文件。
16.根据权利要求15所述的装置,其特征在于,所述评价文件包括评价词列表,所述装置还包括筛选模块:用于对评价文件进行筛选,删除无效的评价词。
17.根据权利要求15所述的装置,其特征在于,所述获取模块具体用于:通过PageRank算法和/或PMI算法提取所述待训练商品评论数据的属性种子词和评价种子词。
18.根据权利要求17所述的装置,其特征在于,所述获取模块包括:
分词单元,用于对待训练文本进行分词,并进行词性标注;其中,所述待训练文本中包括待训练商品评论数据;
提取单元,用于提取所述待训练文本中待训练商品评论数据的待训练名词和待训练形容词;其中,所述待训练名词和待训练形容词位于同个待训练文本,且所述待训练名词位于待训练形容词之前;
构建单元,用于根据所述待训练名词和待训练形容词构建二分图G(V1,V2,E);其中,二分图的V1为提取出的所有待训练名词,V2为提取出的所有待训练形容词;
调整单元,用于给二分图的V1和V2随机分配权值PG(v1i)和PG(v2j),并对权值PG(v1i)和PG(v2j)进行调整;其中v1i表示V1中的第i个节点,v2j表示V2中的第j个节点,调整权值的公式为:
其中p为参数,c2j为节点v2j的边数,c1i为节点v1i的边数,n1为V1的节点数,n2为V2的节点数,M(v1i)表示和节点v1i相连接的节点,M(v2j)表示和节点v2j相连接的节点;
迭代单元,用于重复利用调整权值的公式进行权值调整,迭代执行N次直至收敛;
排序单元,用于对V1,V2节点根据权值从大到小排序并输出这些词语,得到属性种子词和评价种子词。
19.根据权利要求18所述的装置,其特征在于,所述提取单元,具体用于:
设定一个大小为n的窗口,窗口滑过所有待训练文本;当窗口滑到某段待训练文本上时,如果窗口内的词语满足既有名词又有形容词,且名词在形容词前面的条件,就将所述名词和形容词作为待训练名词和待训练形容词提取出来;其中,所述n为大于零的正整数。
20.根据权利要求19所述的装置,其特征在于,所述调整单元具体用于:
如果待训练名词和待训练形容词在同一个窗口中被取出,就在这两个节点上加上无向边,作为二分图的边集E。
21.根据权利要求17所述的装置,其特征在于,所述获取模块具体用于:
通过以下公式确定属性词X和评价词Y共同出现的概率PMI(X,Y):
其中,X和Y为随机变量,p(X,Y)表示X和Y的联合概率,p(X)、p(Y)分别表示X和Y的概率;
通过计算评论数据中词汇的PMI可以得到属性种子词和评价种子词。
22.根据权利要求15所述的装置,其特征在于,所述第一生成模块件包括:
第一输入单元,用于以训练语料以及包括属性种子词的属性种子词列表和包括评价种子词的评价种子词列表作为Bootstrapping算法的输入;
第二输入单元,用于以每一“属性-评价”种子词对作为Bootstrapping算法的输入,从所述训练语料中遍历得出两个词汇之间存在的其他词汇,作为学习得到的规则输出;
第三输入单元,用于以上述学到的规则作为Bootstrapping算法的输入,遍历所述训练语料,学习得到“属性-评价”扩展词对;
输出单元,用于重复进行上述学习规则的过程和学习“属性-评价”扩展词对的过程,并设置迭代次数,得到属性文件、评价文件、“属性-评价”配对文件和规则文件。
23.根据权利要求15所述的装置,其特征在于,所述第二生成模块具体用于:
以所述属性文件作为输入,删除不准确的属性词,并添加遗漏属性词;
根据各属性之间的上下级关系,构建并生成属性树文件。
24.根据权利要求15所述的装置,其特征在于,所述第二生成模块具体用于:将属性的同义词、评价的同义词进行归类,生成聚类映射文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610321688.2A CN106021433B (zh) | 2016-05-16 | 2016-05-16 | 一种商品评论数据的口碑分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610321688.2A CN106021433B (zh) | 2016-05-16 | 2016-05-16 | 一种商品评论数据的口碑分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106021433A true CN106021433A (zh) | 2016-10-12 |
CN106021433B CN106021433B (zh) | 2019-05-10 |
Family
ID=57097247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610321688.2A Active CN106021433B (zh) | 2016-05-16 | 2016-05-16 | 一种商品评论数据的口碑分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106021433B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106846064A (zh) * | 2017-02-04 | 2017-06-13 | 苏州阳澄湖数字文化创意园投资有限公司 | 基于共现关系的软件潜力排序方法 |
CN107729317A (zh) * | 2017-10-13 | 2018-02-23 | 北京三快在线科技有限公司 | 评价标签的确定方法、装置及服务器 |
CN107861946A (zh) * | 2017-11-03 | 2018-03-30 | 北京奇艺世纪科技有限公司 | 一种细粒度的评价信息挖掘方法及*** |
CN108319586A (zh) * | 2018-01-31 | 2018-07-24 | 天闻数媒科技(北京)有限公司 | 一种信息提取规则的生成和语义解析方法及装置 |
CN108363725A (zh) * | 2018-01-08 | 2018-08-03 | 浙江大学 | 一种用户评论观点提取和观点标签生成的方法 |
WO2018205178A1 (zh) * | 2017-05-10 | 2018-11-15 | 曹修源 | 文字探勘衡量***及方法 |
CN108897736A (zh) * | 2018-06-20 | 2018-11-27 | 大连诺道认知医学技术有限公司 | 基于Paper Rank算法的文献排序方法及装置 |
CN109117470A (zh) * | 2017-06-22 | 2019-01-01 | 北京国双科技有限公司 | 一种评价文本信息的评价关系提取方法及装置 |
WO2019085332A1 (zh) * | 2017-11-01 | 2019-05-09 | 平安科技(深圳)有限公司 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
CN110019783A (zh) * | 2017-09-27 | 2019-07-16 | 北京国双科技有限公司 | 属性词聚类方法及装置 |
CN110738056A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN111444334A (zh) * | 2019-01-16 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
CN111507789A (zh) * | 2019-01-31 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 商品属性词的确定方法、装置及计算设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008067169A9 (en) * | 2006-11-16 | 2009-05-14 | Univ Tennessee Res Foundation | Method and apparatus for modifying output dna analysis results using an expert system |
CN101782898A (zh) * | 2010-03-25 | 2010-07-21 | 中国科学院计算技术研究所 | 一种情感词倾向性的分析方法 |
CN101833560A (zh) * | 2010-02-02 | 2010-09-15 | 哈尔滨工业大学 | 基于互联网的厂商口碑自动排序*** |
CN101968788A (zh) * | 2009-07-27 | 2011-02-09 | 富士通株式会社 | 提取商品属性信息的方法和设备 |
CN102419779A (zh) * | 2012-01-13 | 2012-04-18 | 青岛理工大学 | 一种基于属性排序的商品个性化搜索方法及装置 |
CN102609854A (zh) * | 2011-01-25 | 2012-07-25 | 青岛理工大学 | 一种基于统一相似度计算的客户划分方法及装置 |
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN102915501A (zh) * | 2012-10-29 | 2013-02-06 | 江苏乐买到网络科技有限公司 | 一种优化网络购物评价信息的方法 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN103778214A (zh) * | 2014-01-16 | 2014-05-07 | 北京理工大学 | 一种基于用户评论的商品属性聚类方法 |
JP5656542B2 (ja) * | 2010-10-06 | 2015-01-21 | 株式会社クリップス | 口コミ情報管理システム及び口コミ情報管理プログラム |
CN105069647A (zh) * | 2015-07-30 | 2015-11-18 | 齐鲁工业大学 | 一种改进的抽取中文商品评论中评价对象的方法 |
CN105095288A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 数据分析方法及数据分析装置 |
-
2016
- 2016-05-16 CN CN201610321688.2A patent/CN106021433B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008067169A9 (en) * | 2006-11-16 | 2009-05-14 | Univ Tennessee Res Foundation | Method and apparatus for modifying output dna analysis results using an expert system |
CN101968788A (zh) * | 2009-07-27 | 2011-02-09 | 富士通株式会社 | 提取商品属性信息的方法和设备 |
CN101833560A (zh) * | 2010-02-02 | 2010-09-15 | 哈尔滨工业大学 | 基于互联网的厂商口碑自动排序*** |
CN101782898A (zh) * | 2010-03-25 | 2010-07-21 | 中国科学院计算技术研究所 | 一种情感词倾向性的分析方法 |
JP5656542B2 (ja) * | 2010-10-06 | 2015-01-21 | 株式会社クリップス | 口コミ情報管理システム及び口コミ情報管理プログラム |
CN102609854A (zh) * | 2011-01-25 | 2012-07-25 | 青岛理工大学 | 一种基于统一相似度计算的客户划分方法及装置 |
CN102419779A (zh) * | 2012-01-13 | 2012-04-18 | 青岛理工大学 | 一种基于属性排序的商品个性化搜索方法及装置 |
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN102915501A (zh) * | 2012-10-29 | 2013-02-06 | 江苏乐买到网络科技有限公司 | 一种优化网络购物评价信息的方法 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN103778214A (zh) * | 2014-01-16 | 2014-05-07 | 北京理工大学 | 一种基于用户评论的商品属性聚类方法 |
CN105095288A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 数据分析方法及数据分析装置 |
CN105069647A (zh) * | 2015-07-30 | 2015-11-18 | 齐鲁工业大学 | 一种改进的抽取中文商品评论中评价对象的方法 |
Non-Patent Citations (6)
Title |
---|
LONG-SHENG CHEN ET AL.: ""A study on review manipulation classification using decision tree"", 《2013 10TH INTERNATIONAL CONFERENCE ON SERVICE SYSTEMS AND SERVICE MANAGEMENT》 * |
尹裴 等: ""中文产品评论的特征观点对识别:基于领域本体的建模方法"", 《***工程》 * |
张紫琼: ""在线中文评论情感分类问题研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
聂卉 等: ""依存句法模板下的商品特征标签抽取研究"", 《现代图书情报技术》 * |
郭冲 等: ""面向细粒度意见挖掘的情感本体树及自动构建"", 《中文信息学报》 * |
郭冲: ""面向在线评论的细粒度意见挖掘及在手机口碑分析中的应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106846064A (zh) * | 2017-02-04 | 2017-06-13 | 苏州阳澄湖数字文化创意园投资有限公司 | 基于共现关系的软件潜力排序方法 |
CN106846064B (zh) * | 2017-02-04 | 2021-04-06 | 苏州大数聚信息技术有限公司 | 基于共现关系的软件潜力排序方法 |
WO2018205178A1 (zh) * | 2017-05-10 | 2018-11-15 | 曹修源 | 文字探勘衡量***及方法 |
CN109117470A (zh) * | 2017-06-22 | 2019-01-01 | 北京国双科技有限公司 | 一种评价文本信息的评价关系提取方法及装置 |
CN110019783B (zh) * | 2017-09-27 | 2021-01-22 | 北京国双科技有限公司 | 属性词聚类方法及装置 |
CN110019783A (zh) * | 2017-09-27 | 2019-07-16 | 北京国双科技有限公司 | 属性词聚类方法及装置 |
CN107729317A (zh) * | 2017-10-13 | 2018-02-23 | 北京三快在线科技有限公司 | 评价标签的确定方法、装置及服务器 |
CN107729317B (zh) * | 2017-10-13 | 2021-07-30 | 北京三快在线科技有限公司 | 评价标签的确定方法、装置及服务器 |
WO2019085332A1 (zh) * | 2017-11-01 | 2019-05-09 | 平安科技(深圳)有限公司 | 金融数据分析方法、应用服务器及计算机可读存储介质 |
CN107861946A (zh) * | 2017-11-03 | 2018-03-30 | 北京奇艺世纪科技有限公司 | 一种细粒度的评价信息挖掘方法及*** |
CN108363725B (zh) * | 2018-01-08 | 2020-10-30 | 浙江大学 | 一种用户评论观点提取和观点标签生成的方法 |
CN108363725A (zh) * | 2018-01-08 | 2018-08-03 | 浙江大学 | 一种用户评论观点提取和观点标签生成的方法 |
CN108319586A (zh) * | 2018-01-31 | 2018-07-24 | 天闻数媒科技(北京)有限公司 | 一种信息提取规则的生成和语义解析方法及装置 |
CN108319586B (zh) * | 2018-01-31 | 2021-09-24 | 天闻数媒科技(北京)有限公司 | 一种信息提取规则的生成和语义解析方法及装置 |
CN108897736A (zh) * | 2018-06-20 | 2018-11-27 | 大连诺道认知医学技术有限公司 | 基于Paper Rank算法的文献排序方法及装置 |
CN108897736B (zh) * | 2018-06-20 | 2022-04-12 | 大连诺道认知医学技术有限公司 | 基于Paper Rank算法的文献排序方法及装置 |
CN110738056A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN110738056B (zh) * | 2018-07-03 | 2023-12-19 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN111444334A (zh) * | 2019-01-16 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
CN111444334B (zh) * | 2019-01-16 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
CN111507789A (zh) * | 2019-01-31 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 商品属性词的确定方法、装置及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN106021433B (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106021433A (zh) | 一种商品评论数据的口碑分析方法和装置 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN103984681B (zh) | 基于时序分布信息和主题模型的新闻事件演化分析方法 | |
CN106997341B (zh) | 一种创新方案匹配方法、装置、服务器及*** | |
CN107870964B (zh) | 一种应用于答案融合***的语句排序方法及*** | |
CN103631859A (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN103870001B (zh) | 一种生成输入法候选项的方法及电子装置 | |
CN104239554A (zh) | 跨领域跨类别的新闻评论情绪预测方法 | |
CN103544242A (zh) | 面向微博的情感实体搜索*** | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
CN103425763B (zh) | 基于sns的用户推荐方法及装置 | |
CN106372072A (zh) | 一种基于位置的移动社会网络用户关系的识别方法 | |
CN106372064A (zh) | 一种文本挖掘的特征词权重计算方法 | |
CN104866572A (zh) | 一种网络短文本聚类方法 | |
CN103207913A (zh) | 商品细粒度语义关系的获取方法和*** | |
CN103605644B (zh) | 一种基于相似度匹配的枢轴语言翻译方法和装置 | |
CN106156287A (zh) | 基于旅游需求模板的景区评价数据分析舆情满意度方法 | |
CN110502640A (zh) | 一种基于建构的概念词义发展脉络的提取方法 | |
CN109376352A (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN103473262A (zh) | 一种基于关联规则的Web评论观点自动分类***及分类方法 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及*** | |
CN106649250A (zh) | 一种情感新词的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 100080 No.101, 1st floor, building 14, No.27, Jiancai Chengzhong Road, Haidian District, Beijing Patentee after: Beijing PERCENT Technology Group Co.,Ltd. Address before: 100080 15 / F, block a, China Technology Trading Building, 66 North Fourth Ring Road West, Haidian District, Beijing Patentee before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd. |
|
CP03 | Change of name, title or address |