CN109800307A

CN109800307A - 产品评价的分析方法、装置、计算机设备及存储介质

Info

Publication number: CN109800307A
Application number: CN201910046997.7A
Authority: CN
Inventors: 胡芹
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2019-05-24
Anticipated expiration: 2039-01-18
Also published as: CN109800307B

Abstract

本发明公开了一种产品评价的分析方法、装置、计算机设备及存储介质，所述方法包括：获取应用产品的待分析数据，对待分析数据进行分词处理，得到目标分词，并构建目标分词的目标词向量，以及对目标分词进行词性标注，得到目标词向量的词性，使用目标词向量构建子语句向量和语句向量，在预设的语义分析模型中的每种词性对应的聚类簇中，计算每个目标词向量的权重系数，根据目标词向量的权重系数，计算每个子语句向量的得分和语句向量的评分结果，从分数映射表中查询与评分结果对应的用户喜好程度，从而确定用户对应用产品的喜好程度。本发明实施例能够快速准确地得到用户的评论对应用产品的认可程度，提高对应用产品的评论的分析准确率。

Description

产品评价的分析方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据分析技术领域，尤其涉及一种产品评价的分析方法、装置、计算机设备及存储介质。

背景技术

在各个应用软件的应用市场中，用户在下载应用软件使用后，会对应用软件进行评价，用户评价的内容能够体现应用软件的优缺点，是获取用户的反馈信息的直接方式，生产商可以从用户的评论中获取到应用软件的设计优点，以及需要改进的缺点。目前，通常使用情感分类模型对用户的评论内容进行分析，但是，情感分类模型的分析准确率并不高，且情感分析模型只能判断出用户对应用软件是持正面或者负面的态度，不能具体表现出用户的积极和消极程度，因此，目前对应用市场中的用户评论进行分析的效果较差。

发明内容

本发明实施例中提供一种产品评价的分析方法、装置、计算机设备及存储介质，以解决当前对应用软件的评论的分析准确率低的问题。

一种产品评价的分析方法，包括：

获取应用产品的待分析数据；

对所述待分析数据进行分词处理，得到目标分词；

构建所述目标分词的目标词向量，并对所述目标分词进行词性标注，得到每个所述目标词向量的词性；

按照所述目标分词在所述待分析数据中的排列顺序，使用所述目标分词对应的所述目标词向量构建n个子语句向量和语句向量，其中，n为正整数；

根据预设的语义分析模型中每种词性对应的K个聚类簇，以及每个所述聚类簇对应的权重系数，按照所述目标词向量的词性，计算所述目标词向量与所述聚类簇之间的相似度，并获取与所述目标词向量的相似度最大的所述聚类簇对应的权重系数作为所述目标词向量的权重系数，其中，K为正整数；

根据所述目标词向量的权重系数，计算每个所述子语句向量的得分，并根据n个所述子语句向量的得分计算所述语句向量的评分结果；

根据所述语句向量的评分结果，从预设的分数映射表中查询与所述评分结果对应的用户喜好程度，并将所述用户喜好程度作为所述待分析数据的分析结果。

一种产品评价的分析装置，包括：

数据获取模块，用于获取应用产品的待分析数据；

分词处理模块，用于对所述待分析数据进行分词处理，得到目标分词；

词向量构建模块，用于构建所述目标分词的目标词向量，并对所述目标分词进行词性标注，得到每个所述目标词向量的词性；

语句向量构建模块，用于按照所述目标分词在所述待分析数据中的排列顺序，使用所述目标分词对应的所述目标词向量构建n个子语句向量和语句向量，其中，n为正整数；

权重获取模块，用于根据预设的语义分析模型中每种词性对应的K个聚类簇，以及每个所述聚类簇对应的权重系数，按照所述目标词向量的词性，计算所述目标词向量与所述聚类簇之间的相似度，并获取与所述目标词向量的相似度最大的所述聚类簇对应的权重系数作为所述目标词向量的权重系数，其中，K为正整数；

评分计算模块，用于根据所述目标词向量的权重系数，计算每个所述子语句向量的得分，并根据n个所述子语句向量的得分计算所述语句向量的评分结果；

结果输出模块，用于根据所述语句向量的评分结果，从预设的分数映射表中查询与所述评分结果对应的用户喜好程度，并将所述用户喜好程度作为所述待分析数据的分析结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述产品评价的分析方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述产品评价的分析方法。

上述产品评价的分析方法、装置、计算机设备及存储介质，通过获取应用产品的待分析数据，对待分析数据进行分词处理，得到目标分词，并构建目标分词的目标词向量，以及对目标分词进行词性标注，得到每个目标词向量的词性，使用目标词向量构建待分析数据的子语句向量和语句向量，在预设的语义分析模型中的每个词性所对应的聚类簇中，计算每个目标词向量的权重系数，最后，根据目标词向量的权重系数，计算每个子语句向量的得分和语句向量的评分结果，从分数映射表中查询与评分结果对应的用户喜好程度，从而确定用户对应用产品的喜好程度。通过使用训练好的语义分析模型计算出待分析数据中每个目标分词对应的权重系数，并根据目标分词对应的权重系数求出待分析数据的评分结果，能够快速并且准确地得到用户的评论对应用产品的认可程度，体现出评论数据的消极程度或者积极程度，提高对应用产品的评论的分析效率和分析准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中产品评价的分析方法的一应用环境示意图；

图2是本发明一实施例中产品评价的分析方法的一流程图；

图3是本发明一实施例中产品评价的分析方法中对待分析数据进行评分的一具体流程图；

图4是本发明一实施例中产品评价的分析方法中将数据保存到数据库的一具体流程图；

图5是本发明一实施例中产品评价的分析方法中构建语义分析模型的一具体流程图；

图6是本发明一实施例中产品评价的分析方法中对词向量进行聚类的一具体流程图；

图7是本发明一实施例中产品评价的分析装置的一原理框图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供的产品评价的分析方法，可应用在如图1的应用环境中，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，用户通过客户端输入对应用产品的评价，服务端获取用户的评价作为带分析数据，并使用预设的语义分析模型对待分析数据进行评分，得到用户对应用产品的用户喜好程度。客户端具体可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供产品评价的分析的方法应用于服务端。

在一实施例中，图2示出本实施例中产品评价的分析方法的一流程图，该方法应用在图1中的服务端，用于对应用产品的待分析数据进行分析，获取用户对应用产品的用户喜好程度。如图2所示，该产品评价的分析方法包括步骤S1至步骤S7，详述如下：

S1：获取应用产品的待分析数据。

在本实施例中，待分析数据是用户对应用产品的评价数据，用户在应用产品平台下载应用产品后，例如，豌豆荚或者安卓市场等应用产品平台，用户会根据应用产品的下载和使用的情况对该应用产品进行评论，服务商需获取该应用产品的评价数据进行分析，以便进一步地对应用产品进行改善。

具体地，应用产品的待分析数据，可以是用户在客户端下载应用产品后输入的评价数据，也可以是服务端从互联网中获取的评价数据，具体的数据来源可以根据实际需要进行设置，此处不做限制。

S2：对待分析数据进行分词处理，得到目标分词。

具体地，服务端基于预设的语料库，对待分析数据进行分词处理，由待分析数据进行切分后得到至少一个目标分词，该预设的语料库是预先设置用于存储中文词语的数据库，其中，预设的语料库包括标准的词语和词语的词性，预设的语料库中的内容具体可以从开源的《千万级巨型汉语词库》、《结巴中文分词库》或者《新版北大标注集》等中文词库中获取。

可以理解地，对待分析数据进行分词处理之后，有利于机器模型的识别分析，得到的目标分词的粒度更小，使得机器模型的分析准确度更高。

S3：构建目标分词的目标词向量，并对目标分词进行词性标注，得到每个目标词向量的词性。

其中，词向量是指将中文词语使用数学的描述方式或者机器语言的描述方式表示，以便在计算机中表示语言，并能让计算机程序识别处理。本实施例中的目标词向量是用向量的形式表示目标分词。

具体地，服务端可以使用词向量生成技术将目标分词转换为目标词向量，构建每个目标分词对应的词向量，例如，目标分词“产品”构建得到的目标词向量为<0.3，0.5，0.1，0.1>，该词向量生成技术具体可以是one-hot编码技术，也可以是word2vec(word tovector，词语转换向量)等自然语言处理技术。

根据预设的语料库中词语的词性，对每个目标分词进行词性标注，使得每个目标分词携带相应的词性，并且由目标分词生成的目标词向量也带有相应的词性，得到每个目标词向量的词性，其中，词性是指副词、形容词、名词和代词等，例如，目标分词“美丽”的词性为“形容词”。

通过预设的语料库，构建每个目标分词的目标词向量，将计算机无法准确理解的文字转换成了机器容易识别和运算的词向量，并对目标词向量进行词性标注处理，从而能够根据词性对词语的语义进行分析，得到该待分析数据中包含的对应用产品的认可程度，准确地识别出待分析数据中表达的思想。

S4：按照目标分词在待分析数据中的排列顺序，使用目标分词对应的目标词向量构建n个子语句向量，并根据n个子语句向量构建语句向量，其中，n为正整数。

在本实施例中，待分析数据是指用户对应用产品进行评论的一条评价数据，评价数据中的每个句子对应一个子语句，根据待分析数据的标点符号中的点号，将待分析数据划分成n个子语句，其中，点号是用于表示待分析数据中的语句停顿的标点符号，点号包括句号(。)、问号(？)、感叹号(！)、逗号(，)、分号(；)和冒号(：)，n的具体数值等于用户的评价数据中的句子的数量，例如，n具体可以是2，表示该待分析数据中包含2个句子，n也可以是3，表示该待分析数据包含3个句子。

具体地，按照目标分词在待分析数据中的词语排列顺序，使用目标分词对应的目标词向量构建n个子语句向量，得到的子语句向量可以表示为：SubStenP＝{[SubStenId][W₁][W₂]…[W_j]}，其中，SubStenP为子语句向量，SubStenId为在待分析数据中唯一标识子语句的标识符，用于区分待分析数据中的子语句，W_j表示第j个目标分词对应的目标词向量。

根据n个子语句在待分析数据中的语句排列顺序，使用n个子语句对应的子语句向量构建待分析数据对应的语句向量，通过向量的形式表示待分析数据，该待分析数据对应一个语句向量，并且，该语句向量具体可以表示为：SenP＝{[SenPId][SubStenP₁][SubStenP₂]…[SubStenP_n]}，其中，SenP为语句向量，SenPId为唯一标识待分析数据的标识符，用于区分识别的待分析数据，SubStenP_n为待分析数据中第n个子语句对应的子语句向量。

例如，在一具体实施例中，获取到的一待分析数据为“不错，很好用！”，对该待分析数据进行分词后，可以得到目标分词为“不错”、“很好”和“用”，根据目标分词构建目标词向量，并且，目标分词对应的目标词向量分别为：“不错”＝(0.2，0.5，1.1，0.7，1.3)，“很好”＝(1.2，2.5，1.8，0.8，0.3)，“用”＝(1，0.4，0.8，1.1，0.9)。

根据待分析数据中的点号，可以将待分析数据划分为2个子语句，并按照目标分词在待分析数据中的词语排列顺序，使用目标分词对应的目标词向量构建子语句向量，得到的子语句向量分别为：“不错”＝SubStenP₁＝{[SubSten1](0.2，0.5，1.1，0.7，1.3)}，“很好用”＝SubStenP₂＝{[SubSten2](1.2，2.5，1.8，0.8，0.3)(1，0.4，0.8，1.1，0.9)}。

根据子语句在待分析数据中的语句排列顺序，使用2个子语句向量构建得到的语句向量为：“不错，很好用！”＝SenP＝{[SenP1][SubStenP₁][SubStenP₂]}。

S5：根据预设的语义分析模型中每种词性对应的K个聚类簇，以及每个聚类簇对应的权重系数，按照目标词向量的词性，计算目标词向量与聚类簇之间的相似度，并获取与目标词向量的相似度最大的聚类簇对应的权重系数作为目标词向量的权重系数，其中，K为正整数。

在本实施例中，预设的语义分析模型是预先训练好的机器学习模型，预设的语义分析模型包括每种词性对应的K个聚类簇，以及每个聚类簇设置好对应的权重系数，其中，预设的语义分析模型中的词性包括但不限于副词、形容词、名词和代词等，K为正整数，K可以是5，也可以是6，具体可以根据实际情况进行设置。

具体地，按照目标词向量的词性，在预设的语义分析模型的与目标词向量的词性对应的聚类簇中，计算目标词向量与该词性对应的每个聚类簇之间的相似度，获取与目标词向量的相似度最大的聚类簇对应的权重系数作为目标词向量的权重系数，得到每个目标词向量的权重系数，若相似度越大，则认为两个对象的空间距离越近，词语的语义就越相似。

S6：根据目标词向量的权重系数，计算每个子语句向量的得分，并根据n个子语句向量的得分计算语句向量的评分结果。

具体地，根据步骤S5得到的目标词向量的权重系数，对每个子语句向量中的目标词向量的权重系数进行求积运算处理，计算每个子语句向量的得分，对n个子语句向量的得分进行求和运算处理，计算语句向量的评分结果，从而能够通过将待分析数据划分成粒度更小的分词，对每个分词的语义进行分析，识别得到每个分词的语义特性，再将所有的分词的语义特性相结合，得到语句向量的评分结果。

其中，权重系数包括正数和负数，正数表示褒义词，是用户评论中表示用户积极态度的词语，负数表示贬义词，是用户评论中表示用户消极态度的词语。语句向量的评分结果表示待分析数据的语义特性，评分结果为正数，表示该待分析数据是积极的评论，评分结果为负数，表示该待分析数据是消极的评论，评分结果的数值越大，表示用户对应用产品的积极态度或者消极态度的程度越高。

S7：根据语句向量的评分结果，从预设的分数映射表中查询与评分结果对应的用户喜好程度，并将用户喜好程度作为待分析数据的分析结果。

具体地，预设的分数映射表是用于存储评分结果与用户对应用产品的用户喜好程度之间的对应关系的数据表，根据语句向量的评分结果，可以从预设的分数映射表中查询得到用户对应用产品的用户喜好程度，并将用户喜好程度作为待分析数据的分析结果，该预设的分数映射表存储的映射关系具体可以根据实际情况的需要进行设置，此处不做限制。

例如，在预设的分数映射表中，评分结果在(-20，-10)之间的分数表示用户对应用产品极度不满意，急需改正应用产品的缺陷；评分结果在(-10，0)之间的分数表示用户对应用产品不太满意，急需进行改善；评分结果在(0，10)之间的分数表示用户对应用产品的印象不错，需要进一步完善；评分结果在(10，20)之间的分数表示用户对应用产品觉得很赞，可以加大推广力度；评分结果在(20，30)之间的分数表示用户对应用产品的非常喜欢，可以继续延续该应用产品的优秀的设计风格。

在图2对应的实施例中，通过获取应用产品的待分析数据，对待分析数据进行分词处理，得到目标分词，并构建目标分词的目标词向量，以及对目标分词进行词性标注，得到每个目标词向量的词性，使用目标词向量构建待分析数据的子语句向量和语句向量，在预设的语义分析模型中的每个词性所对应的聚类簇中，计算每个目标词向量的权重系数，最后，根据目标词向量的权重系数，计算每个子语句向量的得分和语句向量的评分结果，从分数映射表中查询与评分结果对应的用户喜好程度，从而确定用户对应用产品的喜好程度。通过使用训练好的语义分析模型计算出待分析数据中每个目标分词对应的权重系数，并根据目标分词对应的权重系数求出待分析数据的评分结果，能够快速并且准确地得到用户的评论对应用产品的认可程度，体现出评论数据的消极程度或者积极程度，提高对应用产品的评论的分析效率和分析准确率。

在一实施例中，本实施例对步骤S6中所提及的根据目标词向量的权重系数，计算每个子语句向量的得分，并根据n个子语句向量的得分计算语句向量的评分结果的具体实现方法进行详细说明。

请参阅图3，图3示出了步骤S6的一具体流程图，详述如下：

S61：根据目标词向量的权重系数，按照公式(1)计算每个子语句向量的得分：

其中，D_x为第x个目标词向量的权重系数，|D_x|为第x个目标词向量的权重系数的绝对值，S_x-1为D_x对应的目标词向量的前缀语句的得分，S_x为子语句向量的得分，x为大于0的正整数，S₀等于1。

具体地，针对每个子语句向量，从该子语句向量的首个目标词向量开始，使用公式(1)依次计算整个子语句向量的语句特性，目标词向量D_x的前缀语句是指，在第x个目标词向量前面的词语组合，将最后一个目标词向量的得分作为该子语句向量的得分。

例如，子语句“我爱中国”可以切分为“我”、“爱”和“中国”三个目标分词，并且目标分词对应的目标词向量的权重系数依次为2、2.5和1，其中，“爱”的前缀语句是“我”，“中国”的前缀语句是“我爱”。根据公式(1)对该子语句对应的子语句向量进行计算，可以得到：并将第三个目标词向量的得分作为该子语句向量的得分，即获取S3对应的得分25作为该子语句向量的得分，因此，子语句“我爱中国”对应的子语句向量的得分为25。

S62：根据n个子语句向量的评分，按照公式(2)计算语句向量的评分结果：

其中，S为待分析数据的评分结果，n为子语句向量的个数，S_i为第i个子语句向量的得分，i为正整数，i∈[1,n]。

具体地，使用公式(2)将n个子语句向量的评分相加，综合每个子语句向量所表达的语义特性，得到语句向量的评分结果，该评分结果表示待分析数据的语义特性，评分结果为正数，表示该待分析数据是积极的评论，评分结果为负数，表示该待分析数据是消极的评论，评分结果的数值越大，表示用户对应用产品的积极态度或者消极态度的程度越高。

在图3对应的实施例中，通过使用公式(1)计算每个子语句向量的得分，并根据所有的子语句向量的得分，使用公式(2)计算语句向量的评分结果，使得服务端能够根据每个分词的语义，分析得到每个子语句的语义特性，再将所有的子语句的语义特性相结合，从而得到待分析数据的语义特性，提高待分析数据的分析准确度。

在一实施例中，如图4所示，在步骤S7中所提及的根据语句向量的评分结果，从预设的分数映射表中查询与评分结果对应的用户喜好程度，并将用户喜好程度作为待分析数据的分析结果之后，该产品评价的分析方法还可以将得到评分结果的待分析数据保存到数据库中，详述如下：

S7：若待分析数据的评分结果大于预设的第一阈值，则将该待分析数据保存到预设的第一数据库中。

在本实施例中，预设的第一阈值是预先设置用于获取积极的评价数据的分值，若待分析数据的评分结果大于预设的第一阈值，则该待分析数据属于积极的评价数据，例如，第一阈值可以预设为10分，也可以预设为15分，具体可以根据实际需要获取的数据进行设置，此处不做限制。

服务端将评分结果大于预设的第一阈值的待分析数据保存到预设的第一数据库中，该预设的第一数据库是用于存储用户的积极的评论语句的数据库，以便工作人员可以对第一数据库中的评价数据进行进一步的分析。

可选地，工作人员可以根据第一数据库中的评价数据，对应用产品进行评估，获取应用产品的优点，从而确定后期产品设计及迭代的方案，延续应用产品的优秀核心理念，并且还可以预估得到用户的消费爱好，应用于待开发的应用产品中，制定相关的运营活动，提高应用产品的使用量。

S8：若待分析数据的评分结果小于预设的第二阈值，则将该待分析数据保存到预设的第二数据库中，其中，第二阈值小于第一阈值。

在本实施例中，预设的第二阈值是用于获取消极的评价数据的分值，若待分析数据的评分结果小于预设的第二阈值，则该待分析数据属于消极的评价数据，例如，第二阈值可以预设为0分，也可以预设为-5分，具体可以根据实际需要获取的数据进行设置，此处不做限制。

服务端将评分结果小于预设的第二阈值的待分析数据保存到预设的第二数据库中，该预设的第二数据库是用于存储用户的消极的评论语句的数据库，以便工作人员可以对第二数据库中的评价数据进行进一步的分析。

可选地，工作人员可以根据第一数据库中的评价数据，对应用产品进行分析，追溯出现问题的源头，获取应用产品的缺点，从而制定合理的解决方案对应用产品进行改进，提高应用产品的消费量。

可以理解的是，针对评分结果小于预设的第一阈值并且大于预设的第二阈值的待分析数据，该用户对应用产品可能保持中性的态度，也有可能是为了刷新下载量而填写的与该应用产品无关的评论内容，将这部分数据进行筛除，能够提高工作人员的工作效率。

在图4对应的实施例中，通过将评分结果大于预设的第一阈值的待分析数据保存到预设的第一数据库中，以及将评分结果小于预设的第二阈值的待分析数据保存到预设的第二数据库中，以便工作人员能够方便快速地获取应用产品的积极的或者消极的评价数据进行分析，并能够根据分析结果对应用产品进行完善或者改进，提高应用产品的使用量。

在一实施例中，如图5所示，在步骤S1中所提及的获取应用产品的待分析数据之前，该产品评价的分析方法还包括预设的语义分析模型的构建，构建预设的语义分析模型的具体实现方法详述如下：

S101：获取应用产品的历史评价数据。

在本实施例中，应用产品是指应用产品平台提供的应用软件产品，例如，豌豆荚或者安卓市场等应用产品平台，历史评价数据是用户对应用产品的评价数据，用户在应用产品平台下载应用产品后，会根据应用产品的下载和使用的情况对该应用产品进行评论。

具体地，历史评价数据具体可以使用应用软件产品的平台提供的数据接口进行采集，也可以通过网络协议在应用软件产品的平台抓取应用产品的评价数据，具体获取方式可以根据实际情况进行设置，此处不做限定。

优选地，应用产品的历史评价数据可以使用爬虫工具进行爬取，例如，八爪鱼爬虫工具、爬山虎爬虫工具或者集搜客爬虫工具等，将应用产品平台的URL(Uniform ResourceLocator，统一资源定位符)设置为历史评价数据的获取地址，该URL地址是互联网中唯一标识的网络地址，爬虫工具根据URL地址确定爬取数据的网页，爬取与预设的关键字对应的评论数据，该预设的关键字是与历史评价数据相关的关键字，如“评论”或者“评价”等，爬虫工具将关键字拼接到URL地址的链接上，搜索并下载与预设的关键字对应的历史评价数据。

S102：对历史评价数据进行分词处理，得到历史评价数据对应的分词。

具体地，服务端可以通过第三方分词工具或者分词算法，对历史评价数据进行分词处理，得到历史评价数据对应的分词。

其中，常见的第三方分词工具包括但不限于：Stanford NLP分词器、ICTClAS分词***、ansj分词工具和HanLP中文分词工具等。

例如，对历史评价数据“这款产品的功能非常强大”进行分词处理，可以切分为“这”、“款”、“产品”、“的”、“功能”、“非常”和“强大”等分词。

S103：基于预设的语料库，构建分词的词向量，并对分词进行词性标注，得到每个词向量的词性。

具体地，预设的语料库是预先设置用于存储中文词语的数据库，其中，预设的语料库包括标准的词语和词语的词性，预设的语料库中的内容具体可以从开源的《千万级巨型汉语词库》、《结巴中文分词库》或者《新版北大标注集》等中文词库中获取。

基于预设的语料库，服务端使用词向量生成技术将分词转换为词向量，构建每个分词对应的词向量，并根据预设的语料库中词语的词性，对每个分词进行词性标注，使得每个分词携带相应的词性，并且由分词生成的目标词向量也带有相应的词性，得到每个词向量的词性，其中，词性包括但不限于副词、形容词、名词和代词等，例如，分词“美丽”的词性为“形容词”。

S104：根据词向量的词性，采用预设的聚类算法对词向量进行聚类，得到每种词性对应的K个聚类簇。

具体地，通过聚类的方式，对词性相同的词向量进行聚类分析，得到每种词性对应的K个聚类簇，其中，聚类分析是以相似性为基础的统计分析法，在同一个聚类簇中的数据之间的相似性比不同的聚类簇中的数据之间的相似性更高，预设的聚类算法具体可以是K-means算法，也可以是Clara算法，具体可以根据实际应用的需要进行设置，此处不做限制。

优选地，本实施例使用K-Means算法对词向量进行聚类分析，采用距离作为相似性的评价指标，即认为两个词向量之间的距离越近，其相似度就越大。每个聚类簇是由距离靠近的词向量组成，因此，将得到紧凑且独立的K个聚类簇作为词向量的聚类结果。

S105：获取每个聚类簇中的簇中心点，并为每个聚类簇分配相应的权重系数，得到聚类后的预设的语义分析模型。

具体地，在聚类簇中，若所有词向量到某个词向量的距离的和最小，则该词向量为该聚类簇中的簇中心点，获取簇中心点对应的分词作为关键词，该关键词代表聚类簇的语义，并根据该分词的词性特征为该分词分配相应的权重系数，也即，为每个聚类簇设置相应的权重系数，得到每个词性的权重集H＝[H₁，H₂，…，H_k]＝[H₁₁，H₂₂，…，H_kk]，其中，词性H包括K个聚类簇，H_k表示第K个聚类簇的簇中心点，H_kk表示第K个聚类簇对应的权重系数，从而得到包含每个词性的K个聚类簇和每个聚类簇对应的权重系数的语义分析模型。

例如，在词性为副词中，根据各个簇中心点的语义设置的权重系数为：[极，非常，十分，很，比较，一点，一般]＝[2，1.6，1.5，1.3，1.1，1]，在词性为形容词中，根据各个簇中心点的语义设置的权重系数为:[优，良，好，中，差，坏]＝[2，1.5，1.2，1，-1.5,-2]，在词性为代词中，各个簇中心点的权重系数可以均设置为1。

需要说明的是，权重系数包括正数和负数，正数表示褒义词，是用户评论中的表示用户积极态度的词语，负数表示贬义词，是用户评论中的表示用户消极态度的词语。

在图5对应的实施例中，通过获取应用产品的历史评论数据，对历史评论数据进行分词处理，得到历史评论数据对应的分词，并基于预设的语料库，构建分词的词向量，以及对分词进行词性标注，得到每个词向量的词性，根据词向量的词性，采用预设的聚类算法对词向量进行聚类，得到每种词性对应的聚类簇，再获取每个聚类簇中的簇中心点，为每个聚类簇分配相应的权重系数，得到语义分析模型，以便后续使用语义分析模型对应用产品的评论进行智能分析，能够快速并且准确地得到用户的评论对应用产品的认可程度，体现出评价数据的消极程度或者积极程度，提高对应用产品的评论的分析效率和分析准确率。

在一实施例中，本实施例对步骤S104中所提及的根据词向量的词性，采用预设的聚类算法对词向量进行聚类，得到每种词性对应的K个聚类簇的具体实现方法进行详细说明。

请参阅图6，图6示出了步骤S104的一具体流程图，详述如下：

S1041：根据词向量的词性对词向量进行归类，将包含相同词性的词向量存储到同一个类别。

具体地，根据词向量的词性，将历史评价数据的分词对应的词向量按照词性进行分类，将包含相同的词性的词向量归为一类存储到同一个类别，得到形容词集、名词集、代词集和副词集等类别，以便对不同词性的词语进行区分，提高聚类的效率。

S1042：针对每个类别的词向量，采用K-means聚类算法根据该类别中的每两个词向量之间的欧式距离进行聚类处理，得到每个词性对应的K个聚类簇。

具体地，针对每个类别的词向量，随机选择K个词向量作为初始聚类中心，通过公式(3)计算未选中的其它词向量与初始聚类中心的欧式距离：

D＝sqrt(∑(p-q)^2) 公式(3)

其中，p是初始聚类中心，q是词向量，p＝(X₁，X₂，...，X_n)，q＝(Y₁，Y₂，...，Y_n)，sqrt是开平方根的函数，D是p和q之间的欧氏距离。

在每个未选中的其它词向量中，根据该词向量与所有的初始聚类中心的欧式距离，将该词向量划分到与该词向量的欧式距离最小的初始聚类中心中，形成K个临时聚类簇。

计算每个临时聚类簇的均值。根据临时聚类簇的均值，计算临时聚类簇中每个词向量和该均值之间的欧氏距离，选取最小欧氏距离对应的词向量作为该临时聚类簇的新的聚类中心，并将词向量划分到与该词向量的欧式距离最小的新的聚类中心中，得到更新后的K个临时聚类簇。

按照公式(4)计算每个更新后的临时聚类簇的标准差：

其中，σ为标准差，A_t为更新后的聚类簇中第t个词向量，n为更新后的聚类簇中词向量的数量，μ为词向量A_t所在的更新后的临时聚类簇的均值，t∈[1，m]，且t和m均为正整数。

若K个更新后的临时聚类簇的标准差中至少存在一个标准差大于或者等于预设的标准差阈值，则返回计算每个临时聚类簇的均值的步骤，继续更新K个临时聚类簇，直到更新后的K个临时聚类簇的标准差均小于预设的标准差阈值为止。

若K个更新后的临时聚类簇的标准差均小于预设的标准差阈值，则将该K个更新后的临时聚类簇的聚类中心作为聚类分析结果，得到每个词性对应的K个聚类簇。

在图6对应的实施例中，通过将包含相同词性的词向量存储到同一个类别，并针对每个类别的词向量，采用K-means聚类算法根据该类别中的每两个词向量之间的欧式距离进行聚类处理，得到每个词性对应的多个聚类簇，将对应用产品的评价中相同语义的分词做聚类处理，使得机器能够学习到该类分词的语义特性，在对评价数据的分析过程中，能够根据已经学习到的知识，识别得到评价数据中每个分词的语义，提高语义识别模型对评价数据的识别准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种产品评价的分析装置，该产品评价的分析装置与上述实施例中产品评价的分析方法一一对应。如图7所示，该产品评价的分析装置包括：数据获取模块71、分词处理模块72、词向量构建模块73、语句向量构建模块74、权重获取模块75、评分计算模块76和结果输出模块77。

各功能模块详细说明如下：

数据获取模块71，用于获取应用产品的待分析数据；

分词处理模块72，用于对待分析数据进行分词处理，得到目标分词；

词向量构建模块73，用于构建目标分词的目标词向量，并对目标分词进行词性标注，得到每个目标词向量的词性；

语句向量构建模块74，用于按照目标分词在待分析数据中的排列顺序，使用目标分词对应的目标词向量构建n个子语句向量和语句向量，其中，n为正整数；

权重获取模块75，用于根据预设的语义分析模型中每种词性对应的K个聚类簇，以及每个聚类簇对应的权重系数，按照目标词向量的词性，计算目标词向量与聚类簇之间的相似度，并获取与目标词向量的相似度最大的聚类簇对应的权重系数作为目标词向量的权重系数，其中，K为正整数；

评分计算模块76，用于根据目标词向量的权重系数，计算每个子语句向量的得分，并根据n个子语句向量的得分计算语句向量的评分结果；

结果输出模块77，用于根据语句向量的评分结果，从预设的分数映射表中查询与评分结果对应的用户喜好程度，并将用户喜好程度作为待分析数据的分析结果。

进一步地，评分计算模块76包括：

第一计算单元761，用于根据目标词向量的权重系数，按照如下公式计算每个子语句向量的得分：

其中，D_x为第x个目标词向量的权重系数，|D_x|为第x个目标词向量的权重系数的绝对值，S_x-1为D_x对应的目标词向量的前缀语句的得分，S_x为子语句向量的得分，x为大于0的正整数，S₀等于1；

第二计算单元762，用于根据n个子语句向量的评分，按照如下公式计算语句向量的评分结果：

进一步地，该产品评价的分析装置还包括：

第一存储模块78，用于若待分析数据的评分结果大于预设的第一阈值，则将该待分析数据保存到预设的第一数据库中；

第二存储模块78，用于若待分析数据的评分结果小于预设的第二阈值，则将该待分析数据保存到预设的第二数据库中，其中，第二阈值小于第一阈值。

进一步地，该产品评价的分析装置还包括：

数据采集模块701，用于获取应用产品的历史评价数据；

数据分词模块702，用于对历史评价数据进行分词处理，得到历史评价数据对应的分词；

词性标注模块703，用于基于预设的语料库，构建分词的词向量，并对分词进行词性标注，得到每个词向量的词性；

向量聚类模块704，用于根据词向量的词性，采用预设的聚类算法对词向量进行聚类，得到每种词性对应的K个聚类簇；

模型构建模块705，用于获取每个聚类簇中的簇中心点，并为每个聚类簇分配相应的权重系数，得到聚类后的预设的语义分析模型。

进一步地，向量聚类模块704包括：

分类单元7041，用于根据词向量的词性对词向量进行归类，将包含相同词性的词向量存储到同一个类别；

聚类单元7042，用于针对每个类别的词向量，采用K-means聚类算法根据该类别中的每两个词向量之间的欧式距离进行聚类处理，得到每个词性对应的K个聚类簇。

关于产品评价的分析装置的具体限定可以参见上文中对于产品评价的分析方法的限定，在此不再赘述。上述产品评价的分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种产品评价的分析方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中产品评价的分析方法中的步骤，例如图2所示的步骤S1至步骤S7，或者，处理器执行计算机程序时实现上述实施例中产品评价的分析装置的各模块/单元的功能，例如图7所示模块71至模块77的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中产品评价的分析方法中的步骤，例如图2所示的步骤S1至步骤S7，或者，处理器执行计算机程序时实现上述实施例中产品评价的分析装置的各模块/单元的功能，例如图7所示模块71至模块77的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyKchliKk)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种产品评价的分析方法，其特征在于，所述产品评价的分析方法包括：

获取应用产品的待分析数据；

对所述待分析数据进行分词处理，得到目标分词；

按照所述目标分词在所述待分析数据中的排列顺序，使用所述目标分词对应的所述目标词向量构建n个子语句向量，并根据n个所述子语句向量构建语句向量，其中，n为正整数；

2.如权利要求1所述的产品评价的分析方法，其特征在于，所述根据所述目标词向量的权重系数，计算每个所述子语句向量的得分，并根据所述子语句向量的得分计算所述语句向量的评分结果包括：

根据所述目标词向量的权重系数，按照如下公式计算每个所述子语句向量的得分：

其中，D_x为第x个所述目标词向量的权重系数，|D_x|为第x个所述目标词向量的权重系数的绝对值，S_x-1为D_x对应的目标词向量的前缀语句的得分，S_x为所述子语句向量的得分，x为大于0的正整数，S₀等于1；

根据n个所述子语句向量的评分，按照如下公式计算所述语句向量的评分结果：

其中，S为所述待分析数据的评分结果，n为所述子语句向量的个数，S_i为第i个所述子语句向量的得分，i为正整数，i∈[1,n]。

3.如权利要求1所述的产品评价的分析方法，其特征在于，在所述根据所述待分析数据的评分结果，从预设的分数映射表中查询用户对所述应用产品的喜好程度，得到所述用户喜好程度作为所述分析结果之后，所述产品评价的分析还包括：

若所述待分析数据的评分结果大于预设的第一阈值，则将该待分析数据保存到预设的第一数据库中；

若所述待分析数据的评分结果小于预设的第二阈值，则将该待分析数据保存到预设的第二数据库中，其中，所述第二阈值小于所述第一阈值。

4.如权利要求1所述的产品评价的分析方法，其特征在于，在所述获取待分析数据之前，所述产品评价的分析方法还包括：

获取所述应用产品的历史评价数据；

对所述历史评价数据进行分词处理，得到所述历史评价数据对应的分词；

基于预设的语料库，构建所述分词的词向量，并对所述分词进行词性标注，得到每个所述词向量的词性；

根据所述词向量的词性，采用预设的聚类算法对词向量进行聚类，得到每种所述词性对应的K个所述聚类簇；

获取每个所述聚类簇中的簇中心点，并为每个所述聚类簇分配相应的权重系数，得到聚类后的所述预设的语义分析模型。

5.如权利要求4所述的产品评价的分析方法，其特征在于，所述根据所述词向量的词性，采用预设的聚类算法对词向量进行聚类，得到每种所述词性对应的K个聚类簇包括：

根据所述词向量的词性对所述词向量进行归类，将包含相同词性的所述词向量存储到同一个类别；

针对每个类别的所述词向量，采用K-means聚类算法根据该类别中的每两个所述词向量之间的欧式距离进行聚类处理，得到每个所述词性对应的K个聚类簇。

6.一种产品评价的分析装置，其特征在于，所述产品评价的分析装置包括：

数据获取模块，用于获取应用产品的待分析数据；

7.如权利要求6所述的产品评价的分析装置，其特征在于，所述评分计算模块包括：

第一计算单元，用于根据所述目标词向量的权重系数，按照如下公式计算每个所述子语句向量的得分：

第二计算单元，用于根据n个所述子语句向量的评分，按照如下公式计算所述语句向量的评分结果：

8.如权利要求6所述的产品评价的分析装置，其特征在于，所述产品评价的分析装置还包括：

数据采集模块，用于获取所述应用产品的历史评价数据；

数据分词模块，用于对所述历史评价数据进行分词处理，得到所述历史评价数据对应的分词；

词性标注模块，用于基于预设的语料库，构建所述分词的词向量，并对所述分词进行词性标注，得到每个所述词向量的词性；

向量聚类模块，用于根据所述词向量的词性，采用预设的聚类算法对词向量进行聚类，得到每种所述词性对应的K个所述聚类簇；

模型构建模块，用于获取每个所述聚类簇中的簇中心点，并为每个所述聚类簇分配相应的权重系数，得到聚类后的所述预设的语义分析模型。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述产品评价的分析方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述产品评价的分析方法。