CN109871447A

CN109871447A - 中文评论无监督学习的聚类方法、计算机程序产品以及服务器***

Info

Publication number: CN109871447A
Application number: CN201910163711.3A
Authority: CN
Inventors: 杨帆; 于巨明; 尚应
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2019-06-11

Abstract

本发明提供一种中文评论无监督学习的聚类方法、计算机程序产品以及服务器***，其中聚类方法包括：获取评论数据，整理得到语料库；对语料库中的评论内容信息进行预处理，并进行分词和词向量训练；提取候选标签；对候选标签库进行消重处理；对消重后的候选标签进行情感词过滤；对去除无效标签后的候选标进行签基于DBSCAN的聚类运算，得到所有候选标签的量级，对聚类结果按照数量进行降序排列；最终统计每个聚类量级，输出TopN。本发明提出基于无监督学习的聚类方式，克服以往标签聚类方法难以客观表达评论结果的问题，本发明能够根据评论和标签的实际内容进行自主、无监督的提炼和学习，提供更加客观和反应真实评论结果的聚类结果。

Description

中文评论无监督学习的聚类方法、计算机程序产品以及服务器***

技术领域

本发明涉及数据挖掘与处理技术领域，具体而言涉及一种中文评论无监督学习的聚类方法、计算机程序产品以及服务器***。

背景技术

目前电商平台或者论坛上对商品或者服务的评价中，往往通过技术手段进行标签的抽取和展示，以供潜在的用户直接获得产品或者服务的最直接的评价。现有生成这些标签的方式中主要有两种，其中一种是抽取，即基于统计原理抽取出现频率最高的词汇或者短语，形成标签，并按照频率的高低进行顺序排列，这一方式在标注时候会产生比较多的噪声，而且仅基于统计原理的抽取，往往得到千奇百怪的结果(标签)，不能真实反映评论或者产品的特点；另一种是基于预先自定义的标签的生成，然后再评论信息中进行查找累加，如果出现一次则累加1，查询完所有的评论则会得到自定义标签的累加结果，取前N个进行排列得到最终标注结果，这一方式标注的时候往往需要比较的劳动，效率低，而且只能针对自定义的标签进行累加，针对新的评论或者关键词往往没有效果。

结合上述两种方式，都是基于有监督方式的聚类，其特点是难以反应真实情况。

发明内容

本发明的目的旨在针对现有技术的有监督聚类方式存在的问题，提出一种中文评论无监督学习的聚类方法、计算机程序产品以及服务器***，通过无监督聚类得到的标签，能够自主更新和学习，并且更深层次的反应评论以及评论对象的真实情况，使得聚类结果更客观。

为实现上述目的，本发明所采用的技术方案如下：

一种中文评论无监督学习的聚类方法，包括以下步骤：

步骤1、获取针对一产品或者服务的评论数据，整理得到语料库，所述语料库中包含按顺序存储的评论内容信息；

步骤2、对语料库中的评论内容信息进行预处理，并进行分词和词向量训练，得到针对分词结果的对应词向量；

步骤3、基于自然语言的标签提取规则提取候选标签，形成候选标签库；

步骤4、对所述候选标签库进行消重处理，去除重复的候选标签；

步骤5、对消重后的候选标签进行情感词过滤，去除无效标签；

步骤6、对去除无效标签后的候选标进行签基于DBSCAN的聚类运算，得到所有候选标签的量级，对聚类结果按照数量进行降序排列；

步骤7、统计每个聚类量级，输出TopN。

根据本发明的公开的另一方面还提出一种计算机程序产品，包括编码有指令的一个或多个非暂态机器可读介质，所述指令在由一个或多个处理器执行时使得过程被执行，所述过程用于执行对获取的中文评论数据的无监督聚类处理，所述过程包括执行前述流程。

根据本发明的公开的第三方面还提出一种服务器***，包括：

接口，被设置用于获得针对至少一产品或者服务的评论数据；

至少一个处理器；

至少一个存储器，被设置用于存储可被所述至少一个处理器执行的编码的指令，所述指令在由所述至少一个处理器执行时用以实现对获取的评论数据的无监督聚类处理过程，所述过程包括：

步骤1、对获取的评论数据，整理得到语料库，所述语料库中包含按顺序存储的评论内容信息；

步骤7、统计每个聚类量级，输出TopN。

更加优选的例子中，所述过程更加包含：

在所述步骤5中，对每一条候选标签进行情感词过滤处理，生成过滤完的候选标签库，候选标签库数据结构包括候选标签字符串以及候选标签字符串向量；

然后，在步骤6将候选标签输入到DBSCAN聚类算法进行聚类运算，从第一条候选标签开始，选取候选标签和候选标签库中其他所有的候选标签按照余弦相似度算法计算相似度，将相似度值和预先设定的相似性阀值做比对，确定相似度大于阀值的标签集合；再判定如果标签集合大于定义的设定的最小邻居数，则统计该标签集合中标签的个数作为本标签的量级，否则结束；

然后，持续循环上述聚类运算过程，直到所有的候选标签聚类结束；

最后，按照得到的所有标签和标签的量级对聚类结果按数量进行降序排列。

结合前述技术方案及其实施，本发明的显著的有益效果在于：

1、整体上提出基于无监督学习的聚类方式，克服以往有监督聚类的单纯统计或者预先定义标签无法进行自主学习，导致标签展示的结果难以表达真实和客观的评论结果的问题，采用本发明的无监督学习的聚类方式，基于特定规则的分词和候选标签选取后，采用无监督学习的聚类，能够根据评论和标签的实际内容进行自主、无监督(无自定义、无预先指定)的提炼和学习，最终聚类过程和结果更加提现客观的评论结果，学习前后均不掺杂人为因素和干涉介入；

2、在聚类的数据基础上，进行基于自然语言的标签提取，采用中文依存句法分析通过分析语言单位内成分之前的依存关系解释其句法结构，以句子中核心动词是支配其他成分的中心成分为原则，而它本身却不受其他任何成分的支配，所有受支配成分都以某种关系从属于支配者，因此可基于此进行不同规则的提取，例如实施例所使用的“名词主语+状语，名词主语+状语+状语，状语+状语，状语+形容词，状语”等5类抽取规，针对中文评论高发的评论内容，有效、客观的提取候选标签；

3、数据的基础处理还包括对候选标签的情感词过滤，基于优选的组合的情感词进行等职匹配，使得很多无效和无意义的标签被滤除掉，避免后期数据聚类的无效处理和效率低下，避免由此导致的聚类结果不能真实客观反映评论的缺陷产生；

4、在滤除无效标签的过程后期，还对拆分和组合的分词进行词向量的均值化处理，利于后期进行基于余弦相似度算法的聚类得到标签集合，并基于该标签集合进行最终的量级确定，提高聚类效率。

附图说明

图1是本发明的中文评论无监督学习的聚类方法的流程示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施。

结合图1，根据本发明公开的实施例的中文评论无监督学习的聚类方法，其旨在对获取的公司的产品或者服务的评论进行聚类，得到最能够提现评论结果的TOPN个评论标签，以供用户参考，帮助用户以最快的速度了解以往对该款产品或者服务的评价，或者籍以提高产品或者服务的后续服务，用作参考。

以往采用的统计方式(关键词识别与累加)以及自定义标签(自定义关键词)均不能覆盖到评论的实际发生情况，缺乏扩展性，标签内容的同质化严重，而本发明的方案中基于无监督的方式进行，能够根据实际评论内容进行实时的学习和调整，不断更新标签以及标签聚类结果，提供更加客观和反应真实评论结果的聚类结果。

结合图1所示，本发明提出的无监督学习的聚类方法，整体上包括以下过程：

步骤7、统计每个聚类量级，输出TopN。

由此，上述过程实现依赖于所使用的无监督深度学习和自然语言处理技术，通过聚类技术和标签抽取模型完成客户主题评论标签的自动化提取，能够全面、客观展示用户对特定主题评论内容潜在深层次的数据挖掘。

结合图1所示，下面更加具体的描述本发明的实施例的聚类方法的示例性实现。

步骤1：获取针对一产品或者服务的评论数据，整理得到语料库，所述语料库中包含按顺序存储的评论内容信息。

在一些具体的实现过程中，可以通过电商、客服以及其他渠道得到原始的针对一产品或者服务的评论数据，本例中以所售出的当季衣服“碎花连衣裙”为例进行说明，但本领域人员应当理解，本发明的实施并非以此为限制。

在评论数据中，我们整理中文评论数据，得到语料库，其中按照一定的顺序摘取和排列用户对该“碎花连衣裙”的评论内容，尤其是文字内容。当然在另外的实施例，还可以包含语音评论数据。可通过语音-文字转换将其转换成文字内容。

在一些例子中，例如通过评论时间的先后顺序，将所有文字内容整理成按行排列存储的语料库，以供后续处理。

步骤2：对语料库中的评论内容信息进行预处理，并进行分词和词向量训练，得到针对分词结果的对应词向量。

在本发明的实施例中，主要在步骤2进行如下过程的处理：

步骤2-1、对语料库中的文字内容进行预处理，这里的预处理尤其是指去除停用词，例如在文字内容“非常喜欢的衣服”中取出其中的停用词“的”“非常”，而保留“喜欢衣服”的评论内容，以减少后续的分词、计算以及聚类处理的索引和计算量；

步骤2-2、去除停用词后，对语料库中的文字内容，按照存储方式的顺序进行分词处理；例如分词形成“喜欢”、“衣服”的分词结果；

步骤2-3、对分词进行词向量训练，得到针对分词结果的对应词向量。

在步骤2-2中的预处理过程中，作为可选的方式，在针对评论内容的聚类需求，我们采用hanLP分词，分词，并对分词结果基于word2vec训练词向量，这里训练的词向量用于后续的基于余弦相似度算法的聚类处理。

步骤3、基于自然语言的标签提取规则提取候选标签，形成候选标签库。

本发明的实施过程中，在聚类的数据基础上，进行基于自然语言的标签提取，采用中文依存句法分析通过分析语言单位内成分之前的依存关系解释其句法结构，以句子中核心动词是支配其他成分的中心成分为原则，而它本身却不受其他任何成分的支配，所有受支配成分都以某种关系从属于支配者，因此可基于此进行不同规则的提取，例如实施例所使用的“名词主语+状语，名词主语+状语+状语，状语+状语，状语+形容词，状语”等5类抽取规，针对中文评论高发的评论内容，有效、客观的提取候选标签。

当然，在另外的实施例中，针对不同的聚类场景和需求，可以选用其他的提取规则或者它们的组合。

步骤4、对所述候选标签库进行消重处理，去除重复的候选标签。

优选的示例中，对候选标签库中的候选标签，基于simhash算法进行消重，去除内容实质上相同的标签。

例如，针对评论内容“喜欢衣服”、“喜爱衣服”，其实质上为表达同一实质含义的标签，因此为了便于后续的统一聚类处理，去除其中一个标签，仅保留一个，如此在后续进行聚类时，表达实质上同一含义的标签将被聚类到同一标签下，提供聚类的计算效率和客观性，避免混乱和近义重复聚类。

步骤5、对消重后的候选标签进行情感词过滤，去除无效标签。

由于在一些评论内容中，尽管我们按照上述步骤处理提炼出标签，并进行预处理、去重，但现实中仍然存在一些评论内容，其实质上并非对评论对象“碎花连衣裙”进行实质性的评论的标签，例如“我今天头不舒服”的评论内容，其实质并不反应所评论商品，也就是针对评论对象的有意义的评论，其中不包含情感词。因此，我们在聚类处理前希望将这一类评论过滤掉，使得聚类的真正对象是针对商品的实际评价内容。

在优选的实施例中，我们将采用组合的情感词词库进行过滤。

具体地，步骤5中进行情感词过滤包含以下过程：

步骤5-1、设定组合的情感词库；

步骤5-2、将情感词库加载到一集合中，从第一条候选标签开始，将候选标签通过jieba分词算法拆分成多个单词，将所有的拆分完的单词逐个与情感词库里面的情感词做等值匹配，如果匹配成功则该条候选标签标记含有情感词，否则标记不包含情感词；

步骤5-3、判定如果本条候选标签包含情感词，则将拆分成的单词重新组合成候选标签，并且将本条候选标签的所有分词，通过步骤1的词向量库查询获取词向量，计算出词向量的平均值；如果不包含情感词，则直接过滤；

步骤5-4、按照上述步骤5-2、5-3进行每一条候选标签的情感词过滤处理，处理完成后，生成过滤完的候选标签库，候选标签库数据结构包括候选标签字符串以及候选标签字符串向量。

尤其优选的是，在步骤5-1中，我们对多个情感词词库进行组合，使得情感词词库的范围更加扩展且全面，避免单一情感词库不足而错误的过滤掉一些本应当进行聚类处理的评论。

例如，在原有情感词表的基础上，加上了清华大学李军中文褒贬义词典以及大连理工大学中文情感词汇本体库(无辅助情感分类)，在同等条件下，将多个情感词表组合获得更好的标签效果。

步骤6、对去除无效标签后的候选标进行签基于DBSCAN的聚类运算，得到所有候选标签的量级，对聚类结果按照数量进行降序排列。

本发明的实施例中，基于DBSCAN的聚类运算具体包括以下过程：

步骤6-1、加载候选标签，获取步骤5-4得到的候选标签库；

步骤6-2、依据候选标签输入到DBSCAN聚类算法进行聚类运算，从第一条候选标签开始，选取候选标签和候选标签库中其他所有的候选标签按照余弦相似度算法计算相似度，将相似度值和预先设定的相似性阀值做比对，确定相似度大于阀值的标签集合；

步骤6-3、判定如果标签集合大于定义的设定的最小邻居数，则统计该标签集合中标签的个数作为本标签的量级，否则结束；

步骤6-4、按照上述步骤6-2、6-3的处理依次处理候选标签库中所有的候选标签，直到所有的候选标签聚类结束；

步骤6-5、按照得到的所有标签和标签的量级对聚类结果按数量进行降序排列。

结合本发明的实施过程，在一些实施例中，我们还提出一种计算机程序产品，包括编码有指令的一个或多个非暂态机器可读介质，所述指令在由一个或多个处理器执行时使得过程被执行，所述过程用于执行对获取的中文评论数据的无监督聚类处理，所述过程包括执行前述方法所包含的流程，尤其是图1所示的方法以及结合图1所示方法所描述的前述处理过程。

值得一提的是，本发明图1以及结合图1所描述的前述处理过程，即基于无监督学习的聚类方法，可在本地服务器、本地计算机***或者云端服务器中实施例，

下面以云端服务器的实施为例进行示例性说明。

根据本发明公开的服务器***，包括：

至少一个处理器；

至少一个存储器，被设置用于存储可被所述至少一个处理器执行的编码的指令，所述指令在由所述至少一个处理器执行时用以实现对获取的评论数据的无监督聚类处理过程，前述过程包括：

步骤7、统计每个聚类量级，输出TopN。

尤其优选的实施例中，前述过程更加包含：

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种中文评论无监督学习的聚类方法，其特征在于，包括以下步骤：

步骤7、统计每个聚类量级，输出TopN。

2.根据权利要求1所述的中文评论无监督学习的聚类方法，其特征在于，所述步骤2中的预处理包括去除停用词。

3.根据权利要求1所述的中文评论无监督学习的聚类方法，其特征在于，所述步骤2中，采用hanLP分词，并对分词结果基于word2vec训练词向量。

4.根据权利要求1所述的中文评论无监督学习的聚类方法，其特征在于，所述步骤3中使用的标签抽签规则包含：名词主语+状语，名词主语+状语+状语，状语+状语，状语+形容词，状语5类抽取规则，获取候选标签。

5.根据权利要求1所述的中文评论无监督学习的聚类方法，其特征在于，所述步骤4中，对候选标签库中的候选标签，基于simhash算法进行消重，去除内容实质上相同的标签。

6.根据权利要求1所述的中文评论无监督学习的聚类方法，其特征在于，所述步骤5中进行情感词过滤具体包含：

步骤5-1、设定组合的情感词库；

7.根据权利要求6所述的中文评论无监督学习的聚类方法，其特征在于，所述步骤6中的聚类运算包括以下步骤：

步骤6-1、加载候选标签，获取步骤5-4的候选标签库；

8.一种计算机程序产品，包括编码有指令的一个或多个非暂态机器可读介质，所述指令在由一个或多个处理器执行时使得过程被执行，所述过程用于执行对获取的中文评论数据的无监督聚类处理，所述过程包括执行前述权利要求1-7中任意一项所述方法所包含的流程。

9.一种服务器***，其特征在于，包括：

至少一个处理器；

步骤7、统计每个聚类量级，输出TopN。

10.根据权利要求9所述的服务器***，其特征在于，所述过程更加包含：