CN108536674A

CN108536674A - 一种基于语义的典型意见聚合方法

Info

Publication number: CN108536674A
Application number: CN201810233779.XA
Authority: CN
Inventors: 陈石; 王悦
Original assignee: Shanghai Wei Mdt Infotech Ltd
Current assignee: Shanghai Wei Mdt Infotech Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-09-14

Abstract

本发明公开了一种基于语义的典型意见聚合方法，它涉及文本类数据分析领域。包括以下步骤：(1)、对文字内容进行中文分句、分词；(2)、使用词嵌入（Word Embedding）相关算法训练词向量模型；(3)、对原文字内容进行句法分析，并提取主干；(4)、处理主干各个词语，得到每一句的主干向量；(5)、以主干向量为特征，对数据进行聚类；(6)、根据具体情况调整参数，并筛选最终结果。本发明主要是通过对自然语言的语义级理解，结合基于密度的聚类方法，实现对于大量文本类数据的典型意见抽取和热点发现。其设计合理，结果精准，人为干预少，可以让商业分析人员快速从文本类数据中获得总结性结论，大幅减少人工工作量，并可以得到传统技术方法无法获取的有效信息。

Description

一种基于语义的典型意见聚合方法

技术领域

本发明涉及的是文本类数据分析领域，具体涉及一种基于语义的典型意见聚合方法。

背景技术

随着互联网和信息技术的发展和普及，大量文本类数据在日常和商业行为中被产生并记录下来，这些文字数据包含着用户的想法、意见、以及对未来有重要影响的舆论趋势。

目前已经有相关技术方法，可以从文本类数据提取典型意见或热点，但现有的这些技术方法主要是从文字匹配次数统计的角度去实现。这类技术方法的核心思路是：对大量的文本类数据进行中文分词，指定或不指定词语，进行基于频数的权重统计，最后以频数权重较高的词语作为典型意见或热点。

采用这类方法的优点是简单快速，对已经明确的意见方向可以直接统计频数权重并判断其是否是典型或热点，例如，企业想了解用户对其手机电池的意见，可以直接统计“电池耐用”、“充电速度”、“耗电快”等短语的出现次数，然后将出现较多的作为典型或热点。但这类方法的缺点也很明显：1.它需要设定意见方向的短语搭配组合，这就很大程度上限制了可以发现的内容，导致分析结果有偏，且统计不完整；如果不做设定，则只能计算到词语粒度，而无法分析短语搭配组合，这样的热点数量众多，无效内容比例高，且意思表达不明确。2.它仅仅是从字面统计的角度去处理，而实际情况中，自然语言往往存在大量的相同含义但不同表达形式的内容，这就导致了严重的统计错误或遗漏。

综上所述，本发明设计一种从大量文字信息中提取典型意见或热点的技术方法，主要应用在舆情分析、社交网络分析、客服对话分析等场景。

发明内容

针对现有技术上存在的不足，本发明目的是在于提供一种基于语义的典型意见聚合方法，主要是通过对自然语言的语义级理解，结合基于密度的聚类方法，实现对于大量文本类数据的典型意见抽取和热点发现。其设计合理，结果精准，人为干预少，可以让商业分析人员快速从文本类数据中获得总结性结论，大幅减少人工工作量，并可以得到传统技术方法无法获取的有效信息。

为了实现上述目的，本发明是通过如下的技术方案来实现：一种基于语义的典型意见聚合方法，包括以下步骤：

1、对文字内容进行中文分句、分词；

2、使用词嵌入（Word Embedding）相关算法法训练词向量模型；

3、对原文字内容进行句法分析，并提取主干；

4、处理主干各个词语，得到每一句的主干向量；

5、以主干向量为特征，对数据进行聚类；

6、根据具体情况调整参数，并筛选最终结果。

作为优选，所述的步骤1是将每一条记录进行中文分句和分词。分句时，对每一篇文档，以句号、问号、感叹号、分号、省略号为分隔符做切分，并进行句编号，形成“文档编号-句编号”的对应。分词时，对每一篇文档进行中文分词，分词方法不限，分词结果不再区分文档或句子，只要以分隔符分开。

作为优选，所述的步骤2将分词的结果使用词嵌入（Word Embedding）相关算法进行模型训练，包括word2vec、fasttext、wordrank等。

作为优选，所述的步骤3对分句后的每句话进行句法分析，提取内容包含但不仅限于如下关系：主谓关系，定中关系，状中结构，动宾关系。

作为优选，所述的步骤4将主干各部分的词语词向量汇总得到主干向量，常用做法为词向量直接相加，得到的汇总向量即为主干向量。

作为优选，所述的步骤5利用主干向量，进行基于密度的聚类；得到的结果为：文档-句子-类别编号-类别代表句。

作为优选，所述的步骤6循环调参。根据上一次结果得到的类别个数，各类别包含文档数等指标，调整参数，最终得到最优结果。

本发明的有益效果：

1.本发明对于文本类数据的分析是基于语义的，它能够将相同含义但不同表达方式的内容聚合到一起，大幅提升典型或热点内容聚合的准确度和覆盖率；

2.本发明采用了句法分析，能够提取到包含了完整意思的句子主干成分，而不再是单个的词语或短语，这样对于典型意见或热点的分析更符合人的理解，也更能够帮助到商业应用；

3.基于密度的聚类，不再是简单的词频统计，可以发现更广泛的意见内容，且更加精准；

4.整个算法流程人为干预少，可以减少人工工作量并提升时间效率。

附图说明

下面结合附图和具体实施方式来详细说明本发明；

图1为本发明的步骤流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

参照图1，本具体实施方式采用以下技术方案：一种基于语义的典型意见聚合方法，包括以下步骤：

1、对文字内容进行中文分句、分词；

2、使用词嵌入（Word Embedding）相关算法训练词向量模型；

3、对原文字内容进行句法分析，并提取主干；

4、处理主干各个词语，得到每一句的主干向量；

5、以主干向量为特征，对数据进行聚类；

6、根据具体情况调整参数，并筛选最终结果。

定义文本类数据中，每一条记录为一个文档，例如一条评论、一条微博、一篇文章，每一个文档都有一个文档编号进行独立区分。对于本发明，文档数据量越大，效果越好，带来的有益提升越高。

值得注意的是，所述的步骤1是将每一条记录进行中文分句和分词。分句时，对每一篇文档，以句号、问号、感叹号、分号、省略号为分隔符做切分，并进行句编号，形成“文档编号-句编号”的对应。分词时，对每一篇文档进行中文分词，分词方法不限（目前常见的中文分词算法有基于HMM的分词模型，基于CRF的分词模型，基于深度学习的分词模型等），分词结果不再区分文档或句子，只要以分隔符（如空格）分开即可。

值得注意的是，所述的步骤2将分词的结果使用词嵌入（Word Embedding）相关算法进行模型训练。使用目前常用的word2vec模型，也可以是fasttext、wordrank等算法，处理全量文档的分词结果数据，得到的结果为每个词的词向量。

值得注意的是，所述的步骤3对分句后的每句话进行句法分析，提取内容包含但不仅限于如下关系：主谓关系，定中关系，状中结构，动宾关系。如“这款手机的性价比真的是非常非常高”，提取到主谓关系为“性价比+高”。

值得注意的是，所述的步骤4将主干各部分的词语词向量汇总得到主干向量，常用做法为词向量直接相加，如“性价比+高”，把“性价比”的对应的词向量和“高”的词向量直接相加，得到的汇总向量即为主干向量。

值得注意的是，所述的步骤5利用主干向量，进行基于密度的聚类。聚类方法可以是任意聚类算法，常采用基于密度的聚类，例如DBSCAN聚类法，得到的结果为：文档-句子-类别编号-类别代表句。

此外，所述的步骤6循环调参。根据上一次结果得到的类别个数，各类别包含文档数等指标，调整参数，最终得到最优结果。

本具体实施方式应用在舆情分析和社交分析等商业场景中，可以帮助企业更高效地获取更大的价值。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于语义的典型意见聚合方法，其特征在于，包括以下步骤：

(1)、对文字内容进行中文分句、分词；

(2)、使用词嵌入相关算法法训练词向量模型；

(3)、对原文字内容进行句法分析，并提取主干；

(4)、处理主干各个词语，得到每一句的主干向量；

(5)、以主干向量为特征，对数据进行聚类；

(6)、根据具体情况调整参数，并筛选最终结果。

2.根据权利要求1所述的一种基于语义的典型意见聚合方法，其特征在于，所述的步骤(1)是将每一条记录进行中文分句和分词；分句时，对每一篇文档，以句号、问号、感叹号、分号、省略号为分隔符做切分，并进行句编号，形成“文档编号-句编号”的对应；分词时，对每一篇文档进行中文分词，分词方法不限，分词结果不再区分文档或句子，只要以分隔符分开。

3.根据权利要求1所述的一种基于语义的典型意见聚合方法，其特征在于，所述的步骤(2)将分词的结果使用词嵌入相关算法进行模型训练，包括word2vec、fasttext、wordrank。

4.根据权利要求1所述的一种基于语义的典型意见聚合方法，其特征在于，所述的步骤(3)对分句后的每句话进行句法分析，提取内容包含但不仅限于如下关系：主谓关系，定中关系，状中结构，动宾关系。

5.根据权利要求1所述的一种基于语义的典型意见聚合方法，其特征在于，所述的步骤(4)将主干各部分的词语词向量汇总得到主干向量，常用做法为词向量直接相加，得到的汇总向量即为主干向量。

6.根据权利要求1所述的一种基于语义的典型意见聚合方法，其特征在于，所述的步骤(5)利用主干向量，进行基于密度的聚类；得到的结果为：文档-句子-类别编号-类别代表句。

7.根据权利要求1所述的一种基于语义的典型意见聚合方法，其特征在于，所述的步骤(6)循环调参；根据上一次结果得到的类别个数，各类别包含文档数等指标，调整参数，最终得到最优结果。