CN108363692B

CN108363692B - 一种句子相似度的计算方法及基于该方法的舆情监督方法

Info

Publication number: CN108363692B
Application number: CN201810148814.8A
Authority: CN
Inventors: 马晓敏; 李为民
Original assignee: Chengdu Zhiku 2861 Information Technology Co ltd
Current assignee: Chengdu Zhiku 2861 Information Technology Co ltd
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2021-04-02
Anticipated expiration: 2038-02-13
Also published as: CN108363692A

Abstract

本发明公开了一种句子相似度的计算方法及基于该方法的舆情监督方法，该方法包括：从互联网获取舆情事件语料，进行内容清洗后，将语料切分成短句；建立情绪语料库和情况语料库，将描述性短句放入情况库，表达情绪的短句放入情绪库，并根据情绪激烈程度对短句标注权重；将待识别长句切分成待识别短句，分别利用改进的句子相似度计算方法，计算其与情况库和情绪库中语料的相似度，确定长句情绪值；依照上述步骤依次对某一目标长句群进行识别，得到舆情事件所描述的诱因和情绪值分布。本发明的积极效果是：能够对细分领域舆情实现比较高的识别准确率，解决了相关技术中识别领域过于粗糙的问题。

Description

一种句子相似度的计算方法及基于该方法的舆情监督方法

技术领域

本发明涉及一种文字处理方法，具体涉及一种句子相似度的计算方法及基于该方法的舆情监督方法。

背景技术

随着经济全球化及国际互联网的飞速发展，自然语言的翻译在促进政治、经济、文化交流等方面起到越来越重要的作用。过去在国际交流领域，人们需要对语言文字进行翻译时，需要采用人工翻译，耗时耗力，而随着计算机软硬件技术的高速发展，计算机翻译及计算机辅助翻译得到了越来越广泛的应用。对比句子相似度是研究计算机翻译和计算机辅助翻译中的重要课题，传统的对比方法多采用单一层次上的对比，比如词汇的重叠率、语言模型重叠率、词汇向量化用余弦定理在语义空间计算距离比较等等，但是这种单一层次的句子相似度对比方法无法针对各种语言特点做出合适的对比，比如适用于英语的对比方法不适用于汉语对比。同时单一层次的句子相似度对比方法无法针对各种场合用语的特点做出合适的对比，比如适用于新闻英语的对比方法不适用于口语英语的对比。

国家专利局专利号为CN201110303522.5的发明专利公开了一种计算句子相似度的方法和装置以及机器翻译的方法和装置，该专利对句子相似度对比的方法采用了词汇差异的对比方法，这种方法适用于词汇差异明显的语言和场合，在对词汇差异不明显而句型差异明显的语言和场合，对比效果较差。

发明内容

本发明所要解决的技术问题是现有的句子相似度计算方法只是将句中的每个词的向量累加起来作为句向量，单个词的特征被减弱，目的在于提供一种句子相似度的计算方法及基于该方法的舆情监督方法，解决现有的句子相似度计算方法只是将句中的每个词的向量累加起来作为句向量，单个词的特征被减弱的问题。

本发明通过下述技术方案实现：

一种句子相似度的计算方法，包括需要进行相似度判断的句子a和句子b，还包括依次进行的以下步骤：

A、从互联网上收集到的语料库，利用Word2Vec算法进行训练，建立模型，将语料库中的所有单词映射到向量空间；

B、对句子a和句子b进行分词处理，得到句子a的TextRank词组a[a₁,a₂,...,a_m]和句子 b的TextRank词组b[b₁,b₂,...,b_n]；

C、将两个词组中的所有单词去重后建立一个词列表c[C₁,C₂,...,C_t]，以列表的长度t作为句子a和句子b对应的句向量的维数，结合词组a和词组b构建句向量a[v₁₁,v₁₂,...,v_1t]和句向量b[v₂₁,v₂₂,...,v_2t]；

D、根据句向量a[v₁₁,v₁₂,...,v_1t]和句向量b[v₂₁,v₂₂,...,v_2t]计算两个句子的相似度sim(a,b)。

进一步的，所述步骤B中对句子a和句子b进行分词处理的方法采用Jieba中文分词工具中的TextRank方法。

进一步的，所述步骤C中，对句子a的句向量的每一维v_1i，根据步骤A建立的模型，计算句子对应的词组中每一个单词a_j与所述词列表中该位置的词C_i的相似度model(C_i,a_j)，在句向量中填入最大的一个相似度值，即v_1i＝min[model(C_i,a_j)]，其中1≤i≤t,1≤j≤m，相似度范围在0～1之间，值越大表明两单词越相似。

进一步的，所述步骤D中计算两个句子的相似度sim(a,b)的方法是：

两个句子的相似度定义为两个句向量的内积归一化后的值，即

可知，两个句子完全相同时，m＝n＝t，两个句向量是各维均为1的t维向量，相似度sim＝1；两个句子中有意义的词相差极远时，t＝m+n，两个句向量是各维均近似为0的t维向量，相似度sim≈0。

该方法包括：从互联网获取舆情事件语料，进行内容清洗后，将语料切分成短句；建立情绪语料计算句子相似度时，摒弃了简单粗暴地将词向量累加作为句向量的做法，改进了词袋模型BOW，以词的最大相似度作为句向量的元素，充分考虑了近义词的影响。

一种舆情监督方法，包括依次进行的以下步骤：

D、从互联网获取舆情事件语料，进行内容清洗后，将语料切分成短句；

E、建立情绪语料库和情况语料库，将描述性短句放入情况库，表达情绪的短句放入情绪库，并根据情绪激烈程度对短句标注权重，权重范围为-4～4，正数表示正面情绪，负数表示负面情绪，绝对值越大代表情绪越激烈；

F、将待识别长句切分成待识别短句，分别利用所述句子相似度计算方法，计算其与情况库和情绪库中语料的相似度，确定长句情绪值；

G、依照步骤F依次对某一目标长句群进行识别，得到舆情事件描述的诱因和情绪值分布。

所述步骤F中确定长句情绪值的方法如下：

F1、将所有待识别短句与情况库对比，如果待识别短句与库中短句相似度都小于阈值，则认为长句不表达舆情事件；否则，进入步骤F2；

F2、继续将所有待识别短句与情绪库对比，如果有库中短句与待识别短句相似度大于阈值，则累加该库中短句对应的权重；最后将累加得到的权重的算术平均值作为长句情绪值。

该方法包括：从互联网获取舆情事件语料，进行内容清洗后，将语料切分成短句；建立情绪语料库和情况语料库，将描述性短句放入情况库，表达情绪的短句放入情绪库，并根据情绪激烈程度对短句标注权重；将待识别长句切分成待识别短句，分别利用改进的句子相似度计算方法，计算其与情况库和情绪库中语料的相似度，确定长句情绪值；依照上述步骤依次对某一目标长句群进行识别，得到舆情事件所描述的诱因和情绪值分布。本发明的积极效果是：计算句子相似度时，摒弃了简单粗暴地将词向量累加作为句向量的做法，改进了词袋模型，以词的最大相似度作为句向量的元素，充分考虑了近义词的影响；准确区分舆情中事实描述部分和情绪宣泄部分，能及时从庞杂的信息中找到引发舆情的诱因，并给出整体情绪激烈程度；能够对细分领域舆情实现比较高的识别准确率，解决了相关技术中识别领域过于粗糙的问题。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种句子相似度的计算方法及基于该方法的舆情监督方法，以词的最大相似度作为句向量的元素，充分考虑了近义词的影响；

2、本发明一种句子相似度的计算方法及基于该方法的舆情监督方法，准确区分舆情中事实描述部分和情绪宣泄部分，能及时从庞杂的信息中找到引发舆情的诱因，并给出整体情绪激烈程度；

3、本发明一种句子相似度的计算方法及基于该方法的舆情监督方法，能够对细分领域舆情实现比较高的识别准确率，解决了相关技术中识别领域过于粗糙的问题。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明句子相似度的计算示意图；

图2为本发明基于句子相似度的舆情监督示意图；

图3为本发明较长时期内的情绪值变化示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1所示，本发明一种句子相似度的计算方法，包括需要进行相似度判断的句子a和句子b，还包括依次进行的以下步骤：

实施例2

如图2所示，一种舆情监督方法，包括依次进行的以下步骤：

所述步骤F中确定长句情绪值的方法如下：

实施例3

如图3所示，对于待识别长句“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气，特地查了相关的资料才真的也是屡次罚款未果，真是苦了这里的老百姓！！！”，清洗并切分后得到3个短句：短句1“那个臭鸡蛋的味道也是最近才知道是明治橡胶厂排放的臭气”、短句2“特地查了相关的资料才真的也是屡次罚款未果”、短句3“真是苦了这里的老百姓”。

短句1“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气”，其TextRank词组为['空气','橡胶厂','臭气','鸡蛋','味道','排放','最近','知道']，共8个词。

和情况库中的TextRank词组对比时，如遇到['刺鼻','味道','一股','空气'](原句为“空气中都有一股刺鼻的味道”)，去重后得到的词列表为['空气','橡胶厂','臭气','鸡蛋','味道','排放 ','最近','知道','刺鼻','一股']，共10个词。

依所述步骤C，待识别短句的句向量为[1,1,1,1,1,1,1,1,0.78,0.54]，其中前8维词语完全与 TextRank词组一致，所以为1，后2维为相似度最大的词的相似度。库中句子的句向量为 [1,0.31,0.75,0.21,1,0.24,0.18,0.19,1,1]。

依所述步骤D，计算出待识别句子与库中句子的相似度为0.52，大于经多次测试后得到的经验阈值0.38，因此认为待识别长句表达了与情况库对应的舆情事件。继续计算剩余两个短句与情况库的相似度，没有大于0.38的。

接着依次计算切分后的3个短句与情绪库中的相似度。

对短句1：其与情绪库中的3个句子相似度大于经验阈值0.38，因此情绪值为这3个句子的平均权重1.57，即

其中W_i为命中的句子的权重。

对短句2：其与情绪库中的1个句子相似度大于经验阈值0.38，因此情绪值为该句子的权重0.85.

对短句3：其与情绪库中的9个句子相似度大于经验阈值0.38，因此情绪值为这9个句子的平均权重2.64，即

其中W_i为命中的句子的权重。

最后计算待识别长句的情绪值为这3个短句的平均情绪值1.69，即

其中为Q_i为各短句的情绪值。

综合整个计算过程以及情况库的标签，可以知道，长句“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气，特地查了相关的资料才真的也是屡次罚款未果，真是苦了这里的老百姓！！！”描述了一个污染情况，具体为“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气”，污染类型为空气污染；发言者对该情况的情绪值为2.64，属于负面情绪，较激动。

实施例4

通过实施例3所述方法，结合一组长句的识别结果，可以确定，发言者所在的地区发生了一起空气污染事件，引起了当地民众的不满。

对发言的来源进行回溯分析和持续监测，发现在过去比较长的一段时间内，针对此事件的讨论的情绪值一直在1.93到2.36之间，处于较高的水平，但上升趋势较小。符合感性认知，即该起空气污染已存在了很长时间，民众积怨已久，但未引起监管部门重视。

而当前监测情绪值已突破了2.50，说明民众的情绪已进入上升期。如果企业再不整改、监管部门继续无视，民众情绪就可能爆发，事态扩大。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种句子相似度的计算方法，包括需要进行相似度判断的句子a和句子b，其特征在于，还包括依次进行的以下步骤：

B、对句子a和句子b进行分词处理，得到句子a的TextRank词组a[a₁,a₂,...,a_m]和句子b的TextRank词组b[b₁,b₂,...,b_n]；

D、根据句向量a[v₁₁,v₁₂,...,v_1t]和句向量b[v₂₁,v₂₂,...,v_2t]计算两个句子的相似度sim(a,b)；

所述步骤C中，对句子a的句向量的每一维v_1i，根据步骤A建立的模型，计算句子对应的词组中每一个单词a_j与所述词列表中该位置的词C_i的相似度model(C_i,a_j)，在句向量中填入最大的一个相似度值，即v_1i＝min[model(C_i,a_j)]，其中1≤i≤t,1≤j≤m，相似度范围在0～1之间，值越大表明两单词越相似。

2.根据权利要求1所述的一种句子相似度的计算方法，其特征在于，所述步骤B中对句子a和句子b进行分词处理的方法采用Jieba中文分词工具中的TextRank方法。

3.根据权利要求1所述的一种句子相似度的计算方法，其特征在于，所述步骤D中计算两个句子的相似度sim(a,b)的方法是：

4.根据权利要求1所述的一种句子相似度的计算方法，其特征在于，包括依次进行的以下步骤：

F、将待识别长句切分成待识别短句，分别利用所述句子相似度的计算方法，计算其与情况库和情绪库中语料的相似度，确定长句情绪值；

5.根据权利要求4所述的一种句子相似度的计算方法，其特征在于，所述步骤F中确定长句情绪值的方法如下：

F1、将所有待识别短句与情况库对比，如果待识别短句与情况库中短句相似度都小于阈值，则认为长句不表达舆情事件；否则，进入步骤F2；

F2、继续将所有待识别短句与情绪库对比，如果有情绪库中短句与待识别短句相似度大于阈值，则累加该情绪库中短句对应的权重；最后将累加得到的权重的算术平均值作为长句情绪值。