CN110009064A

CN110009064A - 一种基于电网领域的语义模型训练方法及装置

Info

Publication number: CN110009064A
Application number: CN201910364679.5A
Authority: CN
Inventors: 陈海燕; 谭火超; 刘振华; 叶慧萍; 乔麟; 苏立伟; 梁瑞莹; 张立慧; 方霆; 黄荣达; 伊思诺; 苏春明; 郭克诚
Original assignee: Guangdong Power Grid Co Ltd; Customer Service Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Customer Service Center of Guangdong Power Grid Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-07-12

Abstract

本发明公开了一种基于电网领域的语义模型训练方法，包括步骤：抓取电网领域的文档和数据，形成电网领域的专有实体；去除和电网场景无关的语句，对专有实体的内容进行分词，形成若干个电网词汇；分别对各电网词汇进行训练，得到若干个电网词汇的词向量；挑选其中的若干个电网词汇的词向量进行组合，形成电网领域的句向量；提高了电网领域语句识别的准确度，解决了不能区别在语义或句法结构上相似的句子的问题，为电网领域的人工智能奠定了重要的基础。

Description

一种基于电网领域的语义模型训练方法及装置

技术领域

本发明涉及电网技术领域，尤其涉及一种基于电网领域的语义模型训练方法及装置。

背景技术

现有的技术方案通过计算文本的编辑距离、Jaccard系数、TFIDF计算等。

编辑距离，英文叫做Edit Distance，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。

Jaccard相似系数，用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。计算方式非常简单，两个样本的交集除以并集得到的数值，当两个样本完全一致时，结果为1，当两个样本完全不同时，结果为0。

第三种方案就是直接计算TF矩阵中两个向量的相似度了，实际上就是求解两个向量夹角的余弦值，就是点乘积除以二者的模长。

现有的计算文本相似都是基于词的相似度计算方法，没有对文本内容的语义理解，仅基于句子表层的关键词信息。不能区别在语义或句法结构上相似的句子。但是在客服***中，语义上信息对于机器人回复的准确性有重要的影响。

发明内容

本发明的目的在于提供一种基于电网领域的语义模型训练方法及装置，来解决不能区别在语义或句法结构上相似的句子的问题。

为达此目的，本发明采用以下技术方案：

一种基于电网领域的语义模型训练方法，包括如下步骤：

抓取电网领域的文档和数据，形成电网领域的专有实体；

去除和电网场景无关的语句，对专有实体的内容进行分词，形成若干个电网词汇；

分别对各电网词汇进行训练，得到若干个电网词汇的词向量；

挑选其中的若干个电网词汇的词向量进行组合，形成电网领域的句向量。

可选的，所述步骤：分别对各电网词汇进行训练，得到若干个电网词汇的词向量，具体包括：

使用Word2vec算法分别对各电网词汇进行训练，得到若干个电网词汇的词向量。

可选的，所述步骤：挑选其中的若干个词向量进行组合，形成电网领域的句向量，具体包括：

挑选其中的若干个电网词汇的词向量进行组合，将每个电网词汇的词向量相加，形成电网领域的句向量。

可选的，所述步骤：挑选其中的若干个电网词汇的词向量进行组合，形成电网领域的句向量之后，还包括：计算句向量的夹角余弦。

一种基于电网领域的语义模型训练装置，包括：

数据获取模块：抓取电网领域的文档和数据，形成电网领域的专有实体；

词汇生成模块：去除和电网场景无关的语句，对专有实体的内容进行分词，形成若干个电网词汇；

词汇训练模块：分别对各电网词汇进行训练，得到若干个电网词汇的词向量；

句向量生成模块：挑选其中的若干个电网词汇的词向量进行组合，形成电网领域的句向量。

与现有技术相比，本发明实施例具有以下有益效果：

本发明通过对电网领域的文档和数据进行分词，并对其进行训练，得到词向量，又将词向量组合形成句向量，提高了电网领域语句识别的准确度，解决了不能区别在语义或句法结构上相似的句子的问题，为电网领域的人工智能奠定了重要的基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种基于电网领域的语义模型训练方法的流程图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

需要说明的是，当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中设置的组件。当一个组件被认为是“设置在”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中设置的组件。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

请参考图1，一种基于电网领域的语义模型训练方法，包括如下步骤：

步骤S101：抓取电网领域的文档和数据，形成电网领域的专有实体；来源主要参考百度知道，搜狗搜索等。

步骤S102：去除和电网场景无关的语句，对专有实体的内容进行分词，形成若干个电网词汇；例如，语句“根据调查可知，某个地区今年每户的用电量为X度”；去除和电网场景无关的“根据调查可知”、“的”和“为”，得到语句为“某个地区今年每户用电量X度”，将其分词后得到“某个地区”“今年”“每户”“用电量”“X度”的电网词汇。

步骤S103：分别对各电网词汇进行训练，得到若干个电网词汇的词向量；具体的，词向量训练的维度设置为128，256。

步骤S104：挑选其中的若干个电网词汇的词向量进行组合，形成电网领域的句向量。

进一步的，步骤S103具体包括：使用Word2vec算法分别对各电网词汇进行训练，得到若干个电网词汇的词向量。

通过Word2vec训练得到的电网领域的词向量，对于电网领域问题的上下文有了更好的理解。Word2vec，是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

进一步的，步骤S104具体包括：挑选其中的若干个电网词汇的词向量进行组合，将每个电网词汇的词向量相加，形成电网领域的句向量。

进一步的，步骤S104之后还包括：计算句向量的夹角余弦。

本实施例还提供了一种基于电网领域的语义模型训练装置，包括：

本实施例提供的一种基于电网领域的语义模型训练方法，通过对电网领域的文档和数据进行分词，并对其进行训练，得到词向量，又将词向量组合形成句向量，提高了电网领域语句识别的准确度，解决了不能区别在语义或句法结构上相似的句子的问题，为电网领域的人工智能奠定了重要的基础。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于电网领域的语义模型训练方法，其特征在于，包括如下步骤：

抓取电网领域的文档和数据，形成电网领域的专有实体；

2.根据权利要求1所述的基于电网领域的语义模型训练方法，其特征在于，所述步骤：分别对各电网词汇进行训练，得到若干个电网词汇的词向量，具体包括：

3.根据权利要求1所述的基于电网领域的语义模型训练方法，其特征在于，所述步骤：挑选其中的若干个词向量进行组合，形成电网领域的句向量，具体包括：

4.根据权利要求1所述的基于电网领域的语义模型训练方法，其特征在于，所述步骤：挑选其中的若干个电网词汇的词向量进行组合，形成电网领域的句向量之后，还包括：计算句向量的夹角余弦。

5.一种基于电网领域的语义模型训练装置，其特征在于，包括：