CN112183106B

CN112183106B - 一种基于音素联想及深度学习的语义理解方法及装置

Info

Publication number: CN112183106B
Application number: CN202010919954.8A
Authority: CN
Inventors: 赖文波; 林康; 谭则涛; 方伟
Original assignee: Gf Securities Co ltd
Current assignee: Gf Securities Co ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2024-05-14
Anticipated expiration: 2040-09-03
Also published as: CN112183106A

Abstract

本发明公开了一种基于音素联想及深度学习的语义理解方法，包括，通过ASR模型将获取的语音转化为文本；对文本进行分词后依次输入至word2vec模型和bi－lstm模型，并输出文本的语素理解向量；将获取的关键词音素特征、原音素特征和正则音素特征进行组合，得到文本音素联想的特征三元组，将特征三元组输入至text－cnn卷积神经网络进行音素联想理解，并卷积提取局部组合特征，输出音素联想向量；对语素理解向量和音素联想向量进行加权，并将加权后的结果与正则音素特征组合得到联合向量，将联合向量输入分类器进行语音的语义理解和分类。本发明提供的基于音素联想及深度学习的语义理解方法，提升了文本自然语言理解结果的准确率，降低了语义理解模型的开发成本。

Description

一种基于音素联想及深度学习的语义理解方法及装置

技术领域

本发明涉及计算机自然语言处理技术领域，尤其涉及一种基于音素联想及深度学习的语义理解方法、装置、终端设备及计算机可读存储介质。

背景技术

随着ASR(Automatic Speech Recognition，即自动语音识别技术)的快速发展，基于ASR的语音转文本的语义理解技术的应用越来越广阔。虽然ASR发展成熟，但是在具体的领域和地域，语音具有明显的领域特征(医学、生物、化学等)和地域特征(方言、口音、口语等)。对于多样化的语音输入，一方面可能致使ASR识别的文本质量差、准确率低，使得文本从字面上已经失去了原来的自然语言含义和句法结构特征，计算机无法给出准确的语义理解；另一方面，虽然输入的语音质量本身没有单温，但是ASR转换后的文本却出现较大的差异，因此只能依靠人类的自然语言的理解能力，结合发音特征、情景、语境、甚至想象力等，才能正确理解其语义。

目前，可通过单方面提高ASR的识别能力，来间接提高计算机对自然语言的语义理解的准确性。为此，可通过针对每个领域、每个地域的不同语音，使用不同需求不同标准进行开发、训练，使得ASR适用于各个领域各个地域，但开发成本极高，且对于存在偏差的文本，计算机的语义理解效果依旧不理想。

发明内容

本发明的目的在于提供一种基于音素联想及深度学习的语义理解方法、装置、终端设备及计算机可读存储介质，该方法通过对转换文本进行关键词联想、句子音素级匹配和语素音素联合建模，提升了文本自然语言理解结果的准确率，同时降低了人工成本。

为了克服上述现有技术中的缺陷，本发明实施例提供了一种基于音素联想及深度学习的语义理解方法，包括：

通过ASR模型将获取的语音转化为文本；

对文本进行分词后依次输入至word2vec模型和bi－lstm模型，并输出文本的语素理解向量；

获取文本音素联想的特征三元组，包括：对分词后的单词音素进行识别和分离，并添加音素联想关键词，得到关键词音素特征；对文本进行句子音素的识别与分离得到原音素特征；及获取句子音素识别与分离后的正则音素特征；将关键词音素特征、原音素特征和正则音素特征进行组合；

将特征三元组输入至text－cnn卷积神经网络进行音素联想理解，并卷积提取局部组合特征，输出音素联想向量；

对语素理解向量和音素联想向量进行加权，并将加权后的结果与正则音素特征组合得到联合向量，将联合向量输入分类器进行语音的语义理解和分类。

进一步地，所述对分词后的单词音素进行识别和分离，包括：

通过pinyin工具包将文本转化成拼音；

当所述拼音属于整音节时，设置声母为NA，韵母为整音节；

当所述拼音不属于整音节且以双声母开头开头时，设置声母为双声母，剩余音素为韵母；

当所述拼音不为整音节且不以双声母开头时，设置声母为单声母，剩余音素为韵母；

识别声母和韵母，用符号分隔所述声母和韵母，得到音素识别与分离结果。

进一步地，所述对分词后的单词音素进行识别和分离后，还包括：

导入关键词库，将所述音素识别与分离结果与所述关键词逐字对比；

判断每个字是否有同声母或韵母，且同时具有多个结果；若是，在最贴近的结果对应的词组后面添加关键词联想标识；若否，对所述分离结果不作处理。

进一步地，所述及获取句子音素识别与分离后的正则音素特征，包括：

获取句子音素识别与分离后的结果及原正则库，所述原正则库为***默认的正则库；

将原正则库转化为音素部分匹配正则库，并对音素正则库中多条正则进行编号；

根据音素正则库对所述结果进行音素正则匹配，并根据命中的正则编号所对应的语义生成独热特征，以作为正则音素特征。

进一步地，所述将原正则库转化为音素部分匹配正则库，包括：

判断原正则中每个字符的属性和结构，并对应进行音素正则处理，并将处理结果整合后得到音素正则库，所述正则处理包括：

当字符为词组中文字符时，将词组中符合声母或韵母部分匹配的正则添加到音素正则新字符串中；

当字符为单个中文字符时，将字符的音素分离结果添加到音素正则新字符串中；

当字符不是中文时，将字符直接添加到音素正则新字符串中。

进一步地，所述对文本进行分词后依次输入至word2vec模型和bi－lstm模型，并输出文本的语素理解向量，包括：

将文本输入至word2vec模型，并进行字向量embedding；

将所述embedding后字向量输入至bi－lstm模型进行语义理解；将理解后的结果输入至自注意力模型，得到文本的句向量，以作为文本的语素理解向量。

进一步地，所述将获取的语音转化为文本，还包括采用神经网络算法和CTC算法进行语音转换；所述对文本进行分词包括通过python中jieba分词模块进行文本分词；所述对语素理解向量和音素联想向量进行加权采用attention技术。

本发明实施例还提供了一种基于音素联想及深度学习的语义理解装置，其特征在于，包括：

语音转化模块，用于通过ASR模型将获取的语音转化为文本；

语素理解向量输出模块，用于对文本进行分词后依次输入至word2vec模型和bi－lstm模型，并输出文本的语素理解向量；

特征三元组获取模块，用于获取文本音素联想的特征三元组，包括：对分词后的单词音素进行识别和分离，并添加音素联想关键词，得到关键词音素特征；对文本进行句子音素的识别与分离得到原音素特征；及获取句子音素识别与分离后的正则音素特征；将关键词音素特征、原音素特征和正则音素特征进行组合；

音素联想向量输出模块，用于将特征三元组输入至text－cnn卷积神经网络进行音素联想理解，并卷积提取局部组合特征，输出音素联想向量；

总联合理解模块，用于对语素理解向量和音素联想向量进行加权，并将加权后的结果与正则音素特征组合得到联合向量，将联合向量输入分类器进行语音的语义理解和分类。

本发明实施例还提供了一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上任一项所述的基于音素联想及深度学习的语义理解方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现如上任一项所述的基于音素联想及深度学习的语义理解方法。

相对于现有技术，本发明实施例提供的基于音素联想及深度学习的语音文本自然语言理解方法，通过给语音识别文本增加了同音、类音词的联想能力，增强了人工智能对语音转文本的语义理解能力，提升了在文本审核、文本分类等业务场景的准确率，降低了语义理解模型的开发成本。

附图说明

图1是本发明某一实施例提供的基于音素联想及深度学习的语义理解方法的流程示意图；

图2是本发明某一实施例提供的获取音素联想特征三元组的流程示意图；

图3是本发明某一实施例提供的音素识别和分离方法的流程示意图；

图4是本发明某一实施例提供的添加联想关键词标识方法的流程示意图；

图5是本发明某一实施例提供的原正则转化为音素部分匹配正则方法的流程示意图；

图6是本发明某一实施例提供的总联合理解方法的流程示意图；

图7是本发明某一实施例提供的基于音素联想及深度学习的语义理解装置的整体架构图；

图8是本发明某一实施例提供的基于音素联想及深度学习的语义理解装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

第一方面：

请参阅图1，本发明某一实施例提供了一种基于音素联想及深度学习的语义理解方法，包括：

S10、通过ASR模型将获取的语音转化为文本；

本步骤中，首先获取一段语音，然后通过ASR模型将人类说话的语音转化为文字，是将声音转化为文字的过程，相当于人类的耳朵，其中ASR为语音识别技术，也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。ASR的缺点在于ASR识别出来的文本存在准确率的问题，特别在客户来自全国各地，发音存在不同地域特征的情况下，ASR转化出来的文本质量会非常低，甚至从字面理解上，已经失去了原来的语义和句法结构特征，机器无法进行自然语言理解，NLP也无法正确理解其句法特征，给实际应用带来了很大的困扰。并且很多情况下，实际生产中存在很多录音本身质量没有问题，符合标准，但ASR转换后的文本却出现较大差异，从字面意思计算机已经不能正确进行ASR文本自然语方理解，但人类是可以进行理解的，因为人有联想的能力，能够从发音特征，根据上下文的语境，联想到正确的词语进而理解正确的语义，故往往只能靠人工进行判断和理解。基于此，本发明从联想力出发，在模型中加入了类似人类的联想能力机制，赋予机器语音联想能力，从音素结合语义的角度，联合音素特征进行ASR文本的计算机自然语言理解，因此通过ASR模型将获取的语音转化为文本只作为本发明的第一步。并且，该转换过程会基于CNN或者RNN神经网络，以及CTC等技术实现语音转化，其中转化过程包含：语音输入、数据编码、数据解码、文本输出。

其中，CNN指的是卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学***移不变分类(shift－invariantclassification)，因此也被称为“平移不变人工神经网络(Shift－Invariant ArtificialNeural Networks，SIANN)”卷积神经网络仿造生物的视知觉(visual perception)机制构建，可以进行监督学***面上的二维像素点和RGB通道。卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑，在一些更为现代的算法中可能有Inception模块、残差块(residual block)等复杂构筑。在常见构筑中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数，因此池化层可能不被认为是独立的层。以LeNet－5为例，3类常见构筑在隐含层中的顺序通常为：输入－卷积层－池化层－全连接层－输出；

需要说明的是，RNN指的是循环神经网络(Recurrent Neural Network，RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)，其中双向循环神经网络(Bidirectional RNN，Bi－RNN)和长短期记忆网络(Long Short－Term Memorynetworks，LSTM)是常见的的循环神经网络循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness)，因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理(Natural Language Processing，NLP)，例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。引入了卷积神经网络(ConvoutionalNeural Network，CNN)构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。

CTC是序列标注问题中的一种损失函数。传统序列标注算法需要每一时刻输入与输出符号完全对齐。而CTC扩展了标签集合，添加空元素。在使用扩展标签集合对序列进行标注后，所有可以通过映射函数转换为真实序列的预测序列，都是正确的预测结果。也就是在无需数据对齐处理，即可得到预测序列。其目标函数就是最大化所有正确的预测序列的概率和。在查找所有正确预测序列时，采用了前向后向算法。前向过程计算从1－t时刻，预测出正确的前缀的概率；后向过程计算从t－T时刻，预测出正确的后缀的概率。那么：前缀概率＊后缀概率/t时刻预测s的概率＝t时刻时所有正确的预测序列的概率。动态规划降低时间复杂度：只有在前一时刻到达预测出某些特定符号，在当前时刻，才可以做出正确预测。那么，到t时刻为止，预测出正确的标签序列的前缀的概率＝(到t－1为止预测正确的所有子序列概率和)＊预测出当前标签的概率。

S20、对文本进行分词后依次输入至word2vec模型和bi－lstm模型，并输出文本的语素理解向量；

这一步中，主要实现的是不基于音素联想，而基于文本语素的语义理解，又包括以下2个子步骤：

S201、将文本输入至word2vec模型得到文本对应的字向量，并进行字向量embedding；；

其中，需要说明的是，Word2vec模型是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。embedding是一个将离散变量转为连续向量表示的一个方式。

在神经网络中，embedding指的是嵌入，它的作用非常重要，它不光可以减少离散变量的空间维数，同时还可以有意义的表示该变量；这个概念在深度学习领域最原初的切入点是所谓的Manifold Hypothesis(流形假设)。流形假设是指“自然的原始数据是低维的流形嵌入于(embedded in)原始数据所在的高维空间”。那么，深度学习的任务就是把高维原始数据(图像，句子)映射到低维流形，使得高维的原始数据被映射到低维流形之后变得可分，而这个映射就叫嵌入(Embedding)。比如Word Embedding，就是把单词组成的句子映射到一个表征向量。按照现在深度学习界通用的理解，Embedding就是从原始数据提取出来的Feature，也就是那个通过神经网络映射之后的低维向量。

S202、将所述embedding后的字向量输入至bi－lstm模型进行语义理解；将理解后的结果输入至自注意力模型，得到文本的句向量，以作为文本的语素理解向量；

该步骤中，需要补充说明的是，LSTM的全称是Long Short－Term Memory，它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。BiLSTM是Bi－directional Long Short－Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。使用LSTM模型可以更好的捕捉到较长距离的依赖关系。因为LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息。但是利用LSTM对句子进行建模还存在一个问题：无法编码从后到前的信息。在更细粒度的分类时，如对于强程度的褒义、弱程度的褒义、中性、弱程度的贬义、强程度的贬义的五分类任务需要注意情感词、程度词、否定词之间的交互。举一个例子，“这个餐厅脏得不行，没有隔壁好”，这里的“不行”是对“脏”的程度的一种修饰，通过bi－lstm可以更好的捕捉双向的语义依赖。

另外，注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译。而自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。本文通过文本情感分析的案例，解释了自注意力机制如何应用于稀疏文本的单词对表征加权，并有效提高模型效率。

S30、获取文本音素联想的特征三元组，包括：对分词后的单词音素进行识别和分离，并添加音素联想关键词，得到关键词音素特征；对文本进行句子音素的识别与分离得到原音素特征；及获取句子音素识别与分离后的正则音素特征；将关键词音素特征、原音素特征和正则音素特征进行组合；

请参阅图2，提供了本方案中获取音素联想的特征三元组的流程：

一、获取关键词音素特征：

首先，通过python中jieba模块对输入的文本进行分词操作，输出一个词的列表，其中，Python是一种跨平台的计算机程序设计语言，是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越多被用于独立的、大型项目的开发。而jieba模块指的是在Python中，需要对字符串进行大量的操作，有时需要从一个字符串中提取到特定的信息，用切片肯定是不行的，所有这一节记录两个强大的文本处理模块，一个是正则表达式re模块，另一个是中文处理模块jieba，其特点包括：i)精确模式：将句子最精确地切开，适合文本分析；ii)全模式：将句子中所有的可以成词的词语都扫描出来，速度很快，但是不能解决歧义；iii)搜索引擎模式：在精确的基础上，对长词再次切分，提高召回率，适用于搜索引擎分词。在通过jieba模块进行分词后，得到一个分词列表，然后就可以执行下一步骤：1)单词音素进行识别和分离，具体流程如图3所示：

1.1)通过pinyin工具包将文本转化成拼音；

1.2)当所述拼音属于整音节时，设置声母为NA，韵母为整音节；其中整音节库包括的音节有：“zhi、chi、shi、ri、zi、ci、si、yi、wu、yu、ye、yue、yin、yun、yuan、ying”等；

1.3)当所述拼音不属于整音节且以双声母开头开头时，设置声母为双声母，剩余音素为韵母；其中双声母库包括：“zh、ch、sh”等；

1.4)当所述拼音不为整音节且不以双声母开头时，设置声母为单声母，剩余音素为韵母；其中单声母库包括“b、p、m、f、d、t、n、l、g、k、h、j、q、x、z、c、s、y、w、r”；

1.5)识别声母和韵母，用符号“#”分隔所述声母和韵母，得到音素识别与分离结果。

得到音素识别与分离结果后，接着执行步骤2)：对声韵分离的词组进行关键词标识添加操作，如图4所示，主要包括：

2.1)导入关键词库，将所述音素识别与分离结果与所述关键词逐字对比；其中关键词库为***默认的关键词库；

2.2)判断每个字是否有同声母或韵母，如果是的话则进一步判断同声母和韵母的情况是不是有多种，如果是的话，则选择最贴近的结果，在对应的原词组后面添加关键词联想标识；格式为“＊(联想关键词)＊”；如果一开始判断发现并不存在一个字具有相同声母或相同韵母的情况，那么就可以不用进行标识，因为不会产生歧义。最后，直到处理完所有的词组后，汇总得到关键词音素特征。

该步骤中，通过将文本细化成更细的音素粒度，根据现有关键词库，在原文本中识别、联想到发音相近的关键词，将联想到的关键词信息补充到原信息中，赋予了人工智能联想的能力。

二)获取原音素特征：

在图2中，输入文本数据后，获取关键词音素特征的部分需要进行JIEBA分词，而获取原音素特征和正则音素特征部分则不用，只需要对整个句子进行音素的识别和分离处理，处理后的结果则直接作为原音素特征。

其中，需要说明的是，正则表达式(regular expression)描述了一种字符串匹配的模式(pattern)，可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。就类似于建立一个数学表达式，规范化处理字符串。

三)获取正则音素特征：

3.1)获取句子音素识别与分离后的结果及原正则库，所述原正则库为***默认的正则库；其中原正则库为原***应用的人工整理的文本意图的正则库列表。

3.2)将原正则库转化为音素部分匹配正则库，并对音素正则库中多条正则进行编号；其中，图5为原正则库转化为音素部分匹配正则库的流程示意图：

首先输入原正则，例如输入一条原正则，然后进行循环判断原正则每个字符是否为中文字符，如果不是，则将字符直接添加到音素正则新字符串中；如果是，则进一步判断字符是否为词组，如果不是词组，将字符的音素分离结果添加到音素正则新字符串中；如果是词组，则将词组中符合声母或韵母部分匹配的正则添加到音素正则新字符串中；

下面将举一个例子来说明该步骤的实现过程，例如输入一条原正则为：

“.＊(他|人).＊(开会|开车|在忙|忙|不方便|没空).＊”根据上述的流程可知：，首先进行是否为中文字符的判断，本字符串中均为中文字符，接下来进行第二步的判断，判断是词组还是单个字符，如“他、人、忙”就是单个字符，则只需将字符的音素分离结果添加到音素正则新字符串中，然后得到.＊((\s|＾)t#a(￥|\s)|(\s|＾)r#en(￥|\s))。而“开会、开车、在忙、不方便、没空”均为词组；将词组中符合声母或韵母部分匹配的正则添加到音素正则新字符串中；则经过处理后得到：

((\s|＾)k#ai\sh#ui(￥|\s)|(\s|＾)k#ai\sch#e(￥|\s)|(\s|＾)z#ai\sm#ang(￥|\s)|(\s|＾)m#ang(￥|\s)|(\s|＾)b#u\sf#ang\sb#ian(￥|\s)|(\s|＾)m#ei\sk#ong(￥|\s)).“”

最后，通过这样的流程，上述原正则可被转化为音素部分匹配正则，即：

“.＊((\s|＾)t#a(￥|\s)|(\s|＾)r#en(￥|\s)).＊((\s|＾)k#ai\sh#ui(￥|\s)|(\s|＾)k#ai\sch#e(￥|\s)|(\s|＾)z#ai\sm#ang(￥|\s)|(\s|＾)m#ang(￥|\s)|(\s|＾)b#u\sf#ang\sb#ian(￥|\s)|(\s|＾)m#ei\sk#ong(￥|\s)).＊”

3.3)根据音素正则库对所述结果进行音素正则匹配，并根据命中的正则编号所对应的语义生成独热特征，以作为正则音素特征。

该步骤中，需要说明的是，得到了音素部分匹配正则，由于音素包含的正则对应语义不止一个，一般来说通常有几种到十几种不等，此时则需要对其进行编号，然后将句子音素识别和分离后的结果对照着编号后的正则进行匹配，如果命中，将该命中编号正则对应的语义处理成独热特征，没命中的话就不需要提取为独特特征，最后将所有的独特特征整理好，以作为正则音素特征；

该步骤中，通过将原文本规则的正则库，改造成音素级的声母韵母部分匹配的特定逻辑，将音素级句子正则匹配的语义结果作为特征，补充到模型信息输入中，有效利用了现存的专家经验来赋予人工智能句子级联想的能力；

此外，需要补充说明的是，独特特征指的是离散、无序排列、没有规律的特征，在本步骤中，每个音素包含的语义之间没有关联，因此作为独热特征，但是在机器学习算法中，如果遇到分类特征为离散的，无序的独热特征，并不能将其直接放入机器学习算法中，因为，分类器通常数据是连续且有序。因此在本发明的方法中还需要进行特征三元组的组合，以得到连续特征。

S40、将特征三元组输入至text－cnn卷积神经网络进行音素联想理解，并卷积提取局部组合特征，输出音素联想向量；

本步骤中，使用text－cnn对原句音素分离后的音素字符串、关键词联想添加后的音素字符串做局部特征提取，提取原句音素字符串的局部组合特征以及提取关键词联想后音素字符串的局部组合特征，得到音素联想向量。

其中，text－cnn模型用于对本文进行分类，包括：

Embedding层，目的是得到词向量；

Convolution层；将词向量经过一维卷积层，得到两个输出channel；

MaxPolling层：第三层是一个1－max pooling层，这样不同长度句子经过pooling层之后都能变成定长的表示。

FullConnection and Softmax层：即全连接层，输出每个类别的概率。本步骤中通过text－cnn训练后，即可得到基于音素联想的语义理解向量。

S50、对语素理解向量和音素联想向量进行加权，并将加权后的结果与正则音素特征组合得到联合向量，将联合向量输入分类器进行语音的语义理解和分类。

请参阅图6，图6为本发明实施例提供的总联合理解方法的流程示意图；

本步骤中将语素序列、音素序列向量进行加权处理，采用attention技术进行加权，attention的一个通用定义给定一组向量集合values，以及一个向量query，attention机制是一种根据该query计算values的加权求和的机制。attention的重点就是这个集合values中的每个value的“权值”的计算方法。有时候也把这种attention的机制叫做query的输出关注了(或者说叫考虑到了)原文的不同部分。(Query attends to the values)，因为希望得到语素理解和音素理解向量所占的权重，之后结合命中正则编号对应的语义独热特征组合成联合向量，此时语义理解的向量不再是单个基于语素理解、或者音素理解的单一向量，而是联合了语素、音素、二者权重以及命中正则编号对应的语义独热特征的联合向量，然后将该向量输入到ESIM(增强LSTM模型)中，进行两者的特征交互，最后输进分类器进行模型语义理解分类。

需要知道的是，分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个，从而可以应用于数据预测。总之，分类器是数据挖掘中对样本进行分类的方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

其中常见的分类器包括以下三种：

1)决策树分类器：

提供一个属性集合，决策树通过在属性集的基础上作出一系列的决策，将数据分类。这个过程类似于通过一个植物的特征来辨认植物。可以应用这样的分类器来判定某人的信用程度，比如，一个决策树可能会断定“一个有家、拥有一辆价值在1.5万到2.3万美元之间的轿车、有两个孩子的人”拥有良好的信用。决策树生成器从一个“训练集”中生成决策树。SGI公司的数据挖掘工具MineSet所提供的可视化工具使用树图来显示决策树分类器的结构，在图中，每一个决策用树的一个节点来表示。图形化的表示方法可以帮助用户理解分类算法，提供对数据的有价值的观察视角。生成的分类器可用于对数据的分类。

2)选择树分类器：

选择树分类器使用与决策树分类器相似的技术对数据进行分类。与决策树不同的是，选择树中包含特殊的选择节点，选择节点有多个分支。比如，在一棵用于区分汽车产地的选择树中的一个选择节点可以选择马力、汽缸数目或汽车重量等作为信息属性。在决策树中，一个节点一次最多可以选取一个属性作为考虑对象。在选择树中进行分类时，可以综合考虑多种情况。选择树通常比决策树更准确，但是也大得多。选择树生成器使用与决策树生成器生成决策树同样的算法从训练集中生成选择树。MineSet的可视化工具使用选择树图来显示选择树。树图可以帮助用户理解分类器，发现哪个属性在决定标签属性值时更重要。同样可以用于对数据进行分类。

3)证据分类器：

证据分类器通过检查在给定一个属性的基础上某个特定的结果发生的可能性来对数据进行分类。比如，它可能作出判断，一个拥有一辆价值在1.5万到2.3万美元之间的轿车的人有70％的可能是信用良好的，而有30％的可能是信用很差。分类器在一个简单的概率模型的基础上，使用最大的概率值来对数据进行分类预测。与决策树分类器类似，生成器从训练集中生成证据分类器。MineSet的可视化工具使用证据图来显示分类器，证据图由一系列描述不同的概率值的饼图组成。证据图可以帮助用户理解分类算法，提供对数据的深入洞察，帮助用户回答像“如果...怎么样＂一类的问题。同样可以用于对数据进行分类。

该步骤中，通过将语素、音素以及命中正则编号的独特特征三者联合，然后输入到ESIM模型训练，进行特征交互，从语义角度理解语音，从语音角度理解语义，从而获得良好的语音语义理解的能力。

本发明实施例提供的基于音素联想及深度学习的语义理解方法，通过对转换文本进行关键词联想、句子音素级匹配和语素音素联合建模，给语音识别文本增加了同音、类音词的联想能力，增强了人工智能对语音转文本的语义理解能力，提升了文本自然语言理解结果的准确率，同时降低了语义理解模型的开发成本。

第二方面：

请参阅图7－8，本发明某一实施例还提供了一种基于音素联想及深度学习的语义理解装置，包括：

语音转化模块01，用于通过ASR模型将获取的语音转化为文本；

语素理解向量输出模块02，用于对文本进行分词后依次输入至word2vec模型和bi－lstm模型，并输出文本的语素理解向量；

特征三元组获取模块03，用于获取文本音素联想的特征三元组，包括：对分词后的单词音素进行识别和分离，并添加音素联想关键词，得到关键词音素特征；对文本进行句子音素的识别与分离得到原音素特征；及获取句子音素识别与分离后的正则音素特征；将关键词音素特征、原音素特征和正则音素特征进行组合；

音素联想向量输出模块04，用于将特征三元组输入至text－cnn卷积神经网络进行音素联想理解，并卷积提取局部组合特征，输出音素联想向量；

总联合理解模块05，用于将语素理解向量和音素联想向量输入至ESIM模型进行特征交互，并通过bi－lstm模型进行语素、音素联合理解，输出语义理解的空间向量。

第三方面：

本发明实施例还提供了一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

处理器用于控制该计算机终端设备的整体操作，以完成上述的全自动用电量预测方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作，这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read－OnlyMemory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read－OnlyMemory，简称EPROM)，可编程只读存储器(Programmable Read－Only Memory，简称PROM)，只读存储器(Read－Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

终端设备可以被一个或多个应用专用集成电路(ApplicationSpecific1ntegrated Circuit，简称AS1C)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行如上述任一项实施例所述的确定调峰辅助服务费用分摊修正系数的方法，并达到如上述方法一致的技术效果。

第四方面：

本发明某一实施例还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现如上述任一项实施例所述的基于音素联想及深度学习的语义理解方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器，上述程序指令可由计算机终端设备的处理器执行以完成如上述任一项实施例所述的基于音素联想及深度学习的语义理解方法，并达到如上述方法一致的技术效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于音素联想及深度学习的语义理解方法，其特征在于，包括：

通过ASR模型将获取的语音转化为文本；

对文本进行分词后依次输入至word2vec模型和bi－lstm模型，并输出文本的语素理解向量；包括：将文本输入至word2vec模型得到文本对应的字向量，并进行字向量embedding；将所述embedding后的字向量输入至bi－lstm模型进行语义理解；将理解后的结果输入至自注意力模型，得到文本的句向量，以作为文本的语素理解向量；

获取文本音素联想的特征三元组，包括：对分词后的单词音素进行识别和分离，并添加音素联想关键词，得到关键词音素特征；对文本进行句子音素的识别与分离得到原音素特征；及获取句子音素识别与分离后的正则音素特征，包括：获取句子音素识别与分离后的结果及原正则库，所述原正则库为***默认的正则库，将原正则库转化为音素部分匹配正则库，并对音素部分匹配正则库中多条正则进行编号，根据音素部分匹配正则库对所述结果进行音素正则匹配，并根据命中的正则编号所对应的语义生成独热特征，以作为正则音素特征；将关键词音素特征、原音素特征和正则音素特征进行组合；

将特征三元组输入至text－cnn卷积神经网络进行音素联想理解，并卷积提取局部组合特征，输出音素联想向量；使用text－cnn对原句音素分离后的音素字符串、关键词联想添加后的音素字符串做局部特征提取，提取原句音素字符串的局部组合特征以及提取关键词联想后音素字符串的局部组合特征，得到音素联想向量；

2.根据权利要求1所述的基于音素联想及深度学习的语义理解方法，其特征在于，所述对分词后的单词音素进行识别和分离，包括：

通过pinyin工具包将文本转化成拼音；

当所述拼音属于整音节时，设置声母为NA，韵母为整音节；

当所述拼音不属于整音节且以双声母开头时，设置声母为双声母，剩余音素为韵母；

3.根据权利要求2所述的基于音素联想及深度学习的语义理解方法，其特征在于，所述对分词后的单词音素进行识别和分离后，还包括：

4.根据权利要求1所述的基于音素联想及深度学习的语义理解方法，其特征在于，所述将原正则库转化为音素部分匹配正则库，包括：

判断原正则中每个字符的属性和结构，并对应进行音素正则处理，并将处理结果整合后得到音素部分匹配正则库，所述正则处理包括：

当字符为词组中文字符时，将词组中符合声母或韵母部分匹配的正则添加到音素正则新字符串中；当字符为单个中文字符时，将字符的音素分离结果添加到音素正则新字符串中；当字符不是中文时，将字符直接添加到音素正则新字符串中。

5.根据权利要求1所述的基于音素联想及深度学习的语义理解方法，其特征在于，所述将获取的语音转化为文本，还包括采用神经网络算法和CTC算法进行语音转换；所述对文本进行分词包括通过python中jieba分词模块进行文本分词；所述对语素理解向量和音素联想向量进行加权采用attention技术。

6.一种基于音素联想及深度学习的语义理解装置，其特征在于，包括：

语音转化模块，用于通过ASR模型将获取的语音转化为文本；

语素理解向量输出模块，用于对文本进行分词后依次输入至word2vec模型和bi－lstm模型，并输出文本的语素理解向量；包括：将文本输入至word2vec模型得到文本对应的字向量，并进行字向量embedding；将所述embedding后的字向量输入至bi－lstm模型进行语义理解；将理解后的结果输入至自注意力模型，得到文本的句向量，以作为文本的语素理解向量；

特征三元组获取模块，用于获取文本音素联想的特征三元组，包括：对分词后的单词音素进行识别和分离，并添加音素联想关键词，得到关键词音素特征；对文本进行句子音素的识别与分离得到原音素特征；及获取句子音素识别与分离后的正则音素特征，包括：获取句子音素识别与分离后的结果及原正则库，所述原正则库为***默认的正则库，将原正则库转化为音素部分匹配正则库，并对音素部分匹配正则库中多条正则进行编号，根据音素部分匹配正则库对所述结果进行音素正则匹配，并根据命中的正则编号所对应的语义生成独热特征，以作为正则音素特征；将关键词音素特征、原音素特征和正则音素特征进行组合；

音素联想向量输出模块，用于将特征三元组输入至text－cnn卷积神经网络进行音素联想理解，并卷积提取局部组合特征，输出音素联想向量；使用text－cnn对原句音素分离后的音素字符串、关键词联想添加后的音素字符串做局部特征提取，提取原句音素字符串的局部组合特征以及提取关键词联想后音素字符串的局部组合特征，得到音素联想向量；

7.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至5任一项所述的基于音素联想及深度学习的语义理解方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行实现如权利要求1至5任一项所述的基于音素联想及深度学习的语义理解方法。