CN110287283B

CN110287283B - 意图模型训练方法、意图识别方法、装置、设备及介质

Info

Publication number: CN110287283B
Application number: CN201910430534.0A
Authority: CN
Inventors: 顾宝宝
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2023-08-01
Anticipated expiration: 2039-05-22
Also published as: CN110287283A

Abstract

本发明公开了一种意图模型训练方法、意图识别方法、装置、设备及介质，该方法包括将训练文本词向量和意图标签输入到意图训练模型中，获取原始意图识别模型；将测试文本词向量和意图标签输入到原始意图识别模型中，获取原始意图识别模型对应的输出结果，若输出结果大于预设准确率，则将原始意图识别模型确定为目标意图识别模型；将目标文本对应的目标文本词向量和对应的实体标签输入到实体训练模型中，获取实体识别模型。通过目标意图识别模型获取目标意图，通过实体识别模型获取目标实体，以便从话术模板中随机选取与目标意图和目标实体对应的有效话术与客户进行交流，提高了机器人与客户对话的灵活性。

Description

意图模型训练方法、意图识别方法、装置、设备及介质

技术领域

本发明涉及智能决策领域，尤其涉及一种意图模型训练方法、装置、计算机设备及存储介质。

背景技术

现有的智能培训***，机器人和客户的问答流程和对话模板都是预先设定好的，也就是说不论客户发出什么信息，机器人都会按照预先设定好的问题进行提问，缺乏灵活性，无法做到根据实际情况进行智能对话。若机器人只是通过预先设定好的对话模板和问答流程与客户进行对话，并进行产品推荐，则不能准确地根据客户说话的意图智能调整对话模板，影响与客户之间的对话质量，从而使得产品推荐成功率降低。

发明内容

本发明实施例提供一种意图模型训练方法、装置、计算机设备及存储介质，以解决坐席和机器人对话不够灵活的问题。

一种意图模型训练方法，包括：

获取标准语音并对所述标准语音进行标注，所述标准语音携带有对应的意图标签；

对所述标准语音进行文本预处理，获取目标文本；

将所述目标文本转换成目标文本词向量，并将所述目标文本词向量划分为训练文本词向量和测试文本词向量；

将所述训练文本词向量和所述意图标签输入到意图训练模型中进行训练，获取原始意图识别模型，所述意图训练模型为加入注意力机制后形成的Seq2Seq模型；

将所述测试文本词向量和所述意图标签输入到所述原始意图识别模型中，获取所述原始意图识别模型对应的输出结果，若所述输出结果大于预设准确率，则将原始意图识别模型确定为目标意图识别模型；

对所述目标文本进行命名实体标注，以使所述目标文本携带有实体标签；

将所述目标文本对应的目标文本词向量和对应的实体标签输入到实体训练模型中进行训练，获取实体识别模型。

一种意图模型训练装置，包括：

标准语音获取模块，用于获取标准语音并对所述标准语音进行标注，所述标准语音携带有对应的意图标签；

标准语音处理模块，用于对所述标准语音进行文本预处理，获取目标文本；

目标文本处理模块，用于将所述目标文本转换成目标文本词向量，并将所述目标文本词向量划分为训练文本词向量和测试文本词向量；

原始意图识别模型训练模块，用于将所述训练文本词向量和所述意图标签输入到意图训练模型中进行训练，获取原始意图识别模型，所述意图训练模型为加入注意力机制后形成的Seq2Seq模型；

原始意图识别模型测试模块，用于将所述测试文本词向量和所述意图标签输入到所述原始意图识别模型中，获取所述原始意图识别模型对应的输出结果，若所述输出结果大于预设准确率，则将原始意图识别模型确定为目标意图识别模型；

命名实体标注模块，用于对所述目标文本进行命名实体标注，以使所述目标文本携带有实体标签；

实体识别模型获取模块，用于将所述目标文本对应的目标文本词向量和对应的实体标签输入到实体训练模型中进行训练，获取实体识别模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述意图模型训练方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述意图模型训练方法

一种意图识别方法，包括：

获取机器人采集的客户语音，对所述客户语音进行语音预处理，获取待识别语音；

对所述待识别语音进行文本预处理，获取待识别词向量；

使用上述意图模型训练方法获取的所述目标意图识别模型识别所述待识别词向量，获取目标意图；

使用上述意图模型训练方法获取的所述实体识别模型对所述待识别词向量进行识别，获取目标实体；

通过目标意图和目标实体，选择与目标意图和目标实体对应的话术模板，从话术模板中随机选取有效话术，并通过文本转语音技术将所述有效话术转换成目标语音，控制所述机器人播放所述目标语音。

一种意图识别装置，包括：

客户语音处理模块，用于获取机器人采集的客户语音，对所述客户语音进行语音预处理，获取待识别语音；

待识别语音处理模块，用于对所述待识别语音进行文本预处理，获取待识别词向量；

目标意图获取模块，用于使用上述意图模型训练方法获取的所述目标意图识别模型识别所述待识别词向量，获取目标意图；

目标实体获取模块，用于使用上述意图模型训练方法获取的所述实体识别模型对所述待识别词向量进行识别，获取目标实体；

目标语音处理模块，用于通过目标意图和目标实体，选择与目标意图和目标实体对应的话术模板，从话术模板中随机选取有效话术，并通过文本转语音技术将所述有效话术转换成目标语音，控制所述机器人播放所述目标语音。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述意图识别方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述意图识别方法。

上述意图模型训练方法、装置、计算机设备及存储介质，通过获取标准语音并对标准语音进行标注，使得标准语音携带有对应的意图标签，为后续训练原始意图识别模型中构建损失函数提供数据来源。为了方便训练原始意图识别模型，还需将标准语音转换为目标文本，并采用词向量转换工具将目标文本转换为目标文本词向量。在获取目标文本词向量后，为了防止出现过拟合问题，还需要将目标文本词向量划分为训练文本词向量和测试文本词向量。将训练训练文本词向量和意图标签输入到意图训练模型中进行训练，更新意图训练模型的参数，获取原始意图识别模型；然后将测试文本词向量和意图标签输入到原始意图识别模型中，获取原始意图识别模型对应的输出结果，若输出结果大于预设准确率，则表示训练好的原始意图识别模型满足要求，可以作为目标意图识别模型识别一段语音所要表达的意图。为了更加明确获知一段语音表达的意思，在识别完一段客户语音所要表达的意图后，本发明提供的意图模型训练方法还提供了实体识别模型，用于识别一段客户语音中的命名实体，以提高客户语音的识别准确性。

上述意图识别方法、装置、计算机设备及存储介质，通过机器人采集客户语音，然后对采集的客户语音进行语音预处理，去除客户语音中的干扰语音，仅保留含有声纹连续变化明显的语音部分，即待识别语音，提高文本预处理的效率和准确率。然后对待识别语音进行文本预处理，获取待识别词向量，并分别通过目标意图识别模型和实体识别模型对待识别词向量的识别，获取各模型对应的目标意图和目标实体，以便从话术模板中随机选取与目标意图和目标实体对应的有效话术与客户进行交流，提高了机器人与客户对话的灵活性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中意图模型训练方法的一应用场景图；

图2是本发明一实施例中意图模型训练方法的一流程图；

图3是图2中步骤S20的一具体流程图；

图4是图2中步骤S40的一具体流程图；

图5是图4中步骤S42的一具体流程图；

图6是图2中步骤S70的一具体流程图；

图7是本发明一实施例中意图模型训练装置的一示意图；

图8是本发明一实施例中意图识别方法的一流程图；

图9是本发明一实施例中意图识别装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的意图模型训练方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，终端设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种意图模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取标准语音并对标准语音进行标注，标准语音携带有对应的意图标签。

其中，标准语音指经过处理后仅包含声纹连续变化明显的客户语音。客户语音指客户在讲话时，通过声音采集设备采集的该客户的语音。可以理解地，标准语音指去除客户说话时因思考、呼吸产生的停顿和门窗的开关、物体的碰撞等发出的噪声后保留的客户语音。

具体地，为了方便后续步骤进行模型训练，需要预先对标准语音进行意图标签处理，使得每一个标准语音都携带有对应的意图标签。其中，意图标签指开发人员根据标准语音表达的意图做好的标签。

S20：对标准语音进行文本预处理，获取目标文本。

其中，文本预处理指将语音形式的数据转换为文本形式的处理方法。目标文本指将标准语音转换为文字形式后形成的文本。具体地，在获取标准语音后，需要对标准语音进行文本预处理，将以语音形式存在的标准语音转换为以文本形式存在的目标文本，以方便执行后续步骤。

S30：将目标文本转换成目标文本词向量，并将目标文本词向量划分为训练文本词向量和测试文本词向量。

其中，目标文本词向量指将目标文本中的词转换为对应的词向量后形成的数据。

具体地，在获取目标文本后，还需要通过文本词向量转换工具将目标文本转换为对应的目标文本词向量，以方便完成后续步骤。本实施例中使用的文本词向量转换工具为word2vec(word to vector，单词转换向量)，word2vec是一种将单词转换为向量的工具，该工具可以将每一个词映射成对应的向量。

为了训练后续步骤中涉及到的模型，并且验证训练好的模型的准确性，在获取目标文本词向量后，将目标文本词向量划分为训练文本词向量和测试文本词向量。一般地，训练文本词向量和测试文本词向量的比例为9:1。训练文本词向量指用于调整模型中的参数的词向量。测试文本词向量指用于测试训练好的模型的识别准确率的词向量。

S40：将训练文本词向量和意图标签输入到意图训练模型中进行训练，获取原始意图识别模型，意图训练模型为加入注意力机制后形成的Seq2Seq模型。

本实施例中的意图训练模型为seq2Seq+attention组成的模型。其中，Seq2Seq模型是一种encoder-decoder模型，即编码-解码模型。编码指将输入序列转化成一个固定长度的向量；解码，指将之前生成的固定向量再转化成输出序列。进一步地，Seq2Seq模型包括两个RNN(Recurrent Neural Networks，循环神经网络)，其本质是对双向RNN的一种变形，输入和输出的序列长度不是相等的。Seq2Seq模型中的两个RNN各自对应一个隐藏层，共同拥有一个输入层和输出层。为了方便后续描述，将两个RNN称为向前RNN和向后RNN，向前RNN对应的隐藏层为向前隐藏层，向后RNN对应的隐藏层为向后隐藏层。

具体地，将训练文本词向量和意图标签输入到意图训练模型中进行训练，获取原始意图识别模型，具体包括如下步骤：(一)seq2Seq+attention模型的输入层在获取训练文本词向量后，将训练文本词向量输入到向前隐藏层中计算，并使用attention机制对向前隐藏层得到的输出进行注意力分配，其中，attention机制即注意力机制，指将根据数据重要性的不同对数据赋予不同的权重，重要性大的对应的权重大，重要性小的对应的权重小；(二)通过encoder对携带有不同注意力(权值)的输出进行编码，获取语义向量C，其中，编码指将输入序列转化成一个固定长度的向量的过程；(三)将语义向量C输入到向后隐藏层中，使用attention机制对向后隐藏层得到的输出进行注意力分配，然后通过decoder对携带有不同注意力的输出进行解码，获取向后隐藏层的输出，其中，解码指将生成的固定向量再转化成输出序列的过程；(四)将向后隐藏层的输出输入到Seq2Seq的输出层，通过输出层的计算，获取模型输出，其中，模型输出是训练文本词向量通过seq2Seq+attention模型训练获取的输出；(五)通过模型输出和意图标签构建损失函数，然后根据损失函数采用反向传播算法调整Seq2Seq的权值，获取原始意图识别模型，其中，反向传播(Back Propagation)算法是指按照时序状态的反向顺序调整隐藏层与Seq2Seq的输出层之间的权值和偏置、以及输入层与隐藏层之间的权值和偏置的算法。

S50：将测试文本词向量和意图标签输入到原始意图识别模型中，获取原始意图识别模型对应的输出结果，若输出结果大于预设准确率，则将原始意图识别模型确定为目标意图识别模型。

具体地，在获取原始意图模型后，为了防止出现过拟合现象，进一步验证原始意图识别模型的准确性，还需要将测试文本词向量和意图标签输入到原始意图识别模型中，获取原始意图识别模型对应的输出结果，若输出结果大于预设准确率，则表示训练好的原始意图识别模型满足要求，可以作为目标意图识别模型，用于识别一段客户语音所要表达的意图。

S60：对目标文本进行命名实体标注，以使目标文本携带有实体标签。

其中，命名实体标注指在文档集合中识别出特定类型的事物名称或符号的过程。命名实体(named entity)指人名、机构名、地名以及其他所有以名称为标识的实体，如保险类别(XX险种)和客户行为(客户要下单)等。

对目标文本进行命名实体标注，以使目标文本携带有实体标签，为步骤S70中获取实体识别模型提供数据来源。其中，实体标签指根据目标文本的内容得到的用于标记目标文本的命名实体。

S70：将目标文本对应的目标文本词向量和对应的实体标签输入到实体训练模型中进行训练，获取实体识别模型。

本实施例中的实体训练模型为BLSTM+CRF。其中，BLSTM(Bi-long-short termmemory，双向长短时记忆神经)网络是一种时间递归神经网络。CRF(conditional randomfield algorithm，条件随机场算法)是一种对分词、词性标注和命名实体识别等序列进行标注的算法。

具体地，将目标文本词向量输入到BLSTM中，获取BLSTM对目标文本词向量的输出，为了去除不合法的命名实体，将BLSTM对应的输出输入到CRF中计算目标文本词向量对应的最优标签序列，以最大概率的序列作为目标文本词向量对应的训练命名实体。在获取训练命名实体后，计算训练命名实体与原始命名实体之间的命名实体误差，当命名实体误差在预设的实体误差范围，则将对应的实体训练模型作为实体识别模型，用于识别一段客户语音中的命名实体。

步骤S10-步骤S70，通过获取标准语音并对标准语音进行标注，使得标准语音携带有对应的意图标签，为后续训练原始意图识别模型中构建损失函数提供数据来源。为了方便训练原始意图识别模型，还需将标准语音转换为目标文本，并采用词向量转换工具将目标文本转换为目标文本词向量。在获取目标文本词向量后，为了防止出现过拟合问题，还需要将目标文本词向量划分为训练文本词向量和测试文本词向量。将训练训练文本词向量和意图标签输入到意图训练模型中进行训练，更新意图训练模型的参数，获取原始意图识别模型；然后将测试文本词向量和意图标签输入到原始意图识别模型中，获取原始意图识别模型对应的输出结果，若输出结果大于预设准确率，则表示训练好的原始意图识别模型满足要求，可以作为目标意图识别模型识别一段语音所要表达的意图。为了更加明确获知一段语音表达的意思，在识别完一段客户语音所要表达的意图后，本发明提供的意图模型训练方法还提供了实体识别模型，用于识别一段客户语音中的命名实体，以提高客户语音的识别准确性。

在一实施例中，如图3所示，步骤S20，对标准语音进行文本预处理，获取目标文本，具体包括如下步骤：

S21：采用语音转文字技术，将标准语音转换为原始文本。

本实施例采用的语音转文字技术为ASR技术，其中，ASR(Automatic SpeechRecognition，自动语音识别技术)是一种将人的语音转换为文本的技术。原始文本指标准语音通过ASR技术转换生成对应的文字形式的文本。

S22：使用正则表达式对原始文本进行第一预处理，并按照预设切割长度将经过第一预处理后的原始文本切割成有效文本。

其中，正则表达式又称规则表达式(Regular Expression，在代码中常简写为regex、regexp或RE)，指对原始文本进行过滤操作的一种逻辑公式。本实施例中的正则表达式是用来表达对原始文本中数据和特殊符号进行过滤的一种过滤逻辑。预设切割长度指根据实际需要预先设置好的用于将原始文本切割成规定长度的值。

具体地，在获取原始文本后，首先使用预先编写好的正则表达式对原始文本进行第一预处理，去除原始文本中的数据和特殊符号，本实施例中的数据指将目标语音转换为原始文本后出现的数字；特殊符号指在将目标语音转换为原始文本后出现的不能识别的字符，如$、*、&、#、+、？。

在对原始文本进行第一预处理后，服务器按照预设切割长度将经过第一预处理后的原始文本切割成规定长度的有效文本。其中，有效文本指将原始文本按照预设切割长度切割成规定长度的文本。

S23：采用分词工具对有效文本进行第二预处理，获取目标文本。

具体地，在获取有效文本后，服务器采用分词工具对有效文本进行切分，去除停用词(分词、介词、代词等)，获取目标文本。其中，目标文本指去除有效文本中的停用词后形成的文本。本实施例中的分词工具包括但不限于结巴分词工具。其中，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，该通用词可以参考百度停用词表或者哈工大停用词词库由开发人员自行定义。

步骤S21-步骤S23，通过语音转文字技术将标准语音转换为原始文本，然后使用正则表达式去除原始文本中的数据和特殊符号，并将去除原始文本中的数据和特殊符号的原始文本切割成有效文本，最后采用分词工具去除有效文本中的停用词，获取目标文本，以减少后续步骤将目标文本转换成对应的目标文本词向量的数据处理量。

在一实施例中，如图4所示，步骤S40，将训练文本词向量和意图标签输入到意图训练模型中进行训练，获取原始意图识别模型，具体包括如下步骤：

S41：对意图训练模型中的权值和偏置进行初始化设置。

本实施例中，采用预设值对权值和偏置进行初始化设置，该预设值是开发人员根据经验预先设置好的值。采用预设值对意图训练模型的权值和偏置进行初始化设置，可以在后续根据训练文本词向量进行意图训练模型训练时，缩短模型的训练时间，提高模型的识别准确率。若对权值和偏置的初始化设置不是很恰当，则会导致模型在初始阶段的调整能力很差，从而影响该意图训练模型后续对文本词向量效果。

S42：将训练文本词向量和意图标签输入到意图训练模型中进行训练，更新意图训练模型中的权值和偏置，获取原始意图识别模型。

具体地，将训练文本词向量和意图标签输入到意图训练模型中进行训练，获取模型输出，然后使用模型输出和意图标签构建损失函数，对损失函数求偏导，使用反向传播算法更新意图训练模型中的权值和偏置，获取原始意图识别模型。

步骤S41-步骤S42，通过对意图训练模型中的权值和偏置进行初始化设置，缩短模型的训练时间，提高模型的识别准确率，然后将训练文本词向量和意图标签输入到意图训练模型中进行训练，更新意图训练模型中的权值和偏置，获取原始意图识别模型，使得原始意图识别模型为可用于识别客户语音所要表达的意图的模型。

在一实施例中，如图5所示，步骤S42，将训练文本词向量和意图标签输入到意图训练模型中进行训练，更新意图训练模型中的权值和偏置，获取原始意图识别模型，具体包括如下步骤：

S421：将训练文本词向量和意图标签输入到意图训练模型的输入层，输入层将获取到的训练文本词向量输入到向前隐藏层中，获取向前隐藏层对应的向前输出。

具体地，将训练文本词向量输入到seq2Seq+attention模型的输入层，输入层将获取到的训练文本词向量输入到向前RNN的向前隐藏层中，在向前隐藏层中通过公式h_t＝σ(Ux_t+Wh_t-1+b)计算向前输出，即向前隐藏层的输出。其中，σ表示向前RNN隐藏层的激活函数，U表示seq2Seq+attention模型的输入层与向前RNN隐藏层之间的权值，W表示向前RNN各隐藏层之间的权值，b表示seq2Seq+attention模型的输入层与向前RNN之间的偏置，x_t表示seq2Seq+attention模型的输入层中t时刻输入的训练文本词向量，h_t表示向前RNN的隐藏层中对t时刻对应的训练文本词向量的输出,h_t-1表示向前RNN的隐藏层中t-1时刻对应的训练文本词向量的输出。

S422：使用注意力机制对向前输出进行注意力分配，并使用编码机制对向前输出进行编码，获取语义向量。

具体地，在获取向前输出后，seq2Seq+attention模型中的注意力机制根据公式计算训练文本词向量的注意力，其中，c_t指t时刻语义向量的注意力(即重要值)，α_tj指decoder阶段中t时刻的输出与encoder阶段第j个输入的训练文本词向量的相关性，h_j指j个输入在通过encoder编码得到的输出。进一步地，归一化过程为/>其中，k指第K个输入。e_tj＝V^Γtanh(U·h_j+WS_t-1+b)，其中，e_tj指数出结果的条件概率，V表示隐藏层和输出层之间的权重，V^Γ权重V的转置，S_t-1指decoder在t-1时刻的输出。

在完成向前输出的注意力分配后，使用seq2Seq+attention模型中的编码机制对向前输出进行编码，获取语义向量。

S423：使用解码机制对语义向量进行解码，并使用注意力机制对解码后的语义向量进行注意力分配，获取向后隐藏层的向后输出。

具体地，向后输出指向后隐藏层对应的输出。在获取语义向量后，使用seq2Seq+attention模型中的解码机制对语义向量进行解码，并使用注意力机制对解码后的语义向量进行注意力分配，获取向后隐藏层的向后输出。

S424：将向后隐藏层的向后输出输入到输出层中，获取模型输出。

具体地，在获取向后输出后，将向后输出输入到输出层中，输出层通过公式S_t＝f(S_t-1,y_t-1,c_t)计算模型输出。其中，S_t表示decoder在t时刻的输出，S_t-1表示decoder在t-1时刻的输出，y_t-1指t-1时刻输入的训练文本词向量携带的意图标签，f一般选softmax函数。获取模型输出便于后续步骤构建损失函数，从而调整seq2Seq+attention模型权值和偏重。

S425：基于模型输出和意图标签构建损失函数，基于损失函数对向前循环神经网络和向后循环神经网络进行误差反向传播，调整向前循环神经网络和向后循环神经网络的权值和偏置，获取原始意图识别模型。

具体地，在获取模型输出后，基于模型输出和意图标签构建损失函数，θ表示权值和偏置的集合(U、V、W、b、c)，y_t指t时刻输入的训练文本词向量携带的意图标签。然后对损失函数求偏导，对向前循环神经网络和向后循环神经网络进行误差反向传播，调整向前循环神经网络和向后循环神经网络的权值和偏置，获取原始意图识别模型。

在一实施例中，如图6所示，步骤S70，将目标文本对应的目标文本词向量和对应的实体标签输入到实体训练模型中进行训练，获取实体识别模型，具体包括如下步骤：

S71：将目标文本词向量和实体标签输入到实体训练模型中，获取训练实体。

具体地，在获取目标文本词向量后，将目标文本词向量输入到实体训练模型中，获取训练实体。其中，训练实体指将实体训练模型通过对训练文本词向量的识别，得到的输出。

S72：计算训练实体与实体标签的命名实体误差，当命名实体误差在预设的实体误差范围内，则将实体训练模型作为实体识别模型。

其中，命名实体误差指训练实体与实体标签的误差；预设的实体误差范围指开发人员预先设置好的用于确定命名实体误差是否满足要求的误差范围。

具体地，在获取训练实体后，计算训练实体与实体标签的命名实体误差，当命名实体误差在预设的实体误差范围内，则表示实体训练模型的准确性已达到要求。该实体训练模型可以作为实体识别模型用于识别目标文本词向量中的实体。

步骤S71-步骤S72，通过将目标文本词向量和实体标签输入到实体训练模型中，训练实体训练模型，然后计算训练实体与实体标签的命名实体误差，当命名实体误差在预设的实体误差范围内，则表示实体训练模型的准确性已达到要求，可以作为实体识别模型用于识别目标文本词向量中的实体。

本发明提供的意图模型训练方法通过获取标准语音并对标准语音进行标注，使得标准语音携带有对应的意图标签，为后续训练原始意图识别模型中构建损失函数提供数据来源。为了方便训练原始意图识别模型，还需将标准语音转换为目标文本，并采用词向量转换工具将目标文本转换为目标文本词向量。在获取目标文本词向量后，为了防止出现过拟合问题，还需要将目标文本词向量划分为训练文本词向量和测试文本词向量。将训练训练文本词向量和意图标签输入到意图训练模型中进行训练，更新意图训练模型的参数，获取原始意图识别模型；然后将测试文本词向量和意图标签输入到原始意图识别模型中，获取原始意图识别模型对应的输出结果，若输出结果大于预设准确率，则表示训练好的原始意图识别模型满足要求，可以作为目标意图识别模型识别一段语音所要表达的意图。为了更加明确获知一段语音表达的意思，在识别完一段客户语音所要表达的意图后，本发明提供的意图模型训练方法还提供了实体识别模型，用于识别一段客户语音中的命名实体，以提高客户语音的识别准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种意图模型训练装置，该意图模型训练装置与上述实施例中意图模型训练方法一一对应。如图7所示，该意图模型训练装置包括标准语音获取模块10、标准语音处理模块20、目标文本处理模块30、原始意图识别模型训练模块40、原始意图识别模型测试模块50、命名实体标注模块60和实体识别模型获取模块70。各功能模块详细说明如下：

标准语音获取模块10，用于获取标准语音并对标准语音进行标注，标准语音携带有对应的意图标签。

标准语音处理模块20，用于对标准语音进行文本预处理，获取目标文本。

目标文本处理模块30，用于将目标文本转换成目标文本词向量，并将目标文本词向量划分为训练文本词向量和测试文本词向量。

原始意图识别模型训练模块40，用于将训练文本词向量和意图标签输入到意图训练模型中进行训练，获取原始意图识别模型，意图训练模型为加入注意力机制后形成的Seq2Seq模型。

原始意图识别模型测试模块50，用于将测试文本词向量和意图标签输入到原始意图识别模型中，获取原始意图识别模型对应的输出结果，若输出结果大于预设准确率，则将原始意图识别模型确定为目标意图识别模型。

命名实体标注模块60，用于对目标文本进行命名实体标注，以使目标文本携带有实体标签。

实体识别模型获取模块70，用于将目标文本对应的目标文本词向量和对应的实体标签输入到实体训练模型中进行训练，获取实体识别模型。

进一步地，标准语音处理模块20包括语音转文字单元、有效文本获取单元和目标文本获取单元。

语音转文字单元，用于采用语音转文字技术，将标准语音转换为原始文本。

有效文本获取单元，用于使用正则表达式对原始文本进行第一预处理，并按照预设切割长度将经过第一预处理后的原始文本切割成有效文本。

目标文本获取单元，用于采用分词工具对有效文本进行第二预处理，获取目标文本。

进一步地，原始意图识别模型训练模块40包括参数初始化单元和原始意图识别模型获取单元。

参数初始化单元，用于对意图训练模型中的权值和偏置进行初始化设置。

原始意图识别模型获取单元，用于将训练文本词向量和意图标签输入到意图训练模型中进行训练，更新意图训练模型中的权值和偏置，获取原始意图识别模型。

进一步地，原始意图识别模型获取单元包括前向输出获取单元、语义向量获取单元、向后输出获取单元、模型输出获取单元和参数更新处理单元。

前向输出获取单元，用于将训练文本词向量和意图标签输入到意图训练模型的输入层，输入层将获取到的训练文本词向量输入到向前隐藏层中，获取向前隐藏层对应的向前输出。

语义向量获取单元，用于使用注意力机制对向前输出进行注意力分配，并使用编码机制对向前输出进行编码，获取语义向量。

向后输出获取单元，用于使用解码机制对语义向量进行解码，并使用注意力机制对解码后的语义向量进行注意力分配，获取向后隐藏层的向后输出。

模型输出获取单元，用于将向后隐藏层的向后输出输入到输出层中，获取模型输出。

参数更新处理单元，用于基于模型输出和意图标签构建损失函数，基于损失函数对向前循环神经网络和向后循环神经网络进行误差反向传播，调整向前循环神经网络和向后循环神经网络的权值和偏置，获取原始意图识别模型。

进一步地，实体识别模型获取模块70包括训练实体获取单元和实体识别模型获取单元。

训练实体获取单元，用于将目标文本词向量和实体标签输入到实体训练模型中，获取训练实体。

实体识别模型获取单元，用于计算训练实体与实体标签的命名实体误差，当命名实体误差在预设的实体误差范围内，则将实体训练模型作为实体识别模型。

关于意图模型训练装置的具体限定可以参见上文中对于意图模型训练方法的限定，在此不再赘述。上述意图模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，如图8所示，提供一种意图识别方法，该意图识别方法具体包括如下步骤：

S81：获取机器人采集的客户语音，对客户语音进行语音预处理，获取待识别语音。

其中，语音预处理指对机器人采集的客户语音进行预处理的方法。

具体地，当客户在和机器人进行对话时，机器人中的数据采集设备会采集客户的语音。由于直接采集的客户语音存在干扰语音(如客户说话时因思考、呼吸产生的停顿，或者门窗的开关、物体的碰撞等发出的声音)，会影响后期目标意图识别模型和实体识别模型的准确率，因此，在服务器获取机器人采集的客户语音后，还需要对客户语音进行预加重、分帧、加窗和端点检测等语音预处理，去除客户语音中的干扰语音，仅保留含有声纹连续变化明显的语音部分，即待识别语音。对客户语音进行语音预处理，方便后续步骤对待识别语音进行文本预处理，提高处理准确率。

S82：对待识别语音进行文本预处理，获取待识别词向量。

具体地，在获取待识别语音后，对待识别语音进行文本预处理，首先采用语音转文字技术，将待识别语音转换成对应的文本，然后使用正则表达式对该文本中的数据和特殊符号进行去除，并按照预设切割长度对该文本进行切割，最后，采用分词工具对该文本进行停用词去除处理，并使用文本词向量转换工具将去除停用词后的文本转换为待识别词向量。

S83：使用上述意图模型训练方法获取的目标意图识别模型识别待识别词向量，获取目标意图。

其中，目标意图指目标意图识别模型对待识别词向量进行识别后获取的客户意图。具体地，在获取待识别词向量后，使用上述意图模型训练方法获取的目标意图识别模型识别待识别词向量，获取目标意图。

S84：使用上述意图模型训练方法获取的实体识别模型对待识别词向量进行识别，获取目标实体。

其中，目标实体指实体识别模型对待识别词向量进行识别后获取的命名实体。具体地，在获取待识别词向量后，使用上述意图模型训练方法获取的实体识别模型对待识别词向量进行识别，获取目标实体。

S85：通过目标意图和目标实体，选择与目标意图和目标实体对应的话术模板，从话术模板中随机选取有效话术，并通过文本转语音技术将有效话术转换成目标语音，控制机器人播放目标语音。

具体地，在获取目标意图和目标实体后，通过目标意图和目标实体选取与对应的话术模板，为了更全面地满足客户需求，每一目标意图和目标实体都设置了多个话术模板。服务器会随机从话术模板中随机选取一个作为有效话术并发送给对应的机器人。机器人通过TTS技术将有效话术转换成目标语音并播放给与他对话的客户，以使机器人与客户的对话是根据客户目标意图和目标实体进行的，更加贴近客户的想法，使得客户与机器人的对话更加灵活，提高了客户对话质量。

其中，TTS技术指将计算机自己产生或者外部输入的文字信息转变为汉语口语并输出的技术。目标语音指通过TTS技术将有效话术转化为用于和客户对话的语音。

本发明提供的意图识别方法，通过机器人采集客户语音，然后对采集的客户语音进行语音预处理，去除客户语音中的干扰语音，仅保留含有声纹连续变化明显的语音部分，即待识别语音，提高文本预处理的效率和准确率。然后对待识别语音进行文本预处理，获取待识别词向量，并分别通过目标意图识别模型和实体识别模型对待识别词向量的识别，获取各模型对应的目标意图和目标实体，以便从话术模板中随机选取与目标意图和目标实体对应的有效话术与客户进行交流，提高了机器人与客户对话的灵活性。

在一实施例中，提供一种意图识别装置，该意图识别装置与上述实施例中意图识别方法一一对应。如图9所示，该意图识别装置包括客户语音处理模块81、待识别语音处理模块82、目标意图获取模块83、目标实体获取模块84和目标语音处理模块85。各功能模块详细说明如下：

客户语音处理模块81，用于获取机器人采集的客户语音，对客户语音进行语音预处理，获取待识别语音。

待识别语音处理模块82，用于对待识别语音进行文本预处理，获取待识别词向量。

目标意图获取模块83，用于使用上述意图模型训练方法获取的目标意图识别模型识别待识别词向量，获取目标意图。

目标实体获取模块84，用于使用上述意图模型训练方法获取的实体识别模型对待识别词向量进行识别，获取目标实体。

目标语音处理模块85，用于通过目标意图和目标实体，选择与目标意图和目标实体对应的话术模板，从话术模板中随机选取有效话术，并通过文本转语音技术将有效话术转换成目标语音，控制机器人播放目标语音。

关于意图识别装置的具体限定可以参见上文中对于意图识别方法的限定，在此不再赘述。上述意图识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储意图模型训练方法涉及到的数据，或者，该计算机设备的数据库用于存储意图识别方法涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种意图模型训练方法，或者，该计算机程序被处理器执行时以实现一种意图识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例的意图模型训练方法，例如图2所示步骤S10-步骤S70，或者图3至图6中所示的步骤，为避免重复，这里不再赘述。或者，该处理器执行计算机程序时实现上述意图模型训练装置这一实施例中的各模块/单元的功能，例如图7所示，该意图模型训练装置包括标准语音获取模块10、标准语音处理模块20、目标文本处理模块30、原始意图识别模型训练模块40、原始意图识别模型测试模块50、命名实体标注模块60和实体识别模型获取模块70的功能，为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例的意图识别方法，例如图8所示步骤S81-步骤S85，为避免重复，这里不再赘述。或者，该处理器执行计算机程序时实现上述意图识别装置这一实施例中的各模块/单元的功能，例如图9所示，该意图识别装置包括客户语音处理模块81、待识别语音处理模块82、目标意图获取模块83、目标实体获取模块84和目标语音处理模块85的功能，为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的意图模型训练方法，例如图2所示步骤S10-步骤S70，或者图3至图6中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述意图模型训练装置这一实施例中的各模块/单元的功能，例如图7所示，该意图模型训练装置包括标准语音获取模块10、标准语音处理模块20、目标文本处理模块30、原始意图识别模型训练模块40、原始意图识别模型测试模块50、命名实体标注模块60和实体识别模型获取模块70的功能，为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的意图识别方法，例如例如图8所示步骤S81-步骤S85的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述意图识别装置这一实施例中的各模块/单元的功能，例如图9所示，该意图识别装置包括客户语音处理模块81、待识别语音处理模块82、目标意图获取模块83、目标实体获取模块84和目标语音处理模块85的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种意图模型训练方法，其特征在于，包括：

对所述标准语音进行文本预处理，获取目标文本；

将所述训练文本词向量和所述意图标签输入到意图训练模型中进行训练，所述意图训练模型为加入注意力机制后的Seq2Seq模型，所述Seq2Seq模型为encoder-decoder模型，获取所述训练文本词向量在意图训练模型中的向前隐藏层的输出，使用注意力机制对所述向前隐藏层的输出进行注意力分配，获取携带注意力的向前隐藏层的输出；将所述携带注意力的输出输入到所述意图训练模型的向后隐藏层中，获取向后隐藏层的输出，使用所述注意力机制对所述向后隐藏层的输出进行注意力分配，获取携带注意力的向后隐藏层的输出；将所述携带注意力的向后隐藏层的输出输入至所述意图训练模型的输出层，获取模型输出；通过所述模型输出和所述意图标签构建损失函数获取原始意图识别模型；其中，θ表示权值和偏置的集合，y_t指t时刻输入的训练文本词向量携带的意图标签，S_t表示t时刻的输出，T是指模型输出的最后时刻；

2.如权利要求1所述的意图模型训练方法，其特征在于，所述对所述标准语音进行文本预处理，获取目标文本，包括：

采用语音转文字技术，将所述标准语音转换为原始文本；

使用正则表达式对所述原始文本进行第一预处理，并按照预设切割长度将经过第一预处理后的原始文本切割成有效文本；

采用分词工具对所述有效文本进行第二预处理，获取目标文本。

3.如权利要求1所述的意图模型训练方法，其特征在于，所述将所述训练文本词向量和所述意图标签输入到意图训练模型中进行训练，获取原始意图识别模型，包括：

对所述意图训练模型中的权值和偏置进行初始化设置；

将所述训练文本词向量和所述意图标签输入到意图训练模型中进行训练，更新意图训练模型中的权值和偏置，获取原始意图识别模型。

4.如权利要求3所述的意图模型训练方法，其特征在于，所述将所述训练文本词向量和所述意图标签输入到意图训练模型中进行训练，更新意图训练模型中的权值和偏置，获取原始意图识别模型，包括：

将所述训练文本词向量和所述意图标签输入到意图训练模型的输入层，所述输入层将获取到的训练文本词向量输入到向前隐藏层中，获取所述向前隐藏层对应的向前输出；

使用注意力机制对所述向前输出进行注意力分配，并使用编码机制对所述向前输出进行编码，获取语义向量；

使用解码机制对所述语义向量进行解码，并使用注意力机制对所述解码后的语义向量进行注意力分配，获取向后隐藏层的向后输出；

将所述向后隐藏层的向后输出输入到输出层中，获取模型输出；

基于所述模型输出和所述意图标签构建损失函数，基于所述损失函数对向前循环神经网络和向后循环神经网络进行误差反向传播，调整向前循环神经网络和向后循环神经网络的权值和偏置，获取原始意图识别模型。

5.如权利要求1所述的意图模型训练方法，其特征在于，所述将所述目标文本对应的目标文本词向量和对应的实体标签输入到实体训练模型中进行训练，获取实体识别模型，包括：

将所述目标文本词向量和所述实体标签输入到实体训练模型中，获取训练实体；

计算所述训练实体与所述实体标签的命名实体误差，当所述命名实体误差在预设的实体误差范围内，则将所述实体训练模型作为实体识别模型。

6.一种意图识别方法，其特征在于，包括：

对所述待识别语音进行文本预处理，获取待识别词向量；

使用权利要求1-5任一项所述的意图模型训练方法中的所述目标意图识别模型识别所述待识别词向量，获取目标意图；

使用权利要求1-5任一项所述的意图模型训练方法中的所述实体识别模型对所述待识别词向量进行识别，获取目标实体；

7.一种意图模型训练装置，其特征在于，包括：

原始意图识别模型训练模块，用于将所述训练文本词向量和所述意图标签输入到意图训练模型中进行训练，所述意图训练模型为加入注意力机制后的Seq2Seq模型，所述Seq2Seq模型为encoder-decoder模型，获取所述训练文本词向量在意图训练模型中的向前隐藏层的输出，使用注意力机制对所述向前隐藏层的输出进行注意力分配，获取携带注意力的向前隐藏层的输出；将所述携带注意力的输出输入到所述意图训练模型的向后隐藏层中，获取向后隐藏层的输出，使用所述注意力机制对所述向后隐藏层的输出进行注意力分配，获取携带注意力的向后隐藏层的输出；将所述携带注意力的向后隐藏层的输出输入至所述意图训练模型的输出层，获取模型输出；通过所述模型输出和所述意图标签构建损失函数获取原始意图识别模型；其中，θ表示权值和偏置的集合，y_t指t时刻输入的训练文本词向量携带的意图标签，S_t表示t时刻的输出，T是指模型输出的最后时刻；

8.一种意图识别装置，其特征在于，包括：

目标意图获取模块，用于使用权利要求1-5任一项所述的意图模型训练方法中的所述目标意图识别模型识别所述待识别词向量，获取目标意图；

目标实体获取模块，用于使用权利要求1-5任一项所述的意图模型训练方法中的所述实体识别模型对所述待识别词向量进行识别，获取目标实体；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述意图模型训练方法，或者，所述处理器执行所述计算机程序时实现如权利要求6所述意图识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述意图模型训练方法，或者，所述计算机程序被处理器执行时实现如权利要求6所述意图识别方法。