CN110162610A

CN110162610A - 机器人智能应答方法、装置、计算机设备及存储介质

Info

Publication number: CN110162610A
Application number: CN201910305320.0A
Authority: CN
Inventors: 顾宝宝
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-08-23

Abstract

本发明公开了一种机器人智能应答方法、装置、计算机设备及存储介质，该方法包括：获取机器人采集到的原始语音，对所述原始语音进行语音预处理，获取有效语音；采用语音转文字技术将所述有效语音转换为原始文本；对所述原始文本进行文本预处理，获取有效文本；使用采用注意力机制生成的目标双向循环神经网络模型对有效文本进行识别，获取目标意图；根据所述目标意图选取目标话术，通过文字转语音技术将所述目标话术转换成目标语音，控制所述机器人播放所述目标语音，提高了坐席与机器人对话的灵活性。

Description

机器人智能应答方法、装置、计算机设备及存储介质

技术领域

本发明涉及智能决策领域，尤其涉及一种机器人智能应答方法、装置、计算机设备及存储介质。

背景技术

现有的智能培训***，坐席和机器人问答流程和对话模板都是预先设定好的，也就是说不论坐席作出什么样的回答，机器人都会按照预先设定好的问题进行提问，缺乏灵活性，无法做到根据实际情况进行智能对话。

发明内容

本发明实施例提供一种机器人智能应答方法、装置、计算机设备及存储介质，以解决坐席和机器人对话不够灵活的问题。

一种机器人智能应答方法，包括：

获取机器人采集到的原始语音，对所述原始语音进行语音预处理，获取有效语音；

采用语音转文字技术将所述有效语音转换为原始文本；

对所述原始文本进行文本预处理，获取有效文本；

使用采用注意力机制生成的目标双向循环神经网络模型对有效文本进行识别，获取目标意图；

根据所述目标意图选取目标话术，通过文字转语音技术将所述目标话术转换成目标语音，控制所述机器人播放所述目标语音。

一种机器人智能应答装置，包括：

原始语音预处理模块，用于获取机器人采集到的原始语音，对所述原始语音进行语音预处理，获取有效语音；

有效语音转文本模块，用于采用语音转文字技术将所述有效语音转换为原始文本；

原始文本处理模块，用于对所述原始文本进行文本预处理，获取有效文本；

模型识别模块，用于使用采用注意力机制生成的目标双向循环神经网络模型对有效文本进行识别，获取目标意图；

文字转语音模块，用于根据所述目标意图选取目标话术，通过文字转语音技术将所述目标话术转换成目标语音，控制所述机器人播放所述目标语音。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述机器人智能应答方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述机器人智能应答方法。

上述机器人智能应答方法、装置、计算机设备及存储介质，通过获取机器人采集的原始语音，并对原始语音进行语音预处理，获取有效语音，方便后续步骤将有效语音转化为原始待识别文本，提高转化的准确率。采用语音转文字技术将有效语音转换为原始文本，并对原始文本进行文本预处理，获取有效文本，然后使用目标双向循环神经网络模型对有效文本进行识别，获取目标意图，提高识别目标意图的准确率。在获取目标意图后，根据目标意图选取目标话术，提高了坐席与机器人对话的灵活性。将目标话术通过文字转语音技术转换成目标语音，控制机器人播放目标语音，以完成机器和坐席人员之间的对话。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中机器人智能应答方法的一应用场景图；

图2是本发明一实施例中机器人智能应答方法的一流程图；

图3是图2中步骤S10的一具体流程图；

图4是图2中步骤S30的一具体流程图；

图5是本发明一实施例中机器人智能应答方法的另一流程图；

图6是图5中步骤S05的一具体流程图；

图7是图6中步骤S052的一具体流程图；

图8是图6中步骤S053的一具体流程图；

图9是本发明一实施例中机器人智能应答装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的机器人智能应答方法，可应用在如图1的应用环境中，终端设备通过网络与服务器进行通信。其中，本发明的终端设备具体为机器人。服务器为处理机器人获取的原始语音，并根据原始语音获取目标意图的服务器。其中，原始语音指机器人通过声音采集模块采集的需要识别的坐席人员的语音。目标意图指由原始语音得到的用于表示用户说话意图的信息。

在一实施例中，如图2所示，提供一种机器人智能应答方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取机器人采集到的原始语音，对原始语音进行语音预处理，获取有效语音。

其中，原始语音指机器人通过声音采集模块采集的需要识别的坐席人员的语音。语音预处理指对原始语音进行预加重、分帧、加窗和端点检测等处理，去除原始语音中的静音段和噪声段，保留声纹连续变化明显的原始语音的方法。

具体地，获取原始语音后，需要对原始语音进行预加重、分帧、加窗和端点检测等语音预处理，去除原始语音中的静音段和噪声段，仅保留含有声纹连续变化明显的语音原始语音，即有效语音。对原始语音进行语音预处理，方便后续步骤将有效语音转化为原始待识别文本，提高转化的准确率。

S20：采用语音转文字技术将有效语音转换为原始文本。

本实施例中的语音转文字技术采用的是ASR技术。其中，ASR(Automatic SpeechRecognition，自动语音识别技术)是一种将人的语音转换为文本的技术。

具体地，在获取有效语音后，机器人对应的服务器采用ASR技术，将有效语音转换为原始文本。其中，原始文本指通过ASR技术将有效语音转换成对应的文字形式的文本。由于有效语音是以语音的形式表达的，若开发人员直接通过听取的语音内容，对有效语音进行标签处理，不方便操作和保存，且处理速度慢。将有效语音转换为原始文本，以文本的形式表达出来，通过阅读文本的方式对文本的内容进行标签处理，方便操作，处理效率高。

S30：对原始文本进行文本预处理，获取有效文本。

其中，有效文本指对原始文本进行预处理，去除数据、特殊符号和停用词，满足预设长度(如8个字)的文本。本实施例中的数据指将有效语音转换为原始文本后出现的数字；特殊符号指在将有效语音转换为原始文本后出现的不能识别的字符。如$、*、&、#、+、？。

具体地，在获取原始文本后，机器人对应的服务器需要对原始文本进行预处理，将原始文本中的数据和特殊符号去除；进一步地，为了方便步骤S40，使用目标双向循环神经网络模型对有效文本进行识别，在去除原始文本中的数据和特殊符号后，还需要按照预设长度对去除数据和特殊符号的原始文本进行切割，使得该去除数据和特殊符号的原始文本满足预设长度的要求，得到切割文本。最后去除切割文本中的停用词，保留代表实际含义的词，形成有效文本。

进一步地，在获取有效文本后，机器人对应的服务器将有效文本发送给客户端，以使开发人员在客户端通过阅读有效文本的内容，对有效文本进行标签化处理，使得有效文本获取对应的文本标签，以便步骤S0531构建损失函数。

S40：使用采用注意力机制生成的目标双向循环神经网络模型对有效文本进行识别，获取目标意图。

其中，目标双向循环神经网络(BRNN，Bi-directional Recurrent NeuralNetworks，双向循环神经网络)模型指预先训练好的用于识别有效文本，获取目标意图的模型。注意力机制指根据数据重要性的不同对数据赋予不同的权重，重要性大的对应的权重大，重要性小的对应的权重小。如一句话为“今天天气很好”，其中，“今天”在这句话中不重要，其对应的权重小，“天气”和“很好”在这句话中都很重要，其各自对应的权重大且权重的大小相同。

具体地，在获取有效文本后，机器人对应的服务器采用分词工具对有效文本进行切分，去除停用词(分词、介词、代词等)，获取目标词。其中，目标词指有效文本去除停用词后剩余的词。获取目标词后，使用词向量转换工具将目标词转换为对应的目标词向量。最后，将目标词向量输入到采用注意力机制生成的目标双向循环神经网络模型中进行识别，获取目标意图。本实施例中的目标意图指目标双向循环神经网络模型根据对有效文本的识别，获取的该有效文本对应的意图的信息。使用目标双向循环神经网络模型获取目标意图，可以有效提高目标意图的准确率。

S50：根据目标意图选取目标话术，通过文字转语音技术将目标话术转换成目标语音，控制机器人播放目标语音。

具体地，为了更全面地满足客户需求，本实施例中的每一目标意图都设置了多个话术模板。在获取目标意图后，通过目标意图选取与目标意图对应的话术模板，然后从多个话术模板中随机选取一个作为目标话术。最后，通过TTS技术将目标话术转换成目标语音，并控制机器人播放该目标语音，以完成和坐席人员的对话。其中，TTS技术指将计算机自己产生或者外部输入的文字信息转变为汉语口语并输出的技术。目标语音指通过TTS技术将目标话术转化为用于机器人与坐席人员进行口语交流的语音。

步骤S10-步骤S50，通过获取机器人采集的原始语音，并对原始语音进行语音预处理，获取有效语音，方便后续步骤将有效语音转化为原始待识别文本，提高转化的准确率。采用语音转文字技术将有效语音转换为原始文本，并对原始文本进行文本预处理，获取有效文本，然后使用目标双向循环神经网络模型对有效文本进行识别，获取目标意图，提高识别目标意图的准确率。在获取目标意图后，根据目标意图选取目标话术，提高了坐席与机器人对话的灵活性。将目标话术通过文字转语音技术转换成目标语音，控制机器人播放目标语音，以完成机器和坐席人员之间的对话。

在一实施例中，由于原始语音是没有经过任何处理的语音，包括噪声段和静音段，其中，本实施例中的噪声段指说话人在说话时，由于门窗的开关、物体的碰撞发出声音形成的语音段。静音段指说话人由于呼吸、思考没有发音，使得原始语音中出现静默的语音段。噪声段和静音段会对后续步骤使用目标双向循环神经网络模型获取目标意图产生严重的影响，因此，在获取原始语音后，需要对原始语音进行处理，去除原始语音中的噪声段和静音段，为后续步骤提供有效且准确的数据来源。如图3所示，步骤S10中，对原始语音进行语音预处理，获取有效语音，具体包括如下步骤：

S11：对原始语音进行预加重、分帧和加窗处理，获取标准语音。

其中，标准语音指原始语音进行预加重、分帧和加窗处理后得到的语音。

具体地，获取标准语音的过程如下：(一)采用预加重处理的公式s'_n＝s_n-a*s_n-1对原始语音进行预加重处理，以消除说话人的声带和嘴唇对说话人语音的影响，提高说话人语音的高频分辨率。其中，s'_n为预加重处理后的n时刻的语音信号幅度，s_n为n时刻的语音信号幅度，s_n-1为n-1时刻的语音信号幅度，a为预加重系数。(二)对预加重处理后的原始语音进行分帧处理，在分帧时，每一帧语音的起始点和末尾点都会出现不连续的地方，分帧越多，与原始语音的误差也就越大。(三)为了保持每一帧语音的频率特性，还需要进行加窗处理，加窗处理的公式为和s″_n＝w_n*s′_n，其中，w_n为n时刻的汉明窗，N为汉明窗窗长，s'_n为n时刻时域上的信号幅度，s″_n为n时刻加窗后时域上的信号幅度。对原始语音进行预处理，获取标准语音，为后续对标准语音进行端点检测处理提供有效的数据来源。

S12：对标准语音进行端点检测处理，获取有效语音。

其中，端点检测处理是从一段语音中确定有效语音的起始点和结束点的一种处理手段。

具体地，一段标准语音中不可避免地会存在有静音段和噪声段对应的语音，因此，在获取原始语音并经过预处理后，机器人对应的服务器会对标准语音进行端点检测处理，去除掉静音段和噪声段对应的语音，保留声纹连续变化明显的语音，将该语音作为有效语音，减少后续将有效语音转化为原始文本时需要处理的数据量，另外，去除掉静音段和噪声段对应的语音，也可以提高原始文本的准确性。

步骤S11-步骤S12，对原始语音进行预加重、分帧和加窗处理后，对获取的标准语音进行端点检测处理，去除标准语音中的静音段和噪声段，保留仅包含声纹连续变化明显的语音即有效语音，减少后续将有效语音转化为原始文本时需要处理的数据量，提高原始文本的准确性。

在一实施例中，如图4所示，步骤S30，对原始文本进行文本预处理，获取有效文本，具体包括如下步骤：

S31：使用正则表达式对原始文本进行第一预处理，并将经过第一预处理后的原始文本按照预设长度切割成对应的切割文本。

其中，正则表达式又称规则表达式(Regular Expression，在代码中常简写为regex、regexp或RE)，本实施例中的正则表达式指对原始文本进行过滤操作的一种逻辑公式。该正则表达式具体用来对原始文本中数据和特殊符号进行过滤。预设长度指根据实际需要预先设置好的用于将原始文本切割成预设长度的值。

具体地，由于原始文本中的数据和符号对后续获取目标意图没有作用，还会增加目标双向循环神经网络模型的数据处理量，因此，在获取原始文本后，需要使用预先编写好的正则表达式对原始文本进行第一预处理，去除原始文本中的数据和特殊符号。在去除原始文本中的数据和特殊符号后，按照预设长度将经过第一预处理后的原始文本切割成预设长度，获取切割文本。其中，切割文本指按照预设长度对原始文本切割进行切割后形成的文本。

S32：采用分词工具对切割文本进行第二预处理，获取有效文本。

具体地，采用分词工具对切割文本进行切分，去除停用词(分词、介词、代词等)，获取基于剩余的词所形成的有效文本。本实施例中的分词工具包括但不限于结巴分词工具。停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，该通用词可以参考百度停用词表或者哈工大停用词词库由开发人员自行定义。

步骤S31-步骤S32，使用正则表达式对原始文本进行第一预处理，去除数据、特殊符号，然后按照预设长度对第一预处理后的原始文本进行切割，获取切割文本，最后采用分词工具对切割文本进行第二预处理，去除停用词，获取有效文本，为后续获取目标意图提供有效的数据来源。

在一实施例中，如图5所示，在步骤S10，获取原始语音之前，机器人智能应答方法还包括训练原始双向循环神经网络模型，获取可以识别目标意图的目标双向循环神经网络模型，具体包括如下步骤：

S01：获取训练语音，对训练语音进行语音预处理，获取预处理语音。

其中，训练语音指用于调整原始双向循环神经网络模型的权值和偏置的语音。具体地，机器人对应的服务器获取训练语音，并对获取的训练语音进行预处理，获取预处理语音，该预处理语音指训练语音经过预处理后得到的语音。本实施例中的预处理过程如步骤S11-步骤S12，为避免重复，不再赘述。

S02：采用语音转文字技术将预处理语音转换为预处理文本。

具体地，在获取预处理语音后，采用语音转文字技术将预处理语音转换为预处理文本。其中，预处理文本指预处理语音通过语音转文字技术转换成对应的文字形式的文本。本实施例中的语音转文字技术采用的是ASR技术。

S03：对预处理文本进行文本预处理，获取训练样本。

具体地，在获取预处理文本后，机器人对应的服务器需要对预处理文本进行文本预处理，去除数据和特殊符号，并按照预设长度对去除数据和特殊符号的预处理文本进行切割，最后去除停用词，获取训练样本。其中，训练样本指对预处理文本进行预处理，去除数据、特殊符号和停用词，满足预设长度的文本。该训练样本用于训练目标双向循环神经网络模型，以使后续根据目标双向循环神经网络模型获取目标意图。具体实现过程如步骤S31-步骤S32，为避免重复，不再赘述。

S04：将训练样本划分为训练集和测试集。

具体地，在获取训练样本后，将训练样本划分为训练集和测试集。一般地，训练集和测试集的比例为9:1。训练集指用于调整原始双向循环神经网络模型中的参数的文本。测试集是用于测试训练好的原始双向循环神经网络模型的识别准确率的文本。

S05：将训练集输入到原始双向循环神经网络模型中进行训练，获取有效双向循环神经网络模型。

其中，原始双向循环神经网络模型是由两个循环神经网络(Recurrent NeuralNetworks，RNN)组成的。为了便于描述，本实施例中将其中一个循环神经网络称之为向前循环神经网络(向前RNN)，另外一个循环神经网络称为向后循环神经网络(向后RNN)。原始双向循环神经网络模型(原始BRNN)中的向前RNN和向后RNN有各自对应的隐藏层，输入层和输出层共用一个。即原始BRNN是由一个输入层、两个隐藏层和一个输出层组成的神经网络模型。该原始BRNN包括各层(一个输入层、两个隐藏层和一个输出层)之间的神经元连接的参数(权值和偏置)，这些权值和偏置决定原始BRNN的性质及识别效果。

具体地，获取训练集，将训练集输入到原始双向循环神经网络模型中进行训练，调整原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。其中，有效双向循环神经网络模型指根据训练集获取的双向循环神经网络模型。

S06：将测试集输入到有效双向循环神经网络模型中进行测试，获取测试集对应的准确率，若准确率达到预设阈值，则将有效双向循环神经网络模型确定为目标双向循环神经网络模型。

具体地，在获取有效双向循环神经网络模型后，为了验证有效双向循环神经网络模型准确性，将测试集输入到有效双向循环神经网络模型中进行测试，获取测试集对应的准确率，若准确率达到预设阈值(如90％)，则将有效双向循环神经网络模型确定为目标双向循环神经网络模型。

步骤S01-步骤S06，通过对训练语音进行语音预处理，采用语音转文字技术将预处理语音转换为预处理文本，以使训练集仅包括可以用来进行模型训练的内容。对预处理文本进行文本预处理，获取训练样本，以提高原始双向循环神经网络模型的训练效率和训练的准确性。为了避免出现过拟合现象，还需使用测试集对训练好的有效双向循环神经网络模型中进行测试，以确定有效双向循环神经网络模型是否为符合要求的模型，若测试集对应的准确率达到预设阈值，则表示有效双向循环神经网络模型的识别准确性满足要求，可以确定为目标双向循环神经网络模型，用于获取目标意图。

在一实施例中，如图6所示，步骤S05，将训练集输入到原始双向循环神经网络模型中进行训练，获取有效双向循环神经网络模型，具体包括如下步骤：

S051：对原始双向循环神经网络模型中的权值和偏置进行初始化设置。

本实施例中，采用预设值对权值和偏置进行初始化设置，该预设值是开发人员根据经验预先设置好的值。采用预设值对原始双向循环神经网络模型的权值和偏置进行初始化设置，可以在后续根据训练集对原始双向循环神经网络模型训练时，缩短模型的训练时间，提高模型的识别准确率。若对原始双向循环神经网络模型的权值和偏置初始化设置不是很恰当，则会导致模型在初始阶段的调整能力很差，从而影响该原始双向循环神经网络模型后续对目标意图的识别准确率。

S052：将训练集转换成词向量，将词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出。

具体地，通过词向量转换工具将训练集中的词转换为词向量，可以理解地，待训练集中包括至少一个词向量。本实施例中的使用的词向量转换工具为word2vec(word tovector，单词转换向量)，其中，word2vec是一种将单词转换为向量的工具，该工具中可以将每一个词映射成对应的向量。

将待训练集转换成词向量后，首先，输入层分别将词向量输入到向前隐藏层和向后隐藏层中计算，获取向前隐藏层和向后隐藏层各自对应的输出。其中，向前隐藏层指向前循环神经网络的隐藏层；向后隐藏层指向后循环神经网络的隐藏层。

然后，使用向前隐藏层和向后隐藏层各自对应的注意力(attention)机制对向前隐藏层和向后隐藏层的输出进行注意力分配。

最后，对通过注意力机制处理后的两个输出进行融合处理，得到最终输入到原始双向循环神经网络模型的输出层的值，并通过输出层的计算，获取模型输出。模型输出是待训练集通过原始双向循环神经网络模型训练获取的输出。本实施例中的融合处理包括但不限于使用算数平均值法和加权平均值方法，为了便于描述，后续步骤使用算术平均值法对注意力机制处理后的两个输出进行融合处理。

S053：基于模型输出更新原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。

具体地，在获取模型输出后，基于模型输出构建损失函数，然后根据损失函数，采用反向传播算法调整原始双向循环神经网络模型的权值和偏置，获取有效双向循环神经网络模型。其中，反向传播(Back Propagation)算法是指按照时序状态的反向顺序调整隐藏层与原始双向循环神经网络模型的输出层之间的权值和偏置、以及输入层与隐藏层之间的权值和偏置的算法。

步骤S051-步骤S053，通过对对原始双向循环神经网络模型中的权值和偏置进行初始化设置，缩短模型的训练时间，提高模型的识别准确率。然后使用训练集对原始双向循环神经网络模型进行训练，调整原始双向循环神经网络模型中的权值和偏置，使得原始双向循环神经网络模型中的权值和偏置更加符合需要。

在一实施例中，原始双向循环神经网络包括向前循环神经网络和向后循环神经网络，如图7所示，步骤S052，将词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出，具体包括如下步骤：

S0521：将词向量输入到原始双向循环神经网络模型的输入层，将输入层处理后的词向量输入到向前循环神经网络的向前隐藏层，并使用注意力机制进行处理，获取向前输出。

具体地，词向量输入到原始双向循环神经网络模型的输入层，输入层将获取到的词向量输入到向前隐藏层中，在向前隐藏层中通过公式h_t1＝σ(Ux_t+Wh_t-1+b)计算向前隐藏层的输出。其中，σ表示向前循环神经网络隐藏层的激活函数，U表示输入层与向前隐藏层之间的权值，W表示向前循环神经网络各隐藏层之间的权值，b表示输入层与向前循隐藏层之间的偏置，x_t表示t时刻输入输入层的词向量，h_t1表示向前隐藏层中t时刻的词向量的输出,h_t-1表示向前隐藏层中t-1时刻的词向量的输出。

使用注意力机制对向前隐藏层的输出进行处理，获取向前输出。其中，向前输出指使用注意力机制对向前隐藏层的输出进行处理后得到的值。具体地，根据公式计算语义向量的重要值，其中，c_t1指注意力机制对向前隐藏层中t时刻的语义向量的注意力(即权重)，α_tj指第j个输入的词向量与t时刻对应的词向量的相关性，h_j指j个输入的词向量在通过向前隐藏层计算后得到的输出。进一步地，归一化过程为e_tj＝V^Γtanh(U·h_j+WS_t-1+b)其中，k指第K个输入词向量，V表示隐藏层和输出层之间的权重，V^Γ权重V的转置，S_t-1指t-1时刻输出层的输出。

S0522：将输入层处理后的词向量输入到向后循环神经网络的向后隐藏层，并使用注意力机制进行处理，获取向后输出。

具体地，词向量输入到输入层，输入层将获取到的词向量输入到向后隐藏层中，在向后隐藏层中通过公式h_t2＝σ(Ux_t+Wh_t-1+b)计算向后隐藏层的输出。其中，σ表示向后循隐藏层的激活函数，U表示输入层与向后隐藏层之间的权值，W表示向后循环神经网络各隐藏层之间的权值，b表示输入层与向后隐藏层之间的偏置，x_t表示输入层中t时刻输入的词向量，h_t2表示向后隐藏层中t时刻的词向量的输出,h_t-1表示向后隐藏层中t-1时刻的词向量的输出。

使用注意力机制对向后隐藏层的输出进行处理，获取向后输出。其中，向后输出指使用注意力机制对向后隐藏层的输出进行处理后得到的值。具体地，根据公式计算语义向量的重要值，其中，c_t2指注意力机制对向后循环神经网络的隐藏层中t时刻的语义向量的注意力(即权重)，α_tj指第j个输入的词向量与t时刻对应的词向量的相关性，h_j指j个输入的词向量在通过向后隐藏层计算后得到的输出。进一步地，归一化过程为e_tj＝V^Γtanh(U·h_j+WS_t-1+b)其中，k指第K个输入词向量，V表示隐藏层和输出层之间的权重，V^Γ权重V的转置，S_t-1指t-1时刻输出层的输出。

S0523：对向前输出和向后输出进行融合处理，获取模型输出。

具体地，获取向前输出和向后输出后，使用公式对向前输出和向后输出进行融合处理，获取目标输出。其中，目标输出指最终要输入到输出层的输出。获取目标输出后，将目标输出输入到输出层中，根据公式S_t＝f(S_t-1,y_t-1,c_t)进行计算，获取模型输出。其中，S_t表示t时刻输出层的输出，S_t-1表示t-1时刻输出层的输出，y_t-1指t-1时刻输入的词向量携带的文本标签，f一般选softmax函数。获取模型输出便于后续步骤构建损失函数，从而调整双向循环神经网络模型中向前循环神经网络和向后循环神经网络的权值和偏重。

步骤S0521-步骤S0523，通过获取向前输出和向后输出，以获取模型输出，方便后续步骤构建损失函数，从而调整双向循环神经网络模型中向前循环神经网络和向后循环神经网络的权值和偏重。

在一实施例中，训练集携带有文本标签，其中，文本标签指开发人员通过对训练样本的理解，进行标注的标签。如图8所示，步骤S053，基于模型输出更新原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型，具体包括如下步骤：

S0531：基于模型输出和文本标签构建损失函数。

具体地，获取模型输出后，基于模型输出S_t与文本标签y_t构建损失函数。本实施例中的损失函数为其中，T表示训练集中的词向量所携带的时序标签，t表示时序标签中的第t个时序，θ表示权值和偏置的集合(U、V、W、b、c)，y_t表示词向量对应的文本标签。

S0532：基于损失函数更新原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。

具体地，在获取损失函数然后，根据公式和反向传播算法分别对向前循环神经网络和向后循环神经网络对应的权值和偏置进行更新，调整向前循环神经网络和向后循环神经网络的权值和偏置，当模型输出通过损失函数计算得到的损失达到要求(如损失不超过10％)，则该权值和偏置对应的原始循环神经网络则可确定为有效双向循环神经网络。

步骤S0531-步骤S0532，通过构建损失函数更新原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。

本发明提供的机器人智能应答方法，通过获取机器人采集的原始语音，并对原始语音进行语音预处理，获取有效语音，方便后续步骤将有效语音转化为原始待识别文本，提高转化的准确率。采用语音转文字技术将有效语音转换为原始文本，并对原始文本进行文本预处理，获取有效文本。使用训练集和测试集对原始双向循环神经网络模型进行训练和测试，获取目标双向循环神经网络模型，并使用目标双向循环神经网络模型对有效文本进行识别，获取目标意图，提高识别目标意图的准确率。在获取目标意图后，根据目标意图选取目标话术，提高了坐席与机器人对话的灵活性。将目标话术通过文字转语音技术转换成目标语音，控制机器人播放目标语音，以完成机器和坐席人员之间的对话。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种机器人智能应答装置，该机器人智能应答装置与上述实施例中机器人智能应答方法一一对应。如图9所示，该机器人智能应答装置包括原始语音预处理模块10、有效语音转文本模块20、原始文本处理模块30、模型识别模块40和文字转语音模块50。各功能模块详细说明如下：

原始语音预处理模块10，用于获取机器人采集到的原始语音，对原始语音进行语音预处理，获取有效语音。

有效语音转文本模块20，用于采用语音转文字技术将有效语音转换为原始文本。

原始文本处理模块30，用于对原始文本进行文本预处理，获取有效文本。

模型识别模块40，用于使用采用注意力机制生成的目标双向循环神经网络模型对有效文本进行识别，获取目标意图。

文字转语音模块50，用于根据目标意图选取目标话术，通过文字转语音技术将目标话术转换成目标语音，控制机器人播放目标语音。

进一步地，原始语音预处理模块10包括语音第一预处理单元和语音第二预处理单元。

语音第一预处理单元，用于对原始语音进行预加重、分帧和加窗处理，获取标准语音。

语音第二预处理单元，用于对标准语音进行端点检测处理，获取有效语音。

进一步地，文本处理模块30包括文本第一预处理单元和文本第二预处理单元。

文本第一预处理单元，用于使用正则表达式对原始文本进行第一预处理，并将经过第一预处理后的原始文本按照预设长度切割成对应的切割文本。

文本第二预处理单元，用于采用分词工具对切割文本进行第二预处理，获取有效文本。

进一步地，机器人智能应答装置还包括训练语音预处理模块01、训练语音转文本模块02、训练样本获取模块03、训练样本处理模块04、模型训练模块05和模型测试模块06。

训练语音预处理模块01，用于获取训练语音，对训练语音进行语音预处理，获取预处理语音。

训练语音转文本模块02，用于采用语音转文字技术将预处理语音转换为预处理文本。

训练样本获取模块03，用于对预处理文本进行文本预处理，获取训练样本。

训练样本处理模块04，用于将训练样本划分为训练集和测试集。

模型训练模块05，用于将训练集输入到原始双向循环神经网络模型中进行训练，获取有效双向循环神经网络模型。

模型测试模块06，用于将测试集输入到有效双向循环神经网络模型中进行测试，获取测试集对应的准确率，若准确率达到预设阈值，则将有效双向循环神经网络模型确定为目标双向循环神经网络模型。

进一步地，模型训练模块包括参数初始化设置单元、模型输出获取单元和模型参数更新单元。

参数初始化设置单元，用于对原始双向循环神经网络模型中的权值和偏置进行初始化设置。

模型输出获取单元，用于将训练集转换成词向量，将词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出。

模型参数更新单元，用于基于模型输出更新原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。

进一步地，原始双向循环神经网络包括向前循环神经网络和向后循环神经网络。

进一步地，模型输出获取单元包括向前输出获取单元、向后输出获取单元和融合处理计算单元。

向前输出获取单元，用于将词向量输入到原始双向循环神经网络模型的输入层，将输入层处理后的词向量输入到向前循环神经网络的向前隐藏层，并使用注意力机制进行处理，获取向前输出。

向后输出获取单元，用于将输入层处理后的词向量输入到向后循环神经网络的向后隐藏层，并使用注意力机制进行处理，获取向后输出。

融合处理计算单元，用于对向前输出和向后输出进行融合处理，获取模型输出。

进一步地，训练集携带有文本标签。

进一步地，模型参数更新单元包括损失函数构建单元和权值和偏置更新单元。

损失函数构建单元，用于基于模型输出和文本标签构建损失函数。

权值和偏置更新单元，用于基于损失函数更新原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。

关于机器人智能应答装置的具体限定可以参见上文中对于机器人智能应答方法的限定，在此不再赘述。上述机器人智能应答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储机器人智能应答方法涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种机器人智能应答方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例的机器人智能应答方法，例如图2所示步骤S10-步骤S50，或者图3至图8中所示的步骤，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现机器人智能应答装置这一实施例中的各模块/单元的功能，例如图9所示的模块10至模块50的功能，或者，模块01至模块06的功能，为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的机器人智能应答方法，例如图2所示步骤S10-步骤S50，或者图3至图8中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述机器人智能应答装置这一实施例中的各模块/单元的功能，例如图9所示的模块10至模块50的功能，或者，模块01至模块06的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种机器人智能应答方法，其特征在于，包括：

采用语音转文字技术将所述有效语音转换为原始文本；

对所述原始文本进行文本预处理，获取有效文本；

2.如权利要求1所述的机器人智能应答方法，其特征在于，所述对所述原始语音进行语音预处理，获取有效语音，包括：

对所述原始语音进行预加重、分帧和加窗处理，获取标准语音；

对所述标准语音进行端点检测处理，获取有效语音。

3.如权利要求1所述的机器人智能应答方法，其特征在于，所述对所述原始文本进行文本预处理，获取有效文本，包括：

使用正则表达式对所述原始文本进行第一预处理，并将经过第一预处理后的原始文本按照预设长度切割成对应的切割文本；

采用分词工具对所述切割文本进行第二预处理，获取有效文本。

4.如权利要求1所述的机器人智能应答方法，其特征在于，在所述获取原始语音之前，所述机器人智能应答方法还包括：

获取训练语音，对所述训练语音进行语音预处理，获取预处理语音；

采用语音转文字技术将所述预处理语音转换为预处理文本；

对所述预处理文本进行文本预处理，获取训练样本；

将所述训练样本划分为训练集和测试集；

将所述训练集输入到原始双向循环神经网络模型中进行训练，获取有效双向循环神经网络模型；

将所述测试集输入到有效双向循环神经网络模型中进行测试，获取测试集对应的准确率，若准确率达到预设阈值，则将所述有效双向循环神经网络模型确定为目标双向循环神经网络模型。

5.如权利要求4所述的机器人智能应答方法，其特征在于，所述将所述训练集输入到原始双向循环神经网络模型中进行训练，获取有效双向循环神经网络模型，包括：

对所述原始双向循环神经网络模型中的权值和偏置进行初始化设置；

将所述训练集转换成词向量，将所述词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出；

基于所述模型输出更新所述原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。

6.如权利要求5所述的机器人智能应答方法，其特征在于，所述原始双向循环神经网络包括向前循环神经网络和向后循环神经网络；

所述将所述词向量输入到原始双向循环神经网络模型中进行训练，获取模型输出，包括：

将所述词向量输入到所述原始双向循环神经网络模型的输入层，将输入层处理后的词向量输入到所述向前循环神经网络的向前隐藏层，并使用注意力机制进行处理，获取向前输出；

将所述输入层处理后的词向量输入到所述向后循环神经网络的向后隐藏层，并使用注意力机制进行处理，获取向后输出；

对所述向前输出和所述向后输出进行融合处理，获取模型输出。

7.如权利要求5所述的机器人智能应答方法，其特征在于，所述训练集携带有文本标签；

所述基于所述模型输出更新所述原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型，包括：

基于所述模型输出和所述文本标签构建损失函数；

基于所述损失函数更新所述原始双向循环神经网络模型中的权值和偏置，获取有效双向循环神经网络模型。

8.一种机器人智能应答装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述机器人智能应答方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述机器人智能应答方法。