CN114077840A

CN114077840A - 语音对话***的优化方法、装置、设备及存储介质

Info

Publication number: CN114077840A
Application number: CN202010825282.4A
Authority: CN
Inventors: 刘波
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2022-02-22

Abstract

本发明实施例公开了一种语音对话***的优化方法、装置、设备及存储介质。其中，语音对话***的优化方法包括：控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据；在各触发音频数据中，识别误触发音频数据；采用各误触发音频数据，对语音对话***中的语音对话模型进行优化。本发明实施例的方案，提高了语音对话***在长监听工作模式下的可用性，减少误识别的情况。

Description

语音对话***的优化方法、装置、设备及存储介质

技术领域

本发明实施例涉及语音数据处理技术，尤其涉及一种语音对话***的优化方法、装置、设备及存储介质。

背景技术

随着计算机技术的不断发展，语音对话***得到了广泛地应用。例如，智能音箱、智能管家、智能手机以及车载终端中都应用到了语音对话***。

现阶段，为了减少语音对话***出现误识别(例如，将两个人之间的对话识别为用户输入至语音对话***的指令)的情况，通常将语音对话***的监听时长设置的较小(例如，1秒)；这就导致常常需要用户多次唤醒语音对话***；例如，当对话还未结束时，语音对话***已进入了休眠模式，若要继续后续对话，需要用户再次唤醒语音会话***。

因此，如何提高语音对话***在长监听工作模式下的可用性，减少误识别的情况，是亟需解决的。

发明内容

本发明实施例提供一种语音对话***的优化方法、装置、设备及存储介质，以提高语音对话***在长监听工作模式下的可用性，减少误识别的情况。

第一方面，本发明实施例提供了一种语音对话***的优化方法，包括：

控制语音对话***的工作模式处于长监听模式，并收集触发所述语音对话模型开始工作的触发音频数据；

在各所述触发音频数据中，识别误触发音频数据；

采用各所述误触发音频数据，对所述语音对话***中的语音对话模型进行优化。

第二方面，本发明实施例还提供了一种语音对话***的优化装置，包括：

触发音频数据模块，用于控制语音对话***的工作模式处于长监听模式，并收集触发所述语音对话模型开始工作的触发音频数据；

误触发音频数据识别模块，用于在各所述触发音频数据中，识别误触发音频数据；

模型优化模块，用于采用各所述误触发音频数据，对所述语音对话***中的语音对话模型进行优化。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一实施例所述的语音对话***的优化方法。

本发明实施例通过控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据；在各触发音频数据中，识别误触发音频数据；采用各误触发音频数据，对语音对话***中的语音对话模型进行优化，提高了语音对话***在长监听工作模式下的可用性，减少误识别的情况。

附图说明

图1是本发明实施例一中的一种语音对话***的优化方法的流程图；

图2是本发明实施例二中的一种语音对话***的优化方法的流程图；

图3是本发明实施例三中的一种语音对话***的优化方法的流程图；

图4是本发明实施例三中的一种语音对话***的优化方法的流程图；

图5是本发明实施例四中的一种语音对话***的优化装置的结构示意图；

图6是本发明实施例五中的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的一种语音对话***的优化方法的流程图，本实施例可适用于对语音对话***进行优化的情况，该方法可以由语音对话***的优化装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成在电子设备中，该电子设备可以为车载终端、计算机或者智能手机等，具体的，参考图1，该方法具体包括如下步骤：

步骤110、控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据。

其中，语音对话模型可以配置在本发明实施例中涉及到的语音对话***中，当语音对话***接收到用户发出的音频数据时，可以通过语音对话模型对接收到的音频数据进行识别，从而确定用户的问题，并解决用户的问题。需要说明的是，本发明实施例中涉及到的触发语音对话模型开始工作的触发音频数据，可以为任一音频数据；例如，“您好”、“请打开”或者“播放音乐”等等，本发明实施例中对其不加以限定。

在本发明实施例的一个可选实现方式中，控制语音对话***的工作模式处于长监听模式，可以包括：唤醒语音对话***，并设置语音对话***的唤醒时长为预设的长监督时长。示例性的，可以通过设定唤醒词、设定唤醒动作或者语音对话***中设置的按钮唤醒语音对话***。

在本发明实施例的一个可选实现方式中，在唤醒语音对话***之后，可以通过控制语音对话***的工作时长，以使语音对话***的工作模式处于长监听模式；例如，可以设置语音对话***的工作时长为10分钟、1小时或者2小时等，本发明实施例中对其不加以限定。

步骤120、在各触发音频数据中，识别误触发音频数据。

其中，误触发音频数据可以为外部聊天音频数据或者环境噪声等，无需语音对话***响应的音频数据。

在本发明实施例的一个可选实现方式中，在收集到触发语音对话模型开始工作的触发音频数据之后，可以在各个触发音频数据中，识别出误触发音频数据。

示例性的，可以分别对收集到的各触发音频数据进行识别，并分析各识别结果；根据各识别结果确定各触发音频数据是否为误触发音频数据。例如，任一触发音频数据的识别结果为“狗吠声”，则可以将该触发音频数据确定为误触发音频数据。

步骤130、采用各误触发音频数据，对语音对话***中的语音对话模型进行优化。

在本发明实施例的一个可选实现方式中，在识别到误触发音频数据之后，可以进一步的采用收集到的各误触发音频数据对语音对话***中的语音对话模型进行优化。示例性的，若收集到了大量的(例如，200条)误触发音频数据，则可以确定语音对话***需要被优化，具体的，可以采用收集到的200条误触发音频数据对该语音对话***中的语音对话模型进行优化。

本实施例的方案，通过控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据；在各触发音频数据中，识别误触发音频数据；采用各误触发音频数据，对语音对话***中的语音对话模型进行优化，提高了语音对话***在长监听工作模式下的可用性，减少误识别的情况。

实施例二

图2是本发明实施例二中的一种语音对话***的优化方法的流程图，本实施例是对上述各技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图2所示，语音对话***的优化方法可以包括如下步骤：

步骤210、控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据。

步骤220、获取与各触发音频数据分别对应的文本信息；计算各文本信息的语义完整程度；当目标文本信息的语义完整程度小于第一设定阈值时，确定与目标文本信息对应的触发音频数据为误触发音频数据。

在本发明实施例的一个可选实现方式中，在收集到触发语音对话模型开始工作的触发音频数据之后，可以进一步的获取与各触发音频数据分别对应的文本信息；示例性的，收集到三条触发语音对话模型开始工作的触发音频数据，则可以分别识别这三条触发音频数据的文本信息；例如，识别到的文本信息可以分别为“天气”、“今天天气怎么样？”或者“小红”等等，本发明实施例中对其不加以限定。

进一步的，可以分别计算各文本信息的语义完整程度；例如，在上述例子中，可以分别计算“天气”、“今天天气怎么样？”以及“小红”这三个文本信息的语义完整程度；示例性的，这三个文本信息的语义完整程度可以分别为0.2、0.9以及0.15，本发明实施例中对其不加以限定。

进一步的，可以进一步的确定各文本信息的语义完整程度是否小于第一设定阈值；其中，第一设定阈值可以为0.4、0.5或者0.6等数值，本实施例中对其不加以限定。

在本实施例的一个可选实现方式中，当目标文本信息的语义完整程度小于第一设定阈值时，可以确定与目标文本信息对应的触发音频数据为误触发音频数据。其中，目标文本信息可以为与目标触发音频数据对应的文本信息；目标音频数据可以为获取到的各触发音频数据中的一个音频数据，或者多个音频数据，本发明实施例中对其不加以限定。

示例性的，若目标文本信息的语义完整程度为0.2，第一设定阈值为0.4，则此时可以确定与目标文本信息对应的触发音频数据为误触发音频数据。

在上述例子中，当第一设定阈值为0.4时，可以确定与文本信息“天气”以及“小红”对应的触发音频数据为误触发音频数据。

步骤230、将各误触发音频数据作为负样本，输入至语音对话***中的语音对话模型进行训练，得到优化后的语音对话模型。

在本实施例的一个可选实现方式中，在确定与目标文本信息对应的触发音频数据为误触发音频数据之后，可以进一步将各误触发音频数据作为负样本，输入至语音对话***中的语音对话模型中进行训练，从而得到优化后的语音对话模型。

示例性的，在上述例子中，若确定与文本信息“天气”以及“小红”对应的触发音频数据为误触发音频数据，则可以将“天气”以及“小红”对应的触发音频数据作为负样本输入至语音对话模型中，对语音对话模型进行再次训练，从而得到优化后的语音对话模型。

本实施例的方案，通过获取与各触发音频数据分别对应的文本信息；计算各文本信息的语义完整程度；当目标文本信息的语义完整程度小于第一设定阈值时，确定与目标文本信息对应的触发音频数据为误触发音频数据；将各误触发音频数据作为负样本，输入至语音对话***中的语音对话模型进行训练，得到优化后的语音对话模型，实现了对语音对话***中的语音对话模型进行训练，为提高语音对话***在长监听工作模式下的可用性提供依据。

实施例三

图3是本发明实施例三中的一种语音对话***的优化方法的流程图，本实施例是对上述各技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图3所示，语音对话***的优化方法可以包括如下步骤：

步骤310、控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据。

步骤320、在语音对话***所在环境中，持续播放噪声音频数据。

其中，噪声音频数据中不包括能够触发语音对话***的音频数据。示例性的，噪声音频数据可以为预先录制好的、各个场景下并且可以重复播放的音频数据；例如：用户对话过程中产生的音频数据、马路上汽车鸣笛声音或者各种动物的叫声等等，本发明实施例中对其不加以限定。

在本发明实施例的一个可选实现方式中，在控制语音对话息肉的工作模式处于长监听模式时，可以在语音对话***所在环境中，持续播放预先录制的噪声音频数据；这样设置的好处在于，可以使语音对话模型更多地确定误触发音频数据，为优化语音对话模型提供依据。

步骤330、在各触发音频数据中，识别误触发音频数据。

步骤340、采用各误触发音频数据，对语音对话***中的语音对话模型进行优化。

步骤350、在语音对话***所在环境中，持续播放噪声音频数据。

在本发明实施例的一个可选实现方式中，在对待优化的语音对话模型进行优化之后，可以继续在语音对话***所在环境中，持续播放预先录制的各噪声音频数据；这样设置的好处在于，可以实现对优化后的语音对话模型的性能进行测试，从而确定是否还需要对语音对话模型进行优化。

步骤360、根据语音对话***被播放噪声音频数据的触发情况，计算与语音对话***对应的误触发频率。

进一步的，可以根据语音对话***被所播放的噪声音频数据的触发情况，并计算语音对话***被误触发的频率。需要说明的是，由于噪声音频数据中不包括能够触发语音对话***的音频数据，因此，在此过程中(在语音对话***的所处环境中，持续播放噪声音频数据的过程中)，语音对话***被触发的频率，即为语音对话***被误触发的频率。

步骤370、当语音对话***的误触发频率大于或者等于第二设定阈值时，返回执行控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据的操作，直至语音对话***的误触发频率小于第二设定阈值。

其中，第二设定阈值可以为20、50或者100等数值，本发明实施例中对其不加以限定。

在本实施例的一个可选实现方式中，在计算的得到与音乐对话***对应的误触发频率之后，可以进一步的将误触发频率域第二设定阈值进行比较，当语音对话***的误触发频率大于或者等于第二设定阈值(例如，100)时，可以返回执行控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据的操作，直至语音对话***的误触发频率小于第二设定阈值。

需要说明的是，当语音对话***的误触发频率大于或者等于第二设定阈值时，可以认为语音对话***中的语音对话的模型的触发准确率，未达到设定标准，还需要对其进行继续优化。

这样设置的好处在于，可以进一步的提高语音对话***在长监听工作模式下的可用性，减少误识别的情况。

在本发明实施例的一个可选实现方式中，在计算与目标语音对话***对应的误触发频率之后，还可以包括：当语音对话***的误触发频率小于第二设定阈值时，将工作于长监听模式的语音对话***进行上线处理。

示例性的，若语音对话***的误触发频率为1次，小于第二设定阈值100次，则此时可以确定语音对话***中的语音对话模型已满足设定要求，此时可以对语音对话***进行上线处理，可以确保语音对话***在长监听工作模式下，不会被误触发。

本实施例的方案，通过在所述语音对话***所在环境中，持续播放噪声音频数据；根据所述语音对话***被所述播放噪声音频数据的触发情况，计算与所述语音对话***对应的误触发频率；当所述语音对话***的误触发频率大于或者等于第二设定阈值时，返回执行控制语音对话***的工作模式处于长监听模式，并收集触发所述语音对话模型开始工作的触发音频数据的操作，直至所述语音对话***的误触发频率小于所述第二设定阈值，可以进一步的提高语音对话***在长监听工作模式下的可用性，减少误识别的情况。

为了使本领域技术人员更好地理解本实施例语音对话***的优化方法，下面采用一个具体示例进行说明，具体过程包括有：

步骤1、选择背景噪声，可以直接使用噪声现场(包含办公室小声说话，汽车行驶车内噪声，鸟语蝉鸣水流等场景)直接进行误触发音频的收集工作，也可以是使用高保真音响，播放之前录制好的各场景的现场高保真音频，模拟各个场景的噪声情况，使用录音方便验证回归测试语音算法的优化效果。

步骤2、唤醒语音对话***，使其进入一段时间内长监听状态，长监听时长可以设置，可使用唤醒词等方式使语音对话***进入长监听状态，这个时间在语音算法优化初期可以短一些，随着误触发能力提升，增加这个长监听时间的长度(例如，10秒、30分钟或者90分钟等)，本实施例中对其不加以限定。

步骤3、在长监听的这段时间内，记录语音对话***对周围噪声的响应情况，包含语音对话***对噪声的语音识别以及做出的一些响应的其他反馈，记录包含存储语音对话***有反馈的噪声片段，包含语音对话***对该噪声片段的语音识别结果以及语音对话***的反应状况等信息，整理成表格或其他记录形式，如果在该长监听时长内语音对话***无其他反应，则重新开始步骤1。

步骤4、整理语音对话***在长监听状态下对噪声的误触发的结果，包含音频，识别结果，响应反馈等信息，给到语音算法团队进行语音对话***模型的训练。

步骤5、在语音算法团队优化语音对话模型算法后生成新的语音对话***，重新进行新一轮语音对话***误触发音频的收集，最好使用之前测试结果的录音或者相似的场景噪声，重新进行误触发音频的获取，优化整理长监听状况下的误触发结果，与之前结果进行比对后，与语音算法确认优化效果，并确认是否提交新的误触发结果给算法组优化模型进行优化。

从上述例子中可以看出，本实施例的方案，可以快速有针对性性的提供大量的误触发音频给语音算法团队，进行语音对话***进行优化，可迅速实现自动化，整个过程无需专人参与，节约人力成本。

为了更好地理解本发明实施例，本发明实施例的一个具体应用场景可以为：

正常唤醒语音对话***后，噪声被识别为人声，造成语音对话***的误识别的情况，语音算法的优化需要大量的误触发音频来优训练模型，本发明实施例也可进行常规语音流程误识别、误触发音频的收集，一共分为以下几步：

1、自动化播放噪声。

2、自动化语音唤醒车机。

3、误触发音频的收集。

4、整理误触发音频。

5、提交研发算法优化。

6、算法优化后，回归验证。

图4是本发明实施例三中的一种语音对话***的优化方法的流程图，参考图4，该方法具体包括如下步骤：

步骤410、通过唤醒词语或者其他方式，唤醒语音对话***。

步骤420、设置语音对话***进入长监听模式。

步骤430、判断是否有误触发情况。

若是，则执行步骤440；

若否，则返回执行步骤410。

步骤440、记录误触发结果保存误触发音频数据。

步骤450、通过误触发音频数据对语音对话***中的语音对话模型进行优化。

步骤460、验证优化后的语音对话***是否可用。

若是，则执行步骤470；

若否，则返回执行步骤410。

步骤470、上线语音对话***，并设置语音对话***的工作模式为长监听工作模式。

现有的语音对话***，如果放开语音识别时间，无需唤醒，随时进行对话，在这种语音***长监听工作模式下，外部噪声和外部聊天的内容，就会引起语音对话***的误识别，做出一些不需要的错误反馈，这样语音对话***会显得异常凌乱，处于一种几乎不可正常使用的状态。本发明实施例可以协助弥补这个缺憾，减少长监听下的误识别，误触发的情况。通过对语音对话***长监听状态下的误触发音频进行的收集，协助语音算法对误触发的音频进行语音对话模型训练后，减少使用过程中的误触发的概率，大大提高语音对话***在长监听状态下的可用性。

实施例四

图5是本发明实施例四中的一种语音对话***的优化装置的结构示意图，该装置可以执行上述各实施例中涉及到的语音对话***的优化方法。参照图5，该装置包括：触发音频数据模块510、误触发音频数据识别模块520和模型优化模块530。

触发音频数据模块510，用于控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据；

误触发音频数据识别模块520，用于在各触发音频数据中，识别误触发音频数据；

模型优化模块530，用于采用各误触发音频数据，对语音对话***中的语音对话模型进行优化。

本实施例的方案，通过触发音频数据模块控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据；通过误触发音频数据识别模块在各触发音频数据中，识别误触发音频数据；通过模型优化模块采用各误触发音频数据，对语音对话***中的语音对话模型进行优化，提高了语音对话***在长监听工作模式下的可用性，减少误识别的情况。

可选的，误触发音频数据识别模块520，具体用于获取与各触发音频数据分别对应的文本信息；计算各文本信息的语义完整程度；当目标文本信息的语义完整程度小于第一设定阈值时，确定与目标文本信息对应的触发音频数据为误触发音频数据。

可选的，模型优化模块530，具体用于将各误触发音频数据作为负样本，输入至语音对话***中的语音对话模型进行训练，得到优化后的语音对话模型。

可选的，语音对话***的优化装置还包括：噪声音频数据播放模块，用于在语音对话***所在环境中，持续播放噪声音频数据；其中，噪声音频数据中不包括能够触发语音对话***的音频数据。

可选的，语音对话***的优化装置还包括：误触发频率计算模块，用于在语音对话***所在环境中，持续播放噪声音频数据；根据语音对话***被播放噪声音频数据的触发情况，计算与语音对话***对应的误触发频率；当语音对话***的误触发频率大于或者等于第二设定阈值时，返回执行控制语音对话***的工作模式处于长监听模式，并收集触发语音对话模型开始工作的触发音频数据的操作，直至语音对话***的误触发频率小于第二设定阈值。

可选的，语音对话***的优化装置还包括：上线处理模块，用于当语音对话***的误触发频率小于第二设定阈值时，将工作于长监听模式的语音对话***进行上线处理。

可选的，触发音频数据模块510，具体用于唤醒语音对话***，并设置语音对话***的唤醒时长为预设的长监督时长。

本发明实施例所提供的语音对话***的优化装置可执行本发明任意实施例所提供的语音对话***的优化方法，具备执行方法相应的功能模块和有益效果。

实施例五

图6为本发明实施例五提供的一种电子设备的结构示意图，如图6所示，该电子设备包括处理器60、存储器61、输入装置62和输出装置63；电子设备中处理器60的数量可以是一个或多个，图6中以一个处理器60为例；电子设备中的处理器60、存储器61、输入装置62和输出装置63可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器61作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语音对话***的优化方法对应的程序指令/模块(例如，语音对话***的优化装置中的触发音频数据模块510、误触发音频数据识别模块520和模型优化模块530)。处理器60通过运行存储在存储器61中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的语音对话***的优化方法。

存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器61可进一步包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置62可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置63可包括显示屏等显示设备。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音对话***的优化方法，该方法包括：

在各所述触发音频数据中，识别误触发音频数据；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的语音对话***的优化方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音对话***的优化装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音对话***的优化方法，其特征在于，包括：

在各所述触发音频数据中，识别误触发音频数据；

2.根据权利要求1所述的方法，其特征在于，所述在各所述触发音频数据中，识别误触发音频数据，包括：

获取与各所述触发音频数据分别对应的文本信息；

计算各所述文本信息的语义完整程度；

当目标文本信息的语义完整程度小于第一设定阈值时，确定与所述目标文本信息对应的触发音频数据为误触发音频数据。

3.根据权利要求1所述的方法，其特征在于，所述采用各所述误触发音频数据，对所述语音对话模型中的语音对话模型进行优化，包括：

将各所述误触发音频数据作为负样本，输入至语音对话***中的语音对话模型进行训练，得到优化后的语音对话模型。

4.根据权利要求1所述的方法，其特征在于，在控制语音对话***的工作模式处于长监听模式之后，还包括：

在所述语音对话***所在环境中，持续播放噪声音频数据；

其中，所述噪声音频数据中不包括能够触发所述语音对话***的音频数据。

5.根据权利要求4所述的方法，其特征在于，在对所述语音对话***中的语音对话模型进行优化之后，所述方法还包括：

在所述语音对话***所在环境中，持续播放噪声音频数据；

根据所述语音对话***被所述播放噪声音频数据的触发情况，计算与所述语音对话***对应的误触发频率；

当所述语音对话***的误触发频率大于或者等于第二设定阈值时，返回执行控制语音对话***的工作模式处于长监听模式，并收集触发所述语音对话模型开始工作的触发音频数据的操作，直至所述语音对话***的误触发频率小于所述第二设定阈值。

6.根据权利要求5所述的方法，其特征在于，在所述计算与所述语音对话***对应的误触发频率之后，还包括：

当所述语音对话***的误触发频率小于所述第二设定阈值时，将工作于所述长监听模式的所述语音对话***进行上线处理。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述控制语音对话***的工作模式处于长监听模式，包括：

唤醒所述语音对话***，并设置所述语音对话***的唤醒时长为预设的长监督时长。

8.一种语音对话***的优化装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述误触发音频数据识别模块，具体用于

获取与各所述触发音频数据分别对应的文本信息；

计算各所述文本信息的语义完整程度；

10.根据权利要求8所述的装置，其特征在于，所述模型优化模块，具体用于

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

噪声音频数据播放模块，用于在所述语音对话***所在环境中，持续播放噪声音频数据；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

误触发频率计算模块，用于在所述语音对话***所在环境中，持续播放噪声音频数据；

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的语音对话***的优化方法。