CN112242135A

CN112242135A - 一种语音数据的处理方法及智能客服装置

Info

Publication number: CN112242135A
Application number: CN201910650265.9A
Authority: CN
Inventors: 陈孝良; 祖拓; 王江; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-01-19

Abstract

本发明提供一种语音数据的处理方法及智能客服装置，该方法为：智能客服装置在向用户设备播放预设语音内容的过程中，实时收集用户设备发送的音频信号；检测音频信号中用于指示用户行为类型的音频信息；若确定音频信息用于指示用户存在疑问，中断播放预设语音内容；若确定音频信息用于指示用户正在说话在预设时间内降低播放预设语音内容的音量。本方案中，智能客服装置在播放语音内容的过程中，当检测到用户说话时，根据用户的行为类型降低语音播放音量或中断语音播放。收集并识别用户的发言内容，为用户提供后续服务，提高用户的使用体验。

Description

一种语音数据的处理方法及智能客服装置

技术领域

本发明涉及语音数据处理技术领域，具体涉及一种语音数据的处理方法及智能客服装置。

背景技术

随着科学技术的不断发展，人工智能技术也逐渐被广泛应用。其中智能客服装置是较为常见的用于服务用户的人工智能技术。

智能客服装置通常以播放语音的形式为用户提供服务，目前的智能客服装置向用户提供服务的方式为：先向用户介绍业务和活动等内容，再根据用户设备发送的音频信号识别用户的问题，最后回答用户的问题。但是，目前的智能客服装置在向用户介绍业务和活动的过程中，或者，在回答用户问题的过程中，是无法打断智能客服装置的语音播放的。换而言之，在智能客服装置播放语音的过程中，即使用户有新的问题或者不想听到当前播放的内容，智能客服装置依然会完整播放当前的语音播放内容，之后再重新识别用户的音频信号，极大降低了用户的使用体验。

发明内容

有鉴于此，本发明实施例提供一种语音数据的处理方法及智能客服装置，以解决现有智能客服装置存在的用户使用体验低等问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开了一种语音数据的处理方法，适用于智能客服装置，所述方法包括：

智能客服装置在向用户设备播放预设语音内容的过程中，所述智能客服装置实时收集所述用户设备发送的音频信号；

检测所述音频信号中用于指示用户行为类型的音频信息，所述用户行为类型为用户存在疑问或所述用户正在说话；

若确定所述音频信息用于指示所述用户存在疑问，中断播放所述预设语音内容；

若确定所述音频信息用于指示所述用户正在说话，在预设时间内降低播放所述预设语音内容的音量。

优选的，若所述音频信息用于指示所述用户存在疑问，中断播放所述预设语音内容之后，还包括：

向所述用户询问所述用户的问题，并收集所述用户设备发送的音频信号；

利用所述音频信号进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签；

根据所述发言内容和情绪标签，回答所述用户的问题、转接人工客服或结束通话。

优选的，所述若确定所述音频信息用于指示所述用户正在说话之后，还包括：

在所述预设时间之后，若检测到所述音频信号中存在用于指示用户正在说话的音频信息，中断播放所述预设语音内容；

优选的，所述根据所述发言内容和情绪标签，回答所述用户的问题、转接人工客服或结束通话，包括：

若所述发言内容和/或情绪标签符合预设的回复规则，向所述用户询问所述用户的问题，并回复所述用户的问题；

若所述发言内容和/或情绪标签符合预设的转接规则，为所述用户转接至人工客服；

若所述发言内容和/或情绪标签符合预设的挂断规则，结束与所述用户设备的通话；

其中，根据所述发言内容执行回复规则、转接规则或挂断规则的优先级高于所述情绪标签。

优选的，所述利用所述音频信号进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签，包括：

将所述音频信号同时输入预设的语音识别模型和情绪识别模型进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签，其中，所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。

优选的，所述利用所述音频信号进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签之前，还包括：

基于所述用户的用户信息确定所述用户的年龄，并选择与所述年龄对应的情绪识别模型，其中，预先设置不同年龄段对应的情绪识别模型。

本发明实施例第二方面公开一种智能客服装置，所述智能客服装置包括：

采集单元，用于智能客服装置在向用户设备播放预设语音内容的过程中，实时收集所述用户设备发送的音频信号；

确定单元，用于检测所述音频信号中用于指示用户行为类型的音频信息，所述用户行为类型为用户存在疑问或所述用户正在说话；

第一中断单元，用于若确定所述音频信息用于指示所述用户存在疑问，中断播放所述预设语音内容；

调整单元，用于若确定所述音频信息用于指示所述用户正在说话，在预设时间内降低播放所述预设语音内容的音量。

优选的，所述智能客服装置还包括：

第二中断单元，用于在所述预设时间之后，若检测到所述音频信号中存在用于指示用户正在说话的音频信息，中断播放所述预设语音内容；

识别单元，用于利用所述音频信号进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签；

处理单元，用于根据所述发言内容和情绪标签，回答所述用户的问题、转接人工客服或结束通话。

优选的，所述确定单元具体用于：将所述音频信号同时输入预设的语音识别模型和情绪识别模型进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签，其中，所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。

优选的，所述处理单元包括：

回复模块，用于若所述发言内容和/或情绪标签符合预设的回复规则，向所述用户询问所述用户的问题，并回复所述用户的问题；

转接模块，用于若所述发言内容和/或情绪标签符合预设的转接规则，为所述用户转接至人工客服；

挂断模块，用于若所述发言内容和/或情绪标签符合预设的挂断规则，结束与所述用户的通话。

基于上述本发明实施例提供的一种语音数据的处理方法及智能客服装置，该方法为：智能客服装置在向用户设备播放预设语音内容的过程中，实时收集用户设备发送的音频信号；检测音频信号中用于指示用户行为类型的音频信息；若确定音频信息用于指示用户存在疑问，中断播放预设语音内容；若确定音频信息用于指示用户正在说话在预设时间内降低播放预设语音内容的音量。本方案中，智能客服装置在播放语音内容的过程中，当检测到用户说话时，根据用户的行为类型降低语音播放音量或中断语音播放。收集并识别用户的发言内容，为用户提供回复问题、转接人工客服或结束通话等后续服务，提高用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种语音数据的处理方法流程图；

图2为本发明实施例提供的语音数据的处理方法流程示意图；

图3为本发明实施例提供的另一语音数据的处理方法流程示意图；

图4为本发明实施例提供的一种智能客服装置的结构框图；

图5为本发明实施例提供的另一种智能客服装置的结构框图；

图6为本发明实施例提供的又一种智能客服装置的结构框图；

图7为本发明实施例提供的再一种智能客服装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，目前的智能客服装置在向用户介绍业务和活动的过程中，或者，在回答用户问题的过程中，是无法打断智能客服装置的语音播放的。在智能客服装置播放语音的过程中，即使用户有新的问题或者不想听到当前播放的内容，智能客服装置依然会完整播放当前的语音播放内容，之后再重新识别用户的音频信号，极大降低了用户的使用体验。

因此，本发明实施例提供一种语音数据的处理方法及智能客服装置，智能客服装置在进行语音播放的过程中，当检测到用户说话时，降低语音播放音量或中断语音播放。收集并识别用户的发言内容，为用户提供后续服务，以提升用户的使用体验。

参考图1，示出了本发明实施例提供的一种语音数据的处理方法流程图，所述方法适用于智能客服装置，所述方法包括以下步骤：

步骤S101：智能客服装置在向用户设备播放预设语音内容的过程中，所述智能客服装置实时收集所述用户设备发送的音频信号。

在具体实现步骤S101的过程中，用户通过用户设备在与智能客服装置通话时，智能客服装置会向用户设备播放预设语音内容，例如：对于银行的智能客服装置，在与客户通话时，银行的智能客服装置会通过播放语音内容介绍该银行推出的相关产品。所述智能客服装置在播放语音内容时，会实时收集用户设备发送的音频信号。

步骤S102：智能客服装置检测所述音频信号中用于指示用户行为类型的音频信息。

需要说明的是，用户通过用户设备在与智能客服装置通话时，所述用户设备会采集音频信号，并将音频信号发送至所述智能客服装置。根据音频信号中的音频信息确定用户行为类型，所述用户行为类型为用户存在疑问或所述用户正在说话。

在具体实现步骤S102的过程中，同时对所述音频信号进行语音活动检测(VoiceActivity Detection，VAD)和语气判断，分别确定所述用户是否正在说话或者所述用户是否存在疑问。其中，利用预设的语气判断模型对所述音频信号进行语气判断。

若确定所述音频信息用于指示所述用户存在疑问，中断播放所述预设语音内容。向所述用户询问所述用户的问题，并收集所述用户设备发送的音频信号。例如：当检测到所述用户的音频信号确定所述用户发出“嗯？”、“啊？”等表示疑问的词语时，中断当前播放的语音内容，并询问所述用户是否需要帮助，询问之后收集用户设备采集得到的音频信号。利用所述音频信号进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签。根据所述发言内容和情绪标签，回答所述用户的问题、转接人工客服或结束通话。

若通过VAD确定所述用户正在说话，为进一步确定所述用户正在说话，将所述音频信号作为预设的VAD模型的输入确定所述音频信号中是否存在用于指示用户正在说话的音频信息，若通过所述VAD模型确定所述音频信号中存在所述音频信息，则最终确定所述用户正在说话。

需要说明的是，预先基于音频样本数据训练神经网络模型获得所述VAD模型。预先基于语气词样本数据训练神经网络模型获得所述语气判断模型。

优选的，可同时利用所述VAD和VAD模型确定所述音频信号中用于指示用户正在说话的音频信息，当所述VAD和VAD模型都确定所述音频信号中存在所述音频信息，才最终确定所述用户正在说话。

步骤S103：若确定所述音频信息用于指示所述用户存在疑问，中断播放所述预设语音内容。

步骤S104：若确定所述音频信息用于指示所述用户正在说话，在预设时间内降低播放所述预设语音内容的音量。

需要说明的是，智能客服装置在播放语音时，为保证用户听清楚播放内容，播放语音的音量通常较大。当用户有问题需询问时，若智能客服装置依然以大音量播放语音会严重影响用户的使用体验。

在具体实现步骤S104的过程中，当所述智能客服装置确定所述用户正在说话时，为保证用户的使用体验，所述智能客服装置需在预设时间内降低播放语音的音量。

优选的，确定所述音频信息用于指示所述用户正在说话，在所述预设时间之后，若检测到所述音频信号中存在用于指示用户正在说话的音频信息，中断播放所述预设语音内容。

在具体实现中，在所述预设时间之后，若检测到所述音频信号中存在用于指示用户正在说话的音频信息，即在降低播放所述语音内容的音量预设时间之后，所述用户仍然正在说话，则中断播放所述预设语音内容。

优选的，当确定所述用户正在说话时，所述智能客服装置调整语音播放的形式包括但不仅限于以下三种情况：

情况一：所述智能客服装置在所述用户说话时降低播放所述预设语音内容的音量。即在所述用户说话时，所述智能语音将播放语音的音量降低，并将播放语音的音量全程保持在预设值。

情况二：所述智能客服装置中断正在播放的预设语音内容。即当用户在说话时，中断正在播放的预设语音内容。

情况三：在预设时间内降低播放所述预设语音内容的音量，若所述预设时间后所述用户未停止说话，中断播放所述预设语音内容。例如：确定所述用户正在说话的1秒内，先降低播放语音的音量。若1秒后所述用户依旧还在说话，则中断播放当前语音内容。

优选的，执行步骤S104之后，利用所述音频信号进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签。根据所述发言内容和情绪标签，回答所述用户的问题、转接人工客服或结束通话。

在进一步的实现中，根据所述发言内容和情绪标签，当所述发言内容和情绪标签符合预设的推送规则时，向所述用户设备推送包含界面操作网址的界面操作信息。例如：当通过采集得到的音频信号确定用户不耐烦或者抱怨语音操作较慢，根据音频信息确定用户希望执行的操作。若所述用户设备为具有内置操作界面的设备，例如具有操作界面的app应用或者专用柜台机，直接向该用户设备推送操作界面。若所述用户设备为不具有内置操作界面的设备，向该用户设备推送操作界面网址，当用户点击该网址时所述用户设备切换至对应的操作界面。

上述涉及的语音识别和情绪识别的过程中，所述智能客服装置将所述音频信号上传至云端服务器中，同时利用所述云端服务器中预设的语音识别模型和情绪识别模型对所述音频信号进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签。所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。

需要说明的是，由于不同年龄段的人群对不同情绪的表达方式都不同，因此预先设置不同年龄段对应的情绪识别模型。例如：分别设置少年男、少年女、中年男、中年女、老年男和老年女六个类别对应的情绪识别模型。在对所述用户的音频信号进行情绪识别之前，先根据所述用户的用户信息确定所述用户的年龄，选择与所述年龄对应的情绪识别模型进行情绪识别。

进一步的，需要说明的是，上述涉及到的情绪识别模型的划分包括但不仅限于以上六个类别。

在进一步的实现中，所述智能客服装置根据所述发言内容和情绪标签执行相应的操作，该操作包括但不仅限于：回答所述用户的问题、转接人工客服或结束通话。具体内容详见以下内容：

若所述发言内容和/或情绪标签符合预设的回复规则，向所述用户询问所述用户的问题，并回复所述用户的问题。例如：当检测所述用户以平淡的情绪说“你在说什么呀”，所述智能客服装置询问所述用户有什么问题不明白，并回复所述用户询问的问题。

若所述发言内容和/或情绪标签符合预设的转接规则，为所述用户转接至人工客服。例如：当检测到所述用户说“我需要转接人工客服”时，为所述用户转接至人工客服。

若所述发言内容和/或情绪标签符合预设的挂断规则，结束与所述用户的通话。例如：当检测到所述用户以生气的情绪说“我不感兴趣”时，所述智能客服装置结束与所述用户的通话。

需要说明的是，预先设置不同类型的情绪标签，在对所述音频信号进行情绪识别时，根据所述音频信号确定用于指示用户发言情绪的情绪标签。

进一步需要说明的是，根据所述发言内容执行回复规则、转接规则或挂断规则的优先级高于所述情绪标签。例如：若所述发言内容符合回复规则，而所述情绪标签符合转接规则，则执行回复规则，即向所述用户询问所述用户的问题，并回复所述用户的问题。又例如：若所述发言内容符合挂断规则，而所述情绪标签符合转接规则，则执行挂断规则，即结束与所述用户的通话。

在本发明实施例中，智能客服装置在播放语音内容的过程中，当检测到用户说话时，检测音频信号中用于指示用户行为类型的音频信息。根据用户行为类型中断播放预设语音内容，询问用户的需求并收集音频信号，或者在预设时间内降低播放预设语音内容的音量，在预设时间之后，用户仍然在说话，中断播放预设语音内容。根据采集得到的用户的音频信号，识别用户的发言内容和发言情绪，根据发言内容和发言情绪执行对应的操作，提高用户的使用体验。

为更好解释说上述图1中各个步骤示出的内容，通过图2和图3示出的语音数据的处理方法流程示意图进行举例说明。

参考图2，示出了本发明实施例提供的语音数据的处理方法流程示意图，包括以下步骤：

步骤S201：智能客服装置收集用户方的音频信号。

步骤S202：所述智能客服装置基于收集得到的音频信号，利用VAD算法检测用户是否正在说话，若是，执行步骤S203，若否，返回执行步骤S201。

步骤S203：所述智能客服装置基于收集得到的音频信号，利用神经网络VAD模型进一步确定所述用户是否正在说话，若是，打断语音播放或降低语音播放音量，并执行步骤S204，若否，返回执行步骤S201。

步骤S204：所述智能客服装置对所述音频信号进行语音识别和情绪识别，所述智能客服装置根据语音识别结果和情绪识别结果转接人工客服、回答问题或挂断。

参考图3，示出了本发明实施例提供的语音数据的处理方法流程示意图，包括以下步骤：

步骤S301：智能客服装置收集用户方的音频信号。

步骤S302：所述智能客服装置同时利用VAD算法和神经网络VAD模型确定所述用户是否正在说话，若VAD算法和神经网络VAD模型都确定所述用户正在说话，打断语音播放或降低语音播放音量，执行步骤S303。若VAD算法和/或神经网络VAD模型确定所述用户未说话，返回执行步骤S301。

步骤S303：所述智能客服装置对所述音频信号进行语音识别和情绪识别，所述智能客服装置根据语音识别结果和情绪识别结果转接人工客服、回答问题或挂断。

需要说明的是，图2和图3中各个步骤的执行原理，可参见上述本发明实施例图1中各个步骤对应的内容，在此不再进行赘述。

在本发明实施例中，智能客服装置在播放语音内容的过程中，当检测到用户说话时，在预设时间内降低播放预设语音内容的音量，在预设时间之后，用户仍然在说话，中断播放预设语音内容。根据采集得到的用户的音频信号，识别用户的发言内容和发言情绪，根据发言内容和发言情绪执行对应的操作，提高用户的使用体验。

与上述本发明实施例提供的一种语音数据的处理方法相对应，参考图4，本发明实施例还提供了一种智能客服装置的结构框图，所述智能客服装置包括：采集单元401、确定单元402、第一中断单元403和调整单元404；

采集单元401，用于智能客服装置在向用户设备播放预设语音内容的过程中，实时收集所述用户设备发送的音频信号。

确定单元402，用于检测所述音频信号中用于指示用户行为类型的音频信息，所述用户行为类型为用户存在疑问或所述用户正在说话。确定用户行为类型的过程，参见上述本发明实施例图1步骤S102中相对应的内容。

第一中断单元403，用于若确定所述音频信息用于指示所述用户存在疑问，中断播放所述预设语音内容。

调整单元404，用于在预设时间内降低播放所述预设语音内容的音量。

在本发明实施例中，智能客服装置在播放语音内容的过程中，当检测到用户说话时，检测音频信号中用于指示用户行为类型的音频信息。根据用户行为类型中断播放预设语音内容，或者在预设时间内降低播放预设语音内容的音量，在预设时间之后用户仍然在说话，中断播放预设语音内容，提高用户的使用体验。

优选的，结合图4，参考图5，示出了本发明实施例提供的一种智能客服的结构框图，所述智能客服装置还包括：

第二中断单元405，用于在所述预设时间之后，若检测到所述音频信号中存在用于指示用户正在说话的音频信息，中断播放所述预设语音内容。

在具体实现中，所述调整单元404在预设时间内降低播放所述预设语音内容的音量后，执行所述第二中断单元405。

识别单元406，用于利用所述音频信号进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签。

优选的，在具体实现中，所述识别单元406还用于基于所述用户的用户信息确定所述用户的年龄，并选择与所述年龄对应的情绪识别模型，其中，预先设置不同年龄段对应的情绪识别模型。

处理单元407，用于根据所述发言内容和情绪标签，回答所述用户的问题、转接人工客服或结束通话。

相应的，所述确定单元402具体用于：将所述音频信号同时输入预设的语音识别模型和情绪识别模型进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签，其中，所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。

在本发明实施例中，根据采集得到的用户的音频信号，识别用户的发言内容和发言情绪。后续根据发言内容和发言情绪执行对应的操作，提高用户的使用体验。

优选的，结合图5，参考图6，示出了本发明实施例提供的一种智能客服的结构框图，在执行所述第一中断单元403之后，所述智能客服装置还包括：

询问单元408，用于向所述用户询问所述用户的问题，并收集所述用户设备发送的音频信号。执行所述识别单元406和处理单元407。

优选的，结合图5，参考图7，示出了本发明实施例提供的一种智能客服的结构框图，所述处理单元407包括：

回复模块4071，用于若所述发言内容和/或情绪标签符合预设的回复规则，向所述用户询问所述用户的问题，并回复所述用户的问题。

转接模块4072，用于若所述发言内容和/或情绪标签符合预设的转接规则，为所述用户转接至人工客服。

挂断模块4073，用于若所述发言内容和/或情绪标签符合预设的挂断规则，结束与所述用户的通话。

在本发明实施例中，智能客服装置收集并识别用户的发言内容和发言情绪。根据发言内容和发言情绪为用户提供回复问题、转接人工客服或结束通话等后续服务，提高用户的使用体验。

综上所述，本发明实施例提供一种语音数据的处理方法及智能客服装置，该方法为：智能客服装置在向用户设备播放预设语音内容的过程中，实时收集用户设备发送的音频信号；检测音频信号中用于指示用户行为类型的音频信息；若确定音频信息用于指示用户存在疑问，中断播放预设语音内容；若确定音频信息用于指示用户正在说话在预设时间内降低播放预设语音内容的音量。本方案中，智能客服装置在播放语音内容的过程中，当检测到用户说话时，根据用户的行为类型降低语音播放音量或中断语音播放。收集并识别用户的发言内容，为用户提供回复问题、转接人工客服或结束通话等后续服务，提高用户的使用体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音数据的处理方法，其特征在于，适用于智能客服装置，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，若所述音频信息用于指示所述用户存在疑问，中断播放所述预设语音内容之后，还包括：

3.根据权利要求1所述的方法，其特征在于，所述若确定所述音频信息用于指示所述用户正在说话之后，还包括：

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述发言内容和情绪标签，回答所述用户的问题、转接人工客服或结束通话，包括：

5.根据权利要求2或3所述的方法，其特征在于，所述利用所述音频信号进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签，包括：

6.根据权利要求5所述的方法，其特征在于，所述利用所述音频信号进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签之前，还包括：

7.一种智能客服装置，其特征在于，所述智能客服装置包括：

8.根据权利要求7所述的智能客服装置，其特征在于，所述智能客服装置还包括：

9.根据权利要求8所述的智能客服装置，其特征在于，所述确定单元具体用于：将所述音频信号同时输入预设的语音识别模型和情绪识别模型进行语音识别和情绪识别，确定所述用户的发言内容和用于指示用户发言情绪的情绪标签，其中，所述语音识别模型和情绪识别模型由基于音频样本数据训练神经网络模型获得。

10.根据权利要求8所述的智能客服装置，其特征在于，所述处理单元包括：

挂断模块，用于若所述发言内容和/或情绪标签符合预设的挂断规则，结束与所述用户的通话；