WO2023097745A1

WO2023097745A1 - 一种基于深度学习的智能交互方法、***及终端

Info

Publication number: WO2023097745A1
Application number: PCT/CN2021/136927
Authority: WO
Inventors: 张庆茂; 刘培刚
Original assignee: 山东远联信息科技有限公司
Priority date: 2021-12-03
Filing date: 2021-12-10
Publication date: 2023-06-08
Also published as: CN114240454A

Abstract

一种基于深度学习的智能交互方法、***及终端，包括：获取接入用户的语音特征信息（S101）；将语音特征信息输入训练好的深度学习神经网络中，确定应答策略（S102）；根据应答策略对用户进行应答（S103）。智能客服与用户进行会话时摒弃了传统的薄板式语言，优先用户进行诉求阐述。然后对诉求阐述的话语进行分析，获得回应的策略，进而保证了针对用户诉求进行回复，从而不需要反复的询问用户的需求，从而提高了用户的满意度。

Description

一种基于深度学习的智能交互方法、***及终端

技术领域

本申请涉及人工智能交互技术领域，具体涉及一种基于深度学习的智能交互方法、***及终端。

背景技术

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

尤其语音识别和自然语言处理被广泛应用到服务行业的智能终端和在线客服中，比如移动、联通、电信等运营商，也有政府服务热线中。传统技术中的人工智能对话一般是设置固定对话模板，当用户接入后，智能客服会通过引导语引导用户通过模板化的语言提出自己的请求。识别到用户的请求后，根据用户请求给出对应的应答。

虽然传统的智能客服能实现基本的语音识别功能，但是如果用户采用方言询问，或者进行询问时不采用模板式的语言，此时智能客服会进入死循环中，不停的询问用户的需求，进而会降低用户的满意度。

发明内容

本申请为了解决上述技术问题，提出了如下技术方案：

第一方面，本申请实施例提供了一种基于深度学习的智能交互方法，包括：获取接入用户的语音特征信息；将所述语音特征信息输入训练好的深度学习神经网络中，确定应答策略；根据所述应答策略对所述用户进行应答。

采用上述实现方式，智能客服与用户进行会话时摒弃了传统的薄板式语言，优先用户进行诉求阐述。然后对诉求阐述的话语进行分析，获得回应的策略，进而保证了针对用户诉求进行回复，从而不需要反复的询问用户的需求，从而提高了用户的满意度。

结合第一方面，在第一方面第一种可能的实现方式中，所述获取接入用户的语音特征信息，包括：对用户语音的语种进行匹配，确定语种信息；根据所述语种信息与对应的语言库确定语音对应的语义和语调含义。

结合第一方面第一种可能的实现方式，在第一方面第二种可能的实现方式中，根据所述语种信息与对应的语言库确定语音对应的语义和语调含义，包括：根据所述语言库和语音声纹信息确定出用户语句中的每个单字；将确定出的单字进行组合后再进行词性划分确定用户语音的语义；结合语音语调和当前语种的语调特征信息确定用户的语调含义。

结合第一方面第二种可能的实现方式，在第一方面第三种可能的实现方式中，将所述语音特征信息输入训练好的深度学习神经网络中，获取应答策略，包括：所述深度学习神经网络根据所述语调含义确定用户的情绪特征；如果所述情绪特征表征用户情绪稳定，则根据所述用户语音的语义从应答数据库中选择对应的应答话语；或者，如果所述情绪特征表征用户情绪焦虑，则转接至人工服务。

结合第一方面第三种可能的实现方式，在第一方面第四种可能的实现方式中，如果转接人工坐席时，出现坐席繁忙，则临时建立一个中转智能客服，所述中转智能客服模仿人工客户接入的状态，当出现人工客服空闲时，直接切换至人工客服。

第二方面，本申请实施例提供了一种基于深度学习的智能交互***，包括：获取模块，用于获取接入用户的语音特征信息；确定模块，用于将所述语音特征信息输入训练好的深度学习神经网络中，确定应答策略；应答模块，用于根据所述应答策略对所述用户进行应答。

结合第二方面，在第二方面第一种可能的实现方式中，所述获取模块，包括：第一确定单元，用于对用户语音的语种进行匹配，确定语种信息；第二确定单元，用于根据所述语种信息与对应的语言库确定语音对应的语义和语调含义。

结合第二方面第一种可能的实现方式，在第二方面第二种可能的实现方式中，所述第二确定单元包括：第一确定子单元，用于根据所述语言库和语音声纹信息确定出用户语句中的每个单字；第二确定子单元，用于将确定出的单字进行组合后再进行词性划分确定用户语音的语义；第三确定子单元，用于结合语音语调和当前语种的语调特征信息确定用户的语调含义。

结合第二方面第二种可能的实现方式，在第二方面第三种可能的实现方式中，所述确定模块包括：第三确定单元，用于所述深度学习神经网络根据所述语调含义确定用户的情绪特征；处理单元，用于如果所述情绪特征表征用户情绪稳定，则根据所述用户语音的语义从应答数据库中选择对应的应答话语；或者，如果所述情绪特征表征用户情绪焦虑，则转接至人工服务。

第三方面，本申请实施例提供了一种终端，包括：处理器；存储器，用于存储计算机可执行指令；当所述处理器执行所述计算机可执行指令时，所述处理器执行第一方面或第一方面任一可能实现方式所述的方法，实现智能语音交互。

附图说明

图1为本申请实施例提供的一种基于深度学习的智能交互方法的流程示意图；

图2为本申请实施例提供的一种基于深度学习的智能交互***的示意图；

图3为本申请实施例提供的一种终端的示意图。

具体实施方式

下面结合附图与具体实施方式对本方案进行阐述。

图1为本申请实施例提供的一种基于深度学习的智能交互方法的流程示意图，参见图1，本申请实施例提供的基于深度学习的智能交互方法包括：

S101，获取接入用户的语音特征信息。

传统技术中的智能语音交互一般智能实现固定语言种类的交流，比如移动运营商、便民服务热线等。一般要求访问的用户采用普通话说出自己的诉求，智能客服根据对用户语音的分析确定应答内容。但是，如果没有用户发音为非普通话或是非固定语言种类，则智能客服无法进行应答。

基于上述原因，本申请实施例中接收到用户的语音后，首先对用户语音的语种进行匹配，确定语种信息。为了实现上述功能，需要接入多种语言的数据库和各地方言发音数据库。当匹配到对应的语种信息后，则结合对应的语言库确定出用户语音的语义和语调含义。很显然的，语音的语义是对用户的意思进行理解，而语调的含义则是对客户说话时的语气与心情进行确定。

本实施例中为了实现对用户语音语义和语调含义的确定，首先根据所述语言库和语音声纹信息确定出用户语句中的每个单字，将确定出的单字进行组合后再进行词性划分确定用户语音的语义。确定语义时，需要根据对应语言种类的特征对单字进行准确划分，使得语义与用户表达意思贴合。确定出用户语音的语义后，再结合语音语调和当前语种的语调特征信息确定用户的语调含义。本实施例中，对于用户语音语调的含义确定尤其重要，因为语调含义可以确定出用户当前情绪特征。比如以普通话为例，如果用户情绪比较激动或着急，则说话时会有以下语调特征：语速快或声音大等。但是有的语言种类语速快和声音大则是其特有的正常语调特征，而需要从其他方面来确定。

S102，将所述语音特征信息输入训练好的深度学习神经网络中，确定应答策略。

S101中确定出用户语音语义和语调含义后，输入到训练好的深度学习神经网络中，深度学习神经网络首先根据语调含义确定用户的情绪特征。如果情绪特征表征用户情绪稳定，则根据所述用户语音的语义从应答数据库中选择对应的应答话语。但是如果所述情绪特征表征用户情绪焦虑，则转接至人工服务，此时采用智能客服与用户交互可能无法解决用户的诉求，甚至会造成用户的不满意。

比如接入诉求的用户此时比较着急，例如涉及到投诉的情况，如果像现在的人工智能客服反复的询问“您投诉哪方面的内容”，则会引起用户的不满。如果将这类情况的用户直接通过转接接入到人工客服，则可以通过人工客服进行针对性的人性化服务，从而实现最大程度的解决用户诉求。

S103，根据所述应答策略对所述用户进行应答。

根据S102中确定应答策略，如果是采用智能客服则通过用户语音的语义，从对应数据库中调取相应的应答语句对用户进行应答。如果需要转人工的，则由人工进行服务。

需要指出的是，如果转接人工坐席时，出现坐席繁忙，则临时建立一个中转智能客服，所述中转智能客服模仿人工客户接入的状态，当出现人工客服空闲时，直接切换至人工客服。

与上述实施例提供的一种基于深度学习的智能交互方法相对应，本申请还提供了一种基于深度学习的智能交互***的实施例，参见图2，基于深度学习的智能交互***20包括：获取模块201、确定模块202和应答模块203。

获取模块201，用于获取接入用户的语音特征信息。确定模块202，用于将所述语音特征信息输入训练好的深度学习神经网络中，确定应答策略。应答模块203，用于根据所述应答策略对所述用户进行应答。

本实施例中，所述获取模块201，包括：第一确定单元和第二确定单元。第一确定单元，用于对用户语音的语种进行匹配，确定语种信息；第二确定单元，用于根据所述语种信息与对应的语言库确定语音对应的语义和语调含义。

进一步地，所述第二确定单元包括：第一确定子单元、第二确定子单元和第三确定子单元。第一确定子单元，用于根据所述语言库和语音声纹信息确定出用户语句中的每个单字。第二确定子单元，用于将确定出的单字进行组合后再进行词性划分确定用户语音的语义。第三确定子单元，用于结合语音语调和当前语种的语调特征信息确定用户的语调含义。

所述确定模块202包括：第三确定单元和处理单元。第三确定单元，用于所述深度学习神经网络根据所述语调含义确定用户的情绪特征。处理单元，用于如果所述情绪特征表征用户情绪稳定，则根据所述用户语音的语义从应答数据库中选择对应的应答话语；或者，如果所述情绪特征表征用户情绪焦虑，则转接至人工服务。

本申请还提供了一种终端的实施例，参见图3，终端30包括：处理器301、存储器302和通信接口303。

在图3中，处理器301、存储器302和通信接口303可以通过总线相互连接；总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器301通常是控制终端30的整体功能，例如终端30的启动、以及终端30启动后获取接入用户的语音特征信息；将所述语音特征信息输入训练好的深度学习神经网络中，确定应答策略；根据所述应答策略对所述用户进行应答。

处理器301可以是通用处理器，例如，中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。处理器也可以是微处理器(MCU)。处理器还可以包括硬件芯片。上述硬件芯片可以是专用集成电路(ASIC)，可编程逻辑器件(PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(CPLD)，现场可编程逻辑门阵列(FPGA)等。

存储器302被配置为存储计算机可执行指令以支持终端30数据的操作。存储器301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

启动终端30后，处理器301和存储器302上电，处理器301读取并执行存储在存储器302内的计算机可执行指令，以完成上述的基于深度学习的智能交互方法实施例中的全部或部分步骤。

通信接口303用于终端30传输数据，例如实现与网络设备、服务器之间的通信等。通信接口303包括有线通信接口，还可以包括无线通信接口。其中，有线通信接口包括USB接口、Micro USB接口，还可以包括以太网接口。无线通信接口可以为WLAN接口，蜂窝网络通信接口或其组合等。

在一个示意性实施例中，本申请实施例提供的终端30还包括电源组件，电源组件为终端30的各种组件提供电力。电源组件可以包括电源管理***，一个或多个电源，及其他与为终端30生成、管理和分配电力相关联的组件。

通信组件，通信组件被配置为便于终端30和其他设备之间有线或无线方式的通信。终端30可以接入基于通信标准的无线网络，如WiFi，4G或5G，或它们的组合。通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在一个示意性实施例中，终端30可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)或其他电子元件实现。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

一种基于深度学习的智能交互方法，其特征在于，包括：

获取接入用户的语音特征信息；

将所述语音特征信息输入训练好的深度学习神经网络中，确定应答策略；

根据所述应答策略对所述用户进行应答。
根据权利要求1所述的基于深度学习的智能交互方法，其特征在于，所述获取接入用户的语音特征信息，包括：

对用户语音的语种进行匹配，确定语种信息；

根据所述语种信息与对应的语言库确定语音对应的语义和语调含义。
根据权利要求2所述的基于深度学习的智能交互方法，其特征在于，根据所述语种信息与对应的语言库确定语音对应的语义和语调含义，包括：

根据所述语言库和语音声纹信息确定出用户语句中的每个单字；

将确定出的单字进行组合后再进行词性划分确定用户语音的语义；

结合语音语调和当前语种的语调特征信息确定用户的语调含义。
根据权利要求3所述基于深度学习的智能交互方法，其特征在于，将所述语音特征信息输入训练好的深度学习神经网络中，获取应答策略，包括：

所述深度学习神经网络根据所述语调含义确定用户的情绪特征；

如果所述情绪特征表征用户情绪稳定，则根据所述用户语音的语义从应答数据库中选择对应的应答话语；

或者，如果所述情绪特征表征用户情绪焦虑，则转接至人工服务。
根据权利要求4所述的基于深度学习的智能交互方法，其特征在于，如果转接人工坐席时，出现坐席繁忙，则临时建立一个中转智能客服，所述中转智能客服模仿人工客户接入的状态，当出现人工客服空闲时，直接切换至人工客服。
一种基于深度学习的智能交互***，其特征在于，包括：

获取模块，用于获取接入用户的语音特征信息；

确定模块，用于将所述语音特征信息输入训练好的深度学习神经网络中，确定应答策略；

应答模块，用于根据所述应答策略对所述用户进行应答。
根据权利要求6所述的基于深度学习的智能交互***，其特征在于，所述获取模块，包括：

第一确定单元，用于对用户语音的语种进行匹配，确定语种信息；

第二确定单元，用于根据所述语种信息与对应的语言库确定语音对应的语义和语调含义。
根据权利要求7所述的基于深度学习的智能交互***，其特征在于，所述第二确定单元包括：

第一确定子单元，用于根据所述语言库和语音声纹信息确定出用户语句中的每个单字；

第二确定子单元，用于将确定出的单字进行组合后再进行词性划分确定用户语音的语义；

第三确定子单元，用于结合语音语调和当前语种的语调特征信息确定用户的语调含义。
根据权利要求8所述基于深度学习的智能交互***，其特征在于，所述确定模块包括：

第三确定单元，用于所述深度学习神经网络根据所述语调含义确定用户的情绪特征；

处理单元，用于如果所述情绪特征表征用户情绪稳定，则根据所述用户语音的语义从应答数据库中选择对应的应答话语；

或者，如果所述情绪特征表征用户情绪焦虑，则转接至人工服务。
一种终端，其特征在于，包括：

处理器；

存储器，用于存储计算机可执行指令；

当所述处理器执行所述计算机可执行指令时，所述处理器执行权利要求1-5任一项所述的方法，实现智能语音交互。