CN112037793A

CN112037793A - 一种语音回复方法及装置

Info

Publication number: CN112037793A
Application number: CN202010848042.6A
Authority: CN
Inventors: 吕曼瑶; 章文帅; 唐沐
Original assignee: Beijing Ruying Intelligent Technology Co ltd
Current assignee: Beijing Ruying Intelligent Technology Co ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-04

Abstract

本发明公开了一种语音回复方法及装置，其中，方法包括：获取用户输入的语音信息，并确定用户的特征信息；根据语音信息生成对应的回复文本内容，并根据用户的特征信息从预设音频库中提取与其匹配的目标音频；确定回复文本内容和目标音频是否可重合匹配；当回复文本内容和目标音频可重合匹配时，根据回复文本内容和目标音频生成目标回复内容；当回复文本内容和目标音频不能重合匹配时，从预设音效库中提取与回复文本内容匹配的目标音效，并根据回复文本内容和目标音效生成目标回复内容；输出目标回复内容。通过该技术方案，将相关的文本与有声内容自动拼接，生成衔接自然的多元化回复内容，形成丰富有趣的个性化对话***。

Description

一种语音回复方法及装置

技术领域

本发明涉及智能语音交互技术领域，更具体地，涉及一种语音回复方法及装置。

背景技术

在目前的人机语音对话***中，机器主要通过自然语言理解(NLU)技术分析人类的语义，再通过自然语言生成(NLG)技术将计算机信息构建转换成人类的文本语言格式，最后通过语音合成(TTS)技术将文本语言转换为语音，完成与人类一问一答的语音对话。随着这些技术的不断成熟，人们已经不满足于机器可以”理解正确“、“回答正确”等单一评判维度的语音对话体验，如何让机器像人一样智能自然，回复内容丰富有趣、具备个性，是对当前语音对话***的更高要求。

现有技术的实现方案一：通过搜集标注大量文本对话数据进行机器学习和训练，针对用户的问题，优化自然语言生成规则，匹配相关的文本内容进行回复。

现有技术的实现方案二：针对用户的问题，直接引导进入有声内容推荐***，匹配相关的天气、音乐、新闻等有声内容进行回复。

现有技术一的缺点：对话回复形式单一，仅通过模拟人声的TTS回复用户，不利于用户在与机器交互过程中，收获丰富的信息，不利于机器展现与人类世界的多样化信息连接能力。

现有技术二的缺点：在用户只是想单纯聊天的情况下，直接进入内容信息频道，播放跳转相关的有声内容推荐，人机的语言交流感被大大弱化，机械感和广告感过于突出，不符合用户的对话期待。

发明内容

鉴于上述问题，本发明提出了一种语音回复方法和相应的装置，其可以解决当前人机对话形式单一的尬聊问题，也不割裂语言交流的整体感，展现出强大信息理解和个性化输出能力。

根据本发明实施例的第一方面，提供一种语音回复方法，包括：

获取用户输入的语音信息，并确定所述用户的特征信息，其中，所述特征信息包括以下至少一项：性别和所属年龄段；

根据所述语音信息生成对应的回复文本内容，并根据所述用户的特征信息从预设音频库中提取与其匹配的目标音频；

确定所述回复文本内容和所述目标音频是否可重合匹配；

当所述回复文本内容和所述目标音频可重合匹配时，根据所述回复文本内容和所述目标音频生成目标回复内容；

当所述回复文本内容和所述目标音频不能重合匹配时，从预设音效库中提取与所述回复文本内容匹配的目标音效，并根据所述回复文本内容和所述目标音效生成所述目标回复内容；

输出所述目标回复内容。

在一个实施例中，优选地，确定所述回复文本内容和所述目标音频是否可重合匹配，包括：

将所述目标音频转换成对应的目标文本内容；

通过相似度计算算法计算所述目标文本内容和所述回复文本内容的重合度；

当所述重合度大于或等于预设值时，确定所述回复文本内容和所述目标音频可重合匹配；

当所述重合度小于预设值时，确定所述回复文本内容和所述目标音频不能重合匹配。

在一个实施例中，优选地，根据所述回复文本内容和所述目标音频生成目标回复内容，包括：

将所述回复文本内容转换成回复音频；

将所述回复音频和所述目标音频拼接合成为目标回复内容。

在一个实施例中，优选地，从预设音效库中提取与所述回复文本内容匹配的目标音效，并根据所述回复文本内容和所述目标音效生成所述目标回复内容，包括：

通过情绪识别算法，识别所述回复文本内容对应的目标情绪；

从所述预设音效库的情绪标签中查找是否有与所述目标情绪对应的目标情绪标签；

当查找到所述目标情绪标签时，提取所述目标情绪标签对应的目标音效；

将所述回复文本内容转换成回复音频，并将所述回复音频和所述目标音效拼接合成为目标回复内容；

当未查找到所述目标情绪标签时，将所述回复文本内容转换成回复音频，并将所述回复音频作为所述目标回复内容。

在一个实施例中，优选地，所述方法还包括：

将所述语音信息和所述目标回复内容关联存储至多元化回复对话库中。

根据本发明实施例的第二方面，提供一种语音回复装置，包括：

获取模块，用于获取用户输入的语音信息，并确定所述用户的特征信息，其中，所述特征信息包括以下至少一项：性别和所属年龄段；

第一生成模块，用于根据所述语音信息生成对应的回复文本内容，并根据所述用户的特征信息从预设音频库中提取与其匹配的目标音频；

确定模块，用于确定所述回复文本内容和所述目标音频是否可重合匹配；

第二生成模块，用于当所述回复文本内容和所述目标音频可重合匹配时，根据所述回复文本内容和所述目标音频生成目标回复内容；

第三生成模块，用于当所述回复文本内容和所述目标音频不能重合匹配时，从预设音效库中提取与所述回复文本内容匹配的目标音效，并根据所述回复文本内容和所述目标音效生成所述目标回复内容；

输出模块，用于输出所述目标回复内容。

在一个实施例中，优选地，所述确定模块包括：

第一转换单元，用于将所述目标音频转换成对应的目标文本内容；

计算单元，用于通过相似度计算算法计算所述目标文本内容和所述回复文本内容的重合度；

第一确定单元，用于当所述重合度大于或等于预设值时，确定所述回复文本内容和所述目标音频可重合匹配；

第二确定单元，用于当所述重合度小于预设值时，确定所述回复文本内容和所述目标音频不能重合匹配。

在一个实施例中，优选地，所述第二生成模块包括：

第二转换单元，用于将所述回复文本内容转换成回复音频；

第一拼接单元，用于将所述回复音频和所述目标音频拼接合成为目标回复内容。

在一个实施例中，优选地，所述第三生成模块包括：

识别单元，用于通过情绪识别算法，识别所述回复文本内容对应的目标情绪；

查找单元，用于从所述预设音效库的情绪标签中查找是否有与所述目标情绪对应的目标情绪标签；

提取单元，用于当查找到所述目标情绪标签时，提取所述目标情绪标签对应的目标音效；

第二拼接单元，用于将所述回复文本内容转换成回复音频，并将所述回复音频和所述目标音效拼接合成为目标回复内容；

第三转换单元，用于当未查找到所述目标情绪标签时，将所述回复文本内容转换成回复音频，并将所述回复音频作为所述目标回复内容。

在一个实施例中，优选地，所述装置还包括：

存储模块，用于将所述语音信息和所述目标回复内容关联存储至多元化回复对话库中。

根据本发明实施例的第三方面，提供一种语音回复装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

确定所述回复文本内容和所述目标音频是否可重合匹配；

输出所述目标回复内容。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现第一方面中任一项所述方法的步骤。

本发明实施例中，针对智能语音对话***，在对话过程中回复形式单一的问题，结合语义分析、数据生成原理，打破传统，设计了一套自动搜集处理文本和有声内容信息，并自然拼接合成语音回复内容的个性化对话***，这样，将内容整合在语言中，生成一体化语音，既解决了当前人机对话形式单一的尬聊问题，也不割裂语言交流的整体感，展现出强大信息理解和个性化输出能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种语音回复方法的流程图。

图2是本发明一个实施例的一种语音回复方法中步骤S103的流程图。

图3是本发明一个实施例的一种语音回复方法中步骤S103的流程图。

图4是本发明一个实施例的一种语音回复方法中步骤S105的流程图。

图5是本发明一个实施例的另一种语音回复方法的流程图。

图6是本发明一个实施例的一种语音回复装置的框图。

图7是本发明一个实施例的一种语音回复装置中确定模块的框图。

图8是本发明一个实施例的一种语音回复装置中第二生成模块64的框图。

图9是本发明一个实施例的一种语音回复装置中第三生成模块65的框图。

图10是本发明一个实施例的又一种语音回复装置的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的一种语音回复方法的流程图，如图1所示，所述语音回复方法包括：

步骤S101，获取用户输入的语音信息，并确定所述用户的特征信息，其中，所述特征信息包括以下至少一项：性别和所属年龄段；

其中，可以通过声纹识别技术识别说话人的性别和年龄段等。

步骤S102，根据所述语音信息生成对应的回复文本内容，并根据所述用户的特征信息从预设音频库中提取与其匹配的目标音频；

其中，可以通过ASR语音识别技术将语音信息转换成文字，并通过NLP自然语言处理技术理解文字内容，进而根据文字内容确定对应的回复文本内容。

步骤S103，确定所述回复文本内容和所述目标音频是否可重合匹配；

步骤S104，当所述回复文本内容和所述目标音频可重合匹配时，根据所述回复文本内容和所述目标音频生成目标回复内容；

步骤S105，当所述回复文本内容和所述目标音频不能重合匹配时，从预设音效库中提取与所述回复文本内容匹配的目标音效，并根据所述回复文本内容和所述目标音效生成所述目标回复内容；

步骤S106，输出所述目标回复内容。

在该实施例中，可以在人机交互过程中，在回复内容的基础上，拼接与回复内容匹配的音频和音效等，解决了当前人机对话形式单一的尬聊问题，也不割裂语言交流的整体感，展现出强大信息理解和个性化输出能力。

如图2所示，在一个实施例中，优选地，上述步骤S103包括：

步骤S201，将所述目标音频转换成对应的目标文本内容；

步骤S202，通过相似度计算算法计算所述目标文本内容和所述回复文本内容的重合度；

步骤S203，当所述重合度大于或等于预设值时，确定所述回复文本内容和所述目标音频可重合匹配；

步骤S204，当所述重合度小于预设值时，确定所述回复文本内容和所述目标音频不能重合匹配。

在该实施例中，可以根据目标文本内容和回复文本内容的重合度为回复文本内容匹配对应的目标音频，从而可以为回复语音添加音频。

如图3所示，在一个实施例中，优选地，上述步骤S103包括：

步骤S301，将所述回复文本内容转换成回复音频；

步骤S302，将所述回复音频和所述目标音频拼接合成为目标回复内容。

在该实施例中，将优质文本回复与有声内容回复相结合，在理解用户的语义后，将相关的文本与有声内容自动拼接，生成衔接自然的多元化回复内容，形成丰富有趣的个性化对话***。

例如，用户说：你猜我最好的朋友是谁啊？则本发明根据上述语音信息确定回复文本内容为“我猜啊”，然后再根据用户的性别和年龄，假设用户是儿童，匹配出对应的目标音频为“是他、是他、就是他，我们的朋友小哪吒”，则输出的目标回复内容为“我猜啊，是他、是他、就是他，我们的朋友小哪吒”对应的音频内容。

如图4所示，在一个实施例中，优选地，上述步骤S105包括：

步骤S401，通过情绪识别算法，识别所述回复文本内容对应的目标情绪；

步骤S402，从所述预设音效库的情绪标签中查找是否有与所述目标情绪对应的目标情绪标签；

步骤S403，当查找到所述目标情绪标签时，提取所述目标情绪标签对应的目标音效；

步骤S404，将所述回复文本内容转换成回复音频，并将所述回复音频和所述目标音效拼接合成为目标回复内容；

步骤S405，当未查找到所述目标情绪标签时，将所述回复文本内容转换成回复音频，并将所述回复音频作为所述目标回复内容。

在该实施例中，根据回复文本内容的情绪，为其匹配对应的目标音效。例如，用户说：“我们结婚吧”机器人：“我考虑一下”；用户：“那我可以亲你吗”(确定回复内容——确定回复内容的情绪标签为：尴尬)机器人：“你问机器人这个问题不太好吧+「乌鸦飞过的尴尬音效」”。

图5是本发明一个实施例的另一种语音回复方法的流程图。

如图5所示，在一个实施例中，优选地，上述方法还包括：

步骤S501，将所述语音信息和所述目标回复内容关联存储至多元化回复对话库中。

在该实施例中，在回复了语音信息之后，可以将所述语音信息和所述目标回复内容关联存储至多元化回复对话库中，这样，当再接收到相似的问题时，可不必经过上述过程，直接根据多元化回复对话库中的回复内容进行回复。

例如：当用户问：“为什么白雪公主最美？”***通过上述方案回复出“因为白雪公主有(回复文本内容)+淡黄的长裙、蓬松的头发(目标音频)”后，当用户再问“为什么大家都说白雪公主是世界上最美的人啊”，可不经提取、匹配、拼接等处理，直接进行回复。

图6是本发明一个实施例的一种语音回复装置的框图。

如图6所示，根据本发明实施例的第二方面，提供一种语音回复装置，包括：

获取模块61，用于获取用户输入的语音信息，并确定所述用户的特征信息，其中，所述特征信息包括以下至少一项：性别和所属年龄段；

第一生成模块62，用于根据所述语音信息生成对应的回复文本内容，并根据所述用户的特征信息从预设音频库中提取与其匹配的目标音频；

确定模块63，用于确定所述回复文本内容和所述目标音频是否可重合匹配；

第二生成模块64，用于当所述回复文本内容和所述目标音频可重合匹配时，根据所述回复文本内容和所述目标音频生成目标回复内容；

第三生成模块65，用于当所述回复文本内容和所述目标音频不能重合匹配时，从预设音效库中提取与所述回复文本内容匹配的目标音效，并根据所述回复文本内容和所述目标音效生成所述目标回复内容；

输出模块66，用于输出所述目标回复内容。

如图7所示，在一个实施例中，优选地，所述确定模块63包括：

第一转换单元71，用于将所述目标音频转换成对应的目标文本内容；

计算单元72，用于通过相似度计算算法计算所述目标文本内容和所述回复文本内容的重合度；

第一确定单元73，用于当所述重合度大于或等于预设值时，确定所述回复文本内容和所述目标音频可重合匹配；

第二确定单元74，用于当所述重合度小于预设值时，确定所述回复文本内容和所述目标音频不能重合匹配。

如图8所示，在一个实施例中，优选地，所述第二生成模块64包括：

第二转换单元81，用于将所述回复文本内容转换成回复音频；

第一拼接单元82，用于将所述回复音频和所述目标音频拼接合成为目标回复内容。

如图9所示，在一个实施例中，优选地，所述第三生成模块65包括：

识别单元91，用于通过情绪识别算法，识别所述回复文本内容对应的目标情绪；

查找单元92，用于从所述预设音效库的情绪标签中查找是否有与所述目标情绪对应的目标情绪标签；

提取单元93，用于当查找到所述目标情绪标签时，提取所述目标情绪标签对应的目标音效；

第二拼接单元94，用于将所述回复文本内容转换成回复音频，并将所述回复音频和所述目标音效拼接合成为目标回复内容；

第三转换单元95，用于当未查找到所述目标情绪标签时，将所述回复文本内容转换成回复音频，并将所述回复音频作为所述目标回复内容。

图10是本发明一个实施例的又一种语音回复装置的框图。

如图10所示，在一个实施例中，优选地，所述装置还包括：

存储模块1001，用于将所述语音信息和所述目标回复内容关联存储至多元化回复对话库中。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

确定所述回复文本内容和所述目标音频是否可重合匹配；

输出所述目标回复内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种便捷式多功能设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音回复方法，其特征在于，包括：

确定所述回复文本内容和所述目标音频是否可重合匹配；

输出所述目标回复内容。

2.根据权利要求1所述的方法，其特征在于，确定所述回复文本内容和所述目标音频是否可重合匹配，包括：

将所述目标音频转换成对应的目标文本内容；

3.根据权利要求1所述的方法，其特征在于，根据所述回复文本内容和所述目标音频生成目标回复内容，包括：

将所述回复文本内容转换成回复音频；

将所述回复音频和所述目标音频拼接合成为目标回复内容。

4.根据权利要求1所述的方法，其特征在于，从预设音效库中提取与所述回复文本内容匹配的目标音效，并根据所述回复文本内容和所述目标音效生成所述目标回复内容，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

6.一种语音回复装置，其特征在于，包括：

输出模块，用于输出所述目标回复内容。

7.根据权利要求6所述的装置，其特征在于，所述确定模块包括：

8.根据权利要求6所述的装置，其特征在于，所述第二生成模块包括：

第二转换单元，用于将所述回复文本内容转换成回复音频；

9.根据权利要求6所述的装置，其特征在于，所述第三生成模块包括：

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述装置还包括：

11.一种与原因回复装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

确定所述回复文本内容和所述目标音频是否可重合匹配；

输出所述目标回复内容。

12.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现权利要求1至5中任一项所述方法的步骤。