CN114283820A

CN114283820A - 多角色语音的交互方法、电子设备和存储介质

Info

Publication number: CN114283820A
Application number: CN202111649321.0A
Authority: CN
Inventors: 宋泽; 甘津瑞; 陈铭竑; 邓建凯
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-05

Abstract

本发明公开一种多角色语音的交互方法、电子设备和存储介质，其中方法包括：通过本地用户端获取音频数据，将音频数据发送到远程端的语音识别服务器。语音识别服务器通过语义识别模型识别待识别文字数据获取语义识别结果信息。通过对话模型识别语义识别结果信息，获取对话结果信息及设定角色信息。语音识别服务器根据设定角色信息及对话信息合成回复语音且将发送到本地用户端。本地用户端播放回复语音。本发明支持多角色语音交互，根据用户的情绪状态，推荐适合的角色与之进行对话交流，占用资源较少，具有高可靠、高稳定的优点，自动切换角色功能，很大程度上提高了语音交互的趣味性，与目前市面上多角色交互方案相比，鲁棒性更好。

Description

多角色语音的交互方法、电子设备和存储介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种多角色语音的交互方法、电子设备和存储介质。

背景技术

目前市面上有语音识别(Automatic Speech Recongnition，ASR)、自然语言处理(Natural Language Processing,NLP)、语音合成(Text To Speech, TTS)，以及情绪识别Automatic Speech Emotion Recognition，ASER)等技术，提供语音交互的基础能力。

语音识别主要是将人所发出的语音内容转换为可供计算机读入的文本信息，其具有两种工作模式：识别模式和命令模式。语音识别程序的实现也会根据两种模式的不同而采用不同类型的程序。识别模式的工作原理是：引擎***在后台直接给出一个词库和识别模板库，任何***都不需要再进一步对识别语法进行改动，只需要根据识别引擎提供的主程序源代码进行改写就可以了。命令模式相对来说实现起来比较困难，词典必须要由程序员自己编写，然后再进行编程，最后还要根据语音词典进行处理和更正。识别模式与命令模式最大的不同就是，程序员要根据词典内容进行代码的核对与修改。

自然语言处理，是实现人机间自然语言通信的重要手段，其包括两个部分，自然语言理解(Natural Language Understanding，NLU)和自然语言生成(Natural LanguageGeneration，NLG)，即能使计算机既能理解自然语言文本的意义，也能以自然语言文本来表达给定的意图、思想等。自然语言理解是建立一种计算机模型，自然语言理解以语言学为基础，融合逻辑学、心理学和计算机科学等学科，试图解决以下问题：语言究竟是怎样组织起来传输信息的？人又是怎样从一连串的语言符号中获取信息的？换种表达就是，通过语法、语义、语用的分析，获取自然语言的语义表示，理解自然语言文本所表达的意图。而自然语言生成是人工智能和计算语言学的分支,相应的语言生成***是基于语言信息处理的计算机模型, 其工作过程与自然语言分析相反,是从抽象的概念层次开始,通过选择并执行一定的语义和语法规则来生成文本。

语音合成是一种可以将任意文本转换成相应语音的技术。传统的语音合成***通常包括前端和后端两个模块。前端模块主要是对输入的文本进行分析，提取后端模块所需要的语言信息，一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形，一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成(或称拼接合成)。对于参数合成而言，该方法在训练阶段对语言声学特征、时长信息进行上下文相关建模，在合成阶段通过时长模型和声学模型预测声学特征参数，对声学特征参数做后处理，最终通过声码器恢复语音波形。该方法在语音库相对较小的情况下，具有较为稳定的合成效果，而缺点在于统计建模带来的声学特征参数“过平滑”问题，以及声码器对音质的损伤。

对于拼接合成而言，训练阶段与参数合成基本相同，在合成阶段通过模型计算代价来指导单元挑选，采用动态规划算法选出最优单元序列，再对选出的单元进行能量规整和波形拼接。拼接合成直接使用真实的语音片段，能够最大限度保留语音音质；缺点是需要的音库较大，而且无法保证领域外文本的合成效果。因而前端模块需要较强的语言学背景，需要特定领域的专家支持，后端模块中的参数***需要对语音的发声机理有一定的了解，由于传统的参数***建模时存在信息损失，限制了合成语音表现力的进一步提升。而同为后端***的拼接***则对语音数据库要求较高，同时需要人工介入制定很多挑选规则和参数。这些都促使端到端语音合成的出现。端到端合成***直接输入文本或者注音字符，***直接输出音频波形。端到端***降低了对语言学知识的要求，可以很方便在不同语种上复制，批量实现几十种甚至更多语种的合成***。并且端到端语音合成***表现出强大丰富的发音风格和韵律表现力。

常见的情绪识别方法主要分成两大类:基于非生理信号的识别和基于生理信号的识别。基于非生理信号的情绪识别方法主要包括对面部表情和语音语调的识别。面部表情识别方法是根据表情与情绪间的对应关系来识别不同的情绪，在特定情绪状态下人们会产生特定的面部肌肉运动和表情模式，如心情愉悦时嘴角上翘，眼部会出现环形褶皱；愤怒时会皱眉，睁大眼睛等。

目前，面部表情识别多采用图像识别的方法来实现。语音语调识别方法是根据不同情绪状态下人们的语言表达方式的不同来实现的，如心情愉悦时说话的语调会比较欢快，烦躁时语调会比较沉闷。基于非生理信号识别方法的优点是操作简单，不需要特殊设备。缺点是不能保证情绪识别的可靠性，因为人们可以通过伪装面部表情和语音语调来掩饰自己的真实情绪，而这种伪装往往不易被发现。其次，对于患有某些特殊疾病的残疾人来说，基于非生理信号识别的方法往往难以实现

基于生理信号的情绪识别方法，主要包括基于自主神经*** (autonomicnervous system)的情绪识别和基于中枢神经***(central nervous system)的情绪识别。基于自主神经***的识别方法是指通过测量心率、皮肤阻抗、呼吸等生理信号来识别对应的情绪状态。这些自主神经***的生理信号虽然无法伪装，能够得到真实的数据，但是由于准确率低且缺乏合理的评价标准，因此不太适合于实际应用。基于中枢神经***的识别方法，是指通过分析不同情绪状态下大脑发出的不同信号来识别相应的情绪。这种方法不易被伪装，并且与其他生理信号识别方法相比识别率较高，因此越来越多的被应用于情绪识别研究。

因为传统的语音交互通过语音识别、语义处理，以及语音合成等单项技术实现了单角色的语音交互，而单一音色进行语音交互，不能有效的与用户进行角色切换互动式体验，也不能感受到用户的情绪，因而无法切换为相应的角色与用户进行语音交互，从而导致机器与人的交互缺乏感情色彩与趣味性。

发明人发现：在目前语音交互***中，单角色语音交互已经能满足大多数应用场景需求，因而客户没有这种多角色语音交互的需求，从而导致多角色语音交互***不能够被足够重视；其次，由于早期的情绪识别技术并不能高效、稳定的识别出用户的情绪，而随着基于生理信号的中枢神经***识别方法的出现，通过分析不同情绪状态下大脑发出的不同信号来识别相应的情绪，具有高识别率，高可靠性，可广泛应用于多角色语音交互场景，如小说播报，儿童玩具等。

发明内容

本发明实施例旨在至少解决上述技术问题之一。

第一方面，本发明实施例提供一种多角色语音的交互方法，多角色语音的交互方法能够在包括本地用户端和远程端的***中实现。在远程端设置语音识别服务器。交互方法包括：

将本地用户端获取的交互音频数据发送到远程端的语音识别服务器进行处理，从语音识别服务器得到交互音频数据的语义识别结果。

语音识别服务器通过对话模型识别语义识别结果，获取对话结果。语音识别服务器根据对话结果获取设定角色信息。

语音识别服务器根据设定角色信息及对话信息合成回复语音。语音识别服务将回复语音发送到本地用户端。本地用户端播放回复语音。

第二方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项多角色语音的交互方法。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项多角色语音的交互方法。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项多角色语音的交互方法。

本发明实施例通过本地用户端获取音频数据，将音频数据发送到远程端的语音识别服务器。语音识别服务器根据音频数据获取其对应的待识别文字数据。通过语义识别模型识别待识别文字数据获取语义识别结果信息。语音识别服务器通过对话模型识别语义识别结果信息，获取对话结果信息及设定角色信息。语音识别服务器根据设定角色信息及对话信息合成回复语音且将发送到本地用户端。本地用户端播放回复语音。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的多角色语音的交互方法的一实施例的流程图；

图2为本发明的多角色语音的交互方法的另一实施例的流程图；

图3为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“***”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地***、分布式***中另一元件交互的，和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供一种多角色语音的交互方法，该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等，本发明对此不作限定。

请参考图1，其示出了本发明一实施例提供的一种多角色语音的交互方法。

本发明中一种多角色语音的交互方法能够在包括本地用户端和远程端的***中实现。在远程端设置语音识别服务器。如图1所示，多角色语音的交互方法包括：

步骤S101，获取音频数据。

本步骤中，本地用户端获取音频数据。音频数据包括语音对话中的问句语音音频数据或答句语音音频数据。

步骤S102，获取语义识别结果信息。

本步骤中，本地用户端将音频数据发送到远程端的语音识别服务器。语音识别服务器根据音频数据获取其对应的待识别文字数据。通过语义识别模型识别待识别文字数据获取语义识别结果信息。

步骤S103，获取对话结果信息。

本步骤中，语音识别服务器通过对话模型识别语义识别结果信息，获取对话结果信息。获取设定角色信息。

步骤S104，语音识别服务器根据对话结果信息获取设定角色信息。

步骤S105，合成回复语音。

本步骤中，语音识别服务器根据设定角色信息及对话信息合成回复语音。

步骤S106，在本地用户端播放回复语音。

本步骤中，语音识别服务将回复语音发送到本地用户端。本地用户端播放回复语音。

在一些可选的实施例中，在远程端设置情绪识别服务器。在步骤S104 还包括：将对话结果信息发送至情绪识别服务器。情绪识别服务器通过本地模型或识别算法获取情感结果信息。

在一些可选的实施例中，情感结果信息包括：性别、年龄、情绪和音色信息。

在一些可选的实施例中，在步骤S105还包括：远程端获取本地用户端的当前角色信息。判断当前角色信息是否为设定角色信息，若否，则将设定角色信息设定为当前角色信息。

在一些可选的实施例中，在步骤S103中包括：语音识别服务器通过基于自然语言算法模型的对话模型识别语义识别结果信息。

在一些可选的实施例中，语义识别结果信息包括：用户说话内容。用户的任务字段。用户任务的意图字段和对话服务的回复语字段。

在一些可选的实施例中，步骤S106包括：语音识别服务将回复语音通过http协议返回16K 16bit的PCM数据发送到本地用户端。

在一些可选的实施例中，在步骤S101中包括：本地用户端配置包括智能移动终端的设备，通过智能移动终端采集音频数据。

在一些可选的实施例中，音频数据为格式为16K 16bit单通道的PCM 脉冲编码调制数据。

本发明采用情绪识别、性别、年龄识别技术、精确识别出用户信息，根据客户信息，语音对话***推荐合适的角色与用户进行情感交互。比如：语音***识别出用户为中年男性，可推荐知性女性与之交流；又如，***识别出用户情感失落，可推荐用户听一下悦耳的歌曲，缓解压抑的心情。

本发明主要是用麦克风采集用户的声音，通过网络将声音数据发送给远程情绪识别服务，经过远程服务对声音进行分析，然后将分析后的数据(包括性别、年龄、心情，以及推荐的一种音色信息)返回给终端，此时本地接收到角色信息，将会自动切换角色，应用后续将使用该角色的声音与您交流。主要创新是能根据当前用户的情感信息自动切换人物角色，其次，与离线功能相比，使用在线语音对话服务，在线TTS服务，能够支持更多的人物角色与您进行语音交流，并且内容更加丰富，支持咨询天气、听音乐、故事、日历等。

本发明另一实施例中提供了一种多角色语音的交互方法，其实施例中包括两种情景。参照图2所示：

情景1切换角色：

步骤一：输入音频。

步骤二：音频采集模块进行音频采集。

音频是实时采集流式送入识别引擎，格式为16K 16bit单通道的PCM 数据。

PCM(Pulse-code-modulation)是模拟信号以固定的采样频率转换成数字信号后的表现形式。

步骤三：将音频送入情绪识别内核。

客户端主要是通过网络将用户声音发送给情绪识别服务，由远程服务返回结果。输出的情感结果信息，主要包括性别、年龄、情绪、音色信息。另外，识别算法、各网络是公司研发成员负责，属于保密信息。

步骤四；将情绪识别后的结果，进行角色解析。

通过websocket协议将流式音频给语音情绪识别服务后，服务端会返回对应的数据表示此时的用户情绪，用户端侧通过对应字段解析，比如：

性别：female表示女性,male表示男性；

年龄：child(小孩)，adult(中年),elder(老人)；

情绪：angry(生气),happy(开心),sad(难过),neutral(平常心)；

音色：voiceId(角色ID)；

步骤五：判断是否是切换角色切换，若需要切换角色，则设置角色信息；反之结束。

用户启动应用程序，检测到是中年男性、欢快的心情，此时应用会推荐一款音色为林志玲的声音与之进行交流，并设置其角色为林志玲；然而由于用户突然接收到不好的信息，比如发生重大事故，股票下跌等，心情难过，情绪低下，说话声有所变化，此时与***应用进行交流，***检测到语音流改变，检测到用户情绪为难过，应用则会自动切换难过的音色(比如深沉的声音，郭德纲)与之交流，并且修改当前角色信息。.角色信息主要包含：性别、年龄、情绪、音色，具体描述如下

性别：female表示女性,male表示男性；

年龄：child(小孩)，adult(中年),elder(老人)；

情绪：angry(生气),happy(开心),sad(难过),neutral(平常心)；

音色：voiceId(发音人的ID)；

情景2：语音交互

步骤一：输入音频。

步骤二：音频采集模块进行音频采集。

步骤三：将音频分别送入在线识别服务。

识别服务不在本地实现的，而在远程服务器上，本地与远程通过网络协议进行通信。本地主要是采集16K 16bit单通道的音频，通过websocket 网络协议将语音流数据发送给服务端，有服务端进行处理，返回结果。

比如：我们说：“今天天气怎么样”，本地应用程序通过麦克风采集PCM音频数据，然后将语音流发送给服务端，而服务端收到PCM,将音频转成文字通过websocket返回给用户端侧。

步骤四：将识别结果送入在线语义服务。

识别结果主要包括：

识别的文本，即用户的说法，比如说话的内容。

识别文本对应的拼音。

置信度字段，可用于评估当前语音流转化成文字是否可信，范围是 (0-1)，越接近1，认为结果越准确。

用户端侧将声音发送给语音识别服务将声音转成文本，然后将文本发送给语义服务，使用研发人员提供的自然语言理解算法(NLU)进行解析、处理，最后输出对应的语义结果(语义槽slots信息)。

比如：用户说“今天北京的天气怎么样”语义服务会将文字进行解析，输出语义槽关键内容(日期：今天；城市：北京；目标：天气；意图：查询天气；)，让服务程序能理解用户的意图，做出对应的处理。

示例：

步骤五：将语音结果送入对话服务

对话处理过程是部署在远程服务器上，接收语义服务的语义槽(slots) 信息，解析出用户的意图，然后根据自然语言生成算法(NLG)输出对应的回复语。

结果示例：包括用户说话内容(input字段)；用户的任务字段(task)；用户任务的意图字段(intenName)；对话服务的回复语字段(nlg)

"dm":{

"input":"今天北京的天气怎么样",

"task":"天气",

"intentName":"查询天气",

"nlg":"北京今天全天多云，气温-1～9℃，比苏州市今天低8度，有北风转南风1级，空气质量良，天气比较冷，外出注意保暖。以上信息由墨迹天气为您播报。"

}

步骤六：获取角色信息，将对话结果送入合成服务

是的，通过情绪识别服务抛出用户的情绪结果，程序会推荐一种角色信息，然后将语音回复的结果，以及角色voiceId送入合成服务，将文本转化成16K 16bit的语音流，再用播放器进行播报。

比如：用户说“今天北京的天气怎么样”，语音对话服务返回回复语“北京的天气晴”，应用程序再将语音对话回复语，以及voiceId(如林志玲)信息发给合成服务，然后服务返回音频流，此时，应用则是林志玲的声音与用户进行交流。

是的，将语音服务返回的回复语，进行合成，然后播报，完成一轮的语音交互。

语音合成主要是将一段文本转化成一段指定角色的音频。由于本地合成每个角色资源较大，这样导致角色有限，因而使用的是在线语音合成，资源、以及程序部署在远程服务上。

合成的具体内容：取决于用户的交流，根据语音对话返回的回复语。

合成流程：

应用通过http协议与服务进行通信，将语音对话服务的回复语、以及角色的voiceId,发给远程服务器，然后远程服务器流式通过http协议返回16K 16bit的PCM数据，此时用户端侧将数据送入播放模块，进行播报。

步骤七：将合成后的音频，进行播报。

本发明中的多角色语音的交互方法中合成音频可以采用离线处理，其合成速度快，合成资源量大，造成离线角色少。离线语音交互占用CPU 较高，内存较大

本发明的有效效果在于：本发明支持多角色语音交互，根据用户的情绪状态，推荐适合的角色与之进行对话交流，占用资源较少，具有高可靠、高稳定的优点，自动切换角色功能，很大程度上提高了语音交互的趣味性，与目前市面上多角色交互方案相比，鲁棒性更好。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项多角色语音的交互方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项多角色语音的交互方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行多角色语音的交互方法。

图3是本申请另一实施例提供的执行多角色语音的交互方法的电子设备的硬件结构示意图，如图3所示，该设备包括：

一个或多个处理器310以及存储器320，图3中以一个处理器310为例。

执行多角色语音的交互方法的设备还可以包括：输入装置330和输出装置430。

处理器310、存储器320、输入装置330和输出装置430可以通过总线或者其他方式连接，图3中以通过总线连接为例。

存储器320作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的多角色语音的交互方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例多角色语音的交互方法。

存储器320可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据多角色语音的交互设备的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器320可选包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至多角色语音的交互设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可接收输入的数字或字符信息，以及产生与多角色语音的交互设备的用户设置以及功能控制有关的信号。输出装置430可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器320中，当被所述一个或者多个处理器310执行时，执行上述任意方法实施例中的多角色语音的交互方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC 设备等。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的机载电子装置，例如安装上车辆上的车机装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多角色语音的交互方法，所述交互方法能够在包括本地用户端和远程端的***中实现；在所述远程端设置语音识别服务器；所述交互方法包括：

将所述本地用户端获取的交互音频数据发送到所述远程端的语音识别服务器进行处理，从所述语音识别服务器得到所述交互音频数据的语义识别结果；

所述语音识别服务器通过对话模型识别所述语义识别结果，获取对话结果；所述语音识别服务器根据所述对话结果获取设定角色信息；

所述语音识别服务器根据所述设定角色信息及所述对话信息合成回复语音；所述语音识别服务将所述回复语音发送到本地用户端；所述本地用户端播放所述回复语音。

2.根据权利要求1所述的交互方法，其中，所述交互音频数据包括：问句语音音频数据或答句语音音频数据。

3.根据权利要求1所述的交互方法，其中，所述将所述本地用户端获取的交互音频数据发送到所述远程端的语音识别服务器进行处理，从所述语音识别服务器得到所述交互音频数据的语义识别结果的步骤包括：

所述语音识别服务器根据所述音频数据获取其对应的待识别文字数据；通过语义识别模型识别所述待识别文字数据获取语义识别结果信息。

4.根据权利要求1所述的交互方法，其中，在所述远程端设置情绪识别服务器；

所述语音识别服务器根据所述对话结果获取设定角色信息的步骤还包括：将所述对话结果信息发送至所述情绪识别服务器；所述情绪识别服务器通过本地模型或识别算法获取情感结果信息；所述情感结果信息包括：性别、年龄、情绪和音色信息。

5.根据权利要求4所述的交互方法，其中，所述语音识别服务器根据所述设定角色信息及所述对话信息合成回复语音的步骤还包括：所述远程端获取所述本地用户端的当前角色信息；判断所述当前角色信息是否为设定角色信息，若否，则将所述设定角色信息设定为当前角色信息。

6.根据权利要求1所述的交互方法，其中，所述语音识别服务器通过对话模型识别所述语义识别结果信息，获取对话结果信息的步骤包括：所述语音识别服务器通过基于自然语言算法模型的对话模型识别所述语义识别结果信息；

所述语义识别结果信息包括：用户说话内容；用户的任务字段；用户任务的意图字段和对话服务的回复语字段。

7.根据权利要求1所述的交互方法，其中，所述语音识别服务将所述回复语音发送到本地用户端；所述本地用户端播放所述回复语音的步骤包括：所述语音识别服务将所述回复语音通过http协议返回16K 16bit的PCM数据发送到本地用户端。

8.根据权利要求1所述的交互方法，其中，所述本地用户端获取音频数据的步骤包括：所述本地用户端配置包括智能移动终端的设备，通过所述智能移动终端采集音频数据；

所述音频数据为格式为16K 16bit单通道的PCM脉冲编码调制数据。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。