CN111803936B

CN111803936B - 一种语音通信方法及装置、电子设备、存储介质

Info

Publication number: CN111803936B
Application number: CN202010688812.5A
Authority: CN
Inventors: 王靖纯; 于靖; 张静雅
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2024-05-31
Anticipated expiration: 2040-07-16
Also published as: CN111803936A

Abstract

本发明实施例提供一种游戏中语音通信的方法、装置、电子设备和存储介质,应用于第一终端，所述第一终端与第二终端连接，所述方法包括：采集语音信息；在采集语音信息的过程中，监测用户的面部信息；当所述用户的面部信息与预设的第一面部特征匹配时，基于所述语音信息生成多媒体数据；将所述多媒体数据发送至第二终端，通过在监测到用户说话的时候才将用户的语音传输给其他用户，其他时间则关闭用户的语音输出功能，使得用户所在环境的环境音无法影响到其他用户，并且无需通过手动操作或识别与玩家语音或特定动作对应的开启或关闭命令即可实现语音的输出或关闭，提高了玩家的语音交流体验。

Description

一种语音通信方法及装置、电子设备、存储介质

技术领域

本发明涉及计算机领域，特别是涉及一种语音通信方法及装置、电子设备、存储介质。

背景技术

近几年，随着互联网的发展，网络游戏逐渐走进大众的视野。为了能够获得更好的游戏体验，许多用户在玩网络游戏的过程中往往会利用语音通话应用程序或网络游戏内置的语音通话功能，与游戏中的其他玩家用户进行交流。

然而在现有游戏的实时语音中，由于每个玩家所处的环境不一样，有时会伴随着各种嘈杂的环境音，导致实时语音体验特别差。尤其是在多人同时进行语音通话的时候，嘈杂的环境音往往会将发言者的声音所覆盖，甚至会成为噪音，影响到其他参与多人实时语音通话的玩家，使得玩家不得不关闭实时通话语音，相关技术提供了一种采用输入文字，或将语音转换成文字显示的方式与其他用户进行交流，但在游戏激烈的战斗中输入文字需耗时较多，语音转换成文字也面临这转换效率差的问题，对游戏中的沟通和社交造成较大影响；在另一相关技术中也提供了一种通过识别玩家的语音或特定动作(如眨眼、摇头等)形成一通话开启命令，根据通话开启命令启动通话功能，并在通话结束后通过玩家的另一语音或特定动作生成一通话关闭命令以关闭通话功能的交流方式，但是该方式每次使用时均需要玩家输出通话开启和通话关闭命令，影响了玩家的交流体验。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种语音通信方法及装置、电子设备、存储介质，包括：

为了解决上述问题，本发明实施例公开了一种语音通信方法，所述方法包括：

采集音频数据；

在所述采集音频数据的过程中，监测用户的面部动作信息；

响应所述用户的面部动作信息匹配预设的第一面部特征，从所述音频数据中确定与所述面部动作信息对应的目标多媒体数据；

向第二终端发送所述目标多媒体数据。

优选地，所述响应所述用户的面部动作信息匹配预设的第一面部特征，从所述音频数据中确定与所述面部动作信息对应的目标多媒体数据，包括：

当监测到所述面部动作信息匹配第一面部特征时，确定第一时间点；

根据所述第一时间点，从所述音频数据中确定目标多媒体数据。

优选地，所述根据所述第一时间点，从所述音频数据中确定目标多媒体数据，包括：

根据所述第一时间点以及预设第一时间差，确定初始发送时间；

根据所述初始发送时间，从所述音频数据中确定目标多媒体数据。

优选地，所述音频数据为流媒体数据；所述目标多媒体数据为以所述初始发送时间为起始点确定的流媒体数据。

优选地，所述预设第一时间差是根据第一目标面部动作模型确定的时间阈值；

所述第一目标面部动作模型通过将第一样本数据输入第一初始面部动作模型，根据输出的结果对所述第一初始面部动作模型中各个节点的权值进行调整，直至输出的结果符合第一预设值获得。

优选地，所述方法还包括：

在所述向第二终端发送所述多媒体数据的过程中，监测所述面部动作信息是否与预设的第二面部特征匹配；

当监测到所述面部动作信息与预设的第二面部特征匹配时，停止向所述第二终端发送所述多媒体数据。

优选地，通过所述第一终端设备提供图形用户界面，所述图形用户界面显示的内容包括部分或全部游戏场景，以及位于所述游戏场景的虚拟角色，所述方法还包括：

根据所述音频数据，实时变更所述虚拟角色的动作。

优选地，所述当监测到所述面部动作信息与预设的第二面部特征匹配时，停止向所述第二终端发送所述目标多媒体数据的步骤，包括：

当监测到所述面部动作信息与预设的第二面部特征匹配时，确定第二时间点；

根据所述第二时间点以及预设第二时间差，确定停止发送时间；

在当前时间达到停止发送时间时，停止发送所述目标多媒体数据。

优选地，所述预设第二时间差是根据第二目标面部动作模型确定的时间阈值；

所述第二目标面部动作模型通过将第二样本数据输入第二初始面部动作模型，根据输出的结果对所述第二初始面部动作模型中各个节点的权值进行调整，直至输出的结果符合第二预设值获得。

优选地，所述根据所述第一时间点以及预设第一时间差，确定初始发送时间之后，还包括：

当监测到所述面部动作信息与预设的第二面部特征匹配时，确定第二时间点以及预设第二时间差；

所述根据所述初始发送时间，从所述音频数据中确定目标多媒体数据的步骤，包括：

采用所述第一时间点和所述预设第一时间差确定第三时间点；

采用所述第二时间点和所述预设第二时间差确定第四时间点；

采用目标时间内的音频数据确定目标多媒体数据；所述目标时间为所述第三时间点至所述第四时间点的时间。

优选地，所述多媒体数据包括字符数据，所述采用目标时间内的音频数据确定目标多媒体数据，包括：

将所述音频数据转换为对应的字符数据，获得目标多媒体数据。

本发明实施例还公开了一种语音通信装置，应用于第一终端，所述装置包括：

采集模块，用于采集音频数据；

面部动作信息监测模块，用于在所述采集音频数据的过程中，监测用户的面部动作信息；

目标多媒体数据确定模块，用于响应所述用户的面部动作信息匹配预设的第一面部特征，从所述音频数据中确定与所述面部动作信息对应的目标多媒体数据；

发送模块，用于向第二终端发送所述目标多媒体数据。

本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，计算机程序被处理器执行时实现如上语音通信方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上语音通信方法的步骤。

本发明具有以下优点：

在本发明的实施例中，采集音频数据，在采集音频数据的过程中，监测用户的面部动作信息，响应用户的面部动作信息匹配预设的第一面部特征，从音频数据中确定与面部动作信息对应的目标多媒体数据，向第二终端发送目标多媒体数据。通过在监测到用户说话的时候才将用户的语音传输给其他用户，其他时间则关闭用户的语音输出功能，使得用户所在环境的环境音无法影响到其他用户，并且无需通过手动操作或识别与玩家语音或特定动作对应的开启或关闭命令即可实现语音的输出或关闭，提高了玩家的语音交流体验。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音通信方法的步骤流程图；

图2是本发明实施例提供的另一种语音通信方法的步骤流程图；

图3是本发明实施例提供的一种语音通信装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

在本发明其中一种实施例中的语音通信方法可以运行于终端设备或者是服务器。其中，终端设备可以为本地终端设备。当语音通信方法运行于服务器时，该语音通信方法则可以基于云交互***来实现与执行，其中，云交互***包括服务器和客户端设备。

在一可选的实施方式中，云交互***下可以运行各种云应用，例如：云游戏。以云游戏为例，云游戏是指以云计算为基础的游戏方式。在云游戏的运行模式下，游戏程序的运行主体和游戏画面呈现主体是分离的，语音通信方法的储存与运行是在云游戏服务器上完成的，客户端设备的作用用于数据的接收、发送以及游戏画面的呈现，举例而言，客户端设备可以是靠近用户侧的具有数据传输功能的显示设备，如，移动终端、电视机、计算机、掌上电脑等；但是进行语音通信方法的终端设备为云端的云游戏服务器。在进行游戏时，玩家操作客户端设备向云游戏服务器发送操作指令，云游戏服务器根据操作指令运行游戏，将游戏画面等数据进行编码压缩，通过网络返回客户端设备，最后，通过客户端设备进行解码并输出游戏画面。

在一可选的实施方式中，终端设备可以为本地终端设备。以游戏为例，本地终端设备存储有游戏程序并用于呈现游戏画面。本地终端设备用于通过图形用户界面与玩家进行交互，即，常规的通过电子设备下载安装游戏程序并运行。该本地终端设备将图形用户界面提供给玩家的方式可以包括多种，例如，可以渲染显示在终端的显示屏上，或者，通过全息投影提供给玩家。举例而言，本地终端设备可以包括显示屏和处理器，该显示屏用于呈现图形用户界面，该图形用户界面包括游戏画面，该处理器用于运行该游戏、生成图形用户界面以及控制图形用户界面在显示屏上的显示。

参照图1，示出了本发明实施例提供的一种语音通信方法的步骤流程图，应用于第一终端，其中，第一终端可以是前述提到的本地终端设备，也可以是前述提到的云交互***中的客户端设备。所述方法具体可以包括如下步骤：

步骤101，采集音频数据；

需要说明的是，第一终端可以包括各种移动终端，例如，手机、平板电脑、游戏机、PDA等。终端的操作***可以包括Android(安卓)、IOS、Windows Phone、Windows等等，通常可以支持各种游戏应用的运行。

音频数据即用户所在环境的所有声音，例如用户在游戏过程中与队友之间的交流对话，也包括用户所在环境的噪音等。第一终端可以是内置有语音采集模块的终端，又或者可以通过与用于采集语音信息的外部设备，如麦克风进行连接，当用户选择开启语音输入功能后，第一终端对用户所在环境的所有音频数据进行采集。

步骤102，在所述采集音频数据的过程中，监测用户的面部动作信息；

具体的，第一终端具有摄像头，或者具有用于与外部摄像头进行连接的接口。在采集音频数据时，第一终端可以通过摄像头监测用户的面部动作信息，例如用户面部表情的变化，嘴部的弧度等。

步骤103，响应所述用户的面部动作信息匹配预设的第一面部特征，从所述音频数据中确定与所述面部动作信息对应的目标多媒体数据；

第一终端中保存有第一面部特征，第一面部特征可以是用户在说话时，面部肌肉的运动幅度、表情变化、嘴部运动频率以及嘴角弧度等数据，当第一终端通过监测所获取的用户的面部动作信息与第一终端中预设的第一面部特征匹配时，即可认为用户开始讲话，因此从之前已采集到的用户的音频数据中确定与用户开始讲话时刻对应的多媒体数据，多媒体数据可以包括音频数据，例如实时语音、录音，也可以包括字符数据，例如将语音信息转化成对应的文字。

步骤104，向第二终端发送所述目标多媒体数据。

在生成了多媒体数据后，可以将多媒体数据发送至第二终端。例如，用户在游戏过程中将音频数据输入第一终端后，生成实时语音多媒体数据，第一终端将实时语音发送至游戏队友的第二终端中，游戏队友即可通过第二终端接听到用户的实时语音。

在本发明的实施例中，通过采集音频数据，在采集音频数据的过程中，监测用户的面部动作信息，响应用户的面部动作信息匹配预设的第一面部特征，从音频数据中确定与面部动作信息对应的目标多媒体数据，向第二终端发送目标多媒体数据。通过在监测到用户说话的时候才将用户的语音传输给其他用户，未监测到用户说话时则关闭语音传输，使得用户所在环境的环境音无法影响到其他用户，并且无需通过手动操作或识别与玩家语音或特定动作对应的开启或关闭命令即可实现语音的输出或关闭，提高了玩家的语音交流体验。

参照图2，示出了本发明实施例提供的另一种语音通信方法的步骤流程图，具体可以包括如下步骤：

步骤201，采集音频数据；

具体的，在多人电子游戏中，用户往往需要与其他游戏队友进行交流，以获取更好的游戏体验。由于在一些战斗较为激烈的即时多人游戏中，采用打字的交流方式速度较慢，用户在打字过程中也无法专注于游戏，效果较差，因此玩家之间往往采用语音的方式进行交流。

当用户选择开启语音输入功能时，第一终端可以通过麦克风等语音信息采集组件对用户所在环境的全部音频数据进行采集。

步骤202，在所述采集音频数据的过程中，监测用户的面部动作信息；

第一终端对用户所在环境的音频数据进行采集时，可以通过摄像头对用户的面部动作信息进行监测。

步骤203，当监测到所述面部动作信息匹配第一面部特征时，确定第一时间点；

步骤204，根据所述第一时间点，从所述音频数据中确定目标多媒体数据；

当摄像头在持续监测用户的面部动作信息过程中，判断用户的面部动作信息与终端内存储的面部特征向匹配时，例如监测到的用户嘴角弧度符合终端内存储的嘴角弧度阈值范围，即可认为用户开始讲话，因此将匹配成功的时间确定为第一时间点。按照第一时间点，可以从采集的音频数据中确定与用户开始讲话的时间所对应的音频数据，从而获取到用户开始讲话的语音。

在本发明一种优选实施例中，所述根据所述第一时间点，从所述音频数据中确定目标多媒体数据的步骤，还包括如下子步骤：

在实际监测过程中，由于用户的面部信息变化较快，监测可能会产生误差，例如监测的面部特征为用户的嘴角弧度时，当用户讲话时，由于刚开始声音较小，嘴角弧度的变化不明显，导致第一终端在监测用户的面部动作信息时未能将已经开始讲话的用户嘴角弧度与第一终端中存储的嘴角弧度阈值匹配成功，从而导致等到匹配成功的时候，用户可能实际上已经讲了一段时间。因此为了防止未能及时匹配而导致在生成多媒体数据时，用户语音已缺失一部分，第一终端具有预设第一时间差。

预设第一时间差是根据第一目标面部动作模型确定的时间阈值，面部动作模型可以是神经网络模型，由大量的节点相互联接构成。每个节点代表一种特定的输出函数，称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权值。在建立神经网络模型，即第一初始面部动作模型后，可以将用户的各种面部动作信息以及预设的第一终端识别对应的面部动作信息所需的时间作为训练的样本输入神经网络模型中，将输出的结果，即当前神经网络模型对于用户各种面部动作信息识别的时间，与预设的时间进行比较，根据两者之间的差值对神经网络模型的参数，例如各个权值进行调整，重复该过程直至输出的结果趋于预设的时间值，即代表神经网络模型训练完毕，得到可以根据用户不同的面部动作信息计算对应的预设第一时间差的第一目标面部动作模型。可选的，在音频传输的过程中，还可以根据用户反馈的误差调整参数对预设第一时间差进行校正，并将校正后的数据以及对应的面部动作信息对第一初始面部动作模型进行实时优化。

具体的，第一终端监测用户的面部动作信息，例如面部肌肉的变化和嘴角弧度，并与第一终端中保存的面部特征数据进行比对，当两者匹配时，将监测到的时间确定为第一时间点，同时采用面部动作模型计算该匹配的面部动作信息所对应的预设第一时间差，利用第一时间点、预设第一时间差和采集的音频数据，生成多媒体数据。例如，当第一终端监测到用户开始讲话的时间为第52秒，将第52秒确定为第一时间点，设通过面部动作模型获取的预设第一时间差为3秒，则利用52-3得到49，第49秒开始的音频数据即为用于生成多媒体数据的音频数据，音频数据可以为流媒体数据，对应的，生成的多媒体数据则是以初始发送时间为起始点确定的流媒体数据。

在本发明的另一种优选实施例中，所述根据所述第一时间点以及预设第一时间差，确定初始发送时间之后，还包括如下子步骤：

所述根据所述初始发送时间，从所述音频数据中确定目标多媒体数据的步骤，还包括如下子步骤：

具体的，第二面部特征可以是用于识别用户停止讲话的面部特征，例如面部肌肉、面部表情、嘴部形状以及嘴角弧度等，当然也可以是用户预先录入第一终端的，与讲话的面部特征相关的自定义表情，本申请对此不作限制。

在实际中，生成的多媒体数据也可以为录音，即并非用户实时输入的语音，而是在过往时间段内用户所输入的音频数据。通过利用第一时间点和预设第一时间差确定第三时间点，即用户实际开始讲话的时刻，利用第二时间点和预设第二时间差确定第四时间点，即用户停止讲话的时刻，根据用户实际开始讲话的时刻与实际停止讲话的时刻，确定用于生成录音的时间段，采用这段时间的音频数据生成多媒体数据。需要注意的是，预设第二时间差可以是根据第二目标面部动作模型确定的时间阈值，第二目标面部动作模型与第一目标面部动作模型的获取方法类似，具体可参照第一目标面部动作模型的描述，在此不再赘述。

在本发明另一种优选实施例中，所述多媒体数据包括字符数据，所述采用目标时间内的音频数据确定目标多媒体数据的步骤，包括如下子步骤：

多媒体数据也可以为字符数据，因此在生成录音后，第一终端可以将录音的音频数据转换成对应的字符数据，即转换成文字的形式。

步骤205，向第二终端发送所述目标多媒体数据。

用户可以对多媒体数据的类型进行选择，当用户选择了实时语音的类型时，生成的多媒体数据为音频数据，第一终端将生成的音频数据实时输出至第二终端，第二终端在接收到音频数据后可实时进行播放。例如用户在游戏中输入语音信息后，第一终端将生成的音频数据实时输出至游戏队友的第二终端，游戏队友通过第二终端即可收听用户的实时语音，与用户进行实时交流。

当然，用户也可以选择录音的类型，选择录音时，第一终端将在用户讲话结束时，将讲话开始至结束时间段内的音频数据传输至第二终端。用户还可以选择文字的类型，选择文字时，第一终端会将讲话开始至结束时间段内的音频数据转换为字符数据，并将字符数据传输至第二终端，第二终端以文字的形式展示用户的讲话内容。

在本发明的另一种优选实施例中，通过所述第一终端设备提供图形用户界面，所述图形用户界面显示的内容包括部分或全部游戏场景，以及位于所述游戏场景的虚拟角色，所述步骤205还包括如下子步骤：

根据所述音频数据，实时变更所述虚拟角色的动作。

当用户在进行音控类游戏时，需要通过输入特定的音频数据从而驱动游戏中的虚拟角色执行相应的动作，但很多时候由于用户所处的环境噪音较大，终端容易采集到环境噪音，游戏一旦将环境噪音识别为特定的音频数据，则会出现虚拟角色不受用户控制，动作出现紊乱的情况，因此可以在监测到用户开始讲话后，再根据用户讲话的音频数据来变更游戏中虚拟角色的动作，减少环境噪音对游戏的影响。

在本发明的另一种优选实施例中，所述步骤205之后还包括：

在所述向第二终端发送所述目标多媒体数据的过程中，监测所述面部动作信息是否与预设的第二面部特征匹配；

在监测到用户的面部信息与第二面部特征匹配时，例如面部肌肉运动的幅度降至预置的阈值，嘴角弧度小于预置的阈值，即可认为用户讲话完毕，后续的语音信息均为环境产生的噪声，因此停止音频数据的实时传输，避免第二终端接收到后续的噪声，影响游戏中的语音交流。

在本发明一种优选实施例中，所述当监测到所述面部动作信息与预设的第二面部特征匹配时，停止向所述第二终端发送所述多媒体数据还包括如下子步骤：

第二时间点可认为是第一终端所监测到的，用户停止讲话的时间点，但由于监测有误差，有可能会出现用户在讲话即将结束的时候，由于面部信息逐渐恢复至停止讲话状态，第一终端过早将用户的面部信息与第二面特征匹配，从而导致用户讲话最后的内容被遗漏。因此可以根据计算得到的预设第二时间差对第二时间点进行校正，从而避免用于生成多媒体数据的语音信息产生遗漏。例如，第一终端所监测到的第二时间点为第87秒，即第一终端判断用户在第87秒停止了讲话，预设第二时间差为4秒，则利用87+4得到91，在第91秒时，可以认为用户的讲话已经真正停止，因此在第91秒的时候再停止音频数据的实时输出。

应用本发明实施例，通过采集音频数据,在采集音频数据的过程中，监测用户的面部动作信息,当用户的面部动作信息与预设的第一面部特征匹配时，基于音频信息确定目标多媒体数据,将目标多媒体数据实时输出至第二终端,当监测到用户的面部动作信息与预设的第二面部特征匹配，停止将目标多媒体数据实时输出至第二终端,可以避免用户讲话结束后，语音持续输出而导致的环境噪音对游戏中的语音交流的影响，提高了游戏中用户之间语音交流的效果与用户的使用体验。

为了使本领域技术人员能够更好地理解本发明方案，以下通过举例对本申请加以示例性说明，但应当理解的是，本申请并不限于此。

用户在进入游戏后，通过终端图形用户界面上的语音输入虚拟控件开启语音输入功能，并选择实时语音。终端在接收到用户的指令后开始对用户的音频数据进行采集，其中包括了用户说话的声音和用户所在环境的环境声。

在音频数据采集的过程中，终端通过前置摄像头监测用户面部两颊肌肉运动频率和嘴唇开合的频率，并将监测的数据与存储的面部特征数据进行比对，当两者均匹配通过时，确认用户开始讲话，将监测到对应数据的时间点记录下来，假设该时间点为第24秒。为了防止遗漏用户在刚开始讲话时的内容，将第24秒的用户面部动作信息输入面部动作模型，得到对应的预设第一时间差为3秒，在第24秒的基础上减去第一时间差3秒，得到用户真正开始讲话的时间第21秒，终端基于从第21秒开始采集的语音信息生成音频数据，并实时将音频数据发送至其他游戏玩家的终端，其他游戏玩家通过终端可以接收并播放用户的音频数据。当用户在讲话过程中，终端将持续采集语音信息并生成音频数据进行输出。

而在用户讲话停止后，终端监测到用户的面部两颊肌肉运动频率和嘴唇开合频率下降到无法匹配存储的面部特征数据时，确定用户讲话结束，记录监测到数据的时间点第32秒。为了防止用户在停止讲话前小段时间内的内容被遗漏，将第32秒加上预设第二时间差2秒，得到用户真正停止讲话的时间点第34秒，在第34秒的时候终端结束将音频数据实时传输至第二终端的操作，终端进入采集用户语音信息并监测用户的面部动作信息，但并不输出语音的状态。

本实施例通过将音频数据采集和音频数据输出的过程独立开来，持续进行音频数据的采集，在监测到用户讲话时自动通过面部动作模型对用户开始讲话的时间进行计算确定，以用户开始讲话的时间作为起始时间点输出音频数据，从而使得输出的语音数据既能够准确包含用户的讲话内容，不会遗漏，又能够减少环境噪音的干扰。用户在整个使用过程中只需要正常进行语音交流即可，无需进行任何额外操作，简单便捷，使用体验极佳。

此外，除了实时语音，用户还可以选择录音和文字。当用户选择录音后，终端在监测到用户开始讲话时并不直接将音频数据进行实时传输，而是继续采集用户的语音信息，直至监测到用户讲话结束。基于开始讲话到讲话结束这段时间确认采集的音频数据，然后将音频数据发送至第二终端，其他游戏玩家通过第二终端可以接收并收听到用户的录音。而若用户选择了文字，终端则会将录音时生成的音频数据转换成字符数据，将字符数据发送至第二终端，其他游戏玩家可以通过第二终端的显示屏查看用户所发送的文字。

参照图3，示出了本发明一实施例提供的一种语音通信装置的结构框图，所述装置可以包括如下模块：

采集模块301，用于采集音频数据；

面部动作信息监测模块302，用于在所述采集音频数据的过程中，监测用户的面部动作信息；

目标多媒体数据确定模块303，用于响应所述用户的面部动作信息匹配预设的第一面部特征，从所述音频数据中确定与所述面部动作信息对应的目标多媒体数据；

发送模块304，用于向第二终端发送所述目标多媒体数据。

在本发明一实施例中，所述目标多媒体数据确定模块303包括：

第一时间点确定子模块，用于当监测到所述面部动作信息匹配第一面部特征时，确定第一时间点；

第一目标多媒体数据子模块，用于根据所述第一时间点，从所述音频数据中确定目标多媒体数据。

在本发明一实施例中，所述第一目标多媒体数据子模块还包括：

初始发送时间单元，用于根据所述第一时间点以及预设第一时间差，确定初始发送时间；

第一目标多媒体数据确定单元，用于根据所述初始发送时间，从所述音频数据中确定目标多媒体数据。

在本发明一实施例中，所述装置还包括：

第二面部特征监测模块，用于在所述向第二终端发送所述目标多媒体数据的过程中，监测所述面部动作信息是否与预设的第二面部特征匹配；

停止发送模块，用于当监测到所述面部动作信息与预设的第二面部特征匹配时，停止向所述第二终端发送所述多媒体数据。

在本发明一实施例中，通过所述第一终端设备提供图形用户界面，所述图形用户界面显示的内容包括部分或全部游戏场景，以及位于所述游戏场景的虚拟角色，所述目标多媒体数据确定模块303还包括：

动作变更子模块，用于根据所述音频数据，实时变更所述虚拟角色的动作。

在本发明一实施例中，所述停止发送模块还包括：

第二时间点确定子模块，用于当监测到所述面部动作信息与预设的第二面部特征匹配时，确定第二时间点；

停止发送时间确定子模块，用于根据所述第二时间点以及预设第二时间差，确定停止发送时间；

目标多媒体数据停止发送子模块，用于在当前时间达到停止发送时间时，停止发送所述目标多媒体数据。

第二面部特征匹配单元，用于当监测到所述面部动作信息与预设的第二面部特征匹配时，确定第二时间点以及预设第二时间差；

所述第一目标多媒体数据确定单元还包括：

第三时间点确定子单元，用于采用所述第一时间点和所述预设第一时间差确定第三时间点；

第四时间点确定子单元，用于采用所述第二时间点和所述预设第二时间差确定第四时间点；

第二目标多媒体数据确定子单元，用于采用目标时间内的音频数据确定目标多媒体数据；所述目标时间为所述第三时间点至所述第四时间点的时间。

在本发明一实施例中，所述多媒体数据包括字符数据，所述第二目标多媒体数据确定子单元还用于将所述音频数据转换为对应的字符数据，获得目标多媒体数据。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明一实施例还提供了电子设备，可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上语音通信方法的步骤。

本发明一实施例还提供了计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上语音通信方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音通信方法及装置、电子设备、存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音通信方法，其特征在于，应用于第一终端，所述方法包括：

采集音频数据；

在所述采集音频数据的过程中，监测用户的面部动作信息；

响应所述用户的面部动作信息匹配预设的第一面部特征，从所述音频数据中确定与所述面部动作信息对应的目标多媒体数据；其中，所述第一面部特征用于表征所述用户开始讲话；

向第二终端发送所述目标多媒体数据。

2.根据权利要求1所述的方法，其特征在于，所述响应所述用户的面部动作信息匹配预设的第一面部特征，从所述音频数据中确定与所述面部动作信息对应的目标多媒体数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一时间点，从所述音频数据中确定目标多媒体数据，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于：所述音频数据为流媒体数据；所述目标多媒体数据为以初始发送时间为起始点确定的流媒体数据。

5.根据权利要求3所述的方法，其特征在于，所述预设第一时间差是根据第一目标面部动作模型确定的时间阈值；

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，通过所述第一终端设备提供图形用户界面，所述图形用户界面显示的内容包括部分或全部游戏场景，以及位于所述游戏场景的虚拟角色，所述方法还包括：

根据所述音频数据，实时变更所述虚拟角色的动作。

8.根据权利要求6所述的方法，其特征在于，所述当监测到所述面部动作信息与预设的第二面部特征匹配时，停止向所述第二终端发送所述目标多媒体数据的步骤，包括：

9.根据权利要求8所述的方法，其特征在于，所述预设第二时间差是根据第二目标面部动作模型确定的时间阈值；

10.根据权利要求3所述的方法，其特征在于，所述根据所述第一时间点以及预设第一时间差，确定初始发送时间之后，还包括：

11.根据权利要求10所述的方法，其特征在于，所述多媒体数据包括字符数据，所述采用目标时间内的音频数据确定目标多媒体数据，包括：

12.一种语音通信装置，其特征在于，应用于第一终端，所述装置包括：

采集模块，用于采集音频数据；

目标多媒体数据确定模块，用于响应所述用户的面部动作信息匹配预设的第一面部特征，从所述音频数据中确定与所述面部动作信息对应的目标多媒体数据；其中，所述第一面部特征用于表征所述用户开始讲话；

发送模块，用于向第二终端发送所述目标多媒体数据。

13.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至11中任一项所述的语音通信方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的语音通信方法的步骤。