CN108776985A

CN108776985A - 一种语音处理方法、装置、设备及可读存储介质

Info

Publication number: CN108776985A
Application number: CN201810568421.2A
Authority: CN
Inventors: 汪守成; 卢洁; 蔡申; 彭元涛; 慕壮; 王开峻; 余飞; 吴作鹏
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2018-11-09

Abstract

本申请公开了一种语音处理方法、装置、设备及可读存储介质，本申请获取语音输入场景或语音播放场景下的语音数据，该语音数据可以是输入的语音数据也可以是需要播放的语音数据，进一步获取语音数据的声学特征值集合，集合中包含至少一类声学特征的特征值，参考声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态，并根据各动画元素的元素状态构建场景动画，进而显示构建的场景动画。由此可见，本案在语音输入场景及语音播放场景下能够根据语音数据的声学特征来构建场景动画，并在对应场景下显示场景动画，使得用户可以通过场景动画直观的了解语音数据的声学特征，增强了对语音数据的理解程度。

Description

一种语音处理方法、装置、设备及可读存储介质

技术领域

本申请涉及语音处理技术领域，更具体地说，涉及一种语音处理方法、装置、设备及可读存储介质。

背景技术

由于移动通讯技术的发展和人工智能的技术与应用日趋成熟，一方面即时的语音消息交流被越来越多人所使用，另一方面语音转文字的准确率得到大幅的提升，由于高识别率下人们的工作效率大幅度提升，使用语音进行文字输入的人群正在飞速的增长，人们每天进行语音输入、体验语音交互的时间也在不断增长。

语音输入作为一种越来越多用户选择，提高效率，颠覆固有的键盘输入打字输入方式，甚至在逐渐开创一种全新的人机交互时代的应用场景。但是，现有的语音输入及播放过程中，界面显示过于单一，仅在界面上显示语音输入控件或待播放的语音条。以语音输入过程为例，用户点击或长按进行语音的输入。对于用户而言，其在输入过程无法直观的了解输入语音的详细信息，如音量大小等，降低了用户对输入语音的理解程度。

发明内容

有鉴于此，本申请提供了一种语音处理方法、装置、设备及可读存储介质，用于解决现有语音交互过程，界面显示单一，造成用户对语音的理解程度低的问题。

为了实现上述目的，现提出的方案如下：

一种语音处理方法，包括：

获取语音输入场景或语音播放场景下的语音数据；

获取所述语音数据的声学特征值集合，所述声学特征值集合包含至少一类声学特征的特征值；

参考所述声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态；

根据各动画元素的元素状态构建场景动画，并显示所述场景动画。

优选地，所述获取所述语音数据的声学特征值集合，包括：

获取所述语音数据的响度特征、音调特征、音色特征、语速特征中任意一个或多个特征的特征值，组成声学特征值集合。

优选地，所述参考所述声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态，包括：

确定所述声学特征值集合中每一类声学特征对应的动画元素；

根据每一类声学特征的特征值，确定对应动画元素的元素状态。

优选地，所述根据每一类声学特征的特征值，确定对应动画元素的元素状态，包括：

确定每一类声学特征的特征值所属的特征值区间；

确定所述特征值区间对应的动画元素的元素状态。

根据每一类声学特征的特征值，以及对应动画元素的元素状态的取值范围，确定对应动画元素的元素状态。

优选地，所述根据各动画元素的元素状态构建场景动画，包括：

根据各动画元素的元素状态，选取对应元素状态的动画元素素材；

利用选取的所述动画元素素材，构建场景动画。

优选地，所述获取语音输入场景或语音播放场景下的语音数据，包括：

响应用户对语音输入界面中显示的语音输入控件的触发操作，通过麦克风组件获取语音数据，所述语音输入界面包括：会话界面、信息录入界面、信息检索界面；

所述显示所述场景动画，包括：

在所述语音输入界面显示所述场景动画。

响应用户对语音播放界面中显示的会话语音控件的触发操作，获取所述会话语音控件对应的已接收的会话语音数据，所述语音播放界面包括：会话界面；

所述显示所述场景动画，包括：

在所述语音播放界面显示所述场景动画。

优选地，所述元素状态包括以下任意一种或多种：元素大小、元素位置、元素姿态、元素色彩、元素形象、元素显隐情况。

一种语音处理装置，包括：

语音获取单元，用于获取语音输入场景或语音播放场景下的语音数据；

声学特征值获取单元，用于获取所述语音数据的声学特征值集合，所述声学特征值集合包含至少一类声学特征的特征值；

元素状态确定单元，用于参考所述声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态；

动画构建单元，用于根据各动画元素的元素状态构建场景动画；

动画显示单元，用于显示所述场景动画。

优选地，所述声学特征值获取单元，包括：

第一声学特征值获取子单元，用于获取所述语音数据的响度特征、音调特征、音色特征、语速特征中任意一个或多个特征的特征值，组成声学特征值集合。

优选地，所述元素状态确定单元包括：

动画元素确定单元，用于确定所述声学特征值集合中每一类声学特征对应的动画元素；

特征值对应单元，用于根据每一类声学特征的特征值，确定对应动画元素的元素状态。

优选地，所述特征值对应单元包括：

区间确定单元，用于确定每一类声学特征的特征值所属的特征值区间；

区间对应单元，用于确定所述特征值区间对应的动画元素的元素状态。

优选地，所述特征值对应单元包括：

特征值计算单元，用于根据每一类声学特征的特征值，以及对应动画元素的元素状态的取值范围，确定对应动画元素的元素状态。

优选地，所述动画构建单元包括：

素材选取单元，用于根据各动画元素的元素状态，选取对应元素状态的动画元素素材；

素材组合单元，用于利用选取的所述动画元素素材，构建场景动画。

优选地，所述语音获取单元包括：

第一语音获取子单元，用于响应用户对语音输入界面中显示的语音输入控件的触发操作，通过麦克风组件获取语音数据，所述语音输入界面包括：会话界面、信息录入界面、信息检索界面；

所述动画显示单元包括：

第一动画显示子单元，用于在所述语音输入界面显示所述场景动画。

优选地，所述语音获取单元包括：

第二语音获取子单元，用于响应用户对语音播放界面中显示的会话语音控件的触发操作，获取所述会话语音控件对应的已接收的会话语音数据，所述语音播放界面包括：会话界面；

所述动画显示单元包括：

第二动画显示子单元，用于在所述语音播放界面显示所述场景动画。

一种语音处理设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如前介绍的语音处理方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前介绍的语音处理方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的语音处理方法，获取语音输入场景或语音播放场景下的语音数据，该语音数据可以是输入的语音数据也可以是需要播放的语音数据，进一步获取语音数据的声学特征值集合，集合中包含至少一类声学特征的特征值，参考声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态，并根据各动画元素的元素状态构建场景动画，进而显示构建的场景动画。由此可见，本案在语音输入场景及语音播放场景下能够根据语音数据的声学特征来构建场景动画，并在对应场景下显示场景动画，使得用户可以通过场景动画直观的了解语音数据的声学特征，增强了对语音数据的理解程度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1–图3示例了几种语音交互界面示意图；

图4为本申请实施例公开的一种语音处理方法流程图；

图5示例了一种会话界面播放语音的示意图；

图6示例了一种声学特征与场景动画对应关系示意图；

图7为本申请的一种场景实施例示意图；

图8为本申请的另一种场景实施例示意图；

图9为本申请一种场景实施例中声学特征与动画元素对应关系示意图；

图10-图14为本申请又一种场景实施例示意图；

图15为本申请实施例公开的一种语音处理装置的结构示意图；

图16为本申请实施例公开的一种语音处理设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有语音输入及交互场景下，用户无法在输入过程直观的了解输入语音的详细信息，降低了用户对输入语音的理解程度的问题，本案发明人进行了研究。

研究过程中，本案发明人首先想到的方案是，在界面上增加展示语音标识图像，并且根据语音的有无来控制图像的变化。如图1-3，为本案发明人设计的三种实现方案。

图1中，通过柱状图M1的堆积个数的变化，来体现是否接收到语音信号。如当接受不到语音信号时，控制柱状图个数为3个，当接收到语音信号时，控制增加柱状图M1的个数，变为4个。

图2中，通过圆圈M2的扩展来体现是否接收到语音信号。如当接受不到语音信号时，控制柱圆圈M2个数为1个，当接收到语音信号时，控制增加圆圈M2的个数，变为2个。

图3中，通过波纹M3的变化来体现是否接收到语音信号。如当接受不到语音信号时，控制波纹M3保持水平状态，当接收到语音信号时，控制波纹M3由直线变为曲线。

通过上述设计方案，在进行语音输入及播放过程，可以根据界面展示的图像来确定是否存在语音信号，也即直观了解语音数据中语音信号的分布情况。

但是，进一步研究发现，上述方案仍存在交互形式单一的问题，用户仅能够根据展示的图像来确定语音信号的存在与否，并不能够了解语音数据的更细致的特征，如音调、音色、响度、语速等特征。并且，这种交互形式过于单调，用户实际体验不好。

为此，本案发明人做了进一步深入的研究，并最终得到的下述实施例介绍的方案。需要说明的是，本申请是建立在现有场景中存在语音数据的情况下，通过已有的语音数据来创建场景动画，进而在交互语音数据的同时播放场景动画，以实现提升用户对语音数据理解力的目的。

参见图4，图4为本申请实施例公开的一种语音处理方法流程图。如图4所示，该方法包括：

步骤S100、获取语音输入场景或语音播放场景下的语音数据。

具体地，语音输入场景是指进行语音输入的场景，如用户与其他人聊天过程涉及语音输入聊天内容的场景，或用户在信息录入、信息检索过程涉及语音输入文本信息的场景等。语音播放场景是指进行语音播放的场景，如用户与其他人语音聊天过程，对对方发送的语音进行播放的场景，或在其他应用中对获取的语音数据进行播放的场景等。

需要说明的是，本步骤中获取语音数据的过程，可以是实时进行的，如用户实时录入语音过程，可以实时获取用户录入的语音数据。除此之外，在语音播放场景下，可以在语音播放过程实时获取播放的语音数据，也可以是直接将待播放的语音数据全部获取。

本步骤中并不限定语音数据的获取方式。

步骤S110、获取所述语音数据的声学特征值集合，所述声学特征值集合包含至少一类声学特征的特征值。

具体地，语音数据可以有多种类型的声学特征，如响度特征、音调特征、音色特征、语速特征等。本步骤中可以根据上一步骤获取的语音数据，获取各类型声学特征的特征值。

步骤S120、参考所述声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态。

具体地，本申请预先可以规定所要构建的场景动画中包含的各动画元素，各动画元素可以存在多种元素状态，元素状态示例如可以包括：元素大小、元素位置、元素姿态、元素色彩、元素形象、元素显隐情况等。

其中，动画元素的元素状态与声学特征的特征值存在关联关系，动画元素的元素状态属于声学特征的特征值的一种直观反映。本步骤中，可以根据声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态。

步骤S130、根据各动画元素的元素状态构建场景动画，并显示所述场景动画。

具体地，本步骤中可以基于已经确定了元素状态的各动画元素来构建场景动画，并在对应的语音输入场景或语音播放场景下显示该场景动画。实现在语音输入过程或语音播放过程同步显示与语音对应的场景动画，提升了用户的体验，且增强了用户对语音的理解程度。

可选的，本申请实施例预先可以获取不同元素状态对应的动画元素素材。示例如，终端预先从服务器请求不同动画元素的各元素状态对应的动画元素素材，并存储在本地。进而在上一步骤中确定了各动画元素的元素状态时，在本地选取对应的动画元素素材，利用选取的动画元素素材，构建场景动画。

当然，终端还可以在上一步骤中确定了各动画元素的元素状态时，临时向服务器请求对应的动画元素素材，并利用请求到的动画元素素材，构建场景动画。

以“飞机”这一动画元素为例，其元素状态包括“色彩值为红色”和“色彩值为蓝色”两种状态。预先可以创建该两种色彩值的“飞机”动画元素素材。并在步骤S120中确定“飞机”的元素状态为“色彩值为红色”时，选取对应的动画元素素材，构建场景动画。

本申请实施例提供的语音处理方法，获取语音输入场景或语音播放场景下的语音数据，该语音数据可以是输入的语音数据也可以是需要播放的语音数据，进一步获取语音数据的声学特征值集合，集合中包含至少一类声学特征的特征值，参考声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态，并根据各动画元素的元素状态构建场景动画，进而显示构建的场景动画。由此可见，本案在语音输入场景及语音播放场景下能够根据语音数据的声学特征来构建场景动画，并在对应场景下显示场景动画，使得用户可以通过场景动画直观的了解语音数据的声学特征，增强了对语音数据的理解程度。

可选的，本申请实施例示例了两种获取语音数据的方式分别如下：

第一种：

响应用户对语音输入界面中显示的语音输入控件的触发操作，通过麦克风组件获取语音数据。

可选的，语音输入界面包括但不限于以下几种：会话界面、信息录入界面、信息检索界面。

如图1和图2示例的即为会话界面。图1中，界面下面的标记为“松开结束”的控件即为语音输入控件。用户长按该控件即可实现语音的输入，该输入语音由麦克风组件获取。

对应于该语音输入界面，步骤S130显示场景动画的过程，可以包括：

在语音输入界面显示所述场景动画。

也即，用户在语音输入界面输入语音的同时，能够在界面上显示创建的场景动画。

第一种：

响应用户对语音播放界面中显示的会话语音控件的触发操作，获取所述会话语音控件对应的已接收的会话语音数据。

可选的，所述语音播放界面包括但不限于会话界面，如图5，其示例了一种会话界面播放语音的示意图。

图5中，对于聊天对象发送过来的语音，在界面上以会话语音控件的形式进行显示。用户可以点击该会话语音控件，以实现对语音的播放。

对应于该语音播放界面，步骤S130显示场景动画的过程，可以包括：

在语音播放界面显示所述场景动画。

也即，用户在语音播放界面播放语音的同时，能够在界面上显示创建的场景动画。

本申请实施例对上述步骤S120，参考所述声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态的过程进行介绍。

具体地，本申请可以预先设定不同类型的声学特征与动画元素之间的匹配关系。其中，声学特征与动画元素之间可以是一一对应关系，也可以是一对多或多对一的关系，具体可以由用户设定。

基于该设定关系，确定声学特征值集合中，每一类声学特征对应的动画元素。进一步，根据每一类声学特征的特征值，确定对应动画元素的元素状态。

可选的，针对每一类声学特征及其匹配的动画元素，可以预先设定声学特征的特征值区间与动画元素的元素状态间的匹配关系。

基于该匹配关系，首先确定每一类声学特征的特征值所属的特征值区间，进而确定该特征值区间对应的动画元素的元素状态。

另一种可选的情况下，针对每一类声学特征及其匹配的动画元素，本申请实施例还可以预先设定动画元素的元素状态的确定规则，该规则与声学特征的特征值，及对应动画元素的元素状态的取值范围相关。基于此，可以根据每一类声学特征的特征值，以及对应动画元素的元素状态的取值范围，确定对应动画元素的元素状态。示例如，动画元素的元素状态的取值范围为x₁～x₂，声学特征的特征值取值范围为y₁～y₂，确定的当前语音数据的声学特征的特征值为y_t，则预先设定的规则可以通过如下公式表示：

其中，x_t表示动画元素的实时元素状态。

进一步地，对于动画元素而言，其可以存在一个或多个动画特征，每一动画特征均存在对应的元素状态。以“飞机”作为动画元素为例，其可以存在“倾斜”、“升降”两个动画特征，每一个动画特征均存在对应的元素状态，以“倾斜”为例，其不同的倾斜角度对应不同的元素状态，而以“升降”为例，其不同的升级高度对应不同的元素状态。本实施例上述设定的声学特征的特征值区间与动画元素的元素状态间的匹配关系，可以包括：声学特征的特征值区间与动画元素的每一动画特征的元素状态间的匹配关系。

接下来通过一个图例来说明声学特征与场景动画中动画元素及元素状态间的关系，如图6所示：

图6示例的情况下，声学特征共包含四种类型，分别为：响度、音调、语速、音色。反映到具体声学参数上，响度对应声音的振幅，音调对应声音的频率，语速对应声音的过零率，音色对应声音的特征值。

对应场景动画中包含动画元素1-5(图6中简写为元素)。图6示例的情况下，每一个动画元素最多对应一个动画特征(图6中简写为特征)，当然除此之外还可以设置动画元素与动画特征之间是一对多的关系。图6中还示例了两个不同动画元素对应同一动画特征的情况，也即，本实施例中还可以设置动画元素与动画特征之间是多对一的关系。对于每一动画特征，其均存在对应的状态值，也即动画状态。

本申请可以预先建立匹配关系模型，通过数学分析及转化，确定声学特征与动画元素间的对应关系，以及声学特征的特征值区间与对应动画元素的元素状态间的对应关系。

接下来，通过一个具体实例对本申请方案进行介绍。

如图7所示，其示例了场景动画的一帧图像。该场景动画包含的动画元素有：飞行员Y1、飞机Y2、尾气Y3、云朵Y4、地面虚线Y5。

其中，飞行员Y1具有形象种类这一动画特征，飞机Y2具有色彩、升降、切斜这几种动画特征，尾气Y3具有大小这一动画特征，云朵Y4和地面虚线Y5作为参照物，具有平移这一动画特征。每一动画特征对应有多个变化的元素状态。

进一步参见图8，图8示例了一种在聊天界面，用户输入语音的同时，聊天界面展示场景动画的效果示意图。

本申请以声学特征包括：响度、音调、语速、音色这四种类型为例进行说明。预先建立声学特征与动画元素间的对应关系，如图9所示。

响度通过声音的振幅来确定，音调通过声音的频率来确定，语速通过声音的过零率来确定，音色通过声音的特征值来确定。

图9示例的对应关系中：

用户声音的响度表示飞机Y2的动力，响度越高，飞机喷出尾气Y3面积越大。本申请可以预先设计三种不同面积大小的尾气Y3素材，分别对应不同的响度区间。如图10-图12。

对比可知，从图10至图12，尾气面积逐渐增大，代表声音的响度越来越高。

进一步，图9示例的对应关系中：

用声音的音调表示飞机Y2的爬升情况，声音频率越高，飞机Y2爬升状态越明显，飞机Y2的倾斜角度越大，飞机Y2高度越高。本申请可以预先设计两种不同爬升情况的飞机Y2素材，分别对应不同的音调区间，也即频率区间。如图13-图14。

对比可知，图14相比于图13，飞机Y2倾斜角度增大，高度增加，代表声音的音调越来越高。

进一步，图9示例的对应关系中：

用语速表示飞机Y2的飞行速度，语速越快，飞机Y2飞行的速度越快，对应的参照物往后平移的速度越快。这一点可以通过动画参数来设置，即通过设置作为参照物的云朵Y4和地面虚线Y5的往后平移速度来实现。

进一步，图9示例的对应关系中：

用音色表示飞行员Y1的种类和飞机Y2的色彩。本案发明人研究发现，音色的不同，能够反映出一个人的心情、性格及性别。本示例中通过音色来区分用户的性别，并分别为男生和女生设置了两种类型的飞行员Y1，以及两种色彩的飞机Y2。示例如，将音色特征值分别设置为1和2，1对应男生，2对应女生。飞行员的种类预设两种，分别为小飞飞对应音色特征值1，以及hello kitty对应音色特征值2。飞机的颜色预设两种，分别为蓝色对应音色特征值1，以及红色对应音色特征值2。

通过这种设置方式，能够让用户看到动画中与语音用户的性别相符的内容和色彩氛围，男性看到的是蓝色飞机和小飞飞，女性看到的是红色飞机和hello kitty，提升了个性化体验，并且能够直观了解语音用户的详细信息。

接下来，介绍声学特征的特征值与动画元素的元素状态间的对应关系确定过程。

仍以图9示例的对应关系为例：

1、定义声学响度振幅为L，振幅L的范围定义为L_min～L_max，获取到的语音数据的实时振幅为l_t。本实施例可以将振幅划分为等间隔的三个区间，分别对应动画中预设的三个大小的尾气状态(P₁P₂P₃)，则尾气面积大小对应公式如下：

其中，p_t代表尾气的实时状态选择。

当然，上述仅仅示例了将振幅三等分的一种实现方式，可以理解的是，还可以将振幅划分为其他数量的区间，且划分方式也不限于等分划分的方式。

2、定义声音音调频率为f，频率f的范围定义为f_min～f_max，获取到的语音数据的实时频率为f_t。

<1>、定义飞机倾斜角度为具体为飞机机身和水平线的夹角。的变换范围为：则飞机倾斜角度对应公式如下：

其中，代表飞机飞行的实时倾斜角度。

<2>、定义飞机在动画中的飞行高度为H，H的变换范围为：H_min～H_max，则飞机飞行高度对应公式如下：

其中，h_t代表飞机飞行的实时高度。

3、定义语音的过零率为γ，过零率为γ的取值范围为0～γ_max。获取到的语音数据的实时过零率为γ_t。参照物播放的速度设定为V，取值范围为V_min～V_max。则参照物在动画中的播放速度对应公式如下：

其中，V_t代表参照物在动画中的实时播放速度。

4、定义音色种类为x，取值范围为{1；2}，飞机颜色色号为a，a有两种状态：蓝色和红色，分别对应a1和a2；飞行员种类为b，b有两种状态：小飞飞和hello kitty，分别对应b1和b2，则飞机颜色和飞行员种类对应公式如下：

可以理解的是，上述图7-14的场景动画仅仅是一种可选的示例，除此之外还可以设计其它的场景动画，只要能够将场景动画中动画元素的元素状态与语音数据的声学特征建立合理关系即可。

本申请方案在语音界面根据语音的声学特征构建了丰富多维的动画交互，提升了用户对语音的理解力，且交互体验优好，个性化强，让用户在愉悦感中进行语音交互，提高了使用效率。

下面对本申请实施例提供的语音处理装置进行描述，下文描述的语音处理装置与上文描述的语音处理方法可相互对应参照。

如图15所示，其公开了一种语音处理装置的结构示意图，该语音处理装置可以包括：

语音获取单元11，用于获取语音输入场景或语音播放场景下的语音数据；

声学特征值获取单元12，用于获取所述语音数据的声学特征值集合，所述声学特征值集合包含至少一类声学特征的特征值；

元素状态确定单元13，用于参考所述声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态；

动画构建单元14，用于根据各动画元素的元素状态构建场景动画；

动画显示单元15，用于显示所述场景动画。

可选的，所述声学特征值获取单元，可以包括：

可选的，所述元素状态确定单元可以包括：

可选的，所述特征值对应单元可以包括：

另一种可选情况下，所述特征值对应单元可以包括：

可选的，所述动画构建单元可以包括：

可选的，所述语音获取单元可以包括：

第一语音获取子单元，用于响应用户对语音输入界面中显示的语音输入控件的触发操作，通过麦克风组件获取语音数据，所述语音输入界面包括：会话界面、信息录入界面、信息检索界面。基于此，

可选的，所述语音获取单元可以包括：

第二语音获取子单元，用于响应用户对语音播放界面中显示的会话语音控件的触发操作，获取所述会话语音控件对应的已接收的会话语音数据，所述语音播放界面包括：会话界面。基于此，

所述动画显示单元可以包括：

本申请实施例提供的语音处理装置可应用于语音处理设备，如手机、IPAD、PC终端等。可选的，图16示出了语音处理设备的硬件结构框图，参照图16，语音处理设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取语音输入场景或语音播放场景下的语音数据；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

获取语音输入场景或语音播放场景下的语音数据；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音处理方法，其特征在于，包括：

获取语音输入场景或语音播放场景下的语音数据；

2.根据权利要求1所述的方法，其特征在于，所述获取所述语音数据的声学特征值集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述参考所述声学特征值集合中每一类声学特征的特征值，确定各动画元素的元素状态，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据每一类声学特征的特征值，确定对应动画元素的元素状态，包括：

确定每一类声学特征的特征值所属的特征值区间；

确定所述特征值区间对应的动画元素的元素状态。

5.根据权利要求3所述的方法，其特征在于，所述根据每一类声学特征的特征值，确定对应动画元素的元素状态，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据各动画元素的元素状态构建场景动画，包括：

利用选取的所述动画元素素材，构建场景动画。

7.根据权利要求1所述的方法，其特征在于，所述获取语音输入场景或语音播放场景下的语音数据，包括：

所述显示所述场景动画，包括：

在所述语音输入界面显示所述场景动画。

8.根据权利要求1所述的方法，其特征在于，所述获取语音输入场景或语音播放场景下的语音数据，包括：

所述显示所述场景动画，包括：

在所述语音播放界面显示所述场景动画。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述元素状态包括以下任意一种或多种：元素大小、元素位置、元素姿态、元素色彩、元素形象、元素显隐情况。

10.一种语音处理装置，其特征在于，包括：

动画显示单元，用于显示所述场景动画。

11.根据权利要求10所述的装置，其特征在于，所述声学特征值获取单元，包括：

12.根据权利要求10所述的装置，其特征在于，所述元素状态确定单元包括：

13.根据权利要求12所述的装置，其特征在于，所述特征值对应单元包括：

14.根据权利要求12所述的装置，其特征在于，所述特征值对应单元包括：

15.根据权利要求10所述的装置，其特征在于，所述动画构建单元包括：

16.根据权利要求10所述的装置，其特征在于，所述语音获取单元包括：

所述动画显示单元包括：

17.根据权利要求10所述的装置，其特征在于，所述语音获取单元包括：

所述动画显示单元包括：

18.一种语音处理设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-9中任一项所述的语音处理方法的各个步骤。

19.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-9中任一项所述的语音处理方法的各个步骤。