CN106383648A

CN106383648A - 一种智能终端语音显示的方法和装置

Info

Publication number: CN106383648A
Application number: CN201510448262.9A
Authority: CN
Inventors: 王欣; 吴贵英
Original assignee: Qingdao Hisense Electronics Co Ltd
Current assignee: Qingdao Hisense Electronics Co Ltd
Priority date: 2015-07-27
Filing date: 2015-07-27
Publication date: 2017-02-08

Abstract

本发明实施例公开了一种智能终端语音显示的方法和装置，其中方法的实现包括：接收来自参与会话的语音数据流，以固定的时间间隔对其进行取样分析，获取样本声音的响度、音调和语速信息；确定响度泡泡，将样本声音的响度与预设的响度阀值进行对比，根据响度所处的阀值区间将样本声音以直径不同的第一类型圆来表示；确定音调泡泡，将样本声音的频率与预设的频率阀值进行对比，根据频率所处的阀值区间将样本声音以直径不同的第二类型圆来表示；将获取的响度泡泡和音调泡泡组合成动画对象；根据获取的样本声音的语速信息确定动画对象的播放速度，根据获取的响度、音调、语速信息确定动画对象运动曲线；将设置好的泡泡动画在显示屏幕中进行播放。本发明实现了将语音以具有情感化和个性化的泡泡动画效果进行显示，增强了用户体验，同时泡泡动画的情境感知增强了用户对语音的理解深度。

Description

一种智能终端语音显示的方法和装置

技术领域

本发明涉及智能终端，尤其涉及智能终端一种语音显示的方法和装置。

背景技术

随着通信行业的快速发展，智能手机、智能手表、智能手环等多种智能移动终端越来越受到人们的青睐。伴随智能移动终端的多样化，必然会使用户对人机交互的要求越来越高，从而产生的需求越来越多。例如智能手机，用户已从最初的基本打电话发短信功能，逐渐发展到现在的上网、拍照、听音乐、看视频、阅读等各种功能的需求。人机交互方式也从键盘、触控发展到语音、视频。出于用户界面的体验考虑，在一对一对的语音通讯过程中，需要提供易于理解并形象生动的语音交互界面。

目前的语音交互界面主要有：苹果siri采用的波浪线展示、微信平台采用的柱状图展示以及虫洞语音助手采用的光圈展示。

发明人在实现本发明的过程中发现：现有技术的语音通讯界面动画效果整理呆板冰冷，设计缺乏情感化和亲和力。

发明内容

为解决上述技术问题，本发明所提供的智能终端语音显示的方法可以通过以下技术方法实现：

接收来自参与会话的语音数据流，对其以固定的时间间隔进行取样分析，获取声音的响度、音调和语速信息；

根据分析出的响度、音调和语速信息将语音数据流以泡泡形式进行动画显示，所述泡泡由不同直径的第一类型圆和不同直径的第二类型圆组成，具有一定的速度和运动曲线。

一种智能终端语音显示的方法，包括：

接收来自参与会话的语音数据流，以固定的时间间隔对其进行取样分析，获取样本声音的响度、音调和语速信息，所述音调信息由声音的频率来表征，所述语速信息由声音的过零率来表征；

确定响度泡泡，将样本声音的响度与预设的响度阀值进行对比，根据响度所处的阀值区间将样本声音以直径不同的第一类型圆来表示；

确定音调泡泡，将样本声音的频率与预设的频率阀值进行对比，根据频率所处的阀值区间将样本声音以直径不同的第二类型圆来表示；

将获取的响度泡泡和音调泡泡组合成动画对象；

根据获取的样本声音的语速信息确定动画对象的播放速度，根据获取的响度、音调和语速信息确定动画对象运动曲线度；

将设置好的泡泡动画在显示屏幕中进行播放。

一种智能终端语音显示的装置，包括：

抽样模块用于对接收到的参与会话的语音数据流以固定的时间间隔进行取样，获得声音样本；

语音分析模块，用于对获取的声音样本进行分析，获得样本声音的响度、音调和语速信息；

动画对象确定模块，用于确定声音样本的响度泡泡和音调泡泡并将所有声音样本的响度泡泡和音调泡泡组合成动画对象；

动画对象设置模块，用于根据获取的样本声音的语速确定所述动画对象的播放速度，根据获取的样本声音的响度、语调和语速确定所述动画对象运动曲线；

动画播放模块，用于将设置好的动画对象在显示屏幕中进行播放。

附图说明

图1为本发明实施例方法流程示意图

图2为本发明实施例响度泡泡定义图

图3为本发明实施例音调泡泡定义图

图4为本发明实施例语速快慢静态示意图

图5为本发明实施例声波起伏定义图

图6为本发明实施例声波起伏静态示意图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例总的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1，本发明实施例提供了一种实现智能终端语音显示的方法，包括：

接收来自参与会话的语音流媒体，对其以固定的时间间隔进行取样分析，获取声音的响度、音调和语速信息；

根据分析出的样本声音的响度、音调和语速信息将语音以泡泡形式进行动画显示，所述泡泡由不同直径的第一类型圆和不同直径的第二类型圆组成，具有一定的速度和运动曲线。

一种智能终端语音显示的方法，包括：

101：接收来自参与会话的语音数据流，以固定时间间隔对其进行取样分析，获取每一个样本声音的响度H、频率f、声波过零率λ_t；

其中所述固定时间间隔设置为100ms；所述声音响度是指声音的脉冲编码调制PCM量化响度值，用来描述人主观感受到声音大小；所述音调是指声音的频率，用来描述人主观感受到声音高低。

102：确定响度泡泡，将样本声音的响度与预设的响度阀值进行对比，根据响度所处的阀值区间将样本声音以直径不同的第一类型来表示；

具体的，假设所述响度阀值为两个、所述第一类型圆为实心圆，将获取的每一个样本声音的响度值λ_t作为响度泡泡确定算法的输入变量，与预设的响度阀值进行对比，算法如下：

将响度划分为等间隔的三个区间，按照从大到小的顺序三个区间分别对应大、中、小响度，分别用大、中、小三种实心圆描述，公式如下：

I_{t} = \{\begin{matrix} p_{1}, H_{m i n} < h_{t} < H_{m i n} + Δ \\ p_{2}, H_{m i n} + Δ < h_{t} < H_{m i n} + 2 Δ \\ p_{3}, H_{m i n} + 2 Δ < h_{t} < H_{m a x} \end{matrix}

其中

Δ = \frac{H_{m a x} - H_{\min}}{3}

其中h_t为表征时间t声音样本的响度，I_t为时间t声音样本对应的响度泡泡选择，P₁、P₂、P₃分别代表大中小三种实心圆，由于不同录音设备的音量量化值不同，折中考虑H_max取值为100，H_min取值为0。

所述预设响度阀值为H_min+Δ、H_min+2Δ。

如图2所示，所述大中小三种实心圆的定义为大实心圆直径为10像素，中实心圆直径为7像素，小实心圆像素为4像素。

103：确定音调泡泡，将样本声音的频率与预设的频率阀值进行对比，根据频率所处的阀值区间将样本声音以直径不同的第二类型圆来表示，所述频率是来表征人主观感受的音调的参数值；

具体的，假设所述频率阀值为两个、所述第一类型圆为空心圆，将获取的每一个样本声音的频率f_t作为音调泡泡确定算法的输入变量，与预设的频率阀值进行对比，算法如下：

将频率划分为等间隔的三个区间，按照从高到低的顺序三个区间分别对应高、中、低频率，分别用大、中、小三种空心圆描述，公式如下：

X_{t} = \{\begin{matrix} B_{1}, F_{m i n} < f_{t} < F_{m i n} + δ \\ B_{2}, F_{m i n} + δ < f_{t} < F_{m i n} + 2 δ \\ B_{3}, F_{m i n} + 2 δ < f_{t} < F_{m a x} \end{matrix}

其中F_max为频率最大值，F_min为频率最小值，f_t表征时间t样本声音的响度，X_t为时间t样本声音对应的响度泡泡选择，B₁、B₂、B₃分别代表大中小三种实心圆。

所述预设频率阀值为F_min+δ、F_min+2δ。

如图3所示，所述大中小三种实心圆的定义分别为大实心圆直径为10像素，中实心圆直径为7像素，小实心圆像素为4像素。

104：将获取的响度泡泡和音调泡泡组合成动画对象；

所述组合方式采用二维区间平面泡泡随机摆放的方式，所述二维区间平面的长和宽均设定为最大响度泡泡和最大音调泡泡的直径合，即20像素。

105：根据获得的样本声音的过零率设置动画对象的播放速度；

由于动画对象播放的路径宽度是一定的，因此可以通过设置动画对象的播放时长来实现播放速度的快慢效果。如图4所示，当样本声音的播放时长越短时，屏幕一定范围内的语音泡泡就越密集，反之越稀疏。

具体的，为保证动画播放时不会出现太快看不清和太慢影响功能，设定动画对象播放的时长限定范围为[L_min,L_max]，过零率取值范围为(0,λ_max)，其中0≤λ_max<1，根据如下公式获取动画对象播放时长：

l_{t} = \frac{L_{m a x} - L_{m i n}}{λ_{m a x}} λ_{t} + L_{m i n}

其中l_t为时间t声音样本的播放时长，L_max为最大录音时长，L_min为最短录音时长，λ_t为时间t对应的声音样本的短时平均过零率，λ_max为100ms时间内每帧声波信号的短时平均过零率的最大值。

所述短时平均过零率是指每帧信号通过零点的次数，与频率有关，可以反映语速的快慢。声音的语速越快，动画播放的速度就越快，反之，动画播放的速度就越慢。

106：根据获取的样本声音的响度、音调、语速信息确定动画对象运动曲线；

设定播放动画的运动轨迹为正弦曲线，曲线的幅度由样本声音的响度、音调、语速共同确定，具体的将样本声音的响度、频率、语速信息进行不同的加权组合成正弦曲线中对应样本声音的振幅，公式如下：

A_{\partial} = \frac{Σ_{i = 1}^{i = 3} \partial_{i} T_{i}}{Σ_{i = 1}^{i = 3} T_{i}}

其中影响系数可以根据时间或应用动态设定，取值范围为(0,1)，T_i为响度、音调、语速对曲线幅度的影响份额，可根据不同应用设定为固定值，取值范围其中A_max为应用中泡泡播放动画的空间高度。

如图5或6所示，动画对象显示时各圆之间上下浮动的数值取决于对应样本声音的振幅。

107：将设置好的泡泡动画进行播放。

一种智能终端语音显示的装置，包括：

801：抽样模块用于对接收到的参与会话的语音数据流以固定的时间间隔进行取样，获得声音样本；

802：语音分析模块，用于对获取的声音样本进行分析，获得样本声音的响度、音调、语速信息；

803：动画对象确定模块，用于确定声音样本的响度泡泡和音调泡泡并将所有声音样本的响度泡泡和音调泡泡组合成动画对象；

804：动画对象设置模块，用于根据获取的样本声音的语速确定所述动画对象的播放速度，根据获取的样本声音的响度、语调和语速确定所述动画对象运动曲线；

具体的包括样本声音播放时长计算单元和运动曲线振幅计算单元。所述样本声音播放时长计算单元用于计算每个样本声音对应的泡泡播放的时间，所述运动曲线振幅计算单元用于计算每样本声音对应的泡泡的幅度。

805：动画播放模块，用于将设置好的动画对象在显示屏幕中进行播放。

本发明实施例的一种智能终端语音显示的方法和装置，实现了根据声音的音调、响度和语速信息按照一定的规则，在移动终端屏幕上以不同的泡泡形式进行显示，产生动感而有趣的语音泡泡识别过程，让整个语音交互过程不再枯燥乏味，实现了对用户输入的语音信息进行情感化表达。

以上对本发明实施例所提供的一种智能终端语音显示的方法和装置进行了详细的介绍，以上实施例的说明只用于帮助理解本发明的方法和核心思想，并不用于限制本发明；同时，对于本领域技术人员来说，所有在本发明精神和原则之内所做的修改、等同替换、改进等均包含在本发明的权利要求保护范围内。

Claims

1.一种智能终端语音显示的方法，其特征在于，包括：

接收来自参与会话的语音数据流，以固定的时间间隔对其进行取样分析，获取样本声音的响度、音调和语速信息；

确定响度泡泡，将样本声音的响度与预设的响度阀值进行对比，根据响度所处的阀值区间将样本声音以直径不同的第一类型圆来表示，响度越大对应的第一类型圆直径越大；

确定音调泡泡，将样本声音的频率与预设的频率阀值进行对比，根据频率所处的阀值区间将样本声音以直径不同的第二类型圆来表示，频率越大对应的第二类型圆直径越大；

将获取的响度泡泡和音调泡泡组合成动画对象；

确定播放速度和运动曲线，根据所述获取的样本声音的语速信息确定动画对象的播放速度，根据所述获取的响度、音调、语速信息确定动画对象运动曲线；

将设置好的泡泡动画在显示屏幕中进行播放。

2.根据权利要求1所述方法，其特征在于，所述语速信息是指声音的短时平均过零率，指每帧信号通过零值的次数。

3.根据权利要求1所述方法，其特征在于所述第一类型圆和第二类型圆可以分别是实心圆和空心圆。

4.根据权利要求1所述方法，其特征在于所述响度阀值个数可以是预设的某个数值，所述预设的某个数值由第一类型圆的不同直径的个数决定；所述频率阀值个数可以是预设的某个数值，所述预设的某个数值由第二类型圆的不同直径的个数决定。

5.根据权利要求1所述方法，其特征在于所述将获取的响度泡泡和音调泡泡组合成动画对象采用二维区间平面泡泡随机摆放的方式，所述二维区间平面的长和宽均设定为最大响度泡泡和最大音调泡泡的直径合。

6.根据权利要求1所述方法，其特征在于所述根据获取的样本声音的语速信息确定动画对象的播放速度由如下公式决定：

l_{t} = \frac{L_{m a x} - L_{m i n}}{λ_{m a x}} λ_{t} + L_{m i n}

其中l_t为时间t声音样本的播放时长，L_max为最大录音时长，L_min为最短录音时长，λ_t为时间t对应的声音样本的短时平均过零率，λ_max为100ms时间内各帧声波数据的短时平均过零率的最大值。

7.根据权利要求1所述方法，其特征在于所述根据获取的响度、音调和语速信息确定动画对象运动曲线，公式如下：

A_{\partial} = \frac{Σ_{i = 1}^{i = 3} \partial_{i} T_{i}}{Σ_{i = 1}^{i = 3} T_{i}}

8.一种智能终端语音显示的装置，其特征在于，包括：

取样模块用于对接收到的参与会话的语音数据流以固定的时间间隔进行取样，获得声音样本；

动画对象确定模块，用于确定声音样本的响度泡泡和音调泡泡并将所述声音样本的响度泡泡和音调泡泡组合成动画对象；

动画对象设置模块，用于根据获取的样本声音的语速确定所述动画对象的播放速度，根据获取的样本声音的响度、语调和语速信息确定所述动画对象运动曲线；