CN109413492B

CN109413492B - 一种直播过程中音频数据混响处理方法及***

Info

Publication number: CN109413492B
Application number: CN201710712937.5A
Authority: CN
Inventors: 黄伟; 张文明; 陈少杰
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Shenzhen Detonation Point Technology Co.,Ltd.
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2021-05-28
Anticipated expiration: 2037-08-18
Also published as: CN109413492A

Abstract

本发明提供一种直播过程中音频数据混响处理方法及***，所述的方法包括：S1，录制直播过程中原始PCM音频数据，并对所述原始PCM音频数据进行混响处理；S2，对混响处理后的音频数据进行重采样，以使重采样后的音频数据的长度与原始PCM音频数据的长度一致；S3，对重采样后的音频数据进行编码并推流。本发明对直播过程中的原始音频数据进行录制并做混响处理，经过混响处理后的音频数据长度通常与原始音频数据的长度不同，因此，对混响处理后的音频数据进行重采样，使得混响处理后的音频数据的长度与原始音频数据的长度一致，解决了混响处理后的音视频的同步问题。

Description

一种直播过程中音频数据混响处理方法及***

技术领域

本发明涉及音频处理技术领域，更具体地，涉及一种直播过程中音频数据混响处理方法及***。

背景技术

目前，在音视频直播的过程中，为了增强用户体验，可以在原始的音频中增加不同的声音效果，即实现音频混响。

传统实现音频混响的方式是直接对原始音频数据录制并进行混响处理，由于在混响处理的过程中会涉及到降噪功放处理以及数据类型的转换等，从而会导致混响处理后的音频数据的长度与原始音频数据的长度不一致，进而导致混响处理后的音频数据与原始的视频数据不同步，对用户的体验度影响极大。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的直播过程中音频数据混响处理方法及***，克服了现有技术中混响处理后的音视频不同步的问题。

根据本发明的第一方面，提供一种音频数据处理方法，包括：

S1，录制直播过程中原始PCM音频数据，并对所述原始PCM音频数据进行混响处理；

S2，对混响处理后的音频数据进行重采样，以使重采样后的音频数据的长度与原始PCM音频数据的长度一致；

S3，对重采样后的音频数据进行编码并推流。

本发明的有益效果为：对直播过程中的原始音频数据进行录制并做混响处理，经过混响处理后的音频数据长度通常与原始音频数据的长度不同，因此，对混响处理后的音频数据进行重采样，使得混响处理后的音频数据的长度与原始音频数据的长度一致，解决了混响处理后的音视频的同步问题。

在上述技术方案的基础上，本发明还可以作如下改进。

进一步的，所述步骤S1中录制直播过程中原始PCM音频数据进一步包括：

以预设采样频率以及双声道对直播过程中的原始音频流进行录制，得到PCM格式的音频数据。

进一步的，所述步骤S1中对所述原始PCM音频数据进行混响处理进一步包括：

采用串行处理方式对原始PCM音频数据进行不同声音效果的处理，且处理后的不同声音效果的音频数据共用同一缓存。进一步的，所述步骤S2进一步包括：

根据原始PCM音频数据的采样点个数，对混响处理后音频数据进行重采样，使得重采样后的音频数据的采样点个数和原始PCM音频数据的采样点个数相同。

进一步的，所述对混响处理后音频数据进行重采样进一步包括：

检测混响处理后的音频数据波形的峰值点，其中，所述峰值点包括峰值最高点和峰值最低点；

分别在两个相邻的峰值点之间进行重采样，使得对整个波形的采样点个数与原始PCM音频数据的采样点个数相等。

进一步的，所述分别在两个相邻的峰值点之间进行重采样进一步包括：

假设原始PCM音频数据的采样点个数为m，混响处理后的音频数据的采样点个数为n，且混响处理后的音频数据波形中两个相邻的峰值点之间的采样点个数为x_i，则重采样后该两个峰值点之间的采样点个数 y_i＝x_i*m/n，其中，m、n和x_i均为正整数，x_i表示第i个相邻峰值区间的采样点个数。

进一步的，还包括：

当计算出的y_i为非整数，则按照向上取整和向下取整来确定相邻两个峰值区间的y_i的取值。

根据本发明的第二方面，还提供了一种直播过程中音频数据混响处理***，包括：

录制模块，用于录制直播过程中原始PCM音频数据；

混响处理模块，用于对所述原始PCM音频数据进行混响处理；

重采样模块，用于对混响处理后的音频数据进行重采样，以使重采样后的音频数据的长度与原始PCM音频数据的长度一致；

编码推流模块，用于对重采样后的音频数据进行编码并推流。

根据本发明的第三方面，提供了一种音频混响处理方法的设备，包括处理器(processor)、存储器(memory)和总线；

所述处理器和存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上各实施方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上各实施方法。

附图说明

图1为本发明一个实施例的直播过程中音频数据混响处理方法流程图；

图2为音频数据混响处理后的波形图；

图3为本发明另一个实施例的直播过程中音频数据混响处理***连接框图；

图4为本发明又一个实施例的音频混响处理方法的设备连接框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

参见图1，提供了本发明一个实施例的直播过程中音频数据混响处理方法，包括：S1，录制直播过程中原始PCM音频数据，并对所述原始PCM音频数据进行混响处理；S2，对混响处理后的音频数据进行重采样，以使重采样后的音频数据的长度与原始PCM音频数据的长度一致；S3，对重采样后的音频数据进行编码并推流。

在音视频直播的过程中，为了实现不同声音效果，音频混响处理非常常见，传统的方式是直接对原始音频数据录制并进行混响处理，这样进行混响处理后的音频数据和原始的视频数据是不同步的。为了解决混响处理后音视频同步的问题，本实施例提供了一套能够使得对直播过程中的音频数据混响处理后音视频同步，该方法的整个实现过程为，在录制端录制原始PCM音频数据，其中，PCM(Pulse Code Modulation)也被称为脉冲编码调制，PCM中的声音数据没有被压缩。对于录制的PCM原始音频数据，采用常用的方法对录制的原始音频数据进行混响处理。由于原始音频数据和视频数据是同步的，而经过混响处理后的音频数据的长度与原始音频数据的长度不一致，因此，经过混响处理后的音频数据与视频数据是不能同步的，本实施例中对经过混响处理后的音频数据进行重采样，使得重采样后的音频数据的长度与原始PCM音频数据的长度一致，进而实现混响处理后音视频同步。对混响后的音频数据进行了重采样后，再进行编码并推流，观众拉取对应的视频流即可获取其中的音频数据。

本实施例对直播过程中的原始音频数据进行录制并做混响处理，经过混响处理后的音频数据长度通常与原始音频数据的长度不同，因此，对混响处理后的音频数据进行重采样，使得混响处理后的音频数据的长度与原始音频数据的长度一致，解决了混响处理后的音视频的同步问题。

在上述实施例的基础上，本发明的一个实施例中，所述步骤S1中录制直播过程中原始PCM音频数据进一步包括：录制端以预设采样频率以及双声道对直播过程中的原始PCM音频数据进行录制。

在对直播过程中原始音频数据进行录制的过程中，录制端采用双声道对原始音频数据进行录制，录制后的音频格式为 ENCODING_PCM_16BIT，采样频率为44100，其中，将声道数设置为双声道，以满足算法数据需求。

由于在直播过程中，周围可能存在环境噪声，未进行混响处理之前，该噪声很容易分辨出来，为环境噪声，用户可以接受程度相对较高。但进行混响处理之后，原始的环境噪声直接变为类似电流声的白噪声，用户体验极差。因此，在对录制的原始音频数据进行混响之前，需要进行降噪处理，在本实施例中，降噪处理采用安卓平台接口 NoiseSuppressor，在降噪前，需要使用isAvailable()方法判断当前手机是否支持该接口，如果不支持，为避免给用户带来不好的体验，则不进行降噪处理和混响处理，保持原声。NoiseSuppressor对象创建时，需要绑定AudioRecord对象对应的音频句柄，以对其进行降噪处理。由于降噪会对音量造成影响，因此，需要对降噪处理后的音频数据进行功放来对音量进行放大，与NoiseSuppressor类似，功放处理需要使用安卓平台接口AutomaticGainControl，需要绑定AudioRecord对象对应的音频句柄。

为提高音频数据的处理效率，数据从录制端获取后，需要从Java 层通过JNI(JavaNative Interface)接口传递给底层做混响处理，这其中需要进行数据转换。首先，从录制端可以获取原始数据大小，由于混响数据处理以帧为单位，需要将数据大小转换为帧数，帧数＝数据大小/(声道数*每帧数据大小)。另外，由于录制端输出的数据类型为short 数组类型，而混响处理需要float数据类型，而编码器需要byte类型，因此，需要将数据进行类型的转换，具体的转换采用现有成熟的转换方式实现，其中，需要注意的是，在数据类型转换的过程中，转换后的数据长度与转换前的数据长度可能不一致导致内存溢出或者数据异常，为转换后的数据申请相关数据大小时必须预留空间，在本实施例中，为转换后的数据申请的内存大小为转换前的数据所占内存大小的4 倍。

在上述各实施例的基础上，本发明的另一个实施例中，所述步骤 S1中对所述原始PCM音频数据进行混响处理进一步包括：采用串行处理方式对原始PCM音频数据进行不同声音效果的处理，且处理后的不同声音效果的音频数据共用同一缓存。所谓的混响处理是指实现不同的声音效果，比如，通过调节音调、混响、高通/低通/带通滤波、均衡器、回声等声音效果。由于可能存在多种声音效果的来回切换，比如，原声、混响以及金属声音效果之间的切换，为了便于在多个声音效果之间进行切换，针对混响处理中的不同声音效果，采用串行处理方式对原始PCM音频数据进行不同声音效果的处理，且处理后的不同声音效果的音频数据共用同一缓存。多个不同声音效果的音频数据之间的切换顺序可以随意，比如，可以根据用户的的点击操作，确定切换到哪一个声音效果的音频数据。

在上述各个实施例的基础上，本发明的另一个实施例中，所述步骤S2进一步包括：根据原始PCM音频数据的采样点个数，对混响处理后音频数据进行重采样，使得重采样后的音频数据的采样点个数和原始PCM音频数据的采样点个数相同。

由于进行混响处理后的音频数据的长度与原始音频数据的长度不一致，会造成混响处理后的音视频不同步的问题，因此，需要对这个问题进行克服。在本实施例中，主要是根据原始PCM音频数据的采样点个数，对混响处理后的音频数据进行重采样，使得重采样后的音频数据的采样点个数和原始PCM音频数据的采样点个数相同，这样混响处理后的音频数据的长度与原始PCM音频数据的长度一致，进而能够保证混响处理后的音频数据与原始视频数据处于同步状态。

在上述各个实施例的基础上，本发明的一个实施例中，所述对混响处理后音频数据进行重采样进一步包括：检测混响处理后的音频数据波形的峰值点，其中，所述峰值点包括峰值最高点和峰值最低点；分别在两个相邻的峰值点之间进行重采样，使得对整个波形的采样点个数与原始PCM音频数据的采样点个数相等。

比如，原始音频数据的采样点为320个，而混响处理后的音频数据的采样点为640个，具体对混响处理后的音频数据进行重采样过程为，获取混响处理后的音频数据波形中的峰值点，其中，波形的峰值点包括峰值最高点和峰值最低点。可参见图2，在波形中峰值点如图中箭头所示各点，采用峰值将进行重采样，例如，从a点到b点，b点到 c点进行重采样。在本实施例中，是在相邻的峰值最高点和峰值最低点之间进行重采样，而不能在一个峰值最高点和另一个峰值最高点之间进行重采样，比如，在d点和g点之间进行重采样，那么e点和f点这样的波形特征由于重采样造成信息丢失。

在上述各个实施例的基础上，本发明的另一个实施例中，所述分别在两个相邻的峰值点之间进行重采样进一步包括：假设原始PCM音频数据的采样点个数为m，混响处理后的音频数据的采样点个数为n，且混响处理后的音频数据波形中两个相邻的峰值点之间的采样点个数为x_i，则重采样后该两个峰值点之间的采样点个数y_i＝x_i*m/n，其中， m、n和x_i均为正整数，x_i表示第i个相邻峰值区间的采样点个数。

在对混响处理后的音频数据进行重采样的过程中，重采样的系数由原始音频数据的采样点个数和混响处理后的音频数据的采样点个数确定的，例如，原始音频数据的采样点个数为m，混响处理后的音频数据的采样点个数为n，则从a点到b点间，假设a点到b点间的总采样数为x_i，则a点到b点重采样后的采样点个数为y_i＝x_i*m/n，使得整个重采样后的音频数据的采样点个数与原始音频数据的采样点的个数相等。其中，当计算出的y_i为非整数，则按照向上取整和向下取整来确定相邻两个峰值区间的y_i的取值，确保最终的总采样点的个数与原始音频数据采样点的个数之间误差最多为1个采样数据点。

具体对混响处理后的音频数据进行重采样的步骤为：

(1)遍历采样数组，寻找峰值，并记录其编号。

(2)通过峰值编号，获取峰值最高点和峰值最低点之间的采样点数x，并计算最终采样点数y＝x*m/n，且按照上述方法取整。

(3)给重采样后的y个采样点的下标进行更新，第i个采样点的下标值为

进行每一个点的赋值，即完成所有点的重采样。

最后对重采样后的音频数据进行编码处理，编码处理后经过推流库进行推流，观众拉取对应流即可获取到对应的音频数据。

参见图3，提供了本发明另一个实施例的直播过程中音频数据混响处理***，包括录制模块31、混响处理模块32、重采样模块33和编码推流模块34。

录制模块31，用于录制直播过程中原始PCM音频数据。

混响处理模块32，用于对所述原始PCM音频数据进行混响处理。

重采样模块33，用于对混响处理后的音频数据进行重采样，以使重采样后的音频数据的长度与原始PCM音频数据的长度一致。

编码推流模块34，用于对重采样后的音频数据进行编码并推流。

其中，录制模块31进一步用于：以预设采样频率以及双声道对直播过程中的原始PCM音频数据进行录制。

混响处理模块32，进一步用于采用串行处理方式对原始PCM音频数据进行不同声音效果的处理，且处理后的不同声音效果的音频数据共用同一缓存。

重采样模块33，进一步用于：根据原始PCM音频数据的采样点个数，对混响处理后音频数据进行重采样，使得重采样后的音频数据的采样点个数和原始PCM音频数据的采样点个数相同。

重采样模块33，还进一步用于：检测混响处理后的音频数据波形的峰值点，其中，所述峰值点包括峰值最高点和峰值最低点；分别在两个相邻的峰值点之间进行重采样，使得对整个波形的采样点个数与原始PCM音频数据的采样点个数相等。

重采样模块33，用于分别在两个相邻的峰值点之间进行重采样进一步包括：假设原始PCM音频数据的采样点个数为m，混响处理后的音频数据的采样点个数为n，且混响处理后的音频数据波形中两个相邻的峰值点之间的采样点个数为x_i，则重采样后该两个峰值点之间的采样点个数y_i＝x_i*m/n，其中，m、n和x_i均为正整数，x_i表示第i个相邻峰值区间的采样点个数。其中，当计算出的y_i为非整数，则按照向上取整和向下取整来确定相邻两个峰值区间的y_i的取值。

参见图4，示出本申请实施例的直播过程中音频数据混响处理方法的设备的结构框图。

参照图4，直播过程中音频数据混响处理方法的设备包括：处理器 (processor)401、存储器(memory)402和总线403；其中，所述处理器 401和存储器402通过所述总线403完成相互间的通信。

所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：录制直播过程中原始PCM 音频数据，并对所述原始PCM音频数据进行混响处理；对混响处理后的音频数据进行重采样，以使重采样后的音频数据的长度与原始PCM 音频数据的长度一致；对重采样后的音频数据进行编码并推流。

本发明公开一种计算机程序产品，该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，该计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述对应实施例所提供的直播过程中音频数据混响处理方法，例如包括：录制直播过程中原始PCM音频数据，并对所述原始PCM音频数据进行混响处理；对混响处理后的音频数据进行重采样，以使重采样后的音频数据的长度与原始PCM音频数据的长度一致；对重采样后的音频数据进行编码并推流。

本发明还提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述对应实施例所提供的直播过程中音频数据混响处理方法，例如包括：录制直播过程中原始PCM音频数据，并对所述原始PCM音频数据进行混响处理；对混响处理后的音频数据进行重采样，以使重采样后的音频数据的长度与原始PCM音频数据的长度一致；对重采样后的音频数据进行编码并推流。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的直播过程中音频数据混响处理方法的设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

本发明提供的一种直播过程中音频数据混响处理方法及***，对直播过程中的原始音频数据进行录制并做混响处理，经过混响处理后的音频数据长度通常与原始音频数据的长度不同，因此，对混响处理后的音频数据进行重采样，使得混响处理后的音频数据的长度与原始音频数据的长度一致，解决了混响处理后的音视频的同步问题。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种直播过程中音频数据混响处理方法，其特征在于，包括：

S3，对重采样后的音频数据进行编码并推流；

所述步骤S2进一步包括：

根据原始PCM音频数据的采样点个数，对混响处理后音频数据进行重采样，使得重采样后的音频数据的采样点个数和原始PCM音频数据的采样点个数相同；

所述录制直播过程中原始PCM音频数据，与所述对所述原始PCM音频数据进行混响处理之间，还包括：

对所述原始PCM音频数据进行降噪处理。

2.如权利要求1所述的音频数据混响处理方法，其特征在于，所述步骤S1中录制直播过程中原始PCM音频数据进一步包括：

录制端以预设采样频率以及双声道对直播过程中的原始音频流进行录制，得到PCM格式的音频数据。

3.如权利要求1所述的音频数据混响处理方法，其特征在于，所述步骤S1中对所述原始PCM音频数据进行混响处理进一步包括：

采用串行处理方式对原始PCM音频数据进行不同声音效果的处理，且处理后的不同声音效果的音频数据共用同一缓存。

4.如权利要求1所述的音频数据混响处理方法，其特征在于，所述对混响处理后音频数据进行重采样进一步包括：

5.如权利要求4所述的音频数据混响处理方法，其特征在于，所述分别在两个相邻的峰值点之间进行重采样进一步包括：

假设原始PCM音频数据的采样点个数为m，混响处理后的音频数据的采样点个数为n，且混响处理后的音频数据波形中两个相邻的峰值点之间的采样点个数为x_i，则重采样后该两个峰值点之间的采样点个数y_i＝x_i*m/n，其中，m、n和x_i均为正整数，x_i表示第i个相邻峰值区间的采样点个数。

6.如权利要求5所述的音频数据混响处理方法，其特征在于，还包括：

7.一种直播过程中音频数据混响处理***，其特征在于，包括：

录制模块，用于录制直播过程中原始PCM音频数据；

混响处理模块，用于对所述原始PCM音频数据进行混响处理；

编码推流模块，用于对重采样后的音频数据进行编码并推流；

所述重采样模块，进一步用于：根据原始PCM音频数据的采样点个数，对混响处理后音频数据进行重采样，使得重采样后的音频数据的采样点个数和原始PCM音频数据的采样点个数相同；

所述混响处理模块，还用于对所述原始PCM音频数据进行降噪处理。

8.一种直播过程中音频数据混响处理方法的设备，其特征在于，包括处理器(processor)、存储器(memory)和总线；

所述处理器和存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1-6任一项所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。