CN112929731A

CN112929731A - 一种多媒体交换机***

Info

Publication number: CN112929731A
Application number: CN202110508270.3A
Authority: CN
Inventors: 张新华; 陈华锋; 李兵
Original assignee: Zhejiang Lancoo Technology Co ltd
Current assignee: Zhejiang Lancoo Technology Co ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-06-08
Anticipated expiration: 2041-05-11
Also published as: CN112929731B

Abstract

本申请涉及多媒体交换机领域，公开了一种多媒体交换机***，包括：多媒体交换机、N路音频采集端；多媒体交换机被配置为：计算每一个音频数据帧中音频信号语音增强前后的能量比值D，根据D值小于预设阈值的音频数据帧计算信噪比；向N路音频采集端发送包括信噪比的交换信息，信噪比根据来自上一周期中交换机接收到的来自同一音频采集端的音频信号估算；音频采集端被配置为：接收多媒体交换机发送的交换信息，如果交换信息中的信噪比小于预定门限，则对预设频率段信号进行幅度增大调节，以调高人声分量的信号；将音频信号发送至多媒体交换机。本申请的多媒体交换机***减小了音频数据传输时延和提高了多路音频采集效果，节省了硬件成本。

Description

一种多媒体交换机***

技术领域

本申请涉及多媒体交换机领域，特别涉及一种多媒体交换机***。

背景技术

传统的教室若要实现常态化多媒体教学、录播教学、网上课堂、远程互动教学等教学场景，需要安装的设备较多、***结构复杂，不利于教室内各类数据集中处理和管理。

此外，现有的多路音频采集和音频数据传输方式中，通过模拟麦克风采集后采用音频电缆传输的方式，虽然传输时延低，但受多路音频采集时延不同和距离传输音频信号衰减快的影响，不利于后续多路音频信号混音、增强、以及音视频合成等处理；而通过数字麦克风采集经过以太网传输的方式，虽然传输距离远、线路部署简单，但由于以太网传输会存在网络拥堵、时延抖动大等问题，不适合本地扩音等实时性要求比较高的应用。

发明内容

本申请提供了一种多媒体交换机***，第一个目的是提高多路通道的混音效果，避免破音。

第二个目的是解决多路音频传输时网络拥堵、噪声大、时延抖动的问题，有效地提高了音频数据的传输效率和音频质量，减小了传输时延。

本申请提供了一种多媒体交换机***，包括：

多媒体交换机、N路音频采集端，其中，N大于或等于2的整数；

所述音频采集端被配置为通过麦克风获取音频信号；

所述多媒体交换机被配置为：

从所述音频采集端以音频数据帧的形式获取音频信号并进行语音增强及编码，得到音频流；

计算每一个所述音频数据帧中音频信号语音增强前后的能量比值D，根据D值小于预设阈值的音频数据帧计算信噪比；

向所述N路音频采集端发送包括所述信噪比的交换信息，所述信噪比根据来自上一周期中所述多媒体交换机接收到的来自同一音频采集端的所述音频信号估算；

所述音频采集端被配置为：

接收所述多媒体交换机发送的所述交换信息，如果所述交换信息中的所述信噪比小于预定门限，则对预设频率段信号进行幅度增大调节，以调高人声分量的信号；

将所述音频信号发送至所述多媒体交换机。

在一个实施例中，还包括M路视频采集端，其中，M为大于或等于1的整数；

所述多媒体交换机还被配置为：

在同一运行周期的K个时间片内，分别向所述N路音频采集端发送包括时钟同步信息和信噪比的交换信息；

接收来自所述M路视频采集端的视频信号并进行编码，得到视频流；

封装所述音频流和所述视频流，并将所述音频流和所述视频流打上时间标记以保证同步性；

所述视频采集端被配置为采集所述视频信号并传入所述多媒体交换机。

在一个实施例中，所述多媒体交换机被配置为：

将Zn小于预设第一阈值并且Mn小于预设第二阈值的音频数据帧删除，其中：

，

；

输出混音信号

，其中，

；

其中，Sin代表音频信号，sgn是取符号的函数，j是音频采集端编号，i是音频数据帧内样本编号，H为一个音频数据帧内样本数量，η是预先设定的补偿因子。

在一个实施例中，所述音频信号语音增强前后的能量比值D通过以下方式计算：

其中，S(i)表示所述音频采集端的第i帧原始信号，So（i）表示所述第i帧传输到所述多媒体交换机经过语音增强后输出的信号；

D值大于预设阈值，则表示语音增强处理前后能量变化大于预设阈值，所述第i帧为寂静段；D值小于预设阈值，则表示语音增强处理前后能量变化小于预设阈值，所述第i帧为语音段；

确定所述语音段数据后，取F帧语音段数据作为分析样本，计算信噪比，所述信噪比基于如下公式：

其中，SNR表示信噪比。

在一个实施例中，所述多媒体交换机对接收的所述音频信号进行的增强处理包括：降噪、回音消除、啸叫抑制、自动增益。

在一个实施例中，所述N路音频采集端的操作还包括：

将采集到的音频数据存入每路音频采集端的输入存储区；

当所述输入存储区的数据内存量达到设定的第一阈值时，将所述输入存储区中的所述音频数据存入迁移至输出存储区；

将所述输出存储区中的所述音频数据作为所述音频信号发送至所述多媒体交换机。

在一个实施例中，所述N路音频采集端根据相邻周期间接收到所述交换信息的时间间隔，计算本采集端时钟与同步时钟之间的时间差；

当所述时间差大于设定的第二阈值时，校准所述本采集端时钟为同步时钟。

在一个实施例中，所述M路视频采集端通过HDMI接口接入所述多媒体交换机，所述多媒体交换机获取YUV格式的像素数据，应用编码器编码成所述视频流。

在一个实施例中，所述多媒体交换机封装所述音频流和所述视频流，进一步包括：

进行FLV格式封装，通过RTMP协议推送到服务器。

在一个实施例中，所述多媒体交换机包括：

处理器模块,所述处理器模块包括音频采集与输出接口、视频采集与输出接口、网络接口以及外部设备接口；

音频采集模块，FPGA音频采集模块与所述处理器模块联接；

音频编译模块，所述音频编译模块包括模拟音频采集设备接口、数字音频采集设备接口、音频输出接口，所述音频编译模块与所述音频采集模块联接；

音频处理模块，所述音频处理模块与所述音频采集模块联接。

本申请实施方式中，与现有技术相比可以提高混音效果，避免产生破音。

此外，多路音频采集端轮流有序地将音频数据上传至交换机，并且各路音频采集端根据信号校准了本地时钟，减小了多路音频采集端的传输时延，避免了多路音频采集端之间的传输冲突，进而给采用多媒体交换机和音频采集端相互配合实现音频采集端的语音增强提供了基础，将多路音频信号高质量地传输到多媒体交换机，通过降低后期交换机的数据处理中降噪滤波时对原音的削减，提高了多路音频采集效果。与只在音频采集端进行语音增强的方法相比，本申请采用音频采集端和交换机相互配合实现音频采集端的语音增强，音频采集端只需根据从多媒体交换机接收到的计算结果进行语音增强即可，将语音增强中的大量计算放在交换机端进行，减小了音频数据传输时延和提高了多路音频采集效果，节省了硬件成本。

在交换机中封装音视频，保证了音视频的同步。

本申请的说明书中记载了大量的技术特征，分布在各个技术方案中，如果要罗列出本申请所有可能的技术特征的组合（即技术方案）的话，会使得说明书过于冗长。为了避免这个问题，本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征，都可以自由地互相组合，从而构成各种新的技术方案（这些技术方案均因视为在本说明书中已经记载），除非这种技术特征的组合在技术上是不可行的。例如，在一个例子中公开了特征A+B+C，在另一个例子中公开了特征A+B+D+E，而特征C和D是起到相同作用的等同技术手段，技术上只要择一使用即可，不可能同时采用，特征E技术上可以与特征C相组合，则，A+B+C+D的方案因技术不可行而应当不被视为已经记载，而A+B+C+E的方案应当视为已经被记载。

附图说明

图1是根据本申请一个实施例的多媒体交换机***基本结构示意图；

图2是根据本申请一个实施例的多路音频采集网络结构（采用拉手方式）示意图；

图3是根据本申请一个实施例的音视频合成编辑示意图；

图4是根据本申请一个实施例的多媒体交换机模块示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本申请涉及的部分术语如下：

HDMI：高清多媒体接口(High Definition Multimedia Interface)

PCM：脉冲编码调制（Pulse Code Modulation）

AAC：高级音频编码 (Advanced Audio Coding)

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

本申请实施方式涉及一种多媒体交换机***，包括：

多媒体交换机、N路音频采集端、其中，N大于或等于2的整数；

音频采集端被配置为通过麦克风获取音频信号。

多媒体交换机被配置为：

从音频采集端以音频数据帧的形式获取音频信号。

，

；

输出混音信号

，其中，

；

可选的，在一个实施例中，多媒体交换机通过计算若干时间片内各路音频采集的信号平均幅值，每个片段取平均幅值最大一路音频作为输出，最后将若干时间片内的音频数据进行合成处理，作为混音输出，该步骤由多媒体交换机中的FPGA模块完成。

可选的，在一个实施例中，还包括M路视频采集端，其中，M为大于或等于1的整数；

视频采集端被配置为采集视频信号并传入多媒体交换机。N路视频采集端通过HDMI接口接入多媒体交换机，而后多媒体交换机获取YUV格式的像素数据，应用编码器编码成视频流。

音频采集端被配置为，接收多媒体交换机发送的交换信息然后执行下述操作：

①发送音频信号至多媒体交换机，根据交换信息中的时钟同步信息校准本采集端时钟，根据交换信息中的信噪比进行语音增强。

多媒体交换机还被配置为：

①在同一运行周期的K个时间片内，分别向N路音频采集端发送包括时钟同步信息和信噪比的交换信息，信噪比根据来自上一周期中交换机接收到的来自同一音频采集端的音频信号估算。

②接收来自N路音频采集端的音频信号并进行语音增强及编码，得到音频流。例如，音频信号进行的增强处理可以包括以下之一或其任意组合：降噪、回音消除、啸叫抑制、自动增益。

③接收来自M路视频采集端的视频信号并进行编码，得到视频流。

④封装音频流和视频流，并将音频流和视频流打上时间标记以保证同步性。

可选的，在一个实施例中，具体的合成封装步骤如下，音视频合成编辑示意图3所示：

（1）多路视频采集编码：①PC桌面屏幕信号通过HDMI接口接入多媒体交换机，获取YUV格式的像素数据，应用libx264的视频编码器将YUV数据编码成H264视频流；②摄像头视频数据通过以太网口接入多媒体交换机，获取RTSP视频流和H264编码。

（2）音频采集编码过程：首先采用音频编译器对音频信号进行PCM编码；其次通过混音和语音增强后传输至CPU模块，进行ACC编码。

（3）最后将获得的H264视频流和AAC音频流，进行FLV格式封装，通过RTMP协议推送到服务器。其中，音频和视频数据分别打上时间戳，保证音视频时间同步性。

其中，当CPU接收到视频数据帧和音频PCM编码便打上时间戳，具体时间戳标记如下：

视频时间戳：pts = inc++ *(1000/fps);其中inc是一个静态的，初始值为0，每次打完时间戳inc加1，fps是帧率。

音频时间戳：pts = inc++ * (frame_size * 1000 / sample_rate)；其中frame_size是帧长sample_rate是采样率。

可选的，在一个实施例中，如图2所示，具体多路音频采集步骤包括：

①，多媒体交换机定时发送交换信息：多媒体交换机为网络内每路音频采集端分配端口号，定时（周期性）生成携带本地时钟的交换信息，并有序发送交换信息至相应的音频采集端。

②，N路音频采集端根据相邻周期间接收到交换信息的时间间隔，计算本采集端时钟与同步时钟之间的时间差；当时间差大于设定的第二阈值时，校准本采集端时钟为同步时钟。可选的，音频采集端根据交换信息校准本地时钟：各路音频采集端根据接收到的交换信息，获取其中的时钟报文信息，计算同步时钟和本地时钟的时间偏差，并校准本地时钟。

③，音频采集端采集及缓存数据：各路音频采集端通过高灵敏度麦克风拾音头采集语音数据，经AD转换后缓存至本地缓存区。

④，音频采集端发送数据至多媒体交换机端：当各路音频采集端接收到多媒体交换机发送的交换信息，将缓存区的音频数据装载至上行数据包，并发送至多媒体交换机端。

可选的，在一个实施例中，音频采集端将采集到的音频数据存入每路音频采集端的输入存储区；当输入存储区的数据内存量达到设定的第一阈值时，将输入存储区中的音频数据存入迁移至输出存储区；将输出存储区中的音频数据作为音频信号发送至多媒体交换机。

⑤，多媒体交换机端缓存音频数据：多媒体交换机为各端口提供独立的数据缓存区，当接收到各路音频采集端发送的上行数据包后，分别缓存至对应的数据缓存区。

可选的，在一个实施例中，各路音频采集端负责实现原始音频信号的采集、缓存和发送；多媒体交换机端负责实现网络内各路音频采集端的时钟同步控制，以及音视频数据的接收、缓存和处理（该部分由多媒体交换机中的FPGA模块完成）。其中，多媒体交换机和音频采集端之间采用100M/1000M的同步以太网连接。

可选的，在一个实施例中，本***应用ATM技术，以时分复用的方式给每个音频采集端建立通道，确保网络内各路音频采集端高效、有序地进行数据传输；同时采用时钟网络同步技术，保证了音频采集和接收端时钟频率一致，大大降低时延抖动，确保数据采集传输的准确无误码。多媒体交换机***基本结构示意图如图1所示。

可选的，在一个实施例中，多路音频采集网络结构采用拉手方式，如图2所示。多媒体交换机和音频采集端通过总线方式连接通信，音频采集端通过拉手方式，单端多点同时接入多媒体交换机，通信速率10M，时钟同步准确、低延时、***。

可选的，在一个实施例中，多媒体交换机支持多路立体声音频接口和多路RJ45网络接口数字音频输入。立体声输入的声音源包括线性输入line-in、鹅颈麦克风或者无线麦克风等，经过音频编译器处理（主要包括滤波、放大AD转换等）通过I2S接口与中央处理单元，即，可编程逻辑器件FPGA连接；多路数字麦克风输入经过物理层收发器PHY模块然后通过媒介通信MII接口和中央处理单元连接。

可选的，在一个实施例中，根据多媒体交换机端反馈的各路音频信号信噪比，各路音频采集端进行前端音频信号预增强处理，之后结合多媒体交换机后端语音增强处理，可以更好地弥补声场和线路传输的损失，提高原始信号信质量，降低后端降噪滤波处理对原音的削减，提高了语音增强效果。具体实现步骤如下：

①多媒体交换机端估计原始信号信噪比：多媒体交换机根据各路音频采集端上传的数据，对原始音频信号采用维纳滤波的方法，估算出各路音频信号的信噪比，同时将该值通过下行同步信元，反馈至音频采集端，该步骤由多媒体交换机中的FPGA模块完成。

②音频采集端进行语音增强：根据多媒体交换机端发送的同步信元，获取信噪比(s/n)信息，当信噪比值小于预先设定的参考值时，对预设频率段信号进行幅度增大调节，以调高人声s分量的信号信噪比计算方式，因为前端计算能量很低，所以借用后端计算能力。

计算音频信号语音增强前后能量比值D：

其中，S(i)表示音频采集端的第i帧原始信号，So（i）表示第i帧传输到多媒体交换机经过语音增强后输出的信号。

D值大于预设阈值，则表示语音增强处理前后能量变化大于预设阈值，第i帧为寂静段；D值小于预设阈值，则表示语音增强处理前后能量变化小于预设阈值，第i帧为语音段。

确定语音段数据后，取F帧语音段数据作为分析样本，计算信噪比，信噪比基于如下公式：

其中，SNR表示信噪比。

当交换信息中的信噪比小于设定的第三阈值时，N路音频采集端在之后的采集中，调节预设频段信号至预设幅度。

③多媒体交换机端进行语音增强：对混音后的音频数据进行降噪、回音消除、啸叫抑制、自动增益处理（通用方法，由多媒体交换机中的DSP模块完成），实现语音增强效果，处理后的音频输出可以用于音视频合成编辑或者本地扩音。

可选的，在一个实施例中，多媒体交换机包括：

处理器模块,处理器模块包括音频采集与输出接口、视频采集与输出接口、网络接口以及外部设备接口；

音频采集模块，FPGA音频采集模块与处理器模块联接；

音频编译模块，音频编译模块包括模拟音频采集设备接口、数字音频采集设备接口、音频输出接口，音频编译模块与音频采集模块联接；

音频处理模块，音频处理模块与音频采集模块联接。

可选的，在一个实施例中，多媒体交换机包括CPU处理器、DSP芯片、FPGA芯片、音频编译模块、各类数据接口等主要模块，以实现多路音视频采集、音频混音、语音增强和音视频合成处理。多媒体交换机模块图如图4所示。

需要说明的是，在本专利的申请文件中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。

在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中，以便在必要时可以作为修改的依据。此外应理解，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。