CN112929731A - 一种多媒体交换机*** - Google Patents

一种多媒体交换机*** Download PDF

Info

Publication number
CN112929731A
CN112929731A CN202110508270.3A CN202110508270A CN112929731A CN 112929731 A CN112929731 A CN 112929731A CN 202110508270 A CN202110508270 A CN 202110508270A CN 112929731 A CN112929731 A CN 112929731A
Authority
CN
China
Prior art keywords
audio
signal
multimedia switch
multimedia
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110508270.3A
Other languages
English (en)
Other versions
CN112929731B (zh
Inventor
张新华
陈华锋
李兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lancoo Technology Co ltd
Original Assignee
Zhejiang Lancoo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lancoo Technology Co ltd filed Critical Zhejiang Lancoo Technology Co ltd
Priority to CN202110508270.3A priority Critical patent/CN112929731B/zh
Publication of CN112929731A publication Critical patent/CN112929731A/zh
Application granted granted Critical
Publication of CN112929731B publication Critical patent/CN112929731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4305Synchronising client clock from received content stream, e.g. locking decoder clock with encoder clock, extraction of the PCR packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/6437Real-time Transport Protocol [RTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Telephone Function (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请涉及多媒体交换机领域,公开了一种多媒体交换机***,包括:多媒体交换机、N路音频采集端;多媒体交换机被配置为:计算每一个音频数据帧中音频信号语音增强前后的能量比值D,根据D值小于预设阈值的音频数据帧计算信噪比;向N路音频采集端发送包括信噪比的交换信息,信噪比根据来自上一周期中交换机接收到的来自同一音频采集端的音频信号估算;音频采集端被配置为:接收多媒体交换机发送的交换信息,如果交换信息中的信噪比小于预定门限,则对预设频率段信号进行幅度增大调节,以调高人声分量的信号;将音频信号发送至多媒体交换机。本申请的多媒体交换机***减小了音频数据传输时延和提高了多路音频采集效果,节省了硬件成本。

Description

一种多媒体交换机***
技术领域
本申请涉及多媒体交换机领域,特别涉及一种多媒体交换机***。
背景技术
传统的教室若要实现常态化多媒体教学、录播教学、网上课堂、远程互动教学等教学场景,需要安装的设备较多、***结构复杂,不利于教室内各类数据集中处理和管理。
此外,现有的多路音频采集和音频数据传输方式中,通过模拟麦克风采集后采用音频电缆传输的方式,虽然传输时延低,但受多路音频采集时延不同和距离传输音频信号衰减快的影响,不利于后续多路音频信号混音、增强、以及音视频合成等处理;而通过数字麦克风采集经过以太网传输的方式,虽然传输距离远、线路部署简单,但由于以太网传输会存在网络拥堵、时延抖动大等问题,不适合本地扩音等实时性要求比较高的应用。
发明内容
本申请提供了一种多媒体交换机***,第一个目的是提高多路通道的混音效果,避免破音。
第二个目的是解决多路音频传输时网络拥堵、噪声大、时延抖动的问题,有效地提高了音频数据的传输效率和音频质量,减小了传输时延。
本申请提供了一种多媒体交换机***,包括:
多媒体交换机、N路音频采集端,其中,N大于或等于2的整数;
所述音频采集端被配置为通过麦克风获取音频信号;
所述多媒体交换机被配置为:
从所述音频采集端以音频数据帧的形式获取音频信号并进行语音增强及编码,得到音频流;
计算每一个所述音频数据帧中音频信号语音增强前后的能量比值D,根据D值小于预设阈值的音频数据帧计算信噪比;
向所述N路音频采集端发送包括所述信噪比的交换信息,所述信噪比根据来自上一周期中所述多媒体交换机接收到的来自同一音频采集端的所述音频信号估算;
所述音频采集端被配置为:
接收所述多媒体交换机发送的所述交换信息,如果所述交换信息中的所述信噪比小于预定门限,则对预设频率段信号进行幅度增大调节,以调高人声分量的信号;
将所述音频信号发送至所述多媒体交换机。
在一个实施例中,还包括M路视频采集端,其中,M为大于或等于1的整数;
所述多媒体交换机还被配置为:
在同一运行周期的K个时间片内,分别向所述N路音频采集端发送包括时钟同步信息和信噪比的交换信息;
接收来自所述M路视频采集端的视频信号并进行编码,得到视频流;
封装所述音频流和所述视频流,并将所述音频流和所述视频流打上时间标记以保证同步性;
所述视频采集端被配置为采集所述视频信号并传入所述多媒体交换机。
在一个实施例中,所述多媒体交换机被配置为:
将Zn小于预设第一阈值并且Mn小于预设第二阈值的音频数据帧删除,其中:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
输出混音信号
Figure DEST_PATH_IMAGE003
,其中,
Figure DEST_PATH_IMAGE004
其中,Sin代表音频信号,sgn是取符号的函数,j是音频采集端编号,i是音频数据帧内样本编号,H为一个音频数据帧内样本数量,η是预先设定的补偿因子。
在一个实施例中,所述音频信号语音增强前后的能量比值D通过以下方式计算:
Figure DEST_PATH_IMAGE005
其中,S(i)表示所述音频采集端的第i帧原始信号,So(i)表示所述第i帧传输到所述多媒体交换机经过语音增强后输出的信号;
D值大于预设阈值,则表示语音增强处理前后能量变化大于预设阈值,所述第i帧为寂静段;D值小于预设阈值,则表示语音增强处理前后能量变化小于预设阈值,所述第i帧为语音段;
确定所述语音段数据后,取F帧语音段数据作为分析样本,计算信噪比,所述信噪比基于如下公式:
Figure DEST_PATH_IMAGE006
其中,SNR表示信噪比。
在一个实施例中,所述多媒体交换机对接收的所述音频信号进行的增强处理包括:降噪、回音消除、啸叫抑制、自动增益。
在一个实施例中,所述N路音频采集端的操作还包括:
将采集到的音频数据存入每路音频采集端的输入存储区;
当所述输入存储区的数据内存量达到设定的第一阈值时,将所述输入存储区中的所述音频数据存入迁移至输出存储区;
将所述输出存储区中的所述音频数据作为所述音频信号发送至所述多媒体交换机。
在一个实施例中,所述N路音频采集端根据相邻周期间接收到所述交换信息的时间间隔,计算本采集端时钟与同步时钟之间的时间差;
当所述时间差大于设定的第二阈值时,校准所述本采集端时钟为同步时钟。
在一个实施例中,所述M路视频采集端通过HDMI接口接入所述多媒体交换机,所述多媒体交换机获取YUV格式的像素数据,应用编码器编码成所述视频流。
在一个实施例中,所述多媒体交换机封装所述音频流和所述视频流,进一步包括:
进行FLV格式封装,通过RTMP协议推送到服务器。
在一个实施例中,所述多媒体交换机包括:
处理器模块,所述处理器模块包括音频采集与输出接口、视频采集与输出接口、网络接口以及外部设备接口;
音频采集模块,FPGA音频采集模块与所述处理器模块联接;
音频编译模块,所述音频编译模块包括模拟音频采集设备接口、数字音频采集设备接口、音频输出接口,所述音频编译模块与所述音频采集模块联接;
音频处理模块,所述音频处理模块与所述音频采集模块联接。
本申请实施方式中,与现有技术相比可以提高混音效果,避免产生破音。
此外,多路音频采集端轮流有序地将音频数据上传至交换机,并且各路音频采集端根据信号校准了本地时钟,减小了多路音频采集端的传输时延,避免了多路音频采集端之间的传输冲突,进而给采用多媒体交换机和音频采集端相互配合实现音频采集端的语音增强提供了基础,将多路音频信号高质量地传输到多媒体交换机,通过降低后期交换机的数据处理中降噪滤波时对原音的削减,提高了多路音频采集效果。与只在音频采集端进行语音增强的方法相比,本申请采用音频采集端和交换机相互配合实现音频采集端的语音增强,音频采集端只需根据从多媒体交换机接收到的计算结果进行语音增强即可,将语音增强中的大量计算放在交换机端进行,减小了音频数据传输时延和提高了多路音频采集效果,节省了硬件成本。
在交换机中封装音视频,保证了音视频的同步。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本申请一个实施例的多媒体交换机***基本结构示意图;
图2是根据本申请一个实施例的多路音频采集网络结构(采用拉手方式)示意图;
图3是根据本申请一个实施例的音视频合成编辑示意图;
图4是根据本申请一个实施例的多媒体交换机模块示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本申请涉及的部分术语如下:
HDMI:高清多媒体接口(High Definition Multimedia Interface)
PCM:脉冲编码调制(Pulse Code Modulation)
AAC:高级音频编码 (Advanced Audio Coding)
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请实施方式涉及一种多媒体交换机***,包括:
多媒体交换机、N路音频采集端、其中,N大于或等于2的整数;
音频采集端被配置为通过麦克风获取音频信号。
多媒体交换机被配置为:
从音频采集端以音频数据帧的形式获取音频信号。
将Zn小于预设第一阈值并且Mn小于预设第二阈值的音频数据帧删除,其中:
Figure 523449DEST_PATH_IMAGE001
Figure 175010DEST_PATH_IMAGE002
输出混音信号
Figure 689168DEST_PATH_IMAGE003
,其中,
Figure 146694DEST_PATH_IMAGE004
其中,Sin代表音频信号,sgn是取符号的函数,j是音频采集端编号,i是音频数据帧内样本编号,H为一个音频数据帧内样本数量,η是预先设定的补偿因子。
可选的,在一个实施例中,多媒体交换机通过计算若干时间片内各路音频采集的信号平均幅值,每个片段取平均幅值最大一路音频作为输出,最后将若干时间片内的音频数据进行合成处理,作为混音输出,该步骤由多媒体交换机中的FPGA模块完成。
可选的,在一个实施例中,还包括M路视频采集端,其中,M为大于或等于1的整数;
视频采集端被配置为采集视频信号并传入多媒体交换机。N路视频采集端通过HDMI接口接入多媒体交换机,而后多媒体交换机获取YUV格式的像素数据,应用编码器编码成视频流。
音频采集端被配置为,接收多媒体交换机发送的交换信息然后执行下述操作:
①发送音频信号至多媒体交换机,根据交换信息中的时钟同步信息校准本采集端时钟,根据交换信息中的信噪比进行语音增强。
多媒体交换机还被配置为:
①在同一运行周期的K个时间片内,分别向N路音频采集端发送包括时钟同步信息和信噪比的交换信息,信噪比根据来自上一周期中交换机接收到的来自同一音频采集端的音频信号估算。
②接收来自N路音频采集端的音频信号并进行语音增强及编码,得到音频流。例如,音频信号进行的增强处理可以包括以下之一或其任意组合:降噪、回音消除、啸叫抑制、自动增益。
③接收来自M路视频采集端的视频信号并进行编码,得到视频流。
④封装音频流和视频流,并将音频流和视频流打上时间标记以保证同步性。
可选的,在一个实施例中,具体的合成封装步骤如下,音视频合成编辑示意图3所示:
(1)多路视频采集编码:①PC桌面屏幕信号通过HDMI接口接入多媒体交换机,获取YUV格式的像素数据,应用libx264的视频编码器将YUV数据编码成H264视频流;②摄像头视频数据通过以太网口接入多媒体交换机,获取RTSP视频流和H264编码。
(2)音频采集编码过程:首先采用音频编译器对音频信号进行PCM编码;其次通过混音和语音增强后传输至CPU模块,进行ACC编码。
(3)最后将获得的H264视频流和AAC音频流,进行FLV格式封装,通过RTMP协议推送到服务器。其中,音频和视频数据分别打上时间戳,保证音视频时间同步性。
其中,当CPU接收到视频数据帧和音频PCM编码便打上时间戳,具体时间戳标记如下:
视频时间戳:pts = inc++ *(1000/fps);其中inc是一个静态的,初始值为0,每次打完时间戳inc加1,fps是帧率。
音频时间戳:pts = inc++ * (frame_size * 1000 / sample_rate);其中frame_size是帧长sample_rate是采样率。
可选的,在一个实施例中,如图2所示,具体多路音频采集步骤包括:
①,多媒体交换机定时发送交换信息:多媒体交换机为网络内每路音频采集端分配端口号,定时(周期性)生成携带本地时钟的交换信息,并有序发送交换信息至相应的音频采集端。
②,N路音频采集端根据相邻周期间接收到交换信息的时间间隔,计算本采集端时钟与同步时钟之间的时间差;当时间差大于设定的第二阈值时,校准本采集端时钟为同步时钟。可选的,音频采集端根据交换信息校准本地时钟:各路音频采集端根据接收到的交换信息,获取其中的时钟报文信息,计算同步时钟和本地时钟的时间偏差,并校准本地时钟。
③,音频采集端采集及缓存数据:各路音频采集端通过高灵敏度麦克风拾音头采集语音数据,经AD转换后缓存至本地缓存区。
④,音频采集端发送数据至多媒体交换机端:当各路音频采集端接收到多媒体交换机发送的交换信息,将缓存区的音频数据装载至上行数据包,并发送至多媒体交换机端。
可选的,在一个实施例中,音频采集端将采集到的音频数据存入每路音频采集端的输入存储区;当输入存储区的数据内存量达到设定的第一阈值时,将输入存储区中的音频数据存入迁移至输出存储区;将输出存储区中的音频数据作为音频信号发送至多媒体交换机。
⑤,多媒体交换机端缓存音频数据:多媒体交换机为各端口提供独立的数据缓存区,当接收到各路音频采集端发送的上行数据包后,分别缓存至对应的数据缓存区。
可选的,在一个实施例中,各路音频采集端负责实现原始音频信号的采集、缓存和发送;多媒体交换机端负责实现网络内各路音频采集端的时钟同步控制,以及音视频数据的接收、缓存和处理(该部分由多媒体交换机中的FPGA模块完成)。其中,多媒体交换机和音频采集端之间采用100M/1000M的同步以太网连接。
可选的,在一个实施例中,本***应用ATM技术,以时分复用的方式给每个音频采集端建立通道,确保网络内各路音频采集端高效、有序地进行数据传输;同时采用时钟网络同步技术,保证了音频采集和接收端时钟频率一致,大大降低时延抖动,确保数据采集传输的准确无误码。多媒体交换机***基本结构示意图如图1所示。
可选的,在一个实施例中,多路音频采集网络结构采用拉手方式,如图2所示。多媒体交换机和音频采集端通过总线方式连接通信,音频采集端通过拉手方式,单端多点同时接入多媒体交换机,通信速率10M,时钟同步准确、低延时、***。
可选的,在一个实施例中,多媒体交换机支持多路立体声音频接口和多路RJ45网络接口数字音频输入。立体声输入的声音源包括线性输入line-in、鹅颈麦克风或者无线麦克风等,经过音频编译器处理(主要包括滤波、放大AD转换等)通过I2S接口与中央处理单元,即,可编程逻辑器件FPGA连接;多路数字麦克风输入经过物理层收发器PHY模块然后通过媒介通信MII接口和中央处理单元连接。
可选的,在一个实施例中,根据多媒体交换机端反馈的各路音频信号信噪比,各路音频采集端进行前端音频信号预增强处理,之后结合多媒体交换机后端语音增强处理,可以更好地弥补声场和线路传输的损失,提高原始信号信质量,降低后端降噪滤波处理对原音的削减,提高了语音增强效果。具体实现步骤如下:
①多媒体交换机端估计原始信号信噪比:多媒体交换机根据各路音频采集端上传的数据,对原始音频信号采用维纳滤波的方法,估算出各路音频信号的信噪比,同时将该值通过下行同步信元,反馈至音频采集端,该步骤由多媒体交换机中的FPGA模块完成。
②音频采集端进行语音增强:根据多媒体交换机端发送的同步信元,获取信噪比(s/n)信息,当信噪比值小于预先设定的参考值时,对预设频率段信号进行幅度增大调节,以调高人声s分量的信号信噪比计算方式,因为前端计算能量很低,所以借用后端计算能力。
计算音频信号语音增强前后能量比值D:
Figure DEST_PATH_IMAGE007
其中,S(i)表示音频采集端的第i帧原始信号,So(i)表示第i帧传输到多媒体交换机经过语音增强后输出的信号。
D值大于预设阈值,则表示语音增强处理前后能量变化大于预设阈值,第i帧为寂静段;D值小于预设阈值,则表示语音增强处理前后能量变化小于预设阈值,第i帧为语音段。
确定语音段数据后,取F帧语音段数据作为分析样本,计算信噪比,信噪比基于如下公式:
Figure 443290DEST_PATH_IMAGE006
其中,SNR表示信噪比。
当交换信息中的信噪比小于设定的第三阈值时,N路音频采集端在之后的采集中,调节预设频段信号至预设幅度。
③多媒体交换机端进行语音增强:对混音后的音频数据进行降噪、回音消除、啸叫抑制、自动增益处理(通用方法,由多媒体交换机中的DSP模块完成),实现语音增强效果,处理后的音频输出可以用于音视频合成编辑或者本地扩音。
可选的,在一个实施例中,多媒体交换机包括:
处理器模块,处理器模块包括音频采集与输出接口、视频采集与输出接口、网络接口以及外部设备接口;
音频采集模块,FPGA音频采集模块与处理器模块联接;
音频编译模块,音频编译模块包括模拟音频采集设备接口、数字音频采集设备接口、音频输出接口,音频编译模块与音频采集模块联接;
音频处理模块,音频处理模块与音频采集模块联接。
可选的,在一个实施例中,多媒体交换机包括CPU处理器、DSP芯片、FPGA芯片、音频编译模块、各类数据接口等主要模块,以实现多路音视频采集、音频混音、语音增强和音视频合成处理。多媒体交换机模块图如图4所示。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。

Claims (10)

1.一种多媒体交换机***,其特征在于,包括:
多媒体交换机、N路音频采集端,其中,N大于或等于2的整数;
所述音频采集端被配置为通过麦克风获取音频信号;
所述多媒体交换机被配置为:
从所述音频采集端以音频数据帧的形式获取所述音频信号并进行语音增强及编码,得到音频流;
计算每一个所述音频数据帧中所述音频信号语音增强前后的能量比值D,根据所述D值小于预设阈值的所述音频数据帧计算信噪比;
向所述N路音频采集端发送包括所述信噪比的交换信息,所述信噪比根据来自上一周期中所述多媒体交换机接收到的来自同一音频采集端的所述音频信号估算;
所述音频采集端被配置为:
接收所述多媒体交换机发送的所述交换信息,如果所述交换信息中的所述信噪比小于预定门限,则对预设频率段信号进行幅度增大调节,以调高人声分量的信号;
将所述音频信号发送至所述多媒体交换机。
2.如权利要求1所述的多媒体交换机***,其特征在于,还包括M路视频采集端,其中,M为大于或等于1的整数;
所述多媒体交换机还被配置为:
在同一运行周期的K个时间片内,分别向所述N路音频采集端发送包括时钟同步信息和所述信噪比的交换信息;
接收来自所述M路视频采集端的视频信号并进行编码,得到视频流;
封装所述音频流和所述视频流,并将所述音频流和所述视频流打上时间标记以保证同步性;
所述视频采集端被配置为采集所述视频信号并传入所述多媒体交换机。
3.如权利要求1所述的多媒体交换机***,其特征在于,所述多媒体交换机还被配置为:
将Zn小于预设第一阈值并且Mn小于预设第二阈值的音频数据帧删除,其中:
Figure 525451DEST_PATH_IMAGE001
Figure 350188DEST_PATH_IMAGE002
输出混音信号
Figure 797349DEST_PATH_IMAGE003
,其中,
Figure 455864DEST_PATH_IMAGE004
其中,Sin代表音频信号,sgn是取符号的函数,j是音频采集端编号,i是音频数据帧内样本编号,H为一个音频数据帧内样本数量,η是预先设定的补偿因子。
4.如权利要求1所述的多媒体交换机***,其特征在于,
所述音频信号语音增强前后的能量比值D通过以下方式计算:
Figure 683583DEST_PATH_IMAGE005
其中,S(i)表示所述音频采集端的第i帧中的原始信号,So(i)表示所述第i帧传输到所述多媒体交换机经过语音增强后输出的信号;
D值大于预设阈值,则表示语音增强处理前后能量变化大于预设阈值,所述第i帧为寂静段;D值小于预设阈值,则表示语音增强处理前后能量变化小于预设阈值,所述第i帧为语音段;
确定所述语音段数据后,取F帧语音段数据作为分析样本,计算信噪比,所述信噪比基于如下公式:
Figure 718535DEST_PATH_IMAGE006
其中,SNR表示信噪比。
5.如权利要求1所述的多媒体交换机***,其特征在于,所述多媒体交换机对接收的所述音频信号进行的增强处理包括以下之一或其任意组合:降噪、回音消除、啸叫抑制、自动增益。
6.如权利要求1所述的多媒体交换机***,其特征在于,所述N路音频采集端的操作还包括:
将采集到的音频数据存入每路音频采集端的输入存储区;
当所述输入存储区的数据内存量达到设定的第一阈值时,将所述输入存储区中的所述音频数据存入迁移至输出存储区;
将所述输出存储区中的所述音频数据作为所述音频信号发送至所述多媒体交换机。
7.如权利要求2所述的多媒体交换机***,其特征在于,所述N路音频采集端根据相邻周期间接收到所述交换信息的时间间隔,计算本采集端时钟与同步时钟之间的时间差;
当所述时间差大于设定的第二阈值时,校准所述本采集端时钟为同步时钟。
8.如权利要求2所述的多媒体交换机***,其特征在于,所述M路视频采集端通过HDMI接口接入所述多媒体交换机,所述多媒体交换机获取YUV格式的像素数据,应用编码器编码成所述视频流。
9.如权利要求2所述的多媒体交换机***,其特征在于,所述多媒体交换机封装所述音频流和所述视频流,进一步包括:
进行FLV格式封装,通过RTMP协议推送到服务器。
10.如权利要求2所述的多媒体交换机***,其特征在于,所述多媒体交换机包括:
处理器模块,所述处理器模块包括音频采集与输出接口、视频采集与输出接口、网络接口以及外部设备接口;
音频采集模块,FPGA音频采集模块与所述处理器模块联接;
音频编译模块,所述音频编译模块包括模拟音频采集设备接口、数字音频采集设备接口、音频输出接口,所述音频编译模块与所述音频采集模块联接;
音频处理模块,所述音频处理模块与所述音频采集模块联接。
CN202110508270.3A 2021-05-11 2021-05-11 一种多媒体交换机*** Active CN112929731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110508270.3A CN112929731B (zh) 2021-05-11 2021-05-11 一种多媒体交换机***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110508270.3A CN112929731B (zh) 2021-05-11 2021-05-11 一种多媒体交换机***

Publications (2)

Publication Number Publication Date
CN112929731A true CN112929731A (zh) 2021-06-08
CN112929731B CN112929731B (zh) 2021-07-30

Family

ID=76174837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110508270.3A Active CN112929731B (zh) 2021-05-11 2021-05-11 一种多媒体交换机***

Country Status (1)

Country Link
CN (1) CN112929731B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103826084A (zh) * 2014-02-17 2014-05-28 宁波公众信息产业有限公司 一种音频编码方法
CN105812721A (zh) * 2014-12-30 2016-07-27 浙江大华技术股份有限公司 一种跟踪监控方法及跟踪监控设备
WO2016150320A1 (zh) * 2015-03-25 2016-09-29 中兴通讯股份有限公司 一种音频发送方法及装置
CN107888567A (zh) * 2017-10-23 2018-04-06 浙江大华技术股份有限公司 一种复合多媒体信号的传输方法及装置
CN110473567A (zh) * 2019-09-06 2019-11-19 上海又为智能科技有限公司 基于深度神经网络的音频处理方法、装置及存储介质
CN112071132A (zh) * 2020-09-03 2020-12-11 北京竞业达数码科技股份有限公司 音视频教学设备、智能教学***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103826084A (zh) * 2014-02-17 2014-05-28 宁波公众信息产业有限公司 一种音频编码方法
CN105812721A (zh) * 2014-12-30 2016-07-27 浙江大华技术股份有限公司 一种跟踪监控方法及跟踪监控设备
WO2016150320A1 (zh) * 2015-03-25 2016-09-29 中兴通讯股份有限公司 一种音频发送方法及装置
CN107888567A (zh) * 2017-10-23 2018-04-06 浙江大华技术股份有限公司 一种复合多媒体信号的传输方法及装置
CN110473567A (zh) * 2019-09-06 2019-11-19 上海又为智能科技有限公司 基于深度神经网络的音频处理方法、装置及存储介质
CN112071132A (zh) * 2020-09-03 2020-12-11 北京竞业达数码科技股份有限公司 音视频教学设备、智能教学***

Also Published As

Publication number Publication date
CN112929731B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
US7243150B2 (en) Reducing the access delay for transmitting processed data over transmission data
US8665370B2 (en) Method for synchronized playback of wireless audio and video and playback system using the same
JP4184397B2 (ja) 映像音声処理システムおよびその制御方法、音声処理システム、映像音声処理システム制御プログラム、ならびに該プログラムを記録した記録媒体
US9055332B2 (en) Lip synchronization in a video conference
CN104320843B (zh) 蓝牙发声装置的音频同步方法
CN108616800B (zh) 音频的播放方法和装置、存储介质、电子装置
CN101604987A (zh) 用于音频传输的低等待时间高质量链路
CN113055312B (zh) 基于同步以太网的多路音频拾音方法和***
US20220038769A1 (en) Synchronizing bluetooth data capture to data playback
CN108111872B (zh) 一种音频直播***
CN109040818B (zh) 直播时的音视频同步方法、存储介质、电子设备及***
WO2011099273A1 (ja) コンテンツ通信装置及びコンテンツ加工装置並びにコンテンツ通信システム
EP2015603A1 (en) Wireless hearing system and method
CN112929731B (zh) 一种多媒体交换机***
CN103826084A (zh) 一种音频编码方法
US11108486B2 (en) Timing improvement for cognitive loudspeaker system
CN101453286B (zh) 一种多媒体广播***中数字音频复用传输的方法
JP4218456B2 (ja) 通話装置、通話方法及び通話システム
CN106209343B (zh) 同步化向多个可移动音频终端发送的数字信号的播放
CN103474076A (zh) 用于输送对齐的多通道音频的方法和设备
CN113645485A (zh) 一种实现任意流媒体协议到ndi的转换方法及装置
CN111726669B (zh) 一种分布式解码设备及其音视频同步的方法
Tatlas et al. An Error–Concealment Technique for Wireless Digital Audio Delivery
Tatlas et al. Wireless digital audio delivery analysis and evaluation
WO2005104542A3 (en) Integrated station for recording and transmission of audio and video signals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant