CN101001485A

CN101001485A - 一种有限声源多通道声场***及声场模拟方法

Info

Publication number: CN101001485A
Application number: CN 200610113968
Authority: CN
Inventors: 张勤; 刘剑波; 王京玲; 蔡娟娟
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2006-10-23
Filing date: 2006-10-23
Publication date: 2007-07-18

Abstract

一种有限声源多通道声场***及声场模拟方法，包括：麦克风阵列，用于录制M路音频信息及探测声场特性；音频采集子***，用于各路音频信息的模数转换、音频数据打包及通道号、时间戳；服务器，对各麦克风的音频数据处理，完成音源的分离与处理，并将数据压缩保存；根据M路音源数据及重建声场的特性，混合音源数据并转换为N路扬声器的输出数据和控制信号；音频还音子***，将不同音源的音频数据组成多通道模拟信号，并控制各路扬声器音频的同步；扬声器阵列用于播放N路音频信号。本发明可以实现音源分离、采集，M与N动态加权匹配，全方位精确再现原声场，减少声场相位失真的影响，避免各音源之间在处理、放大和播出的交调干扰与其它失真。

Description

一种有限声源多通道声场***及声场模拟方法

技术领域

本发明涉及音频采集、还原技术，具体地说，是涉及一种有限声源多通道声场***。

背景技术

音乐是人类文明史的一个重要组成部分。自录音技术发明以来，人们就一直试图想将其美妙的旋律如实地记载下来。声重放技术经历了从单声道到双声道、五声道以及更多声道的发展历程，始终追求的一个目标是更逼真的再现原来的声场或空间感。与双声道立体声相比，尽管多声道***已经使人们获得了美妙非凡的听音享受，但实际上这样的***并不能对音源做到无失真的还原，存在着声场相位失真、声源交调干扰、动态范围压缩等问题，在向更先进的多通道声场***的发展上遇到了前所未有的技术复杂度和理论的挑战。胶木唱片、磁带自不必说，即便是采用数字技术录制的双声道立体声音源，在当今较为流行的5.1/6.1声道还音***上播放，也不能真实再现三维的空间感。此外，传统的音箱都是有一定的辐射轴向角度的，因此在双声道立体声***中较明显的存在着“皇帝位”，此位置在两音箱连线的中垂线上，当向左或向右偏离此轴线时，声像就会明显的发生比例偏移，不论是家用的音响***还是专业的影院还音***，都普遍存在音源的方向失真问题。在多声道的环绕声***中，受到各个音箱的限制，最佳听音区变为更窄的一个点，即由各音箱环绕包围起来的区域的中点。只要离开这个点，听音者就会被某只音箱的声场所“吞噬”，产生严重的声场比例失调。

目前立体声录制和回放格式正在被环绕声音格式所取代。许多艺术和技术应用中开发出了各种环绕声技术，通过适当的录制和回放方式为听觉提供空间感。在这方面的研究中，主要有两类方法，一类是感知模拟，一类是声场模拟。

感知模拟方法：

双耳声技术属于感知模拟方法，这类技术认为仅仅在听者耳鼓重现声音压力就可以有效重现听觉的空间感，这是基于大家熟知的且被验证的事实----双耳以及头部和胸部能够分辩声源位置的方向和距离。串话消除技术也属于双耳声技术，可以消除左扬声器与听者右耳之间的串话。录音和立体声的传统技术是基于对感知现象的观察和一些经验，生成了人工合成的指导性原则。目前，常见的多声道还音***都是利用基于感知模拟的技术进行设计的。目前人们所使用的各种声场技术规范非常多，最常见环绕声格式有Dolby(杜比)、DTS(Digital Theatre System，数字化影院***)、SACD(SuperAudio CD，超级音频光盘***)和DVD Audio(DVD音频)。其中，SACD与DVD Audio都是高解析度的唱片格式，电影并不使用这两种格式，电影的环绕格式主要采用DTS ES 6.1与Dolby Digital EX 6.1。

声场模拟方法：

基于声场模拟的***则很少见，因为技术上和物理上的概念非常复杂并且需要深厚声学和信号处理基础背景。Berkhout于1988和1997年分别提出波场综合(Wave Field Synthesis，WFS)技术和波场分析(Wave Field Analysis，WFA)理论。Berkhout和J.Meyer围绕这一理论展开了麦克风阵进行声场的分析和声场记录的研究，Paul D.Henderson和X.Shen则对使用扬声器阵列进行声场还原进行了研究。

声场模拟的基本假设是：在重现空间中用具有空间分布的声音压力重现声场，使一个完整的听觉***(外耳)受到自然的刺激，这个刺激是虚拟的刺激，正是所要重现的。显然这一任务在物理上更自然，但单靠理论或直觉的空间声音感知方法难以实现。波场合成(Wave Field Synthesis，WFS)和全息声(holophonic)是两种声场模拟方法，它们都是用一个扬声器环绕的区域来重现声场。Ambisonic也是一种声场模拟方法，声场可以在Ambisonic环绕扬声器阵列的中心得到部分重现。在重现的声源周围生成方向图，也是一种声场模拟技术。

以上的研究，都是基于惠更斯原理(Huygens’Principle)对声场进行分解和综合。这样的声场重建***理论上需要无限多个二次声源，在实际中无法实现，需要进行大量的简化与近似，同时容易产生音源信息失真、声场相位失真、声源交调干扰、动态范围压缩等问题。

还音***要真实的再现原声场，录音技术的研究是一个关键问题。如何将各种发声方式不同、声音响度不同的乐器组成的交响乐团演奏的音乐和谐、平衡、清晰、准确的收录下来，是录音成败的关键。现代录音技术往往采用高保真的拾音话筒，采取多话筒、多声轨的录音方式，最大限度接近真实的采集声音，然后经过重新混音，平衡各音轨的音量，使各种乐器以一种和谐精准的状态展现出来。无失真声源提取是音源分离的问题，其目的是将目标音源与其它干扰音源以及噪声信号分开。统计学方法，如神经网络、隐马尔科夫模型(Hidden Markov Model，HMM)、支持向量机(Support VectorMachines，SVM)是目前音源分离领域普遍使用的方法。但是，目前统计学方法在音源分离的应用研究中，存在着需要假设噪声信号为高斯白噪声的限制。所以现有的音源分离研究只能看成是一种信号增强的研究，而当信号噪声为其它音源(如乐器)的干扰时，现有的解决方法就因***的非高斯性而失去应用价值。

发明内容

本发明所要解决的技术问题是提供一种有限声源多通道声场***及声场模拟方法，来实现无失真的音源分离、采集，及全方位精确再现原声场。

为解决上述技术问题，本发明提供了一种有限声源多通道声场***，包括：具有多个麦克风的麦克风阵列、具有多个扬声器的扬声器阵列，还包括：音频采集子***、服务器、音频还音子***，其中，

麦克风阵列用于录制M路音频信息及探测声场特性；

音频采集子***，用于将从麦克风阵列采集的各路音频信号进行模数转换，并将转换后的音频数据标记采集通道号及时间戳，打包并发送；

服务器，在声场采集过程中，用于接收并解析音频采集子***发送的音频数据包，将从各麦克风阵列采集的音频数据转化为不同的单一音源数据，并将转化后的单一音源数据转化压缩成音频文件格式，并保存；在声场还音过程中，用于读取已保存的音频文件，根据M路音源数据及重建声场的特性，混合音源数据并通过智能匹配转换为N路扬声器的输出数据和控制信号，发送至音频还音子***；

音频还音子***，用于根据从服务器接收到的控制信号来同步从服务器接收到的各扬声器的输出数据，并还原成多通道模拟音频信号，发送至扬声器阵列播放；

扬声器阵列，用于播放N路音频信号及重建声场。

在一较佳实施例中，所述音频采集子***进一步包括：多个音频采集子板和一个音频采集母板；每个音频采集子板包括1个或多个音频采集通道、一模数转换器组及一逻辑处理装置；音频采集母板包括：采集子板数据接口及服务器通讯接口；其中，每个音频采集子板通过音频采集通道从麦克风阵列采集音频信号，并将音频采集通道采集到的音频信号发送至模数转换器组，模数转换器组将音频信息转化音频数据并发送至逻辑处理装置，将模数转换器组中每个模数转换器输出的音频数据标记上通道号及时间戳，并发送至音频采集母板中的采集子板数据接口，再通过音频采集母板中的服务器通讯接口将音频数据发送至服务器。

在一较佳实施例中，所述音频采集母板进一步包括：采集子板控制接口；服务器通过音频采集母板中的采集子板控制接口向音频采集子板发送控制命令，并从所述采集子板控制接口获取音频采集子板反馈的状态信息。

在一较佳实施例中，所述服务器进一步包括：监听采集模块，用于监听是否有音频数据到达服务器，当监听到有音频数据到达后进行采集；音频数据处理模块，包括粒子滤波器和均衡器，用于将采集的音频数据转化为不同的单一音源数据；存储模块，用于将转化后的单一音源数据转化压缩成音频文件格式，加入文件描述信息并保存；播放控制模块，用于读取已保存的音频文件，根据M路音源数据及重建声场的特性，混合音源数据并通过智能匹配转换为N路扬声器的输出数据和控制信号，发送至音频还音子***。

在一较佳实施例中，所述音频还音子***进一步包括：多个音频还音子板和一个音频还音母板；每个音频还音子板包括1个或多个音频还音通道、一数模转换器组及一逻辑处理装置；音频还音母板包括：还音子板控制接口、还音子板数据接口及服务器通讯接口；其中，音频还音母板通过服务器通讯接口接收来自服务器的各扬声器的输出数据和控制信号，并通过还音子板数据接口将各扬声器的输出数据发送至音频还音子板，同时通过还音子板控制接口将控制信号发送至音频还音子板；音频还音子板中的逻辑处理装置根据从音频还音母板收到的控制信号来同步从音频还音母板收到的各扬声器的输出数据，并发送至数模转换器组转换为多通道模拟音频信号，通过音频还音通道发送至扬声器阵列播放。

在一较佳实施例中，所述播放控制模块进一步包括扬声器音量控制子模块，用于对扬声器阵列进行音量控制。

在一较佳实施例中，所述扬声器音量控制子模块，进一步包括对扬声器阵列进行单扬声器音量控制的单扬声器音量控制单元、对分组扬声器音量控制的分组扬声器音量控制单元或对全部扬声器音量控制的全部扬声器音量控制单元。

在一较佳实施例中，所述播放控制模块，进一步包括扬声器阵列网络监控子模块，用于对扬声器阵列进行网络监控。

为了解决上述技术问题，本发明还提供一种有限声源多通道声场模拟方法，包括以下步骤：

(a)由音频采集子***将麦克风阵列采集的M路音频信号进行模数转换，并将转换后的音频数据标记采集通道号及时间戳，打包并发送；

(b)由一服务器接收并解析音频采集子***发送的音频数据包，将麦克风阵列采集的音频数据转化为不同的单一音源数据，并将转化后的单一音源数据转化压缩成音频文件格式并保存；

(c)在声场还音过程中，所述服务器读取已保存的音频文件，根据M路音源数据及重建声场的特性，混合音源数据并通过自适应匹配转换为N路扬声器的输出数据和控制信号，发送至音频还音子***；

(d)所述音频还音子***根据从服务器接收到的控制信号来同步从服务器接收到的各扬声器的输出数据，并还原成N路多通道模拟音频信号，发送至扬声器阵列播放。

在一较佳实施例中，所述步骤(b)将采集的音频数据转化为不同的单一音源数据时，采用粒子滤波器将噪声和干扰从该路音频通道中分离开，即把其它音源信号看作是一种非高斯的噪声干扰，将无失真的音源提取问题转换成一种波形跟踪问题。

本发明还提供了一种音频数据包结构，用于在音频采集过程中标识音频数据属性信息，包括：用于表示音频数据属性的包头部分和用于表示音频数据的包数据部分，其中，包头部分包括包起始标识位、通道标识位、时间戳位；包数据部分包括音频数据位。还可进一步包括校验位。

由上可知，本发明所述的***，通过服务器中的音频处理模块将所采集的各音频数据转化为多个单一音源的音频数据，实现了无失真的音源分离、采集，避免了单个声源的失真，减少了声场相位失真的影响，彻底避免了声源之间的交调干扰；通过服务器中的播放控制模块将所述分离出的M路单一音源的音频数据根据重建声场的特性，转换成N路扬声器输出的数据，并提供必要的控制信号，从而全方位精确再现了原声场。通过音频还音子***和扬声器阵列技术，避免了最佳听音区窄仄的现象。本发明通过采用所述具有通道号和时间戳标识的音频数据包结构，在音频采集时清楚的记载音频数据所来自的通道号及采集的时间，为全方位精确还音提供了空间和时间上的重要依据。

本发明所要解决的技术问题、技术方案要点及有益效果，将结合实施例，参照附图作进一步说明。

附图说明

图1为本发明实施例所述***的结构示意图；

图2为图1音频采集子***中音频采集子板的结构示意图；

图3为图1音频采集子***中音频采集母板的结构示意图；

图4为音频采集子板处理后音频数据包结构示意图；

图5为带有校验码的音频数据包结构示意图；

图6为图1中服务器音频数据监听、音频数据处理及存储的流程图；

图7为图1服务器中的音频数据处理模块的结构示意图；

图8为图1服务器中的MINO智能匹配模块的结构示意图；

图9为图1音频还音子***中音频还音子板的结构示意图；

图10为图1音频还音子***中音频还音母板的结构示意图；

图11为图1服务器中的播放控制模块结构示意图。

具体实施方式

参照图1，本发明实施例所述***的结构示意图。

本发明实施例所述***，包括：具有多个麦克风的麦克风阵列1、具有多个扬声器的扬声器阵列5，还包括：音频采集子***2、服务器3、音频还音子***4。

其中，

音频采集子***2，用于将从麦克风阵列采集的各路音频信号进行模数转换，并将转换后的音频数据标记采集通道号及时间戳，打包并发送；

服务器3，在声场采集过程中，用于接收并解析音频采集子***发送的音频数据包，将从各麦克风阵列采集的音频数据转化为不同的单一音源数据，并将转化后的单一音源数据转化压缩成音频文件格式，并加入文件描述信息，包括曲名，录音时间，作者，演奏者，场地，麦克风定位信息等保存；在声场还音过程中，用于读取已保存的音频文件，根据M路音源数据及重建声场的特性(包括扬声器的数目，摆放的位置，放映的场合等)，混合音源数据并通过智能匹配转换为N路扬声器的输出数据和控制信号，发送至音频还音子***。

音频还音子***4，用于根据从服务器接收到的控制信号，包括NM影射矩阵，扬声器最佳结构等信息，来同步从服务器接收到的各扬声器的输出数据，并还原成多通道模拟音频信号，发送至扬声器阵列播放。

通过音频采集子***，可将多个音频通道采集来的数据(如256个通道)通过数据接口传输到以太网，再通过以太网传送到服务器。由服务器根据不同的声场处理算法对各麦克风的音频数据进行处理，包括改进型滤波器和均衡器处理，最终把各麦克风采集的音频数据转化为不同的单一音源的音频数据，将这些数据转换成可以播放的音频文件格式，并保存到本地SCSI(SmallComputer System Interface，小型计算机***接口)硬盘或其它存储媒体中。远程客户端可以通过ISCSI(Internet Small Computer System Interface，互联网小型计算机***接口)协议访问播放SCSI盘中的音频文件或其它通讯协议访问相应存储媒体，并通过音频还音子***逼真地再现原声场。

在音频的采集、传输和存储过程中，为了避免单个声源的失真，减少声场相位失真的影响，彻底避免声源之间的交调干扰，本方案采用改进型的粒子滤波器将噪声和干扰从该路音频通道中分离开。即把其它音源信号看作是一种非高斯的噪声干扰，将无失真的音源提取问题转换成一种波形跟踪问题，从而提出了一种全新的基于粒子滤波器的音源分离方法。本方案拾音范围同时包括录音室和为现场录音，如大型交响乐音乐会、体育比赛和晚会录音等。

通过把主要的有限声源分离，使其它声场的分析与表示更为简单可行。通过有限声源还原技术与惠更斯原理构建一个M输入与N输出的多解声场***，得到一个比单一声场综合方法更优越，更灵活，适用于多种实际环境的还音***。利用本方案的音频还音子***和扬声器阵列技术，可以较好的解决目前存在的最佳听音区窄仄的问题，可应用于各大剧院、音乐厅、体育场、广场的录音广播***中，并且可以获得比现在的多声道还音***更逼真的还音感受。

本发明实施例所述的音频采集子***包括多个音频采集子板和一个音频采集母板。其中，每个音频采集子板包括1个或多个音频采集通道、一模数转换器组及一现场可编程门阵列FPGA(或其它逻辑处理装置)；音频采集母板包括：采集子板控制接口(包括串型接口，并行接口)、采集子板数据接口(包括高速串行接口，并行接口)及服务器通讯接口(如，有线以太网接口，无线超宽带接口，无线IP接口等)(如图3所示)。

参照图2，为本发明实施例所述音频采集子***中音频采集子板的结构示意图，每个音频采集子板通过音频采集通道(CH0-CH7)从麦克风阵列采集音频信号，并将音频采集通道采集到的音频信号发送至模数转换器组(图中示出了4个模数转换器A/D组，每个A/D组负责两个音频采集通道所采集音频信号的模数转换)，模数转换器组将音频信息转化音频数据并发送至现场可编程门阵列，现场可编程门阵列将模数转换器组中每个模数转换器输出的音频数据标记上通道号及时间戳，并发送至音频采集母板中的采集子板数据接口，再通过音频采集母板中的服务器通讯接口将音频数据发送至服务器。

这里，音频采集子***采用模块化设计，即音频采集子板(如图2所示)和音频采集母板(如图3所示)的模式，每个音频采集子板作为一个采集终端，一般可以采集8个音频采集通道(音频采集通道超过8个时，可以采用扩展的方式)的数据，这些数据通过FPGA打上时间戳和通道号，然后再将这些数据传递给母板，母板再通过以太网接口或其它通道由服务器读取，保存到SCSI硬盘或其它存储介质中。服务器3通过音频采集母板中的采集子板控制接口向音频采集子板发送控制命令，并从所述采集子板控制接口获取音频采集子板反馈的状态信息。

在图2中，A/D组的作用是把多通道音频模拟信号转换为数字音频数据。用户可以选择性的采样某个或某几个通道的音频数据。每个通道的数据中必须含有通道号参数，由于单板最多支持256通道，所以用一个字节长度的整数作为通道号参数即可，即通道编号从0到255号，0x00～0xff超过256通道时，由服务器记录文件区分。另外，每个通道采集到的数据都必须打上时间戳，以保证采集数据的正确先后顺序，也方便按时间选择性播放。为了保证还音***中数据的正确性与可靠性，还可以对音频数据进行纠错编码。

如图4所示，为音频采集子板处理后音频数据包结构示意图。经过现场可编程门阵列FPGA将模数转换后的音频数据打上通道号和时间戳后，音频数据包由包头和包数据两部分组成。每个数据包长度为固定的128字节，即总长1024位，数据包的结构如图4所示。在网络传输中，音频数据包还会被以UDP(User Datagram Protocol，用户数据报协议)或者TCP/IP(Transmission Control Protocol/Internet Protocol，传输控制协议/互联网络协议)的形式封装为IP包。在128字节的音频数据包中，包头6个字节，其中包起始标识位1个字节，通道标识位1个字节，时间戳位4个字节，音频数据位122个字节。

其中，

包起始标识位采用1字节：

包头的第一个字节(0x77)即包起始标识用于同步，以表征一个数据包的开始。

通道标识位采用1字节：

每个通道的数据中必须含有通道号参数，由于最多支持256通道，所以用一个字节长度的整数作为通道号参数即可，即通道编号从0到255号，0x0～0xff解码器检测到包头之后的一个字节，即可知道接收到的音频信号是256路音频信号中的哪一路。

时间戳位采用4字节：

每个通道采集到的数据都必须打上时间戳，以保证采集数据的正确先后顺序，也方便按时间选择性播放。这里的时间戳是相对时间戳，即定义了各路音频信号的从属关系。选择每组音频信号的第一路为音频主路，其它几路音频信号则定为从属音频。在主路音频的各个单元上打上时间戳，而依照与主路音频的单元在同一时间上的表现，在从属音频相对应的单元上打上相同的时间戳，从属音频各单元上的时间戳是相对于主路音频单元的时间戳而言的。

为了保证音频还音子***中数据的正确性与可靠行，还可以对音频信号进行前向纠错。我们的方案中采用T＝8、截短的RS(Reed-Solomon，里德-所罗门)编码，并将16个校验字节加到每一个数据包上，此时音频数据位只有106个字节。RS误码保护包的帧结构如图5所示。

RS编码也同样作用于数据包的同步字节。此处截短的RS(144，128)码的实现方法是在RS(255，239)编码器的输入端输入信息字节之前，添加111个字节，并设置为全0。编码后，再将这些零字节丢弃。同理，音频还音子***在RS(255，239)解码器的输入端输入信息字节之前，添加111个字节，并设置为全0。解码后，再将这些零字节丢弃。

本发明实施例所述的服务器，包括：监听采集模块、音频数据处理模块、存储模块和播放控制模块。

监听采集模块，用于监听是否有音频数据到达服务器，当监听到有音频数据到达后进行采集；

音频数据处理模块，用于将采集的音频数据转化为不同的单一音源数据；这里，音频处理器采用粒子滤波器和均衡器，如图7所示，最终把各麦克风采集的音频信号转化为不同的单一音源信号。每一个音频处理器采用模块插件的设计，这样可以根据需要添加和删除不同的音频处理器，而不影响整个***，同时也能随着研究的深入不断设计更好的音频处理器。

存储模块，用于将转化后的单一音源数据有损或无损转化压缩成音频文件格式，加入相关文件信息，包括标示区分大于256声道***并保存；

播放控制模块，用于读取已保存的音频文件，根据M路音源数据及重建声场的特性，混合音源数据并通过智能匹配转换为N路扬声器的输出数据和控制信号，发送至音频还音子***。如图8所示，在本实施例中播放控制模块采用智能转换模块来实现MINO的匹配，在转换过程中可进行M与N动态加权匹配。

在服务器的前端，各麦克风采集到的音频信号通过服务器上以太网口(通讯接口)输入服务器。因此，服务器通过监听采集模块建立端口监听，如图6所示。当有数据到达任何一个以太网口时，以TCP/IP协议读取数据包，并根据数据包包头的声道标识确定此音频流数据包的声道属性，然后把不同声道的音频流数据分别存入不同的硬盘文件中。远程客户端可以通过ISCSI协议访问播放SCSI盘上的这些音频文件或其它传输协议访问相应的存储介质。

在还音过程中，服务器通过播放控制模块读取已保存的音频文件，根据M路音源数据及重建声场的特性，混合音源数据并通过智能匹配转换为N路扬声器的输出数据和控制信号，发送至音频还音子***。

本发明实施例所述的音频还音子***，包括：多个音频还音子板和一个音频还音母板。

其中，每个音频还音子板包括1个或多个音频还音通道、一数模转换器组及一现场可编程门阵列。

音频还音母板包括：还音子板控制接口、还音子板数据接口及服务器通讯接口，如图9所示。

音频还音母板通过服务器通讯接口接收来自服务器的各扬声器的输出数据和控制信号，并通过还音子板数据接口将各扬声器的输出数据发送至音频还音子板，同时通过还音子板控制接口将控制信号发送至音频还音子板，如图10所示；请同时参照图9，音频还音子板中的现场可编程门阵列根据从音频还音母板收到的控制信号来同步从音频还音母板收到的各扬声器的输出数据，并发送至数模转换器D/A组(图9中示出了4个双路数模转换器D/A)转换为多通道模拟音频信号，通过音频还音通道(CH0-CHN，音频还音通道一般不超过8个)发送至扬声器阵列播放。

如图11所示，服务器中的播放控制模块中还可以增加扬声器音量控制子模块来对扬声器阵列进行音量控制，比如，增加单扬声器音量控制单元、分组扬声器音量控制单元及全部扬声器音量控制单元，来分别对扬声器阵列进行单扬声器音量控制、分组扬声器音量控制或全部扬声器音量控制。同时，由于服务器和各扬声器采用网络的方式连接，还可以增加扬声器阵列网络监控子模块，使得服务器端能够对每个扬声器的连接状态进行监控，以便及时发现连接不正常的扬声器。这里，对于扬声器音量控制子模块及扬声器阵列网络监控子模块可以采用现有的成熟技术实现，如音频功率放大器里，采用的数字或模拟的音量控制，就是对扬声器进行音量控制的，可以是对单、分组及全部扬声器进行音量控制。

对扬声器的监控，包括扬声器输入电压测量，扬声器声场输出测量，测量结果通过监控网络，送到服务器端，以保证工作正常。在远程播放时，可以选择不对扬声器检测。

本发明所述的一种有限声源多通道声场***及音频数据包结构，并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明之领域，对于熟悉本领域的人员而言可容易地实现另外的优点和进行修改，因此在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。

Claims

1、一种有限声源多通道声场***，包括：具有多个麦克风的麦克风阵列、具有多个扬声器的扬声器阵列，其特征在于还包括：音频采集子***、服务器和音频还音子***，其中，

麦克风阵列用于录制M路音频信息及探测声场特性；

扬声器阵列，用于播放N路音频信号及重建声场。

2、根据权利要求1所述的声场***，其特征在于所述音频采集子***进一步包括：多个音频采集子板和一个音频采集母板；每个音频采集子板包括1个或多个音频采集通道、一模数转换器组及一逻辑处理装置；音频采集母板包括：采集子板数据接口及服务器通讯接口；其中，每个音频采集子板通过音频采集通道从麦克风阵列采集音频信号，并将音频采集通道采集到的音频信号发送至模数转换器组，模数转换器组将音频信息转化音频数据并发送至所述逻辑处理装置，将模数转换器组中每个模数转换器输出的音频数据标记上通道号及时间戳，并发送至音频采集母板中的采集子板数据接口，再通过音频采集母板中的服务器通讯接口将音频数据发送至服务器。

3、根据权利要求2所述的声场***，其特征在于所述音频采集母板进一步包括：采集子板控制接口；服务器通过音频采集母板中的采集子板控制接口向音频采集子板发送控制命令，并从所述采集子板控制接口获取音频采集子板反馈的状态信息。

4、根据权利要求1所述的声场***，其特征在于所述服务器进一步包括：监听采集模块，用于监听是否有音频数据到达服务器，当监听到有音频数据到达后进行采集；音频数据处理模块，包括粒子滤波器和均衡器，用于将采集的音频数据转化为不同的单一音源数据；存储模块，用于将转化后的单一音源数据转化压缩成音频文件格式，加入文件描述信息并保存；播放控制模块，用于读取已保存的音频文件，根据M路音源数据及重建声场的特性，混合音源数据并通过智能匹配转换为N路扬声器的输出数据和控制信号，发送至音频还音子***。

5、根据权利要求1所述的声场***，其特征在于所述音频还音子***进一步包括：多个音频还音子板和一个音频还音母板；每个音频还音子板包括1个或多个音频还音通道、一数模转换器组及一逻辑处理装置；音频还音母板包括：还音子板控制接口、还音子板数据接口及服务器通讯接口；其中，音频还音母板通过服务器通讯接口接收来自服务器的各扬声器的输出数据和控制信号，并通过还音子板数据接口将各扬声器的输出数据发送至音频还音子板，同时通过还音子板控制接口将控制信号发送至音频还音子板；音频还音子板中的逻辑处理装置根据从音频还音母板收到的控制信号来同步从音频还音母板收到的各扬声器的输出数据，并发送至数模转换器组转换为多通道模拟音频信号，通过音频还音通道发送至扬声器阵列播放。

6、根据权利要求4所述的声场***，其特征在于所述播放控制模块进一步包括扬声器音量控制子模块，用于对扬声器阵列进行音量控制。

7、根据权利要求6所述的声场***，其特征在于所述扬声器音量控制子模块，进一步包括对扬声器阵列进行单扬声器音量控制的单扬声器音量控制单元、对分组扬声器音量控制的分组扬声器音量控制单元或对全部扬声器音量控制的全部扬声器音量控制单元。

8、根据权利要求4所述的声场***，其特征在于所述播放控制模块，进一步包括扬声器阵列网络监控子模块，用于对扬声器阵列进行网络监控。

9、一种有限声源多通道声场模拟方法，包括以下步骤：

10、如权利要求9所述的方法，其特征在于，所述步骤(b)将采集的音频数据转化为不同的单一音源数据时，采用粒子滤波器将噪声和干扰从该路音频通道中分离开，即把其它音源信号看作是一种非高斯的噪声干扰，将无失真的音源提取问题转换成一种波形跟踪问题。

11、一种音频数据包结构，用于在音频采集过程中标识音频数据属性信息，其特征在于包括：用于表示音频数据属性的包头部分和用于表示音频数据的包数据部分，其中，包头部分包括包起始标识位、通道标识位、时间戳位；包数据部分包括音频数据位。

12、根据权利要求11所述的数据包结构，其特征在于还包括：校验位。