CN102811310A

CN102811310A - 一种网络视频摄像机上话音回声抵消的控制方法及***

Info

Publication number: CN102811310A
Application number: CN2011104058332A
Authority: CN
Inventors: 向飞
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2011-12-08
Filing date: 2011-12-08
Publication date: 2012-12-05

Abstract

本发明提供一种在网络视频摄像机中控制话音回声抵消的控制方法，包括步骤：a.计算话音残余样本数，并将所述话音残余样本数回馈给所述声学回声消除模块；b.判断是否接收到网络音频信号；c.若接收到网络音频信号，则播放接收到的所述网络音频信号；d.由一音频采集模块采集语音信号；e.所述声学回声消除模块对所述语音信号进行处理，以便消除所述语音信号中的回声；f.将所述消除回声后的语音信号发送给所述网络视频摄像机相对应的远端设备。还提供一种在网络视频摄像机中控制话音回声抵消的控制装置以及网络视频摄像机，其可以实现话音回声抵消。通过本发明，可以有效地控制话音回声。

Description

一种网络视频摄像机上话音回声抵消的控制方法及***

技术领域

本发明涉及视频监控***，具体地涉及用于视频监控***的网络视频摄像机，尤其是涉及在网络视频摄像机上支持话音回声抵消的控制方法以及相应的控制装置。

背景技术

随着科技的高速发展，互联网的用户已经非常的普遍，其使用率已达到80%以上，而互联网的用途也越来越多养化，人们可以从互联网获取所需信息，可以通过互联网进行购物，可以通过互联网与家人，同事以及同学进行联络，也可以通过互联网监控远程。例如，人与人之间最重要的莫过于交流，通过互联网的交流已从原本的文字交流向语音交流发展，网络视频通话已成为一种新的交流方式；又例如，在视频会议***以及视频监控***中，需要使用网络视频摄像机对远端图像进行观看，并对远端声音进行采集以及播放等

然而，在网络视频监控中，难以解决的便是回音问题，为控制回音的影响,人们最早提出的是“通过网络衰减”的方法。该方法在发送和接收方向上分别***一个衰减器,所以，回音的衰减比话音的衰减大2倍。然而,当通信距离很长时,由于话路会经过许多衰减器，因此话音衰减随着传输距离的增加而增加，最后可能导致话音电平降到无法听清楚的地步。这一缺点，使得“通过网络衰减”的方法的实用性受到很大限制。

后来，人们在“通过网络衰减”技术的基础上提出了回音抑制器技术。回音抑制器通过开启发送路径或在发送路径上***较大的衰减来达到控制回音的目的。理想情况下，回音抑制器应在远端用户说话时开启发送路径而在远端用户接收时关闭发送路径。然而，这很难做到,即使是最好的回音抑制器也经常同时将远端用户的回音和一部分远端用户正在接收的话音同时去除，因此回音抑制器要求通话的双方都很礼貌。当远端用户打断近端用户的话时，回音抑制器往往会开启发送路径,从而使近端用户的话音受到抑制。

以上两种方法都存在较大缺陷和局限性。

鉴于“通过网络衰减”及回音抑制器方法存在的上述缺陷，数字回音抵消算法的诞生应运而生，现有的数字声学回音抵消算法能很好地规避以上缺陷，但仍有失效的情况产生，究其原因大致分为下述几类：在远端或近端长时间码流中断然后又***流时，远端可听到回声；长期运行过程中可能出现网络丢包的情况，这时候远端可听到回声；以及网络抖动导致数字声学回音抵消器失效。

考虑到高清IPC（工业个人计算机）逐渐成为监控前端的首选，如何在高清IPC中完善数字声学回音抵消算法以提高音质体验的要求是本发明的重点目标。

但声学回声抵消（AEC）是一项消耗CPU资源比较多的技术，一般应用在双向话音对讲同时又对成本不太敏感的***中。而在技术层面上，由于在高清IPC等***中通常采用像ARM这种低主频的CPU作为主控处理器，捉衿见肘的处理资源一般无法支持AEC。这也是本发明所要解决的问题。

发明内容

针对现有技术中话音回声没有很好地解决的技术缺陷，本发明的目的是提供一种在网络视频摄像机中支持话音回声抵消的控制方法以及相应的控制装置。

根据本发明的一个方面，提供一种在网络视频摄像机中控制话音回声抵消的控制方法，其特征在于，所述网络视频摄像机包括声学回声消除模块，其包括如下步骤：a. 计算话音残余样本数，并将所述话音残余样本数回馈给所述声学回声消除模块；b. 判断是否接收到网络音频信号；c. 若接收到网络音频信号，则播放接收到的所述网络音频信号；d. 由一音频采集模块采集语音信号；e. 所述声学回声消除模块对所述语音信号进行处理，以便消除所述语音信号中的回声；f. 将所述消除回声后的语音信号发送给所述网络视频摄像机相对应的远端设备。

优选地，在所述步骤c之后、所述步骤d之前还包括如下步骤：g. 若未接收到所述网络音频信号，则播放静音数据。

优选地，在所述步骤a之前或所述步骤e之前还包括如下步骤：i. 判断所述声学回声消除模块启动的进程是否为优先级最高的进程；ii. 若所述声学回声消除模块启动的进程并非优先级最高的进程，则将所述声学回声消除模块启动的进程设置为优先级最高的进程。

优选地，所述步骤a还包括如下步骤：a1. 获取残余待播放字节数以及残余待读取字节数、采样率、位宽、声道数；a2. 根据所述残余待播放字节数以及残余待读取字节数、采样率、位宽、声道数进行计算以获得所述话音残余样本数。

根据本发明的另一个方面，还提供一种在网络视频摄像机中控制话音回声抵消的控制装置，其特征在于，所述网络视频摄像机包括声学回声消除模块，所述控制装置包括：第一计算装置，其用于计算话音残余样本数，并将所述话音残余样本数回馈给所述声学回声消除模块；第一判断装置，其用于判断是否接收到网络音频信号；第一播放装置，其用于在接收到网络音频信号时播放接收到的所述网络音频信号；第一采集装置，其用于通过一音频采集模块采集语音信号，且所述声学回声消除模块对所述语音信号进行处理，以便消除所述语音信号中的回声；第一发送装置，其用于将所述消除回声后的语音信号发送给所述网络视频摄像机相对应的远端设备。

优选地，所述控制装置还包括：第二播放装置，其用于在未接收到所述网络音频信号时播放静音数据。

优选地，所述控制装置还包括：第二判断装置，其用于判断所述声学回声消除模块启动的进程是否为优先级最高的进程；第一设置装置，其用于当所述声学回声消除模块启动的进程并非优先级最高的进程时将所述声学回声消除模块启动的进程设置为优先级最高的进程。

优选地，所述第一计算装置还包括：第一获取装置，其用于获取残余待播放字节数以及残余待读取字节数、采样率、位宽、声道数；第二计算装置，其用于根据所述残余待播放字节数以及残余待读取字节数、采样率、位宽、声道数进行计算以获得所述话音残余样本数。

根据本发明的另一个方面，还提供一种网络视频摄像机，其可以实现话音回声抵消，其包括上述控制装置。

通过本发明提供的技术方案，可以通过低成本的方式实现话音回声抵消，并可以普遍地应用于网络视频摄像机中。通过本发明，可以有效地控制话音回声。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明的第一实施例的，IPC音频***的架构图；

图2示出根据本发明的第一实施例的，数字声学回声抵消算法原理的示意图；

图3示出根据本发明的一个具体实施方式的，所述话音回声抵消控制方法在网络视频摄像机上应用的时序图；以及

图4示出根据本发明的第一实施例的，所述话音回声抵消控制方法在网络视频摄像机上应用的流程图。

具体实施方式

图1示出根据本发明的第一实施例的，IPC音频***的架构图。具体地，为了更清楚地示出了所述声学回声消除控制模块（AEC控制模块）在所述高清IPC***中的位置，本图示出了6个层次。首先是用户编程接口（用户API）用于控制AEC的启用和禁止；声学回声消除控制模块使用由声学回声消除算法（AEC算法）提供的接口函数，在用户API和AEC算法间建立一个协调多线程调用AEC算法的层次；声学回声消除算法与使用控制模块提供的采集通道信号和回声参考信号进行分析过滤，输出去掉回声的采集信号；音频采集、播放操作***接口为在用户空间支持AEC，需要扩展接口供AEC控制模块实时获取采集驱动缓存中待读取音频长度和播放驱动缓存中待播放音频长度两个数据；音频采集驱动和音频播放驱动，即音频I/O层，用于缓存上述音频长度并实现音频采集和播放的驱动；以及音频模数/数模转换芯片，用于将接收到的音频数字信号转换为模拟信号，将要发送的模拟信号转换为数字信号进行发送。

具体地，本领域技术人员理解，所述IPC即工业个人计算机（Industrial Personal Computer─IPC）是一种加固的增强型个人计算机，它可以作为一个工业控制器在工业环境中可靠运行。由于IPC的性能可靠、软件丰富、价格低廉，而在工控机中异军突起，后来居上，应用日趋广泛。目前，IPC已被广泛应用于通讯、工业控制现场、路桥收费、医疗、环保及人们生活的方方面面。而高清IPC逐渐成为监控前端的首选，因此本发明方案优选地，使用高清IPC作为实现所述话音回声抵消控制方法在网络视频摄像机上应用的***。优选地，所述高清IPC采用ARM平台，ARM（Advanced RISC Machines）处理器是Acorn计算机有限公司面向低预算市场设计的第一款RISC微处理器。ARM处理器本身是32位设计，但也配备16位指令集。一般来讲比等价32位代码节省达35%，却能保留32位***的所有优势。ARM处理器主要特点是：体积小、低功耗、低成本、高性能；支持Thumb（16位）/ARM（32位）双指令集，能很好的兼容8位/16位器件；大量使用寄存器，指令执行速度更快；大多数数据操作都在寄存器中完成；寻址方式灵活简单，执行效率高；指令长度固定。所述高清IPC采用ARM平台保证了功能可用的同时实现必要的性能优化以挤出足够的CPU资源供业务程序使用。在此不予赘述。更具体地，所述音频采集播放操作***接口在UNIX/LINUX上进行了标准化，优选地，可以是OSS（Open Sound System），OSS（Open Sound System）是 UNIX 平台上一个统一的音频接口, 即只要音频处理应用程序按照OSS的API来编写，那么在移植到另外一个平台时，只需要重新编译即可，OSS提供了源代码级的可移植性。所述OSS供AEC控制模块实时获取采集驱动缓存中待读取音频长度和播放驱动缓存中待播放音频长度两个数据。在本实施例的一个变化例中，所述音频采集播放操作***接口可以是，ALSA（Advanced Linux Sound Architecture），也就是高级Linux声音架构的简称,它在Linux操作***上提供了音频和MIDI（Musical Instrument Digital Interface，音乐设备数字化接口）的支持。其同样供AEC控制模块实时获取采集驱动缓存中待读取音频长度和播放驱动缓存中待播放音频长度两个数据。本领域技术人员结合现有技术以及上述实施例可以实现所述变化例，在此不予赘述。这样的变化例并不影响本发明的实质内容，在此不予赘述。

更进一步地，本领域技术人员理解，所述AEC算法将所述AEC控制模块发来将要播放的信号的反馈通过一个自适应算法的滤波器形成模拟的回声信号。所述AEC算法再将所述模拟的回声信号从所述音频采集模块采集到的语音信号中除去以达到声学回声消除的效果。所述模拟的回声信号与所述音频采集模块采集到的语音信号中的回声信号越接近，所获得的输出音频信息越清晰。而所述模拟的回声信号与所述通过音频采集的实际回声信号的接近程度与所述滤波器的自适应算法有关。具体地，在此不予赘述。

图2示出根据本发明的第一实施例的，数字声学回声抵消算法原理的示意图。为了清楚地描述数字声学回声抵消算法的原理，本图示出了一个音频采集装置1用于采集某一环境内的语音信息，一个音频播放装置2用于播放由远端传输来的音频信号，一个逻辑电路3用于简单的逻辑运算以便将所述模拟的回声信号从所述音频采集模块采集到的语音信号中除去，以及一个自适应滤波器4用于估计回声路径的特征参数，产生一个模拟的回音路径，得出模拟回声信号。

具体地，本领域技术人员理解，所述声学回声（Acoustic Echo）的产生是由于所述近端用户与所述远端用户在会话的过程中，所述音频播放装置2所播放音频的语音信号多次被所述音频采集装置1所采集。更具体地，本领域技术人员理解，例如，远端用户通过网络视频通讯向所述近端用户问候“最近过得如何？”，该语音信息被所述远端音频采集装置通过互联网发送至近端音频播放装置2进行播放，所述“最近过得如何？”的语音信息协同近端用户回复的语音信息“不错！”被所述近端音频采集装置1所采集，继续通过互联网发送至所述远端用户的音频播放装置，所述远音频播放装置播放的语音信息将夹杂着所述远端用户最先的问候信息及所述近端用户的回复信息，而此时所述远端音频播放装置播放的语音信息又将被所述远端音频采集装置所采集，如此循环，所述远端用户的问候信息将被所述音频采集装置多次采集，形成的声学回音将大大地影响所述近端用户与所述远端用户之间的通讯。更具体地，本领域技术人员理解，所述音频播放装置可以是所述IPC的外放音箱，所述音频采集装置可以是所述IPC的麦克风，所述语音信息通过音箱向外播放，所述近端用户通过向麦克风说话来和远端用户交流。所述麦克风采集所述语音信息以向所述远端用户发送。具体地，在此不予赘述。

进一步地，本领域技术人员理解，所述AEC算法优选地，在网络视频通讯中使用，当近端用户和远端用户确认通讯开始会话时，近端用户的IPC首先获取待读取音频长度和待播放音频长度两个数据计算出残余样本数供所述自适应滤波装置4参考以计算出自适应算法的相关参数信息以模拟一个回音路径。之后所述远端用户的音频采集装置采集到远端用户所在环境下远端用户的语音信息作为远端输入信号通过互联网传输至近端高清IPC，所述远端输入信号在播放前首先通过自适应滤波装置4估计回声路径的特征参数，模拟回声路径，滤波生成模拟回声信号，同时经所述近端音频播放装置2进行音频播放，优选地，此时播放的音频信息为所述远端用户的会话，所述近端用户听完会话后对其作出相应的语音回应。所述近端音频采集装置1采集近端用户环境下的语音信息，在采集过程中，所述近音频播放装置2所播放的音频信息也将被所述近端音频采集装置1所采集，导致所述声学回声的产生。所述近端音频采集装置1所采集的近端用户环境下语音信息与所述远端输入信号在播放前首先通过自适应滤波装置4滤波生成模拟的回声信号通过所述逻辑电路3，所述逻辑电路3将所述远端输入信号在播放前首先通过自适应滤波装置4滤波生成模拟的回声信号从所述近端音频采集装置1所采集的近端用户环境下语音信号中去除，并将去除后的语音信号作为近端输出信号通过互联网向所述远端用户传输。而每次生成的所述近端输出信号又将反馈给所述自适应滤波装置参考以更精确地估算回声路径的特征参数。以上回声信号的模拟，去除和反馈的操作共同作用实现了所述AEC算法，进一步改善了网络视频通讯的会话质量。

更具体地，本领域技术人员理解，所述自适应滤波器是以输入和输出信号的统计特性的估计为依据，采取特定算法自动地调整滤波器系数，使其达到最佳滤波特性的一种算法或装置。自适应滤波器可以是连续域的或是离散域的。离散域自适应滤波器由一组抽头延迟线、可变加权系数和自动调整系数的机构组成。优选地，所述自适应算法可以是递归最小二乘算法（RLS，recursive least-squares），即给定n-1次迭代滤波器抽头权向量最小二乘估计，一句新到达的数据计算n次迭代权向量的最新估计。所述远端输入信号通过所述递归最小二乘算法模拟出回声信号。其最重要的特点是收敛速率快，使正常通话后，通话者能很快感觉不到回声的存在。所述自适应算法也可以是最小均方误差算法（LMS，Least Mean Square），所述最小均方误差算法通过调整系数，使得输出误差序列，也就是近端用户自身发出的语音信号与近端输出信号误差序列的均方值最小化，并根据次判定来修改权系数。该算法易于实现、系能稳健，因此被广泛应用。本领域技术人员结合现有技术可以变化出更多的实施例，在此不予赘述。

图3示出根据本发明的一个具体实施方式的，所述话音回声抵消控制方法在网络视频摄像机上应用的时序图。具体地，本图描述了所述IPC中网络视频中回声抵消技术主要模块运作的整个过程。首先执行第1步，所述语音采集模块采集近端用户的语音信息，所述语音信息包括声学回声和近端用户本身的语音信息。之后所述语音采集模块将所述采集到的语音信号发送至声学回身消除模块，这是第2步。所述声学回声消除模块优选地包括一个自适应滤波器和一个逻辑电路，所述自适应滤波器估算回声路径的特征参数，模拟回声路径，输出模拟回声信号，所述逻辑电路将所述模拟的回声信号从采集到的语音信号中去除。所述自适应滤波器和逻辑电路配合使用，协同工作以实现所述声学回声信号的去除。则所述声学回声消除模块将回声信号消除为第3步。到达第4步，所述声学回声消除模块将所述已去除回声信号的语音信号作为输出信号传输至所述参考信号回馈模块。之后是第5步，所述参考信号回馈模块将所属语音信号作为参考信号回馈至所述声学回声消除模块，所述参考信号帮助所述声学回声消除模块的自适应滤波器能跟精准地估计所述回声路径的特征参数，达到所述模拟的回声信号和通过所述音频采集模块的回声信号相同，更好地实现声学回声的消除并以此提高整个网络视频通讯的会话质量。然后是第6步，所述声学回声消除模块将所述已去除回声信号的语音信号通过互联网发送至远端用户的音频播放装置。所述远端用户的音频播放装置收到所述语音信号后，到达第七步，所述远端用户的音频播放装置将播放所述语音信号。

进一步地，本领域技术人员理解，本图所示出的时序图在整个网络视频通讯中循环所有步骤以实现整个语音通讯的过程。即在完成上述第七部后，远端用户相当于再从第一步开始循环，也就是所述远端用户的音频播放装置播放上述近端用户发来的语音信号，同时所述远端用户的音频采集装置采集远端用户所处环境下的语音信号，并将其发送至所述声学回声消除模块进行回声消除。进行过回声消除的语音信号作为输出信号首先通过所述参考信号回馈模块向所述声学回声消除模块进行回馈，再发送至所述近端用户的音频播放装置进行播放。更具体地，本领域技术人员理解，所述网络视频通讯过程中，为保证整个会话的通畅和清晰，近端用户的IPC和远端用户的IPC对声学回声的处理循环地不间断地在进行直至会话结束。而在整个网络会话的过程中如果由于网络抖动和网络丢包导致音频信号在互联网由近端向远端或者由远端向近端传输的过程中有一段时间的丢失，此时所述参考信号回馈模块将没有参考信号回馈至所述声学回声消除模块，也就是说此时，所述自适应滤波器将没有办法估计回声路径的特征参数，当网络抖动消失，所述音频信号又通过互联网发送时，在所述自适应滤波器还没有估计出回声路径的特征参数的情况下，声学回声的现象还是会出现在网络视频的通讯中。因此本发明设计方案在此情况下，设计所述参考信号回馈模块将静音时的语音信号反馈给所述自适应滤波器作为参考信号，以估计出回声路径的特征参数，并进一步模拟出回声信号。以此达到在网络抖动和网络丢包的情况下，所述网络音频通讯的会话也能清晰地完成。

图4示出根据本发明的第一实施例的，所述话音回声抵消控制方法在网络视频摄像机上应用的流程图。具体地，本图描述了本发明技术在网络视频通讯中对声学回声进行处理的整个过程。当近端用户和远端用户确认通讯开始会话时，为防止在会话刚刚开始的一段时间，所述自适应滤波器没有任何参考信号供其估计所述回声路径的特征参数，以致在会话刚刚开始的这段时间仍有声学回声的现象出现，准备会话的用户IPC首先获取所述音频采集驱动中缓存的待读取音频长度和所述音频播放驱动中缓存的待播放音频长度两个数据并计算出残余样本数供所述自适应滤波器参考以估计出自适应算法的相关参数信息以模拟一个回音路径。之后所述参与会话的用户开始会话，所述参与会话用户的IPC判断是否接收到网络音频，如接收到网络音频，则所述网络音频信号在播放前首先通过自适应滤波器模拟回声路径，滤波生成模拟回声信号，同时经所述音频播放装置进行音频播放，所述参与会话的用户听完会话后对其作出相应的语音回应。所述音频采集装置采集用户环境下的语音信息，在采集过程中，所述近音频播放装置所播放的音频信息也将被所述音频采集装置所采集，其将导致所述声学回声的产生。所述音频采集装置所采集的作出回复的用户所处环境下语音信息与所述网络音频信号在播放前首先通过自适应滤波器滤波生成模拟的回声信号通过所述逻辑电路，所述逻辑电路将所述网络音频信号在播放前首先通过自适应滤波器滤波生成模拟的回声信号从所述作出回复的用户的音频采集装置所采集的作出回复的用户所处环境下语音信号中去除，并将去除后的语音信号通过互联网向其他参与会话的用户进行传输。而每次生成的用作传输的所述语音信号又将反馈给所述自适应滤波装置参考以更精确地估算回声路径的特征参数。而当所述参与会话用户的IPC判断并未接收到网络音频时，所述参与会话用户的IPC将静音时的语音信号反馈给所述自适应滤波器作为参考信号，以估计出回声路径的特征参数，并进一步模拟出回声信号。其后的步骤与所述参与会话用户的IPC判断接收到网络音频向同，在此不予赘述。

结合上述图1至图4，关于本发明如何解决操作***线程调度对AEC所带来的影响，具体地，本领域技术人员理解，根据本发明提供的技术方案，所述参与网络视频通讯的用户IPC在参与此类实时会话时，自动将所述AEC相关线程的优先级调为实时并高于其他线程。以此保证不会由于操作***的调度导致AEC算法因得不到CPU而出现失效。

同时，在本发明提供的技术方案中，在媒体控制解码线程中增加没***流输出静音的设计，使得在网络中断或抖动的情况下，仍有参考信号供给给AEC模块，从而实现本发明的效果。

进一步地，本领域技术人员理解，在本发明提供的技术方案中，优选地采用了如下技术方案：

1) AEC参考信号的回馈

在声音播放前，通过残余待播放字节数和残余待读取字节数、采样率、位宽、声道数可计算出相应的残余样本数，调用接口函数将待播放的帧一起回馈给AEC模块缓存起来供今后滤波时使用。

2) AEC的具体处理

在采集到声音后，调用接口函数将该帧交给AEC算法处理，得到的输出数据即为取掉回声后的音频。

3) 消除网络抖动、OS调度的影响

为消除网络抖动的影响，需要保证AEC的连续运转，为此可将音频解码线程优先级提高，同时增加如下逻辑：在没有收到网络音频的情况下，用静音数据去播放并反馈给AEC算法。

为消除OS线程调度的影响，需要提高音频播放暨声音信号回馈所在线程和AEC所在线程的调度优先级为实时并高于其他线程。

4) 架构的改变

架构基本不变：只需要在原来的音频采集控制子模块中增加AEC处理逻辑，在原来的音频播放控制模块中增加参考信号回馈逻辑即可。

提供上述技术方案，实现了在网络视频摄像机中话音抵消的目的，具体如上所述，在此不予赘述。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种在网络视频摄像机中控制话音回声抵消的控制方法，其特征在于，所述网络视频摄像机包括声学回声消除模块，其包括如下步骤：

a. 计算话音残余样本数，并将所述话音残余样本数回馈给所述声学回声消除模块；

b. 判断是否接收到网络音频信号；

c. 若接收到网络音频信号，则播放接收到的所述网络音频信号；

d. 由一音频采集模块采集语音信号；

e. 所述声学回声消除模块对所述语音信号进行处理，以便消除所述语音信号中的回声；

f. 将所述消除回声后的语音信号发送给所述网络视频摄像机相对应的远端设备。

2.根据权利要求1所述的控制方法，其特征在于，在所述步骤c之后、所述步骤d之前还包括如下步骤：

g. 若未接收到所述网络音频信号，则播放静音数据。

3.根据权利要求1或2所述的控制方法，其特征在于，在所述步骤a之前或所述步骤e之前还包括如下步骤：

i. 判断所述声学回声消除模块启动的进程是否为优先级最高的进程；

ii. 若所述声学回声消除模块启动的进程并非优先级最高的进程，则将所述声学回声消除模块启动的进程设置为优先级最高的进程。

4.根据权利要求1至3中任一项所述的控制方法，其特征在于，所述步骤a还包括如下步骤：

a1. 获取残余待播放字节数以及残余待读取字节数、采样率、位宽、声道数；

a2. 根据所述残余待播放字节数以及残余待读取字节数、采样率、位宽、声道数进行计算以获得所述话音残余样本数。

5.一种在网络视频摄像机中控制话音回声抵消的控制装置，其特征在于，所述网络视频摄像机包括声学回声消除模块，所述控制装置包括：

第一计算装置，其用于计算话音残余样本数，并将所述话音残余样本数回馈给所述声学回声消除模块；

第一判断装置，其用于判断是否接收到网络音频信号；

第一播放装置，其用于在接收到网络音频信号时播放接收到的所述网络音频信号；

第一采集装置，其用于通过一音频采集模块采集语音信号，且所述声学回声消除模块对所述语音信号进行处理，以便消除所述语音信号中的回声；

第一发送装置，其用于将所述消除回声后的语音信号发送给所述网络视频摄像机相对应的远端设备。

6.根据权利要求5所述的控制装置，其特征在于，还包括：

第二播放装置，其用于在未接收到所述网络音频信号时播放静音数据。

7.根据权利要求5或6所述的控制装置，其特征在于，还包括：

第二判断装置，其用于判断所述声学回声消除模块启动的进程是否为优先级最高的进程；

第一设置装置，其用于当所述声学回声消除模块启动的进程并非优先级最高的进程时将所述声学回声消除模块启动的进程设置为优先级最高的进程。

8.根据权利要求5至7中任一项所述的控制装置，其特征在于，所述第一计算装置还包括：

第一获取装置，其用于获取残余待播放字节数以及残余待读取字节数、采样率、位宽、声道数；

第二计算装置，其用于根据所述残余待播放字节数以及残余待读取字节数、采样率、位宽、声道数进行计算以获得所述话音残余样本数。

9.一种网络视频摄像机，其可以实现话音回声抵消，其特征在于，包括根据上述权利要求5至8中任一项所述的控制装置。