CN102265643B

CN102265643B - 语音再现设备、方法及***

Info

Publication number: CN102265643B
Application number: CN200980152252.3A
Authority: CN
Inventors: C.P.詹塞; L.C.A.范斯图文伯格; H.J.W.贝尔特; B.E.萨劳克; M.特里基
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV; MediaTek Inc
Priority date: 2008-12-23
Filing date: 2009-12-17
Publication date: 2014-11-19
Anticipated expiration: 2029-12-17
Also published as: WO2010073193A1; JP5859600B2; JP5538425B2; CN102265643A; KR20110099750A; KR101648203B1; US8781818B2; JP2012513701A; JP2014180008A; US20110264450A1; EP2382799A1

Abstract

本发明提议从利用麦克风捕获的声音信号中提取一个或多个语音信号（151-154）以及一个或多个环境信号（131），其中每一个语音信号对应于不同的说话者。与只发送语音信号相反，本发明提议将一个或多个语音信号（151-154）和一个或多个环境信号（131）二者发射到再现端。这能够在再现端上以空间不同的方式再生语音和环境信号。通过再生环境信号，创建“在一起”的感觉。在实施例中，本发明能够再生空间彼此不同并且与环境信号不同的两个或多个语音信号，以致尽管存在环境噪声，也增加语音可懂度。

Description

语音再现设备、方法及***

技术领域

本发明涉及例如在免提音频或视听会议终端中使用的语音捕获方法和设备。本发明也涉及例如在免提音频或视听会议终端中使用的语音再现方法和设备。此外，本发明涉及通信***以及免提音频或视听会议终端。

背景技术

在如今（免提）一对一通信***中，尤其由于带宽限制，语音的传输借助于单声道传输信道来实现。结果，在再生端上，所有的声音来自同一方向（或多个方向，如果使用多个扬声器的话），并因此不能使用基于双耳听力来分隔声源的人的能力。因此，收听受到噪声和/或竞争说话者污染的语音是困难的，并导致降低的语音可懂度和听者疲劳。为此，利用免提电话***，发送的预期语音信号是尽可能“干净的”，即，它只包括预期的直接（直达）语音。固定噪声抑制是免提通信中的必须品。带有附加处理的麦克风阵列波束形成能够用于进一步增强语音。然而，已知的***在通信期间并不提供面对面感觉，尤其对于其中不仅语音（消息）是重要的而且在一起（being together）的感觉也是重要的非正式场合而言并不提供面对面感觉。

发明内容

本发明的目的是提供具有在一起的感觉的逼真的通信。本发明利用独立权利要求来定义。从属权利要求定义有利的实施例。

根据本发明的语音捕获设备包括：

捕获电路，包括用于捕获多个声音信号的多个麦克风，

一个或多个提取电路，其中每一个提取电路用于从多个声音信号中推导与各自说话者相对应的各自语音信号，

剩余（residual）提取电路，用于从多个声音信号中推导一个或多个环境信号，其中每一个声音信号被减去利用一个或多个提取电路推导的一个或多个语音信号，以及

发射电路，用于发射一个或多个语音信号和一个或多个环境信号。

这样，能够从利用捕获电路捕获的声音信号中提取一个或多个语音信号。该提取电路提供与说话者相对应的语音信号。这个语音信号能够被视为将利用在预期说话者前面的一个或多个近距离交谈麦克风（close talk microphone）提供的信号。剩余提取电路推导包括环境信息的环境信号（即，在没有预期说话者的情况下在声音信号中包括的信息）。当单独发送这些语音和环境信号时，再现端能够以空间不同的方式来再生语音和环境信号。通过再生环境信号，创建“在一起”的感觉。此外，在一个实施例中，本发明能够再生两个或多个空间上彼此不同并且与环境信号不同的语音信号，以致尽管存在环境信号，也增加语音可懂度并降低听者疲劳。

在一个实施例中，语音捕获设备进一步包括视听***，用于确定说话者的一个或多个位置，其中每一个提取电路被指向各自一个说话者的位置。使用视听***的优点改善提取电路的鲁棒性。提取电路随后能够保持被聚焦在同一个说话者，即使他正在移动并且没有在说话。这样，一旦说话者（再次）开始说话，则提取电路已被聚焦，并且第一句话也利用高质量来捕获。否则，提取电路必须在第一句话期间重新聚焦，这导致第一句话的较次质量。

在进一步的实施例中，发射电路还在发射包括说话者的位置的空间信息。这样的有关一个或多个说话者的位置的空间信息描述在捕获端上的听觉场景。利用这样的空间信息，有可能在再现端上重建与捕获端上相同的听觉场景。这种属性对于其中音频必须与视频相对应的视听会议而言是尤其重要的。例如，当视觉场景包括位于左边、中间和右边位置上的三个说话者时，则在再现端上能够使用位置信息来（近似地）再生在这三个位置上的说话者。

在进一步的实施例中，每一个提取电路包括用于推导语音信号的广义旁瓣消除器。广义旁瓣消除器是特别适合于自适应波束形成的波束形成实施方式。在这样的消除器中，波束被聚焦在预期的说话者上。

在进一步的实施例中，每一个提取电路还包括用于语音信号中的进一步降噪的后处理器电路。该后处理器进一步移除噪声，以致在利用传输电路发送的语音信号中具有较少噪声。这具有的优点是：能够更佳地分隔预期的说话者，并且创建更多的自由度在再现端上在任何预期位置上定位预期说话者。

在进一步的实施例中，剩余提取电路还包括多声道自适应滤波器，用于从多个声音信号中推导一个或多个环境信号，其中每一个声音信号被减少利用一个或多个提取电路推导的语音信号。多声道自适应滤波器估算在声音信号中包含的语音信号。这些语音信号被从声音信号中减去，因而提供环境信号。

在进一步的实施例中，多声道自适应滤波器被耦合，以接收利用一个麦克风捕获的声音信号作为参考信号。这样，以相对低的复杂度创建一个环境信号。

根据本发明的另一方面，语音再现设备包括：

接收电路，用于接收一个或多个语音信号和一个或多个环境信号，其中每一个语音信号对应于不同的说话者，以及

再现电路，用于以语音信号被感知为来自与环境信号不同的方向的方式空间地再生一个或多个语音信号和一个或多个环境信号。通过在再现端上再生环境信号，创建“在一起”的感觉。在一个实施例中，其中空间地再生彼此不同并且与环境信号不同的两个或多个语音信号，尽管存在环境信号，也保持或甚至增加语音可懂度。

在一个实施例中，再现电路正在以语音信号被感知为来自相互不同方向的方式空间地再生两个或多个语音信号。通过再生空间不同的语音信号，对于在再现端上的听者而言，更容易区分不同的说话者并专注于其中一个说话者，如果这些说话者同时说话的话。这导致较少的听者疲劳度和改善的语音可懂度。

在进一步的实施例中，接收电路还在接收关于说话者的位置的空间信息，并且再现电路以语音信号被感知为来自利用空间信息所代表的位置的方式在空间再生语音信号。这样，在再现端上能够创建与捕获端上相同的听觉场景，这对于其中应对准声音与视频的视听通信***而言是特别重要的。

在进一步的实施例中，从中感知语音信号的方向在说话者的视觉化中与说话者的位置相对准。在这个实施例中，与同一个说话者相对应的音频和视频对象被感知为一个视听对象，这对于听者感知是自然的并且消除疲劳，而如果语音来自与视频对象的方向不同的另一方向，则将发生疲劳。

在进一步的实施例中，一个或多个环境信号的幅度减小。这样，听者能够控制在他自己环境中的再现，并且使之适应于在他自己环境中出现的其他环境信号。

根据本发明的另一方面，提供用于传送语音信号的通信***以及免提音频或视听会议终端。

本发明的这些与其他方面、特征和优点从以下描述的一个或多个实施例中将是清楚的，并且本发明的这些与其他方面、特征和优点将参考以下描述的一个或多个实施例来阐述。

附图说明

图1显示根据本发明的语音捕获设备的实施例；

图2显示包括视听***的语音捕获设备的实施例；

图3显示包括后处理器电路的提取电路的实施例；

图4显示语音捕获设备的实施例，其中提取电路包括后处理器电路；

图5显示包括用于推导环境信号的多声道自适应滤波器的剩余提取电路的实施例；

图6显示根据本发明的语音再现设备的实施例；

图7显示用于传送语音信号的通信***的示例，该通信***包括根据本发明的语音捕获设备和语音再现设备。

具体实施方式

图1显示根据本发明的语音捕获设备100的实施例。该语音捕获设备100可以在免提音频或视听会议终端中使用。该免提音频或视听会议终端被用于实施一对一通信应用，其中位于例如房间之类的两个不同位置的说话者正在相互通信。在该位置上的说话者的数量能够从一个改变为多个说话者。说话者在房间中的位置也能够改变。

该设备100包括用于捕获多个声音信号111、112-116的捕获电路110。该捕获电路110包括多个麦克风101、102-106。这些麦克风优选地以麦克风阵列的形式进行安排。虽然在这个示例中只描绘六个麦克风，但是麦克风的数量并不限于这个数量。

语音捕获设备100进一步包括一个或多个提取电路121、122-124。每一个提取电路对应于一个说话者。在该示例中，提取电路121对应于第一说话者，提取电路122对应于第二说话者，等等。每一个提取电路对应于不同的说话者。每一个提取电路推导与说话者相对应的语音信号，其在该示例中是信号151、152或154之一。在该示例中，信号151对应于第一说话者，信号152对应于第二说话者，等等。语音信号151-154之中的每一个语音信号从利用捕获电路110捕获的多个声音信号101、102-106中进行推导。该语音捕获设备100进一步包括用于从多个声音信号中推导一个或多个环境信号131的剩余提取电路130。环境信号代表从声音信号中推导出的语音信号的补充（complement），其被描绘为信号束160。换句话说，从被减去利用一个或多个提取电路推导出的语音信号151、152-154（从声音信号中减去语音信号）的声音信号中推导环境信号。

语音捕获设备100进一步包括用于发射一个或多个语音信号151、152-154以及一个或多个环境信号131的发射电路150。发射电路150将语音信号和环境信号合并为单个输出信号181，该单个输出信号被发送到语音再现设备500。对本领域技术人员来说，清楚的是：该合并能够利用例如已知的连接或复用的方法来实现。

图2显示包括视听***140的语音捕获设备100的实施例。该视听***140检测一个或多个说话者的位置。关于说话者的位置的信息被馈送到提取电路，以便将提取电路指向特定说话者的位置。该视听***能够采用许多种方式来实现。视听***的已知示例例如是US6850265B1或N. Strobel、S. Spors和R. Rabenstein于2001年1月发表在IEEE Signal Processing Magazine、第18卷、第1号、第22-31页上的Joint audio-video object localization and tracking。空间信息可能包括例如在US6850265B1中公开的角度或在N. Strobel、S. Spors和R. Rabenstein于2001年1月发表在IEEE Signal Processing Magazine、第18卷、第1号、第22-31页上的Joint audio-video object localization and tracking中描述的位置。

图2中描绘的语音捕获设备100是利用视听***140扩展的图1的设备。在该示例中，关于第一说话者141的位置的信息被馈送到提取电路121，而关于第二说话者142的位置的信息则被馈送到提取电路122。虽然在图2中由于只有两个说话者而仅描绘两个提取电路，但是能够使用更多的提取电路，其中提取电路的数量与说话者的数量相匹配。发射电路150被修改成也发射关于说话者的位置的信息。这允许语音再现设备500在再现语音信号151、152时使用关于说话者141、142的位置的信息。

在一个实施例中，提取电路121或122包括波束形成器电路。波束形成器电路的示例之一是在WO2005/050618或WO2005/106841中描述的广义旁瓣消除器。该广义旁瓣消除器可能包括例如在US7146012中公开的过滤和波束形成器（Filtered Sum Beamformer），其后面跟随着例如在US7058185中公开的多声道噪声消除器。

图3显示提取电路121的一个实施例，其中该提取电路包括例如描述在US6546099中的后处理器电路220。声音信号111-116被馈送到广义旁瓣消除器210，该广义旁瓣消除器210在其输出端上提供语音信号151。提供这个语音信号151作为至剩余提取电路130的输入。该语音信号151也被提供给后处理器220，该后处理器在语音信号151中执行进一步的降噪。由此，后处理器220在其输出端上产生比语音信号151更干净的进一步语音信号161。该后处理器电路220提供替代如在图1和图2中描绘的语音信号151的进一步语音信号161，以便利用传输电路150来发送。

图4显示语音捕获设备100的一个实施例，其中提取电路121、122-124包括后处理器电路220。提取电路121-124之中的每一个提取电路具有两个输出端，其中在第一输出端上提供语音信号，例如用于电路121的语音信号151，并且在第二输出端上提供进一步语音信号，例如用于电路121的进一步语音信号161。现在给发射电路提供信号161、162-164而非信号151、152-154。

与图1和图2相比，剩余提取电路130具有唯一一个输出信号131A。该剩余提取电路具有两级。在用于每一个输入声音信号（信号111、112-116之一）的第一级，语音信号151、152-154被减去。结果，获得经修改的声音信号，该信号并不包括与利用提取电路提取的语音信号相关联的任何语音分量。对于应提供什么信号给剩余提取电路130的输出端，具有各种选择。例如，能够将经修改的声音信号照现在的样子提供给电路130的输出端。另一示例是：能够将所有经修改的声音信号上的平均信号提供给电路130的输出端。另一可选择方案是选择将被提供给电路130的输出端的经修改的声音信号之一。在图5中解释又一可选择方案。

图5显示剩余提取电路130的实施例，该剩余提取电路130包括例如在US7058185中描述的用于推导环境信号131A的多声道自适应滤波器。在这个特定实施例中，为了简单起见，多声道自适应滤波器是双声道的。但是，它也可以是四声道的，其中每一个声道对应于提取电路121-124之一。

在图5的实施例中，挑选利用麦克风101捕获的声音信号111作为参考信号。语音信号151和152分别被馈送到两个自适应滤波器310和320。自适应滤波器310和320分别地对输入信号151和152进行滤波，其中自适应滤波器310和320利用剩余信号131A来控制。该剩余信号131A利用减法电路400来提供，其中该减法电路计算声音信号111与自适应滤波器310和320的输出信号之间的差。自适应滤波器310和320以一种将剩余信号131A的能量最小化的方式来调节其系数。对于滤波器的自适应，能够使用如在S. Haykin、Adaptive Filter Theory、Englewood Cliffs (NJ, USA): Prentice-Hall, 1986, ISBN 0-13-004052-5 025中描述的归一化最小均方（Normalized Least Mean Square）（NLMS）滤波器。可选择方案是使用如在US7058185中描述的频域自适应滤波器。剩余信号131A也是电路130的输出信号。

图6显示根据本发明的语音再现设备500的实施例。该语音再现设备500包括：

接收电路510，用于接收一个或多个语音信号151-154和一个或多个环境信号（信号束）131，其中每一个语音信号对应于不同的说话者，以及

再现电路520，用于以一个或多个语音信号被感知为来自与一个或多个环境信号不同的方向的方式空间地再生一个或多个语音信号151-154和一个或多个环境信号（信号束）131。

接收电路510从输入信号181中提取语音信号151-154以及环境信号131。该接收电路510在功能上执行将在发射电路150中执行的操作反转的众所周知的操作。接收电路510从输入信号181中提取语音信号和环境信号。对于本领域技术人员来说，清楚的是：该提取能够利用例如已知的分解或解复用的方法来完成。

任选地，当有关说话者的位置的空间信息171也存在于输入信号181中时，它利用接收电路510来提取并被提供给再现电路520。

再现电路520将语音信号和环境信号映射到再生电路530。该再生电路可能包括扬声器。在该示例中，再生电路530包括5.1配置中的五个扬声器531-535。扬声器532再生中央声道信号，扬声器533再生右前声道信号，扬声器531再生左前声道信号，扬声器535再生右后声道信号，并且扬声器534再生左后声道信号。在只有两个说话者存在的情况下，第一说话者的语音信号151可能由扬声器531来再生，而第二说话者的语音信号152可能由扬声器532来再生。环境信号随后能够由扬声器535和534来再生。在多个语音信号的情况下，这些信号可能利用前扬声器531、532和533来再生，以给出这些语音信号被感知为来自不同方向的错觉。这种感知效果有可能采用多种方式来实现，诸如幅度平移（panning）、时间延迟平移和波场合成技术。

作为选择，能够使用耳机来替代扬声器。在这种情况下，HRTF（Chapter 13 “3D Audio and Virtual Acoustical Environment Synthesis” by Jiashu Chen in the book Acoustical Signal Processing For Telecommunication by Steven L. Gay and Jakob Benesty (Editors) Kluwer Academic Publishers: 2000 ISBN 0-7923-7814-8）能够用于在虚拟空间中再生语音信号和环境信号。

在进一步的实施例中，接收电路410还在接收关于说话者的位置的空间信息171，并且再现电路520正在空间地再生语音信号，以致语音信号151-154被感知为来自利用空间信息171所表示的位置。这使用例如幅度平移来完成。利用幅度平移，有可能实际上定位语音信号，以致说话者被感知为位于两个扬声器位置之间。

在进一步的实施例中，从中感知语音信号的方向在说话者的可视化中与说话者的位置相对准。

在进一步的实施例中，一个或多个环境信号的幅度被减小。

图7显示用于传送语音信号的通信***的示例，其包括根据本发明的语音捕获设备100和语音再现设备500。

该通信（***）包括两个终端700和800。这些终端中的每一个终端包括语音捕获设备100和语音再现设备500。这些终端具有一对一通信应用，其中位于例如房间的两个不同位置中的说话者正在相互通信。在终端800中包括的语音捕获设备100产生被发送到终端700中包括的再现设备500的包括语音信号和环境信号的输出信号181A。分别地，在终端700中包括的语音捕获设备100产生被发送到终端800中包括的再现设备500的包括语音信号和环境信号的输出信号181B。

虽然已结合一些实施例描述了本发明，但是并不打算将本发明限于在这里阐述的特定形式。相反，本发明的范围仅利用所附的权利要求书来限制。此外，虽然某个特征可能看来似乎结合特定的实施例来描述，但是本领域技术人员将认识到，所描述的实施例的各种特征可以根据本发明进行组合。在权利要求书中，术语包括并不排除其他元素或步骤的存在。

此外，虽然单个地列举，但是多个电路、元素或方法步骤可以利用例如单个单元或处理器来实现。另外，虽然单个特征可以被包括在不同的权利要求中，但是这些特征也有可能有利地进行组合，并且在不同的权利要求中的包含并不意味着特征的组合不是可行的和/或有利的。特征在一种类别的权利要求中的包含并不暗示对这种类别的限制，而是表明该特征同样可以酌情应用于其他的权利要求类别。此外，单数引用并不排除多个。因而，对于“一”、“一个”、“第一”、“第二”等等的引用并不排除多个。权利要求中书的参考符号仅仅作为澄清示例来提供，并且无论如何不应被解释成限制这些权利要求的范围。本发明可以利用包括若干不同元素的硬件的电路以及利用适当编程的计算机或其他可编程设备的电路来实施。

Claims

1.一种语音再现设备（500），包括：

接收电路（510），用于接收分别从一个或多个声音信号中提取的一个或多个语音信号（151-154）和分别从所述一个或多个声音信号中提取的一个或多个环境信号（131），其中每一个语音信号对应于不同的说话者，以及

再现电路（520），用于以一个或多个语音信号被感知为来自与一个或多个环境信号不同的方向的方式空间地再生一个或多个语音信号和一个或多个环境信号。

2.根据权利要求1的语音再现设备，其中再现电路（520）被安排用于以语音信号被感知为来自互不相同的方向的方式空间地再生两个或多个语音信号。

3.根据权利要求2的语音再现设备，其中接收电路（510）进一步被安排用于接收有关说话者的位置的空间信息（171），并且再现电路（520）被安排用于以语音信号被感知为来自利用空间信息所代表的位置的方式空间地再生语音信号。

4.根据权利要求1的语音再现设备，其中语音再现设备被安排用于在说话者的可视化中将从中感知语音信号的方向与说话者的位置相对准。

5.根据权利要求1的语音再现设备，其中语音再现设备被安排用于减小一个或多个环境信号的幅度。

6.一种用于传送语音信号的通信***，该通信***包括：

语音捕获设备（100），以及

根据权利要求1-5中任一项所述的语音再现设备，

其中所述语音捕获设备（100）包括：

- 捕获电路（110），包括用于捕获多个声音信号（111-116）的多个麦克风（101-106），

一个或多个提取电路（121-124），每一个提取电路用于从多个声音信号中推导出与各自说话者相对应的各自语音信号（151-154），

剩余提取电路（130），用于从多个声音信号中推导出一个或多个环境信号（131），其中每一个声音信号通过减去利用一个或多个提取电路推导出的一个或多个语音信号而被减少，以及

发射电路（150），用于发射一个或多个语音信号和一个或多个环境信号。

7.一种免提音频或视听会议终端，包括语音捕获设备（100）和根据权利要求1-5中任一项所述的语音再现设备（500），其中所述语音捕获设备（100）包括：

8.一种语音再现方法（500），该方法包括以下步骤：

通过设备接收分别从一个或多个声音信号中提取的一个或多个语音信号（151-154）和分别从所述一个或多个声音信号中提取的一个或多个环境信号（131），其中每一个语音信号对应于不同的说话者，和

通过所述设备以一个或多个语音信号被感知为来自与一个或多个环境信号不同的方向的方式，空间地再生一个或多个语音信号和一个或多个环境信号。