CN106797413B

CN106797413B - 声音调节

Info

Publication number: CN106797413B
Application number: CN201480082389.7A
Authority: CN
Inventors: R·C·布鲁克斯; K·E·比格斯; C·苏
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2019-09-27
Anticipated expiration: 2034-09-30
Also published as: WO2016053316A1; TWI584629B; US20170249939A1; EP3202125B1; TW201626778A; EP3202125A4; EP3202125A1; CN106797413A; US10283114B2

Abstract

本文中公开的示例实现可以用于生成对应于由被耦合到通信设备的麦克风阵列检测到的用户说话和其它声音的本地声音信号并用于调节本地声音信号以分离用户说话与其它声音以生成经调节的声音信号。评估经调节的声音信号以便为经调节的声音信号生成本地质量分数，并且当经调节的声音信号的本地质量分数低于与通信设备相关联的阈值时，可以生成指示本地用户位置改变的本地反馈消息。所述本地反馈消息可以包括让用户移动至另一位置以改进经调节的声音信号的质量的指令。

Description

声音调节

背景技术

存在用于调节由通信设备检测到的声音以用于分离用户语音与周围或背景噪声以便改进远程语音通信的功效的各种技术。诸如回声消除和噪声消除之类的声音调节可以通过从声音信号中移除扰乱的音频伪像而显著地增加说话者的语音的可理解性。

附图说明

图1是根据本公开的各种示例的包括具有声音调节优化功能性的音频处理器的通信设备的示意图。

图2描绘了根据本公开的示例的通信设备中的麦克风阵列的最优化声音调节区域。

图3描绘了根据本公开的示例的用于通信设备中的优化声音调节的***中的信息流。

图4图示出根据本公开的示例的用于指示用户位置改变的反馈消息。

图5是根据本公开的示例的用于优化声音调节的方法的流程图。

图6是根据本公开的示例的用于操作具有声音调节优化功能性的通信设备的方法的流程图。

具体实施方式

本文中描述的各种示例实现包括针对用于优化通信设备中的声音调节的***、设备和方法的技术。声音调节可以包括各种类型的数字或模拟滤波器和声音处理操作，诸如噪声消除、回声消除等。

通常采用特定麦克风阵列或考虑到操作环境来实现声音调节。相应地，由于特定麦克风阵列在特定操作环境中可能具有特定的操作特性集合，因此对应的声音处理操作可能是针对那些操作特性而特定的。例如，可以采用特定方式来操作麦克风阵列，以具有最优敏感性区域。当以该模式进行操作时，麦克风阵列将对源自可能相对于麦克风阵列特别地定位的区域(例如，该区域可以被配置成包括预期用户在会议室中的位置)的声音最敏感。因而，可以针对其中以特定模式操作麦克风的情况来优化针对麦克风阵列的声音处理。相应地，针对以检测在特定室内讲台处讲话的用户的模式操作的麦克风阵列的声音调节将最可能不同于针对***作用于检测处于在会议室中的不同位置处的多个用户的麦克风阵列的声音调节。

当针对不同场景(例如，不同操作模式)操作麦克风阵列时，最优敏感性的区域将是不同的。相应地，适用于一个最优敏感性区域的声音调节将不同于用于另一最优敏感性区域的声音调节。此外，对于源自麦克风阵列的最优敏感性区域的各部分的声音，声音调节多多少少可能都是有效。随着用户在各最优敏感性区域中从左右移动，所应用的声音处理的功效可能降级或者是次优的。本公开的示例实现可以评估声音调节的质量以推断出对用户位置的修正以便改进或维持经调节的声音的可接受的质量，从而改进当被传输至远程设备时可以藉此辨别期望的声音(例如，用户的语音)的清晰度。

在一些示例中，可以通过各种音频和视觉方向指示器来向用户传送必要的用户位置改变，所述各种音频和可视方向指示器可以将用户引导回到与麦克风阵列的特定操作模式和/或操作特性和条件相关联的最优声音调节区域。相应地，在通信会话(诸如电话会议)期间，可以将用户引导至相对于麦克风阵列的特定位置，使得噪声和/或回声消除操作为远程倾听者产生最优声音质量。

在本公开的以下详细描述中，对形成其一部分的附图进行参考，并且其中通过例证的方式示出了可以如何实践本公开的示例。充分详细地描述这些示例以使得本领域技术人员能够实践本公开的示例，并且要理解的是，可以利用其它示例，并且可以做出过程、电和/或结构的改变而不脱离本公开的范围。

图1描绘了通信设备100的示意图，通信设备100可以用于通过一个或多个通信网络190与一个或多个远程通信设备180通信。如本文中描述的，通信设备100可以包括能够检测和处理声音并生成和传输对应信号的任何移动或固定计算设备。例如，通信设备100可以包括这样的设备，诸如膝上型计算机、桌面型计算机、平板计算机、智能电话、IP语音(VoIP)电话、视频电话、智能电视等。

网络190可以包括适用于从通信设备100向远程通信设备180输送信号的任何有线或无线电子通信介质和/或协议。例如，网络190可以包括局域网(LAN)、无线局域网(WLAN)、全球微波接入互操作性(WiMAX)网络、以太网、互联网、PSTN等。相应地，远程通信设备180可以包括能够通过网络190发送和接收电子通信信号的任何适当的电子通信设备。这样的远程通信设备180可以包括但不限于智能电话181、移动电话183、固网电话185、膝上型/桌面型计算机187、平板计算机189等。

如图1中所示，通信设备100可以包括多个组件。在所示的具体示例中，通信设备100可以包括处理器110，处理器110可以获取并存储数据存储/存储器120中的计算机可执行指令。处理器110可以执行用于实现操作***功能性以及被实现为数据存储/存储器120中的计算机可读代码的其它功能性的指令。例如，处理器110可以执行各种驱动器、控制器、应用编程接口(API)以促进对通信设备100的各种组件的控制和在通信设备100的各种组件之间的通信。数据存储/存储器120表示任何形式的易失性或非易失性计算机可读介质，诸如SRAM、DRAM、闪存、硬驱、固态驱动等。在这样的示例实现中，可以将通信设备100的各种组件的功能性实现为执行存储在数据存储/存储器120中的指令的处理器110。照此，可以将通信设备100的每个组件的功能性实现为可执行代码或代码段。

除了处理器110之外，通信设备100还可以包括显示设备105，诸如计算机显示器、触摸屏显示器、LED显示器或投影仪。显示设备105可以被通信地耦合到处理器110和/或图形协处理器115以接收对应于由通信设备100的各种组件的功能性生成的视觉表示或图形的电子信号。例如，显示器105可以由处理器110用来显示图形用户界面(GUI)或由于操作***或其它应用的执行而产生的其它视觉指示器。

通信设备100可以包括输入/输出集线器125，以用于与其它组件通信并控制其它组件。例如，如所示的，处理器110可以控制相机140并通过输入/输出集线器125使用网络接口130发送信号。此外，处理器110可以通过输入/输出集线器125被耦合到音频编解码器150。

音频编解码器150可以包括用于编码和解码音频信号的功能性。在一个示例中，音频编解码器150可以被耦合到音频处理器160以将音频信号转换成处理器110或通信设备100的某其它组件可用的一个或多个电子格式。在这样的示例中，音频处理器160可以响应于接收自麦克风阵列170的声音信号来生成音频信号。接收自麦克风阵列170的声音信号可以对应于由麦克风阵列170检测到的声音。相应地，音频处理器160可以应用各种处理功能性以在所产生的音频信号被编码并被用在与远程通信设备180的通信之前修改或改进所述音频信号的质量。例如，音频处理器160可以包括声音调节引擎161的功能性以对接收自麦克风阵列170的声音信号应用各种噪声和/或回声消除操作。音频处理器160的这样的功能性可以增加语音或最终被传输给远程通信设备180的其它期望声音的清晰度。

在各种实现中，由声音调节引擎161应用于声音信号的噪声和/或回声消除操作的具体类型可以是特定于麦克风阵列170的类型、配置和/或操作模式。相应地，当用户或其它音源物理地位于与具体麦克风阵列170相关联的最优敏感性地带之内时，声音调节引擎161可能是最有效的。如所示的，通信设备100可以包括多个麦克风阵列170-1和170-2，使得声音调节引擎161可以对取决于源麦克风阵列170的声音信号应用不同的声音调节操作。

在各种示例中，音频处理器160还可以包括声音调节优化器163的功能性。声音调节优化器163可以评估由声音调节引擎161生成的经调节的声音信号以确定所应用的声音调节的质量或功效。如果声音调节的质量或功效降级了，那么声音调节优化器163可以生成用户反馈消息。

用户反馈消息可以包括处理器110可以执行以生成用户位置改变的视觉或音频指示的指令，所述视觉或音频指示用以将用户引导至与正使用的特定麦克风阵列170和/或声音调节相关联的最优声音调节区域。例如，用户反馈消息可以包括让用户移动更靠近或更远离麦克风阵列170的指令。类似地，该反馈消息还可以包括让用户相对于麦克风阵列170向左、向右、向上或向下移动直到音源(诸如用户的嘴)在最优地带内为止的指令。在这样的示例中，该反馈消息可以包括用于处理器110生成视觉指示器的指令，所述视觉指示器诸如显示器105上的箭头或闪烁的灯，所述视觉指示器将引导用户以将音源放置在针对特定麦克风阵列170的最优物理区域中。类似地，该反馈消息可以包括用于处理器110使用扬声器175生成音频音调以引导用户的指令。在这样的实现中，所述音频音调可以包括录制或合成的口语，用以发布命令，诸如“向前移动”、“向后移动”、“向左移动”、“向右移动”等等，以指导用户回到相对于麦克风阵列170的最优地带。

图2图示出其中将通信设备100部署在特定环境210中的场景200。出于清楚和简洁的目的，本文中将环境210称为房间210。然而，环境210可以包括任何类型的开放或封闭位置，诸如室外位置、车辆内部、会议室、住宅、办公室等。在所示的示例中，通信设备100被部署在房间210内的特定位置中。在操作期间(例如，当电话会议或视频会议正在会话中时)，通信设备100可以使用麦克风阵列170检测来自一个或多个用户205的本地声音以用于传输给一个或多个其它远程设备(未示出)。如本文中描述的，麦克风阵列170可以基于其内部麦克风的物理和电子配置和/或操作模式而具有最优敏感性区域。在图2中将麦克风阵列170的最优敏感性区域图示为区域220。区域220被图示为一般朝向远离麦克风阵列170延伸。然而，在其它实现中，麦克风阵列170可以被配置成***作用于改变最优敏感性区域220的方向、形状和布置。

为了进一步改进由麦克风阵列170检测到的语音或其它声音的声音质量，虽然未在图2中明确地描绘出，但是通信设备100还可以包括参考音频处理器160、声音调节引擎161和声音调节优化器162描述的功能性，如本文中描述的。在这样的实现中，麦克风阵列170可以检测房间210中的声音并生成对应的声音信号。这样的声音信号可以包括电信号，所述电信号可包括调制电压和/或电流。音频处理器160可以向由麦克风阵列170提供的声音信号应用各种滤波器以选择或抑制声音信号的某些方面。对声音信号进行滤波或更改以改进或以其它方式改变声音信号的质量的过程在本文中称为“声音调节”。

声音调节引擎161可以应用一个或多个滤波技术以隔离或改进麦克风阵列170检测到的用户说话的保真度。如本文中使用的，术语“说话”可以指代用户产生的任何声音或发声。这样的滤波技术可以包括基于频率、幅度、功率等来处理声音信号的数字和/或模拟滤波器。在根据本公开的各种实现中，滤波技术可以包括噪声消除，噪声消除用以把期望的声音(例如，来自特定用户的说话、乐器的声音等)与背景声音/噪声(例如，交通、HVAC风扇、周围对话等)相分离开。在其它实现中，滤波技术可以包括回声消除，回声消除可以把期望的声音与由房间210的构造、通信设备100和其它环境因素引起的回声相分离开来。噪声消除和回声消除这二者对隔离对应于特定用户205的语音或其它目标音源来说都是有用的。

由麦克风阵列170生成的某些声音信号可能更好地适用于特定声音调节技术。例如，如果对应于声音信号中的用户的期望语音的信号幅度过小(例如，太小声)或过大(例如，太大声)，那么特定声音调节功能性可能次优或不够好地执行。包括或对应于用户205的声音的声音信号中的改变可以随特定用户205相对于麦克风阵列170和/或对应的最优敏感性区域220的位置而变化。例如，靠近麦克风阵列170的用户205-1所说的话和距麦克风阵列170更远的用户205-4所说的话可能源自最优敏感性区域220内的位置，然而，对应的所产生的声音信号可能较少有效或次优地由声音调节引擎161处理。类似地，对应于来自位于最优敏感性区域220外部的用户205-2的说话的声音信号可能也不适用于由声音调节引擎161应用的有效的声音调节(例如，噪声消除和/或回声消除)技术。作为对比，通信设备100和/或声音调节引擎161可以包括声音调节功能性，声音调节功能性将在对应于从位于区域220内的最优声音调节地带225中的用户检测到的说话的声音信号上最优地执行。相应地，为了最优地调节对应于由用户205-1、205-2和/或205-4所说的话的声音信号，用户205-1、205-2和/或205-4将需要移动至最优声音调节地带225。本公开的示例可以包括参考声音调节优化器163描述的功能性，用以提供引导用户205或其它声源移动到房间210内的最优声音调节地带225中的反馈。

图3图示出根据本公开的示例实现的信息流300。当麦克风阵列170活动时，如当通信设备100发起了与远程通信设备180(例如，视频电话)的通信会话时，麦克风阵列170可以将301处的声音信号(参考1)提供给声音调节引擎161。在一些示例中，301处的声音信号可以包括对应于麦克风阵列170检测到的声音的原始和/或未经滤波的声音信号。声音调节引擎161可以调节声音信号以生成303处的经调节的声音信号(参考2)。如本文中描述的，经调节的声音信号303可以包括由于应用各种信号处理滤波器(诸如噪声消除、回声消除等)而产生的声音信号301的更改版本。

一旦生成了经调节的声音信号303，就可以将它们提供给声音调节优化器163。声音调节优化器163可以评估经调节的声音信号303以确定经调节的声音信号的质量。在一个示例中，评估经调节的声音信号303可以包括确定声音调节引擎161以其分离用户说话的声音或其它目标声音与其它不期望的声音的功效。相应地，经调节的声音信号303的评估可以包括测量信噪比。在一个特定实现中，声音调节优化器163可以比较经调节的声音信号303的信噪比或其它质量测度与预确定或动态确定的阈值。

如果经调节的声音信号303的信噪比被确定为高于阈值，那么声音调节优化器163可以将经调节的声音信号发送给处理器110。在图3中，311处的经调节的声音信号被示出为与用户反馈信号一起被发送。然而，在其中经调节的声音信号被确定为具有足够的质量或以其它方式是最优的场景中，可以将经调节的声音信号(参考6)独立地发送给处理器110。处理器110然后可以通过网络接口130将315处的经调节的声音信号(参考7)发送给一个或多个远程通信设备180。

在其中声音调节优化器163确定了经调节的声音信号303的质量低于某一阈值或在通信会话期间渐渐降级的场景中，声音调节优化器163可以生成305处的质量反馈信号(参考3)。在这样的示例实现中，声音调节优化器163可以通过质量反馈信号305向声音调节引擎161指示声音调节引擎161应该调整当前声音调节功能性或应用不同的声音调节技术。相应地，响应于质量反馈信号305，声音调节引擎161可以改变应用于传入的声音信号301的噪声消除和/或回声消除滤波器。可以在通信会话期间通过声音调节引擎161将新调节的声音信号303发送回到声音调节优化器163以用于评估来重复该过程。相应地，声音调节引擎161和声音调节优化器163可以在通信会话期间实时或近似实时地操作以尝试修正次优地调节的声音信号。

在经调节的声音信号303可接受的情况下，那么如上所述，可以将经调节的声音信号315转发给接收的远程通信设备180。然而，如果声音调节引擎161改变或调整声音调节功能性并且经调节的声音信号303仍不可接受，那么声音调节优化器163可以确定对用户相对于麦克风阵列170的定位的修正，所述修正可以改进经调节的声音信号303的质量。可以使用所确定的修正来生成用户反馈消息，所述用户反馈消息可以并行地或串行地伴随被发送给处理器110的当前调节的声音信号311(参考6)。用户反馈消息可以包括指令，处理器110可以执行所述指令以生成用以将用户205引导至与对应的麦克风阵列170和/或声音调节技术相关联的最优声音调节区域225。这样的指令可以包括让用户205移动更靠近或更远离麦克风阵列170和/或最优敏感性区域220的方向。

处理器110可以处理用户反馈消息以生成控制信号以用于向用户205提供视觉或音频反馈。例如，处理器110可以根据311处的用户反馈消息生成317处的音频反馈信号(参考8)以用于扬声器175产生可以将用户205引导回到最优声音调节区域225的音频音调。例如，所述音频音调可以包括录制或合成的语音命令，所述录制或合成的语音命令指示用户205改变位置直到他或她处于相对于针对麦克风阵列170的最优声音调节区域225的正确位置中。

在其它示例实现中，处理器110可以基于用户反馈消息311生成视觉反馈信号313(参考9)。在这样的示例中，处理器110和/或图形处理器115可以生成视觉指示，所述视觉指示可以被示出给用户205以引导他们回到最优声音调节区域225。在一些示例中，所述视觉指示可以包括具有对应于返回至区域225所必须的用户位置改变的箭头或其它方向指示器的图形用户界面(GUI)。所述箭头或其它方向指示器可以维持显示和/或图示，直到用户205处于相对于麦克风170的正确位置中为止。在又其它的示例中，视觉反馈信号313用以引起显示器105显示相机140所生成的房间210的先前捕获的或实时的视频图像(例如，在视频会议期间捕获的图像)。处理器110或图形处理器115可以再现在房间210的图像上叠加的GUI。GUI可以包括区域225的位置的视觉指示器(例如，在区域225中的、房间210的区域周围的轮廓，或该区域的某其它强调)，使得用户205可以移动到房间210的对应区域。例如，房间210的实时图像可以包括用户205的图像，用户205的图像将用户205示出为在最优声音调节区域225内部或外部。

在另一示例中，诸如箭头之类的视觉方向指示器可以叠加在房间210的图像上面，以指示用户205应在哪个方向上移动以返回到最优声音调节区域225。当声音调节优化器163评估出由对应于说话的用户205的声音信号301产生的经调节的声音信号303具有可接受的质量时，声音调节优化器163可以改变用户反馈消息311，使得处理器110可以停止在显示器105上显示视觉指示器。

可以基于用特定房间210中的通信设备100和/或麦克风阵列170执行的测试或校准来预先确定最优声音调节区域225的位置。通过声音调节优化器163评估的经调节的声音信号303的阈值质量可以对应于测试结果。然而，被发送给远程通信设备180的所产生的经调节的声音315对于远程声音再生***来说可能是次优的。为了计及远程通信设备180的能力，本公开的示例实现可以在声音调节优化器163中包括用于接收远程设备质量反馈信号309(参考4)的功能性。响应于远程设备反馈消息309，声音调节优化器163可以生成311处的对应的用户反馈消息以进一步指导用户205更靠近先前确定的最优声音调节区域225的中心或更靠近先前确定的最优声音调节区域225可以或可以不与其重叠的新区域。使用远程设备质量反馈信号309，声音调节优化器163可以进一步改善最优声音调节区域225，使得可以基于麦克风阵列170的特性、声音调节引擎161的声音调节功能性和远程通信设备180的声音再生能力而产生最佳可能的经调节的声音信号315。

图4图示出上面参考图1到3描述的各种特征和元件。例如，通信设备100的显示器105被图示为显示具有视觉指示器415的用户反馈消息405-2。在该所示特定示例中，视觉指示器415包括多个箭头，用户205可以使用所述箭头来引导他自己回到最优声音调节区域225中。类似地，扬声器175被图示为发出音频反馈消息405-1，音频反馈消息405-1可以包括音频音调以引导用户205回到最优声音调节区域225。如本文中描述的，音频反馈消息405-1的音频音调可以包括语音命令或其它声音，语音命令或其它声音指示用户205应移动以便保持在最优声音调节区域225中或返回到最优声音调节区域225的方向。

图4中还图示出的是基于质量反馈信号305和远程设备质量反馈信号309对最优声音调节区域225的改善。声音调节优化器163可以将最优声音调节区域225重新定义成更新的或修正的最优声音调节区域227。虽然经修正的最优声音调节区域227被示出为被包含在先前的最优声音调节区域225之内，但是在本公开的各种示例中，经修正的区域227可以或者可以不与最初的区域225重叠或者可以或者可以不被包含在最初的区域225中。

本公开的各种示例包括参考声音调节优化器163描述的功能性。声音调节优化器163可以被实现为硬件和软件的任何组合。出于清楚性的目的，声音调节优化器163已经被描述为通信设备100的音频处理器160的组件。然而，声音调节优化器163也可以被实现为独立应用，所述独立应用被实现为一种或多种类型的计算机可执行代码，所述计算机可执行代码可由处理器110执行以支持外部应用或操作***的功能性。相应地，可以在诸如桌面型计算机、膝上型计算机、平板计算机、智能电话、智能电视等的通用计算设备上执行声音调节优化器163。为了进一步例证声音调节优化器163的功能性中的某些，图4是可相比于声音调节优化器163的功能性的示例方法500的流程图。

如图5中所示，方法500可以在框510处开始，其中，声音调节优化器163可以接收经调节的声音信号。经调节的声音信号可以是被应用于由麦克风阵列170响应于外部刺激或音频输入(诸如检测到的本地声音)而生成的原始或未经处理的声音信号的噪声消除、回声消除和其它音频滤波器的结果。在框520处，声音调节优化器163可以评估经调节的声音信号的质量。对经调节的声音信号质量的评估可以包括任何测度或量度，用所述任何测度或量度可以判断所述质量。在一些示例中，经调节的声音信号的质量可以通过数值量度(诸如信噪比)来表示。相应地，对经调节的声音信号质量的评估可以包括数值量度与阈值的比较。经调节的声音信号质量的阈值可以对应于相对于房间210和/或麦克风阵列170定义的区域。

声音调节引擎161可以将其声音调节能力(例如，声音调节质量的分数)映射到房间210中的位置。例如，声音调节引擎161可以确定房间的特定位置中检测到的声音可以被调节成到某一质量。可以基于客观或主管准则将经调节的声音信号的质量确定为可接受或不可接受。导致不可接受的经调节的声音信号的位置可以被定义为在最优声音调节区域外部。导致可接受的经调节的声音信号的位置可以被定义为在最优声音调节区域中。

可以用以评估经调节的声音信号的准则可以是仅基于用户205的判断：经调节的声音信号导致特定类型的远程通信设备180中的音频音调，所述音频音调清晰且可理解地表示用户的说话的意思。在其它示例中，该准则可以更客观。例如，只有在所产生的音频音调的幅度(也称为音量)在特定范围(例如，正常人听到的范围)内时，所述幅度才可以被定义为可接受的。

在其中声音调节优化器163评估经调节的声音信号的质量的示例中，声音调节优化器163然后可以在确定530处确定经调节的声音信号的质量是否是可接受的。如果质量可接受，那么声音调节优化器163可以继续接收并监控经调节的声音信号，并且可以重复过程510到530。然而，如果声音调节优化器163在确定530处确定了经调节的声音信号的质量不可接受，那么声音调节优化器163可以在540处确定用户位置改变。确定用户位置改变可以包括分析声音调节优化器163使用来表征经调节的声音信号的质量的一个或多个量度。声音调节优化器163可以包括或能够访问这样的信息，所述信息指示经调节的声音信号的质量与房间中相对于麦克风阵列170的位置和/或最优声音调节区域225的相关或者映射所述相关。使用这样的信息，声音调节优化器163可以确定用户205应如何改变位置来移动更靠近区域225(或修正区域227)。

在550处，声音调节优化器163可以生成用户反馈消息以指示用户位置改变。在各种示例中，用户反馈消息可以由通信设备100或其某组件用来生成反馈信号。反馈信号可以被转换成音频或视觉反馈信号，音频或视觉反馈信号可用于生成视觉指示器或音频指示器以将用户205引导至最优声音调节区域225。

在根据本公开的各种示例实现中，声音调节引擎161和声音调节优化器163可以被实现为通信设备100的组件。相应地，声音调节优化器163的功能性可以被包括在通信设备100的一个或多个其它组件中。例如，如图所示，声音调节引擎161和声音调节优化器163可以被包括在音频处理器160中。然而，声音调节引擎161和/或声音调节优化器163的功能性可以被实现为硬件和软件(例如，在处理器110上执行的应用)的组合。替换地，可以在一个或多个专用集成电路(ASIC)中实现音频处理器160、声音调节引擎161和/或声音调节优化器163的功能性。

图6是根据本公开的用于操作包括声音调节优化功能性的通信设备100的方法600的流程图。方法600可以在610处开始，其中通信设备发起与一个或多个远程通信设备的通信会话。例如，通信设备100可以使用各种电子通信协议和介质发起或参与电话会议或视频会议。

在620处，通信设备100可以使得生成对应于通信会话的本地声音信号。例如，通信设备100可以检测在通信会话的对话期间使用麦克风阵列170检测到的(一个或多个)用户205的说话。麦克风阵列170可以生成对应于本地用户205的说话的原始和/或经处理的声音信号。

在630处，通信设备可以调节本地声音信号以生成经调节的声音信号。经调节的声音信号可以产生自各种操作或滤波器(例如，噪声/回声消除操作)对本地声音信号的应用。经调节的声音信号意图用于生成对应的音频音调，音频音调以充足的质量和清晰度再生麦克风阵列170检测到的声音以变得明白易懂并且被使用远程通信设备180参与通信会话的远程用户采用其他方式容易地理解。

通信设备100可以在640处为经调节的声音信号生成质量分数。如本文中描述的，经调节的声音信号的质量可以是基于应用于本地声音信号以分离期望的声音与不期望的声音的声音调节的效用。例如，质量分数可以对应于用户能够以其辨别说话者的语音相对于周围或背景噪声的清晰度。如果在确定650处通信设备100确定了针对经调节的声音信号的质量分数高于阈值，那么经调节的声音信号可以在660处被传输给远程通信设备。然而，如果在确定650处通信设备100确定了质量分数低于预定质量阈值，那么通信设备100可以生成对应于用户位置改变的反馈信号。

反馈信号可以包括这样的指令，所述指令可以用于生成音频或视觉指示器以用于将用户引导至相对于麦克风阵列170和/或通信设备100的位置，在所述位置中，所应用的声音调节在产生可接受的经调节的声音信号质量上可能更有效。在这样的示例中，通信设备100可以实时或近似实时地监控正在660处传输给远程设备的经调节的声音信号的质量以便提供用户引导以用于在活动的通信会话期间改进所传输的音频的质量。相应地，本公开的示例有利地允许用户对其位置进行修正以便为通信会话的其他参与者确保最佳可能的音频质量。

在其中经调节的声音信号具有足够质量的场景中，通信设备100可以在660处将经调节的声音信号传输给远程通信设备而不生成本地反馈信号。在670处，响应于经调节的声音信号，通信设备100可以从远程通信设备180接收质量反馈信号，质量反馈信指示所传输的经调节的声音信号的质量的评估。

在确定680处，通信设备100可以确定来自远程设备的质量反馈信号是否指示经调节的声音信号的质量高于阈值。如果远程质量反馈信号指示该质量可接受，通信设备可以继续生成对应于通信会话的本地声音信号并重复动作620-640，直到远程质量反馈信号指示经调节的数据信号的质量低于阈值。在这样的场景中，通信设备100可以生成对应于如上所述的用户位置改变的反馈信号。只要通信会话是活动的，就可以重复动作610到690。

这些和其它变化、修改、附加和改进可以落入(一个或多个)随附权利要求的范围内。如本文中的描述中且遍及随后的权利要求使用的，“一”、“一个”和“该”包括复数参考，除非上下文以其它方式清晰地规定。同样，如本文中的描述中且遍及随后的权利要求使用的，“在......中”的意思包括“在......中”和“在......上”，除非上下文以其它方式清晰地规定。

Claims

1.一种通信设备，包括：

麦克风阵列，用以检测声音并用以生成对应于所述声音的声音信号，其中所述声音包括用户的说话和其它声音；以及

被耦合到所述麦克风阵列的音频处理器，用以对所述声音信号执行声音调节以分离所述用户的所述说话与所述其它声音以便生成经调节的声音信号，用以监控所述经调节的声音信号的声音调节质量，以及用以如果经调节的声音信号已经降级，生成对应于相对于所述麦克风阵列的方向上的用户位置改变的用户反馈信号以更改所述声音调节质量；

其中所述用户反馈信号用于指示用户把用户定位到用麦克风阵列检测声音为最优敏感性区域内的位置。

2.根据权利要求1所述的通信设备，还包括被耦合到所述音频处理器的扬声器，用以生成对应于指示所述方向上的用户位置改变的所述用户反馈信号的音频音调。

3.根据权利要求2所述的通信设备，其中，所述音频音调包括口语指令。

4.根据权利要求1所述的通信设备，还包括被耦合到所述音频处理器的显示设备，用以生成对应于指示所述方向上的用户位置改变的所述用户反馈信号的视觉指示器。

5.根据权利要求4所述的通信设备，还包括相机，用以捕捉其中部署所述通信设备的环境的图像，并且其中，所述视觉指示器包括所述环境的所述图像和叠加在所述图像上指示所述方向上的用户位置改变的方向指示器。

6.根据权利要求1所述的通信设备，其中，所述其它声音包括噪声或回声，并且所述声音调节质量包括所述经调节的声音信号中对所述说话与所述噪声或所述回声的分离的测度。

7.根据权利要求1所述的通信设备，还包括被耦合到所述音频处理器的网络接口，用以通过对应的通信网络将所述经调节的声音信号传输给远程通信设备，并且其中，为了生成所述用户反馈信号，所述音频处理器从所述远程通信设备接收远程反馈信号，所述远程反馈信号包括对所述说话与所述其它声音的分离的测度的指示。

8.一种包括可由包括麦克风阵列的计算设备的处理器执行的指令的非暂时性存储介质，所述指令可执行用于：

接收经调节的声音信号，其中所述经调节的声音信号是对由所述麦克风阵列生成的包括用户说话的声音信号执行的噪声消除或回声消除操作的结果；

评估所述经调节的声音信号的质量；

确定所述经调节的声音信号的质量降级；以及

生成用户反馈消息以用于指示用户把用户定位到用麦克风阵列检测声音为最优敏感性区域内的位置以修正经降级的经调节的声音信号。

9.根据权利要求8所述的存储介质，其中，所述用户反馈消息包括方向上的用户位置改变的指示。

10.根据权利要求8所述的存储介质，其中所述用户反馈消息包括让用户相对于所述麦克风阵列移动的方向的指示。

11.一种优化通信设备中的声音调节的处理器实现的方法，包括：

生成本地声音信号，所述本地声音信号对应于由被耦合到所述通信设备的麦克风阵列检测到的用户说话和其它声音；

调节所述本地声音信号以分离所述用户说话与所述其它声音以生成经调节的声音信号；

评估所述经调节的声音信号以便为所述经调节的声音信号生成本地质量分数；

当所述经调节的声音信号的所述本地质量分数低于与所述通信设备相关联的阈值时，生成指示本地的方向上的用户位置改变的本地反馈消息；

其中所述本地反馈消息用于指示用户把用户定位到用麦克风阵列检测声音为最优敏感性区域内的位置。

12.根据权利要求11所述的方法，还包括：

将所述经调节的声音信号传输给远程设备；

响应于所述经调节的声音信号而从所述远程设备接收远程质量反馈信号；以及

当所述远程质量反馈信号指示所述经调节的声音信号的质量低于与所述远程设备相关联的阈值时，生成指示第二方向上的用户位置改变的第二反馈消息。

13.根据权利要求11所述的方法，其中，所述本地质量分数是所述经调节的声音信号中对所述说话与所述其它声音的分离的测度。

14.根据权利要求11所述的方法，其中所述本地反馈消息包括让用户以相对于所述麦克风阵列的至少一个方向移动的指令。

15.根据权利要求11所述的方法，还包括生成所述本地的方向上的用户位置改变的视觉或音频指示。