CN108900959B

CN108900959B - 测试语音交互设备的方法、装置、设备和计算机可读介质

Info

Publication number: CN108900959B
Application number: CN201810542981.0A
Authority: CN
Inventors: 郑林; 欧阳伟艳; 车婷婷; 黄明明; 钱承君
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2020-09-11
Anticipated expiration: 2038-05-30
Also published as: CN108900959A

Abstract

本公开的实施例涉及测试语音交互设备的方法、装置、设备和计算机可读介质。该方法包括：获取经由所述语音交互设备的麦克风阵列接收的扫频信号的特性，所述扫频信号是从所述语音交互设备经由扬声器播放的；基于所述特性，确定用于对所述语音交互设备进行测试的位置；以及利用设置在所述位置处的声源，确定所述语音交互设备的测试结果。由此，结合语音交互设备的整体硬件特性来预先确定准确的测试位置，以用于语音交互设备的语音效果测试，实现软硬件一体化测试。在这种情况下，可以节约测试成本，提高测试效率和测试准确率，并进一步改善了用户使用体验。

Description

测试语音交互设备的方法、装置、设备和计算机可读介质

技术领域

本公开的实施例涉及智能交互领域，并且更具体地涉及用于测试语音交互设备的方法、装置、电子设备和计算机可读存储介质。

背景技术

智能交互设备，尤其是语音交互设备，目前已经较为普遍地应用于人们的日常生活、工作、甚至生产过程中。例如，作为语音交互设备中的重要应用，具有语音交互功能的音箱由于其广泛的应用而极大地便利了人们的生活。

当家庭中布置有具有语音交互功能的音箱时，用户期望可以从音箱的各种方向和各种距离向音箱发出特定的语音指令，即可将音箱唤醒至激活状态，并可以开始与用户进行语音交互。因此，通常利用声源在多方位多距离对这样的音箱进行测试。在测试中，通常随机地选择音箱中的麦克风作为参考来确定用于放置声源的位置，以便在该位置处对音箱进行测试。为了提高测试准确性，通常需要遍历音箱的所有麦克风来执行上述操作，从而测试成本较高并且测试过程繁琐。

发明内容

根据本公开的示例实施例，提供了一种用于测试语音交互设备的方案。

在本公开的第一方面中，提供了一种用于测试语音交互设备的方法。该方法包括：获取经由所述语音交互设备的麦克风阵列接收的第一测试信号的特性，所述第一测试信号是经由所述语音交互设备的扬声器播放的；基于所述第一测试信号的所述特性，确定用于对所述语音交互设备进行测试的声源的位置，以使得所述声源在所述位置处发送第二测试信号；以及基于所述语音交互设备针对所述第二测试信号的响应，确定所述语音交互设备的测试结果。

在本公开的第二方面中，提供了一种用于测试语音交互设备的装置。该装置包括：获取单元，被配置用于获取经由所述语音交互设备的麦克风阵列接收的第一测试信号的特性，所述第一测试信号是经由所述语音交互设备的扬声器播放的；第一确定单元，被配置用于基于所述第一测试信号的所述特性，确定用于对所述语音交互设备进行测试的声源的位置，以使得所述声源在所述位置处发送第二测试信号；以及第二确定单元，被配置用于基于所述语音交互设备针对所述第二测试信号的响应，确定所述语音交互设备的测试结果。

在本公开的第三方面中，提供了一种电子设备。该电子设备包括：一个或多个处理器；以及存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开实施例可以在其中实施的示例环境的示意图；

图2示出了根据本公开一些实施例的用于测试语音交互设备的方法的流程图；

图3示出了根据本公开另一实施例的用于测试语音交互设备的方法的流程图；

图4示出了根据本公开另一实施例的用于测试语音交互设备的方法的流程图；

图5示出了根据本公开另一实施例的用于测试语音交互设备的方法的流程图；

图6示出了根据本公开实施例的用于测试语音交互设备的装置的示意框图；以及

图7示出了可以实施本公开实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例中，术语“语音交互设备”是指具有语音交互功能的智能***或设备，诸如智能音箱、智能汽车、智能机器人等等。术语“麦克风阵列”是指由多个麦克风按照预定方式排列而成的阵列。术语“声源”是指用于发出仿真实际使用环境中的声音或音频信号的装置，特别地，该声音或音频信号可以为例如语音指令或语音信号。

传统上，用于对语音交互设备进行测试的声源可以相对于该语音交互设备而被布置在多个方向上的不同位置处。声源在这些位置处分别向语音交互设备发送测试信号，例如语音指令等。由此，可以得到语音交互设备针对这些测试信号的相应测试性能，进而确定该语音交互设备是否通过测试。

通常，声源的位置(在本文中，也称为测试位置)是随机选择的。例如，通常随机选择语音交互设备的麦克风阵列中的一个麦克风，然后以该麦克风为参考来选择例如0度、60度、90度等的方向来定位声源的位置以进行测试。

然而，不同的麦克风会带来不同的测试结果。为了测试这种差异以确保语音交互设备的用户使用体验，通常需要遍历所有麦克风来执行上述测试操作，由此导致测试成本较高且测试过程繁琐。

针对上述问题，本公开的实施例通过语音交互设备的麦克风阵列接收语音交互设备本身发出的扫频信号，并且利用经由这些麦克风接收到的扫频信号的特性，来确定用于对语音交互设备进行测试的声源的测试位置。以此方式，考虑了语音交互设备的整体硬件特性来预先确定准确的测试位置，实现了软硬件一体化测试。在这种情况下，可以节约测试成本，提高测试效率，提高测试准确率，并进一步改善了用户使用体验。

以下将参照附图来具体描述本公开的实施例。

图1示出了本公开的实施例可以在其中实施的示例环境100的示意图。在该示例环境100中可以包括语音交互设备110、用于对语音交互设备110进行测试的声源120和计算设备130。如图1所示，语音交互设备110可以包括扬声器111和由多个麦克风组成的麦克风阵列112。麦克风阵列112可以通过多种结构来实现。在一些实施例中，麦克风阵列112中的麦克风可以环形布置，但这仅仅是示例性的，本公开对此并不做任何限制。

麦克风阵列112中的多个麦克风可以接收来自语音交互设备110本身(即，来自扬声器111)或来自语音交互设备110外部(例如声源120等)的音频信号。在根据本公开的实施例中，麦克风阵列112中的多个麦克风可以接收来自扬声器111的第一测试信号。在本公开的实施例中，第一测试信号是指用于确定声源(例如声源120)的测试位置的音频信号。在一些实施例中，第一测试信号为扫频信号。该扫频信号的频率范围可以包括人耳的听觉频率范围，由此可以尽可能地涵盖实际使用环境中可能出现的信号频率的各种情况，使得测试更准确。在一些实施例中，扫频信号的频率范围例如可以为0Hz至20KHz。在备选实施例中，扫频信号的频率范围例如可以为20Hz至20KHz。应当理解，扫频信号的上述频率范围仅仅是示例性的，其并不限于此，而是可以根据需要进行选择。

麦克风阵列112中的多个麦克风也可以接收来自声源120或其它类似装置的第二测试信号。在本公开的实施例中，第二测试信号是指用于对语音交互设备110进行测试的音频信号，用于仿真实际使用环境中的声音信号，诸如唤醒词、语音语句之类的语音指令或其它类似声音信号。

声源120可以是能够播放语音指令或音频信号的设备，诸如高保真音箱、人工嘴等等。为清晰起见，图中仅示出一个声源120，但实际上根据需要可以包括更多的声源，该更多的声源可以播放与声源120相同或不同的音频信号。此外，根据测试的需要，声源120可以以各种合适的方向和距离被布置。

声源120可以被布置成与语音交互设备110相距预定距离，该预定距离可以根据经验、***要求、测试环境等因素来确定。在一些实例中，该预定距离例如为3米、6米等等，但这仅仅是示例性的，而非限制性的。此外，声源120可以被布置在相对于语音交互设备110的特定方向上。

计算设备130可以实现对语音交互设备110的测试控制。计算设备130可以是具有存储器和处理器功能的设备，诸如台式计算机、笔记本电脑、便携式移动设备等等。计算设备130可以与语音交互设备110和声源120有线或无线地连接。当然，计算设备130也可以全部或部分地被实现在语音交互设备110中。

在一些实施例中，计算设备130可以控制语音交互设备110以经由扬声器111播放第一测试信号150并经由麦克风阵列112接收第一测试信号150。计算设备130通过分析第一测试信号150的特性来确定声源120的测试位置。继而，计算设备130可以使得测试位置处的声源120播放第二测试信号140，记录语音交互设备110针对第二测试信号140的响应，并且根据记录的响应来计算语音交互设备110的测试性能，例如唤醒率、语音识别正确率等等。应当理解，本公开实施例并不限于此，而是可以使用本领域已知或未来开发的任意其它测试性能标准。

应理解到，图1所示的结构仅为示例，本公开实施例并不限于此，而是可以包括其它各种结构。例如，在一些实施例中，可以包括相对于语音交互设备110布置在不同方位上的更多声源，并且根据需要，该声源可以发出与声源120相同或不同的音频信号。备选地，在一些实施例中，计算设备130的功能可以被实现在语音交互设备110内，而无需作为单独的部件存在。

下面结合图2至图5详细描述根据本公开实施例的用于测试语音交互设备的方案的示例性实施。图2示出了根据本公开一些实施例的用于测试语音交互设备的方法200的流程图。该方法200可以在例如图1中的计算设备130处实施。

如图2所示，在框210，获取经由语音交互设备(诸如图1所示的语音交互设备110)的麦克风阵列(诸如图1所示的麦克风阵列112)接收的第一测试信号(诸如图1所示的第一测试信号150)的特性，第一测试信号150是经由语音交互设备110的扬声器111播放的。在一些实施例中，计算设备130可以控制语音交互设备110经由扬声器111播放第一测试信号150，并且控制语音交互设备110经由麦克风阵列112中的多个麦克风接收该第一测试信号150。由于麦克风阵列112接收到语音交互设备110本身发出的第一测试信号，因而接收到的第一测试信号可以反映整个语音交互设备110的整体硬件特性。

在一些实施例中，第一测试信号150的特性可以包括：失真度、频率响应特性和/或其他适当的特性。应当理解，该特性也可以包括本领域已知或未来开发的任意其它合适参数。稍后将结合图3和图4对此进行更详细描述。

在一些实施例中，计算设备130可以获取由多个麦克风接收到的第一测试信号150，并且对第一测试信号150进行分析以确定第一测试信号150的特性。由此可以实时地获取第一测试信号150的特性。根据本公开的其它实施例，计算设备130可以存储所确定的第一测试信号150的特性，以在后续对语音交互设备110执行测试时取回并使用。由此可以非实时地获取第一测试信号的特性。

在框220，基于第一测试信号150的特性，确定用于对语音交互设备110进行测试的声源120的位置，以使得声源120在该位置处发送第二测试信号140。在本文中，声源120所在的位置也被称为测试位置。

在一些实施例中，计算设备130可以通过在各个麦克风之间对接收到的第一测试信号的特性进行比较来找到特性相差较大的麦克风对，并且以该麦克风对中的每个麦克风的相应位置作为参考来确定相应的测试位置。例如，计算设备130可以对多个麦克风中的每个麦克风接收到的扫频信号的特性的值求平均，确定具有与平均值相同或相近的特性值的麦克风，并以所确定的麦克风的位置为参考来确定测试位置。

可以在以所确定的麦克风为参考的各种方向和距离处确定测试位置，以设置声源。例如，可以所确定的麦克风为参考选择0度、60度、90度等的方向并且以与所确定的麦克风相距例如3米、6米等的距离来定位声源120的多个位置。应理解到，本公开并不限于上述实施例，而是可以包括更多其它的实施例，这里不再一一列举。

在一些实施例中，声源120可以是针对麦克风阵列中的每个麦克风的位置而预先布置好的。在备选实施例中，声源120可以是根据框220确定的位置而现场放置的。应理解，本公开对此并不做任何限制。

在框230，基于语音交互设备(诸如图1所示的语音交互设备110)针对第二测试信号(诸如图1的140)的响应，确定语音交互设备的测试结果。在一些实施例中，语音交互设备110针对第二测试信号的响应例如可以包括正常响应和非正常响应。例如，假设第二测试信号为针对语音交互设备110的唤醒词，当语音交互设备110发出指示其被唤醒的指示信号(例如特定的听觉信号、特定的视觉信号等)时，则确定语音交互设备110针对第二测试信号作出正常响应。当语音交互设备110未发出该指示信号时，例如发出其它信号或未发出任何信号，则确定语音交互设备110针对第二测试信号作出非正常响应。

例如，在语音交互设备110被唤醒后，假设第二测试信号为针对语音交互设备110的包括语音语句的语音指令(例如，今天天气如何)，当语音交互设备110作出针对该语音指令的正确响应动作(例如，回答：今天多云转晴，8到19摄氏度)时，则确定语音交互设备110针对第二测试信号作出正常响应。当语音交互设备110未作出正常响应动作时，例如作出其它动作或未作出动作，则确定语音交互设备110针对第二测试信号作出非正常响应。

在一些实施例中，计算设备130可以使得在框220处预先确定的测试位置处的声源120发出第二测试信号140，并且基于语音交互设备110针对第二测试信号140的响应来确定指示语音交互设备110的测试性能的值，从而确定语音交互设备110的测试结果。

在上述实施例中是在声源120单独发出第二测试信号140的情况下执行测试，但本公开并不限于此。在备选实施例中，可以在使得语音交互设备110通过扬声器111播放音频信号(诸如音乐信号或视频信号等)的同时，使得声源120发出第二测试信号140，来执行上述语音效果测试。应理解到，语音效果测试可以采用本领域已知或未来开发的其它任意合适方式实现，本公开对此并不作任何限制。

在一些实施例中，测试性能可以包括唤醒率和语音识别正确率中的至少一项。在一些实施例中，可以使得声源120发出用于唤醒语音交互设备110的语音指令，例如唤醒词，并且根据语音交互设备110的响应，确定语音交互设备110的唤醒率。在一些实施例中，唤醒率＝语音交互设备的唤醒次数÷声源的发音次数。在进一步的实施例中，在语音交互设备110被唤醒后，可以使得声源120发出用于与语音交互设备110交互的语音指令，例如语音语句，并且根据语音交互设备110的响应，确定语音交互设备110的语音识别正确率。该语音识别正确率可以根据多种方式来确定。在一些实施例中，语音识别正确率可以等于语音交互设备正确识别的语句数与声源发出的语句数之比值。应理解到，测试性能并不限于所列出的示例，而是可以包括本领域已知或未来开发的任意合适参数，本公开对此并不作任何限制。

与传统方案相比，本公开的实施例通过考虑语音交互设备的整体硬件特性来从麦克风阵列中选择麦克风，来为语音效果测试提供更准确的参考，而无需遍历所有麦克风。因此，降低了测试成本，提高了测试效率和准确率，并且进一步改善了用户使用体验。

图3示出了根据本公开另一实施例的用于测试语音交互设备的方法300的流程图。该方法300可以在例如图1中的计算设备130处实施。

如图3所示，在框310，获取经由语音交互设备(诸如图1所示的语音交互设备110)的麦克风阵列(诸如图1所示的麦克风阵列112)接收的第一测试信号(诸如图1所示的第一测试信号150)的特性，第一测试信号150是经由语音交互设备110的扬声器111播放的。该步骤的处理类似于上面结合框210所述的处理，这里不再赘述。

在框320，基于第一测试信号的特性，确定多个麦克风的失真度。在一些实施例中，计算设备130可以将经由麦克风阵列112中的多个麦克风接收的第一测试信号与参考信号进行比较，并基于所述比较，确定该多个麦克风中的每个麦克风接收到的第一测试信号的失真度。其中参考信号与经由扬声器111播放的第一测试信号相对应。

在一些实施例中，假设输入为第一测试信号，则失真度可以由输出信号中各次谐波功率与基波功率之比的百分比表示，如下式(1)所示：

其中，THD表示失真度，P₁表示基波(一次谐波)的功率，p₂表示二次谐波的功率，以此类推，p_n表示n次谐波的功率。

在上述示例中是以谐波失真为例给出失真度的计算。但应理解到，本公开对此并不做任何限制。在其它实施例中，可以根据需要考虑其它失真的失真度。

继而在框330，从多个麦克风中确定第一麦克风和第二麦克风。在一些实施例中，从麦克风阵列112中的多个麦克风中确定第一麦克风，该第一麦克风接收的第一测试信号的失真度劣于第一预定失真度。换言之，第一麦克风可以为与失真较大的第一测试信号相对应的麦克风。

在一些实施例中，从麦克风阵列112中的多个麦克风中确定第二麦克风，该第二麦克风接收的第一测试信号的失真度优于第二预定失真度。换言之，第二麦克风可以为与失真较小的第一测试信号相对应的麦克风。

在一些实施例中，第一预定失真度和第二预定失真度可以为同一失真度值。根据本公开的另一实施例，第一预定失真度可以劣于第二预定失真度。由此通过框330，可以从多个麦克风中确定出所接收的第一测试信号的失真度相差较大的麦克风对。

根据本公开的进一步实施例，在多个麦克风中，第一麦克风接收的第一测试信号可以具有最大失真度，并且第二麦克风接收的第一测试信号可以具有最小失真度。

在确定了第一麦克风和第二麦克风之后，相当于选定了用于语音效果测试的参考位置。与前面结合图1提及的随机选择一个麦克风作为参考的情况相比，本公开的实施例可以为语音效果测试提供更准确的参考，由此可以提高测试效率和准确率。

在框340，基于第一麦克风的位置和第二麦克风的位置，确定声源的第一测试位置和第二测试位置。在一些实施例中，如前面所述，麦克风阵列112中的多个麦克风可以以预定方式布置在语音交互设备110的预定位置处，例如以环形布置在语音交互设备110内部。关于麦克风的布置方式，本公开并不作任何限制。在框310处确定了第一麦克风和第二麦克风时，即，确定了其相应位置。

在一些实施例中，可以在以第一麦克风的位置为参考的各种方向和距离处设置声源来确定第一测试位置。例如，可以所确定的麦克风为参考选择0度、60度、90度等的方向并且以与第一麦克风相距例如3米、6米等的距离来定位声源120的多个位置，作为第一测试位置。类似地，可以在以第二麦克风的位置为参考的各种方向和距离处设置声源来确定第二测试位置。例如，可以第二麦克风为参考选择0度、60度、90度等的方向并且以与第二麦克风相距例如3米、6米等的距离来定位声源120的多个位置，作为第二测试位置。

在框350，基于语音交互设备110针对来自第一测试位置处的声源120的第二测试信号的响应，确定指示语音交互设备110的测试性能的第一值。在一些实施例中，该第一值可以是在第一测试位置中的一个或多个位置处分别确定的测试性能值的平均值。当然，本公开并不限于此，在备选实施例中，该第一值也可以采用在第一测试位置中的一个或多个位置处分别确定的测试性能值中的最大值、最小值或其它合适的值。框350的操作类似于前面结合框230所述的处理，这里不再赘述。

在框360，基于语音交互设备110针对来自第二测试位置处的声源120的第二测试信号的响应，确定指示语音交互设备110的测试性能的第二值。在一些实施例中，该第二值可以是在第二测试位置中的一个或多个位置处分别确定的测试性能值的平均值。当然，本公开并不限于此，在备选实施例中，该第二值也可以采用在第二测试位置中的一个或多个位置处分别确定的测试性能值中的最大值、最小值或其它合适的值。框360的操作也类似于前面结合框230所述的处理，这里不再赘述。

在框370，基于第一值和第二值来确定针对语音交互设备(诸如图1所示的语音交互设备110)的测试结果。根据本公开的一些实施例，可以基于第一值和第二值的平均值，例如平均唤醒率和平均语音识别正确率中的至少一项，来确定语音交互设备110是否通过测试。由于第一值和第二值是在预先确定的准确的测试位置处得到的，因此借助于第一值和第二值的平均值，可以准确地反映语音交互设备的语音效果。

根据本公开的另一实施例，可以基于第一值和第二值的差值，例如唤醒率之差和语音识别正确率之差中的至少一项，来确定语音交互设备110是否通过测试。由于第一值和第二值是在预先确定的准确的测试位置处得到的，因此借助于第一值和第二值的差值，可以准确地反映语音交互设备的语音效果差异，进而可以帮助判断语音交互设备的总体语音效果。

作为备选，在其它实施例中，可以基于第一值和第二值的平均值和差值二者来确定针对语音交互设备的测试结果。由此，可以更准确地确定语音交互设备的测试结果。下面结合图4对此进行更具体描述。图4示出了根据本公开另一实施例的用于测试语音交互设备的方法400的流程图。该方法400同样可以在例如图1中的计算设备130处实施。

如图4所示，在框410，确定第一值和第二值的平均值。在一些实施例中，例如，在测试性能为唤醒率的情况下，计算设备130通过对第一值和第二值求平均，得到平均唤醒率。又例如，在测试性能为语音识别正确率的情况下，计算设备130通过对第一值和第二值求平均，得到平均语音识别正确率。

在框420，判断该平均值是否低于第一阈值。在一些实施例中，第一阈值可以根据经验预先设置。当然，第一阈值也可以根据需要临时设置或以其它合适方式确定。本公开对此并不作限制。当在框420判定平均值低于第一阈值时，进入框430，确定语音交互设备110未通过测试。当在框420判定平均值高于或等于第一阈值时，进入框440。这表明语音交互设备110的测试性能的平均值符合要求。在一些实施例中，需要进一步地判断测试性能的差值是否符合要求，如框440和框450所示。

在框440，确定第一值和第二值的差值。根据本公开的一些实施例，例如，在测试性能为唤醒率的情况下，计算设备130可以得到在不同测试位置上的语音交互设备110的唤醒率的差异。根据本公开的另一实施例，例如，在测试性能为语音识别正确率的情况下，计算设备130可以得到在不同测试位置上的语音交互设备110的语音识别正确率的差异。

在框450，判断差值是否高于第二阈值。在一些实施例中，第二阈值可以根据经验预先设置。当然，第二阈值也可以根据需要临时设置或以其它合适方式确定。本公开对此并不作限制。当在框450判定差值高于第二阈值时，进入框430，确定语音交互设备110未通过测试。当在框450判定差值低于或等于第二阈值时，进入框460，确定语音交互设备110通过测试。

在一些实施例中，不同测试位置处的测试性能的差异越大，表明不同方位的用户使用效果差异越大，用户使用体验也越差。由此可以进一步准确地反映语音交互设备的语音效果。

图5示出了根据本公开另一实施例的用于测试语音交互设备的方法500的流程图。该方法500可以在例如图1中的计算设备130处实施。与图3的实施例相比，图5的实施例的不同之处仅在于麦克风位置的确定方式不同，如框520和框530所示。为了简洁起见，这里仅主要描述该不同之处。

在框510，获取经由语音交互设备(诸如图1所示的语音交互设备110)的麦克风阵列(诸如图1所示的麦克风阵列112)接收的第一测试信号的特性，第一测试信号是经由语音交互设备110的扬声器111播放的。该步骤的处理类似于上面结合框210和框310所述的处理，这里不再赘述。

在框520，确定多个麦克风接收的第一测试信号的频率响应特性。在一些实施例中，计算设备130可以基于经由麦克风阵列112中的每个麦克风接收的第一测试信号的波形，确定该多个麦克风中的每个麦克风接收到的第一测试信号的频率响应波动性。

在一些实施例中，假设输入的扫频信号为x(t)，输出信号为y(t)，其中y(t)每个时刻的采样数值是y(1)，y(2)，…，y(n)，共n个采样点，n为正整数。则所有采样点的平均值为

继而，频率响应波动性可以通过下式(2)得到：

其中，g为频率响应波动性。

应当理解，上述仅为示例，频率响应波动性也可以通过其它合适方式来得到。

继而在框530，从多个麦克风中确定第一麦克风和第二麦克风。在一些实施例中，从麦克风阵列112中的多个麦克风中确定第一麦克风，该第一麦克风接收的第一测试信号的频率响应特性劣于第一预定频率响应特性。例如，第一麦克风可以是与频率响应波动性较大的第一测试信号相对应的麦克风。

在一些实施例中，从麦克风阵列112中的多个麦克风中确定第二麦克风，该第二麦克风接收的第一测试信号的频率响应特性优于第二预定频率响应特性。例如，第二麦克风可以是与频率响应波动性较小的第一测试信号相对应的麦克风。

在一些实施例中，第一预定频率响应特性和第二预定频率响应特性可以为同一频率响应波动性值。根据本公开的另一实施例，第一预定频率响应特性可以劣于第二预定频率响应特性。由此通过框330，可以从多个麦克风中确定出所接收的第一测试信号的频率响应波动性相差较大的麦克风对。

根据本公开的进一步实施例，在多个麦克风中，第一麦克风接收的第一测试信号可以具有最大频率响应波动性，并且第二麦克风接收的第一测试信号可以具有最小频率响应波动性。

在确定了第一麦克风和第二麦克风之后，则可以基于二者的位置来选择用于进行测试的声源的位置。与前面结合图1提及的随机选择一个麦克风作为参考的情况相比，本公开的实施例可以为语音效果测试提供更准确的参考，由此可以提高测试效率和准确率。

在框540，基于第一麦克风的位置和第二麦克风的位置，确定声源的第一测试位置和第二测试位置。在框550，基于语音交互设备110针对来自第一测试位置处的声源120的第二测试信号的响应，确定指示语音交互设备110的测试性能的第一值。在框560，基于语音交互设备110针对来自第二测试位置处的声源120的第二测试信号的响应，确定指示语音交互设备110的测试性能的第二值。在框570，基于第一值和第二值来确定针对语音交互设备110的测试结果。框540至框570的操作类似于前面结合框340至框370以及图5所述的处理，为了简洁起见，这里不再赘述。

至此描述了根据本公开实施例的用于测试语音交互设备的方法。根据本方法的一个方面，可以借助于多个麦克风接收到的由语音交互设备本身播放的第一测试信号的特性而预先确定准确的测试位置，以用于语音交互设备的语音效果测试，由此可以节约测试成本和提高测试效率。根据本方法的另一方面，可以借助于在准确的测试位置下得到的语音交互设备的测试性能来确定语音交互设备的语音效果，由此可以进一步提高测试准确率。根据本方法的又一方面，可以借助于在准确的不同测试位置下得到的语音交互设备的测试性能之间的差异来进一步衡量语音交互设备的语音效果，由此可以进一步提高测试准确率，并且进一步确保用户使用体验。

本公开实施例还提供了用于实现上述方法或过程的相应装置。图6示出了根据本公开实施例的用于测试语音交互设备的装置600的示意性框图。该装置600可以在例如图1的计算设备130处实施。如图6所示，装置600可以包括获取单元610、第一确定单元620和第二确定单元630。

在一些实施例中，获取单元610可以被配置用于获取经由语音交互设备(诸如图1所示的语音交互设备110)的麦克风阵列(诸如图1所示的麦克风阵列112)接收的第一测试信号(诸如图1所示的第一测试信号150)的特性，第一测试信号是经由语音交互设备110的扬声器111播放的。在一些实施例中，扫频信号的频率范围可以包括人耳的听觉频率范围。获取单元610的操作类似于前面结合图2的框210所述的操作，这里不再赘述。

根据本公开的一些实施例，获取单元610可以包括(图中未示出)：比较单元，被配置用于将经由麦克风阵列112中的多个麦克风接收的第一测试信号与参考信号进行比较，所述参考信号与经由所述扬声器播放的第一测试信号150相对应；以及失真度确定单元，被配置用于基于所述比较，确定第一测试信号150的失真度。比较单元和失真度确定单元的操作类似于前面结合图3的框320所述的操作，这里不再赘述。

根据本公开的另一实施例，获取单元610可以包括(图中未示出)：频率响应特性确定单元，被配置用于确定经由麦克风阵列112中的多个麦克风接收的第一测试信号150的频率响应特性。频率响应特性确定单元的操作类似于前面结合图5的框520所述的操作，这里不再赘述。

在一些实施例中，第一确定单元620可以被配置用于基于第一测试信号150的特性，确定用于对语音交互设备110进行测试的声源120的位置，以使得声源120在该位置处发送第二测试信号140。第一确定单元620的操作类似于前面结合图2的框220所述的操作，这里不再赘述。

根据本公开的一些实施例，第一确定单元620可以包括(图中未示出)：麦克风确定单元，被配置用于从麦克风阵列中的多个麦克风中确定第一麦克风，第一麦克风接收的第一测试信号的特性劣于第一预定特性，以及从麦克风阵列中的多个麦克风中确定第二麦克风，第二麦克风接收的第一测试信号的特性优于第二预定特性；以及位置确定单元，被配置用于基于第一麦克风的位置和第二麦克风的位置，确定声源的第一测试位置和第二测试位置。

在一些实施例中，第一麦克风接收的第一测试信号具有最大失真度和最大频率响应波动性中的至少一项，并且第二麦克风接收的第一测试信号具有最小失真度和最小频率响应波动性中的至少一项。

这里，麦克风确定单元和位置确定单元的操作类似于前面结合图3的框330和框340以及图5的框530和框540所述的操作，这里不再赘述。

在一些实施例中，第二确定单元630可以被配置用于基于语音交互设备110针对第二测试信号140的响应，确定语音交互设备110的测试结果。第二确定单元630的操作类似于前面结合图2的框230所述的操作，这里不再赘述。

在一些实施例中，第二确定单元630可以进一步包括(图中未示出)：第一值确定单元，被配置用于基于语音交互设备针对来自第一测试位置处的声源的第二测试信号的响应，确定指示语音交互设备的测试性能的第一值；第二值确定单元，被配置用于基于语音交互设备针对来自第二测试位置处的声源的第二测试信号的响应，确定指示语音交互设备的测试性能的第二值；以及结果确定单元，被配置用于基于第一值和第二值来确定测试结果。在一些实施例中，测试性能包括唤醒率和语音识别正确率中的至少一项。第一值确定单元、第二值确定单元以及结果确定单元的操作类似于前面结合图3的框350至框370以及图5的框550至框570所述的操作，这里不再赘述。

在一些实施例中，结果确定单元可以包括：平均值确定单元，被配置用于确定第一值和第二值的平均值；以及测试确定单元，被配置用于响应于平均值低于第一阈值，确定语音交互设备110未通过测试，以及响应于平均值高于或等于第一值，确定语音交互设备110通过测试。这里，平均值确定单元和测试确定单元的操作类似于前面结合图4的框410至框430所述的操作，这里不再赘述。

在一些实施例中，结果确定单元可以包括：差值确定单元，被配置用于确定第一值和第二值的差值；以及测试确定单元，被配置用于响应于差值高于第二阈值，确定语音交互设备110未通过测试，以及响应于差值低于或等于第二阈值，确定语音交互设备110通过测试。这里，差值确定单元和测试确定单元的操作类似于前面结合图4的框440至框460所述的操作，这里不再赘述。

应当理解，装置600中记载的每个单元分别与参考图2至图5描述的方法200至500中的每个步骤相对应。并且，装置600及其中包含的单元的操作和特征都对应于上文结合图2至图5描述的操作和特征，并且具有同样的效果，具体细节不再赘述。

装置600中所包括的单元可以利用各种方式来实现，包括软件、硬件、固件或其任意组合。在一些实施例中，一个或多个单元可以使用软件和/或固件来实现，例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代，装置600中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制，可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上***(SOC)、复杂可编程逻辑器件(CPLD)，等等。

图6中所示的这些单元可以部分或者全部地实现为硬件模块、软件模块、固件模块或者其任意组合。特别地，在某些实施例中，上文描述的流程、方法或过程可以由存储***或与存储***对应的主机或独立于存储***的其它计算设备中的硬件来实现。

图7示出了可以用来实施本公开实施例的示例性计算设备700的示意性框图。设备700可以用于实现图1的计算设备130。如图所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元701执行上文所描述的各个方法和处理，例如方法200至500。例如，在一些实施例中，方法200至500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法200至500的一个或多个步骤。备选地，在其他实施例中，CPU701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200至500。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于测试语音交互设备的方法，包括：

获取经由所述语音交互设备的麦克风阵列接收的第一测试信号的特性，所述第一测试信号是经由所述语音交互设备的扬声器播放的；

基于所述第一测试信号的所述特性，确定用于对所述语音交互设备进行测试的声源的位置，以使得所述声源在所述位置处发送第二测试信号；以及

基于所述语音交互设备针对所述第二测试信号的响应，确定所述语音交互设备的测试结果。

2.根据权利要求1所述的方法，其中获取所述特性包括：

将经由所述麦克风阵列中的多个麦克风接收的第一测试信号与参考信号进行比较，所述参考信号与经由所述扬声器播放的所述第一测试信号相对应；以及

基于所述比较，确定所述第一测试信号的失真度。

3.根据权利要求1所述的方法，其中获取所述特性包括：

确定经由所述麦克风阵列中的多个麦克风接收的第一测试信号的频率响应特性。

4.根据权利要求1所述的方法，其中确定所述位置包括：

从所述麦克风阵列中的多个麦克风中确定第一麦克风，所述第一麦克风接收的第一测试信号的特性劣于第一预定特性；

从所述麦克风阵列中的多个麦克风中确定第二麦克风，所述第二麦克风接收的第一测试信号的特性优于第二预定特性；以及

基于所述第一麦克风的位置和所述第二麦克风的位置，确定所述声源的第一测试位置和第二测试位置。

5.根据权利要求4所述的方法，其中所述第一麦克风接收的第一测试信号具有最大失真度和最大频率响应波动性中的至少一项，并且所述第二麦克风接收的第一测试信号具有最小失真度和最小频率响应波动性中的至少一项。

6.根据权利要求1所述的方法，其中确定所述测试结果包括：

基于所述语音交互设备针对来自第一测试位置处的声源的所述第二测试信号的响应，确定指示所述语音交互设备的测试性能的第一值；

基于所述语音交互设备针对来自第二测试位置处的声源的所述第二测试信号的响应，确定指示所述语音交互设备的测试性能的第二值，所述第一测试位置和所述第二测试位置分别是基于所述麦克风阵列中的第一麦克风的位置和第二麦克风的位置而被确定的；以及

基于所述第一值和所述第二值来确定所述测试结果。

7.根据权利要求6所述的方法，其中所述测试性能包括唤醒率和语音识别正确率中的至少一项。

8.根据权利要求6所述的方法，其中确定所述测试结果包括：

确定所述第一值和所述第二值的平均值；

响应于所述平均值低于第一阈值，确定所述语音交互设备未通过测试；以及

响应于所述平均值高于或等于所述第一值，确定所述语音交互设备通过所述测试。

9.根据权利要求6所述的方法，其中确定所述测试结果包括：

确定所述第一值和所述第二值的差值；

响应于所述差值高于第二阈值，确定所述语音交互设备未通过测试；以及

应于所述差值低于或等于所述第二阈值，确定所述语音交互设备通过所述测试。

10.根据权利要求1所述的方法，其中所述第一测试信号是扫频信号，所述扫频信号的频率范围包括人耳的听觉频率范围。

11.一种用于测试语音交互设备的装置，包括：

获取单元，被配置用于获取经由所述语音交互设备的麦克风阵列接收的第一测试信号的特性，所述第一测试信号是经由所述语音交互设备的扬声器播放的；

第一确定单元，被配置用于基于所述第一测试信号的所述特性，确定用于对所述语音交互设备进行测试的声源的位置，以使得所述声源在所述位置处发送第二测试信号；以及

第二确定单元，被配置用于基于所述语音交互设备针对所述第二测试信号的响应，确定所述语音交互设备的测试结果。

12.根据权利要求11所述的装置，其中所述获取单元包括：

比较单元，被配置用于将经由所述麦克风阵列中的多个麦克风接收的第一测试信号与参考信号进行比较，所述参考信号与经由所述扬声器播放的所述第一测试信号相对应；以及

失真度确定单元，被配置用于基于所述比较，确定所述第一测试信号的失真度。

13.根据权利要求11所述的装置，其中所述获取单元包括：

频率响应特性确定单元，被配置用于确定经由所述麦克风阵列中的多个麦克风接收的第一测试信号的频率响应特性。

14.根据权利要求11所述的装置，其中所述第一确定单元包括：

麦克风确定单元，被配置用于从所述麦克风阵列中的多个麦克风中确定第一麦克风，所述第一麦克风接收的第一测试信号的特性劣于第一预定特性，以及从所述麦克风阵列中的多个麦克风中确定第二麦克风，所述第二麦克风接收的第一测试信号的特性优于第二预定特性；和

位置确定单元，被配置用于基于所述第一麦克风的位置和所述第二麦克风的位置，确定所述声源的第一测试位置和第二测试位置。

15.根据权利要求14所述的装置，其中所述第一麦克风接收的第一测试信号具有最大失真度和最大频率响应波动性中的至少一项，并且所述第二麦克风接收的第一测试信号具有最小失真度和最小频率响应波动性中的至少一项。

16.根据权利要求11所述的装置，其中所述第二确定单元包括：

第一值确定单元，被配置用于基于所述语音交互设备针对来自第一测试位置处的声源的所述第二测试信号的响应，确定指示所述语音交互设备的测试性能的第一值；

第二值确定单元，被配置用于基于所述语音交互设备针对来自第二测试位置处的声源的所述第二测试信号的响应，确定指示所述语音交互设备的测试性能的第二值，所述第一测试位置和所述第二测试位置分别是基于所述麦克风阵列中的第一麦克风的位置和第二麦克风的位置而被确定的；以及

结果确定单元，被配置用于基于所述第一值和所述第二值来确定所述测试结果。

17.根据权利要求16所述的装置，其中所述测试性能包括唤醒率和语音识别正确率中的至少一项。

18.根据权利要求16所述的装置，其中所述结果确定单元包括：

平均值确定单元，被配置用于确定所述第一值和所述第二值的平均值；以及

测试确定单元，被配置用于响应于所述平均值低于第一阈值，确定所述语音交互设备未通过测试，以及响应于所述平均值高于或等于所述第一值，确定所述语音交互设备通过所述测试。

19.根据权利要求16所述的装置，其中所述结果确定单元包括：

差值确定单元，被配置用于确定所述第一值和所述第二值的差值；以及

测试确定单元，被配置用于响应于所述差值高于第二阈值，确定所述语音交互设备未通过测试，以及响应于所述差值低于或等于所述第二阈值，确定所述语音交互设备通过所述测试。

20.根据权利要求11所述的装置，其中所述第一测试信号是扫频信号，所述扫频信号的频率范围包括人耳的听觉频率范围。

21.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一项所述的方法。

22.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-10中任一项所述的方法。