CN106782540A

CN106782540A - 语音设备及包括所述语音设备的语音交互***

Info

Publication number: CN106782540A
Application number: CN201710041296.5A
Authority: CN
Inventors: 王锐; 马岩
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2017-05-31
Anticipated expiration: 2037-01-17
Also published as: CN106782540B

Abstract

本发明提供了一种语音设备和包括所述语音设备的语音交互***，其中所述语音设备包括：一个或更多个音频采集单元，配置为采集声音信息，所述声音信息能够被用于确定用户位置；通信单元，配置为与外部设备相连，并向外部设备发送由一个或更多个音频采集单元采集的声音信息，并从外部设备接收对所述声音信息的声音反馈；一个或更多个音频输出单元，配置为与通信单元相连，并播放从所述通信单元传送的声音反馈。

Description

语音设备及包括所述语音设备的语音交互***

技术领域

本发明涉及电子设备，具体地，涉及一种语音设备以及包括所述语音设备的语音交互***。

背景技术

随着计算机技术的发展，计算机具有强大的计算能力。然而，目前的计算机往往处于功能状态。即便在计算机上布置例如麦克风之类的语音设备的情况下，当通过语音来控制所述计算机时，用户需要走到计算机面前并发出相关命令。这样使得在用户使用计算机时产生诸多不便。

此外，由于计算机往往位于某一特定位置处且用户的活动范围是不固定的，例如，在家居环境下用户可在不同房间内活动，因此，用户的需求无法得到及时的反馈，从而降低用户体验且对计算机***的利用率不高。

因此，为了解决上述问题，需要一种语音设备及包括所述语音设备的交互***，能够随时获取用户需求并智能化地向用户提供及时反馈。

发明内容

本公开的方面在于解决至少上述问题和/或缺点并提供至少下述优点。

本发明的一个方面提供了一种语音设备，可以包括：一个或更多个音频采集单元，配置为采集声音信息，所述声音信息能够被用于确定用户位置；通信单元，配置为与外部设备相连，并向外部设备发送由一个或更多个音频采集单元采集的声音信息，并从外部设备接收对所述声音信息的声音反馈；一个或更多个音频输出单元，配置为与通信单元相连，并播放从所述通信单元传送的声音反馈。

本发明的另一方面提供了一种语音交互***，可以包括：一个或更多个上述语音设备；以及中央控制器，与所述语音设备相连，所述中央控制器配置为：从语音设备接收所采集的声音信息；根据由所述语音设备采集的声音信息，确定响应于所述声音信息而要执行的操作；确定用户位置；以及根据所确定的用户位置，通过所述一个或更多个语音设备中的至少一个提供针对所述操作的声音反馈。

本发明的另一方面提供了一种语音交互方法，可以包括：采集声音信息，所述声音信息能够被用于确定用户位置；根据所采集的声音信息，确定响应于所述声音信息而要执行的操作；确定用户位置；以及根据所确定的用户位置，提供针对所述操作的声音反馈。

本发明的又一方面提供了一种语音交互方法，包括：采集用户语音；以预设频率感知当前环境信息并将所感知到的当前环境信息作为标签添加到所述用户语音；根据采集的用户语音，确定响应于所述用户语音而要执行的操作；以及根据所述标签，调整针对所述操作的声音反馈。

附图说明

以下结合附图，将更清楚本公开的示例实施例的上述和其它方面、特征以及优点，附图中：

图1示出了根据本发明示例实施例的语音设备100的结构框图；

图2(a)示出了根据本发明示例实施例的语音交互***的框图；

图2(b)示出了将根据本发明示例实施例的语音交互***应用于家居环境下的示例的示意图；

图3(a)-(f)示例性地示出了根据本发明示例实施例的语音交互***在家居环境下的应用场景；

图4示出了根据本发明示例实施例的语音交互***在上述配置下的应用示意图；

图5示出了根据本发明示例实施例的语音交互方法的流程图；以及

图6示出了根据本发明另一示例实施例的语音交互方法的流程图。

具体实施方式

根据结合附图对本发明示例性实施例的以下详细描述，本发明的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。

在本发明中，术语“包括”和“含有”及其派生词意为包括而非限制；术语“或”是包含性的，意为和/或。

在本说明书中，下述用于描述本发明原理的各种实施例只是说明，不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解，但这些细节应认为仅仅是示例性的。因此，本领域普通技术人员应认识到，在不背离本发明的范围和精神的情况下，可以对本文中描述的实施例进行多种改变和修改。此外，为了清楚和简洁起见，省略了公知功能和结构的描述。此外，贯穿附图，相同参考数字用于相似功能和操作。

以下参考附图描述了本发明的示例实施例。根据本发明示例实施例所述的语音设备、包括所述语音设备的语音交互***以及语音交互方法能够通过使用语音识别、人工智能、大数据搜索、互联网、物联网和云计算等技术来实现智能语音交互。具体地，根据本发明示例实施例所述的语音设备能够收集声音信息，通过使用语义分析技术和大数据技术来快速地确定要响应于所述声音信息执行的操作和针对所述操作的声音反馈。例如，当用户发出“打开电视”的指令时，通过对采集到的声音信息执行语义分析可知，用户希望打开电视。因此，通过经由物联网技术将与打开电视相对应的电信号传送给电视，来方便用户的操作，解放用户双手。此外，当用户发出“今天天气如何”的询问时，通过对采集到的声音信息执行语义分析可知，用户希望获知当前天气。因此，通过使用互联网技术和大数据搜索技术来搜索当前天气信息，并将搜索到的天气信息转换为语音信号以便进行播报。

除了上述与用户进行语音交互的情况之外，根据本发明示例实施例所述的语音设备、包括所述语音设备的语音交互***以及语音交互方法还能够响应于采集反映用户活动的声音(例如，包括开门声、走路声、流水声等的声音)提供智能化服务，例如，可以被用作智能助手。作为一个示例，当采集到的环境声音是表示用户打开户门从外归来的声音时，根据本发明示例实施例所述的语音交互***可以通过分析所述声音信息确定用户从外归来，因此，可以经由物联网主动打开诸如空气净化器和空调的设备和/或经由语音设备发出“已经打开空气净化器和空调，请检查门窗是否关好”的通知。此外，所述语音设备、语音交互***以及语音交互方法还可以通过语音识别来提供更为个性化的服务。

在其它示例中，语音交互***可以与其他应用配合使用。例如，语音交互***可以配合诸如用车软件的应用使用，当用户发出指令“请为我预约一辆出租车”时，语音交互***通过用车软件的访问接口来访问所述用车软件，并随后根据用户的语音信息相应地执行用户指令，即，预约出租车。此外，根据本发明的语音交互***还可以配合诸如网上商城的应用使用。例如，当语音交互***可以获取网上商城的访问接口时，用户可以通过向语音交互***下达诸如“请购买XXX牌的手机”时，根据本发明示例实施例的语音交互***可以前往相应的网上商城执行相关操作，并向用户反馈针对该操作的声音反馈，例如，“请选择需要购买的型号”等。

此外，根据本发明示例实施例的语音交互***可以结合声纹识别技术用于安全管理***。例如，当用户发出“开门”的指令时，语音交互***可以通过使用声纹识别技术确定发出所述指令的用户是否是许可进入的用户。如果是，则控制打开门以允许该用户进入，从而使用户生活更加便利。

此外，在用户的移动电话与语音交互***相互连接的情况下，用户可以通过与语音交互***的对话，实现拨打电话的功能。例如，在用户的移动电话与语音交互***相互连接的情况下，当用户希望拨打小明的电话时，用户可以直接发出“打电话给小明”的语音指令，所述语音交互***可以通过控制诸如手机的通信设备来拨打电话给小明。备选地，所述语音交互***还可以通过语音交互***实现与小明的对话。另外，当用户手机接到XXX的来电时，可以通过语音交互***向用户通知“XXX来电，是否接听？”的声音反馈。当用户确认接听该来电时，可以通过语音交互***播放对方声音并收集自己的语音，而无需接听手机。

应注意，以上仅示出了根据本发明示例实施例所述的语音设备、语音交互***以及语音交互方法的一部分示例，然而根据本发明示例实施例所述的语音设备、语音交互***以及语音交互方法不限于执行上述功能，还可以用于执行其他各种功能。因此，本发明提供了一种语音设备及包括所述语音设备的交互***，能够随时获取用户需求并智能化地向用户提供及时反馈。

图1示出了根据本发明示例实施例的语音设备100的结构框图。如图1所示，所述语音设备100可以包括：一个或更多个音频采集单元110，配置为采集声音信息，所述声音信息能够被用于确定用户位置；通信单元120，配置为与外部设备相连，并向外部设备发送由一个或更多个音频采集单元采集的声音信息，并从外部设备接收对所述声音信息的声音反馈；以及一个或更多个音频输出单元130，配置为与通信单元相连，并播放从所述通信单元传送的声音反馈。

所述音频采集单元110可以包括具有音频采集功能的任何设备，例如，麦克风。所述音频输出单元130可以包括具有音频输出功能的任何设备，例如，扬声器。尽管在本说明书中将音频采集单元110和音频输出单元130描述为单独的单元，然而应注意，二者还可以集成在同一单元中，即，可以实现为具有音频收发功能的音频单元。

通信单元120可以在语音设备100与外部设备之间设置通信。例如，通信单元120可以通过经由有线或无线通信与外部设备进行通信。无线通信例如可以使用以下至少一项作为蜂窝通信协议：长期演进(LET)、LTE-高级(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信***(UMTS)、无线宽带(WiBro)和全球移动通信***(GSM)。此外，无线通信可以包括例如短距离通信164。短距离通信可以包括以下至少一项：例如，Wi-Fi、低能量蓝牙(BLE)、近场通信(NFC)或Zigbee。有线通信可以包括例如通用串行总线(USB)、高清多媒体接口(HDMI)、推荐标准232(RS-232)和普通老式电话服务(POTS)中的至少一个。

此外，所述外部设备可以是处理器、计算机或具有处理功能的其他设备，包括与语音设备100相同类型的其他语音设备。外部设备可以通过第二通信网络与云端或服务器相连，以便当从语音设备100接收到声音信息时，确定要响应于所述声音信息执行的操作，并提供声音反馈。

在一个实施例中，所述声音信息可以包括来自用户的自然语音和/或反映用户活动的声音(例如，包括开门声、走路声、流水声等的声音)。

在一个实施例中，所述语音设备还可以包括处理单元140，配置为根据由一个或更多个音频采集单元采集的声音信息，确定用户位置。处理单元140可以包括任意合适类型的处理电路，诸如一个或更多个通用处理器(例如，基于ARM的处理器)、数字信号处理器(DSP)、可编程逻辑器件(PLD)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。操作中，处理单元140可以执行与语音设备100的至少一个其他部件(例如，音频采集单元110、通信单元120或音频输出单元130)的控制和/或通信相关的操作或数据处理。

在语音设备100包括处理单元140的情况下，所述通信单元120还可以配置为向外部设备发送处理单元140所确定的用户位置。所述用户位置可以是所述声音反馈所针对的用户的用户位置。例如，当来自用户的声音信息是例如“请播报今日头条”的声音信息时，处理单元应确定发出所述声音信息的用户的当前位置。当来自用户的声音信息是例如“请叫小明起床”的声音信息时，处理单元应确定小明的当前位置。

在确定用户位置时，如果语音设备100包括布置在不同位置处的两个或更多个音频采集单元，则所述处理单元140可以进一步配置为：根据每个音频采集单元采集到的声音信息以及相应音频采集单元的位置，来确定用户位置。例如，通过分析从每个音频采集单元110采集的声音信息的相位信息和音量信息，来根据音频采集单元的布置位置确定用户位置。此外，所述语音设备还可以包括用于感测所述用户位置的其他传感器。在语音设备100包括诸如摄像头等的其他传感器的情况下，处理单元140还可以通过接收经由其他传感器感测的信息，来确定用户位置。

在确定用户位置之后，所述处理单元140可以进一步配置为根据所确定的用户位置来控制所述一个或更多个音频输出单元130播放所述声音反馈。在一个实施例中，所述处理单元可以根据所确定的用户位置与处理单元所在的语音设备之间的距离，控制对所述声音反馈的播放。例如，如果发现用户与所述语音设备之间的距离较近，则以较低音量播放所述声音反馈，且如果发现用户与所述语音设备之间的距离较远，则以较大音量播放所述声音反馈。此外，所述处理单元还可以配置为根据所述语音设备的使用环境，控制对所述声音反馈的播放。例如，当通过检测环境声音确定周围环境较为嘈杂时，以较高的音量播放所述声音反馈。或者，当通过检测环境声音确定所述语音设备用在婴儿室时，以轻柔的音频播放所述声音反馈。

在另一实施例中，如果在向用户播放声音反馈的期间确定所述用户离开所述语音设备的工作范围，则处理单元140停止播放所述声音反馈。此外，如果在另一语音设备向用户播放声音反馈的期间确定所述用户进入当前处理单元140所在的语音设备的工作范围，则所述处理单元140控制音频输出单元130自所述声音反馈的当前播放位置起开始播放所述声音反馈。这样，可以实现对声音反馈的无缝播放。例如，在语音设备100的工作范围与另一语音设备200的工作范围相交叠的情况下，如果接收声音反馈的用户位于另一语音设备200的工作范围内，则通过所述另一语音设备200向用户播放声音反馈；如果所述用户向语音设备100的工作范围移动且移动到语音设备100和语音设备200的交叠工作范围内，语音设备100和语音设备200同步地向所述用户播放相同的声音反馈；且如果所述用户继续向语音设备100的工作范围移动并离开了语音设备200的工作范围，则语音设备200停止向所述用户播放声音反馈，并仅由语音设备100向所述用户播放声音反馈。

此外，所述处理单元140还可以配置为根据由音频采集单元收集的声音信息来识别所述声音反馈所针对的用户；并根据所识别的用户来控制对所述声音反馈的播放。例如，当声音信息是来自小朋友的“给我讲故事”的声音指令时，处理器可以通过分析所采集的声音信息或通过使用诸如摄像头的传感器确定声音反馈对象为儿童，并随后采用童音向儿童播放声音反馈。

以上描述了根据本发明示例实施例的语音设备，所述语音设备可以通过采集能够被用于确定用户位置的声音信息，来随时接收用户需求并智能化地向用户提供及时反馈。下文将参考图2(a)-图4来详细描述包括所述语音设备的语音交互***。

图2(a)示出了根据本发明示例实施例的语音交互***的框图。如图2(a)所示，所述语音交互***20可以包括：一个或更多个如图1所示的语音设备210A-C；以及中央控制器220，与所述语音设备210A-C相连。所述中央控制器220可以配置为：从语音设备210A-C接收所采集的声音信息；根据由所述语音设备210A-C采集的声音信息，确定响应于所述声音信息而要执行的操作；确定用户位置；以及根据所确定的用户位置，通过所述一个或更多个语音设备210A-C中的至少一个提供针对所述操作的声音反馈。具体地，所述要响应于所述声音信息而要执行的操作可以包括查询、通知和订购等中的至少一个。下文将结合图3详细描述根据本发明示例实施例的语音交互***能够执行的操作的若干示例。此外，已在上文详细描述语音设备210A-C的结构，因此将不再对此进行赘述。在确定响应于所述声音信息而要执行的操作时，首先通过对采集的声音信息进行声音和/或语义分析，来确定用户期望获取的数据或期望执行的操作，接着通过互联网技术和大数据搜索技术来搜索针对所述操作或数据的反馈数据，最后将所述反馈数据转换为声音反馈并经由语音设备提供所述声音反馈。

中央控制器220可以是单个控制器，但也可以包括两个或更多个控制单元。例如，中央控制器220可以包括通用控制器、指令集处理器和/或相关芯片组和/或专用微控制器(例如，专用集成电路(ASIC))。中央控制器220可以实现为单个集成电路(IC)芯片的部分或单个设备(例如，个人计算机)。如图所示，中央控制器220可以与用户识别设备230(诸如，摄像头、智能地板、声纹识别设备等)相连，以便更加提供个性化的服务。中央控制器220还可以配置为与诸如电视、空调、冰箱等的其他设备250相连，以便通过来自音频采集设备的声音信息控制所述其他设备。另一方面，中央控制器220还可以配置为与网络240相连以便根据用户需要通过网络执行相应的服务。此外，中央控制器220还可以配置为外部云相连，以便通过云服务提供针对用户需要的反馈信息。在另一示例中，中央控制器220还可以包括内部云，以便执行快速响应、个人信息备份、安全控制等功能。例如，可以将涉及个人隐私的信息备份到私有云，即，中央控制器220的内部云，以便实现对个人隐私保护。此外，还可以将与安全控制***相关的数据存储在私有云上，以防恶意攻击者攻击外部云导致安全***出现漏洞。当然，还可以将一些常用的信息备份到所述内部云，以便在用户需要所述信息时提供快速响应，从而提高响应速度，改善用户体验。

图2(b)示出了将根据本发明示例实施例的语音交互***应用于家居环境下的示例的示意图。如图2(b)所示，根据本发明示例实施例的语音设备可以布置在房间的任何位置，且中央处理器同样可以布置在任何位置。语音设备通过有线或无线的方式与中央处理器相连，从而形成语音交互***。尽管图中示出了每个独立空间存在一个语音设备且整个家居环境下存在一个中央处理器，然而语音设备和中央处理器的数量和布置不限于此。

图3(a)-(f)示例性地示出了根据本发明示例实施例的语音交互***在家居环境下的应用场景。例如，如图3(a)所示，当声音信息是“请播报今日头条”时，中央控制器220可以通过语义分析确定最终的操作为播报今日头条，因此，响应于该声音信息要执行的操作可以包括查询今日头条并将查询到的信息传送给要进行播报的语音设备。如图3(b)所示，当中央控制器220通过分析声音信息确定该声音信息是表示用户起床的声音时，可以确定要响应于该声音信息执行的操作是向用户播报会议安排，因此，可以查询用户的个人安排及相应的路况信息，并向用户通知查询到的信息。图3(c)示出了当用户要求播放音乐时，中央控制器220搜索音乐列表并进行播放。类似地，图3(d)-(f)示出了根据用户发出的语音信息，中央控制器220确定要执行的操作分别为通过电视播放电影、控制关闭卧室的灯以及接通视频通话。也就是说，根据本发明示例实施例所述语音交互***还能够应用于物联网领域，以便控制家居布置中的其他设备。应注意，以上描述仅示出了将本发明的语音交互***应用于家居环境的应用场景，然而本发明的语音交互***不限于家居环境，且本发明还可应用于办公环境等其他应用环境。此外，上述应用示例仅是与本发明的语音交互***进行交互的部分示例，本发明旨在涵盖其他示例。

实施例1

当所述语音设备210A-C如上所述地进一步包括用于根据所采集的声音信息来确定用户位置的处理器或能够用于确定用户位置的其他传感器(例如，摄像头)时，所述中央控制器220可以进一步配置为：通过从所述语音设备接收所述用户位置，来确定用户位置。

也就是说，当语音设备210A-C本身包括能够用于确定用户位置的处理器或能够用于确定用户位置的其他传感器(例如，摄像头)时，中央控制器220可以从所述语音设备接收已确定的用户位置，而无需亲自执行确定用户位置的操作。

如上所述，所述语音设备的处理器可以配置为：当语音设备包括布置在不同位置处的两个或更多个音频采集单元时，根据每个音频采集单元采集到的声音信息以及相应音频采集单元的位置，来确定用户位置。例如，通过分析从每个音频采集单元110采集的声音信息的相位信息和音量信息，来根据音频采集单元的布置位置确定用户位置。备选地，当语音设备包括诸如摄像头的其他传感器时，语音设备的处理器可以接收由其他传感器感测的信息，根据所述信息确定用户位置，并将所确定的用户位置传送给中央控制器220。

实施例2

在语音设备210A-C本身包括能够用于确定用户位置的处理器或能够用于确定用户位置的其他传感器(例如，摄像头)的情况下，当中央控制器220将声音反馈提供给语音设备时，所述语音设备的处理器还可以配置为根据所确定的用户位置，调整所述语音设备对声音反馈的播放。

所述语音设备的处理器可以进一步配置为：根据所确定的用户位置与所述语音设备之间的距离，调整所述语音设备对声音反馈的播放。例如，如果发现用户与所述语音设备之间的距离较近，则以较低音量播放所述声音反馈，且反之亦然。

作为另一示例，所述语音设备的处理器可以进一步配置为：根据用户所在的环境或者语音设备的使用环境，调整所述语音设备对声音反馈的播放。例如，当通过检测用户当前所在的环境声音或通过使用诸如摄像头的其他传感器而确定用户所处环境较为嘈杂时，以较高的音量播放所述声音反馈。或者，当通过检测用户当前所在的环境声音或通过使用诸如摄像头的其他传感器而确定接收所述声音反馈的用户处于婴儿室时，以轻柔的音频播放所述声音反馈。

实施例3

在语音设备210A-C不包括能够用于确定用户位置的处理器或能够用于确定用户位置的其他传感器(例如，摄像头)的情况下，即，语音设备210A-C不具有位置确定功能时，由中央控制器220确定用户位置。具体地，所述中央控制器220可以进一步配置为：通过分析由语音设备210A-C采集的声音信息，来确定所述声音反馈所针对的用户的用户位置，其中由语音设备210A-C采集的声音信息包括含有表示用户位置的信息。除了上述方式之外，中央控制器220可以通过与之相连的其他传感器(例如，智能地板、摄像头等)来确定用户位置。

具体地，当语音设备包括布置在不同位置处的两个或更多个音频采集单元时，所述中央控制器220可以进一步配置为：根据每个音频采集单元采集到的声音信息以及相应音频采集单元的位置，来确定用户位置。例如，所述中央控制器220可以通过分析从每个音频采集单元采集的声音信息的相位信息和音量信息，并根据音频采集单元的布置位置确定用户位置。此外，当语音设备仅包括一个音频采集单元时，所述中央控制器220可以配置为：根据该语音设备采集到的声音信息以及预先存储的该语音设备的安装位置，来确定用户位置。

实施例4

在语音设备210A-C不具备位置确定功能的情况下，当中央控制器220将声音反馈提供给语音设备时，所述中央控制器220还可以配置为根据所确定的用户位置，调整所述语音设备对声音反馈的播放。

作为一个示例，所述中央控制器220可以配置为：根据所确定的用户位置与播放声音反馈的语音设备之间的距离，调整所述语音设备对声音反馈的播放。例如，如果发现用户与所述语音设备之间的距离较近，则以较低音量播放所述声音反馈，且反之亦然。

作为另一示例，所述中央控制器220可以配置为：根据语音设备的使用环境，调整所述语音设备对声音反馈的播放。例如，当通过检测环境声音确定周围环境较为嘈杂时，以较高的音量播放所述声音反馈。或者，当通过检测环境声音确定所述语音设备用在婴儿室时，以轻柔的音频播放所述声音反馈。

实施例5

当中央控制器220将声音反馈提供给一个或更多个语音设备中的至少一个语音设备且所述语音设备向用户播放该声音反馈时(无论所述语音设备是否具备位置确定功能)，中央控制器220可以配置为：如果确定所述用户进入另一语音设备的工作范围内，则向所述另一语音设备提供所述声音反馈的当前播放位置之后的部分，以使得所述另一语音设备从所述声音反馈的当前播放位置起开始播放所述声音反馈。例如，如果正在收听来自某一语音设备(例如，厨房的语音设备)的声音反馈的用户进入另一语音设备(例如，客厅的语音设备)的工作范围，则所述另一语音设备开始向所述用户播放所述声音反馈的当前播放位置之后的部分，以便使得所述另一语音设备从所述声音反馈的当前播放位置起开始播放所述声音反馈。

此外，所述中央控制器220可以配置为：当中央控制器220将声音反馈提供给一个或更多个语音设备中的至少一个语音设备且所述语音设备向用户播放声音反馈时(无论所述语音设备是否具备位置确定功能)，中央控制器220可以配置为：如果确定所述用户离开所述至少一个语音设备的工作范围内，则向所述至少一个语音设备发送停止播放所述声音反馈的命令。例如，如果正在收听来自某一语音设备(例如，厨房的语音设备)的声音反馈的用户离开该语音设备的工作范围，则所述语音设备停止向所述用户播放所述声音反馈。

当用户即将离开的以及即将进入的两个语音设备的工作范围有所交叠时，所述两个语音设备可能同时且同步地播放相同的声音反馈。图4示出了根据本发明示例实施例的语音交互***在上述配置下的应用示意图。如图4(a)所示，在第一时间t₁，用户处于厨房中的语音设备的工作范围内，因此，厨房中的语音设备正向用户播放声音反馈。如果用户向客厅移动，则当用户进入客厅的语音设备的工作范围时，客厅的语音设备开始向所述用户播放所述声音反馈的当前播放位置之后的部分。此时，应注意，由于两个语音设备的工作范围有交叠，该用户还未离开厨房的语音设备的工作范围，因此，厨房的语音设备持续向用户播放所述声音反馈，如图4(b)所示。当用户继续在客厅内移动使得用户完全进入客厅的语音设备的工作范围并离开厨房的语音设备的工作范围时，厨房的语音设备停止向该用户播放声音反馈，且仅由客厅的语音设备向用户播放声音反馈，如图4(c)所示。这样，能够实现对声音反馈的无缝播放，增强了用户体验。

除了上述示例之外，还可以将两个语音设备的工作范围布置为是没有交叠的。此时，当用户从一个语音设备的工作范围进入另一语音设备的工作范围时，所述用户不会在工作范围的盲区中听到声音反馈。当用户进入所述另一语音设备的工作范围之后，所述另一语音设备从声音反馈的停止位置起播放所述声音反馈的剩余部分。

实施例6

在另一示例中，所述中央控制器220可以配置为响应于同时从两个或更多个语音设备接收到声音信息，确定所述两个或更多个语音设备采集的声音信息是否是来自同一用户的声音。如果确定所述两个或更多个语音设备采集的声音信息是来自同一用户的声音，则对所述声音信息进行句义分析，并根据由所述两个或更多个语音设备采集的声音信息，确定用户位置，从而根据用户位置提供声音反馈。如果确定所述两个或更多个语音设备采集的声音信息不是来自同一用户的声音，则分别处理所述声音信息以便分别提供针对所述声音信息的声音反馈。

具体地，当用户在从卧室走向客厅的过程中发出关于“今天天气如何”的提问时，卧室和客厅的语音设备可能分别采集到声音信息“今天天气”以及“天气如何”，因此，中央控制器220可以通过语义分析得知用户的提问是“今天天气如何”且通过分析所采集到的声音可知用户此时位于客厅，从而通过客厅的语音设备提供针对所述提问的声音反馈。

实施例7

在另一示例中，所述语音交互***20还可以包括能够识别用户的用户识别传感器230，且所述中央控制器220配置为根据所识别的用户来提供针对所述操作的声音反馈。在一个实施例中，语音交互***20可以包括例如摄像头、智能地板、声纹识别模块的用户识别传感器。当通过所述用户识别传感器130识别出用户是未成年人时，所述中央控制器220可以用轻柔的声音向用户提供反馈。备选地，当通过所述用户识别传感器130识别出用户是小明时，所述中央控制器220可以向小明提供针对他的留言，从而提供更为个性化的服务。

综上，本发明的示例实施例提供了一种语音设备及包括所述语音设备的交互***，能够随时获取用户需求并智能化地向用户提供及时反馈。

此外，本发明还提供了一种语音交互方法。图5示出了根据本发明示例实施例的语音交互方法的流程图。具体地，所述语音交互方法500可以包括：在步骤S510，采集声音信息，所述声音信息能够被用于确定用户位置；在步骤S520，根据所采集的声音信息，确定响应于所述声音信息而要执行的操作；在步骤S530，确定用户位置；以及在步骤S540，根据所确定的用户位置，提供针对所述操作的声音反馈。如上所述，根据本发明示例实施例的语音交互方法可以随时获取用户需求并智能化地向用户提供及时反馈。

此外，本发明还提供了一种语音交互方法。图6示出了根据本发明另一示例实施例的语音交互方法的流程图。根据本发明实施例的语音交互方法可以包括：在步骤S610，采集用户语音；在步骤S620，以预设频率感知当前环境信息并将所感知到的当前环境信息作为标签添加到所述用户语音；在步骤S630，根据采集的用户语音，确定响应于所述用户语音而要执行的操作；以及在步骤S640，根据所述标签，调整针对所述操作的声音反馈。应注意，当预设频率被设置为足够小时，可以认为连续感知当前环境信息。此外，用户语音标签的数目可以是一个或更多个，也就是说，可以通过不断地感知当前环境信息来更新标签，也可以将每个感知到的当前环境信息添加作为单独的标签。另外，可以是通过采用本领域已知的或将来可能使用的环境感知技术来感知环境信息，其中所述环境信息包括用户位置、周围人员情况等方面的信息。

第一实施例：在不断感知当前环境信息来更新标签的情况下，可以根据当前的标签来调整针对所述操作的声音反馈。例如，当将诸如用户位置的环境信息作为标签时，如果用户在发出关于“今天天气如何”的提问期间从客厅走向婴儿室，则该用户语音的标签由客厅更新为婴儿室，因此可以在提供声音反馈时根据当前的标签来调整声音反馈。例如，如果当用户在客厅时就开始提供反馈，则在客厅时以正常声音提供声音反馈，且标签随着用户的移动改变为婴儿室，也就是说，当用户走到婴儿室时，以轻柔的声音提供声音反馈。作为另一示例，当将诸如周围人员情况的环境信息作为标签时，如果用户在发出“请向XXX转账2000元并汇报账户余额”的指令期间从卧室走向客厅而此时客厅有客人来访，此时在提供针对上述指令的声音反馈期间，由于当前标签是“周围存在其他人员”，则可以略去关于个人隐私的反馈信息，仅提供诸如“已完成转账”等的声音反馈。

第二实施例：在将每个感知到的当前环境信息添加作为单独的标签的情况下，可以根据添加的全部标签来调整针对所述操作的声音反馈。例如，当将诸如用户位置和周围人员情况的环境信息作为标签时，如果用户在婴儿室发出关于“请向XXX转账2000元并汇报账户余额”的指令之后有人(例如，保姆)进入该婴儿室，则向该用户语音添加的标签有“婴儿室”、“周围存在其他人员”，因此，根据上述标签，以轻柔的声音提供诸如“已完成转账”等的声音反馈。这样，根据本发明示例实施例的语音交互***能够根据所添加的标签记录，提供更个性化的服务。

因此，上述语音交互方法能够通过以预设频率感知当前环境信息将所感知到的当前环境信息添加作为所述用户语音的标签，来根据所添加的一个或更多个标签，提供个性化的服务，从而能够更智能化地执行语音交互。

根据本发明各实施例的上述方法、装置、单元和/或模块可以通过有计算能力的电子设备执行包含计算机指令的软件来实现。该***可以包括存储设备，以实现上文所描述的各种存储。所述有计算能力的电子设备可以包含通用处理器、数字信号处理器、专用处理器、可重新配置处理器等能够执行计算机指令的装置，但不限于此。执行这样的指令使得电子设备被配置为执行根据本发明的上述各项操作。上述各设备和/或模块可以在一个电子设备中实现，也可以在不同电子设备中实现。这些软件可以存储在计算机可读存储介质中。计算机可读存储介质存储一个或多个程序(软件模块)，所述一个或多个程序包括指令，当电子设备中的一个或多个处理器执行所述指令时，所述指令使得电子设备执行本发明的方法。

这些软件可以存储为易失性存储器或非易失性存储装置的形式(比如类似ROM等存储设备)，不论是可擦除的还是可重写的，或者存储为存储器的形式(例如RAM、存储器芯片、设备或集成电路)，或者被存储在光可读介质或磁可读介质上(比如，CD、DVD、磁盘或磁带等等)。应该意识到，存储设备和存储介质是适于存储一个或多个程序的机器可读存储装置的实施例，所述一个程序或多个程序包括指令，当所述指令被执行时，实现本发明的实施例。实施例提供程序和存储这种程序的机器可读存储装置，所述程序包括用于实现本发明的任何一项权利要求所述的装置或方法的代码。此外，可以经由任何介质(比如，经由有线连接或无线连接携带的通信信号)来电传递这些程序，多个实施例适当地包括这些程序。

根据本发明各实施例的方法、装置、单元和/或模块还可以使用例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)或可以以用于对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。该***可以包括存储设备，以实现上文所描述的存储。在以这些方式实现时，所使用的软件、硬件和/或固件被编程或设计为执行根据本发明的相应上述方法、步骤和/或功能。本领域技术人员可以根据实际需要来适当地将这些***和模块中的一个或多个，或其中的一部分或多个部分使用不同的上述实现方式来实现。这些实现方式均落入本发明的保护范围。

如本领域技术人员将会理解的，为了任何的以及所有的目的，例如在提供书面说明书的方面，本申请中所公开的所有范围也涵盖任何的以及所有的可能的子范围以及其子范围的组合。任何所列出的范围均能够被容易地识别成充分的描述以及使同样的范围能够至少被分解成同等的两部分、三部分、四部分、五部分、十部分，等等。作为非限制性的例子，本申请中所讨论的每个范围均能够被容易地分解成下三分之一、中三分之一以及上三分之一等等。如本领域技术人员还将会理解的，诸如“直到”、“至少”、“大于”、“小于”等的所有语言均包括所表述的数量并且是指能够随之被分解成如以上所讨论的子范围的范围。最后，如本领域技术人员将会理解的，范围包括各个单独的成分。所以，例如，具有1-3个单元的组是指具有1、2或者3个单元的组。类似地，具有1-5个单元的组是指具有1、2、3、4或者5个单元的组，等等。

尽管已经参照本发明的特定示例性实施例示出并描述了本发明，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本发明的精神和范围的情况下，可以对本发明进行形式和细节上的多种改变。因此，本发明的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种语音设备，包括：

一个或更多个音频采集单元，配置为采集声音信息，所述声音信息能够被用于确定用户位置；

通信单元，配置为与外部设备相连，并向外部设备发送由一个或更多个音频采集单元采集的声音信息，并从外部设备接收对所述声音信息的声音反馈；

一个或更多个音频输出单元，配置为与通信单元相连，并播放从所述通信单元传送的声音反馈。

2.根据权利要求1所述的语音设备，其中所述声音信息包括来自用户的自然语音和反映用户活动的声音中的至少一个。

3.根据权利要求1所述的语音设备，还包括：处理单元，配置为根据由一个或更多个音频采集单元采集的声音信息，确定用户位置。

4.根据权利要求3所述的语音设备，其中所述通信单元还配置为向外部设备发送处理单元所确定的用户位置。

5.根据权利要求3所述的语音设备，其中所述用户位置是所述声音反馈所针对的用户的用户位置。

6.根据权利要求3所述的语音设备，其中当语音设备包括布置在不同位置处的两个或更多个音频采集单元时，所述处理单元进一步配置为：

根据每个音频采集单元采集到的声音信息以及相应音频采集单元的位置，来确定用户位置。

7.根据权利要求3所述的语音设备，其中所述处理单元进一步配置为根据所确定的用户位置来控制所述一个或更多个音频输出单元播放所述声音反馈。

8.根据权利要求7所述的语音设备，其中所述处理单元进一步配置为：

根据所确定的用户位置与处理单元所在的语音设备之间的距离，控制对所述声音反馈的播放。

9.根据权利要求7所述的语音设备，其中所述处理单元进一步配置为：

根据所述语音设备的使用环境，控制对所述声音反馈的播放。

10.根据权利要求7所述的语音设备，其中所述处理单元进一步配置为：

如果在向用户播放声音反馈的期间确定所述用户离开所述语音设备的工作范围，则停止播放所述声音反馈。

11.根据权利要求7所述的语音设备，其中所述处理单元进一步配置为：

如果在另一语音设备向用户播放声音反馈的期间确定所述用户进入处理单元所在的语音设备的工作范围，则控制所述音频输出单元自所述声音反馈的当前播放位置起开始播放所述声音反馈。

12.根据权利要求1所述的语音设备，还包括用于感测所述用户位置的其他传感器。

13.根据权利要求3所述的语音设备，其中所述处理单元进一步配置为：根据所述声音信息来识别所述声音反馈所针对的用户；并根据所识别的用户来控制对所述声音反馈的播放。

14.一种语音交互***，包括：

一个或更多个根据权利要求1所述的语音设备；以及

中央控制器，与所述语音设备相连，所述中央控制器配置为：

从语音设备接收所采集的声音信息；

根据由所述语音设备采集的声音信息，确定响应于所述声音信息而要执行的操作；

确定用户位置；以及

根据所确定的用户位置，通过所述一个或更多个语音设备中的至少一个提供针对所述操作的声音反馈。

15.根据权利要求14所述的语音交互***，其中所述语音设备包括用于根据所采集的声音信息来确定用户位置的处理器；且

所述中央控制器进一步配置为：通过从所述处理器接收所述用户位置，来确定用户位置。

16.根据权利要求15所述的语音交互***，其中所述语音设备的处理器配置为：当语音设备包括布置在不同位置处的两个或更多个音频采集单元时，根据每个音频采集单元采集到的声音信息以及相应音频采集单元的位置，来确定用户位置。

17.根据权利要求15所述的语音交互***，其中所述语音设备的处理器进一步配置为：

根据所确定的用户位置与所述语音设备之间的距离，调整所述语音设备对声音反馈的播放。

18.根据权利要求15所述的语音交互***，其中所述语音设备的处理器进一步配置为：根据语音设备的使用环境，调整所述语音设备对声音反馈的播放。

19.根据权利要求14所述的语音交互***，其中所述中央控制器进一步配置为：通过分析由语音设备采集的声音信息，来确定所述声音反馈所针对的用户的用户位置。

20.根据权利要求14所述的语音交互***，其中所述操作包括查询、通知和订购等中的至少一个。

21.根据权利要求19所述的语音交互***，其中所述中央控制器进一步配置为：

当语音设备包括布置在不同位置处的两个或更多个音频采集单元时，根据每个音频采集单元采集到的声音信息以及相应音频采集单元的位置，来确定用户位置。

22.根据权利要求14所述的语音交互***，其中所述中央控制器进一步配置为：

根据所确定的用户位置与播放声音反馈的语音设备之间的距离，调整所述语音设备对声音反馈的播放。

23.根据权利要求14所述的语音交互***，其中所述中央控制器进一步配置为：根据语音设备的使用环境，调整所述语音设备对声音反馈的播放。

24.根据权利要求19所述的语音交互***，其中所述中央控制器进一步配置为：

当在一个或更多个语音设备中的至少一个语音设备向用户播放所述声音反馈期间，确定所述用户进入另一语音设备的工作范围内，则向所述另一语音设备提供所述声音反馈的当前播放位置之后的部分，以使得所述另一语音设备从所述声音反馈的当前播放位置起开始播放所述声音反馈。

25.根据权利要求19所述的语音交互***，其中所述中央控制器进一步配置为：

当在一个或更多个语音设备中的至少一个语音设备向用户播放所述声音反馈期间，确定所述用户离开所述至少一个语音设备的工作范围内，则向所述至少一个语音设备发送停止播放所述声音反馈的命令。

26.根据权利要求14所述的语音交互***，还包括：用户识别传感器，能够识别用户，并且所述中央控制器配置为根据所识别的用户来提供针对所述操作的声音反馈。

27.一种语音交互方法，包括：

采集声音信息，所述声音信息能够被用于确定用户位置；

根据所采集的声音信息，确定响应于所述声音信息而要执行的操作；

确定用户位置；以及

根据所确定的用户位置，提供针对所述操作的声音反馈。

28.一种语音交互方法，包括：

采集用户语音；

以预设频率感知当前环境信息并将所感知到的当前环境信息作为标签添加到所述用户语音；

根据采集的用户语音，确定响应于所述用户语音而要执行的操作；以及

根据所述标签，调整针对所述操作的声音反馈。