CN112528004A

CN112528004A - 语音交互方法、装置、电子设备、介质和计算机程序产品

Info

Publication number: CN112528004A
Application number: CN202011551823.5A
Authority: CN
Inventors: 冯博豪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-03-19
Anticipated expiration: 2040-12-24
Also published as: CN112528004B

Abstract

本公开提供了一种语音交互的方法、装置、电子设备、计算机可读存储介质和计算机程序产品，涉及人工智能技术领域，尤其涉及自然语言处理和计算机视觉。一种语音交互的方法可以包括：获取第一语音输入；以及至少部分基于第一语音输入和环境信息，控制终端输出第一语音输出，其中，环境信息是通过对由终端处采集的图像进行图像分析而动态地维护的。

Description

语音交互方法、装置、电子设备、介质和计算机程序产品

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理和计算机视觉，具体涉及一种语音交互的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

语音交互可以出现在多种产品中，例如智能语音助手、智能音箱、智能导购等。通过语音交互功能，能够实现语音上网、歌曲点播、了解天气、了解时事等。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种语音交互的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种语音交互的方法，包括：获取第一语音输入；以及至少部分基于第一语音输入和环境信息，控制终端输出第一语音输出。其中，所述环境信息是通过对由终端处采集的图像进行图像分析而动态地维护的。

根据本公开的另一方面，提供了一种语音交互的装置，包括：图像采集模块，用于采集图像；图像分析模块，用于对所采集的图像进行图像分析以动态地维护环境信息；以及语音交互模块，用于响应于接收到第一语音输入，至少部分基于所述环境信息，输出第一语音输出。

根据本公开的另一方面，提供了一种电子设备，包括摄像头、扬声器、处理器和存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述电子设备执行根据本公开的实施例的语音交互方法。

根据本公开的又一方面，提供了一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，指示所述电子设备执行根据本公开的实施例的语音交互方法。

根据本公开的再一方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时实现根据本公开的实施例的语音交互方法。

根据本公开的一个或多个实施例，可以增加与用户的语音交互能力。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性***的示意图；

图2示出了根据本公开的实施例的语音交互方法的流程图；

图3示出了根据本公开的实施例的属性映射步骤的示意图；

图4示出了根据本公开的另一实施例的语音交互方法的流程图；

图5示出了根据本公开的实施例的语音交互装置的结构框图；

图6示出了根据本公开的另一实施例的语音交互装置的结构框图；

图7示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性***100的示意图。参考图1，该***100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。

在本公开的实施例中，服务器120可以运行使得能够执行语音交互方法的一个或多个服务或软件应用。

在某些实施例中，服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中，这些服务可以作为基于web的服务或云服务提供，例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。

在图1所示的配置中，服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解，各种不同的***配置是可能的，其可以与***100不同。因此，图1是用于实施本文所描述的各种方法的***的一个示例，并且不旨在进行限制。

用户可以使用客户端设备101、102、103、104、105和/或106来进行语音交互。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备，但是本领域技术人员将能够理解，本公开可以支持任何数量的客户端设备。

客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备，例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、游戏***、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作***，例如Microsoft Windows、AppleiOS、类UNIX操作***、Linux或类Linux操作***(例如Google Chrome OS)；或包括各种移动操作***，例如Microsoft Windows Mobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器和其他设备。游戏***可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序，例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序，并且可以使用各种通信协议。

网络110可以是本领域技术人员熟知的任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例，一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。

服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作***的一个或多个虚拟机，或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中，服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。

服务器120中的计算单元可以运行包括上述任何操作***以及任何商业上可用的服务器操作***的一个或多个操作***。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个，包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。

在一些实施方式中，服务器120可以包括一个或多个应用程序，以分析和合并从客户端设备101、102、103、104、105和106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序，以经由客户端设备101、102、103、104、105和106的一个或多个显示设备来显示数据馈送和/或实时事件。

在一些实施方式中，服务器120可以为分布式***的服务器，或者是结合了区块链的服务器。服务器120也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。

***100还可以包括一个或多个数据库130。在某些实施例中，这些数据库可以用于存储数据和其他信息。例如，数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据存储库130可以驻留在各种位置。例如，由服务器120使用的数据存储库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据存储库130可以是不同的类型。在某些实施例中，由服务器120使用的数据存储库可以是数据库，例如关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

在某些实施例中，数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库，例如键值存储库，对象存储库或由文件***支持的常规存储库。

图1的***100可以以各种方式配置和操作，以使得能够应用根据本公开所描述的各种方法和装置。

下面参考图2描述根据本公开的实施例的语音交互方法200。

在步骤S201处，获取第一语音输入。第一语音输入可以是来自用户的语音输入，例如用户说出的语句等。

在步骤S202处，至少部分基于第一语音输入和环境信息，控制终端输出第一语音输出，其中，环境信息是通过对由终端处采集的图像进行图像分析而动态地维护的。

通过上述方法200，能够将视觉能力与语音交互特征结合。具体地，能够使用拍摄的视觉信息并且通过对其进行图像分析来动态维护环境信息，由此能够结合视觉能力，将图像分析获得的信息转换为语音输出。

第一语音输出可以是对第一语音输入的响应。例如，第一语音输入可以是问句，并且第一语音输出可以是对此的应答。替选地，第一语音输出可以是陈述句或者短语或者词语等，并且第一语音输出可以是任何类型的语句，比如主动提问、陈述信息、打招呼或者用于吸引用户注意和引导发起对话的语句等。作为语音交互的一部分，第一语音输出是基于环境信息而生成的。例如，第一语音输出可以是基于环境信息的主动提问，例如在环境信息指示房间里存在台灯(以及可选地，指示台灯的当前状态)的情况下，可以是“你需要打开/关闭台灯吗？”或者，如果环境信息指示桌面上有一个苹果(以及可选地，苹果的颜色、大小、新鲜程度等)，可以是“桌上有一个红色的苹果”。作为另一个示例，可以基于环境信息并且进一步结合其他信息，例如用户习惯和用户状态等，控制终端输出引导性语句，例如，基于环境信息指示窗帘处于打开状态、窗外是晴天等，第一语音输出可以是“今天天气很好，想聊聊吗？”可以理解，本公开不限于此，并且第一语音输出可以是任何基于动态维护的环境信息而获得的语音输出。

通过在终端处采集图像，并且对图像进行各种常见的图像分析，能够动态地维护终端所处环境的环境信息。在本文中，动态地维护可以指采集图像和图像分析两个步骤均为动态的。例如，可以定期(例如，每几小时，每天，每几天等)采集图像、基于检测到环境变化而采集图像、基于检测到运动物体而采集图像、基于光线变化采集图像、基于定位和朝向被改变而采集图像或者基于其他判据(例如，基于检测到声音等)来采集图像等。另一方面，可以定期或者基于其他判据(例如，如上文叙述的那些)对图像库中的图像进行图像分析来更新环境信息库。此外，如将在下面所详细描述的，也可以基于自学习机制和用户纠错等来触发图像分析模型更新和由此生成的信息库的更新。

终端可以包括一个或多个摄像头，一个或多个摄像头例如可以进行不同角度的拍摄，例如，可以覆盖整个室内空间。摄像头能够对室内的物品包括家具，沙发，动物等进行拍摄。可以对由终端处采集到的图像中的景物或对象进行分析、识别并且进行信息的提取。终端可以包括能够进行语音交互的模块。方法200可以例如利用终端处的计算资源直接在终端处计算生成语音输出，并且由终端的语音交互模块输出该语音输出。或者，对第一语音输入的分析和对第一语音输出的计算过程可以在服务器或云端执行，并且由服务器或云端控制终端的语音输出。“控制终端输出”可以涵盖以上两种情况的场景。根据方法200，能够利用用户所在的环境信息，实现更加智能的语音交互。

根据一些实施例，图像分析包括以下各项中的至少一项以获得语义信息：目标检测、实例分割、物体测距、文字识别、图像分类。使用视觉能力维护环境信息的方法。由此，能够获得周围环境中的物体类别、距离、文字等信息。

可以使用目标检测算法，将室内空间中的所有物体进行检测。检测后，会将检测获得的结果变成语义信息，例如，“桌子上有两个苹果”。

可以使用实例分割算法作为目标检测的补充。实例分割能够比目标检测更加精细地划分出图像中的物体来。例如，经过实例分割，能够得到的信息示例是“桌子上面有两个苹果，苹果上面有一个贴纸，桌子旁边是一堵墙，地面是木地板”等。

可以例如利用多个摄像头对同一物品进行拍摄，利用摄像头的视差以及三角测量原理，能够计算室内景物与摄像头的距离。例如，经过物体测距后，能够获得的信息示例是“苹果离地面1米，桌子高1米”等。

可以通过文字识别(OCR)对检测到的物体进行文字识别。之后，可以保存检测到的文字信息作为检测到的物体的属性等。例如，在通过目标检测模型等获得“桌子上面有本杂志”的信息之后，通过文字检测识别，可以知道它是《时代》周刊或者《读者》等。

可以利用图像分类模型对物体进行图像分类。图像分类可以是细粒度的，例如细化到物体名称以及其所属的类别。例如，能够获得的信息示例是“物体是联想牌电脑，属于电子产品”或者“该物体是lv的包，属于奢侈类产品”。也可以结合OCR文字识别模型识别的内容进行计算和分析。

可将目标检测、图像分割、物体测距、文字识别、图像分类等(例如，其中的一个或多个)模型获得的结果进行汇总。汇总后，可以形成整合的数据，例如采用三元组数据的形式。例如，

“苹果|||颜色|||红色”

“苹果|||位置|||桌子上”

可以对分析结果进行保存，例如保存在信息库或储存库中。例如，可以采用知识图谱的形式保存分析获得的信息。可以动态或定期更新和维护信息库。

可以使用例如采用上述步骤获得的信息来进行人机交互，例如接收对话和发起对话。可以根据用户的问题，调用图像分析功能对空间中的物体进行相应的匹配，最后以语音的方式返回信息给客户。根据一些实施例，第一语音输入包括对周围环境中的物体的属性的问询，并且其中，第一语音输出包括物体的属性值，属性值来自环境信息。能够通过图像采集和图像分析，以语音的方式输出周围环境中物体的属性。作为一个示例，问询可以是“苹果是什么颜色的？”例如，这样的对话可以用于与用户的聊天，并且更加有利地，可以用于儿童或视觉障碍者了解周围信息的场景等。

在交互过程中，可以调用问答模型(或者称为QA模型)。问答模型可以被配置为根据用户的问题对空间中的物体进行相应的匹配，并且最后获得信息。QA问答过程可以主要拆分为命名实体识别步骤和属性映射步骤。其中，实体识别步骤的目的是找到问句中询问的实体名称，而属性映射步骤的目的在于找到问句中询问的相关属性。

命名实体识别步骤例如可以采用BERT+BiLSTM+CRF的方法。BERT模型的作用是将句子转成词向量，BILSTM实现序列标注，CRF在BILSTM的多条标注序列中选取最合理的序列。

可以采用各种方式训练根据本公开的命名实体识别模型。例如，可以经过百科数据或者其他任何数据预训练。如将在下面描述的，也可以通过用户历史来不断训练和更新这样的模型。训练好的模型能够识别句子中的主体。在用户问句中使用实体简称的情况下，模型也能够利用学习到的知识、例如百科中的知识进行补全。模型能够确定句子主体，例如，在“苹果是什么颜色的？”的语句中，确定主体为苹果。

在命名实体识别步骤后，已经确定语句中提问的主体。由于与当前主体相关的三元信息可能有很多，因此，需要进行属性映射步骤。属性映射过程可以采用预训练的BERT模型。通过属性映射步骤，可以找出与问题最切合的属性映射。

图3示出了根据本示例的属性映射的过程。在这个示例中，通过命名实体识别和属性映射，可以返回结果“苹果的颜色是红色的”。

根据一些实施例，语音交互方法还可以包括：在输出第一语音输出之后，响应于确定用户表现出高于阈值的兴趣，输出第二语音输出。由此，基于用户存在兴趣，继续向用户输出语音，增加语音交互***的智能性。通过采用情感识别，能够根据识别得到的用户情感来调整对话内容。这里的阈值可以是预设阈值或者是根据与用户的交互学习到的阈值等。根据一些实施例，其中，所述第二语音输出包括关键词的相关知识或者包括询问是否想要了解关键词的相关知识。输出关联内容的知识或者询问是否想要了解相关知识。增加主动对话能力。例如，可以在寻找到用户想问的问题后，进一步引导用户。

情感识别可以作用于在对话的整个步骤中。例如，在用户提问“电脑是什么牌子？”并且语音交互方法输出“联想牌电脑”之后，方法可以进一步输出“是否想了解联想公司的创始人？”等问题。此时，如果检测到用户表现出不感兴趣，例如检测到用户表现出犹豫的表情，本公开会转到其他问题上。

情感识别可以包括表情识别和语音情感识别中的至少一个。

表情识别可以包括从拍摄的图像或视频(例如，不同时间拍摄的图像)中分析出用户表情，从而确定人物的情绪变化与心理变化，判断出用户是快乐、气愤、惊讶、中性、厌恶还是悲伤等。表情识别可以采用各种算法来完成，尤其是可以采用图像分类模型VGG19，其在表情识别上可以达到很好的效果。表情识别模型可以通过各种训练方法进行预训练。通过表情识别，能够让算法理解人类情感，提升人机交互的体验。

语音情感识别可以采用双循环神经网络(RNN)对音频和文本序列中的信息进行编码，并且结合这些信息源中的信息来预测情感类别。该算法由于考虑到了文本和语音两部分内容，能够更全面地利用数据中包含的信息。语音情感识别模型可以包括语音的编码器、语音识别文本的编码器、以及基于注意力机制的多模态融合网络子模块中的一个或多个。其中，语音的编码器可以被配置成用于获取语音的低纬度的基于帧的特征，并且使用BiLSTM对音频基于帧进行高维特征表示。语音识别文本的编码器子模块可以被配置成获取单词的词向量，并且使用BiLSTM对ASR识别文本基于单词进行高维特征表示。基于注意力机制的多模态融合网络子模块可以被配置成基于Attention机制动态获得每个单词文本特征的权重和每帧语音的的特征权重，然后加权求和得到每个单词对齐的特征，用BiLSTM进行特征融合，并且用最大池化层和全连接层进行情感分类。可以理解的是，本公开不限于此，并且其他用于识别语音情感的算法和模型都是适用的。

根据一些实施例，语音交互方法还可以包括在接收到第一语音输入之前，响应于检测到用户的图像，输出第三语音输出，第三语音输出用于引导与用户开始对话。可以基于检测到用户而主动发起对话，增加语音交互的智能性。例如，可以在检测到用户(例如，用户下班回家)后，引导用户进行对话。可以进一步根据用户情感调整对话内容。在这个过程中，可以通过与用户的沟通，分析用户画像以及兴趣点，并且可以由此调整模型和用户偏好设置。例如，通过不断的自学习，可以在下一次对话的过程中，先推荐用户感兴趣的话题。

可选地，还可以包括模型自学习功能以进行自学习。根据一些实施例，语音交互方法还可以包括：在输出第一语音输出之后，确定第一语音输出中包括的答案的正确性；并且响应于答案不正确，更新环境信息或图像分析的模型参数中的至少一者。由此，语音交互方法可以具有主动的自学习能力，能够判断输出的答案是否正确，并且由此更新信息库和/或图像分析算法。

可以至少根据用户的表情和回答来判断反馈的结果是否正确。

根据一些实施例，确定答案的正确性包括基于用户的表情，确定答案的正确性。基于表情确定答案正确，结合视觉能力与模型的自学习，使得收集的信息更完善，并且由此更新的模型更准确。例如，可以基于用户的满意的表情，确定答案是正确的，或者基于用户的不满或者困惑的表情，确定答案是错误的。

根据一些实施例，确定答案的正确性包括：输出第四语音输出，第四语音输出包括对答案是否正确的问询；并且接收第二语音输入，第二语音输入指示答案是否正确。可以通过语音输出向用户确认答案是否正确，增加主动与用户的交互，并且可以提高模型的准确性。例如，在接收到用户提问并且调用问答模块进行答案搜索，并且以语音的方式反馈给用户后，可以附加提问：“答案是否正确呢？”。之后，可以接收用户语音回答并且进行分析，例如，基于接收到用户“答案正确”或者“是的”，确定之前向用户输出的答案是正确的。

如果在答案搜索过程中，无法获取到正确答案时，也可以与用户进行语音交互。此外，在整个交互过程中，可以使用情感识别来实时地分析用户的情感，以调整对话的内容、语速、音调、情绪等。

根据一些实施例，语音交互方法还可以包括：响应于答案不正确，输出第五语音输出，第五语音输出包括对正确答案的问询；接收第三语音输入，第三语音输入指示对第一语音输入的正确答案；使用所获得的正确答案更新环境信息或图像分析的模型参数中的至少一者。在确定答案不正确后还可以主动向用户询问是否正确，增加语音***的智能性，并且可以基于正确答案，获得更准确的模型/信息。例如，在确定反馈的结果错误时，可以输出语音提问“那正确的答案是什么呢？”在接收到正确答案利于用户语音反馈的正确答案(例如，“这个苹果是绿色的”)，可以记录该用户反馈的结果，并对模型进行重新训练来提高模型的识别分类的准确性。同时，也可以基于用户反馈的正确答案来更新信息库中存储的语义信息。

可以采用如下自学习过程：保存与该对话提问的图像，并将用户的话作为标签。之后，可以生成大量类似训练样本。生成大量类似训练样本可以包括生成大量图片样本，包括在目标对象的多角度进行拍摄而采集的样本和通过相似图片生成算法生成的图片样本等。

经过算法生成后，能够形成足够的图片样本和其标签。这些数据能够用于训练图像分类、目标检测和文字识别模型。

在日常生活中，本公开会实时地进行训练。随着与用户沟通交流的增加，本公开能够回答的问题会更多，答案也会越来越准确，对于用户情感的分析也会越来越准确。

通过本公开的实施例，能够为智能语音助手提供视觉能力，由此，智能语音助手能够“观察环境”，并根据用户的问题，输出符合自然语言规则和日常逻辑的答案。本公开可以结合多方面的人工智能的技术，例如物体识别、目标检测、表情识别、语音情感识别和自然语言处理等技术。根据本公开的不同实施例，可以聚焦于室内环境中某一部分的对象，也可以聚焦于室内环境的整体，还可以根据用户的表情、语音内容等识别用户的情感。此外，随着与用户的沟通交流，还可以不断进行自学习，因而能够识别的物品和情感会越来越准确。

根据本公开的实施例，能够实现主动对话和被动对话。被动对话可以在检测到用于语音指令后触发。主动对话可以例如在在检测到用户的存在，尤其是通过图像收集和分析检测到用户的存在时，主动向用户发起对话。主动对话可以是基于信息库和用户历史信息的推荐信息。例如，根据历史信息学习到用户回家后经常询问“几点了”“今天的新闻是？”等，因此，在检测到用户到家后，发起语音“是否想了解今天的新闻？”

下面参考图4描述根据本公开的另一实施例的方法400的流程图。

在步骤S401处，通过摄像头等图像采集装置，采集周围的图像。图像可以包括所在环境中的事物。步骤S401还可以包括对拍摄到的图像进行初步处理。

在步骤S402处，对采集到的图像进行分析，并相应地维护知识库。

在步骤S403处，与用户进行语音互动。在语音互动过程中，可以根据知识库的内容以及图像分析模块获取到的环境信息，来回答用户的提问。

在步骤S404处，在语音互动过程中识别并分析用户的情感。可以实时地基于用户的表情和语调等识别的情感以不断地调整对话内容。

在步骤S405处，判断给出的答案是否正确。如果基于负面反馈等确定互动过程中回答的问题不正确，则步骤转入S406。在步骤S406处，自学习模块启动训练，修正错误的答案并且对模型进行更新。

如果互动过程中，基于正面反馈或者其他判断方式确定回答的问题正确，在步骤S407处，可以存储将相应的问答信息。随后，可以基于这些存储的信息，通过信息推荐***等，进行用户画像以及用户兴趣点的分析。

通过根据本公开的实施例的方法，使得语音交互装置或者智能语音助理能够具备表情识别能力，能够根据用户的表情调整对话内容；能够具备“视觉能力”，能够检测和识别摄像头拍摄到的事物，并完成与用户的问答；能够进行自我学习，不断提高识别的准确性；并且可以具有推荐功能，并且通过不断地与客户沟通，能够了解到用户的兴趣点，进行更准确智能的交流与推荐。

下面参考图5来描述根据本公开的实施例的语音交互装置500。装置500可以包括图像采集模块501、图像分析模块502和语音交互模块503。图像采集模块501可以被配置成采集图像。图像分析模块502可以被配置成对所采集的图像进行图像分析以动态地维护环境信息。语音交互模块503可以被配置成响应于接收到第一语音输入，至少部分基于第一语音输入和环境信息，输出第一语音输出。

参考图6描述根据本公开的另一实施例的语音交互装置600的功能性分割图。装置600可以包括图像采集模块601、图像分析模块602、语音交互模块603、信息库604、问答模型605等。

模块601-603可以类似于上面描述的模块501-503，并且由此省略对相同特征的描述。图像采集模块601可以包括一个或多个摄像头或者可以可通信地连接到一个或多个摄像头。图像采集模块601还可以包含基础的图像处理功能，例如能够对光线不足的情况下拍摄的图像进行图像增强。图像分析模块602可以对由图像采集模块601采集到的图像中的景物或对象进行分析、识别并且进行信息的提取。语音交互模块603可以调用由图像分析模块602生成的环境信息来进行人机交互，例如接收对话和发起对话。根据一些实施例，语音交互模块603接收的第一语音输入包括对周围环境中的物体的属性的问询，并且语音交互模块603输出或控制输出的第一语音输出包括物体的属性值，属性值来自环境信息。

根据一些实施例，图像分析包括以下各项中的至少一项以获得语义信息：目标检测、实例分割、物体测距、文字识别、图像分类。可选地，图像分析模块602可以由多个子功能模块构成。多个子功能模块可以包括以下各个子模块中的一个或多个：目标检测子模块621、实例分割子模块622、物体测距子模块623、文字识别子模块624和图像分类子模块625等。图像分析模块602还可以包括信息整合子模块626。目标检测子模块621可以被配置成进行目标检测步骤。实例分割子模块622可以被配置成使用实例分割算法对图像进行实例分割。物体测距子模块623可以调用多个摄像头等来对空间中的物体进行物体测距后。文字识别子模块624可以通过文字识别(OCR)对检测到的物体进行文字识别。图像分类子模块625可以利用图像分类模型对物体进行图像分类，并且图像分类子模块625也可以结合OCR文字识别模型识别的内容进行计算和分析。可以采用信息整合子模块626作为汇总模块，将目标检测、图像分割、物体测距、文字识别、图像分类等(例如，其中的一个或多个)模型获得的结果进行汇总。汇总后，可以形成整合的数据，例如如前文所述的采用三元组形式的数据。可以理解的是，此处的“子模块”是为了叙述方便并且仅是功能性示例，可以存在更多或更少的功能分割模块。例如，根据实际场景需要，可以仅使用这些子模块中的一个或几个以实现所需的图像分析功能。本领域技术人员将理解，也可以使用另外的图像分析算法来实现图像分析，并且本公开不限于此。

可选地，装置600可以包括信息库604，并且语音交互模块可以从信息库604读取实时维护和更新的环境信息。

可选地，装置600可以包括问答模块605。问答模块605可以包括例如上文描述的问答模型，并且可以包括例如命名实体识别子模块和实体属性映射子模块。语音交互模块603可以调用问答模块605来完成语音交互过程。可以理解的是，问答模块605也可以作为语音交互模块603的一部分而不需要单独存在。

可选地，装置600可以包括情感识别模块606。情感识别模块606在功能上可以由表情识别子模块和语音情感识别子模块中的至少一个构成。表情识别子模块可以被配置成执行例如但不限于上文所述的表情识别功能，并且语音情感识别子模块可以被配置成执行例如但不限于上文所述的语音情感识别功能。根据一些实施例，装置600还可以包括：在输出第一语音输出之后，响应于确定用户表现出高于阈值的兴趣，输出第二语音输出的单元。根据一些实施例，响应于确定用户表现出高于阈值的兴趣输出第二语音输出的单元被配置成：至少包括检测到用户的感兴趣的表情或者检测到用户的感兴趣的语调中的一者，确定用户表现出高于阈值的兴趣。根据一些实施例，第二语音输出包括与第一语音输入或第一语音输出相关联的关键词。根据一些实施例，第二语音输出包括关键词的相关知识或者包括询问是否想要了解关键词的相关知识。

可选地，装置600可以包括被配置成进行自学习的自学习模块607。自学习模块607可以例如根据用户的表情和回答来判断反馈的结果是否正确，并且可以进行模型的反馈和信息库的校正。根据一些实施例，装置600还包括在输出第一语音输出之后确定第一语音输出中包括的答案的正确性的单元、和响应于答案不正确更新环境信息或图像分析的模型参数中的至少一者的单元。根据一些实施例，确定答案的正确性的单元被配置成基于用户的表情，确定答案的正确性。根据一些实施例，确定答案的正确性的单元包括：输出第四语音输出的单元，第四语音输出包括对答案是否正确的问询；和接收第二语音输入的单元，第二语音输入指示答案是否正确。根据一些实施例，装置600还包括：响应于答案不正确，输出第五语音输出的单元，第五语音输出包括对正确答案的问询；接收第三语音输入的单元，第三语音输入指示对第一语音输入的正确答案；以及使用所获得的正确答案更新环境信息或图像分析的模型参数中的至少一者的单元。

根据一些实施例，装置600还包括在接收到第一语音输入之前，响应于检测到用户的图像，输出第三语音输出的单元，第三语音输出用于引导与用户开始对话。

可以理解的是，此处的模块分割是为了叙述方便，并且这些模块仅是功能性示例，这些功能模块可以彼此组合或包含，并且可以省略其中的或几个。本领域技术人员将理解，为了实现本公开的实施例的方法，这样的物理模块并不是必需的。这些模块中的每个可以由分布的多个模块构成，或者这些模块中的两个或更多个可以合并等。容易理解的是，为了实现本公开的实施例的方法，并不要求实际存在任何的物理模块。

根据本公开的实施例，还提供一种电子设备。电子设备可以包括摄像头、扬声器、处理器以及存储程序的存储器，程序包括指令，该指令在由处理器执行时使所述电子设备执行根据本公开的实施例的语音交互方法。摄像头可以采集图像或视频信息。扬声器可以输出声信号，例如语音语句等。根据一些实施例，根据本公开的电子设备可以是音箱。由此，能够提供一种具有视觉能力、并且可以基于视觉能力与用户进行交互的智能音箱。

根据本公开的实施例，还提供一种存储程序的计算机可读存储介质，该程序包括指令，该指令在由电子设备的处理器执行时，指示电子设备执行根据本公开的实施例的语音交互方法。

根据本公开的实施例，还提供一种计算机程序产品，包括计算机指令，计算机指令在被处理器执行时实现根据本公开的实施例的语音交互方法。

参考图7，现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向设备700输入信息的任何类型的设备，输入单元706可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元707可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元708可以包括但不限于磁盘、光盘。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法200。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时，可以执行上文描述的方法200的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、***和设备仅仅是示例性的实施例或示例，本公开的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种语音交互的方法，包括：

获取第一语音输入；以及

至少部分基于所述第一语音输入和环境信息，控制终端输出第一语音输出，

其中，所述环境信息是通过对由终端处采集的图像进行图像分析而动态地维护的。

2.根据权利要求1所述的方法，其中，所述第一语音输入包括对周围环境中的物体的属性的问询，并且其中，所述第一语音输出包括所述物体的属性值，所述属性值来自所述环境信息。

3.根据权利要求1或2所述的方法，还包括：

在输出所述第一语音输出之后，响应于确定用户表现出高于阈值的兴趣，控制所述终端输出第二语音输出。

4.根据权利要求3所述的方法，其中，确定用户表现出高于阈值的兴趣至少包括检测到所述用户的感兴趣的表情或者检测到所述用户的感兴趣的语调中的一者。

5.根据权利要求3所述的方法，其中，所述第二语音输出包括与第一语音输入或第一语音输出相关联的关键词。

6.根据权利要求5所述的方法，其中，所述第二语音输出包括所述关键词的相关知识或者包括对是否想要了解所述关键词的所述相关知识的问询。

7.根据权利要求1或2所述的方法，还包括：

在接收到第一语音输入之前，响应于检测到用户的图像，控制所述终端输出第三语音输出，所述第三语音输出用于引导与所述用户开始对话。

8.根据权利要求2所述的方法，还包括：

在输出所述第一语音输出之后，确定所述第一语音输出中包括的所述答案的正确性；

响应于所述答案不正确，更新所述环境信息或所述图像分析的模型参数中的至少一者。

9.根据权利要求8所述的方法，其中，确定所述答案的正确性包括基于用户的表情，确定所述答案的正确性。

10.根据权利要求8所述的方法，其中，确定所述答案的正确性包括：

输出第四语音输出，所述第四语音输出包括对所述答案是否正确的问询；并且

接收第二语音输入，所述第二语音输入指示所述答案是否正确。

11.根据权利要求8所述的方法，还包括：

响应于所述答案不正确，控制所述终端输出第五语音输出，所述第五语音输出包括对正确答案的问询；

接收第三语音输入，所述第三语音输入指示对所述第一语音输入的正确答案；

使用所获得的正确答案更新所述环境信息或所述图像分析的所述模型参数中的至少一者。

12.根据权利要求1或2所述的方法，其中，所述图像分析包括以下各项中的至少一项以获得语义信息：目标检测、实例分割、物体测距、文字识别、图像分类。

13.一种语音交互的装置，包括：

图像采集模块，用于采集图像；

图像分析模块，用于对所采集的图像进行图像分析以动态地维护环境信息；以及

语音交互模块，用于响应于接收到第一语音输入，至少部分基于所述环境信息，输出第一语音输出。

14.根据权利要求13所述的装置，其中，所述第一语音输入包括对周围环境中的物体的属性的问询，并且其中，所述第一语音输出包括所述物体的属性值，所述属性值来自所述环境信息。

15.根据权利要求13或14所述的装置，还包括：

在输出所述第一语音输出之后，响应于确定用户表现出高于阈值的兴趣，输出第二语音输出的单元。

16.根据权利要求15所述的装置，其中，响应于确定用户表现出高于阈值的兴趣，输出第二语音输出的单元被配置成：至少响应于检测到所述用户的感兴趣的表情或者检测到所述用户的感兴趣的语调中的一者，确定用户表现出高于阈值的兴趣。

17.一种电子设备，包括摄像头、扬声器、处理器和存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述电子设备执行根据权利要求1-12中任一项所述的方法。

18.根据权利要求17所述的电子设备，其中，所述电子设备是音箱。

19.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，指示所述电子设备执行根据权利要求1-12中任一项所述的方法。

20.一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时实现根据权利要求1-12中任一项所述的方法。