CN108920639A

CN108920639A - 基于语音交互的上下文获取方法及设备

Info

Publication number: CN108920639A
Application number: CN201810709792.8A
Authority: CN
Inventors: 梁阳; 刘昆; 乔爽爽; 林湘粤; 韩超; 朱名发; 郭江亮; 李旭; 刘俊; 李硕; 尹世明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2018-11-30
Anticipated expiration: 2038-07-02
Also published as: WO2020007129A1; JP2020529033A; KR20200004826A; JP6968908B2; EP3617946B1; EP3617946A4; EP3617946A1; CN108920639B; US20210012777A1

Abstract

本发明实施例提供一种基于语音交互的上下文获取方法及设备，该方法包括：获取图像采集装置在本次对话的语音起点采集的场景图像，并提取场景图像中每个用户的人脸特征；若根据每个用户的人脸特征以及人脸数据库，确定存在与第一人脸特征匹配的第二人脸特征，则从人脸数据库中获取第二人脸特征对应的第一用户标识，其中，第一人脸特征为一个用户的人脸特征，第二人脸特征为人脸数据库中存储的处于对话状态的用户的人脸特征；若确定语音数据库中存储有第一用户标识对应的已存对话，则根据本次对话与已存对话确定语音交互的上下文，并在得到本次对话的语音终点后，将本次对话存储至语音数据库中。本实施例可以提高获取语音交互的上下文的准确率。

Description

基于语音交互的上下文获取方法及设备

技术领域

本发明实施例涉及语音交互技术领域，尤其涉及一种基于语音交互的上下文获取方法及设备。

背景技术

随着人工智能技术的发展，智能语音交互产品的研发和使用备受关注。其中，智能语音交互是基于语音输入的一种交互模式，用户可以通过语音来输入自己的请求，该产品可以根据请求的意图，响应相应的内容。

现有技术中，在智能服务机器人的应用场景中，例如：迎宾机器人，警务机器人等，往往存在多个人同时与智能服务机器人交互的场景。在多人与机器人对话时，如果不能识别对话内容的来源，则无法准确的获取对话上下文，从而无法向用户提供准确的服务，造成糟糕的对话体验。目前，在假设同一用户的对话内容中不会有不同主题的内容，且两个用户的对话内容的主题是没有交叠的前提下，通过自然语言理解来根据对话含义来进行身份识别，以获取同一用户的对话上下文。

然而，在实际应用时基于自然语言理解的假设并不总是成立的，导致获取语音对话上下文的错误率较高。

发明内容

本发明实施例提供一种基于语音交互的上下文获取方法及设备，以克服获取语音对话上下文的错误率较高的问题。

第一方面，本发明实施例提供一种基于语音交互的上下文获取方法，包括：

获取图像采集装置在本次对话的语音起点采集的场景图像，并提取所述场景图像中每个用户的人脸特征；

若根据每个用户的人脸特征以及人脸数据库，确定存在与第一人脸特征匹配的第二人脸特征，则从所述人脸数据库中获取所述第二人脸特征对应的第一用户标识，其中，所述第一人脸特征为一个用户的人脸特征，所述第二人脸特征为人脸数据库中存储的处于对话状态的用户的人脸特征；

若确定语音数据库中存储有所述第一用户标识对应的已存对话，则根据所述本次对话与所述已存对话确定语音交互的上下文，并在得到所述本次对话的语音终点后，将所述本次对话存储至所述语音数据库中。

在一种可能的设计中，若根据每个用户的人脸特征以及人脸数据库，确定不存在与第一人脸特征匹配的第二人脸特征，所述方法还包括：

对所述每个用户的人脸特征在内的参数进行分析，获取处于对话状态的目标用户，并生成所述目标用户的第二用户标识；

在检测到语音终点时，将本次对话与第二用户标识关联存储到语音数据库中，以及将所述目标用户的人脸特征与所述第二用户标识关联存储到人脸数据库中。

在一种可能的设计中，所述根据所述本次对话与所述已存对话确定语音交互的上下文，包括：

根据所述第一用户标识从所述语音数据库中获取所述第一用户标识对应的上一对话的语音起点和语音终点；

若确定所述上一对话的语音终点与所述本次对话的语音起点之间的时间间隔小于预设间隔，则根据所述本次对话与所述已存对话确定语音交互的上下文。

在一种可能的设计中，若确定所述上一对话的语音终点与所述本次对话的语音起点之间的时间间隔大于或等于预设间隔，所述方法还包括：

在所述语音数据库中删除关联存储的所述第一用户标识和对应的已存对话。

在一种可能的设计中，所述方法还包括：

将所述人脸数据库中在预设时间段内未匹配的第三用户标识以及对应的人脸特征删除。

在一种可能的设计中，所述提取所述场景图像中每个用户的人脸特征，包括：

对所述场景图像进行抠图处理，得到每个人脸的人脸图片；

将多个所述人脸图片依次输入至预设的人脸特征模型中，获取所述人脸特征模型依次输出的每个用户的人脸特征。

在一种可能的设计中，所述将所述多个人脸区域依次输入至预设的人脸特征模型中之前，所述方法还包括：

获取人脸训练样本，所述人脸训练样本包括人脸图片和标签；

根据所述人脸训练样本，得到训练后的初始的人脸特征模型；所述初始的人脸特征模型包括输入层、特征层、分类层以及输出层；

将所述初始的人脸特征模型中的分类层删除，得到所述预设的人脸特征模型。

在一种可能的设计中，所述人脸特征模型为深度卷积神经网络模型，所述特征层包括卷积层、池化层以及全连接层。

第二方面，本发明实施例提供一种基于语音交互的上下文获取设备，包括：

提取模块，用于获取图像采集装置在本次对话的语音起点采集的场景图像，并提取所述场景图像中每个用户的人脸特征；

匹配模块，用于若根据每个用户的人脸特征以及人脸数据库，确定存在与第一人脸特征匹配的第二人脸特征，则从所述人脸数据库中获取所述第二人脸特征对应的第一用户标识，其中，所述第一人脸特征为一个用户的人脸特征，所述第二人脸特征为人脸数据库中存储的处于对话状态的用户的人脸特征；

获取模块，用于若确定语音数据库中存储有所述第一用户标识对应的已存对话，则根据所述本次对话与所述已存对话确定语音交互的上下文，并在得到所述本次对话的语音终点后，将所述本次对话存储至所述语音数据库中。

在一种可能的设计中，所述匹配模块还用于，

若根据每个用户的人脸特征以及人脸数据库，确定不存在与第一人脸特征匹配的第二人脸特征，对所述每个用户的人脸特征在内的参数进行分析，获取处于对话状态的目标用户，并生成所述目标用户的第二用户标识；

在一种可能的设计中，所述获取模块具体用于：

在一种可能的设计中，所述获取模块还用于：

若确定所述上一对话的语音终点与所述本次对话的语音起点之间的时间间隔大于或等于预设间隔，在所述语音数据库中删除关联存储的所述第一用户标识和对应的已存对话。

在一种可能的设计中，所述匹配模块还用于：

在一种可能的设计中，所述提取模块具体用于：

对所述场景图像进行抠图处理，得到每个人脸的人脸图片；

在一种可能的设计中，还包括：建模模块；

所述建模模块用于在将所述多个人脸区域依次输入至预设的人脸特征模型中之前，

第三方面，本发明实施例提供一种基于语音交互的上下文获取设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面或第一方面的各种可能的设计所述的基于语音交互的上下文获取方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面或第一方面各种可能的设计所述的基于语音交互的上下文获取方法。

本实施例提供的基于语音交互的上下文获取方法及设备，通过获取图像采集装置在本次对话的语音起点采集的场景图像，并提取场景图像中每个用户的人脸特征；若根据每个用户的人脸特征以及人脸数据库，确定存在与第一人脸特征匹配的第二人脸特征，则从人脸数据库中获取第二人脸特征对应的第一用户标识，其中，第一人脸特征为一个用户的人脸特征，第二人脸特征为人脸数据库中存储的处于对话状态的用户的人脸特征，通过人脸识别实现了准确的对用户进行身份识别；若确定语音数据库中存储有第一用户标识对应的已存对话，则根据本次对话与已存对话确定语音交互的上下文，并在得到本次对话的语音终点后，将本次对话存储至语音数据库中，通过用户标识能够获取与本次对话属于同一用户的已存对话，根据同一用户的对话来获取语音交互的上下文，避免了将不同用户的对话作为上下文，提高了获取上下文的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于语音交互的上下文获取方法的***架构图；

图2为本发明实施例提供的基于语音交互的上下文获取方法的流程图一；

图3为本发明实施例提供的基于语音交互的上下文获取方法的流程图二；

图4为本发明实施例提供的人脸特征模型的结构示意图；

图5为本发明实施例提供的基于语音交互的上下文获取设备的结构示意图；

图6为本发明实施例提供的基于语音交互的上下文获取设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于语音交互的上下文获取方法的***架构图。如图1所示，该***包括终端110和服务器120。该终端110可以为故事机、手机、平板、车载终端、迎宾机器人、警务机器人等具有语音交互功能的设备。

本实施例对终端110的实现方式不做特别限制，只要该终端110能够与用户进行语音交互即可。在本实施例中，该终端110还包括图像采集装置，该图像采集装置可以采集与终端110进行对话的用户的图像。该图像采集装置可以为照相机、摄像机等。该服务器120可以提供各种线上服务，能够针对用户的问答提供相应的问答结果。

对于多个用户与终端110进行对话的过程，本发明实施例也同样适用。其中，本实施例中所涉及的多个用户与终端110进行对话的过程可以为：当用户A与终端110进行对话时，在用户A与终端110的对话间隙中，用户B又插进来与终端110进行对话，此时，就存在用户A与用户B交替与终端110进行对话，由此形成了多人对话场景。

本发明实施例基于声纹来对用户进行身份识别，能够获取用户的上下文，例如能够在用户A与用户B同时于终端的交互过程中，获取用户A的上下文以及用户B的上下文，从而降低了获取上下文的错误率。在获取到同一用户语音交互的上下文之后，结合上下文来向用户反馈问答结果，提高用户体验。

本发明实施例的执行主体可以为上述的服务器，该终端在获取了用户输入的对话后，向服务器发送该对话，由服务器返回该对话的问答结果。本领域技术人员可以理解，当终端的功能足够强大时，也可以由终端在获取到对话后，自行反馈问答结果。下面以服务器作为执行主体，来详细说明本发明实施例提供的基于语音交互的上下文获取方法。

图2为本发明实施例提供的基于语音交互的上下文获取方法的流程图一，如图2所示，该方法包括：

S201、获取图像采集装置在本次对话的语音起点采集的场景图像，并提取所述场景图像中每个用户的人脸特征。

随着人机交互技术的发展，语音识别技术显示出其重要性。在语音识别***中，语音端点检测技术是非常重要的一项技术，通常也称为语音活动性检测技术(voiceactivity detection，VAD)。语音端点检测是指在连续声音信号中找出语音部分的语音起点和语音终点。对于语音活动性检测技术的具体实现方式，本实施例此处不做特别限制。其中，该语音活动性检测技术的执行者可以为上述的终端，也可以为终端向服务器实时发送语音，有服务器来执行。

本实施例中的本次对话和已存对话是指用户向终端输入的一条连续的语音，即一句话。在描述进行对话时，该“对话”可以理解为执行的动作。本实施例的“对话”在一些场景中还可以表示为名词。对于“对话”的词性，可根据语言描述场景来确定。

当检测到本次对话的语音起点时，获取图像采集装置在语音起点采集的场景图像。即确定有用户与终端进行语音交互向终端说话时，获取当前场景下采集的场景图像。若有多个人面向该终端，则由于存在对话，所以当前场景图像中存在面对该终端麦克风，且口型为说话口型的用户，同时也可能存在相对于终端的麦克风侧向或其它朝向的用户。

在得到该场景图像后，提取场景图像中每个用户的人脸特征，例如可以通过人脸特征模型来提取人脸特征。

在提取过程中，以每个用户作为单位，提取针对该用户的人脸特征。具体地，对场景图像进行抠图处理，得到每个人脸的人脸图片；将多个人脸图片依次输入至预设的人脸特征模型中，获取人脸特征模型依次输出的每个用户的人脸特征。

该人脸特征可以为多维特征，例如可以为多维向量，每个维度的向量表示一个特征，例如眉毛特征、眼睛特征、鼻子特征等，本实施例此处不再一一赘述。

在本实施例中，终端还可以根据每个服务器的负载，对服务器进行调度，即由负载较轻的服务器来执行本实施例的步骤。

S202、根据每个用户的人脸特征以及人脸数据库，判断是否存在与第一人脸特征匹配的第二人脸特征，第一人脸特征为一个用户的人脸特征，第二人脸特征为人脸数据库中存储的处于对话状态的用户的人脸特征，若是，则执行S203，若否，则执行S207；

S203、从人脸数据库中获取第二人脸特征对应的第一用户标识。

在得到每个用户的人脸特征后，将每个用户的人脸特征与人脸数据库中的人脸特征进行匹配，判断是否有一个用户的第一人脸特征可以与人脸数据库中的第二人脸特征匹配。

本领域技术人员可以理解，当有一个用户正向面向麦克风时，其它用户则无法正向面对麦克风，因此采集的场景图像中与麦克风处于对话状态的用户为一个，因此，可以判断是否存在一个用户的第一人脸特征与第二人脸特征匹配。本实施例中的匹配可以理解为在人脸特征的相似度大于预设值的前提下，相似度最高的两个人脸特征，该相似度可以为两个人脸特征的余弦相似度。

在存在一个用户的人脸特征能够与人脸数据库中的处于对话状态(张嘴说话状态)的第二人脸特征进行匹配时，从人脸数据库中获取第二人脸特征对应的第一用户标识，然后依次执行S204、S205以及S206。其中，人脸数据库中关联存储有处于对话状态的人脸特征和对应的用户标识。

在不存在一个用户的人脸特征能够与人脸数据库中的处于对话状态(张嘴说话状态)的第二人脸特征进行匹配时，则依次执行S207和S208。

S204、判断语音数据库中是否存储有第一用户标识对应的已存对话，若是，则执行S205，若否，则执行S206；

S205、根据本次对话与已存对话确定语音交互的上下文，并在得到本次对话的语音终点后，将本次对话存储至语音数据库中；

S206、将本次对话与第一用户标识关联存储到语音数据库中。

在存在一个用户的人脸特征能够与人脸数据库中的处于对话状态(张嘴说话状态)的第二人脸特征进行匹配时，判断语音数据库中是否存储有第一用户标识对应的已存对话。其中语音数据库中关联存储有用户标识与对应的对话。

若语音数据库中存储有第一用户标识对应的已存对话，则说明本次对话并不是预设时间段内用户向终端输入的第一句语音，则根据本次对话与已存对话确定语音交互的上下文，即在该已存对话中确定本次对话的上下文。此时，在有限数量的对话中，可以结合自然语言理解来获取与本次对话相关的已存对话，即获取上下文。在得到本次对话的语音终点后，将本次对话存储至语音数据库中，并建立本次对话与语音数据库中第一用户标识的关联关系。

若语音数据库中没有存储第一用户标识对应的已存对话，则说明本次对话是用户在预设时间段内向终端输入的第一句语音，该预设时间段为当前时刻之前的预设时间段，例如当前时刻之前的半小时。此时，认为本次对话并不具备上下文，则将本次对话与第一用户标识关联存储到语音数据库中。

可选地，在本实施例中，还可以将语音数据库和人脸数据库合为一个数据库，即在一个数据库中关联存储有用户标识、对应的人脸特征以及用户对话。可选地，还可以在数据库中直接关联存储人脸特征以及对应的用户对话。

此时，若根据每个用户的人脸特征以及数据库，确定存在与第一人脸特征匹配的第二人脸特征，则从数据库中获取第二人脸特征对应的已存对话，根据本次对话与已存对话确定语音交互的上下文，并在得到本次对话的语音终点后，将本次对话存储至语音数据库中。

在本实施例中，通过将人脸数据库和语音数据库单独设置，便于人脸数据库和语音数据库的单独存储和维护。

S207、对每个用户的人脸特征在内的参数进行分析，获取处于对话状态的目标用户，并生成目标用户的第二用户标识。

S208、在检测到语音终点时，将目标用户的人脸特征与第二用户标识关联存储到人脸数据库中，并将本次对话与第二用户标识关联存储到语音数据库中。

在不存在一个用户的人脸特征能够与人脸数据库中的处于对话状态(张嘴说话状态)的第二人脸特征进行匹配时，则说明当前的用户在此之前从未与终端进行过语音交互，此时，对每个用户的人脸特征在内的参数进行分析，得到处于对话状态的目标用户，生成该目标用户的第二用户标识，该用户标识可以为数字、字母等或其组合。再例如，还可以通过哈希算法来生成目标用户的用户标识。本实施例对用户标识的实现方式不做特别限制。

由此，在检测到语音终点时，将目标用户的人脸特征与第二用户标识关联存储到人脸数据库中，并将本次对话与第二用户标识关联存储到语音数据库中，以便该用户再次与终端进行语音交互时，能够基于人脸数据库和语音数据库中的内容在已存对话中获取上下文。

本实施例提供的基于语音交互的上下文获取方法，通过获取图像采集装置在本次对话的语音起点采集的场景图像，并提取场景图像中每个用户的人脸特征；若根据每个用户的人脸特征以及人脸数据库，确定存在与第一人脸特征匹配的第二人脸特征，则从人脸数据库中获取第二人脸特征对应的第一用户标识，其中，第一人脸特征为一个用户的人脸特征，第二人脸特征为人脸数据库中存储的处于对话状态的用户的人脸特征，通过人脸识别实现了准确的对用户进行身份识别；若确定语音数据库中存储有第一用户标识对应的已存对话，则根据本次对话与已存对话确定语音交互的上下文，并在得到本次对话的语音终点后，将本次对话存储至语音数据库中，通过用户标识能够获取与本次对话属于同一用户的已存对话，根据同一用户的对话来获取语音交互的上下文，避免了将不同用户的对话作为上下文，提高了获取上下文的准确率。

下面来说明确定语音交互的上下文的实现方式。图3为本发明实施例提供的基于语音交互的上下文获取方法的流程图二。如图3所示，该方法包括：

S301、根据第一用户标识从语音数据库中获取第一用户标识对应的上一对话的语音起点和语音终点；

S302、判断上一对话的语音终点与本次对话的语音起点之间的时间间隔是否小于预设间隔，若是，则执行S303，若否，则执行S304；

S303、根据本次对话与已存对话确定语音交互的上下文；

S304、在语音数据库中删除关联存储的第一用户标识和对应的已存对话。

在具体实现过程中，语音数据库中存储有用户标识以及该用户标识对应的每句话，即该用户标识与用户的至少一个对话关联存储。其中，每个对话在存储时，会对应存储该对话的语音起点的时间和语音终点的时间。

在根据目标用户的人脸特征获取到第一用户标识之后，根据第一用户标识从语音数据库中获取第一用户标识对应的上一对话的语音起点和语音终点。

然后根据上一对话的语音终点的发生时间和本次对话的语音起点的发生时间，获取上一对话的语音终点与本次对话的语音起点之间的时间间隔。

若该时间间隔小于预设间隔，则说明上一次对话与本次对话为上下文对话的可能性较高，例如该预设间隔可以为10分钟、30分钟等，本实施例对该预设间隔的实现方式不做特别限制。

若该时间间隔大于或等于预设间隔，则说明该对话为用户针对一主题的上一次对话，并不能算作本次上下文对话。由此，在语音数据库中删除关联存储的第一用户标识和对应的已存对话，本次对话并不存在上下文。

可选地，在语音数据库中删除关联存储的第一用户标识和对应的已存对话时，还可以在人脸数据库中删除关联存储的第一用户标识和对应的人脸特征。

可选地，二者也可以不同步删除，可以将人脸数据库中在预设时间段内未匹配的第三用户标识以及对应的人脸特征删除。通过该删除方式，可以对关联存储的用户标识和人脸特征进行批量删除，提高了删除效率。

本领域技术人员可以理解，在每获取一个用户的对话时，都会进行上述的操作，从而在语音数据库中存储的每个用户的多个对话都是时间间隔小于预设间隔的对话。因此，基于该用户的所有的已存对话和本次对话来获取本次对话的上下文。例如，可以该用户的本次对话以及所有的已存对话作为语音交互的上下文，也可以针对同一用户的对话，基于自然语言理解，在所有已存对话中获取本次对话的上下文。

在本实施例中，通过判断上一对话的语音终点与本次对话的语音起点之间的时间间隔是否小于预设间隔，能够更加准确的判断本次对话的上下文，提高了上下文获取的准确率。

在上述的实施例中，本发明实施例通过人脸特征模型来获取每个用户的人脸特征。下面采用详细的实施例来说明构建人脸特征模型的过程。

图4为本发明实施例提供的人脸特征模型的结构示意图。如图4所示，该人脸特征模型可以采用深度卷积神经网络(Deep Convolutional Neural Networks，Deep CNN)。该模型包括输入层、特征层、分类层以及输出层。可选地，该特征层包括卷积层、池化层、全连接层。其中，在特征层中可以多个交替的卷积层和池化层。

在具体实现过程中，对于不同的使用场景，基于该人脸特征模型，可以设计不同深度、不同数量神经元、不同卷积池化组织方式构成的深度神经网络模型。

在训练该模型时，获取人脸训练样本，该人脸训练样本包括人脸图片和标签。其中，标签为预先标定的人脸图片中的各特征的分类结果，该标签可以为矩阵形式的向量。

将该人脸图片从输入层输入，输入实际为矩阵组成的向量，然后卷积层利用权值不同的卷积核对原始图像或特征图(feature map)进行扫描卷积，从中提取各种意义的特征，并输出至特征图中，池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合，即对特征图进行降维操作，保留特征图中的主要特征。两层之间所有神经元都有权重连接，通常全连接层在卷积神经网络尾部。最后特征经过分类层之后输出结果。

当模型的输出与标签之间的误差值小于预先设定的符合业务要求的阈值时，停止训练。利用这种具有卷积、池化操作的深度神经网络模型，可以对图像的变形、模糊、噪声等具有较高的鲁棒性，对于分类任务具有更高的可泛化性。

通过上述的模型训练过程，得到了初始的人脸特征模型，将该初始的人脸特征模型中的分类层删除，得到该预设的人脸特征模型，由于删除了分类层，所以在使用该预设的人脸特征模型时，在从场景图像中抠图得到人脸图片时，将该人脸图片输入至人脸特征模型中，该人脸特征模型能够直接输出人脸特征，而不是输出分类结果。

本实施例通过使用深度卷积神经网络模型提取人脸特征，进行身份识别，能够准确的区分对话的来源，找到每个人的对话上下文，提高多人场景下的对话体验。

图5为本发明实施例提供的基于语音交互的上下文获取设备的结构示意图。如图5所示，该基于语音交互的上下文获取设备50包括：提取模块501、匹配模块502以及获取模块503。可选地，还包括建模模块504。

提取模块501，用于获取图像采集装置在本次对话的语音起点采集的场景图像，并提取所述场景图像中每个用户的人脸特征；

匹配模块502，用于若根据每个用户的人脸特征以及人脸数据库，确定存在与第一人脸特征匹配的第二人脸特征，则从所述人脸数据库中获取所述第二人脸特征对应的第一用户标识，其中，所述第一人脸特征为一个用户的人脸特征，所述第二人脸特征为人脸数据库中存储的处于对话状态的用户的人脸特征；

获取模块503，用于若确定语音数据库中存储有所述第一用户标识对应的已存对话，则根据所述本次对话与所述已存对话确定语音交互的上下文，并在得到所述本次对话的语音终点后，将所述本次对话存储至所述语音数据库中。

可选地，所述匹配模块502还用于，

可选地，所述获取模块503具体用于：

可选地，所述获取模块503还用于：

可选地，所述匹配模块502还用于：

可选地，所述提取模块501具体用于：

对所述场景图像进行抠图处理，得到每个人脸的人脸图片；

所述建模模块504用于在将所述多个人脸区域依次输入至预设的人脸特征模型中之前，获取人脸训练样本，所述人脸训练样本包括人脸图片和标签；

可选地，所述人脸特征模型为深度卷积神经网络模型，所述特征层包括卷积层、池化层以及全连接层。

本实施例提供的基于语音交互的上下文获取设备，其实现原理和技术效果与上述的方法实施例类似，本实施例此处不再赘述。

图6为本发明实施例提供的基于语音交互的上下文获取设备的硬件结构示意图。如图6所示，该基于语音交互的上下文获取设备60包括：至少一个处理器601和存储器602。可选地，该语音交互的上下文获取设备60还包括通信部件603。其中，处理器601、存储器602以及通信部件603通过总线604连接。

在具体实现过程中，至少一个处理器601执行所述存储器602存储的计算机执行指令，使得至少一个处理器601执行如上的基于语音交互的上下文获取方法。

通信部件603可以与其它设备进行数据交互。

处理器601的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的6所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的基于语音交互的上下文获取方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于语音交互的上下文获取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，若根据每个用户的人脸特征以及人脸数据库，确定不存在与第一人脸特征匹配的第二人脸特征，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述本次对话与所述已存对话确定语音交互的上下文，包括：

4.根据权利要求3所述的方法，其特征在于，若确定所述上一对话的语音终点与所述本次对话的语音起点之间的时间间隔大于或等于预设间隔，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述提取所述场景图像中每个用户的人脸特征，包括：

对所述场景图像进行抠图处理，得到每个人脸的人脸图片；

7.根据权利要求6所述的方法，其特征在于，所述将所述多个人脸区域依次输入至预设的人脸特征模型中之前，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述人脸特征模型为深度卷积神经网络模型，所述特征层包括卷积层、池化层以及全连接层。

9.一种基于语音交互的上下文获取设备，其特征在于，包括：

10.根据权利要求9所述的设备，其特征在于，所述匹配模块还用于，

11.根据权利要求9所述的设备，其特征在于，所述获取模块具体用于：

12.根据权利要求11所述的设备，其特征在于，所述获取模块还用于：

13.根据权利要求9所述的设备，其特征在于，所述匹配模块还用于：

14.根据权利要求9所述的设备，其特征在于，所述提取模块具体用于：

对所述场景图像进行抠图处理，得到每个人脸的人脸图片；

15.根据权利要求14所述的设备，其特征在于，还包括：建模模块；

16.根据权利要求15所述的设备，其特征在于，所述人脸特征模型为深度卷积神经网络模型，所述特征层包括卷积层、池化层以及全连接层。

17.一种基于语音交互的上下文获取设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至8任一项所述的基于语音交互的上下文获取方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至8任一项所述的基于语音交互的上下文获取方法。