CN108920640A

CN108920640A - 基于语音交互的上下文获取方法及设备

Info

Publication number: CN108920640A
Application number: CN201810709830.XA
Authority: CN
Inventors: 梁阳; 刘昆; 乔爽爽; 林湘粤; 韩超; 朱名发; 郭江亮; 李旭; 刘俊; 李硕; 尹世明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2018-11-30
Anticipated expiration: 2038-07-02
Also published as: CN108920640B

Abstract

本发明实施例提供一种基于语音交互的上下文获取方法及设备，该方法包括：获取本次对话以及在预设时间段内采集的连续的多帧图片；获取多帧图片中的共有目标人脸针对每帧图片的人脸图像，并根据每个目标人脸在每帧图片中的人脸图像和本次对话，确定本次对话归属的目标用户的第一用户特征；若在人脸声纹数据库中确定存在与第一用户特征匹配的第二用户特征，则从人脸声纹数据库中获取第二用户特征对应的第一用户标识；若确定语音数据库中存储有第一用户标识对应的已存对话，则根据本次对话与已存对话确定语音交互的上下文，并将本次对话存储至语音数据库中。本实施例可以提高获取语音交互的上下文的准确率。

Description

基于语音交互的上下文获取方法及设备

技术领域

本发明实施例涉及语音交互技术领域，尤其涉及一种基于语音交互的上下文获取方法及设备。

背景技术

随着人工智能技术的发展，智能语音交互产品的研发和使用备受关注。其中，智能语音交互是基于语音输入的一种交互模式，用户可以通过语音来输入自己的请求，该产品可以根据请求的意图，响应相应的内容。

现有技术中，在智能服务机器人的应用场景中，例如：迎宾机器人，警务机器人等，往往存在多个人同时与智能服务机器人交互的场景。在多人与机器人对话时，如果不能识别对话内容的来源，则无法准确的获取对话上下文，从而无法向用户提供准确的服务，造成糟糕的对话体验。目前，在假设同一用户的对话内容中不会有不同主题的内容，且两个用户的对话内容的主题是没有交叠的前提下，通过自然语言理解来根据对话含义来进行身份识别，以获取同一用户的对话上下文。

然而，在实际应用时基于自然语言理解的假设并不总是成立的，导致获取语音对话上下文的错误率较高。

发明内容

本发明实施例提供一种基于语音交互的上下文获取方法及设备，以克服获取语音对话上下文的错误率较高的问题。

第一方面，本发明实施例提供一种基于语音交互的上下文获取方法，包括：

获取本次对话以及在预设时间段内采集的连续的多帧图片；所述预设时间段为所述本次对话的语音起点至语音终点之间的时间段；

获取所述多帧图片中的共有目标人脸针对每帧图片的人脸图像，并根据每个所述目标人脸在每帧图片中的人脸图像和所述本次对话，确定本次对话归属的目标用户的第一用户特征，所述第一用户特征包括人脸特征和声纹特征；

若在人脸声纹数据库中确定存在与所述第一用户特征匹配的第二用户特征，则从所述人脸声纹数据库中获取所述第二用户特征对应的第一用户标识；

若确定语音数据库中存储有所述第一用户标识对应的已存对话，则根据所述本次对话与所述已存对话确定语音交互的上下文，并将所述本次对话存储至所述语音数据库中。

在一种可能的设计中，若在人脸声纹数据库中确定不存在与所述第一用户特征匹配的第二用户特征，所述方法还包括：

生成所述目标用户的第二用户标识；

将所述本次对话与所述第二用户标识关联存储到所述语音数据库中，以及将所述目标用户的第一用户特征与所述第二用户标识关联存储到人脸声纹数据库中。

在一种可能的设计中，所述根据所述本次对话与所述已存对话确定语音交互的上下文，包括：

根据所述第一用户标识从所述语音数据库中获取所述第一用户标识对应的上一对话的语音起点和语音终点；

若确定所述上一对话的语音终点与所述本次对话的语音起点之间的时间间隔小于预设间隔，则根据所述本次对话与所述已存对话确定语音交互的上下文。

在一种可能的设计中，若确定所述上一对话的语音终点与所述本次对话的语音起点之间的时间间隔大于预设间隔，所述方法还包括：

在所述语音数据库中删除关联存储的所述第一用户标识和对应的已存对话。

在一种可能的设计中，所述方法还包括：

将所述人脸声纹数据库中在预设时间段内未匹配的第三用户标识以及对应的用户特征删除，所述预设时间段为当前时刻之前的时间段。

在一种可能的设计中，所述获取所述多帧图片中的共有目标人脸针对每帧图片的人脸图像，并根据每个所述目标人脸在每帧图片中的人脸图像和所述本次对话，确定本次对话归属的目标用户的第一用户特征，包括：

对所述每帧图片进行抠图处理，得到每帧图片中的人脸图像；

根据每帧图片中的人脸图像，确定多帧图片中的共有目标人脸，并获取各目标人脸针对每帧图片的人脸图像；

针对每个目标人脸，将所述本次对话和所述目标人脸对应的多个人脸图像输入至人脸声纹特征模型中，获取所述人脸声纹特征模型输出的分类结果以及所述人脸声纹特征模型缓存的用户特征；

根据所述分类结果和所述缓存的用户特征，确定本次对话归属的目标用户的第一用户特征。

在一种可能的设计中，所述将所述本次对话和所述目标人脸对应的多个人脸图像输入至预设的人脸声纹特征模型中之前，所述方法还包括：

获取训练样本，各所述训练样本包括人脸图片以及关联的语音段和标签；

根据所述训练样本，得到训练后的所述人脸声纹特征模型；所述人脸声纹特征模型包括输入层、特征层、分类层以及输出层。

在一种可能的设计中，所述人脸声纹特征模型为深度卷积神经网络模型，所述特征层包括卷积层、池化层以及全连接层。

第二方面，本发明实施例提供一种基于语音交互的上下文获取设备，包括：

采集模块，用于获取本次对话以及在预设时间段内采集的连续的多帧图片；所述预设时间段为所述本次对话的语音起点至语音终点之间的时间段；

确定模块，用于获取所述多帧图片中的共有目标人脸针对每帧图片的人脸图像，并根据每个所述目标人脸在每帧图片中的人脸图像和所述本次对话，确定本次对话归属的目标用户的第一用户特征，所述第一用户特征包括人脸特征和声纹特征；

匹配模块，用于若在人脸声纹数据库中确定存在与所述第一用户特征匹配的第二用户特征，则从所述人脸声纹数据库中获取所述第二用户特征对应的第一用户标识；

获取模块，用于若确定语音数据库中存储有所述第一用户标识对应的已存对话，则根据所述本次对话与所述已存对话确定语音交互的上下文，并将所述本次对话存储至所述语音数据库中。

在一种可能的设计中，所述匹配模块，还用于

若在人脸声纹数据库中确定不存在与所述第一用户特征匹配的第二用户特征，生成所述目标用户的第二用户标识；

在一种可能的设计中，所述获取模块具体用于：

在一种可能的设计中，所述获取模块还用于：若确定所述上一对话的语音终点与所述本次对话的语音起点之间的时间间隔大于预设间隔，在所述语音数据库中删除关联存储的所述第一用户标识和对应的已存对话。

在一种可能的设计中，所述匹配模块还用于：

在一种可能的设计中，所述确定模块具体用于：

在一种可能的设计中，还包括：建模模块；

所述建模模块用于获取训练样本，各所述训练样本包括人脸图片以及关联的语音段和标签；

第三方面，本发明实施例提供一种基于语音交互的上下文获取设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面或第一方面的各种可能的设计所述的基于语音交互的上下文获取方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面或第一方面各种可能的设计所述的基于语音交互的上下文获取方法。

本实施例提供的基于语音交互的上下文获取方法，通过获取本次对话以及在预设时间段内采集的连续的多帧图片；预设时间段为本次对话的语音起点至语音终点之间的时间段；获取多帧图片中的共有目标人脸针对每帧图片的人脸图像，并根据每个目标人脸在每帧图片中的人脸图像和本次对话，确定本次对话归属的目标用户的第一用户特征，第一用户特征包括人脸特征和声纹特征；若在人脸声纹数据库中确定存在与第一用户特征匹配的第二用户特征，则从人脸声纹数据库中获取第二用户特征对应的第一用户标识；通过人脸声纹识别实现了准确的对用户进行身份识别，若确定语音数据库中存储有第一用户标识对应的已存对话，则根据本次对话与已存对话确定语音交互的上下文，并将本次对话存储至语音数据库中。通过用户标识能够获取与本次对话属于同一用户的已存对话，根据同一用户的对话来获取语音交互的上下文，避免了将不同用户的对话作为上下文，提高了获取上下文的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于语音交互的上下文获取方法的***架构图；

图2为本发明实施例提供的基于语音交互的上下文获取方法的流程图一；

图3为本发明实施例提供的基于语音交互的上下文获取方法的流程图二；

图4为本发明实施例提供的人脸特征模型的结构示意图；

图5为本发明实施例提供的基于语音交互的上下文获取设备的结构示意图；

图6为本发明实施例提供的基于语音交互的上下文获取设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于语音交互的上下文获取方法的***架构图。如图1所示，该***包括终端110和服务器120。该终端110可以为故事机、手机、平板、车载终端、迎宾机器人、警务机器人等具有语音交互功能的设备。

本实施例对终端110的实现方式不做特别限制，只要该终端110能够与用户进行语音交互即可。在本实施例中，该终端110还包括图像采集装置，该图像采集装置可以采集与终端110进行对话的用户的图像。该图像采集装置可以为照相机、摄像机等。该服务器120可以提供各种线上服务，能够针对用户的问答提供相应的问答结果。

对于多个用户与终端110进行对话的过程，本发明实施例也同样适用。其中，本实施例中所涉及的多个用户与终端110进行对话的过程可以为：当用户A与终端110进行对话时，在用户A与终端110的对话间隙中，用户B又插进来与终端110进行对话，此时，就存在用户A与用户B交替与终端110进行对话，由此形成了多人对话场景。

本发明实施例基于人脸特征和声纹特征的融合来对用户进行身份识别，能够获取用户的上下文，例如能够在用户A与用户B同时于终端的交互过程中，获取用户A的上下文以及用户B的上下文，从而降低了获取上下文的错误率。在获取到同一用户语音交互的上下文之后，结合上下文来向用户反馈问答结果，提高用户体验。

本发明实施例的执行主体可以为上述的服务器，该终端在获取了用户输入的对话后，向服务器发送该对话，由服务器返回该对话的问答结果。本领域技术人员可以理解，当终端的功能足够强大时，也可以由终端在获取到对话后，自行反馈问答结果。下面以服务器作为执行主体，来详细说明本发明实施例提供的基于语音交互的上下文获取方法。

图2为本发明实施例提供的基于语音交互的上下文获取方法的流程图一，如图2所示，该方法包括：

S201、获取本次对话以及在预设时间段内采集的连续的多帧图片；预设时间段为本次对话的语音起点至语音终点之间的时间段。

随着人机交互技术的发展，语音识别技术显示出其重要性。在语音识别***中，语音端点检测技术是非常重要的一项技术，通常也称为语音活动性检测技术(voiceactivity detection，VAD)。语音端点检测是指在连续声音信号中找出语音部分的语音起点和语音终点。对于语音活动性检测技术的具体实现方式，本实施例此处不做特别限制。其中，该语音活动性检测技术的执行者可以为上述的终端，也可以为终端向服务器实时发送语音，有服务器来执行。

本实施例中的本次对话和已存对话是指用户向终端输入的一条连续的语音，即一句话。在描述进行对话时，该“对话”可以理解为执行的动作。本实施例的“对话”在一些场景中还可以表示为名词。对于“对话”的词性，可根据语言描述场景来确定。

在检测到语音起点和语音终点之后，即得到了本次对话。在得到本次对话之后，获取本次对话的语音起点至语音终点之间的时间段图像采集装置采集的连续的多帧图片。

S202、获取多帧图片中的共有目标人脸针对每帧图片的人脸图像，并根据每个目标人脸在每帧图片中的人脸图像和本次对话，确定本次对话归属的目标用户的第一用户特征，第一用户特征包括人脸特征和声纹特征。

在得到多帧图片之后，获取多帧图片中的共有目标人脸。本领域技术人员可以理解，该目标人脸为当前对终端进行说话的用户的概率最大，只有一直处于终端的视线范围内的用户才可能是当前说话的用户。

在得到目标人脸后，对每帧图片进行抠图处理，获取该目标人脸的人脸图像。然后根据每个目标人脸在每帧图片中的人脸图像和本次对话，确定本次对话归属的目标用户，即本次对话所归属的用户。然后在确定该目标用户之后，提取该目标用户的第一用户特征。针对该目标用户的人脸图像，提取人脸特征，并提取本次对话的声纹特征。

示例性的，当目标人脸有至少一个时，针对每个目标人脸，将本次对话和目标人脸对应的多个人脸图像输入至人脸声纹特征模型中，获取人脸声纹特征模型输出的分类结果以及人脸声纹特征模型缓存的用户特征。

其中，根据该人脸声纹特征模型输出的分类结果可以判断该目标人脸对应的用户是否为说话的用户。其中，该分类结果为一个概率值，当该概率值大于预设阈值时，则说明该目标人脸对应的用户为说话的目标用户，当有多个大于概率值时，则确定分类结果对应的最大值所对应的用户为说话的目标用户。

当根据分类结果确定目标用户后，根据缓存的用户特征，获取该目标用户对应缓存的用户特征，从而确定本次对话归属的目标用户的第一用户特征。

本领域技术人员可以理解，该人脸声纹特征模型可以为融合模型，该第一用户特征可以为融合的人脸声纹特征。该融合方式可以为人脸特征和声纹特征相互穿插，也可以在人脸特征的首部或末尾***声纹特征。本实施例对第一用户特征的实现方式不做特别限制。

在本实施例中，终端还可以根据每个服务器的负载，对服务器进行调度，即由负载较轻的服务器来执行本实施例的步骤。

S203、判断人脸声纹数据库中是否存在与第一用户特征匹配的第二用户特征；若是，则执行S204，若否，则执行S208；

S204、从人脸声纹数据库中获取第二用户特征对应的第一用户标识。

在得到目标用户的第一用户特征后，将第一用户特征与人脸声纹数据库中的第二用户特征进行匹配，判断是否存第一用户特征与第二用户特征匹配。本实施例中的匹配可以理解为第一用户特征与第二用户特征的相似度大于预设值的前提下，相似度最高的两个用户特征。该匹配也可以理解为第一用户特征与第二用户特征代表同一用户的用户特征。

在存在与第一用户特征匹配的第二用户特征，从人脸声纹数据库中获取第二用户特征对应的第一用户标识，然后依次执行S205、S206以及S207。

在不存在与第一用户特征匹配的第二用户特征时，则依次执行S208和S209。

S205、判断语音数据库中存储有第一用户标识对应的已存对话；若是，则执行S206，若否，则执行S207；

S206、根据本次对话与已存对话确定语音交互的上下文，并将本次对话存储至语音数据库中；

S207、将本次对话与第一用户标识关联存储到语音数据库中。

在存在与第一用户特征匹配的第二用户特征时，从人脸声纹数据库中获取第二用户特征对应的第一用户标识，判断语音数据库中是否存储有第一用户标识对应的已存对话。其中语音数据库中关联存储有用户标识与对应的对话。

若语音数据库中存储有第一用户标识对应的已存对话，则说明本次对话并不是预设时间段内用户向终端输入的第一句语音，则根据本次对话与已存对话确定语音交互的上下文，即在该已存对话中确定本次对话的上下文。

此时，在有限数量的对话中，可以结合自然语言理解来获取与本次对话相关的已存对话，即获取上下文。然后将本次对话存储至语音数据库中，并建立本次对话与语音数据库中第一用户标识的关联关系。

若语音数据库中没有存储第一用户标识对应的已存对话，则说明本次对话是用户在预设时间段内向终端输入的第一句语音，该预设时间段为当前时刻之前的预设时间段，例如当前时刻之前的半小时。此时，认为本次对话并不具备上下文，则将本次对话与第一用户标识关联存储到语音数据库中。

可选地，在本实施例中，还可以将语音数据库和人脸声纹数据库合为一个数据库，即在一个数据库中关联存储有用户标识、对应的用户特征以及用户对话。可选地，还可以在数据库中直接关联存储用户特征以及对应的用户对话。

此时，若确定存在与第一用户特征匹配的第二用户特征，则从数据库中获取第二用户特征对应的已存对话，根据本次对话与已存对话确定语音交互的上下文，并将本次对话存储至语音数据库中。

在本实施例中，通过将人脸声纹数据库和语音数据库单独设置，便于人脸声纹数据库和语音数据库的单独存储和维护。

S208、生成目标用户的第二用户标识；

S209、将本次对话与第二用户标识关联存储到语音数据库中，以及将目标用户的第一用户特征与第二用户标识关联存储到人脸声纹数据库中。

在不存在与第一用户特征匹配的第二用户特征时，则说明目标用户在此之前从未与终端进行过语音交互，则生成目标用户的第二用户标识，该用户标识可以为数字、字母等或其组合。再例如，还可以根据用户特征通过哈希算法来生成目标用户的用户标识。本实施例对用户标识的实现方式不做特别限制。

由此，将本次对话的用户特征与第二用户标识关联存储到人脸声纹数据库中，并将本次对话与第二用户标识关联存储到语音数据库中，以便该用户再次与终端进行语音交互时，能够基于人脸声纹数据库和语音数据库中的内容在已存对话中获取上下文。

下面来说明确定语音交互的上下文的实现方式。图3为本发明实施例提供的基于语音交互的上下文获取方法的流程图二。如图3所示，该方法包括：

S301、根据第一用户标识从语音数据库中获取第一用户标识对应的上一对话的语音起点和语音终点；

S302、判断上一对话的语音终点与本次对话的语音起点之间的时间间隔是否小于预设间隔，若是，则执行S303，若否，则执行S304；

S303、根据本次对话与已存对话确定语音交互的上下文；

S304、在语音数据库中删除关联存储的第一用户标识和对应的已存对话。

在具体实现过程中，语音数据库中存储有用户标识以及该用户标识对应的每句话，即该用户标识与用户的至少一个对话关联存储。其中，每个对话在存储时，会对应存储该对话的语音起点的时间和语音终点的时间。

在根据声纹特征获取到第一用户标识之后，根据第一用户标识从语音数据库中获取第一用户标识对应的上一对话的语音起点和语音终点。

然后根据上一对话的语音终点的发生时间和本次对话的语音起点的发生时间，获取上一对话的语音终点与本次对话的语音起点之间的时间间隔。

若该时间间隔小于预设间隔，则说明上一次对话与本次对话为上下文对话的可能性较高，例如该预设间隔可以为10分钟、30分钟等，本实施例对该预设间隔的实现方式不做特别限制。

若该时间间隔大于或等于预设间隔，则说明该对话为用户针对一主题的上一次对话，并不能算作本次上下文对话。由此，在语音数据库中删除关联存储的第一用户标识和对应的已存对话，本次对话并不存在上下文。

可选地，在语音数据库中删除关联存储的第一用户标识和对应的已存对话时，还可以在声纹数据库中删除关联存储的第一用户标识和对应的声纹特征。

可选地，二者也可以不同步删除，可以将声纹数据库中在预设时间段内未匹配的第三用户标识以及对应的声纹特征删除。通过该删除方式，可以对关联存储的用户标识和声纹特征进行批量删除，提高了删除效率。

本领域技术人员可以理解，在每获取一个对话时，都会进行上述的操作，从而在语音数据库中存储的每个用户的多个对话都是时间间隔小于预设间隔的对话。因此，基于该用户的所有的已存对话和本次对话来获取本次对话的上下文。例如，可以该用户的本次对话以及所有的已存对话作为语音交互的上下文，也可以针对同一用户的对话，基于自然语言理解，在所有已存对话中获取本次对话的上下文。

在本实施例中，通过判断上一对话的语音终点与本次对话的语音起点之间的时间间隔是否小于预设间隔，能够更加准确的判断本次对话的上下文，提高了上下文获取的准确率。

在上述的实施例中，本发明实施例通过人脸声纹特征模型来获取每个用户的用户特征，同时确定当前说话的用户。下面采用详细的实施例来说明构建人脸声纹特征模型的过程。

图4为本发明实施例提供的人脸声纹特征模型的结构示意图。如图4所示，该人脸声纹特征模型可以采用深度卷积神经网络(Deep Convolutional Neural Networks，DeepCNN)。该模型包括输入层、特征层、分类层以及输出层。可选地，该特征层包括卷积层、池化层、全连接层。其中，在特征层中可以包括多个交替的卷积层和池化层。

在具体实现过程中，对于不同的使用场景，基于该人脸声纹特征模型，可以设计不同深度、不同数量神经元、不同卷积池化组织方式构成的深度神经网络模型。

在训练该模型时，获取训练样本，各训练样本包括人脸图片以及关联的语音段和标签。其中，该人脸图片为录制的视频中提取的多帧连续的人脸图片，该人脸图片提取的时间段为用户说话的时间段，即语音段录制的时间段。

其中，该人脸图片包括多种朝向的人脸图片，可以为朝向终端的，也可以为侧向终端的，也可以为背向终端的。在录制的视频中用户可以处于说话状态，也可以不处于说话状态。当用户不处于说话状态时，则选择其他用户的语音段作为该用户的训练样本的语音段。该标签为预先标定的该用户是否为面对终端进行说话的用户。

将该语音段和多帧连续的人脸图片从输入层输入，输入实际可以为矩阵组成的向量，然后卷积层利用权值不同的卷积核对原始图像或特征图(feature map)进行扫描卷积，从中提取各种意义的特征，并输出至特征图中，池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合，即对特征图进行降维操作，保留特征图中的主要特征。两层之间所有神经元都有权重连接，通常全连接层在卷积神经网络尾部。最后特征经过分类层之后输出结果。

当模型的输出与标签之间的误差值小于预先设定的符合业务要求的阈值时，停止训练。利用这种具有卷积、池化操作的深度神经网络模型，可以对声音和图片的变形、模糊、噪声等具有较高的鲁棒性，对于分类任务具有更高的可泛化性。

通过上述的模型训练过程，得到了人脸声纹特征模型，在使用该预设的人脸声纹特征模型时，将本次对话和提取的目标人脸的人脸图像输入至人脸声纹特征模型中，该人脸声纹特征模型能够输出分类结果，根据该分类结果确定该目标人脸对应的用户是否为面对终端说话的用户。在具体应用过程中，还缓存该特征层输出的用户特征，以便获取目标用户的用户特征。

本实施例通过使用深度卷积神经网络模型提取人脸声纹特征，进行身份识别，能够准确的区分对话的来源，找到每个人的对话上下文，提高多人场景下的对话体验。

图5为本发明实施例提供的基于语音交互的上下文获取设备的结构示意图。如图5所示，该基于语音交互的上下文获取设备50包括：采集模块501、确定模块502、匹配模块503以及获取模块504。可选地，还包括建模模块505。

采集模块501，用于获取本次对话以及在预设时间段内采集的连续的多帧图片；所述预设时间段为所述本次对话的语音起点至语音终点之间的时间段；

确定模块502，用于获取所述多帧图片中的共有目标人脸针对每帧图片的人脸图像，并根据每个所述目标人脸在每帧图片中的人脸图像和所述本次对话，确定本次对话归属的目标用户的第一用户特征，所述第一用户特征包括人脸特征和声纹特征；

匹配模块503，用于若在人脸声纹数据库中确定存在与所述第一用户特征匹配的第二用户特征，则从所述人脸声纹数据库中获取所述第二用户特征对应的第一用户标识；

获取模块504，用于若确定语音数据库中存储有所述第一用户标识对应的已存对话，则根据所述本次对话与所述已存对话确定语音交互的上下文，并将所述本次对话存储至所述语音数据库中。

可选地，所述匹配模块503，还用于

可选地，所述获取模块504具体用于：

可选地，所述获取模块504还用于：若确定所述上一对话的语音终点与所述本次对话的语音起点之间的时间间隔大于预设间隔，在所述语音数据库中删除关联存储的所述第一用户标识和对应的已存对话。

可选地，所述匹配模块503还用于：

可选地，所述确定模块502具体用于：

可选地，所述建模模块505用于获取训练样本，各所述训练样本包括人脸图片以及关联的语音段和标签；

可选地，所述人脸声纹特征模型为深度卷积神经网络模型，所述特征层包括卷积层、池化层以及全连接层。

本实施例提供的基于语音交互的上下文获取设备，其实现原理和技术效果与上述的方法实施例类似，本实施例此处不再赘述。

图6为本发明实施例提供的基于语音交互的上下文获取设备的硬件结构示意图。如图6所示，该基于语音交互的上下文获取设备60包括：至少一个处理器601和存储器602。可选地，该语音交互的上下文获取设备60还包括通信部件603。其中，处理器601、存储器602以及通信部件603通过总线604连接。

在具体实现过程中，至少一个处理器601执行所述存储器602存储的计算机执行指令，使得至少一个处理器601执行如上的基于语音交互的上下文获取方法。

通信部件603可以与其它设备进行数据交互。

处理器601的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的6所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的基于语音交互的上下文获取方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于语音交互的上下文获取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，若在人脸声纹数据库中确定不存在与所述第一用户特征匹配的第二用户特征，所述方法还包括：

生成所述目标用户的第二用户标识；

3.根据权利要求1所述的方法，其特征在于，所述根据所述本次对话与所述已存对话确定语音交互的上下文，包括：

4.根据权利要求3所述的方法，其特征在于，若确定所述上一对话的语音终点与所述本次对话的语音起点之间的时间间隔大于预设间隔，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述获取所述多帧图片中的共有目标人脸针对每帧图片的人脸图像，并根据每个所述目标人脸在每帧图片中的人脸图像和所述本次对话，确定本次对话归属的目标用户的第一用户特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述本次对话和所述目标人脸对应的多个人脸图像输入至预设的人脸声纹特征模型中之前，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述人脸声纹特征模型为深度卷积神经网络模型，所述特征层包括卷积层、池化层以及全连接层。

9.一种基于语音交互的上下文获取设备，其特征在于，包括：

10.根据权利要求9所述的设备，其特征在于，所述匹配模块，还用于

11.根据权利要求9所述的设备，其特征在于，所述获取模块具体用于：

12.根据权利要求11所述的设备，其特征在于，所述获取模块还用于：若确定所述上一对话的语音终点与所述本次对话的语音起点之间的时间间隔大于预设间隔，在所述语音数据库中删除关联存储的所述第一用户标识和对应的已存对话。

13.根据权利要求9所述的设备，其特征在于，所述匹配模块还用于：

14.根据权利要求9至13任一项所述的设备，其特征在于，所述确定模块具体用于：

15.根据权利要求14所述的设备，其特征在于，还包括：建模模块；

16.根据权利要求15所述的设备，其特征在于，所述人脸声纹特征模型为深度卷积神经网络模型，所述特征层包括卷积层、池化层以及全连接层。

17.一种基于语音交互的上下文获取设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至8任一项所述的基于语音交互的上下文获取方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至8任一项所述的基于语音交互的上下文获取方法。