CN107220532B

CN107220532B - 用于通过声音识别用户身份的方法及设备

Info

Publication number: CN107220532B
Application number: CN201710225904.8A
Authority: CN
Inventors: 刘锐
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2017-04-08
Filing date: 2017-04-08
Publication date: 2020-10-23
Anticipated expiration: 2037-04-08
Also published as: CN107220532A

Abstract

本发明的实施方式提供了一种用于通过声音识别用户身份的方法。该用于通过声音识别用户身份的方法包括：根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测，其中，一个唤醒词对应至少一个用户身份信息；在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份。此外，本发明实施方式还提供了一种用于通过声音识别用户身份的设备以及计算机可读存储介质。

Description

用于通过声音识别用户身份的方法及设备

技术领域

本发明的实施方式涉及计算机技术领域，更具体地，本发明的实施方式涉及用于通过声音识别用户身份的方法、设备及计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或者上下文。此处的描述不因为包括在本部分中就承认是现有技术。

支持多用户的智能终端设备通常是指能够被多个用户使用的智能终端设备(例如，物联网设备)。支持多用户的智能终端设备可以具体为智能音箱、智能语音助手以及智能空调等。

为了使支持多用户的智能终端设备能够为其所支持的不同用户提供个性化服务(也可以称为差分化服务或者差异化服务等)，通常需要通过声音来识别用户身份；例如，在智能语音助手支持多用户的情况下，如果智能语音助手所支持的一个用户询问智能语音助手用户本人当天的日程安排，则智能语音助手应该根据对话方的用户身份获取该用户身份所对应的当天的日程安排，并答复该用户，而不是针对不同用户均给出相同的答复或者将其他用户的当天的日程安排作为对话方的当天的日程安排答复用户。

目前，对于支持多用户功能的智能终端设备而言，通过声音识别用户身份的实现方式通常为：基于声纹识别技术来识别用户身份。

发明内容

但是，由于声纹识别技术实现难度较高，因此，其所需要耗费的资源(例如，计算资源等)通常较大；如果智能终端设备本地使用声纹识别技术来识别用户身份，则不仅需要额外的考虑智能终端设备的硬件配置，还需要考虑智能终端设备在使用过程中的能源消耗，具体而言，由于声纹识别技术需要耗费较多的计算资源，因此，智能终端设备中的负责唤醒功能的芯片无法通过结构相对较为简单的小芯片来实现，然而，结构相对较为复杂的大芯片不但会影响智能终端设备的成本，还会增加智能终端设备在使用过程中的耗电量；而如果智能终端设备将声音信号上传至服务器，由相应的服务器利用声纹识别技术来实现用户身份识别，声纹识别技术的实现难度以及与智能终端设备与服务器的信息交互也会使智能终端设备的响应速度受到影响。

因此在现有技术中，由智能终端设备本地通过声音识别用户身份，会不利于降低智能终端设备的生产成本以及使用成本，而由网络侧的服务器通过声音识别用户身份，一方面不利于提高用户身份识别的准确性，另一方面不利于提高智能终端设备的响应速度，这是非常令人烦恼的技术问题。

为此，非常需要一种改进的用于通过声音识别用户身份的技术方案，在该技术方案由智能终端设备本地实现时，完全可以实现在基本上不影响智能终端设备的生产成本以及使用成本的情况下，使用户身份识别具有较佳的准确性，并使智能终端设备具有较好的响应速度。

在本上下文中，本发明的实施方式期望提供一种用于通过声音识别用户身份的方法、设备以及计算机可读存储介质。

在本发明实施方式的第一方面中，提供了一种用于通过声音识别用户身份的方法，包括：根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测，其中，一个唤醒词对应至少一个用户身份信息；在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份。

在本发明的一个实施例中，所述一个唤醒词对应一个用户身份信息，且不同唤醒词对应不同的用户身份信息。

在本发明的又一个实施例中，所述方法还包括：接收外部设备传输来的唤醒词与用户身份信息的对应关系信息，并存储所述接收到的唤醒词与用户身份信息的对应关系信息；和/或，通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息；其中，所述对应关系信息用于确定唤醒词对应的用户身份信息。

在本发明的再一个实施例中，所述通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息的步骤包括：通过与第一用户的语音交互获取第一唤醒词与所述第一用户的用户身份信息的对应关系信息。

在本发明的再一个实施例中，所述第一唤醒词是所述第一用户针对所述智能终端设备的特定称呼。

在本发明的再一个实施例中，所述外部设备包括：计算机、智能移动电话、平板电脑以及智能手表中的至少一个，且所述外部设备与所述智能终端设备通过无线网络或者蓝牙无线连接。

在本发明的再一个实施例中，所述通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息的步骤包括：在智能终端设备初次启动运行过程中，向用户发出用于设置唤醒词与用户身份信息的对应关系信息的语音邀请，在用户接受所述语音邀请的情况下，通过与用户的语音交互获取唤醒词以及用户身份信息，并设置获取到的唤醒词与用户身份信息的对应关系信息；和/或，在智能终端设备运行过程中，在接收到用户发出的用于设置唤醒词与用户身份信息的对应关系信息的语音命令的情况下，通过与用户的语音交互获取唤醒词以及用户身份信息，并设置获取到的唤醒词与用户身份信息的对应关系信息。

在本发明的再一个实施例中，所述用户身份信息包括：用于表征用户角色的信息和/或用户在应用中的注册账号。

在本发明的再一个实施例中，所述根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的步骤包括：将智能终端设备拾取的声音信号转换为文本信息；检测所述文本信息中是否包含有预先设置的所有唤醒词中的任一唤醒词。

在本发明的再一个实施例中，所述根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的步骤包括：检测智能终端设备拾取的声音信号与针对预先设置的各唤醒词而设置的各声学模型的匹配度；判断各声学模型与所述声音信号的匹配度是否符合预设匹配要求。

在本发明的再一个实施例中，所述在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份的步骤包括：在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据预先设置的唤醒词与用户身份信息的对应关系信息确定所述检测出的唤醒词对应的用户身份信息，并根据所述确定出的用户身份信息识别出发出所述声音信号的用户身份；或者，在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据预先设置的唤醒词、验证码与用户身份信息的对应关系信息确定所述检测出的唤醒词对应的验证码以及用户身份信息，向用户发出用于获取验证码的语音请求，在检测出用户的语音回复中包含有所述确定出的验证码的情况下，则根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份。

在本发明的再一个实施例中，所述智能终端设备包括：智能音箱。

在本发明实施方式的第二方面中，提供一种设备，包括：唤醒词检测模块，用于根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测，其中，一个唤醒词对应至少一个用户身份信息；以及用户身份识别模块，用于在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份。

在本发明实施方式的第三方面中，提供一种设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，下述指令被运行：用于根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的指令，其中，一个唤醒词对应至少一个用户身份信息；在检测出所述声音信号包含有预先设置的唤醒词的情况下，用于根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份的指令。

在本发明的又一个实施例中，所述设备还包括：用于接收外部设备传输来的唤醒词与用户身份信息的对应关系信息，并存储所述接收到的唤醒词与用户身份信息的对应关系信息的指令；和/或，用于通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息的指令；其中，所述对应关系信息用于确定唤醒词对应的用户身份信息。

在本发明的再一个实施例中，所述用于通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息的指令具体为：用于通过与第一用户的语音交互获取第一唤醒词与所述第一用户的用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息的指令。

在本发明的再一个实施例中，所述用于通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息的指令包括：用于在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据预先设置的唤醒词与用户身份信息的对应关系信息确定所述检测出的唤醒词对应的用户身份信息，并根据所述确定出的用户身份信息识别出发出所述声音信号的用户身份的指令；和/或，用于在智能终端设备运行过程中，在接收到用户发出的用于设置唤醒词与用户身份信息的对应关系信息的语音命令的情况下，通过与用户的语音交互获取唤醒词以及用户身份信息，并设置获取到的唤醒词与用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息的指令。

在本发明的再一个实施例中，所述用于根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的指令包括：用于将智能终端设备拾取的声音信号转换为文本信息的指令；用于检测所述文本信息中是否包含有预先设置的所有唤醒词中的任一唤醒词的指令。

在本发明的再一个实施例中，所述用于根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的指令包括：用于检测智能终端设备拾取的声音信号与针对预先设置的各唤醒词而设置的各声学模型的匹配度的指令；用于判断各声学模型与所述声音信号的匹配度是否符合预设匹配要求的指令。

在本发明的再一个实施例中，所述在检测出所述声音信号包含有预先设置的唤醒词的情况下，用于根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份的指令包括：在检测出所述声音信号包含有预先设置的唤醒词的情况下，用于利用所述检测出的唤醒词在预先设置的唤醒词与用户身份信息的对应关系信息中查找匹配记录，并根据匹配记录中的用户身份信息识别出发出所述声音信号的用户身份；或者，在检测出声音信号包含有预先设置的唤醒词的情况下，用于根据预先设置的唤醒词、验证码与用户身份信息的对应关系信息确定所述检测出的唤醒词对应的验证码以及用户身份信息，向用户发出用于获取验证码的语音请求，在检测出用户的语音回复中包含有所述确定出的验证码的情况下，则根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份的指令。

在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现步骤：根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测，其中，一个唤醒词对应至少一个用户身份信息；在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份。

根据本发明实施方式的用于通过声音识别用户身份的方法、设备以及计算机可读存储介质，本发明实施方式通过预先为一个唤醒词设置一个或者多个用户身份信息，这样，在检测出智能终端设备当前拾取的声音信号包含有预先设置的唤醒词的情况下，可以快速准确的根据检测出的唤醒词所对应的用户身份信息识别出发出该声音信号的用户身份；由于检测声音信号是否包含有唤醒词的实现方案所需要耗费的资源通常较小，且完全可以由智能终端设备中的结构相对较为简单的负责唤醒功能的芯片来实现，当然，也可以将唤醒和识别都放在同一个主芯片中进行，但唤醒词的检测和识别功能仅占用主芯片的很小比例的运算资源(比如不超过10％)，在检测和识别出唤醒词时，再唤醒主芯片的语音识别功能、开始全力工作；因此，本发明实施方式在由智能终端设备本地实现的情况下，基本上不需要额外考虑智能终端设备的硬件配置以及智能终端设备在使用过程中的能源消耗，且智能终端设备会具有较好的响应速度；即便是本发明实施方式的部分步骤由服务器执行，由于服务器是利用一个唤醒词所对应的相应用户身份信息来确定用户身份，因此，完全可以不需要用户声音的细节特征，甚至可以不需要智能终端设备向其传输声音信号，从而可以避免声音的细节特征被滤除而对用户身份识别的准确性所产生的影响，也可以避免声纹识别技术以及声音信号的传输而给智能终端设备的响应速度带来的影响。由此可知，本发明实施方式提供的技术方案有效降低了用户身份识别的难度，并能够在一定程度上提高用户身份识别的准确性以及智能终端设备的响应速度，从而本发明实施方式具有实现成本低以及便于推广应用等特点。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的可以在其中实现的应用场景示意图；

图2示意性地示出了根据本发明一实施例的用于通过声音识别用户身份的方法流程图；

图3示意性地示出了根据本发明一实施例的设备的结构示意图；

图4示意性地示出了根据本发明一实施例的计算机的结构示意图；

图5示意性地示出了根据本发明一实施例的计算机可读存储介质的示意图。

在附图中，相同或者对应的标号表示相同或者对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件或者完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种用于通过声音识别用户身份的方法、设备以及计算机可读存储介质。

在本文中，需要理解的是，本发明实施方式所涉及的术语唤醒词通常是指用于唤醒智能终端设备(尤其是物联网设备)的短句或者词组，智能终端设备可以具体为智能音箱等物联网设备；术语声音也可以称为语音，且通常是指由人发出的声音，当然，本发明实施方式也不排除声音由设备发出的可能性，即本发明实施方式可以将由设备播放的音频信号作为声音；术语用户身份通常可以唯一标识出一个用户。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，由于声纹识别技术实现难度较高，因此，其所需要耗费的资源(例如，计算资源等)通常较大；如果智能终端设备本地使用声纹识别技术来识别用户身份，则不仅需要额外考虑智能终端设备的硬件配置，还需要考虑智能终端设备在使用过程中的能源消耗，具体而言，由于声纹识别技术需要耗费较多的计算资源，因此，智能终端设备中的负责唤醒功能的芯片无法通过结构相对较为简单的小芯片来实现，然而，结构相对较为复杂的大芯片不但会影响智能终端设备的成本，还会增加智能终端设备在使用过程中的耗电量；而如果智能终端设备将声音信号上传至服务器，由相应的服务器利用声纹识别技术来实现用户身份识别，声纹识别技术的实现难度以及与智能终端设备与服务器的信息交互也会使智能终端设备的响应速度受到影响。

因此，针对现有技术中存在的由智能终端设备本地通过声音识别用户身份，会不利于降低智能终端设备的生产成本以及使用成本，而由网络侧的服务器通过声音识别用户身份，一方面不利于提高用户身份识别的准确性，另一方面不利于提高智能终端设备的响应速度的技术问题，提供了一种用于通过声音识别用户身份的方法和设备，通过预先为一个唤醒词设置一个或者多个用户身份信息，这样，在检测出智能终端设备当前拾取的声音信号包含有预先设置的唤醒词的情况下，可以快速准确的根据检测出的唤醒词所对应的用户身份信息识别出发出该声音信号的用户身份；由于检测声音信号是否包含有唤醒词的实现方案所需要耗费的资源通常较小，且完全可以由智能终端设备中的结构相对较为简单的负责唤醒功能的芯片来实现，当然，也可以将唤醒和识别都放在同一个主芯片中进行，但唤醒词的检测和识别功能仅占用主芯片的很小比例的运算资源(比如不超过10％)，在检测和识别出唤醒词时，再唤醒主芯片的语音识别功能、开始全力工作；因此，本发明实施方式在由智能终端设备本地实现的情况下，基本上不需要额外考虑智能终端设备的硬件配置以及智能终端设备在使用过程中的能源消耗，且智能终端设备会具有较好的响应速度；即便是本发明实施方式的部分步骤由服务器执行，由于服务器是利用一个唤醒词所对应的相应用户身份信息来确定用户身份，因此，完全可以不需要用户声音的细节特征，甚至可以不需要智能终端设备向其传输声音信号，从而可以避免声音的细节特征被滤除而对用户身份识别的准确性所产生的影响，也可以避免声纹识别技术以及声音信号的传输而给智能终端设备的响应速度带来的影响。由此可知，本发明实施方式提供的技术方案有效降低了用户身份识别的难度，并能够在一定程度上提高用户身份识别的准确性以及智能终端设备的响应速度，从而本发明实施方式具有实现成本低以及便于推广应用等特点。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，示意性地示出了根据本发明实施方式的可以在其中实现的应用场景。

图1中，智能终端设备100是能够支持多用户的智能终端设备(图1中示意性的示出了两个用户，且这两个用户通常具有不同的用户身份)，该支持多用户的智能终端设备100可以为其所支持的各用户提供个性化服务；例如，在图1中的智能终端设备100为智能音箱(具有智能语音助手功能)或者智能语音助手(下述以智能音箱为例进行说明)等，且该智能音箱支持第一用户以及第二用户的情况下，如果第一用户询问智能音箱用户本人当天的日程安排，则该智能音箱应该能够根据当前对话方的声音识别出当前对话方的用户身份为第一用户，从而智能音箱应获取第一用户所对应的当天的日程安排，并答复第一用户；而如果第二用户询问智能音箱用户本人当天的日程安排，则该智能音箱应该能够根据当前对话方的声音识别出当前对话方的用户身份为第二用户，从而智能音箱应获取第二用户所对应的当天的日程安排，并答复第二用户；由此可知，虽然第一用户和第二用户均向智能音箱询问了同样的问题(即均询问其当天的日程安排)，但是，智能音箱分别向第一用户和第二用户所给出的答复可以是完全不同的答复。

然而，本领域技术人员完全可以理解，本发明实施方式的适用场景不受到该框架任何方面的限制。

示例性方法

下面结合图1所示的应用场景，参考图2来描述根据本发明示例性实施方式的用于通过声音识别用户身份的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

参见图2，示意性地示出了根据本发明一实施例的用于通过声音识别用户身份的方法的流程图，且该方法通常是在用户的智能终端设备中执行，例如，该方法可以在用户的智能音箱、智能语音助手以及智能空调等物联网设备中执行。当然，本发明实施方式也不排除该方法由服务器实现或者由智能终端设备以及服务器共同实现的可能性。

本发明实施方式的方法主要包括：步骤S210以及S220；可选的，本发明实施方式的方法还可以包括：步骤S200。下面对本发明实施方式所包括的各步骤分别进行说明。

S200、设置唤醒词与用户身份信息的对应关系信息。

作为示例，本发明实施方式中的唤醒词主要用于唤醒智能终端设备，且唤醒词可以具体为短句或者词组等，当然，该唤醒词也可以为包含有较多内容(如较多汉字或者较多单词)的一句话。

作为示例，本发明实施方式中的用户身份信息可以是用户标识信息，即一个用户身份信息可以表征出一个用户。用户身份信息可以具体为用于表征用户角色的信息，例如，用户身份信息可以具体为表征出该用户在家庭中的角色(如妈妈、爸爸或者儿子等)的信息，再例如，用户身份信息可以具体为表征出该用户在公司中的角色(如经理或者经理助理等)的信息。用户身份信息也可以为用户在应用中的注册账号，例如，用户在即时通信工具(如微信或者QQ等)或者网易邮箱中的注册账号等。当然，用户身份信息还可以具体为用于表征用户角色的信息以及用户在应用中的注册账号。本发明实施方式不限制用户身份信息的具体表现形式。

作为示例，本发明实施方式中预先设置的唤醒词与用户身份信息的对应关系信息主要用于确定唤醒词对应的用户身份信息。在本发明实施方式中的唤醒词与用户身份信息的对应关系信息中，一个唤醒词可以对应至少一个用户身份信息，也就是说，本发明实施方式允许两个或者更多用户身份信息对应相同的唤醒词，然而，在实际应用中，一个唤醒词通常仅对应一个用户身份信息，即不同的用户身份信息对应不同的唤醒词。

作为示例，本发明实施方式中的唤醒词与用户身份信息的对应关系信息可以是在智能终端设备出厂时预先设置好，并存储于智能终端设备中的，且用户在使用智能终端设备的过程中，可以对前述预先设置好的唤醒词与用户身份信息的对应关系信息进行维护，例如修改已有的唤醒词与用户身份信息的对应关系信息、删除已有的唤醒词与用户身份信息的对应关系信息或者新增唤醒词与用户身份信息的对应关系信息等；当然，本发明实施方式中的唤醒词与用户身份信息的对应关系信息也可以是在智能终端设备出厂之后，完全由用户在使用智能终端设备的过程中动态设置，并存储于智能终端设备中的。

作为示例，本发明实施方式可以通过与外部设备的信息传输来设置唤醒词与用户身份信息的对应关系信息，且该外部设备可以具体为智能移动电话或者平板电脑或者计算机或者智能手表等智能电子设备。本发明实施方式中的与外部设备的信息传输可以通过与外部设备有线连接方式实现，例如，与外部设备通过USB(Universal Serial Bus，通用串行总线)有线连接，以实现信息的有线传输；本发明实施方式中的与外部设备的信息传输也可以通过无线连接方式实现，例如，与外部设备基于无线网络或者蓝牙或者红外等方式无线连接，以实现信息的无线传输。

本发明实施方式的通过与外部设备的信息传输来设置唤醒词与用户身份信息的对应关系信息的一个具体例子为，用户可以通过智能移动电话或者平板电脑或者计算机或者智能手表等智能电子设备中的应用所提供的用户交互界面来采集唤醒词以及用户身份信息，并根据预定格式设置采集到的唤醒词与用户身份信息的对应关系信息，然后，将该对应关系信息传输给智能音箱等智能终端设备，由智能终端设备存储其接收到的该对应关系信息。在该具体例子中，外部设备可以指示智能终端设备清除其原来存储的对应关系信息，并存储当前接收到的对应关系信息；外部设备也可以指示智能终端设备保留其原来存储的对应关系信息，并在原来存储的对应关系信息的基础上添加当前接收到的对应关系信息；外部设备还可以指示智能终端设备利用当前接收到的对应关系信息来修改其原来存储的对应关系信息，例如，指示智能终端设备利用当前接收到的对应关系中的唤醒词替换其原来存储的相应对应关系中的唤醒词等。该例子中的应用可以为独立应用(例如，浏览器或者专用于实现该对应关系信息设置的APP等)或者嵌入在微信或者QQ等应用中的第三方应用等。

作为示例，本发明实施方式可以通过智能终端设备与用户的语音交互获取唤醒词与用户身份信息的对应关系信息，并存储其获取到的唤醒词与用户身份信息的对应关系信息；具体的，本发明实施方式可以在智能终端设备初次启动运行过程中，向用户发出用于设置唤醒词与用户身份信息的对应关系信息的语音邀请，在检测出用户接受该语音邀请的情况下，通过与用户的语音交互来获取唤醒词以及用户身份信息，并设置当前获取到的唤醒词与用户身份信息的对应关系信息；本发明实施方式也可以在智能终端设备后续运行过程中，在接收到用户发出的用于设置唤醒词与用户身份信息的对应关系信息的语音命令的情况下，通过智能终端设备与用户的语音交互来获取唤醒词以及用户身份信息，然后，设置获取到的唤醒词与用户身份信息的对应关系信息，并存储。

一个具体的例子，用户在购买了智能终端设备，且第一次加电启动该智能终端设备，以使智能终端设备初次运行的应用场景中，通过智能终端设备主动向用户发出用于设置唤醒词与用户身份信息的对应关系信息的语音邀请，例如，智能终端设备在初次启动并运行后，发出“主人你好，我想认识一下你，可以吗？”的语音；在检测到用户接受了该语音邀请(例如，智能终端设备检测到用户说“可以”或者“好啊”或者“好”或者“嗯”等)的情况下，可以利用智能终端设备继续通过与用户的语音交互来获取唤醒词以及用户身份信息，例如，通过智能终端设备继续发出“主人，你打算怎样称呼我呢”的语音，设定本发明实施方式检测到用户说“我想称呼你为小智小智”，则本发明实施方式可以将“小智小智”作为唤醒词，之后，通过智能终端设备继续发出“主人，您的手机号码可以告诉我吗？”的语音，设定本发明实施方式检测到用户说“我的手机号码是**”，则本发明实施方式可以将该手机号码作为用户身份信息或者用户身份信息的一部分，之后，本发明实施方式可以在区分男声、女声及童声的基础上，通过智能终端设备继续发出“我猜您一定是家里的男主人”等语音，以进一步获取用户身份信息；在成功获取到唤醒词以及用户身份信息后，本发明实施方式将唤醒词以及用户身份信息按照预定格式进行存储，从而针对当前用户成功设置唤醒词与用户身份信息的对应关系信息。

另一个具体的例子，智能终端设备在用户的家中被使用了一段时间之后，用户希望该智能终端设备能够为其家中新增加的一位成员也提供个性化服务，该用户可以主动向智能终端设备发出用于设置唤醒词与用户身份信息的对应关系信息的语音命令，例如，该用户可以向智能终端设备说“小智小智，请认识一位新成员”；本发明实施方式在检测到用户发出了用于设置唤醒词与用户身份信息的对应关系信息的语音命令之后，可以通过与用户的语音交互获取唤醒词以及用户身份信息，例如，通过智能终端设备可以发出“非常荣幸，主人，请问这位新成员打算怎样称呼我呢？”的语音，设定本发明实施方式检测到用户说“他想称呼你为大智大智”，则本发明实施方式可以将“大智大智”作为唤醒词，之后，通过智能终端设备继续发出“主人，这位新成员的手机号码可以告诉我吗？”的语音，设定本发明实施方式检测到用户说“他的手机号码是**”，则本发明实施方式可以将该手机号码作为用户身份信息或者用户身份信息的一部分，之后，本发明实施方式可以在区分男声、女声及童声的基础上，通过智能终端设备继续发出“我猜这位新成员一定是家里的小主人”等语音，以进一步获取用户身份信息；在成功获取到唤醒词以及用户身份信息后，本发明实施方式可以将唤醒词以及用户身份信息按照预定格式进行存储，从而针对当前用户成功设置唤醒词与用户身份信息的对应关系信息。

需要特别说明的是，本发明实施方式可以通过与第一用户的语音交互获取第一唤醒词与该第一用户的用户身份信息的对应关系信息，即用户为自己设置唤醒词以及用户身份信息；本发明实施方式也可以通过与第一用户的语音交互获取第二唤醒词与第二用户的用户身份信息的对应关系信息，即用户为其他用户设置唤醒词以及用户身份信息。另外，本发明实施方式中的唤醒词与用户身份信息的对应关系信息可以为文本形式的唤醒词与用户身份信息的对应关系信息，也可以为声学模型形式的唤醒词与用户身份信息的对应关系信息。本发明实施方式可以采用现有的声学模型构建方式为各用户的唤醒词构建相应的声学模型，建立声学模型的技术已较成熟，本发明实施方式在此不对建立声学模型的具体实现方式进行详细说明。

作为示例，在一些应用场景中，唤醒词通常会被设置为用户对智能终端设备的特定称呼(即特定称谓)，例如，在上述的具体例子中“小智小智”以及“大智大智”均是用户对智能终端设备的特定称谓。本发明实施方式不限制唤醒词的具体表现形式。

作为示例，本发明实施方式建立的唤醒词与用户身份信息的对应关系信息中还可以包括：验证码；即本发明实施方式可以建立唤醒词、验证码以及用户身份信息的对应关系信息，该验证码主要用于提高用户身份识别的安全性以及准确性，也就是说，本发明实施方式通过使用验证码可以在一定程度上避免用户使用其他用户的唤醒词。

S210、根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测。

作为示例，本发明实施方式可以采用将语音识别为文字的技术来实现唤醒词检测，具体的，设定本发明实施方式中预先设置有文本形式的唤醒词与用户身份信息的对应关系信息，在该情况下，本发明实施方式可以先将智能终端设备拾取的声音信号进行预处理(当然，本发明实施方式也可以不进行预处理操作)，例如，本发明实施方式对智能终端设备拾取的声音信号进行与噪音、回声以及混响等相关的预处理；然后，本发明实施方式可以将预处理后的声音信号转换为文本信息，然后，再检测该文本信息中是否包含有预先设置的所有唤醒词中的任一个唤醒词，例如，从该文本信息中提取各关键词，并依次将提出的关键词在当前存储的各唤醒词中进行匹配查找，如果查找到与关键词匹配的唤醒词，则本发明实施方式检测出声音信号包含有预先设置的唤醒词，如果未查找到与关键词匹配的唤醒词，则检测出声音信号未包含有预先设置的唤醒词。需要特别说明的是，本发明实施方式在依次将提出的关键词在当前存储的各唤醒词中进行匹配查找的过程中，可以在查找到与关键词匹配的唤醒词时，停止后续关键词的查找过程；当然，本发明实施方式也可以在查找到与关键词匹配的唤醒词时，继续后续关键词的查找过程，即针对提出的所有关键词均进行匹配查找，而如果查找到两个或者更多关键词均存在匹配的唤醒词，则本发明实施方式可以将优先级高的唤醒词作为本次最终查找到的唤醒词。

作为示例，本发明实施方式可以采用声学模型的技术来实现唤醒词检测，具体的，设定本发明实施方式中预先设置有声学模型形式的唤醒词与用户身份信息的对应关系信息，在该情况下，本发明实施方式可以先将智能终端设备拾取的声音信号进行预处理，例如，对智能终端设备拾取的声音信号进行与噪音、回声以及混响等相关的预处理；然后，再计算预处理后的声音信号与预先设置的各声学模型的匹配度，并从计算结果中选取出最高匹配度，然后，判断该最高匹配度是否满足预定匹配要求，如果该最高匹配度满足预定匹配要求，则检测出声音信号包含有预先设置的唤醒词，而如果该最高匹配度不满足预定匹配要求，则检测出声音信号未包含有预先设置的唤醒词。本发明实施方式可以采用现有的匹配度计算方式来计算声音信号与声学模型的匹配度，计算匹配度的技术已较成熟，本发明实施方式在此不对计算匹配度的具体实现方式进行详细说明。

S220、在检测出声音信号包含有预先设置的唤醒词的情况下，根据检测出的唤醒词对应的用户身份信息识别出发出该声音信号的用户身份。

作为示例，本发明实施方式在检测出声音信号包含有预先设置的唤醒词的情况下，可以根据预先设置的唤醒词与用户身份信息的对应关系信息确定检测出的唤醒词对应的用户身份信息，例如，利用检测出的唤醒词在预先设置的对应关系中查找匹配记录，并从匹配记录中获取用户身份信息，该获取到的用户身份信息即表示出本发明实施方式识别出的发出声音信号的用户身份。

作为示例，本发明实施方式在检测出声音信号包含有预先设置的唤醒词的情况下，在核查验证码的基础上识别用户身份，以提高用户身份识别的安全性。

一个具体的例子，本发明实施方式在检测出声音信号包含有预先设置的唤醒词的情况下，可以根据预先设置的唤醒词、验证码与用户身份信息的对应关系信息确定当前检测出的唤醒词所对应的验证码，例如，利用检测出的唤醒词在预先设置的对应关系中查找匹配记录，并从匹配记录中获取验证码以及用户身份信息，同时，可以向用户发出用于获取验证码的语音请求，例如，通过智能终端设备发出“小智请求小主人的验证码”的语音；本发明实施方式可以判断智能终端设备当前拾取到的用户的语音回复中是否包含有匹配记录中的验证码，例如，可以先将智能终端设备拾取的声音信号转换为文本信息，然后，再检测该文本信息中是否包含有上述从匹配记录中获取到的验证码，如果包含有从匹配记录中获取到的验证码，则本次验证通过，上述从匹配记录中获取到的用户身份信息即表示出本发明实施方式识别出的发出声音信号的用户身份；如果未包含有从匹配记录中获取到的验证码，则本次验证失败，本发明实施方式可以提示用户与本次验证失败相关的提示信息，例如，通过智能终端设备发出“小主人，验证码有点问题哦，小智再次请求小主人的验证码”的语音。本发明实施方式可以预先设置身份验证的次数上限，在验证次数达到身份验证的次数上限时，可以结束本次身份识别的过程，并提示用户。

示例性设备

在介绍了本发明示例性实施方式的方法之后，接下来，参考图3对本发明示例性实施方式的用于通过声音识别用户身份的设备进行说明。

参见图3，示意性地示出了根据本发明一实施例的用于通过声音识别用户身份的设备的结构示意图，该设备通常设置于用户的智能终端设备中，例如，该设备可以设置于用户的智能音箱、智能语音助手以及智能空调等物联网设备中。当然，本发明实施方式也不排除该设备设置于服务器中，或者该设备的一部分(例如，唤醒词检测模块310)设置于智能终端设备中，而另一部分(例如，用户身份识别模块320)设置于服务器中的可能性。

本发明实施方式的设备主要包括：唤醒词检测模块310以及用户身份识别模块320；可选的，本发明实施方式的设备还可以包括：设置对应关系模块300。下面对本发明实施方式的各模块分别进行说明。

设置对应关系模块300主要用于设置唤醒词与用户身份信息的对应关系信息。设置对应关系模块300所建立的唤醒词与用户身份信息的对应关系信息中还可以包括：验证码；即设置对应关系模块300可以建立唤醒词、验证码以及用户身份信息的对应关系信息，该验证码主要用于提高用户身份识别的安全性以及准确性，也就是说，本发明实施方式的设备通过使用验证码可以在一定程度上避免用户使用其他用户的唤醒词。

作为示例，设置对应关系模块300可以通过与外部设备的信息传输来设置唤醒词与用户身份信息的对应关系信息，设置对应关系模块300也可以通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息，并存储获取到的唤醒词与用户身份信息的对应关系信息；具体的例子如上述方法实施方式中针对步骤S200的描述，在此不再重复说明。

唤醒词检测模块310主要用于根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测。

作为示例，唤醒词检测模块310可以采用将语音识别为文字的技术来实现唤醒词检测，具体的，设定设置对应关系模块300预先设置了文本形式的唤醒词与用户身份信息的对应关系信息，在该情况下，唤醒词检测模块310可以先将智能终端设备拾取的声音信号进行预处理(当然，唤醒词检测模块310也可以不进行预处理操作)，例如，唤醒词检测模块310对智能终端设备拾取的声音信号进行与噪音、回声以及混响等相关的预处理；然后，唤醒词检测模块310再将预处理后的声音信号转换为文本信息，然后，唤醒词检测模块310检测该文本信息中是否包含有预先设置的所有唤醒词中的任一唤醒词，例如，唤醒词检测模块310从文本信息中提取各关键词，并依次将提出的关键词在当前存储的各唤醒词中进行匹配查找，如果查找到与关键词匹配的唤醒词，则唤醒词检测模块310检测出声音信号包含有预先设置的唤醒词，如果未查找到与关键词匹配的唤醒词，则唤醒词检测模块310检测出声音信号未包含有预先设置的唤醒词。需要特别说明的是，唤醒词检测模块310在依次将提出的关键词在当前存储的各唤醒词中进行匹配查找的过程中，可以在查找到与关键词匹配的唤醒词时，立即停止后续关键词的查找过程；当然，唤醒词检测模块310也可以在查找到与关键词匹配的唤醒词时，继续后续关键词的查找过程，即唤醒词检测模块310针对提出的所有关键词均进行匹配查找，而如果查找到两个或者更多关键词均存在匹配的唤醒词，则本唤醒词检测模块310可以将优先级高的唤醒词作为本次最终查找到的唤醒词。

作为示例，唤醒词检测模块310可以采用声学模型的技术来实现唤醒词检测，具体的，设定设置对应关系模块300预先设置了声学模型形式的唤醒词与用户身份信息的对应关系信息，在该情况下，唤醒词检测模块310可以先将智能终端设备拾取的声音信号进行预处理，例如，唤醒词检测模块310对智能终端设备拾取的声音信号进行与噪音、回声以及混响等相关的预处理；然后，唤醒词检测模块310再计算预处理后的声音信号与预先设置的各声学模型的匹配度，并从计算结果中选取出最高匹配度，然后，唤醒词检测模块310判断该最高匹配度是否满足预定匹配要求，如果该最高匹配度满足预定匹配要求，则唤醒词检测模块310检测出声音信号包含有预先设置的唤醒词，而如果该最高匹配度不满足预定匹配要求，则唤醒词检测模块310检测出声音信号未包含有预先设置的唤醒词。唤醒词检测模块310可以采用现有的匹配度计算方式来计算声音信号与声学模型的匹配度，计算匹配度的技术已较成熟，在此不对唤醒词检测模块310计算匹配度的具体实现方式进行详细说明。

用户身份识别模块320主要用于在检测出上述声音信号包含有预先设置的唤醒词的情况下，根据唤醒词检测模块310检测出的唤醒词对应的用户身份信息识别出发出上述声音信号的用户身份。

作为示例，用户身份识别模块320在唤醒词检测模块310检测出声音信号包含有预先设置的唤醒词的情况下，可以根据预先设置的唤醒词与用户身份信息的对应关系信息确定检测出的唤醒词对应的用户身份信息，例如，用户身份识别模块320利用唤醒词检测模块310检测出的唤醒词在预先设置的对应关系中查找匹配记录，并从匹配记录中获取用户身份信息，该获取到的用户身份信息即表示出用户身份识别模块320识别出的发出声音信号的用户身份。

作为示例，用户身份识别模块320在唤醒词检测模块310检测出声音信号包含有预先设置的唤醒词的情况下，在核查验证码的基础上识别用户身份，以提高用户身份识别的安全性。

一个具体的例子，用户身份识别模块320在唤醒词检测模块310检测出声音信号包含有预先设置的唤醒词的情况下，根据预先设置的唤醒词、验证码与用户身份信息的对应关系信息确定当前检测出的唤醒词所对应的验证码，例如，用户身份识别模块320利用检测出的唤醒词在预先设置的对应关系中查找匹配记录，并从匹配记录中获取验证码以及用户身份信息，同时用户身份识别模块320可以向用户发出用于获取验证码的语音请求，例如，用户身份识别模块320通过智能终端设备发出“小智请求小主人的验证码”的语音；用户身份识别模块320可以触发唤醒词检测模块310判断智能终端设备当前拾取到的用户的语音回复中是否包含有匹配记录中的验证码，如唤醒词检测模块310可以先将智能终端设备拾取的声音信号转换为文本信息，然后，再检测该文本信息中是否包含有上述从匹配记录中获取到的验证码，如果包含有从匹配记录中获取到的验证码，则用户身份识别模块320确认本次验证通过，上述从匹配记录中获取到的用户身份信息即表示出用户身份识别模块320识别出的发出声音信号的用户身份；如果未包含有从匹配记录中获取到的验证码，则用户身份识别模块320确定本次验证失败，用户身份识别模块320可以提示用户与本次验证失败相关的提示信息，例如，用户身份识别模块320通过智能终端设备发出“小主人，验证码有点问题哦，小智再次请求小主人的验证码”的语音。用户身份识别模块320中可以预先设置有身份验证的次数上限，在验证次数达到身份验证的次数上限时，用户身份识别模块320可以结束本次身份识别的过程，并提示用户。

图4示出了适于用来实现本发明实施方式的示例性计算机***/服务器40的框图。图4显示的计算机***/服务器40仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机***/服务器40以通用计算设备的形式表现。计算机***/服务器40的组件可以包括但不限于：一个或者多个处理器或者处理单元401，***存储器402，连接不同***组件(包括***存储器402和处理单元401)的总线403。

计算机***/服务器40典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器40访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器402可以包括易失性存储器形式的计算机***可读介质，例如，随机存取存储器(RAM)4021和/或高速缓存存储器4022。计算机***/服务器40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，ROM 4023可以用于读写不可移动的、非易失性磁介质(图4中未显示，通常称为“硬盘驱动器”)。尽管未在图4中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线403相连。***存储器402中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块4024的程序/实用工具4025，可以存储在例如***存储器402中，且这样的程序模块4024包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块4024通常执行本发明所描述的实施例中的功能和/或方法。

计算机***/服务器40也可以与一个或多个外部设备404(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口405进行。并且，计算机***/服务器40还可以通过网络适配器406与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器406通过总线403与计算机***/服务器40的其它模块(如处理单元401等)通信。应当明白的是，尽管图4中未示出，可以结合计算机***/服务器40使用其它硬件和/或软件模块。

处理单元401通过运行存储在***存储器402中的计算机程序，从而执行各种功能应用以及数据处理，例如，执行用于实现上述方法实施例中的各步骤的指令；具体而言，处理器401可以执行存储器402中存储的计算机程序，且该计算机程序被执行时，下述指令被运行：用于根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的指令(下述简称为第一指令)；以及，在第一指令检测出声音信号包含有预先设置的唤醒词的情况下，用于根据第一指令检测出的唤醒词对应的用户身份信息识别出发出声音信号的用户身份的指令(下述简称为第二指令)。可选的，在计算机程序被执行时，用于设置唤醒词与用户身份信息的对应关系信息的指令被执行(下述简称为第三指令)。

作为示例，上述第三指令可以包括：第四指令和/或第五指令；其中的第四指令为用于接收外部设备传输来的唤醒词与用户身份信息的对应关系信息，并存储接收到的唤醒词与用户身份信息的对应关系信息的指令；其中的第五指令为用于通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息，并存储获取到的唤醒词与用户身份信息的对应关系信息的指令。

作为示例，上述第五指令可以具体为：用于通过与第一用户的语音交互获取第一唤醒词与第一用户的用户身份信息的对应关系信息，并存储获取到的唤醒词与用户身份信息的对应关系信息的指令(下述简称为第六指令)。

作为示例，上述第六指令可以包括：第七指令和/或第八指令；其中的第七指令为用于在检测出声音信号包含有预先设置的唤醒词的情况下，根据预先设置的唤醒词与用户身份信息的对应关系信息确定检测出的唤醒词对应的用户身份信息，并根据确定出的用户身份信息识别出发出所述声音信号的用户身份的指令；其中的第八指令为用于在智能终端设备运行过程中，在接收到用户发出的用于设置唤醒词与用户身份信息的对应关系信息的语音命令的情况下，通过与用户的语音交互获取唤醒词以及用户身份信息，并设置获取到的唤醒词与用户身份信息的对应关系信息，存储获取到的唤醒词与用户身份信息的对应关系信息的指令。

作为示例，上述第一指令可以包括：第九指令以及第十指令；其中的第九指令为用于将智能终端设备拾取的声音信号转换为文本信息的指令；其中的第十指令为用于检测文本信息中是否包含有预先设置的所有唤醒词中的任一唤醒词的指令。

作为示例，上述第一指令可以包括：第十一指令以及第十二指令；其中的第十一指令为用于检测智能终端设备拾取的声音信号与针对预先设置的各唤醒词而设置的各声学模型的匹配度的指令；其中的第十二指令为用于判断各声学模型与声音信号的匹配度是否符合预设匹配要求的指令。

作为示例，上述第二指令可以包括：第十三指令或者第十四指令；其中的第十三指令可以具体为在第一指令检测出声音信号包含有预先设置的唤醒词的情况下，用于利用第一指令检测出的唤醒词在预先设置的唤醒词与用户身份信息的对应关系信息中查找匹配记录，并根据匹配记录中的用户身份信息识别出发出声音信号的用户身份；其中的第十四指令可以具体为在第一指令检测出声音信号包含有预先设置的唤醒词的情况下，用于根据预先设置的唤醒词、验证码与用户身份信息的对应关系信息确定第一指令检测出的唤醒词对应的验证码以及用户身份信息，向用户发出用于获取验证码的语音请求，在检测出用户的语音回复中包含有上述确定出的验证码时，根据检测出的唤醒词对应的用户身份信息识别出发出声音信号的用户身份的指令。

上述第一指令至第十四指令所执行的具体操作如上述方法实施方式中的描述，在此不再详细说明。

本发明实施方式的计算机可读存储介质一个具体例子如图5所示。

图5的计算机可读存储介质为光盘500，其上存储有计算机程序(即程序产品)，该程序被处理器执行时，会实现上述方法实施方式中所记载的各步骤，例如，根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测，其中，一个唤醒词对应至少一个用户身份信息；在检测出声音信号包含有预先设置的唤醒词的情况下，根据上述检测出的唤醒词对应的用户身份信息识别出发出声音信号的用户身份。各步骤的具体实现方式在此不再重复说明。

应当注意，尽管在上文详细描述中提及了用于通过声音识别用户身份的设备的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种用于通过声音识别用户身份的方法，包括：

根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测，其中，一个唤醒词对应一个用户身份信息，且不同唤醒词对应不同的用户身份信息，所述唤醒词为用户预先设置的对所述智能终端设备的特定称呼；

通过语音识别技术将所述声音信号转换为文字，在检测出声音信号转换的文字中包含有预先设置的唤醒词的情况下，根据检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份。

2.如权利要求1所述的方法，其中，所述方法还包括：

接收外部设备传输来的唤醒词与用户身份信息的对应关系信息，并存储所述接收到的唤醒词与用户身份信息的对应关系信息；和/或

通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息；

其中，所述对应关系信息用于确定唤醒词对应的用户身份信息。

3.如权利要求1所述的方法，其中，所述方法还包括：

通过与第一用户的语音交互获取第一唤醒词与所述第一用户的用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息。

4.如权利要求1所述的方法，其中，所述方法还包括：

接收外部设备传输来的唤醒词与用户身份信息的对应关系信息，并存储所述接收到的唤醒词与用户身份信息的对应关系信息，所述外部设备包括：计算机、智能移动电话、平板电脑以及智能手表中的至少一个，且所述外部设备与所述智能终端设备通过无线网络或者蓝牙无线连接。

5.如权利要求1所述的方法，其中，所述方法还包括通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息的步骤，其中包括：

在智能终端设备初次启动运行过程中，向用户发出用于设置唤醒词与用户身份信息的对应关系信息的语音邀请，在用户接受所述语音邀请的情况下，通过与用户的语音交互获取唤醒词以及用户身份信息，并设置获取到的唤醒词与用户身份信息的对应关系信息；和/或

在智能终端设备运行过程中，在接收到用户发出的用于设置唤醒词与用户身份信息的对应关系信息的语音命令的情况下，通过与用户的语音交互获取唤醒词以及用户身份信息，并设置获取到的唤醒词与用户身份信息的对应关系信息。

6.如权利要求1所述的方法，其中，所述用户身份信息包括：用于表征用户角色的信息和/或用户在应用中的注册账号。

7.如权利要求1所述的方法，其中，所述根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的步骤包括：

将智能终端设备拾取的声音信号转换为文本信息；

检测所述文本信息中是否包含有预先设置的所有唤醒词中的任一唤醒词。

8.如权利要求1所述的方法，其中，所述根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的步骤包括：

检测智能终端设备拾取的声音信号与针对预先设置的各唤醒词而设置的各声学模型的匹配度；

判断各声学模型与所述声音信号的匹配度是否符合预设匹配要求。

9.如权利要求1至8中任一权利要求所述的方法，其中，在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份的步骤包括：

在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据预先设置的唤醒词与用户身份信息的对应关系信息确定所述检测出的唤醒词对应的用户身份信息，并根据确定出的用户身份信息识别出发出所述声音信号的用户身份；或者

在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据预先设置的唤醒词、验证码与用户身份信息的对应关系信息确定所述检测出的唤醒词对应的验证码以及用户身份信息，向用户发出用于获取验证码的语音请求，在检测出用户的语音回复中包含有确定出的验证码的情况下，则根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份。

10.如权利要求1至8中任一权利要求所述的方法，其中，所述智能终端设备包括：智能音箱。

11.一种用于通过声音识别用户身份的设备，包括：

唤醒词检测模块，用于根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测，其中，一个唤醒词对应一个用户身份信息，且不同唤醒词对应不同的用户身份信息，所述唤醒词为用户预先设置的对所述智能终端设备的特定称呼；

用户身份识别模块，用于通过语音识别技术将声音信号转换为文字，在检测出所述声音信号转换的文字中包含有预先设置的唤醒词的情况下，根据检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份。

12.一种用于通过声音识别用户身份的设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，下述指令被运行：

用于根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的指令，其中，一个唤醒词对应一个用户身份信息，且不同唤醒词对应不同的用户身份信息，所述唤醒词为用户预先设置的对所述智能终端设备的特定称呼；

通过语音识别技术将所述声音信号转换为文字，在检测出声音信号转换的文字中包含有预先设置的唤醒词的情况下，用于根据检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份的指令。

13.如权利要求12所述的设备，其中，所述设备还包括：

用于接收外部设备传输来的唤醒词与用户身份信息的对应关系信息，并存储所述接收到的唤醒词与用户身份信息的对应关系信息的指令；和/或

用于通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息的指令；

14.如权利要求12所述的设备，其中，所述设备还包括：

用于通过与第一用户的语音交互获取第一唤醒词与所述第一用户的用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息的指令。

15.如权利要求13所述的设备，其中，所述设备还包括：

用于接收外部设备传输来的唤醒词与用户身份信息的对应关系信息，并存储所述接收到的唤醒词与用户身份信息的对应关系信息的指令，所述外部设备包括：计算机、智能移动电话、平板电脑以及智能手表中的至少一个，且所述外部设备与所述智能终端设备通过无线网络或者蓝牙无线连接。

16.如权利要求12所述的设备，其中，所述设备还包括用于通过与用户的语音交互获取唤醒词与用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息的指令，其中包括：

用于在检测出所述声音信号包含有预先设置的唤醒词的情况下，根据预先设置的唤醒词与用户身份信息的对应关系信息确定检测出的唤醒词对应的用户身份信息，并根据确定出的用户身份信息识别出发出所述声音信号的用户身份的指令；和/或

用于在智能终端设备运行过程中，在接收到用户发出的用于设置唤醒词与用户身份信息的对应关系信息的语音命令的情况下，通过与用户的语音交互获取唤醒词以及用户身份信息，并设置获取到的唤醒词与用户身份信息的对应关系信息，并存储所述获取到的唤醒词与用户身份信息的对应关系信息的指令。

17.如权利要求12所述的设备，其中，所述用户身份信息包括：用于表征用户角色的信息和/或用户在应用中的注册账号。

18.如权利要求12所述的设备，其中，所述用于根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的指令包括：

用于将智能终端设备拾取的声音信号转换为文本信息的指令；

用于检测所述文本信息中是否包含有预先设置的所有唤醒词中的任一唤醒词的指令。

19.如权利要求12所述的设备，其中，所述用于根据预先设置的各唤醒词对智能终端设备拾取的声音信号进行唤醒词检测的指令包括：

用于检测智能终端设备拾取的声音信号与针对预先设置的各唤醒词而设置的各声学模型的匹配度的指令；

用于判断各声学模型与所述声音信号的匹配度是否符合预设匹配要求的指令。

20.如权利要求12至19中任一权利要求所述的设备，其中，在检测出所述声音信号包含有预先设置的唤醒词的情况下，用于根据检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份的指令包括：

在检测出所述声音信号包含有预先设置的唤醒词的情况下，用于利用所述检测出的唤醒词在预先设置的唤醒词与用户身份信息的对应关系信息中查找匹配记录，并根据匹配记录中的用户身份信息识别出发出所述声音信号的用户身份；或者

在检测出所述声音信号包含有预先设置的唤醒词的情况下，用于根据预先设置的唤醒词、验证码与用户身份信息的对应关系信息确定检测出的唤醒词对应的验证码以及用户身份信息，向用户发出用于获取验证码的语音请求，在检测出用户的语音回复中包含有确定出的验证码的情况下，则根据所述检测出的唤醒词对应的用户身份信息识别出发出所述声音信号的用户身份的指令。

21.如权利要求12至19中任一权利要求所述的设备，其中，所述智能终端设备包括：智能音箱。

22.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述权利要求1-10中任一项所述的方法。