CN109616125A

CN109616125A - 基于声纹识别的监控方法及***

Info

Publication number: CN109616125A
Application number: CN201811525386.2A
Authority: CN
Inventors: 王文波; 张树童; 彭定保; 黄开琴; 郭迪; 刘强; 胡正; 乜洪波
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-12

Abstract

本发明公开一种基于声纹识别的监控方法及***，其中所述基于声纹识别的监控方法包括：获取监控场景下的声源语音信息；提取所述声源语音信息所对应的声纹特征，并将所提取的声纹特征与预配置的期望声纹特征进行比对；当所述所提取的声纹特征与所述期望声纹特征相匹配时，解析所述声源语音信息所对应的声源方向；以及监控采集在所述声源方向上的监控画面。由此，将声纹识别技术应用在监控设备中，能够针对监控对象的声纹方向而调整监控设备的采集动作，保障在所采集的监控画面上存在目标监控对象。

Description

基于声纹识别的监控方法及***

技术领域

本发明属于监控技术领域，尤其涉及一种基于声纹识别的监控方法及***。

背景技术

随着城市化节奏的不断加快，导致大多父母由于工作都无法时刻陪在孩子身边，所以在外的担忧便因此产生。因此，目前相关技术提出了在家庭中安装监控器，以让家长实时地检测孩子的状态。

但是，本申请的发明人在实践本申请的过程中发现目前相关技术中至少存在如下缺陷：监控器拍摄监控画面并将监控画面实时上传至家长手机，但是监控画面上可能并不会出现孩子的身影，导致监控结果不符合期望效果；尤其是，当孩子在家中出现异常情况而呼救时，监控设备可能因摆放位置或角度受限而无法采集到这些信息，严重影响了家庭监控设备的用户体验。

发明内容

本发明实施例提供一种基于声纹识别的监控方法及***，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种基于声纹识别的监控方法，应用于监控设备，该方法包括：获取监控场景下的声源语音信息；提取所述声源语音信息所对应的声纹特征，并将所提取的声纹特征与预配置的期望声纹特征进行比对；当所述所提取的声纹特征与所述期望声纹特征相匹配时，解析所述声源语音信息所对应的声源方向；以及监控采集在所述声源方向上的监控画面。

第二方面，本发明实施例提供一种基于声纹识别的监控***，包括：声源语音获取程序模块，用于获取监控场景下的声源语音信息；声纹提取比对程序模块，用于提取所述声源语音信息所对应的声纹特征，并将所提取的声纹特征与预配置的期望声纹特征进行比对；声源方向解析程序模块，用于当所述所提取的声纹特征与所述期望声纹特征相匹配时，解析所述声源语音信息所对应的声源方向；以及监控画面采集程序模块，用于监控采集在所述声源方向上的监控画面。

第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：将声纹识别技术应用在监控设备中，在获取监控场景的声源语音信息时，提取声源信息所对应的声纹特征，并将所提取的声纹特征与期望声纹进行比配分析从而识别说话人是否为目标监控对象；进而，在识别出目标监控对象之后，解析声源语音信息所对应的声源方向，并监控采集在声源方向上的监控画面，能够针对监控对象的声纹方向而调整监控设备的采集动作，保障在所采集的监控画面上存在目标监控对象，并允许监控设备的摆放位置或摆放角度的多样化，提高了监控设备的用户体验；例如，孩子独自在家的呼救声能够被识别出并由此调用监控设备自动采集在声源方向上的监控画面，保障了孩子能够出现在监控画面中。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例的应用于监控设备的基于声纹识别的监控方法的流程图；

图2为本发明一实施例的应用于监控设备的基于声纹识别的监控方法中用于实现监控报警识别处理的流程图；

图3A为本发明一实施例的应用于监控设备的基于声纹识别的监控方法的原理流程示意图；

图3B为本发明一实施例的应用于用户终端的基于声纹识别的监控方法的原理流程示意图；

图4为本发明一实施例的基于声纹识别的监控***的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“***”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地***、分布式***中另一元件交互的，和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本发明的一实施例的应用于监控设备的基于声纹识别的监控方法，包括：

S11、获取监控场景下的声源语音信息。

关于本发明实施例方法的执行主体，其可以是任意类型的具有录音功能和图像采集功能的监控设备，并且其还可以是作为功能模块而被附加在各种其他能够实现监控功能的各种终端上，例如故事机、手机、平板PAD等等。另外，该监控设备所应用的监控场景也可以是多样化的，例如其可以被应用在针对家庭场景下对独自在家的小孩情况的监控等等，且都属于本发明的保护范围内。

关于声源语音信息的获取方式，其可以是借助监控设备的麦克风来采集监控设备所处环境中的音频数据，并根据该音频数据来确定声源语音信息，例如可以是对音频数据进行去噪分析以去除非人声信号，从而确定出声源语音信息。

S12、提取声源语音信息所对应的声纹特征，并将所提取的声纹特征与预配置的期望声纹特征进行比对。

需说明的是，声纹特征不仅具有特定性，而且还有相对稳定性的特点，使得人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。目前，声纹特征的提取及比对技术已被应用于刑事侦查领域，通过比对犯罪分子的声纹和嫌疑人的声纹，为侦查破案提供可靠的证据。

关于本发明实施例方法中的声纹提取方式及声纹比对过程可以参照或部分借鉴目前相关技术中的具体细节描述，并且其可以是任意性的，在本发明实施例中对其也应不作限制。

进一步的，在S12之前，该方法还包括期望声纹特征配置步骤，其具体包括：获取声纹录入指令，例如用户通过远程或手动操作监控设备以生成该声纹录入指令；基于声纹录入指令，采集授权语音信息，例如监控设备此时可以基于声纹录入指令而激活麦克风来采集用户语音数据并将所采集的用户语音数据作为授权语音信息，另外监控设备还可以是远程采集授权语音信息；解析授权语音信息所对应的期望声纹特征，并存储期望声纹特征，由此，实现了解析并本地存储授权语音信息所对应的声纹特征，以便于进行后续的声纹比对操作。

S13、当所提取的声纹特征与期望声纹特征相匹配时，解析声源语音信息所对应的声源方向。

其中，当所提取的声纹特征与期望声纹特征相匹配时，证明监控场景中的说话人属于监控目标，此时则期望跟踪该监控目标以确保该监控目标能够处于监控画面中。

在一些实施方式中，可以是通过解析声源语音信息所对应的回波信号，并基于波达方向估计(DOA,Direction Of Arrival)技术分析，确定所解析的回波信号所对应的声源方向。可以理解的是，DOA技术能够通过处理接收到的回波信号，从而获取目标的距离信息和方位信息。因此，在本发明实施例方法中，应用DOA技术能够识别出说话人的声源方向。

S14、监控采集在声源方向上的监控画面。

在一些实施方式中，监控设备能够被配置成采集多个方向上的监控画面，而在解析出说话人所对应的声源方向之后，可以是仅实施或主要针对声源方向上的监控，从而保障所采集的监控画面中存在监控目标对象，提高监控设备的用户体验。

优选地，还可以是当声源方向被解析完成时，生成摄像头驱动指令，进而基于该摄像头驱动指令控制调整监控摄像头的访问，以采集在声源方向上的监控画面。作为示例，在监控设备上的摄像头是由马达能够驱动并调整位置的，基于摄像头驱动指令能够驱动马达运行以进行方位调整。

在一些应用场景中，当家中出现了危险情况时，例如有坏人闯入家中、家中保姆对孩子施暴、或者孩子在家中玩耍受伤时，家长在上班期间不会时刻查看家中的监控画面而可能导致家长遗漏这些危险画面，因此通过监控设备来实施报警操作以警示制止违法行为或者主动提示家长观看危险画面是期望的。

相应地，在一些优选实施方式中还提出了，在当所述所提取的声纹特征与所述期望声纹特征相匹配时，执行如图2所示的监控报警识别处理流程：

S21、基于语音识别技术，识别声源语音信息所对应的语义关键词。

其中，关于本发明实施例方法中所应用的语音识别技术，其可以是已有或潜在的语音识别技术，且都属于本发明的保护范围内。

S22、将所识别的语义关键词与预配置的报警关键词进行比对。

其中，报警关键词可以是各种指示危险场景下监控对象(例如孩子)可能发出来的关键词，其在此应不作限制，例如其可以是“啊”、“救命”、“着火”等等。优选地，该报警关键词还可以是由用户自定义设置的，由此还能够实现用户个性化的报警策略。

S23、根据针对所述报警关键词的比对成功的结果，控制执行监控报警操作。

其中，监控报警操作包括以下中的一者或多者：执行声光报警动作，发送警报信息至授权用户终端，以及接收来自授权用户终端的录音信息并播放录音信息。例如，在触发需要执行监控报警操作时，监控设备可以是调用预先配置在监控设备上的声光报警装置来执行声光报警动作，以震慑不法分子停止不法行为；可附加或可替换地，监控设备还可以是发送警报信息至授权用户终端(该授权用户终端可以是预先与监控设备进行绑定的用户终端)，由此以主动报警的方式来向用户(例如家长)提醒可能存在的报警行为；可附加或可替换地，用户或家长在观看了监控画面之后还可以是通过在授权用户终端录音，并将录音信息发送至监控设备，进而在监控设备上播放录音信息，由此达到震慑或指导处于危险场景的监控对象(例如孩子)。

在一些实施方式中，可以是直接根据针对报警关键词的比对成功的结果来控制执行监控报警操作，也就是，当所识别的语义关键词与预配置的报警关键词成功时直接控制执行上述的监控报警操作。更优选地，还可以是加入附加判定条件，保障报警操作执行的置信度，例如可以将声源声强引入作为附加判定条件，具体的，还可以是解析声源语音信息所对应的声源声强，然后当针对报警关键词比对成功且所解析的声源声强超过预配置的声强阈值时，监控设备才控制执行监控报警操作，由此使得监控设备在实现了主动监控报警的同时，还能够防止监控对象或孩子因恶作剧行为所引发的非必要报警操作，提高了监控报警操作的置信度。

基于国内目前现状，大多父母由于工作都无法时刻陪在孩子身边，所以在外的担忧便因此产生。所以拥有一台能时刻陪伴孩子又能监护孩子安全的机器是很有必要的。

鉴于这种情况，本发明实施例中提出基于声纹识别于一体的监控报警设备(例如故事机)，以实现利用孩子的声纹结合摄像头，产生报警通知给不在家的父母。

如图3A所示，本发明一实施例的应用于监控设备(例如故事机)的基于声纹识别的监控方法，包括：监控设备首先判断是否存在声纹录入指令，当存在时则调用麦克风(mic)监听针对监控对象的期望声纹；然后，控制麦克风实时监听监控环境下是否有声音发生，并当有声音发生时，将所采集的声音与所存储的期望声纹进行比配；之后，若比配成功，则通过DOA识别出声源方向并调用马达旋转摄像头并拍照和录像，从而能够采集到对应于声源方向的监控画面(照片和/或视频)；最后，监控终端将照片和视频通过应用服务器发送至特定的用户APP终端，保障了在监控画面中存在监控对象。如图3B所示，本发明一实施例的应用于用户终端的基于声纹识别的监控方法，通过用户对用户终端的操作还能够远程打开或关闭控制监控终端，并令监控设备采取相应的措施，例如在危险场景下家长远程控制监控设备发送警示录音等等。

在本发明实施例中，可以时刻检测是否有监控对象或孩子发出的异常声音，比如：家里误闯入坏人时孩子发出“救命”的声音；有小动物闯入或者看到害怕的东西叫出“啊”的声音等等(该声音所对应的语义关键词可以进行扩展)。另外，在监控设备识别出孩子的声音后，再通过DOA检测出孩子所在的方向，然后调用摄像头转向这个方向并拍照或者录制短视频；进而，监控设备将视频或者图片发给父母的手机APP上，或者只是让监控设备发出报警声来吓走小动物或者陌生人，也可以家长通过手机APP控制设备以达到语音和视频的实时输入，便于远程监控家里的情况。

如图4所示，本发明一实施例的基于声纹识别的监控***400，包括：

声源语音获取程序模块401，用于获取监控场景下的声源语音信息；

声纹提取比对程序模块402，用于提取所述声源语音信息所对应的声纹特征，并将所提取的声纹特征与预配置的期望声纹特征进行比对；

声源方向解析程序模块403，用于当所述所提取的声纹特征与所述期望声纹特征相匹配时，解析所述声源语音信息所对应的声源方向；以及

监控画面采集程序模块404，用于监控采集在所述声源方向上的监控画面。

上述本发明实施例的***可用于执行本发明中相应的方法实施例，并相应的达到上述本发明方法实施例所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上基于声纹识别的监控方法中的步骤。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的客户端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于声纹识别的监控方法，应用于监控设备，该方法包括：

获取监控场景下的声源语音信息；

提取所述声源语音信息所对应的声纹特征，并将所提取的声纹特征与预配置的期望声纹特征进行比对；

当所述所提取的声纹特征与所述期望声纹特征相匹配时，解析所述声源语音信息所对应的声源方向；以及

监控采集在所述声源方向上的监控画面。

2.根据权利要求1所述的方法，其中，在所述提取所述声源信息所对应的声纹特征，并将所提取的声纹特征与预配置的期望声纹特征进行比对之前，该方法还包括：

期望声纹特征配置步骤，其包括：

获取声纹录入指令；

基于所述声纹录入指令，采集授权语音信息；

解析所述授权语音信息所对应的期望声纹特征，并存储所述期望声纹特征。

3.根据权利要求1所述的方法，其中，所述当所述所提取的声纹特征与所述期望声纹特征相匹配时，解析所述声源语音信息所对应的声源方向包括：

解析所述声源语音信息所对应的回波信号；

基于波达方向估计分析，确定所解析的回波信号所对应的声源方向。

4.根据权利要求1所述的方法，其中，所述监控采集在所述声源方向上的监控画面包括：

当所述声源方向被解析完成时，生成摄像头驱动指令；

基于所述摄像头驱动指令调整监控摄像头的方位，以采集在声源方向上的监控画面。

5.根据权利要求1所述的方法，其中，所述监控采集在所述声源方向上的监控画面，包括：

调用监控摄像头，采集所述声源方向上的监控画面；以及

将所采集的监控画面同步发送至授权用户终端。

6.根据权利要求1所述的方法，其中，当所述所提取的声纹特征与所述期望声纹特征相匹配时，该方法还包括：

基于语音识别技术，识别所述声源语音信息所对应的语义关键词；

将所识别的语义关键词与预配置的报警关键词进行比对；以及

根据针对所述报警关键词的比对成功的结果，控制执行监控报警操作，其中所述监控报警操作包括以下中的一者或多者：

执行声光报警动作，

发送警报信息至授权用户终端，以及

接收来自授权用户终端的录音信息，并播放所述录音信息。

7.根据权利要求6所述的方法，其中，根据针对所述报警关键词的比对成功的结果，控制执行监控报警操作包括：

解析所述声源语音信息所对应的声源声强；

当针对所述报警关键词比对成功且所解析的声源声强超过预配置的声强阈值时，控制执行监控报警操作。

8.一种基于声纹识别的监控***，包括：

声源语音获取程序模块，用于获取监控场景下的声源语音信息；

声纹提取比对程序模块，用于提取所述声源语音信息所对应的声纹特征，并将所提取的声纹特征与预配置的期望声纹特征进行比对；

声源方向解析程序模块，用于当所述所提取的声纹特征与所述期望声纹特征相匹配时，解析所述声源语音信息所对应的声源方向；以及

监控画面采集程序模块，用于监控采集在所述声源方向上的监控画面。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。