CN108766439A

CN108766439A - 一种基于声纹识别的监控方法及装置

Info

Publication number: CN108766439A
Application number: CN201810394740.6A
Authority: CN
Inventors: 吴松海; 陈昊亮
Original assignee: Guangzhou National Sound Technology Co Ltd
Current assignee: Guangzhou National Sound Technology Co Ltd
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2018-11-06

Abstract

本发明实施例公开了一种基于声纹识别的监控方法及装置，解决了现有的监控技术一般采用摄像头，而摄像头被有意遮挡后无法正常获取图像，且摄像的结果容易受到角度和光线环境限制，导致的监控不全的技术问题。本发明实施例方法包括：S1、获取监听到的音频；S2、对所述监听到的音频进行语音识别，当所述监听到的音频中包括预置关键词时，执行步骤S3；S3、对所述监听到的音频进行声纹识别，并将所述监听到的音频对应的第一声纹与预置声纹库中的第二声纹进行比对，若匹配到相同的声纹，则发送定位信息至预警平台并响应所述预警平台。

Description

一种基于声纹识别的监控方法及装置

技术领域

本发明涉监控技术领域，尤其涉及一种基于声纹识别的监控方法及装置。

背景技术

随着摄像头和人脸识别技术日益增长发达，使用的街区，室内等应用场景，可以实时监控及布控区域范围，目标追踪，公安安全等实际应用。

现有的监控技术一般采用摄像头，而摄像头被有意遮挡后无法正常获取图像，且摄像的结果容易受到角度和光线环境限制，导致监控不全的技术问题。

发明内容

本发明提供了一种基于声纹识别的监控方法及装置，解决了现有的监控技术一般采用摄像头，而摄像头被有意遮挡后无法正常获取图像，且摄像的结果容易受到角度和光线环境限制，导致的监控不全的技术问题。

本发明提供了一种基于声纹识别的监控方法，包括：

S1、获取监听到的音频；

S2、对所述监听到的音频进行语音识别，当所述监听到的音频中包括预置关键词时，执行步骤S3；

S3、对所述监听到的音频进行声纹识别，并将所述监听到的音频对应的第一声纹与预置声纹库中的第二声纹进行比对，若匹配到相同的声纹，则发送定位信息至预警平台并响应所述预警平台。

可选地，所述步骤S1之前还包括：

S01、获取录入的音频；

S02、提取所述录入的音频中的第二声纹并保存至预置声纹库中。

可选地，所述步骤S01之后，所述步骤S02之前还包括：

对所述录入的音频中进行语音质量检测，包括：

计算所述录入的音频的第一信噪比、第一平均能量值和第一有效语音时长；

依次将所述录入的音频的第一信噪比、第一平均能量值和第一有效语音时长与对应的第一预置阈值进行比对，若第一信噪比、第一平均能量值和第一有效语音时长均高于对应的第一预设阈值，则确定所述录入的音频的语音质量合格，并执行下一步，否则提示用户重新录入音频并返回重新获取录入的音频。

可选地，所述计算所述录入的音频的第一信噪比、第一平均能量值和第一有效语音时长之前还包括：

判断所述录入的音频中的内容类型，内容类型包括随机数字、随机短语、随机长句和固定短语；

根据所述录入的音频中的内容类型确定第一有效语音时长对应的第一预置阈值。

可选地，所述步骤S3具体包括：

对所述监听到的音频进行声纹识别，提取所述监听到的音频中的第一声纹；

将所述监听到的音频中的第一声纹与预置声纹库中的第二声纹进行比对，得到匹配值；

判断匹配值是否高于预置匹配阈值，当确定匹配值高于预置匹配阈值时，发送定位信息至预警平台并响应所述预警平台。

可选地，当匹配值低于预置匹配阈值时，将所述监听到的音频中的第一声纹添加至所述预置声纹库中，并响应预警平台。

本发明提供了一种基于声纹识别的监控装置，包括：

第一获取单元，用于获取监听到的音频；

语音识别单元，用于对所述监听到的音频进行语音识别，当所述监听到的音频中包括预置关键词时，跳转至声纹比对单元；

声纹比对单元，用于对所述监听到的音频进行声纹识别，并将所述监听到的音频对应的第一声纹与预置声纹库中的第二声纹进行比对，若匹配到相同的声纹，则发送定位信息至预警平台并响应所述预警平台。

可选地，本发明提供的一种基于声纹识别的监控装置还包括：

第二获取单元，用于获取录入的音频；

声纹提取单元，用于提取所述录入的音频中的第二声纹并保存至预置声纹库中。

语音质量检测单元，用于对所述录入的音频中进行语音质量检测；

所述语音质量检测单元包括：

计算子单元，用于计算所述录入的音频的第一信噪比、第一平均能量值和第一有效语音时长；

比对子单元，用于依次将所述录入的音频的第一信噪比、第一平均能量值和第一有效语音时长与对应的第一预置阈值进行比对，若第一信噪比、第一平均能量值和第一有效语音时长均高于对应的第一预设阈值，则确定所述录入的音频的语音质量合格，并执行下一步，否则提示用户重新录入音频并返回重新获取录入的音频。

可选地，语音质量检测单元还包括：

判断子单元，用于判断所述录入的音频中的内容类型，内容类型包括随机数字、随机短语、随机长句和固定短语；

阈值确定子单元，用于根据所述录入的音频中的内容类型确定第一有效语音时长对应的第一预置阈值。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种基于声纹识别的监控方法，包括：S1、获取监听到的音频；S2、对所述监听到的音频进行语音识别，当所述监听到的音频中包括预置关键词时，执行步骤S3；S3、对所述监听到的音频进行声纹识别，并将所述监听到的音频对应的第一声纹与预置声纹库中的第二声纹进行比对，若匹配到相同的声纹，则发送定位信息至预警平台并响应所述预警平台。

本发明中，通过获取监听到的音频，并识别监听到的音频中的预置关键词，若监听到了预置关键词，则对监听到的音频进行声纹识别，并将识别到的第一声纹与预置声纹库中的第二声纹进行比对，判断是否是追踪的目标，解决了现有的监控技术一般采用摄像头，而摄像头被有意遮挡后无法正常获取图像，且摄像的结果容易受到角度和光线环境限制，导致的监控不全的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明提供的一种基于声纹识别的监控方法的一个实施例的流程示意图；

图2为本发明提供的一种基于声纹识别的监控方法的另一个实施例的流程示意图；

图3为本发明提供的一种基于声纹识别的监控装置的一个实施例的结构示意图；

图4为本发明提供的一种基于声纹识别的监控装置的另一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种基于声纹识别的监控方法及装置，解决了现有的监控技术一般采用摄像头，而摄像头被有意遮挡后无法正常获取图像，且摄像的结果容易受到角度和光线环境限制，导致的监控不全的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供了一种基于声纹识别的监控方法，包括：

101、获取监听到的音频；

102、对监听到的音频进行语音识别，当监听到的音频中包括预置关键词时，执行步骤103；

103、对监听到的音频进行声纹识别，并将监听到的音频对应的第一声纹与预置声纹库中的第二声纹进行比对，若匹配到相同的声纹，则发送定位信息至预警平台并响应预警平台。

本发明实施例中，通过获取监听到的音频，并识别监听到的音频中的预置关键词，若监听到了预置关键词，则对监听到的音频进行声纹识别，并将识别到的第一声纹与预置声纹库中的第二声纹进行比对，判断是否是追踪的目标，解决了现有的监控技术一般采用摄像头，而摄像头被有意遮挡后无法正常获取图像，且摄像的结果容易受到角度和光线环境限制，导致的监控不全的技术问题。

以上是对本发明提供的一种基于声纹识别的监控方法的一个实施例进行的说明，以下将对本发明提供的一种基于声纹识别的监控方法的另一个实施例进行说明。

请参阅图2，本发明提供了一种基于声纹识别的监控方法，包括：

201、获取录入的音频；

需要说明的是，在构建预置声纹库之前，首选获取需要录入的音频。

202、对录入的音频中进行语音质量检测，包括：

2021、判断录入的音频中的内容类型，内容类型包括随机数字、随机短语、随机长句和固定短语；

需要说明的是，判断录入的音频中的内容类型，内容类型包括随机数字、随机短语、随机长句和固定短语。

2022、根据录入的音频中的内容类型确定第一有效语音时长对应的第一预置阈值；

需要说明的是，根据录入的音频中的内容类型确定第一有效语音时长对应的第一预置阈值，若为随机数字，则第一有效语音时长对应的第一预置阈值为1.2秒；若为随机短语，则第一有效语音时长对应的第一预置阈值为1.8秒；若为随机长句，则第一有效语音时长对应的第一预置阈值为16秒；若为固定短语，则第一有效语音时长对应的第一预置阈值为0.8秒。

2023、计算录入的音频的第一信噪比、第一平均能量值和第一有效语音时长；

需要说明的是，计算录入的音频的第一信噪比、第一平均能量值和第一有效语音时长。

2024、依次将录入的音频的第一信噪比、第一平均能量值和第一有效语音时长与对应的第一预置阈值进行比对，若第一信噪比、第一平均能量值和第一有效语音时长均高于对应的第一预设阈值，则确定录入的音频的语音质量合格，并执行下一步，否则提示用户重新录入音频并返回重新获取录入的音频；

需要说明的是，依次将录入的音频的第一信噪比、第一平均能量值和第一有效语音时长与对应的第一预置阈值进行比对，若第一信噪比、第一平均能量值和第一有效语音时长均高于对应的第一预设阈值，则确定录入的音频的语音质量合格，并执行下一步，否则提示用户重新录入音频并返回重新获取录入的音频，其中，第一信噪比对应的第一预设阈值为10分贝，第一平均能量值对应的第一预设阈值为[1000，30000]，第一有效语音时长对应的第一预置阈值在前序步骤已经确定。

203、提取录入的音频中的第二声纹并保存至预置声纹库中；

需要说明的是，在确定录入的音频的语音质量合格后，提取录入的音频中的第二声纹并保存至预置声纹库中。

204、获取监听到的音频；

需要说明的是，在监控时，获取监听到的音频。

205、对监听到的音频进行语音识别，当监听到的音频中包括预置关键词时，执行步骤206；

需要说明的是，对监听到的音频进行语音识别，判断监听到的音频之中是否包括预置关键词，若是，则执行步骤206，其中，预置关键词为用户自行设定。

206、对监听到的音频进行声纹识别，提取监听到的音频中的第一声纹；

需要说明的是，对存在预置关键词的录入的音频进行声纹识别，提取监听到的音频中的第一声纹。

207、将监听到的音频中的第一声纹与预置声纹库中的第二声纹进行比对，得到匹配值；

需要说明的是，将监听到的音频中的第一声纹与预置声纹库中的第二声纹进行比对，预置声纹库中包括至少一个已录入用户的第二声纹，因此获得至少一个匹配值。

208、判断匹配值是否高于预置匹配阈值，当确定匹配值高于预置匹配阈值时，发送定位信息至预警平台并响应预警平台；

需要说明的是，判断获得的匹配值是否高于预置匹配阈值，即判断监听到的音频中是否有预置声纹库中已录入的用户对应的声纹，若是，则发送定位信息至预警平台并响应预警平台。

209、当匹配值低于预置匹配阈值时，将监听到的音频中的第一声纹添加至预置声纹库中，并响应预警平台；

需要说明的是，当匹配值低于预置匹配阈值时，说明预置声纹库中没有保存相关第二声纹，但由于监听到的音频中存在预置关键词，需要将监听到的音频对应的第一声纹保存至预置声纹库中，并响应预警平台。

以上是对本发明提供的一种基于声纹识别的监控方法的另一个实施例进行的说明，以下将对本发明提供的一种基于声纹识别的监控装置的一个实施例进行说明。

请参阅图3，本发明提供了一种基于声纹识别的监控装置的一个实施例，包括：

第一获取单元301，用于获取监听到的音频；

语音识别单元302，用于对监听到的音频进行语音识别，当监听到的音频中包括预置关键词时，跳转至声纹比对单元33；

声纹比对单元303，用于对监听到的音频进行声纹识别，并将监听到的音频对应的第一声纹与预置声纹库中的第二声纹进行比对，若匹配到相同的声纹，则发送定位信息至预警平台并响应预警平台。

以上是对本发明提供的一种基于声纹识别的监控装置的一个实施例进行的说明，以下将对本发明提供的一种基于声纹识别的监控装置的另一个实施例进行说明。

请参阅图4，本发明提供了一种基于声纹识别的监控装置的另一个实施例，包括：

第二获取单元401，用于获取录入的音频；

语音质量检测单元402，用于对录入的音频中进行语音质量检测；

语音质量检测单元402包括：

判断子单元4021，用于判断录入的音频中的内容类型，内容类型包括随机数字、随机短语、随机长句和固定短语；

阈值确定子单元4022，用于根据录入的音频中的内容类型确定第一有效语音时长对应的第一预置阈值；

计算子单元4023，用于计算录入的音频的第一信噪比、第一平均能量值和第一有效语音时长；

比对子单元4024，用于依次将录入的音频的第一信噪比、第一平均能量值和第一有效语音时长与对应的第一预置阈值进行比对，若第一信噪比、第一平均能量值和第一有效语音时长均高于对应的第一预设阈值，则确定录入的音频的语音质量合格，并执行下一步，否则提示用户重新录入音频并返回重新获取录入的音频；

声纹提取单元403，用于提取录入的音频中的第二声纹并保存至预置声纹库中；

第一获取单元404，用于获取监听到的音频；

语音识别单元405，用于对监听到的音频进行语音识别，当监听到的音频中包括预置关键词时，跳转至声纹比对单元406；

声纹比对单元406，用于对监听到的音频进行声纹识别，并将监听到的音频对应的第一声纹与预置声纹库中的第二声纹进行比对，若匹配到相同的声纹，则发送定位信息至预警平台并响应预警平台；

声纹比对单元406具体包括：

提取子单元4061，用于对监听到的音频进行声纹识别，提取监听到的音频中的第一声纹；

比对子单元4062，用于将监听到的音频中的第一声纹与预置声纹库中的第二声纹进行比对，得到匹配值；

匹配子单元4063，用于判断匹配值是否高于预置匹配阈值，当确定匹配值高于预置匹配阈值时，发送定位信息至预警平台并响应预警平台；

匹配子单元4063还用于当匹配值低于预置匹配阈值时，将监听到的音频中的第一声纹添加至预置声纹库中，并响应预警平台。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于声纹识别的监控方法，其特征在于，包括：

S1、获取监听到的音频；

2.根据权利要求1所述的基于声纹识别的监控方法，其特征在于，所述步骤S1之前还包括：

S01、获取录入的音频；

3.根据权利要求2所述的基于声纹识别的监控方法，其特征在于，所述步骤S01之后，所述步骤S02之前还包括：

对所述录入的音频中进行语音质量检测，包括：

4.根据权利要求3所述的基于声纹识别的监控方法，其特征在于，所述计算所述录入的音频的第一信噪比、第一平均能量值和第一有效语音时长之前还包括：

5.根据权利要求1所述的基于声纹识别的监控方法，其特征在于，所述步骤S3具体包括：

6.根据权利要求5所述的基于声纹识别的监控方法，其特征在于，当匹配值低于预置匹配阈值时，将所述监听到的音频中的第一声纹添加至所述预置声纹库中，并响应预警平台。

7.一种基于声纹识别的监控装置，其特征在于，包括：

第一获取单元，用于获取监听到的音频；

8.根据权利要求7所述的基于声纹识别的监控装置，其特征在于，还包括：

第二获取单元，用于获取录入的音频；

9.根据权利要求8所述的基于声纹识别的监控装置，其特征在于，还包括：

所述语音质量检测单元包括：

10.根据权利要求9所述的基于声纹识别的监控装置，其特征在于，语音质量检测单元还包括：