CN114863930A

CN114863930A - 一种目标人物的语音数据提取方法、***、装置及存储介质

Info

Publication number: CN114863930A
Application number: CN202210253016.8A
Authority: CN
Inventors: 马旋
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-08-05

Abstract

本发明公开了一种目标人物的语音数据提取方法、***、装置及存储介质。该方法通过建立目标人物的知识图谱，指示用户在指定位置进行设备的安装。随后，获取设备采集到的人物语音数据，然后通过和目标人物对应的声纹数据库对人物语音数据进行匹配，确定人物语音数据中是否包括目标语音数据，而当所述人物语音数据中包括目标语音数据，提取并保存目标语音数据。这种方法能够在监管过程中，通过知识图谱预测出较为合适的布控点，减少人力、物力的大量投入，并且通过目标人物声纹数据库对获取到的人物语音数据进行匹配，有利于输出较为准确的匹配结果，以提高目标人物信息的准确性和可用性。本发明可广泛应用于人工智能技术领域内。

Description

一种目标人物的语音数据提取方法、***、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其是一种目标人物的语音数据提取方法、***、装置及存储介质。

背景技术

在公共安全领域，需要对某些目标人物进行有效的监管，采集其相关的信息进行分析调查。

相关技术中，监管过程难以找到合适的布控点，需要投入大量的人力、物力进行布控点的设计。传统的方法是针对目标人物可能出现的地点，采用人脸识别技术进行人脸信息采集，以确定其可能的行踪。该方法存在大量局限：如人脸识别技术在角度不好、灯光较暗的情况下，采集到的图像精度不高，人脸识别的效果不好，导致信息的准确性较低，可用性较差。

综上，相关技术中存在的问题亟需得到解决。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的一个目的在于提供一种目标人物的语音数据提取方法、***、装置和介质，其能够提高采集到的目标人物信息的准确性以及可用性。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

一方面，本发明实施例提供了一种目标人物的语音数据提取方法，包括以下步骤：

获取安装在预设位置的目标设备采集到的人物语音数据；

通过和目标人物对应的声纹数据库对所述人物语音数据进行匹配，确定所述人物语音数据中是否包括目标语音数据；

当所述人物语音数据中包括目标语音数据，提取并保存所述目标语音数据；

其中，所述目标设备的安装位置通过以下步骤确定：

建立所述目标人物的知识图谱；

根据所述知识图谱，输出提示信息，所述提示信息用于指示用户在指定位置进行所述目标设备的安装。

进一步地，在所述提取并保存所述目标语音数据后，所述方法还包括以下步骤：

对所述目标语音数据进行语音识别，得到所述目标语音数据的文本内容；

提取所述文本内容的文本特征信息；

将所述文本特征信息输入预测模型中，得到所述目标人物的行为预测结果。

进一步地，所述方法还包括以下步骤：

将所述目标语音数据输入到噪声检测模型，得到所述噪声检测模型输出的噪声检测结果；所述噪声检测结果用于表征所述目标语音数据中是否包含噪声数据；

根据所述噪声检测结果，确定所述行为预测结果的置信度。

进一步地，所述方法还包括以下步骤：

获取安装在所述预设位置的目标设备采集到的图像数据；

提取所述图像数据中的人脸识别特征；

通过和所述目标人物对应的人脸数据库对所述人脸识别特征进行匹配，确定所述图像数据是否包括所述目标人物。

进一步地，所述获取安装在预设位置的目标设备采集到的人物语音数据这一步骤，包括：

获取安装在预设位置的目标设备采集到的原始语音数据；

提取所述原始语音数据中所有人物对应的声纹特征和个人特征；

根据所述声纹特征，构建与所述个人特征对应的人声模型；

通过所述人声模型，对所述原始语音数据进行处理，获得所述人物语音数据。

进一步地，所述通过和目标人物对应的声纹数据库对所述人物语音数据进行匹配，确定所述人物语音数据中是否包括目标语音数据这一步骤，包括：

提取所述人物语音数据的第一声纹特征；

从所述声纹数据库中提取所述目标人物的语音数据对应的第二声纹特征；

确定所述第一声纹特征和所述第二声纹特征的相似度；

确定所述相似度是否大于预设阈值；

当所述相似度大于所述预设阈值，则所述人物语音数据中包括目标语音数据；

当所述相似度小于或者等于所述预设阈值，则所述人物语音数据中不包括目标语音数据。

进一步地，所述建立所述目标人物的知识图谱这一步骤，包括：

获取所述目标人物的个人信息，所述个人信息包括目标人物的家庭信息和社会人物关系；

根据所述目标人物的个人信息，确定所述目标人物及其关联人物的主要活动场所；

根据所述个人信息和所述主要活动场所，构建所述知识图谱。

另一方面，本发明实施例提出了一种目标人物的语音数据提取***，包括：

第一模块，用于获取安装在预设位置的目标设备采集到的人物语音数据；

第二模块，用于通过和目标人物对应的声纹数据库对所述人物语音数据进行匹配，确定所述人物语音数据中是否包括目标语音数据；

第三模块，用于当所述人物语音数据中包括目标语音数据，提取并保存所述目标语音数据；

其中，所述目标设备的安装位置通过以下模块确定：

第四模块，用于建立所述目标人物的知识图谱；

第五模块，用于根据所述知识图谱，输出提示信息，所述提示信息用于指示用户在指定位置进行所述目标设备的安装。

另一方面，本发明实施例提供了一种目标人物的语音数据提取装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现所述的目标人物的语音数据提取方法。

另一方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现所述的目标人物的语音数据提取方法。

本发明公开了一种目标人物的语音数据提取方法，具备如下有益效果：

本实施例通过建立目标人物的知识图谱，并根据知识图谱，输出提示信息，以指示用户在指定位置进行目标设备的安装。随后，获取安装在预设位置的目标设备采集到的人物语音数据，然后通过和目标人物对应的声纹数据库对人物语音数据进行匹配，确定人物语音数据中是否包括目标语音数据，而当所述人物语音数据中包括目标语音数据，提取并保存目标语音数据。这种方法能够在监管过程中，通过知识图谱预测出较为合适的布控点，减少人力、物力的大量投入，并且通过目标人物声纹数据库对获取到的人物语音数据进行匹配，有利于输出较为准确的匹配结果，以提高目标人物信息的准确性和可用性。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明实施例提供的一种远程监控平台的模块示意图；

图2为本发明实施例提供的一种远程监控平台的硬件结构示意图；

图3为本发明实施例提供的一种目标人物的语音数据提取方法的流程示意图；

图4为本发明实施例提供的一种目标设备安装位置的确定方法的流程示意图；

图5为本发明实施例提供的一种人声分离方法的流程示意图；

图6为本发明实施例提供的一种人物语音的匹配方法的流程示意图；

图7为本发明实施例提供的一种人物关系知识图谱的确定方法的流程示意图；

图8为本发明实施例提供的一种目标人物的行为预测方法的流程示意图；

图9为本发明实施例提供的一种人脸识别方法的流程示意图；

图10为本发明实施例提供的一种目标人物的语音数据提取***的结构示意图；

图11为本发明实施例提供的一种目标人物的语音数据提取装置的结构示意图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明实施例的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数，“至少一个”是指一个或者多个，“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

需要说明的是，本发明实施例中设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明实施例中的具体含义。例如，术语“连接”可以是机械连接，也可以是电连接或可以相互通讯；可以是直接相连，也可以通过中间媒介间接相连。

在本发明实施例的描述中，参考术语“一个实施例/实施方式”、“另一实施例/实施方式”或“某些实施例/实施方式”、“在上述实施例/实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本公开的至少两个实施例或实施方式中。在本公开中，对上述术语的示意性表述不一定指的是相同的示实施例或实施方式。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或实施方式中以合适的方式结合。

需要说明的是，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

为了保障公共安全，需要对某些目标人物实行监管。而目前对目标人物的监管方式主要是在目标人物可能出现的地点进行布控，并采用摄像头等图像设备采集目标人物的人脸信息，并通过人脸识别技术对人脸信息进行比对，以实现对目标人物的监管。但这种监管方式一方面不确定目标人物可能出现的地点，导致需要投入大量的人力、物力进行布控；另一方面，人脸识别技术存在背景干扰复杂多样、光照条件复杂多变、人脸姿态表情变换不一以及外部遮挡等问题，导致人脸信息无法被正确提取，人脸识别率较低。

为此，本申请提出了一种目标人物的语音数据提取方法、***、装置及存储介质，通过建立目标人物的知识图谱，并根据知识图谱，输出提示信息，以指示用户在指定位置进行目标设备的安装。随后，获取安装在预设位置的目标设备采集到的人物语音数据，然后通过和目标人物对应的声纹数据库对人物语音数据进行匹配，确定人物语音数据中是否包括目标语音数据，而当所述人物语音数据中包括目标语音数据，提取并保存目标语音数据。这种方法能够在监管过程中，通过知识图谱预测出较为合适的布控点，减少人力、物力的大量投入，并且通过目标人物声纹数据库对获取到的人物语音数据进行匹配，有利于输出较为准确的匹配结果，以提高目标人物信息的准确性和可用性。

参阅图1，本申请实施例中，提供了一种远程监控平台，包括数据获取模块110、控制中心120、数据库130和显示模块140。其中，所述数据获取模块110用于获取安装在预设位置的目标设备采集到的人物语音数据和图像数据等数据，并将其发送至控制中心120中作进一步的处理，数据库130中保存有目标人物的个人信息、语音数据和人脸数据等，控制中心120用于根据数据库130中保存的目标人物个人信息等数据构建出对应的知识图谱，再根据知识图谱输出用于指示用户在指定位置安装设备的提示信息，并通过显示模块140进行显示；控制中心120还能通过采集到的人物语音数据和图像数据等数据，与数据库130的声纹数据库和人脸数据库中的特征进行比对，从而确定采集到的人物语音数据中是否包含目标人物的语音数据。

需要说明的是，本申请实施例中仅示例性地给出远程监控平台的一部分模块，远程监控平台还可以包括其他相关的远程监控平台中包含的其他模块，以实现相应的功能，具体不作限定。

参阅图2，图2是本申请各实施例涉及的远程监控平台的硬件结构示意图。本申请实施例中，远程监控平台可以包括处理器210(例如中央处理器Central Processing Unit、CPU)，通信总线220，输入端口230，输出端口240，存储器250。其中，通信总线220用于实现这些组件之间的连接通信；输入端口230用于数据输入；输出端口240用于数据输出，存储器250可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器250 可选的还可以是独立于前述处理器210的存储装置。本领域技术人员可以理解，图2中示出的硬件结构并不构成对本申请的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参阅图2，图2中作为一种可读存储介质的存储器250可以包括操作***、网络通信模块、应用程序模块以及控制程序。在图2 中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器210可以调用存储器250中存储的远程监控平台的控制程序，并执行本申请实施例提供的目标人物的语音数据提取方法。

基于图1和图2所示的远程监控平台，如图3所示，本申请实施例提供了一种目标人物的语音数据提取方法，包括但不限于步骤S310、 S320和S330：

S310、获取安装在预设位置的目标设备采集到的人物语音数据；

在步骤S310中，人物语音数据主要包括在预设位置采集到的语音数据。具体地，本实施例中，对于人物语音数据的获取渠道不做限制，该人物语音数据既可以是直接通过收音设备从预设位置中采集得到的，也可以是通过数据传输接口或者远程通信传输从其他电子设备及计算机***获取得到的。安装在预设位置的目标设备可以是收音设备，也可以是智能语音交互设备、智能手机和平板电脑等输入输出设备。

参阅图5，在一些实施例中，步骤S310可以进一步划分为步骤 S311-S314：

S311、获取安装在预设位置的目标设备采集到的原始语音数据；

S312、提取所述原始语音数据中所有人物对应的声纹特征和个人特征；

S313、根据所述声纹特征，构建与所述个人特征对应的人声模型；

S314、通过所述人声模型，对所述原始语音数据进行处理，获得所述人物语音数据。

在人物语音数据的采集过程中，不可避免地会发生人物语音数据中包含多个人物的语音数据的情况。基于这种情况，可以对采集到的原始语音数据根据不同的人物，对应完成特征提取，分别为不同人物构建对应的人声模型，再通过人声模型将人物的语音数据从原始语音数据中提取出来。具体地，可以采集每个说话人物的声纹特征和个人特征,构建与该个人特征关联的、包含声纹特征的人声模型。随后通过构建好的人声模型，将人物语音数据从原始语音数据分离出来，并按时间戳的方式,将该人声分离后的音频内容中的每个说话人物的声音数据分别进行关联该个人特征的标记,即能够实现监听一整段录音时,实时将不同说话人的声音片段分离。

参阅图4，在一些实施例中，步骤S310中的目标设备的安装位置可以通过以下步骤确定：

S410、建立所述目标人物的知识图谱。

S420、根据所述知识图谱，输出提示信息，所述提示信息用于指示用户在指定位置进行目标设备的安装。

可以理解的是，大数据统计模型只能发现关联性，缺乏深层次的逻辑分析，因此需要构建知识图谱进行进一步的推理分析。知识图谱包括模式层和数据层，模式层由具有层次化关系的概念构成，数据层由概念的实体以及实体之间的关系构成。

本发明实施例的知识图谱是由节点和关系构成的结构化网络，记录了目标人物及其关联人物的社会关系、家庭信息和工作情况等的各种动态关系和静态属性。通过知识图谱的方式将上述的动态关系和静态属性进行结构化管理，通过知识图谱输出指示用户在指定位置进行目标设备安装的提示信息，能够提高目标设备采集到的信息的可用性，减少人为设置目标设备的不稳定因素，从而降低人力、物力的消耗成本。

参阅图7，在一些实施例中，步骤S410可以进一步划分为步骤 S411-S413：

S411、获取所述目标人物的个人信息，所述个人信息包括目标人物的家庭信息和社会人物关系；

S412、根据所述目标人物的个人信息，确定所述目标人物及其关联人物的主要活动场所；

S413、根据所述个人信息和所述主要活动场所，构建知识图谱。

构建知识图谱的关键是知识获取，知识获取的主要任务包括实体识别、关系抽取、属性抽取、知识图谱补全、以及其它面向实体的获取任务。其中关系抽取是自动构建大型知识图谱的关键任务，该任务将从朴素文本中抽取出未知的关系事实，并将它们添加到知识图谱中。

本发明实施例中，知识图谱的构建采用“自顶向下”的方法，先对领域所具备的知识点、概念、术语建模，提炼出最具广泛性的概念，然后在此基础上逐步进行细化，定义出更多的属性和关系来约束更为具体的类别。例如针对公共安全领域，首先定义本体概念“目标人物”，从“目标人物”根据“社会关系”扩展出与其相关的“关联人物”，社会关系可以是一度社会关系、二度社会关系、三度社会关系和四度社会关系，根据不同的社会关系能够扩展出不同的“关联人物”，组成目标人物的人物关系知识图谱。通过结构化数据集和知识库获取每个概念的对应实体集，在此基础上通过自然语言处理相关技术自动抽取半结构化和非结构化中的领域实体，通过统计、聚类、命名实体识别、关系抽取、属性抽取等分析方法自动构建人物关系知识图谱。自动构建人物关系知识图谱的具体流程如下：

首先需要获取目标人物的家庭信息和一度人物关系，或通过关联人物，获取其他二度、三度人物关系作为种子实体集。

然后根据获取到的目标人物个人信息，确定目标人物及其关联人物的主要活动场所，并将主要活动场所与知识图谱的种子实体集进行关联。

接着，对知识建模定义的知识要素进行实例化的获取，具体包括概念的实例化、关系抽取和属性抽取。

实体概念的实例化需要对数据进行实体抽取，对于结构化数据，将高频术语和高频词添加到对应概念的实体；对于非结构化数据，使用实体识别技术进行建模，抽取出实体后作为对应概念的实例。

得到一系列离散的实体概念后，需要通过关系抽取建立概念间的关系。常见的关联关系有：isA(继承关系)，hasA(组成关系)，useA (依赖关系)及其它关联关系。

建立概念间的关系后，还需要为每个概念补充属性信息，以实现对实体自身的充分描述。一方面参考领域术语的定义、注释以及解释为概念添加属性。另一方面，通过在结构化数据里抽取训练语料，在非结构化的数据上建立属性标注模型，进而对数据进行实体属性抽取。

S320、通过和目标人物对应的声纹数据库对所述人物语音数据进行匹配，确定所述人物语音数据中是否包括目标语音数据；

在步骤S320中，需要将获得到的人物语音数据与目标人物声纹数据库中保存的语音数据进行匹配，以确定人物语音数据中是否包含目标人物的语音，从而确定目标人物是否曾经出现在预设位置。首先，一般来说，人物语音数据为非结构化的数据，为方便对其进行处理，需要对其进行特征提取，再将提取到的声纹特征输入到对应的机器学习模型中进行对比，并输出人物语音数据的声纹特征与目标人物的声纹特征的近似程度，以确定人物语音数据中是否包括目标语音数据。

参阅图6，在一些实施例中，步骤S320可以进一步划分为步骤 S321-S324：

S321、提取所述人物语音数据的第一声纹特征；

S322、从所述声纹数据库中提取所述目标人物的语音数据对应的第二声纹特征；

S323、确定所述第一声纹特征和所述第二声纹特征的相似度；

S324、确定所述相似度是否大于预设阈值；当所述相似度大于所述预设阈值，则所述人物语音数据中包括目标语音数据；当所述相似度小于或者等于所述预设阈值，则所述人物语音数据中不包括目标语音数据。

具体地，此处的第一声纹特征可以包括人物语音数据的声学特征信息，例如可以是人物语音数据的音频频谱的数字特征。具体地，在一些实施例中，可以从人物语音数据的音频频谱中按照预定的规则选取一些时间频率点，将其编码为数字序列，该数字序列即可以作为人物语音数据的声学特征信息。例如，本申请中还可以基于发音准确度、流利度、韵律度、信噪比、声音强度等维度提取声学特征信息。并且，在一些实施例中，还可以将多种维度提取得到的声学特征信息整合起来得到新的声学特征信息。

而第二声纹特征可以包括目标人物的语音数据的声学特征信息，第二声纹特征可以从目标人物语音数据中进行声纹特征提取。本实施例中，对于目标人物的语音数据的获取渠道不做限制，目标人物的语音数据既可以是直接通过收音设备从预设地点中采集得到，也可以是通过远程通信传输从其他设备获得既有的录音数据。由于人物语音数据本身是非结构化的数据，为方便对其进行处理，本申请中选择提取人物语音数据的特征信息，将提取得到的特征信息记为第一声纹特征，将存储在声纹数据库中的目标人物语音数据的特征信息记为第二声纹特征。

在匹配过程中，可以通过建模、训练一个具有针对性的机器学习模型进行相似度的计算，输出第一声纹特征和第二声纹特征的相似度。此处的相似度用于表征第一声纹特征和第二声纹特征之间的相似程度，当相似度的数值达到一定数值时，可以认为第一声纹特征和第二声纹特征相同，也可以认为人物语音数据中包括目标语音数据。另外，在一些实施例中，可以对向量形式的声学特征信息设置向量索引，以减少匹配查询过程中的数据运算量。

具体地，在确定第一声纹特征和第二声纹特征之间的相似度时，在一些实施例中，可以先确定第一特征信息和第二特征信息的数字特征之间的差异值，然后根据该差异值来确定相似度，差异值越大，相似度越小，反之，差异值越小，相似度越大。

可以理解的是，实际应用过程中，即使是同一个人发出的两段语音数据，其相似度未必为100％，这是由于环境因素以及模型的未完全训练导致的。因此，需要设定预设阈值，也可以理解为匹配的误差范围，当相似度大于预设阈值，则认为在误差允许的范围内，人物语音数据中包括目标语音数据；当相似度小于或者等于预设阈值，则认为人物语音数据中不包括目标语音数据。其中，本领域技术人员可以根据实际情况对预设阈值进行设定，这里不作过多限制。

S330、当所述人物语音数据中包括目标语音数据，提取并保存所述目标语音数据。

在步骤S330，根据前面的描述，当第一声纹特征和第二声纹特征之间的相似度大于预设阈值时，则认为人物语音数据中包括目标语音数据。针对公共安全领域，为了便于进一步的布控和侦察，可以将目标语音数据进行提取并保存。在一些实施例中，可以对检测出目标人物的声音片段进行截取，便于用户进行人工查验。

参照图8，本申请实施例中，还提供一种目标人物的行为预测方法，该方法主要包括步骤S510至步骤S550：

S510、对所述目标语音数据进行语音识别，得到所述目标语音数据的文本内容；

S520、提取所述文本内容的文本特征信息；

S530、将所述文本特征信息输入预测模型中，得到所述目标人物的行为预测结果；

S540、将所述目标语音数据输入到噪声检测模型，得到所述噪声检测模型输出的噪声检测结果；所述噪声检测结果用于表征所述目标语音数据中是否包含噪声数据；

S550、根据所述噪声检测结果，确定所述行为预测结果的置信度。

本申请实施例中，在提取文本特征信息时，需要先对目标语音数据进行文本化处理，可以采用自动语音识别技术(Automatic Speech Recognition，ASR)对目标语音数据进行语音识别，得到目标语音数据的文本内容，然后提取文本内容的文本特征信息，例如可以将目标语音数据的文本内容通过自然语言处理技术转换为结构化数据，比如说向量，从而将转换得到的结构化数据作为文本特征信息。继而，可以将文本特征信息输入到预先训练好的预测模型中，得到目标人物的行为预测结果。具体地，此处的行为预测结果的形式可以根据需要灵活设置，并且对应选择合适的算法搭建预测模型。比如说，预测模型可以基于目标语音数据进行文本内容的提取，再根据提取到的文本特征信息进行语义分析，从而预测目标人物可能发生的行为动作。

可以理解的是，预测模型得到的目标人物行为预测结果并不一定是完全可靠的，故而完全依赖前述的预测模型对目标人物进行行为预测，可能出现预测错误的情况。所以本申请实施例中，基于文本特征信息对目标语音数据进行噪声检测分析，以辅助判断行为预测结果的可靠程度。其中，噪声检测分析用于分析目标语音数据是否存在噪声。上述所说的情况，可以通过建模、训练一个具有针对性的机器学习模型进行噪声分析，输出是否存在噪声或者噪声的影响程度。例如，本申请实施例中，可以采用噪声检测模型对目标语音数据是否包含噪声数据进行检测，具体地，此时可以将前述的目标语音数据输入到噪声检测模型，噪声检测模型对目标语音数据进行处理后，输出噪声检测结果。当然，本申请实施例中，还可以进一步对噪声检测模型进行细分，例如建立环境噪声模型用于检测目标语音数据中的环境噪声，建立人声噪声模型用于检测目标语音数据中的人声噪声等等。在目标语音数据的噪声检测结果确定后，可以有效量化从目标语音数据中得到的行为预测结果的可靠性，即行为预测结果的置信度。

参阅图9，在一些实施例中，为了进一步提高采集目标人物信息的准确性，本申请实施例中，还提供一种人脸识别方法，该方法同样可应用于目标人物的监管过程中，从不同于语音数据的另一维度，获取目标人物的图像数据，有利于对目标人物身份的辨别。该方法主要包括步骤S610至步骤S630：

S610、获取安装在所述预设位置的目标设备采集到的图像数据；

S620、提取所述图像数据中的人脸识别特征；

S630、通过和所述目标人物对应的人脸数据库对所述人脸识别特征进行匹配，确定所述图像数据是否包括所述目标人物。

在本实施例中，可以通过人脸识别方法辅助对目标人物身份的判断，辅助的方式可以为当上述所说的相似度满足一定范围时，再调用人脸识别技术对目标人物身份进行进一步的确认。示例性地，如设置的相似度预设阈值为95％，但实际上输出的相似度为92％，不足95％，但此时相似度依然处于较高的范围，有可能存在机器学习模型和环境因素影响过大，而导致相似度不满足阈值的情况，因此可以设定当相似度处于90％-94％范围时，调用人脸识别技术，进一步对嫌疑人的身份进行确认，以修正相似度的数值。另外，还可以同时采用声纹识别技术和人脸识别技术，输出声纹相似度和人脸相似度，然后对声纹相似度和人脸相似度进行加权求和，得到最终的相似度。

在本申请实施例中，需要获取安装在所述预设位置的目标设备采集到的图像数据，人像数据主要包括在预设位置采集到的人脸图像数据，这里同样对于人物语音数据的获取渠道不做限制，该人物语音数据既可以是直接通过收音设备从预设位置中采集得到的，也可以是通过数据传输接口或者远程通信传输从其他电子设备及计算机***获取得到的。本实施例中的目标设备的安装位置同样可以通过步骤 S410-S420确定，这里不再赘述。在获取到图像数据后，为了便于数据处理，需要对图像数据进行特征提取，获得其中的人脸识别特征。接着，将人脸识别特征，与保存有目标人物的人脸数据库中的目标识别特征，进行匹配，以确定采集到的图像信息中是否包括目标人物的人脸图像信息，从而确认目标人物是否出现在预设位置。上述方法可以通过预先训练的卷积神经网络加以实现。具体地，将设置好标签的训练数据集中的数据输入到初始化后的卷积神经网络后，可以得到模型输出的识别结果，即预测识别结果，可以根据该预测识别结果和前述的标签来评估识别模型识别的准确性，从而对模型的参数进行更新。

对于人脸识别模型来说，模型识别结果的准确性可以通过损失函数(LossFunction)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(CostFunction)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的机器学***方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数，在此不再一一阐述。本发明实施例中，可以从中任选一种损失函数来确定训练的损失值。基于训练的损失值，采用反向传播算法对模型的参数进行更新，迭代几轮即可得到训练好的人脸识别模型。具体地迭代轮数可以预先设定，或者在测试集达到精度要求时认为训练完成。

在一些实施例中，还提供一种匹配结果的显示方法，该方法同样可应用于终端设备中，例如可以应用于终端设备中的部分软件，用于实现一部分的软件功能。类似地，该显示方法可以应用的终端设备包括但不限于智能手表、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、智能语音交互设备、笔记本电脑、台式计算机、智能家电或者车载终端。

在一些实施例中，匹配结果的显示方式可以是显示匹配结果的相似度，也可以是是否匹配到目标人物对应的人物语音数据，匹配结果的显示方式可以是在触摸显示屏、智能手机等终端的显示屏或者APP 的显示界面中直接以文字的形式进行提醒，文字可以是中国文字也可以是其他国家的文字。可选地，匹配结果的显示方式也可以是在触摸显示屏、智能手机等终端的显示屏或者APP的显示界面中将预设的匹配结果的显示区域的显示颜色由第一颜色(如绿色)切换为第二颜色 (如红色等)。在一些实施例中，还可以设置报警***，当匹配结果认为人物语音数据中包括目标语音数据，即匹配结果的相似度高于预设阈值时，生成报警信息，以提醒用户注意该匹配结果。

由上述内容可知，本申请建立目标人物的知识图谱，并根据知识图谱，输出提示信息，以指示用户在指定位置进行目标设备的安装。随后，获取安装在预设位置的目标设备采集到的人物语音数据，然后通过和目标人物对应的声纹数据库对人物语音数据进行匹配，确定人物语音数据中是否包括目标语音数据，而当所述人物语音数据中包括目标语音数据，提取并保存目标语音数据。这种方法能够在监管过程中，通过知识图谱预测出较为合适的布控点，减少人力、物力的大量投入，并且通过目标人物声纹数据库对获取到的人物语音数据进行匹配，有利于输出较为准确的匹配结果，以提高目标人物信息的准确性和可用性。

参阅图10，本发明实施例提出的一种目标人物的语音数据提取***，包括：

第一模块1001，用于获取安装在预设位置的目标设备采集到的人物语音数据；

第二模块1002，用于通过和目标人物对应的声纹数据库对所述人物语音数据进行匹配，确定所述人物语音数据中是否包括目标语音数据；

第三模块1003，用于当所述人物语音数据中包括目标语音数据，提取并保存所述目标语音数据；

其中，所述目标设备的安装位置通过以下模块确定：

第四模块1004，用于建立所述目标人物的知识图谱；

第五模块1005，用于根据所述知识图谱，输出提示信息，所述提示信息用于指示用户在指定位置进行目标设备的安装。

上述方法实施例中的内容均适用于本***实施例中，本***实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参阅图11，本发明实施例提供了一种目标人物的语音数据提取装置，包括：

至少一个处理器1101；

至少一个存储器1102，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器1101执行时，使得所述至少一个处理器1101实现图3所示的目标人物的语音数据提取方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现图3所示目标人物的语音数据提取方法。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种目标人物的语音数据提取方法，其特征在于，包括以下步骤：

获取安装在预设位置的目标设备采集到的人物语音数据；

其中，所述目标设备的安装位置通过以下步骤确定：

建立所述目标人物的知识图谱；

2.根据权利要求1所述的目标人物的语音数据提取方法，其特征在于，在所述提取并保存所述目标语音数据后，所述方法还包括以下步骤：

提取所述文本内容的文本特征信息；

3.根据权利要求2所述的目标人物的语音数据提取方法，其特征在于，所述方法还包括以下步骤：

根据所述噪声检测结果，确定所述行为预测结果的置信度。

4.根据权利要求1所述的目标人物的语音数据提取方法，其特征在于，所述方法还包括以下步骤：

获取安装在所述预设位置的目标设备采集到的图像数据；

提取所述图像数据中的人脸识别特征；

通过和所述目标人物对应的人脸数据库，对所述人脸识别特征进行匹配，确定所述图像数据是否包括所述目标人物。

5.根据权利要求1所述的目标人物的语音数据提取方法，其特征在于，所述获取安装在预设位置的目标设备采集到的人物语音数据这一步骤，包括：

获取安装在预设位置的目标设备采集到的原始语音数据；

根据所述声纹特征，构建与所述个人特征对应的人声模型；

6.根据权利要求1所述的目标人物的语音数据提取方法，其特征在于，所述通过和目标人物对应的声纹数据库对所述人物语音数据进行匹配，确定所述人物语音数据中是否包括目标语音数据这一步骤，包括：

提取所述人物语音数据的第一声纹特征；

确定所述第一声纹特征和所述第二声纹特征的相似度；

确定所述相似度是否大于预设阈值；

7.根据权利要求1所述的目标人物的语音数据提取方法，其特征在于，所述建立所述目标人物的知识图谱这一步骤，包括：

8.一种目标人物的语音数据提取***，其特征在于，包括：

其中，所述目标设备的安装位置通过以下模块确定：

第四模块，用于建立所述目标人物的知识图谱；

9.一种目标人物的语音数据提取装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的目标人物的语音数据提取方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7中任一项所述的目标人物的语音数据提取方法。