CN110415708A - 基于神经网络的说话人确认方法、装置、设备及存储介质 - Google Patents

基于神经网络的说话人确认方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110415708A
CN110415708A CN201910598357.7A CN201910598357A CN110415708A CN 110415708 A CN110415708 A CN 110415708A CN 201910598357 A CN201910598357 A CN 201910598357A CN 110415708 A CN110415708 A CN 110415708A
Authority
CN
China
Prior art keywords
audio
neural network
dimensional convolution
speaker
convolution neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910598357.7A
Other languages
English (en)
Inventor
王健宗
赵峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910598357.7A priority Critical patent/CN110415708A/zh
Publication of CN110415708A publication Critical patent/CN110415708A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于神经网络的说话人确认方法、装置、设备及介质,涉及人工智能生物特征识别技术领域。该方法包括:接收第一音频;对第一音频执行数据预处理,获取符合预设的三维卷积神经网络的输入要求的有效音频数据;调用三维卷积神经网络,将有效音频数据输入三维卷积神经网络;匹配第二音频并计算有效音频数据和第二音频的相似度;当所述相似度大于等于预设阈值时,确认所述第一音频与所述第二音频为同一说话人的音频数据。本申请通过对音频进行数据预处理,可以排除许多多余或杂乱信息的干扰,并应用三维卷积神经网络的模型,使训练更容易,降低了训练的成本,在说话人确认方面,能够显著提升确认结果的准确性。

Description

基于神经网络的说话人确认方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能生物特征识别技术领域,特别是一种基于神经网络的说话人确认方法、装置、设备及存储介质。
背景技术
声纹识别是一项根据语音波形中反映声纹生理和行为的特征的语音参数,自动识别声纹身份的技术。声纹识别主要解决两大类问题,即说话人辨认和说话人确认。说话人辨认技术是用以判断某段语音来自若干说话人中的哪一个,是“多选一问题”,而说话人确认技术是判定某段语音是不是属于指定被检测人所说的,是“一对一问题”。
而按照说话内容的类型不同,说话人确认可以分为文本有关和文本无关两大类。其中文本有关的说话人识别技术,要求说话人的发音的关键词和关键句子作为训练文本,每个人的识别模型逐个被精确地建立,而识别时必须按照相同的内容发音才能进行识别。文本无关的说话人识别技术,不论是在训练时还是在识别时都不规定说话人的发音内容,识别对象是自由的语音信号,建立说话人的模型相对困难,但该技术使用方便安全,可应用范围较宽。
有些情况下,人们无法或者不希望强迫说话人朗读一段特定的文字,在这些应用场景中,文本无关的说话人确认方法就显得格外重要。然而在某些受限情况下,比如采集到的说话人有效语音较短、语音数量较少的情况下,其准确性不尽如人意。
发明内容
本申请实施例所要解决的技术问题是,提供一种基于神经网络的说话人确认方法、装置、设备及介质,在进行文本无关的说话人确认时,提升确认结果的准确性。
为了解决上述技术问题,本申请实施例所述的一种基于神经网络的说话人确认方法,采用了如下所述的技术方案:
一种基于神经网络的说话人确认方法,包括:
接收第一音频;所述第一音频为包含说话人身份标识的若干段音频数据;
对接收到的所述第一音频执行数据预处理,以获取符合预设的三维卷积神经网络的输入要求的有效音频数据;
调用所述三维卷积神经网络,将所述有效音频数据输入所述三维卷积神经网络;
匹配所述三维卷积神经网络中与所述第一音频的说话人身份标识相同的第二音频,根据所述三维卷积神经网络计算所述有效音频数据和所述第二音频的相似度;所述第二音频为已纳入所述三维卷积神经网络中注册备案的音频数据;
当所述相似度大于等于预设阈值时,确认所述第一音频与所述第二音频为同一说话人的音频数据。
本申请实施例所述的基于神经网络的说话人确认方法,通过对音频进行数据预处理,可以排除许多多余或杂乱信息的干扰,并应用三维卷积神经网络的模型,使训练更容易,降低了训练的成本,在说话人确认方面,能够显著提升确认结果的准确性。
进一步的,所述的基于神经网络的说话人确认方法,所述对所述第一音频执行数据预处理,以获取符合预设的三维卷积神经网络的输入要求的有效音频数据的步骤包括:利用预设的三维卷积神经网络对所述第一音频中的若干段音频数据均执行特征提取,生成符合所述三维卷积神经网络的输入要求的音频特征作为所述有效音频数据。
进一步的,所述的基于神经网络的说话人确认方法,在所述利用预设的三维卷积神经网络对所述第一音频中的若干段音频数据均执行特征提取的步骤之前,所述方法还包括:对所述第一音频的若干段音频执行堆叠处理,以构成三维数值矩阵。
通过堆叠处理,对同一个说话人的多段音频进行整合,使得三维卷积神经网络有能力在提取说话人特征的过程中排除音频关于噪声和音频内容的干扰。
进一步的,所述的基于神经网络的说话人确认方法,所述对所述第一音频执行数据预处理的步骤包括:对所述第一音频执行语音活性检测,从所述第一音频中剔除无效音频。
利用语音活性检测技术,可以有效将原始音频中的静音和其他噪音等无用数据检测出来,以便将无用的数据剔除获取有效音频数据。
进一步的,所述的基于神经网络的说话人确认方法,所述对所述第一音频执行语音活性检测,从所述第一音频中剔除无效音频的步骤之后,所述方法还包括:
比较所述第一音频中剔除无效音频后的每一段音频的音频长度m与所述三维卷积神经网络的输入所要求的音频输入长度n的大小;当m<n时,从所述第一音频中剔除该段音频。
防止有效音频数据的长度过短,无法满足三维卷积神经网络对音频长度的输入要求。
进一步的,所述的基于神经网络的说话人确认方法,在所述调用所述三维卷积神经网络的步骤之前,所述方法还包括步骤:
对所述三维卷积神经网络进行训练,并将若干个不同说话人的音频数据输入到所述三维卷积神经网络中完成备案注册。
进一步的,所述的基于神经网络的说话人确认方法,对接收到的所述第一音频执行数据预处理或将若干个不同说话人的音频数据输入到所述三维卷积神经网络中完成备案注册时,所述方法还包括步骤:基于所述三维卷积神经网络的输入所要求的音频输入长度,将第一音频中的若干段音频数据或将若干个不同说话人的音频数据执行等长切分,并将切分后的音频数据依次输入所述三维卷积神经网络。
为了解决上述技术问题,本申请实施例还提供一种基于神经网络的说话人确认装置,采用了如下所述的技术方案:
一种基于神经网络的说话人确认装置,包括:
接收模块,用于接收第一音频;所述第一音频为包含说话人身份标识的若干段音频数据;
预处理模块,用于对接收到的所述第一音频执行数据预处理,以获取符合预设的三维卷积神经网络的输入要求的有效音频数据;
输入模块,用于调用所述三维卷积神经网络,将所述有效音频数据输入所述三维卷积神经网络;
计算模块,用于匹配所述三维卷积神经网络中与所述第一音频的说话人身份标识相同的第二音频,根据所述三维卷积神经网络计算所述有效音频数据和所述第二音频的相似度;所述第二音频为已纳入所述三维卷积神经网络中注册备案的音频数据;
确认模块,用于当所述相似度大于等于预设阈值时,确认所述第一音频与所述第二音频为同一说话人的音频数据。
本申请实施例所述的基于神经网络的说话人确认装置,通过对音频进行数据预处理,可以排除许多多余或杂乱信息的干扰,并应用三维卷积神经网络的模型,使训练更容易,降低了训练的成本,在说话人确认方面,能够显著提升确认结果的准确性。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项技术方案所述的基于神经网络的说话人确认方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项技术方案所述的基于神经网络的说话人确认方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例公开了一种基于神经网络的说话人确认方法、装置、设备及介质,本申请实施例所述的基于神经网络的说话人确认方法,在接收第一音频后,对所述第一音频执行数据预处理,获取符合预设的三维卷积神经网络的输入要求的有效音频数据,然后将有效音频数据输入调用的三维卷积神经网络,计算有效音频数据和第二音频的相似度,当所述相似度大于等于预设阈值时,确认所述第一音频与所述第二音频为同一说话人的音频数据。所述方法通过对音频进行数据预处理,可以排除许多多余或杂乱信息的干扰,并应用三维卷积神经网络的模型,使训练更容易,降低了训练的成本,在说话人确认方面,能够显著提升确认结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例可以应用于其中的示例性***架构图;
图2为本申请实施例中所述基于神经网络的说话人确认方法的一个实施例的流程图;
图3为本申请实施例中所述基于神经网络的说话人确认装置的一个实施例的结构示意图;
图4为本申请实施例中计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的相关附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于神经网络的说话人确认方法一般由服务器/终端设备执行,相应地,基于神经网络的说话人确认装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了本申请实施例中所述基于神经网络的说话人确认方法的一个实施例的流程图。所述基于神经网络的说话人确认方法,包括以下步骤:
步骤201:接收第一音频;所述第一音频为包含说话人身份标识的若干段音频数据。
进行说话人确认时,我们需要将待检测的音频与在三维卷积神经网络中已记录下的说话人音频这两类数据进行比较,根据比较的计算结果完成判断,从而确认待检测的音频与已记录下的说话人音频是否属于同一说话人。
其中,进行比较的两类音频数据具有同一说话人的身份标识。进行说话人确认的目的,换而言之,即为了判断所述第一音频是否确实是由其包含的说话人身份标识所对应的说话人本人发出的。
步骤202:对接收到的所述第一音频执行数据预处理,以获取符合预设的三维卷积神经网络的输入要求的有效音频数据。
数据预处理指在指在主要的处理以前对数据进行的一些处理准备。由于原始的音频数据中可能会存在许多多余或杂乱信息的干扰,且无法满足我们执行说话人确认的方法时所使用的三维卷积神经网络的输入要求,因此在输入所述三维卷积神将网络前,需要对待输入的音频数据进行一定的数据预处理。通过对音频进行数据预处理,从而可以获得对于所述三维卷积神经网络有效的输入数据。
在本申请的一些实施例中,所述步骤S202包括:利用预设的三维卷积神经网络对所述第一音频中的若干段音频数据均执行特征提取,生成符合所述三维卷积神经网络的输入要求的音频特征作为所述有效音频数据。
本申请中应用所述三维卷积神经网络作为说话人的音频特征信息的提取器,并对所述第一音频中每一段音频进行特征提取,由此取得的特征为40维的MFCC(Mel FrequencyCepstrum Coefficient,梅尔频率倒谱系数)特征,MFCC特征输入到所述三维卷积神经网络中便能应用于计算。
在本申请实施例的一种具体实施方式中,所述利用预设的三维卷积神经网络对所述第一音频中的若干段音频数据均执行特征提取的步骤之前,所述基于神经网络的说话人确认方法还包括步骤:对所述第一音频的若干段音频执行堆叠处理,以构成三维数值矩阵。
堆叠处理的目的是通过整合同一个说话人的多段音频使得三维卷积神经网络有能力在提取说话人特征的过程中排除音频关于噪声和音频内容的干扰。
传统的声学模型中往往需要将同一个说话人的多段音频经过统计分析处理得到特征数据后再输入模型进行处理。而三维卷积神经网络可以利用卷积网络对特征提取的高效性直接对多段音频的堆叠进行处理,可以有效提高处理效率。
同一个说话人的多段音频在堆叠处理后形成一个三维数值矩阵,而在对多段音频完成堆叠处理后,便再对堆叠后的音频数据输入到所述三维卷积神经网络中进行所述特征提取。
在本申请的一些实施例中,所述对所述第一音频执行数据预处理的步骤包括:对所述第一音频执行语音活性检测,从所述第一音频中剔除无效音频。
所述无效音频包括:静音和非说话人语音的噪音等。原始音频中的语音数据较杂乱,通过语音活性检测(Voice Activity Detection,VAD)能够将原始音频中的静音和其他噪音等无用数据检测出来,将这些无用的数据剔除后,便施加进一步的处理以获得符合三维卷积神经网络的输入的有效音频数据。若对第一音频执行特征提取,则所述执行语音活性检测的步骤在所述执行特征提取的步骤之前。
在本申请实施例的一种具体实施方式中,所述对所述第一音频执行语音活性检测,从所述第一音频中剔除无效音频的步骤之后,所述基于神经网络的说话人确认方法还包括步骤:比较所述第一音频中剔除无效音频后的每一段音频的音频长度m与所述三维卷积神经网络的输入所要求的音频输入长度n的大小;当m<n时,从所述第一音频中剔除该段音频。即当存在若干段音频满足所述m<n时,将从所述第一音频中剔除所有对应的若干段音频。
其中,n的值需要根据实际场景中三维卷积神经网络的输入要求完成设置。在剔除了无效音频后,或者进行更进一步的处理后,可视为获得了有效音频数据。此时有效音频数据的长度若过短,便无法满足三维卷积神经网络对每一段音频的长度的输入要求,因此需要将未达到输入要求所需的音频长度的音频进行剔除。
而若满足所述m≥n时,则表示第一音频在剔除了无效的音频后,其长度可以截取出满足三维卷积神经网络的输入要求的音频,因此符合参与后续步骤处理时的要求。
步骤203:调用所述三维卷积神经网络,将所述有效音频数据输入所述三维卷积神经网络。
本申请实施例中,在所述调用三维卷积神经网络的步骤之前,所述基于神经网络的说话人确认方法还需包括步骤:对所述三维卷积神经网络进行训练,并将若干个不同说话人的音频数据输入到所述三维卷积神经网络中完成备案注册。
预设的三维卷积神经网络,在对其调用之前,还需先对该三维卷积神经网络的模型进行训练,以使模型取得较好的检测性能,然后向三维卷积神经网络中输入不同的说话人的音频进行备案注册,以形成说话人的音频模型,之后便可通过输入待检测的音频与备案注册的说话人音频进行比对,完成说话人确认的目的。
在本申请实施例的一种具体实施方式中,对接收到的所述第一音频执行数据预处理或将若干个不同说话人的音频数据输入到所述三维卷积神经网络中完成备案注册时,所述基于神经网络的说话人确认方法还包括步骤:基于所述三维卷积神经网络的输入所要求的的音频输入长度,将第一音频中的若干段音频数据或将若干个不同说话人的音频数据执行等长切分,并将切分后的音频数据依次输入所述三维卷积神经网络。
所述三维卷积神经网络的模型设立时,其输入的要求便已确定了,即输入该模型的音频所需要的段数和每段音频的长度均已确定,其中每段音频的长度需相等。即在输入音频进行训练、输入音频进行备案注册和输入音频进行确认时,输入所述三维卷积神经网络的音频段数均应相同,且段数的数量与输入该模型所要求的段数保持一致。
由于三维卷积神经网络的训练过程中,对输入音频的可控性较强,对音频的来源要求较低,因此可以方便地输入较多段数的音频,容易满足模型的输入要求。而音频的备案注册和确认时,为了避免采集说话人音频的过程较麻烦,花费过多时间和精力,一般其音频的段数较少,此时我们可以对音频进行随机复制,以增加音频的段数直至满足三维卷积神经网络的对音频段数的输入要求。
音频的备案注册和确认过程中,要满足三维卷积神经网络对每一段音频的长度的输入要求,便需根据输入要求对先对每一段音频依据时长进行等长的切分,切分的步骤可在对音频进行复制的步骤之前,也可在其步骤之后。且在本申请实施例的具体实施方式中,所述对所述第一音频的若干段音频执行堆叠处理的步骤在对音频进行复制和切分的步骤之后。
在本申请实施例的另一种具体实施方式中,对该三维卷积神经网络的模型进行训练时,所述将若干个不同说话人的音频数据输入到所述三维卷积神经网络中完成备案注册时的步骤还包括:对若干个不同说话人的音频数据形成的训练集进行身份标注,统计每个说话人对应的音频数据的数量,若一个说话人对应的音频数据数量小于预设的阈值,则将该说话人对应的所有音频数据从所述训练集中排除。
如此为了防止训练集中所属同一说话人的音频数据过少时,影响训练的质量。
所述三维卷积神经网络为端到端的卷积神经网路,对比传统的PLDA(Probabilistic Linear Discriminant Analysis,概率线性判别分析)的说话人确认方法。所需要的训练集更少,模型更容易训练,可降低训练的成本。而且使用三维卷积神经网络在说话人确认方面,具有更高的确认准确性。
在本申请实施例中,所述基于神经网络的说话人确认方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收用户发出的接收音频数据和调用三维卷积神经网络的请求。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤204:匹配所述三维卷积神经网络中与所述第一音频的说话人身份标识相同的第二音频,根据所述三维卷积神经网络计算所述有效音频数据和所述第二音频的相似度x;所述第二音频为已纳入所述三维卷积神经网络中注册备案的音频数据。
根据所述第一音频的说话人身份标识匹配所述第一音频在预设的三维卷积神经网络中对应的第二音频,所述三维卷积神经网络中的所述第二音频同样包含了说话人身份标识;所述第一音频和所述第二音频即为包含同一说话人身份标识的音频数据。计算时,有效音频数据通过所述三维卷积神经网络后得到其各个音频的表示,然后与第二有效音频数据通过所述三维卷积神经网络匹配到的已注册备案的说话人模型进行相似度值的计算。
具体相似度值的计算可采用余弦相似度计算公式:
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,这里即指通过计算两个向量A和B的夹角余弦值来评估它们的相似度,其中Ai、Bi分别代表向量A和B的各分量,在本申请实施例中,向量A和B分别由所述有效音频数据和第二音频表示。
步骤205:当所述相似度大于等于预设阈值时,确认所述第一音频与所述第二音频为同一说话人的音频数据。
相似度的值越高,表示音频来自同一个说话人的可能性越高,因此计算出所述有效音频数据和所述第二音频的相似度x后,便获取预设的相似度的确认阈值t,然后比较x与预设的确认阈值t的大小,根据比较结果进行判断即可。x≥t,表示所述第一音频与所述第二音频的相似度高,可以确认为同一个说话人的语音,x<t,则表示所述第一音频与所述第二音频的相似度低,便判断二者为不同说话人的语音。
本申请实施例所述的基于神经网络的说话人确认方法,通过对音频进行数据预处理,可以排除许多多余或杂乱信息的干扰,并应用三维卷积神经网络的模型,使训练更容易,降低了训练的成本,在说话人确认方面,能够显著提升确认结果的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,图3示出了为本申请实施例中所述基于神经网络的说话人确认装置的一个实施例的结构示意图。作为对上述图2所示方法的实现,本申请提供了一种基于神经网络的说话人确认装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的基于神经网络的说话人确认装置包括:
接收模块301;用于接收第一音频。
所述第一音频为包含说话人身份标识的若干段音频数据。
预处理模块302;用于对接收到的所述第一音频执行数据预处理,以获取符合预设的三维卷积神经网络的输入要求的有效音频数据。
输入模块303;用于调用所述三维卷积神经网络,将所述有效音频数据输入所述三维卷积神经网络。
计算模块304;用于匹配所述三维卷积神经网络中与所述第一音频的说话人身份标识相同的第二音频,根据所述三维卷积神经网络计算所述有效音频数据和所述第二音频的相似度;所述第二音频为已纳入所述三维卷积神经网络中注册备案的音频数据。
确认模块305;用于当所述相似度大于等于预设阈值时,确认所述第一音频与所述第二音频为同一说话人的音频数据。
在本申请的一些实施例中,所述基于神经网络的说话人确认装置中,所述预处理模块302还包括:特征提取子模块;所述特征提取子模块用于利用预设的三维卷积神经网络对所述第一音频中的若干段音频数据均执行特征提取,生成符合所述三维卷积神经网络的输入要求的音频特征作为所述有效音频数据。
在本申请实施例的一种具体实施方式中,所述基于神经网络的说话人确认装置中,所述预处理模块302还包括:堆叠子模块。所述堆叠子模块用于在所述特征提取模块执行特征提取的步骤之前,对所述第一音频的若干段音频执行堆叠处理,以构成三维数值矩阵。
在本申请的一些实施例中,所述基于神经网络的说话人确认装置中,所述预处理模块302还包括:活性检测子模块。所述活性检测子模块用于对所述第一音频执行语音活性检测,从所述第一音频中剔除无效音频。
在本申请实施例的一种具体实施方式中,所述预处理模块302还用于比较所述第一音频中剔除无效音频后的每一段音频的音频长度m与所述三维卷积神经网络的输入所要求的音频输入长度n的大小;当m<n时,从所述第一音频中剔除该段音频。
在本申请的一些实施例中,所述基于神经网络的说话人确认装置还包括:训练模块。所述训练模块用于对所述三维卷积神经网络进行训练,并将若干个不同说话人的音频数据输入到所述三维卷积神经网络中完成备案注册。
在本申请实施例的一种具体实施方式中,预处理模块302还包括第一切分子模块,所述训练模块还包括第二切分子模块。所述对接收到的所述第一音频执行数据预处理或将若干个不同说话人的音频数据输入到所述三维卷积神经网络中完成备案注册时,所述第一切分子模块和所述第二切分子模块分别用于将第一音频中的若干段音频数据和将若干个不同说话人的音频数据执行等长切分,并通过所述输入模块303将切分后的音频数据依次输入所述三维卷积神经网络。
本申请实施例所述的基于神经网络的说话人确认装置,通过对音频进行数据预处理,可以排除许多多余或杂乱信息的干扰,并应用三维卷积神经网络的模型,使训练更容易,降低了训练的成本,在说话人确认方面,能够显著提升确认结果的准确性。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过***总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作***和各类应用软件,例如基于神经网络的说话人确认方法的程序代码等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据,例如运行所述基于神经网络的说话人确认方法的程序代码。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于神经网络的说话人确认程序,所述基于神经网络的说话人确认程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于神经网络的说话人确认方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
在本申请所提供的上述实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
所述模块或组件可以是或者也可以不是物理上分开的,作为模块或组件显示的部件可以是或者也可以不是物理模块,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块或组件来实现本实施例方案的目的。
本申请不限于上述实施方式,以上所述是本申请的优选实施方式,该实施例仅用于说明本申请而不用于限制本申请的范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,其依然可以对前述各具体实施方式所记载的技术方案进行若干改进和修饰,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理应视为包括在本申请的保护范围之内。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,以及凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于神经网络的说话人确认方法,其特征在于,包括:
接收第一音频;所述第一音频为包含说话人身份标识的若干段音频数据;
对接收到的所述第一音频执行数据预处理,以获取符合预设的三维卷积神经网络的输入要求的有效音频数据;
调用所述三维卷积神经网络,将所述有效音频数据输入所述三维卷积神经网络;
匹配所述三维卷积神经网络中与所述第一音频的说话人身份标识相同的第二音频,根据所述三维卷积神经网络计算所述有效音频数据和所述第二音频的相似度;所述第二音频为已纳入所述三维卷积神经网络中注册备案的音频数据;
当所述相似度大于等于预设阈值时,确认所述第一音频与所述第二音频为同一说话人的音频数据。
2.根据权利要求1所述的基于神经网络的说话人确认方法,其特征在于,所述对所述第一音频执行数据预处理,以获取符合预设的三维卷积神经网络的输入要求的有效音频数据的步骤包括:
利用预设的三维卷积神经网络对所述第一音频中的若干段音频数据均执行特征提取,生成符合所述三维卷积神经网络的输入要求的音频特征作为所述有效音频数据。
3.根据权利要求2所述的基于神经网络的说话人确认方法,其特征在于,在所述利用预设的三维卷积神经网络对所述第一音频中的若干段音频数据均执行特征提取的步骤之前,所述方法还包括:
对所述第一音频的若干段音频执行堆叠处理,以构成三维数值矩阵。
4.根据权利要求1所述的基于神经网络的说话人确认方法,其特征在于,所述对所述第一音频执行数据预处理的步骤包括:
对所述第一音频执行语音活性检测,从所述第一音频中剔除无效音频。
5.根据权利要求4所述的基于神经网络的说话人确认方法,其特征在于,所述对所述第一音频执行语音活性检测,从所述第一音频中剔除无效音频的步骤之后,所述方法还包括:
比较所述第一音频中剔除无效音频后的每一段音频的音频长度m与所述三维卷积神经网络的输入所要求的音频输入长度n的大小;
当m<n时,从所述第一音频中剔除该段音频。
6.根据权利要求1所述的基于神经网络的说话人确认方法,其特征在于,在所述调用所述三维卷积神经网络的步骤之前,所述方法还包括步骤:
对所述三维卷积神经网络进行训练,并将若干个不同说话人的音频数据输入到所述三维卷积神经网络中完成备案注册。
7.根据权利要求6所述的基于神经网络的说话人确认方法,其特征在于,对接收到的所述第一音频执行数据预处理或将若干个不同说话人的音频数据输入到所述三维卷积神经网络中完成备案注册时,所述方法还包括步骤:
基于所述三维卷积神经网络的输入所要求的音频输入长度,将第一音频中的若干段音频数据或将若干个不同说话人的音频数据执行等长切分,并将切分后的音频数据依次输入所述三维卷积神经网络。
8.一种基于神经网络的说话人确认装置,其特征在于,包括:
接收模块,用于接收第一音频;所述第一音频为包含说话人身份标识的若干段音频数据;
预处理模块,用于对接收到的所述第一音频执行数据预处理,以获取符合预设的三维卷积神经网络的输入要求的有效音频数据;
输入模块,用于调用所述三维卷积神经网络,将所述有效音频数据输入所述三维卷积神经网络;
计算模块,用于匹配所述三维卷积神经网络中与所述第一音频的说话人身份标识相同的第二音频,根据所述三维卷积神经网络计算所述有效音频数据和所述第二音频的相似度;所述第二音频为已纳入所述三维卷积神经网络中注册备案的音频数据;
确认模块,用于当所述相似度大于等于预设阈值时,确认所述第一音频与所述第二音频为同一说话人的音频数据。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的基于神经网络的说话人确认方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的基于神经网络的说话人确认方法的步骤。
CN201910598357.7A 2019-07-04 2019-07-04 基于神经网络的说话人确认方法、装置、设备及存储介质 Pending CN110415708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910598357.7A CN110415708A (zh) 2019-07-04 2019-07-04 基于神经网络的说话人确认方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910598357.7A CN110415708A (zh) 2019-07-04 2019-07-04 基于神经网络的说话人确认方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110415708A true CN110415708A (zh) 2019-11-05

Family

ID=68360226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910598357.7A Pending CN110415708A (zh) 2019-07-04 2019-07-04 基于神经网络的说话人确认方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110415708A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331154A (zh) * 2022-10-12 2022-11-11 成都西交智汇大数据科技有限公司 一种实验步骤评分方法、装置、设备及可读存储介质
CN115966206A (zh) * 2022-11-23 2023-04-14 中创科技(广州)有限公司 Ai语音识别的智能图片生成方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464568A (zh) * 2017-09-25 2017-12-12 四川长虹电器股份有限公司 基于三维卷积神经网络文本无关的说话人识别方法及***
CN108597523A (zh) * 2018-03-23 2018-09-28 平安科技(深圳)有限公司 说话人认证方法、服务器及计算机可读存储介质
CN108734114A (zh) * 2018-05-02 2018-11-02 浙江工业大学 一种结合面部和声纹的宠物识别方法
CN109215665A (zh) * 2018-07-20 2019-01-15 广东工业大学 一种基于3d卷积神经网络的声纹识别方法
US20190156206A1 (en) * 2017-11-17 2019-05-23 Facebook, Inc. Analyzing Spatially-Sparse Data Based on Submanifold Sparse Convolutional Neural Networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464568A (zh) * 2017-09-25 2017-12-12 四川长虹电器股份有限公司 基于三维卷积神经网络文本无关的说话人识别方法及***
US20190156206A1 (en) * 2017-11-17 2019-05-23 Facebook, Inc. Analyzing Spatially-Sparse Data Based on Submanifold Sparse Convolutional Neural Networks
CN108597523A (zh) * 2018-03-23 2018-09-28 平安科技(深圳)有限公司 说话人认证方法、服务器及计算机可读存储介质
CN108734114A (zh) * 2018-05-02 2018-11-02 浙江工业大学 一种结合面部和声纹的宠物识别方法
CN109215665A (zh) * 2018-07-20 2019-01-15 广东工业大学 一种基于3d卷积神经网络的声纹识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331154A (zh) * 2022-10-12 2022-11-11 成都西交智汇大数据科技有限公司 一种实验步骤评分方法、装置、设备及可读存储介质
CN115966206A (zh) * 2022-11-23 2023-04-14 中创科技(广州)有限公司 Ai语音识别的智能图片生成方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN112259106B (zh) 声纹识别方法、装置、存储介质及计算机设备
Liu et al. An MFCC‐based text‐independent speaker identification system for access control
CN110289003A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN106847292A (zh) 声纹识别方法及装置
CN107886957A (zh) 一种结合声纹识别的语音唤醒方法及装置
CN106683680A (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN109461073A (zh) 智能识别的风险管理方法、装置、计算机设备及存储介质
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN106504768A (zh) 基于人工智能的电话拨测音频分类方法及装置
CN110415701A (zh) 唇语的识别方法及其装置
CN108648769A (zh) 语音活性检测方法、装置及设备
CN108281158A (zh) 基于深度学习的语音活体检测方法、服务器及存储介质
CN104538035B (zh) 一种基于Fisher超向量的说话人识别方法及***
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN110265037A (zh) 身份验证方法、装置、电子设备及计算机可读存储介质
CN109801635A (zh) 一种基于注意力机制的声纹特征提取方法及装置
WO2020238046A1 (zh) 人声智能检测方法、装置及计算机可读存储介质
CN111508524B (zh) 语音来源设备的识别方法和***
CN107591150A (zh) 语音识别方法及装置、计算机装置及计算机可读存储介质
CN109872713A (zh) 一种语音唤醒方法及装置
CN111694940A (zh) 一种用户报告的生成方法及终端设备
CN107731234A (zh) 一种身份验证的方法及装置
CN105679323B (zh) 一种号码发现方法及***
CN113223536A (zh) 声纹识别方法、装置及终端设备
CN110415708A (zh) 基于神经网络的说话人确认方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination