CN108416096B - 基于人工智能的远场语音数据信噪比估计方法及装置 - Google Patents

基于人工智能的远场语音数据信噪比估计方法及装置 Download PDF

Info

Publication number
CN108416096B
CN108416096B CN201810102302.8A CN201810102302A CN108416096B CN 108416096 B CN108416096 B CN 108416096B CN 201810102302 A CN201810102302 A CN 201810102302A CN 108416096 B CN108416096 B CN 108416096B
Authority
CN
China
Prior art keywords
far
signal
noise ratio
voice data
field voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810102302.8A
Other languages
English (en)
Other versions
CN108416096A (zh
Inventor
孙建伟
李超
李鑫
朱唯鑫
文铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810102302.8A priority Critical patent/CN108416096B/zh
Publication of CN108416096A publication Critical patent/CN108416096A/zh
Application granted granted Critical
Publication of CN108416096B publication Critical patent/CN108416096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/10Noise analysis or noise optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了基于人工智能的远场语音数据信噪比估计方法及装置,其中方法包括:基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;根据状态绑定结果划分出远场语音数据中的噪声段和语音段;根据划分结果确定出远场语音数据的信噪比。应用本发明所述方案,能够提高信噪比估计结果的准确性等。

Description

基于人工智能的远场语音数据信噪比估计方法及装置
【技术领域】
本发明涉及计算机应用技术,特比涉及基于人工智能的远场语音数据信噪比估计方法及装置。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
远场语音产品如音响、车机等的声学模型在训练过程中都需要用到大量的远场语音数据,而真实的远场语音数据有限,为满足模型训练的需求,则需要生成大量仿真出的远场语音数据。
可通过对近场语音数据按照真实场景中的信噪比(SNR)分布进行加噪来生成仿真的远场语音数据,因此对真实的远场语音数据的信噪比估计就显得十分重要。
现有技术中,针对远场语音数据,通常采用以下方式来估计其信噪比:首先,获取远场语音数据的幅值能量,之后,确定远场语音数据幅值能量的分割阈值,并通过分割阈值将远场语音数据划分为噪声段和语音段,最后,根据划分出的噪声段和语音段计算信噪比。但是,这种方式中的分割阈值很难准确确定,而一旦分割阈值不准确,就会导致获取到的信噪比不准确。
【发明内容】
有鉴于此,本发明提供了基于人工智能的远场语音数据信噪比估计方法及装置。
具体技术方案如下:
一种基于人工智能的远场语音数据信噪比估计方法,包括:
基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;
根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段;
根据划分结果确定出所述远场语音数据的信噪比。
根据本发明一优选实施例,所述基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定之前,进一步包括:
利用获取到的近场语音数据,训练得到所述决策树模型。
根据本发明一优选实施例,所述根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段包括:
根据获取到的状态id对齐标签,划分出所述远场语音数据中的噪声段和语音段。
根据本发明一优选实施例,所述根据划分结果确定出所述远场语音数据的信噪比包括:
分别获取所述噪声段以及所述语音段的幅值能量;
根据获取到的幅值能量计算出所述远场语音数据的信噪比。
根据本发明一优选实施例,该方法进一步包括:
分别获取N条远场语音数据的信噪比,N为大于一的正整数;
根据N条远场语音数据的信噪比,生成信噪比统计直方图;所述信噪比统计直方图的横轴为不同的信噪比取值,所述信噪比统计直方图的纵轴为分别对应于不同的信噪比取值的远场语音数据的条数;
根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围。
根据本发明一优选实施例,所述根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围包括:
确定出所述信噪比统计直方图中的纵轴取值的峰值;
按照预定方式,根据所述峰值确定出一个参考值,所述参考值小于所述峰值;
找出所述信噪比统计直方图中满足以下条件的两个横轴取值:对应的纵轴取值等于所述峰值;
将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。
根据本发明一优选实施例,所述按照预定方式,根据所述峰值确定出一个参考值包括:
将所述峰值的1/M作为所述参考值,M为大于一的正整数。
一种基于人工智能的远场语音数据信噪比估计装置,包括:绑定单元、划分单元以及估计单元;
所述绑定单元,用于基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定;
所述划分单元,用于根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段;
所述估计单元,用于根据划分结果确定出所述远场语音数据的信噪比。
根据本发明一优选实施例,所述装置中进一步包括:训练单元;
所述训练单元,用于利用获取到的近场语音数据,训练得到所述决策树模型。
根据本发明一优选实施例,所述划分单元根据获取到的状态id对齐标签,划分出所述远场语音数据中的噪声段和语音段。
根据本发明一优选实施例,所述估计单元分别获取所述噪声段以及所述语音段的幅值能量,根据获取到的幅值能量计算出所述远场语音数据的信噪比。
根据本发明一优选实施例,所述装置中进一步包括:统计单元;
所述统计单元,用于分别获取N条远场语音数据的信噪比,N为大于一的正整数,根据N条远场语音数据的信噪比,生成信噪比统计直方图,所述信噪比统计直方图的横轴为不同的信噪比取值,所述信噪比统计直方图的纵轴为分别对应于不同的信噪比取值的远场语音数据的条数,根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围。
根据本发明一优选实施例,所述统计单元确定出所述信噪比统计直方图中的纵轴取值的峰值,按照预定方式,根据所述峰值确定出一个参考值,所述参考值小于所述峰值,并找出所述信噪比统计直方图中满足以下条件的两个横轴取值:对应的纵轴取值等于所述峰值,将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。
根据本发明一优选实施例,所述统计单元将所述峰值的1/M作为所述参考值,M为大于一的正整数。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定,之后可根据状态绑定结果划分出远场语音数据中的噪声段和语音段,进而根据划分结果确定出远场语音数据的信噪比,相比于现有技术,本发明所述方案中无需用到分割阈值,而是利用决策树模型来划分噪声段和语音段,从而提高了信噪比估计结果的准确性等。
【附图说明】
图1为本发明所述基于人工智能的远场语音数据信噪比估计方法实施例的流程图。
图2为本发明所述远场语音数据的信噪比分布范围获取方法实施例的流程图。
图3为本发明所述信噪比统计直方图的示意图。
图4为本发明所述基于人工智能的远场语音数据信噪比估计装置实施例的组成结构示意图。
图5示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述基于人工智能的远场语音数据信噪比估计方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定。
在102中,根据状态绑定结果划分出远场语音数据中的噪声段和语音段。
在103中,根据划分结果确定出远场语音数据的信噪比。
可以看出,本实施例中,需要用到决策树模型,决策树模型为预先训练得到的。较佳地,可利用获取到的近场语音数据,训练得到决策树模型。
可获取足够数量的近场语音数据作为训练样本,并分别获取每个训练样本的状态id对齐标签。也就是说,针对任一训练样本中的每一帧,分别获取其对应的状态id(数字),从而构成一个状态id序列,不同的状态id可代表不同的含义,比如,某些状态id代表对应的帧数据为语音数据,另外的状态id代表对应的帧数据为非语音数据。如何获取每个训练样本的状态id对齐标签不作限制,可根据实际需要而定。
基于获取到的训练样本,可训练得到决策树模型。训练决策树模型的过程即为让模型学习到如何将语音数据映射到对应的状态id对齐标签的过程。
近场语音数据可认为是比较干净的语音数据,利用近场语音数据训练决策树模型,能够更好的对语音的内部结构进行确认以及对语音的音素进行更加精确的状态绑定,从而使得得到的决策树模型更加准确。
获取到决策树模型之后,即可结合决策树模型来对远场语音数据进行信噪比估计。
具体地,可首先基于决策树模型,对待处理的远场语音数据进行状态绑定,之后可根据状态绑定结果划分出远场语音数据中的噪声段和语音段,进而可根据划分结果确定出远场语音数据的信噪比。
基于决策树模型对远场语音数据进行状态绑定,可得到状态绑定结果,即状态id对齐标签,进一步地,可基于状态id对齐标签划分出远场语音数据中的噪声段和语音段。
基于获取到的状态id对齐标签,可区分出语音数据以及非语音数据,在远场语音数据中,非语音数据即可认为是噪声数据,相应地,可分别得到远场语音数据中的噪声段和语音段。
之后,可分别获取噪声段和语音段的幅值能量,进而可根据获取到的幅值能量,按照信噪比计算公式计算出远场语音数据的信噪比。如何获取噪声段和语音段的幅值能量为现有技术。
至此,即获取到了待处理的远场语音数据的信噪比。在此基础上,还可进一步统计出远场语音数据的信噪比分布范围。
具体地,可分别获取N条远场语音数据的信噪比,N为大于一的正整数,之后,可根据这N条远场语音数据的信噪比,生成信噪比统计直方图;信噪比统计直方图的横轴为不同的信噪比取值,信噪比统计直方图的纵轴为分别对应于不同的信噪比取值的远场语音数据的条数,进而可根据信噪比统计直方图确定出远场语音数据的信噪比分布范围。
N的具体取值可根据实际需要而定,比如,可为10万。
综合上述介绍,图2为本发明所述远场语音数据的信噪比分布范围获取方法实施例的流程图。如图2所示,包括以下具体实现方式。
在201中,利用获取到的近场语音数据,训练得到决策树模型。
在202中,针对N条远场语音数据中的每条远场语音数据,分别按照203~205所示方式进行处理。
在203中,基于决策树模型,对远场语音数据进行状态绑定。
在204中,根据状态绑定结果划分出远场语音数据中的噪声段和语音段。
如可根据获取到的状态id对齐标签,划分出远场语音数据中的噪声段和语音段。
在205中,根据划分结果确定出远场语音数据的信噪比。
如可分别获取划分出的噪声段以及语音段的幅值能量,进而根据获取到的幅值能量计算出远场语音数据的信噪比。
在206中,根据N条远场语音数据的信噪比,生成信噪比统计直方图。
针对N条远场语音数据中的每条远场语音数据,分别按照203~205所示方式进行处理,即指针对每条远场语音数据,分别按照图1所示实施例中的方式进行处理。
在分别获取到每条远场语音数据的信噪比之后,可生成信噪比统计直方图,具体地,可根据各信噪比的量化结果,生成信噪比统计直方图。
信噪比的统计范围一般没有固定量程,但在实际场景中,人类语音的信噪比一般不会超过-100~+100db,因此,本发明中在划定信噪比范围的时候可采用单位db作为刻度,划定信噪比的统计范围为-100~+100db,或者,还可进一步简化为0~100db,因为一般情况下人类在真实场景中的说话声音是不会小于0db的。
图3为本发明所述信噪比统计直方图的示意图。如图3所示,其中的横轴为不同的信噪比取值,如可为0~100db,纵轴为分别对应于不同的信噪比取值的远场语音数据的条数,假设N的取值为10万,那么不同的信噪比取值对应的远场语音数据的条数之和则为10万。
在207中,根据信噪比统计直方图确定出远场语音数据的信噪比分布范围。
从图3中可以看出,远场语音数据的信噪比近似为高斯分布,那么,在确定远场语音数据的信噪比分布范围时,可采用以下方式:首先,确定出不同的横轴取值对应的纵轴取值中的最大值,即峰值,之后,可按照预定方式,根据峰值确定出一个参考值,参考值小于峰值,进一步地,可找出满足以下条件的两个横轴取值:对应的纵轴取值等于参考值,最后,将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。
较佳地,在确定出信噪比统计直方图中的纵轴取值的峰值之后,可分别找出对应的纵轴取值为峰值的1/M的两个横轴取值,进而将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。
M为大于一的正整数,具体取值可根据实际需要而定,比如,可为5。假设峰值为3500,那么则需要分别找出对应的纵轴取值为700的两个横轴取值,假设分别为a和b,那么则可将[a,b]作为远场语音数据的信噪比分布范围。
在实际应用中,可以针对真实的远场语音数据统计信噪比分布范围,进而可根据统计出的信噪比分布范围来对近场语音数据进行加噪,从而得到与真实的远场语音数据尽量一致的仿真的远场语音数据。
进一步地,在获取到各仿真的远场语音数据之后,还可统计出各仿真的远场语音数据的信噪比分布范围,并可将仿真的远场语音数据的信噪比分布范围与真实的远场语音数据的信噪比分布范围进行比较,以验证仿真的远场语音数据是否与真实的远场语音数据相符等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
总之,采用上述各方法实施例所述方案,无需用到分割阈值,而是利用基于近场语音数据训练得到的决策树模型来划分远场语音数据中的噪声段和语音段,进而根据划分出的噪声段和语音段确定出远场语音数据的信噪比,从而提高了信噪比估计结果的准确性。
在此基础上,还可统计出远场语音数据的信噪比分布范围,由于信噪比估计结果的准确性得以提升,那么相应地保证了统计出的远场语音数据的信噪比分布范围的准确性,进而可得到更加真实的仿真的远场语音数据,并相应地提升了利用远场语音数据训练得到的声学模型的性能,如提升了声学模型的鲁棒性以及抗噪性能等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图4为本发明所述基于人工智能的远场语音数据信噪比估计装置实施例的组成结构示意图。如图4所示,包括:绑定单元401、划分单元402以及估计单元403。
绑定单元401,用于基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定。
划分单元402,用于根据状态绑定结果划分出远场语音数据中的噪声段和语音段。
估计单元403,用于根据划分结果确定出远场语音数据的信噪比。
可以看出,本实施例中,需要用到决策树模型,决策树模型为预先训练得到的。相应地,图4所示装置中还可进一步包括:训练单元400。
训练单元400,用于利用获取到的近场语音数据,训练得到决策树模型。
近场语音数据可认为是比较干净的语音数据,利用近场语音数据训练决策树模型,能够更好的对语音的内部结构进行确认以及对语音的音素进行更加精确的状态绑定,从而使得得到的决策树模型更加准确。
获取到决策树模型之后,即可结合决策树模型来对远场语音数据进行信噪比估计。
首先,绑定单元401可基于决策树模型,对待处理的远场语音数据进行状态绑定,之后,划分单元402可根据获取到的状态id对齐标签,划分出远场语音数据中的噪声段和语音段。
基于决策树模型对远场语音数据进行状态绑定,可得到状态绑定结果,即状态id对齐标签,进一步地,可基于状态id对齐标签划分出远场语音数据中的噪声段和语音段。
基于获取到的状态id对齐标签,可区分出语音数据以及非语音数据,在远场语音数据中,非语音数据即可认为是噪声数据,相应地,可分别得到远场语音数据中的噪声段和语音段。
之后,估计单元403可分别获取噪声段以及语音段的幅值能量,并根据获取到的幅值能量计算出远场语音数据的信噪比。
至此,即获取到了待处理的远场语音数据的信噪比。在此基础上,还可进一步统计出远场语音数据的信噪比分布范围。相应地,图4所示装置中还可进一步包括:统计单元404。
统计单元404,用于分别获取N条远场语音数据的信噪比,N为大于一的正整数,根据N条远场语音数据的信噪比,生成信噪比统计直方图,信噪比统计直方图的横轴为不同的信噪比取值,信噪比统计直方图的纵轴为分别对应于不同的信噪比取值的远场语音数据的条数,根据信噪比统计直方图确定出远场语音数据的信噪比分布范围。
针对N条远场语音数据中的每条远场语音数据,可分别按照前述方式获取其信噪比,之后,可根据各信噪比,生成信噪比统计直方图。如图3所示,远场语音数据的信噪比近似为高斯分布,那么,在确定远场语音数据的信噪比分布范围时,可采用以下方式:首先,确定出不同的横轴取值对应的纵轴取值中的最大值,即峰值,之后,可按照预定方式,根据峰值确定出一个参考值,参考值小于峰值,进一步地,可找出满足以下条件的两个横轴取值:对应的纵轴取值等于参考值,最后,将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。
较佳地,在确定出信噪比统计直方图中的纵轴取值的峰值之后,可分别找出对应的纵轴取值为峰值的1/M的两个横轴取值,进而将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。M为大于一的正整数,具体取值可根据实际需要而定,比如,可为5。
图4所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
总之,采用上述装置实施例所述方案,无需用到分割阈值,而是利用基于近场语音数据训练得到的决策树模型来划分远场语音数据中的噪声段和语音段,进而根据划分出的噪声段和语音段确定出远场语音数据的信噪比,从而提高了信噪比估计结果的准确性。
在此基础上,还可统计出远场语音数据的信噪比分布范围,由于信噪比估计结果的准确性得以提升,那么相应地保证了统计出的远场语音数据的信噪比分布范围的准确性,进而可得到更加真实的仿真的远场语音数据,并相应地提升了利用远场语音数据训练得到的声学模型的性能,如提升了声学模型的鲁棒性以及抗噪性能等。
图5示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图5显示的计算机***/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同***组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机***/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1或2所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1或2所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种基于人工智能的远场语音数据信噪比估计方法,其特征在于,包括:
基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定,包括:将所述远场语音数据映射到对应的状态id对齐标签;
根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段;
根据划分结果确定出所述远场语音数据的信噪比。
2.根据权利要求1所述的方法,其特征在于,
所述基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定之前,进一步包括:
利用获取到的近场语音数据,训练得到所述决策树模型。
3.根据权利要求1所述的方法,其特征在于,
所述根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段包括:
根据获取到的状态id对齐标签,划分出所述远场语音数据中的噪声段和语音段。
4.根据权利要求1所述的方法,其特征在于,
所述根据划分结果确定出所述远场语音数据的信噪比包括:
分别获取所述噪声段以及所述语音段的幅值能量;
根据获取到的幅值能量计算出所述远场语音数据的信噪比。
5.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:
分别获取N条远场语音数据的信噪比,N为大于一的正整数;
根据N条远场语音数据的信噪比,生成信噪比统计直方图;所述信噪比统计直方图的横轴为不同的信噪比取值,所述信噪比统计直方图的纵轴为分别对应于不同的信噪比取值的远场语音数据的条数;
根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围。
6.根据权利要求5所述的方法,其特征在于,
所述根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围包括:
确定出不同的横轴取值对应的纵轴取值中的最大值,将所述最大值作为峰值;
按照预定方式,根据所述峰值确定出一个参考值,所述参考值小于所述峰值;
找出满足以下条件的两个横轴取值:对应的纵轴取值等于所述参考值;
将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。
7.根据权利要求6所述的方法,其特征在于,
所述按照预定方式,根据所述峰值确定出一个参考值包括:
将所述峰值的1/M作为所述参考值,M为大于一的正整数。
8.一种基于人工智能的远场语音数据信噪比估计装置,其特征在于,包括:绑定单元、划分单元以及估计单元;
所述绑定单元,用于基于预先训练得到的决策树模型,对待处理的远场语音数据进行状态绑定,包括:将所述远场语音数据映射到对应的状态id对齐标签;
所述划分单元,用于根据状态绑定结果划分出所述远场语音数据中的噪声段和语音段;
所述估计单元,用于根据划分结果确定出所述远场语音数据的信噪比。
9.根据权利要求8所述的装置,其特征在于,
所述装置中进一步包括:训练单元;
所述训练单元,用于利用获取到的近场语音数据,训练得到所述决策树模型。
10.根据权利要求8所述的装置,其特征在于,
所述划分单元根据获取到的状态id对齐标签,划分出所述远场语音数据中的噪声段和语音段。
11.根据权利要求8所述的装置,其特征在于,
所述估计单元分别获取所述噪声段以及所述语音段的幅值能量,根据获取到的幅值能量计算出所述远场语音数据的信噪比。
12.根据权利要求8所述的装置,其特征在于,
所述装置中进一步包括:统计单元;
所述统计单元,用于分别获取N条远场语音数据的信噪比,N为大于一的正整数,根据N条远场语音数据的信噪比,生成信噪比统计直方图,所述信噪比统计直方图的横轴为不同的信噪比取值,所述信噪比统计直方图的纵轴为分别对应于不同的信噪比取值的远场语音数据的条数,根据所述信噪比统计直方图确定出远场语音数据的信噪比分布范围。
13.根据权利要求12所述的装置,其特征在于,
所述统计单元确定出不同的横轴取值对应的纵轴取值中的最大值,将所述最大值作为峰值,按照预定方式,根据所述峰值确定出一个参考值,所述参考值小于所述峰值,找出满足以下条件的两个横轴取值:对应的纵轴取值等于所述参考值,将找出的两个横轴取值构成的区间范围作为远场语音数据的信噪比分布范围。
14.根据权利要求13所述的装置,其特征在于,
所述统计单元将所述峰值的1/M作为所述参考值,M为大于一的正整数。
15.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
CN201810102302.8A 2018-02-01 2018-02-01 基于人工智能的远场语音数据信噪比估计方法及装置 Active CN108416096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810102302.8A CN108416096B (zh) 2018-02-01 2018-02-01 基于人工智能的远场语音数据信噪比估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810102302.8A CN108416096B (zh) 2018-02-01 2018-02-01 基于人工智能的远场语音数据信噪比估计方法及装置

Publications (2)

Publication Number Publication Date
CN108416096A CN108416096A (zh) 2018-08-17
CN108416096B true CN108416096B (zh) 2022-02-25

Family

ID=63127612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810102302.8A Active CN108416096B (zh) 2018-02-01 2018-02-01 基于人工智能的远场语音数据信噪比估计方法及装置

Country Status (1)

Country Link
CN (1) CN108416096B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009036810A (ja) * 2007-07-31 2009-02-19 National Institute Of Information & Communication Technology 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法
CN104952450A (zh) * 2015-05-15 2015-09-30 百度在线网络技术(北京)有限公司 远场识别的处理方法和装置
CN105976827A (zh) * 2016-05-26 2016-09-28 南京邮电大学 一种基于集成学习的室内声源定位方法
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN107452372A (zh) * 2017-09-22 2017-12-08 百度在线网络技术(北京)有限公司 远场语音识别模型的训练方法和装置
CN107464564A (zh) * 2017-08-21 2017-12-12 腾讯科技(深圳)有限公司 语音交互方法、装置及设备
CN107481731A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种语音数据增强方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281745B (zh) * 2008-05-23 2011-08-10 深圳市北科瑞声科技有限公司 一种车载语音交互***
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009036810A (ja) * 2007-07-31 2009-02-19 National Institute Of Information & Communication Technology 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法
CN104952450A (zh) * 2015-05-15 2015-09-30 百度在线网络技术(北京)有限公司 远场识别的处理方法和装置
CN105976827A (zh) * 2016-05-26 2016-09-28 南京邮电大学 一种基于集成学习的室内声源定位方法
CN106328126A (zh) * 2016-10-20 2017-01-11 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN107481731A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种语音数据增强方法及***
CN107464564A (zh) * 2017-08-21 2017-12-12 腾讯科技(深圳)有限公司 语音交互方法、装置及设备
CN107452372A (zh) * 2017-09-22 2017-12-08 百度在线网络技术(北京)有限公司 远场语音识别模型的训练方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
俞大海 ; 周均扬.Deep HMI-多模态深度学习技术在智能家居中的应用.《2017年中国家用电器技术大会论文集》.2017, *
基于深度学习语音分离技术的研究现状与进展;刘文举,聂帅等;《自动化学报》;20160630;第42卷(第6期);第819-833页 *
张宇 ; 张鹏远 ; 颜永红.基于注意力LSTM 和多任务学习的远场语音识别.《第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集》.2017, *

Also Published As

Publication number Publication date
CN108416096A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN107103903B (zh) 基于人工智能的声学模型训练方法、装置及存储介质
CN107481717B (zh) 一种声学模型训练方法及***
CN107680586B (zh) 远场语音声学模型训练方法及***
CN110379416B (zh) 一种神经网络语言模型训练方法、装置、设备及存储介质
CN107610709B (zh) 一种训练声纹识别模型的方法及***
CN106960219B (zh) 图片识别方法及装置、计算机设备及计算机可读介质
CN109887497B (zh) 语音识别的建模方法、装置及设备
CN109859772B (zh) 情绪识别方法、装置及计算机可读存储介质
CN110033760B (zh) 语音识别的建模方法、装置及设备
US10867618B2 (en) Speech noise reduction method and device based on artificial intelligence and computer device
CN107481731B (zh) 一种语音数据增强方法及***
CN109599095B (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
CN108573694B (zh) 基于人工智能的语料扩充及语音合成***构建方法及装置
CN103229233B (zh) 用于识别说话人的建模设备和方法、以及说话人识别***
CN109637525B (zh) 用于生成车载声学模型的方法和装置
CN108564944B (zh) 智能控制方法、***、设备及存储介质
CN110704597B (zh) 对话***可靠性校验方法、模型生成方法及装置
CN112365876A (zh) 语音合成模型的训练方法、装置、设备以及存储介质
US10991363B2 (en) Priors adaptation for conservative training of acoustic model
CN108460335B (zh) 视频细粒度识别方法、装置、计算机设备及存储介质
US10650803B2 (en) Mapping between speech signal and transcript
CN113658586A (zh) 语音识别模型的训练方法、语音交互方法及装置
CN110675865B (zh) 用于训练混合语言识别模型的方法和装置
CN113782029A (zh) 语音识别模型的训练方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant