CN112017676A - 音频处理方法、装置和计算机可读存储介质 - Google Patents

音频处理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN112017676A
CN112017676A CN201910467088.0A CN201910467088A CN112017676A CN 112017676 A CN112017676 A CN 112017676A CN 201910467088 A CN201910467088 A CN 201910467088A CN 112017676 A CN112017676 A CN 112017676A
Authority
CN
China
Prior art keywords
audio
probability
frame
processed
effective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910467088.0A
Other languages
English (en)
Inventor
李萧萧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201910467088.0A priority Critical patent/CN112017676A/zh
Priority to JP2021569116A priority patent/JP2022534003A/ja
Priority to US17/611,741 priority patent/US20220238104A1/en
Priority to PCT/CN2020/090853 priority patent/WO2020238681A1/zh
Publication of CN112017676A publication Critical patent/CN112017676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Mathematics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种音频处理方法、装置和计算机可读存储介质,涉及计算机技术领域。该方法包括:根据待处理音频中每一帧的特征信息,利用机器学习模型确定每一帧属于各候选字符的概率;判断每一帧的最大概率对应的候选字符是空白字符还是非空白字符,最大概率为每一帧属于各候选字符的概率中的最大值;在每一帧的最大概率对应的候选字符为非空白字符的情况下,将最大概率确定为有效概率;根据各有效概率,判断待处理音频为有效语音还是噪音。本公开的技术方案能够提高噪音判断的准确率。

Description

音频处理方法、装置和计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种音频处理方法、音频处理装置和计算机可读存储介质。
背景技术
随着技术的不断发展,人机智能交互技术近年来取得了很大的进步。智能语音交互技术在客服场景的应用越来越多。
然而,用户所在环境中往往存在各种噪音(如周围人说话声、环境噪声、说话人咳嗽等)。噪音经过语音识别后被错误地识别成一段无意义的文本,从而干扰语义理解,导致自然语言处理无法建立起合理的对话流程。因此,噪音对人机智能交互流程的干扰很大。
在相关技术中,一般根据音频信号的能量判定对音频文件是噪音还是有效音。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:由于不同用户的说话风格、声音大小、周围环境差异较大,能量的判定阀值较难设定,从而导致噪音判断的准确率低。
鉴于此,本公开提出了一种音频处理技术方案,能够提高噪音判断的准确率。
根据本公开的一些实施例,提供了一种音频处理方法,包括:根据待处理音频中每一帧的特征信息,利用机器学习模型确定所述每一帧属于各候选字符的概率;判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符,所述最大概率为所述每一帧属于各候选字符的概率中的最大值;在所述每一帧的最大概率对应的候选字符为非空白字符的情况下,将所述最大概率确定为有效概率;根据各有效概率,判断所述待处理音频为有效语音还是噪音。
在一些实施例中,所述根据各有效概率,判断所述待处理音频为有效语音还是噪音包括:根据所述各有效概率的加权和,计算所述待处理音频的置信度;根据所述置信度,判断所述待处理音频为有效语音还是噪音。
在一些实施例中,所述根据所述各有效概率的加权和,计算所述待处理音频的置信度包括:根据所述各有效概率的加权和与所述各有效概率的个数,计算所述置信度,所述置信度与所述各有效概率的加权和正相关,与所述各有效概率的个数负相关。
在一些实施例中,在所述待处理音频不存在有效概率的情况下,所述目标音频被判断为噪音。
在一些实施例中,所述特征信息通过滑动窗口的方式对所述每一帧进行短时傅里叶变换得到。
在一些实施例中,所述机器学习模型依次包括卷积神经网络层、循环神经网络层、全连接层和Softmax层。
根据本公开的另一些实施例,提供一种音频处理装置,包括:概率确定单元,用于根据待处理音频中每一帧的特征信息,利用机器学习模型确定所述每一帧属于各候选字符的概率;字符判断单元,用于判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符,所述最大概率为所述每一帧属于各候选字符的概率中的最大值;有效性确定单元,用于在所述每一帧的最大概率对应的候选字符为非空白字符的情况下,将所述最大概率确定为有效概率;噪音判断单元,用于根据各有效概率,判断所述待处理音频为有效语音还是噪音。
根据本公开的又一些实施例,提供一种音频处理装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的音频处理方法。
根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的音频处理方法。
在上述实施例中,根据每一帧待处理音频对应的候选字符为非空白字符的概率,确定待处理音频的有效性,进而判断待处理音频是否为噪音。这样,基于待处理音频的语义进行噪音判断,能够更好地适应不同的语音环境和不同用户的语音音量,从而提高噪音判断的准确性。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出本公开的音频处理方法的一些实施例的流程图;
图2示出图1中步骤110的一些实施例的示意图;
图3示出图1中步骤150的一些实施例的流程图;
图4示出本公开的音频处理装置的一些实施例的框图;
图5示出本公开的音频处理的另一些实施例的框图;
图6示出本公开的音频处理的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出本公开的音频处理方法的一些实施例的流程图。
如图1所示,该方法包括:步骤110,确定每一帧属于各候选字符的概率;步骤120,判断对应的候选字符是否为非空白字符;步骤140,确定为有效概率;和步骤150,判断是有效语音还是噪音。
在步骤110中,根据待处理音频中每一帧的特征信息,利用机器学习模型确定每一帧属于各候选字符的概率。例如,待处理音频可以为客服场景下8KHz采样率、16bit的PCM(Pulse Code Modulation,脉冲编码调制)格式的音频文件。
在一些实施例中,待处理音频共有T帧{1,2,......t......T},T为正整数,t为小于T的正整数。待处理视频的特征信息为X={x1,x2,......xt......xT},xt为第t帧的特征信息。
在一些实施例中,候选字符集合中可以包含常见的中文汉字、英文字母、***数字、标点符号等非空白字符以及空白字符<blank>。例如,候选字符集合W={w1,w2,......wi......wI},I为正整数,i为小于I的正整数,wi为第i个候选字符。
在一些实施例中,待处理音频中第t帧属于各候选字符的概率分布为Pt(W|X)={pt(w1|X),pt(w2|X),......pt(wi|X)......pt(wI|X)},pt(wi|X)为第t帧属于wi的概率。
例如,可以根据应用场景(如电商客服场景、日常交流场景等),采集、配置候选字符集合中的字符。空白字符为无意义字符,表明待处理音频的当前帧无法对应候选字符集合中的任何一个具有实际意义的非空白字符。
在一些实施例中,可以通过图2中的实施例确定每一帧属于各候选字符的概率。
图2示出图1中步骤110的一些实施例的示意图。
如图2所示,可以通过特征提取模块提取待处理音频的特征信息。例如,可以通过滑动窗口的方式提取待处理音频每一帧的特征信息。例如,对滑动窗口内的信号进行短时傅里叶变换得到不同频率处的能量分布信息(Spectrogram)作为特征信息。滑动窗口的大小可以为20ms,滑动的步长可以为10ms,得到的特征信息可以为一个81维向量。
在一些实施例中,可以将提取的特征信息输入机器学习模型,确定每一帧属于各候选字符的概率,即每一帧对于候选字符集合中各候选字符的概率分布。例如,机器学习模型可以包含具有双层结构的CNN(Convolutional Neural Networks,卷积神经网络)、具有单层结构的双向RNN(Recurrent Neural Network,循环神经网络)、具有单层结构的FC(Fully Connected layers,全连接层)和Softmax层。CNN可以采取Stride处理方式,以减少RNN的计算量。
在一些实施例中,候选字符集合中共有2748个候选字符,则机器学习模型的输出为2748维的向量(其中每一个元素对应一个候选字符的概率)。例如,向量的最后一维可以为<blank>字符的概率。
在一些实施例中,可以将在客服场景中采集的音频文件以及对应的人工标注文本作为训练数据。例如,训练样本可以为从训练数据中抽取的多条长度不等(如1秒到10秒)的标注语音句段。
在一些实施例中,可以采用CTC(Connectionist Temporal Classification,连接时序分类)函数作为训练用的损失函数。CTC函数可以使得机器学习模型的输出具有稀疏尖峰特征,即在多数帧的最大概率对应的候选字符为空白字符,只有少数帧的最大概率对应的候选字符为非空白字符。这样,可以提高***的处理效率。
在一些实施例中,可以采用SortaGrad的方式训练机器学习模型,即按照样本长度从小到大的顺序训练首个epoch,从而提高训练的收敛速度。例如,可以经过20个epoch的训练后,选取在验证集上表现最好的模型作为最终的机器学习模型。
在一些实施例中,可以采用顺序批处理归一化(Seq-wise Batch Normalization)的方法提高RNN训练的速度和准确度。
在确定了概率分布后,可以继续通过图1中的步骤完成噪音判断。
在步骤120中,判断每一帧的最大概率对应的候选字符是空白字符还是非空白字符。最大概率为每一帧属于各候选字符的概率中的最大值。例如,pt(w1|X),pt(w2|X),......pt(wi|X)......pt(wI|X)中的最大值为第t帧的最大概率。
在最大概率对应的候选字符为空白字符的情况下,执行步骤140。在一些实施例中,在最大概率对应的候选字符为空白字符的情况下,执行步骤130,确定为无效概率。
在步骤130中,将最大概率确定为无效概率。
在步骤140中,将最大概率确定为有效概率。
在步骤150中,根据各有效概率,判断待处理音频为有效语音还是噪音。
在一些实施例中,可以通过图3中的实施例实现步骤150。
图3示出图1中步骤150的一些实施例的流程图。
如图3所示,步骤150包括:步骤1510,计算置信度;和步骤1520,判断是有效语音还是噪音。
在步骤1510中,根据各有效概率的加权和,计算待处理音频的置信度。例如,可以根据各有效概率的加权和与各有效概率的个数,计算置信度。置信度与各有效概率的加权和正相关,与各有效概率的个数负相关。
在一些实施例中,可以通过如下的公式计算置信度:
Figure BDA0002079759390000061
函数F的定义为
Figure BDA0002079759390000071
Figure BDA0002079759390000072
表示以wi为变量Pt(W|X)的最大值;
Figure BDA0002079759390000073
表示Pt(W|X)取最大值时,变量wi的值。
上述公式中,分母为待处理音频中各帧属于各候选字符的最大概率的加权和,最大概率对应空白字符(即有效概率)权值为0,最大概率对应非空白字符(即无效概率)的权值为1;分母为对应非空白字符的最大概率的个数。例如,在待处理音频不存在有效概率的情况下(即分母部分为0),目标音频被判断为噪音(即定义α=0)。
在一些实施例中,也可以根据有效概率对应的非空白字符(如根据具体语义、应用场景、对话中的重要程度等)设置不同的权值(如大于0的权值),从而提高噪音判断的准确性。
在步骤1520中,根据置信度,判断待处理音频为有效语音还是噪音。例如,在上述情况中置信度越大待处理语音被判断为有效语音的可能性越大。因此,可以在置信度大于等于阈值的情况下,判断待处理语音为有效语音;在置信度小于阈值的情况下,判断待处理语音为噪音。
在一些实施例中,在判断结果为有效语音的情况下,可以根据机器学习模型确定的有效概率对应的候选字符,确定待处理音频对应的文本信息。这样,可以同时完成待处理音频的噪音判断和语音识别。
在一些实施例中,计算机可以对确定的文本信息进行语义理解(如自然语言处理)等后续处理,使得计算机能够理解待处理音频的语义。例如,可以基于语义理解进行语音合成后输出语音信号,从而实现人机智能交流。
在一些实施例中,在判断结果为噪音的情况下,可以直接丢弃待处理音频,不进行后续处理。这样,可以有效降低噪音对语义理解、语音合成等后续处理的不利影响,从而提高语音识别的准确性和***的处理效率。
在上述实施例中,根据每一帧待处理音频对应的候选字符为非空白字符的概率,确定待处理音频的有效性,进而判断待处理音频是否为噪音。这样,基于待处理音频的语义进行噪音判断,能够更好地适应不同的语音环境和不同用户的语音音量,从而提高噪音判断的准确性。
图4示出本公开的音频处理装置的一些实施例的框图。
如图4所示,音频处理装置4包括概率确定单元41、字符判断单元42、有效性确定单元43和噪音判断单元44。
概率确定单元41根据待处理音频中每一帧的特征信息,利用机器学习模型确定每一帧属于各候选字符的概率。例如,特征信息通过滑动窗口的方式对每一帧进行短时傅里叶变换得到。机器学习模型可以依次包括卷积神经网络层、循环神经网络层、全连接层和Softmax层。
字符判断单元42判断每一帧的最大概率对应的候选字符是空白字符还是非空白字符。最大概率为每一帧属于各候选字符的概率中的最大值。
在每一帧的最大概率对应的候选字符为非空白字符的情况下,有效性确定单元43将最大概率确定为有效概率。在一些实施例中,在每一帧的最大概率对应的候选字符为空白字符的情况下,有效性确定单元43将最大概率确定为无效概率。
噪音判断单元44根据各有效概率,判断待处理音频为有效语音还是噪音。例如,在待处理音频不存在有效概率的情况下,目标音频被判断为噪音。
在一些实施例中,噪音判断单元44根据各有效概率的加权和,计算待处理音频的置信度。噪音判断单元44根据置信度,判断待处理音频为有效语音还是噪音。例如,噪音判断单元44根据各有效概率的加权和与各有效概率的个数,计算置信度。置信度与各有效概率的加权和正相关,与各有效概率的个数负相关。
在上述实施例中,根据每一帧待处理音频对应的候选字符为非空白字符的概率,确定待处理音频的有效性,进而判断待处理音频是否为噪音。这样,基于待处理音频的语义进行噪音判断,能够更好地适应不同的语音环境和不同用户的语音音量,从而提高噪音判断的准确性。
图5示出本公开的音频处理的另一些实施例的框图。
如图5所示,该实施例的音频处理装置5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的音频处理方法。
其中,存储器51例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6示出本公开的音频处理的又一些实施例的框图。
如图6所示,该实施例的音频处理装置6包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的音频处理方法。
存储器610例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)以及其他程序等。
音频处理装置6还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的音频处理方法、音频处理装置和计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和***。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和***。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (9)

1.一种音频处理方法,包括:
根据待处理音频中每一帧的特征信息,利用机器学习模型确定所述每一帧属于各候选字符的概率;
判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符,所述最大概率为所述每一帧属于各候选字符的概率中的最大值;
在所述每一帧的最大概率对应的候选字符为非空白字符的情况下,将所述最大概率确定为有效概率;
根据各有效概率,判断所述待处理音频为有效语音还是噪音。
2.根据权利要求1所述的音频处理方法,其中,所述根据各有效概率,判断所述待处理音频为有效语音还是噪音包括:
根据所述各有效概率的加权和,计算所述待处理音频的置信度;
根据所述置信度,判断所述待处理音频为有效语音还是噪音。
3.根据权利要求2所述的音频处理方法,其中,所述根据所述各有效概率的加权和,计算所述待处理音频的置信度包括:
根据所述各有效概率的加权和与所述各有效概率的个数,计算所述置信度,所述置信度与所述各有效概率的加权和正相关,与所述各有效概率的个数负相关。
4.根据权利要求1所述的音频处理方法,其中,
在所述待处理音频不存在有效概率的情况下,所述目标音频被判断为噪音。
5.根据权利要求1-3任一项所述的音频处理方法,其中,
所述特征信息通过滑动窗口的方式对所述每一帧进行短时傅里叶变换得到。
6.根据权利要求1-3任一项所述的音频处理方法,其中,
所述机器学习模型依次包括卷积神经网络层、循环神经网络层、全连接层和Softmax层。
7.一种音频处理装置,包括:
概率确定单元,用于根据待处理音频中每一帧的特征信息,利用机器学习模型确定所述每一帧属于各候选字符的概率;
字符判断单元,用于判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符,所述最大概率为所述每一帧属于各候选字符的概率中的最大值;
有效性确定单元,用于在所述每一帧的最大概率对应的候选字符为非空白字符的情况下,将所述最大概率确定为有效概率;
噪音判断单元,用于根据各有效概率,判断所述待处理音频为有效语音还是噪音。
8.一种音频处理装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行权利要求1-6任一项所述的音频处理方法。
9.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-6任一项所述的音频处理方法。
CN201910467088.0A 2019-05-31 2019-05-31 音频处理方法、装置和计算机可读存储介质 Pending CN112017676A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910467088.0A CN112017676A (zh) 2019-05-31 2019-05-31 音频处理方法、装置和计算机可读存储介质
JP2021569116A JP2022534003A (ja) 2019-05-31 2020-05-18 音声処理方法、音声処理装置およびヒューマンコンピュータインタラクションシステム
US17/611,741 US20220238104A1 (en) 2019-05-31 2020-05-18 Audio processing method and apparatus, and human-computer interactive system
PCT/CN2020/090853 WO2020238681A1 (zh) 2019-05-31 2020-05-18 音频处理方法、装置和人机交互***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910467088.0A CN112017676A (zh) 2019-05-31 2019-05-31 音频处理方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112017676A true CN112017676A (zh) 2020-12-01

Family

ID=73501009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910467088.0A Pending CN112017676A (zh) 2019-05-31 2019-05-31 音频处理方法、装置和计算机可读存储介质

Country Status (4)

Country Link
US (1) US20220238104A1 (zh)
JP (1) JP2022534003A (zh)
CN (1) CN112017676A (zh)
WO (1) WO2020238681A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115394288A (zh) * 2022-10-28 2022-11-25 成都爱维译科技有限公司 民航多语种无线电陆空通话的语种识别方法及***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593603A (zh) * 2021-07-27 2021-11-02 浙江大华技术股份有限公司 音频类别的确定方法、装置、存储介质及电子装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012158156A1 (en) * 2011-05-16 2012-11-22 Google Inc. Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
KR101240588B1 (ko) * 2012-12-14 2013-03-11 주식회사 좋은정보기술 오디오-영상 융합 음성 인식 방법 및 장치
WO2013132926A1 (ja) * 2012-03-06 2013-09-12 日本電信電話株式会社 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
CN107077842A (zh) * 2014-12-15 2017-08-18 百度(美国)有限责任公司 用于语音转录的***和方法
US20180068653A1 (en) * 2016-09-08 2018-03-08 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
CN108389575A (zh) * 2018-01-11 2018-08-10 苏州思必驰信息科技有限公司 音频数据识别方法及***
CN108877775A (zh) * 2018-06-04 2018-11-23 平安科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100631608B1 (ko) * 2004-11-25 2006-10-09 엘지전자 주식회사 음성 판별 방법
KR100745976B1 (ko) * 2005-01-12 2007-08-06 삼성전자주식회사 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
JP4512848B2 (ja) * 2005-01-18 2010-07-28 株式会社国際電気通信基礎技術研究所 雑音抑圧装置及び音声認識システム
US10319374B2 (en) * 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及***
IL263655B2 (en) * 2016-06-14 2023-03-01 Netzer Omry Automatic speech recognition
GB201617016D0 (en) * 2016-09-09 2016-11-23 Continental automotive systems inc Robust noise estimation for speech enhancement in variable noise conditions
US10490183B2 (en) * 2017-11-22 2019-11-26 Amazon Technologies, Inc. Fully managed and continuously trained automatic speech recognition service

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012158156A1 (en) * 2011-05-16 2012-11-22 Google Inc. Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
WO2013132926A1 (ja) * 2012-03-06 2013-09-12 日本電信電話株式会社 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
KR101240588B1 (ko) * 2012-12-14 2013-03-11 주식회사 좋은정보기술 오디오-영상 융합 음성 인식 방법 및 장치
CN104157290A (zh) * 2014-08-19 2014-11-19 大连理工大学 一种基于深度学习的说话人识别方法
CN107077842A (zh) * 2014-12-15 2017-08-18 百度(美国)有限责任公司 用于语音转录的***和方法
US20180068653A1 (en) * 2016-09-08 2018-03-08 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
CN108389575A (zh) * 2018-01-11 2018-08-10 苏州思必驰信息科技有限公司 音频数据识别方法及***
CN108877775A (zh) * 2018-06-04 2018-11-23 平安科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115394288A (zh) * 2022-10-28 2022-11-25 成都爱维译科技有限公司 民航多语种无线电陆空通话的语种识别方法及***
CN115394288B (zh) * 2022-10-28 2023-01-24 成都爱维译科技有限公司 民航多语种无线电陆空通话的语种识别方法及***

Also Published As

Publication number Publication date
JP2022534003A (ja) 2022-07-27
US20220238104A1 (en) 2022-07-28
WO2020238681A1 (zh) 2020-12-03

Similar Documents

Publication Publication Date Title
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
US20200211550A1 (en) Whispering voice recovery method, apparatus and device, and readable storage medium
CN112185352B (zh) 语音识别方法、装置及电子设备
CN111402891B (zh) 语音识别方法、装置、设备和存储介质
CN110428820B (zh) 一种中英文混合语音识别方法及装置
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
CN112562691A (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
CN111833849B (zh) 语音识别和语音模型训练的方法及存储介质和电子设备
CN114038457B (zh) 用于语音唤醒的方法、电子设备、存储介质和程序
CN110491375B (zh) 一种目标语种检测的方法和装置
CN112102850A (zh) 情绪识别的处理方法、装置、介质及电子设备
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
WO2020238681A1 (zh) 音频处理方法、装置和人机交互***
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN114550703A (zh) 语音识别***的训练方法和装置、语音识别方法和装置
Ding et al. Personal VAD 2.0: Optimizing personal voice activity detection for on-device speech recognition
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
CN113889091A (zh) 语音识别方法、装置、计算机可读存储介质及电子设备
WO2024093578A1 (zh) 语音识别方法、装置、电子设备、存储介质及计算机程序产品
Rose et al. Integration of utterance verification with statistical language modeling and spoken language understanding
JP2016162437A (ja) パターン分類装置、パターン分類方法およびパターン分類プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination