CN113436619A - 一种语音识别解码的方法及装置 - Google Patents

一种语音识别解码的方法及装置 Download PDF

Info

Publication number
CN113436619A
CN113436619A CN202110594164.1A CN202110594164A CN113436619A CN 113436619 A CN113436619 A CN 113436619A CN 202110594164 A CN202110594164 A CN 202110594164A CN 113436619 A CN113436619 A CN 113436619A
Authority
CN
China
Prior art keywords
token
finite state
weighted finite
characters
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110594164.1A
Other languages
English (en)
Other versions
CN113436619B (zh
Inventor
程高峰
李鹏
缪浩然
石瑾
张鹏远
孙晓晨
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN202110594164.1A priority Critical patent/CN113436619B/zh
Publication of CN113436619A publication Critical patent/CN113436619A/zh
Application granted granted Critical
Publication of CN113436619B publication Critical patent/CN113436619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/321Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority
    • H04L9/3213Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving a third party or a trusted authority using tickets or tokens, e.g. Kerberos
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语音识别解码的方法及装置。语音识别解码方法包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。相比于传统的语音识别***,本申请省略了帧级别对齐的流程,简化了训练和解码的流程;相比于端到端语音识别***,在束搜索算法过程中使用加权有限状态转移器加快解码速度,高效地利用训练音频数据之外的文本数据,可以在多种领域快速部署语音识别***。

Description

一种语音识别解码的方法及装置
技术领域
本申请涉及人工智能领域,更具体的,涉及一种语音识别解码的方法及装置。
背景技术
语言交流是人类最自然的交流方式之一,人类对于计算机语音的研究涵盖了语音编解码、语音识别、语音合成、说话人识别、激活词、语音增强等。在这些领域当中语音识别是当下最热门的研究。早在计算机发明之前,自动语音识别就已经提上了议程,早期的声码器可以认为是语音识别及合成的雏形。经过几十年的研究,语音识别技术已经渗透到我们生活的方方面面,应用范围涵盖了智能家居、智能音箱、车载交互、国家安全等领域。
传统的语音识别***基于经典的信源信道模型(Source-ChannelModel),由声学模型、发音词典和语言模型组成,分别对音素、词语和语句建模。解码时采用加权有限状态机整合声学模型、发音词典和语音模型中的概率分布,在网络中搜索出一段语音信号对应的最大概率的文字内容。传统的语音识别***在百千小时的训练数据上可以取得较高的准确率,已经得到工业界的广泛应用。但是随着训练数据的规模增长至千万小时,传统的语音识别***的性能已经达到瓶颈。
近年来,基于深度神经网络的序列到序列模型在语音和自然语言处理领域迅速发展,基于编码器和解码器的端到端语音识别框架因此被提出并已被广泛验证。研究报告显示,基于端到端的语音识别***在千万小时的训练数据上,性能可以超过传统的混合深度神经网络(Deep Neural Networks,DNN)和隐马尔可夫模型(Hidden Markov Model,HMM)。因为端到端语音识别***省略了语音识别***帧级别对齐的流程以及发音字典,简化了训练和解码的流程。但是基于编码器和解码器的端到端语音识别***有以下两个缺点,其一是解码使用的束搜索算法基于自回归结构的神经网络,与传统语音识别解码相比速度下降明显;其二是训练使用的文本语料局限于有标注的音频,无法直接使用额外的文本语料,跨领域识别性能明显下降。
发明内容
为了解决以上问题,本申请提出一种语音识别解码方法及装置。
第一方面,本发明提供一种语音识别解码的方法,包括:
确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;
通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;
根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
优选地,根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,建立第二加权有限状态转移器;
根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型建立第三加权有限状态转移器;
对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获得所述第一加权有限状态转移器。
优选地,所述根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
优选地,所述根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,具体包括:
取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,…,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:
A1:当t=1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中;
A2:当t大于1且小于N时,取出第t-1帧所对应的第一集合中保存的一个第二令牌;将该第二令牌拷贝到该第二令牌所绑定的节点所对应的所有可能转移出去的第t帧的节点,作为第三令牌;将转移边上的权重累计到第三令牌上;若当前记录的最高分数与第三令牌的累计分数差值大于阈值,删除第三令牌;否则保存第三令牌到第二集合中;
A3:判断当前转移边上的输入是否为元符号,若为元符号,则执行A2;否则执行A4;
A4:将第t帧所对应的发射概率P累计到第三令牌上,并从第t-1帧所对应的第一集合中删除第二令牌;若当前第一集合为空集,则执行A5;否则,执行A2;
A5:挑选第二集合中保存的各个令牌中分数排名前K的各个第三令牌,并保存在第t帧对应的第一集合中,其中K值大于1且不大于第t帧的节点数;
A6:当第t=N时,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第四加权有限状态转移器上经过的转移边的输出,组成词语序列。
第二方面,本发明提供一种语音识别解码的装置,包括:
特征提取模块,用于确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;
神经网络编码器模块,用于处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;
识别模块,用于根据第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
优选地,还包括获取模块,用于:
根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,获取第二加权有限状态转移器;根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型获取第三加权有限状态转移器;对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获取所述第一加权有限状态转移器。
优选地,所述识别模块,用于根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
优选地,所述识别模块,用于执行如下步骤:
取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,…,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:
A1:当t=1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中;
A2:当t大于1且小于N时,取出第t-1帧所对应的第一集合中保存的一个第二令牌;将该第二令牌拷贝到该第二令牌所绑定的节点所对应的所有可能转移出去的第t帧的节点,做为第三令牌;将转移边上的权重累计到第三令牌上;若当前记录的最高分数与第三令牌的累计分数差值大于阈值,删除第三令牌;否则保存第三令牌到第二集合中;
A3:判断当前转移边上的输入是否为元符号,若为元符号,则执行A2;否则执行A4;
A4:将第t帧所对应的发射概率P累计到第三令牌上,并从第t-1帧所对应的第一集合中删除第二令牌;若当前第一集合为空集,则执行A5;否则,执行A2;
A5:挑选第二集合中保存的各个令牌中分数排名前K的各个第三令牌,并保存在第t帧对应的第一集合中,其中K值大于1且不大于第t帧的节点数;
A6:当第t=N时,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第一加权有限状态转移器上经过的转移边的输出,组成词语序列。
第三方面,本发明提供一种语音识别***,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求1至4任一项所述的语音识别方法。
第四方面,本发明提供一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行如权利要求1至4任一项所述的语音识别方法。
本申请提供的技术方案省略了语音识别***帧级别对齐的流程,在束搜索算法过程中使用加权有限状态转移器替代神经网络,加快了解码的速度,并且基于统计语言模型高效地利用训练音频数据之外的文本数据,提升端到端语音识别***的性能
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中提供的技术方案的应用场景示意图;
图2为本申请实施例中提供的技术方案的方法示意图;
图3为本申请实施例中提供的确定梅尔谱特征序列的流程示意图;
图4为本申请实施例中提供的第一加权有限状态转移器的获得过程示意图;
图5为本申请实施例中提供的搜索分数最高的词语序列的流程示意图;
图6为本申请实施例中提供的语音识别装置的示意图。
具体实施方式
下面结合附图和实施例,对本发明所提供的技术方案做进一步的详细描述。
图1是本申请实施例中提供的技术方案的应用场景示意图。如图1所示,本方案可以应用在将一段语音信息在经过语音识别方法后被识别为词语序列的场景。
图2为本申请实施例中提供的技术方案的方法示意图。如图2所示,语音识别的方法过程为:
S201:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列。
图3为本申请实施例中提供的确定梅尔谱特征序列的流程示意图。请参考图3,确定梅尔谱特征序列的过程包括:
S2011:对待识别的音频进行预加重,提升高频部分。
具体的,对音频进行预加重,可以去除***辐射的影响,增加语音的高频分辨率。
S2012:对预加重后的音频进行分帧,每帧25毫秒,帧移10毫秒。
具体的,由于需要对语音进行傅里叶变换,而傅里叶变换需求输入的信号是平稳的,因此,需要对音频进行分帧,分帧可以保证语音的短时平稳性。
S2013:对分帧后的每一帧进行加窗,窗函数为汉明窗。
具体的,加窗即与一个窗函数相乘,加窗之后是为了进行傅里叶展开,使全局更加连续,避免出现吉布斯效应。加窗时候,可以使原本没有周期性的语音信号呈现出周期函数的部分特征。
S2014:对每一帧进行快速傅里叶变换得到每一帧的频谱,根据每一帧的频谱得到每一帧的能量谱。
具体的,对每一帧进行快速傅里叶变换,可以将时域信号转换为频域信号。将每一帧的频域信号在时间上堆叠起来,可以得到声谱图。根据每一帧的频谱,可以得到每一帧的能量谱。
S2015:对每一帧的能量谱计算通过梅尔滤波器的能量,并取对数,得到对数梅尔谱,其中梅尔滤波器的个数为80。
具体的,采用80个梅尔滤波器,将每一帧的能量谱通过80个梅尔滤波器,得到80维滤波后的能量,将每一帧的80维滤波后的能量取对数后堆叠,得到待识别语音的80维对数梅尔谱特征序列。
S202:通过经训练的神经网络编码器,处理所述梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率。
在一些可能的实施例中,神经网络编码器的训练过程可以为:
建立带标注的音频训练集。通过特征提取模块提取所述音频训练集的梅尔谱特征。将所述音频训练集的梅尔谱特征输入神经网络,得到训练结果。所述神经网络包括依次连接的X层卷积神经网络和依次连接的Y层自注意力神经网络。其中X为大于1的自然数,Y为大于1的自然数。
具体的,建立带标注的音频训练集,基于训练集训练神经网络编码器。通过信号处理及特征提取模块提取所述音频训练集的梅尔谱特征序列,示例性的,提取所述音频训练集的80维对数梅尔谱特征序列,表示为X=[x1,x2,…,xN]。将训练音频对应的80维对数梅尔谱特征序列输入神经网络编码器。
示例性的,神经网络编码器包括2层卷积神经网络和12层自注意力神经网络。卷积神经网络中的卷积核的步长为2,输出256维卷积特征序列,表示为C=[c1,c2,…,cT]。卷积特征序列的长度为原始输入的特征序列的1/4。卷积特征序列输入12层自注意力神经网络,输出256维自注意力特征序列,表示为H=[h1,h2,…,hT]。自注意力特征序列经过一个全连接网络和一个softmax网络,得到每一帧特征对应的字符或者空白符的发射概率。
训练音频转为文本对应的字符序列比自注意力特征序列短,通过填充连续的字符或者空白符使字符序列和自注意力特征序列等长。通过塌缩规则,可以复原原始的字符序列。塌缩规则具体为先将连续的字符合并为单个字符,再去除所有的空白符。
图4为本申请实施例中提供的第一加权有限状态转移器的获得过程示意图。
在一些可能的实施例中,请参考图4,可以通过如下步骤获得第一加权有限状态转移器。即本申请实施例中提供的方法还可以包括:
步骤401:根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,建立第二加权有限状态转移器。
具体来讲,在所述神经网络编码器训练完成后,根据字符拼写词语的网络,以及连续相同字符和空白符的塌缩网络,建立语言模型对应的第二加权有限状态转移器。
示例性的,首先,建立每个字符的加权有限状态转移器,通过合并算法,将所有字符的加权有限状态转移器合并为一个新的加权有限状态转移器,将此加权有限状态转移器作为塌缩网络。
具体的,该塌缩网络通过一个8元组进行定义,记为(
Figure BDA0003090348750000081
Σ,Q1,,I1,F1,,E1,λ1,ρ1),其中,输入集合
Figure BDA0003090348750000082
是字符和空白符
Figure BDA0003090348750000083
的集合,输出集合∑是字符集合,Q1是一组有限的状态,I1是Q1的子集,是一组初始状态,F1是Q1的子集,是一组终止状态,λ1是权重初始函数,ρ1是权重终止函数,
Figure BDA0003090348750000084
是多组有限的转移,ε是一个元符号标签,表示无符号的输入或输出,
Figure BDA0003090348750000085
是一组对数域权重元素集合。该塌缩网络是由多个加权有限状态转移器通过标准的合并算法组成。整个塌缩网络上对数域权重均为0。
其次,规定语音识别***中所有词语的拼写规则,构建拼写网络。
具体的,中文***的词语由单个汉字拼写组成,英文***的词语由单个字母拼写组成,根据拼写规则建立一个加权有限状态转移器,即拼写网络。该拼写网络同样通过一个8元组进行定义,记为(∑,Δ,Q2,I2,F2,E2,λ2,ρ2),其中,输入集合∑是字符集合,输出集合Δ是词语集合,Q2是一组有限的状态,I2是Q2的子集,是一组初始状态,F2是Q2的子集,是一组终止状态,λ2是初始权重,ρ2是终止权重,
Figure BDA0003090348750000091
是多组有限的转移,ε是一个元符号标签,
Figure BDA0003090348750000092
是一组对数域权重元素集合。因为每个单词只对应一种拼写方式,所以对数域权重均为0。
再其次,根据字符拼写词语的拼写网络,以及连续相同字符和空白符的塌缩网络,通过标准的复合算法,建立拼写字典,即第二加权有限状态转移器。第二加权有限状态转移器通过一个8元组进行定义,记为(
Figure BDA0003090348750000093
Δ,Q3,I3,F3,E3,λ3,ρ3),其中,输入集合
Figure BDA0003090348750000094
是字符和空白符
Figure BDA0003090348750000095
的集合,输出集合Δ是词语集合,Q3是一组有限的状态,I3是Q3的子集,是一组初始状态,F3是Q3的子集,是一组终止状态,λ3是初始权重,ρ3是终止权重,
Figure BDA0003090348750000096
是多组有限的转移,ε是一个元符号标签,
Figure BDA0003090348750000097
是一组对数域权重元素集合。使用标准的确定化算法和最小化算法优化该第二加权有限状态转移器。
步骤402:根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型建立第三加权有限状态转移器。
具体的,建立文本语料训练集,对于中文语料,根据中文***使用的词语集合分词;对于英文语料,将不属于词语集合的单词映射到单独的符号。使用处理后的文本语料训练基于N元统计语言模型,使用标准的算法将该语言模型转换成加权有限状态转移器,即建立第三加权有限状态转移器。
示例性的,使用3元统计语言模型,建立第三加权有限状态转移器,该第三加权有限状态转移器通过一个8元组进行定义,记为(△,△,Q4,I4,F4,E4,λ4,ρ4),其中,输入集合和输出集合都是词语的集合Δ,Q4是一组有限的状态,I4是Q4的子集,是一组初始状态,F4是Q4的子集,是一组终止状态,λ4是初始权重,ρ4是终止权重,
Figure BDA0003090348750000101
Figure BDA0003090348750000102
是多组有限的转移,ε是一个元符号标签,
Figure BDA0003090348750000103
是一组对数域权重元素集合。整个第三加权有限状态转移器上对数域权重为3元语法对应概率的对数值。
步骤403:对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获得第一加权有限状态转移器。
示例性的,通过标准的复合算法,将第二加权有限状态转移器和第三加权有限状态转移器复合为第一加权有限状态转移器。该第一加权有限状态转移器通过一个8元组进行定义,记为(
Figure BDA0003090348750000104
△,Q5,I5,F5,E5,λ5,ρ5),其中,输入集合
Figure BDA0003090348750000105
是字符和空白符
Figure BDA0003090348750000106
的集合,输出集合Δ是词语集合,Q5是一组有限的状态,I5是Q5的子集,是一组初始状态,F5是Q5的子集,是一组终止状态,λ5是初始权重,ρ5是终止权重,
Figure BDA0003090348750000107
Figure BDA0003090348750000108
是多组有限的转移,ε是一个元符号标签,
Figure BDA0003090348750000109
是一组对数域权重元素集合。
对第一加权有限状态转移器使用确定化算法和最小化算法进行优化,优化后的第一加权有限状态转移器用于后续的解码。
S203:根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
在一个较为具体的实施例中,根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
图5为本申请实施例中提供的搜索分数最高的词语序列的流程示意图。
在一个较为具体的实施例中,请参考图5,采用束搜索算法搜索分数最高的词语序列可以包括:
取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,…,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:
A1:当t=1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中。
当t=1时,即此时的第t帧为第一帧,初始化令牌,将初始化的令牌绑定到初始节点上。将初始化的令牌添加到第一帧对应的第一集合中。
A2:当t大于1且小于N时,取出第t-1帧所对应的第一集合中保存的一个第二令牌;将该第二令牌拷贝到该第二令牌所绑定的节点所对应的所有可能转移出去的第t帧的节点,做为第三令牌;将转移边上的权重累计到第三令牌上;若当前记录的最高分数与第三令牌的累计分数差值大于阈值,删除第三令牌;否则保存第三令牌到第二集合中。
A3:判断当前转移边上的输入是否为元符号,若为元符号,则执行A2;否则,执行A4。
A4:将第t帧所对应的发射概率P累计到第三令牌上,并从第t-1帧所对应的第一集合中删除第二令牌;若当前第一集合为空集,则执行A5;否则,执行A2。
A5:挑选第二集合中保存的各个令牌中分数排名前K的各个第三令牌,并保存在第t帧对应的第一集合中,其中K值大于1且不大于第t帧的节点数。
A6:当第t=N时,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第四加权有限状态转移器上经过的转移边的输出,组成词语序列。
当t=N时,即此时的第t帧为最后一帧,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第一加权有限状态转移器上经过的转移边的输出,组成词语序列,作为最终的识别结果。
相比于传统的语音识别***,本申请省略了语音识别***帧级别对齐的流程,简化了训练和解码的流程;相比于基于编码器和解码器的端到端语音识别***,在束搜索算法过程中使用加权有限状态转移器替代神经网络,加快了解码的速度,并且高效地利用训练音频数据之外的文本数据,提升端到端语音识别***的性能,可以在多种领域快速部署语音识别***。
图6是本申请实施例中提供的语音识别装置的示意图。如图6所示,语音识别装置,包括特征提取模块601、神经网络编码器模块602以及识别模块604。
所述特征提取模块601,用于确定待识别语音的N个子帧所对应的对数梅尔谱特征序列。
请参考图3,通过所述特征提取模块601确定对数梅尔谱特征序列的过程可以包括:
S2011:对待识别的音频进行预加重,提升高频部分。
具体的,对音频进行预加重,可以去除***辐射的影响,增加语音的高频分辨率。
S2012:对预加重后的音频进行分帧,每帧25毫秒,帧移10毫秒。
具体的,由于需要对语音进行傅里叶变换,而傅里叶变换需求输入的信号是平稳的,因此,需要对音频进行分帧,分帧可以保证语音的短时平稳性。
S2013:对分帧后的每一帧进行加窗,窗函数为汉明窗。
具体的,加窗即与一个窗函数相乘,加窗之后是为了进行傅里叶展开,使全局更加连续,避免出现吉布斯效应。加窗时候,可以使原本没有周期性的语音信号呈现出周期函数的部分特征。
S2014:对每一帧进行快速傅里叶变换得到每一帧的频谱,根据每一帧的频谱得到每一帧的能量谱。
具体的,对每一帧进行快速傅里叶变换,可以将时域信号转换为频域信号。将每一帧的频域信号在时间上堆叠起来,可以得到声谱图。根据每一帧的频谱,可以得到每一帧的能量谱。
S2015:对每一帧的能量谱计算通过梅尔滤波器的能量,并取对数,得到对数梅尔谱,其中梅尔滤波器的个数为80。
具体的,采用80个梅尔滤波器,将每一帧的能量谱通过80个梅尔滤波器,得到80维滤波后的能量,将每一帧的80维滤波后的能量取对数后堆叠,得到待识别语音的80维对数梅尔谱特征序列。
所述神经网络编码器模块602,用于处理所述对数梅尔谱特征序列,得到N个子帧各自对应的字符或者空白符的发射概率。
具体的,建立带标注的音频训练集,基于训练集训练神经网络编码器。通过特征提取模块601提取所述音频训练集的梅尔谱特征序列,示例性的,提取所述音频训练集的80维对数梅尔谱特征序列,表示为X=[x1,x2,…,xn]。将训练音频对应的80维对数梅尔谱特征序列输入神经网络编码器。
示例性的,神经网络编码器包括2层卷积神经网络和12层自注意力神经网络。卷积神经网络中的卷积核的步长为2,输出256维卷积特征序列,表示为C=[c1,c2,…,cT]。卷积特征序列的长度为原始输入的特征序列的1/4。卷积特征序列输入12层自注意力神经网络,输出256维自注意力特征序列,表示为H=[h1,h2,…,hT]。自注意力特征序列经过一个全连接网络和一个softmax网络,得到每一帧特征对应的字符或者空白符的发射概率。
训练音频转为文本对应的字符序列比自注意力特征序列短,通过填充连续的字符或者空白符使字符序列和自注意力特征序列等长。通过塌缩规则,可以复原原始的字符序列。塌缩规则具体为先将连续的字符合并为单个字符,再去除所有的空白符。
在一些可能的实施例中,语音识别装置还包括获取模块603。所述获取模块603用于根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,获取第二加权有限状态转移器。
具体来讲,在神经网络编码器训练完成后,获取模块603根据字符拼写词语的网络,以及连续相同字符和空白符的塌缩网络,建立语言模型对应的第二加权有限状态转移器。
示例性的,首先,通过获取模块603建立每个字符的加权有限状态转移器,通过合并算法,将所有字符的加权有限状态转移器合并,成为一个新的加权有限状态转移器,将此加权有限状态转移器作为塌缩网络。
具体的,该塌缩网络通过一个8元组进行定义,记为(
Figure BDA0003090348750000141
Σ,Q1,,I1,F1,,E1,λ1,ρ1),其中,输入集合
Figure BDA0003090348750000142
是字符和空白符
Figure BDA0003090348750000143
的集合,输出集合∑是字符集合,Q1是一组有限的状态,I1是Q1的子集,是一组初始状态,F1是Q1的子集,是一组终止状态,λ1是权重初始函数,ρ1是权重终止函数,
Figure BDA0003090348750000144
是多组有限的转移,ε是一个元符号标签,表示无符号的输入或输出,
Figure BDA0003090348750000145
是一组对数域权重元素集合。该塌缩网络是由多个加权有限状态转移器通过标准的合并算法组成。整个塌缩网络上对数域权重均为0。
其次,通过获取模块603规定语音识别***中所有词语的拼写规则,构建拼写网络。
具体的,中文***的词语由单个汉字拼写组成,英文***的词语由单个字母拼写组成,根据拼写规则建立一个加权有限状态转移器,即拼写网络。该拼写网络同样通过一个8元组进行定义,记为(∑,Δ,Q2,I2,F2,E2,λ2,ρ2),其中,输入集合∑是字符集合,输出集合Δ是词语集合,Q2是一组有限的状态,I2是Q2的子集,是一组初始状态,F2是Q2的子集,是一组终止状态,λ2是初始权重,ρ2是终止权重,
Figure BDA0003090348750000146
是多组有限的转移,ε是一个元符号标签,
Figure BDA0003090348750000147
是一组对数域权重元素集合。因为每个单词只对应一种拼写方式,所以对数域权重均为0。
再其次,获取模块603根据字符拼写词语的拼写网络,以及连续相同字符和空白符的塌缩网络,通过标准的复合算法,建立拼写字典,即第二加权有限状态转移器。第二加权有限状态转移器通过一个8元组进行定义,记为(
Figure BDA0003090348750000151
Δ,Q3,I3,F3,E3,λ3,ρ3),其中,输入集合
Figure BDA0003090348750000152
是字符和空白符
Figure BDA0003090348750000153
的集合,输出集合Δ是词语集合,Q3是一组有限的状态,I3是Q3的子集,是一组初始状态,F3是Q3的子集,是一组终止状态,λ3是初始权重,ρ3是终止权重,
Figure BDA0003090348750000154
是多组有限的转移,ε是一个元符号标签,
Figure BDA0003090348750000155
是一组对数域权重元素集合。使用标准的确定化算法和最小化算法优化该第二加权有限状态转移器。
在一些可能的实施例中,获取模块603还用于根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型获取第三加权有限状态转移器。
具体的,通过获取模块603,建立文本语料训练集。对于中文语料,根据中文***使用的词语集合分词;对于英文语料,将不属于词语集合的单词映射到单独的符号。使用处理后的文本语料训练基于N元统计语言模型,使用标准的算法将该语言模型转换成加权有限状态转移器,即建立第三加权有限状态转移器。
示例性的,使用3元统计语言模型,建立第三加权有限状态转移器,该第三加权有限状态转移器通过一个8元组进行定义,记为(△,△,Q4,I4,F4,E4,λ4,ρ4),其中,输入集合和输出集合都是词语的集合Δ,Q4是一组有限的状态,I4是Q4的子集,是一组初始状态,F4是Q4的子集,是一组终止状态,λ4是初始权重,ρ4是终止权重,
Figure BDA0003090348750000156
Figure BDA0003090348750000157
是多组有限的转移,ε是一个元符号标签,
Figure BDA0003090348750000158
是一组对数域权重元素集合。整个第三加权有限状态转移器上对数域权重为3元语法对应概率的对数值。
在一些可能的实施例中,获取模块603还用于对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获取第一加权有限状态转移器。
示例性的,通过标准的复合算法,将第二加权有限状态转移器和第三加权有限状态转移器复合为第一加权有限状态转移器。该第一加权有限状态转移器通过一个8元组进行定义,记为(
Figure BDA0003090348750000161
△,Q5,I5,F5,E5,λ5,ρ5),其中,输入集合
Figure BDA0003090348750000162
是字符和空白符
Figure BDA0003090348750000163
的集合,输出集合Δ是词语集合,Q5是一组有限的状态,I5是Q5的子集,是一组初始状态,F5是Q5的子集,是一组终止状态,λ5是初始权重,ρ5是终止权重,
Figure BDA0003090348750000164
Figure BDA0003090348750000165
是多组有限的转移,ε是一个元符号标签,
Figure BDA0003090348750000166
是一组对数域权重元素集合。
对第一加权有限状态转移器使用确定化算法和最小化算法进行优化,优化后的第一加权有限状态转移器用于后续的解码。
所述识别模块604,用于根据第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
在一个较为具体的示例中,所述识别模块604,具体用于根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
在一个较为具体的示例中,请参考图6和图5,所述识别模块504采用束搜索算法搜索分数最高的词语序列具体包括:
取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,…,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:
A1:当t=1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中;
当t=1时,即此时的第t帧为第一帧,初始化令牌,将初始化的令牌绑定到初始节点上。将初始化的令牌添加到第一帧对应的第一集合中。
A2:当t大于1且小于N时,取出第t-1帧所对应的第一集合中保存的一个第二令牌;将该第二令牌拷贝到该第二令牌所绑定的节点所对应的所有可能转移出去的第t帧的节点,做为第三令牌;将转移边上的权重累计到第三令牌上;若当前记录的最高分数与第三令牌的累计分数差值大于阈值,删除第三令牌;否则保存第三令牌到第二集合中。
A3:判断当前转移边上的输入是否为元符号,若为元符号,则执行A2;否则执行A4。
A4:将第t帧所对应的发射概率P累计到第三令牌上,并从第t-1帧所对应的第一集合中删除第二令牌;若当前第一集合为空集,则执行A5;否则,执行A2。
A5:挑选第二集合中保存的各个令牌中分数排名前K的各个第三令牌,并保存在第t帧对应的第一集合中,其中K值大于1且不大于第t帧的节点数。
A6:当第t=N时,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第四加权有限状态转移器上经过的转移边的输出,组成词语序列。
当t=N时,即此时的第t帧为最后一帧,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第一加权有限状态转移器上经过的转移边的输出,组成词语序列,作为最终的识别结果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音识别解码的方法,其特征在于,包括:
确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;
通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;
根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,建立第二加权有限状态转移器;
根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型建立第三加权有限状态转移器;
对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获得所述第一加权有限状态转移器。
3.根据权利要求1或2所述的方法,其特征在于,所述根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
4.根据权利要求3所述的方法,其特征在于,所述根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,具体包括:
取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,…,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:
A1:当t=1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中;
A2:当t大于1且小于N时,取出第t-1帧所对应的第一集合中保存的一个第二令牌;将该第二令牌拷贝到该第二令牌所绑定的节点所对应的所有可能转移出去的第t帧的节点,作为第三令牌;将转移边上的权重累计到第三令牌上;若当前记录的最高分数与第三令牌的累计分数差值大于阈值,删除第三令牌;否则保存第三令牌到第二集合中;
A3:判断当前转移边上的输入是否为元符号,若为元符号,则执行A2;否则执行A4;
A4:将第t帧所对应的发射概率P累计到第三令牌上,并从第t-1帧所对应的第一集合中删除第二令牌;若当前第一集合为空集,则执行A5,否则执行A2;
A5:挑选第二集合中保存的各个令牌中分数排名前K的各个第三令牌,并保存在第t帧对应的第一集合中,其中K值大于1且不大于第t帧的节点数;
A6:当第t=N时,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第四加权有限状态转移器上经过的转移边的输出,组成词语序列。
5.一种语音识别解码的装置,其特征在于,包括:
特征提取模块,用于确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;
神经网络编码器模块,用于处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;
识别模块,用于根据第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
6.根据权利要求5所述的装置,其特征在于,还包括获取模块,用于:
根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,获取第二加权有限状态转移器;根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型获取第三加权有限状态转移器;对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获取所述第一加权有限状态转移器。
7.根据权利要求5或6所述的装置,其特征在于,所述识别模块,用于根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
8.根据权利要求7所述的装置,其特征在于,所述识别模块,用于执行如下步骤:
取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,…,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:
A1:当t=1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中;
A2:当t大于1且小于N时,取出第t-1帧所对应的第一集合中保存的一个第二令牌;将该第二令牌拷贝到该第二令牌所绑定的节点所对应的所有可能转移出去的第t帧的节点,作为第三令牌;将转移边上的权重累计到第三令牌上;若当前记录的最高分数与第三令牌的累计分数差值大于阈值,删除第三令牌;否则保存第三令牌到第二集合中;
A3:判断当前转移边上的输入是否为元符号,若为元符号,则执行A2;否则执行A4;
A4:将第t帧所对应的发射概率P累计到第三令牌上,并从第t-1帧所对应的第一集合中删除第二令牌;若当前第一集合为空集,则执行A5;否则,执行A2;
A5:挑选第二集合中保存的各个令牌中分数排名前K的各个第三令牌,并保存在第t帧对应的第一集合中,其中K值大于1且不大于第t帧的节点数;
A6:当第t=N时,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第四加权有限状态转移器上经过的转移边的输出,组成词语序列。
9.一种语音识别***,包括处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求1至4任一项所述的语音识别方法。
10.一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行如权利要求1至4任一项所述的语音识别方法。
CN202110594164.1A 2021-05-28 2021-05-28 一种语音识别解码的方法及装置 Active CN113436619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110594164.1A CN113436619B (zh) 2021-05-28 2021-05-28 一种语音识别解码的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110594164.1A CN113436619B (zh) 2021-05-28 2021-05-28 一种语音识别解码的方法及装置

Publications (2)

Publication Number Publication Date
CN113436619A true CN113436619A (zh) 2021-09-24
CN113436619B CN113436619B (zh) 2022-08-26

Family

ID=77803152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110594164.1A Active CN113436619B (zh) 2021-05-28 2021-05-28 一种语音识别解码的方法及装置

Country Status (1)

Country Link
CN (1) CN113436619B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
US20160093292A1 (en) * 2014-09-26 2016-03-31 Intel Corporation Optimizations to decoding of wfst models for automatic speech recognition
CN109036391A (zh) * 2018-06-26 2018-12-18 华为技术有限公司 语音识别方法、装置及***
CN111798846A (zh) * 2020-06-02 2020-10-20 厦门亿联网络技术股份有限公司 语音命令词识别方法、装置、会议终端及会议终端***
CN112530416A (zh) * 2020-11-30 2021-03-19 北京沃东天骏信息技术有限公司 语音识别方法、装置、设备和计算机可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
US20160093292A1 (en) * 2014-09-26 2016-03-31 Intel Corporation Optimizations to decoding of wfst models for automatic speech recognition
CN109036391A (zh) * 2018-06-26 2018-12-18 华为技术有限公司 语音识别方法、装置及***
CN111798846A (zh) * 2020-06-02 2020-10-20 厦门亿联网络技术股份有限公司 语音命令词识别方法、装置、会议终端及会议终端***
CN112530416A (zh) * 2020-11-30 2021-03-19 北京沃东天骏信息技术有限公司 语音识别方法、装置、设备和计算机可读介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
付婧等: "前馈序列记忆网络在语音识别中的应用综述", 《内江师范学院学报》 *
姚煜等: "基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别***", 《计算机应用》 *
张舸等: "基于异构计算的语音识别解码加速方法", 《网络新媒体技术》 *

Also Published As

Publication number Publication date
CN113436619B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
Collobert et al. Wav2letter: an end-to-end convnet-based speech recognition system
US10373610B2 (en) Systems and methods for automatic unit selection and target decomposition for sequence labelling
Liu et al. Gram-CTC: Automatic unit selection and target decomposition for sequence labelling
Ferrer et al. Study of senone-based deep neural network approaches for spoken language recognition
CN111798840B (zh) 语音关键词识别方法和装置
EP4018437B1 (en) Optimizing a keyword spotting system
CN110827801A (zh) 一种基于人工智能的自动语音识别方法及***
CN112435654B (zh) 通过帧***对语音数据进行数据增强
CN110750993A (zh) 分词方法及分词器、命名实体识别方法及***
Chen et al. Aipnet: Generative adversarial pre-training of accent-invariant networks for end-to-end speech recognition
CN113223506B (zh) 语音识别模型训练方法及语音识别方法
Ahmed et al. End-to-end lexicon free arabic speech recognition using recurrent neural networks
Drexler et al. Combining end-to-end and adversarial training for low-resource speech recognition
Das et al. Best of both worlds: Robust accented speech recognition with adversarial transfer learning
Suyanto et al. End-to-End speech recognition models for a low-resourced Indonesian Language
Anoop et al. Unsupervised domain adaptation schemes for building ASR in low-resource languages
KR20240089276A (ko) 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝
CN112185361A (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
Dossou et al. OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
Bataev et al. Exploring end-to-end techniques for low-resource speech recognition
Heba et al. Char+ CV-CTC: combining graphemes and consonant/vowel units for CTC-based ASR using Multitask Learning
Nikulasdóttir et al. Open ASR for Icelandic: Resources and a baseline system
CN113436619B (zh) 一种语音识别解码的方法及装置
CN115376547A (zh) 发音评测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant