CN113990325A - 流式语音识别方法及装置、电子设备、存储介质 - Google Patents

流式语音识别方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN113990325A
CN113990325A CN202111150034.5A CN202111150034A CN113990325A CN 113990325 A CN113990325 A CN 113990325A CN 202111150034 A CN202111150034 A CN 202111150034A CN 113990325 A CN113990325 A CN 113990325A
Authority
CN
China
Prior art keywords
voice
recognition
block
speech
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111150034.5A
Other languages
English (en)
Inventor
洪密
王旭阳
汪俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202111150034.5A priority Critical patent/CN113990325A/zh
Publication of CN113990325A publication Critical patent/CN113990325A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及语音识别技术领域,具体涉及一种流式语音识别方法及装置、电子设备、存储介质,所述方法包括:获取待识别的语音块;基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量;根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果。所述方法通过联结主义时间分类模型预测当前语音块所包含的识别对象的数量作为注意力模型的语音识别次数,通过注意力模型对语音块进行相应次数的识别,能够更为准确、高效地对语音进行识别并将其转化输出为对应的文字等信息。

Description

流式语音识别方法及装置、电子设备、存储介质
技术领域
本申请涉及语音识别技术领域,具体涉及一种流式语音识别方法及装置、电子设备、存储介质。
背景技术
语音识别也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是让机器通过识别和理解把接收到的语音信号变成文字进行输出,语音识别是现代人工智能发展的重要分支。
传统的语音识别技术是基于隐马尔科夫模型、高斯混合模型以及深度神经网络-隐马尔科夫模型进行声学模型的建立,这种以语言模型、声学模型、词典模型构成的网络进行识别的方法需要针对不同的模型分别进行训练,然后通过加权有限状态转换机(WFST)等解码器将多个模型融合到一起。其中每个模型的训练或设计均需要专业知识和技术积累,而各模型进行训练及识别的过程甚为繁琐且识别效率低、准确度低并存在较大延迟。因此,有必要提供一种新的语音识别技术以解决现有技术中存在的上述问题。
发明内容
本申请的目的在于提供一种流式语音识别方法及装置。
根据本申请的一个方面,提供一种流式语音识别方法,包括以下步骤:
获取待识别的语音块;
基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量;
根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果。
在本申请一示例性实施例中,所述基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量,包括:
基于联结主义时间分类模型对所述语音块进行对象识别处理,得到至少一组对象识别处理的结果及对应的准确度;
确定所述准确度最高的一组对象识别处理的结果作为所述对象识别处理结果;
根据所述对象识别结果确定所述语音块中对象的数量。
在本申请一示例性实施例中,所述基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,包括:
对所述语音块进行编码处理,得到所述语音块的特征序列;
基于联结主义时间分类模型对所述语音块的特征序列进行对象识别处理得到对象识别结果。
在本申请一示例性实施例中,所述根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果,包括:
根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到至少一组语音识别处理的结果及对应的准确度;
确定所述准确度最高的一组语音识别处理的结果作为所述语音块对应的语音识别结果。
在本申请一示例性实施例中,所述获取待识别的语音块包括:
如果检测到上一待识别语音块中存在未识别的对象,对所述上一待识别语音块进行对象识别处理。
在本申请一示例性实施例中,所述流式语音识别方法还包括:
如果所述至少一组语音识别处理的结果对应的准确度均小于阈值,重新对所述语音块进行对象识别处理或语音识别处理。
在本申请一示例性实施例中,所述获取待识别的语音块包括:
根据指定时间范围或指定语音块大小从待识别的语音信号中提取所述语音块。
根据本申请的另一方面,提供一种流式语音识别装置,包括:
获取模块,用于获取待识别的语音块;
第一识别模块,用于基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量;
第二识别模块,用于根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果。
根据本申请的另一方面,提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述流式语音识别方法。
根据本申请的另一方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述流式语音识别方法。
本申请提供了一种流式语音识别方法及装置、电子设备、存储介质,通过联结主义时间分类模型预测当前语音块所包含的识别对象的数量作为注意力模型的语音识别次数,通过注意力模型对语音块进行相应次数的识别,从而更为准确高效的得到最终的语音识别结果。
附图说明
图1是相关技术中一种语音识别方法的流程示意图;
图2是相关技术中另一种语音识别方法的流程示意图;
图3是本申请实施例中一种流式语音识别方法的流程示意图;
图4是本申请实施例中一种流式语音识别装置的结构示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合附图本申请实施方式及实施例中的技术方案进行清楚、完整地描述。然而,示例实施方式及实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式及实施例使得本申请将更加全面和完整,并将示例实施方式及实施例的构思全面地传达给本领域的技术人员。本申请所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式及实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施方式及实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
语音识别也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是让机器通过识别和理解,把接收到的语音信号变成文字进行输出,语音识别是现代人工智能发展的重要分支。传统的语音识别技术是基于隐马尔科夫模型(Hidden MarkovModel)、高斯混合模型(Gaussian Mixture Model)以及深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model)进行声学模型的建立,这种以语言模型、声学模型、词典模型构成的网络进行识别的方法中针对不同的模型需要分别进行训练,然后通过WFST等解码器将多个模型融合到一起,每个模型的训练或设计均需要专业知识和技术积累,其进行训练及识别的过程甚为繁琐。随着相关技术的发展与应用,传统的语音识别技术因其识别效率低、准确度低及存在较大延迟等缺点已经逐渐被更先进的端到端的流式语音识别(End-to-End Streaming ASR)所替代。端到端(End to End,E2E)系只需要输入端的语音特征和输出端的文本信息即可直接实现输入语音到输出文本的转换;流式语音识别系一种与在处理完整句音频后才能返回结果的非流式语音识别相对的识别方法,其可以在处理音频流的过程中实时返回识别结果。流式语音识别能够更好地用于需要实时获取识别结果的场景,例如直播实时字幕、会议实时记录、语音输入、语音唤醒等场景。
相关技术中一种基于联结主义时间分类模型的流式语音识别如图1所示,该识别方法是在对以流式输入的语音进行编码提取其特征信息后,输入联结主义时间分类模型进行前缀束搜索识别,在识别完成后输出一预选识别结果组;其次对预选识别结果组进行解码排序得到另一预选识别结果组,然后将两个识别结果组根据其得分进行加权求和以得到的分值最高的预选结果作为最终的识别结果。另一种基于联结主义时间分类模型的流式语音识别如图2所示,在以图1所示相同的方法对两组识别结果进行加权求和得到当前的识别结果后,将该识别结果输入到联结主义时间分类模型以实现对联结主义时间分类模型的优化,从而实现在语音识别中能够获取到更为准确的识别结果。上述两种方案均是基于联结主义时间分类模型所进行的语音识别,但由于联结主义时间分类模型本身具有较强的独立性,其依据每个字词的发音特征进行识别而无法考虑到字词之间的关联关系,因而识别结果的准确度较低;另一方面,上述两种方法均需要在识别过程中对识别就结果进行较为复杂的加权求和及解码排序运算,因而存在着较高的延迟,使得输出识别结果的同步性降低。
鉴于相关技术中存在的上述问题,本申请针对性的提出了一种流式语音识别方法及装置、电子设备、存储介质,该方法及装置主要应用于端到端的流式语音识别场景,其中端到端是指语音识别的输入端到输出端,端到端语音识别常用的输入端特征为fbank(滤波器组Filt er banks)特征,其处理过程为对语音信号进行预加重、分帧、加窗、短时傅里叶变换(ST FT)、mel(梅尔)滤波、去均值等;输出端可以是字母、子词(subword)、词等识别对象。所述方法包括:获取待识别的语音块;基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量;根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果。所述方法通过联结主义时间分类模型预测当前语音块所包含的识别对象的数量作为注意力模型的语音识别次数,通过注意力模型对语音块进行相应次数的识别,从而更为准确高效的得到最终的语音识别结果。
本申请一示例性实施例提供了一种流式语音识别方法,图3示出了本申请一示例性实施例中流式语音识别方法的流程示意图。所述流式语音识别方法可以通过终端设备实现,即终端设备可以执行下面方法的各个步骤,在这种情况下,流式语音识别装置可以包含于终端设备内。终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等移动终端以及诸如数字TV、台式计算机等等的固定终端。如图3所示,所述流式语音识别方法包括:
步骤S31:获取待识别的语音块;
在一示例性实施例中可以通过麦克风等设备来采集音频信息,并通过相应的数据传输接口来获得麦克风所采集到的音频信息,用于后续进行识别。在用户向音频采集设备端输入语音的过程中,音频采集设备可以对连续语音信号进行语音活动检测。其中,语音活动检测可以通过预设的检测手段确定被检测的音频数据的性质。以能量检测方式为例,当音频段的能量大于预设的阈值时,则确定该音频段为语音;当音频段的能量小于等于预设的阈值时,则确定音频段为噪音。
在一示例性实施例中可以根据指定时间范围或指定语音块大小从待识别的语音信号中提取语音块。根据检测的端点时刻将连续语音信号分割为多个语音块,例如在用户向音频采集设备连续输入语音信号过程中,音频采集设备根据预先设置的数据帧的长度,将连续输入的语音处理为指定大小的语音块。例如可以设置以10ms为单位将所输入的语音划分为多个语音块,也可以设置以10kb为单位将所输入的语音划分为待识别的多个语音块。再一示例性的,也可以根据检测的端点时刻确定语音输入的每个分句,将每个分句作为语音块进行识别。例如通过语音检测获知在时刻A到时刻B之间有语音信号,在时刻B到时刻C之间没有语音信号,在时刻C到时刻D之间有语音信号,即可以将时刻A到时刻B之间的语音信号作为第一个语音块,从时刻C到时刻D之间的语音信号作为第二个语音块。
步骤S33:基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量;
联结主义时间分类模型(CTC,Connectionist temporal classification)是一种常用在语音识别、文本识别等领域的算法模型,其能够解决输入序列和输出序列长度不一、无法对齐的问题。联结主义时间分类模型具有如下两个特点,第一,一个额外的输出结点被添加到网络的输出中用于表示“空白”符号,在语音识别过程中神经网络的每个输出结点代表一个声学建模因子。根据建模粒度的不同,其建模因子可以是单音素因子,也可以是三音素因子,其中每个时刻网络的输出表示该时刻每个音素因子的后验概率。加入“空白”符号的作用在于以其代表网络输出不确定时的状态,即当输入为表征噪声等不可辨识的特征或者输入为介于两个不同音素的临界状态时,网络可输出“空白”符号而避免输出一个确定的音素。第二,联结主义时间分类模型训练方法是对网络输入的整句话进行优化,目的是最大化整句正确文本序列的输出概率,而并非像交叉熵一样最大化每一帧的输出概率,联结主义时间分类模型通过前后向算法在网络的输出矩阵中,找到可能映射到正确文本序列的所有路径,计算其概率及网络误差,进而通过误差反向传播和梯度下降算法来更新神经网络参数。
在一示例性实施例中,所述基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量,可以包括:基于联结主义时间分类模型对所述语音块进行对象识别处理,得到至少一组对象识别处理的结果及对应的准确度;确定所述准确度最高的一组对象识别处理的结果作为所述对象识别处理结果;根据所述对象识别结果确定所述语音块中对象的数量。具体而言,基于联结主义时间分类模型对所述语音块进行对象识别处理的过程中,一方面由于基于联结主义时间分类模型识别准确度的问题,另一方面因语音识别的存在着识别结果不唯一的特点,使得所获取的识别结果并非唯一确定的一组结果;因而在可能得到多组对象识别处理的结果的情况下,可以对多组识别结果的准确度进行判断,准确度越高表示其作为对象识别处理结果的可能性越大。因此在得到不止一组对象识别处理的结果的情况下需要先确定最具有可能的一组识别结果,从而根据该组识别结果确定语音块中识别对象的数量。
在一示例性实施例中,基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果可以包括:对所述语音块进行编码处理,得到所述语音块的特征序列;基于联结主义时间分类模型对所述语音块的特征序列进行对象识别处理得到对象识别结果。联结主义时间分类系对于一个给定的输入可以计算对应所有可能输出的概率分布的损失函数,通过该概率分布可以预测最大概率对应的输出或者某个特定输出的概率。因此,在语音识别方法中进行语音块识别的首要步骤便是对待识别的语音块进行编码或提取特征以获取其对应的特征序列作为联结主义时间分类模型地输入,即把音频信号中具有辨识性的特征提取出来作为待识别语音块的输入。示例性地,联结主义时间分类模型模型识别中通常以每10毫秒地长度作为一个语音块,以“我爱你中国”这一语音块为例,对该语音块经过MFCC或LPC等特征提取方法得到其特征序列输入到联结主义时间分类模型模型中,而联结主义时间分类模型通过解码识别将其所包含的发音方法转变成文字进行输出,其次再根据输出的结果确定语音块中具体包含所识别对象的数量。
在一示例性实施中一种特征提取方法为MFCC(梅尔倒频谱系数,Mel FrequencyCepstr al Coefficents)特征提取。该方法中将语音频谱通过一组三角滤波器并进行离散余弦变换(DCT)得到MFCC系数,即表示信号频谱的能量在不同频率区间的分布。其中,通过设置滤波器可以得到对应频率区间的频谱能量,例如可以设置26个三角滤波器以得到26个MFCC系数,再对其取低位的系数获取能够代表声道的特征信息。
另一种特征提取方法为LPC(Linear Predictive Coding)线性预测编码,其通常用于对语音的基音、共振峰、短时谱等方面进行编码,该特征提取方法能够对语音参数进行精准的估计且易于计算。具体来说,语音信号可以被建模为一个线性时变***的输出,该***的输入激励信号为(浊音期间)周期脉冲或(清音期间)随机噪声。语音信号的差分方程表面语音信号的采样可以用过去的采样线性拟合来逼近,然后通过局部最小化实际采样和线性预测采样之间的差值平方和,即可得出一组预测系数。线性预测分析在模型化语音信号问题中,可以用多种方法来实现,例如可以借助协方差法、自相关公式、格型法、逆滤波器、谱估计公式、最大似然公式、内积公式等算法来进行线性预测分析。
步骤S35:根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果。
注意力模型(Attention Mechanism)是一种用于提升基于RNN循环神经网络(或LSTM长短期记忆人工神经网络、GRU神经网络)的编码Encoder及解码Decoder模型的效果的机制,其广泛应用于机器翻译、语音识别、图像标注等多个领域。注意力模型具有对所识别对象进行区分辨别的能力,例如在机器翻译、语音识别应用中注意力模型为语句中的每个词赋予不同的权重,使得神经网络模型的学习变得更加灵活,同时注意力模型本身可以作为一种对齐关系,用来解释翻译输入/输出句子之间的对齐关系及学习的内容。注意力模型能够对输入语音信号的每个部分赋予不同的权重,抽取出其中关键及重要的信息,使模型做出更加准确的判断,同时整个识别过程无需较大的计算量和过多的内存占用。注意力模型中编码器将所输入的语音信号编码成一个向量序列,而在解码的过程中解码器选择性的从向量序列中挑选一个子集进行进一步处理。因此注意力模型在生成每一个输出时都能够做到充分利用输入序列携带的信息。
注意力模型进行语音识别的生成词不仅关注全局的语义编码特征向量,而是相应的增加了“注意力范围”,以表示输出结果需要重点关注输入序列中的哪些部分,并根据所关注的区域来产生下一个输出结果,其每次对识别块中的一个待识别对象进行处理。因此,在本实施例的流式语音识别方法中,首先通过联结主义时间分类模型确定待识别的语音块中所包含待识别对象的数量,再根据注意力模型进行对应次数的识别,即可确定该语音块所对应的全部识别结果。
在一示例性实施例中获取待识别的语音块还可以包括:如果检测到上一待识别语音块中存在未识别的对象,对所述上一待识别语音块进行对象识别处理。具体而言,本示例性实施例为利用注意力模型能够结合全局对特定对象进行识别的特点,在其识别过程中可以设置特定的延迟,例如当前语音块所包含的识别对象数量为五个,在本次注意力模型识别中可以只对该语音块进行四次识别,将语音块中靠近边界的最后一个语音块在延迟至下一语音块的识别过程中进行识别;该实施例能够解决注意力模型识别中对语音块边界的识别对象无法根据全局及前后关系进行识别的问题。
进一步地,本实施例的流式语音识别方法还包括对识别结果准确度地评价体系。在一示例性实施例中,根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果,包括:根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到至少一组语音识别处理的结果及对应的准确度;确定所述准确度最高的一组语音识别处理的结果作为所述语音块对应的语音识别结果。本实施例所说的识别结果即一组由多个识别对象组成的语句,在一些情况下语音识别并非仅确定唯一的识别对象,因而在针对一个语音块可能得到多组识别结果,根据注意力模型进行语音识别存在着识别结果不唯一确定的可能,因此在得到不止一组识别结果的情况下可以各组识别结果的准确度作为评价标准来确定最可能的一组识别结果。在一实施例中可以预先设定分值评价标准对识别对象的准确性进行筛选,对于分值低于预设阈值的即可认为其准确度过低而对该识别结果不予采纳,也可在分值低于该阈值的情况下重新对语音块进行识别,以获取更为准确的识别结果。
本申请另一示例性实施例提供了一种流式语音识别装置,图4是本申请实施例中一种流式语音识别装置的结构示意图。如图4所示,流式语音识别装置40包括:
获取模块42,用于获取待识别的语音块;
第一识别模块44,用于基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别处理得到的对象最优识别处理结果确定所述语音块中识别对象的数量;
第二识别模块46,用于根据所述识别语音块中对象的数量确定识别次数,为识别次数并基于注意力模型对所述语音块进行所述识别次数的进行语音识别处理,得到与最优所述语音块对应的目标语音识别结果。
上述装置中各模块/单元的具体细节已经在对应的方法部分进行了详细的描述,此处不再赘述。应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
除上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
本申请的另一实施方式提供了一种电子设备,可以用于执行本示例实施方式中所述方法或网络控制方法的全部或者部分步骤。所述装置包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本说明书上述“示例性方法”中描述的根据本申请各种实施例的方法中的步骤。
本申请的另一实施方式提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种流式语音识别方法,其特征在于,包括以下步骤:
获取待识别的语音块;
基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量;
根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果。
2.根据权利要求1所述的流式语音识别方法,其特征在于,所述基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量,包括:
基于联结主义时间分类模型对所述语音块进行对象识别处理,得到至少一组对象识别处理的结果及对应的准确度;
确定所述准确度最高的一组对象识别处理的结果作为所述对象识别处理结果;
根据所述对象识别结果确定所述语音块中对象的数量。
3.根据权利要求1所述的流式语音识别方法,其特征在于,所述基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,包括:
对所述语音块进行编码处理,得到所述语音块的特征序列;
基于联结主义时间分类模型对所述语音块的特征序列进行对象识别处理得到对象识别结果。
4.根据权利要求1所述的流式语音识别方法,其特征在于,所述根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果,包括:
根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到至少一组语音识别处理的结果及对应的准确度;
确定所述准确度最高的一组语音识别处理的结果作为所述语音块对应的语音识别结果。
5.根据权利要求1所述的流式语音识别方法,其特征在于,所述获取待识别的语音块包括:
如果检测到上一待识别语音块中存在未识别的对象,对所述上一待识别语音块进行对象识别处理。
6.根据权利要求4所述的流式语音识别方法,其特征在于,还包括:
如果所述至少一组语音识别处理的结果对应的准确度均小于阈值,重新对所述语音块进行对象识别处理或语音识别处理。
7.根据权利要求1所述的流式语音识别方法,其特征在于,所述获取待识别的语音块包括:
根据指定时间范围或指定语音块大小从待识别的语音信号中提取所述语音块。
8.一种流式语音识别装置,其特征在于,包括:
获取模块,用于获取待识别的语音块;
第一识别模块,用于基于联结主义时间分类模型对所述语音块进行对象识别处理得到对象识别结果,并根据所述对象识别结果确定所述语音块中对象的数量;
第二识别模块,用于根据所述语音块中对象的数量确定识别次数,并基于注意力模型对所述语音块进行所述识别次数的语音识别处理,得到与所述语音块对应的语音识别结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7所述的流式语音识别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7所述的流式语音识别方法。
CN202111150034.5A 2021-09-29 2021-09-29 流式语音识别方法及装置、电子设备、存储介质 Pending CN113990325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111150034.5A CN113990325A (zh) 2021-09-29 2021-09-29 流式语音识别方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111150034.5A CN113990325A (zh) 2021-09-29 2021-09-29 流式语音识别方法及装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN113990325A true CN113990325A (zh) 2022-01-28

Family

ID=79737221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111150034.5A Pending CN113990325A (zh) 2021-09-29 2021-09-29 流式语音识别方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN113990325A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822540A (zh) * 2022-06-29 2022-07-29 广州小鹏汽车科技有限公司 车辆语音交互方法、服务器和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822540A (zh) * 2022-06-29 2022-07-29 广州小鹏汽车科技有限公司 车辆语音交互方法、服务器和存储介质

Similar Documents

Publication Publication Date Title
Van Niekerk et al. A comparison of discrete and soft speech units for improved voice conversion
Murthy et al. Group delay functions and its applications in speech technology
CN102982811B (zh) 一种基于实时解码的语音端点检测方法
CN106297800B (zh) 一种自适应的语音识别的方法和设备
EP4018437B1 (en) Optimizing a keyword spotting system
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
CN112581963B (zh) 一种语音意图识别方法及***
Shaikh Naziya et al. Speech recognition system—a review
CN111640418A (zh) 一种韵律短语识别方法、装置及电子设备
CN110570842B (zh) 基于音素近似度和发音标准度的语音识别方法及***
CN112349289A (zh) 一种语音识别方法、装置、设备以及存储介质
Karpov An automatic multimodal speech recognition system with audio and video information
Manchala et al. GMM based language identification system using robust features
CN114530141A (zh) 一种特定场景下的中英文混合的离线语音关键词识别方法及其***实现
CN112735404A (zh) 一种语音反讽检测方法、***、终端设备和存储介质
Stanek et al. Algorithms for vowel recognition in fluent speech based on formant positions
Absa et al. A hybrid unsupervised segmentation algorithm for arabic speech using feature fusion and a genetic algorithm (July 2018)
Dave et al. Speech recognition: A review
CN113990325A (zh) 流式语音识别方法及装置、电子设备、存储介质
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
Chit et al. Myanmar continuous speech recognition system using fuzzy logic classification in speech segmentation
CN114298019A (zh) 情绪识别方法、装置、设备、存储介质、程序产品
CN114203180A (zh) 会议纪要的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination