CN113096642A - 语音识别方法和装置、计算机可读存储介质、电子设备 - Google Patents

语音识别方法和装置、计算机可读存储介质、电子设备 Download PDF

Info

Publication number
CN113096642A
CN113096642A CN202110351353.6A CN202110351353A CN113096642A CN 113096642 A CN113096642 A CN 113096642A CN 202110351353 A CN202110351353 A CN 202110351353A CN 113096642 A CN113096642 A CN 113096642A
Authority
CN
China
Prior art keywords
prediction
voice
library
features
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110351353.6A
Other languages
English (en)
Inventor
黄明运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Horizon Robotics Technology Co Ltd
Original Assignee
Nanjing Horizon Robotics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Horizon Robotics Technology Co Ltd filed Critical Nanjing Horizon Robotics Technology Co Ltd
Priority to CN202110351353.6A priority Critical patent/CN113096642A/zh
Publication of CN113096642A publication Critical patent/CN113096642A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本公开实施例公开了一种语音识别方法和装置、计算机可读存储介质、电子设备,其中,方法包括:将在应用场景中获取到的语音信号处理为多组语音特征;通过一个预测库分别对所述多组语音特征进行处理,得到多个预测结果;基于所述多个预测结果,确定所述应用场景中的语音识别结果;本实施例通过使用一个预测库对多组语音特征进行预测,降低了内存的占用空间,使本实施例提供方法可以应用在内存较小的***上,提高语音识别方法的适用范围。

Description

语音识别方法和装置、计算机可读存储介质、电子设备
技术领域
本公开涉及语音识别技术领域,尤其是一种语音识别方法和装置、计算机可读存储介质、电子设备。
背景技术
在关键词唤醒的场景中,由于不同场景下降噪效果侧重点不同,为了达到较好的识别效果,经常会开启多路解码器来进行解码,因此增加了***的内存占用。而在***资源有限的平台上,内存是比较有限的资源,因此无法实现解码。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种语音识别方法和装置、计算机可读存储介质、电子设备。
根据本公开实施例的一个方面,提供了一种语音识别方法,包括:
将在应用场景中获取到的语音信号处理为多组语音特征;
通过一个预测库分别对所述多组语音特征进行处理,得到多个预测结果;
基于所述多个预测结果,确定所述应用场景中的语音识别结果。
根据本公开实施例的另一方面,提供了一种语音识别装置,包括:
信号处理模块,用于将在应用场景中获取到的语音信号处理为多组语音特征;
特征预测模块,用于通过一个预测库分别对所述信号处理模块得到的多组语音特征进行处理,得到多个预测结果;
语音识别模块,用于基于所述特征预测模块得到的多个预测结果,确定所述应用场景中的语音识别结果。
根据本公开实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述实施例所述的语音识别方法。
根据本公开实施例的还一方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述实施例所述的语音识别方法。
基于本公开上述实施例提供的一种语音识别方法和装置、计算机可读存储介质、电子设备,将在应用场景中获取到的语音信号处理为多组语音特征;通过一个预测库分别对所述多组语音特征进行处理,得到多个预测结果;基于所述多个预测结果,确定所述应用场景中的语音识别结果;本实施例通过使用一个预测库对多组语音特征进行预测,降低了内存的占用空间,使本实施例提供方法可以应用在内存较小的***上,提高语音识别方法的适用范围。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开一示例性实施例提供的语音识别***的结构示意图。
图2是本公开一示例性实施例提供的语音识别方法的流程示意图。
图3是本公开另一示例性实施例提供的语音识别方法的流程示意图。
图4是本公开图3所示的实施例中步骤302的一个流程示意图。
图5是本公开图2所示的实施例中步骤202的一个流程示意图。
图6是本公开图2所示的实施例中步骤202的另一个流程示意图。
图7是本公开图2所示的实施例中步骤203的一个流程示意图。
图8是本公开又一示例性实施例提供的语音识别方法的流程示意图。
图9是本公开一示例性实施例提供的语音识别装置的结构示意图。
图10是本公开另一示例性实施例提供的语音识别装置的结构示意图。
图11是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机***、服务器等电子设备,其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境,等等。
终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
申请概述
在实现本公开的过程中,发明人发现,在关键词唤醒的场景中,由于不同场景下降噪效果侧重点不同,为了达到较好的识别效果,经常会开启多路解码器来解码器,但该技术方案至少存在以下问题:增加了***的内存占用。
示例性***
在关键词唤醒***中,为了适应不同场景的降噪效果,经常会开启多路解码器来解码,每路解码器都需要load(加载)模型(深度神经网络,网络的结构、参数)和初始化预测库(是一套操作***,通过预测库执行预测,根据网络的操作确定基本计算单元,网络运行的具体如何操作、参数预测库),导致***的内存使用量增加。
本公开实施例通过多路解码器共用一套预测库的方法来降低内存能使用。
图1是本公开一示例性实施例提供的语音识别***的结构示意图。该实施例提供的***,包括:一个预测库102和多个解码器103,为了便于理解***处理过程,图中还示出了被处理的语音信号101,以及基于语音信号101得到的语音特征105和语音识别结果104;
获取的设定应用场景中的多组语音信号101,对多组语音信号101分别进行特征提取得到多组语音特征105,例如,利用传声器阵列采集语音信号;采集的语音信号通常为时域信号,为了使神经网络能够对信号进行处理,本实施例对该语音信号进行频域转换(例如,傅里叶变换等),基于多组语音信号得到频谱特征作为多组语音特征105。
多组语音特征105分别输入预测库102,预测库102对多组语音特征进行概率值预测,确定每组语音信号包括的多帧信号中每帧信号进行对应的至少一个音素的概率值,确定每帧信号可能对应的音素(一个或多个)的概率,即确定语音信号包括的多帧信号中每帧信号为至少一个音素中每个音素的音素概率值;再基于每个音素对应的持续帧长(包括至少一帧),对每个音素对应的多个音素概率值进行相加,以相加得到的和作为每个音素对应的概率值。
本实施例在超过1路解码器进行解码时,将预测库102和模型初始化的功能单独提取出来,首先完成初始化过程,以每路解码器值初始化解码相关的部分(初始化解码器中的参数)。
还包括,对应语音信号101数量的解码器103,每个解码器103对应一组语音信号101,解码器103在解码时可以依次调用预测库来解码。由于音频是实时产生的,并且处理的实时率一般都比较小,所以不会引入明显的延迟。内存却只用了一个模型和预测库的量级,达到了减少内存占用。
由于预测库102本身占用一定的代码空间,并且需要加载模型到***的内存。因此这部分占用内存的数量一般较多。本公开实施例在初始化解码器103的时候,可以把这部分提取出来,多路解码器103复用一个预测库102。而提取特征和预测完成后的解码、识别过程,则各自独立完成,互不干扰。达到节省内存又不影响原有效果的效果。
解码器103基于预测库102输出的每组语音信号包括的多帧信号中每帧信号对应的至少一个音素的概率值,分别为每组语音信号确定至少一条路径。根据每组语音信号对应的至少一条路径,确定语音识别结果104,例如,确定多组语音信号对应的所有路径中路径概率值最大的路径作为该应用场景下的语音识别结果。
本公开实施例减少在嵌入式平台跑起来时,所需要的内存数量减少,在提升多路解码性能的同时,较少了内存占用,从而使唤醒***能够跑在更多资源有限的平台中。
示例性方法
图2是本公开一示例性实施例提供的语音识别方法的流程示意图。本实施例可应用在电子设备上,如图2所示,包括如下步骤:
步骤201,将在应用场景中获取到的语音信号处理为多组语音特征。
其中,语音信号可通过多组传声器阵列在该应用场景的不同位置进行采集,得到的语音信号可以是时域信号。应用场景可以包括但不限于关键词唤醒等场景。
步骤202,通过一个预测库分别对多组语音特征进行处理,得到多个预测结果。
预测库是指支持模型前向计算的代码库,例如:mxnet,TensorFlow等;预测结果可以是为该语音信号中每帧信号是多个音素中每个音素的概率值。
步骤203,基于多个预测结果,确定应用场景中的语音识别结果。
语音识别结果可以是基于多个预测结果确定的多条路径中确定的一条路径,例如,概率值最大的路径。
本实施例中,综合了应用场景中多个位置的语音信号的预测结果,确定一个识别较为准确的语音识别结果;例如,以预测结果中可信度最高的预测结果作为语音识别结果。
本公开上述实施例提供的一种语音识别方法,将在应用场景中获取到的语音信号处理为多组语音特征;通过一个预测库分别对所述多组语音特征进行处理,得到多个预测结果;基于所述多个预测结果,确定所述应用场景中的语音识别结果;本实施例通过使用一个预测库对多组语音特征进行预测,降低了内存的占用空间,使本实施例提供方法可以应用在内存较小的***上,提高语音识别方法的适用范围。
图3是本公开另一示例性实施例提供的语音识别方法的流程示意图。如图3所示,包括如下步骤:
步骤301,根据应用场景确定应用于解码的多个相同的解码器。
其中,每个解码器对应一组语音特征,一个解码器处理通过一组语音特征,如图1所示,左侧输入的一组语音特征经过预测库处理后输入左侧的解码器中,右侧输入的一组语音特征经过预测库处理输入到右侧的解码器中,具体对应关系与加入预测库之前的对应关系是相同的。
步骤302,基于解码器中包括的预测模型对预测库进行初始化。
在预测库中加载运算逻辑,实现初始化,其中,由于预测模型是一种深度神经网络,因此,在预测库中加载的运算逻辑为该神经神经网络对应的运算逻辑。
之后执行上述图2所示实施例中的步骤201-203。
在应用预测库进行结果预测之前,需要对预测库进行初始化(例如,加载运算逻辑等),本实施例中,在利用超过一路解码器解码时,可以将预测库和模型初始化的功能单独提取出来,首先完成初始化过程,该初始化过程可包括:每路解码器值初始化解码相关的部分的参数;本实施例通过在解码之前通过多个解码器对应的预测模型对预测库进行初始化,使初始化之后的预测库可以满足对多组语音特征进行预测,提高了预测库初始化的效率。
如图4所示,在上述图3所示实施例的基础上,步骤302可包括如下步骤:
步骤3021,根据解码器中包括的预测模型确定预测模型对应的运算逻辑。
其中,运算逻辑表达的是预测模型预测过程中涉及到的运算公式。运算公式是预测模型实现预测的逻辑关系,例如,当预测模型为二维卷积模型时,对应的运算公式可以为:Y=W*x+B。
步骤3022,根据运算逻辑对预测库进行初始化,使预测库在运行时按照预测模型的运算逻辑进行预测处理。
本实施例中,解析预测模型(可以是任意一种神经网络)的结构,并且根据节点名称加载(load)每一层的参数到内存中;基于预测模型的运算逻辑推断每一层的输入输出形状和类型,并在内存中开辟相应的空间;本实施例通过预测库的初始化,使预测库在运行时可对对应该运算逻辑(对应至少一个解码器)的所有语音信号实现准确的预测,避免了初始化多个预测库造成的初始化时间长的问题,并且以运算逻辑进行初始化,在加快初始化速度的同时提高了初始化的准确性。
如图5所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:
步骤2021,运行预测库依次对多组语音特征进行概率值预测。
步骤2022,针对多组语音特征中的每组语音特征,确定语音信号中包括的多帧信号中每帧信号为至少一个音素中每个音素的音素概率值。
可选地,解码器通过预测库对语音信号进行预测的过程是通过神经网络对语音信号进行识别的过程,识别每帧信号是至少一个音素中每个音素的概率值,例如,识别一帧信号为音素d的概率值为80%,为音素t的概率为20%,等等。
本实施例中,每一路解码器在解码时可以依次调用预测库来实现解码。由于音频是实时产生的,并且处理的实时率一般都比较小,所以不会引入明显的延迟。本实施例实现了对多组语音特征的预测,但内存却只用了一个预测模型和预测库的量级,达到了减少内存占用的目的。
如图6所示,在上述图2所示实施例的基础上,步骤202还可包括如下步骤:
步骤2023,将预测库包括的运算逻辑中的相似运算合并为同一运算。
用一个运算逻辑来计算多个相似运算,对接收到的多个相似运算排队执行,例如,接收到两组需要执行卷积运算的语音特征,按照接收的时间顺序,先对一组语音特征执行卷积运算,再对另一组语音特征执行卷积运算。
步骤2024,在嵌入式平台运行运算合并后的预测库,依次对多组语音特征进行概率值预测。
步骤2022,针对多组语音特征中的每组语音特征,确定语音信号中包括的多帧信号中每帧信号为至少一个音素中每个音素的音素概率值。
本实施中,当预测库在嵌入式平台上运行时,会适当的裁剪,通过格式改变或其他方式改变预测库的大小,减小预测库的数据量,以满足嵌入式平台的需要,通过牺牲一定的性能减小预测库占用内存的大小,剪裁的方式例如可以包括当不限于:float32量化成int8等。并且会根据相应平台的CPU指令做相应的优化,以便来加快模型的计算速度;本实施例通过把相似计算合并,充分利用并行指令,提高访问内存的速度,使预测库的结构更紧凑,缓存速度加快。
如图7所示,在上述图2所示实施例的基础上,步骤203还可包括如下步骤:
步骤2031,针对多组语音特征中的每组语音特征,基于每个音素对应的至少一帧信号的音素概率值之和,确定音素的概率值。
步骤2032,基于每个音素对应的概率值,确定每组语音信号对应的至少一条路径。
其中,每条路径包括多个音素。
步骤2033,基于多个语音信号对应的多条路径,确定语音识别结果。
本实施例中,路径是指对应多帧信号中每帧信号对应一个音素时,将多个音素按照该多帧信号的顺序连接得到的多个音素。可参照图1提供的实施例中步骤103的解码过程,由于多帧信号中每帧信号都对应一个音素,因此,通过神经网络的预测,可以得到多条路径,即,将每帧信号可能是的音素按照多帧信号的顺序进行连接,即可得到一条路径,例如,以唤醒词“地平线”为例,组成该唤醒词的音素为:d、i、p、ing、x、ian;但在神经网络预测时,可能在第一帧预测得到两个音素:d和t,此时,可得到两条路径:d-i-p-ing-x-ian和t-i-p-ing-x-ian;其他音素类似,当存在每帧信号都对应多个音素时,对应的路径会更多,每条路径对应一个路径概率值,该路径概率值为该路径对应的每个音素的概率值之和,并且由于每个音素都具有对应的概率值,因此,每条路径通过将包括的音素的概率值相加可确定路径概率值;根据路径概率值可确定一个或多个路径概率值较大(如,最大)的路径,以该路径作为语音识别结果。
在一些可选的实施例中,步骤201可包括:
对在应用场景中获取到的语音信号进行至少一次傅里叶变换,得到多组频谱特征作为多组语音特征。
本实施例中,通常情况下,通过麦克风等语音采集设备获取到的语音信号为时域信号,本实施例通过对采集的时域信号进行傅里叶变换,转换到频域,以得到频谱特征作为语音特征。
图8是本公开又一示例性实施例提供的语音识别方法的流程示意图。如图8所示,包括如下步骤:
在执行步骤801之前,先执行上述图3所示实施例中的步骤301。
步骤801,将解码器包括的预测模型和预测库加载到内存中。
在执行步骤801之后,执行上述图3所示实施例中的步骤302,再执行上述图2所示实施例中的步骤201-203。
本实施例中,由于预测库本身占用一定的代码空间,因此,本实施例在对预测库进行初始化之前,需要加载模型到***的内存,在内存中完成对预测库的初始化,使初始化后的预测库直接在内存中,无需重新加载。
本公开上述任一实施例提供的语音识别方法,可以应用到如语音唤醒等应用领域。
本公开实施例提供的任一种语音识别方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种语音识别方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种语音识别方法。下文不再赘述。
示例性装置
图9是本公开一示例性实施例提供的语音识别装置的结构示意图。如图9所示,本实施例提供的装置包括:
信号处理模块91,用于将在应用场景中获取到的语音信号处理为多组语音特征。
特征预测模块92,用于通过一个预测库分别对信号处理模块91得到的多组语音特征进行处理,得到多个预测结果。
语音识别模块93,用于基于特征预测模块92得到的多个预测结果,确定应用场景中的语音识别结果。
本公开上述实施例提供的一种语音识别装置,将在应用场景中获取到的语音信号处理为多组语音特征;通过一个预测库分别对所述多组语音特征进行处理,得到多个预测结果;基于所述多个预测结果,确定所述应用场景中的语音识别结果;本实施例通过使用一个预测库对多组语音特征进行预测,降低了内存的占用空间,使本实施例提供方法可以应用在内存较小的***上,提高语音识别方法的适用范围。
图10是本公开另一示例性实施例提供的语音识别装置的结构示意图。如图10所示,本实施例提供的装置包括:
本实施例中,在信号处理模块91之前还包括:
解码器确定模块11,用于根据应用场景确定应用于解码的多个相同的解码器。其中,每个解码器对应一组语音特征。
内存加载模块12,用于将解码器包括的预测模型和预测库加载到内存中。
初始化模块13,用于基于解码器中包括的预测模型对预测库进行初始化。
可选地,初始化模块13,具体用于根据解码器中包括的预测模型确定预测模型对应的运算逻辑;根据运算逻辑对预测库进行初始化,使预测库在运行时按照预测模型的运算逻辑进行预测处理。
本实施例中,特征预测模块92包括:
运算合并单元921,将所预测库包括的运算逻辑中的相似运算合并为同一运算。
概率预测单元922,用于运行预测库依次对多组语音特征进行概率值预测。
概率值确定单元923,用于针对多组语音特征中的每组语音特征,确定语音信号中包括的多帧信号中每帧信号为至少一个音素中每个音素的音素概率值。
可选地,概率预测单元922,具体用于在嵌入式平台运行运算合并后的预测库,依次对多组语音特征进行概率值预测。
本实施例中,语音识别模块93,包括:
音素概率确定单元931,用于针对多组语音特征中的每组语音特征,基于每个音素对应的至少一帧信号的音素概率值之和,确定音素的概率值。
路径确定单元932,用于基于每个音素对应的概率值,确定每组语音信号对应的至少一条路径;其中,每条路径包括多个音素。
识别结果确定单元933,用于基于多个语音信号对应的多条路径,确定语音识别结果。
本实施例中,信号处理模块91,具体用于对在应用场景中获取到的语音信号进行至少一次傅里叶变换,得到多组频谱特征作为多组语音特征。
示例性电子设备
下面,参考图11来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图11图示了根据本公开实施例的电子设备的框图。
如图11所示,电子设备110包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备110中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本公开的各个实施例的语音识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备110还可以包括:输入装置113和输出装置114,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置113可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置113可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入装置113还可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图11中仅示出了该电子设备110中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备110还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种语音识别方法,包括:
将在应用场景中获取到的语音信号处理为多组语音特征;
通过一个预测库分别对所述多组语音特征进行处理,得到多个预测结果;
基于所述多个预测结果,确定所述应用场景中的语音识别结果。
2.根据权利要求1所述的方法,在将在应用场景中获取到的语音信号处理为多组语音特征之前,还包括:
根据所述应用场景确定应用于解码的多个相同的解码器;其中,每个所述解码器对应一组所述语音特征;
基于所述解码器中包括的预测模型对所述预测库进行初始化。
3.根据权利要求2所述的方法,其中,所述基于所述解码器中包括的预测模型对所述预测库进行初始化,包括:
根据所述解码器中包括的预测模型确定所述预测模型对应的运算逻辑;
根据所述运算逻辑对所述预测库进行初始化,使所述预测库在运行时按照所述预测模型的运算逻辑进行预测处理。
4.根据权利要求2所述的方法,在基于所述解码器中包括的预测模型对所述预测库进行初始化之前,还包括:
将所述解码器包括的预测模型和所述预测库加载到内存中。
5.根据权利要求1-4一所述的方法,其中,所述通过一个预测库分别对所述多组语音特征进行处理,得到多个预测结果,包括:
运行所述预测库依次对所述多组语音特征进行概率值预测;
针对所述多组语音特征中的每组语音特征,确定所述语音信号中包括的多帧信号中每帧信号为至少一个音素中每个音素的音素概率值。
6.根据权利要求5所述的方法,所述运行所述预测库依次对所述多组语音特征进行概率值预测,包括:
将所述预测库包括的运算逻辑中的相似运算合并为同一运算;
在嵌入式平台运行所述运算合并后的预测库,依次对所述多组语音特征进行概率值预测。
7.根据权利要求6所述的方法,其中,所述基于所述多个预测结果,确定所述应用场景中的语音识别结果,包括:
针对所述多组语音特征中的每组语音特征,基于所述每个音素对应的至少一帧信号的音素概率值之和,确定所述音素的概率值;
基于所述每个音素对应的概率值,确定每组所述语音信号对应的至少一条路径;其中,每条所述路径包括多个音素;
基于所述多个语音信号对应的多条路径,确定语音识别结果。
8.一种语音识别装置,包括:
信号处理模块,用于将在应用场景中获取到的语音信号处理为多组语音特征;
特征预测模块,用于通过一个预测库分别对所述信号处理模块得到的多组语音特征进行处理,得到多个预测结果;
语音识别模块,用于基于所述特征预测模块得到的多个预测结果,确定所述应用场景中的语音识别结果。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的语音识别方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-8任一所述的语音识别方法。
CN202110351353.6A 2021-03-31 2021-03-31 语音识别方法和装置、计算机可读存储介质、电子设备 Pending CN113096642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110351353.6A CN113096642A (zh) 2021-03-31 2021-03-31 语音识别方法和装置、计算机可读存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110351353.6A CN113096642A (zh) 2021-03-31 2021-03-31 语音识别方法和装置、计算机可读存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN113096642A true CN113096642A (zh) 2021-07-09

Family

ID=76672293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110351353.6A Pending CN113096642A (zh) 2021-03-31 2021-03-31 语音识别方法和装置、计算机可读存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN113096642A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333799A (zh) * 2022-03-09 2022-04-12 深圳市友杰智新科技有限公司 相近音误识别的检测方法、装置和计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154033A1 (en) * 2015-11-30 2017-06-01 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
CN107507613A (zh) * 2017-07-26 2017-12-22 合肥美的智能科技有限公司 面向场景的中文指令识别方法、装置、设备和存储介质
CN108510977A (zh) * 2018-03-21 2018-09-07 清华大学 语种识别方法及计算机设备
CN109036391A (zh) * 2018-06-26 2018-12-18 华为技术有限公司 语音识别方法、装置及***
CN111489737A (zh) * 2020-04-13 2020-08-04 深圳市友杰智新科技有限公司 语音命令识别方法、装置、存储介质及计算机设备
CN111862943A (zh) * 2019-04-30 2020-10-30 北京地平线机器人技术研发有限公司 语音识别方法和装置、电子设备和存储介质
CN112102816A (zh) * 2020-08-17 2020-12-18 北京百度网讯科技有限公司 语音识别方法、装置、***、电子设备和存储介质
CN112216307A (zh) * 2019-07-12 2021-01-12 华为技术有限公司 语音情感识别方法以及装置
CN112259077A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154033A1 (en) * 2015-11-30 2017-06-01 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
CN106816148A (zh) * 2015-11-30 2017-06-09 三星电子株式会社 语音识别设备和方法
CN107507613A (zh) * 2017-07-26 2017-12-22 合肥美的智能科技有限公司 面向场景的中文指令识别方法、装置、设备和存储介质
CN108510977A (zh) * 2018-03-21 2018-09-07 清华大学 语种识别方法及计算机设备
CN109036391A (zh) * 2018-06-26 2018-12-18 华为技术有限公司 语音识别方法、装置及***
CN111862943A (zh) * 2019-04-30 2020-10-30 北京地平线机器人技术研发有限公司 语音识别方法和装置、电子设备和存储介质
CN112216307A (zh) * 2019-07-12 2021-01-12 华为技术有限公司 语音情感识别方法以及装置
CN111489737A (zh) * 2020-04-13 2020-08-04 深圳市友杰智新科技有限公司 语音命令识别方法、装置、存储介质及计算机设备
CN112102816A (zh) * 2020-08-17 2020-12-18 北京百度网讯科技有限公司 语音识别方法、装置、***、电子设备和存储介质
CN112259077A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333799A (zh) * 2022-03-09 2022-04-12 深圳市友杰智新科技有限公司 相近音误识别的检测方法、装置和计算机设备
CN114333799B (zh) * 2022-03-09 2022-08-02 深圳市友杰智新科技有限公司 相近音误识别的检测方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
US10891944B2 (en) Adaptive and compensatory speech recognition methods and devices
JP7023934B2 (ja) 音声認識方法及び装置
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
EP4133478A1 (en) Sequence-to-sequence speech recognition with latency threshold
US11688412B2 (en) Multi-modal framework for multi-channel target speech separation
US9959887B2 (en) Multi-pass speech activity detection strategy to improve automatic speech recognition
CN112509600A (zh) 模型的训练方法、装置、语音转换方法、设备及存储介质
CN110929505B (zh) 房源标题的生成方法和装置、存储介质、电子设备
US10629184B2 (en) Cepstral variance normalization for audio feature extraction
CN112687286A (zh) 音频设备的降噪模型的调整方法和装置
CN110288974B (zh) 基于语音的情绪识别方法及装置
CN113096642A (zh) 语音识别方法和装置、计算机可读存储介质、电子设备
CN110890098B (zh) 盲信号分离方法、装置和电子设备
Fazliddinovich et al. Parallel processing capabilities in the process of speech recognition
JP2023517004A (ja) ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換
CN113053377A (zh) 语音唤醒方法和装置、计算机可读存储介质、电子设备
CN112766470B (zh) 特征数据处理方法、指令序列生成方法、装置及设备
CN111858916B (zh) 用于聚类句子的方法和装置
CN114333769B (zh) 语音识别方法、计算机程序产品、计算机设备及存储介质
CN111783431A (zh) 利用语言模型预测词出现概率及语言模型训练方法和装置
CN115756794A (zh) 任务调度执行方法、任务调度执行指令的生成方法及装置
CN110874343A (zh) 基于深度学习芯片进行语音处理的方法和深度学习芯片
CN114092939A (zh) 文本识别以及文本识别模型的训练方法和存储介质、设备
CN113409802B (zh) 语音信号的增强处理方法、装置、设备及存储介质
CN112017662A (zh) 控制指令确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination