CN105976808B

CN105976808B - 一种智能语音识别***及方法

Info

Publication number: CN105976808B
Application number: CN201610240242.7A
Authority: CN
Inventors: 何云鹏
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2016-04-18
Filing date: 2016-04-18
Publication date: 2023-07-25
Anticipated expiration: 2036-04-18
Also published as: CN105976808A

Abstract

本发明涉及电子技术领域，特别涉及一种智能语音识别***，其包括信号接收转换单元、存储管理单元、语音检测单元、语音特征提取单元、深度神经网络单元和识别解码单元，本发明还公开了一种包含该智能语音识别***的智能语音识别方法，本发明在同等芯片面积条件下，相较于CPU或GPU大幅提升了芯片的计算性能，并且降低了功耗和成本。

Description

一种智能语音识别***及方法

技术领域

本发明涉及电子技术领域，特别涉及一种智能语音识别***及方法。

背景技术

随着人工智能算法的突破，深度神经网络（ＤＮＮ）在语音智能识别中得到应用，从而大幅提升了语音识别的准确度，使得近两年来语音识别开始逐步在各领域推广应用。由于ＤＮＮ模型计算量非常巨大，所以目前的语音识别计算主要通过云端服务器进行，云端服务器采用高性能的中央处理器（CPU）或图形处理器（GPU）阵列来进行计算，不仅需要消耗的计算资源巨大，而且功耗也超高，同时也需要消耗巨大的网络带宽，在没有网络或网络断线情况下则无法进行识别计算。如果本地采用集成单核或多核的高性能ＣＰＵ或ＧＰＵ及数字信号处理（ＤＳＰ）核的***级芯片（SoC）来计算，则只能进行较小的ＤＮＮ模型计算，或者是由于计算功耗和成本巨大，给终端产品的竞争力带来较大影响。

市面上也有个别芯片采用非ＤＮＮ模型方式比如高斯混合模型方式，该方式虽然计算量小，从而采用普通ＣＰＵ内核就可以承担，但识别性能相较基于ＤＮＮ模型的语音识别方式差很多。

发明内容

本发明的目的在于：提供一种采用硬件化的逻辑电路，可进行并行计算，可极大提升本地语音识别计算能力，并降低对于CPU计算资源的需求消耗以及能耗的智能语音识别***及方法。

为了达到上述目的，本发明提供了如下技术方案：

一种智能语音识别***，其包括信号接收转换单元、存储管理单元、语音检测单元、语音特征提取单元、深度神经网络单元和识别解码单元，所述信号接收转换单元接收外部声音输入信号并将所述外部声音输入信号转换为***统一格式的数字信号，所述数字信号被存入所述存储管理单元，所述语音检测单元从所述存储单元中读取所述数字信号进行检测并将检测结果分别输送给所述语音特征提取单元、深度神经网络单元和识别解码单元，当所述检测结果包含活动语音信号时，所述语音特征提取单元、深度神经网络单元和识别解码单元被触发，处于工作状态，当所述检测结果不包含活动语音信号时，所述语音特征提取单元和深度神经网络单元不被触发，处于低功耗的不工作状态，所述识别解码单元处于不进行语音识别解码的模式或者低功耗休眠状态，所述语音特征提取单元根据所述语音检测单元的检测结果从所述存储管理单元读取所述数字信号并从中提取语音特征，所述语音特征提取单元将提取到的所述语音特征存入所述存储管理单元，所述深度神经网络单元根据所述语音检测单元的检测结果从所述存储管理单元读取所述语音特征进行计算，并将计算结果存入所述存储管理单元，所述识别解码单元根据所述语音检测单元的检测结果从所述存储管理单元读取所述计算结果进行识别解码，并将识别解码后的信号输出。

作为本发明的优选方案，所述存储管理单元包含数字信号存储模块、语音特征存储模块和计算结果存储模块，所述数字信号存储模块存储所述数字信号供所述语音检测单元和所述语音特征提取单元读取，所述语音特征存储模块存储所述语音特征并供所述深度神经网络单元读取，所述计算结果存储模块存储所述计算结果并供所述识别解码单元读取进行识别解码,所述计算结果存储模块与所述深度神经网络单元之间的数据传输是单向或双向的，所述语音检测单元、语音特征提取单元、深度神经网络单元均采用固化的芯片逻辑电路，所述识别解码单元采用嵌入式软件或硬件，所述识别解码单元在读取所述计算结果的同时从所述存储管理单元读取预存的语言模型库，进行软件或固件识别解码计算，完成语音的智能识别。

作为本发明的优选方案，所述深度神经网络单元由输入层、隐含层和输出层构成，所述输入层可配置特征矢量大小，所述隐含层可配置层数和神经元节点个数，所述输出层可配置输出大小，所述深度神经网络单元将所述语音特征计算完成后的所述计算结果进行片内缓存或放入外部DRAM（动态随机存储器）中，供所述识别解码单元访问。

本发明还公开了一种包含如上述智能语音识别***的智能语音识别方法，其步骤如下：

A所述信号接收转换单元接收所述外部声音输入信号并将所述外部声音输入信号转化为***统一格式的数字信号，若所述外部声音输入信号为模拟信号，则需要先将所述外部声音输入信号转换为数字信号；

B 所述数字信号被存入所述存储管理单元供其他单元读取；

C 所述语音检测单元从所述存储管理单元读取所述数字信号并检测是否有语音信号，如果否则终止流程，如果是则进入下一个步骤，在检测到语音信号的同时，所述语音检测单元发送触发信号给所述语音特征提取单元、深度神经网络单元和识别解码单元，触发所述语音特征提取单元、深度神经网络单元和识别解码单元从非工作状态进入工作状态；

D 所述语音特征提取单元从所述存储管理单元读取所述数字信号并从中提取语音特征；

E 所述语音特征被存入所述存储管理单元；

F 所述深度神经网络单元从所述存储管理单元读取所述语音特征并进行计算得到计算结果；

G 所述计算结果被存入所述存储管理单元；

H 所述识别解码单元从所述存储管理单元读取所述计算结果进行识别解码。

只要持续有所述外部声音输入信号输入，则不断循环重复上述A-H的步骤。

与现有技术相比，本发明的有益效果：

本发明将语音特征提取和ＤＮＮ计算采用硬件化的集成电路逻辑模块方式，通过分析该方式承担了语音识别近９０％的计算需求，该方式在同等芯片面积条件下，相较于CPU/GPU大幅提升了芯片的计算性能，并且降低了功耗和成本，本发明还集成了活动语音自动检测的电路，只在识别到输入声音中有人说话的成分才开始进行识别计算，从而进一步大幅节省了计算需求，并降低芯片计算功耗。

附图说明

图1为本发明智能语音检测***的框图；

图2为本发明第一实施例框图；

图3为本发明第二实施例框图；

图4为本发明智能语音识别方法流程图；

图5为本发明第三实施例流程图；

图6为本发明第四实施例流程图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述，但不应将此理解为本发明上述主体的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明保护的范围。

第一实施例

如图2所示，一种智能语音识别***，包括信号接收转换单元101、INPUT RAM（输入缓存）1021、VAD（语音检测单元）103、FE（语音特征提取单元）104、Feature RAM（特征缓存）1022、DNN（深度神经网络单元）105、DNN RAM（深度神经网络缓存）1023、CPU（中央处理器）106和FLASH（闪存）107，信号接收转换单元101将外部声音输入信号转化为统一格式的数字信号，本实施例中的数字信号为PCM（脉冲编码调制）信号，被转化后的数字信号缓存入INPUT RAM1021，VAD103从INPUT RAM1021中读取数字信号进行语音检测，检测出数字信号中如果有语音信号，则VAD103会给FE104、DNN105和CPU106发出触发信号，使得FE104、DNN105和CPU106进入工作状态，FE104根据VAD103发出的触发信号从INPUT RAM1021中读取数字信号并从中提取语音特征，FE104将提取的语音特征存入Feature RAM1022供DNN105读取，DNN105从Feature RAM1022中读取语音特征进行计算并将计算结果缓存入DNN RAM1023供CPU106读取，CPU106从DNN RAM1023中读取计算结果同时从FLASH107中读取预存的语言库或者命令词模型库进行识别解码计算完成语音识别。

本实施例中，当VAD103检测到语音信号后，FE104和DNN105自动启动，在其他实施例中FE104和DNN105可以由CPU配置启动，FE104从INPUT RAM1021中读取含语音的数字信号，进行语音特征提取，FE104进行梅尔倒谱及基音提取，其结果输入Feature RAM1022中，Feature RAM1022中积累到一定待处理数据时，DNN105开始从Feature RAM1022中读取数据并进行DNN105计算，本实施例中，DNN105从供DNN105计算的DNN RAM1023中读取预存的DNN参数，并缓存DNN105计算结果到DNN RAM1023中，CPU106在进行语音识别解码时，从FLASH107中读取预存的语言库或命令词模型库，同时读取DNN计算结果进行识别解码计算完成语音识别，在其他实施例中CPU可以替换为GPU（图形处理器）、DSP（数字信号处理器）等其他的模块。

第二实施例

如图3所示，一种智能语音识别***，包括信号接收转换单元201、INPUT RAM（输入缓存）2021、VAD（语音检测单元）203、FE（语音特征提取单元）204、Feature RAM（特征缓存）2022、DNN（深度神经网络单元）205、DRAM控制器（动态随机存取存储器控制器）2023、CPU（中央处理器）206、FLASH（闪存）207和DRAM（动态随机存取存储器）208，开机时CPU206将外部存储器FLASH207预存的DNN参数、语音模型库等导入DRAM208中，信号接收转换单元201将外部声音输入信号转化为统一格式的数字信号，本实施例中的数字信号为PCM（脉冲编码调制）信号，被转化后的数字信号缓存入INPUT RAM2021，VAD203从INPUT RAM2021中读取数字信号进行语音检测，检测出数字信号中如果有语音信号，则VAD203会给FE204、DNN205和CPU206发出触发信号，使得FE204、DNN205和CPU206进入工作状态，FE204根据VAD203发出的触发信号从INPUT RAM2021中读取数字信号并从中提取语音特征，FE204将提取的语音特征存入Feature RAM2022供DNN205读取，DNN205从Feature RAM2022中读取语音特征进行计算并将计算结果通过DRAM 控制器2023缓存入DRAM208供CPU206读取，CPU206通过DRAM控制器2023从DRAM208中读取计算结果同时从DRAM208中读取预存的语言库或者命令词模型库进行解码完成语音识别。

在本实施例中使用了外部DRAM208，适用于对语音识别性能要求高，命令词条数较多的情况，在开机时，CPU206将外部存储器FLASH207预存的DNN参数、语音模型库等导入DRAM208中，在进行语音识别时，DNN205和CPU206从DRAM208中分别读取DNN参数和语言模型库，DNN205的计算结果输入到DRAM208中供CPU206访问，这样保证了较大的存储容量要求。

第三实施例

如图5所示，一种包含第一实施例所述的智能语音识别***的智能语音识别方法，其步骤如下：

步骤一301 信号接收转换单元接收外部声音输入信号并将外部声音输入信号转换为统一格式的数字信号，本实施例中外部声音输入信号为串行数字I2S（集成电路内置音频总线）信号，在其他实施例中外部声音输入信号还可以为PDM（脉冲密度调制）信号，或者是串行数字I2S信号和PDM信号的混合，被接收转换单元转换为PCM数字信号；

步骤二302 所述数字信号被存入INPUT RAM供其他单元读取；

步骤三303 VAD从INPUT RAM读取数字信号并检测是否有语音信号，如果否则终止流程，如果是则进入下一个步骤，在检测到语音信号的同时，VAD发送触发信号给FE、DNN和CPU，触发FE、DNN和CPU从非工作状态进入工作状态；

步骤四304 FE从INPUT RAM读取含语音的数字信号并从中提取语音特征；

步骤五305 所述语音特征被存入Feature RAM；

步骤六306 DNN从Feature RAM中读取所述语音特征并进行计算得到计算结果；

步骤七307 所述计算结果被存入DNN RAM；

步骤八308 CPU从DNN RAM读取所述计算结果同时从FLASH中读取预存的语言库或者命令词模型库进行识别解码。

CPU在开机时将预存在FLASH中的DNN参数导入DNN RAM中。

第四实施例

如图6所示，一种包含第二实施例所述的智能语音识别***的智能语音识别方法，其步骤如下：

步骤一401 信号接收转换单元接收外部声音输入信号并将外部声音输入信号转换为统一格式的数字信号，本实施例中外部声音输入信号为PDM信号，在其他实施例中外部声音输入信号还可以为串行数字I2S信号，或者是PDM信号和串行数字I2S信号的混合，被接收转换单元转换为PCM数字信号；

步骤二402 所述数字信号被存入INPUT RAM供其他单元读取；

步骤三403 VAD从INPUT RAM读取数字信号并检测是否有语音信号，如果否则终止流程，如果是则进入下一个步骤，在检测到语音信号的同时，VAD发送触发信号给FE、DNN和CPU，触发FE、DNN和CPU从非工作状态进入工作状态；

步骤四404 FE从INPUT RAM读取含语音的数字信号并从中提取语音特征；

步骤五405 所述语音特征被存入Feature RAM；

步骤六406 DNN从Feature RAM中读取所述语音特征并进行计算得到计算结果；

步骤七407 所述计算结果通过DRAM控制器被存入DRAM；

步骤八408 CPU通过DRAM控制器从DRAM读取所述计算结果和预存的语言库或者命令词模型库进行识别解码。

CPU在开机时将预存在FLASH中的DNN参数和语言模型库导入DRAM中。

以上是本发明的四个实施方式，对于本领域内的一般技术人员，不花费创造性的劳动，在上述实施例的基础上可以做多种变化，同样能够实现本发明的目的，但是，这种变化显然应该在本发明的权利要求书的保护范围内。

Claims

1.一种智能语音识别***，其包括信号接收转换单元、存储管理单元、语音检测单元、语音特征提取单元、深度神经网络单元和识别解码单元，所述信号接收转换单元接收外部声音输入信号并将所述外部声音输入信号转换为统一格式的数字信号，所述数字信号被存入所述存储管理单元，所述语音检测单元从所述存储单元中读取所述数字信号进行检测获得检测结果并发送触发信号给所述语音特征提取单元、深度神经网络单元和识别解码单元，触发所述语音特征提取单元、深度神经网络单元和识别解码单元从非工作状态进入工作状态，所述语音特征提取单元根据所述语音检测单元的检测结果从所述存储管理单元读取所述数字信号并从中提取语音特征，所述语音特征提取单元将语音特征存入所述存储管理单元，所述深度神经网络单元根据所述语音检测单元的检测结果从所述存储管理单元读取所述语音特征进行计算，并将计算结果存入所述存储管理单元，所述识别解码单元根据所述语音检测单元的检测结果从所述存储管理单元读取所述计算结果进行解码完成语音识别；所述存储管理单元包含数字信号存储模块、语音特征存储模块和计算结果存储模块，所述数字信号存储模块存储所述数字信号供所述语音检测单元和所述语音特征提取单元读取，所述语音特征存储模块存储所述语音特征并供所述深度神经网络单元读取，所述计算结果存储模块存储所述计算结果并供所述识别解码单元读取进行解码,所述语音检测单元、语音特征提取单元、深度神经网络单元均采用固化的芯片逻辑电路，所述识别解码单元采用嵌入式软件或硬件。

2.根据权利要求1所述的智能语音识别***，其特征在于：所述深度神经网络单元由输入层、隐含层和输出层构成，所述输入层可配置特征矢量大小，所述隐含层可配置层数和神经元节点个数，所述输出层可配置输出大小。

3.一种包含如权利要求1所述的智能语音识别***的智能语音识别方法，其步骤如下：A所述信号接收转换单元接收所述外部声音输入信号并将所述外部声音输入信号转化为统一格式的数字信号；B 所述数字信号被存入所述存储管理单元；C 所述语音检测单元从所述存储管理单元读取所述数字信号并检测是否有语音信号，如果否则终止流程，如果是则进入下一个步骤；D 所述语音特征提取单元从所述存储管理单元读取所述数字信号并从中提取语音特征；E 所述语音特征被存入所述存储管理单元；F 所述深度神经网络单元从所述存储管理单元读取所述语音特征并进行计算得到计算结果；G 所述计算结果被存入所述存储管理单元；H 所述识别解码单元从所述存储管理单元读取所述计算结果进行识别解码。