CN109087630A - 语音识别的方法及相关装置 - Google Patents

语音识别的方法及相关装置 Download PDF

Info

Publication number
CN109087630A
CN109087630A CN201810999134.7A CN201810999134A CN109087630A CN 109087630 A CN109087630 A CN 109087630A CN 201810999134 A CN201810999134 A CN 201810999134A CN 109087630 A CN109087630 A CN 109087630A
Authority
CN
China
Prior art keywords
decoding
cost
tagged object
obtains
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810999134.7A
Other languages
English (en)
Other versions
CN109087630B (zh
Inventor
李熙印
刘峰
徐易楠
刘云峰
吴悦
陈正钦
杨振宇
胡晓
汶林丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Chase Technology Co Ltd
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Chase Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Chase Technology Co Ltd filed Critical Shenzhen Chase Technology Co Ltd
Priority to CN201810999134.7A priority Critical patent/CN109087630B/zh
Publication of CN109087630A publication Critical patent/CN109087630A/zh
Priority to SG11202101838VA priority patent/SG11202101838VA/en
Priority to PCT/CN2019/100297 priority patent/WO2020042902A1/zh
Priority to US17/270,769 priority patent/US20210249019A1/en
Application granted granted Critical
Publication of CN109087630B publication Critical patent/CN109087630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种语音识别的方法及相关装置,包括:接收CPU发送的特征向量和解码图;特征向量为CPU从语音信号中提取得到;解码图为预先训练得到;根据预先训练得到的声学模型识别特征向量,得到概率矩阵;根据概率矩阵和解码图采用并行机制进行解码,得到文本序列信息;将文本序列信息发送给CPU。基于此,整个解码的过程是由GPU采用并行机制完成的,相较于现有技术中的CPU采用单线程机制进行解码,本申请的技术方案的解码速度更快,提升了用户的使用体验。

Description

语音识别的方法及相关装置
技术领域
本发明涉及人机交互技术领域,具体涉及一种语音识别的方法及相关装置。
背景技术
作为人机交互中语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛,几乎深入到社会的每个行业、每个方面,其应用和经济社会效益前景非常广泛。因此语音识别技术既是国际竞争的一项重要技术,也是每一个国家经济发展不可缺少的重要技术支撑。研究语音识别,开发相应的产品有着广泛的社会意义和经济意义。
相关技术中,语音识别大致分为三个步骤:首先从输入的语音信号提取特征向量;然后通过声学模型对特征向量进行识别,被转化为音素的概率分布;最后音素的概率分布作为语音识别解码器的输入,联合预先使用文本生成的解码图,进行解码,以寻找到最有可能的相对应的文本序列。
其中,解码过程是一个在解码图中不断遍历搜索的过程,需要CPU遍历解码图中每一个活跃顶点的边,所以解码的计算量很大,而CPU的运算机制一般是单线程机制,在程序执行时,所执行的程序路径是按照连续顺序排下来的,前面的必须处理好,后面的才会执行,因此,在CPU中执行这种计算量很大的解码程序,就会使得解码的速度较为缓慢,给用户带来的使用体验不佳。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种语音识别的方法及相关装置。
为实现以上目的,本发明采用如下技术方案:
根据本申请的第一方面,提供一种语音识别的方法,包括:
接收CPU发送的特征向量和解码图;所述特征向量为CPU从语音信号中提取得到;所述解码图为预先训练得到;
根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
根据所述概率矩阵和所述解码图采用并行机制进行解码,得到文本序列信息;
将所述文本序列信息发送给CPU。
可选的,所述根据所述概率矩阵和解码图进行解码,得到文本序列信息,包括:
根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;
获取每一帧的遍历代价最低的所述活跃标记对象;
根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径;
根据所述解码路径得到所述文本序列信息。
可选的,所述根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象,包括:
对于当前帧,并行处理非发射状态,得到多个标记对象;所述非发射状态为解码图中发射出去的边的输入标签为空的状态;所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价;
若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价;
比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象;
若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。
根据本申请的第二方面,提供一种语音识别的方法,包括:
从语音信号中提取特征向量;
获取解码图;所述解码图是预先训练得到的;
将所述特征向量和所述解码图发送给GPU;以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵,并根据所述概率矩阵及所述解码图采用GPU的并行机制解码得到文本序列信息;
接收GPU发送的所述文本序列信息。
根据本申请的第三方面,提供一种语音识别的装置,包括:
第一接收模块,用于接收CPU发送的特征向量和解码图;所述特征向量为CPU从语音信号中提取而来;所述解码图是预先训练得到的;
识别模块,用于根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
解码模块,用于根据所述概率矩阵和所述解码图进行解码,得到文本序列信息;
第一发送模块,用于将所述文本序列信息发送给CPU。
可选的,所述解码模块包括:
第一获取单元,用于根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;
第二获取单元,用于获取每一帧的遍历代价最低的所述活跃标记对象;
第三获取单元,用于根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径;
第四获取单元,用于根据所述解码路径得到所述文本序列信息。
可选的,所述第一获取单元包括:
处理子单元,用于并行处理非发射状态,得到多个标记对象;所述非发射状态为解码图中发射出去的边的输入标签为空的状态;所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价;
第一计算子单元,用于若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价;
裁剪子单元,用于比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象;
第二计算子单元,用于若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。
根据本申请的第四方面,提供一种语音识别的装置,包括:
提取模块,用于从语音信号中提取特征向量;
获取模块,用于获取解码图;所述解码图是预先训练得到的;
第二发送模块,用于将所述特征向量和所述解码图发送给GPU;以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵,并根据所述概率矩阵及所述解码图解码得到文本序列信息;
第二接收模块,用于接收GPU发送的所述文本序列信息。
根据本申请的第五方面,提供一种语音识别的***,包括:
CPU及与之相连接的GPU;
所述CPU用于执行以下所述的语音识别的方法的各个步骤:
从语音信号中提取特征向量;
获取解码图;所述解码图是预先训练得到的;
将所述特征向量和所述解码图发送给GPU;以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵,并根据所述概率矩阵及所述解码图采用GPU的并行机制解码得到文本序列信息;
接收GPU发送的所述文本序列信息。
所述GPU用于执行以下所述的语音识别的方法的各个步骤:
接收CPU发送的特征向量和解码图;所述特征向量为CPU从语音信号中提取得到;所述解码图为预先训练得到;
根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
根据所述概率矩阵和所述解码图采用并行机制进行解码,得到文本序列信息;
将所述文本序列信息发送给CPU。
可选的,所述根据所述概率矩阵和解码图进行解码,得到文本序列信息,包括:
根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;
获取每一帧的遍历代价最低的所述活跃标记对象;
根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径;
根据所述解码路径得到所述文本序列信息。
可选的,所述根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象,包括:
对于当前帧,并行处理非发射状态,得到多个标记对象;所述非发射状态为解码图中发射出去的边的输入标签为空的状态;所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价;
若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价;
比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象;
若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。
根据本申请的第六方面,提供一种存储介质,所述存储介质存储有第一计算机程序和第二计算机程序;
所述第一计算机程序被GPU执行时,实现如下所述的语音识别的方法中各个步骤:
接收CPU发送的特征向量和解码图;所述特征向量为CPU从语音信号中提取得到;所述解码图为预先训练得到;
根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
根据所述概率矩阵和所述解码图采用并行机制进行解码,得到文本序列信息;
将所述文本序列信息发送给CPU。
可选的,所述根据所述概率矩阵和解码图进行解码,得到文本序列信息,包括:
根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;
获取每一帧的遍历代价最低的所述活跃标记对象;
根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径;
根据所述解码路径得到所述文本序列信息。
可选的,所述根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象,包括:
对于当前帧,并行处理非发射状态,得到多个标记对象;所述非发射状态为解码图中发射出去的边的输入标签为空的状态;所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价;
若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价;
比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象;
若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。
所述第二计算机程序被CPU执行时,实现如下所述的语音识别的方法中各个步骤:
从语音信号中提取特征向量;
获取解码图;所述解码图是预先训练得到的;
将所述特征向量和所述解码图发送给GPU;以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵,并根据所述概率矩阵及所述解码图采用GPU的并行机制解码得到文本序列信息;
接收GPU发送的所述文本序列信息。
本发明采用以上技术方案,GPU接收CPU发送的特征向量和解码图,然后根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵,根据概率矩阵和解码图采用并行机制进行解码,得到文本序列并发送给CPU,其中特征向量是CPU从语音信号中提取出来的,解码图是预先训练得到的。基于此,整个解码的过程是由GPU采用并行机制完成的,相较于现有技术中的CPU采用单线程机制进行解码,本申请的技术方案的解码速度更快,提升了用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种语音识别的方法的流程示意图。
图2是本发明实施例一提供的一种解码方法的流程示意图。
图3是本发明实施例一提供的一种获取活跃标记对象的方法的流程示意图。
图4是本发明实施例二提供的一种语音识别的方法的流程示意图。
图5是本发明实施例三提供的一种语音识别的装置的结构示意图。
图6是本发明实施例三提供的一种解码模块的结构示意图。
图7是本发明实施例三提供的一种第二获取单元的结构示意图。
图8是本发明实施例四提供的一种语音识别的装置的结构示意图。
图9是本发明实施例五提供的一种语音识别的***的结构示意图。
图10是本发明的实施例七提供的一种语音识别方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
图1是本发明实施例一提供的一种语音识别的方法的流程示意图。
本实施从GPU一侧进行说明,如图1所示,本实施例的方法包括:
步骤11、接收CPU发送的特征向量和解码图;所述特征向量为CPU从语音信号中提取得到;所述解码图为预先训练得到;
步骤12、根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
步骤13、根据所述概率矩阵和所述解码图采用并行机制进行解码,得到文本序列信息;
步骤14、将所述文本序列信息发送给CPU。
由于GPU接收CPU发送的特征向量和解码图,然后根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵,根据概率矩阵和解码图采用并行机制进行解码,得到文本序列并发送给CPU,其中特征向量是CPU从语音信号中提取出来的,解码图是预先训练得到的。基于此,整个解码的过程是由GPU采用并行机制完成的,相较于现有技术中的CPU采用单线程机制进行解码,本申请的技术方案的解码速度更快,提升了用户的使用体验。
其中,如图2所示,在步骤13中,具体的解码过程可以包括:
步骤21、根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;其中活跃标记对象为本领域中通常说的active token。
步骤22、获取每一帧的遍历代价最低的所述活跃标记对象;
步骤23、根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径;
步骤24、根据所述解码路径得到所述文本序列信息。
进一步地,如图3所示,在步骤22中,获取每一帧的遍历代价最低的所述活跃标记对象可以包括:
步骤31、对于当前帧,并行处理非发射状态,得到多个标记对象;所述非发射状态为解码图中发射出去的边的输入标签为空的状态;所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价。通常,边可以具有两个标记,即输入标记和输出标记。输入标记可以是音素,在中文中可以是声母或者韵母;输出标记可以是识别出的汉字。本申请中,将解码图中发射出去的边的输入标签为空的状态称为非发射状态,而发射出去的边的输入标签不为空的状态称为发射状态。其中,剪枝的含义可参照现有技术,本文中不再赘述。
步骤32、若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价。其中,约束参数就是本领域常用的Beam。
步骤33、比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象。其中,标记对象即token,遍历代价超过截断代价的标记对象可以视为代价过高,不是后期回溯的较优的路径,因此在本步骤中将其裁剪掉,剩下的标记对象记为活跃标记对象,即active token。
步骤34、若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。只有第一帧的截断代价是根据步骤32计算得到的,其他帧的截断代价均可以是由其上一帧的遍历代价最小的活跃标记对象和所述约束参数计算得到的。其中,计算截断代价的方法可以通过损失函数计算,具体的计算过程可以参考现有技术。
图4是本发明实施例二提供的一种语音识别的方法的流程示意图。
本实施例从CPU一侧进行说明,如图4所示,本实施例的方法包括:
步骤41、从语音信号中提取特征向量;
步骤42、获取解码图;所述解码图是预先训练得到的;
步骤43、将所述特征向量和所述解码图发送给GPU;以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵,并根据所述概率矩阵及所述解码图采用GPU的并行机制解码得到文本序列信息;
步骤44、接收GPU发送的所述文本序列信息。
图5是本发明实施例三提供的一种语音识别的装置的结构示意图。
如图5所示,本实施例的装置可以包括:
第一接收模块51,用于接收CPU发送的特征向量和解码图;所述特征向量为CPU从语音信号中提取而来;所述解码图是预先训练得到的;
识别模块52,用于根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
解码模块53,用于根据所述概率矩阵和所述解码图进行解码,得到文本序列信息;
第一发送模块54,用于将所述文本序列信息发送给CPU。
其中,如图6所示,解码模块可以包括:
第一获取单元61,用于根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;
第二获取单元62,用于获取每一帧的遍历代价最低的所述活跃标记对象;
第三获取单元63,用于根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径;
第四获取单元64,用于根据所述解码路径得到所述文本序列信息。
进一步地,如图7所示,第二获取单元可以包括:
处理子单元71,用于并行处理非发射状态,得到多个标记对象;所述非发射状态为解码图中发射出去的边的输入标签为空的状态;所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价;
第一计算子单元72,用于若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价;
裁剪子单元73,用于比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象;
第二计算子单元74,用于若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。
图8是本发明实施例四提供的一种语音识别的装置的结构示意图。
如图8所示,本实施例的装置可以包括:
提取模块81,用于从语音信号中提取特征向量;
获取模块82,用于获取解码图;所述解码图是预先训练得到的;
第二发送模块83,用于将所述特征向量和所述解码图发送给GPU;以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵,并根据所述概率矩阵及所述解码图解码得到文本序列信息;
第二接收模块84,用于接收GPU发送的所述文本序列信息。
图9是本发明实施例五提供的一种语音识别的***的结构示意图。
如图9所示,本实施例可以包括:
CPU 91及与之相连接的GPU 92;
所述CPU用于执行如下所述的语音识别的方法的各个步骤:
接收CPU发送的特征向量和解码图;所述特征向量为CPU从语音信号中提取得到;所述解码图为预先训练得到;
根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
根据所述概率矩阵和所述解码图采用并行机制进行解码,得到文本序列信息;
将所述文本序列信息发送给CPU。
可选的,所述根据所述概率矩阵和解码图进行解码,得到文本序列信息,包括:
根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;
获取每一帧的遍历代价最低的所述活跃标记对象;
根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径;
根据所述解码路径得到所述文本序列信息。
可选的,所述根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象,包括:
对于当前帧,并行处理非发射状态,得到多个标记对象;所述非发射状态为解码图中发射出去的边的输入标签为空的状态;所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价;
若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价;
比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象;
若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。
所述GPU用于执行如下所述的语音识别的方法的各个步骤:
从语音信号中提取特征向量;
获取解码图;所述解码图是预先训练得到的;
将所述特征向量和所述解码图发送给GPU;以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵,并根据所述概率矩阵及所述解码图采用GPU的并行机制解码得到文本序列信息;
接收GPU发送的所述文本序列信息。
其中,本实施例还可以包括存储器,CPU、GPU和存储器的连接关系可以采用以下两种方式。
CPU与GPU可以与同一个存储器相连接,所述存储器可以存储CPU与GPU需要执行的方法对应的程序。
另外,本实施例的存储器可以为两个,分别为第一存储器和第二存储器,CPU可以连接第一存储器,GPU可以连接第二存储器,第一存储器可以存储CPU需要执行的方法对应的程序,第二存储器可以存储GPU需要执行的方法对应的程序。
进一步地,本申请的实施例六可以提供一种存储介质,所述存储介质存储有第一计算机程序和第二计算机程序。
其中,所述第一计算机程序被GPU执行时,实现如下所述的语音识别的方法中各个步骤:
接收CPU发送的特征向量和解码图;所述特征向量为CPU从语音信号中提取得到;所述解码图为预先训练得到;
根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
根据所述概率矩阵和所述解码图采用并行机制进行解码,得到文本序列信息;
将所述文本序列信息发送给CPU。
可选的,所述根据所述概率矩阵和解码图进行解码,得到文本序列信息,包括:
根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;
获取每一帧的遍历代价最低的所述活跃标记对象;
根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径;
根据所述解码路径得到所述文本序列信息。
可选的,所述根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象,包括:
对于当前帧,并行处理非发射状态,得到多个标记对象;所述非发射状态为解码图中发射出去的边的输入标签为空的状态;所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价;
若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价;
比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象;
若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。
所述第二计算机程序被CPU执行时,实现如下所述的语音识别的方法中各个步骤:
从语音信号中提取特征向量;
获取解码图;所述解码图是预先训练得到的;
将所述特征向量和所述解码图发送给GPU;以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵,并根据所述概率矩阵及所述解码图采用GPU的并行机制解码得到文本序列信息;
接收GPU发送的所述文本序列信息。
另外,图10是本发明的实施例七提供的一种语音识别方法的流程示意图。
本实施例按照CPU与GPU之间的交互对语音识别的方法进行说明。如图10所示,本实施例包括:
步骤101、从语音信号中提取特征向量;
步骤102、获取解码图;
步骤103、将所属特征向量和所述解码图发送给GPU;
步骤104、接收CPU发送的特征向量和解码图;
步骤105、根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
步骤106、根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;
步骤107、对于当前帧,并行处理非发射状态,得到多个标记对象;
步骤108、若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价;
步骤109、比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象;
步骤1010、若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价;
步骤1011、根据梭胡遍历代价最低的所述活跃标记对象回溯得到解码路径;
步骤1012、根据所述解码路径得到所述文本序列信息;
步骤1013、将所述文本序列信息发送给CPU;
步骤1014、接收GPU发送的所述文本序列信息。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种语音识别的方法,其特征在于,包括:
接收CPU发送的特征向量和解码图;所述特征向量为CPU从语音信号中提取得到;所述解码图为预先训练得到;
根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
根据所述概率矩阵和所述解码图采用并行机制进行解码,得到文本序列信息;
将所述文本序列信息发送给CPU。
2.根据权利要求1所述的方法,其特征在于,所述根据所述概率矩阵和解码图进行解码,得到文本序列信息,包括:
根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;
获取每一帧的遍历代价最低的所述活跃标记对象;
根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径;
根据所述解码路径得到所述文本序列信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象,包括:
对于当前帧,并行处理非发射状态,得到多个标记对象;所述非发射状态为解码图中发射出去的边的输入标签为空的状态;每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价;
若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价;
比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象;
若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。
4.一种语音识别的方法,其特征在于,包括:
从语音信号中提取特征向量;
获取解码图;所述解码图是预先训练得到的;
将所述特征向量和所述解码图发送给GPU;以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵,并根据所述概率矩阵及所述解码图采用GPU的并行机制解码得到文本序列信息;
接收GPU发送的所述文本序列信息。
5.一种语音识别的装置,其特征在于,包括:
第一接收模块,用于接收CPU发送的特征向量和解码图;所述特征向量为CPU从语音信号中提取而来;所述解码图是预先训练得到的;
识别模块,用于根据预先训练得到的声学模型识别所述特征向量,得到概率矩阵;
解码模块,用于根据所述概率矩阵和所述解码图进行解码,得到文本序列信息;
第一发送模块,用于将所述文本序列信息发送给CPU。
6.根据权利要求5所述的装置,其特征在于,所述解码模块包括:
第一获取单元,用于根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象;
第二获取单元,用于获取每一帧的遍历代价最低的所述活跃标记对象;
第三获取单元,用于根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径;
第四获取单元,用于根据所述解码路径得到所述文本序列信息。
7.根据权利要求6所述的装置,其特征在于,所述第一获取单元包括:
处理子单元,用于并行处理非发射状态,得到多个标记对象;所述非发射状态为解码图中发射出去的边的输入标签为空的状态;所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价;
第一计算子单元,用于若当前帧为第一帧,通过预先定义的约束参数,计算当前帧的截断代价;
裁剪子单元,用于比较每个所述标记对象记录的遍历代价与所述截断代价,裁剪掉所述遍历代价超过所述截断代价的所述标记对象,得到当前帧的所述活跃标记对象;
第二计算子单元,用于若当前帧并非最后一帧,则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。
8.一种语音识别的装置,其特征在于,包括:
提取模块,用于从语音信号中提取特征向量;
获取模块,用于获取解码图;所述解码图是预先训练得到的;
第二发送模块,用于将所述特征向量和所述解码图发送给GPU;以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵,并根据所述概率矩阵及所述解码图解码得到文本序列信息;
第二接收模块,用于接收GPU发送的所述文本序列信息。
9.一种语音识别的***,其特征在于,包括CPU及与之相连接的GPU;
所述CPU用于执行如权利要求4所述的语音识别的方法的各个步骤;
所述GPU用于执行如权利要求1-3任一项所述的语音识别的方法的各个步骤。
10.一种存储介质,其特征在于,所述存储介质存储有第一计算机程序和第二计算机程序,所述第一计算机程序被GPU执行时,实现如权利要求1-3任一项所述的语音识别的方法中各个步骤,所述第二计算机程序被CPU执行时,实现如权利要求4所述的语音识别的方法中各个步骤。
CN201810999134.7A 2018-08-29 2018-08-29 语音识别的方法及相关装置 Active CN109087630B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810999134.7A CN109087630B (zh) 2018-08-29 2018-08-29 语音识别的方法及相关装置
SG11202101838VA SG11202101838VA (en) 2018-08-29 2019-08-13 Speech recognition method, system and storage medium
PCT/CN2019/100297 WO2020042902A1 (zh) 2018-08-29 2019-08-13 语音识别的方法、***和存储介质
US17/270,769 US20210249019A1 (en) 2018-08-29 2019-08-13 Speech recognition method, system and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810999134.7A CN109087630B (zh) 2018-08-29 2018-08-29 语音识别的方法及相关装置

Publications (2)

Publication Number Publication Date
CN109087630A true CN109087630A (zh) 2018-12-25
CN109087630B CN109087630B (zh) 2020-09-15

Family

ID=64795183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810999134.7A Active CN109087630B (zh) 2018-08-29 2018-08-29 语音识别的方法及相关装置

Country Status (4)

Country Link
US (1) US20210249019A1 (zh)
CN (1) CN109087630B (zh)
SG (1) SG11202101838VA (zh)
WO (1) WO2020042902A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689876A (zh) * 2019-10-14 2020-01-14 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及存储介质
WO2020042902A1 (zh) * 2018-08-29 2020-03-05 深圳追一科技有限公司 语音识别的方法、***和存储介质
CN112151020A (zh) * 2019-06-28 2020-12-29 北京声智科技有限公司 语音识别方法、装置、电子设备及存储介质
CN113205818A (zh) * 2021-05-24 2021-08-03 网易有道信息技术(北京)有限公司 用于优化语音识别过程的方法、设备和存储介质
CN113450770A (zh) * 2021-06-25 2021-09-28 平安科技(深圳)有限公司 基于显卡资源的语音特征提取方法、装置、设备及介质
WO2023273610A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 语音识别方法、装置、介质及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861650B (zh) * 2022-04-13 2024-04-26 大箴(杭州)科技有限公司 噪音数据的清洗方法及装置、存储介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548775A (zh) * 2017-01-10 2017-03-29 上海优同科技有限公司 一种语音识别方法和***
US9653093B1 (en) * 2014-08-19 2017-05-16 Amazon Technologies, Inc. Generative modeling of speech using neural networks
CN107403620A (zh) * 2017-08-16 2017-11-28 广东海翔教育科技有限公司 一种语音识别方法及装置
CN107633842A (zh) * 2017-06-12 2018-01-26 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
TW201828281A (zh) * 2017-01-24 2018-08-01 阿里巴巴集團服務有限公司 發音詞典的構建方法及裝置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US5946656A (en) * 1997-11-17 1999-08-31 At & T Corp. Speech and speaker recognition using factor analysis to model covariance structure of mixture components
GB2348035B (en) * 1999-03-19 2003-05-28 Ibm Speech recognition system
US6606725B1 (en) * 2000-04-25 2003-08-12 Mitsubishi Electric Research Laboratories, Inc. MAP decoding for turbo codes by parallel matrix processing
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
JP4854032B2 (ja) * 2007-09-28 2012-01-11 Kddi株式会社 音声認識における音響尤度並列計算装置及びそのプログラム
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
CN106297774B (zh) * 2015-05-29 2019-07-09 中国科学院声学研究所 一种神经网络声学模型的分布式并行训练方法及***
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
EP3293733A1 (en) * 2016-09-09 2018-03-14 Thomson Licensing Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
CN106710596B (zh) * 2016-12-15 2020-07-07 腾讯科技(上海)有限公司 回答语句确定方法及装置
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
KR20180087942A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 음성 인식 방법 및 장치
GB2562488A (en) * 2017-05-16 2018-11-21 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
CN107437414A (zh) * 2017-07-17 2017-12-05 镇江市高等专科学校 基于嵌入式gpu***的并行化游客识别方法
CN107978315B (zh) * 2017-11-20 2021-08-10 徐榭 基于语音识别的对话式放射治疗计划***及制定方法
CN110364171B (zh) * 2018-01-09 2023-01-06 深圳市腾讯计算机***有限公司 一种语音识别方法、语音识别***及存储介质
CN109087630B (zh) * 2018-08-29 2020-09-15 深圳追一科技有限公司 语音识别的方法及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9653093B1 (en) * 2014-08-19 2017-05-16 Amazon Technologies, Inc. Generative modeling of speech using neural networks
CN106548775A (zh) * 2017-01-10 2017-03-29 上海优同科技有限公司 一种语音识别方法和***
TW201828281A (zh) * 2017-01-24 2018-08-01 阿里巴巴集團服務有限公司 發音詞典的構建方法及裝置
CN107633842A (zh) * 2017-06-12 2018-01-26 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN107403620A (zh) * 2017-08-16 2017-11-28 广东海翔教育科技有限公司 一种语音识别方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020042902A1 (zh) * 2018-08-29 2020-03-05 深圳追一科技有限公司 语音识别的方法、***和存储介质
CN112151020A (zh) * 2019-06-28 2020-12-29 北京声智科技有限公司 语音识别方法、装置、电子设备及存储介质
CN110689876A (zh) * 2019-10-14 2020-01-14 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及存储介质
CN110689876B (zh) * 2019-10-14 2022-04-12 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及存储介质
CN113205818A (zh) * 2021-05-24 2021-08-03 网易有道信息技术(北京)有限公司 用于优化语音识别过程的方法、设备和存储介质
CN113450770A (zh) * 2021-06-25 2021-09-28 平安科技(深圳)有限公司 基于显卡资源的语音特征提取方法、装置、设备及介质
CN113450770B (zh) * 2021-06-25 2024-03-05 平安科技(深圳)有限公司 基于显卡资源的语音特征提取方法、装置、设备及介质
WO2023273610A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 语音识别方法、装置、介质及电子设备

Also Published As

Publication number Publication date
SG11202101838VA (en) 2021-03-30
CN109087630B (zh) 2020-09-15
WO2020042902A1 (zh) 2020-03-05
US20210249019A1 (en) 2021-08-12

Similar Documents

Publication Publication Date Title
CN109087630A (zh) 语音识别的方法及相关装置
CN107423274B (zh) 基于人工智能的比赛解说内容生成方法、装置及存储介质
CN108288468B (zh) 语音识别方法及装置
CN110110330B (zh) 基于文本的关键词提取方法和计算机设备
CN107423363B (zh) 基于人工智能的话术生成方法、装置、设备及存储介质
CN110309289B (zh) 一种句子生成方法、句子生成装置及智能设备
Choi et al. Getting the most out of transition-based dependency parsing
CN105138515B (zh) 命名实体识别方法和装置
CN108573693A (zh) 使用自动编码器的文本到语音合成
Wang et al. A tree-based decoder for neural machine translation
CN110364171A (zh) 一种语音识别方法、语音识别***及存储介质
CN108388561B (zh) 神经网络机器翻译方法和装置
CN110717331A (zh) 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质
CN112015949A (zh) 视频生成方法和装置、存储介质及电子设备
CN110309511B (zh) 基于共享表示的多任务语言分析***及方法
CN112542155B (zh) 歌曲合成方法及模型训练方法、装置、设备与存储介质
CN106294460B (zh) 一种基于字和词混合语言模型的汉语语音关键词检索方法
CN105869628A (zh) 语音端点检测方法及装置
CN105513115B (zh) 将SWF转化为Canvas动画的方法和装置
CN107506345A (zh) 语言模型的构建方法和装置
CN108491381A (zh) 一种汉语二分结构的句法分析方法
CN109684457A (zh) 一种个股公告数据提取的方法及***
CN116166827A (zh) 语义标签抽取模型的训练和语义标签的抽取方法及其装置
Gui et al. Transferring from formal newswire domain with hypernet for twitter pos tagging
CN111328416A (zh) 用于自然语言处理中的模糊匹配的语音模式

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant