CN111557029B - 用于训练多语言语音识别网络的方法和***以及用于执行多语言语音识别的语音识别*** - Google Patents

用于训练多语言语音识别网络的方法和***以及用于执行多语言语音识别的语音识别*** Download PDF

Info

Publication number
CN111557029B
CN111557029B CN201880077778.9A CN201880077778A CN111557029B CN 111557029 B CN111557029 B CN 111557029B CN 201880077778 A CN201880077778 A CN 201880077778A CN 111557029 B CN111557029 B CN 111557029B
Authority
CN
China
Prior art keywords
language
network
data set
utterance data
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880077778.9A
Other languages
English (en)
Other versions
CN111557029A (zh
Inventor
渡部晋司
堀贵明
关博史
J·勒鲁克斯
J·赫尔希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN111557029A publication Critical patent/CN111557029A/zh
Application granted granted Critical
Publication of CN111557029B publication Critical patent/CN111557029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

一种用于训练多语言语音识别网络的方法包括:提供与预定语言相对应的话语数据集;在话语数据集中***语言标识(ID)标签,其中,话语数据集中的每一个由语言ID标签中的每一个来加标签;将加标签的话语数据集级联;从话语数据集生成初始网络参数;根据预定序列选择初始网络参数;以及用一系列所选择的初始网络参数和级联的加标签的话语数据集迭代地训练端到端网络,直到训练结果达到阈值。

Description

用于训练多语言语音识别网络的方法和***以及用于执行多 语言语音识别的语音识别***
技术领域
本发明总体上涉及用于多语言端到端语音识别的设备及方法,更具体地,涉及用于训练用于联合进行语言识别和语音识别的神经网络的方法及***。
背景技术
端到端自动语音识别(ASR)最近通过达到传统混合ASR***获得的最先进性能,同时在易于开发性方面也超过了它们,从而证明了其有效性。传统ASR***需要诸如发音词典和单词分段之类的语言依存资源,这些资源被并入以音素作为中间表示的模型中。这些资源是手工开发的,因此存在两个缺点:首先,它们可能易于出错,或者在其它方面是次优的;其次,它们极大地增加了开发ASR***(特别是针对新语言)所需的工作量。因此,语言依存资源的使用使得多语言识别***的开发尤其复杂。相反,端到端ASR***在没有诸如音素或单词之类的表示语音/语言结构的任何明确中间表示的情况下,将输入语音特征序列直接转换为输出标签序列(在本发明的实施方式中,主要是由n-gram字符组成的字符或标识的序列)。它们的主要优点在于避免了对手工制作的语言依存资源的需求。
关于多语言/语言独立ASR已有一些在先研究。在基于深度神经网络(DNN)的多语言***的上下文中,使用DNN计算语言独立瓶颈特征。因此,有必要准备语言依存的后端***,例如发音词典和语言模型。另外,有必要预测说出的语言以将语言独立模块和语言依存模块级联。
发明内容
在本发明中,公开了一种具有语言独立神经网络架构的***和方法,该***和方法能够在多种不同语言中联合地识别语音并标识语言。例如,本发明使我们能够自动识别英语、日语、汉语普通话、德语、西班牙语、法语、意大利语、荷兰语、葡萄牙语和俄语的话语,并联合标识每句话语的语言。
根据本发明的实施方式,网络跨语言共享包括softmax层的所有参数。
例如,由于网络通过级联多种语言的字素集来共享包括softmax层的所有参数,因此本发明的语言独立神经网络架构能够在诸如英语、日语、汉语普通话、德语、西班牙语、法语、意大利语、荷兰语、葡萄牙语、俄语等的不同语言中联合地识别语音并且标识语言。
本发明的语言独立神经网络能够通过以下步骤进行多语言端到端语音识别:(1)制作作为来自多种语言的字素集和语言ID的并集的通用标签集,并基于此构建初始网络,(2)将语言ID标签***到多个不同语言语料库的每句话语的转录中,(3)通过从多个不同语言语料库中选择一句或多句话语并将它们以任意顺序级联来生成话语,其中,相应的转录也以相同的顺序级联,(4)用生成的话语和转录来训练初始网络,以及(5)用经训练的网络识别语音。
这种用于多语言语音识别的整体式端到端ASR***具有3个优点:首先,整体式架构去除了语言依存ASR模块和外部语言标识模块;其次,端到端架构使得无需准备手工制作的发音词典;以及第三,共享网络,使得即使对于资源匮乏的语言,也能够学习更好的特征表示。
因为训练数据被增广为包括语言切换,所以本发明还使得即使在语音信号中存在语言切换,端到端ASR***也可以正确地工作。
根据本发明的一些实施方式,一种用于训练多语言语音识别网络的方法包括:提供与预定语言相对应的话语数据集;在话语数据集中***语言标识(ID)标签,其中,话语数据集中的每一个由语言ID标签中的每一个来加标签;将加标签的话语数据集级联;从话语数据集生成初始网络参数;以及用一系列的初始网络参数和级联的加标签的话语数据集迭代地训练端到端网络,直到训练结果达到阈值。
此外,根据本发明的实施方式,一种用于执行多语言语音识别的语音识别***包括:接收讲话声音的接口;一个或更多个处理器;以及一个或更多个储存装置,该一个或更多个储存装置存储通过由用于训练多语言语音识别网络的方法所获得的经训练的网络参数已经训练的端到端语音识别网络模块,其中,端到端语音网络识别模块包括指令,当执行该指令时使一个或更多个处理器执行包括以下操作:使用声学特征提取模块,从由讲话声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列;通过将隐藏向量序列馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率;由联接主义时序分类(CTC)模块使用CTC网络参数和来自编码器网络的隐藏向量序列,预测第二输出标签序列概率;以及使用标签序列搜索模块,通过组合从解码器网络和CTC模块提供的第一输出标签序列概率和第二输出标签序列概率,搜索具有最高序列概率的输出标签序列。
更进一步地,根据本发明的实施方式,一种用于生成用于多语言语音识别的经训练的网络参数的多语言语音识别***包括:一个或更多个处理器;以及一个或更多个储存装置,该一个或更多个储存装置存储参数和包括一个或更多个处理器能执行的指令的程序模块,当执行指令时使得一个或更多个处理器执行包括以下操作:提供与预定语言相对应的话语数据集;在话语数据集中***语言标识(ID)标签,其中,话语数据集中的每一个由语言ID标签中的每一个来加标签;将加标签的话语数据集级联;从话语数据集生成初始网络参数;以及根据预定序列选择初始网络参数;以及用一系列所选择的初始网络参数和级联的加标签的话语数据集迭代地训练端到端网络,直到训练结果达到阈值。
将参照附图进一步解释当前公开的实施方式。所示出的附图不一定按比例绘制,而是通常将重点放在示例当前公开的实施方式的原理上。
附图说明
[图1]
图1是例示了根据本发明的实施方式的用于多语言语音识别的方法的框图。
[图2]
图2是例示了根据本发明的实施方式的使用多语言端到端网络的语音识别模块的框图。
[图3]
图3是例示了根据本发明的实施方式的多语言语音识别模块中的神经网络的示意图。
[图4]
图4是例示了根据本发明的实施方式的多语言语音识别***的框图。
[图5]
图5是例示了根据本发明的实施方式的多语言语音识别模块中的神经网络的示意图。
[图6]
图6是根据本发明的实施方式的训练多语言语音识别模块的数据准备过程。
[图7]
图7是根据本发明的实施方式的、根据多语言语音识别的指示作为话语中的语言数量的函数的字符错误率的评估结果。
[图8]
图8例示出了根据本发明的实施方式的多语言语音识别的示例输出。
具体实施方式
尽管上面标识的附图阐述了当前公开的实施方式,但是如讨论中所指出的,也可以考虑其它实施方式。本公开通过表示而非限制的方式呈现了示例性实施方式。本领域技术人员可以设计落入当前公开的实施方式的原理的范围和精神内的许多其它变型和实施方式。
在本发明的优选实施方式中,使用不同语言的多个语音语料库来构建语言独立神经网络。
神经网络可以用于识别讲出的话语,并联合识别话语的语言。例如,该神经网络可以用于自动转录英语、日语、汉语普通话、德语、西班牙语、法语、意大利语、荷兰语、葡萄牙语和俄语的话语,并联合标识每种话语的语言。如果有人用英语向根据本发明的实施方式构建的***说“How are you?”时,***可以以文本格式输出“[EN]how are you?”。如果另一人用法语向该***说“comment allez-vous?”,则它可以以文本格式输出“[FR]commentallez-vous?”。[EN]和[FR]分别代表与英语和法语相对应的语言ID标签。如果有人用英语和法语向***说“How are you?comment allez-vous?”,则***可以以文本格式输出“[EN]How are you?[FR]comment allez-vous?”。
以下描述仅提供了示例性实施方式,并非旨在限制本公开的范围、适用性或配置。相反,示例性实施方式的以下描述将为本领域技术人员提供能够用于实现一个或更多个示例性实施方式的描述。在不脱离如所附权利要求书中提出的那样公开的主题的精神和范围的情况下,可以想到在元件的功能和布置上可进行各种变型。
在以下描述中给出了具体细节以提供对实施方式的透彻理解。然而,本领域普通技术人员可以理解,实施方式可以在没有这些具体细节的情况下来实践。例如,所公开的主题中的***、过程和其它元件可以以框图形式示出为组件,以免在不必要的细节上模糊实施方式。在其它情况下,可以示出公知的过程、结构和技术,而没有不必要的细节,以避免使实施方式模糊。此外,各个附图中相似的附图标记和指定指示了相似的元件。
另外,各个实施方式可以被描述为这样的过程,该过程被描述为流程图、流图、数据流图、结构图或框图。尽管流程图可以将操作描述为顺序过程,但是许多操作可以并行或并发地执行。另外,操作的次序可以重新排列。当过程的操作完成时,过程可以终止,但是可以具有未讨论或未包含在附图中的其它步骤。此外,在具体描述的任何过程中的所有操作并非可以在所有实施方式中发生。过程可以对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时,函数的终止可以对应于函数返回到调用函数或主函数。
此外,所公开主题的实施方式可以至少部分或者手动地或自动地实现。手动或自动实现可以通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来实施或至少得到辅助。当以软件、固件、中间件或微代码实现时,执行必要任务的程序代码或代码段可以存储在机器可读介质中。处理器可以执行必要任务。
本公开中示例的模块和网络可以是可以使用一个或更多个处理器来执行的计算机程序、软件或指令代码。模块和网络可以存储在一个或更多个储存装置中,或者以其它方式存储在诸如储存介质、计算机储存介质或数据储存设备(可移动和/或不可移动)之类的计算机可读介质中(例如,磁盘、光盘或磁带),其中,从一个或更多个处理器可访问计算机可读介质以执行指令。
计算机储存介质可以包括以任何方法或技术实现的用于储存诸如计算机可读指令、数据结构、程序模块或其它数据之类的信息的易失性和非易失性、可移动和不可移动介质。计算机储存介质可以是RAM、ROM、EEPROM或闪存、CD-ROM、数字多功能磁盘(DVD)或其它光储存器、盒式磁带、磁带、磁盘储存器或其它磁储存装置,或能够用于存储所需信息并且能够通过使用一个或更多个处理器的应用、模块或应用和模块二者访问的任何其它介质。任何这样的计算机储存介质可以是装置的一部分,或者可以是装置可访问的介质或者可连接至装置。可以使用可由这种计算机可读介质存储或以其它方式保存的计算机可读/可执行指令来实现本文描述的任何应用或模块。
图1示出了图4中的储存器430中存储的多语言语音识别模块100。多语言语音识别模块100是处理器(硬件处理器)可执行程序,其包括诸如语言ID***模块112、话语级联模块113、初始网络构建模块115、端到端网络训练模块117和端到端语音识别模块200之类的程序模块(计算机可执行指令模块)。多语言语音识别模块100中包括的程序模块112、113、115、117和200也在图4中绘出。另外,储存器430包括将在后面讨论的编码器网络模块202、注意力解码器网络模块204、CTC模块208和端到端语音识别模块200。
多语言语音识别模块100根据以下步骤构建语言独立网络:
(1)初始网络构建模块115使用利用不同语言的语音语料库110的字素集和语言ID的并集而获得的通用标签集来制作(生成)初始网络参数116。
(2)语言ID***模块112将语言ID标签***到不同语言的语音语料库110中的每句话语的转录中。
(3)话语级联模块113通过从不同语言的语音语料库110中选择一句或更多句话语并以随机次序将它们级联来生成话语,其中,相应的转录也以与级联话语相同的次序来级联。
(4)端到端网络训练模块117使用生成的话语和转录来优化初始网络参数116,并输出经训练的网络参数118。
在一些情况下,不同语言的语音语料库110可以称为声学数据集110。此外,根据***设计,本公开中指示的模块和网络参数可以存储在一个储存器或多个储存器中,并且模块是通过图4中所示的处理器420的计算机(硬件处理器)可执行程序。处理器420可以是一个或更多个(硬件)处理器(计算机)。每个模块通过被一个处理器或多个处理器执行,来执行一个预定处理或多个预定处理。
使用经训练的网络参数118中存储的语言独立网络,端到端语音识别模块200能够联合识别语音和用于语音输入的语言ID,并输出识别结果。
图2是例示了根据本发明的实施方式的端到端语音识别模块200的框图。
端到端语音识别模块200包括编码器网络模块202、编码器网络参数203、注意力解码器模块204、解码器网络参数205、标签序列搜索模块206、CTC模块208、CTC网络参数209。编码器网络参数203、解码器网络参数205和CTC网络参数209分别存储在储存装置中以向相应模块202、204和208提供参数。使用图4中的声学特征提取模块434从音频波形数据或频谱数据中提取声学特征序列201。音频波形数据或频谱数据可以存储在储存装置中并提供给编码器网络模块202。音频波形数据或频谱数据可以使用接收话语声音并将话语声音转换为音频波形或频谱数据的数字信号处理模块(未示出)经由图4中的输入装置475获得。此外,存储在储存装置430或存储器440中的音频波形或频谱数据可以被提供给编码器网络模块202。可以经由图4中的网络490提供话语声音的信号,并且输入装置475可以是麦克风装置。
编码器网络模块202包括编码器网络,使用从编码器网络参数203读取参数的编码器网络将声学特征序列201转换为隐藏向量序列。
使用注意力解码器网络204的注意力机制描述如下。注意力解码器网络模块204包括解码器网络。注意力解码器网络模块204接收来自编码器网络模块202的隐藏向量序列以及来自标签序列搜索模块206的先前标签,然后使用从解码器网络参数205中读取参数的解码器网络针对先前标签计算下一标签的第一后验概率分布。注意力解码器网络模块204将第一后验概率分布提供给标签序列搜索模块206。CTC模块208接收来自编码器网络模块202的隐藏向量序列以及来自标签序列搜索模块206的先前标签,并使用CTC网络参数209和动态编程技术计算下一标签序列的第二后验概率分布。在计算之后,CTC模块208将第二后验概率分布提供给标签序列搜索模块206。
标签序列搜索模块206使用从注意力解码器网络模块204和CTC模块208提供的第一后验概率分布和第二后验概率分布来找到具有最高序列概率的标签序列。由注意力解码器网络模块204和CTC模块208计算出的标签序列的第一后验概率和第二后验概率被组合为一个概率。在这种情况下,可以基于线性组合来执行计算出的后验概率的组合。利用端到端语音识别模块200,能够考虑CTC概率来找到针对输入声学特征序列的更好的对齐假设。
用于语言独立的端到端语音识别的神经网络架构
端到端语音识别通常被定义为在给定输入声学特征序列X的情况下找到最可能的标签序列
Figure GDA0002518302230000071
的问题,即,
Figure GDA0002518302230000081
其中,
Figure GDA0002518302230000082
表示在给定预定义标签的集合
Figure GDA0002518302230000083
的情况下的可能标签序列的集合,标签可以是字符或单词。可以使用预训练的神经网络来计算标签序列概率p(Y|X)。
在本发明的实施方式中,语言独立的神经网络可以是诸如前馈神经网络(FFNN)、卷积神经网络(CNN)和递归神经网络(RNN)之类的不同网络的组合。
例如,混合注意力/CTC架构可以用于语言独立的神经网络。图2是例示了使用具有混合注意力/CTC架构的多语言端到端网络的语音识别模块200的框图,其中,标签序列概率按如下计算。
编码器模块202包括用于将声学特征序列X=x1,...,xT转换为隐藏向量序列H=h1,...,hT的编码器网络,如
H=Encoder(X), (2)
其中,函数Encoder(X)可以由层叠的一个或更多个递归神经网络(RNN)组成。RNN可以实现为长短期记忆(LSTM),LSTM在每个隐藏单元中具有输入门、忘记门、输出门和存储单元。另一RNN可以是双向RNN(BRNN)或双向LSTM(BLSTM)。BLSTM是一对LSTM RNN,其中一个是前向LSTM并且另一个是后向LSTM。BLSTM的隐藏向量作为前向LSTM和后向LSTM的隐藏向量的级联而被获得。
使用前向LSTM,将前向第t隐藏向量
Figure GDA0002518302230000084
计算为
Figure GDA0002518302230000085
Figure GDA0002518302230000086
其中,σ(·)是逐元素的S型函数,tanh(·)是逐元素的双曲正切函数,并且
Figure GDA0002518302230000087
Figure GDA0002518302230000088
分别是xt的输入门、忘记门、输出门和单元激活向量。⊙表示向量之间的逐元素乘法。权重矩阵
Figure GDA0002518302230000089
和偏差向量
Figure GDA00025183022300000810
是LSTM的由下标z∈{x,h,i,f,o,c}标识的参数。例如,
Figure GDA00025183022300000811
是隐藏到输入门的矩阵,并且
Figure GDA00025183022300000812
是输入到输出门的矩阵。隐藏向量
Figure GDA00025183022300000813
是从输入向量xt和先前的隐藏向量
Figure GDA00025183022300000814
递归获得的,其中,假设
Figure GDA00025183022300000815
为零向量。
使用后向LSTM,将后向第t隐藏向量
Figure GDA00025183022300000816
计算为
Figure GDA0002518302230000091
Figure GDA0002518302230000092
其中,
Figure GDA0002518302230000093
Figure GDA0002518302230000094
分别是xt的输入门、忘记门、输出门和单元激活向量。权重矩阵
Figure GDA0002518302230000095
和偏差向量
Figure GDA0002518302230000096
是LSTM的以与前向LSTM相同方式由下标标识的参数。隐藏向量
Figure GDA0002518302230000097
是从输入向量xt和后续的隐藏向量
Figure GDA0002518302230000098
递归获得的,其中,假设
Figure GDA0002518302230000099
为零向量。
通过按下式将前向隐藏向量和后向隐藏向量级联来获得BLSTM的隐藏向量:
Figure GDA00025183022300000910
其中,T表示假设全部向量为列向量而对向量的转置操作。
Figure GDA00025183022300000911
Figure GDA00025183022300000912
被视为BLSTM的参数。
为了获得更好的隐藏向量,我们可以通过将第一BLSTM的隐藏向量馈送至第二BLSTM,然后将第二BLSTM的隐藏向量馈送至第三BLSTM等,来层叠多个BLSTM。如果ht′是由一个BLSTM获得的隐藏向量,则当将其馈送至另一BLSTM时,我们假设xt=ht′。为了减少计算量,可以仅将一个BLSTM的每隔一个隐藏向量馈送至另一BLSTM。在这种情况下,输出隐藏向量序列的长度变为输入声学特征序列长度的一半。
多个BLSTM的由下标z∈{x,h,i,f,o,c}标识的参数
Figure GDA00025183022300000913
Figure GDA00025183022300000914
全部被存储在编码器网络参数203中,并用于计算隐藏向量序列H。
注意力解码器模块204包括解码器网络,该解码器网络用于使用隐藏向量序列H来计算标签序列概率patt(Y|X)。假设Y是L长度的标签序列y1,y2,...,yL。为了有效地计算patt(Y|X),可以通过概率链规则将概率分解为
Figure GDA00025183022300000915
并且每个标签概率patt(yl|y1,…,yl-1,X)是从关于标签的概率分布中获得的,该概率分布使用解码器网络估算为:
patt(y|y1,…,yl-1,X)=Decoder(rl,ql-1), (15)
其中,y是表示标签的随机变量,rl称为内容向量,其具有H的内容信息。ql-1是解码器状态向量,其包含先前标签y1,...,yl-1和先前内容向量r0,...,rl-1.的上下文信息。因此,在给定上下文的情况下,标签概率作为y=yl的概率而被获得,即,
patt(yl|y1,…,yl-1,X)=patt(y=yl|y1,…,yl-1,X) (16)
内容向量rl通常作为编码器网络的隐藏向量的加权和给出,即,
Figure GDA0002518302230000101
其中,alt称为注意力权重,其满足∑talt=1。可以使用ql-1和H如下计算注意力权重:
elt=wTtanh(Wql-1+Vht+Uflt+b) (18)
fl=F*al-1 (19)
Figure GDA0002518302230000102
其中,W、V、F和U是矩阵,w和b是作为解码器网络的可训练参数的向量。elt是第(l-1)状态向量ql-1与第l隐藏向量ht之间的匹配评分,以形成时间对齐分布al={alt|t=1,...,T}。al-1代表用于预测先前标签yl-1的先前对齐分布{a(l-1)t|t=1,...,T}。fl={flt|t=1,...,T}是对于al-1的与F的卷积结果,其用于将先前对齐反映到当前对齐中。“*”表示卷积运算。
用状态向量ql-1和内容向量rl按下式来获得标签概率分布:
Decoder(rl,ql-1)=softmax(Wqyql-1+Wryrl+by), (21)
其中,Wqy和Wry是矩阵,并且by是向量,这些是解码器网络的可训练参数。对于K维向量v,softmax()函数如下地计算:
Figure GDA0002518302230000103
其中,v[i]表示v的第i元素。
之后,使用LSTM按下式将解码器状态向量ql-1更新为ql
Figure GDA0002518302230000104
Figure GDA0002518302230000105
其中,
Figure GDA0002518302230000106
Figure GDA0002518302230000107
分别是输入向量xl的输入门、忘记门、输出门和单元激活向量。权重矩阵
Figure GDA0002518302230000108
和偏差向量
Figure GDA0002518302230000109
是LSTM的以与前向LSTM相同的方式由下标标识的参数。状态向量ql是从输入向量
Figure GDA00025183022300001010
和先前状态向量ql-1递归获得的,其中假设q-1=0、y0=<sos>、a0=1/T来计算q0。对于解码器网络,将输入向量
Figure GDA0002518302230000111
作为标签yl和内容向量rl的级联向量给出,这可以按照
Figure GDA0002518302230000112
来获得,其中Embed(·)表示标签嵌入,将标签转换为固定维的向量。例如,可以通过下式来计算
Figure GDA0002518302230000113
其中,OneHot(y)表示标签y的N分之1编码,它将标签索引转换为一个热向量表示。
Figure GDA0002518302230000114
是作为可训练参数的矩阵。
由下标z∈{x,h,i,f,o,c}标识的参数
Figure GDA0002518302230000115
Figure GDA0002518302230000116
以及
Figure GDA0002518302230000117
全部存储在解码器网络参数205中,并用于计算标签概率分布patt(y=yl|y1,…,yl-1,X)。
CTC模块208计算给定隐藏向量序列H的标签序列Y的CTC前向概率。请注意,CTC公式使用具有不同标签的集合
Figure GDA0002518302230000118
的长度L的标签序列
Figure GDA0002518302230000119
通过引入带有附加“空白”标签的逐帧标签序列,
Figure GDA00025183022300001110
其中b代表空白标签。通过使用概率链规则和条件独立假设,后验分布p(Y|X)被如下分解:
Figure GDA00025183022300001111
其中,认为p(zt|zt-1|Y)是包含空白标签的标签转移概率。p(zt|X)是以输入序列X为条件的逐帧后验分布,并使用双向长短期记忆(BLSTM)进行建模:
Figure GDA00025183022300001112
其中,用编码器网络获得ht
Figure GDA00025183022300001113
是矩阵并且
Figure GDA00025183022300001114
是向量,它们是CTC的可训练参数并存储在CTC网络参数209中。虽然式(29)必须处理所有可能Z的求和,但是通过使用前向算法可以有效地进行计算。
CTC的前向算法如下执行。我们使用长度为2L+1的扩展标签序列Y′=y′1,y′2,...,y′2L+1=b,y1,b,y2,...,b,yL,b,其中,在每对相邻标签之间***空白标签“b”。设αt(s)为前向概率,它表示时间帧1,...,t内标签序列y1,...,yl的后验概率,其中s指示在扩展标签序列Y′中的位置。
对于初始化,我们设置:
α1(1)=p(z1=b|X) (31)
α1(2)=p(z1=y1|X) (32)
Figure GDA0002518302230000121
对于t=2至T,按如下以递归方式计算αt(s)
Figure GDA0002518302230000122
其中,
Figure GDA0002518302230000123
最后,按下式获得基于CTC的标签序列概率
pctc(Y|X)=αT(2L+1)+αT(2L). (36)
逐帧标签序列Z表示输入声学特征序列X与输出标签序列Y之间的对齐。当计算前向概率时,式(34)的递归强制Z为单调的,并且在对齐Z中不允许循环或s的大跳转,因为获得αt(s)的递归最多只考虑了αt-1(s)、αt-1(s-1)、αt-1(s-2)。这意味着,当时间帧前进一帧时,标签将从先前标签或空白改变,或保持相同的标签。此约束起转移概率p(zt|zt-1,Y)的作用,该转移概率p(zt|zt-1,Y)将对齐强制为单调。因此,当pctc(Y|X)基于不规则(非单调)对齐来计算时,其可以为0或非常小的值。
最后,我们通过按下式将式(36)中的基于CTC的概率和式(14)中的基于注意力的概率在对数域中组合来获得标签序列概率:
log p(Y|X)=λlog pctc(Y|X)+(1-λ)log patt(Y|X), (37)
其中,λ是缩放权重,使得0≤λ≤1,并且可以手动确定。
图3是例示了根据本发明的实施方式的组合神经网络模块300的示意图。组合神经网络300包括编码器网络模块202、注意力解码器网络模块204和CTC模块208。每个箭头表示进行变换或不进行转换的数据传输,每个方形节点或圆形节点表示向量或预测标签。声学特征序列X=x1,...,xT被馈送到编码器网络模块202,在该编码器网络模块202中层叠有两个BLSTM,并且第一BLSTM的每隔一个隐藏向量被馈送到第二BLSTM。编码器模块202的输出得到隐藏向量序列H=h′1,h′2,...,h′T′,其中T′=T/2。然后,将H馈送到CTC模块208和解码器网络模块204。基于CTC的序列概率和基于注意力的序列概率分别用CTC模块208、注意力解码器网络模块204来计算,并且被组合以获得标签序列概率。
联合语言标识和语音识别
语言独立的端到端***的关键思想是,将包括所有目标语言中出现的字符集的并集在内的增广字符集视为输出标签的集合,即,
Figure GDA0002518302230000131
其中
Figure GDA0002518302230000132
是特定语言的字符集。通过使用这种增广字符集,可以在无需单独的语言标识模块的情况下针对任何语言计算字符序列的可能性。训练网络以自动预测每句话语的目标语言的正确字符序列。与使用每种语言的唯一字符集相反,并集的使用消除了多种语言中出现的输出符号的重复,并产生了更紧凑的模型表示,同时降低了计算成本。语言独立***在给定连续多语言语音的情况下重复对语言ID和语音识别的预测。
此外,通过进一步增广输出标签的集合以包括语言ID,语言ID的预测成为***的明确部分,即,将
Figure GDA0002518302230000133
用作端到端语音识别的标签的集合
Figure GDA0002518302230000134
根据本发明的实施方式,网络首先预测语言ID,k∈{[EN],[JP],…}。代替后验分布p(Y|X),其中Y=y1,...,yL
Figure GDA0002518302230000135
中的字符序列并且X是声学特征向量的序列,***将语言ID和字符序列的联合分布p(k,Y|X)建模为增广序列Y′=(k,Y)的联合分布,其中,y′1=k并且
Figure GDA0002518302230000136
通过使用概率链规则用公式表示为:
Figure GDA0002518302230000137
此外,对于在话语中包括多种语言的情况,允许网络始终输出多种语言ID。对于
Figure GDA0002518302230000138
中的字符序列Y′=y′1,…,y′L,我们用l1,...,lN表示作为语言ID的、Y′中的字符
Figure GDA0002518302230000139
的索引(即,kn∈{[EN],[JP],…})。***现在将语言ID和字符的联合分布建模为:
Figure GDA00025183022300001310
这与诸如“[EN]how<space>are<space>you?[FR]comment<space>allez-vous?”,其中,<space>正式表示空格字符的、包括语言ID的语言混合字符序列的分布的建模相同。
混合注意力/CTC架构可以用于对这种语言混合字符序列进行建模。当识别出语言混合话语时,网络能够切换输出序列的语言。图5示出了使用混合注意力/CTC网络的字符序列预测的示例。编码器网络通过采用由日语和英语语音组成的声学特征作为输入来计算隐藏向量序列。尽管在示例中我们假设x1,…,x5对应于日语并且x6,…,xT对应于英语,但是在实际的声学特征序列中没有区分语言的指示符。根据本发明的实施方式,注意力解码器网络能够预测后跟日语字符序列的语言ID“[JP]”,并且在对第一个日语字符序列进行解码之后,网络可以进一步预测与跟随的字符序列匹配的语言ID,这里是“[EN]”。
用于多语言语音识别的数据生成
为了预测语言混合话语,需要使用这样的语言混合语料库的集合来训练混合注意力/CTC网络。但是,很难收集足够多的在同一话语中出现多种语言的语音语料库。实际上,收集和转录这种话语是非常昂贵和费时的。在本发明的实施方式中,这种语料库是从已经存在的语言依存语料库的集合中人工生成的。
假设多个语料库中的每句话语具有其作为字符序列的相应转录。在下文中,根据图1中本发明的实施方式来说明生成这种语言混合语料库的方法。首先,语言ID***模块112将语言ID***到语言依存语料库中的每句话语的转录中。语言ID可以位于每个字符序列的开头。接下来,话语级联模块113从语言依存语料库中选择话语,同时注意所选择话语的覆盖范围和语言转换的变化(如下文进一步描述的)。然后将所选择的话语(及其转录)级联,并在所生成的语料库中视为单句话语。重复此过程,直至所生成的语料库的持续时间达到原始语料库的并集的持续时间。
图6示出了生成过程的细节。我们首先定义采样语言和话语的概率。采样语言的概率与其原始语料库的持续时间成正比,并添加了常数项1/N,以减轻由数据尺寸引起的选择偏差。在我们的实验中,我们将要级联的话语的最大数量Nconcat设置为3。对于在1和Nconcat之间的每个数字nconcat,我们通过基于它们的采样概率来采样nconcat种语言和话语,创建由来自原始语料库的nconcat句话语组成的级联话语。为了使原始语料库的覆盖范围最大化,我们通过引入最大使用计数nreuse(对于训练集设置为5,对于开发和评估集设置为2)来防止话语被过多地重复使用。我们使用此过程来生成训练集、开发集和评估集。
训练过程
在端到端网络训练模块117中,联合优化编码器网络参数203、解码器网络参数205和CTC网络参数209,从而减小损失函数
Figure GDA0002518302230000141
其中,X和Y是包括声学特征序列和标签序列的训练数据。根据本发明的实施方式,使用图1中的语言ID***模块112和话语级联模块113从现有语言依存语料库生成训练数据(X,Y)。
Θ表示包括编码器网络参数203、解码器网络参数205和CTC网络参数209的网络参数的集合。
Figure GDA0002518302230000151
是训练样本的数量,Xn是X中的第n声学特征序列,Yn是Y中的第n标签序列。pctc(Yn|Xn,Θ)是用参数集Θ计算出的式(53)中的基于CTC的序列概率,并且patt(Yn|Xn,Θ)是用参数集O计算出的式(14)中的基于注意力的序列概率。
可以通过随机梯度下降方法来优化网络参数的集合Θ。首先,初始网络构建模块115获得初始网络参数116,其中,确定矩阵和向量的尺寸以及矩阵和向量中每个元素的初始值。矩阵和向量的尺寸可以手动确定或自动确定。例如,对于取决于标签集
Figure GDA0002518302230000152
的尺寸的矩阵和向量,根据标签集尺寸
Figure GDA0002518302230000153
确定尺寸。例如,矩阵Wqy和Wry的行数应等于
Figure GDA0002518302230000154
在式(21)中向量by的维数也应等于
Figure GDA0002518302230000155
这是因为数量应等于标签概率分布patt(y|y1,…,yl-1,X)的维数。矩阵和向量的每个元素可以设置为随机实数。通过获得不同语言的原始语音语料库110中的唯一字符和语言ID来确定
Figure GDA0002518302230000156
接下来,端到端网络训练模块117联合优化参数集Θ中的编码器参数、解码器参数和CTC网络参数。基于梯度下降法,参数集Θ的每个元素按下式重复更新:
Figure GDA0002518302230000157
直到
Figure GDA0002518302230000158
收敛,其中η是学习率。
也可以将X和Y分割成M个小子集
Figure GDA0002518302230000159
使得
Figure GDA00025183022300001510
以及
Figure GDA00025183022300001511
并且对于m=1,…,M,通过重复下式来更新参数:
Figure GDA00025183022300001512
通过用小的子集来更新参数,可以更频繁地更新参数并且损失函数可以更快地收敛。
在我们的实验中,我们考虑两种训练过程。在平启动(flat start)过程中,从零开始仅使用所生成的语料库来训练模型。在再训练过程中,使用原始语料库和所生成的语料库如下地以两个步骤训练模型。我们首先使用没有语言切换的训练数据(即,原始语料库)对模型进行训练,然后使用具有语言切换的数据(所生成的语料库)继续训练。我们考虑这两个步骤是出于以下原因的。首先,通过没有语言切换的数据所训练的模型是用于训练具有语言切换的、更具挑战性的数据的良好起点。其次,我们允许数据生成算法选择重复的话语,以提高资源贫乏语言的比例。但是,此属性会导致覆盖率降低。两步训练缓解了此问题。
标签序列搜索
标签序列搜索模块206根据组合的标签序列概率按下式来找到最可能的标签序列
Figure GDA0002518302230000161
Figure GDA0002518302230000162
其中,pctc(Y|X)是式(36)中的基于CTC的标签序列概率,patt(Y|X)是式(14)中的基于注意力的标签序列概率,并且根据本发明的实施方式,
Figure GDA0002518302230000163
然而,由于可能的标签序列的数量随着序列的长度成指数增加,因此枚举Y的所有可能的标签序列并且计算λlog pctc(Y|X)+(1-λ)log patt(Y|X)是很困难的。因此,通常使用波束搜索技术来找到
Figure GDA0002518302230000164
其中首先生成较短的标记序列假设,然后仅扩展比其它假设具有更高评分的有限数量的假设,以获得更长的假设。最后,在到达序列结尾的完整假设中选择最佳标记序列假设。
设Ωl是长度为l的部分假设的集合。在波束搜索的开始,Ω0仅包含起始符号为<sos>的一个假设。对于l=1至Lmax,通过附加可能的单个标签来扩展Ωl-1中的每个部分假设,并将新的假设存储在Ωl中,其中Lmax是要搜索的假设的最大长度。
每个部分假设h的评分按下式计算:
ψjoint(h)=λψctc(h,X)+(1-λ)ψatt(h), (44)
其中,ψatt(h)按下式计算:
ψatt(h)=ψatt(g)+log patt(y|g). (45)
为了计算ψctc(h,X),我们利用CTC前缀概率,该CTC前缀概率被定义为前缀为h的所有标签序列的累积概率:
Figure GDA0002518302230000165
并且,我们将CTC评分定义为
Figure GDA0002518302230000166
其中,v代表除空字符串以外的所有可能的标签序列。CTC评分无法如式(45)中的ψatt(h)那样递归地获得,但可以通过针对每个部分假设在输入时间帧上保持前向概率来有效地计算CTC评分。
根据本发明的实施方式,标签序列搜索模块206根据以下过程找到
Figure GDA0002518302230000167
Input:X,Lmax
Output:
Figure GDA0002518302230000171
Figure GDA0002518302230000172
在此过程中,Ωl
Figure GDA0002518302230000173
分别被实现为接受长度为l的部分假设和完整假设的队列。在第1-2行,Ω0
Figure GDA0002518302230000174
被初始化为空队列。在第3行中,初始假设<sos>的评分被设置为0。在第4-24行中,通过标签集
Figure GDA0002518302230000175
中的每个标签y扩展Ωl-1中的每个部分假设g,其中,运算Head(Ω)返回队列Ω中的第一假设,并且Dequeue(Ω)从队列去除第一假设。
在第11行中,使用注意力解码器网络对每个扩展的假设h进行评分并且在第12行中与CTC评分组合。之后,如果y=<eos>,则在第14行中假定假设h是完整的并存储在
Figure GDA0002518302230000176
中,其中
Figure GDA0002518302230000177
是向
Figure GDA0002518302230000178
中添加h的运算。如果y≠<eos>,则在第16行中,将h存储在Ωl中,其中在第17行中将Ωl中的假设数量(即,|Ωl|)与预定数量beamWidth进行比较。如果|Ωl|超过beamWidth,则在第18-19行中,从Ωl中去除Ωl中的具有最小评分hmin的假设,其中,Remove(Ωl,hmin)是从Ωl中去除hmin的运算。最后,在第25行中选择
Figure GDA0002518302230000181
作为最佳假设。
可以使用修正的前向算法来计算CTC评分ψctc(h,X)。设
Figure GDA0002518302230000182
Figure GDA0002518302230000183
为假设h在时间帧1...t上的前向概率,其中上标(n)和(b)分别表示所有CTC路径以非空白标签或空白标签结尾的不同情况。在开始波束搜索之前,对于t=1,...,T,
Figure GDA0002518302230000184
Figure GDA0002518302230000185
被初始化为:
Figure GDA0002518302230000186
其中,我们假设
Figure GDA0002518302230000187
并且b为空白标签。注意,由于编码器的子采样技术,时间索引t和输入长度T可以与输入话语的时间索引和输入长度不同。可以如下实现CTC评分函数。
Input:h,X
Output:ψctc(h,X)
Figure GDA0002518302230000188
在此函数中,在第1行中,首先将给定的假设h分割为最后标签y和其余标签g。如果y为<eos>,则在第3行中,返回假设h是完整假设的前向概率的对数。根据
Figure GDA0002518302230000189
Figure GDA00025183022300001810
的定义,h的前向概率按下式给出:
Figure GDA00025183022300001811
如果y不是<eos>,则假定h不是完整假设来计算前向概率
Figure GDA00025183022300001812
Figure GDA00025183022300001813
以及前缀概率Ψ=pctc(h,...|X)。第5-13行描述了这些概率的初始化和递归步骤。在该函数中,假设在第10-12行中每次计算
Figure GDA0002518302230000191
和Ψ时已经通过波束搜索过程获得了第9行中的概率
Figure GDA0002518302230000192
Figure GDA0002518302230000193
这是因为g是h的前缀,使得|g|<|h|。因此,能够有效地计算前缀概率和前向概率。请注意,第9行中last(g)是返回g的最后一个标签的函数。
多语言端到端语音识别设备
图4示出了根据本发明的一些实施方式的多语言端到端语音识别***400的框图。端到端语音识别***400包括可与键盘411和定点装置/介质412连接的人机接口(HMI)410、一个或更多个处理器420、储存装置430、存储器440、可与包括局域网和互联网的网络490连接的网络接口控制器450(NIC)、显示接口460、可与麦克风装置475连接的音频接口470、可与打印装置485连接的打印机接口480。存储器440可以是一个或更多个存储器单元。端到端语音识别***400可以经由连接到NIC450的网络490接收电子音频波形/频谱数据495。储存装置430包括端到端语音识别模块200、语言ID***模块112、话语级联模块113、初始网络构建模块115、端到端网络训练模块117、编码器网络模块202、注意力解码器网络模块204、CTC模块208以及端到端语音识别模块200和声学特征提取模块434。在一些情况下,依据***设计,模块112、113、115、117、202、204和208可以独立地布置在储存器430、存储器440或外部可连接存储器中(未示出)。
在附图中省略了诸如标签序列搜索模块、编码器网络参数、解码器网络参数和CTC网络参数之类的其它程序模块。此外,定点装置/介质412可以包括作为存储在计算机可读记录介质上的计算机可执行(处理器可执行)程序的模块。注意力解码器网络模块204、编码器网络模块202和CTC模块208可以由神经网络参数形成。声学特征提取模块434是用于从中提取声学特征序列的程序模块。声学特征序列可以是具有一阶和二阶时间导数和/或音节特征的梅尔级滤波器组系数(Mel-scale filterbank coefficients)的序列。
为了执行端到端语音识别,可以使用键盘411、定点装置/介质412或经由连接到其它计算机(图中未示出)的网络490向端到端语音识别***400发送指示。***400经由HMI410接收指示,并通过加载储存装置430中存储的端到端语音识别模块200、注意力解码器网络模块204、编码器网络模块202、CTC模块208和声学特征提取模块434,来执行用于使用与存储器440连接的处理器420执行端到端语音识别的指示。
实验
原始语料库是基于WSJ、CSJ(Maekawa等,2000),HKUST(Liu等,2006)和Voxforge(德语、西班牙语、法语、意大利语、荷兰语、葡萄牙语,俄语)(“VoxForge”,nd)。
我们用混合注意力/CTC网络架构构建了语言依存端到端***和语言独立端到端***。语言依存模型使用4层BLSTM编码器网络,而语言独立模型具有深度BLSTM编码器网络,诸如7层深度的BLSTM编码器网络。BLSTM编码器网络中的层数不限于7层。在一些情况下,根据***设计,层数可以为2或大于2。我们使用了级联有3维音节特征的80维梅尔滤波器组特征。对于语言独立模型,基于CTC的分支和基于注意力的分支二者中的最终softmax层具有5,520个维度(即,
Figure GDA0002518302230000201
)。
对于英语,为了处理WSJ语料库中相对长的句子,我们通过添加与WSJ文本语料库中经常出现的高达5-gram的字符序列相对应的标记,将字母字符集扩展到201。这使输出长度L更短,以减少计算成本和GPU内存使用。
对于每种语言,我们训练了语言依存ASR模型,其中最终softmax层的维度被设置为该语言的不同字符/标记的数量。本文严格遵循端到端ASR概念,未使用任何发音词库、基于单词的语言模型、GMM/HMM或DNN/HMM。我们的混合注意力/CTC架构是用Chainer(Tokui等,2015)实现的。
结果
图7示出了在包括语言切换的多语言评估集上的经训练的语言依存端到端ASR***和语言独立端到端ASR***的字符错误率(CER)。CER针对10种语言取平均值,并依据每句话语中的语言数量分别示出。
在每句话语中仅包括一种语言的情况下(即,没有语言切换),语言独立模型明显优于语言依存模型。当语言数量为两种或三种时,用语言切换数据训练的语言独立模型针对2种语言的情况,将CER从31.5%降低到21.3%,针对3种语言的情况,将CER从38.6%降低到20.8%。通过再训练平启动的语言独立模型,我们获得了进一步的CER降低,即,在各种情况下CER分别为19.4%、19.3%和18.6%。
因此,语言独立ASR成功地降低了CER,并且用语言切换数据训练的模型能够在解码过程期间恰当地在语言之间进行切换。
我们还通过从用语言切换数据再训练的语言独立模型所获得的识别结果中提取语言ID来计算语言ID错误率。在每句话语中仅包括一种语言的情况下,语言ID错误率为2.0%。在每句话语中包括1至3种语言的情况下,ID错误率为8.5%。因此,本发明能够以少量错误联合识别多语言语音和语言ID。
图8示出了我们的模型所生成的转录示例。话语由日语、英语和荷兰语组成。没有语言切换的模型既无法预测正确的语言ID,也无法预测日语字符集的使用。我们能够观察到具有语言切换的模型以低CER识别出了多语言语音。
在本公开的一些实施方式中,当上述的端到端语音识别***安装在计算机***中时,能够以较少的计算能力有效且准确地执行语音识别,由此使用本公开的端到端语音识别方法或***能够减少中央处理单元的使用和功耗。
此外,根据本公开的实施方式提供了用于执行端到端语音识别的有效方法,因此,使用端到端语音识别模型的方法和***的使用能够减少中央处理器(CPU)的使用、功耗和/或网络带宽使用。
可以以多种方式中的任何一种来实现本公开的上述实施方式。例如,可以使用硬件、软件或其组合来实现实施方式。当以软件实现时,软件代码无论是设置于单台计算机中还是分布在多台计算机中,都可以在任何合适的处理器或处理器集合上执行。这样的处理器可以被实现为集成电路,并且集成电路组件中具有一个或更多个处理器。但是,可以使用任何适当格式的电路来实现处理器。
另外,本文概述的各种方法或过程可以被编码为在采用多种操作***或平台中的任何一种的一个或更多个处理器上可执行的软件。附加地,可以使用多个合适的编程语言和/或编程或脚本工具中的任何一种来编写这种软件,并且还可以将这种软件编译为可执行的机器语言代码或在框架或虚拟机上执行的中间代码。通常,在各种实施方式中,程序模块的功能可以根据需要进行组合或分布。
此外,本公开的实施方式可以被体现为一种方法,已经提供了该方法的示例。作为该方法的一部分而执行的动作可以以任何合适的方式排序。因此,可以构造实施方式,在该实施方式中以与所例示的次序不同的次序来执行动作,这可以包括并发地执行一些动作,即使这些动作在示例性实施方式中被示为顺序动作。此外,在权利要求中使用诸如第一、第二之类的序数术语来修饰权利要求要素本身并不意味着一个权利要求要素相对于另一个具有任何优先权、优先级或次序,或者执行方法的动作的时间次序,而是仅用作标签,以将具有特定名称的一个权利要求要素与具有相同名称(除了序数词的使用)的另一要素区分开,以区分权利要求要素。

Claims (17)

1.一种训练多语言语音识别网络的方法,该方法包括以下步骤:
提供与预定语言相对应的话语数据集;
在所述话语数据集中***语言ID标签,其中,所述话语数据集中的每一个由所述语言ID标签中的每一个来加标签,并且其中,语言ID标签被***到不同语言的语音语料库(110)中的每句话语数据集的转录中;
以随机次序将加标签的话语数据集级联,其中,相应转录也以与级联的话语数据集相同的次序级联;
从所述话语数据集生成初始网络参数(116),其中,使用作为字素集和语言ID的并集而获得的通用标签集生成所述初始网络参数(116);以及
用一系列的所述初始网络参数(116)和所级联的加标签的话语数据集迭代地训练端到端网络,直到训练结果达到阈值,其中,训练端到端网络的步骤包括使用所级联的话语数据集和所述转录来优化所述初始网络参数(116)。
2.根据权利要求1所述的方法,其中,所述话语数据集中的每一个包括成对的声学数据集(110)和与所述声学数据集(110)相对应的真值标签。
3.根据权利要求1所述的方法,其中,所述端到端网络是语言独立模型。
4.根据权利要求3所述的方法,其中,所述语言独立模型使用深度BLSTM编码器网络。
5.根据权利要求4所述的方法,其中,所述深度BLSTM编码器网络中的层数为7或大于7。
6.根据权利要求1所述的方法,其中,所述语言ID标签根据布置规则布置到所述话语数据集。
7.根据权利要求6所述的方法,其中,所述布置规则使所述语言ID标签中的每一个被添加至所述话语数据集中的每一个的头部位置。
8.根据权利要求1所述的方法,该方法还包括以下步骤:
当所述训练结果达到所述阈值时,生成经训练的网络参数(118)。
9.根据权利要求1所述的方法,其中,所述端到端网络基于预定方法联合优化一系列的所述初始网络参数(116)和所级联的加标签的话语数据集。
10.一种用于生成用于多语言语音识别的经训练的网络参数(118)的多语言语音识别***,该多语言语音识别***包括:
一个或更多个处理器;以及
一个或更多个储存装置,所述一个或更多个储存装置存储参数和包括所述一个或更多个处理器能执行的指令的程序模块,当执行所述指令时使得所述一个或更多个处理器执行包括以下项的操作:
提供与预定语言相对应的话语数据集;
在所述话语数据集中***语言ID标签,其中,所述话语数据集中的每一个由所述语言ID标签中的每一个来加标签,并且其中,语言ID标签被***到不同语言的语音语料库(110)中的每句话语数据集的转录中;
以随机次序将加标签的话语数据集级联,其中,相应转录也以与级联的话语数据集相同的次序级联;
从所述话语数据集生成初始网络参数(116),其中,使用作为字素集和语言ID的并集而获得的通用标签集生成所述初始网络参数(116);
根据预定序列选择所述初始网络参数(116);以及
用一系列所选择的初始网络参数(116)和所级联的加标签的话语数据集迭代地训练端到端网络,直到训练结果达到阈值,其中,训练端到端网络的操作包括使用级联的话语数据集和所述转录来优化所述初始网络参数(116)。
11.根据权利要求10所述的***,其中,所述话语数据集中的每一个包括成对的声学数据集(110)和与所述声学数据集(110)相对应的真值标签。
12.根据权利要求10所述的***,其中,所述端到端网络是语言独立模型。
13.根据权利要求12所述的***,其中,所述语言独立模型使用深度BLSTM编码器网络。
14.根据权利要求13所述的***,其中,所述深度BLSTM编码器网络中的层数为7或大于7。
15.根据权利要求10所述的***,其中,所述语言ID标签根据布置规则布置到所述话语数据集。
16.根据权利要求15所述的***,其中,所述布置规则使所述语言ID标签中的每一个被添加至所述话语数据集中的每一个的头部位置。
17.根据权利要求10所述的***,该***还包括:
当所述训练结果达到所述阈值时,生成经训练的网络参数。
CN201880077778.9A 2017-12-15 2018-05-31 用于训练多语言语音识别网络的方法和***以及用于执行多语言语音识别的语音识别*** Active CN111557029B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/843,047 2017-12-15
US15/843,047 US10593321B2 (en) 2017-12-15 2017-12-15 Method and apparatus for multi-lingual end-to-end speech recognition
PCT/JP2018/021790 WO2019116606A1 (en) 2017-12-15 2018-05-31 Method and system for training a multi-language speech recognition network, and speech recognition system for performing multi-language speech recognition

Publications (2)

Publication Number Publication Date
CN111557029A CN111557029A (zh) 2020-08-18
CN111557029B true CN111557029B (zh) 2021-06-04

Family

ID=62842174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880077778.9A Active CN111557029B (zh) 2017-12-15 2018-05-31 用于训练多语言语音识别网络的方法和***以及用于执行多语言语音识别的语音识别***

Country Status (5)

Country Link
US (1) US10593321B2 (zh)
EP (1) EP3516650B1 (zh)
JP (1) JP6818941B2 (zh)
CN (1) CN111557029B (zh)
WO (1) WO2019116606A1 (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10629193B2 (en) * 2018-03-09 2020-04-21 Microsoft Technology Licensing, Llc Advancing word-based speech recognition processing
CN112740631A (zh) * 2018-07-20 2021-04-30 诺基亚技术有限公司 通过接收算法中的参数的更新来在通信***中学习
US10720151B2 (en) * 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
US10891951B2 (en) * 2018-10-17 2021-01-12 Ford Global Technologies, Llc Vehicle language processing
CN109327614B (zh) * 2018-10-17 2021-01-26 永德利硅橡胶科技(深圳)有限公司 全球同声传译手机及方法
KR20200056001A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 인공신경망에서의 디코딩 방법 및 그 장치
US11238845B2 (en) 2018-11-21 2022-02-01 Google Llc Multi-dialect and multilingual speech recognition
CN113330457A (zh) * 2019-01-23 2021-08-31 谷歌有限责任公司 使用***操作生成神经网络输出
US10964309B2 (en) * 2019-04-16 2021-03-30 Microsoft Technology Licensing, Llc Code-switching speech recognition with end-to-end connectionist temporal classification model
CN113924619A (zh) * 2019-05-28 2022-01-11 谷歌有限责任公司 通过流式端到端模型的大规模多语言语音识别
CN110399912B (zh) * 2019-07-12 2023-04-07 广东浪潮大数据研究有限公司 一种字符识别的方法、***、设备及计算机可读存储介质
CN112242959B (zh) * 2019-07-16 2022-10-14 ***通信集团浙江有限公司 微服务限流控制方法、装置、设备及计算机存储介质
US11735184B2 (en) 2019-07-24 2023-08-22 Alibaba Group Holding Limited Translation and speech recognition method, apparatus, and device
CN112489622B (zh) * 2019-08-23 2024-03-19 中国科学院声学研究所 一种多语言连续语音流语音内容识别方法及***
JP7385900B2 (ja) * 2019-09-09 2023-11-24 国立研究開発法人情報通信研究機構 推論器、推論プログラムおよび学習方法
CN110751941B (zh) * 2019-09-18 2023-05-26 平安科技(深圳)有限公司 语音合成模型的生成方法、装置、设备及存储介质
CN110534115B (zh) * 2019-10-14 2021-11-26 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、***和存储介质
CN110808034A (zh) * 2019-10-31 2020-02-18 北京大米科技有限公司 语音转换方法、装置、存储介质及电子设备
CN110675865B (zh) * 2019-11-06 2021-09-28 百度在线网络技术(北京)有限公司 用于训练混合语言识别模型的方法和装置
CN110838286B (zh) * 2019-11-19 2024-05-03 腾讯科技(深圳)有限公司 一种模型训练的方法、语种识别的方法、装置及设备
US11373639B2 (en) * 2019-12-12 2022-06-28 Mitsubishi Electric Research Laboratories, Inc. System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique
CN110930980B (zh) * 2019-12-12 2022-08-05 思必驰科技股份有限公司 一种中英文混合语音的声学识别方法及***
CN114981884A (zh) * 2020-01-22 2022-08-30 谷歌有限责任公司 基于注意力的联合声学和文本设备上端到端模型
CN115039171A (zh) * 2020-01-28 2022-09-09 谷歌有限责任公司 使用有效文字标准化的语言无关的多语言建模
CN113539238B (zh) * 2020-03-31 2023-12-08 中国科学院声学研究所 一种基于空洞卷积神经网络的端到端语种识别分类方法
CN111540344B (zh) * 2020-04-21 2022-01-21 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
CN111582449B (zh) * 2020-05-07 2023-08-04 广州视源电子科技股份有限公司 一种目标域检测网络的训练方法、装置、设备及存储介质
CN111382568B (zh) * 2020-05-29 2020-09-11 腾讯科技(深圳)有限公司 分词模型的训练方法和装置、存储介质和电子设备
CN111914710B (zh) * 2020-07-24 2024-02-13 合肥工业大学 一种铁路机务段场景描述方法及***
US11798534B2 (en) * 2020-10-02 2023-10-24 Salesforce.Com, Inc. Systems and methods for a multilingual speech recognition framework
US11568858B2 (en) 2020-10-17 2023-01-31 International Business Machines Corporation Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings
US11900922B2 (en) * 2020-11-10 2024-02-13 International Business Machines Corporation Multilingual intent recognition
CN112509563B (zh) * 2020-12-17 2024-05-17 中国科学技术大学 模型训练方法、装置及电子设备
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备
CN113035178B (zh) * 2021-03-16 2024-01-05 华南理工大学 基于transformer的语音识别解码加速方法
CN113127622B (zh) * 2021-04-29 2023-06-09 西北师范大学 一种从语音到图像的生成方法及***
CN113436616B (zh) * 2021-05-28 2022-08-02 中国科学院声学研究所 一种多领域自适应的端到端语音识别方法、***及电子装置
CN113345466B (zh) * 2021-06-01 2024-03-01 平安科技(深圳)有限公司 基于多麦克风场景的主说话人语音检测方法、装置及设备
CN113345418A (zh) * 2021-06-09 2021-09-03 中国科学技术大学 基于跨语种自训练的多语种模型训练方法
CN113436620B (zh) * 2021-06-30 2022-08-30 北京有竹居网络技术有限公司 语音识别模型的训练方法、语音识别方法、装置、介质及设备
CN113327600B (zh) * 2021-06-30 2024-07-23 北京有竹居网络技术有限公司 一种语音识别模型的训练方法、装置及设备
CN113327631B (zh) * 2021-07-15 2023-03-21 广州虎牙科技有限公司 一种情感识别模型的训练方法、情感识别方法及装置
CN114596839B (zh) * 2022-03-03 2024-06-07 网络通信与安全紫金山实验室 一种端到端语音识别方法、***及存储介质
US20230290345A1 (en) * 2022-03-08 2023-09-14 Microsoft Technology Licensing, Llc Code-Mixed Speech Recognition Using Attention and Language-Specific Joint Analysis
CN114596841A (zh) * 2022-03-15 2022-06-07 腾讯科技(深圳)有限公司 实时语音识别方法、模型训练方法、装置及设备
CN115019782B (zh) * 2022-06-02 2024-07-16 北京工业大学 一种基于ctc多层损失的语音识别方法
US20230401392A1 (en) * 2022-06-09 2023-12-14 Microsoft Technology Licensing, Llc Automatic Speech Recognition Systems and Processes
CN114783446B (zh) * 2022-06-15 2022-09-06 北京信工博特智能科技有限公司 一种基于对比预测编码的语音识别方法及***
CN117292696B (zh) * 2023-10-08 2024-03-12 合肥工业大学 端到端音频隐写方法、***、存储介质及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849648B1 (en) * 2002-12-24 2014-09-30 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
ATE385024T1 (de) * 2005-02-21 2008-02-15 Harman Becker Automotive Sys Multilinguale spracherkennung
US7840399B2 (en) * 2005-04-07 2010-11-23 Nokia Corporation Method, device, and computer program product for multi-lingual speech recognition
EP1975923B1 (en) * 2007-03-28 2016-04-27 Nuance Communications, Inc. Multilingual non-native speech recognition
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US10332509B2 (en) * 2015-11-25 2019-06-25 Baidu USA, LLC End-to-end speech recognition
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
CN106126507B (zh) * 2016-06-22 2019-08-09 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及***
US10059410B2 (en) * 2016-06-29 2018-08-28 Pelican International Inc. Fishing kayak
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN106504266B (zh) * 2016-09-29 2019-06-14 北京市商汤科技开发有限公司 行走行为的预测方法和装置、数据处理装置和电子设备

Also Published As

Publication number Publication date
JP2020537765A (ja) 2020-12-24
EP3516650B1 (en) 2020-05-13
JP6818941B2 (ja) 2021-01-27
CN111557029A (zh) 2020-08-18
US10593321B2 (en) 2020-03-17
EP3516650A1 (en) 2019-07-31
WO2019116606A1 (en) 2019-06-20
US20190189111A1 (en) 2019-06-20

Similar Documents

Publication Publication Date Title
CN111557029B (zh) 用于训练多语言语音识别网络的方法和***以及用于执行多语言语音识别的语音识别***
JP6929466B2 (ja) 音声認識システム
CN110603583B (zh) 语音识别***和用于语音识别的方法
Rao et al. Exploring architectures, data and units for streaming end-to-end speech recognition with rnn-transducer
Seki et al. An end-to-end language-tracking speech recognizer for mixed-language speech
Bluche et al. The a2ia arabic handwritten text recognition system at the open hart2013 evaluation
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
JPH11352994A (ja) 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
CN113574545A (zh) 用于训练模型的训练数据修改
Karita et al. Sequence training of encoder-decoder model using policy gradient for end-to-end speech recognition
Sokolov et al. Neural machine translation for multilingual grapheme-to-phoneme conversion
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
Raval et al. Improving deep learning based automatic speech recognition for Gujarati
CN115270771B (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN112634878B (zh) 语音识别后处理方法和***及相关设备
Sakti et al. Unsupervised determination of efficient Korean LVCSR units using a Bayesian Dirichlet process model
JP4631076B2 (ja) 音素単位セットを最適化する方法及びシステム
KR20230064471A (ko) 음성 인식 방법 및 장치
Kimura et al. Expansion of wfst-based dialog management for handling multiple asr hypotheses
CN115114933A (zh) 用于文本处理的方法、装置、设备和存储介质
CN116072103A (zh) 语音识别的方法及装置、电子设备、存储介质
CN115985297A (zh) 语音识别方法、装置、电子设备及存储介质
Zenkel Character Based Language Modeling and Applications in Speech Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant