CN109754784B

CN109754784B - 训练滤波模型的方法和语音识别的方法

Info

Publication number: CN109754784B
Application number: CN201711065322.4A
Authority: CN
Inventors: 聂为然; 于海
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2021-01-29
Anticipated expiration: 2037-11-02
Also published as: CN109754784A; EP3686882A4; US11211052B2; US20200258499A1; JP7034279B2; JP2021501912A; WO2019085510A1; EP3686882A1

Abstract

本申请提供一种训练滤波模型的方法和装置，可应用到自动驾驶领域的智能汽车上，包括：确定N个原始音节，该N个原始音节是第一语料的实际读音所包括的音节；确定N个识别音节，该N个识别音节是第一语料的声音信号经过第一语音识别处理而获得的识别结果的音节，第一语音识别处理包括基于滤波模型的滤波处理和基于语音识别引擎的识别处理；根据N个原始音节和N个识别音节，确定N个音节距离，N个音节距离与N个音节对一一对应，N个原始音节和N个识别音节构成N个音节对，每个音节对包括彼此对应的原始音节和识别音节，每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度，从而，有利于提高语音识别引擎的识别准确率。

Description

训练滤波模型的方法和语音识别的方法

技术领域

本申请涉及语音识别技术领域，并且更具体地，涉及一种训练滤波模型的方法、语音识别的方法、训练设备、语音识别设备和语音识别***。

背景技术

自动语音识别(Automatic Speech Recognition，ASR)是语音交互***的关键技术，ASR引擎(也可以称为语音识别引擎)负责将语音信号转换成文本。图1是ASR引擎进行语音识别的一例的示意性图。如图1所述，经过拾音设备对声音进行采集，获得语音信号经过特征模块提取(频域)特征后，由声学模型转换为音节序列(例如，汉语拼音中的声母和韵母序列)。再通过解码器(decoder)在语言模型中搜索出该音节序列所对应的字符序列(例如，汉字序列)。

但是，现有技术中，语言模型中音节序列与字符序列之间的对应关系是基于预设的数据库训练得到的，在实际使用中，受到环境和用户的发音习惯等的影响，可能导致对于同一语音在数据库中的声音信号与实际采集到的声音信号不一致，导致最终的无法识别出该语音。

发明内容

本申请提供一种用于训练滤波模型的方法与设备，有利于提高语音识别引擎进行语音识别的准确率。

第一方面，提供了一种训练滤波模型的方法，所述方法包括：确定N个原始音节，所述N个原始音节是第一语料的实际读音所包括的音节，N为大于或等于1的整数；确定N个识别音节，所述N个识别音节是所述第一语料的声音信号经过第一语音识别处理而获得的识别结果的音节，所述第一语音识别处理包括基于所述滤波模型的滤波处理和基于语音识别引擎的识别处理，所述N个识别音节和所述N个原始音节一一对应；根据所述N个原始音节和所述N个识别音节，确定N个音节距离，其中，所述N个音节距离与N个音节对一一对应，所述N个原始音节和所述N个识别音节构成N个音节对，每个音节对包括彼此对应的一个原始音节和一个识别音节，每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度；根据所述N个音节距离，对所述滤波模型进行训练。

可选地，原始音节和识别音节之前的“相似度”可以根据原始音节和识别音节之前的误字率或误音节率确定。

例如，原始音节和识别音节之前的误字率或误音节率越高，原始音节和识别音节之前的相似度越低。

其中，原始音节和识别音节之前的误字率可以是指原始音节对应的多个文字(或字母)与识别音节对应的多个文字(或字母)中，发生识别错误文字(或字母)在该多个文字中的比例。即，误字率的值为错误识别的字的个数与总字数的比值。

原始音节和识别音节之前的误字率可以是指原始音节对应的多个音节与识别音节对应的多个音节中，发生识别错误音节在该多个音节中的比例。即，误音节率的值为错误识别的音节的个数与总音节数的比值。

可选地，该根据该N个音节距离，对该滤波模型进行训练，包括：根据该N个音节距离，对该滤波模型进行训练，以使第二语料对应的M个音节距离中的每个音节距离的大小在第一预设范围内，其中，该M个音节距离与M个音节对一一对应，该M个音节对所包括的M个原始音节是第二语料的实际读音所包括的音节，该M个音节对所包括的M个识别音节是该第二语料的声音信号经过第二语音识别处理而获得的识别结果的音节，M为大于或等于1的整数，该第二语音识别处理包括基于经过训练后的滤波模型的滤波处理和基于该语音识别引擎的识别处理。

在本申请实施例中，该根据本申请的训练滤波模型的方法，通过预先获取训练语料的真实的原始音节，并获取该训练语料的经过语音识别引擎的识别处理而获得的识别音节，并进一步确定原始音节与识别音节之间的音节距离，从而，能够基于音节距离对与该语音识别引擎配合使用的滤波器进行训练，从而，能够支持使输入语音识别引擎的声音信号(或者说，经过滤波模型处理的声音信号)与该语音识别引擎能够准确识别的语音信号相匹配，从而，能够提高识别准确率。

可选地，所述根据所述N个音节距离，对所述滤波模型进行训练，包括：根据所述第一语料的声音信号和N个音节距离确定打分模型；根据所述打分模型和第三语料的声音信号，确定K个音节距离，其中，第三语料的实际读音所包括K个原始音节，所述第三语料的声音信号经过所述第一语音识别处理而获得的识别结果包括K个识别音节，所述K个识别音节与所述K个原始音节一一对应，所述K个音节距离K个音节对一一对应，所述K个原始音节和所述K个识别音节构成K个音节对，每个音节对包括彼此对应的一个原始音节和一个识别音节，每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度，K为大于或等于1的整数；根据所述N个音节距离和所述K个音节距离，对所述滤波模型进行训练。

从而，能够扩大用于训练滤波模型的数据的数量，能够进一步提高识别准确率。

可选地，该第一语料的声音信号是基于第一拾音设备获取的，该第一拾音设备是用于获取该第二语料的声音信号的拾音设备。

可选地，该第三语料的声音信号是基于第一拾音设备获取的，该第一拾音设备是用于获取该第一语料的声音信号的拾音设备。

通过基于同一声音信号进行上述训练过程和语音识别过程，能够进一步提高滤波模型与语音识别引擎的匹配程度，从而，进一步能够进一步提高语音识别的准确性。

在本申请实施例中通过使采集的语音数据训练滤波模型的拾音设备与在实际使用中采集滤波模型的滤波对象的拾音设备一致，能够使滤波模型的应用条件与拾音设备相匹配。也就是说，采用该方法，可以使得滤波模型、语音识别引擎以及拾音设备三者相匹配，有利于提高识别准确率。

可选地，每个音节包括至少一个音素，该根据该N个音节原始音节和该N个识别音节，确定N个音节距离，包括：获取第一映射关系信息，该第一映射关系信息用于指示多个音素彼此之间的音素距离，其中，任意两个音素之间的音素距离用于指示该任意两个音素之间的相似度；根据所示第一映射关系信息，确定该N个音节距离。

可选地，该根据所示第一映射关系信息，确定该N个音节距离，包括：确定该N个原始音节包括的W个原始音素，并确定该N个识别音节包括的W个识别音素，该W个原始音素与该W个识别音素一一对应，W为大于或等于1的整数；根据该第一映射关系，确定W个音素距离，其中，该W个音素距离与该W个音素对一一对应，每个音素距离是所对应的音素对所包括的音素之间的音素距离，其中，一个音素对包括彼此对应的一个原始音素和一个识别音素；根据该W个音素距离，确定该N个音节距离。

可选地，该根据该W个音素距离，确定该N个音节距离，包括：将该W个音素距离的平均值，确定该N个音节距离。

从而，能够容易地实现音节距离的确定过程。

可选地，当N大于或等于2时，该方法还包括：确定该N个原始音节的排列顺序和发音时长；确定该N个识别音节的获取时刻；根据该N个原始音节的排列顺序和发音时长，以及该N个识别音节的获取时刻，确定该N个音节对。

从而，能够在N≥2时，容易地实现音节对的确定过程，能够提高本申请的实用性。

可选地，该根据该N个音节距离，对该滤波模型进行训练，包括：确定该滤波模型所使用于的环境的环境信息；根据该N个音节距离和该环境信息，对该滤波模型进行训练。

可选地，当该滤波模型配置在车辆中时，该环境信息包括以下至少一种信息：车速信息、车窗开闭状态信息或空调风量信息。

可选地，该环境信息包括拾音设备的设备信息，例如，拾音设备的型号或制造商等。

在本申请实施例中，通过是使采集用于训练滤波模型的语音数据的环境与的语音数据训练滤波模型，在实际使用中，滤波模型对在该设备环境下采集的语音数据进行滤波。即，滤波模型的应用条件与设备环境相匹配。也就是说，采用该方法，可以使得滤波模型、语音识别引擎以及设备环境三者相匹配，有利于提高识别准确率。

可选地，该方法还包括：根据获取滤波模型的用户的用户信息，该用户信息包括多个语料中的每个语料被该用户使用的频率；根据该用户信息，从该多个语料中确定该第一语料。

可选地，该方法还包括：根据获取滤波模型的用户的用户信息，该用户信息包括多个语料中的每个语料被该用户使用的频率；根据该用户信息，从该多个语料中确定该第三语料。

通过基于用户信息确定用于训练滤波模型的语料，能够使所确定的滤波模型与用户的使用习惯相匹配，从而，有利于提高识别准确率。

可选地，该确定N个原始音节，包括：确定在第一时间范围内发生的第一事件，该第一时间范围是根据该N个识别音节的获取时间确定的；根据第二映射关系信息，将该第一事件所对应的音节确定为该N个原始音节，其中，该第二映射关系信息用于指示包括该第一事件在内的多个事件对应的音节。

从而，能够支持基于用户发出的语音对滤波模型进行在线训练，其中，该在线训练可以是指在用户使用语音识别引擎时，对滤波模型进行训练。

可选地，该第一时间范围是自该获取时间开始、经历第一预设时长的时间范围，且在该第一时间范围内发生了至少一个备选事件，或该第一时间范围是基于多个备选事件的发生时间确定的时间范围，其中，该多个备选事件中的任意两个事件的发生时间间隔小于或等于第二预设时长，并且，该第一事件是该多个备选事件中的任一事件。

从而能够避免确定原始音节的时间过长，能够改善用户体验，提高本申请的实用性。

该确定N个原始音节包括：根据第三映射关系信息，将该第一语料所对应的音节确定为该N个原始音节，其中，该第三映射关系信息用于指示包括该第一语料在内的多个语料对应的音节。

第二方面，提供一种语音识别的方法，该方法包括：获取第一声音信号；基于滤波模型对该第一声音信号进行滤波处理，该滤波模型是基于第一方面及其任意一种可能的实施方式的方法获得的；基于所示语音识别引擎对经过该滤波处理后的第一声音信号进行识别处理。

可选地，该获取第一声音信号包括：通过第一拾音设备，获取该第一声音信号，该第一拾音设备是用于获取该第一语料的声音信号的拾音设备。

可选地，该获取第一声音信号，包括：根据训练该滤波模型时使用的环境信息，获取所示第一声音信号。

第三方面，提供一种训练设备，包括存储器和处理器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得该***执行上述第一方面或第一方面任一种可能实现方式的方法。

第四方面，提供一种语音识别设备，包括存储器和处理器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得该***执行上述第二方面或第二方面任一种可能实现方式的方法。

第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行第一方面或第一方面的任一可能的实现方式中的方法。

第六方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行第二方面或第二方面的任一可能的实现方式中的方法。

第七方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行第一方面或第一方面的任一可能的实现方式中的方法。

第八方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行第二方面或第二方面的任一可能的实现方式中的方法。

第九方面，提供一种语音识别***，包括第三方面提供的训练设备，第四方面提供的语音识别设备。

在本申请中，通过预先获取训练语料的真实的原始音节，并获取该训练语料的经过语音识别引擎的识别处理而获得的识别音节，并进一步确定原始音节与识别音节之间的音节距离，从而，能够基于音节距离对与该语音识别引擎配合使用的滤波器进行训练，从而，能够支持使输入语音识别引擎的声音信号(或者说，经过滤波模型处理的声音信号)与该语音识别引擎能够准确识别的语音信号相匹配，从而，能够提高识别准确率。

附图说明

图1是ASR***进行语音识别的一例的示意性图。

图2是根据本申请实施例的用于训练滤波模型的方法的一例的示意性流程图。

图3是根据本申请实施例的用于训练滤波模型的***的一例的示意性图。

图4是根据本申请实施例的用于训练滤波模型的***的另一例的示意性图。

图5是根据本申请实施例的用于训练滤波模型的***的又一例的示意性图。

图6是根据本申请实施例的用于训练滤波模型的方法的另一例的示意性流程图。

图7是根据本申请实施例的用于训练滤波模型的***的再一例的示意性图。

图8是根据本申请实施的用于训练滤波模型的方法的又一例的示意性流程图。

图9是根据本申请实施例的用于训练滤波模型的设备的一例的示意性流程图。

图10是根据本申请实施例的用于训练滤波模型的设备的另一例的示意性流程图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

应理解，本申请实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便，不应构成特别的限定，各种方式、类别、情况以及实施例中的特征在不矛盾的情况下可以相结合。

还应理解，申请实施例中的“第一”、“第二”以及“第三”仅为了区分，不应对本申请构成任何限定。

还应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，本申请实施例的至少一个可以包括一个或多个。

为了便于理解本申请，首先对本申请涉及到的一些概念进行简要说明。

1、语料

语料可以是字、词语、句子、片段、文章等及其任意组合。

2、原始语料

在本申请实施例中原始语料可以理解为真实表达。例如，该原始语料可以为扬声器播放的语料、作业人员口述的语料或用户口述的语料。例如，扬声器播放“打开空调”，该“打开空调”为原始语料。又例如，用户口述“打开车窗”，该“打开车窗”为原始语料。

3、音节

音节是语音中最自然的结构单位。确切地说，音节是音位组合构成的最小的语音结构单位。它的构成分头腹尾三部分，因而音节之间具有明显可感知的界限。音节由一个或几个音素按一定规律组合而成。

例如，在汉语中，音节可以包括声母音节和韵母(应理解，韵母包括单韵母和复韵母)音节。例如，汉字“打”包括两个音节“d”和“a”。在汉语中一般一个汉字的读音即为一个音节。普通话常用基本无调音节为400个，有调音节(不包括轻声)为1300多个。

又例如，在英语中，音节是读音的基本单位，任何单词音节单音节的象形文字的读音，都是分解为一个个音节朗读。在英语中元音(a e i o u共五个)特别响亮，一个元音音素(音素不是字母)可构成一个音节，一个元音音素和一个或几个辅音音素结合也可以构成一个音节。一般说来，元音音素可以构成音节，辅音音素不响亮，不能构成音节。例如，英文单词“up”包括两个音节“u”和“p”。

应理解，本申请实施例的音节可以包括汉语对应的音节，或本申请实施例的音节可以包括其他语言(例如，英语、法语或俄语等其语言)对应的音节。

4、音节距离

音节距离是指音节(具体地说，是两个音节所包括的音素)之间的距离。在本申请实施例中，音节距离可以是指两个音节之间的多个音素的距离，也可以是指两个音节序列(也可以称为音素序列)之间的距离。可以根据预定义音素距离规则确定音素距离，进而确定音节距离。其中，预定义音素距离规则可由语言学家根据语言学特征，例如，国际语音字母表(international phonetic alphabet，IPA)表预先定义好。也可由工程师根据工程实践和直观感受，预先定义。

由于汉语拼音与国际音标存在着一对一或一对多(比如一个复韵母对应多个国际音标)的关系，因此可根据相同原理(即发音部位和发音方式)针对汉语拼音的声母和韵母定义发音距离表。一个样例发音距离表见交底书中的表1。

可选地，该预定义音素距离规则可以通过音素距离矩阵(或者，也可以称为音素距离表)体现。表1示出了基于汉语的音素距离矩阵的一例。

表1音素距离矩阵

该音节距离矩阵的第一行和第一列可以为汉语中所有的拼音音节集合，(包括声母和韵母)。表中的每一个单元格表示所对应的行和列的音节之间的音节距离。音节距离为归一化(0-1之间)的非负值，对角线上的单元格表示相同音节之间的距离，其值为零。音节距离越小，表示两个音节的发音越相似，比如“a”和“ai”之间的音节距离为0.1。音节距离越大，表示两个音节的发音差别越大，比如“a”和“f之间的音节距离为0.8。

对于两个音节而言，该两个音节之间的音节距离可以根据该预定义音节距离规则确定。例如，假设两个音节分别为音节“a”和“ai”，根据表1可以确定该两个音节之间的音节距离为0.1。

对于两个音节序列而言，该两个音节序列之间的音节距离可以是指两个音节序列包括的音素距离的平均值(例如，算数平均值)。例如，假设两个音节序列分别为“da kaiche chuang”(“打开车窗”对应的音节)和“da ke cha chuang”(“打可查窗”对应的音节)，由表1确定“ai”和“e”之间的音节距离为0.2，“e”和“a”之间的音节距离为0.3，可以确定“dakai che chuang”和“da ke cha chuang”之间的音节距离为(0.2+0.3)/2＝0.25。

应理解，以上列举的根据音素距离确定音节距离的方法仅为示例性说明，本申请并未限定于此，例如，也可以将为个音素距离分配权重，并将各音素距离的加权平均值确定为音节距离

应理解，以上列举的表1中各个音素之间的音节距离的具体值仅为示例性说明，本申请并未特别限定，使用者可以根据需要对各音素之间的距离进行适当调整。

另外，IPA从发音器官的位置和方式两个维度中刻画了例如，英语等语言中辅音、元音音素的发音特征。其中，发音位置包括唇、齿、唇齿、肺、卷舌、腭、咽等，发音方式包括***音、鼻音、颤音、摩擦音。例如，设音素s和音素t的音素距离(或者说，发音距离)为数L，则：

如果s和t的发音位置相同，且发音方式相同，则可以确定L＝0，

如果s和t的发音位置相同，但发音方式不同，则可以确定L＝0.2，

如果s和t的发音位置不同，但发音方式相同，则可以确定L＝0.4，

如果s和t的发音位置不同，且发音方式不同，则可以确定L＝0.8。

由于汉语拼音与国际音标存在着一对一或一对多(比如一个复韵母对应多个国际音标)的关系，因此可根据相同原理(即发音部位和发音方式)针对汉语拼音的声母和韵母定义发音距离表，例如，上述表1。

应理解，以上列举的确定音节距离的方法仅为示例性说明，本申请并未限定于此，该音节距离也可以根据误字率或误音节率判定。

其中，误字率是指经过语音识别后得到的文字(或字母)与语音信号实际对应的文字(或字母)中，发生识别错误(即，识别结果与实际不一致)的文字(或字母)在语音信号对应的总的文字(或字母)中的比例。

例如，如果上述“打开空调”对应的语音信号被识别为“打可空调”，则语音信号对应的总字数为4，发生识别错误的字的数量为1，因此，该语音信号对应的音节距离可以为1/4。

并且，误音节率是指经过语音识别后得到的音节与语音信号实际对应的音节中，发生识别错误(即，识别结果与实际不一致)的音节在语音信号对应的总的音节中的比例。

例如，如果上述“da kai kong tiao”对应的语音信号被识别为“da ke kongtiao”，则语音信号对应的总音节数为4，发生识别错误的音节的数量为1，因此，该语音信号对应的音节距离可以为1/4。

5、工况

工况与设备相关，可以理解为设备的工作状态。例如，车辆的工况可以理解为车辆的工作状态。

6、工况变量

工况变量可以是指刻画设备工况的变量。以设备为车辆为例，车辆的工况变量可以包括车速、车窗状态、路面类型、空调状态、雨刮状态等变量中的至少一种。

例如，车辆的工况变量可以包括车速，车速的速度值包括：40千米/小时(市区)，90千米/小时(高速)；车辆的工况变量还可以包括车窗状态，车窗状态包括：开和关；车辆的工况变量还可以额包括空调分量档位，空调分量档位包括：0(不开)，1(冷风)，2(热风)。基于三个工况变量，排列组合可以形成12种工况。

可选地，在本申请实施例中，滤波模型的输入可以包括工况变量值，起到对滤波模型进行条件化的目的。应理解，尽管在训练阶段使用离散化工况变量，但是由于神经网络自身的学习和泛化能力，会自动对实际连续工况进行内插拟合。

7、校准脚本

校准脚本是一个存储在存储器中的计算机可读文件，校准脚本可以记录语料样本。可选地，校准脚本可以记录工况变量值和语料样本的键值对组合。(用于训练滤波模型的设备)可以按顺序读取校准脚本的每行内容，解析出工况变量值和对应的语料样本，以用于对模型进行训练。校准脚本可以是一个预存在硬盘中的静态文件，也可以是动态变化的。

8、滤波模型

滤波模型用于对接收到的语音信号进行滤波处理。滤波模型的输入可以包括拾音设备(例如，麦克风或麦克阵列)输出的语音数据。例如，滤波模型的输入具体可以包括拾音设备输出的语音帧(例如，可以为50毫秒的语音信号)的特征数据(例如，梅尔倒谱系数)，滤波模型的输出可以为经过滤波处理的语音帧的特征数据，可选地，特征数据可以包括频域特征或时域特征。可选地，滤波模型的输入还可以包括工况变量值。

8、打分模型

打分模型用于训练滤波模型，打分模型的输入可以为滤波模型的输出，打分模型的输出为一个标量值。

应理解，本申请实施例的方法可以应用于汉语、英语、俄语、法语等各种语言。以下，为了便于说明，均以汉语为例。将本申请实施例的方法应用于其他语言的详细说明可以参见以汉语为例的相关说明。

以下，结合图2对本申请实施例的用于训练滤波模型的方法进行详细说明。

图2是根据本申请实施例的用于训练滤波模型的方法的一例的示意性流程图。应理解，图2示出了方法100的详细的步骤或操作，但这些步骤或操作仅是示例，本申请实施例还可以执行其它操作或仅执行图2中部分操作。

如图2所述，该方法100可以包括110以及120。可选地，该方法100可以由处理器、服务器、控制器、用于训练滤波模型的设备或其他设备或其他***执行。为了便于说明，以下以用于训练滤波模型的设备执行该方法100为例进行说明，应理解，其他设备执行方法100均可以参见该设备执行该方法100的相关描述。

110、获取N个音节对一一对应的N个音节距离。

其中，每个音节对包括一个第一音节和一个第二音节，每个音节距离为所对应的音节对中的第一音节和第二音节之间的音节距离，其中，第i个音节对中的第一音节为所述第i个音节对对应的原始语料(即，第一语料的一例)的真实读音的音节，所述第i个音节对中的第二音节为所述第i个音节对对应的语料的语音数据经过识别处理后的识别结果的音节，所述第i个音节对是N个音节对中的任一个音节对，N≥1。

应理解，所述识别处理包括基于第一滤波模型(即，滤波模型的一例)的处理和基于语音识别引擎的处理。进一步地，众所周知语音数据经过滤波模型处理再经过语音识别引擎均可以记为“对语音数据进行识别处理”。为了便于理解，也可以将语音数据经过第一滤波模型处理再经过语音识别处理理解为“对语音数据进行第一识别处理”。

还应理解，该原始语料的语音数据可以由拾音设备采集。也就是说，拾音设备采集的语音数据可以输入至第一滤波模型进行处理，经过第一滤波模型处理之后的语音数据输入至语音识别引擎中，可以得到识别结果。

为了便于说明，可以将原始语料的语音数据经过识别处理后的识别结果记为“原始语料对应的识别结果”。例如，扬声器播放“打开空调”，该“打开空调”的语音数据经过识别处理之后得到“打可空调”。该“打可空调”为该“打开空调”对应的识别结果。

作为可选地一例，该第一音节可以为一个音节，该第二音节可以为一个音节。例如，假设，原始语料为“打开空调”，“打开空调”对应的识别结果为“打可空调”，该N个音节对可以包括音节对#α，该音节对#α的第一音节为“kai”中的“ai”，第二音节为“ke”中的“e”。该音节对#a对应的音节距离为“ai”和“e”之间的音节距离。

作为可选地另一例，该第一音节可以为一个音节序列，该第二音节可以为一个音节序列。例如，假设原始语料为“打开空调”，“打开空调”对应的识别结果为“打可空调”，该N个音节对可以包括音节对#β，该音节对#β的第一音节为“da kai kong tiao”，第二音节为“da ke kong tiao”。该音节对#β对应的音节距离为“da kai kong tiao”和“da ke kongtiao”之间的音节距离。

作为可选地又一例，该第一音节和第二音节可以一个为一个音节，另一个为音节序列。例如，第一音节为“kai”，第二音节为“a”，在此情况下，第一音节和第二音节的长度不同，可以通过填充静音音节ε使得第一音节和第二音节的长度相同。可选地，对齐第一音节和第二音节可以使用动态时间扭曲(dynamic time warping，DTW)开源算法进行音节对齐。

以下，以第一音节和第二音节均为音节序列对本申请实施例进行说明，应理解，第一音节和第二音节为一个音节的相关说明可以参见第一音节和第二音节为音节序列的相关说明。

在本申请实施例中，一个音节对对应一个音节距离，一个音节对包括一个原始语料的音节以及该原始语料对应的识别结果的音节。例如，扬声器播放“打开空调”，该“打开空调”对应的识别结果为“打可空调”。原始语料的音节“da kai kong tiao”和该该原始语料对应的识别结果的音节“da ke kong tiao”可以组成一个音节对，并对应一个音节距离。同理，扬声器播放“打开车窗”，该“打开车窗”对应的识别结果为“打开差窗”，“da kai chechuang”和“da kai cha chuang”可以组成一个音节对，并对应一个音节距离。用于训练滤波模型的设备可以获取“da kai kong tiao”和“da ke kong tiao”之间的音节距离，以及da kai che chuang”和“da kai cha chuang”之间的音节距离。

应理解，用于训练滤波模型的设备可以通过多种方式中的一种获取该N个音节距离。例如，可以接收其他设备传输的N个音节距离。又例如，可以基于预定义音节距离规则，确定该N个音节对一一对应的N个音节距离。

例如，在本申请实施例中，可以确定第一语料的N个原始音节，该N个原始音节可以是使用者、运营商或制造商预先配置在训练设备中的，例如，上述“打开空调”对应的音节，即“da kai kong tiao”。

并且，在本申请实施例中，可以确定第一语料的N个识别音节，该N个识别音节可以是未经过训练的语音识别引擎识别出的音节，例如，上述“打可空调”对应的音节，即“da kekong tiao”。

其后，例如，可以基于上述表1确定每个音节对中的原始音节和识别音节之间的音节距离，进而确定N个音节距离。

220、根据所述N个音节距离，对所述第一滤波模型进行训练得到所述语音识别引擎对应的目标滤波模型(即，训练后的滤波模型)，其中，所述语音识别引擎和所述目标滤波模型用于进行语音识别。

在本申请实施例中，目标滤波模型基于N个音节距离得到，N个音节距离基于语音识别引擎的识别结果得到，相当于，目标滤波模型基于语音识别引擎的识别结果得到。基于此，采用本申请实施例的方法得到的目标滤波模型与语音识别引擎相适配，即该目标滤波模型与该语音识别引擎相对应。

例如，基于语音识别引擎#A，得到目标滤波模型#a，目标滤波模型#a与语音识别引擎#A相适配，目标滤波模型#a与语音识别引擎#A搭配使用进行语音识别。若将语音识别引擎#A换成语音识别引擎#B，需要重新基于语音识别引擎#B进行滤波模型训练得到与语音识别引擎#B适配的目标滤波模型。其中，“根据语音识别引擎#A，得到目标滤波模型#a”可以理解为“根据语音识别引擎#A的识别结果得到多个音节距离，根据该多个音节距离，训练得到目标滤波模型#a”。

也就是说，本申请实施例的目标滤波模型具有专用性，基于某种(某类或某个)语音识别引擎的识别结果得到目标滤波模型，该目标滤波模型为该种(该类或该个)的语音识别引擎专用的滤波模型。

作为可选地一例，任一个语音识别引擎，需要进行滤波模型训练，以用于得到与该语音识别引擎适配的目标滤波模型。

作为可选地另一例，任一个型号的语音识别引擎，需要进行滤波模型训练，以用于得到与该型号语音识别引擎适配的目标滤波模型。

作为可选地再一例，任一个厂家的语音识别引擎，需要进行滤波模型训练，以用于得到与该厂家语音识别引擎适配的目标滤波模型。

根据本申请实施例的方法，有利于训练得到与语音识别引擎适配的目标滤波模型，将该目标滤波模型与语音识别引擎搭配使用，有利于提高语音识别引擎进行语音识别的准确率。

进一步可选地，本申请实施例语音识别引擎和目标滤波模型可以对在特定条件下获取的语音数据进行处理。

一、目标滤波模型和语音识别引擎用于对“特定拾音设备”采集的语音数据进行识别处理。

其中，该“特定拾音设备”具体为采集所述第i个音节对对应的原始语料的语音数据的拾音设备。换句话说，该“特定拾音设备”也可以理解为在训练滤波模型过程中，用于采集原始语料的语音数据的拾音设备。

例如，基于语音识别引擎#A和拾音设备#1，得到目标滤波模型#a，该语音识别引擎#A、拾音设备#1以及目标滤波模型#a相适配，语音识别引擎#A以及目标滤波模型#a可以搭配使用对拾音设备#1后续采集的语音数据进行语音识别。若语音识别引擎#A保持不变，将拾音设备#1换成拾音设备#2，若使用语音识别引擎#A和目标滤波模型#a对拾音设备#2采集的语音数据进行处理，得到的识别结果可能不准确。在此情况下，需要重新基于拾音设备#2以及语音识别引擎#A，得到与语音识别引擎#A以及拾音设备#2相适配的目标滤波模型。其中，“基于语音识别引擎#A和拾音设备#1，得到目标滤波模型#a”可以理解为“拾音设备#1采集的语音数据经过基于语音识别引擎#A的识别处理之后得到多个音节距离，根据该多个音节距离，训练得到目标滤波模型#a”。

也就是说，对于相同的语音识别引擎，在训练滤波模型的过程中，若采集语音数据的拾音设备不同，得到的目标滤波模型可能不同。即，拾音设备、语音识别引擎以及目标滤波模型三者相适配。训练的过程中根据何种拾音设备进行训练，在后续使用目标滤波模型的时候，需要基于该拾音设备进行语音数据采集。

应理解，在本申请实施例中，可以认为拾音设备采集的语音数据和拾音设备输出的语音数据为相同的语音数据。

二、目标滤波模型和语音识别引擎用于对“特定设备环境”采集的语音数据进行识别处理。

其中，该“特定设备环境”具体为采集所述第i个音节对对应的原始语料的语音数据的设备环境。换句话说，该特定设备环境”可以理解为在训练滤波模型中，用于采集语音数据的设备环境。

例如，基于语音识别引擎#A和设备环境#Ⅰ，得到目标滤波模型#a，该语音识别引擎#A、设备环境#Ⅰ以及目标滤波模型#a相适配，语音识别引擎#A以及目标滤波模型#a可以搭配使用对在设备环境#Ⅰ下采集的语音数据进行处理。若语音识别引擎#A保持不变，设备环境#Ⅰ换成设备环境#Ⅱ，若语音识别引擎#A以及目标滤波模型#a搭配使用对在设备环境#Ⅱ下采集的语音数据进行处理，得到的识别结果可能不准确，在此情况下，需要重新基于设备环境#Ⅱ以及语音识别引擎#A，得到与语音识别引擎#A以及设备环境#Ⅱ相适配的目标滤波模型。其中，“基于语音识别引擎#A和设备环境#Ⅰ，得到目标滤波模型#a”可以理解为“在设备环境#Ⅰ下采集的语音数据经过基于语音识别引擎#A的识别处理之后得到多个音节距离，根据该多个音节距离，训练得到目标滤波模型#a”。

也就是说，对于相同的语音识别引擎，在训练滤波模型的过程中，若采集语音数据的设备环境不同，得到的目标滤波模型可能不同。即，设备环境、语音识别引擎以及目标滤波模型三者相适配。训练的过程中根据何种设备环境进行滤波模型的训练，在后续使用目标滤波模型的时候，在该设备环境下进行语音数据采集。

可选地，假设语音识别引擎应用于车内语音识别，该设备环境可以包括汽车的座舱环境。即，对于相同的语音识别引擎，若采集语音数据的座舱环境不同，得到的目标滤波模型可能不同。即，座舱环境(设备环境)、语音识别引擎以及目标滤波模型三者相适配。训练的过程中在何种设备环境进行训练，在后续使用的时候，基于该设备环境进行语音数据采集。

3、目标滤波模型和语音识别引擎用于对“特定设备环境”下“特定拾音设备”采集的语音数据进行识别处理。

其中，该“特定设备环境”和“特定拾音设备”可以参见上文的相关说明。也就是说，在本申请实施例中，拾音设备、设备环境、语音识别引擎以及目标滤波模型四者相适配。四者中，任一种发生改变，均需要重新进行滤波模型的训练，以用于得到与其他三者相适配的目标滤波模型。

以设备环境为座舱环境为例，应用于该小汽车的语音识别引擎和应用于大卡车的语音识别引擎相同，应用于小汽车的拾音设备和应用于大开车的拾音设备相同，由于小汽车和大卡车的座舱环境不同，需要分别得到适配与小汽车和大卡车的座舱环境的目标滤波模型。

进一步可选地，对于语音识别引擎、拾音设备以及设备环境均相同的情况下，目标滤波模型可以具有通用性。例如，车辆#A和车辆#B的设备环境相同(例如，车辆#A和车辆#B为同一品牌的相同型号)，且应用于车辆#A和车辆#B的语音识别引擎的相同，且应用于车辆#A和应用于车辆#B的拾音设备相同，在车辆#A的座舱环境下，基于应用于车辆#A的语音识别引擎和拾音设备，得到的目标滤波模型，可以应用于车辆#B进行语音识别。

图3是根据本申请实施例的用于训练滤波模型的***的一例的示意性图。如图3所述，该***200可以包括：

拾音设备210、滤波模型220以及语音识别引擎230。若语音识别以用于车载中，可选地，该***200还可以包括扬声器201，该扬声器201用于播放原始语料。

为了更好的模拟驾驶员的发音位置，该扬声器201可以装配在可以在驾驶员座椅的头部位置。或者可以使用定向声扬技术控制车内多个位置的扬声器201，使其输出的声音叠加，从而具有特殊指向性。

具体地，扬声器201播放原始语料，拾音设备210采集该原始语料的语音数据并输入至第一滤波模型220中，滤波模型220对输入的语音数据进行处理，并将处理结果输入至语音识别引擎230中，语音识别引擎230输出识别结果，基于***200可以获取音节对对应的音节距离。

采用相同的方式，基于***200可以获取N个音节对对应的N个音节距离。获取该N个音节距离之后，可以根据该N个音节距离训练滤波模型220，以用于得到语音识别引擎230相适配的目标滤波模型。

进一步可选地，该目标滤波模型可以适配不同的工况。

具体地，所述目标滤波模型和所述语音识别引擎应用于第一设备，目标滤波模型的模型算法的变量包括所述第一设备对应的工况变量。也就是说，在训练滤波模型的过程中，滤波模型的输入可以包括语音数据以及采集该语音数据的工况对应的工况变量值。可选地，该第一设备可以为车辆，该第一设备对应的工况变量为车辆对应的工况变量。

基于此，所述目标滤波模型的输入不仅包括拾音设备采集的语音数据，该目标滤波模型的输入还可以包括工况变量值。

例如，假设在第一工况下，扬声器播放“打开空调”。该第一工况的工况变量值以及拾音设备采集的“打开空调”对应的语音数据输入至目标滤波模型中。其中，拾音设备采集的“打开空调”对应的语音数据为第一滤波模型进行滤波处理的对象，第一工况的工况变量值用于对目标滤波模型条件化。

由上文可知，为了训练得到目标滤波模型，需要获知原始语料以及该原始语料对应的识别结果。其中，可以通过语音识别引擎的输出获取识别结果。可选地，可以通过以下多种方式中的至少一种获取该识别结果对应的原始语料。

方式#1

所述第i个音节对对应的原始语料为(或属于)预定义用于进行滤波模型训练的语料样本。可以根据一定规则，确定原始语料以及该原始语料对应的识别结果。

扬声器可以按照一定规则播放校准语料或用户按照一定规则朗读语料样本，以便于获取原始语料以及该原始语料对应的识别结果。

作为可选地一例，校准脚本记录至少一个语料样本，可以根据该校准脚本获取该原始语料。

例如，校准脚本的每一行是一个文本，每一个文本对应一个语料样本，例如，校准脚本的第一行记录“打开空调”；第二行记录“打开车窗”，可以根据校准语料，按照一定规则，确定原始语料以及该原始语料对应的识别结果。

可选地，该N个音节对可以对应M个原始语料，其中，1≤M≤N。应理解，第一设备对应多个工况，扬声器在多个工况的每个工况下播放的原始语料可以包括相同的语料。例如，在每个工况下，扬声器均播放“打开收音机”。在此情况下，M小于N。

可选地，工况与原始语料具有对应关系，可以根据设备的工况确定该工况对应的M个原始语料。

可选地，所述M个原始语料根据用户的语言偏好信息以及语料样本包括的音节的种类中的至少一种从多个语料样本中确定。

具体地，可以根据用户的语言偏好(例如，用户对该条语料的使用频率越高，越有可能被选中)和音节多样性(例如，该条语料中包含的音节个数越多，越有可能被选中)从多个语料样本中选择该M个原始语料。

作为可选地一例，可以根据以下公式确定用于进行滤波模型训练的M个原始语料中的至少一个原始语料。

η(r)＝w_f*f(r)+w_c*c(r) (1)

其中，w_f表示用户的语言偏好的权重，f(r)表示第r条语料样本的用户的语言偏好的得分，w_c表示音节多样性的权重，c(r)表示第r条语料样本的音节多样性的得分，η(r)表示第r条语料的综合得分。可以根据公式(1)从语料样本中选择综合得分较高的至少一个语料样本作为用于进行模型训练的至少一个原始语料。

可选地，所述M个原始语料中第j+k个原始语料根据第j个原始语料从多个语料样本中确定，其中，所述第j个原始语料为所述M个原始语料中的一个原始语料，其中，k≥1，1≤M≤N。

示例地，所述第j+k个原始语料具体根据所述第j个原始语料的语音数据的识别情况、与所述j个原始语料之间的音节距离中的至少一种从所述多个语料样本中确定。

具体地，如果第j个原始语料正确识别(即，第j个原始语料和该第j个原始语料对应的识别结果之间的音节距离等于0)表明第j个原始语料所包含的音节没有产生畸变，在选择第j+k个原始语料时，可以选择音节构成与第j个原始语料尽量不同的语料样本，例如，选择与第j个原始语料之间的音节距离尽量大的语料样本。如果第j个原始语料未正确识别(即，第j个原始语料和该第j个原始语料对应的识别结果之间的音节距离不等于0)，可以选择音节构成与第j个原始语料相类似的语料样本，例如，选择与第j个原始语料之间的音节距离尽量小的语料样本，以便于滤波模型对可能产生的畸变作进一步学习。

作为可选地一例，若第j个原始语料正确识别，可以根据以下公式确定第j+k个原始语料：

η(r)＝w_s*s(j)+w_f*f(r)+w_c*c(r) (2)

该公式(2)中的参量可以参见公式(1)中参量的相关说明，w_s表示音节距离的权重，s(j)表示与第j个原始语料之间的音节距离。可以根据公式(2)从语料样本中选择综合得分最大的语料样本作为第j+k个原始语料。

可选地，若第j个原始语料未正确识别，可以根据以下公式确定第j+k个原始语料：

η(r)＝-w_s*s(j)+w_f*f(r)+w_c*c(r) (3)

该公式(3)中的参量可以参见公式(2)中参量的相关说明。可以根据公式(3)从语料样本中选择综合得分最大的语料样本作为第j+k个原始语料。

根据第j个原始语料，确定第j+k个原始语料，该动态的选择原始语料的方法，有利于选择适当的原始语料，有利于提高训练模型的效率，缩短训练模型的时间。

由上文可知，在选择后续原始语料时，可以考虑以下几个中的至少一个因素：当前原始语料的语音数据的识别情况、语料样本与当前原始语料之间的音节距离、语料样本包括的音节的种类(diversity)的数量和用户的语言偏好等。

对原始语料进行选择，有利于提供训练模型的效率，有利于缩短训练模型的时间。

方式#2

基于用户指令，获取原始语料。

具体地，该方法100还可以包括：

获取第一用户指令，所述第一用户指令为语音指令；

在获取用第一户指令之后的预设时段内，获取第二用户指令，所述第二用户指令为语音指令或手动指令；

若所述第二用户指令与所述第一用户指令对应相同的用户实际意图，确定第一音节对对应的第一音节距离，其中，所述第一音节为所述N个音节对中一个音节对，所述第一音节对的第一音节为所述第二用户指令对应的语料的音节，所述第一音节对的第二音节为所述第一用户指令对应的识别结果的音节。即，第二用户指令对应的语料为所述第一用户指令的原始语料。

应理解，预设时段是为了关联第一用户指令和第二用户指令之间的因果关系。

可选地，判断所述第二用户指令和所述第一用户指令是否对应相同的用户实际意图可以包括判断第二用户指令和所述第一用户指令对应的语料是否满足真值条件：示例地，满足真值条件可以包括满足以下不等式：

0<D<TH或0<D≤TH (4)

其中，D表示第一用户指令对应的识别结果的音节与第二用户指令对应的语料的音节距离，TH为第三门限。

例如，***检测到该第一用户指令对应的语音输入，并获取该语音输入得到的识别结果u＝{w₁，…，w_m}，其中，w_q(q＝1，…，m)为单个汉字，m为该语音输入的总字数。根据汉字与音节的对应关系，u的音节序列可以表示为p_u＝{p₁₁，…，p_mt}。其中，p_ij表示第i个汉字的第j个音节。假设用户的语音输入之后的预设时长内，***检测到第二用户指令，该第二用户指令对应的语料为

的音节序列可以表示为

若p_u与

长度不同，为了计算p_u与

之间的音节距离，可以通过填充静音音节ε使得两个音节序列的长度相同。可选地，对齐两个序列可以使用DTW开源算法进行音节对齐。

假设，经过对齐和填充的音节序列长度为N，两个序列p_u与

之间的音节距离D可以满足以下公式：

其中，dist(·)表示音节距离，该dist(·)的值可以通过预设的音节距离规则确定。若D大于0且小于第三门限，可以确定第二用户指令对应的语料满足真值条件。

作为可选地一例，第二用户指令为手动指令，若第二用户指令对应的语料满足真值条件，可以确定第二用户指令对应的语料为第一用户指令的原始语料。

例如，***检测到该第一用户指令对应的语音输入，该第一用户指令经过识别处理得到识别结果u。在预设时段内，***检测到第二用户指令，***可以通过车辆传感器获取该第二用户指令对应的语料(即，用户实际意图)。用户实际意图为事先定义的有限枚举集合，比如“天窗控制”，“空调调温”等。车辆传感器数据包括控制器局域网络(controllerarea network,，CAN)总线数据、信息娱乐***触摸屏上捕获的用户点击及位置坐标数据、红外传感器捕捉到的用户的手势动作数据以及车内摄像头数据等。获取第二用户指令之后，可以将该第二用户指令对应的语料记为

计算

与识别结果u之间的音节距离D。若D满足真值条件，该第二用户指令和第一用户指令对应相同的用户实际意图，该第二用户指令对应的语料为第一用户指令对应的识别结果的原始语料。

作为可选地另一例，第二用户指令为语音指令，若第二用户指令对应的语料满足真值条件，且第二用户指令之后的预设时段内没有获取满足真值条件的第三用户指令，可以确定第二用户指令对应的语料为第一用户指令的原始语料。

例如，若所述第一用户指令对应的语音数据经过所述识别处理得到的识别结果的音节与所述第二用户指令对应的语料的音节之间的音节距离小于或等于第三门限，且在获取所述第二用户指令之后的预设时段内未获取第三用户指令，确定所述第二用户指令与所述第一用户指令对应相同的用户实际意图，其中，所述第一用户指令对应的语音数据经过所述识别处理得到的识别结果的音节与所述第三用户指令对应的语料的音节之间的音节距离小于或等于第三门限。

可以认为基于方式#1获取目标滤波模型，是一种离线用于训练滤波模型的方法。在该方法中，扬声器可以基于语料样本播放原始语料，以便于对扬声器播放的语音数据进行识别处理，以用于得到与语音识别引擎适配的目标滤波模型。以汽车为例，该目标滤波模型可以是汽车出厂前训练得到的。

可以认为基于方式#2获取目标滤波模型，是一种在线用于训练滤波模型的方法，在该方法中，可以根据用户的纠正行为(手动纠正或语音纠正)确定识别结果对应的原始语料，以便对扬声器播放的语音数据进行识别处理，以用于得到与语音识别引擎适配的目标滤波模型。以汽车为例，该目标滤波模型可以是汽车出厂之后，用户在用车阶段训练得到。

以上，从整体角度描述了本申请实施例的方法。其中，该步骤120可以包括多种实现方式。以下，对该步骤120进行详细说明。

图4是根据本申请实施例的用于训练滤波模型的***的另一例的示意性图。如图4所述，该***300包括滤波模型310和打分模型320。

滤波模型310可以包括至少一个循环神经网络(recurrent neural networks，RNN)单元，例如，滤波模型310可以包括至少一个门控回环单元(gated recurrent unit，GRU)单元或长短期记忆(long short-term memory，LSTM)单元。打分模型320可以包括至少一个回归模型(或神经网络)，例如，打分模型320可以包括至少一个线性回归模型(或前馈深度神经网络)。

如图3所述，滤波模型310的输入可以包括拾音设备的输出h_j。其中，h_j可以为拾音设备输出的第j(j＝1，…，t)个语音帧的时域特征或频域特征。

可选地，滤波模型310的输入还可以包括工况变量值。应理解，在进行模型训练的过程中，工况变量值可以对滤波模型进行条件化(conditioning)。例如，工况变量值可以作为单元状态的初始值输入滤波模型以用于对滤波模型进行条件化。例如，以车辆为例，可以将车速、车窗状态、路面类型、空调状态、雨刮状态等参数的至少一种输入至滤波模型中，以用于对滤波模型进行条件化。

如图3所述，打分模型320的输入y_j可以为滤波模型310的输出。打分模型320的输出为一标量值s_j，在本申请实施例中，s_j可以表示语音识别引擎对语音数据y_j的识别结果的音节与原始语料对应的音节之间的距离。

在图3所述的架构中，每个语音帧都会对应一个音节距离，但是，一个音节往往对应多个语音帧，这就需要进行额外的处理，以用于确定语音帧与音节的对应关系。

例如，对于由文本到语音(text to speech，TTS)生成的原始语音信号，可以通过参数控制每个字的发音时长。根据该发音时长和通常的发音习惯(例如，每个音节占整个发音长度的比例)，即可以计算出每个音节所持续的时间。以“打开空调”为例，假设通过TTS参数控制每个字的发音时长为：“打(da)”0.4秒，“开(kai)”0.5秒，“空(kong)”0.4秒，“调(tiao)”0.3秒。假设通常的发音习惯是声母、单韵母和复韵母所占的比例相同，则每个音节所占的时间长度可计算如下：

d(打):0.4*1/2＝0.2s

a(打):0.4*1/2＝0.2s

k(开):0.5*1/2＝0.25s

ai(开):0.5*1/2＝0.25s

k(空):0.4*1/2＝0.2s

ong(空):0.4*1/2＝0.2s

t(调):0.3*1/3＝0.1s

i(调):0.3*1/3＝0.1s

ao(调):0.3*1/3＝0.1s

通常情况下，语音识别引擎能够支持音频以帧流方式上传，即可以上传语音帧至语音识别引擎。语音识别引擎可以返回文字结果。通过这种模式，可以将语音帧与返回文本关联起来。例如，将“打开空调”的音频以帧流方式上传至语音识别引擎进行语音识别，在0.3秒时语音识别引擎返回汉字“打”，即可把前0.3秒内的所有语音帧与“打”关联起来。在0.6秒时，语音识别引擎返回汉字“可”，即误将“开”识别成“可”。则此时可以把从0.3-0.6内的所有语音帧与“可”关联起来。进一步，可以根据上文的发音习惯，确定语音帧和音节的对应关系。

例如，与“打”关联的0.3秒语音帧中，前0.15秒的每个语音帧对应音节“d”，后0.15秒的每个语音帧对应音节“a”。与“可”关联的0.3秒的每个语音帧中，前0.15秒的每个语音帧对应音节“k”，后0.15秒的每个语音帧对应音节“e”。

采用该方案，每个语音帧对应一个音节距离，音节距离的颗粒度较细，该方案能够更好地训练打分模型以及滤波模型中的至少一种，但是该方案需要对语音帧与音节进行处理(如上文所述)，增加了额外的计算负担，而且可能会引起对齐误差值。基于此，可以使用池化(pooling)层消除语音帧与音节的对齐需求。

图5是根据本申请实施例的用于训练滤波模型的***的又一例的示意性图。如图5所述，该***400包括滤波模型410以及打分模型420。

该滤波模型410的详细说明可以参见上文滤波模型310的相关描述。该打分模型420包括至少一个回归模型或神经网络421，该打分模型420还包括池化层422。

池化层422可以使用平均池化(average pooling)层或最大池化(max pooling)层。池化层422的输出进入回归模型(或神经网络)421，打分模型420的输出为一个标量值s，该s可以表示原始语料与该原始语料对应的识别结果之间的音节距离。也就是说，对于***架构400而言，打分模型420的输出可以表示两个音节序列(或两个语料)之间的音节距离。

引入池化层，无需考虑在语音帧层面的音节对齐，降低了算法的复杂度。其他步骤和上述一致。

也就是说，若采用上述***300，该第一音节可以为一个音节，该第二音节可以为一个音节，该第i个音节对对应的语料的语音数据可以为一个语音帧。

若采用上述***400，该第一音节可以为一个音节序列，该第二音节可以为一个音节序列，该第i个音节对对应的语料的音节数据可以包括多个语音帧。

即，若使用图4所述的***300，每一个语音帧可以对应一个音节距离。若使用图5所述的***400，每一个原始语料(例如，每个字、每个词语或每句话)的多个语音帧可以对应一个音节距离。

图6是根据本申请实施例的用于训练滤波模型的方法的另一例的示意性流程图。如图6所述，该120可以包括：

121、根据所述N个音节距离，训练得到第一打分模型。

其中，所述第一打分模型输出的标量值用于表示原始音节和所述原始音节对应的识别音节之间的音节距离，其中，所述原始音节为原始语料的音节，所述识别音节为语音数据经过所述语音识别引擎的处理得到的识别结果的音节。例如，所述第i个音节对对应的原始语料的语音数据经过所述第一滤波模型处理之后输入至所述第一打分模型得到的标量值用于表示所述第i个音节对对应的音节距离。

应理解，训练得到第一打分模型，可以理解为：训练打分模型，以用于得到第一打分模型。在训练打分模型的过程中，打分模型的输入可以为第一滤波模型的输出。可选地，该第一滤波模型可以包括以下几种中的一种。

1)第一滤波模型可以为初始化的滤波模型。

例如，可以将滤波模型的传输函数初始化为单元函数，即，第一滤波模型的传输函数为单元函数，第一滤波模型可以不对输入语音帧做任何处理。

2)第一滤波模型可以为传统的高通滤波器。

需要说明的是，不论第一滤波模型为何种滤波模型，在训练得到第一打分模型的过程中，第一滤波模型的模型参数(或权重)保持不变。

应理解，在本申请实施例中，N个音节距离中每个音节距离为原始语料与该原始语料对应的识别结果之间的音节距离，训练打分模型的目标是最小化打分模型输出的标量值与音节距离之间的误差值。也就是说，训练打分模型的目的是为了得到用于拟合(或模拟)原始音节和识别音节之间的音节距离的第一打分模型。

可选地，所述N个音节距离一一对应所述第一打分模型输出的N个第一标量值，所述N个音节距离和所述N个第一标量值一一对应做差值得到N个误差值，所述N个误差值的平均值小于或等于第一门限，其中，所述N个第一标量值中第i个第一标量值为所述第i个音节对对应的原始语料的语音数据经过所述第一滤波模型处理之后输入至所述第一打分模型得到的标量值，所述第i个音节对和所述第i个第一标量值对应相同的音节距离。

应理解，本申请实施例中的平均值可以是算数平均值、几何平均值、平方平均值、均方平均值、调和平均值或加权平均值等。在本申请实施例中，第一打分模型输出的第一标量值与音节对对应的音节距离之间误差值的平均值小于或等于第一门限。可以认为，该第一打分模型输出的标量值可以用于表示原始音节和识别音节之间的音节距离(或误差)。

进一步地，可以通过多种方式中的一种根据N个音节距离，训练得到第一打分模型。

例如，可以定义打分模型S(y；θ_s)为一可微函数，其中，y表示滤波模型的输出，在训练打分模型的过程中，y具体可以表示第一滤波模型的输出。θ_s表示打分模型的模型参数(或权重)。S(y；θ_s)的输出为一标量值。训练打分模型的目的是得到用于拟合(或模拟)原始音节和识别音节之间的音节距离的第一打分模型。训练打分模型可以理解为调整打分模型算法中的打分模型的模型参数。

可以根据以下公式，确定当前打分模型输出的标量值与对应的音节距离之间的误差值。

e_s(i)＝z(i)-S(y(i)；θ_s) (6)

其中，z(i)表示第i个音节对对应的音节距离，S(y(i)；θ_s)表示第i个音节对对应的原始语料的语音数据经过所述第一滤波模型处理之后输入至当前打分模型得到的标量值，y(i)表示第i个音节对对应的原始语料的语音数据经过所述第一滤波模型处理之后的输出，θ_s表示当前打分模型的模型参数，e_s(i)表示第i个音节对对应的音节距离和所述述第i个音节对对应的原始语料的语音数据经过所述第一滤波模型处理之后输入至所述第一打分模型得到的标量值之间的误差值。

例如，假设第i个原始语料为“打开空调”，拾音设备输出的“打开空调”对应的语音数据经过第一滤波模型处理之后输入至语音识别引擎得到“打可空调”，该原始语料为“打开空调”，该原始语料对应的识别结果为“打可空调”，基于表1，可以确定z(i)＝0.2，将z(i)＝0.2带入公式(1)。可以得到“打开空调”对应的语音数据经过第一滤波模型处理之后输入至当前打分模型得到的标量值与“打开空调”和“打可空调”之间的误差。

可选地，可以使用分批处理(min-batch)训练打分模型。可选地，可以根据训练语料的数量确定批次，例如，m个原始语料可以作为一批。例如，假设第k(k≥1)批次原始包括m个原始语料，打分模型对应的第k批次训练的误差值的均方平均值可以表示为：

应理解，E(θ_s)表示打分模型对应的第k批次训练的误差值的均方平均值(或均方误差值)，e_s(i)可以表示第i个音节距离与第i个第一标量值之间的差值，所述第i个音节距离为第i个原始语料的音节和第i个原始语料对应的识别结果的音节之间的音节距离，第i个第一标量值为第i个原始语料对应的语音数据经过所述第一滤波模型处理之后输入至当前打分模型得到的标量值之间的误差值。

模型参数更新可通过随机梯度下降法或时间反向传播法(back propagationthrough time，BPTT)完成，θ_s的更新值θ_s’可以满足以下公式：

其中，η表示学习利率超参数，

表示梯度运算符。

若E(θ_s ^，)大于第一门限，可以使用随机梯度下降法或BPTT继续对更新θ_s’。

若E(θ_s’)小于或等于第一门限，可以确定基于θ_s’的打分模型为第一打分模型，或确定基于θ_s’的打分模型收敛。可选地，打分模型收敛可以理解为：根据预设数量的训练语料或根据预设内容的训练语料或根据预设数量的音节距离训练打分模型，得到的平均误差值小于或等于第一门限的打分模型。应理解，该平均误差值为打分模型输出的标量值和对应的音节距离之间的误差值的平均值。

122、根据所述第一打分模型，对所述第一滤波模型进行训练得到所述目标滤波模型。

第一打分模型输出的标量值可以用于表示原始音节和识别音节之间的音节距离。第一打分模型输出的标量值越小，可以表示原始音节和该原始音节对应的识别音节越接近(误差越小)，即，语音识别引擎的识别结果越准确。基于此，可以根据第一打分模型，训练得到目标滤波模型，使得基于目标滤波模型的所述第一打分模型的输出的值最小化。

可选地，所述第一打分模型输出的N个第二标量值的平均值小于或等于第二门限，其中，所述第i个音节对对应的原始语料的语音数据经过所述目标滤波模型处理之后输入至所述第一打分模型得到所述N个第二标量值中的第i个第二标量值。

应理解，上文中第一标量值可以理解为打分模型基于第一滤波模型输出的标量值。该第二标量值可以理解为第一打分模型基于目标滤波模型输出的标量值。

在本申请实施例中，可以通过多种方式中的一种根据N个音节距离，训练得到第一打分模型。

例如，可以定义滤波模型F(x；θ_f)为一可微函数，其中，x可以表示所述原始语料对应的语音数据，或该x包括原始语料对应的语音数据以及工况变量值。其中，该工况变量值用于将滤波模型条件化。θ_f表示滤波模型的模型参数。F(x；θ_f)表示滤波模型的输出。训练滤波模型的目的是最小化第一打分模型的输出，即最小化原始音节和识别音节之间的音节距离。由于音节距离为非负值，所以音节距离为零时为最小。

可选地，根据以下公式，训练得到所述目标滤波模型，

e_f(i)＝S(F(x(i)；θ_f)；θ_{s_T}) (9)

其中，S(F(x(i)；θ_f)；θ_{s_T})表示第i个音节对对应的原始语料的语音数据经过当前滤波模型处理之后输入至所述第一打分模型得到的标量值，θ_{s_T}表示所述第一打分模型的模型参数，F(x(i)；θ_f)表示第i个音节对对应的原始语料的语音数据经过所述当前滤波模型处理之后的输出，θ_f表示所述当前滤波模型的模型参数，x(i)表示所述第i个音节对对应的原始语料的语音数据，或x(i)表示所述第i个音节对对应的原始语料的语音数据以及采集所述第i个音节对对应的原始语料的语音数据的工况变量值。

与上文中描述相似，可以使用分批处理训练滤波模型，该分批处理的详细说明可以参见上文的相关描述。例如，假设第k(k≥1)批次训练包括m个原始语料，打分模型对应的第k批次训练的得到的标量值的均方平均值可以表示为：

其中，e_f(i)可以表示针对第i个原始语料第一打分模型输出的标量值。

模型参数更新可通过随机梯度下降法或BPTT完成，θ_f的更新值θ_f’可以满足以下公式：

若E(θ_f’)大于第二门限，可以使用随机梯度下降法或BPTT继续更新θ_f’。

若E(θ_f’)小于或等于第二门限，可以确定基于θ_f’的滤波模型为目标滤波模型，或确定基于θ_f’的滤波模型收敛。该滤波模型的收敛可以参见上文打分模型收敛的相关说明，为了简洁不在此赘述。

需要说明的是，在根据第一打分模型训练滤波模型时，需要冻结第一打分模型的神经网络的模型参数。冻结一层或几层神经网络的模型参数可以有不同实现方式：可以将该层次的学习率设为零，或者将该层模型参数关联一个较大的正规化项(regularizationterm)，以对模型参数的大幅变动加以惩罚。

基于以上所述，在本申请实施例中，第一打分模型输出的标量值能够表示原始音节和识别音节之间的音节距离，根据第一打分模型训练得到目标滤波模型，基于目标滤波模型最小化第一打分模型的输出，相当于最小化原始音节和识别音节之间的音节距离(或最小化原始音节和识别音节之间的误差)，有利于提高语音识别的准确率。

应理解，以上列举的根据N音节距离训练得到第一打分模型，再根据第一打分模型训练得到目标滤波模型，仅仅是本申请一种可能的实现方式，例如，可以同时训练打分模型和滤波模型，使得打分模型和滤波模型同时收敛。或采用其他方式根据音节距离训练得到目标滤波模型。

图7是根据本申请实施例的用于训练滤波模型的***的再一例的示意性图。如图7所述，该***500包括：

存储器510、音频管理模块520、处理器530以及语音识别引擎540。其中，该***500还可以包括网络接口501。

其中，该存储器510存储校准脚本以及校准模型，该校准模型可以包括上文中的滤波模型和打分模型。音频管理模块520包括扬声器和拾音设备。

图8是根据本申请实施例的用于训练滤波模型的方法的再一例的示意性流程图。应理解，图8示出了方法600的详细的步骤或操作，但这些步骤或操作仅是示例，本申请实施例还可以执行其它操作或仅执行图8中部分操作。可选地，该方法600可以由上文中的***500执行。如图8所述，该方法600可以包括：

610、获取校准脚本。

校准脚本记录了多个语料样本。可选地，校准脚本还可以记录工况和校准语料的键值对关系，或校准脚本还可以记录工况变量值和语料样本的键值对关系。

620、获取一组工况变量值。

假设该方法200训练得到目标滤波模型用于车载语音识别，可选地，可以获取车辆对应的一组工况变量值，并根据该工况变量值，控制车辆处于该工况变量值对应的工况下。

例如，车辆对应的工况变量包括：车窗状态以及车速。第一组工况变量值包括：开窗、车速60千米/小时。获取该工况变量值之后可以控制车辆处于该开窗，车速60千米/小时的工况下。

630、确定训练语料。

应理解，该训练语料为用于进行模型训练的语料，该训练语料可以应对于上文中的原始语料。

可选地，该校准脚本可以记录工况变量值和语料样本的键值对组合，可以根据校准脚本以及获取的工况变量值，从校准脚本记录的多个语料样本中选择训练语料。

可选地，校准脚本记录了多个语料样本，可以从该多个语料样本中选择一个训练语料。为了便于说明，可以将该一个训练语料记为“训练语料#1”。

可选地，可以根据语料样本包括的音节的种类以及用户的语言偏好中的至少一种，从至少一个语料样本中，选择该“训练语料#1”。示例地，可以根据公式(1)选择训练语料#1。例如，根据公式(1)计算每个语料样本的综合得分，确定综合得分最高的语料样本作为训练语料#1。

640、播放选择的训练语料。例如，播放训练语料#1。

具体地，扬声器可以播放该训练语料，该扬声器播放该训练语料的相关说明可以参见上文的相关描述，为了简洁不在此赘述。

650、确定播放的训练语料和该训练语料的识别结果之间的音节距离L。

应理解，该650可以判断语音识别引擎是否能够正确识别训练语料#1。

660、根据音节距离，训练打分模型。

670、根据打分模型，训练滤波模型。

可选地，该方法还可以包括：

601、若L＝0可以根据公式(2)选择综合得分最大的语料作为下一条训练语料，并继续执行640。

602、若L≠0可以根据公式(3)选择综合得分最大的语料作为下一条训练语料，并继续执行640。

应理解，以上列举的方法仅仅是本申请实施例可能的实现方式，本申请实施例的方法还可以通过其他方式实现，只要通过语音识别引擎的识别结果，进行滤波模型的训练，以用于得到与语音识别引擎适配的目标滤波模型均属于本申请实施例的范围。

图9是根据本申请实施例的用于训练滤波模型的设备的一例的示意性图。如图9所述，该设备700包括：

获取单元710，用于获取N个音节对一一对应的N个音节距离，其中，每个音节对包括一个第一音节和一个第二音节，每个音节距离为所对应的音节对中的第一音节和第二音节之间的距离，其中，第i个音节对中的第一音节为所述第i个音节对对应的原始语料的音节，所述第i个音节对中的第二音节为所述第i个音节对对应的原始语料的语音数据经过识别处理后的识别结果的音节，所述识别处理包括基于第一滤波模型的处理和基于语音识别引擎的处理，所述第i个音节对是N个音节对中的任一个音节对，N≥1；

训练单元420，用于根据所述N个音节距离，对所述第一滤波模型进行训练得到所述语音识别引擎对应的目标滤波模型，所述语音识别引擎和所述目标滤波模型用于进行语音识别。

可选地，所述训练单元420具体用于：根据所述N个音节距离，训练得到第一打分模型，所述第一打分模型输出的标量值用于表示原始音节和所述原始音节对应的识别音节之间的音节距离，其中，所述原始音节为原始语料的音节，所述识别音节为语音数据经过所述语音识别引擎的处理得到的识别结果的音节；根据所述第一打分模型，对所述第一滤波模型进行训练得到所述目标滤波模型。

可选地，所述N个音节距离一一对应所述第一打分模型输出的N个第一标量值，所述N个音节距离和所述N个第一标量值一一对应做差值得到N个误差值，所述N个误差值的平均值小于或等于第一门限，其中，所述N个第一标量值中第i个第一标量值为所述第i个音节对对应的原始语料的语音数据经过所述第一滤波模型处理之后输入至所述第一打分模型得到的标量值；所述第一打分模型输出的N个第二标量值的平均值小于或等于第二门限，其中，所述第i个音节对对应的原始语料的语音数据经过所述目标滤波模型处理之后输入至所述第一打分模型得到所述N个第二标量值中的第i个第二标量值。

可选地，所述训练单元420具体用于：根据公式e_s(i)＝z(i)-S(y(i)；θ_s)，训练得到所述第一打分模型，其中，z(i)表示第i个音节对对应的音节距离，S(·)表示打分模型的模型算法，S(y(i)；θ_s)表示第i个音节对对应的原始语料的语音数据经过所述第一滤波模型处理之后输入至当前打分模型得到的标量值，y(i)表示第i个音节对对应的原始语料的语音数据经过所述第一滤波模型处理之后的输出，θ_s表示当前打分模型的模型参数，e_s(i)表示第i个音节对对应的音节距离和所述述第i个音节对对应的原始语料的语音数据经过所述第一滤波模型处理之后输入至所述第一打分模型得到的标量值之间的误差值；根据公式e_f(i)＝S(F(x(i)；θ_f)；θ_{s_T})，训练得到所述目标滤波模型，其中，S(F(x(i)；θ_f)；θ_{s_T})表示第i个音节对对应的原始语料的语音数据经过当前滤波模型处理之后输入至所述第一打分模型得到的标量值，θ_{s_T}表示所述第一打分模型的模型参数，F(·)表示滤波模型的模型算法，F(x(i)；θ_f)表示第i个音节对对应的原始语料的语音数据经过所述当前滤波模型处理之后的输出，θ_f表示所述当前滤波模型的模型参数，x(i)表示所述第i个音节对对应的原始语料的语音数据，或x(i)表示所述第i个音节对对应的原始语料的语音数据以及采集所述第i个音节对对应的原始语料的语音数据的工况变量值。

可选地，所述目标滤波模型用于对第一拾音设备采集的语音数据进行滤波处理，所述第一拾音设备为采集所述第i个音节对对应的原始语料的语音数据。

可选地，所述目标滤波模型用于对在第一设备环境下采集的语音数据进行滤波处理，所述第一设备环境为采集所述第i个音节对对应的原始语料的语音数据。

可选地，所述目标滤波模型和所述语音识别引擎应用于第一设备，所述目标滤波模型的模型算法的变量包括所述第一设备对应的工况变量。

可选地，所述第i个音节对对应的原始语料的语音数据为预定义用于进行滤波模型训练的语料样本。

可选地，所述N个音节对对应M个原始语料，所述M个原始语料中第j+k个原始语料根据第j个原始语料从多个语料样本中确定，其中，所述第j个原始语料为所述M个原始语料中的一个原始语料，其中，k≥1，1≤M≤N。

可选地，所述第j+k个原始语料具体根据所述第j个原始语料的语音数据的识别情况、与所述j个原始语料之间的音节距离中的至少一种从所述多个语料样本中确定。

可选地，所述N个音节对对应M个原始语料，所述M个原始语料根据用户的语言偏好信息以及语料样本包括的音节的种类中的至少一种从多个语料样本中确定。

可选地，所述获取N个音节对一一对应的N个音节距离，包括：获取第一用户指令，所述第一用户指令为语音指令；在获取用第一户指令之后的预设时段内，获取第二用户指令，所述第二用户指令为语音指令或手动指令；若所述第二用户指令与所述第一用户指令对应相同的用户实际意图，确定第一音节对对应的第一音节距离，其中，所述第一音节为所述N个音节对中一个音节对，所述第一音节对的第一音节为所述第二用户指令对应的语料的音节，所述第一音节对的第二音节为所述第一用户指令对应的语音数据经过所述识别处理得到的识别结果的音节。

可选地，所述第二用户指令为语音指令，所述设备还包括：若所述第一用户指令对应的语音数据经过所述识别处理得到的识别结果的音节与所述第二用户指令对应的语料的音节之间的音节距离小于或等于第三门限，且在获取所述第二用户指令之后的预设时段内未获取第三用户指令，确定所述第二用户指令与所述第一用户指令对应相同的用户实际意图，其中，所述第一用户指令对应的语音数据经过所述识别处理得到的识别结果的音节与所述第三用户指令对应的语料的音节之间的音节距离小于或等于第三门限。

可选地，所述第二用户指令具体为手动指令，所述设备还包括：若所述第一用户指令对应的语音数据经过所述识别处理得到的识别结果的音节与所述第二用户指令对应的语料的音节之间的音节距离小于或等于第三门限，确定所述第二用户指令与所述第一用户指令对应相同的用户实际意图。

图10是根据本申请实施例的用于训练滤波模型的设备的另一例的示意性图。如图10所述，该设备800包括存储器810和处理器820，该存储器810用于存储指令，处理器820用于执行存储器810存储的指令，当该指令被执行时，该处理器810用于执行上述方法实施例提供的方法。可选地，该设备还可以包括通信接口，该处理器还用于控制通信接口与外界进行通信。

应理解，图9所述的设备700和图10所述的设备800可以用于执行上述方法实施例中的操作和流程，并且设备700和设备800的各个单元的操作和/或功能分别为了实现上述方法实施例中的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例中，该处理器可以为中央处理单元(central processingunit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random accessmemory，RAM)可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

需要说明的是，当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)集成在处理器中。

应注意，本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种训练滤波模型的方法，其特征在于，所述方法包括：

确定N个原始音节，所述N个原始音节是第一语料的实际读音所包括的音节，N为大于或等于1的整数；

确定N个识别音节，所述N个识别音节是所述第一语料的声音信号经过第一语音识别处理而获得的识别结果的音节，所述第一语音识别处理包括基于所述滤波模型的滤波处理和基于语音识别引擎的识别处理，所述N个识别音节和所述N个原始音节一一对应；

根据所述N个原始音节和所述N个识别音节，确定N个音节距离，其中，所述N个音节距离与N个音节对一一对应，所述N个原始音节和所述N个识别音节构成N个音节对，每个音节对包括彼此对应的一个原始音节和一个识别音节，每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度；

根据所述N个音节距离，对所述滤波模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述根据所述N个音节距离，对所述滤波模型进行训练，包括：

根据所述第一语料的声音信号和所述N个音节距离确定打分模型；

根据所述打分模型和第三语料的声音信号，确定K个音节距离，其中，第三语料的实际读音所包括K个原始音节，所述第三语料的声音信号经过所述第一语音识别处理而获得的识别结果包括K个识别音节，所述K个识别音节与所述K个原始音节一一对应，所述K个音节距离K个音节对一一对应，所述K个原始音节和所述K个识别音节构成K个音节对，每个音节对包括彼此对应的一个原始音节和一个识别音节，每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度，K为大于或等于1的整数；

根据所述N个音节距离和所述K个音节距离，对所述滤波模型进行训练。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述滤波模型进行训练，包括：

对所述滤波模型进行训练，以使第二语料对应的M个音节距离中的每个音节距离的大小在第一预设范围内，其中，所述M个音节距离与M个音节对一一对应，所述M个音节对所包括的M个原始音节是第二语料的实际读音所包括的音节，所述M个音节对所包括的M个识别音节是所述第二语料的声音信号经过第二语音识别处理而获得的识别结果的音节，所述第二语音识别处理包括基于经过训练后的滤波模型的滤波处理和基于所述语音识别引擎的识别处理，M为大于或等于1的整数。

4.根据权利要求3所述的方法，其特征在于，所述第一语料的声音信号是基于第一拾音设备获取的，所述第一拾音设备是用于获取所述第二语料的声音信号的拾音设备。

5.根据权利要求1或2所述的方法，其特征在于，每个音节包括至少一个音素，以及

所述根据所述N个音节原始音节和所述N个识别音节，确定N个音节距离，包括：

获取第一映射关系信息，所述第一映射关系信息用于指示多个音素彼此之间的音素距离，其中，任意两个音素之间的音素距离用于指示所述任意两个音素之间的相似度；

根据所示第一映射关系信息，确定所述N个音节距离。

6.根据权利要求5所述的方法，其特征在于，所述根据所示第一映射关系信息，确定所述N个音节距离，包括：

确定所述N个原始音节包括的W个原始音素，并确定所述N个识别音节包括的W个识别音素，所述W个原始音素与所述W个识别音素一一对应，W为大于或等于1的整数；

根据所述第一映射关系，确定W个音素距离，其中，所述W个音素距离与所述W个音素对一一对应，每个音素距离是所对应的音素对所包括的音素之间的音素距离，其中，一个音素对包括彼此对应的一个原始音素和一个识别音素；根据所述W个音素距离，确定所述N个音节距离。

7.根据权利要求6所述的方法，其特征在于，所述根据所述W个音素距离，确定所述N个音节距离，包括：

将所述W个音素距离的平均值，确定所述N个音节距离。

8.根据权利要求1或2所述的方法，其特征在于，当N大于或等于2时，所述方法还包括：

确定所述N个原始音节的排列顺序和发音时长；

确定所述N个识别音节的获取时刻；

根据所述N个原始音节的排列顺序和发音时长，以及所述N个识别音节的获取时刻，确定所述N个音节对。

9.根据权利要求1或2所述的方法，其特征在于，所述根据所述N个音节距离，对所述滤波模型进行训练，包括：

确定所述滤波模型所使用于的环境的环境信息；

根据所述N个音节距离和所述环境信息，对所述滤波模型进行训练。

10.根据权利要求9所述的方法，其特征在于，其中，当所述滤波模型配置在车辆中时，所述环境信息包括以下至少一种信息：

车速信息、车窗开闭状态信息或空调风量信息。

11.根据权利要求1或2所述的方法，所述方法还包括：

根据获取滤波模型的用户的用户信息，所述用户信息包括多个语料中的每个语料被所述用户使用的频率；

根据所述用户信息，从所述多个语料中确定所述第一语料。

12.根据权利要求1或2所述的方法，其特征在于，所述确定N个原始音节，包括：

确定在第一时间范围内发生的第一事件，所述第一时间范围是根据所述N个识别音节的获取时间确定的；

根据第二映射关系信息，将所述第一事件所对应的音节确定为所述N个原始音节，其中，所述第二映射关系信息用于指示包括所述第一事件在内的多个事件对应的音节。

13.根据权利要求12所述的方法，其特征在于，所述第一时间范围是自所述获取时间开始、经历第一预设时长的时间范围，且在所述第一时间范围内发生了至少一个备选事件，或

所述第一时间范围是基于多个备选事件的发生时间确定的时间范围，其中，所述多个备选事件中的任意两个事件的发生时间间隔小于或等于第二预设时长，

并且，所述第一事件是所述多个备选事件中的任一事件。

14.根据权利要求1或2所述的方法，其特征在于，所述确定N个原始音节包括：

根据第三映射关系信息，将所述第一语料所对应的音节确定为所述N个原始音节，其中，所述第三映射关系信息用于指示包括所述第一语料在内的多个语料对应的音节。

15.一种语音识别的方法，其特征在于，所述方法包括：

获取第一声音信号；

基于滤波模型对所述第一声音信号进行滤波处理，所述滤波模型是基于权利要求1至12中任一项所述的方法获得的；

基于所示语音识别引擎对经过所述滤波处理后的第一声音信号进行识别处理。

16.根据权利要求15所述的方法，其特征在于，所述获取第一声音信号包括：

通过第一拾音设备，获取所述第一声音信号，所述第一拾音设备是用于获取所述第一语料的声音信号的拾音设备。

17.根据权利要求15或16所述的方法，其特征在于，所述获取第一声音信号，包括：

根据训练所述滤波模型时使用的环境信息，获取所示第一声音信号。

18.一种训练设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，以使得所述训练设备执行权利要求1至14中任一项所述的方法。

19.一种语音识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，以使得所述设备执行权利要求15至17中任一项所述的方法。

20.一种语音识别***，其特征在于，包括：

如权利要求18所述的训练设备；

如权利要求19所述的语音识别设备。

21.一种计算机可读存储介质，包括计算机程序，当其在计算机上运行时，使得所述计算机执行如权利要求1至14中任意一项所述的方法。

22.一种计算机可读存储介质，包括计算机程序，当其在计算机上运行时，使得所述计算机执行如权利要求15至17中任意一项所述的方法。