CN116052648B

CN116052648B - 一种语音识别模型的训练方法、使用方法及训练***

Info

Publication number: CN116052648B
Application number: CN202210928141.4A
Authority: CN
Inventors: 王满洪
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2023-10-20
Anticipated expiration: 2042-08-03
Also published as: CN116052648A

Abstract

本申请实施例应用于人工智能语音识别领域，提供一种语音识别模型的训练方法、使用方法及训练***。包括获取训练样本；判断样本文本的当前字符种类，当样本文本的当前字符种类为仅中文字符时，利用预设词库对样本文本分词，得到第一分词结果；在字符长度大于1的第一文本单元前***第一标识符，以及在字符长度等于1的第一文本单元前***第二标识符，得到第二分词结果；对每个第一标识符之后的第一文本单元按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本；根据样本音频和第一训练文本训练初始语音识别模型。本申请实施例的技术方案能够将基于字粒度的文本单元伪装成基于词粒度的文本单元，提高语音识别模型的识别效果。

Description

一种语音识别模型的训练方法、使用方法及训练***

技术领域

本申请实施例涉及人工智能语音识别领域，尤其涉及一种语音识别模型的训练方法、使用方法及训练***。

背景技术

自动语音识别技术(Automatic Speech Recognition，ASR)是电子设备通过识别和理解过程将人发出的声音、字节或短语转换为相应的文字或符号，或者给出响应的一种信息技术。语音识别技术已经广泛的应用于日常生活中，示例性的，采用语音识别技术，用户可以通过输入语音的方式在电子设备中输入信息。

传统ASR通常基于词粒度进行建模，由于常见词组有近10万个，对内存和算力的要求非常高，仅适用于在服务器端建模，而端侧ASR通常基于递归神经网络转化器模型基于字粒度进行建模。

但是，端侧ASR基于字粒度建模的语音识别模型无法接收到词语的规则信息，语音识别结果容易出现词语不匹配的问题。

发明内容

本申请实施例提供了一种语音识别模型的训练方法、使用方法及训练***，以解决基于字粒度建模的语音识别模型无法接收到词语的规则信息，语音识别结果容易出现词语不匹配的问题，提高语音识别模型的识别结果。

第一方面，本申请实施例提供了一种语音识别模型的训练方法，包括：获取训练样本；训练样本包括样本音频、以及样本音频对应的样本文本；样本文本包括至少一个字符；字符包括中文字符、英文字符的至少一种；判断样本文本的当前字符种类；字符种类包括：仅中文字符、仅英文字符以及中英文字符；当样本文本的当前字符种类为仅中文字符时，利用预设词库对样本文本进行分词，以得到第一分词结果，第一分词结果包括多个第一文本单元；第一文本单元为样本文本中的与预设词库中的预设词相匹配的第一目标词，和/或者，第一文本单元为样本文本中的除第一目标词以外的第一非目标词；每个第一目标词和每个第一非目标词前设置有分隔符；针对第一分词结果，在字符长度大于1的第一文本单元前***第一标识符，以及在字符长度等于1的第一文本单元前***第二标识符，得到第二分词结果；针对第二分词结果，分别对每个第一标识符之后的第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本；根据样本音频和第一训练文本训练初始语音识别模型，得到训练后的语音识别模型。本申请实施例提供的语音识别模型的训练方法，电子设备通过在样本文本中***第一标识符以及第二标识符的方式，将基于字粒度的文本单元伪装成基于词粒度的文本单元，以更显式的方式使初始语音识别模型区分目标词和非目标词。在不改变原有基于字粒度建模的词表，以及不改变初始语音识别模型的模型结构的情况下，电子设备能够使训练后的语音识别模型学习更多词语和近似句子的信息，提高训练后的语音识别模型的识别效果。

在一种实现方式中，还包括：当样本文本的当前字符种类为仅英文字符时，利用英文子词模型对样本文本进行分词，以得到第三分词结果，第三分词结果包括多个第二文本单元；第二文本单元为样本文本中能被英文子词模型拆分的第二目标词的子词，和/或者，样本文本中不能被英文子词模型拆分的第二非目标词；每个第二文本单元前设置有分隔符；针对第三分词结果，在子词的个数大于1的第二目标词前***第一标识符，以及在子词的个数等于1的第二非目标词前***第二标识符，得到第四分词结果，针对第四分词结果，对每个第二文本单元进行切分，并在切分后的相邻两个第二文本单元前***分隔符，得到第二训练文本；根据样本音频和第二训练文本训练初始语音模型，得到训练后的语音识别模型。采用本实施方式，电子设备能够提高语音识别模型对英文文本的识别效果。

在一种实现方式中，还包括：当样本文本的当前字符种类为中英文字符时，将训练样本拆分为第一子文本以及第二子文本；利用预设词库对第一子文本进行分词，以得到第一分词结果；以及利用英文子词模型对第二子文本进行分词，以得到第三分词结果；针对第一分词结果，在字符长度大于1的第一文本单元前***第一标识符，以及在字符长度等于1的第一文本单元前***第二标识符，以得到第二分词结果；以及，针对第三分词结果，在子词的个数大于1的第二目标词前***第一标识符，以及在子词的个数等于1的第二非目标词前***第二标识符，得到第四分词结果；针对第二分词结果，分别对每个第一标识符之后的第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本，以及针对第四分词结果，对每个第二文本单元进行切分，并在切分后的相邻两个第二文本单元前***分隔符，得到第二训练文本；将第一训练文本以及第二训练文本拼合为第三训练文本；根据样本音频和第三训练文本训练初始语音识别模型，得到训练后的语音识别模型。采用本实施方式，电子设备能够提高语音识别模型对中英文混合模型的识别效果。

在一种实现方式中，判断样本文本的当前字符种类之前，还包括：建立预设词库，预设词库包括至少一个预设词，以及建立英文子词模型，英文子词模型为字节对编码BPE模型。采用本实施方式，电子设备可以在端侧建立预设词库，并在预设词库中设置通用词以及自动语音识别ASR场景词作为预设词，并在端侧建立英文子词模型，以实现端到端的语音识别模型的建立。

在一种实现方式中，利用预设词库对样本文本进行分词，以得到第一分词结果，包括：利用预设词库，确定样本文本中的所有与预设词匹配的第一目标词；分别将每个第一目标词切分为第一文本单元，将样本文本中的除第一目标词以外的第一非目标词切分为第一文本单元。采用本实施方式，电子设备能够确定样本文本的分词方式，以获取第一目标词以及第一非目标词。

在一种实现方式中，利用预设词库对样本文本进行分词，以得到第一分词结果，包括：利用预设词库，确定样本文本中的所有与预设词不匹配的第一非目标词；将样本文本中的所有第一非目标词切分为文本单元。采用本实施方式，电子设备能够获取到第一非目标词。

在一种实现方式中，利用英文子词模型对样本文本进行分词，以得到第三分词结果，包括：利用英文子词模型，确定样本文本中的所有能被英文子词模型拆分的第二目标词的子词，以及确定所有不能被英文子词模型拆分的第二非目标词；分别将每个子词以及每个第二非目标词切分为第二文本单元，并存储在第一列表中。采用本实施方式，电子设备能够确定可被拆分的第二目标词以及不可被拆分的第二非目标词。在一种实现方式中，初始语音识别模型包括输入层、编码层、预测网络层、联合网络层以及输出层；根据样本音频和第一训练文本训练初始语音识别模型，得到训练后的语音识别模型，包括：将样本音频通过输入层输入编码层以获取音频特征向量，以及将第一训练文本通过输入层输入预测网络层以获取文本特征向量；将音频特征向量以及文本特征向量输入联合网络层，以获取拼接特征向量；将拼接特征向量通过语音识别模型的损失函数进行训练并通过输出层输出，得到训练后的语音识别模型。采用本实施方式，电子设备通过语音识别模型学习到样本文本中的第一目标词和第一非目标词，能够提高语音识别模型的识别效果。

在一种实现方式中，初始语音识别模型为递归神经网络转化器RNNT模型。采用本实施方式，RNNT模型能够实现端到端联合优化，具备完善的语言模型建模能力。

在一种实现方式中，分隔符为空格字符。

第二方面，本申请实施例提供了一种语音识别模型的使用方法，获取语音数据；将语音数据输入至如上述第一方面及各个实现方式的语音识别模型的训练方法训练后的语音识别模型，得到识别后的语音数据。

本申请实施例提供的语音识别模型的使用方法，电子设备将语音数据输入训练后的语音识别模型，训练后的语音识别模型能够将语音数据中的词语识别出来，识别准确率高。

在一种实现方式中，识别后的语音数据包括识别后的音频数据对应的识别后的文本数据，识别后的文本数据包括第一标识符、第二标识符以及多个文本单元，第一标识符用于标识文本单元为第一目标词或者第二目标词的子词，第二标识符用于标识文本单元为第一非目标词或者第二非目标词，第一目标词、第二目标词的子词、第一非目标词以及第二非目标词是通过训练后的语音识别模型进行识别得到的；将语音数据输入至如上述第一方面及各个实现方式中的模型训练方法训练后的语音识别模型，得到识别后的语音数据之后，还包括：从识别后的文本数据中删除第一标识符以及第二标识符，得到输出文本数据；输出文本数据用于显示至用户界面。采用本实施方式，电子设备将语音数据输入训练后的语音识别模型，可以通过第一标识符和第二标识符区分目标词和非目标词，并将第一标识符和第二标识符作为词表正常识别出来，在将文本数据显示至用户界面之前，删除第一标识符和第二标识符，仅显示最终的输出文本数据。

第三方面，本申请实施例提供了一种语音识别模型的训练***，包括：获取模块，用于获取训练样本；训练样本包括样本音频、以及样本音频对应的样本文本；样本文本包括至少一个字符，字符包括中文字符、英文字符的至少一种；判断模块，用于判断训练样本的当前字符种类；字符种类包括：仅中文字符、仅英文字符以及中英文字符；分词模块，用于当样本文本的当前字符种类为仅中文字符时，利用预设词库对样本文本进行分词，以得到第一分词结果，第一分词结果包括多个第一文本单元；第一文本单元为样本文本中的与预设词库中的预设词相匹配的第一目标词，和/或者，第一文本单元为样本文本中的除第一目标词以外的第一非目标词；每个第一目标词和每个第一非目标词前设置有分隔符；标识模块，用于针对第一分词结果，在字符长度大于1的第一文本单元前***第一标识符，以及在字符长度等于1的第一文本单元前***第二标识符，得到第二分词结果；切分模块，用于针对第二分词结果，分别对每个第一标识符之后的第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本；训练模块，用于根据样本音频和第一训练文本训练初始语音识别模型，得到训练后的语音识别模型。

本申请实施例提供的语音识别模型的训练***，电子设备通过在样本文本中***第一标识符以及第二标识符的方式，将基于字粒度的文本单元伪装成基于词粒度的文本单元，以更显式的方式使初始语音识别模型区分目标词和非目标词。在不改变原有基于字粒度建模的词表，以及不改变初始语音识别模型的模型结构的情况下，电子设备能够使训练后的语音识别模型学习更多词语和近似句子的信息，提高训练后的语音识别模型的识别效果。

在一种实现方式中，还包括：预设模块，用于建立预设词库；预设词库中包括至少一个预设词，以及建立英文子词模型，英文子词模型为字节对编码BPE模型。采用本实施方式，电子设备可以在端侧建立预设词库，并在预设词库中设置通用词以及自动语音识别ASR场景词作为预设词，并在端侧建立英文子词模型，以实现端到端的语音识别模型的建立。

第四方面，本申请实施例提供了一种电子设备，包括：处理器和存储器；存储器存储有程序指令，当程序指令被处理器执行时，使得电子设备执行如上述第一方面及各个实现方式中任一项的模型训练方法。

第五方面，本申请实施例还提供了一种芯片***，该芯片***包括处理器和存储器，存储器存储有程序指令，当程序指令被处理器执行时，使得芯片***执行上述第一方面及其各个实现方式中的模型训练方法。例如，生成或处理上述方法中所涉及的信息。

第六方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有程序指令，当程序指令在计算机上运行时，使得计算机执行上述第一方面及其各个实现方式中的模型训练方法。

第七方面，本申请实施例还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面及其各个实现方式中的模型训练方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是自动语音识别场景示意图；

图2是基于词粒度的语音识别模型建立方式示意图；

图3是基于字粒度的语音识别模型建立方式示意图；

图4是人工智能通话场景示意图；

图5是本申请实施例提供的电子设备的硬件结构示意图；

图6是本申请实施例的电子设备100的软件结构框图；

图7是本申请实施例提供的语音识别模型的训练方法的一示例性流程图；

图8是本申请实施例提供的一种RNNT模型示意图；

图9是本申请实施例提供的语音识别模型的训练方法的另一示例性流程图；

图10是本申请实施例提供的语音识别模型的训练方法的另一示例性流程图；

图11本申请实施例提供的模型使用方法的一示例性流程图；

图12是本申请实施例提供的一种模型训练***示意图；

图13是本申请实施例一种模型训练装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例的技术方案进行清楚地描述。

在本申请的描述中，除非另有说明，“/”表示“或”的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。此外，“至少一个”是指一个或多个，“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了便于技术人员理解本申请实施例的技术方案，下面先对本申请实施例涉及的技术术语进行解释说明。

1、连接时序分类(Connectionist Temporal Classification，CTC)模型，是一种端到端的语音识别模型，能够对给定的输入序列的所有可能输出路径的条件概率进行建模，实现了不需要强制对齐就能进行序列与序列之间的转换。

2、递归神经网络转化器(Recurrent Neural Network Transducer，RNNT)模型，该模型客服了CTC模型的不足，具有语言建模能力，便于进行端到端联合优化，可进行实时语音识别等，但在识别过程中可能造成信息的丢失。

3、字节对编码(Byte Pair Encoding)算法，是一种简单的数据压缩形式，通常将一对连续字节数据被替换为该数据中不存在的字节，后期使用时通过一个替换表来重建原始数据的算法。

下面首先结合附图对本申请实施例的应用场景进行说明。

图1是自动语音识别场景示意图。如图1所示，自动语音识别技术(AutomaticSpeech Recognition，ASR)是一种将人的语音转换为文本的技术，其性能大致取决于以下因素：识别词汇表的大小和语音的复杂性、语音信号的质量、单人说话或者多人说话以及硬件设置。

图2是基于词粒度的语音识别模型建立方式示意图。如图2所示，尽管常见汉字的数量大约为4000字，但由于汉字具有多种排列组合方式，因此常见词组大约有10万个。如果基于词粒度建立语音识别模型，用于建模的词表会急速膨胀，建模需要较大的内存和较高的算力，导致语音识别模型仅能在服务器端建立。用户在将语音数据发送至在服务器端建立的语音识别模型时，若遇到断网等情况，语音识别模型无法及时响应。

图3是基于字粒度的语音识别模型建立方式示意图。如图3所示，为了降低语音识别模型的响应时间，保证语音数据的隐私，且达到不依赖网络的目的，语音识别模型可以建立在端侧，然而端侧的处理器算力有限，因此通常基于字粒度建立语音识别模型。目前自研端侧的语音识别模型可以采用基于RNNT结构的字粒度建模，并在CTC基础上增加了预测(Predict)函数产生的模型增益以提高识别效果，然而现有的基于字粒度的语音识别模型依然存在识别不准确的情况，例如，“***”识别为“华华公子”。

由此可见，为了解决基于词粒度无法在端侧建模，且基于字粒度的端侧建模识别不准确的问题，本申请实施例提供了一种语音识别模型的训练方法，可以实现端侧的伪词粒度建模，在不改变基于字粒度建模的词表的基础上，能够在端侧达到基于词粒度建模的语音识别模型的识别效果。

这里需要说明的是，端到端的语音识别模型能够将原始语音数据不做任何预处理直接输入至语音识别模型中，最后得到的输出结果若与期望结果有误差，则在反向传播模型的各层中，将输出结果进行优化，直到期望结果结束。非端到端的语音识别模型较于端到端的语音识别模型，需要将原始语音数据进行标注，得到具有特征的处理后的数据，再将处理后的数据作为输入加以识别，如果在此过程中，数据提取时出现错误，则无法进行调整。因此，端到端的语音识别模型可以适用于更多场景。

图4是人工智能(Artificial Intelligence，AI)通话场景示意图。如图4所示，AI语音模型通常采用端到端的语音模型，电子设备接收到外部设备的来电时，获取到外部设备的来电语音，将来电语音输入语音识别模型以获取来电语义，对来电语义通过处理单元进行处理，回复对应于来电语义的回复语义，将回复语义通过语音合成(Text To Speech，TTS)技术生成回复音频，将回复音频输出至外部设备。

本申请提供的语音识别模型的训练方法以及语音识别模型的使用方法适用于如图4所示的AI通话场景，能够提高该场景下语音识别的准确度。需要说明的是，本申请提供的语音识别模型的训练方法包括但不限于应用于AI通话场景。

本申请提供的语音识别模型的训练方法以及语音识别模型的使用方法可以应用于电子设备。其中，电子设备包括但不限于手机、平板电脑、个人电脑、工作站设备、大屏设备(例如：智慧屏、智能电视等)、可穿戴设备(例如：智能手环、智能手表)掌上游戏机、家用游戏机、虚拟现实设备、增强现实设备、混合现实设备等、车载智能终端等。

图5是本申请实施例提供的电子设备的硬件结构示意图。如图5所示，电子设备100可以包括处理器110，存储器120，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，摄像头192，显示屏193，以及用户标识模块(subscriberidentification module，SIM)卡接口194等。其中，传感器模块180可以包括触摸传感器180A，陀螺仪传感器180B，气压传感器180C，地磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J等。其中，陀螺仪传感器180B，气压传感器180C，地磁传感器180D，加速度传感器180E等均可用于检测电子设备的运动状态，因此，也可以被称作运动传感器。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

存储器120可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。存储器120可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在存储器120的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与***设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，存储器120，显示屏193，摄像头192，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏193显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯***(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位***(global positioning system，GPS)，全球导航卫星***(global navigation satellite system，GLONASS)，北斗卫星导航***(beidounavigation satellite system，BDS)，准天顶卫星***(quasi-zenith satellitesystem，QZSS)和/或星基增强***(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏193，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏193和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏193用于显示图像，视频等。显示屏193包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏193，N为大于1的正整数。

电子设备100可以通过ISP，摄像头192，视频编解码器，GPU，显示屏193以及应用处理器等实现拍摄功能。

ISP用于处理摄像头192反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头192中。

摄像头192用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，RYYB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头192，N为大于1的正整数。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

触摸传感器180A，也称“触控器件”。触摸传感器180A可以设置于显示屏193，由触摸传感器180A与显示屏193组成触摸屏，也称“触控屏”。触摸传感器180A用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏193提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180A也可以设置于电子设备100的表面，与显示屏193所处的位置不同。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

地磁传感器180D包括霍尔传感器。电子设备100可以利用地磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据地磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏193不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

SIM卡接口194用于连接SIM卡。SIM卡可以通过***SIM卡接口194，或从SIM卡接口194拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口194可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口194可以同时***多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口194也可以兼容不同类型的SIM卡。SIM卡接口194也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

电子设备100的软件***可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android***为例，示例性说明电子设备100的软件结构。

图6是本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android***分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和***库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图6所示，应用程序包可以包括电池管理、相机，图库，日历，通话，地图，导航，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用程序接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图6所示，应用程序框架层可以包括窗口管理器，输入管理器InputManager，传感器管理器SensorManager，电话管理器，资源管理器，通知管理器等。

输入管理器可以用来监听用户的输入事件，例如用户手指在电子设备100的显示屏193执行的点击事件、滑动事件等。通过监听输入事件，电子设备100可以判断是否正在使用电子设备。

传感器管理器用于监听电子设备中的各个传感器返回的数据，例如运动传感器数据、接近光传感器数据、温度传感器数据等。利用各个传感器返回的数据，电子设备可以判断其是否有抖动，或者显示屏193是否被遮挡等。

Android Runt ime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

***库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子***进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件组合实现。

下面对本申请实施例提供的语音识别模型的训练方法的各步骤进行示例性说明。

图7是本申请实施例提供的语音识别模型的训练方法的一示例性流程图。

如图7所示，该语音识别模型的训练方法可以包括以下步骤的S101-S106。

步骤S101,获取训练样本；训练样本包括样本音频、以及样本音频对应的样本文本；样本文本包括至少一个字符，字符包括中文字符、英文字符的至少一种。

电子设备可以预先建立训练集，并从训练集中获取训练样本，训练集可以为中文语音训练集，也可以为英文语音训练集，训练集中的训练样本可以为专业录制的综合语料，能够实现对音节音子的数量、类型、音调、音连以及韵律等的覆盖，训练样本中的样本音频可以采用WAV音频格式，样本文本可以采用TXT文本格式。本申请对样本音频的音频格式以及样本文本的文本格式不做限制。其中，样本文本包括中文字符、英文字符的至少一种。本申请实施例不限制样本文本的字符种类。样本文本可以为单个词、多个词、单个句子或者多个句子，本申请实施例不限制样本文本的长度。例如，样本文本可以为“我喜欢潮流的衣服”、“Hello world”等。

在一些实施例中，该语音识别模型的训练方法还可以包括以下步骤S100。

步骤S100，建立预设词库；预设词库中包括至少一个预设词，以及建立英文子词模型。其中，英文子词模型可以为BPE模型。

这里需要说明的是，本申请实施例不对建立预设词库的时间进行限制，预设词库可以在步骤S101之前建立，也可以在步骤S101之后建立，其中，预设词库在端侧建立，预设词库中的预设词可以为通用词语和ASR场景词语，示例的，预设词可以为“喜欢”、“潮流”、“衣服”等。

步骤S102，判断样本文本的当前字符种类，字符种类包括：仅中文字符、仅英文字符以及中英文字符。

示例的，样本文本为“我喜欢潮流的衣服”，则当前字符种类为仅中文字符；样本文本为“Hello world”，则当前字符种类为仅英文字符；样本文本为“Hello，世界”，则当前训练样本为中英文字符。

具体实现中，电子设备可以通过识别样本文本中的字节大小以判断样本文本的当前字符种类，进而区分中文字符以及英文字符，如果电子设备识别到当前字符占用的字节数为2，则电子设备可以确定当前字符为中文字符，如果电子设备识别到当前字符占用的字节数为1，则电子设备可以确定当前字符为英文字符。电子设备在识别出样本文本中的当前字符种类后，再将中文字符以及英文字符根据不同的分词方式进行分词。

步骤S103，当样本文本的当前字符种类为仅中文字符时，利用预设词库对样本文本进行分词，以得到第一分词结果，第一分词结果包括多个第一文本单元；第一文本单元为样本文本中的与预设词库中的预设词相匹配的第一目标词，和/或者，第一文本单元为样本文本中的除第一目标词以外的第一非目标词；每个第一目标词和每个第一非目标词前设置有分隔符。

具体实现中，电子设备首先利用预设词库确定样本文本中的所有与预设词匹配的目标词，示例的，样本文本为“我喜欢潮流的衣服”，电子设备将样本文本输入预设词库后，遍历样本文本，查找样本文本中是否包括与预设词匹配的第一目标词，如果预设词库中包括预设词“喜欢”、“潮流”、“衣服”，样本文本中包括与预设词匹配的第一目标词，电子设备可以确定第一目标词“喜欢”、“潮流”、“衣服”为与预设词库中的预设词相匹配，以将第一目标词切分为第一文本单元，同时，电子设备将除第一目标词以外的第一非目标词，即“我”、“的”，切分为第一文本单元。

这里需要说明的是，电子设备仅将匹配成功的第一目标词确定为文本单元以及将匹配不成功的第一非目标词确定为第一文本单元，其界定第一目标词与第一非目标词的方式是通过是否匹配成功划分的，而并不能具体识别第一目标词与第一非目标词的内容含义及自身属性，即电子设备此时无法识别第一目标词的词属性，也无法识别第一非目标词的字属性。

在一些实施例中，当样本文本的当前字符种类为仅中文字符时，电子设备可以通过正向匹配、逆向匹配或者双向匹配的方式将目标词与预设词匹配。示例的，样本文本为“我喜欢潮流的衣服”，当电子设备采用正向匹配方式时，由于中文词较多为字符长度为2的词，电子设备可以将最大匹配长度设置为2，则依据正向匹配方向，电子设备从左至右对样本文本进行匹配，可以得到“我喜”匹配不成功、“喜欢”匹配成功、“潮流”匹配成功、“的衣”匹配不成功、“衣服”匹配成功的结果，以得到第一分词结果“我喜欢潮流的衣服”。

但是该种匹配方式适用场景有限，对于部分字符长度为3的中文词，仅将最大匹配长度设置为2容易导致识别字符长度为3的中文词时准确度不高。

当电子设备采用正向匹配方式时，电子设备可以将最大匹配长度设置为3，以样本文本为“研究生命的起源”为例，依据正向匹配方向，电子设备从左至右对样本文本进行匹配，可以得到“研究生”匹配成功、“命的起”匹配不成功、“的起源”匹配不成功、“起源”匹配成功的结果，以得到第一分词结果“研究生命的起源”。可以发现，电子设备对该样本文本的分词结果与其实际意义有偏差。

当电子设备采用逆向匹配方式且最大匹配长度设置为3时，以样本文本为“研究生命的起源”为例，依据逆向匹配方向，电子设备从右至左对样本文本进行匹配，可以得到“的起源”中“起源”匹配成功、“生命的”匹配不成功、“究生命”中“生命”匹配成功、“研究”匹配成功的结果，以得到第一分词结果“研究生命的起源”。可以发现，电子设备对该样本文本的分词结果趋近于实际意义。

由于中文词的词语规则，逆向匹配常具有更好的效果。然而正向匹配以及逆向匹配均具有局限性，电子设备可以进行双向匹配，即进行一次正向匹配以及进行一次逆向匹配，依据样本文本中字符长度最长的目标词数量最多，字符长度最短的目标词数量最少的原则，选取正向匹配或者逆向匹配的其中一种结果确定为第一分词结果。

在一些实施例中，电子设备确定第一目标词以及第一非目标词后，在每个第一目标词和每个第一非目标词前设置分隔符以实现文本单元的划分。分隔符可以为空格字符。以样本文本为“我喜欢潮流的衣服”为例，其中，第一目标词为“喜欢”、“潮流”、“衣服”，则除第一目标词以外的“我”、“的”为非目标词。电子设备在每个第一目标词以及每个第一非目标词前***空格字符后，第一分词结果为“我喜欢潮流的衣服”。

如果样本文本中不包括与预设词相同的第一目标词，电子设备可以确定样本文本均为第一非目标词。示例的，预设词不包括“喜欢”、“潮流”、“衣服”，则电子设备可以确定“喜”、“欢”、“潮”、“流”、“衣”、“服”等字符均为第一非目标词；电子设备在每个第一非目标词前***空格字符，第一分词结果为“我喜欢潮流的衣服”。

步骤S104，针对第一分词结果，在字符长度大于1的第一文本单元前***第一标识符，以及在字符长度等于1的第一文本单元前***第二标识符，得到第二分词结果。

由于第一分词结果中每两个分隔符之间为一个第一文本单元，电子设备需要通过字符长度来确定第一标识符以及第二标识符的***位置。由于预设词库中的预设词的字符长度均大于1，因此，电子设备得到的第一分词结果中，匹配成功的第一目标词的字符长度大于1，即第一文本单元的字符长度等于1，第一标识符***字符长度大于1的文本单元前，可以用于标识第一目标词；匹配不成功的第一非目标词的字符长度等于1，即第一文本单元的字符长度等于1，第二标识符***字符长度等于1的第一文本单元前，可以用于标识第一非目标词。标识符是指用来标识某个实体的一个符号，可用于给变量、常量、函数以及语句块等命名，以建立名称与使用的关系，标识符通常由字母、数字以及其它字符构成。示例性的，本申请实施例中，第一标识符可以设置为[PH]、第二标识符可以设置为[CH]。本申请的标识符仅用于示例性说明，具体实现中还可以采用其他形式的标识符。

以第一分词结果为“我喜欢潮流的衣服”为例，电子设备获取到的第一文本单元包括：“我”、“喜欢”、“潮流”、“的”、“衣服”等五个第一文本单元，其中，“喜欢”、“潮流”、“衣服”等第一文本单元的字符长度大于1，电子设备在“喜欢”、“潮流”、“衣服”等第一文本单元前***第一标识符。“我”、“的”等两个第一文本单元的字符长度等于1，电子设备在“我”、“的”等第一文本单元前***第二标识符，得到第二分词结果“[CH]我[PH]喜欢[PH]潮流[CH]的[PH]衣服”。

以第一分词结果为“潮流衣服”为例，电子设备获取到的第一文本单元包括“潮流”、“衣服”等两个第一文本单元，其中，两个第一文本单元的字符长度均大于1，电子设备在每个第一文本单元前均***第一标识符，得到第二分词结果“[PH]潮流[PH]衣服”。

以第一分词结果为“我的衣”为例，电子设备获取到的第一文本单元包括“我”、“的”、“衣”等三个第一文本单元，其中，三个第一文本单元的字符长度均等于1，电子设备在每个第一文本单元前均***第二标识符，得到第二分词结果“[CH]我[CH]的[CH]衣”。

这里需要说明的是，第一分词结果包括以下几种形式：仅包括字符长度大于1的第一文本单元、仅包括字符长度等于1的第一文本单元以及既包括字符长度大于1的第一文本单元又包括字符长度等于1的第一文本单元。相应的，电子设备在第一分词结果中存在仅***第一标识符，仅***第二标识符，以及既***第一标识符又***第二标识符的几种情况。电子设备在第一分词结果中仅***第一标识符时，说明样本文本是由多个词语组成的，例如“喜欢潮流衣服”，此类样本文本可以用于使语音识别模型一次训练学习到多个词语，当电子设备在第一分词结果中仅***第二标识符时，说明样本文本是有多个非词语组成的，例如“我不饿”，此类样本文本可以使语音识别模型学习到字符“我”、“不”、“饿”相邻两个字符不存在词语，加强非词语与非词语之间的划分，当电子设备在第一分词结果中既***第一标识符又***第二标识符时，说明样本文本是由词语和非词语组成的，例如“我喜欢潮流的衣服”，此类样本文本可以使语音识别模型同时学习到词语以及非词语，加强词语与非词语之间的划分。

步骤S105，针对第二分词结果，分别对每个第一标识符之后的第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本。

在一些实施例中，以第二分词结果为“[CH]我[PH]喜欢[PH]潮流[CH]的[PH]衣服”为例，第一标识符后的第一文本单元包括“喜欢”、“潮流”、“衣服”，对这些第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本“[CH]我[PH]喜欢[PH]潮流[CH]的[PH]衣服”。

由于第二分词结果中可能存在不包括第一标识符的情况，因此，在一些实施例中，电子设备在***第一标识符以及***第二标识符以前，还可以判断第一分词结果中是否仅包括字符长度等于1的第一文本单元，如果第一分词结果中仅包括字符长度等于1的文本单元，电子设备在执行步骤S104后，跳过执行步骤S105，直接执行步骤S106，即当第一分词结果仅包括字符长度等于1的文本单元时，电子设备直接将第二分词结果确定为第一训练文本，执行步骤S106。

示例的，第二分词结果为“[CH]我[CH]不[CH]饿”时，电子设备将“[CH]我[CH]不[CH]饿”确定为第一训练文本。

步骤S106，根据样本音频和第一训练文本训练初始语音识别模型，得到训练后的语音识别模型。

在一些实施例中，初始语音识别模型为RNNT模型，初始语音模型包括输入层、编码层(Encoder)、预测网络层(Predict Network)、联合网络层(Joint Network)以及输出层。

图8是本申请实施例提供的一种RNNT模型示意图。如图8所示，本申请实施例采用RNNT模型的Transducer模型结构，该模型包含了语言模型，具有天然的流式解码结果，能够预测出音频中的语种，声纹等信息。

电子设备将样本音频通过输入层输入编码层以获取音频特征向量，以及将样本文本通过输入层输入预测网络层以获取文本特征向量，进一步的，电子设备将音频特征向量以及文本特征向量输入联合网络层，以获取拼接特征向量，电子设备将拼接特征向量通过RNNT模型的损失函数进行训练并通过输出层输出，得到训练后的语音识别模型。

示例的，以样本文本为“[CH]我[PH]喜欢[PH]潮流[CH]的[PH]衣服”为例，电子设备将样本文本通过输入层输入预测网络层获取文本特征向量的过程中，尽管预测网络层采用的实际建模方式是基于字粒度建模，但是由于样本文本中第一标识符以及第二标识符的存在，预测网络层可以确定第一标识符[PH]后面的“喜欢”、“潮流”、“衣服”为词语，同时确定第二标识符[CH]后面的“我”、“的”为非词语，因此，预测网络层被强制性学习词语信息。当前词表即使并非为基于词粒度建立的词表，仅是基于字粒度建立的词表，预测网络层同样可以学习到更多词语，加强对于词语的辨识。

具体实现中，电子设备首先对样本音频进行分帧处理，得到对应的语音序列，然后再对分帧后的语音序列进行预加重，进而再依次提取出每一帧的声学特征，其中，该声学他正指的是用于表征对应语音帧的声纹信息的特征数据，比如，可以是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficienys，MFCC)或者对数梅尔滤波器组(Log Mel-filterbank，FBANK)特征等，然后将声纹信息的特征数据通过输入层输入编码层，得到样本音频对应的音频特征向量。电子设备将样本文本通过输入层输入预测网络层能够得到样本文本中每个字符对应的字符概率分布，样本文本对应的字符概率分布的具体格式可以根据实际情况(例如根据识别网络模型的架构或者字符所属语种)，本申请实施例对此不做限定，示例的，当样本文本的当前字符种类为仅中文字符，且样本文本中所有中文字符的数量为M(M为大于1的整数)个时，样本文本对应的文本特征向量可以为一个M维的向量。

这里需要注意的是，文本特征向量作为M维的向量，实质是每个字符的向量，也就是说，本申请实施例中，RNNT模型是基于字向量而并非是基于词向量进行计算的。这样，电子设备实际上是基于字粒度的字向量的计算方式而达到了伪词粒度的计算结果。

本申请实施例中的语音识别模型是在基于注意力机制的神经网络模型的基础上，结合RNNT损失约束函数训练得到的神经网络模型，能够通过RNNT损失约束函数显示的对输入特征与输出字符之间做对齐约束，以提升模型的泛化能力和识别效果，提升语音识别模型的准确率。

本申请实施例提供的语音识别模型的训练方法，电子设备通过在样本文本中***第一标识符以及第二标识符的方式，将基于字粒度的文本单元伪装成基于词粒度的文本单元，以更显式的方式使初始语音识别模型区分目标词和非目标词。在不改变原有基于字粒度建模的词表，以及不改变初始语音识别模型的模型结构的情况下，电子设备能够使训练后的语音识别模型学习更多词语和近似句子的信息，提高训练后的语音识别模型的识别效果。

此外，本申请实施例中，电子设备将基于字粒度的文本单元伪装成基于词粒度建模的文本单元，不仅可以提高中文语音的识别准确度，避免“***”识别为“华华公子”，还可以提高英文语音以及中英文混合语音的识别准确度。

图9是本申请实施例提供的语音识别模型的训练方法的另一示例性流程图。

如图9所示，该语音识别模型的训练方法在步骤S102以后，还可以包括以下步骤的S107-S110。

步骤S107，当样本文本的当前字符种类为仅英文字符时，利用英文子词模型对样本文本进行分词，以得到第三分词结果，第三分词结果包括多个第二文本单元；第二文本单元为样本文本中能被英文子词模型拆分的第二目标词的子词，和/或者，样本文本中不能被英文子词模型拆分的第二非目标词。

具体实现中，电子设备将样本文本输入英文子词模型后，英文子词模型将可拆分的词语确定为第二目标词进行拆分，将无法拆分的词语确定为第二非目标词进行输出，将拆分后的第二目标词和第二非目标词存入第一列表，示例的，样本文本为“Hello world”，其中“Hello”可以被拆分为子词“He”和“llo”。而“world”无法被拆分，则第二文本单元可以为样本文本中能被英文子词模型拆分的第二目标词的子词“He”和“llo”，以及不能被英文子词模型拆分的第二非目标词“world”。第三分词结果可以为存入第一列表的子词和第二非目标词，即{“He”，“llo”，“world”}。

本申请实施例中，电子设备可以采用BPE模型进行分词，基于BPE模型分词需要先将样本文本中的每个英文词切分成字符作为子词，并在每个英文词结尾增加一个</w>字符，用切分的子词构成初始子词词表，在样本文本中统计英文词内相邻子词对的频次，合并频次最高的子词对，以合并为新的子词，并将新的子词加入到子词词表，重复统计相邻子词对的频次的步骤以及合并子词对的步骤，直到达到了设定的合并次数或者达到了设定的子词词表的大小。这里需要说明的是，本申请实施例包括但不限于采用BPE模型进行分词。

步骤S108，针对第三分词结果，在子词的个数大于1的第二目标词前***第一标识符，以及在子词的个数等于1的第二非目标词前***第二标识符，得到第四分词结果。

以第三分词结果为{“He”，“llo”，“world”}为例，其中，可以被拆分的第二目标词为“Hello”，其子词为“He”、“llo”，个数为2，第二非目标词“world”不能被拆分，即子词个数等于1，***第一标识符[PH]以及第二标识符[CH]后，第四分词结果可以为“[PH]Hello[CH]world”。

步骤S109，针对所第四分词结果，对每个第二文本单元进行切分，并在切分后的相邻两个第二文本单元前***分隔符，得到第二训练文本；

以第四分词结果为“[PH]Hello[CH]world”为例，其中，第二文本单元包括“He”、“llo”以及“world”，对每个第二文本单元进行切分，并在切分后的相邻两个第二文本单元之间***分隔符，得到第二训练文本为“[PH]He llo[CH]world”。

步骤S110，根据样本音频和第二训练文本训练初始语音模型，得到训练后的语音识别模型。

该步骤具体实施方式可以参照步骤S106。

图10是本申请实施例提供的语音识别模型的训练方法的另一示例性流程图。

如图10所示，该语音识别模型的训练方法在步骤S102以后，还可以包括以下步骤的S111-S116。

步骤S111，当样本文本的当前字符种类为中英文字符时，将样本文本拆分为第一子文本以及第二子文本，第一子文本用于记录样本文本中的所有中文字符；第二子文本用于记录样本文本中的所有英文字符；

示例的，当样本文本的当前字符为“Hello，世界”时，第一子文本用于记录“世界”，第二子文本用于记录“Hello”。

步骤S112，利用预设词库对第一子文本进行分词，以得到第一分词结果；以及利用英文子词模型对第二子文本进行分词，以得到第三分词结果。

其中，利用预设词库对第一子文本进行分词的步骤可以参见步骤S103，利用英文子词模型对第二子文本进行分词的步骤可以参见步骤S106。

步骤S113，针对第一分词结果，在字符长度大于1的第一文本单元前***第一标识符，以及在字符长度等于1的第一文本单元前***第二标识符，以得到第二分词结果；以及，针对第三分词结果，在子词的个数大于1的第二目标词前***第一标识符，以及在子词的个数等于1的第二非目标词前***第二标识符，得到第四分词结果。

该步骤的具体实现方式可以参见步骤S104，以及步骤S107。

步骤S114，针对第二分词结果，分别对每个第一标识符之后的第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本；以及针对第四分词结果，对每个第二文本单元进行切分，并在切分后的相邻两个第二文本单元前***分隔符，得到第二训练文本。

该步骤的具体实现方式可以参见步骤S105，以及步骤S108。

步骤S115，将第一训练文本以及第二训练文本拼合为第三训练文本。

示例的，第一训练文本为“[PH]世界”，第二训练文本为“[PH]He llo”，则第三训练文本为“[PH]He llo[PH]世界”。

步骤S116，根据样本音频和第三训练文本训练初始语音识别模型，得到训练后的语音识别模型。

具体实现方式可以参见步骤S106。

BPE模型分词过程中，电子设备对于英文词语的切分以及恢复，容易产生拼接错误。以英文词语“Hello”为例，将该英文词语切分并恢复后，容易识别为“He lo”，采用本申请示出的实施方式，切分过程中，由于“Hello”前已经***了第一标识符[PH]，因此，电子设备可以确定“[PH]He llo”为一个单词，由于该单词与下一个单词之间还存在其他标识符，而“He”和“llo”之间不存在其他标识符，因此电子设备不会将“He”误认为一个单词进行切分，导致切分以及恢复过程中产生的拼接错误。由于本申请实施例可以基于字粒度实现中文语音的识别，英文语音的识别以及中英文混合语音的识别，因此，本申请实施例相较于仅用于中文语音识别的语音识别模型、仅用于英文语音识别的语音识别模型，能够应用于更多语音识别场景。

下面对本申请实施例提供的语音识别模型的使用方法的各步骤进行示例性说明。

图11本申请实施例提供的语音识别模型的使用方法的一示例性流程图。

如图11所示，该模型使用方法可以包括以下步骤的S201-S202。

步骤S201，获取语音数据。

其中，语音数据可以根据实际需要，通过录音等方式获取，示例的，用户日常生活中的电话录音或者会议录音等均可以作为语音数据，进而通过本实施例示出的技术方案实现对语音数据的识别。

步骤S202，将语音数据输入至如上述语音识别模型的训练方法的各个实施例的训练后的语音识别模型，得到识别后的语音数据。

在一些实施例中，识别后的语音数据包括识别后的音频数据对应的识别后的文本数据，识别后的文本数据包括第一标识符、第二标识符以及多个文本单元，第一标识符用于标识文本单元为第一目标词或者第二目标词的子词，第二标识符用于标识文本单元为第一非目标词或者第二非目标词，第一目标词、第二目标词的子词、第一非目标词以及第二非目标词是通过训练后的语音识别模型进行识别得到的。

具体实现中，电子设备获取语音数据，将语音数据通过输入层输入编码层，并将联合网络层的历史输出作为预测网络层的输入，以用户的语音数据为“我喜欢潮流的衣服”为例，则联合网络层的历史输出即为训练样本“[CH]我[PH]喜欢[PH]潮流[CH]的[PH]衣服”训练后的输出，此时，电子设备识别后的文本数据为“[CH]我[PH]喜欢[PH]潮流[CH]的[PH]衣服”，其中，识别后的文本数据包括多个第一标识符[PH]，多个第二标识符[CH]，以及多个文本单元“我”、“喜欢”、“潮流”、“的”、“衣服”。第一标识符[PH]可以标识文本单元“喜欢”、“潮流”、“衣服”为第一目标词。第二标识符[CH]用于标识文本单元“我”、“的”为第一非目标词。

示例的，电子设备识别后的文本数据为“[PH]He llo[CH]world”，第一标识符[PH]可以标识文本单元“He”、“llo”为第二目标词的子词，第二标识符[CH]用于标识文本单元“world”为第二非目标词。

在一些实施例中，由于识别后的文本数据中，电子设备会将第一标识符以及第二标识符作为词表识别出来，因此，电子设备将语音数据输入至如上述语音识别模型的训练方法的各个实施例的训练后的语音识别模型，得到识别后的语音数据之后，还包括：从识别后的文本数据中删除第一标识符以及第二标识符，得到输出文本数据；输出文本数据用于显示至用户界面。

上述本申请提供的实施例中，从电子设备本身、以及电子设备与用户交互的角度对本申请提供的模型训练方法的各方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图12是本申请实施例提供的一种语音识别模型的训练***示意图。

在一些实施例中，语音识别模型的训练***包括：

获取模块301，用于获取训练样本；训练样本包括样本音频、以及样本音频对应的样本文本；样本文本包括至少一个字符；字符包括中文字符、英文字符的至少一种。

判断模块302，用于判断样本文本的当前字符种类；字符种类包括：仅中文字符、仅英文字符以及中英文字符。

分词模块303，用于当样本文本的当前字符种类为仅中文字符时，利用预设词库对样本文本进行分词，以得到第一分词结果，第一分词结果包括多个第一文本单元；第一文本单元为样本文本中的与预设词库中的预设词相匹配的第一目标词，和/或者，第一文本单元为样本文本中的除目标词以外的第一非目标词；每个第一目标词和每个第一非目标词前设置有分隔符；

标识模块304，用于针对第一分词结果，在字符长度大于1的第一文本单元前***第一标识符，以及在字符长度等于1的第一文本单元前***第二标识符，得到第二分词结果；

切分模块305，用于针对第二分词结果，分别对每个第一标识符之后的第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本；

训练模块306，用于根据样本音频和第一训练文本训练初始语音识别模型，得到训练后的语音识别模型。

在一种实现方式中，还包括：预设模块307，用于建立预设词库；预设词库中包括至少一个预设词，以及建立英文子词模型，所述英文子词模型为字节对编码BPE模型。采用本实施方式，电子设备可以在端侧建立预设词库，并在预设词库中设置通用词以及自动语音识别ASR场景词作为预设词，以实现端到端的语音识别模型的建立。

在一种实现方式中，分词模块303，还用于当样本文本的当前字符种类为仅英文字符时，利用英文子词模型对样本文本进行分词，以得到第三分词结果，第三分词结果包括多个第二文本单元；第二文本单元为样本文本中能被英文子词模型拆分的第二目标词的子词，和/或者，样本文本中不能被英文子词模型拆分的第二非目标词；每个第二文本单元前设置有分隔符；

标识模块304，还用于针对第三分词结果，在子词的个数大于1的第二目标词前***第一标识符，以及在子词的个数等于1的第二非目标词前***第二标识符，得到第四分词结果；

切分模块305，还用于针对第四分词结果，对每个第二文本单元进行切分，并在切分后的相邻两个第二文本单元前***分隔符，得到第二训练文本；

训练模块306，还用于根据样本音频和第二训练文本训练初始语音模型，得到训练后的语音识别模型。

采用本实施方式，电子设备能够确定样本文本的分词方式，以获取目标词以及非目标词。

在一种实现方式中，还包括：拆分模块308，用于当样本文本的当前字符种类为中英文字符时，将样本文本拆分为第一子文本以及第二子文本；

合成模块309，用于将第一训练文本以及第二训练文本拼合为第三训练文本；

训练模块306，还用于根据样本音频和第三训练文本训练初始语音识别模型，得到训练后的语音识别模型。

图13是本申请实施例一种模型训练装置的结构示意图。

在一些实施例中，电子设备可以通过图13所示的硬件装置实现相应的功能。如图13所示，该截屏装置可以包括：存储器401和处理器402。

在一种实现方式中，处理器402可以包括一个或多个处理单元，例如，处理器402可以包括应用处理器，控制器，视频编解码器，数字信号处理器，和/或神经网络网络处理器等，其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。存储器401与处理器402耦合，用于存储各种软件程序和/或多组指令。在一些实施例中，存储器401可包括易失性存储器和/或非易失性存储器。

在一些实施例中，当存储器401中的软件程序和/或多组指令被处理器402运行时，使得电子设备用于执行如下方法步骤：

获取训练样本；训练样本包括样本音频、以及样本音频对应的样本文本；样本文本包括至少一个字符；字符包括中文字符、英文字符的至少一种；

判断样本文本的当前字符种类；字符种类包括：仅中文字符、仅英文字符以及中英文字符；

当样本文本的当前字符种类为仅中文字符时，利用预设词库对样本文本进行分词，以得到第一分词结果，第一分词结果包括多个第一文本单元；第一文本单元为样本文本中的与预设词库中的预设词相匹配的第一目标词，和/或者，第一文本单元为样本文本中的除第一目标词以外的第一非目标词第一目标词；每个第一目标词和每个第一非目标词第一目标词前设置有分隔符；

针对第一分词结果，在字符长度大于1的第一文本单元前***第一标识符，以及在字符长度等于1的第一文本单元前***第二标识符，得到第二分词结果；

针对第二分词结果，分别对每个第一标识符之后的第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到训练文本；

根据样本音频和训练文本训练初始语音识别模型，得到训练后的语音识别模型。

当样本文本的当前字符种类为仅英文字符时，利用英文子词模型对样本文本进行分词，以得到第三分词结果，第三分词结果包括多个第二文本单元；第二文本单元为样本文本中能被英文子词模型拆分的第二目标词的子词，和/或者，样本文本中不能被英文子词模型拆分的第二非目标词；

针对第三分词结果，在子词的个数大于1的第二目标词前***第一标识符，以及在子词的个数等于1的第二非目标词前***第二标识符，得到第四分词结果；

针对第四分词结果，对每个第二文本单元进行切分，并在切分后的相邻两个第二文本单元前***分隔符，得到第二训练文本；

根据样本音频和第二训练文本训练初始语音模型，得到训练后的语音识别模型。

当样本文本的当前字符种类为中英文字符时，将样本文本拆分为第一子文本以及第二子文本；第一子文本用于记录样本文本中的所有中文字符；第二子文本用于记录样本文本中的所有英文字符；

利用预设词库对第一子文本进行分词，以得到第一分词结果；以及利用英文子词模型对第二子文本进行分词，以得到第三分词结果；

针对第一分词结果，在字符长度大于1的第一文本单元前***第一标识符，以及在字符长度等于1的第一文本单元前***第二标识符，以得到第二分词结果；以及，针对第三分词结果，在子词的个数大于1的第二目标词前***第一标识符，以及在子词的个数等于1的第二非目标词前***第二标识符，得到第四分词结果；

针对第二分词结果，分别对每个第一标识符之后的第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本；以及针对第四分词结果，对每个第二文本单元进行切分，并在切分后的相邻两个第二文本单元前***分隔符，得到第二训练文本；

将第一训练文本以及第二训练文本拼合为第三训练文本；

根据样本音频和第三训练文本训练初始语音识别模型，得到训练后的语音识别模型。

建立预设词库，预设词库包括至少一个预设词，以及建立英文子词模型，英文子词模型为字节对编码BPE模型。在一些实施例中，当存储器401中的软件程序和/或多组指令被处理器402运行时，使得电子设备用于执行如下方法步骤：

利用预设词库，确定样本文本中的所有与预设词匹配的第一目标词；

分别将每个第一目标词切分为第一文本单元，将样本文本中的除第一目标词以外的第一非目标词切分为第一文本单元。

利用预设词库，确定样本文本中的所有与预设词不匹配的第一非目标词；将样本文本中的所有第一非目标词切分为第一文本单元。

利用英文子词模型，确定样本文本中的所有能被英文子词模型拆分的第二目标词的子词，以及确定所有不能被英文子词模型拆分的第二非目标词；

分别将每个子词以及每个第二非目标词切分为第二文本单元，并存储在第一列表中。

在一些实施例中，初始语音识别模型包括输入层、编码层、预测网络层、联合网络层以及输出层；当存储器401中的软件程序和/或多组指令被处理器402运行时，使得电子设备用于执行如下方法步骤：

根据样本音频和第一训练文本训练初始语音识别模型，得到训练后的语音识别模型，包括：

将样本音频通过输入层输入编码层以获取音频特征向量，以及将第一训练文本通过输入层输入预测网络层以获取文本特征向量；

将音频特征向量以及文本特征向量输入联合网络层，以获取拼接特征向量；

将拼接特征向量通过语音识别模型的损失函数进行训练并通过输出层。

本申请还提供了一种芯片***。该芯片***包括处理器，用于支持上述装置或设备实现上述方面中所涉及的功能，例如，生成或处理上述方法中所涉及的信息。在一种可能的设计中，芯片***还包括存储器，用于保存上述装置或设备必要的程序指令和数据。该芯片***，可以由芯片构成，也可以包含芯片和其他分立器件。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有程序指令，当程序指令在计算机上运行时，使得计算机执行上述各方面及其各个实现方式中的方法。

本申请实施例还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面及其各个实现方式中的方法。

应理解，在本申请实施例的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对实施例的实施过程构成任何限定。

本说明书的各个部分均采用递进的方式进行描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点介绍的都是与其他实施例不同之处。尤其，对于装置和***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例部分的说明即可。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种语音识别模型的训练方法，其特征在于，包括：

获取训练样本；所述训练样本包括样本音频、以及所述样本音频对应的样本文本；所述样本文本包括至少一个字符；所述字符包括中文字符、英文字符的至少一种；

判断所述样本文本的当前字符种类；所述字符种类包括：仅中文字符、仅英文字符以及中英文字符；

当所述样本文本的当前字符种类为仅中文字符时，利用预设词库对所述样本文本进行分词，以得到第一分词结果，所述第一分词结果包括多个第一文本单元；所述第一文本单元为所述样本文本中的与所述预设词库中的预设词相匹配的第一目标词，和/或者，所述第一文本单元为所述样本文本中的除所述第一目标词以外的第一非目标词；每个所述第一目标词和每个所述第一非目标词前设置有分隔符；

针对所述第一分词结果，在字符长度大于1的所述第一文本单元前***第一标识符，以及在字符长度等于1的所述第一文本单元前***第二标识符，得到第二分词结果；

针对所述第二分词结果，分别对每个所述第一标识符之后的所述第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本；

根据所述样本音频和所述第一训练文本训练初始语音识别模型，得到训练后的语音识别模型，其中，所述第一训练文本是基于每个字符的字向量对所述初始语音识别模型进行训练的。

2.根据权利要求1所述的语音识别模型的训练方法，其特征在于，还包括：

当所述样本文本的当前字符种类为仅英文字符时，利用英文子词模型对所述样本文本进行分词，以得到第三分词结果，所述第三分词结果包括多个第二文本单元；所述第二文本单元为所述样本文本中能被所述英文子词模型拆分的第二目标词的子词，和/或者，所述样本文本中不能被所述英文子词模型拆分的第二非目标词；

针对所述第三分词结果，在所述子词的个数大于1的所述第二目标词前***第一标识符，以及在所述子词的个数等于1的所述第二非目标词前***第二标识符，得到第四分词结果；

针对所述第四分词结果，对每个所述第二文本单元进行切分，并在切分后的相邻两个所述第二文本单元之间***分隔符，得到第二训练文本；

根据所述样本音频和所述第二训练文本训练初始语音模型，得到训练后的语音识别模型。

3.根据权利要求2所述的语音识别模型的训练方法，其特征在于，还包括：

当所述样本文本的当前字符种类为中英文字符时，将所述样本文本拆分为第一子文本以及第二子文本；所述第一子文本用于记录所述样本文本中的所有所述中文字符；所述第二子文本用于记录所述样本文本中的所有所述英文字符；

利用所述预设词库对所述第一子文本进行分词，以得到所述第一分词结果；以及利用所述英文子词模型对所述第二子文本进行分词，以得到第三分词结果；

针对所述第一分词结果，在字符长度大于1的所述第一文本单元前***第一标识符，以及在字符长度等于1的所述第一文本单元前***第二标识符，以得到所述第二分词结果；以及，针对所述第三分词结果，在所述子词的个数大于1的所述第二目标词前***第一标识符，以及在所述子词的个数等于1的所述第二非目标词前***第二标识符，得到第四分词结果；

针对所述第二分词结果，分别对每个所述第一标识符之后的所述第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到所述第一训练文本；以及针对所述第四分词结果，对每个所述第二文本单元进行切分，并在切分后的相邻两个所述第二文本单元前***分隔符，得到第二训练文本；

将所述第一训练文本以及所述第二训练文本拼合为第三训练文本；

根据所述样本音频和所述第三训练文本训练初始语音识别模型，得到训练后的语音识别模型。

4.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述判断所述样本文本的当前字符种类之前，还包括：

建立所述预设词库，所述预设词库包括至少一个所述预设词，以及建立英文子词模型，所述英文子词模型为字节对编码BPE模型。

5.根据权利要求4所述的语音识别模型的训练方法，其特征在于，所述利用预设词库对所述样本文本进行分词，以得到第一分词结果，包括：

利用预设词库，确定所述样本文本中的所有与所述预设词匹配的所述第一目标词；

分别将每个所述第一目标词切分为所述第一文本单元，将所述样本文本中的除所述第一目标词以外的第一非目标词切分为所述第一文本单元。

6.根据权利要求5所述的语音识别模型的训练方法，其特征在于，所述利用预设词库对所述样本文本进行分词，以得到第一分词结果，包括：

利用预设词库，确定所述样本文本中的所有与所述预设词不匹配的所述第一非目标词；将所述样本文本中的所有所述第一非目标词切分为所述第一文本单元。

7.根据权利要求2所述的语音识别模型的训练方法，其特征在于，所述利用英文子词模型对所述样本文本进行分词，以得到第三分词结果，包括：

利用英文子词模型，确定所述样本文本中的所有能被英文子词模型拆分的第二目标词的子词，以及确定所有不能被英文子词模型拆分的所述第二非目标词；

分别将每个所述子词以及每个所述第二非目标词切分为所述第二文本单元，并存储在第一列表中。

8.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述初始语音识别模型包括输入层、编码层、预测网络层、联合网络层以及输出层；

所述根据所述样本音频和所述第一训练文本训练初始语音识别模型，得到训练后的语音识别模型，包括：

将所述样本音频通过所述输入层输入所述编码层以获取音频特征向量，以及将所述第一训练文本通过所述输入层输入所述预测网络层以获取文本特征向量；

将所述音频特征向量以及所述文本特征向量输入所述联合网络层，以获取拼接特征向量；

将所述拼接特征向量通过所述语音识别模型的损失函数进行训练并通过所述输出层输出，得到所述训练后的语音识别模型。

9.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述初始语音识别模型为递归神经网络转化器RNNT模型。

10.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述分隔符为空格字符。

11.一种语音识别模型的使用方法，其特征在于，包括：

获取语音数据；

将所述语音数据输入至如权利要求1-10任一项所述的语音识别模型的训练方法训练后的语音识别模型，得到识别后的语音数据。

12.根据权利要求11所述的语音识别模型的使用方法，其特征在于，所述识别后的语音数据包括识别后的音频数据对应的识别后的文本数据，所述识别后的文本数据包括第一标识符、第二标识符以及多个文本单元，所述第一标识符用于标识所述文本单元为第一目标词或者第二目标词的子词，所述第二标识符用于标识所述文本单元为第一非目标词或者第二非目标词，所述第一目标词、所述第二目标词的子词、所述第一非目标词以及所述第二非目标词是通过所述训练后的语音识别模型进行识别得到的；

将所述语音数据输入至如权利要求1-10任一项所述的语音识别模型的训练方法训练后的语音识别模型，得到识别后的语音数据之后，还包括：

从所述识别后的文本数据中删除所述第一标识符以及所述第二标识符，得到输出文本数据；所述输出文本数据用于显示至用户界面。

13.一种语音识别模型的训练***，其特征在于，包括：

获取模块，用于获取训练样本；所述训练样本包括样本音频、以及所述样本音频对应的样本文本；所述样本文本包括至少一个字符；所述字符包括中文字符、英文字符的至少一种；

判断模块，用于判断所述样本文本的当前字符种类；所述字符种类包括：仅中文字符、仅英文字符以及中英文字符；

分词模块，用于当所述样本文本的当前字符种类为仅中文字符时，利用预设词库对所述样本文本进行分词，以得到第一分词结果，所述第一分词结果包括多个第一文本单元；所述第一文本单元为所述样本文本中的与所述预设词库中的预设词相匹配的第一目标词，和/或者，所述第一文本单元为所述样本文本中的除所述第一目标词以外的第一非目标词；每个所述第一目标词和每个所述第一非目标词前设置有分隔符；

标识模块，用于针对所述第一分词结果，在字符长度大于1的所述第一文本单元前***第一标识符，以及在字符长度等于1的所述第一文本单元前***第二标识符，得到第二分词结果；

切分模块，用于针对所述第二分词结果，分别对每个所述第一标识符之后的所述第一文本单元进行按字切分，并在切分后的相邻两个字符之间***分隔符，得到第一训练文本；

训练模块，用于根据所述样本音频和所述第一训练文本训练初始语音识别模型，得到训练后的语音识别模型，其中，所述第一训练文本是基于每个字符的字向量对所述初始语音识别模型进行训练的。

14.根据权利要求13所述的语音识别模型的训练***，其特征在于，

所述分词模块，还用于当所述样本文本的当前字符种类为仅英文字符时，利用英文子词模型对所述样本文本进行分词，以得到第三分词结果，所述第三分词结果包括多个第二文本单元；所述第二文本单元为所述样本文本中能被所述英文子词模型拆分的第二目标词的子词，和/或者，所述样本文本中不能被所述英文子词模型拆分的第二非目标词；

所述标识模块，还用于针对所述第三分词结果，在所述子词的个数大于1的所述第二目标词前***第一标识符，以及在所述子词的个数等于1的所述第二非目标词前***第二标识符，得到第四分词结果；

所述切分模块，还用于针对所述第四分词结果，对每个所述第二文本单元进行切分，并在切分后的相邻两个所述第二文本单元前***分隔符，得到第二训练文本；

所述训练模块，还用于根据所述样本音频和所述第二训练文本训练初始语音模型，得到训练后的语音识别模型。

15.根据权利要求14所述的语音识别模型的训练***，其特征在于，还包括：

拆分模块，用于当所述样本文本的当前字符种类为中英文字符时，将所述样本文本拆分为第一子文本以及第二子文本；

合成模块，用于将所述第一训练文本以及所述第二训练文本拼合为第三训练文本；

所述训练模块，还用于根据所述样本音频和所述第三训练文本训练初始语音识别模型，得到训练后的语音识别模型。

16.根据权利要求13所述的语音识别模型的训练***，其特征在于，还包括：

预设模块，用于建立所述预设词库，所述预设词库包括至少一个所述预设词，以及建立英文子词模型，所述英文子词模型为字节对编码BPE模型。

17.一种电子设备，其特征在于，包括：处理器和存储器；所述存储器存储有程序指令，当所述程序指令被所述处理器执行时，使得所述电子设备执行权利要求1-10任一项所述的语音识别模型的训练方法。