CN113314105A

CN113314105A - 语音数据处理方法、装置、设备和存储介质

Info

Publication number: CN113314105A
Application number: CN202010082981.4A
Authority: CN
Inventors: 朱晓如; 曹元斌
Original assignee: Cainiao Smart Logistics Holding Ltd
Current assignee: Cainiao Smart Logistics Holding Ltd
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2021-08-27

Abstract

本申请实施例提供了一种语音数据处理方法、装置、设备和存储介质，该方法包括：采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果；依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据；依据所述声学处理数据和设定的基础声学解析器，确定所述语音数据对应的帧对齐结果；将所述帧对齐结果作为训练数据返回。能够提高语音标注的效率和声学处理器的处理效率。

Description

语音数据处理方法、装置、设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音数据处理方法和装置、一种电子设备和一种存储介质。

背景技术

声学模型训练在语音识别任务中，占据着非常重要的作用，与识别的准确率息息相关；声学模型识别的准确性与模型的训练相关，训练数据的质量会影响模型的准确性，例如训练数据的采样率、噪声环境、回声环境、远场进场，都会影响识别的准确率。

一种声学模型的训练过程是：采集公开的语音数据，利用人工对全部的语音数据进行标注，然后利用语音数据的数据特征和标注来训练声学模型。训练通过的声学模型可以提供语音识别服务。

但是，上述这种训练声学模型的方法，对于作为训练数据的语音数据需要人工标注，为了保证模型的训练结果，需要采集大量的语音数据进行人工标注，数据标注效率低，导致了模型训练效率低。

发明内容

本申请实施例提供了一种语音数据处理方法，以提高处理效率。

相应的，本申请实施例还提供了一种数据处理装置、一种电子设备以及一种存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种语音数据处理方法，所述方法包括：采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果；依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据；依据所述声学处理数据和设定的基础声学解析器，确定所述语音数据对应的帧对齐结果；将所述帧对齐结果作为训练数据返回。

为了解决上述问题，本申请实施例公开了一种声学解析器训练方法，所述方法包括：采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果；依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据；依据所述声学处理数据训练声学解析器，得到训练完成的声学解析器。

为了解决上述问题，本申请实施例公开了一种语音数据处理装置，所述装置包括：解码结果获取模块，用于采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果；声学处理数据获取模块，用于依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据；对齐结果获取模块，用于依据所述声学处理数据和设定的基础声学解析器，确定所述语音数据对应的帧对齐结果；训练数据获取模块，用于将所述帧对齐结果作为训练数据返回。

为了解决上述问题，本申请实施例公开了一种声学解析器训练装置，所述装置包括：解码结果获得模块，用于采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果；声学处理数据获得模块，用于依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据；解析器生成模块，用于依据所述声学处理数据训练声学解析器，得到训练完成的声学解析器。

为了解决上述问题，本申请实施例公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如上述一个或多个所述的语音数据处理方法。

为了解决上述问题，本申请实施例一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如上述一个或多个所述的语音数据处理方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，在预处理过程中利用多个解码器对语音数据进行解码分析，得到多个解码结果；利用多个解码结果和筛选规则，确定对应的语音数据和标注数据作为声学处理数据，能够提高语音标注的效率，并且，将预处理得到的声学处理数据采用设定的基础声学解析器进行处理，可以得到语音数据对应的帧对齐结果，从而能够将帧对齐结果作为训练数据，训练相应的声学解析器，提高声学解析器的处理效率。

附图说明

图1是本申请一个实施例的语音处理***的***架构图；

图2是本申请一个实施例的投票***的***架构图；

图3是本申请另一个实施例的语音处理***的***架构图；

图4是本申请一个实施例的语音数据处理方法；

图5是本申请一个实施例的声学解析器训练方法的流程示意图；

图6是本申请一个实施例的数据获取装置的结构框图；

图7是本申请一个实施例的声学解析器训练装置的结构框图；

图8是本申请一个实施例的示例性装置的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例可应用于针对语音数据处理的各种场景中，能够通过对语音数据的预处理进行语音数据的筛选，得到质量较高的语音数据，并且通过预处理可确定出语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据。提供基础声学解析器对声学处理数据进行处理，以得到训练声学解析器的训练数据。

本申请实施例中，声学解析器也可称为声学模型、声学分析器、声学信息映射集合等，一般是基于与声学处理相关的数学模型算法，如神经网络模型算法、深度神经网络模型算法、隐马尔可夫模型算法等模型算法构建，可基于语音数据确定声学信息，从而进行语音数据的处理。其中，数学模型是针对参照某种事物***的特征或数量依存关系，采用数学语言，概括地或近似地表述出的一种数学结构，这种数学结构是借助于数学符号刻划出来的某种***的纯关系结构。从广义理解，数学模型包括数学中的各种概念，各种公式和各种理论。因为它们都是由现实世界的原型抽象出来的，从这意义上讲，整个数学也可以说是一门关于数学模型的科学。从狭义理解，数学模型只指那些反映了特定问题或特定的具体事物***的数学关系结构，这个意义上也可理解为联系一个***中各变量间内的关系的数学表达。

该基础声学解析器是一个高阶的声学模型，模型算法复杂、解码速度慢但准确性高，一般用于线下的语音识别处理中，例如，线上的对语音数据的解码一般上限是5层深度神经网络(Deep NeuralNetworks,，DNN)模型，而基础声学模型会更加复杂，例如可采用LAS(ListenAttend and Spell)模型，这是一种基于encoder-decoder的模型，还加入了注意力机制，基础声学模型可为各种基于注意力(attention)或transformer的模型，其中，transformer是一种只基于attention的结构来处理序列的模型。这类基础声学模型一般处理速度低但准确性高，因此本申请实施例可基于该基础声学模型对语音数据进行处理，得到语音数据的帧对齐结果，将该帧对齐结果作为线上声学模型(或称线上声学解码器)的训练数据，从而能够利用基础声学模型的优势，快速的训练线上的声学模型。并且，还可按照场景组织语音数据，使得基础声学模型可以对各场景对应的语音数据进行处理，得到各场景对应的训练数据，从而能够训练各种场景的声学模型，用于各种场景的语音服务。例如可训练机器人客服、翻译、语音机器人等各种场景的声学模型，从而能够识别出声学信息，提供相应的场景的语音服务。

其中，声学模型通常是将语音的声学特征映射到对应的音素、字词等声学单元上，该声学模型可是对声学、语音学、环境的变量、说话人性别、口音等差异的知识表示。本申请实施例中，对于语音数据的预处理一般通过多个解码器进行解码，其中解码器(decoder)是根据字典、声学模型、语言模型，可将输入的语音数据转换为字符序列，如将输入的语音识别出声学特征序列，进而在给定声学特征序列的基础上，解码转换为字符序列，确定出最可能的字、词或句子。

在上述实施例的基础上，本申请实施例提供了一种语音处理***，可通过解码器的预处理筛选语音数据，再通过基础声学解析器得到帧对齐结果，即可作为其他线上的声学解析器的训练数据，来训练线上的声学解析器。

如图1所示的语音处理***的***架构图，可首先收集语音数据，可通过各种语音处理***收集语音数据，也可基于目标场景进行语音数据的收集，从而能够用于训练与目标场景对应的声学解析器。本申请实施例中，语音数据可由提供语音服务的语音服务提供方提供，从而为各服务提供方提供所需的场景对应的训练数据，训练语音服务提供方线上的声学解析器。

举例来说，目标场景可以为各种进行语音处理的场景，例如为物联网的各种语音场景，如在家居场景下，目标场景相关的语音数据可以为与家居生活相关的语音数据，如包含开关灯、开关电视、播放音乐以及开启热水器等词语的语音数据。如在电商客服场景下，目标场景相关的语音数据可以为与电商客服工作相关的语音数据，如包含查找产品、产品型号、产品品牌等词语的语音数据。如在实体店家具产品的导购场景下，目标场景相关的语音数据可以为与家具产品相关的语音数据，如包含桌子、椅子、沙发等词语的语音数据。

在一个示例中，语音数据处理方法包括：

步骤102、采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果。

步骤104、依据多个解码结果和筛选规则，确定语音数据对应的声学处理数据，声学处理数据包括语音数据和对应的标注数据。

在获取语音数据之后，对语音数据进行筛选并确定对应的标注数据。对语音数据的筛选过程可通过多个解码器对语音数据进行解码，得到多个解码结果。之后依据多个解码结果和预先设置的筛选规则，对语音数据按照质量进行分类并筛选语音数据，并将筛选的语音数据和对应的标注数据作为声学处理数据。其中，解码器用于对语音数据进行解码，以得到解码结果，解码结果可以包括语音数据对应的声学特征信息和通过声学特征信息确定的对应语音数据的标注数据。

解码器可以通过声学解析器和语言解码器得到，声学解析器对语音数据进行按帧进行解析，得到语音数据对应的音素特征，并根据音素特征进行组合，得到多个词语和词语对应的概率，利用语言解码器对多个词语和对应的概率进行解码组合，以得到词语组成的句子(标注数据)。多个解码器可以为包括多个不同类型的声学解码器，具体的，声学解码器可以包括解析器需求方提供的在目标场景正在进行服务的声学解析器和根据训练到符合解码要求的声学解析器得到的解码器。筛选规则用于根据多个解码结果对语音数据进行分类，筛选规则可以为投票规则，按照投票结果是否满足阈值来确定语音数据的质量来确定对语音数据的筛选处理方式。

举例来说，语音数据可以按照质量的优劣划分为三类：第一类、第二类类以及第三类。阈值设置有三个，分别为第一阈值、第二阈值和第三阈值。按照多个解码结果进行投票，得到语音数据对应的投票结果。在投票结果满足第一阈值的情况下，对应的语音数据为第一类数据；在投票结果满足第二阈值的情况下，对应的语音数据为第二类数据；在投票结果满足第三阈值的情况下，对应的语音数据为第三类数据。

在确定语音数据的对应的类别之后，可以按照语音数据的类别对语音数据进行相应的处理，以得到声学处理数据。如对于第一类语音数据，可通过多个解码结果确定对应的标注数据；对于第二类语音数据，可通过人工标注的方式确定对应的标注数据。对于第三类语音数据，可以将其丢弃。在对不同类别的语音数据做相应的处理之后，将筛选的语音数据和对应的标注数据作为声学处理数据。

举例来说，如图2所示，通过三个解码器对语音数据进行解码，对于一个语音数据得到三个解码结果。依据三个解码结果和筛选规则，对语音数据按照质量进行分类。具体的，筛选规则可以理解为：三个解码结果均相同，则语音数据为第一类数据；三个解码结果中两个解码结果相同，则语音数据为第二类数据；三个解码结果均不相同，则语音数据为第三类数据。

对于第一类语音数据，通过该语音数据对应的解码结果，即可确定该语音数据对应的标注数据。对于第二类语音数据，由于该语音数据的三个解码结果不一致，无法准确确定该语音数据对应的标注数据，则通过将该语音数据输出，依据人工标注的标注作为该语音数据的标注数据。对于第三类语音数据，由于该语音数据的三个解码结果均不相同，该语音数据的数据质量差，将该语音数据丢弃。在得到筛选后的语音数据和对应的标注数据之后，将筛选的语音数据和对应的标注数据组合得到声学处理数据。

如图1所示，语音数据处理方法还包括：

步骤106、依据声学处理数据和设定的基础声学解析器，确定语音数据对应的帧对齐结果。

步骤108、将帧对齐结果作为训练数据返回。

通过预先训练好的基础声学解析器对声学处理数据进行解析，得到帧对齐结果。基础声学解析器为预先训练好的声学解析器。基础声学解析器用于将声学处理数据中的语音数据与声学处理数据中的标注数据进行对齐，以得到帧对齐结果。帧对齐结果包括语音数据中的声学特征对应的一个或多个帧与标注数据之间的对齐结果。在得到帧对齐结果之后，将帧对齐结果作为训练数据返回，训练数据可以理解为用于训练目标场景对应的声学解析器的数据。

帧对齐结果的获取过程可包括：

对声学处理数据中的语音数据按帧进行切分，得到对应的语音音频帧，之后依据基础声学解析器解析语音音频帧，以将语音音频帧转化为声学特征和声学特征对应的帧，声学特征为用于训练目标场景的声学解析器的数据，声学特征包括一个或多个音素，每个音素包括一个或多个音频帧，举例来说，对于包含“进”的音频对应的声学特征可以为通过多个音素组成的与“j”、“i”和“n”对应的频谱信息等声学数据。对声学处理数据中的标注数据进行切分，得到对应的声学单元，声学单元为用于训练目标场景的声学解析器的数据，声学单元通过标注数据切分得到，举例来说，对于标注数据“进”切分出的声学单元可以为“j”、“i”和“n”。通过基础声学解析器将声学特征对应的帧与声学单元进行对齐，以得到帧对齐结果。

本实施例中，在预处理过程中利用多个解码器对语音数据进行解码分析，得到多个解码结果；利用多个解码结果和筛选规则，确定对应的语音数据和标注数据作为声学处理数据，能够提高语音标注的效率，并且，将预处理得到的声学处理数据通过设定的基础声学解析器进行处理，可以直接的将声学处理数据中的语音数据和标注数据进行对齐，得到帧对齐结果，从而能够将帧对齐结果作为训练数据，训练相应的声学解析器，提高解析器的处理效率。

声学处理数据还可以包括公开的语音数据及其对应的标注数据。对于已经具有标注数据的公开语音数据，可以直接作为声学处理数据输入到基础声学解析器中进行解析，得到对应的帧对齐结果，作为训练数据。如图3所示，对于基础声学解析器输出的帧对齐结果，可作为线上的声学解析器等声学模型的训练数据，从而线上的声学解析器等能够获取到较为优质的训练数据，通过迁移学习的方式，采用复杂的基础声学解析器的输出，作为相对简单的线上的声学解析器的输入，以提升线上的声学解析器的训练效果。

因此，可将基础声学解析器输出的帧对齐结果作为训练数据，输入到较为简单的声学解析器中，进行该声学解析器的训练，将训练完成的声学解析器在线上部署，提供线上的实时语音识别、处理等服务。在一些场景中，基础声学解析器的语音数据可为目标场景的语音数据，相应得到的帧对齐结果也为目标场景的训练数据，训练得到目标场景的声学解析器，可对目标场景下的语音数据进行处理，提供各场景下更加专业的服务。

举例来说，通过本实施例的方法得到的声学解析器可以应用在客服场景中，根据客服场景相关的语音数据，进行预处理得到声学处理数据，并基于基础声学解析器利用声学处理数据训练对应的声学解析器。如客服场景为银行客服场景，可以以银行客服历史的电话录音作为目标语音数据，来训练对应的声学解析器。该声学解析器上线后，利用该声学解析器解析与客服场景对应的语音数据，得到客服语音解析结果，并利用该结果确定对应的回复内容，之后将回复内容反馈给用户。

通过本实施例的方法得到的声学解析器还可以应用在家居控制场景中，根据家居控制场景相关的语音数据训练声学解析器。如以智能音箱采集的历史语音数据作为目标语音数据来训练声学解析器。该声学解析器上线后，利用该声学解析器来解析用户的语音，得到家居语音解析结果，并利用该结果完成对家居内电子设备的控制，如对空调的控制、对灯光的控制等。

通过本实施例的方法得到的声学解析器还可以应用在商场导购机器人中，根据导购场景相关的语音数据训练声学解析器。该声学解析器上线后，利用该声学解析器来解析用户的语音，得到导购语音解析结果，并利用该结果完成对用户的导购。如：对用户的语音数据的识别结果为“查找鞋子”，可以为用户展示商场地图中鞋子商品所在的楼层和位置。另外，在商场等环境复杂的场景中，语音数据中会夹杂许多噪音，在训练声学解析器之前，可以对语音数据进行去噪处理，提升语音数据的数据质量。

本申请一些可选实施例中，还可收集线上各场景的声学解析器的输出结果，即提供服务后相关的服务语音数据，并将服务语音数据进行预筛选的处理，筛选后的服务语音数据可继续优化该场景的声学解析器，以及优化基础声学解析器等。

本实施例中，利用声学解析器在进行服务之后相关的服务语音数据，优化声学解析器，使声学解析器与目标场景更加匹配，提升了声学解析器的识别准确性。

如图1所示，可选的，作为一个实施例，筛选规则包括投票规则，步骤104中，依据多个解码结果和筛选规则，确定语音数据对应的声学处理数据，包括：

依据多个解码结果和投票规则，确定筛选的语音数据的标注数据。

将筛选的语音数据和对应的标注数据，作为声学处理数据。

在确定多个解码结果之后，按照多个解码结果进行投票，以得到对应的投票结果，依据投票结果和投票规则，确定语音数据对应的类别，从而筛选语音数据并确定对应的标注数据，以得到声学处理数据。语音数据的对应的标注数据一部分可以通过多个解码结果确定，另一部分可以通过人工标注确定。

可选的，作为一个实施例，依据多个解码结果和筛选规则，确定筛选的语音数据的标注数据，包括：

按照多个解码结果进行投票，得到对应的目标投票结果。

当目标语音数据的目标投票结果满足第一阈值时，依据目标语音数据对应的解码结果，得到目标语音数据的标注数据。

当目标投票结果满足第二阈值时，获取目标语音数据的标注结果。

当目标投票结果满足第三阈值时，丢弃目标语音数据。

按照多个解码结果进行投票，得到目标投票结果。若目标投票结果满足第一阈值时，则确定目标语音数据为第一类语音数据，通过多个解码结果来确定目标语音数据的标注数据。若目标投票结果满足第二阈值时，则确定目标语音数据为第二类语音数据，通过获取人工标注的数据来确定目标语音数据的标注数据。若目标投票结果满足第三阈值时，则确定目标语音数据为第三类数据，将该目标语音数据丢弃。

其中，第一阈值、第二阈值和第三阈值可以为一个数值，第一阈值、第二阈值和第三阈值也可以为一个区间。具体的，举例来说，第一阈值、第二阈值、第三阈值可以根据预先设定的投票比例确定，如预先设定的两个投票比例的门限，分别为85％和60％，则第一阈值为85％，第二阈值为[60％，85％]，第三阈值为60％。

可选的，作为一个实施例，在按照多个解码结果进行投票时，首先可以确定解码结果中是否存在相同的解码结果，若是多个解码结果均不同，可以统计多个解码结果之间的语义相似度，在语义相似度符合预设相似度阈值的情况下，对该解码结果进行投票。如：对于一个语音数据，三个解码器的解码结果分别为：“我要出门去了”、“我要了”和“我要出去了”。三个解码结果均不相同，可以分析三个解码结果之间的相似度，三个解码结果中第一个解码结果和第三个解码结果之间的相似度高，可以作为相同的解码结果，利用该解码结果进行投票，得到目标投票结果。对于三个解码结果均不相同，且解码结果之间存在语义相似的解码结果的语音数据，可以采取人工标注的方式来确定该语音数据对应的标注数据，以得到声学处理数据。

可选的，作为一个实施例，在按照多个解码结果进行投票之前，可以对每个多个解码器设置对应的权重值，在按照多个解码结果进行投票时，根据解码结果和对应的权重值来确定加权投票结果。对于加权投票结果，可以采取用加权阈值比较的方式来确定语音数据对应的类别。如可以将语音数据分为三类，第一类语音数据利用多个解码结果和对应的权重值来确定标注数据，第二类语音数据利用人工标注的方式来确定标注数据，对于第三类语音数据，采取将其丢弃的方案。

如：对于四个解码器，第一个解码器的权重值为0.4，第二个解码器的权重值为0.3，第三个解码器的权重值为0.2，第四个解码器的权重值为0.1。在得到四个解码结果之后，按照四个解码结果和对应的权重值进行投票，得到加权投票结果。如对于语音数据a，第一个解码器的解码结果与第二个解码器的解码结果相同，而第三个解码器和第四个解码器的解码结果不同，得到的加权投票结果为0.7(0.4+0.3)，根据该加权投票结果和预设的加权阈值来对该语音数据a进行分类，以进行对应的处理。

可选的，作为一个实施例，依据多个解码结果和筛选规则，确定语音数据对应的声学处理数据，包括：确定多个解码结果之间的语义相似度；统计符合相似度阈值的语义相似度的数量，并结合筛选规则，确定筛选的语音数据的标注数据；将筛选的语音数据和对应的标注数据，作为声学处理数据。

通过确定语音数据的多个解码结果之间的语义相似度，确定多个解码结果的语义是否相同，并根据负荷相似度阈值的语义相似度的数量，以确定语义相同的解码结果的数量。并根据该数量和对应的筛选规则对该语音数据进行分类。对不同类别的语音数据可以采用不同的处理方式。如可以按照语音数据质量从高到低分为三类，第一类语音数据可以根据多个解码结果确定标注数据，第二类语音数据可以采取人工标注的方式确定标注数据，第三类语音数据可以将其丢弃。对语音数据筛选并确定了筛选的语音数据对应的标注数据之后，将其作为声学处理数据，以得到训练数据。

可选的，作为一个实施例，步骤106中，依据声学处理数据和设定的基础声学解析器，确定语音数据对应的帧对齐结果，包括：

依据所述基础声学解析器解析所述声学处理数据中的语音数据，确定声学特征；

依据所述基础声学解析器，将所述声学特征和所述标注数据的声学单元进行对齐处理，得到所述帧对齐结果。

对声学处理数据中的语音数据按帧进行切分，得到语音数据对应的音频帧，之后依据基础声学解析器解析音频帧，以得到声学特征和声学特征对应的帧。将声学处理数据中的标注信息进行切分，得到声学单元。依据基础声学解析器，将声学特征和声学单元进行对齐，得到帧对齐结果。

可选的，作为一个实施例，图1所示的方法还包括：

获取目标场景对应的语音数据集合，以得到目标场景对应的目标训练数据，目标训练数据用于训练目标场景对应的声学解析器。

在训练目标场景对应的声学解析器时，获取目标场景对应的语音数据集合，并将语音数据集合作为语音数据进行筛选、标注、对齐后，得到目标训练数据，通过目标训练数据来训练与目标场景对应的声学解析器，从而提供线上的各种场景的声学解析器的训练数据，能够更好的训练各场景的声学解析器。

可选的，作为一个实施例，图1所示的方法还包括：

将目标场景对应的声学解析器在目标场景中进行服务后相关的服务数据，作为服务语音数据，服务语音数据用于优化目标场景对应的声学解析器。

在将训练完成的声学解析器在目标场景中上线进行服务之后，将声学解析器在服务过程中相关的服务数据作为服务语音数据，并将服务语音数据作为语音数据进行筛选、标注、对齐后，得到对应的优化数据，以优化数据来优化训练完成的声学解析器，进一步提升训练完成的声学解析器与目标场景之间的匹配度，提升声学解析器的识别准确度。

可选的，作为一个实施例，图1所示的方法还包括：

依据服务语音数据，优化基础声学解析器。

将服务语音数据作为语音数据，来优化基础声学解析器，通过对基础声学解析器的不断优化，进一步提升基础声学解析器的识别准确度，提升了基础声学解析器的对齐效果，进而提升了基础声学解析器训练出的声学解析器的识别准确度。

可选的，作为一个实施例，多个解码器包括基础解码器，基础解码器通过基础解码器确定。

多个解码器中包括一个通过基础声学解析器确定的基础解码器，即多个解码结果中的一个解码结果与基础声学解析器相关，基础声学解析器通过大量数据训练获得，基础声学解析器的解码结果准确性高，通过基础声学解析器的解码结果参与到多个解码结果中，提升了语音数据筛选的准确性。

参考图4，示出了本申请一个实施例的语音数据处理方法，语音数据处理方法包括：

步骤402、采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果。

步骤404、按照多个解码结果进行投票，得到对应的目标投票结果。

步骤406，判断所述投票结果是否满足阈值。

当语音数据的投票结果满足第一阈值时，执行步骤408；当目标投票结果满足第二阈值时，执行步骤410；当目标投票结果满足第三阈值时，执行步骤412。

步骤408、依据目标语音数据对应的解码结果，得到目标语音数据的标注数据。

当目标语音数据的目标投票结果满足第一阈值时，可将目标语音数据对应的解码结果，作为目标语音数据的标注数据。

步骤410、获取目标语音数据的标注结果。

当目标投票结果满足第二阈值时，可通过人工标注等方式获取目标语音数据的标注结果。

步骤412、丢弃目标语音数据。

当目标投票结果满足第三阈值时，表征该语音数据的质量较差，可丢弃目标语音数据。

步骤414、将筛选的语音数据和对应的标注数据，作为声学处理数据。

步骤416、依据基础声学解析器解析声学处理数据中的语音数据，确定声学特征。

步骤418、依据基础声学解析器，将声学特征和声学单元进行对齐处理，得到帧对齐结果。

步骤420、将帧对齐结果作为训练数据返回。

本实施例的方案能够通过投票等机制进行解码结果的筛选，对于质量较高的解码结果可直接确定为标注数据，而对于质量较低的解码结果，将其语音数据丢弃，而对于质量普通的语音数据可通过人工标注等方式确定标注数据，从而无需所有语音数据均进行人工标注，降低了人工标注的成本，提高了语音数据的标注效率。

在上述实施例的基础上，本实施例还提供一种声学解析器训练方法，如图5所示，声学解析器训练方法包括：

步骤502、采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果。

步骤504、依据多个解码结果和筛选规则，确定语音数据对应的声学处理数据，声学处理数据包括语音数据和对应的标注数据。

步骤506、依据声学处理数据训练声学解析器，得到训练完成的声学解析器。

综上，在预处理过程中利用多个解码器对语音数据进行解码分析，得到多个解码结果；利用多个解码结果和筛选规则，确定对应的语音数据和标注数据作为声学处理数据，能够提高语音标注的效率。提升了声学解析器的处理效率。

可选的，作为一个实施例，筛选规则包括投票规则，步骤502中，依据多个解码结果和筛选规则，确定语音数据对应的声学处理数据，包括：

依据多个解码结果和投票规则，确定筛选的语音数据的标注数据；

将筛选的语音数据和对应的标注数据，作为声学处理数据。

在确定多个解码结果之后，按照多个解码结果进行投票，以得到对应的投票结果，依据投票结果和投票规则，确定语音数据对应的类别，从而筛选语音数据并确定对应的标注数据，以得到声学处理数据。语音数据的对应的标注数据可通过解码结果直接获取，在另外一些示例中，也可一部分通过多个解码结果确定，另一部分通过人工标注确定。

可选的，作为一个实施例，依据多个解码结果和投票规则，确定筛选的语音数据的标注数据，包括：

按照多个解码结果进行投票，得到对应的目标投票结果；

具体来说，按照多个解码结果进行投票，得到目标投票结果。若目标投票结果满足第一阈值时，则确定目标语音数据为第一类语音数据，通过多个解码结果来确定目标语音数据的标注数据。

可选的，作为一个实施例，依据多个解码结果和投票规则，确定筛选的语音数据的标注数据，还包括：

具体来说，若目标投票结果满足第二阈值时，则确定目标语音数据为第二类语音数据，通过获取人工标注的数据来确定目标语音数据的标注数据。

当目标投票结果满足第三阈值时，丢弃目标语音数据。

具体来说，若目标投票结果满足第三阈值时，则确定目标语音数据为质量较差的语音数据，如噪声较多、背景嘈杂等，将该目标语音数据丢弃。

可选的，作为一个实施例，多个解码器包括基础解码器，基础解码器通过基础声学解析器确定。

具体来说，将服务语音数据作为语音数据，来优化基础声学解析器，通过对基础声学解析器的不断优化，进一步提升基础声学解析器的识别准确度，提升了基础声学解析器的对齐效果，进而提升了基础声学解析器训练出的声学解析器的识别准确度。

可选的，作为一个实施例，还包括：

获取训练完成的声学解析器的输出结果对应的语音数据，将语音数据通过多个解码器进行筛选，以作为训练数据优化声学解析器。

在将训练完成的声学解析器在目标场景上线进行服务之后，将声学解析器在服务过程的输出结果对应的语音数据通过多个解码器进行筛选，以得到训练数据来优化训练完成的声学解析器，进一步提升训练完成的声学解析器与目标场景之间的匹配度，提升声学解析器的识别准确度。

本实施例的方法，基于迁移学习的思想，可采用预先训练好的复杂模型(基础声学解析器)的输出作为监督信息，去训练另外一个简单的网络(声学解析器)，是一种提升模型训练效果的方式。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种数据获取装置，如图6所示，所述装置包括：

解码结果获取模块602，用于采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果。

声学处理数据获取模块604，用于依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据。

对齐结果获取模块606，用于依据所述声学处理数据和设定的基础声学解析器，确定所述语音数据对应的帧对齐结果。

训练数据获取模块608，用于将所述帧对齐结果作为训练数据返回。

综上，在预处理过程中利用多个解码器对语音数据进行解码分析，得到多个解码结果；利用多个解码结果和筛选规则，确定对应的语音数据和标注数据作为声学处理数据，能够提高语音标注的效率，并且，将预处理得到的声学处理通过设定的基础声学解析器进行处理，可以直接的将声学处理数据中的语音数据和标注数据进行对齐，得到帧对齐结果，从而能够将帧对齐结果作为训练数据，训练相应的声学解析器，提高解析器的处理效率。

可选的，作为一个实施例，所述筛选规则包括投票规则，所述声学处理数据获取模块604，包括：

数据投票获取子模块，用于依据所述多个解码结果和所述投票规则，确定筛选的语音数据的标注数据；

声学处理数据获取子模块，用于将所述筛选的语音数据和对应的标注数据，作为所述声学处理数据。

可选的，作为一个实施例，所述数据投票获取子模块，包括：

投票结果获取子模块，用于按照所述多个解码结果进行投票，得到对应的目标投票结果；

标注数据生成子模块，用于当目标语音数据的目标投票结果满足第一阈值时，依据所述目标语音数据对应的解码结果，得到所述目标语音数据的标注数据。

可选的，作为一个实施例，所述数据投票获取子模块，还包括：

标注数据获取子模块，用于当所述目标投票结果满足第二阈值时，获取所述目标语音数据的标注结果。

语音数据丢弃子模块，用于当所述目标投票结果满足第三阈值时，丢弃所述目标语音数据。

可选的，作为一个实施例，所述对齐结果获取模块606，包括：

语音数据解析子模块，用于依据所述基础声学解析器解析所述声学处理数据中的语音数据，确定声学特征；

对齐结果获取子模块，用于依据所述基础声学解析器，将所述声学特征和所述标注数据的声学单元进行对齐处理，得到所述帧对齐结果。

可选的，作为一个实施例，所述装置还包括：

场景数据获取模块，用于获取目标场景对应的语音数据集合，以得到所述目标场景对应的目标训练数据，所述目标训练数据用于训练所述目标场景对应的声学解析器。

可选的，作为一个实施例，所述装置还包括：

服务数据获取模块，用于将所述目标场景对应的声学解析器在所述目标场景中进行服务后相关的服务数据，作为服务语音数据，所述服务语音数据用于优化所述目标场景对应的声学解析器。

可选的，作为一个实施例，所述装置还包括：

优化处理模块，用于依据所述服务语音数据，优化所述基础声学解析器。

可选的，作为一个实施例，所述多个解码器包括基础解码器，所述基础解码器通过所述基础声学解析器确定。

在上述实施例的基础上，本实施例还提供了一种声学解析器训练装置，如图7所示，所述装置包括：

解码结果获得模块702，用于采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果。

声学处理数据获得模块704，用于依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据。

解析器生成模块706，用于依据所述声学处理数据训练声学解析器，得到训练完成的声学解析器。

综上，在预处理过程中利用多个解码器对语音数据进行解码分析，得到多个解码结果；利用多个解码结果和筛选规则，确定对应的语音数据和标注数据作为声学处理数据，能够提高语音标注的效率，提高了声学解析器的处理效率。

可选的，作为一个实施例，所述筛选规则包括投票规则，所述声学处理数据获得模块704，包括：

数据投票获得子模块，用于依据所述多个解码结果和所述投票规则，确定筛选的语音数据的标注数据；

声学处理数据获得子模块，用于将所述筛选的语音数据和对应的标注数据，作为所述声学处理数据。

可选的，作为一个实施例，所述数据投票获得子模块，包括：

投票结果获得子模块，用于按照所述多个解码结果进行投票，得到对应的目标投票结果；

标注数据获得子模块，用于当目标语音数据的目标投票结果满足第一阈值时，依据所述目标语音数据对应的解码结果，得到所述目标语音数据的标注数据。

可选的，作为一个实施例，所述数据投票获得子模块，还包括：

标注数据标注子模块，用于当所述目标投票结果满足第二阈值时，获取所述目标语音数据的标注结果。

语音数据删除子模块，用于当所述目标投票结果满足第三阈值时，丢弃所述目标语音数据。

可选的，作为一个实施例，还包括：

服务数据获得模块，用于获取所述训练完成的声学解析器的输出结果对应的语音数据，将所述语音数据通过多个解码器进行筛选，以作为训练数据优化所述声学解析器。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括终端设备、服务器(集群)等电子设备。图8示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置800。

对于一个实施例，图8示出了示例性装置800，该装置具有一个或多个处理器802、被耦合到(一个或多个)处理器802中的至少一个的控制模块(芯片组)804、被耦合到控制模块804的存储器806、被耦合到控制模块804的非易失性存储器(NVM)/存储设备808、被耦合到控制模块804的一个或多个输入/输出设备810，以及被耦合到控制模块804的网络接口812。

处理器802可包括一个或多个单核或多核处理器，处理器802可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置800能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置800可包括具有指令814的一个或多个计算机可读介质(例如，存储器806或NVM/存储设备808)以及与该一个或多个计算机可读介质相合并被配置为执行指令814以实现模块从而执行本公开中所述的动作的一个或多个处理器802。

对于一个实施例，控制模块804可包括任意适当的接口控制器，以向(一个或多个)处理器802中的至少一个和/或与控制模块804通信的任意适当的设备或组件提供任意适当的接口。

控制模块804可包括存储器控制器模块，以向存储器806提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器806可被用于例如为装置800加载和存储数据和/或指令814。对于一个实施例，存储器806可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器806可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块804可包括一个或多个输入/输出控制器，以向NVM/存储设备808及(一个或多个)输入/输出设备810提供接口。

例如，NVM/存储设备808可被用于存储数据和/或指令814。NVM/存储设备808可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备808可包括在物理上作为装置800被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备808可通过网络经由(一个或多个)输入/输出设备810进行访问。

(一个或多个)输入/输出设备810可为装置800提供接口以与任意其他适当的设备通信，输入/输出设备810可以包括通信组件、音频组件、传感器组件等。网络接口812可为装置800提供接口以通过一个或多个网络通信，装置800可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑封装在一起以形成***级封装(SiP)。对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑集成在同一模具上以形成片上***(SoC)。

在各个实施例中，装置800可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置800可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置800包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音数据处理方法和装置，一种电子设备和一种存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果；

依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据；

依据所述声学处理数据和设定的基础声学解析器，确定所述语音数据对应的帧对齐结果；

将所述帧对齐结果作为训练数据返回。

2.根据权利要求1所述的方法，其特征在于，所述筛选规则包括投票规则，所述依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，包括：

依据所述多个解码结果和所述投票规则，确定筛选的语音数据的标注数据；

将所述筛选的语音数据和对应的标注数据，作为所述声学处理数据。

3.根据权利要求2所述的方法，其特征在于，所述依据所述多个解码结果和所述投票规则，确定筛选的语音数据的标注数据，包括：

按照所述多个解码结果进行投票，得到对应的目标投票结果；

当目标语音数据的目标投票结果满足第一阈值时，依据所述目标语音数据对应的解码结果，得到所述目标语音数据的标注数据。

4.根据权利要求3所述的方法，其特征在于，所述依据所述多个解码结果和所述投票规则，确定筛选的语音数据的标注数据，还包括：

当所述目标投票结果满足第二阈值时，获取所述目标语音数据的标注结果。

5.根据权利要求3所述的方法，其特征在于，所述依据所述多个解码结果和所述投票规则，确定筛选的语音数据的标注数据，还包括：

当所述目标投票结果满足第三阈值时，丢弃所述目标语音数据。

6.根据权利要求1所述的方法，其特征在于，所述依据所述声学处理数据和设定的基础声学解析器，确定所述语音数据对应的帧对齐结果，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

获取目标场景对应的语音数据集合，以得到所述目标场景对应的目标训练数据，所述目标训练数据用于训练所述目标场景对应的声学解析器。

8.一种声学解析器训练方法，其特征在于，所述方法包括：

依据所述声学处理数据训练声学解析器，得到训练完成的声学解析器。

9.根据权利要求8所述的方法，其特征在于，所述筛选规则包括投票规则，所述依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，包括：

10.根据权利要求9所述的方法，其特征在于，所述依据所述多个解码结果和所述投票规则，确定筛选的语音数据的标注数据，包括：

11.根据权利要求10所述的方法，其特征在于，所述依据所述多个解码结果和所述投票规则，确定筛选的语音数据的标注数据，还包括：

12.根据权利要求10所述的方法，其特征在于，所述依据所述多个解码结果和所述投票规则，确定筛选的语音数据的标注数据，还包括：

13.根据权利要求8所述的方法，其特征在于，还包括：

获取所述训练完成的声学解析器的输出结果对应的语音数据，将所述语音数据通过多个解码器进行筛选，以作为训练数据优化所述声学解析器。

14.一种语音数据处理装置，其特征在于，所述装置包括：

解码结果获取模块，用于采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果；

声学处理数据获取模块，用于依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据；

对齐结果获取模块，用于依据所述声学处理数据和设定的基础声学解析器，确定所述语音数据对应的帧对齐结果；

训练数据获取模块，用于将所述帧对齐结果作为训练数据返回。

15.一种声学解析器训练装置，其特征在于，所述装置包括：

解码结果获得模块，用于采用多个解码器分别对语音数据进行解码，确定对应的多个解码结果；

声学处理数据获得模块，用于依据所述多个解码结果和筛选规则，确定所述语音数据对应的声学处理数据，所述声学处理数据包括语音数据和对应的标注数据；

解析器生成模块，用于依据所述声学处理数据训练声学解析器，得到训练完成的声学解析器。

16.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-7中一个或多个所述的语音数据处理方法。

17.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-7中一个或多个所述的语音数据处理方法。

18.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求8-13中一个或多个所述的声学解析器训练方法。

19.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求8-13中一个或多个所述的声学解析器训练方法。