CN113539247A

CN113539247A - 语音数据处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113539247A
Application number: CN202010288924.1A
Authority: CN
Inventors: 闫慧丽; 郑宇宇; 顾松庠
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2021-10-22
Anticipated expiration: 2040-04-14
Also published as: CN113539247B

Abstract

本发明提供一种语音数据处理方法、装置、设备及计算机可读存储介质，方法包括：获取语音数据；将语音数据转换为拼音数据；在预设的拼音知识库中获取与拼音数据相似度最高的标准问题；若拼音数据与标准问题之间的相似度低于预设的阈值，将拼音数据输入至预设的预测模型，获得目标标准问题；将与目标标准问题对应的目标答案转换为目标语音数据，播放目标语音数据。通过将语音数据转换为拼音数据，在拼音数据与标准问题之间的相似度低于预设的阈值时，通过预设的预测模型确定拼音数据对应的目标标准问题，从而能够避免直接将语音数据转换为文字数据造成的信息损失，提高播报的目标语音数据与用户的语音数据对应的问题之间的匹配度。

Description

语音数据处理方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种语音数据处理方法、装置、设备及计算机可读存储介质。

背景技术

随着语音识别技术的发展，智能语音控制应用逐渐走进了用户的生活。例如终端设备上安装的语音控制应用、智能语音机器人等。该智能语音控制应用可以获取用户发送的语音数据，并对该语音数据进行识别，根据识别后的语音数据对应的文本信息，执行相应的操作。举例来说，用户可以通过语音数据实现对终端设备的控制；用户还可以通过语音数据向智能语音控制应用提出问题，智能语音控制应用对语音数据进行识别，根据识别结果通过合成语音答复用户的问题。

为了实现终端设备与用户的语音问答，现有技术中在获取到用户发出的语音数据之后，首先通过预设的语音识别技术对该语音数据进行识别操作，获得语音数据对应的汉字文本，根据该汉字文本在预设的汉字知识库中确定与该汉字文本对应的目标问题，将该目标问题对应的答案转换为语音数据并播放。

但是，采用上述方法进行语音数据处理时，直接将语音数据转换为汉字文本，并将汉字文本匹配到现有的汉字知识库。在上述两个信息转化过程中，信息损失较大，从而语音播报的答案与用户的问题匹配度不高，进而会导致用户体验较差。

发明内容

本发明提供一种语音数据处理方法、装置、设备及计算机可读存储介质，用于解决现有的语音数据处理方法直接将语音数据转换为汉字文本，转换过程中信息损失较大，语音播报的答案与用户的问题匹配度不高的技术问题。

本发明的第一个方面是提供一种语音数据处理方法，包括：

获取用户发送的语音数据；

通过预设的语音识别模型，将所述语音数据转换为拼音数据；

根据所述拼音数据在预设的拼音知识库中获取与所述拼音数据相似度最高的标准问题；

若所述拼音数据与所述标准问题之间的相似度低于预设的阈值，则将所述拼音数据输入至预设的预测模型，获得所述拼音数据对应的目标标准问题；

通过预设的语音转换模型，将所述拼音知识库中与所述目标标准问题对应的目标答案转换为目标语音数据，播放所述目标语音数据。

在一种可能的设计中，所述预测模型包括语义识别子模型、特征提取子模型以及分类子模型；

相应地，所述将所述拼音数据输入至预设的预测模型，获得所述拼音数据对应的目标标准问题，包括：

将所述拼音数据输入至所述语义识别子模型中，获得所述拼音数据对应的语义信息；

将所述语义信息输入至所述特征提取子模型中，获得所述语义信息对应的特征数据；

将所述特征数据输入至所述分类子模型中，获得所述拼音数据对应的目标标准问题。

在一种可能的设计中，所述将所述拼音数据输入至预设的预测模型，获得所述拼音数据对应的目标标准问题，包括：

将所述拼音数据输入至预设的预测模型，获得所述拼音数据对应的多个标准问题；

将所述多个标准问题中与所述拼音数据的相似度最高的标准问题作为所述目标标准问题。

在一种可能的设计中，所述将所述拼音数据输入至所述语义识别子模型中，获得所述拼音数据对应的语义信息之前，还包括：

从数据服务器中获取预设的第一待训练拼音数据，其中，所述第一待训练拼音数据中包括标注后的多个常用文本数据对应的拼音；

通过所述第一待训练拼音数据对预设的第一待训练模型进行训练，获得预训练模型；

从数据服务器中获取预设的第二待训练拼音数据，其中，所述第二待训练拼音数据中包括标注后的多个特定领域文本对应的拼音；

通过所述第二待训练拼音数据对所述预训练模型进行训练，获得所述语义识别子模型。

在一种可能的设计中，所述从数据服务器中获取预设的第一待训练拼音数据，包括：

从数据服务器中获取预设的第一待处理数据，其中，所述第一待处理数据中包括多个常用文本数据对应的拼音；

对所述第一待处理数据中的拼音按照声母与韵母进行拆分；和/或，

通过预设的符号，随机对所述第一待处理数据中至少一个文本数据对应的拼音进行替换操作，获得所述第一待训练拼音数据；和/或，

针对所述第一待训练数据中的每一目标常用文本数据对应的拼音，所述第一待训练数据中存在预设的概率包括一常用文本数据对应的拼音，与所述目标常用文本数据对应的拼音存在连续关系；和/或；

对所述第一待处理数据中不同方言对应的拼音标注为普通话对应的拼音。

在一种可能的设计中，所述特征提取子模型为卷积神经网络模型。

在一种可能的设计中，所述分类子模型为全连接神经网络模型。

在一种可能的设计中，所述根据所述拼音数据在预设的拼音知识库中获取与所述拼音数据相似度最高的标准问题之后，还包括：

若所述拼音数据与所述标准问题之间的相似度高于预设的阈值，则通过预设的语音转换模型，将所述拼音知识库中与所述标准问题对应的目标答案转换为目标语音数据，播放所述目标语音数据。

本发明的第二个方面是提供一种语音数据处理装置，包括：

获取模块，用于获取用户发送的语音数据；

转换模块，用于通过预设的语音识别模型，将所述语音数据转换为拼音数据；

匹配模块，用于根据所述拼音数据在预设的拼音知识库中获取与所述拼音数据相似度最高的标准问题；

预测模块，用于若所述拼音数据与所述标准问题之间的相似度低于预设的阈值，则将所述拼音数据输入至预设的预测模型，获得所述拼音数据对应的目标标准问题；

播报模块，用于通过预设的语音转换模型，将所述拼音知识库中与所述目标标准问题对应的目标答案转换为目标语音数据，播放所述目标语音数据。

相应地，所述预测模块包括：

识别单元，用于将所述拼音数据输入至所述语义识别子模型中，获得所述拼音数据对应的语义信息；

特征提取单元，用于将所述语义信息输入至所述特征提取子模型中，获得所述语义信息对应的特征数据；

分类单元，用于将所述特征数据输入至所述分类子模型中，获得所述拼音数据对应的目标标准问题。

在一种可能的设计中，所述预测模块用于：

在一种可能的设计中，所述预测模块包括：

第一数据获取单元，用于从数据服务器中获取预设的第一待训练拼音数据，其中，所述第一待训练拼音数据中包括标注后的多个常用文本数据对应的拼音；

第一训练单元，用于通过所述第一待训练拼音数据对预设的第一待训练模型进行训练，获得预训练模型；

第二数据获取单元，用于从数据服务器中获取预设的第二待训练拼音数据，其中，所述第二待训练拼音数据中包括标注后的多个特定领域文本对应的拼音；

第二训练单元，用于通过所述第二待训练拼音数据对所述预训练模型进行训练，获得所述语义识别子模型。

在一种可能的设计中，所述第一数据获取单元用于：

在一种可能的设计中，所述装置还包括：

播报模块，用于若所述拼音数据与所述标准问题之间的相似度高于预设的阈值，则通过预设的语音转换模型，将所述拼音知识库中与所述标准问题对应的目标答案转换为目标语音数据，播放所述目标语音数据。

本发明的第三个方面是提供一种语音数据处理设备，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行如第一方面所述的语音数据处理方法。

本发明的第四个方面是提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的语音数据处理方法。

本发明提供的语音数据处理方法、装置、设备及计算机可读存储介质，通过获取用户发送的语音数据，对该语音数据进行转换操作，获得拼音数据，确定该拼音数据与预设的拼音知识库中相似度最高的标准问题之间的相似度是否超过预设的阈值，若否，则通过预设的预测模型获得拼音数据对应的目标标准问题，将该目标标准问题转换为目标语音数据并播放该目标语音数据。通过将语音数据转换为拼音数据，从而能够避免直接将语音数据转换为文字数据而造成的信息损失，此外，通过在拼音数据与标准问题之间的相似度低于预设的阈值时，通过预设的预测模型确定拼音数据对应的目标标准问题，从而能够进一步地提高语音播报的目标语音数据与用户的语音数据对应的问题之间的匹配度，提高用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明基于的***架构示意图；

图2为本发明实施例一提供的语音数据处理方法的流程示意图；

图3为本发明实施例提供的场景示意图；

图4为本发明实施例二提供的语音数据处理方法的流程示意图；

图5为本发明实施例提供的预测模型的结构示意图；

图6为本发明实施例三提供的语音数据处理方法的流程示意图；

图7为本发明实施例四提供的语音数据处理装置的结构示意图；

图8为本发明实施例五提供的语音数据处理装置的结构示意图；

图9为本发明实施例六提供的语音数据处理装置的结构示意图；

图10为本发明实施例七提供的语音数据处理设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例，都属于本发明保护的范围。

针对上述提及的现有的语音数据处理方法直接将语音数据转换为汉字文本，转换过程中信息损失较大，语音播报的答案与用户的问题匹配度不高的技术问题，本发明提供了一种语音数据处理方法、装置、设备及计算机可读存储介质。

需要说明的是，本申请提供语音数据处理方法、装置、设备及计算机可读存储介质可运用在各种语音数据处理的场景中。

现有的语音数据处理方法，一般都是直接将获取到的语音数据转换为汉字数据，根据该汉字数据在预设的汉字知识库中获取目标问题，将目标问题对应的答案转换为目标语音数据并播放。但是，直接将语音数据转换为汉字数据，可能会造成大量的信息损失，导致转换后的汉字数据与用户提出的问题之间差别较大。此外，在不同场景下，用户说话的速度、发音可能有所不同，此时，则无法准确地对该语音数据进行转换。

在解决上述技术问题的过程中，发明人研究发现，为了提高语音转换后的问题与语音数据的匹配度，可以选择将语音数据转换为拼音数据。当根据该拼音数据无法精准地获取标准问题时，则可以通过网络模型对该拼音数据对应的目标问题进行预测操作，获得目标标准问题。

发明人进一步研究发现，通过获取用户发送的语音数据，对该语音数据进行转换操作，获得拼音数据，确定该拼音数据与预设的拼音知识库中相似度最高的标准问题之间的相似度是否超过预设的阈值，若否，则通过预设的预测模型获得拼音数据对应的目标标准问题，将该目标标准问题转换为目标语音数据并播放该目标语音数据。通过将语音数据转换为拼音数据，从而能够避免直接将语音数据转换为文字数据而造成的信息损失，此外，通过在拼音数据与标准问题之间的相似度低于预设的阈值时，通过预设的预测模型确定拼音数据对应的目标标准问题，从而能够进一步地提高语音播报的目标语音数据与用户的语音数据对应的问题之间的匹配度，提高用户体验。

图1为本发明基于的***架构示意图，如图1所示，本发明基于的***架构至少包括：语音数据处理装置1以及数据服务器2。其中，语音数据处理装置1采用C/C++、Java、Shell或Python等语言编写数据服务器2则可为云端服务器或服务器集群，其内存储有大量的数据。其中，语音数据处理装置1与数据服务器2通信连接，从而能够与数据服务器进行信息交互。

图2为本发明实施例一提供的语音数据处理方法的流程示意图，如图2所示，所述方法包括：

步骤101、获取用户发送的语音数据。

本实施例的执行主体为语音数据处理装置。用户可以与该语音数据处理装置通过语音进行人机交互。该语音数据处理装置具体可以为用于答复用户问题的语音问答机器人，也可以为安装在终端设备中用于对终端设备进行控制的智能语音助手。实际应用中，当该语音数据处理装置为语音问答机器人时，用户可以通过语音向该语音问题机器人提问：激活XX功能有年龄限制么；小金库快速转出上限如何调整等。

相应地，语音数据处理装置可以实时监测用户是否发出语音数据，例如可以监测用户是否触发预设的唤醒语音，或者用户说话声音是否大于预设的阈值等。当监测到用户发出语音数据时，获取该语音数据。

作为一种可以实施的方式，该语音数据处理装置可以安装在终端设备中，也可以为独立的装置。当该语音数据处理装置安装在终端设备中时，该语音数据处理装置还与终端设备进行通信连接，终端设备获取用户发送的语音数据，语音数据处理装置从终端设备获取该语音数据。

步骤102、通过预设的语音识别模型，将所述语音数据转换为拼音数据。

在本实施方式中，获取到用户发送的语音数据之后，还可以通过预设的语音识别模型，将语音数据转换为拼音数据。具体地，该语音识别模型是通过预设的待训练数据训练获得的，其中，该待训练数据中包括多条语音数据，每条语音数据通过对应的拼音进行标注。从而可以通过该语音识别模型识别获得语音数据对应的拼音数据。

可选地，可以采用任意一种自动语音识别(Automatic Speech Recognition简称ASR)实现对语音数据识别的操作，获得该语音数据对应的拼音数据，本发明对此不做限制。

步骤103、根据所述拼音数据在预设的拼音知识库中获取与所述拼音数据相似度最高的标准问题。

在本实施方式中，可以预先建立拼音知识库，其中，该拼音知识库中包括多条标准问题，该标准问题以拼音的形式存在，以及，还包括多条与标准问题对应的答案。因此，在获得语音数据对应的拼音数据之后，可以在预设的拼音知识库中，获取与该拼音数据相似度最高的标准问题。

步骤104、若所述拼音数据与所述标准问题之间的相似度低于预设的阈值，则将所述拼音数据输入至预设的预测模型，获得所述拼音数据对应的目标标准问题。

在本实施方式中，获取到与拼音数据相似度最高的标准问题之后，需要计算拼音数据与该标准问题之间的相似度是否超过预设的阈值。该预设的阈值可以为***根据历史数据设置的经验值，也可以为用户根据实际需求自行设置的，本发明对此不做限制。举例来说，该预设的阈值具体可以为0.9。

具体地，若拼音数据与该标准问题之间的相似度超过预设的阈值，则表征用户发送的语音数据中的问题大概率为该标准问题。而实际应用中，由于用户语速、发音有所不同，则语音识别模型识别出的拼音数据与标准问题之间的相似度即较低，也即，该标准问题可能不是用户语音数据中的问题。此时，可以将该拼音数据输入至预设的预测模型中，通过该预测模型对该拼音数据对应的目标标准问题进行预测。

步骤105、通过预设的语音转换模型，将所述拼音知识库中与所述目标标准问题对应的目标答案转换为目标语音数据，播放所述目标语音数据。

在本实施方式中，获取到拼音数据对应的目标标准问题之后，可以通过预设的语音转换模型，将目标标准问题对应的答案转换为目标语音数据，并播放该目标语音数据，实现与用户的人机交互。

进一步地，在实施例一的基础上，步骤103之后，所述方法还包括：

在本实施方式中，获取到与拼音数据相似度最高的标准问题之后，需要计算拼音数据与该标准问题之间的相似度是否超过预设的阈值。若拼音数据与该标准问题之间的相似度超过预设的阈值，则表征用户发送的语音数据中的问题大概率为该标准问题。此时，可以直接通过预设的语音转换模型，将拼音知识库中与标准问题对应的目标答案转换为目标语音数据，播放目标语音数据。

图3为本发明实施例提供的场景示意图，如图3所示，该语音数据处理装置具体可以为语音机器人，该语音机器人能够获取用户发送的语音数据，并确定该语音数据对应的目标标准问题，将目标标准问题对应的目标答案转换为目标语音数据并播报。

进一步地，在上述任一实施例的基础上，步骤104具体包括：

在本实施例中，若语音识别模型识别出的拼音数据与标准问题之间的相似度即较低，也即，该标准问题可能不是用户语音数据中的问题。此时，可以将该拼音数据输入至预设的预测模型中，通过该预测模型对该拼音数据对应的目标标准问题进行预测。具体地，该预测模型可以输出预设数量个拼音数据对应的标准问题，该预设数量具体可以为50个。依次计算各标准问题与拼音数据之间的相似度，将相似度最高的标准问题作为该目标标准问题。

本实施例提供的语音数据处理方法，通过获取用户发送的语音数据，对该语音数据进行转换操作，获得拼音数据，确定该拼音数据与预设的拼音知识库中相似度最高的标准问题之间的相似度是否超过预设的阈值，若否，则通过预设的预测模型获得拼音数据对应的目标标准问题，将该目标标准问题转换为目标语音数据并播放该目标语音数据。通过将语音数据转换为拼音数据，从而能够避免直接将语音数据转换为文字数据而造成的信息损失，此外，通过在拼音数据与标准问题之间的相似度低于预设的阈值时，通过预设的预测模型确定拼音数据对应的目标标准问题，从而能够进一步地提高语音播报的目标语音数据与用户的语音数据对应的问题之间的匹配度，提高用户体验。

图4为本发明实施例二提供的语音数据处理方法的流程示意图，在实施例一的基础上，如图4所示，步骤104具体包括：

步骤201、将所述拼音数据输入至所述语义识别子模型中，获得所述拼音数据对应的语义信息；

步骤202、将所述语义信息输入至所述特征提取子模型中，获得所述语义信息对应的特征数据；

步骤203、将所述特征数据输入至所述分类子模型中，获得所述拼音数据对应的目标标准问题。

图5为本发明实施例提供的预测模型的结构示意图，如图5所示，该预测模型具体包括语义识别子模型、特征提取子模型以及分类子模型。

在本实施例中，获取到语音数据对应的拼音数据之后，首先可以将该拼音数据输入至语义识别子模型中，获得该拼音数据对应的语义信息。将该语义信息输入至特征提取子模型中进行特征提取，获得该语义信息对应的特征数据。需要说明的是，该特征提取子模型具体可以为能够实现特征提取的任意一种卷积神经网络模型。

进一步地，可以将特征数据输入至分类子模型中进行分类操作，获得拼音数据对应的目标标准问题。其中，该分类子模型为全连接神经网络模型。

本实施例提供的语音数据处理方法，通过采用语义识别子模型、特征提取子模型以及分类子模型对拼音数据进行分析，从而能够精准地确定该拼音信息对应的目标标准问题，从而能够提高语音播报的目标语音数据与用户的语音数据对应的问题之间的匹配度，提高用户体验。

图6为本发明实施例三提供的语音数据处理方法的流程示意图，在上述任一实施例的基础上，步骤201之前，还包括：

步骤301、从数据服务器中获取预设的第一待训练拼音数据，其中，所述第一待训练拼音数据中包括标注后的多个常用文本数据对应的拼音；

步骤302、通过所述第一待训练拼音数据对预设的第一待训练模型进行训练，获得预训练模型；

步骤303、从数据服务器中获取预设的第二待训练拼音数据，其中，所述第二待训练拼音数据中包括标注后的多个特定领域文本对应的拼音；

步骤304、通过所述第二待训练拼音数据对所述预训练模型进行训练，获得所述语义识别子模型。

在本实施例中，为了能够通过预测模型实现对拼音数据对应的目标标准问题的预测，首先需要对该预测模型进行训练。为了提高该预测模型在特定领域的应用，可以通过不同的数据对该预测模型进行两次训练操作。具体地，首先可以从数据服务器中获取预设的第一待训练拼音数据，其中，该第一待训练拼音数据中包括标注后的多个常用文本数据对应的拼音。例如该常用文本数据可以为财经新闻数据，通过预设的Python中的pypinyin包将财经新闻数据转换为拼音形式。进而可以通过该第一待训练拼音数据对预设的第一待训练模型进行训练，获得预训练模型。

进一步地，为了提高该预测模型在特定领域的应用，可以采用特定领域的文本对应的拼音对预训练模型进行进一步地调整。具体地，可以从数据服务器中获取预设的第二待训练拼音数据，其中，第二待训练拼音数据中包括标注后的多个特定领域文本对应的拼音。通过该第二待训练拼音数据对该预训练模型进行训练操作，直至预训练模型手链，获得该预测模型。

具体地，在上述任一实施例的基础上，步骤301具体包括：

在本实施例中，由于实际应用中，用户的口音、语速等均存在不同，为了能够提高预测模型的适用性，首先需要对第一待训练数据进行预处理操作。具体地，首先需要从数据服务器中获取预设的第一待处理数据，其中，第一待处理数据中包括多个常用文本数据对应的拼音。对第一待处理数据中的拼音按照声母以及韵母进行拆分。通过更细粒度的拼音拆分，从而能够提高该预测模型的预测精准度。

可选地，还可以通过预设的符号，随机对第一待处理数据中至少一个文本数据对应的拼音进行替换操作，获得第一待训练拼音数据。实际应用中，由于用户语速过快或者存在口音等，可能会导致部分文本对应的语音含糊不清，增加了识别难度。而通过采用预设的符号，随机对文本数据对应的拼音进行替换操作，从而能够使得预测模型在训练过程中，学习到第一待处理数据中被替换的文本数据与第一待处理数据之间的关联关系。进而在后续应用过程中，即使用户发送的语音数据中存在部分不清晰的语音，也能够精准地实现目标标准问题的预测。

可选地，为了使预测模型能够学习到文本片段之间的关联关系，针对文本片段，在选取该文本片段作为第一待处理数据之后，可以以预设的概率选取与该文本片段存在关联关系的文本片段作为第一待处理数据。因此，针对第一待训练数据中的每一目标常用文本数据对应的拼音，第一待训练数据中存在预设的概率包括一常用文本数据对应的拼音，与目标常用文本数据对应的拼音存在连续关系。

可选地，由于部分方言的语音与普通话的语音存在不同，因此，可以对第一待处理数据中不同方言对应的拼音标注为普通话对应的拼音。以实际应用举例来说，汉字哪里对应的拼音包括但不限于nali，lali，nale；可以将上述三种拼音均标注为nali。

需要说明的是，上述几种实施方式可以单独实施，也可以结合实施，当其结合实施时，可以按照预设的概率选取存在关联关系文本片段作为第一待处理数据。对第一待处理数据按照声母以及韵母进行拆分，并通过预设的符号，对拆分后的第一待处理数据中至少一个文本数据对应的拼音进行替换操作，并将同一汉字对应的不同发音标注为一个标准的发音，获得第一待训练数据。

以实际应用举例来说，该第一待处理数据为：菲香蕉出口商表示，对该第一待处理数据进行预处理后得到第一待训练拼音数据:[CLS]f##ei x##i##ang[MASK]##i##ao ch[MASK]k##ou sh##ang[MASK]##i[MASK]sh##i[SEP]

其中，[CLS]：一段文本的开始标志，[SEP]：一段文本的结束标志，[UNK]:未知字符的替代符号，##声母韵母的分隔符，[MASK]：预设的符号，用于对随机对至少一个文本数据对应的拼音进行替换操作。

本实施例提供的语音数据处理方法，通过对第一待训练模型采用不同的待训练数据进行两次训练，从而能够提高预测模型的适用性。通过对第一待训练数据的预处理操作，从而能够提高预测模型预测的精准度。

图7为本发明实施例四提供的语音数据处理装置的结构示意图，如图7所示，所述装置包括：获取模块41、转换模块42、匹配模块43、预测模块44以及播报模块45，其中，获取模块41，用于获取用户发送的语音数据；转换模块42，用于通过预设的语音识别模型，将所述语音数据转换为拼音数据；匹配模块43，用于根据所述拼音数据在预设的拼音知识库中获取与所述拼音数据相似度最高的标准问题；预测模块44，用于若所述拼音数据与所述标准问题之间的相似度低于预设的阈值，则将所述拼音数据输入至预设的预测模型，获得所述拼音数据对应的目标标准问题；播报模块45，用于通过预设的语音转换模型，将所述拼音知识库中与所述目标标准问题对应的目标答案转换为目标语音数据，播放所述目标语音数据。

进一步地，在实施例四的基础上，播报模块45还用于若所述拼音数据与所述标准问题之间的相似度高于预设的阈值，则通过预设的语音转换模型，将所述拼音知识库中与所述标准问题对应的目标答案转换为目标语音数据，播放所述目标语音数据。

进一步地，在实施例的基础上，所述预测模块44用于：

本实施例提供的语音数据处理装置，通过获取用户发送的语音数据，对该语音数据进行转换操作，获得拼音数据，确定该拼音数据与预设的拼音知识库中相似度最高的标准问题之间的相似度是否超过预设的阈值，若否，则通过预设的预测模型获得拼音数据对应的目标标准问题，将该目标标准问题转换为目标语音数据并播放该目标语音数据。通过将语音数据转换为拼音数据，从而能够避免直接将语音数据转换为文字数据而造成的信息损失，此外，通过在拼音数据与标准问题之间的相似度低于预设的阈值时，通过预设的预测模型确定拼音数据对应的目标标准问题，从而能够进一步地提高语音播报的目标语音数据与用户的语音数据对应的问题之间的匹配度，提高用户体验。

图8为本发明实施例五提供的语音数据处理装置的结构示意图，在实施例四的基础上，所述预测模型包括语义识别子模型、特征提取子模型以及分类子模型；相应地，所述预测模块包括：识别单元51、特征提取单元52以及分类单元53，其中，识别单元51，用于将所述拼音数据输入至所述语义识别子模型中，获得所述拼音数据对应的语义信息；特征提取单元52，用于将所述语义信息输入至所述特征提取子模型中，获得所述语义信息对应的特征数据；分类单元53，用于将所述特征数据输入至所述分类子模型中，获得所述拼音数据对应的目标标准问题。

具体地，在上述任一实施例的基础上，所述特征提取子模型为卷积神经网络模型。

具体地，在上述任一实施例的基础上，所述分类子模型为全连接神经网络模型。

图9为本发明实施例六提供的语音数据处理装置的结构示意图，在上述任一实施例的基础上，所述预测模块包括：第一数据获取单元61、第一训练单元62、第二数据获取单元63以及第二训练单元64，其中，第一数据获取单元61，用于从数据服务器中获取预设的第一待训练拼音数据，其中，所述第一待训练拼音数据中包括标注后的多个常用文本数据对应的拼音；第一训练单元62，用于通过所述第一待训练拼音数据对预设的第一待训练模型进行训练，获得预训练模型；第二数据获取单元63，用于从数据服务器中获取预设的第二待训练拼音数据，其中，所述第二待训练拼音数据中包括标注后的多个特定领域文本对应的拼音；第二训练单元64，用于通过所述第二待训练拼音数据对所述预训练模型进行训练，获得所述语义识别子模型。

进一步地，在上述任一实施例的基础上，所述第一数据获取单元用于：

图10为本发明实施例七提供的语音数据处理设备的结构示意图，如图10所示，所述语音数据处理设备包括：存储器71，处理器72；

存储器71；用于存储所述处理器72可执行指令的存储器71；

其中，所述处理器72被配置为由所述处理器72执行如上述任一实施例所述的语音数据处理方法。

存储器71，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器71可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，处理器72可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

可选的，在具体实现上，如果存储器71和处理器72独立实现，则存储器71和处理器72可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器71和处理器72集成在一块芯片上实现，则存储器71和处理器72可以通过内部接口完成相同间的通信。

本发明又一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的语音数据处理方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音数据处理方法，其特征在于，包括：

获取用户发送的语音数据；

2.根据权利要求1所述的方法，其特征在于，所述预测模型包括语义识别子模型、特征提取子模型以及分类子模型；

3.根据权利要求1或2所述的方法，其特征在于，所述将所述拼音数据输入至预设的预测模型，获得所述拼音数据对应的目标标准问题，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述拼音数据输入至所述语义识别子模型中，获得所述拼音数据对应的语义信息之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述从数据服务器中获取预设的第一待训练拼音数据，包括：

6.根据权利要求2、4-5任一项所述的方法，其特征在于，所述特征提取子模型为卷积神经网络模型。

7.根据权利要求2、4-5任一项所述的方法，其特征在于，所述分类子模型为全连接神经网络模型。

8.根据权利要求1-2、4-5任一项所述的方法，其特征在于，所述根据所述拼音数据在预设的拼音知识库中获取与所述拼音数据相似度最高的标准问题之后，还包括：

9.一种语音数据处理装置，其特征在于，包括：

获取模块，用于获取用户发送的语音数据；

10.根据权利要求9所述的装置，其特征在于，所述预测模型包括语义识别子模型、特征提取子模型以及分类子模型；

相应地，所述预测模块包括：

11.根据权利要求9或10所述的装置，其特征在于，所述预测模块用于：

12.根据权利要求10所述的装置，其特征在于，所述预测模块包括：

13.根据权利要求12所述的装置，其特征在于，所述第一数据获取单元用于：

14.根据权利要求10、12-13任一项所述的装置，其特征在于，所述特征提取子模型为卷积神经网络模型。

15.根据权利要求10、12-13任一项所述的装置，其特征在于，所述分类子模型为全连接神经网络模型。

16.根据权利要求9-10、12-13任一项所述的装置，其特征在于，所述装置还包括：

17.一种语音数据处理设备，其特征在于，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行如权利要求1-8任一项所述的语音数据处理方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-8任一项所述的语音数据处理方法。