CN113409770A

CN113409770A - 发音特征处理方法、装置、服务器及介质

Info

Publication number: CN113409770A
Application number: CN202011345646.5A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-09-17

Abstract

本申请实施例公开了一种发音特征处理方法、装置、计算机设备及介质，属于语音处理技术领域。该方法包括：获取文本数据和文本数据对应的语音数据，语音数据中包括多个语音片段；对文本数据和语音数据进行识别，得到每个语音片段的第一发音特征；将每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合，得到每个语音片段的融合特征；分别根据每个语音片段的融合特征，对每个语音片段的第一发音特征进行调整，得到每个语音片段的第二发音特征。该方法实现了对第一发音特征的噪声补偿，使得到的第二发音特征能够更加准确地表示语音片段的发音特征，提高了语音数据的发音特征的准确率。

Description

发音特征处理方法、装置、服务器及介质

技术领域

本申请实施例涉及语音处理技术领域，特别涉及一种发音特征处理方法、装置、服务器及介质。

背景技术

随着计算机技术和语音处理技术的发展，采用语音处理技术辅助用户练习某种语言的发音，已成为热门的研究方向。例如，采集用户朗读的某个词语对应的语音数据，对该语音数据进行识别，从而得到该语音数据的发音特征，便于根据该发音特征对语音数据进行后续处理。

但是，由于用户所处环境、采集设备或其他因素的影响，采集的语音数据中可能会包含噪声，发音特征也会受到噪声的影响，因此发音特征的准确率较低。

发明内容

本申请实施例提供了一种发音特征处理方法、装置、服务器及介质，提高了发音特征的准确率。所述技术方案如下：

一方面，提供了一种发音特征处理方法，所述方法包括：

获取文本数据和所述文本数据对应的语音数据，所述文本数据中包括多个字符片段，所述语音数据中包括多个语音片段，且每个语音片段中的声音是按照一个字符片段发出的；

对所述文本数据和所述语音数据进行识别，得到每个语音片段的第一发音特征，所述第一发音特征表示所述语音片段对应的字符片段的模板发音与所述语音片段之间的匹配度；

将所述每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合，得到所述每个语音片段的融合特征；

分别根据所述每个语音片段的融合特征，对所述每个语音片段的第一发音特征进行调整，得到所述每个语音片段的第二发音特征。

在一种可能实现方式中，所述对所述文本数据和所述语音数据进行识别，得到每个语音片段的第一发音特征，包括：

调用语音识别模型，对所述文本数据及所述语音数据进行识别，得到所述每个语音片段的第一发音特征。

另一方面，提供了一种发音特征处理装置，所述装置包括：

数据获取模块，用于获取文本数据和所述文本数据对应的语音数据，所述文本数据中包括多个字符片段，所述语音数据中包括多个语音片段，且每个语音片段中的声音是按照一个字符片段发出的；

数据识别模块，用于对所述文本数据和所述语音数据进行识别，得到每个语音片段的第一发音特征，所述第一发音特征表示所述语音片段对应的字符片段的模板发音与所述语音片段之间的匹配度；

特征融合模块，用于将所述每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合，得到所述每个语音片段的融合特征；

特征调整模块，用于分别根据所述每个语音片段的融合特征，对所述每个语音片段的第一发音特征进行调整，得到所述每个语音片段的第二发音特征。

在一种可能实现方式中，所述特征融合模块，用于调用噪声补偿模型，将所述每个语音片段的第一发音特征与所述其他语音片段的第一发音特征进行融合，得到所述每个语音片段的融合特征；

所述特征调整模块，用于调用所述噪声补偿模型，分别根据所述每个语音片段的融合特征，对所述每个语音片段的第一发音特征进行调整，得到所述每个语音片段的第二发音特征。

在另一种可能实现方式中，所述装置还包括：

样本数据获取模块，用于获取样本数据，所述样本数据包括样本文本数据和所述样本文本数据对应的样本语音数据，所述样本文本数据中包括多个样本字符片段，所述样本语音数据中包括多个样本语音片段，且每个样本语音片段中的声音是按照一个样本字符片段发出的；

样本特征获取模块，用于获取每个样本语音片段的第一样本特征和第二样本特征，所述第一样本特征表示所述样本语音片段对应的样本字符片段的模板发音与所述样本语音片段之间的匹配度，所述第二样本特征为对所述第一样本特征进行去噪处理后得到的特征；

训练模块，用于调用所述噪声补偿模型，分别对所述每个样本语音片段的第一样本特征进行调整，得到所述每个样本语音片段的预测发音特征，根据所述每个样本语音片段的所述预测发音特征和所述第二样本特征之间的差异，训练所述噪声补偿模型。

在另一种可能实现方式中，所述样本数据还包括所述样本语音数据的样本准确率，所述噪声补偿模型包括噪声补偿网络和口语评测网络；所述训练模块，还用于：

调用所述噪声补偿网络，分别对所述每个样本语音片段的第一样本特征进行调整，得到所述每个样本语音片段的预测发音特征；

调用所述口语评测网络，对多个样本语音片段的预测发音特征进行融合，得到所述样本语音数据的预测准确率；

根据所述预测准确率和所述样本准确率之间的差异，训练所述噪声补偿网络。

在另一种可能实现方式中，所述样本数据还包括所述样本语音数据的样本准确率，所述训练模块，还用于：

调用口语评测模型，对所述多个样本字符片段和所述多个样本语音片段的预测发音特征进行评测，得到所述样本语音数据的预测准确率；

根据所述预测准确率和所述样本准确率之间的差异，训练所述噪声补偿模型。

在另一种可能实现方式中，所述数据识别模块，用于对所述文本数据和所述语音数据进行识别，得到所述每个语音片段的第一发音特征和所述每个字符片段的字符特征，所述字符特征用于表示所述字符片段在所述文本数据中的位置和所属的字符类型；

所述特征融合模块，包括：

第一融合单元，用于将所述每个语音片段的第一发音特征与所述其他语音片段的第一发音特征进行融合，得到所述每个语音片段的融合发音特征；

第二融合单元，用于将所述每个字符片段的字符特征与其他字符片段的字符特征进行融合，得到所述每个字符片段的融合字符特征。

在另一种可能实现方式中，所述数据识别模块，用于对所述文本数据和所述语音数据进行识别，得到所述每个语音片段的第一发音特征和所述每个语音片段的噪声特征，所述噪声特征用于描述所述语音片段中包含的噪声；

所述特征调整模块，用于分别根据所述每个语音片段的融合特征和噪声特征，对所述每个语音片段的第一发音特征进行调整，得到所述每个语音片段的第二发音特征。

在另一种可能实现方式中，所述装置还包括：

语音评测模块，用于对所述多个字符片段和所述多个语音片段的第二发音特征进行评测，得到所述语音数据的发音准确率。

在另一种可能实现方式中，所述语音评测模块，用于：

分别对所述多个字符片段和所述多个语音片段的第二发音特征进行评测，得到所述多个语音片段的发音准确率；

将所述多个语音片段的发音准确率进行融合，得到所述语音数据的发音准确率。

在另一种可能实现方式中，所述语音评测模块，用于调用口语评测模型，对所述多个字符片段和所述多个语音片段的第二发音特征进行评测，得到所述语音数据的发音准确率。

在另一种可能实现方式中，所述装置还包括：

准确率发送模块，用于将所述语音数据的发音准确率发送给终端，所述终端用于在包含所述文本数据的跟读界面中显示所述发音准确率。

在另一种可能实现方式中，所述数据获取模块，用于接收终端发送的所述文本数据和所述语音数据，所述终端用于显示包含所述文本数据的跟读界面，响应于跟读启动操作，采集所述语音数据。

在另一种可能实现方式中，所述数据识别模块，用于调用语音识别模型，对所述文本数据及所述语音数据进行识别，得到所述每个语音片段的第一发音特征。

另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如上述方面所述的发音特征处理方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如上述方面所述的发音特征处理方法中所执行的操作。

另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备实现如上述方面所述的发音特征处理方法中所执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的方法、装置、服务器及介质，对文本数据和语音数据进行识别得到多个语音片段的第一发音特征，由于语音数据受到噪声影响，导致得到的第一发音特征难以准确表示语音片段的发音特征，因此综合考虑多个语音片段之间的关联关系，对多个第一发音特征进行融合得到融合特征，根据该融合特征对第一发音特征进行调整，实现对第一发音特征的噪声补偿，使得到的第二发音特征能够更加准确地表示语音片段的发音特征，提高了发音特征的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种发音特征处理方法的流程图；

图3是本申请实施例提供的一种网络模型的结构示意图；

图4是本申请实施例提供的另一种网络模型的结构示意图；

图5是本申请实施例提供的另一种发音特征处理方法的流程图；

图6是本申请实施例提供的一种跟读界面的示意图；

图7是本申请实施例提供的一种噪声特征与发音特征的关系示意图；

图8是本申请实施例提供的一种噪声补偿模型的结构示意图；

图9是本申请实施例提供的另一种网络模型的结构示意图；

图10是本申请实施例提供的另一种跟读界面的示意图；

图11是本申请实施例提供的另一种发音特征处理方法的流程图；

图12是本申请实施例提供的一种噪声补偿模型训练方法的流程图；

图13是本申请实施例提供的一种不同发音质量下的发音特征的示意图；

图14是本申请实施例提供的一种训练噪声补偿模型的示意图；

图15是本申请实施例提供的另一种训练噪声补偿模型的示意图；

图16是本申请实施例提供的一种发音特征处理装置的结构示意图；

图17是本申请实施例提供的另一种发音特征处理装置的结构示意图；

图18是本申请实施例提供的一种终端的结构示意图；

图19是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一发音特征称为第二发音特征，将第二发音特征称为第一发音特征。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个语音片段包括3个语音片段，而每个语音片段是指这3个语音片段中的每一个语音片段，任一是指这3个语音片段中的任意一个，可以是第一个，可以是第二个，也可以是第三个。

为了便于理解本申请实施例，先对本申请实施例涉及到的关键词进行解释：

GOP(Goodness Of Pronunciation，发音置信度)：GOP表示某个语音片段对应某个字符片段的发音置信度，置信度越高，表示该语音片段对该字符片段的发音越准确。

BLSTM(Bidirectional Long Short-Term Memory，双向长短期记忆网络)：BLSTM是由前向LSTM与后向LSTM组合而成的一种神经网络结构，在自然语言处理中用于对文本数据中的上下文信息进行处理。

HMM(Hidden Markov Models，隐马尔可夫模型)：一种统计模型，用来描述一个含有隐含未知参数的马尔可夫过程。

ASR(Automatic Speech Recognition，自动语音识别)：将音频转化为文本的过程。

GMM(Gaussian Mixture Model，高斯混合模型)：一种聚类算法，采用多个高斯分布函数的线性组合去拟合数据分布。

SPLICE(Stereo-based Piecewise Linear Compensation for Environments，一种噪声补偿算法)：一种基于GMM的ASR的噪声补偿算法。

音素：英语发音的基本单位，英语中一般包含48个或39个基本音素。

SNR(Signal to Noise Ratio，信噪比)：信号强度与噪声强度的比值，该值越大，说明噪声越小。

PCC(Pearson Correlation Coefficient，皮尔逊相关系数：用于度量两个变量X和Y之间的相关(线性相关)，其值介于-1与1之间。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的语音技术、自然语言处理、机器学习等技术，具体通过如下实施例进行说明。

本申请实施例提供的方法可以应用于多种场景下。

例如，应用于口语学习场景下。

用户在学习英语口语时，在没有其他人帮助的情况下，难以确定发音是否准确，此时能够采用本申请实施例提供的发音特征处理方法，对英语段落和用户阅读该英语段落时产生的语音数据进行识别，得到语音数据的第一发音特征，然后对该第一发音特征进行调整，得到更加准确的第二发音特征，再根据第二发音特征对用户的发音进行评分，使用户根据评分了解自己的发音是否准确。

又例如，应用于口语评测场景下。

采用口语评测模型对用户的英语口语进行评测时，由于用户所处环境中噪声的影响，导致口语评测模型的评测结果准确率较低，此时能够采用本申请实施例提供的发音特征处理方法，对英语段落和用户阅读该英语段落时产生的语音数据进行识别，得到语音数据的第一发音特征，然后对该第一发音特征进行调整，得到更加准确的第二发音特征，再采用口语评测模型根据第二发音特征对用户的发音进行评分，使用户根据评分了解自己的发音是否准确。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。

终端101上安装由服务器102提供服务的目标应用，终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地，终端101为电脑、手机、平板电脑或者其他终端。可选地，目标应用为终端101操作***中的目标应用，或者为第三方提供的目标应用。例如，目标应用为口语学***台等基础云计算服务的云服务器。

图2是本申请实施例提供的一种发音特征处理方法的流程图。本申请实施例的执行主体为服务器，参见图2，该方法包括以下步骤：

201、服务器获取文本数据和文本数据对应的语音数据。

其中，文本数据中包括多个字符片段，该文本数据为一段话、一句话、一个单词等，一个字符片段中包括至少一个字母，该文本数据为任一语种的文本，例如，文本数据为汉语、英语、日语或其他语言。例如，文本数据为英文单词“bus”，则“b”、“u”和“s”分别是一个字符片段，文本数据为英文单词“word”，则“w”、“or”和“d”分别是一个字符片段。

语音数据中包括多个语音片段，且每个语音片段中的声音是按照一个字符片段发出的，文本数据对应的语音数据即是用户按照该文本数据进行朗读得到的语音数据。其中，每个语音片段中包括至少一个音素，音素是最小的语音单位，每个音素对应一个发音动作。例如，用户在朗读英文单词“word”时，“w”、“or”和“d”分别对应一个发音动作，多个发音动作连接在一起即得到“word”对应的语音数据。

202、服务器对文本数据和语音数据进行识别，得到每个语音片段的第一发音特征。

对文本数据和语音数据进行识别时，能够按照音素，将语音数据划分为多个语音片段，且每个语音片段能够与文本数据中的字符片段相对应，从而根据字符片段的模板发音和该字符片段对应的语音片段，确定该字符片段对应的语音片段的第一发音特征。

其中，第一发音特征表示语音片段对应的字符片段的模板发音与语音片段之间的匹配度。模板发音是指字符片段的标准发音，语音片段为用户的实际发音，标准发音与实际发音之间的匹配度即可表示用户的发音是否准确，匹配度越高表示用户的发音越准确。可选地，第一发音特征为大于等于0且小于等于1的任一数值，例如，第一发音特征为0.1、0.8、0.5等。可选地，第一发音特征为GOP。

203、服务器将每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合，得到每个语音片段的融合特征。

对于每个语音片段，其他语音片段是指语音数据中除该语音片段之外的语音片段，例如，英文单词“bus”，对于“b”对应的语音片段来说，其他语音片段即为“u”和“s”。

将每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合是指，在该语音片段的第一发音特征的基础上，融合其他语音片段的第一发音特征，从而得到该语音片段的融合特征，该融合特征中包括该语音片段的第一发音特征和其他语音片段的第一发音特征。

在一种可能实现方式中，对于任一语音片段，考虑到该语音片段的其他语音片段对该语音片段的影响程度不同，因此进行融合时，根据多个语音片段在语音数据中的先后位置，确定其他语音片段与该语音片段之间间隔的语音片段数量，根据语音片段的数量确定其他语音片段的权重，按照对应的权重对其他语音片段的第一发音特征进行加权，将该语音片段的第一发音特征与其他语音片段加权后的第一发音特征进行融合，得到该语音片段的融合特征。其中，间隔的语音片段的数量越少，其他语音片段的权重越大，间隔的语音片段的数量越多，其他语音片段的权重越小。例如，其他语音片段与该语音片段之间间隔了1个语音片段，确定该其他语音片段的权重为0.8，其他语音片段与该语音片段之间间隔了10个语音片段，确定该其他语音片段的权重为0.1。

例如，与该语音片段相邻的语音片段的第一发音特征的权重为0.9，与该语音片段之间间隔一个语音片段的语音片段的第一发音特征的权重为0.8等。一句话中包括5个语音片段，对于第3个语音片段，该第3个语音片段的第一发音特征为0.1，第1个、第2个、第4个、第5个语音片段的第一发音特征分别为0.4、0.9、0.9和0.7，权重分别为0.8、0.9、0.9和0.8，进行融合得到融合特征(0.32，0.81，0.1，0.81，0.56)。

可选地，多个第一特征融合后的融合特征采用向量、矩阵或其他形式表示。

204、服务器分别根据每个语音片段的融合特征，对每个语音片段的第一发音特征进行调整，得到每个语音片段的第二发音特征。

其中，融合特征能够表示语音数据中不同语音片段之间的联系。因此根据每个语音片段的融合特征，对该对语音片段的第一发音特征进行调整，得到的第二发音特征是进行噪声补偿后的发音特征，能够更加准确地表示语音片段的发音。

例如，一个语音片段的第一发音特征为0.1，而该语音片段之前和之后的语音片段的第一发音特征都为1，即该语音片段之前和之后的语音片段都是发音较为准确的语音片段，因此可以确定该第一发音特征可能是受到噪声影响而导致的发音不准确，因此对第一发音特征0.1进行调整。

本申请实施例提供的方法，对文本数据和语音数据进行识别得到多个语音片段的第一发音特征，由于语音数据受到噪声影响，导致得到的第一发音特征难以准确表示语音片段的发音特征，因此综合考虑多个语音片段之间的关联关系，对多个第一发音特征进行融合得到融合特征，根据该融合特征对第一发音特征进行调整，实现对第一发音特征的噪声补偿，使得到的第二发音特征能够更加准确地表示语音片段的发音特征，提高了发音特征的准确率。

在一种可能实现方式中，能够采用网络模型来对文本数据和语音数据进行处理，实现对发音特征的处理。下面对涉及到的网络模型进行说明：

图3是本申请实施例提供的一种网络模型的结构示意图，参见图3，该网络模型包括语音识别模型301和噪声补偿模型302，语音识别模型301和噪声补偿模型302连接。语音识别模型301用于对文本数据和语音数据进行识别，以获取语音数据中每个语音片段的第一发音特征，噪声补偿模型302用于对第一发音特征进行噪声补偿，减小噪声对第一发音特征的影响，从而得到噪声补偿后的第二发音特征。

在一种可能实现方式中，参见图4，网络模型还包括口语评测模型303，口语评测模型302与语音识别模型301和噪声补偿模型302连接。口语评测模型303用于根据语音识别模型301输出的多个字符片段，以及噪声补偿模型302的输出的第二发音特征，对语音数据进行评测，得到语音数据的发音准确率。

图5是本申请实施例提供的一种发音特征处理方法的流程图。本申请实施例的交互主体为终端和服务器，参见图5，该方法包括以下步骤：

501、终端显示包含文本数据的跟读界面，响应于跟读启动操作，开始采集文本数据对应的语音数据。

终端显示包含文本数据的跟读界面，用户在该跟读界面中执行跟读启动操作并开始朗读文本数据，终端响应于该跟读启动操作，开始采集用户的语音数据。其中，跟读界面中的文本数据为终端自动生成的文本数据，或者为用户输入的文本数据。

终端在采集语音数据的过程中，除了采集用户发出的语音数据之外，还会采集到用户所处环境中的其他声音，这些其他声音即为语音数据中的噪声，噪声的存在会对后续语音数据的处理产生影响，因此，需要对语义数据的发音特征中的噪声进行补偿，以使补偿之后的发音特征中不包含噪声特征。例如，采集到其他用户的声音、风声、鸟叫声等声音。

在一种可能实现方式中，终端响应于文本更换操作，更换跟读界面中的文本数据。可选地，跟读界面包括文本更新控件，用户对该文本更新控件进行触发操作，更新跟读界面中的文本数据。

在一种可能实现方式中，终端安装有目标应用，服务器为该目标应用提供服务，终端在目标应用中显示跟读界面。

502、终端响应于跟读结束操作，完成对语音数据的采集，将文本数据和采集到的语音数据发送给服务器。

503、服务器接收终端发送的文本数据和文本数据对应的语音数据。

用户在完成对文本数据的朗读后，执行跟读结束操作，终端响应于该跟读结束操作，结束对语音数据的采集，将已经采集到的语音数据作为文本数据对应的语音数据，并将文本数据和语音数据发送给服务器，服务器后续对接收到的文本数据和语音数据进行处理。

在一种可能实现方式中，跟读界面中还包括采集控件，跟读启动操作即为对该采集控件的触发操作，跟读结束操作即为再次对该采集控件的触发操作。可选地，该采集控件具有开始采集功能和结束采集功能，用户触发该采集控件之前，该采集控件为开始采集控件，即触发该采集控件开始采集语音数据，用户触发了一次该采集控件之后，该采集控件变为结束采集控件，即再次触发该采集控件结束采集语音数据。可选地，该采集控件具备不同功能的情况下，采集控件的上层显示不同的文字，来表示当前该采集控件是哪种功能。

例如，参见图6，跟读界面601中显示文本数据“我知道真实情况，你知道吗？”和开始朗读按钮，用户点击该开始朗读按钮，终端开始采集用户的发出的语音数据，且开始朗读按钮变为结束朗读按钮，用户朗读结束后，点击该结束朗读按钮，完成对语音数据的采集。

504、服务器调用语音识别模型，对文本数据和语音数据进行识别，得到每个语音片段的第一发音特征。

其中，语音识别模型用于对文本数据和语音数据进行识别，划分出语音数据中的每个语音片段，得到每个语音片段的第一发音特征。可选地，该语音识别模型是由服务器训练得到的，或者是由其他计算机设备训练、发送给该服务器的。

在一种可能实现方式中，以字符片段p为例，语音识别模型采用下述公式，得到字符片段p对应的语音片段的第一发音特征：

其中，GOP(p)表示第一发音特征，P(p|O^(p))表示字符片段p的发音为参考字符片段的发音的概率，Q表示全部字符片段，NF(p)表示语音数据中字符片段p发音的帧数，P(p)表示文本数据中字符片段p出现的概率，p(O^(p)|p)表示语音片段p发音成对应的模板发音的概率。

在一种可能实现方式中，语音识别模型还能够对文本数据进行识别，得到文本数据中的每个字符片段。或者，语音识别模型还能够得到每个字符片段的字符特征，即得到每个字符片段在文本数据中的位置和所属的字符类型，其中，字符片段在单词中的位置包括开始位置、中间位置或结束位置，字符类型包括元音和辅音。其中字符特征采用向量、矩阵或其他形式表示，例如，对于一个包含三个字符片段的单词，每个字符片段的字符特征采用一个向量表示，将三个字符片段对应的向量拼接在一起得到该单词的特征。

在一种可能实现方式中，语音识别模型还能够识别得到语音数据的噪声特征，该噪声特征用于描述语音片段中包含的噪声。可选地，噪声特征为信噪比、能量特征、信号功率特征或其他特征，例如信噪比包括语音片段中的最大信噪比或平均信噪比，信号功率特征包括信号最大功率、平均功率等。例如，不同的噪声特征参见表1所示：

表1

表1中第一栏为噪声特征的标识，第二栏为噪声特征，AudioAvgPower表示语音数据的平均功率，AudioPeakPower表示语音数据的最大功率，SpeechAvgPower表示语音数据中发音片段的平均功率，SpeechPeakPower表示语音数据中发音片段的最大功率，SilAvgPower表示语音数据中未发音片段的平均功率，SilPeakPower表示语音数据中未发音片段的最大功率，AvgSnr表示平均信噪比，PeakSnr表示最大信噪比。

例如，参见图7，横轴表示同一字符片段对应的不同语音片段，同一字符片段对应的每个语音片段对应一个语音片段序号，纵轴表示每个语音片段的GOP，示意图701表示字符片段“AA”在不同噪声特征影响下的GOP，示意图702表示字符片段“L”在不同噪声特征影响下的GOP，示意图701和示意图702中不同的虚线和实线表示受到不同的噪声特征的影响，从示意图701和示意图702中可以看出：对于同一语音片段，该语音片段在不同的噪声影响下GOP不同，且同一字符片段对应的不同语音片段在同一噪声影响下，GOP也不同。

505、服务器调用噪声补偿模型，将每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合，得到每个语音片段的融合特征，分别根据每个语音片段的融合特征，对每个语音片段的第一发音特征进行调整，得到每个语音片段的第二发音特征。

将语音识别模型输出的每个语音片段的第一发音特征输入至噪声补偿模型，调用噪声补偿模型对每个语音片段的第一发音特征进行处理，得到处理后的第二发音特征。

在一种可能实现方式中，噪声补偿模型包括多个噪声补偿网络，每个噪声补偿网络对一个语音片段的第一发音特征进行处理，且该多个噪声补偿网络之间相互连接。分别将每个语音片段的第一发音特征输入至对应的噪声补偿网络，然后该噪声补偿网络再将该第一发音特征传输至其他噪声补偿网络，且该噪声补偿网络也会得到其他噪声补偿网络传输的其他语音片段的第一发音特征，然后调用该噪声补偿网络，对输入的第一发音特征和得到的其他噪声网络传输的第一发音特征进行融合，得到融合发音特征，再根据融合发音特征调整输入的第一发音特征，得到第二发音特征，从而实现对输入的第一发音特征的噪声补偿。

可选地，噪声补偿网络还包括维度调整层，维度调整层与噪声补偿网络连接。噪声补偿网络输出的第二发音特征的维度可能与第一发音特征的维度不同，采用维度调整层对噪声补偿网络输出的第二发音特征进行调整，得到与第一发音特征的维度相同的第二发音特征。例如，噪声补偿网络输出的第二发音特征为三维向量，采用维度调整层将三维向量调整为一维数值。

在一种可能实现方式中，将语音识别模型输出的每个字符片段的字符特征和每个语音片段的第一发音特征共同输入至噪声补偿模型，调用噪声补偿模型对每个语音片段的第一发音特征和对应的字符特征进行处理，得到处理后的第二发音特征，即是在处理第一发音特征的过程中考虑字符特征的影响。

可选地，对于每个字符特征，分别将每个语音片段对应的字符特征输入至对应的噪声补偿网络，然后该噪声补偿网络再将该字符特征传输至其他噪声补偿网络，且该噪声补偿网络也会得到其他噪声补偿网络传输的其他语音片段的字符特征，然后调用该噪声补偿网络，对输入的字符特征和得到的其他噪声网络传输的字符特征进行融合，得到融合字符特征。之后调用噪声补偿网络，根据融合发音特征和融合字符特征调整输入的第一发音特征，得到第二发音特征，从而实现对输入的第一发音特征的噪声补偿。

可选地，噪声补偿网络为BLSTM、LSTM或其他神经网络结构。

在一种可能实现方式中，将语音识别模型输出的每个语音片段的噪声特征和每个语音片段的第一发音特征共同输入至噪声补偿模型，调用噪声补偿模型对每个语音片段的第一发音特征和噪声特征进行处理，得到处理后的第二发音特征，即是在处理第一发音特征的过程中考虑噪声特征的影响。

可选地，调用噪声补偿网络得到每个语音片段的融合发音特征，再调用噪声补偿网络，根据融合发音特征和噪声特征调整输入的第一发音特征，得到第二发音特征，从而实现对输入的第一发音特征的噪声补偿。例如，在根据噪声特征进行调整时，如果语音片段的噪声特征较大，则确定该语音片段受到噪声影响较为严重，需要对该第一发音特征进行较大的调整。

在另一种可能实现方式中，将每个语音片段的第一发音特征、噪声特征和对应的字符片段的字符特征作为噪声补偿模型的输入。

例如，参见图8，对于文本数据“bus”，第一个字符片段“b”对应的GOP为0.1、字符特征为{0.1，0.3，0.5}、噪声特征为{0.3，0.5，0.7}，第二个字符片段“u”对应的GOP为0.2、字符特征为{0.2，0.3，0.5}、噪声特征为{0.3，0.6，0.7}，第三个字符片段“s”对应的GOP为0.9、字符特征为{0.2，0.5，0.5}、噪声特征为{0.4，0.8，0.7}，分别将“b”、“u”和“s”的GOP、字符特征和噪声特征输入至对应的噪声补偿网络中，经过处理后分别得到调整后的GOP，调整后的GOP均为0.3。其中，“b”对应的噪声补偿网络801与“u”对应的噪声补偿网络802连接，“u”对应的噪声补偿网络802与“s”对应的噪声补偿网络803连接。

506、服务器调用口语评测模型，对多个字符片段和多个语音片段的第二发音特征进行评测，得到语音数据的发音准确率。

服务器调用噪声补偿模型，得到多个语音片段的第二发音特征，将该多个语音片段的第二发音特征和多个语音片段对应的字符片段作为口语评测模型的输入。例如，参见图9，噪声补偿模型302对受噪声影响的第一发音特征进行处理，得到第二发音特征，将第二发音输入至口语评测模型303，口语评测模型303输出语音数据的发音准确率。其中，发音准确率用于表示用户对语音片段的发音的准确率。该发音准确率可以采用评测分数、百分比等形式表示。

其中，口语评测模型是由服务器训练得到的，或者是由其他计算机设备训练并发送给服务器的。

在一种可能实现方式中，服务器调用口语评测模型，分别对多个字符片段和多个语音片段的第二发音特征进行评测，得到多个语音片段的发音准确率；将多个语音片段的发音准确率进行融合，得到语音数据的发音准确率。可选地，根据不同语音片段在整个语音数据中所占的权重，将多个语音片段的发音准确率进行加权融合，得到语音数据的发音准确率。

507、服务器向终端发送语音数据的发音准确率。

508、终端在跟读界面中显示发音准确率。

服务器得到语音数据的发音准确率之后，将该发音准确率发送给终端，由终端在跟读界面中显示该发音准确率。例如，参见图10，发音准确率采用评测分数表示，该评测分数包括1、2、3、4和5分，且不同的分数点亮对应数量的星星，跟读界面1001中显示的是4分，点亮了4颗星星。

在一种可能实现方式中，服务器还会向终端发送语音数据中每个语音片段的发音准确率，或者多个语音片段中部分语音片段的发音准确率融合之后的发音准确率，终端在跟读界面中显示该发音准确率。例如，对于词语“知道”，该词语的语音片段包括不同“zh”、“i”、“d”和“ao”的语音片段，服务器对“zh”、“i”、“d”和“ao”的发音准确率进行融合，得到“知道”的发音准确率“4”，参见图10，在跟读界面1001中显示“知道”的发音准确率。

在一种可能实现方式中，参见图11，用户跟读终端安装的目标应用中显示的文本数据，终端采集到语音数据，将文本数据和语音数据发送给服务器，服务器将语音数据和文本数据作为语音识别模型的输入，采用语音识别模型得到第一发音特征和文本数据中的多个字符片段，将第一发音特征作为噪声补偿模型的输入，采用噪声补偿模型对第一发音特征进行处理，得到第二发音特征，将第二发音特征和多个字符片段作为口语评测模型的输入，采用口语评测模型对第二发音特征和多个字符片段进行处理，得到发音准确率，服务器将得到的发音准确率发送给终端中的目标应用，目标应用显示该发音准确率，使用户能够了解到对文本数据的发音是否准确。

本申请实施例提供的方法，采用语音识别模型，对文本数据和语音数据进行识别得到多个语音片段的第一发音特征，由于语音数据受到噪声影响，导致得到的第一发音特征难以准确表示语音片段的发音特征，因此综合考虑多个语音片段之间的关联关系，采用噪声补偿模型对多个第一发音特征进行融合得到融合特征，根据该融合特征对第一发音特征进行调整，实现对第一发音特征的噪声补偿，使得到的第二发音特征能够更加准确地表示语音片段的发音特征，提高了发音特征的。

并且，还考虑了语音数据中噪声特征以及字符特征对语音片段的影响，进一步提高了发音特征的准确率。

并且，在得到发音准确率之后，能够在终端中显示该发音准确率，使用户了解该发音准确率，帮助用户学习口语发音。

上述图5对采用噪声补偿网络处理语音片段的第一发音特征进行了说明。在一种可能实现方式中，参见图12，该噪声补偿网络的训练过程包括：

1201、服务器获取样本数据。

其中，样本数据包括样本文本数据和样本文本数据对应的样本语音数据，样本文本数据中包括多个样本字符片段，样本语音数据中包括多个样本语音片段，且每个样本语音片段中的声音是按照一个样本字符片段发出的。

1202、服务器获取每个样本语音片段的第一样本特征和第二样本特征。

其中，第一样本特征表示样本语音片段对应的样本字符片段的模板发音与样本语音片段之间的匹配度，第二样本特征为对第一样本特征进行去噪处理后得到的特征。

在一种可能实现方式中，每个样本语音片段的第一样本特征为服务器采用语音识别模型对每个语音片段进行识别得到的。

1203、服务器调用噪声补偿模型，分别对每个样本语音片段的第一样本特征进行调整，得到每个样本语音片段的预测发音特征，根据每个样本语音片段的预测发音特征和第二样本特征之间的差异，训练噪声补偿模型。

例如，采用下述公式所示的损失函数，得到样本语音片段的损失值，采用该损失值表示预测发音特征和第二样本特征之间的差异，根据该损失值调整噪声补偿模型：

其中，L_gop表示样本语音片段的损失值，m表示样本文本数据中样本字符片段的数量，n表示总的样本文本数据的数量，p_GOP(j)表示第i个文本数据中第j个样本字符片段对应的预测发音特征，y_GOP(j)表示第i个样本文本数据中第j个样本字符片段对应的第二样本特征。

在一种可能实现方式中，例如，参见图13，不同的发音质量下，GOP受噪声特征影响程度不同，横轴表示不同的字符片段，纵轴表示每个语音片段的平均GOP，图13中不同的虚线和实线表示不同的发音准确率，从图13中能够看出不同发音准确率下，GOP受噪声影响程度不同，因此在训练噪声补偿模型时，能够采用发音准确率进行训练。

样本数据中包括样本准确率，噪声补偿模型中包括噪声补偿网络和口语评测网络，采用下述步骤替换步骤1203：调用噪声补偿网络，分别对每个样本语音片段的第一样本特征进行调整，得到每个样本语音片段的预测发音特征；调用口语评测网络，对多个样本语音片段的预测发音特征进行融合，得到样本语音数据的预测准确率；根据预测准确率和样本准确率之间的差异，训练噪声补偿网络。其中，样本准确率为用户标注的或采用其他方式得到的。

可选地，在训练噪声补偿模型的过程中，考虑字符特征和噪声特征。例如，参见图14，将GOP、字符特征和噪声特征输入至对应的噪声补偿网络1401，经过每个噪声补偿网络得到对应的输出1、输出2和输出3，该输出1、输出2和输出3是未经过维度调整的预测GOP，将该输出1、输出2和输出3输入至口语评测网络1402，得到预测准确率。将特征对应的向量输入至噪声补偿模型，然后进行训练的示意图，参见图15，得到的输出1、输出2和输出3为向量。

例如，采用下述公式所示的损失函数，得到样本语音数据的损失值，采用该损失值表示预测准确率和样本准确率之间的差异，根据该损失值调整噪声补偿模型：

其中，L_word表示样本语音数据的损失值，n表示样本文本数据的总数量，y_score(i)表示第i个文本数据对应的样本语音数据的样本准确率，p_score(i)表示第i个文本数据对应的样本语音数据的预测准确率。

在另一种可能实现方式中，结合上述两种训练方式来训练噪声补偿模型，则损失函数为：

L_total＝wL_gop+(1-ω)L_word；

其中，L_total表示样本语音数据的损失值，L_gop表示样本语音片段的预测发音特征和第二样本特征得到的损失值，L_word表示根据样本语音数据的预测准确率和样本准确率得到的损失值，w为参考数值，w的取值范围为0到1。

在另一种可能实现方式中，得到预测发音特征之后，采用下述步骤来进行后续训练：调用口语评测模型，对多个样本字符片段和多个样本语音片段的预测发音特征进行评测，得到样本语音数据的预测准确率；根据预测准确率和样本准确率之间的差异，训练噪声补偿模型。采用口语评测模型进行训练的过程与上述采用口语评测网络进行训练的过程同理，仅是获取预测准确率的方式不同，在此不再赘述。

另外，采用上述实施例中的发音特征处理方法(NN AXL)得到处理后的发音特征后，将该发音特征与相关技术中采用SPLICE噪声补偿算法得到的发音特征进行对比。例如，采用打分相关度PCC和打分分类准确度ACC(Accuracy)作为评估指标，来评估两种方法中的哪种方法的准确率更高。

例如，在语音数据中添加有人声噪声的情况下，采用PCC和ACC分别对本申请得到的发音特征和相关技术得到的发音特征进行评估，得到的评估结果参见表2。

表2

在语音数据中添加有白噪声的情况下，采用PCC和ACC分别对本申请得到的发音特征和相关技术得到的发音特征进行评估，得到的评估结果参见表3。

表3

例如，在语音数据中添加有人声噪声和白噪声的情况下，采用PCC和ACC分别对本申请得到的发音特征和相关技术得到的发音特征进行评估，得到的评估结果参见表4。

表4

由上述评估结果可知，本申请提供的方法对应的打分相关度明显大于相关技术中SPLICE算法对应的打分相关度，且本申请提供的方法对应的打分准确度明显大于相关技术中SPLICE算法对应的打分准确度，因此本申请实施例提供的方法得到的发音特征的准确率更高。

图16是本申请实施例提供的一种发音特征处理装置的结构示意图。参见图16，该装置包括：

数据获取模块1601，用于获取文本数据和文本数据对应的语音数据，文本数据中包括多个字符片段，语音数据中包括多个语音片段，且每个语音片段中的声音是按照一个字符片段发出的；

数据识别模块1602，用于对文本数据和语音数据进行识别，得到每个语音片段的第一发音特征，第一发音特征表示语音片段对应的字符片段的模板发音与语音片段之间的匹配度；

特征融合模块1603，用于将每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合，得到每个语音片段的融合特征；

特征调整模块1604，用于分别根据每个语音片段的融合特征，对每个语音片段的第一发音特征进行调整，得到每个语音片段的第二发音特征。

本申请实施例提供的装置，对文本数据和语音数据进行识别得到多个语音片段的第一发音特征，由于语音数据受到噪声影响，导致得到的第一发音特征难以准确表示语音片段的发音特征，因此综合考虑多个语音片段之间的关联关系，对多个第一发音特征进行融合得到融合特征，根据该融合特征对第一发音特征进行调整，实现对第一发音特征的噪声补偿，使得到的第二发音特征能够更加准确地表示语音片段的发音特征，提高了发音特征的准确率。

在一种可能实现方式中，特征融合模块1603，用于调用噪声补偿模型，将每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合，得到每个语音片段的融合特征；

特征调整模块1604，用于调用噪声补偿模型，分别根据每个语音片段的融合特征，对每个语音片段的第一发音特征进行调整，得到每个语音片段的第二发音特征。

在另一种可能实现方式中，参见图17，该装置还包括：

样本数据获取模块1605，用于获取样本数据，样本数据包括样本文本数据和样本文本数据对应的样本语音数据，样本文本数据中包括多个样本字符片段，样本语音数据中包括多个样本语音片段，且每个样本语音片段中的声音是按照一个样本字符片段发出的；

样本特征获取模块1606，用于获取每个样本语音片段的第一样本特征和第二样本特征，第一样本特征表示样本语音片段对应的样本字符片段的模板发音与样本语音片段之间的匹配度，第二样本特征为对第一样本特征进行去噪处理后得到的特征；

训练模块1607，用于调用噪声补偿模型，分别对每个样本语音片段的第一样本特征进行调整，得到每个样本语音片段的预测发音特征，根据每个样本语音片段的预测发音特征和第二样本特征之间的差异，训练噪声补偿模型。

在另一种可能实现方式中，样本数据还包括样本语音数据的样本准确率，噪声补偿模型包括噪声补偿网络和口语评测网络；参见图17，训练模块1607，还用于：

调用噪声补偿网络，分别对每个样本语音片段的第一样本特征进行调整，得到每个样本语音片段的预测发音特征；

调用口语评测网络，对多个样本语音片段的预测发音特征进行融合，得到样本语音数据的预测准确率；

根据预测准确率和样本准确率之间的差异，训练噪声补偿网络。

在另一种可能实现方式中，样本数据还包括样本语音数据的样本准确率，参见图17，训练模块1607，还用于：

调用口语评测模型，对多个样本字符片段和多个样本语音片段的预测发音特征进行评测，得到样本语音数据的预测准确率；

根据预测准确率和样本准确率之间的差异，训练噪声补偿模型。

在另一种可能实现方式中，参见图17，数据识别模块1602，用于对文本数据和语音数据进行识别，得到每个语音片段的第一发音特征和每个字符片段的字符特征，字符特征用于表示字符片段在文本数据中的位置和所属的字符类型；

特征融合模块1603，包括：

第一融合单元1613，用于将每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合，得到每个语音片段的融合发音特征；

第二融合单元1623，用于将每个字符片段的字符特征与其他字符片段的字符特征进行融合，得到每个字符片段的融合字符特征。

在另一种可能实现方式中，数据识别模块1602，用于对文本数据和语音数据进行识别，得到每个语音片段的第一发音特征和每个语音片段的噪声特征，噪声特征用于描述语音片段中包含的噪声；

特征调整模块1604，用于分别根据每个语音片段的融合特征和噪声特征，对每个语音片段的第一发音特征进行调整，得到每个语音片段的第二发音特征。

在另一种可能实现方式中，参见图17，该装置还包括：

语音评测模块1608，用于对多个字符片段和多个语音片段的第二发音特征进行评测，得到语音数据的发音准确率。

在另一种可能实现方式中，参见图17，语音评测模块1608，用于：

分别对多个字符片段和多个语音片段的第二发音特征进行评测，得到多个语音片段的发音准确率；

将多个语音片段的发音准确率进行融合，得到语音数据的发音准确率。

在另一种可能实现方式中，语音评测模块，用于调用口语评测模型，对多个字符片段和多个语音片段的第二发音特征进行评测，得到语音数据的发音准确率。

在另一种可能实现方式中，参见图17，该装置还包括：

准确率发送模块1609，用于将语音数据的发音准确率发送给终端，终端用于在包含文本数据的跟读界面中显示发音准确率。

在另一种可能实现方式中，数据获取模块1601，用于接收终端发送的文本数据和语音数据，终端用于显示包含文本数据的跟读界面，响应于跟读启动操作，采集语音数据。

在另一种可能实现方式中，数据识别模块1602，用于调用语音识别模型，对文本数据及语音数据进行识别，得到每个语音片段的第一发音特征。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的发音特征处理装置在处理发音特征时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的发音特征处理装置与发音特征处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种终端，该终端包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的发音特征处理方法中终端所执行的操作。

图18是本申请实施例提供的一种终端1800的结构示意图。该终端1800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端1800包括有：处理器1801和存储器1802。

处理器1801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。在一些实施例中，处理器1801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1802中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器1801所执行以实现本申请中方法实施例提供的发音特征处理方法。

在一些实施例中，终端1800还可选包括有：***设备接口1803和至少一个***设备。处理器1801、存储器1802和***设备接口1803之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1803相连。具体地，***设备包括：射频电路1804、显示屏1805、摄像头组件1806、音频电路1807、定位组件1808和电源1809中的至少一种。

***设备接口1803可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1801和存储器1802。在一些实施例中，处理器1801、存储器1802和***设备接口1803被集成在同一芯片或电路板上；在一些其他实施例中，处理器1801、存储器1802和***设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1804包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时，显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时，显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1805可以为一个，设置在终端1800的前面板；在另一些实施例中，显示屏1805可以为至少两个，分别设置在终端1800的不同表面或呈折叠设计；在另一些实施例中，显示屏1805可以是柔性显示屏，设置在终端1800的弯曲表面上或折叠面上。甚至，显示屏1805还可以设置成非矩形的不规则图形，也即异形屏。显示屏1805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1806用于采集图像或视频。可选地，摄像头组件1806包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1801进行处理，或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1807还可以包括耳机插孔。

定位组件1808用于定位终端1800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1808可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯定位***或欧盟的伽利略定位***的定位组件。

电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于：加速度传感器1811、陀螺仪传感器1812、压力传感器1813、指纹传感器1814、光学传感器1815以及接近传感器1816。

加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号，控制显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1812可以检测终端1800的机体方向及转动角度，陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1813可以设置在终端1800的侧边框和/或显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时，可以检测用户对终端1800的握持信号，由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在显示屏1805的下层时，由处理器1801根据用户对显示屏1805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1814用于采集用户的指纹，由处理器1801根据指纹传感器1814采集到的指纹识别用户的身份，或者，由指纹传感器1814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1814可以被设置在终端1800的正面、背面或侧面。当终端1800上设置有物理按键或厂商Logo时，指纹传感器1814可以与物理按键或厂商Logo集成在一起。

光学传感器1815用于采集环境光强度。在一个实施例中，处理器1801可以根据光学传感器1815采集的环境光强度，控制显示屏1805的显示亮度。具体地，当环境光强度较高时，调高显示屏1805的显示亮度；当环境光强度较低时，调低显示屏1805的显示亮度。在另一个实施例中，处理器1801还可以根据光学传感器1815采集的环境光强度，动态调整摄像头组件1806的拍摄参数。

接近传感器1816，也称距离传感器，设置在终端1800的前面板。接近传感器1816用于采集用户与终端1800的正面之间的距离。在一个实施例中，当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变小时，由处理器1801控制显示屏1805从亮屏状态切换为息屏状态；当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变大时，由处理器1801控制显示屏1805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图18中示出的结构并不构成对终端1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种服务器，该服务器包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的发音特征处理方法中服务器所执行的操作。

图19是本申请实施例提供的一种服务器的结构示意图，该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)1901和一个或一个以上的存储器1902，其中，存储器1902中存储有至少一条计算机程序，该至少一条计算机程序由处理器1901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的发音特征处理方法中所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得计算机设备实现上述实施例的发音特征处理方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种发音特征处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合，得到所述每个语音片段的融合特征；分别根据所述每个语音片段的融合特征，对所述每个语音片段的第一发音特征进行调整，得到所述每个语音片段的第二发音特征，包括：

调用噪声补偿模型，将所述每个语音片段的第一发音特征与所述其他语音片段的第一发音特征进行融合，得到所述每个语音片段的融合特征；分别根据所述每个语音片段的融合特征，对所述每个语音片段的第一发音特征进行调整，得到所述每个语音片段的第二发音特征。

3.根据权利要求2所述的方法，其特征在于，所述噪声补偿模型的训练过程如下：

获取样本数据，所述样本数据包括样本文本数据和所述样本文本数据对应的样本语音数据，所述样本文本数据中包括多个样本字符片段，所述样本语音数据中包括多个样本语音片段，且每个样本语音片段中的声音是按照一个样本字符片段发出的；

获取每个样本语音片段的第一样本特征和第二样本特征，所述第一样本特征表示所述样本语音片段对应的样本字符片段的模板发音与所述样本语音片段之间的匹配度，所述第二样本特征为对所述第一样本特征进行去噪处理后得到的特征；

调用所述噪声补偿模型，分别对所述每个样本语音片段的第一样本特征进行调整，得到所述每个样本语音片段的预测发音特征，根据所述每个样本语音片段的所述预测发音特征和所述第二样本特征之间的差异，训练所述噪声补偿模型。

4.根据权利要求3所述的方法，其特征在于，所述样本数据还包括所述样本语音数据的样本准确率，所述噪声补偿模型包括噪声补偿网络和口语评测网络，所述调用所述噪声补偿模型，分别对所述每个样本语音片段的第一样本特征进行调整，得到所述每个样本语音片段的预测发音特征，根据所述每个样本语音片段的所述预测发音特征和所述第二样本特征之间的差异，训练所述噪声补偿模型，包括：

5.根据权利要求3所述的方法，其特征在于，所述样本数据还包括所述样本语音数据的样本准确率，所述调用所述噪声补偿模型，分别对所述每个样本语音片段的第一样本特征进行调整，得到所述每个样本语音片段的预测发音特征之后，所述方法还包括：

6.根据权利要求1或2所述的方法，其特征在于，所述对所述文本数据和所述语音数据进行识别，得到每个语音片段的第一发音特征，包括：

对所述文本数据和所述语音数据进行识别，得到所述每个语音片段的第一发音特征和所述每个字符片段的字符特征，所述字符特征用于表示所述字符片段在所述文本数据中的位置和所属的字符类型；

所述将所述每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合，得到所述每个语音片段的融合特征，包括：

将所述每个语音片段的第一发音特征与所述其他语音片段的第一发音特征进行融合，得到所述每个语音片段的融合发音特征；

将所述每个字符片段的字符特征与其他字符片段的字符特征进行融合，得到所述每个字符片段的融合字符特征。

7.根据权利要求1或2所述的方法，其特征在于，所述对所述文本数据和所述语音数据进行识别，得到每个语音片段的第一发音特征，包括：

对所述文本数据和所述语音数据进行识别，得到所述每个语音片段的第一发音特征和所述每个语音片段的噪声特征，所述噪声特征用于描述所述语音片段中包含的噪声；

所述分别根据所述每个语音片段的融合特征，对所述每个语音片段的第一发音特征进行调整，得到所述每个语音片段的第二发音特征，包括：

分别根据所述每个语音片段的融合特征和噪声特征，对所述每个语音片段的第一发音特征进行调整，得到所述每个语音片段的第二发音特征。

8.根据权利要求1所述的方法，其特征在于，所述分别根据所述每个语音片段的融合特征，对所述每个语音片段的第一发音特征进行调整，得到所述每个语音片段的第二发音特征之后，所述方法还包括：

对所述多个字符片段和所述多个语音片段的第二发音特征进行评测，得到所述语音数据的发音准确率。

9.根据权利要求8所述的方法，其特征在于，所述对所述多个字符片段和所述多个语音片段的第二发音特征进行评测，得到所述语音数据的发音准确率，包括：

10.根据权利要求8所述的方法，其特征在于，所述对所述多个字符片段和所述多个语音片段的第二发音特征进行评测，得到所述语音数据的发音准确率，包括：

调用口语评测模型，对所述多个字符片段和所述多个语音片段的第二发音特征进行评测，得到所述语音数据的发音准确率。

11.根据权利要求7所述的方法，其特征在于，所述对所述多个字符片段和所述多个语音片段的第二发音特征进行评测，得到所述语音数据的发音准确率之后，所述方法还包括：

将所述语音数据的发音准确率发送给终端，所述终端用于在包含所述文本数据的跟读界面中显示所述发音准确率。

12.根据权利要求1所述的方法，其特征在于，所述获取文本数据和所述文本数据对应的语音数据，包括：

接收终端发送的所述文本数据和所述语音数据，所述终端用于显示包含所述文本数据的跟读界面，响应于跟读启动操作，采集所述语音数据。

13.一种发音特征处理装置，其特征在于，所述装置包括：

14.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至12任一权利要求所述的发音特征处理方法中所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至12任一权利要求所述的发音特征处理方法中所执行的操作。