CN111833853A

CN111833853A - 语音处理方法及装置、电子设备、计算机可读存储介质

Info

Publication number: CN111833853A
Application number: CN202010630225.0A
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-10-27
Anticipated expiration: 2040-07-01
Also published as: CN111833853B

Abstract

本申请的实施例揭示了一种语音处理方法及装置。该方法包括：获取针对语音进行识别处理得到的声学参数和识别文本；根据所述声学参数提取所述语音的声学特征，并根据所述识别文本提取所述语音的文本特征；根据所述语音关联的得分点类型，将所述声学特征和所述文本特征输入至与所述得分点类型相匹配的评分预测模型中，得到所述评分预测模型根据所述声学特征、所述文本特征以及所述得分点类型输出的针对所述语音的评分值，不同的得分点类型所匹配的评分预测模型是不同的。本申请实施例的技术方案能够避免出现由于语音关联的得分点类型与评分预测模型不匹配而引起的评分误差，提升语音评分的准确性。

Description

语音处理方法及装置、电子设备、计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种语音处理方法及装置、电子设备和计算机可读存储介质。

背景技术

随着人工智能技术研究和进步，人工智能技术已在多个领域展开研究和应用，例如在常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、自动驾驶、无人机、机器人、智能客服等领域，人工智能技术发挥着越来越重要的价值。

在开放式口语考试场景中，为方便地获得口语考试成绩，基于人工智能技术开发的智能评分***应运而生，但如何提升智能评分***进行评分的准确性，是本领域的技术人员需要不断研究的技术问题。

发明内容

为提升智能评分***针对用户口语进行评分的准确性，本申请的实施例提供一种语音处理方法及装置，以及一种口语考试的评分方法及装置，还提供一种电子设备以及一种计算机可读存储介质。

其中，本申请所采用的技术方案为：

一种语音处理方法，包括：获取针对语音进行识别处理得到的声学参数和识别文本；根据所述声学参数提取所述语音的声学特征，并根据所述识别文本提取所述语音的文本特征；根据所述语音关联的得分点类型，将所述声学特征和所述文本特征输入至与所述得分点类型相匹配的评分预测模型中，得到所述评分预测模型根据所述声学特征、所述文本特征以及所述得分点类型输出的针对所述语音的评分值，不同的得分点类型所匹配的评分预测模型是不同的。

一种口语考试的评分方法，包括：在口语考试界面显示考试题目；当检测到触发了音频录制指令时，录制针对所述考试题目输入的语音；在所述口语考试界面中显示针对所述语音的评分值，所述评分值是与所述考试题目所属的题型相匹配的评分预测模型根据所述语音的声学特征和文本特征，以及所述考试题目的题型对所述语音进行评分得到的。

一种语音处理装置，包括：识别处理模块，用于获取针对语音进行识别处理得到的声学参数和识别文本；特征提取模块，用于根据所述声学参数提取所述语音的声学特征，并根据所述识别文本提取所述语音的文本特征；评分获取模块，用于根据所述语音关联的得分点类型，将所述声学特征和所述文本特征输入至与所述得分点类型相匹配的评分预测模型中，得到所述评分预测模型根据所述声学特征、所述文本特征以及所述得分点类型输出的针对所述语音的评分值，不同的得分点类型所匹配的评分预测模型是不同的。

一种口语考试的评分装置，包括：考试题目显示模块，用于在口语考试界面显示考试题目；语音录制模块，用于当检测到触发了音频录制指令时，录制针对所述考试题目输入的语音；评分显示模块，用于在所述口语考试界面中显示针对所述语音的评分值，所述评分值是与所述考试题目所属的题型相匹配的评分预测模型根据所述语音的声学特征和文本特征，以及所述考试题目的题型对所述语音进行评分得到的。

一种电子设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的语音处理方法或者口语考试的评分方法。

一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的语音处理方法或者口语考试的评分方法。

在上述技术方案中，由于不同得分点类型对应的语音所匹配的评分预测模型是不同的，本申请将提取的声学特征和文本特征输入至与语音所关联的得分点类型相匹配的评分预测模型，使得与语音关联的得分点类型相匹配的评分预测模型能够根据与语音关联的得分点类型相对应的特征对语音进行更加准确地评分，以避免出现由于语音关联的得分点类型与评分预测模型不匹配而引起的评分误差，提升语音评分的准确性。

在开放式口语考试场景中，采用本申请提供的语音处理方法则可以使得与考试题型相匹配的评分预测模型对考试题型对应的语音进行评分，因此所得到的评分值考虑了语音对应的考试题型的得分点，准确度更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2是根据一示例性实施例示出的一种语音处理模型的结构示意图；

图3是针对一示例性语音对应的声学参数以及声学特征的示意图；

图4是针对一示例性语音对应的识别文本以及文本特征的示意图；

图5是根据一示例性实施例示出的一种语音处理方法的流程图；

图6是根据一示例性实施例示出的一种口语考试的评分方法的流程图；

图7是根据一示例性，实施例示出的一种口语考试界面的交互流程图；

图8是根据一示例性实施例示出的一种语音处理装置的框图；

图9是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

例如，语音技术(Speech Technology)的关键技术包括自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。基于语音技术让计算机能听、能看、能说、能感觉，将是未来人机交互的重要发展方向。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

本申请提出的语音处理方法及装置、口语考试的评分方法及装置、电子设备以及计算机可读存续介质具体涉及人工智能领域中的语音处理技术以及机器学习技术。本申请通过如下的实施例对这些方法、装置、电子设备和计算机可读存储介质进行详细说明。

并且还需要说明的是，本申请描述的“多个”应当理解为是至少两个。

请参阅图1，图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端100和服务器200，终端100和服务器200之间通过有线或者无线网络进行通信。

终端100中运行有对语音进行评分的客户端，当终端100获得输入的语音时，将语音发送至服务器200，以使服务器200对该语音进行评分。例如在开放式口语考试场景中，终端100中具体运行口语考试客户端，终端100通过对用户的答题语音进行录音，即可获得输入的语音。终端100可以是智能手机、平板、笔记本电脑、计算机等任意能够运行对语音进行评分的客户端的电子设备，本处不对此进行限制。

服务器200中部署有多个评分预测模型，并且不同的评分预测模型用于预测对应于不同得分点类型的语音的评分值。服务器200在接收到终端100发送的语音后，对语音进行识别处理得到声学参数和识别文本，并根据声学参数提取语音的声学特征，根据识别文本提取语音的文本特征，然后根据语音关联的得分点类型，将提取的声学特征和文本特征输入至与当前语音所关联的得分点类型相匹配的评分预测模型中，得到评分预测模型输出的针对当前语音的评分值。服务器200还将得到的语音的评分值发送给终端100，以使终端100显示该评分值。

其中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，本处也不对此进行限制。

请参阅图2，图2是根据一示例性实施例示出的一种语音处理模型的结构示意图。该语音处理模型是基于人工智能技术提出的，可以被配置在图1所示实施环境中的服务器200中，用以对终端100发送的语音进行评分。

如图2所示，该语音处理模型包括语音识别模块210、中间层模块和评分预测模块250，中间层模块具体包括声学特征提取模块220、文本后处理模块230和文本特征提取模块240。

语音识别模块210中配置有语音识别算法，用于对输入的语音进行识别处理，以得到语音对应的声学参数和识别文本。其中，声学参数是用于描述语音的声学特点的相关参数，例如可以包括语音中的各个音素的发音时长，语音的发音总时长，语音中各个词语的持续发音时间段、发音强度以及各个词语对应的声波中最低的频率等参数，在此不进行限制。识别文本则是由语音中的各个词语组成的文本序列。

中间层模块用于对语音识别模块210输出的声学参数和识别文本进行特征提取，以获得语音的声学特征和文本特征。

具体地，声学特征提取模块220中配置有一种或多种声学特征提取算法，用于对语音识别模块210输出的语音的声学参数进行特征提取，以得到语音的声学特征。语音的声学特征是针对语音的声学参数进行特征提取得到的特征表达，具体可以包括语音的发音准确度、发音流利度、发音韵律度等特征，本处不进行限制。

文本后处理模块250中配置有一种或多种文本处理算法，用于对语音识别模块210输出的语音的识别文本进行标点符号的添加、去除不流利的文本等处理。示例性的，可以基于语法规则向识别文本添加标点符号，也可以采用自然语言处理技术中的序列标注算法在识别文本中添加标点符号，本处不进行限制。识别文本中含有的不流利的文本成分可以包括识别文本中的语气词、重复的词语、表示修正的词语、表示语句重新开始的词语等。

文本特征提取模块240中配置有一种或多种文本特征提取算法，用以对文本后处理模块250输出的识别文本进行文本特征提取，以获得语音的文本特征。语音的文本特征是针对语音的识别文本进行特征提取所得到的特征表达，例如可以包括语音的关键词特征、语义特征、语用特征、不流利度特征等，本处也不对此进行限制。

语音的关键词特征是用于表征语音的识别文本中含有的关键词与语音对应的标准文本中含有的关键词之间的关系的特征，例如在开放式口语考试场景中，语音对应的标准文本是指考试题目对应的标准答题文本。不流利度特征与语音的识别文本中含有的不流利的文本成分的比例有关。

需要说明的是，通过在识别文本中添加标点符号以及去除识别文本中含有的不流利的文本成分，可以更好地提取识别文本中的关键词、语义、语法等特点，因此基于添加了标点符号以及去除了不流利的文本成分的识别文本进行的文本特征提取，可以更加准确地得到语音的关键词特征、语义特征和语用特征。

并且为了便于提取语音的不流利度特征，还可以在文本后处理模块250输出的识别文本中保留不流利的文本成分的去除痕迹，例如使用特殊符号对不流利的文本成分进行标记，以基于识别文本中标记的不流利的文本成分获取语音的不流利度特征。例如，文本后处理模块230输出的一示例性的识别文本为“My favourite sport[is]is[uh]swimming.”，其中标记的“[is]”和“[uh]”均表示识别文本中的不流利的文本成分。

评分预测模块250中配置有多个评分预测模型，并且不同的评分预测模型中配置有针对不同的得分点类型进行评分的评分预测算法，因此不同的评分预测模型用于预测与不同的得分点类型相关联的语音的评分值。示例性的，评分预测模型中配置的评分预测算法可以是支持向量回归算法等机器学习回归算法，本处不对此进行限制。语音所关联的得分点类型是指在对不同的语音进行评分时需要考虑不同语音各自的得分点，例如在开放式口语考试场景中，针对考试题目录制的语音所关联的得分点类型对应为考试题目的题型，基于题型的不同，对语音进行评分的得分点也有所不同，由此对语音进行准确评分。

评分预测模块250将声学特征提取模块220输出的语音的声学特征、以及文本特征提取模块240输出的语音的文本特征作为输入信号，通过与语音所关联的得分点类型相匹配的评分预测模型对输入信号进行评分预测，以得到语音的评分值。

需要说明的是，评分预测模型输出的针对语音的评分值是基于语音的声学特征、文本特征以及语音关联的得分点类型对语音进行评分预测得到的。例如在一个实施例中，评分预测模型分别基于文本、发音、以及语音所关联的得分点类型三个方面对语音进行评分，并通过对语音在各个方面的分值进行加权相加得到语音的评分值，或者将语音在各个方面的分值输入其它机器学习模型，以得到其它机器学习模型输出的语音的评分值。由此，各个评分预测模型可以针对其所匹配的得分点类型的独特特征对进行语音评分。

还需要说明的是，语音所关联的得分点类型可以根据实际的应用场景进行确定，本实施例不对此进行限制。例如仍以开放式口语考试场景为示例，语音具体为用户的答题语音，语音所关联的得分点类型对应为相应的考试题目的题型，例如可以包括看图说话、话题表述等类型。针对看图说话类型对应的语音，评分预测模型可以根据文本特征所反映的文本内容与图片内容之间的匹配度来确定语音在语音关联的得分点类型方面的分值；而针对话题表述类型对应的语音，评分预测模型则可以根据文本特征所反映的文本内容与话题内容之间的匹配度来确定语音在语音关联的得分点类型方面的分值，或者根据声学特征所反映的话题表述能力进行评分，从而得到语音在语音关联的得分点类型方面的分值。

并且，各个评分预测模型是针对多个得分点类型对应的语音的声学特征和文本特征、以及针对多个得分点类型的语音设定的评分值进行训练得到的。具体的训练过程包括：将各个得分点类型的语音的声学特征、文本特征以及评分值输入与各个语音所关联的得分点类型相匹配的评分预测模型中，以使各个评分预测模型不断地学习输入的声学特征和文本特征与输入的评分值之间的关系，直至各个评分预测模型针对输入的声学特征和文本特征预测得到的评分值与输入的评分值之间的差值小于设定阈值。

针对多个得分点类型的语音设定的评分值是考虑了各个语音的得分点类型而对应设置的，例如在开放式口语考试的场景中，设定的评分值是由老师根据相应题型对各个语音的打分结果。各个评分预测模型在学习输入的声学特征和文本特征与输入的评分值之间的关系的过程中，还会学习输出的评分值与自身模型匹配的得分点类型之间的关系，因此训练得到的评分预测模型能够根据语音的声学特征、文本特征以及语义关联的得分点类型输出针对语音的评分值。

由此，在本实施例提出的语音处理模型中，通过中间层模块来提取不同类型的语音的公共有效特征，并将中间层模块提取得到的公共有效特征输入与当前语音所关联的得分点类型相匹配的评分预测模型中，以基于当前语音对应的公共有效特征对当前语音的评分值进行预测。由于与当前语音所关联的得分点类型相匹配的评分预测模型可以基于当前语音关联的得分点类型的独特特征进行语音评分，能够避免出现评分预测模型与当前语音的得分点类型不匹配而引起的评分误差，因此基于本实施例提出的语音处理模型能够极大地提升语音评分的准确度。

在开放式口语考试的场景中，基于本实施例提出的语音处理模型对答题语音进行评分，则可以满足不同的考试题型的得分点不同的要求，因此可以针对答题语音得到更加准确的评分值。

此外，为便于更加清楚地理解本申请提出的语音处理模型的结构，以下通过具体的实施例来对语音处理模型提取语音的声学特征以及文本特征的过程进行详细描述。

如图3所示，在一示例性实施例中，针对一示例性语音进行语音识别得到的声学参数包括语音中各个词语的持续发音时间段、发音强度以及各个词语对应的声波中最低的频率，还包括语音中的各个音素的发音时长以及语音的发音总时长(图3中未示出)等参数。

对语音的声学参数进行特征提取得到的声学特征包括发音准确度、发音流利度和发音韵律度。发音准确度分别从语音中含有的各个音素、词语、以及句子三个级别进行评估，其中，语音中含有的词语和句子均可以通过语音中含有的各个因素组合得到。语音中含有的句子具体可以是长句或者短句，例如语音中含有的长句具有完整的语义，通常对应于添加有句号标点的一句话。语音中含有的短句则对应一连续的发音段，一长句可以由多个短句组合构成。

基于对语音进行的语音识别可以得到语音和各个音素的置信度得分，该置信度得分用于表征音素的识别准确度，基于各个音素的置信度得分之间的乘积，则可以相应得到语音中含有的各个词语的置信度得分以及各个句子的置信度得分。例如，如果将音素1和音素2组合得到词语A，音素1的置信度得分为0.8，音素2的置信度得分为0.9，词语A的置信度得分则为0.72。

发音流利度包括语音发音过程中的语速特征，例如包括语音的平均语速、发音段平均时长、发音段平均间隔时长。其中，语音中的发音段是由连续发音的多个因素构成，例如一个词语或者相邻的几个词语通常是连续发音的，因此将此一个词语或者相邻的几个词语对应的发音时段作为一个发音段。如图3所示，基于声学参数可以得到词语“my”和“favorite”是连续发音的，中间没有停顿，因此可以将二者词语对应的发音时段作为一个发音段，并且该发音段的发音时长为0.4秒。

具体地，根据语音的发音总时长和语音中含有的音素的总数量可以计算得到的语音的平均语速，根据语音中各个发音段的发音时长即可以计算得到发音段平均时长，根据相邻两个发音之间的间隔时长则可以计算得到发音段平均间隔时长。需要说明的是，相邻两个发音段之间的间隔时长也可以根据声学参数得到。

基于语音的平均语速、发音段平均时长、发音段平均间隔时长等参数，则可以确定语音的语速得分和停顿得分。例如，可以预先设置一标准语速，并设置标准语速对应的分值为1，根据语音的平均语速与该标准语速之间的比例关系则可以计算语音的语速得分。语音的停顿得分则可以由发音段平均时长和发音段平均间隔时长得到，如果发音段平均时长越长，语音的停顿得分越高，如果发音段平均间隔时长越短，语音的停顿得分也越高。

在一些实施例中，语音的语速得分和停顿得分还可以是基于机器学习模型预测得到的，例如将语音的发音总时长、语音中含有的各个发音段的发音时长、以及相邻两个发音段之间的间隔时长等参数输入至机器学习模型中，即可得到机器学习模型预测的语音的语速得分和停顿得分，本处不对语音的语速得分和停顿得分的具体获取方式进行限制。

发音韵律度则包含了对于语音在发音节奏感、句子中单词重读的正确性、句子边界调等方面的评分。示例性的，可以将语音的声学参数输入至韵律评估模型，以使该韵律评估模型根据输入的声学参数从发音节奏感、句子中单词重读的正确性、句子边界调等方面对语音进行评分，从而得到语音的节奏感得分、重读得分和边界调得分。

如图4所示，针对一示例性语音进行语音识别得到的识别文本中并不含有标点符号，并且存在语气词、重复词、表示修正的词语、表示语句重新开始的词语等不流利的文本成分，因此需要在识别文本中添加标点符号，并去除不流利的文本成分，同时保留不流利的文本成分的去除痕迹，以便于提取语音的文本特征。

提取的文本特征可以包括语音对应的不流利度特征、关键词特征、语义特征和语用特征。其中，不流利度特征具体包括文本不流利度得分，可以根据识别文本中含有的不流利成分的数量与识别文本中含有的词语总数之间的比值确定，该比值越小，则表示语音中含有的不流利的文本成分的比重较小，因此文本不流利得分也越小。在一个实施例中，文本不流利度得分也可以根据预设的机器学习模型得到。

关键词特征用于表征语音的识别文本中含有的关键词与语音对应的标准文本中含有的关键词之间的关系的特征。在一个实施例中，需要对识别文本以及语音对应的标准文本分别进行关键词提取，获得识别文本对应的关键词，以及标准文本对应的关键词，然后将标准文本对应的关键词作为识别文本进行关键词提取的标准结果，计算识别文本对应的关键词评价指标，得到的关键词评价指标即作为语音的关键词特征。示例性的，关键词评价指标可以包括精确率和召回率。

举例来说，假设针对识别文本提取得到关键词A和关键词B，如果标准文本中提取关键词中也含有关键词A，但不含有关键B，则表示关键词A是识别文本中预测为正的样本，关键词B是识别文本中将负的样本预测为正的样本。如果标准文本中提取的关键词C不在识别文本含有的关键词中出现，则表示关键词C是识别文本中将正的样本预测为负的样本。基于此规则可以确定识别文本中不同类型的关键词样本，由此计算精确率和召回率等关键词特征。

语义特征可以包括识别文本的主题特征和tif-idf(term frequency-inversedocument frequency，即词频-逆文本频率指数，是一种用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度的技术)特征等。示例性的，主题特征可以通过主题识别模型对识别文本进行主题内容分识别得到，tif-idf特征则可以通过tif-idf特征提取模型对识别文本进行特征提取得到，本处不进行限制。

语用特征可以包括识别文本对应的词语种类数、句式数、语法准确度得分等特征，因此语用特征反映了识别文本所含有词语的多样性、句式的多样性和语法的准确性。识别文本中词语的种类可以通过词性进行区分，例如对应于名词、动词、形容词等不同词性的词语属于不同的种类，句式则具体可以是主谓宾、定状从等常见句式。识别文本中含有的语用特征可以通过预设的语言模型得到，本处也不进行限制。

基于以上详细描述可知，本申请提出的语音处理模块能够提取语音的多种声学特征和文本特征，这些声学特征和文本特征都将作为评分预测模型对语音进行评分的输入信号输入至与语音所属的类型相匹配的评分预测模型中，使得与语音所属的类型相匹配的评分预测模型根据这些声学特征和文本特征对语音进行准确评分。

图5是根据一示例性实施例示出的一种语音处理方法的流程图。该方法是基于图2所示的语音处理模型提出的，可以适用于图1所示的实施环境，例如由图1所示实施环境中的服务器200具体执行。

如图5所示，在一示例性实施例中，该语音处理方法至少包括如下步骤：

步骤310，获取针对语音进行识别处理得到的声学参数和识别文本。

如前所述的，声学参数是用于描述语音的声学特点的相关参数，例如可以包括语音中的各个音素的发音时长，语音的发音总时长，语音中各个词语的持续发音时间段、发音强度以及各个词语对应的声波中最低的频率等参数，在此不进行限制。

识别文本是由语音中的各个词语组成的文本序列。其中，语音对应的声学参数和识别文本具体可以通过图2所示语音处理模型中的语音识别模块210对语音进行识别得到。

但需要说明的是，由于语音识别模块210是针对语音中含有的各个发音单位(例如音素和词语)进行识别的过程，所得到的识别文本中并不含有标点符号，并且含有不流利的文本成分。

步骤330，根据声学参数提取语音的声学特征，并根据识别文本提取语音的文本特征。

如前所述，声学特征是针对语音的声学参数进行特征提取得到的特征表达，可以包括语音的发音准确度、发音流利度、发音韵律度等特征；文本特征是针对语音的识别文本进行特征提取所得到的特征表达，可以包括语音的关键词特征、语义特征、语用特征、不流利度特征等，本处也不对语音的声学特征和文本特征的具体特征类型进行限制。

语音的声学特征具体可以通过图2所示语音处理模型中的声学特征提取模块220对语音的声学特征进行特征提取得到。语音的文本特征具体可以通过图2所示的语音处理模型中的文本特征提取模块240对语音的识别文本提取得到。对语音的声学特征的文本特征的提取过程具体可以参见图3和图4对应实施例中描述的内容，本处不再进行赘述。

由于步骤310中得到的语音的识别文本中并不含有标点符号，不利于提取的语音的文本特征，因此在一个实施例中，在对识别文本提取文本特征之前还在识别文本中添加标点符号，例如通过图2所示语音处理模型中的文本后处理模块230对识别文本添加标点符号，以基于添加了标点符号的识别文本进行文本特征的提取。

并且，步骤310中得到的语音的识别文本中未去除不流利的文本成分，也不利于针对识别文本提取的语音的文本特征，因此在另一个实施例中，在对识别文本提取文本特征之前，还在识别文本中检测不流利的文本成分，并在识别文本中去除检测到的不流利的文本成分，以基于去除了不流利的文本成分的识别文本提取文本特征。识别文本中含有的不流利的文本成分也可以通过图2所示语音处理模型中的文本后处理模块230实现。

在其它的实施例中，还可以同时在识别文本中添加标点符号，以及去除识别文本中含有的不流利的文本成分，以最大程度地保证针对识别文本进行文本特征提取的准确性。

另外还需要说明的是，为便于提取语音的不流利度特征，还需要在识别文本中保留不流利度的文本成分的去除痕迹。例如针对检测到的识别文本中的各个不流利的文本成分，使用特殊符号对各个不流利的文本成分进行标记，在提取语音的语义特征、语用特征或者关键词特征时，则自动忽略标记的各个不流利的文本成分，以保证语义特征、语用特征以及关键词特征等文本特征的准确性。

步骤350，根据语音关联的得分点类型，将声学特征和文本特征输入至与得分点类型相匹配的评分预测模型中，得到评分预测模型根据语音的声学特征、文本特征以及得分点类型输出的针对语音的评分值，不同的得分点类型所匹配的评分预测模型是不同的。

如前所述的，语音所关联的得分点类型是指在对语音进行评分时需要考虑的语音对应的得分点，在开放式口语考试场景中对应为考试题目所属的题型。在本实施例中，根据语音关联的得分点类型，可以从图2所示语音处理模型含有的评分预测模型250中确定与得分点类型相匹配的评分预测模型，以基于此评分预测模型对语音进行评分。

图2所示评分预测模型250中配置有多个评分预测模型，并且各个评分模型在根据语音的声学特征和文本特征针对语音进行评分的过程中，会基于模型匹配的得分点类型所对应的一些独特特征进行评分，因此各个评分预测模型能够预测不同得分点类型对应的语音的评分值。

在本实施例中，需要将步骤330中提取得到的声学特征和文本特征输入至与当前语音关联的得分点类型相匹配的评分预测模型中，以通过与当前语音关联的得分点类型相匹配的评分预测模型根据输入的声学特征和文本特征预测当前语音的评分值。由于评分预测模型输出的针对语音的评分值是基于语音的声学特征、文本特征以及语音关联的得分点类型对语音进行评分预测得到的，因此能够避免出现评分预测模型与当前语音关联的得分点类型不匹配而引起的评分误差，由此实现语音的准确评分。

如图6所示，本申请的另一示例性实施例提出一种口语考试的评分方法，该方法仍适用于图1所示的实施环境，可以由图1所示实施环境中的终端1()()具体执行。该口语考试的评分方法至少包括如下步骤：

步骤410，在口语考试界面显示考试题目；

步骤430，当检测到触发了音频录制指令时，录制针对考试题目输入的语音；

步骤450，在口语考试界面中显示针对语音的评分值，该评分值是与考试题目的题型相匹配的评分预测模型根据语音的声学特征和文本特征，以及考试题目的题型对语音进行评分得到的。

首先需要说明的是，本实施例提供的方法具体应用于开放式口语考试的应用场景，口语考试界面是显示在终端中的客户端界面，基于口语考试界面与用户之间的交互，能够实现智能化的口语考试场景。

在显示有考试题目的口语考试界面中，当检测到触发了音频录制指令时，则表示用户触发了答题操作，因此需要录制针对考试题目输入的语音具体为用户的答题语音。

并且由于用户的答题语音是针对口语考试界面中显示的考试题目进行录制的，所录制得到的答题语音与考试题目的题型相关联。

针对用户的答题语音，通过与当前考试题目的题型相匹配的评分预测模型根据该语音的声学特征和文本特征，以及当前考试题目的题型对该语音进行评分，可以得到语音对应的评分值，而通过在口语考试界面中显示该评分值，即完成了针对当前考试题目的考试。需要说明的是，针对用户的答题语音的评分过程请参见前述实施例中描述的语音处理过程，本处不进行赘述。

此外，针对用户的答题语音的评分过程具体可以由口语考试界面所在的终端具体执行，或者，口语考试界面所在的终端在获得用户的答题语音后，将用户的答题语音发送至服务器，使得服务器对用户的答题语音进行语音处理得到评分值，并将得到的评分值返回给口语考试界面所在的终端，使得终端将接收的评分值相应显示在口语考试界面中。

请参阅图7，图7是根据一示例性实施例示出的一种口语考试界面的交互流程图。其中图7(a)中显示有考试题目1，并且该考试题目1属于话题表述类型，当用户点击图7(a)中的“开始录音”按钮时，终端检测到触发的音频录制指令，进而录制针对考试题目1的答题语音。当终端获得针对考试题目1的答题语音的评分值时，则在图7(b)所示的口语考试界面中显示考试题目1的答题语音的评分值，使得用户可以获取到其针对考试题目1进行答题的分数。

在完成考试题目1的答题之后，继续进入下一考试题目1的考试。如图7(c)所示，口语考试界面继续显示有考试题目2，并且该考试题目2属于看图说话类型。同理，当用户点击图7(c)中的“开始录音”按钮时，终端检测到触发的音频录制指令，进而录制针对考试题目2的答题语音。当终端获得针对考试题目2的答题语音的评分值时，则在图7(d)所示的口语考试界面中显示考试题目2的答题语音的评分值，用户则可以获取到其针对考试题目2进行答题的分数。

由此，用户在录制答题语音之后可以及时地获知考试成绩，使得口语考试的过程更加智能化。并且口语考试界面所显示的考试成绩是与考试题目的题型相匹配的，也即口语考试的答题成绩是考虑了每种题型的得分点各异的特点而相应获得的分数，因此获得的考试成绩的准确性较高。

另外，为了证明本申请提出的语音处理模型对于语音评分的准确性，本申请分别采用看图说话类的多个考试题目以及话题表述类的多个考试题目对语音处理模型进行测试。

具体地，预先收集针对看图说话类的多个考试题目进行答题的语音，以及收集针对话题表述类的多个考试题目进行答题的语音，并由多名老师基于考试题目以及考试题目所属的类型对各个语音进行评分，另外还通过本申请提出的语音处理模型对各个语音进行自动评分。通过获取各类题型的一致率，可以判断语音处理模型针对各类题型的语音进行评分的效果。

其中，该一致率理解为是语音处理模型输出的针对语音的评分值与老师的评分值之间的差异在设定阈值内的语音数量占语音总数量的比例。因此一致率越高，语音处理模型的评分效果也越好，语音处理模型输出的评分值也更准确。

另外，本申请还为了证明语音处理模型的中间层模块中含有的各个处理模块对于模型评分效果的影响，在实验时还分别测试了不含有声学特征提取模块的语音处理模型，不含有文本后处理模块的语音处理模型，不含有文本特征提取模块的语音处理模型，以及同时含有声学特征提取模块、文本后处理模块和文本特征提取模块的语音处理模型对语音进行自动评分，得到的一致率结果如下表1所示：

表1

从表1中可以看出，同时含有声学特征提取模块、文本后处理模块和文本特征提取模块的语音处理模型的评分一致率最高，并且在任意一种题型上都具有很高的评分一致率，该语音处理模型的评分效果最好。并且由于语音的声学特征和文本特征是语音处理模型针对语音进行评分的重要特征依据，无论是针对哪种题型，不含有声学特征提取模块的语音处理模型以及不含有文本特征提取模块的语音处理模型的评分一致率都较低，因此评分预测模型在对语音进行评分时，语音的声学特征和文本特征是输入评分预测模型中的必不可少的特征。不含有文本后处理模块的语音处理模型在任一题型上的评分一致率均较高，但相比于同时含有声学特征提取模块、文本后处理模块和文本特征提取模块的语音处理模型仍具有一定差距。

基于上述实验结果可知，本申请提出的语音处理模型可以适应于针对不同得分点类型的语音进行评分，并且在本申请提出的语音处理模型中，声学特征提取模块、文本后处理模块和文本特征提取模块对语音评分的准确性提升都具有重要的作用。

图8是根据一示例性实施例示出的一种语音处理装置的框图。该语音处理装置适用与图1所示实施环境，可以具体配置在图1所示实施环境中的服务器200中。

如图8所示，在一示例性实施例中，该语音处理装置包括识别处理模块510、特征提取模块530和评分获取模块550。识别处理模块510用于获取针对语音进行识别处理得到的声学参数和识别文本。特征提取模块530用于根据声学参数提取语音的声学特征，并根据识别文本提取语音的文本特征。评分获取模块550用于根据所述语音关联的得分点类型，将声学特征和文本特征输入至与语音所属的类型相匹配的评分预测模型中，得到评分预测模型根据声学特征、文本特征以及语音关联的得分点类型输出的针对语音的评分值，不同类型的语音所匹配的评分预测模型是不同的。

在另一示例性实施例中，特征提取模块530包括不流利成分检测单元和不流利成分去除单元。不流利成分检测单元用于在识别文本中检测不流利的文本成分。不流利成分去除单元用于去除识别文本中含有的不流利的文本成分，基于去除了不流利的文本成分的识别文本提取文本特征。

在另一示例性实施例中，该装置还包括标点符号添加模块，该标点符号添加模块用于在识别文本中添加标点符号，以基于添加了标点符号的识别文本进行文本特征的提取。

在另一示例性实施例中，特征提取模块530包括第一置信度确认单元和第二置信度确认单元。其中，第一置信度确认单元用于根据声学参数确定语音中含有的各个音素的置信度。第二置信度确认单元用于对各个音素进行组合得到语音中含有的各个音素集合，并基于各个音素的置信度确定各个音素集合的置信度，将各个因素的置信度以及各个因素集合的置信度作为语音的声学特征。

在另一示例性实施例中，特征提取模块530包括时长参数确认单元和发音流利度确认单元。时长参数确认单元用于根据声学参数确定语音在发音过程中的时长参数。发音流利度确认单元用于根据时长参数确定语音的发音流利度，并将发音流利度作为语音的声学特征。

在另一示例性实施例中，发音流利度包括语音的平均语速、发音段平均时长和发音段平均间隔时长；发音流利度确认单元包括时间信息确认子单元和流利度特征确认子单元。其中，时间信息确认子单元用于根据时长参数确定语音的发音总时长、语音中含有的各个发音段的发音时长、以及相邻两个发音段之间的间隔时长。流利度特征确认子单元用于根据发音总时长和语音中含有的音素总数确定语音的平均语速，并根据各个发音段的发音时长确定发音段平均时长，以及根据相邻两个发音段之间的间隔时长确定发音段平均间隔时长。

在另一示例性实施例中，声学特征包括语音对应的发音韵律度；特征提取模块530包括韵律度确认单元，该韵律度确认单元用于将声学参数输入至韵律评估模型中，以获得韵律评估模型根据声学参数评估得到的语音对应的发音韵律度。

在另一示例性实施例中，特征提取模块530包括关键词提取单元和评价指标计算单元。关键词提取单元用于对识别文本和语音对应的标准文本分别进行关键词提取，获得识别文本对应的关键词，以及标准文本对应的关键词。评价指标计算单元用于将标准文本对应的关键词作为识别文本进行关键词提取的标准结果，计算识别文本对应的关键词评价指标，将得到的关键词评价指标作为语音的文本特征。

在另一示例性实施例中，特征提取模块530包括不流利数量确认单元和不流利比值确认单元。不流利数量确认单元用于确定识别文本中含有的不流利的文本成分的数量。不流利比值确认单元用于根据不流利的文本成分的数量与识别文本中含有的词语的总数之间的比值确定语音的文本特征。

在另一示例性实施例中，该装置还包括参数获取模块和模型训练模块。参数获取模块用于针对多个得分点类型对应的语音，获取各个语音对应的声学特征和文本特征，以及获取针对各个语音设定的评分值。模型训练模块用于将各个语音对应的声学特征和文本特征，以及针对各个语音设定的评分值输入与各个语音关联的得分点类型相匹配的评分预测模型中，以对与各个语音关联的得分点类型相匹配的评分预测模型进行训练。

在另一示例性实施例中，还提供一种口语考试的评分装置。该口语考试的评分装置适用与图1所示实施环境，可以具体配置在图1所示实施环境中的终端100中。

该口语考试的评分装置包括考试题目显示模块、语音录制模块和评分显示模块。考试题目显示模块用于在口语考试界面显示考试题目。语音录制模块用于当检测到触发了音频录制指令时，录制针对考试题目输入的语音。评分显示模块用于在口语考试界面中显示针对语音的评分值，该评分值是与考试题目所属的题型相匹配的评分预测模型根据语音的声学特征和文本特征，以及考试题目的题型对语音进行评分得到的。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

本申请的实施例还提供了一种电子设备，包括处理器和存储器，其中，存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时实现如前所述的语音处理方法或者口语考试的评分方法。

需要说明的是，该电子设备只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该电子设备也不能解释为需要依赖于或者必须具有图9中示出的示例性的电子设备中的一个或者多个组件。

如图9所示，在一示例性实施例中，电子设备包括处理组件801、存储器802、电源组件803、多媒体组件804、音频组件805、传感器组件807和通信组件808。其中，上述组件并不全是必须的，电子设备可以根据自身功能需求增加其他组件或减少某些组件，本实施例不作限定。

处理组件801通常控制电子设备的整体操作，诸如与显示、数据通信以及日志数据处理相关联的操作等。处理组件801可以包括一个或多个处理器809来执行指令，以完成上述操作的全部或部分步骤。此外，处理组件801可以包括一个或多个模块，便于处理组件801和其他组件之间的交互。例如，处理组件801可以包括多媒体模块，以方便多媒体组件804和处理组件801之间的交互。

存储器802被配置为存储各种类型的数据以支持在电子设备的操作，这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器802中存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器809执行，以完成上述实施例中所描述的语音处理方法或者口语考试的评分方法中的全部或者部分步骤。

电源组件803为电子设备的各种组件提供电力。电源组件803可以包括电源管理***，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

多媒体组件804包括在电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括TP(Touch Panel，触摸面板)和LCD(Liquid Crystal Display，液晶显示器)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件805被配置为输出和/或输入音频信号。例如，音频组件805包括一个麦克风，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。在一些实施例中，音频组件805还包括一个扬声器，用于输出音频信号。

传感器组件807包括一个或多个传感器，用于为电子设备提供各个方面的状态评估。例如，传感器组件807可以检测到电子设备的打开/关闭状态，还可以检测电子设备的温度变化。

通信组件808被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，例如Wi-Fi(Wireless-Fidelity，无线网络)。

可以理解，图9所示的结构仅为示意，电子设备该可以包括比图9中所示更多或更少的组件，或者具有与图9所示不同的组件。图9中所示的各组件均可以采用硬件、软件或者其组合来实现。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的语音处理方法或者口语考试的评分方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种语音处理方法，其特征在于，包括：

获取针对语音进行识别处理得到的声学参数和识别文本；

根据所述声学参数提取所述语音的声学特征，并根据所述识别文本提取所述语音的文本特征；

根据所述语音关联的得分点类型，将所述声学特征和所述文本特征输入至与所述得分点类型相匹配的评分预测模型中，得到所述评分预测模型根据所述声学特征、所述文本特征以及所述得分点类型输出的针对所述语音的评分值，不同的得分点类型所匹配的评分预测模型是不同的。

2.根据权利要求1所述的方法，其特征在于，根据所述识别文本提取所述语音的文本特征，包括：

在所述识别文本中检测不流利的文本成分；

去除所述识别文本中含有的所述不流利的文本成分，基于去除了所述不流利的文本成分的识别文本提取所述文本特征。

3.根据权利要求1或2所述的方法，其特征在于，在根据所述识别文本提取所述语音的文本特征之前，所述方法还包括：

在所述识别文本中添加标点符号，以基于添加了所述标点符号的识别文本进行所述文本特征的提取。

4.根据权利要求1所述的方法，其特征在于，根据所述声学参数提取所述语音的声学特征，包括：

根据所述声学参数确定所述语音中含有的各个音素的置信度；

对所述各个音素进行组合得到所述语音中含有的各个音素集合，并基于所述各个音素的置信度确定所述各个音素集合的置信度，将所述各个因素的置信度以及所述各个因素集合的置信度作为所述语音的声学特征。

5.根据权利要求1所述的方法，其特征在于，根据所述声学参数提取所述语音的声学特征，包括：

根据所述声学参数确定所述语音在发音过程中的时长参数；

根据所述时长参数确定所述语音的发音流利度，并将所述发音流利度作为所述语音的声学特征。

6.根据权利要求5所述的方法，其特征在于，所述发音流利度包括所述语音的平均语速、发音段平均时长和发音段平均间隔时长；根据所述时长参数确定所述语音的发音流利度，包括：

根据所述时长参数确定所述语音的发音总时长、所述语音中含有的各个发音段的发音时长、以及相邻两个发音段之间的间隔时长；

根据所述发音总时长和所述语音中含有的音素总数确定所述平均语速，并根据所述各个发音段的发音时长确定所述发音段平均时长，以及根据所述相邻两个发音段之间的间隔时长确定所述发音段平均间隔时长。

7.根据权利要求1所述的方法，其特征在于，所述声学特征包括所述语音对应的发音韵律度；根据所述声学参数提取所述语音的声学特征，包括：

将所述声学参数输入至韵律评估模型中，以获得所述韵律评估模型根据所述声学参数评估得到的所述语音对应的发音韵律度。

8.根据权利要求1所述的方法，其特征在于，根据所述识别文本提取所述语音的文本特征，包括：

对所述识别文本和所述语音对应的标准文本分别进行关键词提取，获得所述识别文本对应的关键词，以及所述标准文本对应的关键词；

将所述标准文本对应的关键词作为所述识别文本进行关键词提取的标准结果，计算所述识别文本对应的关键词评价指标，将得到的所述关键词评价指标作为所述语音的文本特征。

9.根据权利要求1所述的方法，其特征在于，根据所述识别文本提取所述语音的文本特征，包括：

确定所述识别文本中含有的不流利的文本成分的数量；

根据所述不流利的文本成分的数量与所述识别文本中含有的词语的总数之间的比值确定所述语音的文本特征。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对多个得分点类型对应的语音，获取各个语音对应的声学特征和文本特征，以及获取针对所述各个语音设定的评分值；

将所述各个语音对应的声学特征和文本特征，以及针对所述各个语音设定的评分值输入与所述各个语音关联的得分点类型相匹配的评分预测模型中，以对与所述各个语音关联的得分点类型相匹配的评分预测模型进行训练。

11.根据权利要求1所述的方法，其特征在于，所述语音是口语考试中针对考试题目进行回答的语音，所述语音关联的得分点类型对应于所述考试题目的题型。

12.一种口语考试的评分方法，其特征在于，包括：

在口语考试界面显示考试题目；

当检测到触发了音频录制指令时，录制针对所述考试题目输入的语音；

在所述口语考试界面中显示针对所述语音的评分值，所述评分值是与所述考试题目的题型相匹配的评分预测模型根据所述语音的声学特征和文本特征，以及所述考试题目的题型对所述语音进行评分得到的。

13.一种语音处理装置，其特征在于，包括：

识别处理模块，用于获取针对语音进行识别处理得到的声学参数和识别文本；

特征提取模块，用于根据所述声学参数提取所述语音的声学特征，并根据所述识别文本提取所述语音的文本特征；

评分获取模块，用于根据所述语音关联的得分点类型，将所述声学特征和所述文本特征输入至与所述得分点类型相匹配的评分预测模型中，得到所述评分预测模型根据所述声学特征、所述文本特征以及所述得分点类型输出的针对所述语音的评分值，不同的得分点类型所匹配的评分预测模型是不同的。

14.一种电子设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-12中的任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-12中的任一项所述的方法。