CN112562723B - 发音准确度确定方法、装置、存储介质和电子设备 - Google Patents

发音准确度确定方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN112562723B
CN112562723B CN202011372217.7A CN202011372217A CN112562723B CN 112562723 B CN112562723 B CN 112562723B CN 202011372217 A CN202011372217 A CN 202011372217A CN 112562723 B CN112562723 B CN 112562723B
Authority
CN
China
Prior art keywords
voice
phoneme
real
frame
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011372217.7A
Other languages
English (en)
Other versions
CN112562723A (zh
Inventor
黄羿衡
杜念冬
冯树林
翁超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011372217.7A priority Critical patent/CN112562723B/zh
Publication of CN112562723A publication Critical patent/CN112562723A/zh
Application granted granted Critical
Publication of CN112562723B publication Critical patent/CN112562723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请实施例提供的发音准确度确定方法、装置、存储介质和电子设备,先确定出语音数据包含的各个语音帧对应的真实音素的质量评估值,接着根据各个语音帧对应的真实音素的质量评估值,确定出语音数据中发音错误的单字的错误类型,最后根据各个语音帧对应的真实音素的质量评估值,以及语音数据中发音错误的单字的错误类型,确定语音数据的发音准确度。与相关技术相比,本申请实施例提供的方法根据各个语音帧对应的真实音素的质量评估值和语音数据中发音错误的单字的错误类型共同得到该语音数据的发音准确度,可以有效提高对语音进行发音评测的准确性。

Description

发音准确度确定方法、装置、存储介质和电子设备
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种发音准确度确定方法、装置、存储介质和电子设备。
背景技术
随着计算机技术和互联网的发展,学员可以通过电子设备进行在线语言学习或语言测试。电子设备可以采集学员输入的语音数据,通过语音评测技术对采集到的语音数据进行发音准确度评测。
语音评测技术作为一项重要的计算机辅助评判技术,可以辅助语言专家或老师更高效地对学员的发音水平进行评判,同时,降低语言专家或老师的工作量。
目前,语音评测技术通常采用一个模型对输入的语音数据进行评测,得到一个语音评测结果,该方式只能对语音数据的发音准确度进行粗略和笼统地评测,因此对语音数据进行发音评测的准确性较低。
发明内容
为解决相关技术中存在的技术问题,本申请实施例提供一种发音准确度确定方法、装置、存储介质和电子设备,可以提高发音评测的准确性。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供了一种发音准确度确定方法,包括:
确定待评测的语音数据包含的各个语音帧对应的真实音素;
基于预设的参考音素集合,分别确定所述各个语音帧对应的真实音素的质量评估值;
根据所述各个语音帧对应的真实音素的质量评估值,确定所述语音数据中发音错误的单字的错误类型;
根据所述各个语音帧对应的真实音素的质量评估值,以及所述语音数据中发音错误的单字的错误类型,确定所述语音数据的发音准确度。
第二方面,本申请实施例还提供了一种发音准确度确定装置,包括:
真实音素确定单元,用于确定待评测的语音数据包含的各个语音帧对应的真实音素;
质量评估值确定单元,用于基于预设的参考音素集合,分别确定所述各个语音帧对应的真实音素的质量评估值;
错误类型确定单元,用于根据所述各个语音帧对应的真实音素的质量评估值,确定所述语音数据中发音错误的单字的错误类型;
发音准确度确定单元,用于根据所述各个语音帧对应的真实音素的质量评估值,以及所述语音数据中发音错误的单字的错误类型,确定所述语音数据的发音准确度。
在一种可选的实施例中,所述真实音素确定单元,具体用于:
获取待评测的语音数据;
采用已训练的对齐模型对所述语音数据进行解析,确定所述语音数据包含的各个语音帧;并对所述各个语音帧进行特征提取,分别获得各个语音帧对应的语音特征,以及根据各个语音帧对应的语音特征,确定所述各个语音帧对应的真实音素;其中,所述语音特征至少包括发音音素。
在一种可选的实施例中,所述质量评估值确定单元,具体用于:
针对所述各个语音帧,分别执行以下操作:
基于预设的参考音素集合,分别确定一个语音帧对应于所述参考音素集合中各个参考音素的概率值;
将所述一个语音帧对应的真实音素,与所述各个参考音素进行匹配;
将匹配成功的一个参考音素对应的概率值,作为所述一个语音帧对应的真实音素的概率值;
确定所述一个语音帧对应于所述各个参考音素的概率值中的最大概率值;
基于所述一个语音帧对应的真实音素的概率值和所述最大概率值,确定所述一个语音帧对应的真实音素的质量评估值。
在一种可选的实施例中,所述质量评估值确定单元,还用于:
采用已训练的打分模型,将所述一个语音帧对应的语音特征与预设的参考音素集合中各个参考音素进行匹配,分别确定所述一个语音帧对应于所述参考音素集合中各个参考音素的概率值。
在一种可选的实施例中,所述错误类型确定单元,具体用于:
根据所述各个语音帧对应的真实音素的质量评估值,确定存在发音错误的真实音素;
根据所述各个语音帧对应的存在发音错误的真实音素,确定所述语音数据中发音错误的单字的错误类型。
在一种可选的实施例中,所述装置还包括对齐模型训练单元,具体用于:
获取第一训练数据集,所述第一训练数据集中包括多个语音数据样本,每个语音数据样本均标注有对应的实际真实音素;
基于从所述第一训练数据集中抽取的语音数据样本,对对齐模型进行训练,直到所述对齐模型收敛为止,其中,一次训练过程包括:
将抽取的语音数据样本输入待训练的对齐模型,确定所述语音数据样本包含的各个语音帧;并对所述各个语音帧进行特征提取,分别获得各个语音帧对应的语音特征,以及根据各个语音帧对应的语音特征,确定所述语音数据样本中各个语音帧对应的预估真实音素;
根据所述语音数据样本中各个语音帧对应的预估真实音素与所述实际真实音素,确定相应的损失值;
根据所述损失值,对所述待训练的对齐模型进行参数调整。
在一种可选的实施例中,所述装置还包括打分模型训练单元,具体用于:
获取第二训练数据集,所述第二训练数据集中包括多个标准语音数据样本;
采用已训练的对齐模型,分别获得所述第二训练数据集中各个标准语音数据样本包含的各个语音帧对应的标准语音特征,以及根据所述各个语音帧对应的标准语音特征分别确定所述各个语音帧对应的标准真实音素;
基于获得的各个语音帧对应的标准语音特征对打分模型进行训练,其中,一次训练过程包括:
将获得的一个语音帧对应的标准语音特征输入待训练的打分模型,与预设的参考音素集合中各个参考音素进行匹配,分别确定所述一个语音帧对应于各个参考音素的概率值;
将获得的各个概率值中的最大概率值对应的参考音素作为所述一个语音帧对应的预估标准真实音素;
根据所述一个语音帧对应的预估标准真实音素与所述一个语音帧对应的标准真实音素,确定相应的损失值;
根据所述损失值,对所述待训练的打分模型进行参数调整。
第三方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的发音准确度确定方法。
第四方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现第一方面的发音准确度确定方法。
本申请实施例提供的发音准确度确定方法、装置、存储介质和电子设备,先确定出语音数据包含的各个语音帧对应的真实音素的质量评估值,接着根据各个语音帧对应的真实音素的质量评估值,确定出语音数据中发音错误的单字的错误类型,最后根据各个语音帧对应的真实音素的质量评估值,以及语音数据中发音错误的单字的错误类型,确定语音数据的发音准确度。与相关技术相比,本申请实施例提供的方法根据各个语音帧对应的真实音素的质量评估值和语音数据中发音错误的单字的错误类型共同得到该语音数据的发音准确度,可以有效提高对语音进行发音评测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种发音准确度确定方法的应用场景图;
图2为本申请实施例提供的一种发音准确度确定方法的流程图;
图3为本申请实施例提供的另一种发音准确度确定方法的流程图;
图4为本申请实施例提供的一种对齐模型的训练方法的流程图;
图5为本申请实施例提供的一种打分模型的训练方法的流程图;
图6为本申请实施例提供的一种发音准确度确定装置的结构示意图;
图7为本申请实施例提供的另一种发音准确度确定装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图;
图9为本申请实施例提供的另一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,本申请的文件中涉及的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)对齐模型:采用高斯混合模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM),主要用于对输入的语音数据进行分帧,获得语音数据中包含的语音帧,并提取每一语音帧对应的语音特征,以及将每一语音帧分别与目标文本对应的真实音素进行强制对齐。
(2)打分模型:采用深度神经网络(Deep Neural Networks,DNN),主要用于将对齐模型得到的语音特征与预设的参考音素集合中的各个参考音素进行匹配,分别确定各个语音帧对应的真实音素的概率值。
下面结合附图及具体实施例对本申请作进一步详细的说明。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的语音处理技术(Speech Technology)和机器学习(Machine Learning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、图像检索、视频监控、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
语音处理技术的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,目前,语音已成为人机交互方式之一。
自然语言处理技术,是计算机科学领域与人工智能领域中的一个重要方向。其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括语音处理、语义理解、文本处理等技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在发音准确度确定过程中,采用了基于机器学习或深度学习的声学模型,通过对语音数据进行分帧和提取语音特征处理,将语音数据中包含的语音帧与文本对应的真实音素进行强制对齐,得到语音帧对应的真实音素的概率值,进而确定语音数据的发音准确度。
目前,语音评测技术作为一项重要的计算机辅助判决技术已得到广泛应用。作为专家判决的计算机辅助,语音评测技术可以很好地降低语言专家的工作量,辅助语言专家更高效地进行考试评分。
相关的语音评测技术通常采用一个模型对用户的语音数据进行评测,该方法在对语音数据进行评测时,只能在音素层面上对用户发音错误的音素进行扣分,导致对语音的发音判别力度不够,并且得到的发音评测结果不够准确。
为了提高对语音进行发音评测的准确性,本申请实施例提供了一种发音准确度确定方法。本申请实施例提供的发音准确度确定方法,可以由用于进行发音评测的电子设备执行。该电子设备可以是终端设备,或者服务器,也可以是计算机或其他具有计算功能的设备。例如,电子设备上可以安装有发音测试的应用,用户可以通过在该应用上录入自己的语音数据,进而获取到对该语音数据进行发音评测的得分。具体地,电子设备在获取到语音数据后,可以确定出该语音数据中包含的每个语音帧对应的真实音素,进而基于预设的参考音素集合,分别确定出每个语音帧对应的真实音素的质量评估值,再根据每个语音帧对应的真实音素的质量评估值,确定出语音数据中发音错误的单字的错误类型,最后根据每个语音帧对应的真实音素的质量评估值与发音错误的单字的错误类型,共同确定出该语音数据的发音准确度,从而可以显著地提高发音评测的准确性。
示例性地,图1示出了本申请实施例所提供的发音准确度确定方法的一种应用场景。参见图1所示,服务器100通过网络200与终端设备300进行通信连接,其中,网络200可以是但不限于局域网、城域网或广域网等,与服务器100连接的终端设备300的数量可以是多个。终端设备300可以通过网络200和服务器100相互传输通信数据和消息。终端设备300可以是便携设备(例如:手机、平板电脑、笔记本电脑等),也可以是计算机、智能屏或个人电脑(PC,Personal Computer)等。服务器100可以是一台服务器或由若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台,也可以是个人计算机、大中型计算机或计算机集群等。根据实现需要,本申请实施例中的应用场景中可以具有任意数目的终端设备和服务器。本申请对此不做特殊限定。
终端设备300可以通过具有录音功能的应用获取用户的语音数据。例如,终端设备300上安装有普通话发音测试应用的客户端,用户可以根据普通话发音测试应用中显示的发音测试文本,点击具有录音功能的按键进行跟读,在录音结束后,终端设备300可以通过普通话发音测试应用的客户端将用户跟读的语音数据发送至服务器100,服务器100可以对接收的语音数据进行发音准确度评测,再将确定的发音准确度发送至终端设备300,用户可以根据普通话发音测试应用中显示的发音分数知道自己的发音水平。
需要说明的是,本申请实施例提供的发音准确度确定方法可以由服务器100执行,也可以由终端设备300和服务器100协作执行,或者由终端设备300独立执行。
图2示出了本申请实施例提供的一种发音准确度确定方法的流程图,该方法可以由图1中的服务器100执行,也可以由终端设备或其它电子设备执行。示例性地,下文以用于发音准确度确定的服务器作为执行主体,说明本申请实施例的发音准确度确定方法的具体实现过程。其它设备执行的具体实施过程与服务器单独执行的过程类似,本文中不再赘述。
如图2所示,该发音准确度确定方法包括如下步骤:
步骤S201,确定待评测的语音数据包含的各个语音帧对应的真实音素。
获取待评测的语音数据,该语音数据可以是通过音频采集器采集到的用户朗读给定的目标文本的语音数据,由于不同用户的发音不同,因此语音数据可以是具有各种发音的语音数据。将采集到的语音数据输入到已训练的对齐模型中,在对齐模型中,可以先对语音数据进行分帧处理,得到语音数据中包含的各个语音帧,再对各个语音帧进行特征提取,分别获得各个语音帧对应的语音特征,该语音特征可以是发音音素。最后将各个语音帧对应的语音特征与目标文本对应的标准发音音素进行强制对齐,可以确定出各个语音帧对应的标准发音音素,即真实音素。
示例性地,提取的语音特征可以是各个语音帧的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)特征,该特征中可以包括语音数据的发音音素、音量、音调和语速等。
在一种实施例中,在一个普通话测试应用程序中,给定用户一段目标文本,用户读出该目标文本,终端设备可以采集用户读取该目标文本的语音数据,并且将该语音数据和对应的目标文本发送至服务器。服务器在接收到语音数据和对应的目标文本后,可以先获取到目标文本对应的真实音素,然后对语音数据进行分帧处理,得到语音数据中包含的各个语音帧,再对每个语音帧进行特征提取,获取到每个语音帧对应的语音特征,最后将每个语音帧对应的语音特征与目标文本对应的真实音素进行强制对齐,得到每个语音帧对应的真实音素。例如,给定用户一段普通话文本“我是中国人”,在采集到用户读取这段文本的语音数据后,终端设备可以将该语音数据和文本“我是中国人”发送给服务器,服务器可以获取到文本“我是中国人”对应的真实音素“w o sh i zh ong g u o r en”。服务器在对语音数据进行分帧处理和提取语音特征后,可以将各个语音帧与真实音素进行强制对齐,假设语音数据可以切分成32帧,其中第1帧到第2帧对应“w”这个真实音素,第11帧到第13帧对应“zh”这个真实音素。
步骤S202,基于预设的参考音素集合,分别确定各个语音帧对应的真实音素的质量评估值。
将上述对齐模型输出的语音数据包含的各个语音帧对应的语音特征输入到已训练的打分模型中,在打分模型中,对于各个语音帧,可以将一个语音帧对应的语音特征与预设的参考音素集合中各个参考音素进行匹配,分别确定该语音帧对应于参考音素集合中各个参考音素的概率值。在得到各个语音帧对应于各个参考音素的概率值后,对于各个语音帧,可以将一个语音帧对应的真实音素与各个参考音素分别进行匹配,然后将匹配成功的一个参考音素对应的概率值,作为该语音帧对应的真实音素的概率值,并且,还要确定出该语音帧对应于各个参考音素的概率值中的最大概率值,最后基于该语音帧对应的真实音素的概率值和最大概率值,来确定出该语音帧对应的真实音素的质量评估值,从而分别确定出各个语音帧对应的真实音素的质量评估值。
在一种实施例中,在确定出一个语音帧对应的真实音素的概率值和该语音帧对应于各个参考音素的概率值中的最大概率值后,将该真实音素的概率值与最大概率值进行相减,得到该语音帧对应的真实音素的质量评估值。例如,一个语音帧对应的真实音素为“z”,概率值为0.8,预设的参考音素集合为{a,o,z,zh,en,eng},该语音帧对应于参考音素集合中的各个参考音素的最大概率值为0.9,并且该最大概率值对应的参考音素为“zh”。将语音帧对应“z”的概率值减去该语音帧对应“zh”的概率值,可以得到该语音帧对应于真实音素“z”的质量评估值为-0.1。
步骤S203,根据各个语音帧对应的真实音素的质量评估值,确定语音数据中发音错误的单字的错误类型。
根据各个语音帧对应的真实音素的质量评估值,可以先确定出存在发音错误的真实音素,再根据音素与单字的对应关系,确定出各个语音帧对应的存在发音错误的真实音素所对应的单字,最后根据语音数据中发音错误的单字,可以确定出发音错误的单字的错误类型。
单字的错误类型可以包括4种错误,包括前后鼻音错误、音调错误、平舌翘舌的错误和完全读错的错误。前后鼻音错误包括单字的声母和韵母错误,例如:可以包含l-n不分,f-h不分,an-ang不分,in-ing不分和on-ong不分等错误。音调错误也包括单字的声母和韵母错误,具体为声母和韵母是同一个,但是发出的声母和韵母的声调不正确。平舌翘舌的错误只包括单字的声母错误,例如:可以包含z-zh,c-ch和s-sh等平舌翘舌的错误。当单字的错误类型不是前三种错误时,可以将这个错误归类为完全读错的错误。
步骤S204,根据各个语音帧对应的真实音素的质量评估值,以及语音数据中发音错误的单字的错误类型,确定语音数据的发音准确度。
根据语音数据中包含的各个语音帧对应的真实音素的质量评估值和语音数据中发音错误的单字的错误类型,可以确定出待评测的语音数据的发音准确度。
上述实施例提供的发音准确度确定方法,先确定出待评测的语音数据包含的各个语音帧对应的真实音素,再基于预设的参考音素集合,分别确定出各个语音帧对应的真实音素的质量评估值,接着根据各个语音帧对应的真实音素的质量评估值,确定出语音数据中发音错误的单字的错误类型,最后根据各个语音帧对应的真实音素的质量评估值,以及语音数据中发音错误的单字的错误类型,确定语音数据的发音准确度。与相关技术相比,本申请实施例提供的方法根据各个语音帧对应的真实音素的质量评估值和语音数据中发音错误的单字的错误类型共同得到该语音数据的发音准确度,可以有效提高对语音进行发音评测的准确性。
参阅图3所示,下面采用一个具体的应用场景,对以上实施例做出进一步详细说明:
假设采集用户读取给定目标文本“今天真好”的待评测语音数据,终端设备可以获取到目标文本“今天真好”对应的真实音素序列“j in t i an zh en h ao”。
步骤S301,确定语音数据“今天真好”包含的各个语音帧对应的真实音素。
具体地,终端设备在采集到语音数据“今天真好”后,可以将该语音数据输入到对齐模型中。在对齐模型中,可以先对语音数据“今天真好”进行分帧处理,可以将该语音数据按照读取的先后顺序分成28帧。然后对每一语音帧进行特征提取,得到每一语音帧对应的语音特征,再将每一语音帧对应的语音特征与真实音素序列中的真实音素进行强制对齐,得到每一语音帧对应的真实音素。例如,语音数据“今”对应第1帧到第6帧,可以将第1帧到第2帧中的每一帧都与真实音素“j”进行强制对齐,将第3帧到第6帧中的每一帧都与真实音素“in”进行强制对齐,进而确定出语音数据“今天真好”中的每一帧对应于真实音素序列“jin t i an zh en h ao”中的真实音素。
步骤S302,基于预设的参考音素集合{j in ing t g i an ang z zh en eng hao},确定语音数据“今天真好”包含的各个语音帧对应于参考音素集合中的各个参考音素的概率值。
具体地,终端设备可以将对齐模型得到的语音数据“今天真好”包含的各个语音帧对应的语音特征输入到打分模型中。在打分模型中,对于各个语音帧,可以将一个语音帧对应的语音特征分别与预设的参考音素集合{j in ing t g i an ang z zh en eng h ao}中各个参考音素进行匹配,确定出该语音帧对应于参考音素集合中各个参考音素的概率值。
步骤S303,对于语音数据“今天真好”中包含的各个语音帧,分别确定对应的各个参考音素的概率值中的最大概率值以及对应的真实音素的概率值,根据各个语音帧对应的最大概率值和真实音素的概率值,分别确定各个语音帧对应的真实音素的质量评估值。
在得到语音数据“今天真好”中包含的各个语音帧对应于各个参考音素的概率值后,对于各个语音帧,可以将语音帧对应的真实音素分别与各个参考音素进行匹配,然后将匹配成功的一个参考音素对应的概率值,作为该语音帧对应的真实音素的概率值,并且,还要确定出该语音帧对应于各个参考音素的概率值中的最大概率值,最后基于该语音帧对应的真实音素的概率值和最大概率值,确定出该语音帧对应的真实音素的质量评估值,从而分别确定出各个语音帧对应的真实音素的质量评估值。例如,语音数据“今天真好”中包含的第8帧对应的真实音素为“zh”,第8帧对应于参考音素集合{j in ing t g i an ang zzh en eng h ao}中参考音素“zh”的概率值为0.7,并且第8帧对应于参考音素“z”的概率值最大,为0.9。将第8帧对应的真实音素“zh”分别与参考音素集合{j in ing t g i an angz zh en eng h ao}中的每个参考音素进行匹配,可以确定出第8帧对应的真实音素“z”的概率值为0.7。根据第8帧对应的真实音素“zh”的概率值0.7和最大概率值0.9,可以确定出第8帧对应的真实音素“zh”的质量评估值为-0.2。
步骤S304,根据各个语音帧对应的真实音素的质量评估值,确定语音数据“今天真好”中发音错误的单字的错误类型。
对于各个语音帧,根据语音帧对应的真实音素和最大概率值对应的参考音素,可以确定出发音存在错误的真实音素,再根据音素与单字的对应关系,可以确定出发音存在错误的单字,最后根据语音数据中发音错误的单字,可以确定出发音错误的单字的错误类型。例如,语音数据“今天真好”的第8帧对应的真实音素为“zh”,最大概率值对应的参考音素为“z”,可以确定第8帧的发音存在错误,并且是“zh”这个音素发音错误。第8帧对应的单字为“真”,可以确定“真”这个单字发音错误,并且由于“zh”发音成了“z”,可以确定“真”的错误类型为平舌翘舌错误。
步骤S305,根据各个语音帧对应的真实音素的质量评估值,以及语音数据中发音错误的单字的错误类型,确定语音数据“今天真好”的发音准确度。
假设语音数据“今天真好”中只有“真”这个单字发音错误,并且错误类型也只有一个,为平舌翘舌错误。也就是说,只有“zh”这一个真实音素发音错误,其质量评估值为-0.2,其他真实音素都发音正确,质量评估值为0。将质量评估值对应到百分制上,可以得到语音数据“今天真好”的质量评估分数为98,再加上对一处平舌翘舌错误类型的扣分,可以最终确定语音数据“今天真好”的发音准确度为97。
相关的语音评测方法仅仅采用真实音素的质量评估值作为语音数据的发音准确度,这种评测方法由于没有考虑到用户的语音数据具有的方言发音,导致对方言语音数据的检测力度和扣分力度不够。由于如果用户的发音是方言时,语音数据中发音存在错误的音素个数会比较多,并且会明显多于正常的普通话发音,从而方言发音扣分的音素数量会显著多于正常普通话发音的音素数量。因此,本申请实施例提供的发音准确度确定方法可以利用扣分音素的数量,在确定出语音数据中发音存在错误的音素后,根据音素与单字之间的对应关系,确定出发音存在错误的单字和单字存在的错误类型,从而能够更加有效地检测出方言口音,对方言发音进行扣分,进一步提高对发音进行评测的打分精度。
在本申请部分实施例中,服务器可以采用GMM-HMM作为对齐模型,对输入的语音数据中包含的每个语音帧与目标文本中的真实音素进行强制对齐,确定出各个语音帧对应的真实音素。然后,可以采用深度神经网络作为打分模型,将通过对齐模型得到的语音数据中的各个语音帧对应的语音特征与预设的参考音素集合中各个参考音素进行匹配,分别确定各个语音帧对应于参考音素集合中各个参考音素的概率值。
相关技术中采用发音质量(Goodness Of Pronunciation,GOP)方法对用户的语音进行发音评测。在采用GOP方法对用户的语音进行发音评测时,通常只采用一个模型,即在一个模型中完成发音评测的对齐过程和打分过程。例如,在相关技术中,对于某个特定的音素p的GOP得分的定义是:
Figure BDA0002806460540000151
其中,O为输入的语音数据,Q为包含所有参考音素的集合,q为集合Q中的参考音素,ts和te分别是语音帧的起点和终点。
采用相关技术中的GOP方法在对语音数据进行评测时,只能在音素层面上对用户发音错误的音素进行扣分,导致对语音的发音判别力度不够,并且得到的发音评测结果不够准确。
由于对齐过程和打分过程的目标不一致,对齐过程要求对所有的语音数据都能进行相对准确的切分,打分过程要判断当前语音数据的发音和标准语音数据的发音之间存在多大的差异,所以对齐模型的训练数据需要的是各种各样的语音数据,而打分模型的训练数据需要的是相对标准的数据。如果采用相同的训练数据对两个模型进行训练,会影响训练得到的模型对语音数据进行发音判断的判别准确度。因此,本申请实施例提供的发音准确度确定方法解耦了对齐模型和打分模型,能够分别针对两个过程的目标进行优化,从而使得方法具有更加良好的判别性能。
上述实施例所使用的对齐模型的训练过程可以如图4所示,该对齐模型的训练方法可以由服务器执行,也可以由终端设备执行。本实施例以服务器执行该训练方法为例进行说明。
如图4所示,该对齐模型的训练方法,可以包括如下步骤:
步骤S401,获取第一训练数据集。
获取到的第一训练数据集中可以包括多个语音数据样本,语音数据样本为具有各种发音的语音数据样本,例如,可以是具有四川口音的普通话数据,也可以是具有东北口音的普通话数据等。每个语音数据样本均标注有对应的实际真实因素。采用具有各种发音的语音数据样本可以使得训练得到的对齐模型能够对所有的语音数据都能进行相对准确的切分。
步骤S402,从第一训练数据集中抽取语音数据样本。
可以预先获取第一训练数据集,对模型进行训练时,从第一训练数据集中抽取语音数据样本作为训练样本数据。
步骤S403,将抽取的语音数据样本输入到待训练的对齐模型中,得到语音数据样本中各个语音帧对应的预估真实音素。
将抽取的语音数据样本输入到待训练的对齐模型中,确定语音数据样本中包含的各个语音帧,并对各个语音帧进行特征提取,分别获得各个语音帧对应的语音特征,以及根据各个语音帧对应的语音特征,确定语音数据样本中各个语音帧对应的预估真实音素。
步骤S404,根据各个语音帧对应的预估真实音素与实际真实音素,确定损失值。
计算损失值时,可以采用预设的损失函数计算损失值,损失函数可以采用交叉熵损失函数,例如Sigmoid函数。使用的损失函数还可以是但不限于多分类交叉熵损失函数、与度量学习相关的对比损失函数(contrastive Loss)或三元组损失函数(triplet Loss)等。通常,损失值是判定实际的输出与期望的输出的接近程度。损失值越小,说明实际的输出越接近期望的输出。
步骤S405,确定损失值是否收敛至预设的目标值;如果否,执行步骤S406;如果是,执行步骤S407。
判断损失值是否收敛至预设的目标值,如果损失值小于或等于预设的目标值,或者,连续N次训练得到的损失值的变化幅度小于或等于预设的目标值时,认为损失值已收敛至预设的目标值,说明损失值收敛;否则,说明损失值尚未收敛。
步骤S406,根据确定的损失值对待训练的对齐模型的参数进行调整。
如果损失值未收敛,则对模型参数进行调整,调整模型参数后,返回执行步骤S402,继续下一轮的训练过程。
步骤S407,结束训练得到已训练的对齐模型。
如果损失值收敛,则将当前得到的对齐模型作为已训练的对齐模型。
上述实施例所使用的打分模型的训练过程可以如图5所示,该打分模型的训练方法可以由服务器执行,也可以由终端设备执行。本实施例以服务器执行该训练方法为例进行说明。
如图5所示,该打分模型的训练方法,可以包括如下步骤:
步骤S501,获取第二训练数据集。
获取到的第二训练数据集中可以包括多个标准语音数据样本,例如,标准语音数据可以是标准普通话数据。采用标准语音数据样本可以使得训练得到的打分模型能够判断出采集到的语音数据的发音和标准语音数据的发音之间存在多大的差异,从而提高对语音数据的发音判别准确度。
步骤S502,从第二训练数据集中抽取标准语音数据样本。
可以预先获取第二训练数据集,对模型进行训练时,从第二训练数据集中抽取标准语音数据样本,将抽取的标准语音数据样本输入到已训练的对齐模型中,确定标准语音数据样本中包含的各个语音帧,并对各个语音帧进行特征提取,分别获得各个语音帧对应的标准语音特征,以及根据各个语音帧对应的标准语音特征,确定所述各个语音帧对应的标准真实音素。
步骤S503,将获得的标准语音数据样本中包含的各个语音帧对应的标准语音特征输入到待训练的打分模型中,与预设的参考音素集合中各个参考音素进行匹配,分别确定各个语音帧对应于各个参考音素的概率值。
将对齐模型输出的标准语音数据样本中各个语音帧对应的标准语音特征作为训练数据输入到待训练的打分模型中,对于各个语音帧,执行以下操作:将一个语音帧对应的标准语音特征与预设的参考音素集合中各个参考音素进行匹配,分别确定该语音帧对应于各个参考音素的概率值。
步骤S504,根据各个语音帧对应的预估标准真实音素与各个语音帧对应的标准真实音素,确定损失值。
对于各个语音帧,执行该操作:在确定出一个语音帧对应于各个参考音素的概率值后,将各个概率值中的最大概率值对应的参考音素作为该语音帧对应的预估标准真实音素,根据该语音帧对应的预估标准真实音素与该语音帧对应的标准真实音素,确定损失值。
计算损失值时,可以采用预设的损失函数计算损失值,损失函数可以采用交叉熵损失函数,例如Sigmoid函数。使用的损失函数还可以是但不限于多分类交叉熵损失函数、与度量学习相关的对比损失函数(contrastive Loss)或三元组损失函数(triplet Loss)等。通常,损失值是判定实际的输出与期望的输出的接近程度。损失值越小,说明实际的输出越接近期望的输出。
步骤S505,确定损失值是否收敛至预设的目标值;如果否,执行步骤S506;如果是,执行步骤S507。
判断损失值是否收敛至预设的目标值,如果损失值小于或等于预设的目标值,或者,连续N次训练得到的损失值的变化幅度小于或等于预设的目标值时,认为损失值已收敛至预设的目标值,说明损失值收敛;否则,说明损失值尚未收敛。
步骤S506,根据确定的损失值对待训练的打分模型的参数进行调整。
如果损失值未收敛,则对模型参数进行调整,调整模型参数后,返回执行步骤S502,继续下一轮的训练过程。
步骤S507,结束训练得到已训练的打分模型。
如果损失值收敛,则将当前得到的打分模型作为已训练的打分模型。
在一种实施例中,在采用对齐模型和打分模型得到语音数据中包含的各个语音帧对应的真实音素的质量评估值时,对于某个语音帧对应的真实音素p,其质量评估值GOP可以定义为:
Figure BDA0002806460540000191
其中,O为输入的语音数据,Q为包含所有参考音素的集合,q为集合Q中的参考音素,ts和te分别是语音帧的起点和终点。
在通过对齐模型确定出语音数据的每个语音帧对应的语音特征和每个语音帧对应的真实音素后,可以将每个语音帧对应的语音特征形成的语音帧序列输入到打分模型中,得到每一语音帧在所有senone上的后验概率分布。senone是声学模型的基础建模单元,是context-dependent-phones中的HMM状态聚类之后的结果。利用senone和音素的对应关系,通过对数概率累加可以得到一段时间内的语音帧在某个真实音素上的对数后验概率(Log Posterior Probability,LPP)值,进而计算出该段时间内的语音帧对应于真实音素的GOP值。
可以计算采用下面的公式来计算LPP值:
Figure BDA0002806460540000192
其中,LPP(p)为在ts至te时间内的语音帧在真实音素p上的对数后验概率值,st是通过对齐模型生成的属于真实音素p的对应的senone。
可以将上述计算LPP(p)的公式变形为:
Figure BDA0002806460540000193
将每个语音帧中对应于真实音素p的senone的概率进行了累加再去求对数,可以把对齐过程的模型和打分过程的模型进行解耦,从而能够针对这两个过程进行分别的优化。具体地,对齐过程中用到的模型和打分过程中用到的模型只要保证有着相同的原始音素集合就可以了,两个模型的senone集合可以是完全独立的,因此可以有充分大的自由度去分别优化两个过程的模型。在相同的音素集合的条件下,对齐过程只需要给出待评测的语音数据中的语音帧对应的一个真实音素的起止时间点,不需要考虑具体的senone序列。而打分过程只需要判断出某个时间段对应的发音是哪一个真实音素,不需要知道该真实音素在对齐过程中对应的具体senone序列。对这个时间段中的每一语音帧,打分过程需要计算这一帧属于这个真实音素的所有的senone的后验概率值,并将这些概率值进行累加,然后求对数,得到这一语音帧在这个真实音素上的LPP值,最后将这个时间段上所有语音帧对应于这个真实音素的LPP值累加起来并且平均,求出这个真实音素的LPP值,进而可以求出该真实音素的GOP值。
可以采用如下公式来得到真实音素p的GOP值:
GOP(p)=LPP(p)-maxq∈QLPP(q)
在对齐过程中,由于需要对各种各样的语音数据都进行一个合理的切分,因此可以采用在非常大量的数据上面训练的GMM-HMM模型对语音数据进行语音帧与真实音素的强制对齐。这种海量数据的训练可以保证对具有任意口音的语音数据都能进行一个合理的切分。而在打分过程中,可以采用在相对少的标准语音数据集合上训练的神经网络模型得到语音数据的GOP值。由于将对齐模型和打分模型进行了解耦,因此当一个人的发音偏离标准语音比较远时,这种偏离可以通过GOP值很显著地显示出来。并且当音素的发音标准时,GOP值是最大值0,当发音不标准时,GOP值为负值。为了更好地显示用户发音的质量评估值,可以将GOP值换算成百分数,通过如下公式进行表示:
Figure BDA0002806460540000201
其中c为一个确定的乘子系数,pi为是待评测的语音数据对应的真实音素序列。
在实际的发音评测中,仅仅用到GOP值往往是不够的,因为用户需要得到相应的反馈,包括哪个单字上存在发音错误,以及发生错误的具体类型是什么。根据对GOP值的计算,可以得到每个真实音素对应的LPP值,以及取得最大LPP值的那个参考音素。取得最大LPP值的那个参考音素可以认为就是用户真实发音的那个音素。用取得最大LPP值的那个参考音素和当前的真实音素进行比较,如果二者相同表示用户当前的发音比较正确,如果二者不相同则表示用户当前的发音存在缺陷。具体的缺陷类型可以通过比较取得最大LPP值的那个参考音素和当前真实音素的差异得到。由于音素是由单字的声母或韵母组成的,当确定出语音数据中发音存在缺陷的音素和具体的缺陷类型后,就可以对应的确定出发音存在错误的声母或韵母以及声母或韵母存在的错误类型。根据声母和韵母与单字的对应关系,当得到声母和韵母的错误类型和GOP值后,可以确定出单字存在的错误类型和单字的GOP值。将这些信息反馈给用户,用户就能够知道自己发音中的哪个单字存在错误,进而可以针对性地改进用户的体验,达到学有所获的效果。
例如,获取到用户读取目标文本“我是中国人”的语音数据,该目标文本对应的真实音素为“w o sh i zh ong g u o r en”,将该语音数据输入到对齐模型中,可以先对语音数据进行分帧处理,再将语音数据中包含的每一帧与真实音素进行强制对齐,比如将语音数据中发音为“我”的所有语音帧按照发音顺序分别与真实音素“w”和“o”进行对齐。在打分模型中,假设得到真实音素“sh”的质量评估值GOP为-0.2,可以确定与该真实音素“zh”进行强制对齐的语音帧发音存在缺陷,并且真实音素“zh”的概率值为0.7,与该真实音素进行强制对齐的语音帧对应的各个参考音素的概率值中的最大概率值为0.9,若参考音素集合中包含的各个参考音素为{a,b,o,w,sh,s,i,zh,z,ong,un,u,r,en,eng},确定出的最大概率值对应的参考音素为“z”,对应到单字上,可以知道是“中”这个单字发生了错误,并且是“中”这个单字的声母“zh”发生了错误。
根据声母和韵母可能存在的错误,可以将单字的错误类型分为4种类型:前后鼻音错误、音调错误、平舌翘舌错误和完全读错的错误。根据语音数据的GOP值和单字的错误类型,可以通过如下公式确定出语音数据的发音准确度:
Figure BDA0002806460540000221
其中,其中si是第i种错误的总体个数。
四种错误类型的扣分规则可以为当出现的错误为前后鼻音错误类型、音调错误类型和平舌翘舌错误类型时,每一处错误分别扣1分,当出现的错误为完全读错的错误类型时,每一处错误分别扣2分。
这种发音准确度确定方法可以更加有效地对具有方言口音的语音数据进行扣分,取得更好的用户体验。
与图2所示的发音准确度确定方法基于同一发明构思,本申请实施例中还提供了一种发音准确度确定装置,该发音准确度确定装置可以布设在服务器或终端设备中。由于该装置是本申请发音准确度确定方法对应的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见上述方法的实施,重复之处不再赘述。
图6示出了本申请实施例提供的一种发音准确度确定装置的结构示意图,如图6所示,该发音准确度确定装置包括真实音素确定单元601、质量评估值确定单元602、错误类型确定单元603和发音准确度确定单元604。
其中,真实音素确定单元601,用于确定待评测的语音数据包含的各个语音帧对应的真实音素;
质量评估值确定单元602,用于基于预设的参考音素集合,分别确定各个语音帧对应的真实音素的质量评估值;
错误类型确定单元603,用于根据各个语音帧对应的真实音素的质量评估值,确定语音数据中发音错误的单字的错误类型;
发音准确度确定单元604,用于根据各个语音帧对应的真实音素的质量评估值,以及语音数据中发音错误的单字的错误类型,确定语音数据的发音准确度。
在一种可选的实施例中,真实音素确定单元601,具体用于:
获取待评测的语音数据;
采用已训练的对齐模型对语音数据进行解析,确定语音数据包含的各个语音帧;并对各个语音帧进行特征提取,分别获得各个语音帧对应的语音特征,以及根据各个语音帧对应的语音特征,确定各个语音帧对应的真实音素;其中,语音特征至少包括发音音素。
在一种可选的实施例中,质量评估值确定单元602,具体用于:
针对各个语音帧,分别执行以下操作:
基于预设的参考音素集合,分别确定一个语音帧对应于参考音素集合中各个参考音素的概率值;
将一个语音帧对应的真实音素,与各个参考音素进行匹配;
将匹配成功的一个参考音素对应的概率值,作为一个语音帧对应的真实音素的概率值;
确定一个语音帧对应于各个参考音素的概率值中的最大概率值;
基于一个语音帧对应的真实音素的概率值和最大概率值,确定一个语音帧对应的真实音素的质量评估值。
在一种可选的实施例中,质量评估值确定单元602,还用于:
采用已训练的打分模型,将一个语音帧对应的语音特征与预设的参考音素集合中各个参考音素进行匹配,分别确定一个语音帧对应于参考音素集合中各个参考音素的概率值。
在一种可选的实施例中,错误类型确定单元603,具体用于:
根据各个语音帧对应的真实音素的质量评估值,确定存在发音错误的真实音素;
根据各个语音帧对应的存在发音错误的真实音素,确定语音数据中发音错误的单字的错误类型。
在一种可选的实施例中,如图7所示,上述发音准确度确定装置还可以包括对齐模型训练单元701和打分模型训练单元702;
其中,对齐模型训练单元701,用于获取第一训练数据集,第一训练数据集中包括多个语音数据样本,每个语音数据样本均标注有对应的实际真实因素;基于从第一训练数据集中抽取的语音数据样本,对对齐模型进行训练,直到对齐模型收敛为止,其中,一次训练过程包括:将抽取的语音数据样本输入待训练的对齐模型,确定语音数据样本包含的各个语音帧;并对各个语音帧进行特征提取,分别获得各个语音帧对应的语音特征,以及根据各个语音帧对应的语音特征,确定语音数据样本中各个语音帧对应的预估真实音素;根据语音数据样本中各个语音帧对应的预估真实音素与实际真实因素,确定相应的损失值;根据损失值,对待训练的对齐模型进行参数调整。
打分模型训练单元702,用于获取第二训练数据集,第二训练数据集中包括多个标准语音数据样本;采用已训练的对齐模型,分别获得第二训练数据集中各个标准语音数据样本包含的各个语音帧对应的标准语音特征,以及根据各个语音帧对应的标准语音特征分别确定各个语音帧对应的标准真实音素;基于获得的各个语音帧对应的标准语音特征对打分模型进行训练,其中,一次训练过程包括:将获得的一个语音帧对应的标准语音特征输入待训练的打分模型,与预设的参考音素集合中各个参考音素进行匹配,分别确定一个语音帧对应于各个参考音素的概率值;将获得的各个概率值中的最大概率值对应的参考音素作为一个语音帧对应的预估标准真实音素;根据一个语音帧对应的预估标准真实音素与一个语音帧对应的标准真实音素,确定相应的损失值;根据损失值,对待训练的打分模型进行参数调整。
与上述方法实施例和装置实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以是服务器,如图1所示的服务器100。在该实施例中,电子设备的结构可以如图8所示,包括存储器101,通讯模块103以及一个或多个处理器102。
存储器101,用于存储处理器102执行的计算机程序。存储器101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器101可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器101也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器101是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器101可以是上述存储器的组合。
处理器102,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器102,用于调用存储器101中存储的计算机程序时实现上述发音准确度确定方法。
通讯模块103用于与终端设备和其他电子设备进行通信。如果电子设备为服务器,则服务器可以通过通讯模块103接收终端设备发送的语音数据。
本申请实施例中不限定上述存储器101、通讯模块103和处理器102之间的具体连接介质。本公开实施例在图8中以存储器101和处理器102之间通过总线104连接,总线104在图8中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线104可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在另一种实施例中,电子设备可以是手机、平板电脑、POS(Point of Sales,销售终端)、车载电脑、智能穿戴设备、PC机等任意电子设备,示例性地,该电子设备也可以是图1中所示的终端设备300。
图9示出了一种本申请实施例提供的电子设备的结构框图。如图9所示,该电子设备包括:射频(Radio Frequency,RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity,WiFi)模块370、处理器380等部件。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图9对电子设备的各个构成部件进行具体的介绍:
RF电路310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器380处理;另外,将设计上行的数据发送给基站。
存储器320可用于存储软件程序以及模块,如本申请实施例中的发音准确度确定方法以及装置对应的程序指令/模块,处理器380通过运行存储在存储器320的软件程序以及模块,从而执行电子设备的各种功能应用以及数据处理,如本申请实施例提供的发音准确度确定方法。存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个应用的应用程序等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元330可用于接收用户输入的数字或字符信息,以及产生与终端的用户设置以及功能控制有关的键信号输入。
可选的,输入单元330可包括触控面板331以及其他输入设备332。
其中,触控面板331,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作),并根据预先设定的程式实现相应的操作,如用户点击功能模块的快捷标识的操作等。可选的,触控面板331可以包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器380,并能接收处理器380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。
可选的,其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元340可用于显示由用户输入的信息或展示给用户的界面信息以及电子设备的各种菜单。显示单元340即为终端设备的显示***,用于呈现界面,如显示桌面、应用的操作界面或直播应用的操作界面等。
显示单元340可以包括显示面板341。可选的,显示面板341可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置。
进一步的,触控面板331可覆盖显示面板341,当触控面板331检测到在其上或附近的触摸操作后,传送给处理器380以确定触摸事件的类型,随后处理器380根据触摸事件的类型在显示面板341上提供相应的界面输出。
虽然在图9中,触控面板331与显示面板341是作为两个独立的部件来实现电子设备的输入和输入功能,但是在某些实施例中,可以将触控面板331与显示面板341集成而实现终端的输入和输出功能。
电子设备还可包括至少一种传感器350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板341的亮度,接近传感器可在电子设备移动到耳边时,关闭显示面板341的背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路360、扬声器361,传声器362可提供用户与电子设备之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号,传输到扬声器361,由扬声器361转换为声音信号输出;另一方面,传声器362将收集的声音信号转换为电信号,由音频电路360接收后转换为音频数据,再将音频数据输出处理器380处理后,经RF电路310以发送给比如另一电子设备,或者将音频数据输出至存储器320以便进一步处理。
WiFi属于短距离无线传输技术,电子设备通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块370,但是可以理解的是,其并不属于电子设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器380是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器320内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器380可包括一个或多个处理单元;可选的,处理器380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、应用及应用内部的功能模块等软件程序,如本申请实施例提供的发音准确度确定方法等。调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器380中。
可以理解,图9所示的结构仅为示意,电子设备还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。图9中所示的各组件可以采用硬件、软件或其组合实现。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的发音准确度确定方法。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种发音准确度确定方法,其特征在于,包括:
确定待评测的语音数据包含的各个语音帧对应的真实音素;
基于预设的参考音素集合,分别确定所述各个语音帧对应的真实音素的质量评估值;
根据所述各个语音帧对应的真实音素的质量评估值,确定所述语音数据中发音错误的单字的错误类型;
根据所述各个语音帧对应的真实音素的质量评估值,以及所述语音数据中发音错误的单字的错误类型,确定所述语音数据的发音准确度。
2.根据权利要求1所述的方法,其特征在于,所述确定待评测的语音数据包含的各个语音帧对应的真实音素,包括:
获取待评测的语音数据;
采用已训练的对齐模型对所述语音数据进行解析,确定所述语音数据包含的各个语音帧;并对所述各个语音帧进行特征提取,分别获得各个语音帧对应的语音特征,以及根据各个语音帧对应的语音特征,确定所述各个语音帧对应的真实音素;其中,所述语音特征至少包括发音音素。
3.根据权利要求2所述的方法,其特征在于,所述基于预设的参考音素集合,分别确定所述各个语音帧对应的真实音素的质量评估值,包括:
针对所述各个语音帧,分别执行以下操作:
基于预设的参考音素集合,分别确定一个语音帧对应于所述参考音素集合中各个参考音素的概率值;
将所述一个语音帧对应的真实音素,与所述各个参考音素进行匹配;
将匹配成功的一个参考音素对应的概率值,作为所述一个语音帧对应的真实音素的概率值;
确定所述一个语音帧对应于所述各个参考音素的概率值中的最大概率值;
基于所述一个语音帧对应的真实音素的概率值和所述最大概率值,确定所述一个语音帧对应的真实音素的质量评估值。
4.根据权利要求3所述的方法,其特征在于,所述基于预设的参考音素集合,分别确定一个语音帧对应于所述参考音素集合中各个参考音素的概率值,包括:
采用已训练的打分模型,将所述一个语音帧对应的语音特征与预设的参考音素集合中各个参考音素进行匹配,分别确定所述一个语音帧对应于所述参考音素集合中各个参考音素的概率值。
5.根据权利要求1至4中任一项所述的方法,其特征在于,根据所述各个语音帧对应的真实音素的质量评估值,确定所述语音数据中发音错误的单字的错误类型,包括:
根据所述各个语音帧对应的真实音素的质量评估值,确定存在发音错误的真实音素;
根据所述各个语音帧对应的存在发音错误的真实音素,确定所述语音数据中发音错误的单字的错误类型。
6.根据权利要求2所述的方法,其特征在于,所述对齐模型的训练过程,包括:
获取第一训练数据集,所述第一训练数据集中包括多个语音数据样本,每个语音数据样本均标注有对应的实际真实音素;
基于从所述第一训练数据集中抽取的语音数据样本,对对齐模型进行训练,直到所述对齐模型收敛为止,其中,一次训练过程包括:
将抽取的语音数据样本输入待训练的对齐模型,确定所述语音数据样本包含的各个语音帧;并对所述各个语音帧进行特征提取,分别获得各个语音帧对应的语音特征,以及根据各个语音帧对应的语音特征,确定所述语音数据样本中各个语音帧对应的预估真实音素;
根据所述语音数据样本中各个语音帧对应的预估真实音素与所述实际真实音素,确定相应的损失值;
根据所述损失值,对所述待训练的对齐模型进行参数调整。
7.根据权利要求4所述的方法,其特征在于,所述打分模型的训练过程,包括:
获取第二训练数据集,所述第二训练数据集中包括多个标准语音数据样本;
采用已训练的对齐模型,分别获得所述第二训练数据集中各个标准语音数据样本包含的各个语音帧对应的标准语音特征,以及根据所述各个语音帧对应的标准语音特征分别确定所述各个语音帧对应的标准真实音素;
基于获得的各个语音帧对应的标准语音特征对打分模型进行训练,其中,一次训练过程包括:
将获得的一个语音帧对应的标准语音特征输入待训练的打分模型,与预设的参考音素集合中各个参考音素进行匹配,分别确定所述一个语音帧对应于各个参考音素的概率值;
将获得的各个概率值中的最大概率值对应的参考音素作为所述一个语音帧对应的预估标准真实音素;
根据所述一个语音帧对应的预估标准真实音素与所述一个语音帧对应的标准真实音素,确定相应的损失值;
根据所述损失值,对所述待训练的打分模型进行参数调整。
8.一种发音准确度确定装置,其特征在于,包括:
真实音素确定单元,用于确定待评测的语音数据包含的各个语音帧对应的真实音素;
质量评估值确定单元,用于基于预设的参考音素集合,分别确定所述各个语音帧对应的真实音素的质量评估值;
错误类型确定单元,用于根据所述各个语音帧对应的真实音素的质量评估值,确定所述语音数据中发音错误的单字的错误类型;
发音准确度确定单元,用于根据所述各个语音帧对应的真实音素的质量评估值,以及所述语音数据中发音错误的单字的错误类型,确定所述语音数据的发音准确度。
9.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~7中任一项所述的方法。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1~7中任一项所述的方法。
CN202011372217.7A 2020-11-30 2020-11-30 发音准确度确定方法、装置、存储介质和电子设备 Active CN112562723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011372217.7A CN112562723B (zh) 2020-11-30 2020-11-30 发音准确度确定方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011372217.7A CN112562723B (zh) 2020-11-30 2020-11-30 发音准确度确定方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN112562723A CN112562723A (zh) 2021-03-26
CN112562723B true CN112562723B (zh) 2022-08-19

Family

ID=75046759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011372217.7A Active CN112562723B (zh) 2020-11-30 2020-11-30 发音准确度确定方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112562723B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992184B (zh) * 2021-04-20 2021-09-10 北京世纪好未来教育科技有限公司 一种发音评测方法、装置、电子设备和存储介质
CN113299278B (zh) * 2021-05-20 2023-06-13 北京大米科技有限公司 一种声学模型性能评估的方法、装置和电子设备
CN115223591A (zh) * 2022-07-19 2022-10-21 广州趣丸网络科技有限公司 一种语音评分方法、装置、设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100499854B1 (ko) * 2002-04-11 2005-07-08 주식회사 언어과학 음소별 오류유형 검출시스템 및 방법과 이를 적용한발음교정 시스템 및 방법
CN109545244A (zh) * 2019-01-29 2019-03-29 北京猎户星空科技有限公司 语音评测方法、装置、电子设备及存储介质
CN110277090B (zh) * 2019-07-04 2021-07-06 思必驰科技股份有限公司 用户个人的发音词典模型的自适应修正方法及***

Also Published As

Publication number Publication date
CN112562723A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
WO2020182153A1 (zh) 基于自适应语种进行语音识别的方法及相关装置
CN112562723B (zh) 发音准确度确定方法、装置、存储介质和电子设备
CN110782921B (zh) 语音测评方法和装置、存储介质及电子装置
US9396724B2 (en) Method and apparatus for building a language model
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
WO2020001458A1 (zh) 语音识别方法、装置及***
CN111833853B (zh) 语音处理方法及装置、电子设备、计算机可读存储介质
CN110838286A (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN111341326B (zh) 语音处理方法及相关产品
US8719019B2 (en) Speaker identification
CN110853618A (zh) 一种语种识别的方法、模型训练的方法、装置及设备
CN112259106A (zh) 声纹识别方法、装置、存储介质及计算机设备
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN114416934B (zh) 多模态的对话生成模型的训练方法、装置及电子设备
WO2014190732A1 (en) Method and apparatus for building a language model
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及***
US20180277145A1 (en) Information processing apparatus for executing emotion recognition
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN112309365A (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN111899576A (zh) 发音测试应用的控制方法、装置、存储介质和电子设备
CN113393828A (zh) 一种语音合成模型的训练方法、语音合成的方法及装置
CN110580897B (zh) 音频校验方法、装置、存储介质及电子设备
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN110853669A (zh) 音频识别方法、装置及设备
KR20200140171A (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40041399

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant