CN115223591A - 一种语音评分方法、装置、设备和存储介质 - Google Patents

一种语音评分方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN115223591A
CN115223591A CN202210848663.3A CN202210848663A CN115223591A CN 115223591 A CN115223591 A CN 115223591A CN 202210848663 A CN202210848663 A CN 202210848663A CN 115223591 A CN115223591 A CN 115223591A
Authority
CN
China
Prior art keywords
information
voice information
voice
scoring
probability value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210848663.3A
Other languages
English (en)
Inventor
曾锐鸿
马金龙
焦南凯
盘子圣
兰翔
王伟喆
黎子骏
黄祥康
吴文亮
邓其春
张政统
谢睿
徐志坚
陈光尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Quwan Network Technology Co Ltd
Original Assignee
Guangzhou Quwan Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Quwan Network Technology Co Ltd filed Critical Guangzhou Quwan Network Technology Co Ltd
Priority to CN202210848663.3A priority Critical patent/CN115223591A/zh
Publication of CN115223591A publication Critical patent/CN115223591A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开一种语音评分方法、装置、设备和存储介质,通过获取用户输入的原始语音信息,利用预设的目标文本信息对原始语音信息进行弱解码,得到对齐语音信息,对该对齐语音信息进行特征信息提取,得到特征语音信息,对特征语音信息进行强制对齐计算,得到第一概率值,还对特征语音信息进行音素全概率计算,得到第二概率值,利用得到的第一概率值和第二概率值对原始语音信息进行语音评分,得到第一分值,最后通过预设的测评规则对第一分值进行测评,得到与第一分值对应的评分结果,以完成语音评分过程。本方案可以准确的对与目标文本信息相对应的语音信息进行评分,提高语音评分的准确性。

Description

一种语音评分方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种语音评分方法、装置、设备和存储介质。
背景技术
现如今,很多行业领域都引入语音识别或者语音评分来扩大应用范围。对于音乐艺术生或者歌手而言,对于文字的发音有着很高的要求,另外在一些娱乐场所,尤其是在卡拉OK等,都配备了语音打分***,以此来测评用户的发音。
传统的打分方法一般是默认用户输入的原始语音信息就是与设定的目标文本信息相对应的语音信息,然后将原始语音信息按照标准进行评分。但是在实际情况中,用户很多时候都会先说出或者唱出与目标文本信息不对应的其他语音,然后再说出或者唱出与目标文本信息对应的语音,因此现有的打分方法会将目标文本信息不对应的其他语音和与目标文本信息对应的语音统一进行打分,从而使得打分的准确率不高。
发明内容
有鉴于此,本申请提供了一种语音评分方法、装置、设备和存储介质,用于解决现有的打分方法会将目标文本信息不对应的其他语音和与目标文本信息对应的语音统一进行打分,从而使得打分的准确率不高的缺陷。
为实现以上目的,现提出的方案如下:
第一方面,一种语音评分方法,包括:
获取用户输入的原始语音信息;
利用预设的目标文本信息对所述原始语音信息进行弱解码,得到对齐语音信息;
对所述对齐语音信息进行特征信息提取,得到特征语音信息;
对所述特征语音信息进行强制对齐计算,得到第一概率值;
对所述特征语音信息进行音素全概率计算,得到第二概率值;
利用所述第一概率值和第二概率值对所述原始语音信息进行语音评分,得到第一分值;
通过预设的测评规则对所述第一分值进行测评,得到与所述第一分值对应的评分结果,以完成语音评分过程。
优选地,所述利用预设的目标文本信息对所述原始语音信息进行弱解码,得到对齐语音信息,包括:
对所述预设的目标文本信息进行构图,得到第一文本信息;
利用所述第一文本信息对所述原始语音信息进行解码,得到解码语音信息;
对所述解码语音信息进行最长公共字符串匹配,以完成弱解码过程,得到对齐语音信息。
优选地,所述对所述预设的目标文本信息进行构图,得到第一文本信息,包括:
以所述目标文本信息为中心进行动态构图,得到限定文本信息;
将所述限定文本信息作为所述第一文本信息。
优选地,所述对所述特征语音信息进行音素全概率计算,得到第二概率值,包括:
获取所述特征语音信息每一帧音素的音素先验概率和所述特征语音信息每一帧音素的发射概率;
针对所述特征语音信息的每一帧音素,将该音素的音素先验概率和发射概率相乘,得到所述特征语音信息每一帧音素的全概率;
将所述特征语音信息的各帧所述音素的全概率相加,得到所述第二概率值。
优选地,所述利用所述第一概率值和第二概率值对所述原始语音信息进行语音评分,得到第一分值,包括:
获取所述原始语音信息的切分帧数;
利用所述切分帧数、所述第一概率值和所述第二概率值对所述原始语音信息进行语音评分,得到第一分值。
第二方面,一种语音评分装置,包括:
原始语音信息获取模块,用于获取用户输入的原始语音信息;
弱解码模块,用于利用预设的目标文本信息对所述原始语音信息进行弱解码,得到对齐语音信息;
特征信息提取模块,用于对所述对齐语音信息进行特征信息提取,得到特征语音信息;
强制对齐计算模块,用于对所述特征语音信息进行强制对齐计算,得到第一概率值;
音素全概率计算模块,用于对所述特征语音信息进行音素全概率计算,得到第二概率值;
第一分值计算模块,用于利用所述第一概率值和第二概率值对所述原始语音信息进行语音评分,得到第一分值;
测评模块,用于通过预设的测评规则对所述第一分值进行测评,得到与所述第一分值对应的评分结果,以完成语音评分过程。
优选地,所述弱解码模块包括:
构图模块,用于对所述预设的目标文本信息进行构图,得到第一文本信息;
解码模块,用于利用所述第一文本信息对所述原始语音信息进行解码,得到解码语音信息;
匹配模块,用于对所述解码语音信息进行最长公共字符串匹配,以完成弱解码过程,得到对齐语音信息。
优选地,所述构图模块包括:
动态构图模块,用于以所述目标文本信息为中心进行动态构图,得到限定文本信息;
第一文本信息得到模块,用于将所述限定文本信息作为所述第一文本信息。
第三方面,一种语音评分设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如第一方面所述的任一项的语音评分方法的各个步骤。
第四方面,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面所述的任一项的语音评分方法的各个步骤。
从上述技术方案可以看出,本申请通过获取用户输入的原始语音信息,利用预设的目标文本信息对原始语音信息进行弱解码,得到对齐语音信息,对该对齐语音信息进行特征信息提取,得到特征语音信息,对特征语音信息进行强制对齐计算,得到第一概率值,还对特征语音信息进行音素全概率计算,得到第二概率值,利用得到的第一概率值和第二概率值对原始语音信息进行语音评分,得到第一分值,最后通过预设的测评规则对第一分值进行测评,得到与第一分值对应的评分结果,以完成语音评分过程。本方案利用预设的目标文本信息对原始语音信息进行弱解码,可以定位到用户输入的原始语音信息中真正与目标文本信息相对应的对齐语音信息,再对对齐语音信息进行特征信息提取,从而准确的对与目标文本信息相对应的语音信息进行评分,提高语音评分的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种语音评分方法的可选流程图;
图2为本申请实施例提供的一种弱解码的可选流程图;
图3为本申请实施例提供的一种限定构图;
图4为本申请实施例提供的一种最长公共字符串匹配的流程示意图;
图5为本申请实施例提供的一种语音评分装置的结构示意图;
图6为本申请实施例提供的一种语音评分设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如今很多行业领域都引入语音识别或者语音评分来扩大应用范围。对于音乐艺术生或者歌手而言,对于文字的发音有着很高的要求,另外在一些娱乐场所,尤其是在卡拉OK等,都配备了语音打分***,以此来测评用户的发音。
传统的打分方法一般是默认用户输入的原始语音信息就是与设定的目标文本信息相对应的语音信息,然后将原始语音信息按照标准进行评分。但是在实际情况中,用户很多时候都会先说出或者唱出与目标文本信息不对应的其他语音,然后再说出或者唱出与目标文本信息对应的语音,因此现有的打分方法会将目标文本信息不对应的其他语音和与目标文本信息对应的语音统一进行打分,从而使得打分的准确率不高。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供一种语音评分方法,该方法可以应用于各种语音评分***、声学评测***或是K歌***中,亦可以应用在各种计算机终端或是智能终端中,其执行主体可以为计算机终端或是智能终端的处理器或服务器,所述方法的方法流程图如图1所示,具体包括:
S1:获取用户输入的原始语音信息。
具体地,用户在使用语音评分***、声学评测***或者是K歌***时,输入自己的原始语音信息,可以理解的是,用户在输入语音信息时,可以按照给定的目标文本进行发声,用户也可以不完全按照给定的目标文本进行发声。一个示例如下,用户利用K歌***进行唱歌,K歌***会显示歌词,这里的歌词即为上述给定的目标文本信息,当歌词呈现在用户眼前时,用户即可根据歌词来唱歌,那么用户唱出来的声音会被K歌***收录。
S2:利用预设的目标文本信息对原始语音信息进行弱解码,得到对齐语音信息。
预设的目标文本信息可以为步骤S1中的给定的目标文本,本步骤中的弱解码可以是基于动态构建加权有限状态转换机来进行。因为在实际的语音评测或者歌唱环境中,用户有时会先说出或者唱出与目标文本信息不对应的其他语音,若将目标文本信息不对应的其他语音和与目标文本信息对应的语音一起进行打分,会使得打分的准确率不高,因此本方案中引入弱解码模块,可以简单理解为将用户输入的原始语音信息中,与目标文本信息相对应的语音信息和目标文本信息对齐,这样可以提高语音评分的准确率。
S3:对对齐语音信息进行特征信息提取,得到特征语音信息。
具体地,在上述步骤中得到对齐语音信息之后,可以对对齐语音信息进行特征信息提取,其中,主要是提取对其语音信息中的FilterBank(Fbank)特征,其提取过程可以依次包括:预加重、分帧、加窗、短时傅里叶变换以及梅尔滤波,从而得到特征语音信息。
可选的,预加重是在数据信息向信道传输前为了减少码间串扰而对数据信息传输电压上的一种预处理,其包括加重和去加重两种。其实,语音信息和视频信息不同,帧的概念原本是应用在视频信息中,但是为了传输与存储,一般采集的音频数据或者语音信息都是一段一段的,不过为了语音信息能够进行批量处理,会根据指定的长度(时间段或者采样数)将语音信息进行分段,形成结构化的形式,这种方式称为分帧。可以理解的是,将对齐语音信息进行分帧之后,对齐语音信息变成了一段一段的结构化形式,但是这样会与分帧之前的对齐语音信息产生较大的误差,因此需要进行加窗处理,使多段对齐语音信息连贯起来,保持连续,以方便进行后续的操作。而短时傅立叶变换可以采用滑动窗口机制,同时设定窗口大小和步长,让窗口在时域的语音信号上滑动,分别计算每个窗口的傅立叶变换,形成了不同时间窗口对应的频域语音信号,拼接起来就成为了频率随时间变化的时频语音信号。
S4:对特征语音信息进行强制对齐计算,得到第一概率值。
对特征语音信息进行强制对齐计算的目的是寻找给定特征序列,找出概率最高的音素状态序列。
其中可以用维特比(Viterbi)算法,具体的流程如下:
定义特征语音信息的最佳状态序列为
Figure BDA0003753990370000061
利用
Figure BDA0003753990370000062
记录局部最优的状态序列。定义δt(i)为截止时刻t,依照状态转移序列q1,q2,…,qt,产生出观察值o1,o2,…,ot的最大概率,最终状态为si,A={aij}为状态概率分布,则可以得到:
Figure BDA0003753990370000063
首先进行初始化:
δ0(1)=1,δ0(j)=0(j≠1)
Figure BDA0003753990370000064
然后进行递推:
Figure BDA0003753990370000071
Figure BDA0003753990370000072
最后终止,得到:
Figure BDA0003753990370000073
Figure BDA0003753990370000074
即该算法终止时δt记录的数据便是最佳状态序列Q*
从上述步骤中,可以得出,通过该强制对齐过程,可以得到给定语音和给定音素序列的对应关系,并且输出一个匹配的概率,即为第一概率值。
S5:对特征语音信息进行音素全概率计算,得到第二概率值。
对特征语音信息进行强制对齐计算和音素全概率计算可以不分先后。具体地,可以利用帧的概念来计算特征语音信息的音素全概率。
S6:利用第一概率值和第二概率值对原始语音信息进行语音评分,得到第一分值。
在本申请提供的一个实施例中,可以利用第一概率值和第二概率值对原始语音信息进行基于混合高斯模型-隐马尔科夫(GMM-HMM)的GOP打分,基于GMM-HMM的GOP打分通过假设每一个GMM分量之间是相互独立的,并且原始语音信息之间的相关性是相对独立的。对于本申请实施例提供的应用场景来说,原始语音信息的信号之间并不是完全独立的,相互之间有比较强的相关性,因此需要保留信号之间的相关性,以确保不会丢失掉连续语音信号之间的变化特征。
而对原始语音信息进行GOP打分需要利用第一概率值和第二概率值,以此得到原始语音信息的第一分值。
S7:通过预设的测评规则对第一分值进行测评,得到与第一分值对应的评分结果,以完成语音评分过程。
上述步骤中对于原始语音信息的操作得到的第一分值是一种具体量化的分值,而在该方案实际应用中,设计者往往会预先设定一个测评规则。
一个示例如下:
若用户输入的原始语音信息的第一分值大于第一预设阈值,则该原始语音信息的第一分值对应的评分结果为优;
若用户输入的原始语音信息的第一分值大于第二预设阈值且小于第一预设阈值,则该原始语音信息的第一分值对应的评分结果为良;
若用户输入的原始语音信息的第一分值小于第二预设阈值且大于第三预设阈值,则该原始语音信息的第一分值对应的的评分结果为及格;
若用户输入的原始语音信息的第一分值小于第三预设阈值,则该原始语音信息的第一分值对应的评分结果为不及格。
因此,从上述技术方案可以看出,本申请通过获取用户输入的原始语音信息,利用预设的目标文本信息对原始语音信息进行弱解码,得到对齐语音信息,对该对齐语音信息进行特征信息提取,得到特征语音信息,对特征语音信息进行强制对齐计算,得到第一概率值,还对特征语音信息进行音素全概率计算,得到第二概率值,利用得到的第一概率值和第二概率值对原始语音信息进行语音评分,得到第一分值,最后通过预设的测评规则对第一分值进行测评,得到与第一分值对应的评分结果,以完成语音评分过程。本方案利用预设的目标文本信息对原始语音信息进行弱解码,可以定位到用户输入的原始语音信息中真正与目标文本信息相对应的对齐语音信息,再对对齐语音信息进行特征信息提取,从而准确的对与目标文本信息相对应的语音信息进行评分,提高语音评分的准确性。
本发明实施例提供的方法中,利用预设的目标文本信息对原始语音信息进行弱解码,得到对齐语音信息的流程如图2所示,具体说明如下所述:
S21:对预设的目标文本信息进行构图,得到第一文本信息。
具体地,可以以预设的目标文本信息为中心进行动态构图,得到限定文本信息,并将该限定文本信息作为第一文本信息。
在该步骤中,可以利用四个加权有限状态转换机WFST,其中,H为隐马尔可夫HMM,C为上下文相关音素转换器,L为发音词典转换器,G为语音模型转换器,则将隐马尔可夫、上下文相关音素转换器、发音词典转换器和语音模型转换器进行组合,可以得到如下计算公式:
HCLG=asl(min(rds(det(H'omin(det(Co(min(det(LoG)))))))))
其中,asl为添加自环,rds表示确保每个状态中,对应每个输入有唯一的输出,H'表示没有自环的HMM,o为组合操作,det表示确定化操作,min表示最小化操作。
通常HCLG的构图会非常大,基本都是几百兆以上,这样对导致传统的语音测评方法无法应用在较小的手机端。因此本方案中将传统方法中的全网构图更改为限定构图,最终得到的构图非常小,可以如图3所示。通过这一改进,可以将传统几百兆以上的构图减小到2KB左右,因此该方案可以应用于体积较小的智能手机或者类似的智能设备中。
S22:利用第一文本信息对原始语音信息进行解码,得到解码语音信息。
具体地,可以利用第一文本信息对原始语音信息进行维特比解码,得到解码语音信息。
S23:对解码语音信息进行最长公共字符串匹配,以完成弱解码过程,得到对齐语音信息。
得到解码语音信息后,可以结合Longest Common Substring(LCS);爱对解码语音信息进行最长公共字符串匹配,得到解码语音信息中最有可能出现目标文本信息的位置信息,从而实现定位功能。
一个具体的实例如下:
请参考图4,例如目标文本信息为“北方方言为基础方言”,若用户输入的原始语音信息为“北北北方言为为北方方言为基础方言方言方言”,则最长公共字符串的匹配结果为从LCS Start到LCS End,即“北方方言为基础方言”,与目标文本信息一致。
本发明实施例提供的方法中,在步骤S5,对特征语音信息进行音素全概率计算,得到第二概率值的过程,可以包括:
获取特征语音信息每一帧音素的音素先验概率和特征语音信息每一帧音素的发射概率。
针对特征语音信息的每一帧音素,将该音素的音素先验概率和发射概率相乘,得到特征语音信息每一帧音素的全概率。
将特征语音信息的各帧音素的全概率相加,得到第二概率值。
具体地,将p表示为特征语音信息的音素,O(p)为音素p对应的声学特征序列,将特征语音信息每一帧音素的音素先验概率表示为P(q),将特征语音信息每一帧音素的发射概率表示为P(O(p)|q),则可以将第二概率值的计算公式表示为:
q∈QP(O(p)|q)P(q)。
可选的,在步骤S6中,利用第一概率值和第二概率值对原始语音信息进行语音评分,得到第一分值的过程,可以包括:
获取原始语音信息的切分帧数,然后利用切分帧数、第一概率值和第二概率值对原始语音信息进行语音评分,得到第一分值。
具体地,切分帧数可以用NF(p)来表示,切分帧数表示的是时间,主要作用是进行归一化,则第一分值的计算公式为:
Figure BDA0003753990370000101
更进一步来说,该公式可以具象化一些来表示:
Figure BDA0003753990370000102
其中可以理解的是,P(p|O(p))可以由第一概率值和第二概率值进行整合得到,logP(p|O(p))是以e为底的P(p|O(p))的对数函数。另外,切分帧数可以利用对齐语音信息的结束时间和开始时间来进行具体的表示,t(s)为对齐语音信息的语音开始时间,t(e)为对齐语音信息的语音结束时间,而
Figure BDA0003753990370000103
可以利用切分帧数和第一概率值整合得到。
与图1所述的方法相对应,本发明实施例还提供了一种语音评分装置,用于对图1中方法的具体实现,本发明实施例提供的语音评分装置可以在计算机终端或各种移动设备中,结合图5,对语音评分装置进行介绍,如图5所示,该装置可以包括:
原始语音信息获取模块10,用于获取用户输入的原始语音信息.
弱解码模块20,用于利用预设的目标文本信息对所述原始语音信息进行弱解码,得到对齐语音信息。
特征信息提取模块30,用于对所述对齐语音信息进行特征信息提取,得到特征语音信息。
强制对齐计算模块40,用于对所述特征语音信息进行强制对齐计算,得到第一概率值。
音素全概率计算模块50,用于对所述特征语音信息进行音素全概率计算,得到第二概率值。
第一分值计算模块60,用于利用所述第一概率值和第二概率值对所述原始语音信息进行语音评分,得到第一分值。
测评模块70,用于通过预设的测评规则对所述第一分值进行测评,得到与所述第一分值对应的评分结果,以完成语音评分过程。
基于本申请提供的语音评分装置,通过原始语音信息获取模块获取用户输入的原始语音信息,然后弱解码模块利用预设的目标文本信息对原始语音信息进行弱解码,得到对齐语音信息,特征信息提取模块对该对齐语音信息进行特征信息提取,得到特征语音信息,强制对齐计算模块和音素全概率计算模块分别对特征语音信息进行强制对齐计算和音素全概率计算,得到第一概率值和第二概率值,然后通过第一分值计算模块,利用得到的第一概率值和第二概率值对原始语音信息进行语音评分,得到第一分值,最后通过测评模块按照预设的测评规则对第一分值进行测评,得到与第一分值对应的评分结果,以完成语音评分过程。本方案利用预设的目标文本信息对原始语音信息进行弱解码,可以定位到用户输入的原始语音信息中真正与目标文本信息相对应的对齐语音信息,再对对齐语音信息进行特征信息提取,从而准确的对与目标文本信息相对应的语音信息进行评分,提高语音评分的准确性。
可选的,弱解码模块20可以包括:
构图模块,用于对所述预设的目标文本信息进行构图,得到第一文本信息。
解码模块,用于利用所述第一文本信息对所述原始语音信息进行解码,得到解码语音信息。
匹配模块,用于对所述解码语音信息进行最长公共字符串匹配,以完成弱解码过程,得到对齐语音信息。
进一步地,构图模块可以包括:
动态构图模块,用于以所述目标文本信息为中心进行动态构图,得到限定文本信息。
第一文本信息得到模块,用于将所述限定文本信息作为所述第一文本信息。
进一步地,音素全概率计算模块50可以包括:
第一计算模块,用于获取所述特征语音信息每一帧音素的音素先验概率和所述特征语音信息每一帧音素的发射概率。
第二计算模块,用于针对所述特征语音信息的每一帧音素,将该音素的音素先验概率和发射概率相乘,得到所述特征语音信息每一帧音素的全概率。
相加模块,用于将所述特征语音信息的各帧所述音素的全概率相加,得到所述第二概率值。
更进一步地,第一分值计算模块60可以包括:
切分帧数获取模块,用于获取所述原始语音信息的切分帧数。
评分模块,用于利用所述切分帧数、所述第一概率值和所述第二概率值对所述原始语音信息进行语音评分,得到第一分值。
更进一步地,本申请实施例提供了一种语音评分设备。可选的,图6示出了语音评分设备的硬件结构框图,参照图6,语音评分设备的硬件结构可以包括:至少一个处理器01,至少一个通信接口02,至少一个存储器03和至少一个通信总线04。
在本申请实施例中,处理器01、通信接口02、存储器03、通信总线04的数量为至少一个,且处理器01、通信接口02、存储器03通过通信总线04完成相互间的通信。
处理器01可以是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等。
存储器03可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器。
其中,存储器存储有程序,处理器可调用存储器存储的程序,程序用于执行下述语音评分方法,包括:
获取用户输入的原始语音信息。
利用预设的目标文本信息对所述原始语音信息进行弱解码,得到对齐语音信息。
对所述对齐语音信息进行特征信息提取,得到特征语音信息。
对所述特征语音信息进行强制对齐计算,得到第一概率值。
对所述特征语音信息进行音素全概率计算,得到第二概率值。
利用所述第一概率值和第二概率值对所述原始语音信息进行语音评分,得到第一分值。
通过预设的测评规则对所述第一分值进行测评,得到与所述第一分值对应的评分结果,以完成语音评分过程。
可选的,程序的细化功能和扩展功能可参照方法实施例中的语音评分方法的描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,在所述程序运行时控制所述存储介质所在的设备执行下述语音评分方法,包括:
获取用户输入的原始语音信息。
利用预设的目标文本信息对所述原始语音信息进行弱解码,得到对齐语音信息。
对所述对齐语音信息进行特征信息提取,得到特征语音信息。
对所述特征语音信息进行强制对齐计算,得到第一概率值。
对所述特征语音信息进行音素全概率计算,得到第二概率值。
利用所述第一概率值和第二概率值对所述原始语音信息进行语音评分,得到第一分值。
通过预设的测评规则对所述第一分值进行测评,得到与所述第一分值对应的评分结果,以完成语音评分过程。
具体地,该存储介质可以是一种计算机可读存储介质,计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。
可选的,程序的细化功能和扩展功能可参照方法实施例中的语音评分方法的描述。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例方法的全部或部分步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语音评分方法,其特征在于,包括:
获取用户输入的原始语音信息;
利用预设的目标文本信息对所述原始语音信息进行弱解码,得到对齐语音信息;
对所述对齐语音信息进行特征信息提取,得到特征语音信息;
对所述特征语音信息进行强制对齐计算,得到第一概率值;
对所述特征语音信息进行音素全概率计算,得到第二概率值;
利用所述第一概率值和第二概率值对所述原始语音信息进行语音评分,得到第一分值;
通过预设的测评规则对所述第一分值进行测评,得到与所述第一分值对应的评分结果,以完成语音评分过程。
2.根据权利要求1所述的方法,其特征在于,所述利用预设的目标文本信息对所述原始语音信息进行弱解码,得到对齐语音信息,包括:
对所述预设的目标文本信息进行构图,得到第一文本信息;
利用所述第一文本信息对所述原始语音信息进行解码,得到解码语音信息;
对所述解码语音信息进行最长公共字符串匹配,以完成弱解码过程,得到对齐语音信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述预设的目标文本信息进行构图,得到第一文本信息,包括:
以所述目标文本信息为中心进行动态构图,得到限定文本信息;
将所述限定文本信息作为所述第一文本信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述特征语音信息进行音素全概率计算,得到第二概率值,包括:
获取所述特征语音信息每一帧音素的音素先验概率和所述特征语音信息每一帧音素的发射概率;
针对所述特征语音信息的每一帧音素,将该音素的音素先验概率和发射概率相乘,得到所述特征语音信息每一帧音素的全概率;
将所述特征语音信息的各帧所述音素的全概率相加,得到所述第二概率值。
5.根据权利要求1-4任一所述的方法,其特征在于,所述利用所述第一概率值和第二概率值对所述原始语音信息进行语音评分,得到第一分值,包括:
获取所述原始语音信息的切分帧数;
利用所述切分帧数、所述第一概率值和所述第二概率值对所述原始语音信息进行语音评分,得到第一分值。
6.一种语音评分装置,其特征在于,包括:
原始语音信息获取模块,用于获取用户输入的原始语音信息;
弱解码模块,用于利用预设的目标文本信息对所述原始语音信息进行弱解码,得到对齐语音信息;
特征信息提取模块,用于对所述对齐语音信息进行特征信息提取,得到特征语音信息;
强制对齐计算模块,用于对所述特征语音信息进行强制对齐计算,得到第一概率值;
音素全概率计算模块,用于对所述特征语音信息进行音素全概率计算,得到第二概率值;
第一分值计算模块,用于利用所述第一概率值和第二概率值对所述原始语音信息进行语音评分,得到第一分值;
测评模块,用于通过预设的测评规则对所述第一分值进行测评,得到与所述第一分值对应的评分结果,以完成语音评分过程。
7.根据权利要求6所述的装置,其特征在于,所述弱解码模块包括:
构图模块,用于对所述预设的目标文本信息进行构图,得到第一文本信息;
解码模块,用于利用所述第一文本信息对所述原始语音信息进行解码,得到解码语音信息;
匹配模块,用于对所述解码语音信息进行最长公共字符串匹配,以完成弱解码过程,得到对齐语音信息。
8.根据权利要求7所述的装置,其特征在于,所述构图模块包括:
动态构图模块,用于以所述目标文本信息为中心进行动态构图,得到限定文本信息;
第一文本信息得到模块,用于将所述限定文本信息作为所述第一文本信息。
9.一种语音评分设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-5任一项的语音评分方法的各个步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-5任一项的语音评分方法的各个步骤。
CN202210848663.3A 2022-07-19 2022-07-19 一种语音评分方法、装置、设备和存储介质 Pending CN115223591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210848663.3A CN115223591A (zh) 2022-07-19 2022-07-19 一种语音评分方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210848663.3A CN115223591A (zh) 2022-07-19 2022-07-19 一种语音评分方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN115223591A true CN115223591A (zh) 2022-10-21

Family

ID=83611205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210848663.3A Pending CN115223591A (zh) 2022-07-19 2022-07-19 一种语音评分方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115223591A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599678A (zh) * 2013-10-30 2015-05-06 语冠信息技术(上海)有限公司 口语发音评价***及方法
CN111862960A (zh) * 2020-08-07 2020-10-30 广州视琨电子科技有限公司 发音错误检测方法、装置、电子设备及存储介质
CN112562723A (zh) * 2020-11-30 2021-03-26 腾讯科技(深圳)有限公司 发音准确度确定方法、装置、存储介质和电子设备
CN113053414A (zh) * 2019-12-26 2021-06-29 航天信息股份有限公司 一种发音评测方法及装置
CN114220419A (zh) * 2021-12-31 2022-03-22 科大讯飞股份有限公司 一种语音评价方法、装置、介质及设备
CN114566147A (zh) * 2022-02-24 2022-05-31 腾讯音乐娱乐科技(深圳)有限公司 语音评测方法、计算机设备、存储介质和计算机程序产品

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599678A (zh) * 2013-10-30 2015-05-06 语冠信息技术(上海)有限公司 口语发音评价***及方法
CN113053414A (zh) * 2019-12-26 2021-06-29 航天信息股份有限公司 一种发音评测方法及装置
CN111862960A (zh) * 2020-08-07 2020-10-30 广州视琨电子科技有限公司 发音错误检测方法、装置、电子设备及存储介质
CN112562723A (zh) * 2020-11-30 2021-03-26 腾讯科技(深圳)有限公司 发音准确度确定方法、装置、存储介质和电子设备
CN114220419A (zh) * 2021-12-31 2022-03-22 科大讯飞股份有限公司 一种语音评价方法、装置、介质及设备
CN114566147A (zh) * 2022-02-24 2022-05-31 腾讯音乐娱乐科技(深圳)有限公司 语音评测方法、计算机设备、存储介质和计算机程序产品

Similar Documents

Publication Publication Date Title
US10699699B2 (en) Constructing speech decoding network for numeric speech recognition
CN110085251B (zh) 人声提取方法、人声提取装置及相关产品
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
RU2393549C2 (ru) Способ и устройство для распознавания речи
Li et al. Automatic speaker age and gender recognition using acoustic and prosodic level information fusion
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
WO2014153800A1 (zh) 语音识别***
CN111028845A (zh) 多音频识别方法、装置、设备及可读存储介质
CN105679312B (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN112133277B (zh) 样本生成方法及装置
CN106898339B (zh) 一种歌曲的合唱方法及终端
CN111445900A (zh) 一种语音识别的前端处理方法、装置及终端设备
CN110556126A (zh) 语音识别方法、装置以及计算机设备
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
CN112614510B (zh) 一种音频质量评估方法及装置
CN112509568A (zh) 一种语音唤醒方法及装置
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN111737515B (zh) 音频指纹提取方法、装置、计算机设备和可读存储介质
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN106910494B (zh) 一种音频识别方法和装置
CN112216270A (zh) 语音音素的识别方法及***、电子设备及存储介质
CN107025902B (zh) 数据处理方法及装置
CN115223591A (zh) 一种语音评分方法、装置、设备和存储介质
JP2013083796A (ja) 男女声識別方法、男女声識別装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination