CN111951825A - 一种发音测评方法、介质、装置和计算设备 - Google Patents

一种发音测评方法、介质、装置和计算设备 Download PDF

Info

Publication number
CN111951825A
CN111951825A CN201910405363.6A CN201910405363A CN111951825A CN 111951825 A CN111951825 A CN 111951825A CN 201910405363 A CN201910405363 A CN 201910405363A CN 111951825 A CN111951825 A CN 111951825A
Authority
CN
China
Prior art keywords
phoneme
pronunciation
corrected
feature sequence
data segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910405363.6A
Other languages
English (en)
Inventor
杨晓飞
蒋成林
刘晨晨
沈欣尧
张欣
王治民
邓雅惠
高慧朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Liulishuo Information Technology Co ltd
Original Assignee
Shanghai Liulishuo Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Liulishuo Information Technology Co ltd filed Critical Shanghai Liulishuo Information Technology Co ltd
Priority to CN201910405363.6A priority Critical patent/CN111951825A/zh
Publication of CN111951825A publication Critical patent/CN111951825A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明的实施方式提供了一种发音测评方法、装置、介质和计算设备。该方法包括:从用户针对于测评内容的待测发音音频中提取至少一个音频数据段;获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度;获取至少一个音频数据段对应的待测音素特征序列;基于时间边界、混淆音素表和混淆音素对应的阈值,从待测音素特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素;若对应时间边界内存在待纠正音素,并且声学似然度大于预设门限,则基于待纠正音素调整对应的得分。本方法可以大大提高对发音音频中混淆音素的识别率,为用户提供更有针对性的发音测评反馈,改善用户体验。

Description

一种发音测评方法、介质、装置和计算设备
技术领域
本发明的实施方式涉及软件领域,更具体地,本发明的实施方式涉及 一种发音测评方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上 下文。此处的描述不因为包括在本部分中就承认是现有技术。
在语言学习的过程中,学习正确的口语发音也是非常重要的一部分, 然而在之前几年,口语学习只能跟随线下的老师进行,随着技术的发展, 线上的口语学习成为一种趋势,近几年口语发音测评打分和纠正主要建立 在语音特征的表示上。
然而,现有的发音测评方案大多采用的是沿用由剑桥大学的Silke Witt 在他的博士论文中提出经典的GOP(Goodness of Pronunciation)算法,或 者是由其衍生出来的其他方案。这些现有的发音测评方案大多采用CE(交 叉熵,Cross Entropy)准则训练的神经网络模型或者更老的GMM模型来 计算用户发音的似然度得分,而CE模型对音素识别的准确率低,无法针 对用户发音时容易混淆、或误发的音素进行识别纠正。
发明内容
由于现有的发音测评方案采用CE模型来计算用户发音的似然度得 分,而CE模型对音素识别的准确率低,无法针对用户发音时容易混淆、 或误发的音素进行识别纠正。因此非常需要一种改进的发音测评方法,用 以提升音素识别的准确性,解决上述技术问题。
在本上下文中,本发明的实施方式期望提供一种发音测评方法、装置、 介质和计算设备。
在本发明实施方式的第一方面中,提供了一种发音测评方法,包括: 从用户针对于测评内容的待测发音音频中提取至少一个音频数据段;获取 至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度;获 取至少一个音频数据段对应的待测音素特征序列;基于时间边界、混淆音 素表和混淆音素对应的阈值,从待测音素特征序列中识别出与测评内容的 标准音素特征序列不一致的待纠正音素;若对应时间边界内存在待纠正音 素,并且声学似然度大于预设门限,则基于待纠正音素调整对应的得分。
在本发明的再一个实施例中,发音测评方法还包括:基于待纠正音素 和/或调整后的得分来确定向用户推送的发音纠错内容,其中发音纠错内容 用于指示用户对待纠正音素进行改进练习。
在本发明的再一个实施例中,采用音素识别网络来获取至少一个音频 数据段对应的待测音素特征序列。
在本发明的再一个实施例中,由测评内容中的至少一个单词、发音词 典和混淆音素表构建成音素识别网络;且音素识别网络中每一网络路径的 词图权重根据预先录入的开发集进行调整。
在本发明的再一个实施例中,由测评内容中的至少一个单词、发音词 典和混淆音素表构建成音素识别网络;且音素识别网络中每一网络路径的 词图权重根据预先录入的开发集进行调整。
在本发明的再一个实施例中,基于时间边界、混淆音素表和混淆音素 对应的阈值,从待测音素特征序列中识别出与测评内容的标准音素特征序 列不一致的待纠正音素,包括:
获取基于测评内容生成的标准音素特征序列;
根据时间边界将至少一个音频数据段中每一单词对应的待测音素特 征序列,与该单词对应的标准音素特征序列进行编辑距离对齐得到区别音 素信息;
根据混淆音素表和混淆音素对应的阈值,通过贝叶斯判决模块确定区 别音素信息对应的待纠正音素。
在本发明的再一个实施例中,区别音素信息包括与标准音素特征序列 不一致的音素处于待测音素特征序列中的位置信息。
在本发明的再一个实施例中,待纠正音素包括与测评内容中标准音素 在声学发音上相近的混淆音素。
在本发明的再一个实施例中,采用交叉熵准则CE模型获取至少一个 音频数据段对应的时间边界和相应时间边界内的声学似然度。
在本发明实施方式的第二方面中,提供了一种发音测评装置,包括:
提取模块,被配置为从用户针对于测评内容的待测发音音频中提取至 少一个音频数据段;
第一测评模块,被配置为获取至少一个音频数据段对应的时间边界和 相应时间边界内的声学似然度;
第二测评模块,被配置为获取至少一个音频数据段对应的待测音素特 征序列;基于时间边界、混淆音素表和混淆音素对应的阈值,从待测音素 特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素;
调整模块,被配置为若对应时间边界内存在待纠正音素,并且声学似 然度大于预设门限,则基于待纠正音素调整对应的得分。
在本发明的再一个实施例中,发音测评装置还包括确定模块,被配置 为基于待纠正音素和/或调整后的得分来确定向用户推送的发音纠错内容, 其中发音纠错内容用于指示用户对待纠正音素进行改进练习。
在本发明的再一个实施例中,第二测评模块还设置有音素识别网络, 音素识别网络具体用于获取至少一个音频数据段对应的待测音素特征序 列。
在本发明的再一个实施例中,由测评内容中的至少一个单词、发音词 典和混淆音素表构建成音素识别网络;进一步的,音素识别网络中每一网 络路径的词图根据预先录入的开发集进行调整。
在本发明的再一个实施例中,第二测评模块在基于时间边界、混淆音 素表和混淆音素对应的阈值,从待测音素特征序列中识别出与测评内容的 标准音素特征序列不一致的待纠正音素时,具体用于:获取基于测评内容 生成的标准音素特征序列;根据时间边界将至少一个音频数据段中每一单 词对应的待测音素特征序列,与该单词对应的标准音素特征序列进行编辑 距离对齐得到区别音素信息;根据混淆音素表和混淆音素对应的阈值,通 过贝叶斯判决模块确定区别音素信息对应的待纠正音素。
在本发明的再一个实施例中,区别音素信息包括与标准音素特征序列 不一致的音素处于待测音素特征序列中的位置信息。
在本发明的再一个实施例中,待纠正音素包括与测评内容中标准音素 在声学发音上相近的混淆音素。
在本发明的再一个实施例中,第一测评模块设置有交叉熵准则CE模 型,CE模型具体用于获取至少一个音频数据段对应的时间边界和相应时 间边界内的声学似然度。
在本发明实施方式的第三方面中,提供了一种介质,该介质存储有计 算机可执行指令,计算机可执行指令用于使计算机执行第一方面中任一实 施例的方法。
在本发明实施方式的第四方面中,提供了一种计算设备,包括处理单 元、存储器以及输入/输出(In/Out,I/O)接口;存储器,用于存储处理单 元执行的程序或指令;处理单元,用于根据存储器存储的程序或指令,执 行第一方面中任一实施例的方法;I/O接口,用于在处理单元的控制下接 收或发送数据。
本发明的实施方式提供的技术方案,可以从用户发音音频中识别出与 标准音素特征序列不一致的待纠正音素,从而调整用户发音音频对应的得 分,大大提高了对发音音频中混淆音素的识别率,为用户提供更有针对性 的发音测评反馈,提升用户体验。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以 及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制 性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的一种发音测评场景的结构 示意图;
图2示意性地示出了根据本发明实施例的一种发音测评方法的流程示 意图;
图3示意性地示出了根据本发明实施例的另一种发音测评场景的结构 示意图;
图4A示意性地示出了根据本发明实施例的一种音素序列的结构示意 图;
图4B示意性地示出了根据本发明实施例的一种混淆音数据集的结构 示意图;
图5示意性地示出了根据本发明实施例的一种发音测评装置的结构示 意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理 解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而 实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施 方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传 达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种***、装置、 设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式, 即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者 硬件和软件结合的形式。
根据本发明的实施方式,提出了一种发音测评方法、介质、装置和计 算设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限 制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精 神。
发明概述
本发明人发现,现有的发音测评方案大多采用的是沿用经典的GOP 算法,或者是由其衍生出来的其他方案。这些现有的发音测评方案采用 CE模型来计算用户发音的似然度得分,而CE模型对音素识别的准确率 低,无法针对用户发音时容易混淆、或误发的音素进行识别纠正。
为了克服技术存在的问题,本发明中提出了一种发音测评方法、装置、 介质和计算设备。该方法包括:从用户针对于测评内容的待测发音音频中 提取至少一个音频数据段;获取至少一个音频数据段对应的时间边界和相 应时间边界内的声学似然度;获取至少一个音频数据段对应的待测音素特 征序列;基于时间边界、混淆音素表和混淆音素对应的阈值,从待测音素 特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素; 若对应时间边界内存在待纠正音素,并且声学似然度大于预设门限,则基 于待纠正音素调整对应的得分。该方法可以通过从用户发音音频中识别出 与标准音素特征序列不一致的待纠正音素,实现对用户发音音频对应得分 的调整,从而大大提高了对发音音频中混淆音素的识别率,为用户提供更 有针对性的发音测评反馈,提升用户体验。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制 性实施方式。
应用场景总览
首先参考图1,图1是本发明的发音测评方法的应用场景示意图,图 1中用户可以通过终端设备A进行发音测评,所述终端A可以在屏幕上显 示待用户发音的测评内容(例如单词或句子或文章等),并且还可以通过 摄像设备(图像采集设备)和/或麦克风(音频采集设备)等数据采集设备 采集用户根据所述测评内容发音时的视频和/或音频以通过所述发音测评 方法对用户的发音进行测评。
可以理解的是,所述发音测评内容可以是终端A预先获取的,也可以 是实时获取的。所述发音测评内容可以是终端A从服务器下载的,并且对 终端A采集到的数据进行分析处理(即执行所述发音测评方法)的既可以 是终端A也可以是服务器。实际的应用过程中,服务器可以存在多级,也 即可以是接收服务器接收终端设备发送的视频和/或音频数据,并将接收到 的视频和/或音频数据发送到处理服务器,处理服务器对接收到的视频数据根据本发明的发音测评方法进行处理,得到用户的发音测评结果,并反馈 至所述终端设备A进行展示。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方 式的发音测评方法。需要注意的是,上述应用场景仅是为了便于理解本发 明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反, 本发明的实施方式可以应用于适用的任何场景。
图2是本发明实施方式第一方面所述一种发音测评方法的实施例的流 程示意图。虽然本发明提供了如下述实施例或附图所示的方法操作步骤或 装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包 括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必 要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限 于本发明实施例或附图所示的执行顺序或模块结构。所述的方法或模块结 构的在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附 图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或 者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
为了清楚起见,下述实施例以具体的一个用户通过移动终端进行发音 测评的实施场景进行说明。所述的移动终端可以包括手机、平板电脑,或 者其他有视频拍摄功能和数据通信功能的通用或专用设备。所述的移动终 端和服务器可以部署有相应的应用模块,如移动终端安装的口语学习APP (应用,application),以实现相应的数据处理。但是,本领域技术人员 能够理解到,可以将本方案的实质精神应用到发音测评的其他实施场景 中,如参照图3,移动终端采集数据后,采集到的数据发送至服务器进行 处理,并通过所述移动终端反馈给用户。
具体的一种实施例如图2所示,本发明提供的一种发音测评方法的一 种实施例中,所述方法可以包括:
S201、从用户针对于测评内容的待测发音音频中提取至少一个音频数 据段;
在本实施方式中,测评用户的发音之前,首先获取用户的发音音频, 或者从发音视频中提取的发音音频。可选的,所述发音音频为用户针对于 测评内容反馈的。一个实施例中,移动终端通过集成的麦克风采集用户发 音时的音频。在本实施方式的另一个实施例中,移动终端通过集成的前置 摄像头采集用户发音时的视频,并从该视频中获取发音音频。可以理解的 是,发音音频也可以不是实时采集的,例如存储在所述移动终端中的本地音频,或从其他移动终端/服务器接收的发音音频。
测评内容包括但不限于单词、短语、句子或文章;可选的,测评内容 可以承载于向用户推送的课程文本中,也可以承载于为用户播放的课程视 频或其他推送中。一个实施例中,测评内容可以是移动终端在终端界面向 用户展示的跟读文本。
在获取到用户的发音音频后,执行S201的一种具体实现步骤包括: 可以通过去除无效音频(不包括用户发音过程的音频,即用户发音前/后没 有用户发音的音频,以及用户发出的非有效音频,如呼吸声、咳嗽等)或 背景噪声的方式提取至少一个音频数据段,具体的,包括:获取所述用户 的发音音频的音频信号;基于音频信号的波动,对所述发音音频进行裁剪, 去除无效音频和/或环境噪声;并将裁剪后的发音音频进行切分以获取至少 一个音频数据段。
实际应用中,音频数据段也可以理解为音频数据帧或音频帧,例如音 频数据段可以是长度为10毫秒(ms)的音频帧。一个实施例中,采用CE (交叉熵)准则训练的神经网络模型从用户发音音频中提取至少一个音频 数据段。在本实施例中,可以通过音频信号的波动情况确定当前音频是否 为有效视频,信号的波动越小,则说明音频画面的变化越小,即音频中包 括用户发音的概率越小,因此,可以通过设置合理的门限或滤波器来判断 当前的音频是否包括用户发音的有效部分。
在提取至少一个音频数据段后,执行S202,获取至少一个音频数据段 对应的时间边界和相应时间边界内的声学似然度;
本步骤的一个实施例中,可以通过CE模型获取至少一个音频数据段 对应的时间边界、以及相应所述时间边界内的声学似然度。具体的,利用 声学模型(如CE模型)将基于测评内容得到的标准发音音频与用户发音 音频中提取出的至少一个音频数据段进行强制对齐(Forced Alignment)得 到每一音频数据段的时间边界和声学似然度,其中声学似然度用于衡量用 户发音音频与标准发音之间的声学相似度。此处的声学似然度,进一步的,可以是基于时间边界计算一个音频数据段的平均似然度L1,并通过音素 级别的识别网络对至少一个音频数据段进行自由识别得到该音频数据段 对应的平均似然度L2之后,通过根据L1与L2的差值来确定的。
需要注意的是,除了上述CE模型之外,本发明实施中并不限定采用 其他算法或模型获取至少一个音频数据段对应的时间边界和相应时间边 界内的声学似然度。
在提取至少一个音频数据段之后,可以执行S203,获取至少一个音频 数据段对应的待测音素特征序列;
在本步骤中,采用音素识别网络来获取至少一个音频数据段对应的待 测音素特征序列。音素识别网络(也即音素识别模型)的一种实施例中, 音素识别网络为区分性声学模型,如TDNN链式模型(Chain Model), 这种TDNN链式模型相较于传统的单词级别的声学模型,由于无需额外 解码生成单词级别的栅格(lattice),因此这种TDNN链式模型可以在更 小粒度如音素级别上实现音频识别,从而大大降低PER(音素识别错误率, PhonemeError rate),提升音素识别网络的性能。除了TDNN链式模型 之外,还可以采用其他网络或模型,比如MPE(最小音素错误,Minimum Phone Error)准则训练的音素识别网络。
在提取至少一个音频数据段对应的待测音素特征序列之后,可以执行 S204,基于时间边界、混淆音素表和混淆音素对应的阈值,从待测音素特 征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素;
本发明实施例中,区别音素信息包括多种,针对于不同类型的发音错 误,区别音素信息的类型可能存在差别。此处以其中一种信息为例,即区 别音素信息为与标准音素特征序列不一致的音素处于所述待测音素特征 序列中的位置信息时,以图4A示出的音素序列为例,假设上面的音素序 列为预先录入的标准音素特征序列,下面的音素序列为待测音素特征序 列,则四个双向箭头分别用于表征三种类型的发音错误,其中从左至右的 第一个双向箭头用于表征此位置上的用户发音出现替换错误,即标准音素 特征序列中此处的音素为ε,待测音素特征序列中此处实际发音对应的音 素为
Figure BDA0002061031230000101
类似的,第三个双向箭头所表征的错误类型也是替换错误;第二 个双向箭头所表征的错误类型为删除错误,即用户漏发了音素n;第四个 双向箭头所表征的错误类型为***错误,即用户多发了音素e。
待纠正音素包括但不限于与测评内容中标准音素在声学发音上相近 的混淆音素。通过上述S204可以确定用户音频包括的待纠正音素,从而 有针对性的指出用户发音音频中包括的实际错误,进而有助于为用户提供 更有针对的发音测评反馈。进一步的,S204的一种可能实施例包括以下步 骤:
子步骤一:获取基于测评内容生成的标准音素特征序列;
需要说明的是,标准音素特征序列可以是预先录入的测试数据集,也 可以是通过深度学习网络从测评内容对应的标准发音音频中提取并生成 的。
子步骤二:根据时间边界将至少一个音频数据段中每一单词对应的所 述待测音素特征序列,与该单词对应的标准音素特征序列进行编辑距离对 齐得到区别音素信息;
具体而言,本步骤中,基于单词时间边界将至少一个音频数据段中每 一单词对应的所述待测音素特征序列,与该单词对应的标准音素特征序列 进行编辑距离对齐,可以是如图4A示出的对齐方式,这样,从编辑距离 对齐后的待测音素特征序列和标准音素特征序列中检测出当前发音不一 致的位置,并定位到该位置的音素,例如图4A示出的从左至右第一个双 向箭头所指示的位置。
子步骤三:根据混淆音素表和混淆音素对应的阈值,通过贝叶斯判决 模块确定所述区别音素信息对应的所述待纠正音素;
本步骤中,遍历混淆音素表以选取出与该位置上的用户发音音素差别 最小的至少两个混淆音素,根据该至少两个混淆音素、以及该至少两个混 淆音素对应的最佳阈值范围,通过贝叶斯判决模型确定该位置上的用户发 音音素作为待纠正音素。其中,混淆音素表包括但不限于至少一个混淆音 素组,其中至少一个混淆音素组内包括至少两个混淆音素、以及对应的标 准发音音频或大数据采集的用户发音音频。例如音素ε和
Figure BDA0002061031230000112
为一组混淆音 素,音素i:和i为一组混淆音素,音素a:和a为一组混淆音素。
仍以上文所述的图4A示出的对齐方式为例,子步骤三中,对于从左 至右第一个双向箭头所指示的位置,遍历混淆音素表,选取出与该位置上 的用户发音音素差别最小的至少两个混淆音素ε和
Figure BDA0002061031230000118
根据音素ε、音素
Figure BDA0002061031230000114
对应的发音音频以及这两个混淆音素对应的最佳阈值范围,通过贝叶斯判 决模型确定出用户发音音频中该位置上的音素为
Figure BDA0002061031230000117
并将该音素
Figure BDA0002061031230000116
确定为待 纠正音素。
需要说明的是,上述S203和S204这两个步骤可以由音素识别网络实 现。为了提升音素识别网络的性能,使其对混淆音素的识别能力更为准确, 音素识别网络可以由所述测评内容中的至少一个单词、发音词典和所述混 淆音素表构成,并根据预先录入的开发集对音素识别网络中每一网络路径 的词图进行调整。此处涉及的开发集包括但不限于测评内容、测评内容对 应的标准发音音频、或大数据收集的关于至少部分测评内容的发音音频、以及至少对应于部分上述测评内容的音素序列;此处的音素序列可以为预 先录入,也可以由深度学习网络输出的,本发明实施例并不限定。
具体的,上述音素识别网络的构建过程中,针对每个音素都有一个 minimal pair(混淆音素表),该混淆音素表可以是预先录入的基于教研经 验制定的,或者可以是由神经网络对大量用户发音数据进行学习后形成 的。针对任一音素,根据该混淆音素表和开发集能够搜索出混淆音素对应 的最佳阈值,该最佳阈值即为音素识别网络在识别音素时所用到的先验因 子。参见以下公式:
Figure BDA0002061031230000111
其中,h表示是哪个音素,o表示声学信号,p(hi|o)p(hj|o)中较大条件 概率值所对应的音素hi or hj,即为最终音频o实际对应的音素。通过在开 发集中添加一个先验因子αij,使其在计算输出检测结果时会参考p(hi|o)与 αijp(hi|o)的大小,αij即充当先验概率。这样,通过上述原理使得本发明实 施例中的音素识别网更为灵活,并且无需在现有技术的基础上增加单词词 典的数据量,即可实现更为准确的混淆音素识别。
以图4B示出的混淆音数据集为例,包括7组声学似然度,假如确定 音素i和I(也即i:)的阈值,需要采集或录入一批包含音素I的音频, 并获取对应这些音频的音素序列,将这些音频分为发音接近于I和发音接 近于i这两类,标记为1(发音接近于I)和0(发音接近于i)。图4B示 出的a即为发音接近于I的声学似然度,b即为发音接近于i的声学似然度, 然后根据多组a与b的比值确定出发音接近于i的音素的最佳阈值范围, 即确定出音素i对应的阈值。
在确定待纠正音素之后,可以执行S205,若对应时间边界内存在待纠 正音素,并且声学似然度大于预设门限,则基于待纠正音素调整对应的得 分。一个实施例中,声学似然度可以用于确定相应时间边界内的音频数据 段的得分,该得分用于指示该音频数据段中用户发音与标准发音之间的相 似程度。举例来说,假设对bit这个单词进行发音测评,若该单词对应时 间边界内存在一个待纠正音素i:,也就是说用户把短音i发成了混淆音素i:,并且通过CE模型测评出的用户发音音频中该单词的声学似然度大于预 设门限,则说明CE模型为用户对该单词的发音测评结果分数较高,但音 素识别网络检测出用户发生替换错误,在此情况下,基于音素识别网络检 测出的待纠正音素对该单词的得分进行下调。
在S204之后,或者S205之后,基于待纠正音素和/或调整后的得分 来确定向用户推送的发音纠错内容,其中发音纠错内容用于指示用户对所 述待纠正音素进行改进练习。比如向用户推送待纠正音素对应的音标,或 者音标课程,或者基于调整后的得分确定的用户发音评分。
通过图2所示的发音测评方法,可以通过从用户发音音频中识别出与 标准音素特征序列不一致的待纠正音素,实现对用户发音音频对应得分的 调整,从而大大提高了对发音音频中混淆音素的识别率,为用户提供更有 针对性的发音测评反馈,提升用户体验。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,介绍本发明提 供了示例性实施的装置。本发明提供的发音测评装置可以实现图2对应的 实施例提供的方法中任一项执行的方法。参见图5,该发音测评装置至少 包括:
提取模块,被配置为从用户针对于测评内容的待测发音音频中提取至 少一个音频数据段;
第一测评模块,被配置为获取至少一个音频数据段对应的时间边界和 相应时间边界内的声学似然度;
第二测评模块,被配置为获取至少一个音频数据段对应的待测音素特 征序列;基于时间边界、混淆音素表和混淆音素对应的阈值,从待测音素 特征序列中识别出与测评内容的标准音素特征序列不一致的待纠正音素;
调整模块,被配置为若对应时间边界内存在待纠正音素,并且声学似 然度大于预设门限,则基于待纠正音素调整对应的得分。
可选的,还包括确定模块,被配置为基于待纠正音素和/或调整后的得 分来确定向用户推送的发音纠错内容,其中发音纠错内容用于指示用户对 待纠正音素进行改进练习。
可选的,第二测评模块还设置有音素识别网络,音素识别网络具体用 于获取至少一个音频数据段对应的待测音素特征序列。
可选的,由测评内容中的至少一个单词、发音词典和混淆音素表构建 成音素识别网络;且音素识别网络中每一网络路径的词图根据预先录入的 开发集进行调整。
可选的,第二测评模块在基于时间边界、混淆音素表和混淆音素对应 的阈值,从待测音素特征序列中识别出与测评内容的标准音素特征序列不 一致的待纠正音素时,具体用于:
获取基于测评内容生成的标准音素特征序列;
根据时间边界将至少一个音频数据段中每一单词对应的待测音素特 征序列,与该单词对应的标准音素特征序列进行编辑距离对齐得到区别音 素信息;
根据混淆音素表和混淆音素对应的阈值,通过贝叶斯判决模块确定区 别音素信息对应的待纠正音素。
可选的,区别音素信息包括与标准音素特征序列不一致的音素处于待 测音素特征序列中的位置信息。
可选的,待纠正音素包括与测评内容中标准音素在声学发音上相近的 混淆音素。
可选的,第一测评模块设置有交叉熵准则CE模型,CE模型具体用于 获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然 度。
示例性介质
在介绍了本发明示例性实施方式的方法、装置之后,接下来,对本发 明示例性实施方式的计算机可读存储介质进行说明,其示出的计算机可读 存储介质为光盘,其上存储有计算机程序(即程序产品),所述计算机程 序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如, 从用户针对于测评内容的待测发音音频中提取至少一个音频数据段;获取 至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度;获取至少一个音频数据段对应的待测音素特征序列;基于时间边界、混淆音 素表和混淆音素对应的阈值,从待测音素特征序列中识别出与测评内容的 标准音素特征序列不一致的待纠正音素;若对应时间边界内存在待纠正音 素,并且声学似然度大于预设门限,则基于待纠正音素调整对应的得分; 各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限 于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可 擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介 质,在此不再一一赘述。
示例性计算设备
在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来, 对本发明示例性实施方式的计算设备进行说明,示出了适于用来实现本发 明实施方式的示例性计算设备的框图,该计算设备可以是计算机***或服 务器。显示的计算设备仅仅是一个示例,不应对本发明实施例的功能和使 用范围带来任何限制。
计算设备的组件可以包括但不限于:一个或者多个处理器或者处理单 元,***存储器,连接不同***组件(包括***存储器和处理单元)的总 线。
计算设备典型地包括多种计算机***可读介质。这些介质可以是任何 能够被计算设备访问的可用介质,包括易失性和非易失性介质,可移动的 和不可移动的介质。
***存储器可以包括易失性存储器形式的计算机***可读介质,例如 随机存取存储器(RAM)和/或高速缓存存储器。计算设备可以进一步包 括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作 为举例,ROM可以用于读写不可移动的、非易失性磁介质(图中未显示, 通常称为“硬盘驱动器”)。尽管未在图中示出,可以提供用于对可移动 非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失 性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。 在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线相 连。***存储器中可以包括至少一个程序产品,该程序产品具有一组(例 如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功 能。
具有一组(至少一个)程序模块的程序/实用工具,可以存储在例如系 统存储器中,且这样的程序模块包括但不限于:操作***、一个或者多个 应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合 中可能包括网络环境的实现。程序模块通常执行本发明所描述的实施例中 的功能和/或方法。
计算设备也可以与一个或多个外部设备(如键盘、指向设备、显示器 等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,计算设 备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN),广 域网(WAN)和/或公共网络,例如因特网)通信。网络适配器通过总线 与计算设备的其它模块(如处理单元等)通信。应当明白,尽管图中未示 出,可以结合计算设备使用其它硬件和/或软件模块。
处理单元通过运行存储在***存储器中的程序,从而执行各种功能应 用以及数据处理,例如,获取用户的发音视频;从所述发音视频中获取有 效视频段;基于所述有效视频段,获取用户的发音口型特征序列;根据用 户的发音口型特征序列与标准音口型特征序列按照预设计算方式得到发 音口型分数。各步骤的具体实现方式在此不再重复说明。应当注意,尽管 在上文详细描述中提及了发音测评装置的若干单元/模块或子单元/子模 块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的 实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元 /模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一 步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这 并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全 部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤, 将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应 该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意 味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方 便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等 同布置。
通过上述的描述,本发明的实施例提供了以下的技术方案,但不限于 此:1、一种发音测评方法,其特征在于,包括:
从用户针对于测评内容的待测发音音频中提取至少一个音频数据段;
获取至少一个音频数据段对应的时间边界和相应时间边界内的声学 似然度;
获取至少一个音频数据段对应的待测音素特征序列;
基于所述时间边界、混淆音素表和混淆音素对应的阈值,从所述待测 音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待 纠正音素;
若对应时间边界内存在所述待纠正音素,并且所述声学似然度大于预 设门限,则基于所述待纠正音素调整对应的得分。
2.如权利要求1所述的方法,其中,还包括:
基于所述待纠正音素和/或调整后的得分来确定向用户推送的发音纠 错内容,其中发音纠错内容用于指示用户对所述待纠正音素进行改进练 习。
3.如权利要求1或2所述的方法,其中,采用音素识别网络来获取至 少一个音频数据段对应的待测音素特征序列。
4.如权利要求3所述的方法,其中,由所述测评内容中的至少一个单 词、发音词典和所述混淆音素表构建成所述音素识别网络;且
所述音素识别网络中每一网络路径的词图根据预先录入的开发集进 行调整。
5.如权利要求1至4任一所述的方法,其中,所述基于所述时间边界、 混淆音素表和混淆音素对应的阈值,从所述待测音素特征序列中识别出与 所述测评内容的标准音素特征序列不一致的待纠正音素,包括:
获取基于所述测评内容生成的标准音素特征序列;
根据所述时间边界将至少一个音频数据段中每一单词对应的所述待 测音素特征序列,与该单词对应的标准音素特征序列进行编辑距离对齐得 到区别音素信息;
根据混淆音素表和混淆音素对应的阈值,通过贝叶斯判决模块确定所 述区别音素信息对应的所述待纠正音素。
6.权利要求5所述的方法,其中,所述区别音素信息包括与标准音素 特征序列不一致的音素处于所述待测音素特征序列中的位置信息。
7.如权利要求1至6任一所述的方法,其中,所述待纠正音素包括与 所述测评内容中标准音素在声学发音上相近的混淆音素。
8.如权利要求1至7任一所述的方法,其中,采用交叉熵准则CE模 型获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似 然度。
9.一种发音测评装置,其特征在于,包括:
提取模块,被配置为从用户针对于测评内容的待测发音音频中提取至 少一个音频数据段;
第一测评模块,被配置为获取至少一个音频数据段对应的时间边界和 相应时间边界内的声学似然度;
第二测评模块,被配置为获取至少一个音频数据段对应的待测音素特 征序列;基于所述时间边界、混淆音素表和混淆音素对应的阈值,从所述 待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致 的待纠正音素;
调整模块,被配置为若对应时间边界内存在所述待纠正音素,并且所 述声学似然度大于预设门限,则基于所述待纠正音素调整对应的得分。
10.如权利要求9所述的发音测评装置,其中,还包括确定模块,被 配置为基于所述待纠正音素和/或调整后的得分来确定向用户推送的发音 纠错内容,其中发音纠错内容用于指示用户对所述待纠正音素进行改进练 习。
11.如权利要求9或10所述的发音测评装置,其中,所述第二测评模 块还设置有音素识别网络,所述音素识别网络具体用于获取至少一个音频 数据段对应的待测音素特征序列。
12.如权利要求11所述的发音测评装置,其中,由所述测评内容中的 至少一个单词、发音词典和所述混淆音素表构建成所述音素识别网络;且
所述音素识别网络中每一网络路径的词图根据预先录入的开发集进 行调整。
13.如权利要求9至12任一所述的发音测评装置,其中,所述第二测 评模块在基于所述时间边界、混淆音素表和混淆音素对应的阈值,从所述 待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致 的待纠正音素时,具体用于:
获取基于所述测评内容生成的标准音素特征序列;
根据所述时间边界将至少一个音频数据段中每一单词对应的所述待 测音素特征序列,与该单词对应的标准音素特征序列进行编辑距离对齐得 到区别音素信息;
根据混淆音素表和混淆音素对应的阈值,通过贝叶斯判决模块确定所 述区别音素信息对应的所述待纠正音素。
14.权利要求13所述的发音测评装置,其中,所述区别音素信息包括 与标准音素特征序列不一致的音素处于所述待测音素特征序列中的位置 信息。
15.如权利要求9至14任一所述的发音测评装置,其中,所述待纠正 音素包括与所述测评内容中标准音素在声学发音上相近的混淆音素。
16.如权利要求9至15任一所述的发音测评装置,其中,所述第一测 评模块设置有交叉熵准则CE模型,所述CE模型具体用于获取至少一个 音频数据段对应的时间边界和相应时间边界内的声学似然度。
17.一种计算机可读存储介质,存储有程序代码,所述程序代码当被 处理器执行时,实现如权利要求1-8之一所述的方法。
18.一种计算设备,包括处理器和存储有程序代码的存储介质,所述 程序代码当被处理器执行时,实现如权利要求1-8之一所述的方法。

Claims (10)

1.一种发音测评方法,其特征在于,包括:
从用户针对于测评内容的待测发音音频中提取至少一个音频数据段;
获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度;
获取至少一个音频数据段对应的待测音素特征序列;
基于所述时间边界、混淆音素表和混淆音素对应的阈值,从所述待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待纠正音素;
若对应时间边界内存在所述待纠正音素,并且所述声学似然度大于预设门限,则基于所述待纠正音素调整对应的得分。
2.如权利要求1所述的方法,其中,还包括:
基于所述待纠正音素和/或调整后的得分来确定向用户推送的发音纠错内容,其中发音纠错内容用于指示用户对所述待纠正音素进行改进练习。
3.如权利要求1或2所述的方法,其中,采用音素识别网络来获取至少一个音频数据段对应的待测音素特征序列。
4.如权利要求3所述的方法,其中,由所述测评内容中的至少一个单词、发音词典和所述混淆音素表构建成所述音素识别网络;且
所述音素识别网络中每一网络路径的词图根据预先录入的开发集进行调整。
5.如权利要求1至4任一所述的方法,其中,所述基于所述时间边界、混淆音素表和混淆音素对应的阈值,从所述待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待纠正音素,包括:
获取基于所述测评内容生成的标准音素特征序列;
根据所述时间边界将至少一个音频数据段中每一单词对应的所述待测音素特征序列,与该单词对应的标准音素特征序列进行编辑距离对齐得到区别音素信息;
根据混淆音素表和混淆音素对应的阈值,通过贝叶斯判决模块确定所述区别音素信息对应的所述待纠正音素。
6.权利要求5所述的方法,其中,所述区别音素信息包括与标准音素特征序列不一致的音素处于所述待测音素特征序列中的位置信息。
7.如权利要求1至6任一所述的方法,其中,采用交叉熵准则CE模型获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度。
8.一种发音测评装置,其特征在于,包括:
提取模块,被配置为从用户针对于测评内容的待测发音音频中提取至少一个音频数据段;
第一测评模块,被配置为获取至少一个音频数据段对应的时间边界和相应时间边界内的声学似然度;
第二测评模块,被配置为获取至少一个音频数据段对应的待测音素特征序列;基于所述时间边界、混淆音素表和混淆音素对应的阈值,从所述待测音素特征序列中识别出与所述测评内容的标准音素特征序列不一致的待纠正音素;
调整模块,被配置为若对应时间边界内存在所述待纠正音素,并且所述声学似然度大于预设门限,则基于所述待纠正音素调整对应的得分。
9.一种计算机可读存储介质,存储有程序代码,所述程序代码当被处理器执行时,实现如权利要求1-7之一所述的方法。
10.一种计算设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如权利要求1-7之一所述的方法。
CN201910405363.6A 2019-05-16 2019-05-16 一种发音测评方法、介质、装置和计算设备 Pending CN111951825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910405363.6A CN111951825A (zh) 2019-05-16 2019-05-16 一种发音测评方法、介质、装置和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910405363.6A CN111951825A (zh) 2019-05-16 2019-05-16 一种发音测评方法、介质、装置和计算设备

Publications (1)

Publication Number Publication Date
CN111951825A true CN111951825A (zh) 2020-11-17

Family

ID=73335464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910405363.6A Pending CN111951825A (zh) 2019-05-16 2019-05-16 一种发音测评方法、介质、装置和计算设备

Country Status (1)

Country Link
CN (1) CN111951825A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562731A (zh) * 2021-02-24 2021-03-26 北京读我网络技术有限公司 一种口语发音评测方法、装置、电子设备及存储介质
CN112908359A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 语音测评方法、装置、电子设备及计算机可读介质
CN112908363A (zh) * 2021-01-21 2021-06-04 北京乐学帮网络技术有限公司 一种发音检测方法、装置、计算机设备及存储介质
CN112992184A (zh) * 2021-04-20 2021-06-18 北京世纪好未来教育科技有限公司 一种发音评测方法、装置、电子设备和存储介质
CN113782059A (zh) * 2021-09-24 2021-12-10 苏州声通信息科技有限公司 乐器音频评测方法及装置、非瞬时性存储介质
CN115083437A (zh) * 2022-05-17 2022-09-20 北京语言大学 一种确定学习者发音的不确定性的方法及装置
CN115148225A (zh) * 2021-03-30 2022-10-04 北京猿力未来科技有限公司 语调评分方法、语调评分***、计算设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150154A1 (en) * 2007-12-11 2009-06-11 Institute For Information Industry Method and system of generating and detecting confusing phones of pronunciation
CN102122507A (zh) * 2010-01-08 2011-07-13 龚澍 一种运用人工神经网络进行前端处理的语音检错方法
CN105609114A (zh) * 2014-11-25 2016-05-25 科大讯飞股份有限公司 一种发音检测方法及装置
CN106297828A (zh) * 2016-08-12 2017-01-04 苏州驰声信息科技有限公司 一种基于深度学习的误发音检测的检测方法和装置
CN109545244A (zh) * 2019-01-29 2019-03-29 北京猎户星空科技有限公司 语音评测方法、装置、电子设备及存储介质
CN109712643A (zh) * 2019-03-13 2019-05-03 北京精鸿软件科技有限公司 语音评价的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150154A1 (en) * 2007-12-11 2009-06-11 Institute For Information Industry Method and system of generating and detecting confusing phones of pronunciation
CN102122507A (zh) * 2010-01-08 2011-07-13 龚澍 一种运用人工神经网络进行前端处理的语音检错方法
CN105609114A (zh) * 2014-11-25 2016-05-25 科大讯飞股份有限公司 一种发音检测方法及装置
CN106297828A (zh) * 2016-08-12 2017-01-04 苏州驰声信息科技有限公司 一种基于深度学习的误发音检测的检测方法和装置
CN109545244A (zh) * 2019-01-29 2019-03-29 北京猎户星空科技有限公司 语音评测方法、装置、电子设备及存储介质
CN109712643A (zh) * 2019-03-13 2019-05-03 北京精鸿软件科技有限公司 语音评价的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李立永 等: "基于区分性特征的音素识别", 《信息工程大学学报》, vol. 14, no. 06, 15 December 2013 (2013-12-15), pages 692 - 699 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908363A (zh) * 2021-01-21 2021-06-04 北京乐学帮网络技术有限公司 一种发音检测方法、装置、计算机设备及存储介质
CN112908363B (zh) * 2021-01-21 2022-11-22 北京乐学帮网络技术有限公司 一种发音检测方法、装置、计算机设备及存储介质
CN112908359A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 语音测评方法、装置、电子设备及计算机可读介质
CN112562731A (zh) * 2021-02-24 2021-03-26 北京读我网络技术有限公司 一种口语发音评测方法、装置、电子设备及存储介质
CN112562731B (zh) * 2021-02-24 2021-07-06 北京读我网络技术有限公司 一种口语发音评测方法、装置、电子设备及存储介质
CN115148225A (zh) * 2021-03-30 2022-10-04 北京猿力未来科技有限公司 语调评分方法、语调评分***、计算设备及存储介质
CN112992184A (zh) * 2021-04-20 2021-06-18 北京世纪好未来教育科技有限公司 一种发音评测方法、装置、电子设备和存储介质
CN113782059A (zh) * 2021-09-24 2021-12-10 苏州声通信息科技有限公司 乐器音频评测方法及装置、非瞬时性存储介质
CN113782059B (zh) * 2021-09-24 2024-03-22 苏州声通信息科技有限公司 乐器音频评测方法及装置、非瞬时性存储介质
CN115083437A (zh) * 2022-05-17 2022-09-20 北京语言大学 一种确定学习者发音的不确定性的方法及装置

Similar Documents

Publication Publication Date Title
CN111951825A (zh) 一种发音测评方法、介质、装置和计算设备
US9466289B2 (en) Keyword detection with international phonetic alphabet by foreground model and background model
CN110085261B (zh) 一种发音纠正方法、装置、设备以及计算机可读存储介质
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
CN110782921A (zh) 语音测评方法和装置、存储介质及电子装置
US11282511B2 (en) System and method for automatic speech analysis
CN107886968B (zh) 语音评测方法及***
Stan et al. ALISA: An automatic lightly supervised speech segmentation and alignment tool
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN111951828B (zh) 发音测评方法、装置、***、介质和计算设备
CN111833859B (zh) 发音检错方法、装置、电子设备及存储介质
CN111477219A (zh) 关键词区分方法、装置、电子设备和可读存储介质
CN110853669B (zh) 音频识别方法、装置及设备
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
JP6148150B2 (ja) 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
CN109065024B (zh) 异常语音数据检测方法及装置
CN112967711B (zh) 一种针对小语种口语发音评价方法、***及存储介质
CN111951629A (zh) 一种发音纠正***、方法、介质和计算设备
CN111950327A (zh) 口型纠正方法、装置、介质和计算设备
CN113053414A (zh) 一种发音评测方法及装置
JP6527000B2 (ja) 発音誤り検出装置、方法およびプログラム
Abdou et al. Enhancing the confidence measure for an Arabic pronunciation verification system
CN114067807A (zh) 音频数据处理方法、装置及电子设备
CN112992184B (zh) 一种发音评测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination