CN107316638A

CN107316638A - 一种诗词背诵评测方法及***、一种终端及存储介质

Info

Publication number: CN107316638A
Application number: CN201710504389.7A
Authority: CN
Inventors: 高强; 吴凡; 夏龙; 阎鹏; 邓澍军; 郭常圳
Original assignee: Beijing Chalk Future Technology Co Ltd
Current assignee: Beijing ape force Education Technology Co., Ltd
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2017-11-03

Abstract

本申请提供一种诗词背诵评测方法及***、一种终端及存储介质，所述方法包括：客户端确定待背诵诗词；获取所述待背诵诗词的语音；对所述语音进行预处理；将预处理后的所述语音上传至服务器；使用所述服务器中预先建立的识别模型将所述语音转换成文字；将所述文字与所述待背诵诗词进行比较，根据预设的评分规则计算出所述文字的得分；将所述得分反馈至客户端。

Description

一种诗词背诵评测方法及***、一种终端及存储介质

技术领域

本发明涉及语音识别及测评技术领域，特别涉及一种诗词背诵评测方法及***、一种终端及存储介质。

背景技术

目前诗词背诵的主体用户主要为中小学生，通用的语音识别技术针对其他使用者时很难像中小学生一样将发声数据达到最优的效果，诗词背诵的识别准确率比较低；如果想要达到较高的识别准确率就需要大量的训练数据，所使用的训练数据基本是由专业麦克风录制的，再经过比较长的训练时间，训练方法也比较复杂；如今在移动互联网时代，用户在进行诗词背诵检测时，大部分都是利用PC机麦克风、手机麦克风等录音设备录制诗词背诵语音，然后进行识别检测，使用现有的语音识别技术对这种通过非专业麦克风录制的诗词背诵语音识别不精确，并且需要单独对诗词背诵语音中的噪声做处理，增加额外的去噪声处理时间，成本高、响应时间长。

发明内容

有鉴于此，本申请提供一种诗词背诵评测方法及***、一种终端及存储介质，以实现面对多种用户群体以及复杂的背诵环境下可以对诗词背诵的内容快速准确识别并且检测出背诵错误率。

一方面，本申请提供一种诗词背诵评测方法，包括：

确定待背诵诗词；

获取所述待背诵诗词的语音；

对所述语音进行预处理；

将预处理后的所述语音上传至服务器；

所述服务器中预先建立的识别模型将所述语音转换成文字；

将所述文字与所述待背诵诗词进行比较，根据预设的评分规则计算出所述文字的得分；

将所述得分反馈至客户端。

可选地，对所述语音进行预处理包括：

对所述语音分片；

将分片的所述语音进行压缩。

可选地，所述将预处理后的所述语音上传至服务器后还包括：

对上传至服务器的所述语音解压缩；

将解压缩后的所述语音进行静音检测。

可选地，预先建立所述识别模型的步骤包括：

构建初始的语音识别网络，

所述语音识别网络接收语音训练数据；

将接收到的其中一条语音训练数据转换成文字；

计算转换的所述文字与所述语音训练数据的真实文字之间的误差；

若所述误差大于或等于预设阈值，根据所述误差调整所述语音识别网络的参数，然后再次执行所述将接收到的其中一条语音训练数据转换成文字的步骤，继续训练所述语音识别网络；

若所述误差小于预设阈值，所述语音识别网络训练结束。

可选地，所述构造语音训练数据包括：

获取原始诗词语音，将所述原始诗词语音作为训练数据；

在所述原始诗词语音中掺杂噪声生成新的训练数据。

可选地，所述原始诗词语音包括不同音质和/或不同声音特征的诗词语音。

可选地，所述构造语音训练数据还包括：

获取原始非诗词语音，将所述原始非诗词语音作为训练数据。

可选地，所述识别模型包括隐马尔可夫模型(Hidden Markov Model，HMM)和/或深度神经网络模型(DNN)。

可选地，所述使用所述服务器中预先建立的识别模型将所述语音转换成文字，还包括：使用语言模型对转换后的所述文字进行纠错。

可选地，使用语言模型对转换后的所述文字进行纠错之后，还包括：利用概率模型将转换后的所述文字与所述待背诵诗词的真实文字进行结果对齐。

可选地，所述概率模型用来判断背诵的诗词内容为顺序背诵、重新背诵或遗漏背诵。

可选地，利用概率模型将转换后的所述文字与所述待背诵诗词的真实文字进行结果对齐，还包括：

如果背诵的诗词正确，则将背诵正确的诗词显示为第一颜色，

如果背诵的诗词错误，则将背诵错误的诗词显示为与第一颜色不同的第二颜色；

如果重新背诵的诗词正确，则将已经显示为第二颜色的诗词修改为第一颜色；

如果发生遗漏背诵的诗词且背诵的诗词部分正确，则将遗漏背诵的诗词显示为第二颜色，将背诵正确的诗词显示为第一颜色。

另一方面，本申请提供一种诗词背诵评测***，包括客户端和服务器，所述客户端包括：

选择模块，用于确定待背诵诗词；

获取模块，用于获取所述待背诵诗词的语音；

预处理模块，用于对所述语音进行预处理；

上传模块，用于将预处理后的所述语音上传至服务器；

所述服务器包括：

转换模块，用于使用所述服务器中预先建立的识别模型将所述语音转换成文字；

打分模块，用于将所述文字与所述待背诵诗词进行比较，根据预设的评分规则计算出所述文字的得分；

反馈模块，用于将所述得分反馈至客户端。

可选地，所述预处理模块包括：

分片模块，用于对所述语音分片；

压缩模块，用于将分片的所述语音进行压缩。

可选地，所述上传模块还包括：

解压模块，用于对上传至服务器的所述语音解压缩；

检测模块，用于将解压缩后的所述语音进行静音检测。

可选地，所述识别模型包括：

识别网络构建模块，用于构建初始的语音识别网络，

接收模块，用于所述语音识别网络接收语音训练数据；

识别转换模块，用于将接收到的其中一条语音训练数据转换成文字；

计算模块，计算转换的所述文字与所述语音训练数据的真实文字之间的误差；

判断模块，

若所述误差大于或等于预设阈值，根据所述误差调整所述语音识别网络的参数，然后再次执行所述将接收到的其中一条语音训练数据转换成文字的步骤，继续训练所述语音识别网络；若所述误差小于预设阈值，所述语音识别网络训练结束。

可选地，所述服务器还包括：

诗词语音获取模块，用于获取原始诗词语音，将所述原始诗词语音作为训练数据；

噪声诗词模块，用于在所述原始诗词语音中掺杂噪声生成新的训练数据。

可选地，所述服务器还包括：

非诗词语音获取模块，用于获取原始非诗词语音，将所述原始非诗词语音作为训练数据。

可选地，所述转换模块包括：纠错模块，用于使用语言模型对转换后的所述文字进行纠错。

可选地，所述纠错模块还包括：对齐模块，用于利用概率模型将转换后的所述文字与所述待背诵诗词的真实文字进行结果对齐。

可选地，所述对齐模块包括：

顺序背诵模块，用于如果背诵的诗词正确，则将背诵正确的诗词显示为第一颜色，

重新背诵模块，用于如果重新背诵的诗词正确，则将已经显示为第二颜色的诗词修改为第一颜色；

遗漏背诵模块，用于如果发生遗漏背诵的诗词且背诵的诗词部分正确，则将遗漏背诵的诗词显示为第二颜色，将背诵正确的诗词显示为第一颜色。

另一方面，本申请提供一种终端，包括处理器和存储器，所述存储器存储有计算机指令，所述处理器调用所述计算机指令并执行以下步骤：

客户端确定待背诵诗词；

获取所述待背诵诗词的语音；

对所述语音进行预处理；

将预处理后的所述语音上传至服务器。

另一方面，本申请提供一种存储介质，存储有计算机指令，所述计算机指令执行以下步骤：

客户端确定待背诵诗词；

获取所述待背诵诗词的语音；

对所述语音进行预处理；

将预处理后的所述语音上传至服务器。

本发明申请提供的一种诗词背诵评测方法基于对背诵诗词的语音进行预处理，提高语音的上传速度；利用预先建立的识别模块对语音进行识别转换成文字，通过预设评分规则计算出文字得分，从而检测出背诵诗词的语音的错误率，使得背诵的诗词语音可以进行实时识别的同时提高了识别准确率。

附图说明

图1为本申请一实施例提供的诗词背诵评测方法的流程图；

图2为本申请一实施例提供的诗词背诵评测方法的对语音进行预处理流程图；

图3为本申请一实施例提供的诗词背诵评测方法的对上传至服务器的语音进行处理的流程图；

图4为本申请一实施例提供的诗词背诵评测方法中对识别模型进行训练的流程图；

图5为本申请一实施例对HMM-DNN模型进行训练的流程图；

图6为本申请一实施例提供的一种诗词背诵评测***的结构示意图；

图7为本申请一实施例提供的电子设备的硬件结构示意图；

图8为本申请一实施例提供的采用诗词背诵评测方法进行评测后客户端展现给用户的界面。

具体实施方式

本发明实施例提供的一种诗词背诵评测方法及***、一种终端及存储介质，首先对获取待背诵诗词的语音进行预处理，然后基于识别模型对所述语音进行文字转换，使得诗词背诵的评测更为快速和准确。下面结合附图，对本发明的实施方式和实施过程做详细说明。

现有的语音识别技术需要大量的训练语音数据以及较长的训练时间才能达到较好的语音识别，针对不同使用者的语音识别准确率低，只能针对专用设备录制的语音识别效果才好，并且需要单独对需要识别的语音进行噪声处理，成本大、响应时间较长。

基于现有技术中诗词背诵评测方法的不足，本申请提供的一种诗词背诵评测方法及***、一种终端及存储介质，能够高效准确的对不同用户使用普通录音设备录制的古诗词的语音进行识别。

参见图1，本实施例提供一种诗词背诵评测方法，包括步骤101至步骤107。

步骤101：确定待背诵诗词。

在本实施例中，所述诗词为古诗词，诗是中文独有的一种文体，有特殊的格式及韵律；诗按音律分，可分为古体诗和近体诗两类；古体诗和近体诗是唐代形成的概念，是从诗的音律角度来划分的；按内容可分为叙事诗、抒情诗、送别诗、边塞诗、山水田园诗、怀古诗(咏史诗)、悼亡诗，咏物诗，军旅诗等。古体诗有《诗经》《楚辞》《乐府》《汉赋》《南北朝民歌》等。近体诗一般是绝句，律诗，排律(长律)；用户在客户端的应用程序中选择确定要背诵的古诗词全文或者古诗词段落，开始背诵。

步骤102：获取所述待背诵诗词的语音。

在本实施例中，实时获取上述用户背诵诗词的语音。

步骤103：对所述语音进行预处理。

在本实施例中，对上述语音进行预处理，最大程度的实现所述语音上传的实时性。

步骤104：将预处理后的所述语音上传至服务器。

步骤105：所述服务器中预先建立的识别模型将所述语音转换成文字。

在本实施例中，在所述服务器上预先建立训练好的识别模型，将预处理后的语音在所述服务器的识别模型中进行识别成文字。

步骤106：将所述文字与所述待背诵诗词进行比较，根据预设的评分规则计算出所述文字的得分。

步骤107：将所述得分反馈至客户端。

本实施例提供的一种诗词背诵评测方法基于对背诵诗词的语音进行预处理，提高语音的上传速度；利用预先建立的识别模块对语音进行识别转换成文字，通过预设评分规则计算出文字得分，从而检测出背诵诗词的语音的错误率，使得背诵的诗词语音可以进行实时识别的同时提高了识别准确率。

参见图2，本申请一实施例中对所述语音进行预处理的过程包括步骤201至步骤202。

步骤201：对所述语音分片。

在本实施例中，所述语音的分片、压缩和上传对用户都是不可见的，用户使用客户端的应用程序(例如，智能手机上的APP)进行不间断的背诵，唯一可见的就是实时的反馈结果；智能手机录制的音频为无损的音频，直接上传到服务器需要耗费较大的网络流量，为了降低智能手机的网络流量消耗，我们在上传音频之前，对音频进行了分片和压缩再进行上传服务器。

在本实施例中，对所述语音分片，即是将语音切分成等长的片段，为了最大程度的实现实时性，在不影响语音识别速度的情况下，将语音音频切分到尽量短的片段，将所述语音在所述识别模型识别的倍速控制在1以内，只要倍速小于1，就能够实现良好的实时性。

步骤202：将分片的所述语音进行压缩。

本实施例中，将分片的所述语音进行压缩，即是在不损失有用信息或损失的信息可忽略的条件下，运用数字信号处理技术，对原始语音音频流进行压缩，也称压缩编码；本实施例采用进阶音讯编码(Advanced Audio Coding，AAC)格式来压缩编码原始语音音频流。

参见图3，本申请一实施例中对将预处理后的所述语音上传至服务器后还包括步骤301至步骤302。

步骤301：对上传至服务器的所述语音解压缩。

本实施例中，所述服务器在收到上传所述语音压缩文件之后，需要对压缩的所述语音音频进行解压缩处理，本实施例中采用进阶音讯编码(Advanced Audio Coding，AAC)对所述语音音频流进行逆变换解压缩。

步骤302：将解压缩后的所述语音进行静音检测。

本实施例中，用户在进行古诗词背诵时很有可能会遗忘出现暂停背诵的行为或者是其它不确定因素造成用户在进行古诗词背诵时出现语音的空缺，这个时候会产生大量的静音，即无声的片段，这部分音频是无需进行处理的，为了减少不必要的处理时间，我们使用基于深度学习的分类模型进行静音检测算，所述基于深度学习的分类模型可以快速准确的区别出正常声音和静音，对检测出的静音片段不做识别处理。

参见图4，本申请一实施例所述识别模型的训练进行说明，实际应用中使用多条语音训练数据对所述识别模型进行训练，每次输入其中一条语音训练数据，当该条语音训练数据对所述识别模型训练结束之后就会输入下一条语音训练数据对所述识别模型进行训练，直至所有的语音训练数据全部输入完或者当所述识别模型达到预设目标时对所述识别模型的训练结束，该训练过程包括步骤401到步骤408。

步骤401：构建初始的语音识别网络。

本实施例中，构建初始的语音识别网络即初始化识别模型的参数。

步骤402：所述语音识别网络接收语音训练数据。

本实施例中，对所述语音训练数据进行编号，避免出现所述语音训练数据重复输入。

步骤403：将接收到的其中一条语音训练数据转换成文字。

步骤404：计算转换的所述文字与所述语音训练数据的真实文字之间的误差。

步骤405：判断所述误差是否小于预设阈值，若是，执行步骤406，若不是，则执行步骤408。

步骤406：根据所述误差调整所述语音识别网络的参数。

步骤407：判断所述语音训练数据是否为最后一条语音训练数据，若是，执行步骤408，若不是，则执行步骤403。

步骤408：所述语音识别网络训练结束。

本实施例中，所述构造语音训练数据包括：

获取原始诗词语音，将所述原始诗词语音作为训练数据；所述获取原始诗词语音可以是通过智能手机麦克风、非智能手机麦克风等设备获取到的语音音频。

在所述原始诗词语音中掺杂噪声生成新的训练数据；为了让用户的古诗词背诵的语音识别在有噪声环境下也能保持较高的准确率，所述训练数据采用原始诗词语音，即是对获取到的语音音频没有进行任何的去噪声处理，而是使用带噪声的语音音频数据直接进行训练，在识别模型识别过程中通过模式识别的方法来区分哪些是噪声、哪些是背诵古诗的声音。

本实施例中，所述原始诗词语音包括不同音质和/或不同声音特征的诗词语音；诗词背诵评测的用户群体主要针对中小学使用，为了适应中小学生的声音特点，所述语音训练数据大部分是采集真实的中小学用户的语音音频数据；但是由于不同的用户说话的习惯和发声特点不一样，音质以及声音特征有区别，为了提高识别模型的泛化能力，语音训练数据采用数据增强的方法对所述原始诗词语音进行扩充，生成不同特点的语音音频数据，增加所述语音训练数据。

本实施例中，所述构造语音训练数据还包括：

获取原始非诗词语音，将所述原始非诗词语音作为训练数据；所述训练数据中还增加了一些非智能手机麦克风录制的语音音频，非中小学生用户的语音音频，内容非古诗词的语音音频，非噪声环境下的语音音频，提高识别模型的泛化能力，使得识别模型具有更好的鲁棒性。

参见图5，本申请一实施例中提供以一条语音训练数据为例使用隐马尔可夫模型(Hidden Markov Model，HMM)和/或深度神经网络模型(DNN)训练模型包括步骤501到步骤508。

本实施例中，所述识别模型包括隐马尔可夫模型(Hidden Markov Model，HMM)和/或深度神经网络模型(DNN)。

步骤501：初始化HMM-DNN模型参数。

步骤502：从训练数据中接收语音数据。

步骤503：将接收到的其中一条语音数据转换成文字。

步骤504：计算语音识别后转换出的文字与真实的语音文字之间的误差。

步骤505：判断所述误差是否小于预设阈值，若是，执行步骤506，若不是，则执行步骤508。

步骤506：根据所述误差调整所述HMM-DNN模型的参数。

步骤507：判断所述语音数据是否为最后一条语音数据，若是，执行步骤508，若不是，则执行步骤503。

步骤508：所述HMM-DNN模型训练结束。

本实施例中，训练数据是在种子语音的基础上利用数据增强的方法进行扩充得到的；种子语音数据具有以下特点：1)种子语音数据是从应用中收集的真实语音音频数据；2)为了适应智能手机麦克风录制的语音音频，我们的主要数据都是通过智能手机(包括但不限于Android智能手机、iphone)采集而来；3)为了适应中小学生的声音特点，我们的主要语音数据都是线上产生的真实的中小学用户的语音音频数据；4)真实的背诵语音数据中掺杂着各种各样的背景噪声，为了让古诗词背诵语言识别在噪声环境下也能保持较高的准确率，没有对音频进行任何的去噪声处理，而是使用带噪声的音频数据直接进行训练，通过模式识别的方法来区分噪声和背诵古诗的声音；由于不同的用户说话的习惯和发声特点不一样，采用了数据增强的方法对种子数据进行扩充，生成了不同特点的声音。

为了提高模型的泛化能力，训练数据中还加了一些非智能手机麦克风录制的语音音频，非中小学生用户的语音音频，内容非古诗词的语音音频，非噪声环境下的语音音频，使得HMM-DNN模型具有更好的鲁棒性。

本申请一实施例，使用所述服务器中预先建立的识别模型将所述语音转换成文字之后，还包括：使用语言模型对转换后的所述文字进行纠错。

语言模型为一个能推测出下一个字的概率分布，即下一个字可能是什么字的模型。

现实的语音识别模型可能存在的问题：1)语音识别模型识别出的发音，可能不是百分之百的准确，但即便不准确，大多数情况下也是一个近似的读音；2)纯粹的语音识别模型的识别结果可能并不符合正确的语法规范。

本实施例中通过自然语言模型进行调整，能够通过上下文和语法规则纠正被错误识别的发音，调整方法包括但不限于：融合了多种场景下的语料训练出来的语言模型，使得发音的纠正结果更具鲁棒性；调整了语言模型在语音识别过程中的权重，使得识别结果更加精准。

本申请一实施例中，使用语言模型对转换后的所述文字进行纠错之后，还包括：利用概率模型将转换后的所述文字与所述待背诵诗词的真实文字进行结果对齐。

将语音识别的结果与用户真实要背诵的内容去进行逐字对齐，判断用户是顺序背诵要背的内容、重新背诵、遗漏背诵还是背诵错误，然后利用预设的评分规则对诗词背诵的内容进行评测打分。

本申请一实施例中，所述概率模型用来判断背诵的诗词内容为顺序背诵、重新背诵或遗漏背诵。

在真实背诵中，顺序背诵、重新背诵和遗漏背诵三种行为发生的频率不一样，大多数情况下是顺序背诵，重新背诵和遗漏背诵比较少发生，本实施例中使用一种结合人类先验知识的贝叶斯概率模型来预测这三种行为，使得对齐的准确率达到最优。

本申请一实施例中，利用概率模型将转换后的所述文字与所述待背诵诗词的真实文字进行结果对齐，还包括：

如果背诵的诗词正确，则将背诵正确的诗词显示为第一颜色；

参见图6，本申请提供一种诗词背诵评测***，包括客户端601和服务器602，所述客户端601包括：

选择模块611，用于确定待背诵诗词；

获取模块612，用于获取所述待背诵诗词的语音；

预处理模块613，用于对所述语音进行预处理；

上传模块614，用于将预处理后的所述语音上传至服务器；

所述服务器602包括：

转换模块621，用于使用所述服务器中预先建立的识别模型将所述语音转换成文字；

打分模块622，用于将所述文字与所述待背诵诗词进行比较，根据预设的评分规则计算出所述文字的得分；

反馈模块623，用于将所述得分反馈至客户端。

可选地，所述预处理模块613包括：

分片模块，用于对所述语音分片；

压缩模块，用于将分片的所述语音进行压缩。

可选地，所述上传模块614还包括：

解压模块，用于对上传至服务器的所述语音解压缩；

检测模块，用于将解压缩后的所述语音进行静音检测。

可选地，所述识别模型包括：

识别网络构建模块，用于构建初始的语音识别网络，

接收模块，用于所述语音识别网络接收语音训练数据；

判断模块，若所述误差大于或等于预设阈值，根据所述误差调整所述语音识别网络的参数，然后再次执行所述将接收到的其中一条语音训练数据转换成文字的步骤，继续训练所述语音识别网络；若所述误差小于预设阈值，所述语音识别网络训练结束。

可选地，所述服务器还包括：

可选地，所述对齐模块包括：

本申请中的识别模型中所使用的HMM-DNN模型中的DNN可以是各种深度学习网络；HMM-DNN模型可以用隐马尔可夫模型和高斯混合模型(Hidden Markov Model，HMM和Gaussian Mixture Model，即HMM-GMM)模型来替代，也可以用纯粹的深度学习模型来替代。

本实施例提供一种终端，包括处理器和存储器，所述存储器存储有计算机指令，所述处理器调用所述计算机指令并执行以下步骤：

客户端确定待背诵诗词；

获取所述待背诵诗词的语音；

对所述语音进行预处理；

将预处理后的所述语音上传至服务器。

上述为本实施例的一种终端的示意性方案。需要说明的是，该终端的技术方案与上述的诗词背诵评测方法的技术方案属于同一构思，该终端的技术方案未详细描述的细节内容，均可以参见上述诗词背诵评测方法的技术方案的描述。

本实施例提供一种存储介质，存储有计算机指令，所述计算机指令执行以下步骤：

客户端确定待背诵诗词；

获取所述待背诵诗词的语音；

对所述语音进行预处理；

将预处理后的所述语音上传至服务器。

上述为本实施例的一种存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的诗词背诵评测方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述诗词背诵评测方法的技术方案的描述。

本实施例提供的一种诗词背诵评测方法及***、一种终端及存储介质有以下优点：

1.成本低，针对古诗词背诵的专用语音识别技术，训练方法相对简单、训练需要的数据量相对较小、训练时间短；

2.速度快，对古诗词背诵进行实时的检测与反馈，语音识别的倍速小于1；

3.效果好，在各种智能手机设备(包括但不限于各种Android手机设备、iphone手机设备)，各种噪声环境(包括但不限于安静环境、马路、地铁、咖啡厅等)下，古诗词背诵检测准确率均在97％以上。

图7是本申请实施例提供的诗词背诵评测方法的电子设备的硬件结构示意图，如图7所示，该电子设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。

执行诗词背诵评测方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线750连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的诗词背诵评测方法对应的程序指令/模块(例如，附图6所示的各个模块)。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的诗词背诵评测方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据诗词背诵评测***的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至诗词背诵评测***。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息，以及产生与诗词背诵评测***的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的诗词背诵评测方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：掌上电脑(PDA Personal DigitalAssistant)、移动互联网设备(MID，Mobile Internet Device)和超级移动个人计算机(UMPC，Ultra-mobile Personal Computer)设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子***。

在本申请所提供的多个实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。例如，以上所描述的检测***的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口，模块的间接耦合或通信链接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本发明优选实施例只是用于帮助阐述本发明。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种诗词背诵评测方法，其特征在于，包括：

客户端确定待背诵诗词；

获取所述待背诵诗词的语音；

对所述语音进行预处理；

将预处理后的所述语音上传至服务器；

使用所述服务器中预先建立的识别模型将所述语音转换成文字；

将所述得分反馈至客户端。

2.根据权利要求1所述的诗词背诵评测方法，其特征在于，对所述语音进行预处理包括：

对所述语音分片；

将分片的所述语音进行压缩。

3.根据权利要求1所述的诗词背诵评测方法，其特征在于，将预处理后的所述语音上传至服务器后还包括：

对上传至服务器的所述语音解压缩；

将解压缩后的所述语音进行静音检测。

4.根据权利要求1所述的诗词背诵评测方法，其特征在于，预先建立所述识别模型的步骤包括：

构建初始的语音识别网络，

所述语音识别网络接收语音训练数据；

将接收到的其中一条语音训练数据转换成文字；

若所述误差小于预设阈值，所述语音识别网络训练结束。

5.根据权利要求4所述的诗词背诵评测方法，其特征在于，构造所述语音训练数据包括：

获取原始诗词语音，将所述原始诗词语音作为训练数据；

在所述原始诗词语音中掺杂噪声生成新的训练数据。

6.根据权利要求5所述的诗词背诵评测方法，其特征在于，所述原始诗词语音包括不同音质和/或不同声音特征的诗词语音。

7.根据权利要求5所述的诗词背诵评测方法，其特征在于，所述构造语音训练数据还包括：

8.根据权利要求1所述的诗词背诵评测方法，其特征在于，所述识别模型包括隐马尔可夫模型(Hidden Markov Model，HMM)和/或深度神经网络模型(DNN)。

9.根据权利要求1所述的诗词背诵评测方法，其特征在于，所述使用所述服务器中预先建立的识别模型将所述语音转换成文字，还包括：使用语言模型对转换后的所述文字进行纠错。

10.根据权利要求9所述的诗词背诵评测方法，其特征在于，使用语言模型对转换后的所述文字进行纠错之后，还包括：利用概率模型将转换后的所述文字与所述待背诵诗词的真实文字进行结果对齐。

11.根据权利要求10所述的诗词背诵评测方法，其特征在于，所述概率模型用来判断背诵的诗词内容为顺序背诵、重新背诵或遗漏背诵。

12.根据权利要求11所述的诗词背诵评测方法，其特征在于，利用概率模型将转换后的所述文字与所述待背诵诗词的真实文字进行结果对齐，还包括：

13.一种诗词背诵评测***，其特征在于，包括客户端和服务器，所述客户端包括：

选择模块，用于确定待背诵诗词；

获取模块，用于获取所述待背诵诗词的语音；

预处理模块，用于对所述语音进行预处理；

上传模块，用于将预处理后的所述语音上传至服务器；

所述服务器包括：

反馈模块，用于将所述得分反馈至客户端。

14.根据权利要求13所述的诗词背诵评测***，其特征在于，所述预处理模块包括：

分片模块，用于对所述语音分片；

压缩模块，用于将分片的所述语音进行压缩。

15.根据权利要求13所述的诗词背诵评测***，其特征在于，所述上传模块还包括：

解压模块，用于对上传至服务器的所述语音解压缩；

检测模块，用于将解压缩后的所述语音进行静音检测。

16.根据权利要求13所述的诗词背诵评测***，其特征在于，所述识别模型包括：

识别网络构建模块，用于构建初始的语音识别网络，

接收模块，用于所述语音识别网络接收语音训练数据；

17.根据权利要求16所述的诗词背诵评测***，其特征在于，所述服务器还包括：

18.根据权利要求17所述的诗词背诵评测***，其特征在于，原始诗词语音包括不同音质和/或不同声音特征的诗词语音。

19.根据权利要求17所述的诗词背诵评测***，其特征在于，所述服务器还包括：

20.根据权利要求13所述的诗词背诵评测***，其特征在于，所述识别模型包括隐马尔可夫模型和/或深度神经网络模型。

21.根据权利要求13所述的诗词背诵评测***，其特征在于，所述转换模块包括：纠错模块，用于使用语言模型对转换后的所述文字进行纠错。

22.根据权利要求21所述的诗词背诵评测***，其特征在于，所述纠错模块还包括：对齐模块，用于利用概率模型将转换后的所述文字与所述待背诵诗词的真实文字进行结果对齐。

23.根据权利要求22所述的诗词背诵评测***，其特征在于，所述概率模型用来判断背诵的诗词内容为顺序背诵、重新背诵或遗漏背诵。

24.根据权利要求23所述的诗词背诵评测***，其特征在于，所述对齐模块包括：

25.一种终端，其特征在于，包括处理器和存储器，所述存储器存储有计算机指令，所述处理器调用所述计算机指令并执行以下步骤：

客户端确定待背诵诗词；

获取所述待背诵诗词的语音；

对所述语音进行预处理；

将预处理后的所述语音上传至服务器。

26.一种存储介质，其特征在于，存储有计算机指令，所述计算机指令执行以下步骤：

客户端确定待背诵诗词；

获取所述待背诵诗词的语音；

对所述语音进行预处理；

将预处理后的所述语音上传至服务器。