CN116741148A - 一种基于数字孪生的语音识别*** - Google Patents

一种基于数字孪生的语音识别*** Download PDF

Info

Publication number
CN116741148A
CN116741148A CN202310615054.8A CN202310615054A CN116741148A CN 116741148 A CN116741148 A CN 116741148A CN 202310615054 A CN202310615054 A CN 202310615054A CN 116741148 A CN116741148 A CN 116741148A
Authority
CN
China
Prior art keywords
model
data
voice
voice recognition
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310615054.8A
Other languages
English (en)
Inventor
盛华军
姜阳奇
杨立
沈驰峰
叶均
邹家辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xiaoshan International Airport Co ltd
Original Assignee
Hangzhou Xiaoshan International Airport Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xiaoshan International Airport Co ltd filed Critical Hangzhou Xiaoshan International Airport Co ltd
Priority to CN202310615054.8A priority Critical patent/CN116741148A/zh
Publication of CN116741148A publication Critical patent/CN116741148A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及语音识别技术领域,具体公开了一种基于数字孪生的语音识别***,包括数据收集模块、数据处理模块、信息提取模块、数字孪生模型建立模块、模型评估模块以及***维护模块;本发明通过梅尔频率倒谱系数法对语音信息进行特征提取,通过在虚拟环境中构建一个语音数字模型,将计算获得梅尔频率倒谱系数以及语音识别库中的数据输入至语音数字模型中进行训练,并且评估语音识别模型的性能,利用梅尔频率倒谱系数以及语音识别库中的数据建立语音识信息提取别准确性评估模型,通过实时收集数据帮助实现对语音识别不准确的分析,便于提前采取维护措施,降低识别不准确发生的概率和影响。

Description

一种基于数字孪生的语音识别***
技术领域
本发明涉及语音识别技术领域,更具体地说,本发明涉及一种基于数字孪生的语音识别***。
背景技术
语音识别指的是通过计算机将语音自动转换成文字的技术,它是一种基于语音的人与机器之间的交互方式,在生产和生活中有着非常广泛的应用。现在语音识别已经被广泛地应用于智能家居、智能车辆以及智能客服机器人方面,语音识别技术会深入到学习、生活和工作的每一个方面。而现有技术中常发生语音识别不准确的情况,对语音语音识别准确性进行评估,并分析对语音识别不准确的主要影响因素迫在眉睫。为了解决上述问题,现提供一种技术方案。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种基于数字孪生的语音识别***,是通过梅尔频率倒谱系数(MFCC)法对语音信息进行特征提取,通过在虚拟环境中构建一个语音数字模型,将计算获得梅尔频率倒谱系数以及语音识别库中的数据输入至语音数字模型中进行训练,并且评估语音识别模型的性能,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于数字孪生的语音识别***,包括数据收集模块、数据处理模块、信息提取模块、数字孪生模型建立模块、模型评估模块以及***维护模块,数据收集模块用于通过麦克风、声音传感器以及减加速传感器收集语音信息,并提取语音信息中的语种指标、环境指标、音色指标、声音检测质量以及语速,生成语音识别库;数据处理模块用于对语音信息进行预处理,包括降噪、滤波,对语音识别库进行归一化处理;信息提取模块通过梅尔频率倒谱系数法对语音信息进行特征提取;数字孪生模型建立模块用于在虚拟环境中构建一个语音数字模型,将梅尔频率倒谱系数以及语音识别库中的数据输入至语音数字模型中进行训练;模型评估模块用于评估语音识别模型的性能,并利用梅尔频率倒谱系数以及语音识别库中的数据建立语音识别准确性评估模型;***维护模块用于实时更新数字孪生模型。
作为本发明进一步的方案,信息提取模块通过梅尔频率倒谱系数(MFCC)法对语音信息进行特征提取,对语音信息进行特征提取的步骤为:
步骤一,将语音信息分割成等时长的短时帧,通过滤波器对语音信号进行滤波,去除频率范围的低噪声成分;
步骤二,将加窗后的短时帧转换为较低的采样率,在降采样后的短时帧上应用预加重滤波器;
步骤三,将预加重后的短时帧通过梅尔滤波器组进行变换,利用梅尔频率域变换将语音信息从时域转换到梅尔频率域;
步骤四,对梅尔频率域变换后的信号进行离散余弦变换得到梅尔频率倒谱系数,作为语音识别中的特征向量。
作为本发明进一步的方案,数字孪生模型建立模块是构建一个基于深度学习的卷积神经网络模型用于学习语音特征与对应语音文本之间的映射关系,具体过程如下:
a.输入层:
输入数据:MFCC特征矩阵,维度为时间步长,MFCC系数数量;
输入数据预处理:对MFCC特征进行标准化处理,减去均值并除以标准差;
b.卷积层:
卷积操作:使用多个卷积核对输入数据进行卷积操作,卷积核的大小为(卷积核宽度,卷积核高度,输入通道数);
卷积核参数:卷积核的权重参数和偏置项参数,通过随机初始化或预训练模型进行初始化;
激活函数:对卷积层的输出进行非线性变换,激活函数包括ReLU、LeakyReLU;
c.池化层:
下采样操作:对卷积层的输出进行池化操作,使用最大池化或平均池化;
池化窗口大小和步幅:根据需求设置池化窗口的大小和步幅,以控制特征图的尺寸减小程度;
d.全连接层:
特征连接:将池化层输出的特征展开成一维向量,并连接到全连接层;
全连接层参数:全连接层的权重参数和偏置项参数,通过随机初始化或预训练模型进行初始化;
激活函数:对全连接层的输出进行非线性变换,激活函数包括ReLU、LeakyReLU;
e.输出层:
Softmax函数:将全连接层的输出通过Softmax函数进行映射,将输出转化为各个类别的概率分布;
损失函数:选择交叉熵损失函数用于衡量预测结果与真实标签之间的差异。
作为本发明进一步的方案,数字孪生模型构建后将计算得到的MFCC特征以及语音识别库中的数据输入到语音数字模型中进行训练。包括以下过程:
输入数据:将标准化后的MFCC特征矩阵作为输入数据;
正向传播:将输入数据通过卷积层、池化层和全连接层,得到最终的输出结果;
损失计算:将模型的输出结果与真实标签进行比较,计算损失值;
反向传播:根据损失值,使用反向传播算法计算梯度并更新模型参数;
重复迭代:重复进行正向传播、损失计算和反向传播,直到达到指定的迭代次数或收敛条件。
将梅尔频率倒谱系数以及语音识别库中的数据输入至语音数字模型中进行训练,其中,语音数字模型训练过程的具体步骤为:
步骤S1,对梅尔频率倒谱系数以及语音识别库中的数据归为语音数据集,对语音数据集进行数据清洗,移除重复、不完整以及错误的数据;
步骤S2,将语音数据集划分为训练集、验证集和测试集,其中,训练集占70%,验证集占20%,测试集占10%;
步骤S3,通过支持向量机模型选择对语音识别影响最大的特征;
步骤S4,通过贝叶斯优化选择模型的超参数,包括模型学习率、神经网络层数和大小;
步骤S5,将输入数据通过模型的各个层,预测输出数据。
作为本发明进一步的方案,模型评估模块用于评估语音识别模型的性能,具体过程如下:
a.选择评估指标:根据具体任务需求,选择评估指标来衡量模型的性能;常见的指标包括准确率、召回率、精确率、F1分数;
b.评估过程:使用独立于训练数据的评估数据集,将其输入已训练好的语音数字模型,根据模型的预测结果和真实标签计算评估指标;
测试集准备:将一部分数据集作为测试集,用于评估训练好的模型的性能;
输入数据:将测试集中的MFCC特征矩阵作为输入数据;
正向传播:将输入数据通过卷积层、池化层和全连接层,得到最终的输出结果;
预测结果:对输出结果进行后处理,使用Softmax函数将输出转化为概率分布,并根据预测概率选择最终的预测类别;
真实标签:获取测试集中样本的真实标签;
性能指标计算:根据预测结果和真实标签,计算性能指标:准确率、精确率、召回率、F1值,用于评估模型的分类性能;
作为本发明进一步的方案,***维护模块包括:
a.实时数据收集:***实时收集语音识别的数据,包括输入语音和对应的识别结果;
b.分析与维护:通过对实时数据的分析,检测和识别语音识别的不准确情况,以便及时采取维护措施,提高***的准确性和可靠性;
c.维护措施:根据实时数据分析的结果,确定针对识别不准确的情况采取的维护措施,包括调整模型参数、重新训练模型、更新语音识别库数据、优化特征提取方法;
d.维护周期:根据***需求和性能要求,确定维护的周期性。可以是定期的维护,也可以是根据实时数据分析的结果进行自动化维护。
在进行语音识别准确性评估时,各项评估因子存在以下的数值变化规则:
情况一:梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值在设定的阈值范围内、语种指标和患者标准语种指标差值的绝对值在设定的阈值范围内、环境指标和环境指标差值的绝对值在设定的阈值范围内、音色指标和标准音色指标差值的绝对值在设定的阈值范围内、声音检测质量和标准声音检测质量差值的绝对值在设定的阈值范围内,语速和标准语速差值的绝对值较小时,语音识别准确性数值较大,语速和标准语速差值的绝对值较大时,语音识别准确性较小;
情况二:语速和标准语速差值的绝对值在设定的阈值范围内、语种指标和患者标准语种指标差值的绝对值在设定的阈值范围内、环境指标和环境指标差值的绝对值在设定的阈值范围内、音色指标和标准音色指标差值的绝对值在设定的阈值范围内、声音检测质量和标准声音检测质量差值的绝对值在设定的阈值范围内,梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值较小时,语音识别准确性数值较小,梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值较大时,语音识别准确性较大;
情况三:语速和标准语速差值的绝对值在设定的阈值范围内、梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值在设定的阈值范围内、环境指标和环境指标差值的绝对值在设定的阈值范围内、音色指标和标准音色指标差值的绝对值在设定的阈值范围内、声音检测质量和标准声音检测质量差值的绝对值在设定的阈值范围内,语种指标和患者标准语种指标差值的绝对值较小时,语音识别准确性数值较大,语种指标和患者标准语种指标差值的绝对值较大时,语音识别准确性较小;
情况四:语速和标准语速差值的绝对值在设定的阈值范围内、梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值在设定的阈值范围内、语种指标和患者标准语种指标差值的绝对值在设定的阈值范围内、音色指标和标准音色指标差值的绝对值在设定的阈值范围内、声音检测质量和标准声音检测质量差值的绝对值在设定的阈值范围内,环境指标和环境指标差值的绝对值较小时,语音识别准确性数值较小,环境指标和环境指标差值的绝对值较大时,语音识别准确性较大;
情况五:语速和标准语速差值的绝对值在设定的阈值范围内、梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值在设定的阈值范围内、语种指标和患者标准语种指标差值的绝对值在设定的阈值范围内、环境指标和环境指标差值的绝对值在设定的阈值范围内、声音检测质量和标准声音检测质量差值的绝对值在设定的阈值范围内,音色指标和标准音色指标差值的绝对值较小时,语音识别准确性数值较小,音色指标和标准音色指标差值的绝对值较大时,语音识别准确性较大;
情况五:语速和标准语速差值的绝对值在设定的阈值范围内、梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值在设定的阈值范围内、语种指标和患者标准语种指标差值的绝对值在设定的阈值范围内、环境指标和环境指标差值的绝对值在设定的阈值范围内、音色指标和标准音色指标差值的绝对值在设定的阈值范围内,声音检测质量和标准声音检测质量差值的绝对值较小时,语音识别准确性数值较小,声音检测质量和标准声音检测质量差值的绝对值较大时,语音识别准确性较大。
作为本发明进一步的方案,模型评估模块利用训练后的梅尔频率倒谱系数以及语音识别库中的数据建立语音识别准确性评估模型,语音识别准确性评估模型的评估因子包括梅尔频率倒谱系数、语种指标、环境指标、音色指标、声音检测质量以及语速,其中,语音识别准确性与梅尔频率倒谱系数正相关,与语种指标负相关,与环境指标正相关,与音色指标正相关,与声音检测质量正相关,与语速负相关,语音识别准确性评估模型的评估机制为:
式中:WI为语音识别准确性,α为梅尔频率倒谱系数,QZ为语种指标,QC为环境指标,QA为音色指标,QD为声音检测质量,QT为语速。
作为本发明进一步的方案,语音识别准确性评估模型的环境指标根据设备性能指标、网络延迟指标以及背景噪声音量建立评估机制,评估公式为:
式中:TI为设备性能指标、TM为网络延迟指标,TN为背景噪声音量。
本发明一种基于数字孪生的语音识别***的技术效果和优点:
本发明是通过梅尔频率倒谱系数法对语音信息进行特征提取,通过在虚拟环境中构建一个语音数字模型,将计算获得梅尔频率倒谱系数以及语音识别库中的数据输入至语音数字模型中进行训练,并且评估语音识别模型的性能,利用梅尔频率倒谱系数以及语音识别库中的数据建立语音识别准确性评估模型,通过实时收集数据帮助实现对语音识别不准确的分析,便于提前采取维护措施,降低识别不准确发生的概率和影响。并且有助于在识别过程中及时发现和解决问题,提高识别准确性。
附图说明
图1为本发明一种基于数字孪生的语音识别***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于数字孪生的语音识别***,包括数据收集模块、数据处理模块、信息提取模块、数字孪生模型建立模块、模型评估模块以及***维护模块,数据收集模块用于通过麦克风、声音传感器以及减加速传感器收集语音信息,并提取语音信息中的语种指标、环境指标、音色指标、声音检测质量以及语速,生成语音识别库;数据处理模块用于对语音信息进行预处理,包括降噪、滤波,对语音识别库进行归一化处理;信息提取模块通过梅尔频率倒谱系数法对语音信息进行特征提取;数字孪生模型构建:构建一个基于深度学习的卷积神经网络模型用于学习语音特征与对应语音文本之间的映射关系,具体过程如下:
a.输入层:
输入数据:MFCC特征矩阵,维度为时间步长,MFCC系数数量;
输入数据预处理:对MFCC特征进行标准化处理,减去均值并除以标准差;
b.卷积层:
卷积操作:使用多个卷积核对输入数据进行卷积操作,卷积核的大小为(卷积核宽度,卷积核高度,输入通道数);
卷积核参数:卷积核的权重参数和偏置项参数,通过随机初始化或预训练模型进行初始化;
激活函数:对卷积层的输出进行非线性变换,激活函数包括ReLU、LeakyReLU;
c.池化层:
下采样操作:对卷积层的输出进行池化操作,使用最大池化或平均池化;
池化窗口大小和步幅:根据需求设置池化窗口的大小和步幅,以控制特征图的尺寸减小程度;
d.全连接层:
特征连接:将池化层输出的特征展开成一维向量,并连接到全连接层;
全连接层参数:全连接层的权重参数和偏置项参数,通过随机初始化或预训练模型进行初始化;
激活函数:对全连接层的输出进行非线性变换,激活函数包括ReLU、LeakyReLU;
e.输出层:
Softmax函数:将全连接层的输出通过Softmax函数进行映射,将输出转化为各个类别的概率分布;
损失函数:选择交叉熵损失函数用于衡量预测结果与真实标签之间的差异;
数字孪生模型构建后将计算得到的MFCC特征以及语音识别库中的数据输入到语音数字模型中进行训练:
a.定义损失函数:交叉熵损失函数用于衡量模型输出与实际标签之间的差异;对于语音识别任务,假设有N个类别(例如N个不同的语音标签),则交叉熵损失函数的计算公式为:
其中,y i表示实际标签的概率分布(one-hot编码),而表示模型的预测概率分布;
b.优化算法:使用随机梯度下降或Adam优化算法,通过计算损失函数的梯度,更新模型的权重和参数,使其向着损失函数最小化的方向进行调整;
c.反向传播:使用反向传播算法,从输出层到输入层计算每个参数的梯度,并更新参数的值;这个过程包括前向传播(计算损失)和反向传播(计算梯度和参数更新)两个步骤;
d.迭代训练:将训练数据输入模型,进行多次迭代训练,直到达到预定的停止条件(如达到最大迭代次数或损失函数收敛);
模型评估模块用于评估语音识别模型的性能,并利用梅尔频率倒谱系数以及语音识别库中的数据建立语音识别准确性评估模型;
***维护模块用于实时更新数字孪生模型。
本实施例中使用梅尔频率倒谱系数(MFCC)法对语音信息进行特征提取。MFCC是一种常用的语音特征表示方法,信息提取过程如下:
a.对语音信号进行分帧:将语音信号分成短时帧,通常每帧持续时间为20-40毫秒;
b.对每帧应用汉明窗口:对每帧的信号应用汉明窗口函数,以减少频谱泄漏的影响;
c.进行快速傅里叶变换(FFT):对每帧信号进行FFT变换,将时域信号转换为频域信号;
d.计算功率谱密度:对每帧的频域信号取模的平方,得到功率谱密度;
e.应用滤波器组:将功率谱密度与一组三角滤波器进行卷积运算,以提取梅尔频率特征;
f.对数压缩:对每个滤波器组的能量值取对数,以减小幅度的动态范围;
g.应用离散余弦变换(DCT):对每个滤波器组的对数能量值应用DCT变换,得到MFCC特征系数。
本实施例中的将梅尔频率倒谱系数以及语音识别库中的数据输入至语音数字模型中进行训练,其中,语音数字模型训练过程的具体步骤为:
步骤S1,对梅尔频率倒谱系数以及语音识别库中的数据归为语音数据集,对语音数据集进行数据清洗,移除重复、不完整以及错误的数据;
步骤S2,将语音数据集划分为训练集、验证集和测试集,其中,训练集占70%,验证集占20%,测试集占10%;
步骤S3,通过支持向量机模型选择对语音识别影响最大的特征;
步骤S4,通过贝叶斯优化选择模型的超参数,包括模型学习率、神经网络层数和大小;
步骤S5,将输入数据通过模型的各个层,预测输出数据。
本实施例中的模型评估模块用于评估语音识别模型的性能,模型评估模块用于评估语音识别模型的性能,具体过程如下:
a.选择评估指标:根据具体任务需求,选择评估指标来衡量模型的性能;常见的指标包括准确率、召回率、精确率、F1分数;
b.评估过程:使用独立于训练数据的评估数据集,将其输入已训练好的语音数字模型,根据模型的预测结果和真实标签计算评估指标;
测试集准备:将一部分数据集作为测试集,用于评估训练好的模型的性能;
输入数据:将测试集中的MFCC特征矩阵作为输入数据;
正向传播:将输入数据通过卷积层、池化层和全连接层,得到最终的输出结果;
预测结果:对输出结果进行后处理,使用Softmax函数将输出转化为概率分布,并根据预测概率选择最终的预测类别;
真实标签:获取测试集中样本的真实标签;
性能指标计算:根据预测结果和真实标签,计算性能指标:准确率、精确率、召回率、F1值,用于评估模型的分类性能。
本实施例中的***维护模块包括:
a.实时数据收集:***实时收集语音识别的数据,包括输入语音和对应的识别结果;
b.分析与维护:通过对实时数据的分析,检测和识别语音识别的不准确情况,以便及时采取维护措施,提高***的准确性和可靠性;
c.维护措施:根据实时数据分析的结果,确定针对识别不准确的情况采取的维护措施,包括调整模型参数、重新训练模型、更新语音识别库数据、优化特征提取方法;
d.维护周期:根据***需求和性能要求,确定维护的周期性。可以是定期的维护,也可以是根据实时数据分析的结果进行自动化维护。
在进行语音识别准确性评估时,各项评估因子存在以下的数值变化规则:
情况一:梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值在设定的阈值范围内、语种指标和患者标准语种指标差值的绝对值在设定的阈值范围内、环境指标和环境指标差值的绝对值在设定的阈值范围内、音色指标和标准音色指标差值的绝对值在设定的阈值范围内、声音检测质量和标准声音检测质量差值的绝对值在设定的阈值范围内,语速和标准语速差值的绝对值较小时,语音识别准确性数值较大,语速和标准语速差值的绝对值较大时,语音识别准确性较小;
情况二:语速和标准语速差值的绝对值在设定的阈值范围内、语种指标和患者标准语种指标差值的绝对值在设定的阈值范围内、环境指标和环境指标差值的绝对值在设定的阈值范围内、音色指标和标准音色指标差值的绝对值在设定的阈值范围内、声音检测质量和标准声音检测质量差值的绝对值在设定的阈值范围内,梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值较小时,语音识别准确性数值较小,梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值较大时,语音识别准确性较大;
情况三:语速和标准语速差值的绝对值在设定的阈值范围内、梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值在设定的阈值范围内、环境指标和环境指标差值的绝对值在设定的阈值范围内、音色指标和标准音色指标差值的绝对值在设定的阈值范围内、声音检测质量和标准声音检测质量差值的绝对值在设定的阈值范围内,语种指标和患者标准语种指标差值的绝对值较小时,语音识别准确性数值较大,语种指标和患者标准语种指标差值的绝对值较大时,语音识别准确性较小;
情况四:语速和标准语速差值的绝对值在设定的阈值范围内、梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值在设定的阈值范围内、语种指标和患者标准语种指标差值的绝对值在设定的阈值范围内、音色指标和标准音色指标差值的绝对值在设定的阈值范围内、声音检测质量和标准声音检测质量差值的绝对值在设定的阈值范围内,环境指标和环境指标差值的绝对值较小时,语音识别准确性数值较小,环境指标和环境指标差值的绝对值较大时,语音识别准确性较大;
情况五:语速和标准语速差值的绝对值在设定的阈值范围内、梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值在设定的阈值范围内、语种指标和患者标准语种指标差值的绝对值在设定的阈值范围内、环境指标和环境指标差值的绝对值在设定的阈值范围内、声音检测质量和标准声音检测质量差值的绝对值在设定的阈值范围内,音色指标和标准音色指标差值的绝对值较小时,语音识别准确性数值较小,音色指标和标准音色指标差值的绝对值较大时,语音识别准确性较大;
情况五:语速和标准语速差值的绝对值在设定的阈值范围内、梅尔频率倒谱系数和标准梅尔频率倒谱系数差值的绝对值在设定的阈值范围内、语种指标和患者标准语种指标差值的绝对值在设定的阈值范围内、环境指标和环境指标差值的绝对值在设定的阈值范围内、音色指标和标准音色指标差值的绝对值在设定的阈值范围内,声音检测质量和标准声音检测质量差值的绝对值较小时,语音识别准确性数值较小,声音检测质量和标准声音检测质量差值的绝对值较大时,语音识别准确性较大。
本实施例中的模型评估模块利用训练后的梅尔频率倒谱系数以及语音识别库中的数据建立语音识别准确性评估模型,语音识别准确性评估模型的评估因子包括梅尔频率倒谱系数、语种指标、环境指标、音色指标、声音检测质量以及语速,其中,语音识别准确性与梅尔频率倒谱系数正相关,与语种指标负相关,与环境指标正相关,与音色指标正相关,与声音检测质量正相关,与语速负相关,语音识别准确性评估模型的评估机制为:
式中:WI为语音识别准确性,α为梅尔频率倒谱系数,QZ为语种指标,QC为环境指标,QA为音色指标,QD为声音检测质量,QT为语速。
本实施例中的语音识别准确性评估模型的环境指标根据设备性能指标、网络延迟指标以及背景噪声音量建立评估机制,评估公式为:
式中:TI为设备性能指标、TM为网络延迟指标,TN为背景噪声音量。
综上所述,通过梅尔频率倒谱系数法对语音信息进行特征提取,通过在虚拟环境中构建一个语音数字模型,将计算获得梅尔频率倒谱系数以及语音识别库中的数据输入至语音数字模型中进行训练,并且评估语音识别模型的性能,利用梅尔频率倒谱系数以及语音识别库中的数据建立语音识别准确性评估模型,通过实时收集数据帮助实现对语音识别不准确的分析,便于提前采取维护措施,降低识别不准确发生的概率和影响,并且有助于在识别过程中及时发现和解决问题,提高识别准确性。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种基于数字孪生的语音识别***,包括数据收集模块、数据处理模块、信息提取模块、数字孪生模型建立模块、模型评估模块以及***维护模块,其特征在于,数据处理模块用于对语音信息进行预处理,包括降噪、滤波,对语音识别库进行归一化处理;信息提取模块通过梅尔频率倒谱系数法对语音信息进行特征提取;数字孪生模型建立模块用于在虚拟环境中构建一个语音数字模型,将梅尔频率倒谱系数以及语音识别库中的数据输入至语音数字模型中进行训练;模型评估模块利用训练后的梅尔频率倒谱系数以及语音识别库中的数据建立语音识别准确性评估模型,语音识别准确性评估模型的评估因子包括梅尔频率倒谱系数、语种指标、环境指标、音色指标、声音检测质量以及语速,语音识别准确性评估模型的评估机制为:
式中:WI为语音识别准确性,α为梅尔频率倒谱系数,QZ为语种指标,QC为环境指标,QA为音色指标,QD为声音检测质量,QT为语速。
2.根据权利要求1所述的一种基于数字孪生的语音识别***,其特征在于,数字孪生模型建立模块是构建一个基于深度学习的卷积神经网络模型用于学习语音特征与对应语音文本之间的映射关系,具体过程如下:
a.输入层:
输入数据:MFCC特征矩阵,维度为时间步长,MFCC系数数量;
输入数据预处理:对MFCC特征进行标准化处理,减去均值并除以标准差;
b.卷积层:
卷积操作:使用多个卷积核对输入数据进行卷积操作;
卷积核参数:卷积核的权重参数和偏置项参数,通过随机初始化或预训练模型进行初始化;
激活函数:对卷积层的输出进行非线性变换;
c.池化层:
下采样操作:对卷积层的输出进行池化操作,使用最大池化或平均池化;
池化窗口大小和步幅:根据需求设置池化窗口的大小和步幅,以控制特征图的尺寸减小程度;
d.全连接层:
特征连接:将池化层输出的特征展开成一维向量,并连接到全连接层;
全连接层参数:全连接层的权重参数和偏置项参数,通过随机初始化或预训练模型进行初始化;
激活函数:对全连接层的输出进行非线性变换;
e.输出层:
Softmax函数:将全连接层的输出通过Softmax函数进行映射,将输出转化为各个类别的概率分布;
损失函数:选择交叉熵损失函数用于衡量预测结果与真实标签之间的差异。
3.根据权利要求1所述的一种基于数字孪生的语音识别***,其特征在于,数据收集模块用于通过麦克风、声音传感器以及减加速传感器收集语音信息,并提取语音信息中的语种指标、环境指标、音色指标、声音检测质量以及语速,生成语音识别库;信息提取模块通过梅尔频率倒谱系数法对语音信息进行特征提取,对语音信息进行特征提取的步骤为:
步骤一,将语音信息分割成等时长的短时帧,通过滤波器对语音信号进行滤波,去除频率范围的低噪声成分;
步骤二,将加窗后的短时帧转换为采样率,在降采样后的短时帧上应用预加重滤波器;
步骤三,将预加重后的短时帧通过梅尔滤波器组进行变换,利用梅尔频率域变换将语音信息从时域转换到梅尔频率域;
步骤四,对梅尔频率域变换后的信号进行离散余弦变换得到梅尔频率倒谱系数,作为语音识别中的特征向量。
4.根据权利要求1所述的一种基于数字孪生的语音识别***,其特征在于,将梅尔频率倒谱系数以及语音识别库中的数据输入至语音数字模型中进行训练,其中,语音数字模型训练过程的具体步骤为:
步骤S1,对梅尔频率倒谱系数以及语音识别库中的数据归为语音数据集,对语音数据集进行数据清洗,移除重复、不完整以及错误的数据;
步骤S2,将语音数据集划分为训练集、验证集和测试集,其中,训练集占70%,验证集占20%,测试集占10%;
步骤S3,通过支持向量机模型选择对语音识别影响最大的特征;
步骤S4,通过贝叶斯优化选择模型的超参数,包括模型学习率、神经网络层数和大小;
步骤S5,将输入数据通过模型的各个层,预测输出数据。
5.根据权利要求1所述的一种基于数字孪生的语音识别***,其特征在于,模型评估模块用于评估语音识别模型的性能,具体过程如下:
a.选择评估指标:根据具体任务需求,选择评估指标来衡量模型的性能;常见的指标包括准确率、召回率、精确率、F1分数;
b.评估过程:使用独立于训练数据的评估数据集,将其输入已训练好的语音数字模型,根据模型的预测结果和真实标签计算评估指标;
测试集准备:将一部分数据集作为测试集,用于评估训练好的模型的性能;
输入数据:将测试集中的MFCC特征矩阵作为输入数据;
正向传播:将输入数据通过卷积层、池化层和全连接层,得到最终的输出结果;
预测结果:对输出结果进行后处理,使用Softmax函数将输出转化为概率分布,并根据预测概率选择最终的预测类别;
真实标签:获取测试集中样本的真实标签;
性能指标计算:根据预测结果和真实标签,计算性能指标:准确率、精确率、召回率、F1值,用于评估模型的分类性能。
6.根据权利要求1所述的一种基于数字孪生的语音识别***,其特征在于,语音识别准确性评估模型的环境指标根据设备性能指标、网络延迟指标以及背景噪声音量建立评估机制,评估公式为:
式中:TI为设备性能指标、TM为网络延迟指标,TN为背景噪声音量。
7.根据权利要求2所述的一种基于数字孪生的语音识别***,其特征在于,数字孪生模型构建后将计算得到的MFCC特征以及语音识别库中的数据输入到语音数字模型中进行训练:
a.定义损失函数:交叉熵损失函数用于衡量模型输出与实际标签之间的差异;对于语音识别任务,假设有N个类别,则交叉熵损失函数的计算公式为:
其中,yi表示实际标签的概率分布,而表示模型的预测概率分布;
b.优化算法:使用随机梯度下降或Adam优化算法,通过计算损失函数的梯度,更新模型的权重和参数,使其向着损失函数最小化的方向进行调整;
c.反向传播:使用反向传播算法,从输出层到输入层计算每个参数的梯度,并更新参数的值;这个过程包括前向传播和反向传播两个步骤;
d.迭代训练:将训练数据输入模型,进行多次迭代训练,直到达到预定的停止条件。
8.根据权利要求1所述的一种基于数字孪生的语音识别***,其特征在于,***维护模块用于实时更新数字孪生模型;***维护模块包括:
a.实时数据收集:***实时收集语音识别的数据,包括输入语音和对应的识别结果;
b.分析与维护:通过对实时数据的分析,检测和识别语音识别的不准确情况;
c.维护措施:根据实时数据分析的结果,确定针对识别不准确的情况采取的维护措施,包括调整模型参数、重新训练模型、更新语音识别库数据、优化特征提取方法;
d.维护周期:根据***需求和性能要求,确定维护的周期性。
CN202310615054.8A 2023-05-29 2023-05-29 一种基于数字孪生的语音识别*** Pending CN116741148A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310615054.8A CN116741148A (zh) 2023-05-29 2023-05-29 一种基于数字孪生的语音识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310615054.8A CN116741148A (zh) 2023-05-29 2023-05-29 一种基于数字孪生的语音识别***

Publications (1)

Publication Number Publication Date
CN116741148A true CN116741148A (zh) 2023-09-12

Family

ID=87917875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310615054.8A Pending CN116741148A (zh) 2023-05-29 2023-05-29 一种基于数字孪生的语音识别***

Country Status (1)

Country Link
CN (1) CN116741148A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316143A (zh) * 2023-11-30 2023-12-29 深圳市金大智能创新科技有限公司 一种基于虚拟人进行人机交互的方法
CN117633480A (zh) * 2024-01-26 2024-03-01 南京捷茂机电工程有限公司 一种运动训练效果的量化评估方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316143A (zh) * 2023-11-30 2023-12-29 深圳市金大智能创新科技有限公司 一种基于虚拟人进行人机交互的方法
CN117633480A (zh) * 2024-01-26 2024-03-01 南京捷茂机电工程有限公司 一种运动训练效果的量化评估方法及***
CN117633480B (zh) * 2024-01-26 2024-04-05 南京捷茂机电工程有限公司 一种运动训练效果的量化评估方法及***

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
Ghahremani et al. Acoustic Modelling from the Signal Domain Using CNNs.
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
CN109378002B (zh) 声纹验证的方法、装置、计算机设备和存储介质
CN116741148A (zh) 一种基于数字孪生的语音识别***
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类***及方法
CN101751921A (zh) 一种在训练数据量极少条件下的实时语音转换方法
CN113707176A (zh) 一种基于声信号及深度学习技术的变压器故障检测方法
CN110942766A (zh) 音频事件检测方法、***、移动终端及存储介质
CN115101076B (zh) 一种基于多尺度通道分离卷积特征提取的说话人聚类方法
CN112599134A (zh) 一种基于声纹识别的变压器声音事件检测方法
CN111986699A (zh) 基于全卷积网络的声音事件检测方法
CN111933148A (zh) 基于卷神经网络的年龄识别方法、装置及终端
CN112908344A (zh) 一种鸟鸣声智能识别方法、装置、设备和介质
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
CN115758082A (zh) 一种轨道交通变压器故障诊断方法
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和***
Karthikeyan Adaptive boosted random forest-support vector machine based classification scheme for speaker identification
Elbarougy Speech emotion recognition based on voiced emotion unit
CN117219124A (zh) 一种基于深度神经网络的开关柜声纹故障检测方法
CN112329819A (zh) 基于多网络融合的水下目标识别方法
CN116884435A (zh) 一种基于音频提示学习的声音事件检测方法及装置
CN115064175A (zh) 一种说话人识别方法
CN112735477A (zh) 语音情感分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination