CN113808573B - 基于混合域注意力与时序自注意力的方言分类方法及*** - Google Patents
基于混合域注意力与时序自注意力的方言分类方法及*** Download PDFInfo
- Publication number
- CN113808573B CN113808573B CN202110899525.3A CN202110899525A CN113808573B CN 113808573 B CN113808573 B CN 113808573B CN 202110899525 A CN202110899525 A CN 202110899525A CN 113808573 B CN113808573 B CN 113808573B
- Authority
- CN
- China
- Prior art keywords
- dialect
- voice
- time sequence
- attention
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013145 classification model Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000002372 labelling Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims abstract description 8
- 238000009432 framing Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims description 13
- 238000012512 characterization method Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000005070 sampling Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241001575999 Hakka Species 0.000 description 1
- 235000016278 Mentha canadensis Nutrition 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于混合域注意力与时序自注意力的方言分类方法及***,获取N个方言语音段;将N个方言语音段进行标注得到方言标注语音数据集,数据集划分训练集、验证集与测试集;每个方言语音段进行分帧加窗变,得到该方言语音段对应的梅尔谱图,对方言语音段进行数据切片,获得不同切片对应的梅尔谱图,并为切片图谱进行位置编码;构建基于混合域注意力与时序自注意力的方言分类模型;将位置编码的切片图谱的顺序打乱后,输入方言分类模型进行迭代训练,得到训练后的方言分类模型;待分类语音段输入训练好的方言分类模型,对语音段的方言种类标签进行预测。本发明所述方法能有效增强网络对方言语音声谱区分性特征的提取能力。
Description
技术领域
本发明涉及语音处理领域,具体涉及基于混合域注意力与时序自注意力的方言分类方法及***。
背景技术
语音识别使得与机器的交流更符合人的自然习惯,在学术界及工业界均可与其他技术深度结合。但鉴于目前语料库数据量限制等其他因素,业界语音识别企业如科大讯飞目前只能对某一特定类别做到精准识别,其他类别语音输入则经常会得到一段价值不大的乱码,所以在实际使用前常会在语音识别前加入语种识别进行过滤。而汉方言承载了厚重的地方文化,具有强烈的民族凝聚力和深厚的人文价值。因此,研究方言分类方法能提升模型对方言种类的识别性能,助力方言保护事业。
目前对语种类别的标注更多还是通过人工标注,虽然能保证获得高质量的语音标签,但要求标注员为该方言类别的母语使用者或非常熟练的使用者,标注成本大,或类似Common Voice使用的非专业志愿用户按类别自行上传录音,但此方式需要默认贡献者存在一定误差需要复审。传统方言分类方法使用手工特征如I-Vector、韵律特征等,以对语音进行表征,并使用SVM、GMM等传统分类技术进行特征融合,而手工特征设计需要相当的语音学知识储备,传统分类技术无法适应现今日益增大的数据集。基于深度学习的方法借助其强大的学习能力自动捕获更具表征的特征,如X-Vector,或学习原始数据间的特征依赖,在我国方言分类领域已有许多应用,但研究更多集中于如何搭建结构更优的模型,与注意力机制结合的研究较少。
综上所述,目前方法存在的问题是:使用手工特征需要专业的方言语音学知识储备,且难以在不同数据集间通用。又因语音数据集本身具有较大价值,数据收集耗时耗钱,导致标注数据稀缺。目前的网络结构的设计上也存在可改进空间,对于在模型上结合注意力的研究不足。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于混合域注意力与时序自注意力的方言分类方法及***。
本发明采用如下技术方案:
一种基于混合域注意力与时序自注意力的方言分类方法,包括:
获取N个方言语音段
将N个方言语音段进行标注得到方言标注语音数据集,数据集划分训练集、验证集与测试集;
每个方言语音段进行分帧加窗,通过快速傅里叶变换与梅尔尺度变换得到该方言语音段对应的梅尔谱图,对方言语音段进行数据切片,获得不同切片对应的梅尔谱图,并为切片图谱进行位置编码;
构建基于混合域注意力与时序自注意力的方言分类模型;
将位置编码的切片图谱的顺序打乱后,输入方言分类模型进行迭代训练,得到训练后的方言分类模型;
待分类语音段输入训练好的方言分类模型,对语音段的方言种类标签进行预测。
进一步,所述获取N个方言语音段之后还包括预处理步骤。
进一步,所述预处理步骤包括先校验语音段的格式参数,再对合规语音进行编码转换,然后对编码转换后的语音段应用音频增强方法,最后进行去静音处理。
进一步,所述去静音处理包括去除静音片段及时长补足。
进一步,音频增强方法是对原始语音信号进行加性噪声抑制,采用谱减法计算噪声估计并运用维纳滤波器抑制估计出的噪声。
进一步,所述对方言语言段进行数据切片,获得不同切片时刻处对应的梅尔谱图,并为切片图谱进行位置编码,具体为:先谱图转换,再数据切片,最后添加正余弦位置信息编码。
进一步,所述数据切片采用自适应切片步长方法,具体是先确定切片数量n,以1s为梯度查找切片时长最佳值,再以最佳时长固定切片时长,以1为梯度查找切片数量最佳值,切片步长tstep_duration根据切片数量n与切片时长tsplit_duration自适应调整,三者关系如下:
进一步,所述基于混合域注意力与时序自注意力的方言分类模型包括语音特征学习层、语音时序建模层、时序特征融合层及全连接层;
所述语音特征学习层由若干个结合混合域注意力机制的一维残差门控卷积块堆叠构成,所述一维残差门控卷积块包括两个残差门控卷积单元、一个混合域注意力结构及一层最大池化层,所述残差门控卷积单元感受域为切片声谱整个频率范围,沿时间轴滑动;
所述语音时序建模层包括双向门控循环单元,对语音特征学习层学习的特征进行时序建模,并在时序特征融合层以多头注意力机制对不同时刻语音特征进行时序融合,得到更好的语音表征,最后将获得的语音表征输入全连接层,通过多层感知器的学习能力得到语音的分类结果。
进一步,所述将位置编码的切片图谱的顺序打乱后,输入方言分类模型进行迭代训练,具体为:
将数据集中按照位置编码的语音段打乱顺序随机分配到训练集、测试集与验证集后,再在训练阶段开始前将训练集中所有切片打乱顺序;
一种实现所述的方言分类方法的***,包括:
采集模块:获取N个方言语音段;
标注模块:对那个方言语音段进行标注,将带语种标签的方言语音标注数据集,数据集划分训练集、验证集与测试集;
编码模块:每个方言语音段进行分帧加窗,通过快速傅里叶变换与梅尔尺度变换得到该方言语音段对应的梅尔谱图,对方言语言段进行数据切片,获得不同切片时刻处对应的梅尔谱图,并为切片图谱进行位置编码;
构建模型模块:构建基于混合域注意力与时序自注意力的方言分类模型;
训练模块:将位置编码的切片图谱的顺序打乱后,输入方言分类模型进行迭代训练,得到训练后的方言分类模型;
预测模块:待分类语音段输入训练好的方言分类模型,对语音段的方言种类标签进行预测。
本发明的有益效果:
1、本发明将语音信号转换为梅尔声谱图作于统一表征,避免手工特征可能引入的问题,并针对语音信号特性使用音频增强、谱图增强两种数据增强方式,以在提升语音信噪比的同时增加标注数据。
2、本发明根据语音特点,提出结合混合域注意力机制与门控机制的一维残差卷积结构。残差网络能缓解深层模型的退化问题,门控机制使得模型在反向传播时能更好地控制梯度信息,混合域注意力机制使用CBAM,能同时关注方言语音的区分性特征在通道域与空间域上的分布,本发明将该结构用于方言语音的时序特征学习。
3、本发明将提出的带混合域注意力机制与门控机制的一维残差卷积结构与带时序自注意力的双向GRU结构结合,结合方式为先在一维卷积结构后***混合域注意力机制CBAM,以增强卷积特征提取能力,再接入具有时序自注意力的双向GRU结构,双向GRU结构得到语音的时序表示,使用多头注意力对时序表示进行学习,能更有效捕获方言区分性特征在时序上的分布,得到更好的方言语音表征。
附图说明
图1为本发明实施例的整体流程图。
图2为本发明实施例基于混合域注意力与时序自注意力的方言分类方法的网络整体结构示意图。
图3为本发明实施例的RGLU-CBAM blocks结构示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1
如图1-图3所示,一种基于混合域注意力与时序自注意力的方言分类方法,包括如下步骤:
S1获取N个方言语音段,并进行预处理。
本实施例1中标注数据集大小为为20344首,每首语音时长16s,待标注类别为普通话、粤语、潮汕话与客家话;
所述预处理包括:先校验语音的格式参数,再对合规语音进行编码转换,然后对转换后的语音应用音频增强方法,最后进行去静音处理。
其中格式参数包括压缩类型、采样率、采样位数、声道数,并将不合格录音的相关信息按出现差异的参数名称分级标注在运行日志中。
合规语音是指符合预定语音输入参数要求,所述参数要求包括输入语音的统一规格,例如采样率、采样位数、最低时长、通道数、带宽等参数检查。
编码转换的输入为录音vox格式,输出为无损wav格式,以8kHz采样频率进行采样或重采样。
音频增强方法是对原始语音信号进行加性噪声抑制,采用谱减法计算噪声估计并运用维纳滤波器抑制估计出的噪声。
去静音处理分为去除静音片段与时长补足两步,其中去除静音片段部分使用结合了混合高斯模型与窗口判定阈值的端点检测,先通过混合高斯模型对语音与噪声进行建模,对比相应概率与门限阈值判断固定短时语音片段为语音段抑或非语音段,再将连续多帧组成一个窗口进行检查,窗口内判定为语音段的帧数量超过门限阈值时,将该窗口内所有帧的状态标记为保留状态,再将窗口移动指定步长,待窗口遍历完全部帧后将所有需要保留的帧合为中间语音结果。当中间语音结果帧数低于去除静音片段前语音帧数时,应用时长补足方法将中间语音结果进行多次重复首尾拼接,直到不低于原帧数后将语音尾部多余部分删除,并将最终结果写入为新语音文件。
S2对预处理后的方言语音段进行类别标注得到方言标注语音数据集,将数据集按照8:1:1划分为训练集、验证集与测试集。
S3每个方言语音段进行分帧加窗,通过快速傅里叶变换与梅尔尺度变换得到该方言语音段对应的梅尔谱图,对方言语音段进行数据切片,获得不同切片对应的梅尔谱图,并为切片图谱进行位置编码。
本实施例1中采样率设置为8kHz,转声谱时采用的傅里叶变换窗口长度为512,窗口跳跃大小为256,频率分箱数为128,切片时长为4s,切片数量为7。
具体为:先谱图转换,是使用python的librosa库包,先将语音文件从wav格式读取,具体伪代码为wavData=librosa.load(filePath),其中filePath指语音文件的存放路径;再将读取的数据采用快速傅里叶变换与梅尔尺度变换为频谱图;
再数据切片,切片方式采用自适应切片步长,先固定切片数量,以1s为梯度查找切片时长最佳值,再以最佳时长固定切片时长,以1为梯度查找切片数量最佳值。
切片步长tstep_duration根据切片数量n与切片时长tsplit_duration自适应调整,三者关系如下:
设置梯度为1s是为了让查找梯度尽可能小别漏掉比较好的值。
最后添加正余弦位置信息编码。
编码方式如下:
S4构建基于混合域注意力与时序自注意力的方言分类模型;
所述方言分类模型包括语音特征学习层、语音时序建模层、时序特征融合层及全连接层。各层参数如表1,其中F为卷积核数量,K为卷积核大小,S为卷积步长,N为2表示门控卷积中两条信息通道中分别对应的两次不同的一维卷积,P为池化的核大小,U1、U2、U3分别为全连接层中第一层、第二层、第三层中神经元数量。
表1基于混合域注意力与时序自注意力的方言模型各层具体参数
其中,语音特征学习层由若干结合混合域注意力机制的一维残差门控卷积块(RGLU-CBAM block)堆叠组成,其通过一维卷积实现对梅尔图谱中时频变化的学习,通过结合混合域注意力机制的一维残差门控卷积块实现声谱局部特征的提取,并以最大池化实现特征压缩;其中RGLU-CBAM块由两个残差门控卷积单元、一个混合域注意力结构CBAM与一层最大池化层组成,其中残差门控卷积单元感受域为切片声谱整个频率范围,沿时间轴滑动。
语音时序建模层使用双向门控循环单元对语音特征学习层习得特征进行时序建模,并在时序特征融合层以多头注意力机制对不同时刻语音特征进行时序融合,得到更好的语音表征,最后将获得的语音表征输入全连接层,通过多层感知器的强大学习能力得到语音的分类结果。
S5将位置编码的切片图谱的顺序打乱后,输入方言分类模型进行迭代训练,得到训练后的方言分类模型;
所述将位置编码的切片图谱的顺序打乱是包括两次打乱,第一次是指数据集中已经位置编码的切片图谱,打乱切片图谱的顺序后分配到训练集、测试集及验证集中,然后在每个集中进行位置编码排序。
第二次打乱,是将训练集中的切片图谱打乱顺序后再输入方言模型,使得处理每一批量数据时,能尽量多地从不同语音文件选取。
谱图增强是指在每轮迭代时从训练集中随机抽取一个批量的语音切片进行处理,对这一批量的所有语音,不区分方言种类采用SpecAugment谱图增强方式。
S6待分类语音段输入训练好的方言分类模型,对语音段的方言种类标签进行预测。
包括如下:
先将该条语音进行音频增强、去静音与时长扩充处理,转梅尔谱图后进行数据分割,将所有切片的梅尔谱图输入模型进行预测得到各切片的预测结果,最后以投票方式决定整首语音的最终预测标签。
其中投票方式设定语音归为某一类的概率为该语音所有切片被归为该类的概率均值,所有类别中概率最大值对应的标签为该语音最终标签,概率均值由下式得到:
式中xk指最终语音标签预测的向量表示中位于第k位的预测结果,即预测该语音属于第k个标签类别的概率,表示预测结果中第l个切片的向量表示中第k位的概率数值,即该语音第l个切片属于第k个标签类别的概率,L表示该语音的切片集合,|L|表示语音的切片数量。
上述方法可以有效地、准确地对方言语音的类别进行预测,具有较好的可用性。
实施例2
一种基于混合域注意力与时序注意力的方言分类***,包括:
采集模块:获取N个方言语音段;
标注模块:对那个方言语音段进行标注,将带语种标签的方言语音标注数据集,数据集划分训练集、验证集与测试集;
编码模块:每个方言语音段进行分帧加窗,通过快速傅里叶变换与梅尔尺度变换得到该方言语音段对应的梅尔谱图,对方言语言段进行数据切片,获得不同切片时刻处对应的梅尔谱图,并为切片图谱进行位置编码;
构建模型模块:构建基于混合域注意力与时序自注意力的方言分类模型;
训练模块:将位置编码的切片图谱的顺序打乱后,输入方言分类模型进行迭代训练,得到训练后的方言分类模型;
预测模块:待分类语音段输入训练好的方言分类模型,对语音段的方言种类标签进行预测。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于混合域注意力与时序自注意力的方言分类方法,其特征在于,包括:
获取N个方言语音段;
将N个方言语音段进行标注得到方言标注语音数据集,数据集划分训练集、验证集与测试集;
每个方言语音段进行分帧加窗,通过快速傅里叶变换与梅尔尺度变换得到该方言语音段对应的梅尔谱图,对方言语音段进行数据切片,获得不同切片对应的梅尔谱图,并为切片图谱进行位置编码;
构建基于混合域注意力与时序自注意力的方言分类模型;
所述基于混合域注意力与时序自注意力的方言分类模型包括语音特征学习层、语音时序建模层、时序特征融合层及全连接层;
所述语音特征学习层由若干个结合混合域注意力机制的一维残差门控卷积块堆叠构成,所述一维残差门控卷积块包括两个残差门控卷积单元、一个混合域注意力结构及一层最大池化层,所述残差门控卷积单元感受域为切片声谱整个频率范围,沿时间轴滑动;
所述语音时序建模层包括双向门控循环单元,对语音特征学习层学习的特征进行时序建模,并在时序特征融合层以多头注意力机制对不同时刻语音特征进行时序融合,得到更好的语音表征,最后将获得的语音表征输入全连接层,通过多层感知器的学习能力得到语音的分类结果;
所述全连接层包括三层;
将位置编码的切片图谱的顺序打乱后,输入方言分类模型进行迭代训练,得到训练后的方言分类模型;
待分类语音段输入训练好的方言分类模型,对语音段的方言种类标签进行预测。
2.根据权利要求1所述的方言分类方法,其特征在于,所述获取N个方言语音段之后还包括预处理步骤。
3.根据权利要求2所述的方言分类方法,其特征在于,所述预处理步骤包括先校验语音段的格式参数,再对合规语音进行编码转换,然后对编码转换后的语音段应用音频增强方法,最后进行去静音处理。
4.根据权利要求3所述的方言分类方法,其特征在于,所述去静音处理包括去除静音片段及时长补足。
5.根据权利要求3所述的方言分类方法,其特征在于,音频增强方法是对原始语音信号进行加性噪声抑制,采用谱减法计算噪声估计并运用维纳滤波器抑制估计出的噪声。
6.根据权利要求1-5任一项所述的方言分类方法,其特征在于,所述对方言语言段进行数据切片,获得不同切片时刻处对应的梅尔谱图,并为切片图谱进行位置编码,具体为:先谱图转换,再数据切片,最后添加正余弦位置信息编码。
7.根据权利要求6所述的方言分类方法,其特征在于,所述数据切片采用自适应切片步长方法,具体是先确定切片数量n,以1 s为梯度查找切片时长最佳值,再以最佳时长固定切片时长,以1为梯度查找切片数量最佳值,切片步长tstep_duration根据切片数量n与切片时长tsplit_duration自适应调整,三者关系如下:
。
8.根据权利要求1所述的方言分类方法,其特征在于,所述将位置编码的切片图谱的顺序打乱后,输入方言分类模型进行迭代训练,具体为:
将数据集中按照位置编码的语音段打乱顺序随机分配到训练集、测试集与验证集后,再在训练阶段开始前将训练集中所有切片打乱顺序。
9.一种实现权利要求1-8任一项所述的方言分类方法的***,其特征在于,包括:
采集模块:获取N个方言语音段;
标注模块:对N个方言语音段进行标注,将带语种标签的方言语音标注数据集,数据集划分训练集、验证集与测试集;
编码模块:每个方言语音段进行分帧加窗,通过快速傅里叶变换与梅尔尺度变换得到该方言语音段对应的梅尔谱图,对方言语言段进行数据切片,获得不同切片时刻处对应的梅尔谱图,并为切片图谱进行位置编码;
构建模型模块:构建基于混合域注意力与时序自注意力的方言分类模型;
所述基于混合域注意力与时序自注意力的方言分类模型包括语音特征学习层、语音时序建模层、时序特征融合层及全连接层;
所述语音特征学习层由若干个结合混合域注意力机制的一维残差门控卷积块堆叠构成,所述一维残差门控卷积块包括两个残差门控卷积单元、一个混合域注意力结构及一层最大池化层,所述残差门控卷积单元感受域为切片声谱整个频率范围,沿时间轴滑动;
所述语音时序建模层包括双向门控循环单元,对语音特征学习层学习的特征进行时序建模,并在时序特征融合层以多头注意力机制对不同时刻语音特征进行时序融合,得到更好的语音表征,最后将获得的语音表征输入全连接层,通过多层感知器的学习能力得到语音的分类结果;
训练模块:将位置编码的切片图谱的顺序打乱后,输入方言分类模型进行迭代训练,得到训练后的方言分类模型;
预测模块:待分类语音段输入训练好的方言分类模型,对语音段的方言种类标签进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110899525.3A CN113808573B (zh) | 2021-08-06 | 2021-08-06 | 基于混合域注意力与时序自注意力的方言分类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110899525.3A CN113808573B (zh) | 2021-08-06 | 2021-08-06 | 基于混合域注意力与时序自注意力的方言分类方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808573A CN113808573A (zh) | 2021-12-17 |
CN113808573B true CN113808573B (zh) | 2023-11-07 |
Family
ID=78893384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110899525.3A Active CN113808573B (zh) | 2021-08-06 | 2021-08-06 | 基于混合域注意力与时序自注意力的方言分类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808573B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115602165B (zh) * | 2022-09-07 | 2023-05-05 | 杭州优航信息技术有限公司 | 基于金融***的数字员工智能*** |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN110675865A (zh) * | 2019-11-06 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 用于训练混合语言识别模型的方法和装置 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111243575A (zh) * | 2020-01-15 | 2020-06-05 | 北京工业大学 | 基于扩张卷积神经网络的方言种属识别方法 |
CN112199548A (zh) * | 2020-09-28 | 2021-01-08 | 华南理工大学 | 一种基于卷积循环神经网络的音乐音频分类方法 |
CN112216271A (zh) * | 2020-10-11 | 2021-01-12 | 哈尔滨工程大学 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
CN112233651A (zh) * | 2020-10-10 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
CN112509564A (zh) * | 2020-10-15 | 2021-03-16 | 江苏南大电子信息技术股份有限公司 | 基于连接时序分类和自注意力机制的端到端语音识别方法 |
CN112767958A (zh) * | 2021-02-26 | 2021-05-07 | 华南理工大学 | 一种基于零次学习的跨语种音色转换***及方法 |
CN113112985A (zh) * | 2021-04-21 | 2021-07-13 | 合肥工业大学 | 一种基于深度学习的语音合成方法 |
CN113190678A (zh) * | 2021-05-08 | 2021-07-30 | 陕西师范大学 | 基于参数稀疏共享的中国方言语种分类*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10699700B2 (en) * | 2018-07-31 | 2020-06-30 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
-
2021
- 2021-08-06 CN CN202110899525.3A patent/CN113808573B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN110675865A (zh) * | 2019-11-06 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 用于训练混合语言识别模型的方法和装置 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111243575A (zh) * | 2020-01-15 | 2020-06-05 | 北京工业大学 | 基于扩张卷积神经网络的方言种属识别方法 |
CN112199548A (zh) * | 2020-09-28 | 2021-01-08 | 华南理工大学 | 一种基于卷积循环神经网络的音乐音频分类方法 |
CN112233651A (zh) * | 2020-10-10 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
CN112216271A (zh) * | 2020-10-11 | 2021-01-12 | 哈尔滨工程大学 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
CN112509564A (zh) * | 2020-10-15 | 2021-03-16 | 江苏南大电子信息技术股份有限公司 | 基于连接时序分类和自注意力机制的端到端语音识别方法 |
CN112767958A (zh) * | 2021-02-26 | 2021-05-07 | 华南理工大学 | 一种基于零次学习的跨语种音色转换***及方法 |
CN113112985A (zh) * | 2021-04-21 | 2021-07-13 | 合肥工业大学 | 一种基于深度学习的语音合成方法 |
CN113190678A (zh) * | 2021-05-08 | 2021-07-30 | 陕西师范大学 | 基于参数稀疏共享的中国方言语种分类*** |
Non-Patent Citations (1)
Title |
---|
结合注意力机制和因果卷积网络的维吾尔语方言识别;孙杰 等;《声学技术》;第39卷(第6期);697-703 * |
Also Published As
Publication number | Publication date |
---|---|
CN113808573A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109256150B (zh) | 基于机器学习的语音情感识别***及方法 | |
CN105957531B (zh) | 基于云平台的演讲内容提取方法及装置 | |
Guo et al. | Didispeech: A large scale mandarin speech corpus | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Draghici et al. | A study on spoken language identification using deep neural networks | |
CN107480152A (zh) | 一种音频分析及检索方法和*** | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
CN113808573B (zh) | 基于混合域注意力与时序自注意力的方言分类方法及*** | |
Abdurrahman et al. | Spoken language identification using i-vectors, x-vectors, PLDA and logistic regression | |
Beckmann et al. | Word-level embeddings for cross-task transfer learning in speech processing | |
CN114550706A (zh) | 基于深度学习的智慧校园语音识别方法 | |
Mandel et al. | Audio super-resolution using concatenative resynthesis | |
Kakouros et al. | Comparison of spectral tilt measures for sentence prominence in speech—Effects of dimensionality and adverse noise conditions | |
CN109346104A (zh) | 一种基于谱聚类的音频特征降维方法 | |
Alrehaili et al. | Arabic speech dialect classification using deep learning | |
Ribeiro et al. | Syllable-Level Representations of Suprasegmental Features for DNN-Based Text-to-Speech Synthesis. | |
CN110299133A (zh) | 基于关键字判定非法广播的方法 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN113990325A (zh) | 流式语音识别方法及装置、电子设备、存储介质 | |
Zubi et al. | Arabic Dialects System using Hidden Markov Models (HMMs) | |
Maged et al. | Improving speaker identification system using discrete wavelet transform and AWGN | |
Camarena-Ibarrola et al. | Speaker identification using entropygrams and convolutional neural networks | |
CN117041430B (zh) | 一种提高智能协调外呼***的外呼质量及鲁棒方法和装置 | |
CN117935865B (zh) | 一种用于个性化营销的用户情感分析方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |