CN106919710A - 一种基于卷积神经网络的方言分类方法 - Google Patents

一种基于卷积神经网络的方言分类方法 Download PDF

Info

Publication number
CN106919710A
CN106919710A CN201710144714.3A CN201710144714A CN106919710A CN 106919710 A CN106919710 A CN 106919710A CN 201710144714 A CN201710144714 A CN 201710144714A CN 106919710 A CN106919710 A CN 106919710A
Authority
CN
China
Prior art keywords
neural networks
convolutional neural
dialect
sorting technique
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710144714.3A
Other languages
English (en)
Inventor
伍家松
魏黎明
邱诗洁
杨淳沨
孔佑勇
朱小贝
舒华忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201710144714.3A priority Critical patent/CN106919710A/zh
Publication of CN106919710A publication Critical patent/CN106919710A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络的方言分类方法,包括如下步骤:(1)建立包含多地方言的样本集,对样本进行预处理,并进行标注;(2)将训练集和测试集中的所有图片缩放成预定大小的彩色图,并为每张图片赋予标签信息,标签信息表示对应的图片所属的县级市;(3)建立卷积神经网络,卷积神经网络各层次依次为输入层、多个卷积层、全连接层和输出层,使用梯度下降法和反向传播算法训练所属卷积神经网络;(4)训练完成后,得到训练过程中的错误率下降趋势图。本发明的有益效果为:使用卷积神经网络对二维图像进行分类,可取得良好的分类效果,很大程度上提高对方言的分类准确率。

Description

一种基于卷积神经网络的方言分类方法
技术领域
本发明涉及卷积神经网络应用领域,尤其是一种基于卷积神经网络的方言分类方法。
背景技术
卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。
卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。输入图像通过和三个可训练的滤波器和可加偏置进行卷积,卷积后在C1层产生三个特征映射图,然后特征映射图中每组的四个像素再进行求和,加权值,加偏置,通过一个Sigmoid函数得到三个S2层的特征映射图。这些映射图再经过滤波得到C3层。这个层级结构再和S2一样产生S4。最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。
一般地,C层为特征提取层,每个神经元的输入与前一层的局部感受野相连,并提取该局部的特征,一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;S层是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射为一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。
此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数,降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层(C-层)都紧跟着一个用来求局部平均与二次提取的计算层(S-层),这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。
发明内容
本发明所要解决的技术问题在于,提供一种基于卷积神经网络的方言分类方法,能够对方言音频声谱图片进行分类和识别。
为解决上述技术问题,本发明提供一种基于卷积神经网络的方言分类方法,包括如下步骤:
(1)建立包含多地方言的样本集,对样本进行预处理,并进行标注;
(2)将训练集和测试集中的所有图片缩放成预定大小的彩色图,并为每张图片赋予标签信息,标签信息表示对应的图片所属的县级市;
(3)建立卷积神经网络,卷积神经网络各层次依次为输入层、多个卷积层、全连接层和输出层,使用梯度下降法和反向传播算法训练所属卷积神经网络;
(4)训练完成后,得到训练过程中的错误率下降趋势图。
优选的,步骤(1)中,对样本集进行预处理,将音频文件转换成声谱图,并去掉声谱图中的空白边缘。
优选的,步骤(1)中,样本集包括多个地方的方言样本。
优选的,步骤(2)中,图片统一缩放成227×227的彩色图片。
优选的,步骤(3)中,卷积神经网络为经典的Alexnet网络结构,在该网络中,第一层为输入层,接受大小为227×227的彩色图像作为输入,最后一层为输出层,共N个结点,N表示需要分类的方言数据集的类别总数。
优选的,步骤(3)中,梯度下降算法的具体步骤为:从任一点开始,沿该点梯度的反方向运动一段距离,再沿新位置的梯度反方向运行一段距离,如此迭代。解一直朝下坡最陡的方向运动,希望能运动到函数的全局最小点,即使得误差值最小的点。
优选的,步骤(3)中,反向传播算法的具体步骤为:当使用梯度下降法找到误差的最小值之后,从网络的最后一层依次向前更新权值,用反向传播的方法更新权值,即链式求导法则,链式求导法则如下:
优选的,步骤(4)中,训练样本和测试样本,即分批次对所有样本进行训练,不断更新权值,直到目标函数的值收敛于一个稳定区域内的值,即错误率收敛于一个稳定值。
本发明的有益效果为:使用卷积神经网络对二维图像进行分类,可取得良好的分类效果,很大程度上提高对方言的分类准确率。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的卷积神经网络用语方言分类的目标函数及错误率的变化趋势图。
具体实施方式
如图1所示,一种基于卷积神经网络的方言分类方法,包括如下步骤:
(1)建立包含多地方言的样本集,对样本进行预处理,并进行标注;对样本集进行预处理,将音频文件转换成声谱图,并去掉声谱图中的空白边缘;样本集包括多个地方的方言样本;
(2)将训练集和测试集中的所有图片缩放成预定大小的彩色图,并为每张图片赋予标签信息,标签信息表示对应的图片所属的县级市;图片统一缩放成227×227的彩色图片;
(3)建立卷积神经网络,卷积神经网络各层次依次为输入层、多个卷积层、全连接层和输出层,使用梯度下降法和反向传播算法训练所属卷积神经网络;
(4)分批次对所有样本进行训练,不断更新权值,直到目标函数的值收敛于一个稳定区域内的值,即错误率收敛于一个稳定值;训练完成后,得到训练过程中的错误率下降趋势图。
卷积神经网络为经典的Alexnet网络结构,在该网络中,第一层为输入层,接受大小为227×227的彩色图像作为输入,最后一层为输出层,共N个结点,N表示需要分类的方言数据集的类别总数。
梯度下降算法的具体步骤为:从任一点开始,沿该点梯度的反方向运动一段距离,再沿新位置的梯度反方向运行一段距离,如此迭代。解一直朝下坡最陡的方向运动,希望能运动到函数的全局最小点,即使得误差值最小的点。
反向传播算法的具体步骤为:当使用梯度下降法找到误差的最小值之后,从网络的最后一层依次向前更新权值,用反向传播的方法更新权值,即链式求导法则,链式求导法则如下:
实验条件:现选取一台计算机进行方言分类,该计算机的配置有Intel(R)处理器(3.30GHz)和32GB随机存取存储器(RAM),GTX970GPU,64位操作***,编程语言用的是Matlab(R2015a版本)。
实验对象:方言数据库包含灰度图像数据库与彩色图像数据库,本发明中采用彩色图像数据库图像进行实验,所分类的是江苏70个地方的方言,因此共有70个类,每个类别都包含200幅图像,每幅图像大小为227×227。在每一类图像中随机选取160幅作为训练图像,剩下的40幅作为测试图像。
实验步骤:
步骤1、将方言音频文件转换成声谱图,并去掉声谱图的空白边缘,然后将图片调整为227×227的彩色图片。
步骤2、将所有训练和测试图片做标注。
步骤3、在Matconvnet中Alexnet网络结构中,修改部分参数,使得网络结构与方言数据库匹配。
步骤4、准备就绪后,将标注的图片送入网络中,开始运行程序。
步骤5、程序会输出每一张图片识别的错误率,程序完成时,会输出整个运行过程中训练和测试的错误率的变化趋势图。
图2为本发明中卷积神经网络用于方言分类的目标函数及错误率的变化趋势图;其中,横坐标(epoch)表示训练的批次;左边objective表示目标函数的变化趋势,纵坐标表示目标函数的值;中间top1err表示准确分到其所属类别的错误率的变化趋势图,纵坐标表示错误率的大小;右边top5err为表示分到与所属类别最接近的5个类别的错误率的变化趋势图,纵坐标表示错误率的大小。由于实验过程中,我们用曲线的颜色来区分训练和测试过程,由于限制图2中曲线的颜色均为黑色,由于top1err是判断实验准确率的关键标准,我们仅参考top1err的指标。top1err中上面曲线为测试过程,下面曲线为训练过程。top1err测试的值可以稳定在90%。
尽管本发明就优选实施方式进行了示意和描述,但本领域的技术人员应当理解,只要不超出本发明的权利要求所限定的范围,可以对本发明进行各种变化和修改。

Claims (8)

1.一种基于卷积神经网络的方言分类方法,其特征在于,包括如下步骤:
(1)建立包含多地方言的样本集,对样本进行预处理,并进行标注;
(2)将训练集和测试集中的所有图片缩放成预定大小的彩色图,并为每张图片赋予标签信息,标签信息表示对应的图片所属的县级市;
(3)建立卷积神经网络,卷积神经网络各层次依次为输入层、多个卷积层、全连接层和输出层,使用梯度下降法和反向传播算法训练所属卷积神经网络;
(4)训练完成后,得到训练过程中的错误率下降趋势图。
2.如权利要求1所述的基于卷积神经网络的方言分类方法,其特征在于,步骤(1)中,对样本集进行预处理,将音频文件转换成声谱图,并去掉声谱图中的空白边缘。
3.如权利要求2所述的基于卷积神经网络的方言分类方法,其特征在于,步骤(1)中,样本集包括多个地方的方言样本。
4.如权利要求1所述的基于卷积神经网络的方言分类方法,其特征在于,步骤(2)中,图片统一缩放成227×227的彩色图片。
5.如权利要求4所述的基于卷积神经网络的方言分类方法,其特征在于,步骤(3)中,卷积神经网络为经典的Alexnet网络结构,在该网络中,第一层为输入层,接受大小为227×227的彩色图像作为输入,最后一层为输出层,共N个结点,N表示需要分类的方言数据集的类别总数。
6.如权利要求1所述的基于卷积神经网络的方言分类方法,其特征在于,步骤(3)中,梯度下降算法的具体步骤为:从任一点开始,沿该点梯度的反方向运动一段距离,再沿新位置的梯度反方向运行一段距离,如此迭代;解一直朝下坡最陡的方向运动,希望能运动到函数的全局最小点,即使得误差值最小的点。
7.如权利要求1所述的基于卷积神经网络的方言分类方法,其特征在于,步骤(3)中,反向传播算法的具体步骤为:当使用梯度下降法找到误差的最小值之后,从网络的最后一层依次向前更新权值,用反向传播的方法更新权值,即链式求导法则,链式求导法则如下:
d z d x = d z d y · d y d x .
8.如权利要求1所述的基于卷积神经网络的方言分类方法,其特征在于,步骤(4)中,训练样本和测试样本,即分批次对所有样本进行训练,不断更新权值,直到目标函数的值收敛于一个稳定区域内的值,即错误率收敛于一个稳定值。
CN201710144714.3A 2017-03-13 2017-03-13 一种基于卷积神经网络的方言分类方法 Pending CN106919710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710144714.3A CN106919710A (zh) 2017-03-13 2017-03-13 一种基于卷积神经网络的方言分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710144714.3A CN106919710A (zh) 2017-03-13 2017-03-13 一种基于卷积神经网络的方言分类方法

Publications (1)

Publication Number Publication Date
CN106919710A true CN106919710A (zh) 2017-07-04

Family

ID=59461330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710144714.3A Pending CN106919710A (zh) 2017-03-13 2017-03-13 一种基于卷积神经网络的方言分类方法

Country Status (1)

Country Link
CN (1) CN106919710A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170735A (zh) * 2017-12-15 2018-06-15 东南大学 一种适用于卷积神经网络的方言数据库建立方法
CN109887497A (zh) * 2019-04-12 2019-06-14 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110033760A (zh) * 2019-04-15 2019-07-19 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110148400A (zh) * 2018-07-18 2019-08-20 腾讯科技(深圳)有限公司 发音类型的识别方法、模型的训练方法、装置及设备
WO2019232849A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 汉字模型训练方法、手写字识别方法、装置、设备及介质
CN111488486A (zh) * 2020-04-20 2020-08-04 武汉大学 一种基于多音源分离的电子音乐分类方法及***
CN111881797A (zh) * 2020-07-20 2020-11-03 北京理工大学 滨海湿地植被精细分类方法、装置、设备和存储介质
CN115472147A (zh) * 2022-09-15 2022-12-13 北京大学深圳医院 一种语言识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616664A (zh) * 2015-02-02 2015-05-13 合肥工业大学 一种基于声谱图显著性检测的音频识别方法
WO2015180368A1 (zh) * 2014-05-27 2015-12-03 江苏大学 一种半监督语音特征可变因素分解方法
CN105895110A (zh) * 2016-06-30 2016-08-24 北京奇艺世纪科技有限公司 一种音频文件的分类方法及装置
CN106485251A (zh) * 2016-10-08 2017-03-08 天津工业大学 基于深度学习的鸡蛋胚胎分类

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015180368A1 (zh) * 2014-05-27 2015-12-03 江苏大学 一种半监督语音特征可变因素分解方法
CN104616664A (zh) * 2015-02-02 2015-05-13 合肥工业大学 一种基于声谱图显著性检测的音频识别方法
CN105895110A (zh) * 2016-06-30 2016-08-24 北京奇艺世纪科技有限公司 一种音频文件的分类方法及装置
CN106485251A (zh) * 2016-10-08 2017-03-08 天津工业大学 基于深度学习的鸡蛋胚胎分类

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170735A (zh) * 2017-12-15 2018-06-15 东南大学 一种适用于卷积神经网络的方言数据库建立方法
WO2019232849A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 汉字模型训练方法、手写字识别方法、装置、设备及介质
CN110148400A (zh) * 2018-07-18 2019-08-20 腾讯科技(深圳)有限公司 发音类型的识别方法、模型的训练方法、装置及设备
CN110148400B (zh) * 2018-07-18 2023-03-17 腾讯科技(深圳)有限公司 发音类型的识别方法、模型的训练方法、装置及设备
CN109887497A (zh) * 2019-04-12 2019-06-14 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN109887497B (zh) * 2019-04-12 2021-01-29 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110033760A (zh) * 2019-04-15 2019-07-19 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
US11688391B2 (en) 2019-04-15 2023-06-27 Beijing Baidu Netcom Science And Technology Co. Mandarin and dialect mixed modeling and speech recognition
CN110033760B (zh) * 2019-04-15 2021-01-29 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN111488486B (zh) * 2020-04-20 2021-08-17 武汉大学 一种基于多音源分离的电子音乐分类方法及***
CN111488486A (zh) * 2020-04-20 2020-08-04 武汉大学 一种基于多音源分离的电子音乐分类方法及***
CN111881797A (zh) * 2020-07-20 2020-11-03 北京理工大学 滨海湿地植被精细分类方法、装置、设备和存储介质
CN115472147A (zh) * 2022-09-15 2022-12-13 北京大学深圳医院 一种语言识别方法及装置

Similar Documents

Publication Publication Date Title
CN106919710A (zh) 一种基于卷积神经网络的方言分类方法
Poma et al. Dense extreme inception network: Towards a robust cnn model for edge detection
Van Grinsven et al. Fast convolutional neural network training using selective data sampling: Application to hemorrhage detection in color fundus images
CN109558942B (zh) 一种基于浅度学习的神经网络迁移方法
Hertel et al. Deep convolutional neural networks as generic feature extractors
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
Colak et al. Automated McIntosh-based classification of sunspot groups using MDI images
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及***
CN107408209A (zh) 无需取样及特征选择的自动缺陷分类
CN105718952A (zh) 使用深度学习网络对断层医学影像进行病灶分类的方法
CN110070107A (zh) 物体识别方法及装置
CN110457982A (zh) 一种基于特征迁移学习的作物病害图像识别方法
Pathar et al. Human emotion recognition using convolutional neural network in real time
CN107203606A (zh) 基于卷积神经网络的自然场景下文本检测与识别方法
CN112614119A (zh) 医学图像感兴趣区域可视化方法、装置、存储介质和设备
CN109815945A (zh) 一种基于图像识别的呼吸道检查结果判读***和方法
CN108960260A (zh) 一种分类模型生成方法、医学影像图像分类方法及装置
CN110110724A (zh) 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
Paul et al. A modern approach for sign language interpretation using convolutional neural network
Pratama et al. Deep convolutional neural network for hand sign language recognition using model E
CN112668486A (zh) 一种预激活残差深度可分离卷积网络面部表情识别方法、装置和载体
Diouf et al. Convolutional neural network and decision support in medical imaging: case study of the recognition of blood cell subtypes
Akshaya et al. Detection and Identification of Pills using Machine Learning Models
Ikram et al. American sign language recognition using convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170704