CN112489623A - 语种识别模型的训练方法、语种识别方法及相关设备 - Google Patents

语种识别模型的训练方法、语种识别方法及相关设备 Download PDF

Info

Publication number
CN112489623A
CN112489623A CN202011287099.XA CN202011287099A CN112489623A CN 112489623 A CN112489623 A CN 112489623A CN 202011287099 A CN202011287099 A CN 202011287099A CN 112489623 A CN112489623 A CN 112489623A
Authority
CN
China
Prior art keywords
language
language identification
voice
identification model
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011287099.XA
Other languages
English (en)
Inventor
邓艳江
罗超
胡泓
李巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN202011287099.XA priority Critical patent/CN112489623A/zh
Publication of CN112489623A publication Critical patent/CN112489623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音处理技术领域,提供一种语种识别模型的训练方法、语种识别方法及相关设备。所述语种识别模型的训练方法包括:获得样本数据,包括:获得初始语音及其目标语种;对所述初始语音进行预处理,获得语谱图;训练语种识别模型,包括:通过卷积神经网络提取所述语谱图的空间特征;通过循环神经网络提取所述空间特征的时序特征;基于所述时序特征对所述空间特征进行全连接运算,并通过分类器预测语种概率;以及,根据所述语种概率和所述目标语种,调整所述语种识别模型的参数,至所述语种识别模型收敛。本发明能够对语音的语种做出高效准确的分类,为后续的语音识别提供数据支持。

Description

语种识别模型的训练方法、语种识别方法及相关设备
技术领域
本发明涉及语音处理技术领域,具体地说,涉及一种语种识别模型的训练方法、语种识别方法及相关设备。
背景技术
随着人工智能技术的发展,语音识别在众多工业场景落地。
但是,有的工业场景存在多语种,而目前的语音识别模型只支持单语种。因此在数据源存在多语种的情形下,对语音进行转写之前,需先判别语音的语种,再选择对应语种的语音识别模型进行语音识别。
目前的语种判别工作,常通过人工听取声音的音调、音色等进行分辨,效率低,准确性差。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种语种识别模型的训练方法、语种识别方法及相关设备,能够对语音的语种做出高效准确的分类,为后续的语音识别提供数据支持。
本发明的一个方面提供一种语种识别模型的训练方法,包括:获得样本数据,包括:获得初始语音及其目标语种;对所述初始语音进行预处理,获得语谱图;训练语种识别模型,包括:通过卷积神经网络提取所述语谱图的空间特征;通过循环神经网络提取所述空间特征的时序特征;基于所述时序特征对所述空间特征进行全连接运算,并通过分类器预测语种概率;以及根据所述语种概率和所述目标语种,调整所述语种识别模型的参数,至所述语种识别模型收敛。
在一些实施例中,所述的训练方法还包括:提取所述时序特征后,通过注意力机制对所述时序特征进行聚合;对所述空间特征进行全连接运算时,基于聚合后的所述时序特征对所述空间特征进行全连接运算。
在一些实施例中,所述通过注意力机制对所述时序特征进行聚合,包括:获得每个所述时序特征对应的隐向量;对所述隐向量进行注意力计算,获得上下文向量;以及,根据所述上下文向量,对各所述时序特征进行聚合。
在一些实施例中,对所述隐向量进行注意力计算的公式为:
uit=tanh(Wwhit+bw);
Figure BDA0002782683710000021
Figure BDA0002782683710000022
其中,hit是t时刻所述循环神经网络输出的对应所述时序特征的隐向量,si是经注意力计算获得的i时刻的上下文向量,Ww、bw和uw为参数。
在一些实施例中,所述卷积神经网络包括三层,所述循环神经网络包括两层。
在一些实施例中,所述对所述初始语音进行预处理,包括:按帧对所述初始语音进行快速傅里叶变换,获得各帧的频谱;以及,将各帧的所述频谱沿时序拼合成语谱图。
本发明的又一个方面提供一种语种识别方法,包括:获得待识别语音的有效语音片段;对所述有效语音片段进行预处理,获得语谱图;以及,将所述语谱图输入一语种识别模型,获得语种识别结果,所述语种识别模型通过上述任意实施例所述的训练方法训练生成。
在一些实施例中,所述获得待识别语音的有效语音片段,包括:对所述待识别语音进行端点检测,筛除非有效帧,获得语音片段;将所述语音片段填充至预设时长,形成有效语音片段。
本发明的又一个方面提供一种语种识别模型的训练装置,包括:样本数据获取模块,配置为:获得初始语音及其目标语种;对所述初始语音进行预处理,获得语谱图;语种识别模型训练模块,配置为:通过卷积神经网络提取所述语谱图的空间特征;通过循环神经网络提取所述空间特征的时序特征;基于所述时序特征对所述空间特征进行全连接运算,并通过分类器预测语种概率;以及,根据所述语种概率和所述目标语种,调整所述语种识别模型的参数,至所述语种识别模型收敛。
本发明的又一个方面提供一种语种识别装置,包括:预处理模块,用于获得待识别语音的有效语音片段;语谱图生成模块,用于对所述有效语音片段进行预处理,获得语谱图;以及语种识别模块,用于将所述语谱图输入一语种识别模型,获得语种识别结果,所述语种识别模型通过上述任意实施例所述的训练方法训练生成。
本发明的又一个方面提供一种电子设备,包括:一处理器;一存储器,所述存储器中存储有可执行指令;其中,所述可执行指令被所述处理器执行时,实现上述任意实施例所述的语种识别模型的训练方法和/或语种识别方法。
本发明的又一个方面提供一种计算机可读的存储介质,用于存储程序,所述程序被执行时实现上述任意实施例所述的语种识别模型的训练方法和/或语种识别方法。
本发明与现有技术相比的有益效果至少包括:
基于语音的频域信息,获得语音的语谱图;通过基于深度学习的卷积神经网络和循环神经网络,获得语谱图的空间特征和时序特征;进一步通过全连接和分类器,识别语音语种,实现对语音语种的高效准确分类,为后续的语音识别提供数据支持。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明实施例中语种识别模型的训练方法的步骤示意图;
图2示出本发明实施例中语种识别模型的网络结构示意图;
图3示出本发明实施例中语种识别模型的训练装置的模块示意图;
图4示出本发明实施例中语种识别方法的步骤示意图;
图5示出本发明实施例中语种识别装置的模块示意图;
图6示出本发明实施例中电子设备的结构示意图;以及
图7示出本发明实施例中计算机可读的存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使本发明全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
下面实施例中的步骤序号仅用于表示不同的执行内容,并不严格限定步骤之间的执行顺序。具体描述时使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。需要说明的是,在不冲突的情况下,本发明的实施例及不同实施例中的特征可以相互组合。
图1示出实施例中语种识别模型的训练方法的主要步骤,参照图1所示,本实施例中语种识别模型的训练方法包括:在步骤S110中,获得样本数据,包括:S110-10,获得初始语音及其目标语种;S110-20,对初始语音进行预处理,获得语谱图;在步骤S120中,训练语种识别模型,包括:S120-10,通过卷积神经网络提取语谱图的空间特征;S120-20,通过循环神经网络提取空间特征的时序特征;S120-30,基于时序特征对空间特征进行全连接运算,并通过分类器预测语种概率;以及S120-40,根据语种概率和目标语种,调整语种识别模型的参数,至语种识别模型收敛。
目标语种是初始语音对应的真实语种。对初始语音进行预处理,获得语谱图的过程具体包括:按帧对初始语音进行快速傅里叶变换,获得各帧的频谱;以及,将各帧的频谱沿时序拼合成语谱图。快速傅里叶变换前,还包括对初始语音的声音信号进行预加重、分帧、加窗等预操作。
语音的特征种类很多,常见的有韵律特征,如:基频、共振峰、语速、能量等,韵律特征能反映语音的连续特征;以及谱特征,如:频谱、梅尔倒谱系数、线性预测倒谱系数等,谱特征能反映语音的短时特征。上述各种特征多偏向于基于频域的信息,且区分语种的特征主要集中在频域。因此先对初始语音的时域信号做傅里叶变换至频域后,再进行后续步骤的特征提取。即将初始语音逐帧做傅里叶变换得频谱,再按时序将各帧频谱拼合成语谱图,以便于对语谱图做特征提取。
特征提取时,语音信号处理成语谱图后兼具空间和时序特征,因此需要同时提取语谱图的空间特征和时序特征。深度学习在人工智能领域应用广泛,基于深度学习的模型,随着层数的加宽和加深,能够很好地实现特征提取。本实施例采用卷积神经网络作为空间特征的特征提取器,采用循环神经网络作为时序特征的特征提取器。
具体实现时,利用基于深度学习的卷积神经网络,将语谱视为图像,提取语谱图的空间特征。在一个具体示例中,可以采用多层多个卷积核,每层的多个卷积核使提取的空间特征更丰富,多层卷积核使提取的空间特征更具辨识力,同时起到降维的作用。进一步地,利用基于深度学习的循环神经网络,在前序提取的空间特征基础上,提取时序特征。
进一步地,提取时序特征后,还通过注意力(Attention)机制对时序特征进行聚合,从而后续对空间特征进行全连接运算时,基于聚合后的时序特征对空间特征进行全连接运算。
通过注意力机制对时序特征进行聚合的过程具体包括:获得每个时序特征对应的隐向量;对隐向量进行注意力计算,获得上下文(context)向量;以及,根据上下文向量,对各时序特征进行聚合。
其中,对隐向量进行注意力计算的公式为:
uit=tanh(Wwhit+bw);
Figure BDA0002782683710000061
Figure BDA0002782683710000062
其中,hit是t时刻循环神经网络输出的对应时序特征的隐向量,si是经注意力计算获得的i时刻的上下文向量,Ww、bw和uw为参数,tanh是双曲正切函数的数学符号,uit T是uit向量的转置,exp为指数函数的数学符号。
利用注意力机制对前序提取的特征做筛选和聚合后,利用分类器实现语种的识别。其中分类器可采用SoftMax函数。
图2示出实施例中语种识别模型的网络结构,参照图2所示,在一个具体示例中,语种识别模型200包括三层卷积神经网络210和两层循环神经网络220。本实施例中卷积神经网络210具体为Conv1d(一维卷积),循环神经网络220具体为GRU(Gated Recurrent Unit,门控循环单元)网络。GRU网络具有参数量少,计算速度快的优点。语种识别模型200还包括Attention机制230、Dense层(全连接神经网络层)240以及SoftMax分类器250。
具体训练时,第一步,对初始语音的语音信号做预处理,包含预加重、分帧、加窗、快速傅里叶变换,得到各帧频谱。第二步,将各帧频谱沿时序拼合成语谱图。第三步,利用3层Conv1d 210提取语谱图的空间特征;此外,借助Conv1d 210还能对各时序特征进行聚拢,起到对时间维的特征进行压缩的作用,节约后续计算成本。第四步,利用2层GRU网络220,基于前序的空间特征提取时序特征。第五步,利用Attention机制230对各时序的隐向量做筛选和聚合。第六步,经全连接层240计算后利用SoftMax函数250做分类,预测出语音信号属于各语种的概率,进而根据预测结果和初始语音的真实语种,调整相关的模型参数,直至语种识别模型收敛,能够输出符合真实语种的预测结果。
上述各实施例描述的语种识别模型的训练方法,基于语音的频域信息,获得语音的语谱图;通过基于深度学习的卷积神经网络和循环神经网络,获得语谱图的空间特征和时序特征;进一步通过全连接和分类器,识别语音语种,实现对语音语种的高效准确分类,为后续的语音识别提供数据支持。
本发明实施例还提供一种语种识别模型的训练装置,用于实现上述任意实施例描述的语种识别模型的训练方法。
图3示出语种识别模型的训练装置的主要模块,参照图3所示,本实施例中语种识别模型的训练装置300包括:样本数据获取模块310,配置为:获得初始语音及其目标语种;对初始语音进行预处理,获得语谱图;语种识别模型训练模块320,配置为:通过卷积神经网络提取语谱图的空间特征;通过循环神经网络提取空间特征的时序特征;基于时序特征对空间特征进行全连接运算,并通过分类器预测语种概率;以及,根据语种概率和目标语种,调整语种识别模型的参数,至语种识别模型收敛。
其中,各个模块的具体原理可参见上述各语种识别模型的训练方法实施例,此处不再重复说明。
本发明实施例还提供一种语种识别方法,可通过由上述任意语种识别模型的训练方法实施例训练生成的语种识别模型,对语音进行语种识别。
图4示出语种识别方法的主要步骤,参照图4所示,本实施例中语种识别方法包括:步骤S410,获得待识别语音的有效语音片段;步骤S420,对有效语音片段进行预处理,获得语谱图;以及步骤S430,将语谱图输入语种识别模型,获得语种识别结果,其中语种识别模型通过上述任意语种识别模型的训练方法实施例训练生成。
其中,获得待识别语音的有效语音片段的过程具体包括:对待识别语音进行端点检测,即对语音首尾段做VAD(Voice Activity Detection,语音端点检测),筛除非有效帧,获得语音片段;将语音片段填充至预设时长,即对不足最大时长的语音复制已有的语音片段,形成有效语音片段。获得语谱图的过程与上述语种识别模型的训练方法实施例同理,通过分帧、加窗、傅里叶变换等操作,获得语谱图。将语谱图输入语种识别模型,取预测概率最大值对应的语种,即为语种识别结果。
上述实施例的语种识别方法,可具体应用于在线旅行社的酒店电话录音,用于分析语种,为选择对应语种的语音识别模型提供依据。
本实施例的语种识别方法,基于语音的频域信息,获得语音的语谱图;通过基于深度学习的卷积神经网络和循环神经网络,获得语谱图的空间特征和时序特征;进一步通过全连接和分类器,识别语音语种,实现对语音语种的高效准确分类,为后续的语音识别提供数据支持。
本发明实施例还提供一种语种识别装置,用于实现上述实施例描述的语种识别方法。
图5示出语种识别装置的主要模块,参照图5所示,本实施例中语种识别装置500包括:预处理模块510,用于获得待识别语音的有效语音片段;语谱图生成模块520,用于对有效语音片段进行预处理,获得语谱图;以及语种识别模块530,用于将语谱图输入语种识别模型,获得语种识别结果,语种识别模型由上述语种识别模型的训练方法实施例训练生成。
其中,各个模块的具体原理可参见上述语种识别方法实施例,此处不再重复说明。
本发明实施例还提供一种电子设备,包括处理器和存储器,存储器中存储有可执行指令,可执行指令被处理器执行时,实现上述任意实施例描述的语种识别模型的训练方法和/或语种识别方法。
如上所述,本发明的电子设备能够基于语音的频域信息,获得语音的语谱图;通过基于深度学习的卷积神经网络和循环神经网络,获得语谱图的空间特征和时序特征;进一步通过全连接和分类器,识别语音语种,实现对语音语种的高效准确分类,为后续的语音识别提供数据支持。
图6是本发明实施例中电子设备的结构示意图,应当理解的是,图6仅仅是示意性地示出各个模块,这些模块可以是虚拟的软件模块或实际的硬件模块,这些模块的合并、拆分及其余模块的增加都在本发明的保护范围之内。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行上述任意实施例实施例描述的语种识别模型的训练方法和/或语种识别方法的步骤。例如,处理单元610可以执行如图1和图4所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一个或多个程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700通信,外部设备700可以是键盘、指向设备、蓝牙设备等设备中的一种或多种。这些外部设备700使得用户能与该电子设备600进行交互通信。电子设备600也能与一个或多个其它计算设备进行通信,所示计算机设备包括路由器、调制解调器。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读的存储介质,用于存储程序,程序被执行时实现上述任意实施例描述的语种识别模型的训练方法和/或语种识别方法。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行上述任意实施例描述的语种识别模型的训练方法和/或语种识别方法。
如上所述,本发明的计算机可读的存储介质能够基于语音的频域信息,获得语音的语谱图;通过基于深度学习的卷积神经网络和循环神经网络,获得语谱图的空间特征和时序特征;进一步通过全连接和分类器,识别语音语种,实现对语音语种的高效准确分类,为后续的语音识别提供数据支持。
图7是本发明的计算机可读的存储介质的结构示意图。参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读的存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备,例如利用因特网服务提供商来通过因特网连接。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (12)

1.一种语种识别模型的训练方法,其特征在于,包括:
获得样本数据,包括:
获得初始语音及其目标语种;
对所述初始语音进行预处理,获得语谱图;
训练语种识别模型,包括:
通过卷积神经网络提取所述语谱图的空间特征;
通过循环神经网络提取所述空间特征的时序特征;
基于所述时序特征对所述空间特征进行全连接运算,并通过分类器预测语种概率;以及
根据所述语种概率和所述目标语种,调整所述语种识别模型的参数,至所述语种识别模型收敛。
2.如权利要求1所述的训练方法,其特征在于,还包括:
提取所述时序特征后,通过注意力机制对所述时序特征进行聚合;
对所述空间特征进行全连接运算时,基于聚合后的所述时序特征对所述空间特征进行全连接运算。
3.如权利要求2所述的训练方法,其特征在于,所述通过注意力机制对所述时序特征进行聚合,包括:
获得每个所述时序特征对应的隐向量;
对所述隐向量进行注意力计算,获得上下文向量;以及
根据所述上下文向量,对各所述时序特征进行聚合。
4.如权利要求3所述的训练方法,其特征在于,对所述隐向量进行注意力计算的公式为:
uit=tanh(Wwhit+bw);
Figure FDA0002782683700000011
Figure FDA0002782683700000012
其中,hit是t时刻所述循环神经网络输出的对应所述时序特征的隐向量,si是经注意力计算获得的i时刻的上下文向量,Ww、bw和uw是参数。
5.如权利要求1所述的训练方法,其特征在于,所述卷积神经网络包括三层,所述循环神经网络包括两层。
6.如权利要求1所述的训练方法,其特征在于,所述对所述初始语音进行预处理,包括:
按帧对所述初始语音进行快速傅里叶变换,获得各帧的频谱;以及
将各帧的所述频谱沿时序拼合成语谱图。
7.一种语种识别方法,其特征在于,包括:
获得待识别语音的有效语音片段;
对所述有效语音片段进行预处理,获得语谱图;以及
将所述语谱图输入一语种识别模型,获得语种识别结果,所述语种识别模型通过权利要求1-6任一项所述的训练方法训练生成。
8.如权利要求7所述的语种识别方法,其特征在于,所述获得待识别语音的有效语音片段,包括:
对所述待识别语音进行端点检测,筛除非有效帧,获得语音片段;
将所述语音片段填充至预设时长,形成有效语音片段。
9.一种语种识别模型的训练装置,其特征在于,包括:
样本数据获取模块,配置为:
获得初始语音及其目标语种;
对所述初始语音进行预处理,获得语谱图;
语种识别模型训练模块,配置为:
通过卷积神经网络提取所述语谱图的空间特征;
通过循环神经网络提取所述空间特征的时序特征;
基于所述时序特征对所述空间特征进行全连接运算,并通过分类器预测语种概率;以及
根据所述语种概率和所述目标语种,调整所述语种识别模型的参数,至所述语种识别模型收敛。
10.一种语种识别装置,其特征在于,包括:
预处理模块,用于获得待识别语音的有效语音片段;
语谱图生成模块,用于对所述有效语音片段进行预处理,获得语谱图;以及
语种识别模块,用于将所述语谱图输入一语种识别模型,获得语种识别结果,所述语种识别模型通过权利要求1-6任一项所述的训练方法训练生成。
11.一种电子设备,其特征在于,包括:
一处理器;
一存储器,所述存储器中存储有可执行指令;
其中,所述可执行指令被所述处理器执行时,实现如权利要求1-6任一项所述的语种识别模型的训练方法,和/或,实现如权利要求7或8所述的语种识别方法。
12.一种计算机可读的存储介质,用于存储程序,其特征在于,所述程序被执行时实现如权利要求1-6任一项所述的语种识别模型的训练方法,和/或,实现如权利要求7或8所述的语种识别方法。
CN202011287099.XA 2020-11-17 2020-11-17 语种识别模型的训练方法、语种识别方法及相关设备 Pending CN112489623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011287099.XA CN112489623A (zh) 2020-11-17 2020-11-17 语种识别模型的训练方法、语种识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011287099.XA CN112489623A (zh) 2020-11-17 2020-11-17 语种识别模型的训练方法、语种识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN112489623A true CN112489623A (zh) 2021-03-12

Family

ID=74931613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011287099.XA Pending CN112489623A (zh) 2020-11-17 2020-11-17 语种识别模型的训练方法、语种识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN112489623A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327584A (zh) * 2021-05-28 2021-08-31 平安科技(深圳)有限公司 语种识别方法、装置、设备及存储介质
CN114429766A (zh) * 2022-01-29 2022-05-03 北京百度网讯科技有限公司 调整播放音量的方法、装置、设备以及存储介质
CN115831094A (zh) * 2022-11-08 2023-03-21 北京数美时代科技有限公司 一种多语种语音识别方法、***、存储介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523993A (zh) * 2018-11-02 2019-03-26 成都三零凯天通信实业有限公司 一种基于cnn与gru融合深度神经网络的语音语种分类方法
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN110909131A (zh) * 2019-11-26 2020-03-24 携程计算机技术(上海)有限公司 模型的生成方法、情绪识别方法、***、设备和存储介质
CN111009262A (zh) * 2019-12-24 2020-04-14 携程计算机技术(上海)有限公司 语音性别识别的方法及***
CN111554281A (zh) * 2020-03-12 2020-08-18 厦门中云创电子科技有限公司 自动识别语种的车载人机交互方法、车载终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523993A (zh) * 2018-11-02 2019-03-26 成都三零凯天通信实业有限公司 一种基于cnn与gru融合深度神经网络的语音语种分类方法
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN110909131A (zh) * 2019-11-26 2020-03-24 携程计算机技术(上海)有限公司 模型的生成方法、情绪识别方法、***、设备和存储介质
CN111009262A (zh) * 2019-12-24 2020-04-14 携程计算机技术(上海)有限公司 语音性别识别的方法及***
CN111554281A (zh) * 2020-03-12 2020-08-18 厦门中云创电子科技有限公司 自动识别语种的车载人机交互方法、车载终端及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327584A (zh) * 2021-05-28 2021-08-31 平安科技(深圳)有限公司 语种识别方法、装置、设备及存储介质
CN113327584B (zh) * 2021-05-28 2024-02-27 平安科技(深圳)有限公司 语种识别方法、装置、设备及存储介质
CN114429766A (zh) * 2022-01-29 2022-05-03 北京百度网讯科技有限公司 调整播放音量的方法、装置、设备以及存储介质
CN115831094A (zh) * 2022-11-08 2023-03-21 北京数美时代科技有限公司 一种多语种语音识别方法、***、存储介质和电子设备
CN115831094B (zh) * 2022-11-08 2023-08-15 北京数美时代科技有限公司 一种多语种语音识别方法、***、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN107610709B (zh) 一种训练声纹识别模型的方法及***
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN107481717B (zh) 一种声学模型训练方法及***
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN110853618B (zh) 一种语种识别的方法、模型训练的方法、装置及设备
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
CN112489623A (zh) 语种识别模型的训练方法、语种识别方法及相关设备
CN109686383B (zh) 一种语音分析方法、装置及存储介质
CN108428446A (zh) 语音识别方法和装置
CN112259089B (zh) 语音识别方法及装置
CN112331177B (zh) 基于韵律的语音合成方法、模型训练方法及相关设备
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
CN112349273A (zh) 基于说话人的语音合成方法、模型训练方法及相关设备
CN111402891A (zh) 语音识别方法、装置、设备和存储介质
Massoudi et al. Urban sound classification using CNN
CN112800782A (zh) 融合文本语义特征的语音翻译方法、***、设备
CN112217947B (zh) 客服电话语音转录文本方法、***、设备及存储介质
CN113420556B (zh) 基于多模态信号的情感识别方法、装置、设备及存储介质
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
CN111653270A (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN111583965A (zh) 一种语音情绪识别方法、装置、设备及存储介质
CN112201253B (zh) 文字标记方法、装置、电子设备及计算机可读存储介质
CN114495977A (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
CN110675865B (zh) 用于训练混合语言识别模型的方法和装置
CN112885379A (zh) 客服语音评估方法、***、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination