CN113129867A - 语音识别模型的训练方法、语音识别方法、装置和设备 - Google Patents
语音识别模型的训练方法、语音识别方法、装置和设备 Download PDFInfo
- Publication number
- CN113129867A CN113129867A CN201911384482.4A CN201911384482A CN113129867A CN 113129867 A CN113129867 A CN 113129867A CN 201911384482 A CN201911384482 A CN 201911384482A CN 113129867 A CN113129867 A CN 113129867A
- Authority
- CN
- China
- Prior art keywords
- recognition model
- information
- audio
- speech recognition
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 95
- 239000013598 vector Substances 0.000 claims description 23
- 238000013518 transcription Methods 0.000 claims description 21
- 230000035897 transcription Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000013145 classification model Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 24
- 239000010410 layer Substances 0.000 description 17
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000011295 pitch Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000020925 Bipolar disease Diseases 0.000 description 1
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音识别模型的训练方法、语音识别方法、装置和设备,该方法包括:根据目标对象的音频数据,确定语音训练样本,语音训练样本包括语义信息和音频特征信息;将语义信息和音频特征信息输入到语音识别模型中,对语音识别模型进行迭代训练,直至满足预设训练条件,得到训练后的目标语音识别模型。以解决相关技术中,声纹识别精度不高的问题。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种语音识别模型的 训练方法、语音识别方法、装置、终端设备和存储介质。
背景技术
声纹识别(Speaker Recognition)是通过计算机利用人体所固有的生理 特征或行为特征来进行个人身份鉴定。声纹识别分为说话人辨认和说话人 确认,前者是根据说话人语音在多个参考说话人中确定为某一个;后者是 证实说话人的身份与其声纹是否一致。
目前,在说话人辨认的过程中,由于检测过程不完备,会使对话被分 割成多个语音片段,每个语音片段包含多个人声,这样,会使分辨具体某 个人声的准确度降低。另外,如果要确认与目标说话人相关的说话内容, 就需要获取大量的音频片段,才能找到目标说话人的前后说话内容,这样, 在语句的先后顺序出现错乱时,导致无法证实说话人的身份与其声纹是否 一致。
发明内容
本发明实施例提供一种语音识别模型的训练方法、语音识别方法、装 置、终端设备及存储介质,以解决相关技术中,声纹识别精度不高的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种语音识别模型的训练方法,该方 法包括:
根据目标对象的音频数据,确定语音训练样本,语音训练样本包括语 义信息和音频特征信息;
将语义信息和音频特征信息输入到语音识别模型中,对所述语音识别 模型进行迭代训练,直至满足预设训练条件,得到训练后的目标语音识别 模型。
本发明实施例中,通过对音频数据进行分析,得到音频数据对应的语 义信息和音频特征信息;接着,根据语义信息和音频特征信息对语音识别 模型进行训练,这样,即使在对话音频被分成多个片段时,也能根据音频 特征信息确定目标对象,且根据语义信息识别到目标对象的身份特征,以 便对目标对象在对话音频中被准确追踪,从而提高在音频中识别目标对象 的精度,并在识别出目标对象的情况下,确定目标对象的身份信息,从而 得到对话音频的应用场景。
在一种可能的实施例中,上述涉及到的“将语义信息和音频特征信息 输入到语音识别模型中,对语音识别模型进行迭代训练,直至满足预设训 练条件,得到训练后的目标语音识别模型”的步骤中,具体可以包括:
针对每个语音训练样本分别执行以下步骤:将语义信息和音频特征信 息输入到语音识别模型中,得到语义信息与音频特征信息的相似度预测结 果;
根据每个相似度预测结果对语音识别模型进行调整;
根据语音训练样本对调整后的语音识别模型进行迭代训练,直至满足 预设训练条件,得到训练后的目标语音识别模型。
在另一种可能的实施例中,本发明实施例中的“语音识别模型”可以 包括转录网络模型,基于此,在上述“根据目标对象的音频数据,确定语 音训练样本”的步骤中,具体可以包括:
将音频数据的音频特征向量输入到转录网络模型中,得到语义信息;
其中,语音信息用于确定音频数据对应的文本数据。
在又一种可能的实施例中,本发明实施例中的“语音识别模型”可以 包括预测网络模型,基于此,在上述“根据目标对象的音频数据,确定语 音训练样本”的步骤中,具体可以包括:
在对语音识别模型进行第一次训练的情况下,将预设相似度预测结果 输入到预测网络模型中,得到音频特征信息;
在对语音识别模型进行第N次训练之后的情况下,将从第N-1次训练 输出相似度预测结果输入到预测网络模型中,得到第N次的音频特征信息;
其中,N为大于1的整数,音频特征信息用于确定目标对象的身份信 息。
在再一种可能的实施例中,本发明实施例中的“语音识别模型”还可 以包括联合网络模型,基于此,在上述“将语义信息和音频特征信息输入 到语音识别模型中,得到语义信息与音频特征信息的相似度预测结果”的 步骤中,具体可以包括:
将语义信息和音频特征信息输入到联合网络模型中,得到包括音频数 据的文本信息和目标对象的身份信息的隐藏数据;
将隐藏数据输入到分类模型中,得到文本信息与身份信息的相似度预 测结果。
在再一种可能的实施例中,上述涉及的语音识别模型的训练方法还可 以包括:
根据目标对象的音频数据通过梅尔频率倒谱系数MFCC,确定音频特 征向量。
其中,上述涉及的“根据目标对象的音频数据通过梅尔频率倒谱系数 MFCC,确定音频特征向量”的步骤,具体可以包括:
获取目标对象的音频数据;
对音频数据的波形图进行分帧处理,得到至少一个帧片段;
对至少一个帧片段中的每个帧片段进行离散傅里叶变化DFT,确定每 个帧片段的功率谱;
将功率谱进行数据转化,得到音频特征向量。
在再一种可能的实施例中,在上述涉及的“对至少一个帧片段中的每 个帧片段进行离散傅里叶变化DFT”的步骤之前,还可以包括:
通过汉明窗对每个帧片段进行平滑处理。
第二方面,本发明实施例提供了一种利用目标语音识别模型的语音识 别方法,该方法可以包括:
获取目标音频数据;
将目标音频数据输入到目标语音识别模型中,得到对话信息;其中,
对话信息包括:与目标音频数据对应的文本数据,文本数据携带有目 标对象的身份标识。
本发明实施例中,通过将接收的目标音频数据输入到训练好的语音识 别模型中,可以识别目标音频数据中的目标对象,以及目标对象的身份信 息,通过在第一方面中训练好的语音识别模型,可以对目标对象在音频数 据中被准确追踪,从而提高在音频中识别目标对象的精度,并在识别出目 标对象的情况下,确定目标对象的身份信息,从而得到对话音频的应用场 景。
在一种可能的实施例中,上述涉及“获取目标音频数据”的步骤中, 具体可以包括:
对接收的音频数据进行预处理,得到目标音频数据;
其中,预处理包括数据清洗和/或降噪。
第三方面,本发明实施例提供了一种语音识别模型的训练装置,该装 置可以包括:
处理模块,用于根据目标对象的音频数据,确定语音训练样本,语音 训练样本包括语义信息和音频特征信息;
生成模块,将语义信息和音频特征信息输入到语音识别模型中,对语 音识别模型进行迭代训练,直至满足预设训练条件,得到训练后的目标语 音识别模型。
第四方面,本发明实施例提供了一种利用目标语音识别模型的语音识 别装置,语音识别模型通过第一方面所示的方法或者第三方面所示的装置 训练,该装置包括:
获取模块,用于获取目标音频数据;
处理模块,用于将目标音频数据输入到目标语音识别模型中,得到对 话信息;其中,
对话信息包括:与目标音频数据对应的文本数据,文本数据携带有目 标对象的身份标识。
第五方面,本发明实施例提供了一种终端设备,包括处理器、存储器 及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理 器执行时实现如第一方面任一项所示的语音识别模型的训练方法,或者, 如第二方面任一项所示的利用语音识别模型的语音识别。
第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序, 若计算机程序在计算机中执行,则令计算机执行如第一方面任一项所示的 语音识别模型的训练方法,或者,如第二方面任一项所示的利用语音识别 模型的语音识别。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本 发明其中,相同或相似的附图标记表示相同或相似的特征。
图1为本发明实施例提供的一种语音识别模型的训练方法和语音识别 方法的实现流程示意图;
图2为本发明实施例提供的一种语音识别方法的实现流程示意图;
图3为本发明实施例提供的一种语音识别模型的训练方法的流程图;
图4为本发明实施例提供的一种语音识别模型的结构示意图;
图5为本发明实施例提供的一种转录网络模型的结构示意图;
图6为本发明实施例提供的一种预测网络模型的结构示意图;
图7为本发明实施例提供的一种联合网络模型的结构示意图;
图8为本发明实施例提供的一种语音识别方法的流程图;
图9为本发明实施例提供的一种语音识别模型的训练装置结构示意图
图10为本发明实施例提供的一种语音识别方法装置结构示意图;
图11为本发明实施例提供的一种终端设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进 行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范 围。
声纹识别属于生物特征识别技术,也称为说话人识别,是通过对收到 的说话人语音信号进行分析和提取,自动地确定说话人是否在所建立的说 话人集合里面,并确定说话人是谁的过程。声纹识别分为说话人辨认 (Speaker Identification)和说话人确认(Speaker Verification),前者是根 据说话人语音确定为多个参考说话人中的某一个,是一个选择问题;后者 是证实说话人的身份与其声明的是否一致,是一个二选一的判定问题。说 话人说话内容预先确定的声纹识别称为与文本有关(text-dependent)的声 纹识别,说话人说话内容预先不确定,说什么内容都可以的声纹识别称为 与文本无关(text-independent)的声纹识别。
说话人识别的主要任务是识别谁说了什么,也就是说话人分类任务是 自动理解人类对话音频的关键步骤。例如,在一个医生与患者的对话中, 患者在回答医生的问题(你经常服用心脏病药物吗?)时说了Yes,这和医生用反问的语气说Yes?的含义截然不同。
传统的说话人区分及语音识别主要分为两个部分,分别为自动语音识 别(automatic speech recognition,ASR)和说话人分类(speaker diarization, SD)。其中,ASR结果为语音对应的文字,SD得到的结果为语音片段对 应的说话人。结合这两个结果我们就可以得到“谁说了什么”。下面我们 简单说明一下这两个过程的具体实现。
传统的说话人分类(SD)***分为两步,第一步是检测声谱中的变化, 从而确定说话人何时发生切换;第二步是识别对话中的每个说话人。传统 的说话人分类***依赖人声在声学上的差异来区分对话中的不同说话人。 男人和女人的声音比较容易区分,他们的音高(pitch)存在很大差异,使 用简单的声学模型就能加以区分,而且可以一步完成,音高相似的说话人 则要通过以下方式进行区分:
首先,基于检测到的语音特征,一个变化检测算法将对话均匀地分割 成若干片段,希望每个片段只包含一个说话人。接下来,使用深度学习模 型将来自每个说话人的声音片段映射为一个嵌入向量。在最后一步的聚类 过程中,将这些嵌入聚集在一起,以便在一场对话中跟踪同一个说话人。 在实践中,说话人分类***与自动语音识别(ASR)***并行,结合两个 ***的输出给识别出的词打上标签。自动语音识别***主要是模式匹配法。在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作 为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中 的每个模板进行相似度比较,将相似度最高者作为识别结果输出。该过程 目前常用连接时序分类(ConnectionistTemporal Classification,CTC)算法 实现。
虽然,上述方式在声纹识别中有很多优点,但同样存在诸多局限,下 面进行详细说明:
第一,对话需要被分割成片段,而且每个片段只包含一个人的声音。 否则,嵌入就无法准确表征说话人。然而,目前相关算法并不完备,会导 致分割出的片段包含多个人声。
第二,聚类过程中需要确定说话人的数量,而且这一阶段对输入的准 确性非常敏感。另外,聚类过程中需要在用于估计语音特征的片段大小和 所需的模型准确度之间进行艰难的权衡。片段越长,语音特征质量越高, 因为模型拥有更多与说话人相关的信息。这就造成模型可能将简短的*** 语归入错误的说话人,由此产生非常严重的后果,如在临床、金融语境下, 肯定和否定回答都需要被准确追踪。
第三,传统的说话人分类***没有一个简单的机制来利用在许多自然 对话中特别突出的语言线索。例如,「你吃这个药多长时间了?」在临床 对话场景中最有可能是医护人员说的。类似地,「我们需要什么时候交作业?」很可能是学生而不是老师说的。由此,目前语音识别方式不能准确 分析语音内容,以致不能准确识别与该语音相关的语义以及场景。
综上,针对相关技术出现的问题,本发明实施例提供了一种语音识别 模型的训练方法、语音识别方法、装置、终端设备及存储介质,以解决相 关技术中,声纹识别精度不高的问题。
其中,本发明实施例提出了一种语音识别模型的训练方法和语音识别 方法,来研究自动语音识别和说话人区分,两个方法的整体流程如图1所 示,主要分为两大部分:语音识别模型的建立与训练过程(图1左边部分) 和基于训练后的模型进行语音识别的过程(图1右边部分)。
进一步地,语音识别模型的建立主要可以包括下述步骤:
(1)收集数据,包括手机、电脑等设备上采集的数据以及从网上公 开数据集上下载的数据,其格式有WAVE、MPEG、MP3、WMA等等;
(2)数据清洗,由于从设备上采集的数据存在不清晰、语言不明、 失真等情况,由此,需要将该部分数据清除,保留中文或者英文,高清晰 度的数据集;
(3)添加标签,在步骤(1)中采集到的数据都是音频格式,没有对 应的文字以及说话人标签,由此,需要添加标签,为训练做准备。
(4)训练语音识别模型,即根据目标对象的音频数据(例如步骤(1) 中采集到的音频,在某些场景中,该语音数据可以被步骤(3)中添加标 签),确定语音训练样本,语音训练样本包括语义信息和音频特征信息;
将语义信息和音频特征信息输入到语音识别模型中,对语音识别模型 进行迭代训练,直至满足预设训练条件,得到训练后的目标语音识别模型。
第二部分是利用目标语音识别模型的语音识别,该部分可以包括:
(1)采集需要分析的对话,保存为音频文件;
(2)数据清洗,由于采集过程可能有噪音或者其他非语音的声音, 由此可以对上述音频文件进行去噪;
(3)将去噪后的音频输入到目标语音识别模型(如图2中的joint ASR+SD)中,得到对应的文字和说话人信息(如图2中的说话人spear1: 单词word1;说话人spear2:单词word2 word3;说话人spear1:单词word4 等)。
上述两个部分的方法同时利用了声音和语言两部分的信息,在说话人 识别过程中具有语言模型建模能力。当说话人具有明确角色时该模型会具 有相当好的效果,比如在医患对话、购物等典型场景。
基于上述应用场景,下面对本发明实施例首先对语音识别模型的训练 方法进行详细说明。
图3为本发明实施例提供的一种语音识别模型的训练方法的流程图。
如图3所示,该语音识别模型的训练方法具体可以包括步骤310-步骤 330,具体如下所示:
步骤310:根据目标对象的音频数据,确定语音训练样本,语音训练 样本包括语义信息和音频特征信息。
这里,在一种可能的实施例中,在执行步骤310之前,需要将音频数 据转换为转录网络模型和/或预测网络模型可以识别的格式,由此,该方法 还可以包括:
根据目标对象的音频数据通过梅尔频率倒谱系数(Frequency CepstralCoefficient,MFCC),确定音频特征向量。
下面对该步骤进行进一步地说明:
(1)获取目标对象的音频数据。
(2)对音频数据的波形图进行分帧处理,得到至少一个帧片段。
举例说明,通常情况下取20-40毫秒(ms)为一帧的宽度,在本发明 实施例中可以取25ms为一帧的宽度,对于一个44.1kHz采样的信号,一帧 就包含0.040*44100=1764个采样点,帧移取为20ms,允许每两帧之间有 20ms的重叠部分(overlap)。这样一来,第一帧就是从第1个采样点到第 1764个采样点,第二帧就是从第883个采样点到第2646个采样点,直到最 后一个采样点,如果音频长度不能被帧数整除,在最后补0。对于一个15 秒s的音频数据,可以得到44100*15/882=750帧。
(3)对至少一个帧片段中的每个帧片段进行离散傅里叶变化 (Discrete FourierTransform,DFT),确定每个帧片段的功率谱。
其中,可以通过如下公式(1)和(2)实现确定每个帧片段的功率谱:
其实DFT变换就是两个“相关(correlation)”操作,一个是与音频数据 的频率为k的cos序列相关,一个是与频率为k的sin序列相关,然后两者 叠加就是与频率k的正弦波相关的结果,如果得到的值很大,就表明音频 数据包含频率为k的能量很大。
(4)将功率谱进行数据转化,得到音频特征向量。
举例说明,计算梅尔间隔滤波器组Mel-spaced filter bank频率和Mel频 率之间的转化公式(3)为:
M(f)=1125ln(1+f/700)
M-1(m)=700(exp(m/1125)-1) (3)
其中,梅尔间隔滤波器组是一组非线性分布的滤波器组,它在低频部 分分布密集,高频部分分布稀疏,这样的分布是为了更好得满足人耳听觉 特性。接着,对上述公式(3)中确定的128维的Mel功率谱取log,得到 128维的滤波器组能量log-mel filer bankenergies(即步骤(3)中的k的能 力)。这样做的原因是由于人耳对声音的感知并不是线性的,用log这种 非线性关系表示更加准确。
基于上述步骤(1)-(4),有时为了使得到的音频特征向量更为精确, 在一种可能的实例中,在上述步骤(3)之前,还可以包括:
通过汉明窗对每个帧片段进行平滑处理。
这里,加窗的目的是平滑信号,使用汉明窗加以平滑的话,相比于矩 形窗函数,会减弱FFT以后旁瓣大小以及频谱泄露。
本发明实施例中,使用汉明窗(hamming window)对信号进行加窗处理 公式(4)如下:
由此,就将一段音频数据转化为了一组具有时间序列的音频特征向量。
基于此,这里,在一种可能的实施例中,该语音识别模型可以包括下 述中的至少一种子模型:转录网络模型、预测网络模型、联合网络模型。
在语音识别模型包括转录网络模型时,该步骤310具体可以包括:
将音频数据的音频特征向量输入到转录网络模型中,得到语义信息;
其中,语音信息用于确定音频数据对应的文本数据。
和/或,在语音识别模型包括预测网络模型时,该步骤310具体可以包 括:
在对语音识别模型进行第一次训练的情况下,将预设相似度预测结果 输入到预测网络模型中,得到音频特征信息;
在对语音识别模型进行第N次训练之后的情况下,将从N-1次训练输 出的相似度预测结果输入到预测网络模型中,得到第N次的音频特征信息;
其中,N为大于1的整数,音频特征信息用于确定目标对象的身份信 息。
需要提示的是,上述两种情况可以叠加操作,即在语音识别模型包括 转录网络模型和预测网络模型时,均可采用上述步骤确定语义信息。
为了进一步解释该步骤,下面可以对该步骤进行举例说明:
本发明实施例中涉及到的语音识别模型是在递归神经网络传感 (RecurrentNeural Network Transducer,RNN-T)模型的基础上得到的。该 语音识别模型该模型的主要特点是实现了声音和语言线索的无缝结合,而 且将说话人分类和语音识别集成到同一个***中。相较于同类别单一的识 别***,该集成模型不会大幅度降低语音识别的性能,但却能极大的提高 说话人区分的效果。
这一集成的语音识别模型可以像语音识别***一样训练。训练参考的 数据包括说话人的语音转录以及区分说话人的标签。例如「作业什么时候上交?」<学生>,「我希望你在明天上课前提交,」<老师>。当使用音频 和相应的参考转录文本示例训练模型,使用者可以输入更多对话录音并获 得类似形式的输出。
步骤320:将语义信息和音频特征信息输入到语音识别模型中,对语 音识别模型进行迭代训练,直至满足预设训练条件,得到训练后的目标语 音识别模型。
其中,针对每个语音训练样本分别执行以下步骤:将语义信息和音频 特征信息输入到语音识别模型中,得到语义信息与音频特征信息的相似度 预测结果;根据每个相似度预测结果对语音识别模型进行调整;根据语音 训练样本对调整后的语音识别模型进行迭代训练,直至满足预设训练条件, 得到训练后的目标语音识别模型。
这里,基于上述步骤310中的可能,在语音识别模型还包括联合网络 模型时,该步骤320具体可以包括:
将语义信息和音频特征信息输入到联合网络模型中,得到包括音频数 据的文本信息和目标对象的身份信息的隐藏数据;
将隐藏数据输入到分类模型中,得到文本信息与身份信息的相似度预 测结果。
由此,为了进一步解释如何得到语义信息与音频特征信息的相似度预 测结果,下面结合步骤310中涉及的两个子模型,对该步骤进行举例说明:
如图4所示,在语音识别模型(例如图2中的Joint ASR+SD模型的具 体实现)可以包括转录网络模型(Transcription Network)、预测网络模型 (Prediction Network)和联合网络模型(Joint Network)时,分别对每个 子模型分别进行接介绍。
(1)转录网络模型
转录网络模型又称编码器,其接收经过步骤310中处理后的音频特征 向量作为输入,经过神经网络训练后,输出中间变量该变量中包含了 音频数据的语义信息,可在后续用来训练语音对应的文字信息,即确定音 频数据对应的文本数据。
(2)预测网络模型
预测网络模型主要功能是获取说话人特征,其接受上一次联合网络模 型的输出作为输入,经过神经网络层训练后,输出中间变量该变量 中包含了各段语音对应的音频特征信息即说话人信息,可以用来训练语音 对应的说话人信息。
这里,需要提示的是,在没有上一次联合网络模型的输出即次第一次 训练时,是将预设相似度预测结果输入到预测网络模型中,得到音频特征 信息;在对语音识别模型进行第N次训练之后的情况下,将从第N次训练 输出的相似度预测结果输入到预测网络模型中,得到第N次的音频特征信 息;其中,N为大于1的整数,音频特征信息用于确定目标对象的身份信 息。
(3)联合网络模型
联合网络模型接受转录网络模型和预测网络模型的输出结果,合并和作为输入,通过神经网络层训练后,得到各个标签对应的相似度预 测结果,并将相似度预测结果重新输入到预测网络模型中。这是模型中的 一个反馈回路,其中先前识别出的单词作为输入反馈回来,并且RNN-T模 型能够整合语言线索,如问题的结尾,这也是能够实现说话人区分的核心 原因。为了得到最终对应的文字和说话人,在本发明实施例中,可以直接 选取概率最大的标签,或者综合各个时间段,选取全局概率最大的标签组。
进一步地,为了更好的说明本发明实施例中如何训练语音识别模型, 举出一个具体的例子,如下所示:
如图4所示,转录网络模型的输入用符号序列X=[x1,x2,...xT]表示,式 中t表示序列中符号的数量,对应于音频切分数,xt∈d是Mel滤波器得到 的特征,d等于80。相对应的预测网络模型可以用符号序列Y=[y1,y2,...yU] 表示,包括语音识别的结果和说话人的标注,其中yu∈Ω,Ω是RNN-T网 络的全输出空间。而训练的核心函数由公式(5)所示:
基于此,接下来分别对语音识别模型中三个主要的转录网络模型、预 测网络模型和联合网络模型做详细介绍。
(1)Transcription Network
将音频特征向量作为输入,维度为80。为了方便训练,将长音频分为 最多15秒的音频段,每个音频段可能有多个人在说话。由于较长的单位更 适合于语音识别,可以降低输出序列的时间分辨率,从而提高训练和推理 的效率。为此,本发明实施例中采用了一个时间延迟神经网络(TDNN) 层的层次结构,将时间分辨率从10ms降低到80ms。该体系结构与用于 CTC字模型的编码器非常相似,这种抽取提高了推理速度并降低了识别错 误率。
具体地说,Transcription Network模型由三个由四层组成的相同块组成 如图5所示:
(1)一个具有512个滤波器的一维时间卷积层,该卷积层的kernal大 小为5,再加一个大小为2的max pooling运算符;(2)三个具有512个单 元的双向长短期神经网络(LSTM)层。该Transcription Network模型使用 基于随机梯度的ADAM优化器进行训练。
(2)Prediction Network
Prediction Network模型接收前一次的结果yu-1作为输入,首先经过一 个单词嵌入层组成,它能够将4096个单元的语素词汇映射到512维向量空 间;再将该空间的输出作为LSTM层的输入,该层具有1024个单元;最后 接一个具有512个单元的完全连接层。该过程用公式(6)可以表示为:
单层的LSTM网络可以由图6表示,主要包含以下几个部分:
LSTM之遗忘门
遗忘门(forget gate)是控制是否遗忘的,在LSTM中即以一定的概率 控制是否遗忘上一层的隐藏细胞状态。
LSTM之输入门
下一步是决定让多少新的信息加入到细胞cell状态中来。实现这个需 要包括两个过程:首先,一个叫做“input gate layer”的sigmoid层决定哪些 信息需要更新;一个tanh层生成一个向量,也就是备选的用来更新的内容。
LSTM之细胞状态更新
在研究LSTM输出门之前,我们要先看看LSTM之细胞状态。前面的 遗忘门和输入门的结果都会作用于细胞状态C(t)C(t)。我们来看看从细胞状 态C(t-1)C(t-1)如何得到C(t)C(t)。
LSTM之输出门
有了新的隐藏细胞状态C(t)C(t),我们就可以来看输出门了,隐藏状态 h(t)h(t)的更新由两部分组成,第一部分是o(t)o(t),它由上一序列的隐藏状 态h(t-1)h(t-1)和本序列数据x(t)x(t),以及激活函数sigmoid得到,第二部 分由隐藏状态C(t)C(t)和tanh激活函数组成。
(3)Joint Network
如图7所示,Joint Network模型的输入Transcription Network和 PredictionNetwork输出的合并,然后输入到一个全连接神经网络层中,该 层具有512个隐藏单元,然后将结果输出到具有4096个单元的softmax层 中,得到最后的结果y1、y2和y3。输出层的值即待训练的标签设为文字 加说话人的组合,其实现方式可以如下所示:
hello dr jekyll<spk:pt>
hello mr hyde what brings you here today<spk:dr>
I am struggling again with my bipolar disorder<spk:pt>
这里,需要提示的是,在本发明实施例中的预设训练条件可以包括, 在迭代次数满足预设阈值(即达到最大限定次数)的情况下,就可以确定 为满足预设训练条件,或者,在进行迭代的过程中,确定相似度预设结果 与实际值之前的准确率达到预设某一个预设阈值时,即可确定为满足预设 训练条件。
由此,本发明实施例中,通过对音频数据进行分析,得到音频数据对 应的语义信息和音频特征信息;接着,根据语义信息和音频特征信息对语 音识别模型进行训练,这样,即使在对话音频被分成多个片段时,也能根 据音频特征信息确定目标对象,且根据语义信息识别到目标对象的身份特 征,以便对目标对象在对话音频中被准确追踪,从而提高在音频中识别目 标对象的精度,并在识别出目标对象的情况下,确定目标对象的身份信息, 从而得到对话音频的应用场景。
综上,本发明实施例通过结合语言信息来研究说话人区分过程,充分 利用了已知信息,提高了识别精度。另外,由于上述方法不需要强制对齐, 可以使用文本序列本身来进行学习训练。基于RNN-T模型,加速解码,大 量空白的存在,使得模型在解码过程中可以使用跳帧操作,因此大大加速 了解码过程。由于上述方法具有单调性,能够进行实时在线解码,增加应 用场景的范围。
另外,本发明实施例还提供了,基于上述训练后的语音识别模型的语 音识别方法。
图8为本发明实施例提供的一种语音识别方法的流程图。
如图8所示,该方法具体可以包括:
步骤810,获取目标音频数据。
这里,在一种可能的实施例中,对接收的音频数据进行预处理,得到 目标音频数据;
其中,预处理包括数据清洗和/或降噪。
步骤820,将目标音频数据输入到上述步骤320中确定的目标语音识 别模型中,得到对话信息;其中,
对话信息包括:与目标音频数据对应的文本数据,文本数据携带有目 标对象的身份标识。
基于上述两个过程的方法,本发明实施例还提供可以两种装置,即语 音识别模型的训练装置和语音识别装置,具体如下所示。
图9为本发明实施例提供的一种语音识别模型的训练装置结构示意图。
如图9所示,该语音识别模型的训练装置90具体可以包括:
处理模块901,用于根据目标对象的音频数据,确定语音训练样本, 语音训练样本包括语义信息和音频特征信息;
生成模块902,将语义信息和音频特征信息输入到语音识别模型中, 对所述语音识别模型进行迭代训练,直至满足预设训练条件,得到训练后 的目标语音识别模型。
其中,生成模块902具体可以用于,针对每个语音训练样本分别执行 以下步骤:将语义信息和音频特征信息输入到语音识别模型中,得到语义 信息与音频特征信息的相似度预测结果;根据每个相似度预测结果对语音 识别模型进行调整;根据语音训练样本对调整后的语音识别模型进行迭代 训练,直至满足预设训练条件,得到训练后的目标语音识别模型。
在一种可能的实施例中,语音识别模型包括转录网络模型。基于此, 本发明实施例中的处理模块901具体可以包括:
将音频数据的音频特征向量输入到转录网络模型中,得到语义信息;
其中,语音信息用于确定音频数据对应的文本数据。
在另一种可能的实施例中,语音识别模型包括预测网络模型;基于此, 本发明实施例中的生成模块902在对语音识别模型进行第一次训练的情况 下,将预设相似度预测结果输入到预测网络模型中,得到音频特征信息;
在对语音识别模型进行第N次训练之后的情况下,将从第N-1次训练 输出的相似度预测结果输入到预测网络模型中,得到第N次的音频特征信 息;
其中,N为大于1的整数,音频特征信息用于确定目标对象的身份信 息。
在又一种可能的实施例中,语音识别模型还包括联合网络模型;本发 明实施例中的生成模块902具体可以用于,将语义信息和音频特征信息输 入到联合网络模型中,得到包括音频数据的文本信息和目标对象的身份信 息的隐藏数据;
将隐藏数据输入到分类模型中,得到文本信息与身份信息的相似度预 测结果。
另外,语音识别模型的训练装置90还可以包括确定模块904,用于根 据目标对象的音频数据通过梅尔频率倒谱系数MFCC,确定音频特征向量。
在一种可能的实施例中,确定模块904具体可以用于,获取目标对象 的音频数据;对音频数据的波形图进行分帧处理,得到至少一个帧片段; 对至少一个帧片段中的每个帧片段进行离散傅里叶变化DFT,确定每个帧 片段的功率谱;将功率谱进行数据转化,得到音频特征向量。
基于此,语音识别模型的训练装置90还可以包括变换模块905,用于 通过汉明窗对每个帧片段进行平滑处理。
由此,本发明实施例中,通过对音频数据进行分析,得到音频数据对 应的语义信息和音频特征信息;接着,根据语义信息和音频特征信息对语 音识别模型进行训练,这样,即使在对话音频被分成多个片段时,也能根 据音频特征信息确定目标对象,且根据语义信息识别到目标对象的身份特 征,以便对目标对象在对话音频中被准确追踪,从而提高在音频中识别目 标对象的精度,并在识别出目标对象的情况下,确定目标对象的身份信息, 从而得到对话音频的应用场景。
另外,图10为本发明实施例提供的一种利用目标语音识别模型的语音 识别装置结构示意图。
如图10所示,该语音识别装置100具体可以包括:
获取模块1001,用于获取目标音频数据;
处理模块1002,用于将目标音频数据输入到目标语音识别模型中,得 到对话信息;其中,
对话信息包括:与目标音频数据对应的文本数据,文本数据携带有目 标对象的身份标识。
其中,该获取模块1001具体可以用于,对接收的音频数据进行预处理, 得到目标音频数据;其中,预处理包括数据清洗和/或降噪。
图11为本发明实施例提供的一种终端设备的硬件结构示意图。
该终端设备1100包括但不限于:射频单元1101、网络模块1102、音 频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输 入单元1107、接口单元1108、存储器1109、处理器1110、以及电源1111 等部件。本领域技术人员可以理解,图11中示出的终端设备结构并不构成 对终端设备的限定,终端设备可以包括比图示更多或更少的部件,或者组 合某些部件,或者不同的部件布置。在本发明实施例中,终端设备包括但 不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、 以及计步器等。
应理解的是,本发明实施例中,射频单元1101可用于收发信息或通话 过程中,信号的接收和发送,具体的,将来自基站的下行资源接收后,给 处理器1110处理;另外,将上行的资源发送给基站。通常,射频单元1101 包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、 双工器等。此外,射频单元1101还可以通过无线通信***与网络和其他设 备通信。
终端设备通过网络模块1102为用户提供了无线的宽带互联网访问,如 帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元1103可以将射频单元1101或网络模块1102接收的或者 在存储器1109中存储的音频资源转换成音频信号并且输出为声音。而且, 音频输出单元1103还可以提供与终端设备1100执行的特定功能相关的音 频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元 1103包括扬声器、蜂鸣器以及受话器等。
输入单元1104用于接收音频或视频信号。输入单元1104可以包括图 形处理器(Graphics Processing Unit,GPU)11041和麦克风11042,图形 处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄 像头)获得的静态图片或视频的图像资源进行处理。处理后的图像帧可以 显示在显示单元1107上。经图形处理器11041处理后的图像帧可以存储在 存储器1109(或其它存储介质)中或者经由射频单元1101或网络模块 1102进行发送。麦克风11042可以接收声音,并且能够将这样的声音处理 为音频资源。处理后的音频资源可以在电话通话模式的情况下转换为可经 由射频单元1101发送到移动通信基站的格式输出。
终端设备1100还包括至少一种传感器1105,比如光传感器、运动传 感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器, 其中,环境光传感器可根据环境光线的明暗来调节显示面板11061的亮度, 接近传感器可在终端设备1100移动到耳边时,关闭显示面板11061和/或 背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为 三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终 端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别 相关功能(比如计步器、敲击)等;传感器1105还可以包括指纹传感器、 压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度 计、红外线传感器等,在此不再赘述。
显示单元1106用于显示由用户输入的信息或提供给用户的信息。显示 单元1106可包括显示面板11061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED) 等形式来配置显示面板11061。
用户输入单元1107可用于接收输入的数字或字符信息,以及产生与终 端设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单 元1107包括触控面板11071以及其他输入设备11072。触控面板11071, 也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、 触笔等任何适合的物体或附件在触控面板11071上或在触控面板11071附 近的操作)。触控面板11071可包括触摸检测装置和触摸控制器两个部分。 其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号, 将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息, 并将它转换成触点坐标,再送给处理器1110,接收处理器1110发来的命 令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等 多种类型实现触控面板11071。除了触控面板11071,用户输入单元1107 还可以包括其他输入设备11072。具体地,其他输入设备11072可以包括 但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、 鼠标、操作杆,在此不再赘述。
进一步的,触控面板11071可覆盖在显示面板11061上,当触控面板 11071检测到在其上或附近的触摸操作后,传送给处理器1110以确定触摸 事件的类型,随后处理器1110根据触摸事件的类型在显示面板11061上提 供相应的视觉输出。虽然在图11中,触控面板11071与显示面板11061是 作为两个独立的部件来实现终端设备的输入和输出功能,但是在某些实施 例中,可以将触控面板11071与显示面板11061集成而实现终端设备的输 入和输出功能,具体此处不做限定。
接口单元1108为外部装置与终端设备1100连接的接口。例如,外部 装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、 有线或无线资源端口、存储卡端口、用于连接具有识别模块的装置的端口、 音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元1108可 以用于接收来自外部装置的输入(例如,资源信息、电力等等)并且将接收 到的输入传输到终端设备1100内的一个或多个元件或者可以用于在终端设 备1100和外部装置之间传输资源。
存储器1109可用于存储软件程序以及各种资源。存储器1109可主要 包括存储程序区和存储资源区,其中,存储程序区可存储操作***、至少 一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存 储资源区可存储根据手机的使用所创建的资源(比如音频资源、电话本等) 等。此外,存储器1109可以包括高速随机存取存储器,还可以包括非易失 性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存 储器件。
处理器1110是终端设备的控制中心,利用各种接口和线路连接整个终 端设备的各个部分,通过运行或执行存储在存储器1109内的软件程序和/ 或模块,以及调用存储在存储器1109内的资源,执行终端设备的各种功能 和处理资源,从而对终端设备进行整体监控。处理器1110可包括一个或多 个处理单元;优选的,处理器1110可集成应用处理器和调制解调处理器, 其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不 集成到处理器1110中。
终端设备1100还可以包括给各个部件供电的电源1111(比如电池), 优选的,电源1111可以通过电源管理***与处理器1110逻辑连接,从而 通过电源管理***实现管理充电、放电、以及功耗管理等功能。
另外,终端设备1100包括一些未示出的功能模块,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程 序,当计算机程序在计算机中执行时,令计算机执行本发明实施例的语音 识别模型的训练方法或者语音识别方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他 变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、 物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更 多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括 该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上 述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可 以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本 发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品 的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、 磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计 算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于 上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制 性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和 权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护 之内。
Claims (13)
1.一种语音识别模型的训练方法,其特征在于,所述方法包括:
根据目标对象的音频数据,确定语音训练样本,所述语音训练样本包括语义信息和音频特征信息;
将所述语义信息和所述音频特征信息输入到语音识别模型中,对所述语音识别模型进行迭代训练,直至满足预设训练条件,得到训练后的目标语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述语义信息和所述音频特征信息输入到语音识别模型中,对所述语音识别模型进行迭代训练,直至满足预设训练条件,得到训练后的目标语音识别模型,包括:
针对每个语音训练样本分别执行以下步骤:将所述语义信息和所述音频特征信息输入到语音识别模型中,得到所述语义信息与所述音频特征信息的相似度预测结果;
根据每个所述相似度预测结果对所述语音识别模型进行调整;
根据所述语音训练样本对调整后的语音识别模型进行迭代训练,直至满足预设训练条件,得到训练后的目标语音识别模型。
3.根据权利要求2所述的方法,其特征在于,所述语音识别模型包括转录网络模型;所述根据目标对象的音频数据,确定语音训练样本,包括:
将所述音频数据的音频特征向量输入到所述转录网络模型中,得到所述语义信息;
其中,所述语音信息用于确定所述音频数据对应的文本数据。
4.根据权利要求2所述的方法,其特征在于,所述语音识别模型包括预测网络模型;所述根据目标对象的音频数据,确定语音训练样本,包括:
在对所述语音识别模型进行第一次训练的情况下,将预设相似度预测结果输入到所述预测网络模型中,得到所述音频特征信息;
在对所述语音识别模型进行第N次训练之后的情况下,将从第N-1次训练输出的相似度预测结果输入到所述预测网络模型中,得到第N次的音频特征信息;
其中,N为大于1的整数,所述音频特征信息用于确定所述目标对象的身份信息。
5.根据权利要求4所述的方法,其特征在于,所述语音识别模型还包括联合网络模型;
将所述语义信息和所述音频特征信息输入到语音识别模型中,得到所述语义信息与所述音频特征信息的相似度预测结果,包括:
将所述语义信息和所述音频特征信息输入到所述联合网络模型中,得到包括所述音频数据的文本信息和所述目标对象的身份信息的隐藏数据;
将所述隐藏数据输入到分类模型中,得到所述文本信息与所述身份信息的相似度预测结果。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述目标对象的音频数据通过梅尔频率倒谱系数MFCC,确定所述音频特征向量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标对象的音频数据通过梅尔频率倒谱系数MFCC,确定所述音频特征向量,包括:
获取所述目标对象的音频数据;
对所述音频数据的波形图进行分帧处理,得到至少一个帧片段;
对所述至少一个帧片段中的每个帧片段进行离散傅里叶变化DFT,确定所述每个帧片段的功率谱;
将所述功率谱进行数据转化,得到所述音频特征向量。
8.一种利用目标语音识别模型的语音识别方法,所述目标语音识别模型通过权利要求1-6任一项所述的方法而训练,其特征在于,所述方法包括:
获取目标音频数据;
将所述目标音频数据输入到所述目标语音识别模型中,得到对话信息;其中,
所述对话信息包括:与所述目标音频数据对应的文本数据,所述文本数据携带有目标对象的身份标识。
9.根据权利要求8所述的方法,其特征在于,所述获取目标音频数据,包括:
对接收的音频数据进行预处理,得到所述目标音频数据;
其中,所述预处理包括数据清洗和/或降噪。
10.一种语音识别模型的训练装置,其特征在于,所述装置包括:
处理模块,用于根据目标对象的音频数据,确定语音训练样本,所述语音训练样本包括语义信息和音频特征信息;
生成模块,将所述语义信息和所述音频特征信息输入到语音识别模型中,对所述语音识别模型进行迭代训练,直至满足预设训练条件,得到训练后的目标语音识别模型。
11.一种利用目标语音识别模型的语音识别装置,所述目标语音识别模型通过权利要求1所述的方法而训练,其特征在于,所述装置包括:
获取模块,用于获取目标音频数据;
处理模块,用于将所述目标音频数据输入到所述目标语音识别模型中,得到对话信息;其中,
所述对话信息包括:与所述目标音频数据对应的文本数据,所述文本数据携带有目标对象的身份标识。
12.一种终端设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的语音识别模型的训练方法,或者,如权利要求8-9任一项所述的利用目标语音识别模型的语音识别方法。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,若计算机程序在计算机中执行,则令计算机执行如权利要求1-7任一项所述的语音识别模型的训练方法,或者,如权利要求8-9任一项所述的利用语音识别模型的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911384482.4A CN113129867B (zh) | 2019-12-28 | 2019-12-28 | 语音识别模型的训练方法、语音识别方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911384482.4A CN113129867B (zh) | 2019-12-28 | 2019-12-28 | 语音识别模型的训练方法、语音识别方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113129867A true CN113129867A (zh) | 2021-07-16 |
CN113129867B CN113129867B (zh) | 2024-05-24 |
Family
ID=76767254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911384482.4A Active CN113129867B (zh) | 2019-12-28 | 2019-12-28 | 语音识别模型的训练方法、语音识别方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113129867B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436634A (zh) * | 2021-07-30 | 2021-09-24 | 中国平安人寿保险股份有限公司 | 基于声纹识别的语音分类方法、装置及相关设备 |
CN114429766A (zh) * | 2022-01-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 调整播放音量的方法、装置、设备以及存储介质 |
US11908454B2 (en) | 2021-12-01 | 2024-02-20 | International Business Machines Corporation | Integrating text inputs for training and adapting neural network transducer ASR models |
CN117784632A (zh) * | 2024-02-28 | 2024-03-29 | 深圳市轻生活科技有限公司 | 一种基于离线语音识别的智能家居控制*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543076A (zh) * | 2011-01-04 | 2012-07-04 | ***通信集团公司 | 用于语音输入法的语音训练方法及相应的*** |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN107871497A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 语音识别方法和装置 |
CN110473529A (zh) * | 2019-09-09 | 2019-11-19 | 极限元(杭州)智能科技股份有限公司 | 一种基于自注意力机制的流式语音转写*** |
US20210312905A1 (en) * | 2020-04-03 | 2021-10-07 | Microsoft Technology Licensing, Llc | Pre-Training With Alignments For Recurrent Neural Network Transducer Based End-To-End Speech Recognition |
-
2019
- 2019-12-28 CN CN201911384482.4A patent/CN113129867B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543076A (zh) * | 2011-01-04 | 2012-07-04 | ***通信集团公司 | 用于语音输入法的语音训练方法及相应的*** |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN107871497A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 语音识别方法和装置 |
CN110473529A (zh) * | 2019-09-09 | 2019-11-19 | 极限元(杭州)智能科技股份有限公司 | 一种基于自注意力机制的流式语音转写*** |
US20210312905A1 (en) * | 2020-04-03 | 2021-10-07 | Microsoft Technology Licensing, Llc | Pre-Training With Alignments For Recurrent Neural Network Transducer Based End-To-End Speech Recognition |
Non-Patent Citations (2)
Title |
---|
KANISHKA RAO, ET AL.: "Exploring architectures, data and units for streaming end-to-end speech recognition with RNN-transducer", 《2017 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU)》, pages 193 - 199 * |
范汝超: "端到端的语音识别研究", 《中国优秀硕士学位论文全文库(信息科技辑)》, no. 9 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436634A (zh) * | 2021-07-30 | 2021-09-24 | 中国平安人寿保险股份有限公司 | 基于声纹识别的语音分类方法、装置及相关设备 |
CN113436634B (zh) * | 2021-07-30 | 2023-06-20 | 中国平安人寿保险股份有限公司 | 基于声纹识别的语音分类方法、装置及相关设备 |
US11908454B2 (en) | 2021-12-01 | 2024-02-20 | International Business Machines Corporation | Integrating text inputs for training and adapting neural network transducer ASR models |
CN114429766A (zh) * | 2022-01-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 调整播放音量的方法、装置、设备以及存储介质 |
CN117784632A (zh) * | 2024-02-28 | 2024-03-29 | 深圳市轻生活科技有限公司 | 一种基于离线语音识别的智能家居控制*** |
CN117784632B (zh) * | 2024-02-28 | 2024-05-14 | 深圳市轻生活科技有限公司 | 一种基于离线语音识别的智能家居控制*** |
Also Published As
Publication number | Publication date |
---|---|
CN113129867B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
WO2021135577A1 (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
US20150325240A1 (en) | Method and system for speech input | |
CN112464661B (zh) | 模型训练方法、语音对话检测方法及相关设备 | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
US11705105B2 (en) | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same | |
US11398219B2 (en) | Speech synthesizer using artificial intelligence and method of operating the same | |
CN110047481A (zh) | 用于语音识别的方法和装置 | |
US11417313B2 (en) | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium | |
US20210110815A1 (en) | Method and apparatus for determining semantic meaning of pronoun | |
CN113096647B (zh) | 语音模型训练方法、装置和电子设备 | |
JP6875819B2 (ja) | 音響モデル入力データの正規化装置及び方法と、音声認識装置 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN110853669A (zh) | 音频识别方法、装置及设备 | |
US10522135B2 (en) | System and method for segmenting audio files for transcription | |
WO2020073839A1 (zh) | 语音唤醒方法、装置、***及电子设备 | |
CN115798459B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN109064720B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN116229962A (zh) | 终端设备及语音唤醒方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |