CN109243428A - 一种建立语音识别模型的方法、语音识别方法及*** - Google Patents

一种建立语音识别模型的方法、语音识别方法及*** Download PDF

Info

Publication number
CN109243428A
CN109243428A CN201811196304.4A CN201811196304A CN109243428A CN 109243428 A CN109243428 A CN 109243428A CN 201811196304 A CN201811196304 A CN 201811196304A CN 109243428 A CN109243428 A CN 109243428A
Authority
CN
China
Prior art keywords
network
target
audio data
syllable
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811196304.4A
Other languages
English (en)
Other versions
CN109243428B (zh
Inventor
王知践
钱胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811196304.4A priority Critical patent/CN109243428B/zh
Publication of CN109243428A publication Critical patent/CN109243428A/zh
Priority to US16/544,524 priority patent/US11164561B2/en
Application granted granted Critical
Publication of CN109243428B publication Critical patent/CN109243428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种建立语音识别模型的方法、语音识别方法及***,其中所述建立语音识别模型的方法包括读取并解析每个语法文件,构建每个语法的网络;读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络;对各个音节网络进行合并最小化操作,形成音元解码网络;利用所述音元解码网络和语言模型,形成语音识别模型。应用本发明所述方案,扩展型强,支持N‑Gram语言模型,支持类模型,使用灵活,适用于车载环境中的嵌入式识别器。

Description

一种建立语音识别模型的方法、语音识别方法及***
【技术领域】
本发明涉及语音处理技术领域,特别涉及一种建立语音识别模型的方法、语音识别方法及***。
【背景技术】
虽然网络越来越普及,但是还是有很多情况下是没有网络或者网络比较弱,这时候使用云端的语音识别服务难以实现,而且对于一些不复杂的语音识别指令或者短query放到本地的嵌入式识别器中更方便,响应也会更快,使用起来也会更方便。
现有的本地语音识别技术方案中,语音都是基于用户给定的一个词表和语法格式进行构建,单一且扩展性低,不支持多grammar构建,不支持类模型等,使用起来不够灵活。
【发明内容】
本申请的多个方面提供了一种建立语音识别模型的方法、语音识别方法及***,用于提供一种灵活的语音识别技术方案。
本申请的一方面,提供一种建立语音识别模型的方法,包括:
读取并解析每个语法文件,构建每个语法的网络;
读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络;
对各个音节网络进行合并最小化操作,形成音元解码网络;
利用所述音元解码网络和语言模型,形成语音识别模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述读取并解析每个语法文件包括:
对所述每个语法文件进行解析,得到其中的词典信息和连接关系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述声学的音节映射关系表为预先训练的DNN模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述音节为每个字的读音。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对各个音节网络进行合并最小化操作包括:
采用计算机图论方法对所述各个音节网络的组合进行优化。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语言模型为N-Gram语言模型。
本发明的另一方面,提供一种语音识别方法,包括:
获取目标音频数据;
提取所述目标音频数据中的目标滤波器组特征;
将所述目标音频数据中的目标滤波器组特征作为所述语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,将所述目标音频数据中的目标滤波器组特征作为所述语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据,包括:
将所述目标音频数据中的目标滤波器组特征作为训练后的DNN模型的输入数据,获取第一目标滤波器组特征的目标音素状态上的后验概率特征;
采用训练后的HMM的音素转换概率、所述第一目标滤波器组特征的目标音素状态上的后验概率特征以及N-Gram语言模型,在所述语音识别模型中获取所述目标音频数据对应的目标词序列数据。
本发明的另一方面,提供一种建立语音识别模型的***,包括:
构建模块,用于读取并解析每个语法文件,构建每个语法的网络;
展开模块,用于读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络;
合并模块,用于对各个音节网络进行合并最小化操作,形成音元解码网络;
生成模块,用于利用所述音元解码网络和语言模型,形成语音识别模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述构建模块具体用于:
对所述每个语法文件进行解析,得到其中的词典信息和连接关系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述声学的音节映射关系表为预先训练好的DNN模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述音节为每个字的读音。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述合并模块具体用于:
采用计算机图论方法对所述各个音节网络的组合进行优化。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语言模型为N-Gram语言模型。
本发明的另一发明,提供一种语音识别***,包括:
音频数据获取模块,用于获取目标音频数据;
特征提取模块,用于提取所述目标音频数据中的目标滤波器组特征;
词序列获取模块,用于将所述目标音频数据中的目标滤波器组特征作为如所述语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述词序列获取模块具体用于:
将所述目标音频数据中的目标滤波器组特征作为训练后的DNN模型的输入数据,获取第一目标滤波器组特征的目标音素状态上的后验概率特征;
采用训练后的HMM的音素转换概率、所述第一目标滤波器组特征的目标音素状态上的后验概率特征以及N-Gram语言模型,在所述语音识别模型中获取所述目标音频数据对应的目标词序列数据。
本发明的另一方面,提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
本发明的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,提供了一种灵活的语音识别技术方案。
【附图说明】
图1为本发明所述建立语音识别模型的方法的流程图;
图2为本发明所述语法网络的示意图;
图3为本发明所述语音识别方法的流程图;
图4为本发明所述建立语音识别模型的***的结构图;
图5为本发明所述语音识别***的结构图;
图6示出了适于用来实现本发明实施方式的示例性计算机***/服务器012的框图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
图1为本发明所述建立语音识别模型的方法实施例的流程图,如图1所示,包括以下步骤:
步骤S11、读取并解析每个语法文件,构建每个语法的网络;
步骤S12、读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络;
步骤S13、对各个音节网络进行合并最小化操作,形成音元解码网络;
步骤S14、利用所述音元解码网络和语言模型,形成语音识别模型。
在步骤S11的一种优选实现方式中,
本实施例所述语音识别模型主要应用于车载语音识别环境中,因此,所需要识别的语音命令范围较小。通过事先采集,可以得到大部分语音命令对应的语法文件。
优选地,所述语音命令例如,打电话给XX,播放歌曲,今天天气,打开地图,打开导航,打开雨刷等。所述语法文件例如,“打电话给\n XX\n”。
对所述每个语法文件进行解析,得到其中的词典信息和连接关系。
优选地,所述词典信息为语法文件中分割得到的每个词的词性,例如,所述词性包括:通用词、联系人、数字、歌曲名称、车载设备等。
优选地,所述连接关系为语法文件中分割得到的每个词的连接关系,例如,所述连接关系为今天天气、打电话给+XX、打电话给+数字、播放+歌曲等。
优选地,构建每个语法的网络,例如,通用词<common_ngram>、通用词+联系人<common_ngram>-<chn_name-ngram>、通用词+数字<common_ngram>-<num_ngram>、通用词+歌曲名称<common_ngram>-<song_ngram>等。
在步骤S12的一种优选实现方式中,
读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络。
优选地,所述声学的音节映射关系表为预先训练好的声学模型,所述声学模型为DNN(Deep Neural Network,深度神经网络)模型。所述DNN模型是通过以下方法预先训练得到的:
采用训练音频语料对GMM(Gaussian Mixed Model,高斯混合模型)和HMM(HiddenMarkov Model,隐马尔可夫模型)进行训练,获取训练后的GMM输出的至少一个音元状态中每个音元状态的似然概率特征,并获取训练后的HMM的音元转换概率;
将所述每个音元状态的似然概率特征转换为每个音元状态的后验概率特征;
根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音元状态的后验概率特征,计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值;
将所述矩阵权重值和矩阵偏置值添加至所述DNN模型中,生成训练后的DNN模型。
优选地,利用所述DNN模型将所述每个语法的网络分别展开为音节网络。
优选地,将每个语法的网络中的每个词采用这个词的DNN模型替换,所述DNN模型中包含构成该词的音元之间的转移概率。
优选地,所述音节为每个字的读音,例如,今的音节对应为jin,天的音节对应为tian,气的音节对应为qi。
通过所述音节网络与语言模型相结合,可以形成针对所述语法的语音处理模型,如果目标音频数据为所述语法对应的音频数据,则可以以目标音频数据的音元状态序列为输入,获取所述目标音频数据对应的目标词序列数据。
在步骤S13的一种优选实现方式中,
优选地,本实施例所述语音识别模型主要应用于车载语音识别环境中,因此,所需要识别的语音命令范围较小。通过事先采集,可以得到大部分语音命令对应的语法文件。因此,通过上述步骤分别得到了各个语法文件对应的音节网络,每个音节网络都可以独立运行,得到其对应的语法的目标词序列数据。通过各个音节网络的组合,就可以得到所有语法的目标词序列数据。
为了节约成本,减小网络复杂度,可以对各个音节网络的组合进行合并去除冗余关系,将所述各个音节网络的组合减小到最小。
优选地,可以采用计算机图论方法对所述各个音节网络的组合进行优化,即可得到音元解码网络。在此可以采用任意的计算机图论方法来进行优化,由于是现有技术,在此不再具体描述。
所述音元解码网络涵盖了所有的语法,如图2所示,例如,对于入口<s_common>,连接关系是入口<s_common>连接通用词<common_ngram>,通用词<common_ngram>可以连接到联系人<chn_name-ngram>、数字<num_ngram>、歌曲名称<song_ngram>、车载设备<chezai_ngram>、结束标志</s_common>,同时还提供了车载入口<s_chezai>,直接对预设车载语音指令进行响应,例如:打开地图、打开导航、打开雨刷等。既可以通过通用词+车载设备的方式进行处理,可以直接通过打开车载设备的方式进行处理。其中,<s_common>为一句话的开始标志,</s_common>为一句话的结束标志;<s_chezai>为车载入口处理的语音的开始标志,</s_chezai>为车载入口处理的语音的结束标志。
在步骤S14的一种优选实现方式中,
利用所述音元解码网络和语言模型,形成语音识别模型。
优选地,所述语言模型为N-Gram语言模型,由于N-Gram语言模型可以自行推断下一个词出现的概率,因此可以结合出现概率对每条网络路径的概率值进行加权,增加网络路径的可能性,通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数据,可以进一步提升语音识别的准确性。
优选地,所述N-Gram语言模式是通过以下方式训练得到的:在训练词序列语料中获取训练词序列数据的出现概率,并根据所述训练词序列数据的出现概率生成N-Gram语言模型,N-Gram语言模型是基于一种假设,第K个词的出现置于前面的K-1个词相关,而与其它任何词都不相关,一个字词串的概率为各个词的出现概率的乘积。其中,所述训练词序列语料为车载环境中输入的各种语法文件。
所述语音识别模型,涵盖了所有语法对应的各个网络路径,并且,可扩展性强,对于新增加的语法文件,只需要读取并解析,构建对应网络,展开为音节网络,与现有音元解码网络合并即可。不需要根据所有语法文件重新生成。
采用本实施例所述方案,扩展型强,支持N-Gram语言模型,支持类模型,使用灵活,适用于车载环境中的嵌入式识别器。
图3为本发明所述语音识别方法实施例的流程图,如图3所示,包括以下步骤:
步骤S31、获取目标音频数据;
步骤S32、提取所述目标音频数据中的目标滤波器组Filter bank特征;
步骤S33、将所述目标音频数据中的目标Filter bank特征作为语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据。
优选地,所述语音识别模型为上述建立语音识别模型的方法实施例中所建立的语音识别模型。
在步骤S31的一种优选实现方式中,
优选地,车载终端获取用户所输入的目标音频数据,所述目标音频数据具体可以为用户基于当前需要进行语音输入的语音,并且为当前需要进行语音识别的音频数据。
所述车载终端可以是车辆行车电脑,也可以是通过蓝牙、WiFi与车载电脑相连接的移动设备,如智能手机等。
具体地,车载终端上可以设置一个语音输入的触发条件,例如,触发条件可以为一个语音输入按钮,用户通过按动语音输入按钮触发输入待识别的音频数据,终端的语音采集模块可以采集所述待识别的音频数据,而后将采集的待识别的音频数据发送至语音处理模块,而语音处理模块可以获取待识别的音频数据。
虽然语音识别可以由云端进行,但是,对于车载终端,很多情况下是没有网络或者网络比较弱;这时候使用云端进行语音识别存在一些问题,因此,在本实施例中,所述语音处理模块为终端上的嵌入式识别器。
在步骤S32的一种优选实现方式中,
优选地,对所述目标音频数据进行数据分帧,获取所述目标音频数据中的至少一帧音频数据;获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filterbank特征;
按照所述至少一帧音频数据的时间排序,获取所述每帧第一音频数据的前后预设帧数的第二音频数据,获取所述第二音频数据对应的第二目标Filterbank特征。
在步骤S33的一种优选实现方式中,
将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filterbank特征作为语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据。
优选地,
将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filterbank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述第一目标Filter bank特征的目标音素状态上的后验概率特征;
采用训练后的HMM的音素转换概率、所述第一目标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语言模型,在所述语音识别模型中获取所述目标音频数据对应的目标词序列数据,由于N-Gram语言模型可以自行推断下一个词出现的概率,因此可以结合出现概率对音元解码网络中每条网络路径的概率值进行加权,增加网络路径的可能性,通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数据,可以进一步提升语音识别的准确性。
例如,对于目标音频数据“今天天气”,根据其第一目标Filter bank特征的目标音素状态上的后验概率特征,在<s_common>-<common_ngram>-</s_commnon>的网络路径上,获取目标音频数据对应的目标词序列数据“今天天气”。
在本实施例中,在获取到目标音频数据时,通过获取目标音频数据中的目标Filter bank特征,并基于预先训练得到的语音识别模型,对目标音频数据进行语音识别得到目标词序列数据。所述语音识别模型包括根据所有语法文件整合得到的音元解码网络,根据其中涵盖的网络路径,结合N-Gram语言模型获取目标音频数据对应的目标词序列数据,进一步提升了语音识别的准确性。
图4为本发明所述建立语音识别模型的***实施例的结构图,如图4所示,包括:
构建模块41,用于读取并解析每个语法文件,构建每个语法的网络;
展开模块42,用于读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络;
合并模块43,用于对各个音节网络进行合并最小化操作,形成音元解码网络;
生成模块44,用于利用所述音元解码网络和语言模型,形成语音识别模型。
在构建模块41的一种优选实现方式中,
本实施例所述语音识别模型主要应用于车载语音识别环境中,因此,所需要识别的语音命令范围较小。通过事先采集,可以得到大部分语音命令对应的语法文件。
优选地,所述语音命令例如,打电话给XX,播放歌曲,今天天气,打开地图,打开导航,打开雨刷等。所述语法文件例如,“打电话给\n XX\n”。
构建模块41对所述每个语法文件进行解析,得到其中的词典信息和连接关系。
优选地,所述词典信息为语法文件中分割得到的每个词的词性,例如,所述词性包括:通用词、联系人、数字、歌曲名称、车载设备等。
优选地,所述连接关系为语法文件中分割得到的每个词的连接关系,例如,所述连接关系为今天天气、打电话给+XX、打电话给+数字、播放+歌曲等。
优选地,构建每个语法的网络,例如,通用词<common_ngram>、通用词+联系人<common_ngram>-<chn_name-ngram>、通用词+数字<common_ngram>-<num_ngram>、通用词+歌曲名称<common_ngram>-<song_ngram>等。
在展开模块42的一种优选实现方式中,
展开模块42读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络。
优选地,所述声学的音节映射关系表为预先训练好的声学模型,所述声学模型为DNN模型。所述DNN模型是通过以下方法预先训练得到的:
采用训练音频语料对GMM和HMM进行训练,获取训练后的GMM输出的至少一个音元状态中每个音元状态的似然概率特征,并获取训练后的HMM的音元转换概率;
将所述每个音元状态的似然概率特征转换为每个音元状态的后验概率特征;
根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音元状态的后验概率特征,计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值;
将所述矩阵权重值和矩阵偏置值添加至所述DNN模型中,生成训练后的DNN模型。
优选地,利用所述DNN模型将所述每个语法的网络分别展开为音节网络。
优选地,将每个语法的网络中的每个词采用这个词的DNN模型替换,所述DNN模型中包含构成该词的音元之间的转移概率。
优选地,所述音节为每个字的读音,例如,今的音节对应为jin,天的音节对应为tian,气的音节对应为qi。
通过所述音节网络与语言模型相结合,可以形成针对所述语法的语音处理模型,如果目标音频数据为所述语法对应的音频数据,则可以以目标音频数据的音元状态序列为输入,获取所述目标音频数据对应的目标词序列数据。
在合并模块43的一种优选实现方式中,
优选地,本实施例所述语音识别模型主要应用于车载语音识别环境中,因此,所需要识别的语音命令范围较小。通过事先采集,可以得到大部分语音命令对应的语法文件。因此,通过上述步骤分别得到了各个语法文件对应的音节网络,每个音节网络都可以独立运行,得到其对应的语法的目标词序列数据。通过各个音节网络的组合,就可以得到所有语法的目标词序列数据。
为了节约成本,减小网络复杂度,可以对各个音节网络的组合进行合并去除冗余关系,将所述各个音节网络的组合减小到最小。
优选地,可以采用计算机图论方法对所述各个音节网络的组合进行优化,即可得到音元解码网络。在此可以采用任意的计算机图论方法来进行优化,由于是现有技术,在此不再具体描述。
所述音元解码网络涵盖了所有的语法,如图2所示,例如,对于入口<s_common>,连接关系是入口<s_common>连接通用词<common_ngram>,通用词<common_ngram>可以连接到联系人<chn_name-ngram>、数字<num_ngram>、歌曲名称<song_ngram>、车载设备<chezai_ngram>、结束标志</s_common>,同时还提供了车载入口<s_chezai>,直接对预设车载语音指令进行响应,例如:打开地图、打开导航、打开雨刷等。既可以通过通用词+车载设备的方式进行处理,可以直接通过打开车载设备的方式进行处理。其中,<s_common>为一句话的开始标志,</s_common>为一句话的结束标志;<s_chezai>为车载入口处理的语音的开始标志,</s_chezai>为车载入口处理的语音的结束标志。
在生成模块44的一种优选实现方式中,
利用所述音元解码网络和语言模型,形成语音识别模型。
优选地,所述语言模型为N-Gram语言模型,由于N-Gram语言模型可以自行推断下一个词出现的概率,因此可以结合出现概率对每条网络路径的概率值进行加权,增加网络路径的可能性,通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数据,可以进一步提升语音识别的准确性。
优选地,所述N-Gram语言模式是通过以下方式训练得到的:在训练词序列语料中获取训练词序列数据的出现概率,并根据所述训练词序列数据的出现概率生成N-Gram语言模型,N-Gram语言模型是基于一种假设,第K个词的出现置于前面的K-1个词相关,而与其它任何词都不相关,一个字词串的概率为各个词的出现概率的乘积。其中,所述训练词序列语料为车载环境中输入的各种语法文件。
所述语音识别模型,涵盖了所有语法对应的各个网络路径,并且,可扩展性强,对于新增加的语法文件,只需要读取并解析,构建对应网络,展开为音节网络,与现有音元解码网络合并即可。不需要根据所有语法文件重新生成。
采用本实施例所述方案,扩展型强,支持N-Gram语言模型,支持类模型,使用灵活,适用于车载环境中的嵌入式识别器。
图5为本发明所述语音识别***实施例的结构图,如图5所示,包括以下步骤:
音频数据获取模块51,用于获取目标音频数据;
特征提取模块52,用于提取所述目标音频数据中的目标滤波器组Filter bank特征;
词序列获取模块53,用于将所述目标音频数据中的目标Filter bank特征作为语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据。
优选地,所述语音识别模型为上述建立语音识别模型的方法实施例中所建立的语音识别模型。
在音频数据获取模块51的一种优选实现方式中,
优选地,车载终端获取用户所输入的目标音频数据,所述目标音频数据具体可以为用户基于当前需要进行语音输入的语音,并且为当前需要进行语音识别的音频数据。
所述车载终端可以是车辆行车电脑,也可以是通过蓝牙、WiFi与车载电脑相连接的移动设备,如智能手机等。
具体地,车载终端上可以设置一个语音输入的触发条件,例如,触发条件可以为一个语音输入按钮,用户通过按动语音输入按钮触发输入待识别的音频数据,终端的语音采集模块可以采集所述待识别的音频数据,而后将采集的待识别的音频数据发送至语音处理模块,而语音处理模块可以获取待识别的音频数据。
虽然语音识别可以由云端进行,但是,对于车载终端,很多情况下是没有网络或者网络比较弱;这时候使用云端进行语音识别存在一些问题,因此,在本实施例中,所述语音处理模块为终端上的嵌入式识别器。
在特征提取模块52的一种优选实现方式中,
优选地,对所述目标音频数据进行数据分帧,获取所述目标音频数据中的至少一帧音频数据;获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filterbank特征;
按照所述至少一帧音频数据的时间排序,获取所述每帧第一音频数据的前后预设帧数的第二音频数据,获取所述第二音频数据对应的第二目标Filterbank特征。
在词序列获取模块53的一种优选实现方式中,
将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filterbank特征作为语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据。
优选地,
将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filterbank特征作为训练后的DNN模型的输入数据,获取所述训练后的DNN模型输出的所述第一目标Filter bank特征的目标音素状态上的后验概率特征;
采用训练后的HMM的音素转换概率、所述第一目标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语言模型,在所述语音识别模型中获取所述目标音频数据对应的目标词序列数据,由于N-Gram语言模型可以自行推断下一个词出现的概率,因此可以结合出现概率对音元解码网络中每条网络路径的概率值进行加权,增加网络路径的可能性,通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数据,可以进一步提升语音识别的准确性。
例如,对于目标音频数据“今天天气”,根据其第一目标Filter bank特征的目标音素状态上的后验概率特征,在<s_common>-<common_ngram>-</s_commnon>的网络路径上,获取目标音频数据对应的目标词序列数据“今天天气”。
在本实施例中,在获取到目标音频数据时,通过获取目标音频数据中的目标Filter bank特征,并基于预先训练得到的语音识别模型,对目标音频数据进行语音识别得到目标词序列数据。所述语音识别模型包括根据所有语法文件整合得到的音元解码网络,根据其中涵盖的网络路径,结合N-Gram语言模型获取目标音频数据对应的目标词序列数据,进一步提升了语音识别的准确性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的***的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
图6示出了适于用来实现本发明实施方式的示例性计算机***/服务器012的框图。图6显示的计算机***/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机***/服务器012以通用计算设备的形式表现。计算机***/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,***存储器028,连接不同***组件(包括***存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器012典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器028可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机***/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***034可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机***/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机***/服务器012交互的设备通信,和/或与使得该计算机***/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机***/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器020通过总线018与计算机***/服务器012的其它模块通信。应当明白,尽管图6中未示出,可以结合计算机***/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元016通过运行存储在***存储器028中的程序,从而执行本发明所描述的实施例中的功能和/或方法。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (18)

1.一种建立语音识别模型的方法,其特征在于,包括:
读取并解析每个语法文件,构建每个语法的网络;
读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络;
对各个音节网络进行合并最小化操作,形成音元解码网络;
利用所述音元解码网络和语言模型,形成语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述读取并解析每个语法文件包括:
对所述每个语法文件进行解析,得到其中的词典信息和连接关系。
3.根据权利要求1所述的方法,其特征在于,所述声学的音节映射关系表为预先训练的DNN模型。
4.根据权利要求1所述的方法,其特征在于,所述音节为每个字的读音。
5.根据权利要求1所述的方法,其特征在于,所述对各个音节网络进行合并最小化操作包括:
采用计算机图论方法对所述各个音节网络的组合进行优化。
6.根据权利要求1所述的方法,其特征在于,所述语言模型为N-Gram语言模型。
7.一种语音识别方法,其特征在于,包括:
获取目标音频数据;
提取所述目标音频数据中的目标滤波器组特征;
将所述目标音频数据中的目标滤波器组特征作为如权利要求1-6所述语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据。
8.根据权利要求7所述的方法,其特征在于,将所述目标音频数据中的目标滤波器组特征作为如权利要求1-6所述语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据,包括:
将所述目标音频数据中的目标滤波器组特征作为训练后的DNN模型的输入数据,获取第一目标滤波器组特征的目标音素状态上的后验概率特征;
采用训练后的HMM的音素转换概率、所述第一目标滤波器组特征的目标音素状态上的后验概率特征以及N-Gram语言模型,在所述语音识别模型中获取所述目标音频数据对应的目标词序列数据。
9.一种建立语音识别模型的***,其特征在于,包括:
构建模块,用于读取并解析每个语法文件,构建每个语法的网络;
展开模块,用于读取声学的音节映射关系表,将所述每个语法的网络分别展开为音节网络;
合并模块,用于对各个音节网络进行合并最小化操作,形成音元解码网络;
生成模块,用于利用所述音元解码网络和语言模型,形成语音识别模型。
10.根据权利要求9所述的***,其特征在于,所述构建模块具体用于:
对所述每个语法文件进行解析,得到其中的词典信息和连接关系。
11.根据权利要求9所述的***,其特征在于,所述声学的音节映射关系表为预先训练的DNN模型。
12.根据权利要求9所述的***,其特征在于,所述音节为每个字的读音。
13.根据权利要求9所述的***,其特征在于,所述合并模块具体用于:
采用计算机图论方法对所述各个音节网络的组合进行优化。
14.根据权利要求9所述的***,其特征在于,所述语言模型为N-Gram语言模型。
15.一种语音识别***,其特征在于,包括:
音频数据获取模块,用于获取目标音频数据;
特征提取模块,用于提取所述目标音频数据中的目标滤波器组特征;
词序列获取模块,用于将所述目标音频数据中的目标滤波器组特征作为如权利要求1-6所述语音识别模型的输入数据,获取所述目标音频数据对应的目标词序列数据。
16.根据权利要求15所述的***,其特征在于,所述词序列获取模块具体用于:
将所述目标音频数据中的目标滤波器组特征作为训练后的DNN模型的输入数据,获取第一目标滤波器组特征的目标音素状态上的后验概率特征;
采用训练后的HMM的音素转换概率、所述第一目标滤波器组特征的目标音素状态上的后验概率特征以及N-Gram语言模型,在所述语音识别模型中获取所述目标音频数据对应的目标词序列数据。
17.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN201811196304.4A 2018-10-15 2018-10-15 一种建立语音识别模型的方法、语音识别方法及*** Active CN109243428B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811196304.4A CN109243428B (zh) 2018-10-15 2018-10-15 一种建立语音识别模型的方法、语音识别方法及***
US16/544,524 US11164561B2 (en) 2018-10-15 2019-08-19 Method and system for building speech recognizer, and speech recognition method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811196304.4A CN109243428B (zh) 2018-10-15 2018-10-15 一种建立语音识别模型的方法、语音识别方法及***

Publications (2)

Publication Number Publication Date
CN109243428A true CN109243428A (zh) 2019-01-18
CN109243428B CN109243428B (zh) 2019-11-26

Family

ID=65053710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811196304.4A Active CN109243428B (zh) 2018-10-15 2018-10-15 一种建立语音识别模型的方法、语音识别方法及***

Country Status (2)

Country Link
US (1) US11164561B2 (zh)
CN (1) CN109243428B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817201A (zh) * 2019-03-29 2019-05-28 北京金山安全软件有限公司 一种语言学习方法、装置、电子设备及可读存储介质
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN111243599A (zh) * 2020-01-13 2020-06-05 网易有道信息技术(北京)有限公司 语音识别模型构建方法、装置、介质及电子设备
CN111627428A (zh) * 2020-05-15 2020-09-04 北京青牛技术股份有限公司 构建压缩的语音识别模型的方法
CN111667828A (zh) * 2020-05-28 2020-09-15 北京百度网讯科技有限公司 语音识别方法和装置、电子设备和存储介质
CN113643692A (zh) * 2021-03-25 2021-11-12 河南省机械设计研究院有限公司 基于机器学习的plc语音识别方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110838289B (zh) * 2019-11-14 2023-08-11 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
WO2022198474A1 (en) * 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
CN111627418B (zh) * 2020-05-27 2023-01-31 携程计算机技术(上海)有限公司 语音合成模型的训练方法、合成方法、***、设备和介质
CN112016889A (zh) * 2020-08-24 2020-12-01 平安国际智慧城市科技股份有限公司 流程构建方法、装置、电子设备及存储介质
CN113241063B (zh) * 2021-06-24 2023-09-26 中国平安人寿保险股份有限公司 语音识别***中的算法参数更新方法、装置、终端及介质
CN114927135B (zh) * 2022-07-22 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09281989A (ja) * 1996-04-09 1997-10-31 Fuji Xerox Co Ltd 音声認識装置および方法
CN1271132A (zh) * 1999-04-15 2000-10-25 松下电器产业株式会社 使用语法信息的汉字转换装置
CN1300050A (zh) * 1999-12-13 2001-06-20 索尼国际(欧洲)股份有限公司 语音识别方法
CN1753083A (zh) * 2004-09-24 2006-03-29 中国科学院声学研究所 语音标记方法、***及基于语音标记的语音识别方法和***
US20100125457A1 (en) * 2008-11-19 2010-05-20 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
CN103325370A (zh) * 2013-07-01 2013-09-25 百度在线网络技术(北京)有限公司 语音识别方法和语音识别***
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
EP1906386B1 (en) * 2006-09-29 2009-11-11 Honda Research Institute Europe GmbH Using child directed speech to bootstrap a model based speech segmentation and recognition system
WO2011089651A1 (ja) * 2010-01-22 2011-07-28 三菱電機株式会社 認識辞書作成装置、音声認識装置及び音声合成装置
CN102651218A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于创建语音标签的方法以及设备
US9460711B1 (en) * 2013-04-15 2016-10-04 Google Inc. Multilingual, acoustic deep neural networks
KR102332729B1 (ko) * 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
US10783900B2 (en) * 2014-10-03 2020-09-22 Google Llc Convolutional, long short-term memory, fully connected deep neural networks
US10121467B1 (en) * 2016-06-30 2018-11-06 Amazon Technologies, Inc. Automatic speech recognition incorporating word usage information
US11132992B2 (en) * 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
KR20220008309A (ko) * 2019-05-10 2022-01-20 구글 엘엘씨 음성 인식을 위한 종단 간 모델과 함께 컨텍스트 정보 사용

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09281989A (ja) * 1996-04-09 1997-10-31 Fuji Xerox Co Ltd 音声認識装置および方法
CN1271132A (zh) * 1999-04-15 2000-10-25 松下电器产业株式会社 使用语法信息的汉字转换装置
CN1300050A (zh) * 1999-12-13 2001-06-20 索尼国际(欧洲)股份有限公司 语音识别方法
CN1753083A (zh) * 2004-09-24 2006-03-29 中国科学院声学研究所 语音标记方法、***及基于语音标记的语音识别方法和***
US20100125457A1 (en) * 2008-11-19 2010-05-20 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
CN103325370A (zh) * 2013-07-01 2013-09-25 百度在线网络技术(北京)有限公司 语音识别方法和语音识别***
CN103578464A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817201A (zh) * 2019-03-29 2019-05-28 北京金山安全软件有限公司 一种语言学习方法、装置、电子设备及可读存储介质
CN109817201B (zh) * 2019-03-29 2021-03-26 北京金山安全软件有限公司 一种语言学习方法、装置、电子设备及可读存储介质
US11482208B2 (en) 2019-06-03 2022-10-25 Beijing Dajia Internet Information Technology Co., Ltd. Method, device and storage medium for speech recognition
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN111243599A (zh) * 2020-01-13 2020-06-05 网易有道信息技术(北京)有限公司 语音识别模型构建方法、装置、介质及电子设备
CN111243599B (zh) * 2020-01-13 2022-12-20 网易有道信息技术(北京)有限公司 语音识别模型构建方法、装置、介质及电子设备
CN111627428A (zh) * 2020-05-15 2020-09-04 北京青牛技术股份有限公司 构建压缩的语音识别模型的方法
CN111627428B (zh) * 2020-05-15 2023-11-14 北京青牛技术股份有限公司 构建压缩的语音识别模型的方法
CN111667828B (zh) * 2020-05-28 2021-09-21 北京百度网讯科技有限公司 语音识别方法和装置、电子设备和存储介质
CN111667828A (zh) * 2020-05-28 2020-09-15 北京百度网讯科技有限公司 语音识别方法和装置、电子设备和存储介质
US11756529B2 (en) 2020-05-28 2023-09-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for speech recognition, and storage medium
CN113643692A (zh) * 2021-03-25 2021-11-12 河南省机械设计研究院有限公司 基于机器学习的plc语音识别方法
CN113643692B (zh) * 2021-03-25 2024-03-26 河南省机械设计研究院有限公司 基于机器学习的plc语音识别方法

Also Published As

Publication number Publication date
US20200118545A1 (en) 2020-04-16
US11164561B2 (en) 2021-11-02
CN109243428B (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN109243428B (zh) 一种建立语音识别模型的方法、语音识别方法及***
CN109036396A (zh) 一种第三方应用的交互方法及***
Serdyuk et al. Towards end-to-end spoken language understanding
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
CN106887225B (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
KR102388992B1 (ko) 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
CN102254555B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
JP5409931B2 (ja) 音声認識装置及びナビゲーション装置
CN108242236A (zh) 对话处理装置及其车辆和对话处理方法
US20180074661A1 (en) Preferred emoji identification and generation
US9484027B2 (en) Using pitch during speech recognition post-processing to improve recognition accuracy
JP7213943B2 (ja) 車載機器の音声処理方法、装置、機器及び記憶媒体
CN109801634A (zh) 一种声纹特征的融合方法及装置
CN105719659A (zh) 基于声纹识别的录音文件分离方法及装置
CN109325091A (zh) 兴趣点属性信息的更新方法、装置、设备及介质
US9881609B2 (en) Gesture-based cues for an automatic speech recognition system
WO2021147041A1 (zh) 语义分析方法、装置、设备及存储介质
CN110136715A (zh) 语音识别方法和装置
CN109346074A (zh) 一种语音处理方法及***
CN109785846A (zh) 单声道的语音数据的角色识别方法及装置
CN113486661A (zh) 一种文本理解方法、***、终端设备和存储介质
US20140067400A1 (en) Phonetic information generating device, vehicle-mounted information device, and database generation method
US7464033B2 (en) Decoding multiple HMM sets using a single sentence grammar
EP1024476A1 (en) Speech recognizing device and method, navigation device, portable telephone, and information processor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant