CN112259077B - 语音识别方法、装置、终端和存储介质 - Google Patents
语音识别方法、装置、终端和存储介质 Download PDFInfo
- Publication number
- CN112259077B CN112259077B CN202011126765.1A CN202011126765A CN112259077B CN 112259077 B CN112259077 B CN 112259077B CN 202011126765 A CN202011126765 A CN 202011126765A CN 112259077 B CN112259077 B CN 112259077B
- Authority
- CN
- China
- Prior art keywords
- keyword
- voice
- path
- game
- probabilities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000012634 fragment Substances 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 238000009432 framing Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种语音识别方法、装置、终端和存储介质;本发明实施例可获取玩家的游戏语音以及解码网络,解码网络包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应;对游戏语音进行特征提取,得到游戏语音的语音特征;在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率;以及,在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率;基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。本发明实施例提供的解码网络可准确、快速地识别出关键词和非关键词,由此,提升了语音识别效率。
Description
技术领域
本发明涉及电子游戏领域,具体涉及一种语音识别方法、装置、终端和存储介质。
背景技术
随着电子游戏的普及、电子游戏玩法的多样化,游戏语音成为了玩家与玩家、玩家与游戏之间的互动媒介。然而,玩家在游玩电子游戏时,对语音识别的实时性要求较高,例如,当游戏语音流中出现关键词对应的发音时,游戏必须快速、准确地检出玩家说出的关键词,从而实现低延迟的人机交互。
然而,目前的语音识别方法应用在电子游戏场景时,往往会出现识别效率低下的问题。
发明内容
本发明实施例提供一种语音识别方法、装置、终端和存储介质,可以提升语音识别效率。
本发明实施例提供一种语音识别方法,包括:
获取玩家的游戏语音以及解码网络,解码网络包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,N为正整数;
对游戏语音进行特征提取,得到游戏语音的语音特征;
在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率;以及,
在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率;
基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。
本发明实施例还提供一种语言识别装置,包括:
获取单元,用于获取玩家的游戏语音以及解码网络,解码网络包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,N为正整数;
特征单元,用于对游戏语音进行特征提取,得到游戏语音的语音特征;
关键词单元,用于在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率;以及,
非关键词单元,用于在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率;
识别单元,用于基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。
在一些实施例中,非关键词路径中包括i条非关键组合音素路径,i为正整数,非关键词单元,包括:
组合音素子单元,用于基于游戏语音的语音特征,在每条非关键组合音素路径中确定非关键组合音素概率,从而得到i条非关键组合音素路径的i个非关键组合音素概率;
非关键词子单元,用于基于i条非关键组合音素路径的i个非关键组合音素概率确定非关键词概率。
在一些实施例中,组合音素子单元用于基于游戏语音的语音特征,在每条非关键单音素路径中确定非关键单音素概率,从而得到i条非关键组合音素路径的i*j个非关键单音素概率;
在一些实施例中,非关键词子单元用于基于i条非关键组合音素路径的i*j个非关键单音素概率确定非关键词概率。
在一些实施例中,非关键单音素路径中包括k个状态模型,k为正整数,游戏语音包括多个语音片段,游戏语音的语音特征包括语音片段的语音特征,每条非关键单音素路径中均包括一个对应的非关键单音素模型,组合音素子单元,用于:
确定状态模型对应的语音片段;
基于非关键单音素路径中的状态模型,根据语音片段的语音特征计算语音片段所对应状态的状态概率,从而确定非关键单音素路径中k个状态子模型所对应的k个状态概率;
基于k个状态概率确定非关键单音素路径对应的非关键单音素概率。
在一些实施例中,非关键组合音素路径中还包括一条非语音路径,非关键词子单元还用于:
基于游戏语音的语音特征,确定每条非语音路径对应的非语音概率,从而得到i个非关键组合音素路径中非语音路径的i个非语音概率;
基于i条非关键组合音素路径的i*j个非关键单音素概率,以及i个非关键组合音素路径中非语音路径的i个非语音概率,确定非关键词概率。
在一些实施例中,关键词路径中包括x个状态模型,关键词单元,用于:
确定关键词路径中状态模型对应的语音片段;
基于关键词路径中状态模型,根据关键词路径中状态模型对应的语音片段的语音特征,计算关键词路径中状态模型对应的语音片段的状态概率,从而确定关键词路径中x个状态模型对应的x个状态概率;
基于关键词路径中x个状态模型对应的x个状态概率,确定关键词路径对应的关键词概率,从而确定游戏语音所对应的N个关键词的关键词概率。
在一些实施例中,状态模型由隐马尔可夫模型和高斯混合模型或深度神经网络模型构成。
在一些实施例中,识别单元,用于:
对非关键词概率和N个关键词的关键词概率进行概率值大小比较,确定最大的概率结果;
当最大的概率结果为非关键词概率时,确定游戏语音的语音内容为非关键词内容;
当最大的概率结果为N个关键词概率中的一关键词概率时,确定最大的概率结果对应的关键词路径,以及确定游戏语音的语音内容为关键词路径对应的关键词内容。
在一些实施例中,识别单元,用于:
当游戏语音的语音内容为关键词路径对应的关键词内容时,确定关键词内容对应的游戏互动操作;
在游戏中使玩家所操作的游戏角色执行游戏互动操作,从而实现玩家与游戏的语音互动。
在一些实施例中,识别单元,用于当游戏语音的语音内容为关键词路径对应的关键词内容时,对游戏语音进行语音屏蔽操作。
本发明实施例还提供一种终端,包括存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本发明实施例所提供的任一种语音识别方法中的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种语音识别方法中的步骤。
本发明实施例可以获取玩家的游戏语音以及解码网络,解码网络包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,N为正整数;对游戏语音进行特征提取,得到游戏语音的语音特征;在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率;以及,在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率;基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。
在本发明中,提供了一种解码网络,该解码网络具有一条可以识别所有不同非关键词的非关键词路径,以及,多条对应不同关键词的关键词路径;该非关键词路径可以识别多种不同音素组合而成的非关键词,使得该解码网络可以准确、快速地识别出关键词和非关键词。由此,提升了语音识别效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的语音识别方法的场景示意图;
图1b是本发明实施例提供的语音识别方法的流程示意图;
图1c是本发明实施例提供的语音识别方法的解码网络结构示意图;
图1d是本发明实施例提供的语音识别方法的GMM-HMM示意图;
图1e是本发明实施例提供的语音识别方法的DNN-HMM示意图;
图1f是本发明实施例提供的语音识别方法的HMM展开结构示意图;
图1g是本发明实施例提供的语音识别方法的解码网络结构示意图;
图1h是本发明实施例提供的语音识别方法的解码网络结构示意图;
图2a是本发明实施例提供的语音识别方法的3-gram音素语言模型的路径结构示意图;
图2b是本发明实施例提供的语音识别方法的4-gram音素语言模型的路径结构示意图;
图3是本发明实施例提供的语言识别装置的第一种结构示意图;
图4是本发明实施例提供的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种语音识别方法、装置、终端和存储介质。
其中,该语言识别装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该语言识别装置还可以集成在多个电子设备中,比如,语言识别装置可以集成在多个服务器中,由多个服务器来实现本发明的语音识别方法。
在一些实施例中,服务器也可以以终端的形式来实现。
例如,参考图1a,该电子设备可以是笔记本电脑,该笔记本电脑可以获取玩家的游戏语音以及解码网络,解码网络包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,N为正整数;对游戏语音进行特征提取,得到游戏语音的语音特征;在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率;以及,在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率;基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
人工智能(Artificial Intelligence,AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
其中,语音处理技术包括自动语音识别技术(Automatic Speech Recognition,ASR),自动语音识别技术是利用计算机代替人耳对目标音频进行识别、监听等操作并进一步进行处理的技术。
在本实施例中,提供了一种基于ASR的语音识别方法,如图1b所示,该语音识别方法的具体流程可以如下:
101、获取玩家的游戏语音以及解码网络,解码网络包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,N为正整数。
其中,获取玩家的游戏语音的方法具有多种,比如,通过录音设备、声音传感器等录制玩家的语音得到,例如,智能手机可以通过麦克风录制玩家的音频;再比如,通过网络与终端通信,得到终端录制的玩家游戏语音,等等。
其中,游戏语音是由玩家说出的多个语句组成的音频信号,在语音识别的过程中,需要对语句中某些特定的词句进行识别,即识别出关键词(Keywords),以及,还要对除了关键词以外的非关键词进行识别。
需要注意地,该关键词和非关键词均可以由句子、词语、字等构成,也可以是一个单独的字、音节,等等。
在汉语中,每个字都可以由若干个音素(Phoneme)组成,音素是根据语音的自然属性划分出来的最小语音单位,例如,汉语“啊”的音素为a1,汉语“爱”的音素为a2i,代的音素为d和a2i,等等。
其中,获取解码网络的方法具有多种,比如,通过网络与数据库通信,得到数据库中存储的解码网络;再比如,通过机器学习的方法对预设网络进行训练,从而得到解码网络,等等。
其中,通过机器学习的方法对预设网络进行训练,从而得到解码网络的方法将在下文中介绍,在此先对解码网络和预设网络的网络结构进行介绍:
在本实施例中,参考图1a,解码网络可以包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均可以与一个关键词内容对应,N为正整数。
其中,预设网络和解码网络的网络结构相同,但预设网络的网络参数与解码网络不同,即,解码网络可由预设网络训练得到。
102、对游戏语音进行特征提取,得到游戏语音的语音特征。
其中,游戏语音的语音特征可以包括Mel频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)特征、线性预测系数(Linear Prediction Coefficient,LPC)特征、线谱频率(Linear Spectrum Frequence,LSF)特征,等等。
其中,MFCC是在Mel标度频率域提取出来的倒谱参数,描述了人耳频率的非线性特性,其公式如下:
Mel=2595*lg(1+f/700)
其中,f为频率,单位为赫兹(Hz)。
比如,在一些实施例中,可以预先对游戏语音进行分帧处理,从而提取得到游戏语音中每一帧语音片段的Mel频率倒谱系数特征,故步骤102的具体步骤如下:
1、对游戏语音进行预加重处理,得到预加重处理后的游戏语音。
首先,可以通过如下所示的高通滤波器对游戏语音z进行预加重处理,得到预加重处理后的游戏语音H(Z):
H(Z)=1-uz-1
其中,u是一个介于0.9~1之间的权重。
预加重的目的是提升游戏语音的高频部分,使游戏语音的频谱变得更加平坦,从而使得在之后可以采用相同的信噪比求得低频部分和高频部分的频谱。同时,还可以消除游戏语音中的一部分噪音、突出高频的共振峰。
2、对预加重处理后的游戏语音进行滑窗分帧处理,得到多个语音片段。
在一些实施例中,为了避免相邻两帧的变化过大,可以采用滑窗分帧的方法使得两相邻帧之间有一段重叠区域。其中,滑窗分帧是指假设一个预设长度的分帧窗口在音频上单向滑动,每滑动一段距离,采集该分帧窗口中的音频作为语音片段。
比如,在一些实施例中,可以采用长度为25毫秒的分帧窗口,以10毫秒的分帧步长采集语音片段。
3、对语音片段进行快速傅里叶变换,得到语音片段的频域信息。
为了克服音频信号在时域上的变换难以体现音频特性的问题,在一些实施例中可以对音频进行时频变换,从而使其转换为频域上的能量分布。
在一些实施例中,为了使得时频变换更加高效快速,进一步地提高语音识别的效率,可以对语音片段进行快速傅里叶变换,从而得到语音片段的频域信息,即音频在频谱上的能量分布。
快速傅里叶变换的公式如下:
其中,X(k)为输出的频域信号,x(n)为输入音频的时域信号,N表示傅里叶变换的点数。
4、对频域信息进行Mel频率倒谱系数特征提取,得到语音片段的MFCC语音特征。
首先,可以将频域信息通过一组Mel三角形滤波器组,该Mel三角形滤波器组可以对频谱进行平滑化,并消除谐波的作用,突显语音的共振峰。使得语音音调的不同不会影响得到的特征。
其中,Mel三角形滤波器组中可以包括m个三角形滤波器,三角滤波器的频率响应定义为:
其中:
然后计算每个滤波器组输出的对数能量s(m)为:
其中,M的取值可以是22~26。
最后,经离散余弦变换(Discrete Cosine Transform,DCT)得到MFCC系数C(n):
其中,L是MFCC的系数阶数,通常取12-16。
103、在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率。
其中,每条关键词路径均与一个关键词内容对应,比如,参考图1c,关键词路径1对应的关键词为“注意警戒”,关键词路径2对应的关键词为“准备”,等等。
在一些实施例中,关键词路径中可以包括多个状态模型,该状态模型由隐马尔可夫模型(Hidden Markov Model,HMM)和高斯混合模型(Mixture Of Gaussian Model,GMM)或深度神经网络模型(Deep Neural Networks,DNN)构成。
其中,HMM是一种用于描述一个含有隐含未知参数的马尔可夫链模型,其的状态不能直接观察到,但能通过其观测向量序列求得到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。
其中,GMM是一种采用高斯概率密度函数量化音频特征,从而得到音频的声学先验概率(prior probability)的模型。
其中,DNN是一种通过深度学习将音频特征映射为声学先验概率(priorprobability)的模型。
比如,在一些实施例中,如图1d所示,状态模型是一种GMM-HMM模型;在一些实施例中,如图1e所示,状态模型是一种DNN-HMM模型。
其中,关键词路径中可以包括多个状态模型,状态模型可以用于预测音频片段的状态,由于音素可以由多个状态表示,故每个状态模型均可以通过预测多个音频片段的状态来表示一个音素,从而确定这些音频片段所含的音素。
由此,每个字的读音均可以由不同参数的HMM模型表示,例如,参考图1f,对于“注”字的音素包括音素zh和音素u;其中,音素zh可以由状态1、2、3表示,音素u可以由状态4、5、6表示;故“注”字可以由音素zh和音素u的三个HMM模型构成,其中音素zh的3个HMM分别对应状态1、2、3;音素u的第3个HMM分别对应状态4、5、6。
因此,参考图1g,关键词路径1对应的语音是“注意警戒”,则关键词路径包括音素zh、u、y、i、j、ing、j、ie的状态模型。
其中,每个HMM模型中的状态可以根据实际需求来人为设定。
HMM的每一个状态都对应有一个观察值,该观察值可以是一个实数,也可以是个向量,在一些实施例中,该观察值为MFCC。
将音频片段的MFCC特征序列输入到HMM模型后,在HMM模型中可以采用前向算法求出每个HMM模型生成该MFCC特征序列的概率,取最大概率为该关键词路径的关键词概率。
由此,在一些实施例中,关键词路径中可以包括x个状态模型,步骤“在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的-关键词概率”可以包括如下步骤:
确定关键词路径中状态模型对应的语音片段;
基于关键词路径中状态模型,根据关键词路径中状态模型对应的语音片段的语音特征,计算关键词路径中状态模型对应的语音片段的状态概率,从而确定关键词路径中x个状态模型对应的x个状态概率;
基于关键词路径中x个状态模型对应的x个状态概率,确定关键词路径对应的关键词概率,从而确定游戏语音所对应的N个关键词的关键词概率。
其中,参考图1d,HMM可以根据自身状态asisi,以及状态转移概率asisi+1来确定下一状态as(i+1)s(i+1)。其中,自身状态可以由GMM求得,根据相邻自身状态可以求得HMM的状态转移概率。
104、在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率。
其中,参考图1g,非关键词路径中可以包括i条非关键组合音素路径,其中,每条非关键组合音素路径都对应一个非关键词的组合音素,该组合音素是由多个不同或相同的音素组合而成,比如,对于无意义的语音“ao”,本方案可以将其判定为非关键词,由非关键词路径中的非关键组合音素路径识别,该非关键组合音素路径对应非关键词“ao”,其中i为正整数。
故步骤104可以包括如下步骤:
基于游戏语音的语音特征,在每条非关键组合音素路径中确定非关键组合音素概率,从而得到i条非关键组合音素路径的i个非关键组合音素概率;
基于i条非关键组合音素路径的i个非关键组合音素概率确定非关键词概率。
其中,非关键组合音素路径中可以包括j条并联的非关键单音素路径,j为正整数,每条非关键单音素路径对应一个非关键的音素,比如,对于无意义的语音“ao”,其可以由音素a、o组成,而对应“ao”的非关键词路径可以由a对应的非关键单音素路径、o对应的非关键单音素路径并联而成。
故具体地,步骤“基于游戏语音的语音特征,在每条非关键组合音素路径中确定非关键组合音素概率,从而得到i条非关键组合音素路径的i个非关键组合音素概率”包括可以包括如下步骤:
基于游戏语音的语音特征,在每条非关键单音素路径中确定非关键单音素概率,从而得到i条非关键组合音素路径的i*j个非关键单音素概率;
因此,步骤“基于i条非关键组合音素路径的i个非关键组合音素概率确定非关键词概率”可以包括如下步骤:
基于i条非关键组合音素路径的i*j个非关键单音素概率确定非关键词概率。
例如,参考图1h,非关键词路径由非关键组合音素路径a、o、e…、eng组成,其中非关键组合音素路径a又由非关键单音素路径a、o、e…、eng组成。
在一些实施例中,参考图1h,每个非关键组合音素路径还包括一个回退路径,该回退路径可以用于重复检测多种无意义的非关键音素,该结构可以有效地穷举出所有非关键词,比如,对于语音“aaaa”,可以经过非关键组合音素路径a的非关键单音素路径aa,再通过回退路径再次经过非关键组合音素路径a的非关键单音素路径aa来识别。
在一些实施例中,每个非关键组合音素路径中还可以包括一条非语音路径,该非语音路径可以用于识别玩家语音中的非语音部分。例如,对于语音“a_”,其由音素a和非语音_部分构成,则经过非关键组合音素路径a的非语音路径来识别。
故在一些实施例中,非关键组合音素路径中还包括一条非语音路径,基于i条非关键组合音素路径的i*j个非关键单音素概率确定非关键词概率,还包括:
基于游戏语音的语音特征,确定每条非语音路径对应的非语音概率,从而得到i个非关键组合音素路径中非语音路径的i个非语音概率;
基于i条非关键组合音素路径的i*j个非关键单音素概率,以及i个非关键组合音素路径中非语音路径的i个非语音概率,确定非关键词概率。
具体地,与关键词路径相似,在一些实施例中,非关键单音素路径中可以包括k个状态模型,k为正整数,游戏语音包括多个语音片段,游戏语音的语音特征包括语音片段的语音特征,每条非关键单音素路径中均包括一个对应的非关键单音素模型,基于游戏语音的语音特征,确定每条非关键单音素路径对应的非关键单音素概率,包括:
确定状态模型对应的语音片段;
基于非关键单音素路径中的状态模型,根据语音片段的语音特征计算语音片段所对应状态的状态概率,从而确定非关键单音素路径中k个状态子模型所对应的k个状态概率;
基于k个状态概率确定非关键单音素路径对应的非关键单音素概率。
105、基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。
在一些实施例中,步骤105可以包括如下步骤:
对非关键词概率和N个关键词的关键词概率进行概率值大小比较,确定最大的概率结果;
当最大的概率结果为非关键词概率时,确定游戏语音的语音内容为非关键词内容;
当最大的概率结果为N个关键词概率中的一关键词概率时,确定最大的概率结果对应的关键词路径,以及确定游戏语音的语音内容为关键词路径对应的关键词内容。
以上介绍了语音识别中检测关键词的步骤,本方案可以对游戏语音流进行实时检测,该检测方法可以采用滑动窗口检测法进行检测。
例如,在一些实施例中,可以采用长度为1.5秒的检测窗口对语音流进行语音检测,若在该1.5秒的检测窗口内检测不到关键词,则检测窗口在语音流上后移0.5秒,以继续下一次检测;在该1.5秒的检测窗口内检测到了关键词,则检测窗口在语音流上后移1.5秒。
其中,当识别出语音内容后,可以基于语音内容进行人机互动,故步骤“确定游戏语音的语音内容,从而实现对玩家的游戏语音识别”包括如下步骤:
当游戏语音的语音内容为关键词路径对应的关键词内容时,确定关键词内容对应的游戏互动操作;
在游戏中使玩家所操作的游戏角色执行游戏互动操作,从而实现玩家与游戏的语音互动。
其中,当识别出语音内容后,可以进行关键词屏蔽,故步骤“确定游戏语音的语音内容,从而实现对玩家的游戏语音识别”可以包括如下步骤:
当游戏语音的语音内容为关键词路径对应的关键词内容时,对游戏语音进行语音屏蔽操作。由上可知,本发明实施例可以获取玩家的游戏语音以及解码网络,解码网络包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,N为正整数;对游戏语音进行特征提取,得到游戏语音的语音特征;在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率;以及,在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率;基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。
由此在本发明中,提供了一种解码网络,该解码网络具有一条可以吸收所有不同非关键词的非关键词路径,以及,多条对应不同关键词的关键词路径;该非关键词路径可以吸收多种不同音素组合而成的非关键词,使得该解码网络可以准确、快速地识别出关键词和非关键词。由此,提升了语音识别效率。
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以游戏的语音操控为例,对本发明实施例的方法进行详细说明。
本方案应用在游戏应用中时,为了平衡语音识别的复杂度与准确率,根据游戏的实际需求,对于要求识别计算量低,准确率适中的游戏场景,本方案采用HMM-GMM模型进行语音识别;对于识别精度高的游戏场景,本方案采用HMM-DNN模型进行语音识别。
为了识别出玩家语音中的所有关键词和非关键词,参考图1h,本方案提出一种解码网络,该解码网络包括2条关键词路径和1条非关键词路径,其中,第一条条关键词路径对应关键词“注意警戒”,第2条关键词路径对应关键词“准备”,非关键词路径中包括非关键组合音素路径a、o、e…、eng;其中,非关键组合音素路径a中包括非关键单音素路径aa、ao、ae…、aeng;其中非关键组合音素路径o中包括非关键单音素路径oa、oo、oe…、oeng;…其中,非关键组合音素路径eng中包括非关键单音素路径enga、engo、enge…、engeng。
需要注意的是,在一些实施例中,组合音素可以是两两组合的音素,也可以是三三组合的音素,还可以四四组合的音素,等等;其中,音素三三组合时,非关键词路径中可以包括非关键三三组合音素路径,非关键三三组合音素路径中可以包括多个非关键两两组合音素路径,非关键两两组合音素路径中可以包括多个非关键单音素路径。
具体地,对于N元(N-gram)语言模型来说,当非关键词路径中仅包括非关键单音素路径时,该非关键词路径可以是一种1-gram语言模型,当非关键词路径中包括组两两组合的组合音素时,该非关键词路径可以是一种2-gram语言模型;当非关键词路径中包括组三三组合的组合音素时,该非关键词路径可以是一种3-gram语言模型;当非关键词路径中包括组四四组合的组合音素时,该非关键词路径可以是一种4-gram语言模型,等等。
其中,N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换。
在下文中,组合路径可以是N-gram语言模型:
例如,参考图2a,非关键词路径中包括非关键三三组合音素路径a、o、e…、eng;其中,非关键三三组合音素路径a中包括非关键两两音素路径aa、ao、ae…、aeng;其中,非关键两两音素路径ao中可以包括非关键单音素路径aoa、aoo、aoe…、aoeng…,以此类推。
类似地,例如,参考图2b,非关键词路径中包括非关键四四组合音素路径a、o、e…、eng;其中,非关键四四组合音素路径a中包括非关键三三音素路径aa、ao、ae…、aeng;其中,非关键三三音素路径ao中可以包括非关键两两音素路径aoa、aoo、aoe…、aoeng…;非关键两两音素路径aoa中可以包括非关键单音素路径aoaa、aoao、aoae…、aoaeng……,以此类推。
由于非关键四四组合音素路径的复杂度较高,在本方案中,为了降低非关键词路径的复杂度、提高识别效率,非关键词路径中可以仅包括非关键两两组合音素路径。
需要注意的是,在如图2a、图2b所示的非关键词路径中,还可以包括回退路径;比如,每经过一次非关键单音素路径,均可以经过回退路径返回至非关键词路径的起点,进行反复多次的非关键音素检测。
在一些实施例中,在求得非关键词概率后,可以将较低概率的非关键音素组合丢弃掉,从而在对N个关键词的关键词概率和非关键词概率进行概率大小对比时缩小搜索的规模,从而降低非关键词路径的复杂度。
在一些实施例中,本方案能够实现对游戏中玩家语音数据流中是否包含某部分关键词进行实时检测并反馈检测结果的目的,从而丰富游戏中语音的应用场景,提高游戏的交互效率和趣味性,提高玩家游戏沉浸感。
在一些实施例中,本方案能够实现语音监管,实现部分违禁词实时监控的功能(例如:脏话过滤等),从而净化游戏环境。
由上可知,本发明提供了一种基于音素进行语音识别的解码网络,该解码网络具有一条可以吸收所有不同非关键词的非关键词路径,以及,多条对应不同关键词的关键词路径;该非关键词路径可以吸收多种音素两两组合而成的非关键词,使得该解码网络可以准确、快速地识别出关键词和非关键词,同时降低语音识别的复杂度。由此,提升了语音识别效率。
为了更好地实施以上方法,本发明实施例还提供一种语言识别装置,该语言识别装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以语言识别装置具体集成在XX为例,对本发明实施例的方法进行详细说明。
例如,如图3所示,该语言识别装置可以包括获取单元301、特征单元302、关键词单元303、非关键词单元304以及识别单元305,如下:
(一)获取单元301。
获取单元301可以用于获取玩家的游戏语音以及解码网络,解码网络可以包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,N为正整数。
(二)特征单元302。
特征单元302可以用于对游戏语音进行特征提取,得到游戏语音的语音特征。
(三)关键词单元303。
关键词单元303可以用于在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率。
在一些实施例中,关键词路径中可以包括x个状态模型,关键词单元303,可以用于:
确定关键词路径中状态模型对应的语音片段;
基于关键词路径中状态模型,根据关键词路径中状态模型对应的语音片段的语音特征,计算关键词路径中状态模型对应的语音片段的状态概率,从而确定关键词路径中x个状态模型对应的x个状态概率;
基于关键词路径中x个状态模型对应的x个状态概率,确定关键词路径对应的关键词概率,从而确定游戏语音所对应的N个关键词的关键词概率。
在一些实施例中,状态模型由隐马尔可夫模型和高斯混合模型或深度神经网络模型构成。
(四)非关键词单元304。
非关键词单元304可以用于在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率。
在一些实施例中,非关键词路径中可以包括i条非关键组合音素路径,i为正整数,非关键词单元304,可以包括组合音素子单元以及非关键词子单元,如下:
(1)组合音素子单元,可以用于基于游戏语音的语音特征,在每条非关键组合音素路径中确定非关键组合音素概率,从而得到i条非关键组合音素路径的i个非关键组合音素概率。
(2)非关键词子单元,可以用于基于i条非关键组合音素路径的i个非关键组合音素概率确定非关键词概率。
在一些实施例中,组合音素子单元可以用于基于游戏语音的语音特征,在每条非关键单音素路径中确定非关键单音素概率,从而得到i条非关键组合音素路径的i*j个非关键单音素概率;
在一些实施例中,非关键词子单元可以用于基于i条非关键组合音素路径的i*j个非关键单音素概率确定非关键词概率。
在一些实施例中,非关键单音素路径中可以包括k个状态模型,k为正整数,游戏语音可以包括多个语音片段,游戏语音的语音特征可以包括语音片段的语音特征,每条非关键单音素路径中均可以包括一个对应的非关键单音素模型,组合音素子单元,可以用于:
确定状态模型对应的语音片段;
基于非关键单音素路径中的状态模型,根据语音片段的语音特征计算语音片段所对应状态的状态概率,从而确定非关键单音素路径中k个状态子模型所对应的k个状态概率;
基于k个状态概率确定非关键单音素路径对应的非关键单音素概率。
在一些实施例中,非关键组合音素路径中还可以包括一条非语音路径,非关键词子单元还可以用于:
基于游戏语音的语音特征,确定每条非语音路径对应的非语音概率,从而得到i个非关键组合音素路径中非语音路径的i个非语音概率;
基于i条非关键组合音素路径的i*j个非关键单音素概率,以及i个非关键组合音素路径中非语音路径的i个非语音概率,确定非关键词概率。
(五)识别单元305。
识别单元305可以用于基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。
在一些实施例中,识别单元305,可以用于:
对非关键词概率和N个关键词的关键词概率进行概率值大小比较,确定最大的概率结果;
当最大的概率结果为非关键词概率时,确定游戏语音的语音内容为非关键词内容;
当最大的概率结果为N个关键词概率中的一关键词概率时,确定最大的概率结果对应的关键词路径,以及确定游戏语音的语音内容为关键词路径对应的关键词内容。
在一些实施例中,识别单元305,可以用于:
当游戏语音的语音内容为关键词路径对应的关键词内容时,确定关键词内容对应的游戏互动操作;
在游戏中使玩家所操作的游戏角色执行游戏互动操作,从而实现玩家与游戏的语音互动。
在一些实施例中,识别单元305,可以用于当游戏语音的语音内容为关键词路径对应的关键词内容时,对游戏语音进行语音屏蔽操作。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的语言识别装置由获取单元,用于获取玩家的游戏语音以及解码网络,解码网络包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,N为正整数;由特征单元对游戏语音进行特征提取,得到游戏语音的语音特征;由关键词单元在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率;以及,由非关键词单元在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率;由识别单元基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。
由此,本发明实施例可以提升语音识别效率。
相应的,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或服务器,该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机、个人数字助理(Personal Digital Assistant,PDA)等终端设备。
如图4所示,图4为本申请实施例提供的计算机设备的结构示意图,该计算机设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中,处理器401与存储器402电性连接。本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器401是计算机设备400的控制中心,利用各种接口和线路连接整个计算机设备400的各个部分,通过运行或加载存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备400的各种功能和处理数据,从而对计算机设备400进行整体监控。
在本申请实施例中,计算机设备400中的处理器401会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能:
获取玩家的游戏语音以及解码网络,解码网络包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,N为正整数;
对游戏语音进行特征提取,得到游戏语音的语音特征;
在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率;以及,
在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率;
基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
可选的,如图4所示,计算机设备400还包括:触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中,处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中,显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并生成相应的操作指令,且操作指令执行对应程序。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中,可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中,触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。
在本申请实施例中,通过处理器401执行游戏应用程序在触控显示屏403上生成图形用户界面,图形用户界面上的虚拟场景中包含至少一个技能控制区域,技能控制区域中包含至少一个技能控件。该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。
射频电路404可用于收发射频信号,以通过无线通信与网络设备或其他计算机设备建立无线通讯,与网络设备或其他计算机设备之间收发信号。
音频电路405可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路405接收后转换为音频数据,再将音频数据输出处理器401处理后,经射频电路404以发送给比如另一计算机设备,或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔,以提供外设耳机与计算机设备的通信。
输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
电源407用于给计算机设备400的各个部件供电。可选的,电源407可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管图4中未示出,计算机设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
由上可知,本实施例提供的计算机设备可以提升语音识别效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种语音识别方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取玩家的游戏语音以及解码网络,解码网络包括一条非关键词路径,以及N条与非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,N为正整数;
对游戏语音进行特征提取,得到游戏语音的语音特征;
在N条关键词路径中,基于语音特征确定游戏语音所对应的N个关键词的关键词概率;以及,
在非关键词路径中,基于语音特征确定游戏语言所对应的非关键词概率;
基于N个关键词的关键词概率和非关键词概率,确定游戏语音的语音内容,从而实现对玩家的游戏语音识别。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种语音识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种语音识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种语音识别方法、装置、存储介质及计算机设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (13)
1.一种语音识别方法,其特征在于,包括:
获取玩家的游戏语音以及解码网络,所述解码网络包括一条非关键词路径,以及N条与所述非关键词路径并联的关键词路径,每条关键词路径均与一个关键词内容对应,所述N为正整数,所述非关键词路径中包含非关键组合音素路径,所述非关键组合因素路径中包括非关键单因素路径和回退路径;
对所述游戏语音进行特征提取,得到所述游戏语音的语音特征;
在所述N条关键词路径中,基于所述语音特征确定所述游戏语音所对应的N个关键词的关键词概率;以及,
在所述非关键词路径中,通过所述非关键单因素路径对所述语音特征进行识别,确定当前识别到的游戏语音所对应的非关键词概率,以及通过所述回退路径回到所述非关键词路径的起点,重新通过所述非关键单因素路径对所述语音特征进行识别,直到所述游戏语音的非关键词概率检测完成;
基于所述N个关键词的关键词概率和所述非关键词概率,确定所述游戏语音的语音内容,从而实现对所述玩家的游戏语音识别。
2.如权利要求1所述的语音识别方法,其特征在于,所述非关键词路径中包括i条非关键组合音素路径,所述i为正整数,所述在所述非关键词路径中,通过所述非关键单因素路径对所述语音特征进行识别,确定当前识别到的游戏语言所对应的非关键词概率,包括:
基于所述游戏语音的语音特征,通过每条非关键组合音素路径对应的非关键单因素路径确定非关键单音素概率,从而得到所述i条非关键组合音素路径的i个非关键单音素概率;
基于所述i条非关键组合音素路径的i个非关键单音素概率确定所述非关键词概率。
3.如权利要求2所述的语音识别方法,其特征在于,所述非关键组合音素路径中包括j条并联的非关键单音素路径,所述j为正整数,所述基于所述游戏语音的语音特征,通过每条非关键组合音素路径对应的非关键单因素路径确定非关键单音素概率,从而得到所述i条非关键组合音素路径的i个非关键单音素概率,包括:
基于所述游戏语音的语音特征,在每条非关键单音素路径中确定非关键单音素概率,从而得到i条非关键组合音素路径的i*j个非关键单音素概率;
所述基于所述i条非关键组合音素路径的i个非关键单音素概率确定所述非关键词概率,包括:
基于所述i条非关键组合音素路径的i*j个非关键单音素概率确定所述非关键词概率。
4.如权利要求3所述的语音识别方法,其特征在于,所述非关键单音素路径中包括k个状态模型,所述k为正整数,所述游戏语音包括多个语音片段,所述游戏语音的语音特征包括所述语音片段的语音特征,每条非关键单音素路径中均包括一个对应的非关键单音素模型,所述基于所述游戏语音的语音特征,通过每条非关键组合音素路径对应的非关键单因素路径确定非关键单音素概率,包括:
确定所述状态模型对应的语音片段;
针对每条非关键单因素路径,基于所述非关键单音素路径中的状态模型,根据所述语音片段的语音特征计算所述语音片段所对应状态的状态概率,从而确定所述非关键单音素路径中k个状态子模型所对应的k个状态概率;
基于所述k个状态概率确定所述非关键单音素路径对应的非关键单音素概率。
5.如权利要求3所述的语音识别方法,其特征在于,所述非关键组合音素路径中还包括一条非语音路径,所述基于所述i条非关键组合音素路径的i*j个非关键单音素概率确定所述非关键词概率,还包括:
基于所述游戏语音的语音特征,确定每条非语音路径对应的非语音概率,从而得到i个非关键组合音素路径中非语音路径的i个非语音概率;
基于所述i条非关键组合音素路径的i*j个非关键单音素概率,以及i个非关键组合音素路径中非语音路径的i个非语音概率,确定所述非关键词概率。
6.如权利要求1所述的语音识别方法,其特征在于,所述关键词路径中包括x个状态模型,所述在所述N条关键词路径中,基于所述语音特征确定所述游戏语音所对应的N个关键词的关键词概率,包括:
确定所述关键词路径中状态模型对应的语音片段;
基于所述关键词路径中状态模型,根据所述关键词路径中状态模型对应的语音片段的语音特征,计算所述关键词路径中状态模型对应的语音片段的状态概率,从而确定所述关键词路径中x个状态模型对应的x个状态概率;
基于所述关键词路径中x个状态模型对应的x个状态概率,确定所述关键词路径对应的关键词概率,从而确定所述游戏语音所对应的N个关键词的关键词概率。
7.如权利要求4或6所述的语音识别方法,其特征在于,所述状态模型由隐马尔可夫模型和高斯混合模型或深度神经网络模型构成。
8.如权利要求1所述的语音识别方法,其特征在于,所述基于所述N个关键词的关键词概率和所述非关键词概率,确定所述游戏语音的语音内容,包括:
对所述非关键词概率和所述N个关键词的关键词概率进行概率值大小比较,确定最大的概率结果;
当所述最大的概率结果为所述非关键词概率时,确定所述游戏语音的语音内容为非关键词内容;
当所述最大的概率结果为所述N个关键词概率中的一关键词概率时,确定所述最大的概率结果对应的关键词路径,以及确定所述游戏语音的语音内容为所述关键词路径对应的关键词内容。
9.如权利要求8所述的语音识别方法,其特征在于,所述确定所述游戏语音的语音内容,从而实现对所述玩家的游戏语音识别,包括:
当所述游戏语音的语音内容为所述关键词路径对应的关键词内容时,确定所述关键词内容对应的游戏互动操作;
在游戏中使所述玩家所操作的游戏角色执行所述游戏互动操作,从而实现玩家与游戏的语音互动。
10.如权利要求8所述的语音识别方法,其特征在于,所述确定所述游戏语音的语音内容,从而实现对所述玩家的游戏语音识别,包括:
当所述游戏语音的语音内容为所述关键词路径对应的关键词内容时,对所述游戏语音进行语音屏蔽操作。
11.一种语言识别装置,其特征在于,包括:
获取单元,用于获取玩家的游戏语音以及解码网络,所述解码网络包括一条非关键词路径,以及N条与所述非关键词路径并联的关键词路径 ,每条关键词路径均与一个关键词内容对应,所述N为正整数,所述非关键词路径中包含非关键组合音素路径,所述非关键组合因素路径中包括非关键单因素路径和回退路径;
特征单元,用于对所述游戏语音进行特征提取,得到所述游戏语音的语音特征;
关键词单元,用于在所述N条关键词路径中,基于所述语音特征确定所述游戏语音所对应的N个关键词的关键词概率;以及,
非关键词单元,用于在所述非关键词路径中,通过所述非关键单因素路径对所述语音特征进行识别,确定当前识别到的游戏语音所对应的非关键词概率,以及通过所述回退路径回到所述非关键词路径的起点,重新通过所述非关键单因素路径对所述语音特征进行识别,直到所述游戏语音的非关键词概率检测完成;
识别单元,用于基于所述N个关键词的关键词概率和所述非关键词概率,确定所述游戏语音的语音内容,从而实现对所述玩家的游戏语音识别。
12.一种终端,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~10任一项所述的语音识别方法中的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~10任一项所述的语音识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011126765.1A CN112259077B (zh) | 2020-10-20 | 2020-10-20 | 语音识别方法、装置、终端和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011126765.1A CN112259077B (zh) | 2020-10-20 | 2020-10-20 | 语音识别方法、装置、终端和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112259077A CN112259077A (zh) | 2021-01-22 |
CN112259077B true CN112259077B (zh) | 2024-04-09 |
Family
ID=74245149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011126765.1A Active CN112259077B (zh) | 2020-10-20 | 2020-10-20 | 语音识别方法、装置、终端和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112259077B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096642A (zh) * | 2021-03-31 | 2021-07-09 | 南京地平线机器人技术有限公司 | 语音识别方法和装置、计算机可读存储介质、电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
JP2009116075A (ja) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | 音声認識装置 |
CN102194454A (zh) * | 2010-03-05 | 2011-09-21 | 富士通株式会社 | 用于检测连续语音中的关键词的设备和方法 |
KR20130017542A (ko) * | 2011-08-11 | 2013-02-20 | 주식회사 씨에스 | 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 |
CN103943107A (zh) * | 2014-04-03 | 2014-07-23 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
CN103971678A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
CN107230475A (zh) * | 2017-05-27 | 2017-10-03 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN108564941A (zh) * | 2018-03-22 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109887498A (zh) * | 2019-03-11 | 2019-06-14 | 西安电子科技大学 | 高速公路口礼貌用语评分方法 |
CN111710337A (zh) * | 2020-06-16 | 2020-09-25 | 睿云联(厦门)网络通讯技术有限公司 | 语音数据的处理方法、装置、计算机可读介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4357867B2 (ja) * | 2003-04-25 | 2009-11-04 | パイオニア株式会社 | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 |
JP4497834B2 (ja) * | 2003-04-28 | 2010-07-07 | パイオニア株式会社 | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
-
2020
- 2020-10-20 CN CN202011126765.1A patent/CN112259077B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
JP2009116075A (ja) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | 音声認識装置 |
CN102194454A (zh) * | 2010-03-05 | 2011-09-21 | 富士通株式会社 | 用于检测连续语音中的关键词的设备和方法 |
KR20130017542A (ko) * | 2011-08-11 | 2013-02-20 | 주식회사 씨에스 | 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 |
CN103971678A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
CN103943107A (zh) * | 2014-04-03 | 2014-07-23 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
CN107230475A (zh) * | 2017-05-27 | 2017-10-03 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN108564941A (zh) * | 2018-03-22 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109887498A (zh) * | 2019-03-11 | 2019-06-14 | 西安电子科技大学 | 高速公路口礼貌用语评分方法 |
CN111710337A (zh) * | 2020-06-16 | 2020-09-25 | 睿云联(厦门)网络通讯技术有限公司 | 语音数据的处理方法、装置、计算机可读介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112259077A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
US11475881B2 (en) | Deep multi-channel acoustic modeling | |
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
CN110853618B (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
Zeng et al. | Effective combination of DenseNet and BiLSTM for keyword spotting | |
CN112259106B (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及*** | |
Juang et al. | Automatic recognition and understanding of spoken language-a first step toward natural human-machine communication | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
Sinith et al. | Emotion recognition from audio signals using Support Vector Machine | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
CN110853617B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
CN110600014B (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN110570873A (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
CN113393828A (zh) | 一种语音合成模型的训练方法、语音合成的方法及装置 | |
WO2023029615A1 (zh) | 语音唤醒的方法、装置、设备、存储介质及程序产品 | |
CN110268471A (zh) | 具有嵌入式降噪的asr的方法和设备 | |
CN114550706B (zh) | 基于深度学习的智慧校园语音识别方法 | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |