CN107316635B - 语音识别方法及装置、存储介质、电子设备 - Google Patents
语音识别方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN107316635B CN107316635B CN201710357910.9A CN201710357910A CN107316635B CN 107316635 B CN107316635 B CN 107316635B CN 201710357910 A CN201710357910 A CN 201710357910A CN 107316635 B CN107316635 B CN 107316635B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice data
- attribute
- current user
- personalized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013507 mapping Methods 0.000 claims description 24
- 230000008451 emotion Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开提供一种语音识别方法及装置、存储介质、电子设备。该方法包括:获取当前用户的语音数据,从所述语音数据中提取声学特征;基于所述声学特征、所述当前用户具有的语音属性、以及每个语音属性具有的细分维度,获得所述语音数据在各语音属性中每个维度的分布情况,所述语音属性的数目N≥1,所述维度的数目M≥2;基于所述分布情况,从所述当前用户具有的个性化维度组合中,选取出K个个性化维度组合,所述个性化维度组合包括至少一个不同语音属性具有的维度,且每个个性化维度组合对应表示所述当前用户所处的一个对话场景,K≥1;利用所述K个个性化维度组合对应的语音识别模型,对所述语音数据进行语音识别。如此方案,有助于提高语音识别的准确率。
Description
技术领域
本公开涉及语音识别领域,具体地,涉及一种语音识别方法及装置、存储介质、电子设备。
背景技术
随着人工智能技术的不断突破,以及各种智能终端的日益普及,人机交互在人们日常工作、生活中出现的频率越来越高。语音作为最方便、最快捷的交互方式之一,其识别俨然已成为人机交互的重要环节。
在实际应用过程中,不同用户之间的发音习惯各不相同,若采用传统的基于统一语音识别模型实现语音识别的方案,无法确保针对所有用户都能具有很好的识别准确率。因此,为每个用户单独构建个性化语音识别模型,以提高不同用户的语音识别准确率,已成为语音识别领域的重要研究方向。
发明内容
本公开的主要目的是提供一种语音识别方法及装置、存储介质、电子设备,可以结合用户所处的对话场景进行语音识别,有助于提高语音识别准确率,达到更好的语音识别效果。
为了实现上述目的,本公开第一方面提供一种语音识别方法,所述方法包括:
获取当前用户的语音数据,从所述语音数据中提取声学特征;
基于所述声学特征、所述当前用户具有的语音属性、以及每个语音属性具有的细分维度,获得所述语音数据在各语音属性中每个维度的分布情况,所述语音属性的数目N≥1,所述维度的数目M≥2;
基于所述分布情况,从所述当前用户具有的个性化维度组合中,选取出K个个性化维度组合,所述个性化维度组合包括至少一个不同语音属性具有的维度,且每个个性化维度组合对应表示所述当前用户所处的一个对话场景,K≥1;
利用所述K个个性化维度组合对应的语音识别模型,对所述语音数据进行语音识别。
在第一方面的第一种可能的实现方式中,所述语音属性为对话环境、对话情绪、对话对象、对话主题中的至少一项。
在第一方面的第二种可能的实现方式中,获得所述当前用户具有的语音属性的方式为:
获取所述当前用户的历史语音数据,根据语音数据量与语音属性数量之间的对应关系,确定所述历史语音数据的数量对应的语音属性的数目N;
基于所述历史语音数据,对语音属性总类中所有的语音属性,按照确定性高低进行排序,所述语音属性的确定性为,所述历史语音数据属于该语音属性中每个维度的概率的熵;
将所述排序中确定性最低的N个语音属性,选取为所述当前用户具有的语音属性。
在第一方面的第三种可能的实现方式中,预先利用所述当前用户的历史语音数据、N个语音属性、以及每个语音属性具有的细分维度,获得所述声学特征与所述分布情况之间的映射关系,则
所述获得所述语音数据在各语音属性中每个维度的分布情况,包括:
基于所述声学特征和所述映射关系,得到所述分布情况。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述映射关系体现为分别针对各语音属性构建的属性判别模型,构建所述属性判别模型的方式为:
从所述历史语音数据中提取声学特征,并确定所述属性判别模型的拓扑结构;
利用从所述历史语音数据中提取的声学特征和所述拓扑结构,训练得到所述属性判别模型。
在第一方面的第五种可能的实现方式中,获得所述当前用户具有的个性化维度组合的方式为:
基于各语音属性对应的分布情况的判别准确率,设置N个语音属性之间的层级关系,得到个性化确定模型,其中,各层级语音属性具有的维度,作为所述个性化确定模型中的节点;
每个节点对应一个从根节点到当前节点的个性化维度组合,得到所述当前用户具有的个性化维度组合。
在第一方面的第六种可能的实现方式中,在进行语音识别之前,所述方法还包括:
获取所述当前用户的历史语音数据,并从中确定出每个个性化维度组合对应的历史语音数据;
基于所述个性化维度组合对应的历史语音数据,构建该个性化维度组合对应的语音识别模型。
结合第一方面的第六种可能的实现方式,在第七种可能的实现方式中,当个性化维度组合对应的历史语音数据不足时,所述基于所述个性化维度组合对应的历史语音数据,构建该个性化维度组合对应的语音识别模型,包括:
通过所述历史语音数据,提取所述当前用户的习惯特性;
根据所述习惯特性,从其他用户中确定出与所述当前用户最相近的用户;
将所述最相近的用户的个性化维度组合对应的历史语音数据,作为所述当前用户的个性化维度组合对应的历史语音数据,构建该个性化维度组合对应的语音识别模型。
本公开第二方面提供一种语音识别装置,所述装置包括:
声学特征提取模块,用于获取当前用户的语音数据,从所述语音数据中提取声学特征;
分布情况获得模块,用于基于所述声学特征、所述当前用户具有的语音属性、以及每个语音属性具有的细分维度,获得所述语音数据在各语音属性中每个维度的分布情况,所述语音属性的数目N≥1,所述维度的数目M≥2;
个性化维度组合选取模块,用于基于所述分布情况,从所述当前用户具有的个性化维度组合中,选取出K个个性化维度组合,所述个性化维度组合包括至少一个不同语音属性具有的维度,且每个个性化维度组合对应表示所述当前用户所处的一个对话场景,K≥1;
语音识别模块,用于利用所述K个个性化维度组合对应的语音识别模型,对所述语音数据进行语音识别。
在第二方面的第一种可能的实现方式中,所述装置还包括:
语音属性数目确定模块,用于获取所述当前用户的历史语音数据,根据语音数据量与语音属性数量之间的对应关系,确定所述历史语音数据的数量对应的语音属性的数目N;
确定性排序模块,用于基于所述历史语音数据,对语音属性总类中所有的语音属性,按照确定性高低进行排序,所述语音属性的确定性为,所述历史语音数据属于该语音属性中每个维度的概率的熵;
语音属性选取模块,用于将所述排序中确定性最低的N个语音属性,选取为所述当前用户具有的语音属性。
在第二方面的第二种可能的实现方式中,所述装置还包括:
映射关系获得模块,用于利用所述当前用户的历史语音数据、N个语音属性、以及每个语音属性具有的细分维度,获得所述声学特征与所述分布情况之间的映射关系;
所述分布情况获得模块,用于基于所述声学特征提取模块提取的声学特征和所述映射关系获得模块预先获得的映射关系,得到所述分布情况。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述映射关系体现为分别针对各语音属性构建的属性判别模型,所述装置还包括:
属性判别模型训练模块,用于从所述历史语音数据中提取声学特征,并确定所述属性判别模型的拓扑结构;利用从所述历史语音数据中提取的声学特征和所述拓扑结构,训练得到所述属性判别模型。
在第二方面的第四种可能的实现方式中,所述装置还包括:
个性化维度组合确定模块,用于基于各语音属性对应的分布情况的判别准确率,设置N个语音属性之间的层级关系,得到个性化确定模型,其中,各层级语音属性具有的维度,作为所述个性化确定模型中的节点;每个节点对应一个从根节点到当前节点的个性化维度组合,得到所述当前用户具有的个性化维度组合。
在第二方面的第五种可能的实现方式中,在进行语音识别之前,所述装置还包括:
语音识别模型构建模块,用于获取所述当前用户的历史语音数据,并从中确定出每个个性化维度组合对应的历史语音数据;基于所述个性化维度组合对应的历史语音数据,构建该个性化维度组合对应的语音识别模型。
结合第二方面的第五种可能的实现方式,在第六种可能的实现方式中,当个性化维度组合对应的历史语音数据不足时,所述装置还包括:
历史语音数据确定模块,用于通过所述历史语音数据,提取所述当前用户的习惯特性;根据所述习惯特性,从其他用户中确定出与所述当前用户最相近的用户;将所述最相近的用户的个性化维度组合对应的历史语音数据,作为所述当前用户的个性化维度组合对应的历史语音数据,用以构建该个性化维度组合对应的语音识别模型。
本公开第三方面提供一种存储设备,其中存储有多条指令,所述指令由处理器加载,执行第一方面以及第一方面第一种至第七种任一种可能的实现方式中的步骤。
本公开第四方面提供一种电子设备,所述电子设备包括;
第三方面所述的存储设备;以及
处理器,用于执行所述存储设备中的指令。
本公开方案,可以充分考虑用户在不同对话场景下的语音变化,为用户的不同对话场景构建不同的语音识别模型。这样,在获取到当前用户的语音数据后,可以通过分析语音数据,确定出当前用户所处的对话场景,进而选取与对话场景相符的语音识别模型,进行语音识别。如此方案,有助于提高语音识别的准确率,达到更好的语音识别效果。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本公开方案语音识别方法的流程示意图;
图2为本公开方案中确定当前用户具有的语音属性的流程示意图;
图3为本公开方案中个性化确定模型的示意图;
图4为本公开方案语音识别装置的构成示意图;
图5为本公开方案用于语音识别的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
参见图1,示出了本公开语音识别方法的流程示意图。可以包括以下步骤:
S101,获取当前用户的语音数据,从所述语音数据中提取声学特征。
作为一种示例,可以通过智能终端的麦克风采集当前用户的语音数据,其中,智能终端可以为手机、个人电脑、平板电脑、智能音箱等。
作为一种示例,获得语音数据后,可以先对语音数据进行分帧处理,得到多个语音数据帧,还可以对分帧后的语音数据进行预加重,提升信噪比,再依次从每个语音数据帧中提取声学特征。
本公开方案中,声学特征可以体现为语音数据的频谱特征,例如,梅尔频率倒谱系数(英文:Mel Frequency Cepstrum Coefficient,简称:MFCC)特征、感知线性预测(英文:Perceptual Linear Predictive,简称:PLP)特征等,本公开方案对此可不做具体限定。
作为一种示例,为了提高声学特征的区分性,可以对提取的频谱特征进行变换处理,将多个声学特征转换为一个变换后声学特征。具体地,可以将多个连续语音数据帧作为神经网络的输入,由神经网络分别提取每个语音数据帧的声学特征,对多个声学特征进行变换处理,输出一个变换后声学特征。其中,连续语音数据帧可以为当前语音数据帧及其前后多个相邻语音数据帧。通过上述变换处理,可以综合考虑多个语音数据帧的上下文信息,使得变换后声学特征具有更多信息量,有助于提高声学特征的区分性。
S102,基于所述声学特征、所述当前用户具有的语音属性、以及每个语音属性具有的细分维度,获得所述语音数据在各语音属性中每个维度的分布情况,所述语音属性的数目N≥1,所述维度的数目M≥2。
实际应用过程中,用户在不同的对话场景下,语音会有显著的变化,为了提高语音识别的准确率,本公开方案可以在充分考虑用户发音习惯的同时,对用户所处的对话场景加以区分。作为一种示例,可以通过用户具有的语音属性、语音属性具有的细分维度,反映用户所处的对话场景。
具体地,本公开方案可以预先汇总得到语音属性的总类,该总类中包括所有用户可能具有的所有语音属性。作为一种示例,可以将总类中包括的所有语音属性,确定为当前用户具有的语音属性;或者,为了降低本公开方案的整体计算量,可以将总类中的部分语音属性,确定为当前用户具有的语音属性,对此可参见下文图2处所做介绍,此处暂不详述。
作为一种示例,语音属性可以为对话环境、对话情绪、对话对象、对话主题,等等。具体地,还可进一步划分各语音属性的细分维度,例如,针对用户A来说,对话环境可以细分为安静、噪声2个维度,对话情绪可以细分为高昂、正常、低落3个维度,对话对象可以细分为用户B、用户C、用户D3个维度,对话主题可以细分为商务、休闲2个维度。本公开方案对语音属性、语音属性的细分维度可不做限定,具体可由实际应用需求而定,例如,可以结合实际应用需求,将商务维度进一步划分为医学、法学等更细粒度的维度。
可以理解地,本公开方案中的对话,可以体现为人人对话、人机对话,本公开方案对此可不做具体限定。
在进行语音识别时,为了明确当前用户所处的对话场景,可以针对各语音属性,得到语音数据在该语音属性每个维度的分布情况。
具体地,可以预先利用当前用户的历史语音数据、当前用户具有的语音属性、以及每个语音属性具有的细分维度,获得声学特征与分布情况之间的映射关系,如此,从语言数据中提取出声学特征后,便可根据该映射关系,得到语音数据在语音属性每个维度的分布情况。
作为一种示例,映射关系可以体现为针对各语音属性构建的属性判别模型。例如,可以构建对话环境的属性判别模型、对话情绪的属性判别模型、对话对象的属性判别模型、对话主题的属性判别模型,等等。
以对话环境的属性判别模型为例,该模型的输入为从当前用户的语音数据中提取的声学特征,输出为语音数据在噪声、安静这2个维度的分布情况。
以对话情绪的属性判别模型为例,该模型的输入为从当前用户的语音数据中提取的声学特征,输出为语音数据在高昂、正常、低落这3个维度的分布情况。
举例来说,可以按照以下方式构建语音属性对应的属性判别模型:首先,从当前用户的历史语音数据中提取声学特征,并确定出属性判别模型采用的拓扑结构;利用从历史语音数据中提取的声学特征、拓扑结构,训练得到语音属性对应的属性判别模型。
本公开方案中,属性判别模型的拓扑结构可以体现为深度神经网络,例如,深层递归神经网络(英文:DeepRecurrent Neural Network,简称:DRNN)、深层卷积神经网络(英文:DeepConvolutional Neural Network,简称:DCNN),等等,本公开方案对此可不做具体限定。
本公开方案中,可以采用常用的神经网络模型训练方法,例如,通过BP算法训练得到属性判别模型,对此可参照相关技术实现,此处不做详述。
作为一种示例,语音数据在语音属性每个维度的分布情况可以体现为,语音数据属于该语音属性中每个维度的概率。以对话环境这一语音属性为例,分布情况可以体现为,语音数据属于噪声维度的概率P噪声、语音数据属于安静维度的概率P安静。根据该分布情况,可以判断出对话是在安静环境下发生的,还是在噪声环境下发生的。
S103,基于所述分布情况,从所述当前用户具有的个性化维度组合中,选取出K个个性化维度组合,所述个性化维度组合包括至少一个不同语音属性具有的维度,且每个个性化维度组合对应表示所述当前用户所处的一个对话场景,K≥1。
基于当前用户具有的语音属性、每个语音属性具有的细分维度,可以排列组合出该当前用户具有的所有可能的个性化维度组合,并通过个性化维度组合表示当前用户所处的对话场景。
作为一种示例,可以通过个性化确定模型,获得当前用户具有的个性化维度组合。具体地,可以基于各语音属性对应的分布情况的判别准确率,设置N个语音属性之间的层级关系,得到个性化确定模型,其中,各层级语音属性具有的维度,作为个性化确定模型中的节点;每个节点对应一个从根节点到当前节点的个性化维度组合,得到当前用户具有的个性化维度组合。
作为一种示例,可以通过决策树的形式表示个性化确定模型。具体地,可以获得各语音属性对应的分布情况的判别准确率,将判别准确率视为语音属性各维度之间的区分度,通常,判别准确率越高,各维度之间的区分度越高,对应的语音属性越靠近根节点,也就是说,可以按照判别准确率由高到低,从根节点向下依次设置各语音属性的层级。
作为一种示例,除了判别准确率之外,还可以结合实践经验得到的人工判断信息,确定语音属性各维度之间的区分度,本公开方案对此可不做具体限定。
举例来说,针对用户A,如果对话环境、对话情绪2个语音属性对应的判别准确率由高到低,则对话环境所在层级相比对话情绪所在层级,更靠近根节点。具体可参见图3所示个性化确定模型的示意图。其中,根节点可作为个性化确定模型的第一层级,对话环境可作为个性化确定模型的第二层级,对话情绪可作为个性化确定模型的第三层级,且第二层级中对话环境的2个细分维度、第三层级中对话情绪的3个细分维度,均可作为个性化确定模型的节点。通常,每个层级包括的节点数目为上一层级的节点数目与本层级语音属性具有的维度数目的乘积,由图3可知,第二层级的节点数目为1*2=2个,第三层级的节点数目为2*3=6个。
可以理解地,个性化确定模型中的一个节点,可以对应表示一个从根节点到当前节点的个性化属性组合。仍以图3所示示例为例,第二层级最左边的节点表示的个性化属性组合为:对话环境为安静;第三层级最左边的节点表示的个性化属性组合为:对话环境为安静且对话情绪为高昂。
得到当前用户具有的个性化维度组合后,可以结合S102中语音数据在各语音属性每个维度的分布情况,得到语音数据在每个个性化维度组合的分布情况,并据此选取出K个个性化维度组合,用于表示本次语音识别时当前用户所处的对话场景。
如果语音数据在语音属性每个维度的分布情况体现为,语音数据属于该语音属性中每个维度的概率,则语音数据在每个个性化维度组合的分布情况可以体现为,个性化维度组合中每个维度对应的概率的乘积。以图3中第三层级最左边的节点表示的个性化属性组合为例,语音数据在该个性化维度组合的分布情况为P=P安静*P高昂。
S104,利用所述K个个性化维度组合对应的语音识别模型,对所述语音数据进行语音识别。
通过当前用户具有的个性化维度组合,可以表示出当前用户可能存在的所有对话场景,为了尽量提高本公开方案在不同场景下的语音识别准确率,在进行语音识别之前,可以针对每个个性化维度组合,构建各自对应的语音识别模型。这样,便可在采集到当前用户的语音数据后,通过分析语音数据确定出当前用户所处的对话场景,选择与该对话场景相符的语音识别模型,进行语音识别。如此方案,有助于提高语音识别准确率,达到更好的语音识别效果。
具体地,可以获取当前用户的历史语音数据,并从中确定出每个个性化维度组合对应的历史语音数据;再确定出语音识别模型采用的拓扑结构;进而基于个性化维度组合对应的历史语音数据、拓扑结构,构建该个性化维度组合对应的语音识别模型。
本公开方案中,语音识别模型的拓扑结构可以体现为ODLR(英文:Output-spaceDiscrininative Linear Regression,中文:输出空间线性回归)结构、神经网络,等等,本公开方案对此可不做具体限定。此外,可以采用常用的模型训练方法,训练得到每个个性化维度组合对应的语音识别模型,对此可参照相关技术实现,此处不做详述。
在实际应用过程中,构建某个个性化维度组合对应的语音识别模型时,可能会存在该个性化维度组合对应的历史语音数据的数量不足的情况,基于此,本公开还提供一种通过相似说话人、相似对话场景来增加历史语音数据的方案。具体地,可以先通过当前用户的历史语音数据,提取当前用户的习惯特性;然后再根据该习惯特性,从其他用户中确定出与当前用户最相近的用户;将最相近的用户的个性化维度组合对应的历史语音数据,作为当前用户的个性化维度组合对应的历史语音数据,构建该个性化维度组合对应的语音识别模型。
以图3中第三层级最右边的节点为例,该节点表示的个性化维度组合为:对话环境为噪声且对话情绪为低落,当构建用户A在该个性化维度组合对应的语音识别模型时,如果历史语音数据的数量不足,则可根据用户A的习惯特性,确定出与用户A最相近的用户B,并将用户B在对话环境为噪声且对话情绪为低落时的历史语音数据,作为用户A的历史语音数据,用于构建用户A在对话环境为噪声且对话情绪为低落时的语音识别模型。
作为一种示例,当前用户的习惯特性可以是用户的发音习惯,例如,用于反映用户发音特点的ivector向量;和/或,当前用户的习惯特性可以是用户的生活习惯,例如,用户经常在社交网络聊天,可以理解为对话环境通常较为安静。
作为一种示例,与当前用户最相近的用户可以是一个用户,即,相似度最高的用户作为最相近用户;或者,与当前用户最相近的用户可以是多个用户,即,相似度超过预设值的用户均可作为最相近用户。本公开方案对此可不做具体限定,可由实际应用需求而定。
参见图2,示出了本公开确定当前用户具有的语音属性的流程示意图,可以包括以下步骤:
S201,获取所述当前用户的历史语音数据,根据语音数据量与语音属性数量之间的对应关系,确定所述历史语音数据的数量对应的语音属性的数目N。
S202,基于所述历史语音数据,对语音属性总类中所有的语音属性,按照确定性高低进行排序,所述语音属性的确定性为,所述历史语音数据属于该语音属性中每个维度的概率的熵。
S203,将所述排序中确定性最低的N个语音属性,选取为所述当前用户具有的语音属性。
从总类中选取当前用户具有的语音属性时,至少可以考虑以下两方面:
1.语音属性的数目
通常,语音属性的数量与语音数据的数量之间成正比,语音数据越多,语音属性相应的也就越多。本公开方案中,可以通过大量的实验和/或实践经验,预先得到语音数据量与语音属性数量之间的对应关系,并依据针对当前用户采集到的历史语音数据的数量,确定出当前用户具有的语音属性的数目为N。
2.语音属性的类别
可以结合当前用户的历史语音数据,对总类中所有的语音属性,按照确定性高低进行排序,有助于从总类中确定出更能反映当前用户特性的语音属性。
作为一种示例,可以将历史语音数据属于语音属性中每个维度的概率的熵,作为该语音属性的确定性。通常,熵越小,语音属性的确定性越高,基于该语音属性构建当前用户的个性化语音识别模型的需求越小。
例如,针对用户A采集的历史语音数据中,对于对话环境这一语音属性来说,如果有40条历史语音数据属于噪声维度,0条历史语音数据属于安静维度,即,历史语音数据属于噪声维度的概率P噪声=1,属于安静维度的概率P安静=0,则对话环境的相对熵值为0。也就是说,针对用户A来说,对话环境的确定性高,利用该语音属性构建个性化语音识别模型的需求小。
如此,针对当前用户,获得总类中每个语音属性的确定性后,可以将其中确定性最低的N个语音属性,选取为当前用户具有的语音属性。
参见图4,示出了本公开语音识别装置的构成示意图。所述装置可以包括:
声学特征提取模块401,用于获取当前用户的语音数据,从所述语音数据中提取声学特征;
分布情况获得模块402,用于基于所述声学特征、所述当前用户具有的语音属性、以及每个语音属性具有的细分维度,获得所述语音数据在各语音属性中每个维度的分布情况,所述语音属性的数目N≥1,所述维度的数目M≥2;
个性化维度组合选取模块403,用于基于所述分布情况,从所述当前用户具有的个性化维度组合中,选取出K个个性化维度组合,所述个性化维度组合包括至少一个不同语音属性具有的维度,且每个个性化维度组合对应表示所述当前用户所处的一个对话场景,K≥1;
语音识别模块404,用于利用所述K个个性化维度组合对应的语音识别模型,对所述语音数据进行语音识别。
可选地,所述装置还包括:
语音属性数目确定模块,用于获取所述当前用户的历史语音数据,根据语音数据量与语音属性数量之间的对应关系,确定所述历史语音数据的数量对应的语音属性的数目N;
确定性排序模块,用于基于所述历史语音数据,对语音属性总类中所有的语音属性,按照确定性高低进行排序,所述语音属性的确定性为,所述历史语音数据属于该语音属性中每个维度的概率的熵;
语音属性选取模块,用于将所述排序中确定性最低的N个语音属性,选取为所述当前用户具有的语音属性。
可选地,所述装置还包括:
映射关系获得模块,用于利用所述当前用户的历史语音数据、N个语音属性、以及每个语音属性具有的细分维度,获得所述声学特征与所述分布情况之间的映射关系;
所述分布情况获得模块,用于基于所述声学特征提取模块提取的声学特征和所述映射关系获得模块预先获得的映射关系,得到所述分布情况。
可选地,所述映射关系体现为分别针对各语音属性构建的属性判别模型,所述装置还包括:
属性判别模型训练模块,用于从所述历史语音数据中提取声学特征,并确定所述属性判别模型的拓扑结构;利用从所述历史语音数据中提取的声学特征和所述拓扑结构,训练得到所述属性判别模型。
可选地,所述装置还包括:
个性化维度组合确定模块,用于基于各语音属性对应的分布情况的判别准确率,设置N个语音属性之间的层级关系,得到个性化确定模型,其中,各层级语音属性具有的维度,作为所述个性化确定模型中的节点;每个节点对应一个从根节点到当前节点的个性化维度组合,得到所述当前用户具有的个性化维度组合。
可选地,在进行语音识别之前,所述装置还包括:
语音识别模型构建模块,用于获取所述当前用户的历史语音数据,并从中确定出每个个性化维度组合对应的历史语音数据;基于所述个性化维度组合对应的历史语音数据,构建该个性化维度组合对应的语音识别模型。
可选地,当个性化维度组合对应的历史语音数据不足时,所述装置还包括:
历史语音数据确定模块,用于通过所述历史语音数据,提取所述当前用户的习惯特性;根据所述习惯特性,从其他用户中确定出与所述当前用户最相近的用户;将所述最相近的用户的个性化维度组合对应的历史语音数据,作为所述当前用户的个性化维度组合对应的历史语音数据,用以构建该个性化维度组合对应的语音识别模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
参见图5,示出了本公开用于语音识别的电子设备500的结构示意图。参照图5,电子设备500包括处理组件501,其进一步包括一个或多个处理器,以及由存储设备502所代表的存储设备资源,用于存储可由处理组件501的执行的指令,例如应用程序。存储设备502中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件501被配置为执行指令,以执行上述语音识别方法。
电子设备500还可以包括一个电源组件503,被配置为执行电子设备500的电源管理;一个有线或无线网络接口504,被配置为将电子设备500连接到网络;和一个输入输出(I/O)接口505。电子设备500可以操作基于存储在存储设备502的操作***,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (17)
1.一种语音识别方法,其特征在于,所述方法包括:
获取当前用户的语音数据,从所述语音数据中提取声学特征;
基于所述声学特征、所述当前用户具有的语音属性、以及每个语音属性具有的细分维度,获得所述语音数据在各语音属性中每个维度的分布情况,所述语音属性的数目N≥1,所述维度的数目M≥2;
基于所述分布情况,从所述当前用户具有的个性化维度组合中,选取出K个个性化维度组合,所述个性化维度组合包括至少一个不同语音属性具有的维度,且每个个性化维度组合对应表示所述当前用户所处的一个对话场景,K≥1;
利用所述K个个性化维度组合对应的语音识别模型,对所述语音数据进行语音识别。
2.根据权利要求1所述的方法,其特征在于,所述语音属性为对话环境、对话情绪、对话对象、对话主题中的至少一项。
3.根据权利要求1所述的方法,其特征在于,获得所述当前用户具有的语音属性的方式为:
获取所述当前用户的历史语音数据,根据语音数据量与语音属性数量之间的对应关系,确定所述历史语音数据的数量对应的语音属性的数目N;
基于所述历史语音数据,对语音属性总类中所有的语音属性,按照确定性高低进行排序,所述语音属性的确定性为,所述历史语音数据属于该语音属性中每个维度的概率的熵;
将所述排序中确定性最低的N个语音属性,选取为所述当前用户具有的语音属性。
4.根据权利要求1所述的方法,其特征在于,预先利用所述当前用户的历史语音数据、N个语音属性、以及每个语音属性具有的细分维度,获得所述声学特征与所述分布情况之间的映射关系,则
所述获得所述语音数据在各语音属性中每个维度的分布情况,包括:
基于所述声学特征和所述映射关系,得到所述分布情况。
5.根据权利要求4所述的方法,其特征在于,所述映射关系体现为分别针对各语音属性构建的属性判别模型,构建所述属性判别模型的方式为:
从所述历史语音数据中提取声学特征,并确定所述属性判别模型的拓扑结构;
利用从所述历史语音数据中提取的声学特征和所述拓扑结构,训练得到所述属性判别模型。
6.根据权利要求1所述的方法,其特征在于,获得所述当前用户具有的个性化维度组合的方式为:
基于各语音属性对应的分布情况的判别准确率,设置N个语音属性之间的层级关系,得到个性化确定模型,其中,各层级语音属性具有的维度,作为所述个性化确定模型中的节点;
每个节点对应一个从根节点到当前节点的个性化维度组合,得到所述当前用户具有的个性化维度组合。
7.根据权利要求1所述的方法,其特征在于,在进行语音识别之前,所述方法还包括:
获取所述当前用户的历史语音数据,并从中确定出每个个性化维度组合对应的历史语音数据;
基于所述个性化维度组合对应的历史语音数据,构建该个性化维度组合对应的语音识别模型。
8.根据权利要求7所述的方法,其特征在于,当个性化维度组合对应的历史语音数据不足时,所述基于所述个性化维度组合对应的历史语音数据,构建该个性化维度组合对应的语音识别模型,包括:
通过所述历史语音数据,提取所述当前用户的习惯特性;
根据所述习惯特性,从其他用户中确定出与所述当前用户最相近的用户;
将所述最相近的用户的个性化维度组合对应的历史语音数据,作为所述当前用户的个性化维度组合对应的历史语音数据,构建该个性化维度组合对应的语音识别模型。
9.一种语音识别装置,其特征在于,所述装置包括:
声学特征提取模块,用于获取当前用户的语音数据,从所述语音数据中提取声学特征;
分布情况获得模块,用于基于所述声学特征、所述当前用户具有的语音属性、以及每个语音属性具有的细分维度,获得所述语音数据在各语音属性中每个维度的分布情况,所述语音属性的数目N≥1,所述维度的数目M≥2;
个性化维度组合选取模块,用于基于所述分布情况,从所述当前用户具有的个性化维度组合中,选取出K个个性化维度组合,所述个性化维度组合包括至少一个不同语音属性具有的维度,且每个个性化维度组合对应表示所述当前用户所处的一个对话场景,K≥1;
语音识别模块,用于利用所述K个个性化维度组合对应的语音识别模型,对所述语音数据进行语音识别。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
语音属性数目确定模块,用于获取所述当前用户的历史语音数据,根据语音数据量与语音属性数量之间的对应关系,确定所述历史语音数据的数量对应的语音属性的数目N;
确定性排序模块,用于基于所述历史语音数据,对语音属性总类中所有的语音属性,按照确定性高低进行排序,所述语音属性的确定性为,所述历史语音数据属于该语音属性中每个维度的概率的熵;
语音属性选取模块,用于将所述排序中确定性最低的N个语音属性,选取为所述当前用户具有的语音属性。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
映射关系获得模块,用于利用所述当前用户的历史语音数据、N个语音属性、以及每个语音属性具有的细分维度,获得所述声学特征与所述分布情况之间的映射关系;
所述分布情况获得模块,用于基于所述声学特征提取模块提取的声学特征和所述映射关系获得模块预先获得的映射关系,得到所述分布情况。
12.根据权利要求11所述的装置,其特征在于,所述映射关系体现为分别针对各语音属性构建的属性判别模型,所述装置还包括:
属性判别模型训练模块,用于从所述历史语音数据中提取声学特征,并确定所述属性判别模型的拓扑结构;利用从所述历史语音数据中提取的声学特征和所述拓扑结构,训练得到所述属性判别模型。
13.根据权利要求9所述的装置,其特征在于,所述装置还包括:
个性化维度组合确定模块,用于基于各语音属性对应的分布情况的判别准确率,设置N个语音属性之间的层级关系,得到个性化确定模型,其中,各层级语音属性具有的维度,作为所述个性化确定模型中的节点;每个节点对应一个从根节点到当前节点的个性化维度组合,得到所述当前用户具有的个性化维度组合。
14.根据权利要求9所述的装置,其特征在于,在进行语音识别之前,所述装置还包括:
语音识别模型构建模块,用于获取所述当前用户的历史语音数据,并从中确定出每个个性化维度组合对应的历史语音数据;基于所述个性化维度组合对应的历史语音数据,构建该个性化维度组合对应的语音识别模型。
15.根据权利要求14所述的装置,其特征在于,当个性化维度组合对应的历史语音数据不足时,所述装置还包括:
历史语音数据确定模块,用于通过所述历史语音数据,提取所述当前用户的习惯特性;根据所述习惯特性,从其他用户中确定出与所述当前用户最相近的用户;将所述最相近的用户的个性化维度组合对应的历史语音数据,作为所述当前用户的个性化维度组合对应的历史语音数据,用以构建该个性化维度组合对应的语音识别模型。
16.一种存储设备,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行权利要求1至8任一项所述方法的步骤。
17.一种电子设备,其特征在于,所述电子设备包括;
权利要求16所述的存储设备;以及
处理器,用于执行所述存储设备中的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710357910.9A CN107316635B (zh) | 2017-05-19 | 2017-05-19 | 语音识别方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710357910.9A CN107316635B (zh) | 2017-05-19 | 2017-05-19 | 语音识别方法及装置、存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107316635A CN107316635A (zh) | 2017-11-03 |
CN107316635B true CN107316635B (zh) | 2020-09-11 |
Family
ID=60183485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710357910.9A Active CN107316635B (zh) | 2017-05-19 | 2017-05-19 | 语音识别方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107316635B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108320738B (zh) * | 2017-12-18 | 2021-03-02 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN111508489B (zh) * | 2017-12-19 | 2022-10-18 | 深圳市欧瑞博科技股份有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN109817201B (zh) * | 2019-03-29 | 2021-03-26 | 北京金山安全软件有限公司 | 一种语言学习方法、装置、电子设备及可读存储介质 |
CN110517665B (zh) * | 2019-08-29 | 2021-09-03 | 中国银行股份有限公司 | 获取测试样本的方法及装置 |
CN111428512B (zh) * | 2020-03-27 | 2023-12-12 | 大众问问(北京)信息科技有限公司 | 一种语义识别方法、装置及设备 |
CN112185374A (zh) * | 2020-09-07 | 2021-01-05 | 北京如影智能科技有限公司 | 一种确定语音意图的方法及装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725308B2 (en) * | 2006-06-07 | 2010-05-25 | Motorola, Inc. | Interactive tool for semi-automatic generation of a natural language grammar from a device descriptor |
US20120046949A1 (en) * | 2010-08-23 | 2012-02-23 | Patrick John Leddy | Method and apparatus for generating and distributing a hybrid voice recording derived from vocal attributes of a reference voice and a subject voice |
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别*** |
GB2501067B (en) * | 2012-03-30 | 2014-12-03 | Toshiba Kk | A text to speech system |
CN103700369B (zh) * | 2013-11-26 | 2016-08-31 | 科大讯飞股份有限公司 | 语音导航方法及*** |
CN103793515A (zh) * | 2014-02-11 | 2014-05-14 | 安徽科大讯飞信息科技股份有限公司 | 一种客服语音智能搜索和分析***及方法 |
CN105448292B (zh) * | 2014-08-19 | 2019-03-12 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别***和方法 |
US20160055240A1 (en) * | 2014-08-22 | 2016-02-25 | Microsoft Corporation | Orphaned utterance detection system and method |
CN105488044A (zh) * | 2014-09-16 | 2016-04-13 | 华为技术有限公司 | 数据处理的方法和设备 |
CN104240698A (zh) * | 2014-09-24 | 2014-12-24 | 上海伯释信息科技有限公司 | 一种语音识别的方法 |
CN106157953B (zh) * | 2015-04-16 | 2020-02-07 | 科大讯飞股份有限公司 | 连续语音识别方法及*** |
CN105225665A (zh) * | 2015-10-15 | 2016-01-06 | 桂林电子科技大学 | 一种语音识别方法及语音识别装置 |
CN105489221B (zh) * | 2015-12-02 | 2019-06-14 | 北京云知声信息技术有限公司 | 一种语音识别方法及装置 |
CN105761720B (zh) * | 2016-04-19 | 2020-01-07 | 北京地平线机器人技术研发有限公司 | 一种基于语音属性分类的交互***及其方法 |
CN106297812A (zh) * | 2016-09-13 | 2017-01-04 | 深圳市金立通信设备有限公司 | 一种数据处理方法及终端 |
-
2017
- 2017-05-19 CN CN201710357910.9A patent/CN107316635B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107316635A (zh) | 2017-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107316635B (zh) | 语音识别方法及装置、存储介质、电子设备 | |
US10943582B2 (en) | Method and apparatus of training acoustic feature extracting model, device and computer storage medium | |
CN109658928B (zh) | 一种家庭服务机器人云端多模态对话方法、装置及*** | |
CN105976812B (zh) | 一种语音识别方法及其设备 | |
CN106611597B (zh) | 基于人工智能的语音唤醒方法和装置 | |
CN107578771B (zh) | 语音识别方法及装置、存储介质、电子设备 | |
CN110428820B (zh) | 一种中英文混合语音识别方法及装置 | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
CN107291690A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
WO2022178969A1 (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
WO2020253128A1 (zh) | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 | |
CN109903750B (zh) | 一种语音识别方法及装置 | |
CN108922521A (zh) | 一种语音关键词检索方法、装置、设备及存储介质 | |
CN115309877B (zh) | 对话生成方法、对话模型训练方法及装置 | |
WO2021159902A1 (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN111435592B (zh) | 一种语音识别方法、装置及终端设备 | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和*** | |
CN113314119B (zh) | 语音识别智能家居控制方法及装置 | |
CN111950275B (zh) | 基于循环神经网络的情绪识别方法、装置及存储介质 | |
CN109741735A (zh) | 一种建模方法、声学模型的获取方法和装置 | |
CN109670073B (zh) | 一种信息转换方法及装置、交互辅助*** | |
CN112131359A (zh) | 一种基于图形化编排智能策略的意图识别方法及电子设备 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN112767917A (zh) | 语音识别方法、装置及存储介质 | |
CN111199160A (zh) | 即时通话语音的翻译方法、装置以及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |