CN114694688A - 语音分析器和相关方法 - Google Patents
语音分析器和相关方法 Download PDFInfo
- Publication number
- CN114694688A CN114694688A CN202111616176.6A CN202111616176A CN114694688A CN 114694688 A CN114694688 A CN 114694688A CN 202111616176 A CN202111616176 A CN 202111616176A CN 114694688 A CN114694688 A CN 114694688A
- Authority
- CN
- China
- Prior art keywords
- speech
- layer
- feature
- input
- indicator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000013528 artificial neural network Methods 0.000 claims abstract description 45
- 230000008451 emotion Effects 0.000 claims description 74
- 230000008569 process Effects 0.000 claims description 41
- 230000009466 transformation Effects 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 329
- 230000006870 function Effects 0.000 description 46
- 238000012545 processing Methods 0.000 description 38
- 239000013598 vector Substances 0.000 description 36
- 239000011159 matrix material Substances 0.000 description 25
- 230000002996 emotional effect Effects 0.000 description 18
- 230000003750 conditioning effect Effects 0.000 description 12
- 230000004927 fusion Effects 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 9
- 238000013507 mapping Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 239000011229 interlayer Substances 0.000 description 5
- 101150055297 SET1 gene Proteins 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 206010041349 Somnolence Diseases 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 206010001605 Alcohol poisoning Diseases 0.000 description 2
- 101150117538 Set2 gene Proteins 0.000 description 2
- 231100000643 Substance intoxication Toxicity 0.000 description 2
- 206010070863 Toxicity to various agents Diseases 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 231100000419 toxicity Toxicity 0.000 description 2
- 230000001988 toxicity Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- Machine Translation (AREA)
Abstract
公开了一种语音分析器和相关方法,所述语音分析器包括:输入模块,用于基于语音信号提供语音数据;主要特征提取器,用于提供语音数据的主要特征指标;次要特征提取器,用于提供与语音数据相关联的次要特征指标;以及语音模型模块,所述语音模型模块包括具有模型层的神经网络,所述模型层包括输入层、包括第一中间层的一个或多个中间层、以及用于提供说话者指标的输出层,其中,所述语音模型模块被配置为基于次要特征指标来调节中间层,用于提供来自中间层的输出,作为在神经网络中的中间层之后的模型层的输入。
Description
技术领域
本公开涉及语音处理和相关工具和方法,以及尤其用于分析、监控和/或评估一个或多个说话者的语音的***。因此,提供了一种语音分析器和相关方法,特别是确定说话者指标的方法。
背景技术
情感计算社区长期以来一直在寻找一种有效的方法来使用多模态信息的组合来自动识别说话者的状态和/或特点。例如,先前在情绪表达和感知方面的研究表明,包括视觉、文本和声学模态在内的不同模态在有效的说话者状态和/或特点确定中起作用。
然而,存在许多应用场景,这些场景中,只有这些模态的子集可用。
发明内容
因此,需要具有改进的说话者指标确定/识别的***、电子装置和方法。
提供了一种语音分析器,该语音分析器包括:输入模块,用于基于语音信号提供语音数据;主要特征提取器,用于提供语音数据的主要特征指标;次要特征提取器,用于提供与语音数据相关联的次要特征指标;以及语音模型模块,所述语音模型模块包括具有模型层的神经网络,所述模型层包括输入层、包括第一中间层的一个或多个中间层、以及用于提供说话者指标的输出层。所述语音模型模块可选地被配置为调节一个或多个模型层,例如,被配置为基于次要特征指标来调节中间层,用于提供来自中间层的输出,作为在神经网络中的中间层之后的模型层的输入。
还公开了一种确定说话者指标的方法,所述方法包括:获得语音数据;基于语音数据确定主要特征指标;确定与语音数据相关联的次要特征指标;并且基于主要特征指标和次要特征指标来确定说话者状态。确定说话者指标包括应用语音模型,所述语音模型包括具有多个模型层的神经网络,所述多个模型层包括输入层、包括第一中间层的一个或多个中间层以及输出层。应用语音模型包括基于次要特征指标来调节一个或多个模型层,例如,基于次要特征指标来调节中间层,用于提供在神经网络中的中间层之后的模型层的输入。
此外,公开了一种电子装置,该电子装置包括处理器、存储器和接口,其中,处理器被配置为执行根据本公开的任何方法的全部或至少一部分。
本公开的优点在于,可以从多个模态的输入中确定说话者指标,例如,说话者状态(例如,情绪、困倦、健康状态)和特点(例如,年龄、方言),而不需要跨模态的输入的精确(时间)对齐。
此外,本公开提供了一种改进的神经网络模型架构,其有效且异步地处理多个模态的融合。
此外,本公开通过利用文本和声学信息并且在多个神经网络层上整体地和异步地融合它们来提供说话者指标建模/确定的改进的准确性。
附图说明
通过参照附图对本发明的示例性实施例的以下详细描述,本发明的上述和其他特征和优点对于本领域技术人员来说将变得显而易见,其中:
图1示意性地示出了根据本公开的示例性语音分析器;
图2示意性地示出了根据本公开的示例性语音分析器;
图3示出了输入层的示例性调节;
图4示出了中间层的示例性调节;以及
图5是根据本公开的示例性方法的流程图。
具体实施方式
下文将参考相关附图描述各种示例性实施例和细节。应当注意,附图可以按比例绘制,也可以不按比例绘制,并且在所有附图中,相似结构或功能的元件由相同的附图标记表示。还应当注意,附图仅旨在便于实施例的描述。它们不是对本发明的详尽描述,也不是对本发明范围的限制。此外,所示实施例不需要具有所示的所有方面或优点。结合特定实施例描述的方面或优点不一定限于该实施例,并且可以在任何其他实施例中实践,即使没有如此示出,或者如果没有如此明确描述。
公开了一种语音分析器。语音分析器可以在电子装置中实现。该电子装置包括接口、处理器和存储器。电子装置例如可以是或包括移动电话,例如,智能手机,计算机,例如,膝上型计算机或PC,或平板计算机。电子装置可以是服务器装置。
语音分析器包括用于基于语音信号提供语音数据的输入模块。输入模块可以形成电子装置的接口的一部分。输入模块被配置为接收语音信号。语音信号可以是实时馈送到输入模块的音频流。可以从例如存储在存储器中的音频文件中检索语音信号。
语音分析器包括用于提供语音数据的主要特征指标的主要特征提取器。主要特征提取器被配置为确定或提取也表示为PFM_1、PFM_2、…、PFM_NP的一个或多个主要特征指标,其中,NP是语音数据的数量或主要特征指标。换言之,主要特征指标可以被统称为PFM=(PFM_1,PFM_2,…,PFM_NP)。在一个或多个示例性语音分析器中,主要特征指标的数量NP可以在每帧1到100的范围内,例如,在每帧20到50个主要特征指标的范围内。在一个或多个示例性语音分析器中,主要特征指标作为输入变量被直接馈送到语音模型的输入层。
主要特征指标表示语音信号的主要特征。主要特征提取器可以是声学特征提取器,其被配置为提供声学特征,作为主要特征指标。换言之,主要特征指标可以是指示语音信号的声学特征的声学特征指标。
在一个或多个示例性语音分析器中,主要特征提取器可以是语言特征提取器,其被配置为提供语言特征,作为主要特征指标。
语音信号的声学特征可以包括一个或多个数字(量化和采样)音频样本,例如,脉冲编码调制(PCM)特征。
声学特征可以包括一个或多个谱图特征,例如,log-Mel、log-Bark、Mel和Bark尺度谱或线性幅度谱(例如,经由短时傅立叶变换(STFT)得到的)中的一个或多个。
声学特征可以包括例如来自小波或伽马通(gammatone)变换的chochleagrams、色谱图(chromagrams)(半音音阶上的谱)和比例尺寸图(scaleogram)特征中的一个或多个。
声学特征可以包括一个或多个倒谱特征,例如,梅尔频率倒谱系数(MFCC)和/或感知线性预测编码倒谱系数(PLP-CC)。
声学特征可以包括一个或多个线性预测编码(LPC)系数和/或剩余的LPC残余信号。
声学特征可以包括声门发音语音特征、发音语音特征和语音质量特征中的一个或多个,例如,抖动、匀场、谐波噪声比等。
声学特征可以包括一个或多个光谱统计特征,例如,光谱滚降点、光谱斜率和光谱熵中的一个或多个。
声学特征可以包括一个或多个频谱包络特征(例如,共振峰)和/或韵律特征,例如,音调、基频、信号能量、强度、响度。
声学特征/声学特征指标通常在固定的时间单位(=帧)上计算,该时间单位通常在20ms到60ms的范围内。帧数被表示为NF_PFM。25ms的帧长度/持续时间可能是优选的。帧可以优选地重叠,并且可选地以采样频率从音频信号中采样,例如,在10Hz到1KHz的范围内,例如,大约100Hz。换言之,音频信号可以每10ms采样一次(对应于每秒100帧)。这种声学特征被称为低级描述符(LLD)。可以包括衍生特征,例如,连续帧上的LLD特征的一阶或二阶差异,作为声学特征。
在一个或多个示例性的语音分析器中,多个帧的声学特征指标(例如,在从NF_PFM=2到NF_PFM=200帧的范围内)可以被馈送到语音模型模块的神经网络。NF_PFM取决于输入音频信号的长度,例如,NF_PFM=audio_length_seconds*100帧/秒。
在一个或多个示例性的语音分析器/方法中,集合特征或统计功能可以被应用于声学特征并包括在声学特征指标中。声学特征/声学特征指标不限于以上描述,还可以包括相似和相关的声学特征。可以例如利用主要特征提取器或次要特征提取器,通过在软件中实现的算法,来确定或提取声学特征,该算法实施用于从音频信号计算特征的方程式(例如,快速傅立叶变换、信号能量计算或共振峰和音调跟踪的实现)。此外,声学特征指标也可以通过一般的数学函数来确定,例如,由预定参数定义的线性组合(矩阵乘法),并且将音频信号输入的原始样本或幅度谱向量作为输入自变量。
在一个或多个示例性的语音分析器中,声学特征指标可以是神经网络的输出,例如,被训练来预测来自音频输入的浊音的基频的神经网络,或者任何这样的神经网络的中间层(被称为“嵌入”)的输出(具有优选地在其他数据上训练的预定参数)。
在一个或多个示例性的语音分析器中,声学特征指标可以包括或由40频带log-Mel标度频谱组成,该频谱从25毫秒长度的重叠音频信号帧中导出,这些音频信号帧例如以每10毫秒的恒定速率采样。log-Mel标度频谱的实现在现有技术中是众所周知的。在这种情况下,给出NP(NP=40×<语音信号输入的帧数>)个主要特征指标,作为语音分析器的神经网络的输入。
语音分析器包括用于提供次要特征指标的次要特征提取器。次要指标可以是语音数据或者与语音数据相关联。次要特征提取器被配置为确定或提取也表示为SFM_1、SFM_2、…、SFM_NS的一个或多个次要特征指标,其中,NS是语音数据或与语音数据相关联的数量或次要特征指标。换言之,次要特征指标可以被统称为SFM=(SFM_1,SFM_2,…,SFM_NS)。在一个或多个示例性语音分析器中,次要特征指标的数量NS可以在从1到30的范围内,例如,在从5到20的范围内。
在一个或多个示例性语音分析器中,次要特征指标的数量NS可以等于主要特征指标的数量NP。
次要特征指标表示语音信号的次要特征。次要特征提取器可以是被配置为提供语言特征作为次要特征指标的语言特征提取器。换言之,次要特征指标可以是指示语音信号的语言特征的语言特征指标。
在一个或多个示例性语音分析器中,例如,在主要特征提取器是语言特征提取器的情况下,次要特征提取器可以是声学特征提取器,其被配置为提供声学特征,作为次要特征指标。
语音信号的语言特征可以包括一个或多个关键词计数,尤其是积极或消极情绪词、词袋特征(术语频率、反向文档频率,TF-IDF)、神经网络嵌入(中间层输出),例如,来自word2vec(https://en.wikipedia.org/wiki/Word2vec)模型或从在任何自然语言理解任务上训练的神经网络提取出的神经网络嵌入,例如,掩蔽语言建模、情感预测等。这种神经网络可以具有例如作为输入的文本单词序列,每个单词被编码为例如1-hot词向量,其中,向量的维数相当高并且相当于词汇的大小(支持的不同单词的数量)。网络的输出可以是描述在单词序列中看到的情感的情感标签(例如,积极或消极,或积极程度),或者输出可以是另一1-hot编码的单词向量,其表示输入单词序列之后的下一个单词或者输入单词序列中的缺失单词。作为1-hot编码单词向量的替代,输入文本串也可以表示为1-hot编码字符向量或n-gram向量。在这种情况下,这些向量的维数与字母表中的字符数或所处理文本的语言中存在的n-gram字符组合数相匹配。嵌入是这种神经网络的中间层的输出,通常是最后一个中间层或最后一层之前的一层。嵌入向量具有固定的维数,而神经网络的输入序列是NxM元素的矩阵,其中,M是输入向量的固定大小(词汇大小、字母表大小),而N是单词序列中可变的单词数量。嵌入通常具有100到10000范围内的维度。大约1,000的维数可能是优选的。
语音分析器包括语音模型模块。语音模型模块包括和/或实现具有模型层的神经网络,模型层包括输入层、包括第一中间层的一个或多个中间层以及用于提供说话者指标的输出层。输入层具有输入和输出,其中,输入被馈送输入变量,例如,主要特征指标PFM。语音模型包括一个或多个也被称为隐藏层的中间层。术语中间层和隐藏层在本文可以互换使用。一个或多个中间层被表示为IL_1、IL_2、…、IL_K,其中,K是语音模型中的中间层或隐藏层的数量。在一个或多个示例性语音分析器中,语音模型的中间层的数量K在从5到20的范围内,例如,从8到15,例如,10。在一个或多个示例性语音分析器中,语音模型的中间层的数量K大于20。对于k=1,2,…,K,到各个中间层I_L_k的输入的数量NIN_k可以等于次要特征指标的数量NS。换言之,对于k=1,2,…,K,来自中间层I_L_k的各个中间层处理的输出的数量Nout_k可以等于次要特征指标的数量NS。对于k=1,2,…,K,各个中间层I_L_k的输入数目Nin_k可以相等。换言之,可选地,Nin_1=Nin_2=Nin_3=…=Nin_K。
次要特征指标的数量NS优选地可以是固定的数量,而不管输入音频信号的长度或输入语音信号中的字数,而主要特征指标输入帧向量的数量(每个大小为NP)是可变的数量(NF_PFM),并且取决于每个输入音频信号的长度。因此,主要特征指标输入的总数是NP×NF_PFM的可变大小的矩阵。次要特征指标输入的数量是NS×1。
中间层包括例如由中间层的中间层处理模块执行的中间层处理。中间层的中间层处理可以包括卷积层处理、前馈层处理、自关注层处理或循环层处理或可以由卷积层处理、前馈层处理、自关注层处理或循环层处理组成。例如,可以根据以下等式给出卷积层处理:
其中,X是中间层的输入,维度矩阵(Ci,Hi,Wi);Y是中间层处理的输出,维度矩阵(Co,Ho,Wo);w是中间层的维度权重矩阵(Kh,Kw);b是中间层的维度偏差向量(Co);*是2D互相关算子,j是为每个Co输出通道计算的。
在一个或多个示例性中间层中,其中,第k个中间层的输入X_k是维度向量(Nin_k),前馈线性层可以用作中间层处理。中间层处理的输出Y_k可以给出为:
其中,W是维度的权重矩阵(Nout_k,Nin_k),b是层的维度偏差向量(Nout_k)。
输入层可选地包括输入层处理,例如,由输入层的输入层处理模块执行。输入层的输入层处理可以包括卷积层处理、前馈层处理、自关注层处理或循环层处理或可以由卷积层处理、前馈层处理、自关注层处理或循环层处理组成。例如,可以根据以下等式给出卷积层处理:
其中,X_IN是输入层的输入(主要特征指标PFM),维度矩阵(Ci,Hi,Wi);Y_IN是输入层处理的输出,维度矩阵(Co,Ho,Wo);w是输入层的维度权重矩阵(Kh,Kw);b是输入层的维度偏差向量(Co);*是2D互相关算子,j是为每个Co输出通道计算的。
在一个或多个示例性中间层中,其中,输入层的输入X_IN(PFM)是维度向量(NP),前馈线性层可以用作输入层处理。输入层处理的输出Y_IN可以给出为:
其中,W是维度的权重矩阵(Nout_IN,NP),b是层的维度偏差向量(Nout_IN)。在一个或多个示例性输入层中,Nout_IN等于NP。
语音模型模块被配置为基于次要特征指标来调节语音模型的一个或多个模型层。换言之,语音模型模块包括一个或多个调节模块(condition module),用于分别调节一个或多个模型层。例如,第一中间层可以包括第一调节模块,用于例如用第一调节函数(condition module)来调节第一中间层,用于提供来自第一中间层的输出,作为到多中间层模型的第二中间层或到单中间层模型的输出层的输入。
在一个或多个示例性语音分析器/方法中,语音模型模块被配置为基于次要特征指标来调节中间层,例如,利用调节函数,用于提供来自中间层的输出,作为到神经网络中的中间层之后的模型层的输入。
在一个或多个示例性语音分析器/方法中,语音模型模块被配置为基于次要特征指标,例如,利用第一调节模块,来调节第一中间层,用于提供第一中间层的输出,作为到第二中间层的输入或作为到输出层的输入(即神经网络中第一中间层之后的模型层)。
在一个或多个示例性语音分析器/方法中,语音模型包括多个中间层,例如,包括第一中间层和第二中间层,并且其中,语音模型模块被配置为基于次要特征指标,例如,利用各自的调节函数,来调节多个中间层中的至少两个。
在一个或多个示例性语音分析器/方法中,语音模型模块被配置为基于次要特征指标,例如,利用第二调节函数来调节第二中间层,用于提供第二中间层的输出,作为神经网络中的第二中间层之后的模型层的输入(例如,到第三中间层的输入或输出层的输入)。
在一个或多个示例性语音分析器/方法中,语音模型包括至少三个中间层。语音模型模块可选地被配置为基于次要特征指标来调节每个中间层。
在一个或多个示例性语音分析器/方法中,语音模型的中间层具有相同维度的输出。在一个或多个示例性语音分析器/方法中,调节中间层包括通过线性坐标变换(矩阵乘法)来调整(例如,减少或增加)次要特征指标的维度,用于将次要特征指标与中间层的输出匹配。
在一个或多个示例性语音分析器/方法中,语音模型模块被配置为例如对于一个或多个,例如k=1,2,…,K的子集或全部,基于次要特征指标,来调节第K个中间层,例如,利用第K个调节函数CF_k,用于提供第K个中间层的输出,作为到神经网络中的第K个中间层之后的模型层的输入,例如,到第k+1中间层的输入或输出层的输入。换言之,神经网络的一个或多个中间层(例如,每个中间层)可以包括调节模块,该调节模块被配置为基于次要特征指标来调节相应的中间层,用于提供来自相应中间层的输出,作为到神经网络中的相应中间层之后的模型层的输入。
在一个或多个示例性语音分析器/方法中,语音模型模块被配置为基于次要特征指标来调节输入层,例如,使用输入调节函数CF_IN。换言之,语音模型模块/输入层可以包括输入调节模块,该输入调节模块被配置为基于次要特征指标来调节输入层,用于提供来自输入层的输出,作为到第一中间层的输入。
在一个或多个示例性语音分析器/方法中,调节输入层包括将次要特征指标与主要特征指标融合,用于提供输入层处理的输入。在一个或多个示例性语音分析器中,调节输入层可以包括将次要特征指标SFM与主要特征指标PFM融合,并馈送融合的主要特征指标(也表示为PFM’),作为到输入层处理的输入。换言之,语音模型模块/输入层可以包括输入融合模块,该输入融合模块被配置为将次要特征指标与主要特征指标融合,用于提供到输入层处理的输入层处理的输入。
将次要特征指标与主要特征指标调节或融合可以包括例如基于次要特征指标将也被表示为FF_IN的输入融合函数应用于主要特征指标,或者以其他方式将相应的主要特征指标与次要特征指标组合。输入融合函数FF_IN可以包括用于各个主要特征指标PFM_np的融合函数f_in_np,可选地给出为
x'_in_np=f_in_np(PFM_np,SFM),
其中,np是索引1,2,…,NP,PFM_np是第np主要特征指标,SFM是次要特征指标,x’_in_np是输入层处理的输入变量。
对于np=1,2,…,NP,融合函数f_in_np可以给出为f_in_np(PFM_np,SFM)=PFM_np+SFM_np。换言之,输入融合函数可以执行主要特征指标和次要特征指标的元素到元素的相加。
在一个或多个示例性语音分析器/方法中,主要第一特征指标PFM_1的融合函数f_in_1可以被给出为:
x'_in_1=f_in_1(PFM_1,SFM)=PFM_1+SFM_1
其中,PFM_1是来自主要特征提取器的主要特征指标的主要第一特征指标,而SFM_1是来自次要特征指标的次要特征指标的次要第一特征指标。
在一个或多个示例性语音分析器中,主要第二特征指标PFM_2的输入融合函数f_in_2可以被给出为:
x'_in_2=f_in_2(PFM_2,SFM)=PFM_2+SFM_2
其中,PFM_2是来自主要特征提取器的主要特征指标的主要第二特征指标,而SFM_2是来自次要特征指标的次要特征指标的次要第二特征指标。
在一个或多个示例性语音分析器/方法中,基于次要特征指标来调节中间层包括将次要特征指标与中间层的中间层处理的输出进行调节或融合,例如,用于提供来自中间层的输出,作为神经网络中的中间层之后的模型层的输入,例如,下一个中间层或输出层。
在一个或多个示例性语音分析器/方法中,基于次要特征指标来调节中间层包括将次要特征指标与中间层的输入(模型的前一模型层的输出)调节或融合,用于提供来自中间层的输出,作为神经网络中例如下一中间层或输出层的中间层之后的模型层的输入。
在一个或多个示例性语音分析器/方法中,基于次要特征指标来调节中间层包括将次要特征指标映射到中间层I_L_k的输出的维度Nout_k,其中,所有中间层I_L_k,k=1,2,…,K具有相同数量的输出。维度映射优选地是通过线性映射函数的维度减少(例如,将NS个次要特征指标的向量乘以维度N_T×NS的映射矩阵MR,以获得维度N_T的向量,其中,N_T<NS),将次要特征指标SFM映射到中间层输出/中间处理层输出的适当维度Nout_k。例如,通过对大量(优选地>1,000)SFM向量的训练数据集执行主成分分析(PCA),然后仅选择N_T第一主成分作为矩阵MR的行,可以导出在下面的等式中也表示为m的矩阵MR。示例性的值是N_T=256和NS=1,000。
在一个或多个示例性语音分析器/方法中,基于次要特征指标来调节中间层,例如,将次要特征指标与中间层的中间层处理的输出融合,包括例如基于次要特征指标将调节函数应用于中间层的中间层处理的输出,或者以其他方式将中间层的中间层处理的相应输出与次要特征指标组合。
在一个或多个示例性语音分析器/方法中,将次要特征指标与模型中中间层的中间层处理的输出调节或融合包括将次要特征指标的次要第一特征指标与中间层的中间层处理的第一输出进行组合,例如,相加、相乘、线性或非线性组合,用于提供在中间层之后的模型层的第一输入。例如,组合可以包括或定义加法、乘法、线性或非线性组合或其他数学运算中的一种或多种,以组合次要特征指标和层处理的输出,例如,用于基于次要特征指标和层处理的输出提供层的输出。
在一个或多个示例性语音分析器/方法中,将次要特征指标与模型中的中间层的中间层处理的输出融合包括将次要特征指标的次要第二特征指标与中间层的中间层处理的第二输出组合,例如,相加、相乘、线性或非线性组合,用于提供到在中间层之后的模型层的第二输入。
调节函数CF_k和/或CF_IN可以包括或定义加法、乘法、线性组合或其他数学运算中的一个或多个,以组合次要特征指标和层处理的输出,例如,用于基于次要特征指标和层处理的输出来提供层的输出。在一个或多个示例性模型中,调节函数可以包括或定义两个向量输入的元素到元素的相加,用于提供输出向量。
在一个或多个示例性语音分析器/方法中,对诸如输入层和/或中间层之类的层的调节集成到层处理中,例如,作为卷积层处理的一部分。
在一个或多个示例性语音分析器/方法中,对诸如输入层和/或中间层之类的层的调节包括注意力调节,例如,作为卷积层处理的一部分。
例如,调节第一中间层可以包括通过基于次要特征指标将第一条件函数CF_1应用于第一中间层的中间层处理的输出,来将次要特征指标与第一中间层的中间层处理的输出融合。
在一个或多个示例性语音分析器/方法中,调节第k个中间层可以包括基于次要特征指标SFM将第k个调节函数CF_k应用于第k个中间层的中间层处理的输出,用于提供到第k+1个中间层的输入,例如,用于一个或多个,例如k=1,2,…,k的子集或全部。
在一个或多个示例性调节函数CF_k中,次要特征指标SFM通过线性投影函数m被映射到每个中间层k的适当维度。线性投影函数m对于每个中间层k可以是唯一的。换言之,第一中间层I_L_1的线性投影函数m可以不同于第二中间层I_L_2和/或第三中间层I_L_3的线性投影函数m。
在一个或多个示例性调节函数CF_IN中,次要特征指标SFM通过线性投影函数m_in被映射到输入层的适当维度。线性投影函数m_in对于输入层可能是唯一的。换言之,输入层的线性投影函数m_in可以不同于中间层的线性投影函数m。
在一个或多个示例性语音分析器/方法中,用于调节中间层I_L_k的条件函数CF_k可以被给出为:
Y′=CF(Y,SFM)=Y+m(SFM)
其中,Y(Y_k)是中间层的中间层处理的输出,Y’(Y’_k)是到下一个中间层的输入,m是将次要特征指标SFM映射到Y和Y’的适当维度的线性映射函数。
在一个或多个示例性语音分析器中,用于调节输入层的调节函数CF_IN可以被给出为:
Y′_IN=CF_IN(Y_IN,SFM)=Y_IN+m_in(SFM)
Y是输入层的输入层处理的输出;Y’_IN是输入层的输出,作为到第一中间层的输入;并且m_in是将次要特征指标SFM映射到适当维度的线性映射函数。
在一个或多个示例性语音分析器/方法中,输入层和/或中间层是前馈线性层。换言之,输入层处理可以是前馈线性处理和/或中间层处理可以是前馈线性处理。因此,X_IN和/或中间层的输入是维度向量(NP)。在这种情况下,m(SFM)的输出是维度向量(Nout_k),并且第k个中间层的输出Y’_k可选地如下计算:
其中,W是维度的权重矩阵(Nout_k,NP),b是中间层的维度偏差向量(Nout_k)。
输入层的输出Y’_IN可选地如下计算:
其中,W是维度的权重矩阵(Nout_IN,NP),b是输入层的维度偏差向量(Nout_IN)。
在一个或多个示例性语音分析器/方法中,输入层和/或中间层是卷积层。换言之,输入层处理可以是卷积处理和/或中间层处理可以是卷积处理。因此,X_IN和/或X_k是维度矩阵(Cin,Hin,Win)。在这种情况下,m(SFM)的输出是维度向量(Co)。经调节的第k卷积层的输出可以被给出为:
其中,X是中间层的输入,维度矩阵(Ci,Hi,Wi);y是中间层处理的输出,维度矩阵(Co,Ho,Wo);w是中间层的维度权重矩阵(Kh,Kw);b是中间层的维度偏差向量(Co);*是2D互相关算子,j是为每个Co输出通道计算的。
在一个或多个示例性语音分析器/方法中,用于中间层处理的输出的调节函数可以被实现为注意力机制。例如,如果中间层是具有维度(Cin、Hin、Win)的输入X的卷积层,则输出如下计算:
Y′=v⊙X
其中,X是中间层的输入,维度矩阵(Ci,Hi,Wi);Z是中间层处理的中间输出,维度矩阵(Co,Ho,Wo);Y’是中间层处理的输出,维度矩阵(Co,Ho,Wo);w是中间层的维度权重矩阵(Kh,Kw);b是中间层的维度偏差向量(Co);*是2D互相关算子;j是为每个Co输出通道计算的;是矩阵乘法算子;⊙是点积运算符。
因此,在一个或多个示例性语音分析器中,输入层/中间层的调节可以集成或嵌入到层处理中,例如,输入层处理和/或一个或多个中间层处理。
在一个或多个示例性语音分析器/方法中,语音分析器包括语音识别器,用于基于语音数据向次要特征提取器提供输入。语音识别器可以是语音到文本的转录器。换言之,次要特征提取器的输入可以包括语音数据的文本表示/文本抄本/tect数据或至少与语音数据相关联的文本表示/文本抄本/tect数据,例如,包括语音数据的实际单词和句子。因此,第二特征指标可以是从/基于语音信号的文本抄本导出的语言特征指标,或者至少是基于或与语音数据相关联的文本数据。在一个或多个示例性的语音分析器中,输入模块被配置为例如从数据库或存储器中获得语音数据的文本表示/文本数据,并将文本表示/文本数据馈送到次要特征提取器。
在一个或多个示例性语音分析器/方法中,说话者指标是情感指标。换言之,说话者指标可以是说话者状态,例如,说话者的情感状态。
情感指标表示说话者的情感状态。情感指标可以包括情感类型标识符、情感等级和置信度分数中的一个或多个。情感指标可以包括多个情感类型标识符、情感等级和置信度分数。情感指标SM可以包括表示主要情感状态的主要情感指标,也表示为SM_1。换言之,SM_1可以指示语音信号中的主要情绪。SM_1可以及时指示主导情感状态和/或第一情感状态。主要情感状态可能是失望、无聊、害怕、悲伤、消极、非常消极、沮丧、烦恼、恐惧、恐慌、犹豫、不满意、生气、惊讶、担心、疑惑、不理解、思考、中立、积极、非常积极、高兴、友好、自信、兴奋、愉快、满意、高亢、满足、放松、精力充沛、热情、服务意识强、乐于助人、感兴趣、快乐中的一个。在一个或多个示例性方法/语音分析器中,可以从一组主要情感状态中选择第一说话者的主要情感状态。
在一个或多个示例性方法/语音分析器中,主要情感指标指示困倦和/或中毒,例如,酒精中毒和/或药物中毒和/或药物中毒。
情感指标SM可以包括多个情感指标SM_i,i是从1到N的索引,N是情感指标中的情感指标的数量。例如,情感指标可以包括多个情感指标,例如,主要情感指标和也表示为SM_2的次要情感指标。次要情感指标可以指示次要情感状态。换言之,SM_2可以指示语音信号中的次要情绪。SM_2可以及时指示第二最主导的情感状态和/或第二情感状态。第二情感状态可能是失望、无聊、害怕、悲伤、消极、非常消极、沮丧、烦恼、恐惧、恐慌、犹豫、不满意、生气、惊讶、担心、疑惑、不理解、思考、中立、积极、非常积极、高兴、友好、自信、兴奋、愉快、满意、高亢、满足、放松、精力充沛、热情、服务意识强、乐于助人、感兴趣、快乐中的一个。在一个或多个示例性方法/语音分析器中,可以从一组次要情感状态中选择第一说话者的第二情感状态。
在一个或多个示例性方法/语音分析器中,次要情感指标指示困倦和/或中毒,例如,酒精中毒和/或药物中毒和/或药物中毒。
情感指标SM_i可以包括情感类型标识符,也表示为ST_ID_i。换言之,确定情感指标SM_i可以包括确定情感类型标识符ST_ID_i,例如,主要情感指标SM_1的主要情感类型标识符ST_ID_1和/或次要情感指标SM_2的次要情感类型标识符ST_ID_2。情感类型标识符指示说话者/语音信号的情感状态。
情感类型标识符例如可以是对应于特定情感(状态)、情感类型和/或情感类别的标签、数字或值,例如,整数。例如,可以分别从相同或不同的情感类型标识符集合中选择ST_ID_i。例如,可以从一组主要情感类型标识符中选择ST_ID_1,和/或可以从一组次要的情感类型标识符中选择ST_ID_2。一组主要的情感类型标识符可以与一组次要的情感类型标识符不同或相同。一组主要情感类型标识符和一组次要情感类型标识符可以共享一个或多个(例如,多个)情感类型标识符。
在一个或多个示例性方法/语音分析器中,主要情感指标SM_1包括从一组主要情感类型标识符ST_ID_SET_1中选择的主要情感类型标识符ST_ID_1,其中,ST_ID_SET_1包括多个情感类型标识符,例如,包括至少三个、四个、五个或更多个情感类型标识符。在一个或多个示例性方法/语音分析器中,情绪类型由数据结构中的位置定义,例如,向量。例如,情感指标向量的第一元素可以被保留/分配给第一情感类型,和/或情感指标向量的第二元素可以被保留/分配给第二情感类型。
情感指标SM_i(例如,主要情感指标SM_1和/或次要情感指标SM_2)可以包括情感等级,也表示为SL_i。情感等级SL_i指示由在情感指标向量中的情感类型标识符/位置所指示的情感的级别或程度。换言之,确定SM_i可以包括确定SL_i,例如,确定SM_1可以包括确定主要情感等级SL_1。情感等级SL_i可以指示第i种情绪类型的等级。换言之,SL_i可以表示第i种情绪类型的程度。例如,当ST_ID_1对应于说话者状态“积极”时,主要情感等级SL_1可以指示或对应于情绪“积极”的程度,例如,以例如从0到1或从1到10的级别,或者从“低”、“中”和“高”中选择。换言之,情感指标的情感等级可以是一个级别,例如,从0到1或从1到10。
情感指标SM_i可以包括置信度分数,分别表示为SCS_i。换言之,确定SM_i可以包括确定置信度分数SCS_i,例如,确定主要情感指标SM_1可以包括确定主要置信度分数SCS_1。情感指标的置信度分数可以指示所判定的情感指标(例如,情感类型标识符和/或情感等级)正确的分数或概率,例如,情感状态或情感类型(由情感指标的情感类型标识符标识)正确。例如,SCS_1=0.88可以表示确定的ST_ID_1(例如,为“积极”)是正确的概率为88%。
在一个或多个示例性语音分析器/方法中,说话者指标是特点指标。
特点指标表示说话者的特点。特点指标可以包括特点标识符、特点等级和置信度分数中的一个或多个。特点指标可以包括多个特点类型标识符、情感等级和置信度分数。特点指标TM可以包括表示主要特点状态的主要特点指标,也表示为TM_1。换言之,TM_1可以指示语音信号/作为语音信号源的说话者的主要特点。TM_1可以及时指示主导情感状态和/或第一情感状态。
特点指标TM可以包括多个特点指标TM_i,i是从1到M的索引,M是特点指标中的特点指标的数量。例如,特点指标可以包括多个特点指标,例如,主要特点指标和也表示为TM_2的次要特点指标。次要特点指标可以指示次要特点状态。换言之,TM_2可以指示说话者/语音信号的次要特点。TM_2可以及时指示第二最主要的特点状态和/或第二特点状态。
特点指标可以指示说话者/语音信号的特点。特点指标TM_i可以包括指示语音信号/说话者的特点的一个或多个参数。特点指标TM可选地包括表示说话者/语音信号的主要特点的主要特点指标,也表示为TM_1,和/或表示说话者/语音信号的次要特点的次要特点指标,也表示为TM_2。
换言之,TM_1可以指示说话者/语音信号的主要特点。TM_1可以选自性别指标(例如,女/女性、男/男性或无性别)、体重指标、身高指标、年龄指标、语言指标、语言能力指标、听力能力指标、方言指标、健康指标(例如,呼吸状况、言语缺陷和/或说话障碍)、性格指标(例如,外向或内向的人)和理解能力指标(例如,基于年龄指标、健康指标和/或性别指标)。当一个老人在听会话时有困难,或者一个外国人对口语不适应时,理解能力指标可能是相关的。
特点指标TM_i可以包括特点标识符,也表示为T_ID_i。第一特点标识符可以指示性别指标、体重指标、身高指标、年龄指标、语言指标、语言能力指标、听觉能力指标和理解能力指标之一。换言之,确定TM_i可以包括确定包括主要特点指标TM_1的主要特点标识符T_ID_1和/或次要特点指标TM_2的次要特点标识符T_ID_2的T_ID_i。
特点标识符例如可以是对应于特定特点指标、特点类型和/或特点类别的标签、数字或值,例如,整数。例如,T_ID_i可以从一组特点类型中选择,例如,包括性别、身高、体重、身高、年龄、语言、语言能力、听觉能力和理解能力中的一个或多个。特点标识符可以是映射到和/或指示特点指标类型的标签或数字。在一个或多个示例性方法/语音分析器中,特点(特点标识符)由例如向量的数据结构中的位置定义。例如,特点指标向量的第一元素可以被保留/分配给第一特点类型,例如,性别,和/或特点指标向量的第二元素可以被保留/分配给第二特点类型,例如,年龄。
在一个或多个示例性方法中,主要特点指标TM_1包括可选地从一组特点标识符T_ID_SET_1中选择的主要特点标识符T_ID_1,其中,T_ID_SET_1包括多个特点标识符,例如,包括至少三个、四个、五个或更多个特点类型标识符。在一个或多个示例性方法中,主要特点指标TM_1是性别指标,即主要指标标识符T_ID_1指示性别,例如,T_ID_1=“性别”或可以经由表格映射到性别的T_ID_1=1。
在一个或多个示例性方法/语音分析器中,次要特点指标TM_2包括可选地从一组次要特点标识符T_ID_SET_2中选择的次要特点标识符T_ID_2,其中,T_ID_SET_2包括多个特点标识符,例如,包括至少三个、四个、五个或更多个特点标识符。在一个或多个示例性方法中,次要特点指标TM_2是年龄指标,即次要指标标识符T_ID_2指示年龄,例如,T_ID_2=“年龄”或可以经由表格映射到年龄的T_ID_1_2=2。
一组特点标识符可以包括两个或至少三个或至少四个不同的特点标识符,例如,五个、六个、七个、八个、九个或更多个特点标识符。例如,主要特点指标TM_1可以包括表示或对应于说话者/语音信号的主要特点的主要特点标识符T_ID_1,例如,性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力中的一个。例如,次要特点标识符T_ID_2可以指示或对应于说话者/语音信号的次要特点,例如,性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力中的一个。次要特点标识符可选地不同于主要特点标识符。
特点指标TM_i可以包括也表示为TL_i的特点等级。换言之,确定TM_i可以包括确定TL_i,例如,确定TM_1可以包括确定主要特点等级TL_1。特点等级TL_i可以指示由特点标识符T_ID_i指示的特点指标TM_i的级别、值、范围或标签。换言之,特点等级TL_i可以指示特点指标TM_i的级别、值、范围或标签。例如,当T_ID_1对应于说话者/语音信号的主要特点是“性别”时,主要特点等级TL_1可以指示或对应于“男性”、“女性”或可选地“男女通用”。例如,当次要特点标识符T_ID_2对应于说话者/语音信号的次要特点指标是“身高”时,次要特点等级TL_2可以指示或对应于“矮”、“中”或“高”。例如,当次要特点标识符T_ID_2对应于说话者/语音信号的次要特点是“身高”时,次要特点等级TL_2可以指示或对应于“小于160厘米”、“在160厘米和185厘米之间”或“高于185厘米”。
例如,当特点标识符(例如,三元特点标识符T_ID_3)对应于说话者的特点指标(例如,三元特点指标TM_3)是“年龄”时,三元特点等级TL_3可以指示或对应于年龄范围,例如,“小于20岁”、“20-40岁”、“40-60岁”或“大于60岁”,或年龄标签,例如“年轻”、“中年”或“老年”。
特点指标TM_i可以包括置信度分数,也表示为TCS_i。换言之,确定特点指标TM_i可以包括确定特点置信度分数TCS_i,例如,确定主要特点指标TM_1可以包括确定主要特点置信度分数TCS_1。特点指标TM_i的特点置信度分数TCS_i可以指示所确定的特点指标TM_i(例如,特点等级TL_i)正确(例如,特点指标或特点等级正确)的分数或概率。例如,TCS_1=0.95可以表示确定的TL_1为“男性”是正确的概率为95%。
还公开了一种确定说话者指标的方法。该方法可以由本文公开的语音分析器和/或电子装置来执行。该方法包括:获得语音数据;基于语音数据确定主要特征指标;确定与语音数据相关联的次要特征指标;并且基于主要特征指标和次要特征指标来确定说话者状态。在该方法中,确定说话者指标包括应用语音模型,该语音模型包括具有多个模型层的神经网络,这些模型层包括输入层、包括第一中间层的一个或多个中间层以及输出层。应用语音模型可选地包括基于次要特征指标训练中间层,用于提供在神经网络中的中间层之后的模型层的输入。该方法可以是在两个说话者之间的呼叫或对话期间确定说话者指标的方法。换言之,该方法可以是在呼叫或对话期间实时或至少以小于5秒的延迟地确定说话者指标的方法。
注意,关于语音分析器描述的特征也适用于方法,反之亦然。例如,被配置为执行功能的元件、模块或提取器的描述也适用于包括执行该功能的方法。
图1示出了根据本公开的示例性语音分析器的框图。语音分析器2包括输入模块4,用于基于语音信号6提供语音数据SP_D。语音分析器2包括主要特征提取器8,用于提供语音数据的主要特征指标PFM。例如,主要特征提取器8可以是声学特征提取器,其被配置用于提供至少NP个主要特征指标PFM_np,其中,np=1,2,…,NP,主要特征指标是声学特征指标。换言之,主要特征提取器8连接到输入模块4,并被配置为基于语音数据SP_D来确定或导出主要特征指标PFM。主要特征指标的数量NP可以在从10到50的范围内。
语音分析器2包括次要特征提取器10,用于提供与语音数据相关联的次要特征指标SFM。例如,次要特征提取器10可以是语言特征提取器,其被配置用于提供至少NS个次要特征指标SFM_ns,其中,ns=1,2,…,NS,次要特征指标是语言特征指标。换言之,次要特征提取器10被配置为确定或导出与语音数据SP_D相关联的次要特征指标SFM。次要特征指标的数量NS可以在从100到1,000的范围内。在一个或多个示例语音分析器/方法中,通过将次要特征指标SFM映射到PFM的适当维度的线性映射函数,次要特征指标被映射到主要特征指标和/或中间层输出的维度。
语音分析器2可选地包括语音识别器12,用于基于语音数据SP_D提供到次要特征提取器10的输入。语音识别器12可以是语音到文本的转录器。换言之,次要特征提取器10的输入可以包括语音数据SP_D的文本表示/文本抄本/文本数据T_D。在一个或多个语音分析器中,输入模块被配置为例如从外部语音识别器或存储器获得文本数据T_D。因此,第二特征指标SFM可以是从/基于语音信号的文本抄本或至少与语音数据相关联的文本数据导出的语言特征指标。
语音分析器2包括语音模型模块14,语音模型模块包括或实现具有模型层的神经网络,模型层包括输入层16、一个或多个中间层,例如,包括第一中间层18、可选的第二中间层20的多个中间层和用于提供说话者指标24的输出层22。神经网络可以包括K个中间层,包括第K个中间层26。
语音模型模块14连接到主要特征提取器8,用于接收作为主要特征的主要特征指标PFM,作为主要输入。语音模型模块14连接到次要特征提取器10,用于接收次要特征指标SFM,作为次要输入。语音模型模块14被配置为基于神经网络输出说话者指标24。输出说话者指标24可以包括传输到另一装置和/或模块和/或将说话者指标24存储在存储器中。说话者指标可以是情感指标或特点指标。
语音模型模块14被配置为基于次要特征指标SFM来调节神经网络的一个或多个模型层,例如,一个或多个中间层,例如,第一中间层18、第二中间层20和第K中间层26中的一个或多个,用于提供来自中间层的输出,作为神经网络中的中间层之后的模型层的输入。换言之,次要特征指标SFM被馈送到一个或多个模型层,例如,经由连接16A的输入层16、经由连接18A、20A、26A的多个中间层和/或经由连接22A的输出层22,用于基于次要特征指标SFM分别调节相应的模型层16、18、20、22、26。
图2示出了根据本公开的示例性语音分析器的框图。语音分析器2A类似于图1中描述的语音分析器2,除了输入模块4被配置为从外部装置/存储器接收与语音信号6/语音数据SP_D相关联或指示语音信号6/语音数据SP_D的文本数据T_D。
此外,语音分析器2A的语音模型模块14被配置为基于次要特征指标来调节神经网络的所有中间层。
图3示出了用次要特征指标SFM调节输入层的示例。输入层16可选地由输入融合模块30表示的输入融合函数FF_IN来调节。换言之,调节输入层16可选地包括将次要特征指标SFM与主要特征指标PFM(到输入层16的输入X_IN)融合,用于提供到由输入层处理模块32表示的输入层处理的输入PFM’。输入层16可选地由输入调节模块34表示的输入调节函数CF_IN来调节。换言之,调节输入层16可选地包括将次要特征指标SFM与输入层处理模块34的输出Y_IN融合,用于提供来自输入层16的输出Y’_IN,作为到第一中间层18的输入,第一中间层18即神经网络中的输入层之后的模型层。
图4示出了使用次要特征指标SFM的第k个中间层的示例性调节,例如,对于一个或多个,例如,k=1、2、…、K的子集或全部,例如,第一中间层(k=1)、第二中间层(k=2)和/或第K个中间层(k=K)。通过将第k个调节函数CF_k应用于由第k个中间层处理模块38表示的第k个中间处理层的输出Y_k,用于提供来自第k个中间层的输出Y’_k,以用由第k个调节模块36表示的第k个调节函数CF_k来调节第k个中间层。馈送第k个中间层的输出Y’_k,作为到下一个中间层I_L_k+1的输入X_k+1。换言之,调节第k个中间层I_L_k包括将次要特征指标SFM与第k个中间层的输出Y_k融合,用于提供来自第k个中间层的输出Y’_k,作为神经网络中的第k个中间层之后的模型层的输入。
在一个或多个示例性的语音分析器/中间层中,例如,对于k=1和/或k=2,调节函数CF_k的f_1被给出为f_1=x_1+SFM_1。换言之,将次要特征指标与中间层的中间层处理的输出融合可选地包括将次要特征指标的次要第一特征指标SFM_1与中间层处理的第一输出y_1组合,用于提供在中间层之后的模型层的第一输入。
在一个或多个示例性的语音分析器/中间层中,例如,对于k=1和/或k=2,融合函数FF_k的f_2被给出为f_2=x_2+SFM_2。换言之,将次要特征指标与模型中的前一层的输出融合可选地包括将次要特征指标的次要第二特征指标SFM_2与前一层的第二输出(也是到第k中间层的第二输入x_2)组合,用于提供到第k中间层处理的第二输入。
图5是根据本公开的示例性方法的流程图。确定说话者指标的方法100包括S102获得语音数据;S104基于语音数据确定主要特征指标;S106确定与语音数据相关联的次要特征指标;并且S108基于主要特征指标和次要特征指标来确定说话者状态。S108确定说话者指标包括S110应用语音模型,该语音模型包括具有多个模型层的神经网络,这些模型层包括输入层、包括第一中间层的一个或多个中间层和输出层。S110应用语音模型可选地包括S110A基于次要特征指标调节中间层,用于提供在神经网络中的中间层之后的模型层的输入。S110应用语音模型可选地包括S110B基于次要特征指标调节输入层,例如,用于提供到神经网络中的第一中间层的输入。
术语“第一”、“第二”、“第三”、“第四”、“主要”、“次要”、“三元”等的使用并不意味着任何特定的顺序,而是用来标识各个元素。此外,术语“第一”、“第二”、“第三”、“第四”、“主要”、“次要”、“三元”等的使用不表示任何顺序或重要性,而术语“第一”、“第二”、“第三”和“第四”、“主要”、“次要”、“三元”等用于区分一个元素和另一元素。注意“第一”、“第二”、“第三”和“第四”、“主要”、“次要”、“三元”等词在此处和其他地方仅用于标记目的,并不旨在表示任何特定的空间或时间顺序。
存储器可以是缓冲器、闪存、硬盘驱动器、可移动介质、易失性存储器、非易失性存储器、随机存取存储器(RAM)或其他合适的装置中的一个或多个。在典型的设置中,存储器可以包括用于长期数据存储的非易失性存储器和用作处理器的***存储器的易失性存储器。存储器可以通过数据总线与处理器交换数据。存储器可以被认为是非暂时性计算机可读介质。
存储器可以被配置为在存储器的一部分中存储信息(例如,指示一个或多个音频信号、一个或多个情感指标、一个或多个特点指标、说话者表示、情感指标数据和/或特点指标数据的信息)。
此外,标记第一元素并不意味着存在第二元素,反之亦然。
可以理解,图1-5包括用实线示出的一些模块或操作以及用虚线示出的一些模块或操作。包含在实线中的模块或操作是包含在最广泛的示例实施例中的模块或操作。虚线中包含的模块或操作是示例性实施例,其可以包含在实线示例性实施例的模块或操作中或者是其一部分,或者是除了实线示例性实施例的模块或操作之外可以采用的其他模块或操作。应当理解,这些操作不需要按照所呈现的顺序来执行。此外,应当理解,不是所有的操作都需要执行。示例性操作可以以任何顺序和任何组合来执行。
应当注意,词语“包括”不一定排除存在除了列出的那些之外的其他元件或步骤。
应当注意,元件前面的词语“一个(a)”或“一个(an)”不排除存在多个这样的元件。
还应当注意,任何参考标记都不限制权利要求的范围,示例性实施例可以至少部分地通过硬件和软件来实现,并且几个“装置”、“单元”或“设备”可以由同一硬件项目来表示。
在方法步骤过程的一般上下文中描述本文描述的各种示例性方法、装置和***,其在一个方面可以通过计算机程序产品来实现,该计算机程序产品包含在计算机可读介质中,包括由联网环境中的计算机执行的计算机可执行指令,例如,程序代码。计算机可读介质可以包括可移动和不可移动存储装置,包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、光盘(CD)、数字多功能盘(DVD)等。通常,程序模块可以包括执行指定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、相关联的数据结构和程序模块表示用于执行本文公开的方法的步骤的程序代码的示例。这种可执行指令或相关数据结构的特定序列表示用于实现在这种步骤或过程中描述的功能的相应动作的示例。
尽管已经示出和描述了特征,但是应当理解,它们并不旨在限制所要求保护的发明,并且对于本领域技术人员来说显而易见的是,在不脱离所要求保护的发明的精神和范围的情况下,可以进行各种变化和修改。因此,说明书和附图被认为是说明性的,而不是限制性的。要求保护的发明旨在覆盖所有替代、修改和等同物。
Claims (13)
1.一种语音分析器,包括:
输入模块,用于基于语音信号提供语音数据;
主要特征提取器,用于提供所述语音数据的主要特征指标;
次要特征提取器,用于提供与所述语音数据相关联的次要特征指标;以及
语音模型模块,包括具有模型层的神经网络,所述模型层包括输入层、包括第一中间层的一个或多个中间层以及用于提供说话者指标的输出层,
其中,所述语音模型模块被配置为基于所述次要特征指标来调节中间层,用于提供来自所述中间层的输出,作为到在神经网络中的所述中间层之后的模型层的输入。
2.根据权利要求1所述的语音分析器,其中,所述语音模型包括多个中间层,并且其中,所述语音模型模块被配置为基于所述次要特征指标来调节所述多个中间层中的至少两个。
3.根据权利要求2所述的语音分析器,其中,所述语音模型包括至少三个中间层,并且其中,所述语音模型模块被配置为基于所述次要特征指标来调节每个中间层。
4.根据权利要求3所述的语音分析器,其中,所述语音模型的中间层具有相同维度的输出,并且其中,调节中间层包括通过线性坐标变换来调整所述次要特征指标的维度,用于将所述次要特征指标匹配到所述中间层的输出。
5.根据权利要求1-4中任一项所述的语音分析器,其中,所述语音模型模块被配置为基于所述次要特征指标来调节所述输入层,用于提供来自所述输入层的输出。
6.根据权利要求5所述的语音分析器,其中,调节所述输入层包括将所述次要特征指标与所述主要特征指标融合,用于向输入层处理提供输入。
7.根据权利要求1-6中任一项所述的语音分析器,其中,基于所述次要特征指标来调节中间层包括将所述次要特征指标与所述中间层的中间层处理的输出融合,用于提供来自所述中间层的输出,作为到所述神经网络中的所述中间层之后的模型层的输入。
8.根据权利要求7所述的语音分析器,其中,将所述次要特征指标与所述中间层的中间层处理的输出融合包括将所述次要特征指标的次要第一特征指标与所述中间层的中间层处理的第一输出组合,用于提供到在所述中间层之后的模型层的第一输入,并且将所述次要特征指标的次要第二特征指标与所述中间层的中间层处理的第二输出组合,用于提供到在中间层之后的模型层的第二输入。
9.根据权利要求1-8中任一项所述的语音分析器,其中,所述主要特征提取器是声学特征提取器,所述声学特征提取器被配置为提供声学特征,作为主要特征指标。
10.根据权利要求1-9中任一项所述的语音分析器,其中,所述次要特征提取器是语言特征提取器,所述语言特征提取器被配置为提供语言特征,作为次要特征指标。
11.根据权利要求1-10中任一项所述的语音分析器,其中,所述语音分析器包括语音识别器,用于基于所述语音数据提供到所述次要特征提取器的输入。
12.根据权利要求1-11中任一项所述的语音分析器,其中,所述说话者指标是情感指标或特点指标。
13.一种确定说话者指标的方法,所述方法包括:
获得语音数据;
基于所述语音数据确定主要特征指标;
确定与所述语音数据相关联的次要特征指标;并且
基于所述主要特征指标和所述次要特征指标来确定说话者状态,
其中,确定说话者指标包括应用语音模型,所述语音模型包括具有多个模型层的神经网络,所述多个模型层包括输入层、包括第一中间层的一个或多个中间层以及输出层,并且其中,应用所述语音模型包括基于所述次要特征指标来调节中间层,用于提供到在所述神经网络中的所述中间层之后的模型层的输入。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DKPA202070881 | 2020-12-30 | ||
DKPA202070881 | 2020-12-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114694688A true CN114694688A (zh) | 2022-07-01 |
Family
ID=78789700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111616176.6A Pending CN114694688A (zh) | 2020-12-30 | 2021-12-27 | 语音分析器和相关方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220208180A1 (zh) |
EP (1) | EP4024395A1 (zh) |
CN (1) | CN114694688A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992597B (zh) * | 2024-04-03 | 2024-06-07 | 江苏微皓智能科技有限公司 | 信息反馈方法、装置、计算机设备及计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10235994B2 (en) * | 2016-03-04 | 2019-03-19 | Microsoft Technology Licensing, Llc | Modular deep learning model |
WO2019246239A1 (en) * | 2018-06-19 | 2019-12-26 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
-
2021
- 2021-11-24 EP EP21210179.4A patent/EP4024395A1/en active Pending
- 2021-12-06 US US17/542,564 patent/US20220208180A1/en not_active Abandoned
- 2021-12-27 CN CN202111616176.6A patent/CN114694688A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4024395A1 (en) | 2022-07-06 |
US20220208180A1 (en) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4053835A1 (en) | Speech recognition method and apparatus, and device and storage medium | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
Mariooryad et al. | Compensating for speaker or lexical variabilities in speech for emotion recognition | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
US20160071520A1 (en) | Speaker indexing device and speaker indexing method | |
Jemine | Real-time voice cloning | |
EP2363852B1 (en) | Computer-based method and system of assessing intelligibility of speech represented by a speech signal | |
US20140350934A1 (en) | Systems and Methods for Voice Identification | |
Zhang et al. | Improving sequence-to-sequence voice conversion by adding text-supervision | |
JP6440967B2 (ja) | 文末記号推定装置、この方法及びプログラム | |
Jacob | Modelling speech emotion recognition using logistic regression and decision trees | |
Yusnita et al. | Malaysian English accents identification using LPC and formant analysis | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
JP2019215500A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
EP4024395A1 (en) | Speech analyser and related method | |
CN116090474A (zh) | 对话情绪分析方法、装置和计算机可读存储介质 | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
Radha et al. | Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review | |
US20230095088A1 (en) | Emotion recognition apparatus, emotion recognition model learning apparatus, methods and programs for the same | |
Aggarwal et al. | Fitness evaluation of Gaussian mixtures in Hindi speech recognition system | |
Kurian et al. | Connected digit speech recognition system for Malayalam language | |
CN114067793A (zh) | 音频处理方法和装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20220701 |