CN105575383A - 利用用户的语音特征的对象信息语音输出控制装置及方法 - Google Patents

利用用户的语音特征的对象信息语音输出控制装置及方法 Download PDF

Info

Publication number
CN105575383A
CN105575383A CN201510657714.4A CN201510657714A CN105575383A CN 105575383 A CN105575383 A CN 105575383A CN 201510657714 A CN201510657714 A CN 201510657714A CN 105575383 A CN105575383 A CN 105575383A
Authority
CN
China
Prior art keywords
information
voice
object information
user
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510657714.4A
Other languages
English (en)
Inventor
权吾泫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Mobis Co Ltd
Original Assignee
Hyundai Mobis Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Mobis Co Ltd filed Critical Hyundai Mobis Co Ltd
Publication of CN105575383A publication Critical patent/CN105575383A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种根据从用户的语音得到的特征信息提供TTS服务的利用用户的语音特征的对象信息语音输出控制装置及方法。本发明的对象信息语音输出控制装置包括:特征信息生成部,其根据用户的语音信息生成所述用户的特征信息;对象信息生成部,其根据所述特征信息,利用文本形式的第一对象信息生成语音形式的第二对象信息;以及,对象信息输出部,其输出所述第二对象信息。本发明的对象信息语音输出控制装置能够构建自然的语音识别***,能够提供非机械性的亲和、易懂的语音。

Description

利用用户的语音特征的对象信息语音输出控制装置及方法
技术领域
本发明涉及通过语音输出对象信息的控制装置及方法,尤其涉及一种车辆用语音输出对象信息的控制装置及方法。
背景技术
通常,文转声(TextToSpeech;以下简称‘TTS’)是将文字或记号转换成语音输出的技术。TTS构建关于音素的发音数据库并将此连接成连续的语音,此时关键是通过调节语音大小、长度、高低等合成自然的语音。
即,TTS是将字符串(文章)转换成语音的文字-语音转换装置,大致分为语言处理、生成韵律、波形合成等三个步骤,具体是接收到文本时在语言处理步骤分析接收到的文书的语法结构,根据分析得到的语法结构生成像真人朗读一样的韵律,并根据生成的韵律汇集存储的语音数据库(以下简称‘DB’)的基本单位生成合成音。
TTS无对象词汇限制,将一般文字形式的信息转换成语音,因此构建***时应用语音学、语音分析、语音合成及语音识别技术等输出多种自然的语音。
但目前提供这种TTS的终端在用语音输出文字消息等情况下,无论对方是谁,都用预先设定的相同语音进行输出,因此无法满足各类用户的需求。
韩国公开专利第2011-0032256号公开了一种TTS引导广播装置。但由于该装置只不过是一种单纯地将指定文本转换成语音的装置,因此无法解决上述问题。
发明内容
技术问题
为解决上述问题,本发明的目的在于提供一种根据从用户的语音获取的特征信息提供TTS(TextToSpeech)服务的利用用户的语音特征(characteristicofuservoice)的对象信息语音输出控制装置及方法。
但本发明的目的不限于以上记载的内容,本领域技术人员可通过以下记载内容明确理解未记载的其他目的。
技术方案
为达成上述目的,本发明提供一种利用用户的语音特征的对象信息语音输出控制装置,其特征在于,包括:特征信息生成部,其根据用户的语音信息生成所述用户的特征信息;对象信息生成部,其根据所述特征信息,利用文本形式的第一对象信息生成语音形式的第二对象信息;以及,对象信息输出部,其输出所述第二对象信息。
优选地,所述特征信息生成部从所述语音信息提取共振峰(Formant)信息、频率(Logf0)信息、线性预测系数(LinearPredictiveCoefficient;LPC)信息、频谱包络线(SpectralEnvelope)信息、能量信息、说话速度(PitchPeriod)信息及对数谱(LogSpectrum)信息中的至少一种信息,并根据所述至少一种信息实时生成所述特征信息。
优选地,所述特征信息生成部实时生成所述用户的性别信息、所述用户的年龄信息及所述用户的感情信息中的至少一种信息作为所述特征信息。
优选地,所述特征信息生成部从所述语音信息中去除噪音信息后生成所述特征信息。
优选地,所述特征信息生成部向所述语音信息适用加权值信息生成所述特征信息,其中,所述加权值信息为通过学习(training)对应于所述语音信息的输入信息与各输入信息的目标信息得到的信息。
优选地,所述特征信息生成部利用人工神经网络(ArtificialNeuralNetwork;ANN)算法、误差反向传播(ErrorBackPropagation;EBP)算法及梯度下降法(GradientDescentMethod)获取所述加权值信息。
优选地,所述对象信息生成部从数据库中提取对应于所述特征信息的基准信息,并根据所述基准信息对所述第一对象信息转换成语音得到的信息进行调整生成所述第二对象信息。
优选地,所述对象信息生成部根据从所述基准信息得到的说话速度(PitchPeriod)信息或频率(Logf0)信息,对所述第一对象信息转换成语音得到的信息进行调整生成所述第二对象信息。
优选地,所述对象信息生成部根据所述基准信息与从所述特征信息获取的说话者识别信息生成所述第二对象信息。
优选地,所述对象信息生成部根据高斯混合模型(GMM)获取所述说话者识别信息。
并且,本发明提供一种利用用户的语音特征的对象信息语音输出控制方法,其特征在于,包括:根据用户的语音信息生成所述用户的特征信息的步骤;根据所述特征信息,利用文本形式的第一对象信息生成语音形式的第二对象信息的步骤;以及,输出所述第二对象信息的步骤。
优选地,生成所述特征信息的步骤具体是,从所述语音信息提取共振峰(Formant)信息、频率(Logf0)信息、线性预测系数(LinearPredictiveCoefficient;LPC)信息、频谱包络线(SpectralEnvelope)信息、能量信息、说话速度(PitchPeriod)信息及对数谱(LogSpectrum)信息中的至少一种信息,并根据所述至少一种信息实时生成所述特征信息。
优选地,生成所述特征信息的步骤具体是,实时生成所述用户的性别信息、所述用户的年龄信息及所述用户的感情信息中的至少一种信息作为所述特征信息。
优选地,生成所述特征信息的步骤具体是,从所述语音信息中去除噪音信息后生成所述特征信息。
优选地,生成所述特征信息的步骤具体是,向所述语音信息适用加权值信息生成所述特征信息,其中,所述加权值信息为通过学习(training)对应于所述语音信息的输入信息与各输入信息的目标信息得到的信息。
优选地,生成所述特征信息的步骤具体是,利用人工神经网络(ArtificialNeuralNetwork;ANN)算法、误差反向传播(ErrorBackPropagation;EBP)算法及梯度下降法(GradientDescentMethod)获取所述加权值信息。
优选地,生成所述第二对象信息的步骤具体是,从数据库中提取对应于所述特征信息的基准信息,并根据所述基准信息对所述第一对象信息转换成语音得到的信息进行调整生成所述第二对象信息。
优选地,生成所述第二对象信息的步骤具体是,从所述基准信息得到的说话速度(PitchPeriod)信息或频率(Logf0)信息,对所述第一对象信息转换成语音得到的信息进行调整生成所述第二对象信息。
优选地,生成所述第二对象信息的步骤具体是根据所述基准信息与从所述特征信息获取的说话者识别信息生成所述第二对象信息。
优选地,生成所述第二对象信息的步骤具体是根据高斯混合模型(GMM)获取所述说话者识别信息。
技术效果
本发明根据从用户的语音获取的特征信息提供文转声(TextToSpeech,以下简称‘TTS’)服务,从而具有如下效果:
第一,从单向方式改成双向方式沟通,从而能够构建自然的语音识别***。
第二,***提供与驾驶员性别、年龄、爱好等相符的TTS服务,因此车辆的语音识别***能够提供非机械性的亲和、易懂的语音。
附图说明
图1为显示根据本发明一个实施例的车辆用语音引导提供***的内部构成的概念图;
图2及图3为用于说明图1所示车辆用语音引导提供***中的说话者语音分析器的参考图;
图4为显示根据本发明一个实施例的车辆用语音引导提供***工作方法的流程图。
具体实施方式
以下参照附图具体说明本发明的优选实施例。首先,需要注意的是在对各图的构成要素添加附图标记方面,即使相同的构成要素出现在不同的附图上也尽可能添加相同的附图标记。并且在说明本发明时若判断认为对相关公知结构或功能的具体说明可能对本发明的主题造成混淆,则省略相关具体说明。另外,以下将说明本发明的优选实施例,但本发明的技术方案并不限定或限制于此,所属技术领域的技术人员可做多种变形实施。
本发明的目的在于分析车辆内驾驶员的语音特征并提供更加自然亲切的语音引导服务。
图1为显示根据本发明一个实施例的车辆用语音引导提供***的内部构成的概念图。
车辆用语音引导提供***100是利用驾驶员的语音,通过与当前驾驶员的语音相似的图案提供语音引导的***,如图1所示,包括噪音去除器110、语音特征信息提取器120、说话者语音分析器130、文转声数据库提取器(以下简称‘TTSDB提取器’)140、TTSDB(以下简称‘文转声数据库’)150、说话者语音调整器160、高斯混合模型提取器(GaussianMixtureModel提取器,以下简称‘GMM提取器’)170及说话者语音转换器180。
车辆内导航引导语音或语音识别引导语音一般使用生产时既已固定的特定TTSDB。因此,无法充分满足希望按年龄、性别、驾驶员爱好进行语音引导的消费者需求(Needs)。例如,岁数大的老年人可能不太容易听懂朝气蓬勃的二十多岁人员语速较快的语音,而年轻人则认为五十多岁人员的慢速语音枯燥、无个性。
本发明的车辆用语音引导提供***100的目的在于为年轻人、中年人、老年人及男性、女性、性格活泼或温柔的驾驶员提供亲和、易懂的语音品质,而不是提供机械性的TTS引导语音。
并且,车辆用语音引导提供***100的目的在于在双向沟通方式的技术发展下通过语音识别这种说话者识别功能区分驾驶员并首先推荐最适合驾驶员的功能,以适应人工智能趋势。
以下参照图1进行具体说明。
噪音去除器110的功能是在接收到说话者的语音信息时去除该语音信息中的噪音成分。噪音去除器110通过去除车辆内的噪音获取更加清楚的驾驶员语音。
语音特征信息提取器120的功能是从去除噪音成分后的语音信息中提取说话者的语音特征信息。为了分析说话者的年龄、性别、爱好等,语音特征信息提取器120提取个人的语音特征信息。
语音特征信息提取器120从语音信息中提取共振峰(Formant)信息、频率(Logf0)信息、线性预测系数(LinearPredictiveCoefficient;LPC)信息、频谱包络线(SpectralEnvelope)信息、能量(Energy)信息、说话速度(PitchPeriod)信息、对数谱(LogSpectrum)信息等语音特征信息。
说话者语音分析器130的功能是利用语音特征信息提取器120提取的语音特征信息,对说话者的年龄、性别、爱好等进行分类(Classification)。说话者语音分析器130在区分性别时可采用Logf0信息,Logf0平均值为120Hz~240Hz时可判断为女性,Logf0平均值为0Hz~120Hz时可判断为男性。
语音特征信息提取器120提取个人的语音特征信息后,说话者语音分析器130利用人工神经网络(ArtificialNeuralNetwork;ANN)算法建模(Modeling),提取一般化的按年龄、性别、爱好等进行分析的人工神经网络算法的加权值(Weight)信息。说话者语音分析器130可以根据如上提取的一般化的加权值信息(即,利用人工神经网络算法得到的建模结果数据)提取实时输入的驾驶员的语音的特征信息,以此推定说话者的年龄、性别、爱好等。
为推定说话者的年龄、性别、爱好等,说话者语音分析器130可以利用年龄分析用神经网络(NeuralNetwork)、性别分析用神经网络、爱好分析用神经网络等人工神经网络算法。
以下参照图2及图3进一步说明说话者语音分析器130。
图2及图3为用于说明图1所示车辆用语音引导提供***中的说话者语音分析器的参考图。
人工神经网络(ArtificialNeuralNetwork;ANN)算法是按神经细胞间的连接关系建模和区分人类大脑的作用的算法。本实施例中,说话者语音分析器130通过依次执行以下两个步骤实现人工神经网络算法。图2为说明适用于本发明的人工神经网络算法的人工神经网络的神经单元(处理要素)结构的参考图。
1.学习步骤(Training,Modeling)
在学习步骤,说话者语音分析器130将大量输入向量与目标向量输入到指定的神经网络中进行图案分类,以获取最佳的加权值(Weight)220。
2.判别(Classification)
在判别步骤,说话者语音分析器130通过学习得到的加权值220与输入向量210之间的运算式230算出输出值240。说话者语音分析器130可以计算加权值220与输入向量210之间的差值,判别最接近的输出(Output)为最终算出结果。运算式230中θ表示临界值。
在利用人工神经网络算法,根据说话者语音特征信息分析说话者的年龄、性别、爱好等时,说话者语音分析器130可适用多层感知机(Multi-LayerPerceptron),尤其可以适用误差反向传播(ErrorBackPropagation;EBP)算法。以下参照图3进一步进行说明。图3为用于显示将适用于本发明的EBP算法的结构的参考图。
目前与语音相关的感知机理论一直以来用于识别语音(接收到语音时判断语音的内容)或判别人的感情。
多层感知机(multilayerperceptron)是输入层与输出层之间具有一个以上中间层的神经网络。网络是按照输入层、隐层、输出层方向连接,不存在各层内连接及从输出层到输入层的直接连接的前馈(Feedforward)网络。
为了将这种多层感知机适用到说话者语音分析器130,本发明采用EBP算法。
本发明中,EBP算法具有位于输入层与输出层之间的一个以上隐层。并且,本发明中EBP算法如数学式1所示,通过梯度下降法(gradient-descentmethod)向最小化的方向学***方和:
【数学式1】
E = Σ p E p , ( E p = 1 2 Σ j ( D p j - O p j ) 2 )
其中,p表示第p学习图案,Ep表示关于第p图案的误差。并且,Dpj表示关于第p图案的第j要素,Opj表示实际输出的第j要素。
说话者语音分析器130通过利用以上说明的EBP算法,为隐层学***,如上得到最佳的加权值。
说话者语音分析器130可利用EBP算法按如下步骤执行学习(Training)步骤。
首先,第一步骤初始化加权值(Weight)与临界值。
然后,第二步骤给出输入向量(InputVector)Xp与目标向量(TargetVector)dp
然后,第三步骤利用给出的输入向量计算用于输入到隐层(HiddenLayer)第j神经单元的输入值。此时可利用数学式2:
【数学式2】
net p j = Σ i = 0 N - 1 W j i X p i - θ j
其中,netpj表示输入到隐层第j神经单元的输入值。Wji表示从第j神经单元到第i神经单元的连接加权值,Xpi表示输入向量。并且,θj表示临界值。并且,N表示输入神经单元的个数。
然后,第四步骤利用S型(Sigmoid)函数计算隐层的输出Opj
然后,第五步骤利用隐层的输出计算用于输入到输出层神经单元k的输入值。此时可利用数学式3:
【数学式3】
net p k = Σ j = 0 L - 1 W k j O p j - θ k
其中,netpk表示输入到输出层神经单元k的输入值。并且L表示隐匿神经单元的个数。
然后,第六步骤利用netpk与S型(Sigmoid)函数计算输出层的输出Opk
然后,第七步骤计算输入图案的目标输出与实际输出之间的误差,并将输出层误差和作为学习图案的误差累积。此时可利用数学式4:
【数学式4】
δpk=(dpk-Opk)fk′(netpk)=(dpk-Opk)Opk(1-Opk)
E = E + E p , ( E p = Σ k = 1 M - 1 δ p k 2 )
其中,dpk表示输入图案的目标输出,Opk表示输入图案的实际输出。并且,δpk表示目标输出与实际输出之间的误差。E表示输出层误差和,Ep表示学习图案的误差。M表示输出神经单元的个数。
然后,第八步骤利用输出层误差值dpk、隐层及输出层的加权值Wkj等计算隐层的误差δpj。此时可利用数学式5:
【数学式5】
δ p j = f j ′ ( net p j ) Σ k = 0 M - 1 δ p k W k j = Σ k = 0 M - 1 δ p k W k j O p j ( 1 - O p j )
然后,第九步骤利用在第四步骤及第七步骤求得的隐层神经单元j的输出值Opj与输出层的误差值δpk更新输出层的加权值Wkj。此时还调整临界值,假设为与常数值输入相关联的加权值,因此按近似方式适用。此时可利用数学式6:
【数学式6】
Wkj(t+1)=Wkj(t)+ηδpkOpj
θk(t+1)=θk(t)+βδpk
其中,η与β是增益值,特别地,η表示学习率,t表示时刻。Wkj(t)表示时间t时从隐匿神经单元j到输出神经单元k的加权值。
然后,第十步骤也像输出层一样更新输入层与隐层的加权值Wji及临界值θj。此时可利用数学式7:
【数学式7】
Wji(t+1)=Wji(t)+ηδpjXpi
θj(t+1)=θj(t)+βδpj
然后,第十一步骤分支到第二步骤重复执行直至全部学习所有学习图案。
然后,第十二步骤在输出层的误差和E为允许值以下或大于最大重复次数时结束,否则转到第二步骤并执行之后的步骤。
另外,说话者语音分析器130还可以在说话者为多人时,利用多层感知机(multilayerperceptron)根据各说话者的语音特征信息分析各说话者的年龄、性别、爱好等。以下对此进行说明。
根据一般噪音过滤方法,语音识别麦克风开启预定时间后发出语音识别用语音,因此将语音识别前进入麦克风的信号判断为车辆内噪音,然后只过滤信号中的该噪音。
车辆内具有朝向驾驶员方向的指向性麦克风,但由于将发出语音前的短时间内输入的信号判断为噪音,因此如果发出语音识别用语音的时间点除驾驶员之外还有其他座位人员说话,那么语音相参杂造成语音识别率下降。
因此,本发明在车辆内四个座位区域分别设置指向性麦克风,以驾驶员区域的麦克风的输入信号为基准,将其他区域的麦克风信号判别为噪音并过滤。信号处理过程中实时判别驾驶员区域驾驶员的特征,以使多媒体设备提供适合驾驶员的信息。
以下对此做进一步说明,以下说明将驾驶座定义为A区域,将副驾驶座定义为B区域,将驾驶座的后侧与副驾驶座的后侧分别定义为C区域与D区域。
驾驶员启动语音识别功能时,A、B、C、D区域的麦克风同时开启,通过麦克风接收四个区域的语音信号。由于四个区域的麦克风接收到的除人类语音之外的车辆噪音值是几乎相同的,因此在A过滤车辆噪音值。然后分析四个区域的语音。首先分析四个区域的表示性别的语音向量值,若以A区域为基准从B、C、D区域提取到表示与A区域不同性别的向量值,则从A区域中过滤相当于该向量值的信号。性别分析结束后按相同方法分析年龄、心情/状态等。
A区域中最大的必然是驾驶员的语音信号,但还存在B、C、D区域的语音信号时,A区域无法只提取驾驶员的完整语音,因此采用该方法。
此时可以利用除相互关系(CORRELATION)、ICA技术、波束形成(BEAMFORMING)技术之外的其他算法判别信号独立还是具有近似性。
可以在通过四个麦克风进行过滤的同时分析说话者的个别特征,可利用获分析个别特征得到的信息过滤噪音,以此提高识别率。
车辆一般具有四个座位,车辆内语音识别***使用者一般是驾驶员,若驾驶员使用语音识别***的过程中其他座位乘客说话,则多人的语音相叠加,因此语音识别***无法识别驾驶员的命令。目前一般使用的语音识别***是在语音识别区间前设置无语音的区间并将该区间的输入识别为噪音,在语音输入区间过滤噪音的结构。
本发明是利用多层感知机理论提取语音的特征并识别说话者的特征,根据该数据实时地为说话者提供适合的信息的技术。通过采用多层感知机,①能够根据说话者的特征提供适配信息,或者,②能够识别说话者的位置并提供该位置的说话者所需的功能。以下进一步说明①与②。
1.根据说话者特征提供适配信息
利用多层感知机构建***的情况下,即使多人的语音相叠加也能够提取驾驶员的语音。该方法不仅可以适用于驾驶员,还可以识别其他人员。例如,只提取A区域的语音特征并忽略B、C、D区域的语音信号。
多层感知机的大前提是预先形成根据大量DB及反向传播(BACKPROPAGATION)技术进行学习的算法。
多层感知机建模具体是,例如分析20~29岁且状态佳的首尔女性的大量语音提取特征(共振峰、基本频率、能量值、LPC值等)并输入到输入端,将20~29岁且状态佳的首尔女性作为输出(OUTPUT)对象的情况下,感知机结构内部经过反向传播(BACKPROPAGATION)过程确定适当的加权(WEIGHT)值。在如上学习多种特征的人的情况下,输入的任何语音都能够在经过学习的结构内找到特征。LPC值是线性预测编码值,是基于人类发声模型的语音编码方式中的一种,具有二十六维向量。
输入特定对象的大量语音的共振峰、基本频率、LPC模型的二十六维向量值的情况下,通过反向展开过程向多个目标重复合适的加权值规所定的作业(例如20~29岁且状态佳的首尔女性、30~40岁且状态不佳的庆尚道地区男性…)。
在经过该学习过程的情况下,无论任何语音,只要输入到对该语音的特征向量建模的感知机结构即可获知说话者的特征。
将即按即通(pushtotalk,以下简称‘PTT’)作为座位选择基准。若有四个PTT键,则根据位置将相应PTT输入位置的麦克风接收到的语音判断为需要分析的语音,将其余判断为噪音并过滤。根据过滤后的语音进行识别并为说话者提供最佳信息,以说话者向多媒体产品发出命令的情况为例,若想要查找的是餐厅,则首先查找与说话者特征相符的餐厅。
整理以上说明内容可导出如下特征。
首先,判别PTT位置并提取对应于各语音信号特征的向量。
然后,将四种信号的特征向量输入到多层感知机结构。
然后,分别提取各语音信号的特征。
然后,当具有与基准语音A不同的特征时,将A麦克风信号中的其他特征值判断为噪音并过滤。
然后,利用只提取A区域语音得到的数据识别语音,并判别语音的意思。
然后,针对A区域的说话者的命令提供最佳信息。
2.识别说话者位置并提供该位置的说话者所需的功能
将即按即通(pushtotalk,以下简称‘PTT’)作为座位选择基准。若有四个PTT键,则根据位置将相应PTT输入位置的麦克风接收到的语音判断为需要分析的语音,将其余判断为噪音并过滤。以空调为例,若D区域的乘坐人员发出关于空调温度的命令,可以使仅D区域的空调装置按命令调节空调档位。
以下再次参照图1进行说明。
TTSDB150是存储关于年龄的基准特征信息(10~19岁、20~29岁、30~39岁、40~49岁、50~59岁、60~69岁、70岁以上等)、关于性别的基准特征信息(男性、女性等)、关于爱好的基准特征信息(温柔、活泼等)等信息的数据库。
TTSDB提取器140的功能是从TTSDB150检测对应于说话者语音分析器130发现的说话者年龄、性别、爱好等的信息。
说话者语音调整器160的功能是根据从TTSDB150检测到的信息调整(tuning)为了TTS服务而要输出的语音。说话者语音调整器160可以将从驾驶员的语音获取的说话速度信息(PitchPeriod)、频率的高低的信息(Logf0)等适用到要输出的语音进行调整。
GMM模型提取器170的功能是根据语音特征信息提取器120提取的说话者的语音特征信息生成高斯混合模型。
说话者语音转换器180的功能是向说话者语音调整器160调整的语音适用高斯混合模型以进一步转换语音。本发明中,可以提供经过说话者语音调整器160调整的语音作为用于TTS服务的语音。但本发明不限于此,本发明还可以通过GMM(GaussianMixtureModel)进一步转换说话者的语音,以确保能够实时合理转换说话者的语音特征。
以下进一步说明利用高斯混合模型的说话者语音转换器180。
x∈Rn这一特定随机向量的高斯混合密度(GaussianMixtureDensity)可用数学式8表示:
【数学式8】
p ( x | λ ) = Σ i = 0 Q α i b i ( x ) , Σ i = 0 Q α i = 1 , α i ≥ 0
其中p(x|λ)是成分参数,表示具有平均与离散的高斯函数。Q表示单高斯密度(GaussianDensity)的总个数,αi表示单高斯密度的加权值。
bi(x)表示多维高斯混合密度(Gaussianmixturedensity)。该bi(x)用单高斯密度表示如数学式9所示:
【数学式9】
b i ( x ) = 1 ( 2 π ) n / 2 | C i | 1 / 2 exp [ - 1 2 ( x - μ i ) T C i - 1 ( x - μ i ) ]
μi:nx1meanvector,Ci:nxncovariancematrix
因此,完成的高斯混合密度(GaussianMixtureDensity)由如下三个变量构成:
λ={αi,μi,Ci},i=1,…,Q
将x∈Rn定义为TTSDB提取器140筛选出的语音,将y∈Rn定义为驾驶员的语音,则z=(x,y)T可以定义为TTSDB提取器140筛选出的语音与驾驶员语音之间的联合密度(jointdensity)语音。这可以用如下数学式表示:
【数学式10】
p ( z | λ ) = Σ i = 1 Q α i ( 2 π ) n | C i | 1 / 2 exp [ - 1 2 ( z - μ i ) T . C i - 1 ( z - μ i ) ]
Σ i = 1 Q α i = 1 , α i ≥ 0
因此,说话者语音转换器180如数学式11所示发现最小化均方误差(MeanSquareError)的映射(Mapping)函数F(x)。
【数学式11】
εmse=E[‖y-F(x)‖2]
E表示期望值(Expectation),F(x)表示所推定(estimated)语音的光谱向量(SpectralVector)。
利用联合密度推定方法(JointDensityEstimationMethod)的情况下,F(x)可定义成如以下数学式12所示。此时,可参见‘A.KainandM.Macon,“Spectralvoiceconversionfortext-to-speechsynthesis”Proc.ICASSP,pp.285~288,1998.’。
【数学式12】
F ( x ) = E [ y | x ] = Σ j = 1 Q h i ( x ) [ μ i y + C i y x C i x x - 1 ( x - μ i x ) ]
h i ( x ) = α i ( 2 π ) n / 2 | C i x x | 1 / 2 exp [ - 1 2 ( x - μ i x ) T C i x x - 1 ( x - μ i x ) ] Σ j = 1 Q α j ( 2 π ) n / 2 | C j x x | 1 / 2 exp [ - 1 2 ( x - μ j x ) T C j x x - 1 ( x - μ j x ) ]
C i = C i x x C i x y C i y x C i y y , μ i = μ i x μ i y
以下具体说明参照图1至图3说明的车辆用语音引导提供***100的工作方法。图4为显示根据本发明一个实施例的车辆用语音引导提供***的工作方法的流程图。
步骤S405中,驾驶员说出特定命令时,步骤S410中,语音特征信息提取器120从说话者的语音提取特征信息。
然后在步骤S415中,说话者语音分析器130根据特征信息实时分析性别、年龄、爱好等。
然后在步骤S420中,TTSDB提取器140从TTSDB150选择对应于各分析结果的信息。
然后在步骤S425中,说话者语音调整器160根据TTSDB提取器140选择的信息调整经过语音转换的信息。
然后在步骤S430中,说话者语音转换器180将根据从说话者语音得到的GMM模型调整后的语音转换成接近驾驶员的实际语音。
然后在步骤S435中,TTS输出部(未示出)输出经过说话者语音转换器180转换后的语音。
以上参照图1至图4说明了本发明的一个实施形态。以下说明能够从这些实施形态得到的本发明优选形态。
根据本发明优选实施例的对象信息语音输出控制装置包括特征信息生成部、对象信息生成部、对象信息输出部、电源部及主控制部。
电源部的功能是向构成对象信息语音输出控制装置的各构成供应电源。主控制部的功能是控制构成对象信息语音输出控制装置的各构成的所有工作。对象信息语音输出控制装置适用于车辆的情况下,本实施例不具备电源部与主控制部也无妨。
特征信息生成部的功能是根据用户的语音信息生成用户的特征信息。特征信息生成部是对应于图1中语音特征信息提取器120的概念。
特征信息生成部从语音信息提取共振峰(Formant)信息、频率(Logf0)信息、线性预测系数(LinearPredictiveCoefficient;LPC)信息、频谱包络线(SpectralEnvelope)信息、能量信息、说话速度(PitchPeriod)信息及对数谱(LogSpectrum)信息中的至少一种信息,并根据至少一种信息实时生成特征信息。
特征信息生成部可以实时生成特征信息,所述特征信息包括用户的性别信息、用户的年龄信息及用户的感情信息中的至少一种信息。这种特征信息生成部是对应于图1的语音特征信息提取器120与说话者语音分析器130的结合构成的概念。
特征信息生成部可以从语音信息中去除噪音信息生成特征信息。这种特征信息生成部是对应于图1的噪音去除器110与语音特征信息提取器120的结合构成的概念。
特征信息生成部可以向语音信息适用对应于语音信息的输入信息与通过学习(training)各输入信息的目标信息得到的加权值信息生成特征信息。
特征信息生成部可利用人工神经网络(ArtificialNeuralNetwork;ANN)算法、误差反向传播(ErrorBackPropagation;EBP)算法及梯度下降法(GradientDescentMethod)获取加权值信息。
对象信息生成部的功能是根据特征信息,利用文本形式的第一对象信息生成语音形式的第二对象信息。
对象信息生成部从数据库中提取对应于特征信息的基准信息,并根据该基准信息调整第一对象信息转换成语音得到的信息生成第二对象信息。这种对象信息生成部是对应于图1中TTSDB150、TTSDB提取器140及说话者语音调整器160的结合构成的概念。
对象信息生成部可以根据从基准信息获取的说话速度(PitchPeriod)信息或频率(Logf0)信息调整将第一对象信息转换成语音得到的信息以生成第二对象信息。
对象信息生成部可以根据基准信息与从特征信息获取的说话者识别信息生成第二对象信息。这种对象信息生成部是对应于TTSDB150、TTSDB提取器140、说话者语音调整器160、GMM模型提取器170及说话者语音转换器180的结合构成的概念。
对象信息生成部可以根据高斯混合模型(GMM)获取说话者识别信息。
以下说明对象信息语音输出控制装置的工作方法。
首先,特征信息生成部根据用户的语音信息生成用户的特征信息。
然后,对象信息生成部根据特征信息,利用文本形式的第一对象信息生成语音形式的第二对象信息。
然后,对象信息输出部输出第二对象信息。
以上记载了构成本发明实施例的所有构成要素结合成一体或结合工作,但本发明并不限定于这些实施例。即在本发明的目的范围内,其所有构成要素中一个以上可选择性结合工作。并且,其所有构成要素可分别为一个独立的硬件,但也可以选择性地组合各构成要素的一部分或全部,通过具有用于执行一个或多个硬件组合实现的部分或全部功能的程序模块的计算机程序来实现。并且,这种计算机程序可存储于USB存储器、CD磁盘、闪存盘(FlashMemory)等计算机可读记录介质(ComputerReadableMedia),由计算机读取并执行,实现本发明的实施例。计算机程序记录介质可包括磁性记录介质、光记录介质、载波(CarrierWave)介质等。
并且,包括技术或科学用语在内的所有用语在具体说明中无另行定义的情况下,表示和本发明所属技术领域的普通技术人员的通常理解相同的意思。通常使用的词典定义的用语,应解释为与相关技术的文章脉络的意思相一致的意思,若本发明中无明确定义,不得解释为理想或过度性的意思。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述各实施例对本发明进行了具体的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (15)

1.一种利用用户的语音特征的对象信息语音输出控制装置,其特征在于,包括:
特征信息生成部,其根据用户的语音信息生成所述用户的特征信息;
对象信息生成部,其根据所述特征信息,利用文本形式的第一对象信息生成语音形式的第二对象信息;以及
对象信息输出部,其输出所述第二对象信息。
2.根据权利要求1所述的利用用户的语音特征的对象信息语音输出控制装置,其特征在于:
所述特征信息生成部从所述语音信息提取共振峰信息、频率信息、线性预测系数信息、频谱包络线信息、能量信息、说话速度信息及对数谱信息中的至少一种信息,并根据所述至少一种信息实时生成所述特征信息。
3.根据权利要求1所述的利用用户的语音特征的对象信息语音输出控制装置,其特征在于:
所述特征信息生成部实时生成所述用户的性别信息、所述用户的年龄信息及所述用户的感情信息中的至少一种信息作为所述特征信息。
4.根据权利要求1所述的利用用户的语音特征的对象信息语音输出控制装置,其特征在于:
所述特征信息生成部从所述语音信息中去除噪音信息后生成所述特征信息。
5.根据权利要求1所述的利用用户的语音特征的对象信息语音输出控制装置,其特征在于:
所述特征信息生成部向所述语音信息适用加权值信息生成所述特征信息,其中,所述加权值信息为通过学习对应于所述语音信息的输入信息与各输入信息的目标信息得到的信息。
6.根据权利要求5所述的利用用户的语音特征的对象信息语音输出控制装置,其特征在于:
所述特征信息生成部利用人工神经网络算法、误差反向传播算法及梯度下降法获取所述加权值信息。
7.根据权利要求1所述的利用用户的语音特征的对象信息语音输出控制装置,其特征在于:
所述对象信息生成部从数据库中提取对应于所述特征信息的基准信息,并根据所述基准信息对所述第一对象信息转换成语音得到的信息进行调整生成所述第二对象信息。
8.根据权利要求7所述的利用用户的语音特征的对象信息语音输出控制装置,其特征在于:
所述对象信息生成部根据从所述基准信息得到的说话速度信息或频率信息,对所述第一对象信息转换成语音得到的信息进行调整生成所述第二对象信息。
9.根据权利要求7所述的利用用户的语音特征的对象信息语音输出控制装置,其特征在于:
所述对象信息生成部根据所述基准信息与从所述特征信息获取的说话者识别信息生成所述第二对象信息。
10.根据权利要求9所述的利用用户的语音特征的对象信息语音输出控制装置,其特征在于:
所述对象信息生成部根据高斯混合模型获取所述说话者识别信息。
11.一种利用用户的语音特征的对象信息语音输出控制方法,其特征在于,包括:
根据用户的语音信息生成所述用户的特征信息的步骤;
根据所述特征信息,利用文本形式的第一对象信息生成语音形式的第二对象信息的步骤;以及
输出所述第二对象信息的步骤。
12.根据权利要求11所述的利用用户的语音特征的对象信息语音输出控制方法,其特征在于:
生成所述特征信息的步骤具体是,从所述语音信息提取共振峰信息、频率信息、线性预测系数信息、频谱包络线信息、能量信息、说话速度信息及对数谱信息中的至少一种信息,并根据所述至少一种信息实时生成所述特征信息。
13.根据权利要求11所述的利用用户的语音特征的对象信息语音输出控制方法,其特征在于:
生成所述特征信息的步骤具体是,实时生成所述用户的性别信息、所述用户的年龄信息及所述用户的感情信息中的至少一种信息作为所述特征信息。
14.根据权利要求11所述的利用用户的语音特征的对象信息语音输出控制方法,其特征在于:
生成所述第二对象信息的步骤具体是,从数据库中提取对应于所述特征信息的基准信息,并根据所述基准信息对所述第一对象信息转换成语音得到的信息进行调整生成所述第二对象信息。
15.根据权利要求14所述的利用用户的语音特征的对象信息语音输出控制方法,其特征在于:
生成所述第二对象信息的步骤具体是,根据所述基准信息与从所述特征信息获取的说话者识别信息生成所述第二对象信息。
CN201510657714.4A 2014-10-28 2015-10-13 利用用户的语音特征的对象信息语音输出控制装置及方法 Pending CN105575383A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140147474A KR102311922B1 (ko) 2014-10-28 2014-10-28 사용자의 음성 특성을 이용한 대상 정보 음성 출력 제어 장치 및 방법
KR10-2014-0147474 2014-10-28

Publications (1)

Publication Number Publication Date
CN105575383A true CN105575383A (zh) 2016-05-11

Family

ID=55885440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510657714.4A Pending CN105575383A (zh) 2014-10-28 2015-10-13 利用用户的语音特征的对象信息语音输出控制装置及方法

Country Status (2)

Country Link
KR (1) KR102311922B1 (zh)
CN (1) CN105575383A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504743A (zh) * 2016-11-14 2017-03-15 北京光年无限科技有限公司 一种用于智能机器人的语音交互输出方法及机器人
CN108519870A (zh) * 2018-03-29 2018-09-11 联想(北京)有限公司 一种信息处理方法及电子设备
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及***

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101864824B1 (ko) * 2016-11-03 2018-06-05 세종대학교산학협력단 발화자에 대한 신뢰도 측정 장치 및 방법
KR102441066B1 (ko) * 2017-10-12 2022-09-06 현대자동차주식회사 차량의 음성생성 시스템 및 방법
KR102247902B1 (ko) * 2018-10-16 2021-05-04 엘지전자 주식회사 단말기
KR102479899B1 (ko) * 2019-07-30 2022-12-21 주식회사 케이티 음성 합성 서비스를 제공하는 서버, 단말 및 방법
KR102351021B1 (ko) * 2019-11-15 2022-01-14 주식회사 셀바스에이아이 음성 트레이닝 데이터 선별 방법 및 이를 이용하는 장치
KR102277205B1 (ko) * 2020-03-18 2021-07-15 휴멜로 주식회사 오디오 변환 장치 및 방법
WO2024043592A1 (ko) * 2022-08-26 2024-02-29 삼성전자주식회사 전자 장치 및 텍스트 음성 변환의 속도 제어 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101356427A (zh) * 2006-01-24 2009-01-28 思科技术公司 使用发送者语音的电子邮件文本到话音转换
CN101375329A (zh) * 2005-03-14 2009-02-25 沃克索尼克股份有限公司 用于语音转换的自动施主分级和选择***及方法
CN102834842A (zh) * 2010-03-23 2012-12-19 诺基亚公司 用于确定用户年龄范围的方法和装置
CN103236259A (zh) * 2013-03-22 2013-08-07 乐金电子研发中心(上海)有限公司 语音识别处理及反馈***、语音回复方法
CN103516854A (zh) * 2012-06-15 2014-01-15 三星电子株式会社 终端装置及其控制方法
CN103680512A (zh) * 2012-09-03 2014-03-26 现代摩比斯株式会社 车用阵列话筒的语音识别水平提升***及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130078919A (ko) * 2012-01-02 2013-07-10 현대모비스 주식회사 차량용 핸즈프리 통화 시스템 및 그 제어 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101375329A (zh) * 2005-03-14 2009-02-25 沃克索尼克股份有限公司 用于语音转换的自动施主分级和选择***及方法
CN101356427A (zh) * 2006-01-24 2009-01-28 思科技术公司 使用发送者语音的电子邮件文本到话音转换
CN102834842A (zh) * 2010-03-23 2012-12-19 诺基亚公司 用于确定用户年龄范围的方法和装置
CN103516854A (zh) * 2012-06-15 2014-01-15 三星电子株式会社 终端装置及其控制方法
CN103680512A (zh) * 2012-09-03 2014-03-26 现代摩比斯株式会社 车用阵列话筒的语音识别水平提升***及其方法
CN103236259A (zh) * 2013-03-22 2013-08-07 乐金电子研发中心(上海)有限公司 语音识别处理及反馈***、语音回复方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALEXANDER KAIN AND MICHAEL W.MACON: ""spectral voice conversion for text-to-speech synthesis"", 《ICASSP"98,IEEE》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504743A (zh) * 2016-11-14 2017-03-15 北京光年无限科技有限公司 一种用于智能机器人的语音交互输出方法及机器人
CN108519870A (zh) * 2018-03-29 2018-09-11 联想(北京)有限公司 一种信息处理方法及电子设备
CN108922540A (zh) * 2018-07-27 2018-11-30 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及***

Also Published As

Publication number Publication date
KR20160049804A (ko) 2016-05-10
KR102311922B1 (ko) 2021-10-12

Similar Documents

Publication Publication Date Title
CN105575383A (zh) 利用用户的语音特征的对象信息语音输出控制装置及方法
Shahamiri Speech vision: An end-to-end deep learning-based dysarthric automatic speech recognition system
CN108172218B (zh) 一种语音建模方法及装置
EP4002362B1 (en) Method and apparatus for training speech separation model, storage medium, and computer device
Morgan Deep and wide: Multiple layers in automatic speech recognition
Schuller et al. Emotion recognition in the noise applying large acoustic feature sets
CN102800316B (zh) 基于神经网络的声纹识别***的最优码本设计方法
Hojo et al. An Investigation of DNN-Based Speech Synthesis Using Speaker Codes.
CN108806667A (zh) 基于神经网络的语音与情绪的同步识别方法
Bhat et al. Automatic assessment of sentence-level dysarthria intelligibility using BLSTM
CN105760852A (zh) 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN108364639A (zh) 语音处理***和方法
KR102221513B1 (ko) 음성 감정 인식 방법 및 시스템
Malcangi Text-driven avatars based on artificial neural networks and fuzzy logic
CN109979436B (zh) 一种基于频谱自适应法的bp神经网络语音识别***及方法
CN105206257A (zh) 一种声音转换方法及装置
KR102505927B1 (ko) 생성 모델 기반 데이터 증강 기법을 활용한 딥러닝 기반 감정음성합성 장치 및 방법
Henter et al. Gaussian process dynamical models for nonparametric speech representation and synthesis
KR20200084443A (ko) 음성 변조 시스템 및 방법
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
Airaksinen et al. Data augmentation strategies for neural network F0 estimation
CN115836300A (zh) 用于文本到语音的自训练WaveNet
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Sarma et al. Phoneme-based speech segmentation using hybrid soft computing framework
Selva Nidhyananthan et al. Assessment of dysarthric speech using Elman back propagation network (recurrent network) for speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160511