CN106356075B - 盲音分离方法、结构及语音控制***和电器总成 - Google Patents
盲音分离方法、结构及语音控制***和电器总成 Download PDFInfo
- Publication number
- CN106356075B CN106356075B CN201610866508.9A CN201610866508A CN106356075B CN 106356075 B CN106356075 B CN 106356075B CN 201610866508 A CN201610866508 A CN 201610866508A CN 106356075 B CN106356075 B CN 106356075B
- Authority
- CN
- China
- Prior art keywords
- signal
- vector
- voice
- blind
- blind sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 47
- 239000011159 matrix material Substances 0.000 claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 230000009467 reduction Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 30
- 230000002087 whitening effect Effects 0.000 claims description 26
- 230000009466 transformation Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000002203 pretreatment Methods 0.000 claims description 6
- 230000000452 restraining effect Effects 0.000 claims description 6
- 238000004378 air conditioning Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 3
- 230000007423 decrease Effects 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000001839 systemic circulation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Air Conditioning Control Device (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明涉及语音控制领域,特别是涉及盲音分离方法、结构及语音控制***和电器总成。盲音分离方法包括:对检测的语音信号进行降噪预处理,所述语音信号为同时间多个信号源语音信息的线性叠加信号;以非高斯度量,对预处理后的语音信号构建目标函数;通过迭代算法估计所述目标函数期望最大的分离矩阵W;利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。本发明基于家电工作环境中噪声干扰会导致语音识别率下降,影响语音控制功能。本技术针对家电的实际工作环境,做出线性瞬间***假设,针对线性瞬时混合***,提出基于ICA的盲源分离技术,达到语音信号降噪的效果。
Description
技术领域
本发明涉及语音控制领域,特别是涉及盲音分离方法、结构及语音控制***和电器总成。
背景技术
当前集成电路,人工智能,互联网技术的发展。传统的白家电业出现了新的定位,智能化已经成为一种趋势。在智能家电上,除了传统控制功能之外,语音控制也成为一种各厂商都在积极尝试的新的控制方式。语音控制***通过检测室内的声音,处理后得到内含的语音控制指令,家电执行该语音控制指令,实现智能化控制。
不过,在现实应用环境下,家电的工作环境通常有较大的噪声,检测的室内声音往往会包含扬声器发出的声音,非语音指令发出者的语音、语音指令发出者的语音、环境噪音等等。传统的录音方式,采集的信号带有很多干扰,直接处理会对语音识别的识别率造成很大的影响,还容易出现识别不准确的问题。
发明内容
(一)要解决的技术问题
本发明的目的是提供盲音分离方法、结构及语音控制***和电器总成。,以解决现有语音识别中干扰因素多,识别不准确,效率低的问题。
(二)技术方案
为了解决上述技术问题,本发明提供一种盲音分离方法,其包括:
预处理步骤,对检测的语音信号进行降噪预处理,所述语音信号为同时间多个信号源语音信息的线性叠加信号;
构建步骤,以非高斯度量,对预处理后的语音信号构建目标函数;
估计步骤,通过迭代算法估计所述目标函数期望最大的分离矩阵W;
求取步骤,利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
在一些实施例中,优选为,所述预处理步骤包括:数据中心化处理,所述数据中心化处理的公式为:
Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
在一些实施例中,优选为,所述预处理步骤包括:白化处理,所述白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
在一些实施例中,优选为,所述目标函数为负熵函数,所述负熵函数的公式为:
Ng(Z)=H(ZGauss)-H(Z),式中,ZGauss是和Z具有相同方差的高斯随机变量,H(.)为随机变量的微分熵;Z为高斯分布时Ng(Z)=0;
Z的概率分布为[E{G(z)}–E{G(v)}]2,其中v是准高斯随机变量,G为下凸性质偶函数的非2次函数,优选,u为变量。
在一些实施例中,优选为,所述估计步骤包括:
预估步骤,预估待估计的分量的个数m;
初始化步骤,初始权矢量w;
计算步骤,利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp;
判断步骤,利用Wp=Wp/||Wp||,判断Wp是否收敛;
若收敛,对Wp做去相关处理;
令p=p+1,将p与m比较,当p<m,则返回所述初始化步骤,当p≥m时,结束,得到所述分离矩阵W。
在一些实施例中,优选为,所述对Wp做去相关处理包括:
在估计出p个向量W1,W2,,W3,W4,……Wp之后,当估计Wp+1时,先减去p个向量的投影Wp+1 TWj,j=1,…,p,然后标准化Wp+1。
在一些实施例中,优选为,若不收敛,则返回所述计算步骤。
本发明另一方面还提供了一种执行上述盲音分离方法的盲音分离结构,其包括:
预处理模块,用于对检测的语音信号进行降噪预处理,所述语音信号为同时间多个信号源语音信息的线性叠加信号;
构建模块,用于以非高斯度量,对预处理后的语音信号构建目标函数;
估计模块,用于通过迭代算法估计所述目标函数期望最大的分离矩阵W;
求取模块,用于利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
在一些实施例中,优选为,所述预处理模块包括数据中心化单元,其用于数据中心化处理,所述数据中心化处理的公式为:
Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
在一些实施例中,优选为,所述预处理模块包括白化单元,其用于白化处理,所述白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
在一些实施例中,优选为,所述估计模块包括:
预估单元,用于预估待估计的分量的个数m;
初始化单元,用于初始权矢量w;
计算单元,用于利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp;
判断单元,利用Wp=Wp/||Wp||,判断Wp是否收敛,若收敛,激活去相关单元对Wp做去相关处理,令p=p+1;将p与m比较,当p<m,则返回所述初始化单元,当p≥m时,结束,得到所述分离矩阵W;
若不收敛,激活所述计算单元。
在一些实施例中,优选为,所述去相关单元对Wp做去相关处理包括:
在估计出p个向量W1,W2,,W3,W4,……Wp之后,当估计Wp+1时,先减去p个向量的投影Wp+1 TWj,j=1,…,p,然后标准化Wp+1。
本发明另一方面还提供了一种语音控制***,其包括:语音检测组件和所述盲音分离结构;
所述语音检测组件,用于检测环境内多个信号源语音信息,得到语音信号,供所述盲音分离结构进行盲音分离。
本发明另一方面还提供了一种电器总成,其包括电器本体和上述语音控制***,所述电器本体和所述语音控制***相连。
在一些实施例中,电器总成包括:家用电器、中央空调、电子类移动终端中的任一种。
(三)有益效果
本发明提供的技术基于家电工作环境中噪声干扰会导致语音识别率下降,影响语音控制功能。本技术针对家电的实际工作环境,做出线性瞬间***假设,针对线性瞬时混合***,提出基于ICA的盲源分离技术,达到语音信号降噪的效果。
附图说明
图1为冰箱的工作环境示意图;
图2为本发明一个实施例中盲音分离方法步骤示意图;
图3为本发明另一个实施例中盲音分离方法步骤示意图
图4为本发明一个实施例中盲音分离结构的示意图;
图5为本发明一个实施例中使用的盲源分离***模型。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实例用于说明本发明,但不用来限制本发明的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。
为了有效提取到带有语音指令的语音信号,本发明给出了一种盲音分离方法、分离结构及语音控制***和电器总成。
下面通过基础设计、替换设计和扩展设计对本技术做详细描述:
一种盲音分离方法,如图2所示,其包括:
步骤110,对检测的语音信号进行降噪预处理,语音信号为同时间多个信号源语音信息的线性叠加信号;
步骤120,以非高斯度量,对预处理后的语音信号构建目标函数;
步骤130,通过迭代算法估计目标函数期望最大的分离矩阵W;
步骤140,利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
在步骤110之前,还可以增加步骤110:
步骤110,对多个信号源语音信息视为线性叠加信号。
多个信号源语音信息由语音传感器采集。
其中,以冰箱为例,冰箱的工作环境如图1所示,在房间中,除了语音指令发出者的语音之外,存在有环境噪声,非语音指令发出者的语音,扬声器正在播报的声音,等等。
假设有多个信号源S1(t),S2(t),S3(t),S4(t)。
根据家电工作环境,各声源到传感器之间可以假设是线性叠加,因此测量信号可以表示为:
X1(t)=a11S1(t)+a12S2(t)+a13S3(t)+a14S4(t)
X2(t)=a21S1(t)+a22S2(t)+a23S3(t)+a24S4(t)
X3(t)=a31S1(t)+a32S2(t)+a33S3(t)+a34S4(t)
X4(t)=a41S1(t)+a42S2(t)+a43S3(t)+a44S4(t)
得到检测语音信号的输出信号的一般性模型的矩阵表示:
X(t)=AS(t) (1)
对语音识别***来说的信号是检测到信号中,有用的信号是S1(t),检测到的信号是各信号的叠加,从观察信号X(t)中估计出变换矩阵A和无法直接观察到的信号S(t)就是盲源分离的任务。盲源分离***的一般模型如图5所示。测量信号X(n)是在时间的序列内检测的语音信号的离散值构成的序列,是源信号经过混合后的结果,通过滤波器G,得到分离后的结果U(n)。
结合附图5的盲源分离***模型,一般情况下F(.)是源信号的非线性的,这种情况下恢复源信号非常困难。近场的语音信号,信号时延可以忽略不计的情况下,可以简化线性瞬时混合***。如公式(1)所示。线性瞬时混合***的盲源分离***是ICA问题的任务,其理想解U(t)=A-1(t),实际上理想解无法求得,因此,对于线性瞬时混合***进行如下假设:测量信号数量(及分量的个数m)大于等于源信号的数量(即声音传感器、采集器的数量),源信号在任何时刻都是相互独立的,源信号最多只有一个高斯分布,测量信号中噪声很小。
如果存在一个变换W,U(n)=W[X(n)]相互独立,则U(n)是信号源的一个估计。ICA的任务就可表述为求分离矩阵W,即步骤130。
上述步骤110-步骤130详细说明了ICA的处理步骤,如图3所示:
ICA的处理独立性的判定,可以转化为非高斯性最大化问题。可分为基于信息论准则的迭代估计方法和基于统计学的代数方法两大类,从原理上来说,它们都是利用了源信号的独立性和非高斯性。
在本技术中采用采用快速ICA算法。步骤如下:
步骤110是为了对语音信号进行降噪预处理,以使多信源语音信息的分布均值降低,尤其为0,还降低多信源语音信息的相关性。
一些实施例中,通常采用数据中心化、白化等方法达到该目的。需要说明的是,数据中心化、白化是两个不同的步骤,二者结合使用对数据处理效果较佳。当然也可以选择之一。
其中,数据中心化:线性偏移操作,Y=X-mean(X),X为输入数据,mean(X)为其均值,Y是中心化后的数据,其均值的期望为0。
白化:一般情况下,所获得的数据都具有相关性,所以通常都要求对数据进行初步的白化或球化处理,因为白化处理可去除各观测信号之间的相关性,从而简化了后续独立分量的提取过程,而且,通常情况下,数据的白化处理能大大增强算法的收敛性。
若一零均值的随机向量Z=(Z1,6,ZM)T满足E{ZZT}=I,其中:I为单位矩阵,我们称这个向量为白化向量。白化的本质在于去相关,这同主分量分析的目标是一样的。在ICA中,对于为零均值的独立源信号S(t)=[S1(t),...,SN(t)]T,有:E{SiSj}=E{Si}E{Sj}=0,当i≠j,且协方差矩阵是单位阵cov(S)=I,因此,源信号S(t)是白色的。对观测信号Y(t),我们应该寻找一个线性变换,使Y(t)投影到新的子空间后变成白化向量,即:
Z(t)=W0X(t)
其中,W0为白化矩阵,Z为白化向量。白化过程可以通过主成分分析完成。
白化矩阵W0可以通过现有技术解决,此处不在赘述。
步骤120中,目标函数:根据中心极限定理,对于信号X由许多独立分量组成Si(i=1,2…n)组成,S具有有限的均值和方差,X比S更接近高斯分布。也就是说向量的独立性可以由非高斯性度量。
所有等方差的随机变量中,高斯变量的熵最大,可以利用负熵函数来度量非高斯性,可以定义目标函数为负熵函数,如公式(2)所示。
Ng(Z)=H(ZGauss)-H(Z) (2)
式中,Z为白化向量,ZGauss是和Z具有相同方差的高斯随机变量,H(.)为随机变量的微分熵。Z为高斯分布时Ng(Z)=0。由于计算微分熵需要知道Z的概率分布,这个是未知的,所以采用公式(3)近似:
[E{G(z)}–E{G(v)}]2 (3)
其中v是准高斯随机变量,G是某种形式的非2次函数,一般选择具有下凸性质的偶函数,如
需要说明的是,ICA的实现算法有很多,一些实施例中以便于嵌入式实现的基于负熵最大化的FastICA算法进行描述,实际上可以采用其他的算法,基于此计算思想的各种算法都属于本技术的保护范围。
步骤130中,过程是寻找公式(3)的最大值。可以通过牛顿迭代法求解。简化为公式(4),其中g为G的导数。
Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)} (4)
一次FastICA算法的基本形式为:1)初始化(如随机)向量w;2)令Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)};3)令Wp=Wp/||Wp||;4)若未收敛,则回到2)。;
一次负熵最大化的FastICA算法能估计出一个独立成分,为了估计出若干个独立成分,需要进行若干次FastICA算法得到向量,为了防止这些向量收敛在同一个最大值,需要对每次迭代后的输出w1 Tx,…,wn Tx去相关。
一种比较简单的算法Gram-Schmidt-like去相关,即一个接一个地估计独立成分,在估计出p个独立成分w1,…,wp之后,当估计wp+1时先减去先前预测的p个向量的投影wp+ 1 Twj,j=1,…,p,然后标准化wp+1。
步骤140中,迎合步骤100中,在求取分离矩阵W后,利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
接下来,通过一个具体实施了来描述该基于ICA的降噪技术的盲音分离方法,如图3所示:
步骤210,数据中心化;
在该步骤中对检测的语音信息进行数据中心化处理。
数据中心化处理的公式为:
Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
步骤220,数据白化,实现X向Z的白化;
白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
步骤230,选择需要顾及的分量的个数m;
基于现有环境和硬件条件确定信号源的数量。注意,分量的个数m必须小于或等于语音传感器(语音采集器)的数目。
步骤240,估计计算分离矩阵W;
本步骤一个接一个计算,中间进行条件判断,确定大循环、小循环的不同启动方式。具体包括:
步骤2410,选择一个初始权矢量Wp
该初始权矢量Wp可以根据经验值而定,在每一个p的取值下,初始权矢量的数值可以相等,比如全是0,当然在其他的实施例中也可以不等。
步骤2420,利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp
步骤2430,基于计算的Wp,利用Wp=Wp/||Wp||,判断Wp是否收敛;
若收敛,则进入步骤2440;若不收敛,继续进行迭代运算,返回步骤2420,开启小循环。
步骤2440,对Wp进行去相关性;
在一些实施例中可以采用Gram-Schmidt-like去相关,在估计出p个向量W1,W2,,W3,W4,……Wp-1之后,当估计Wp时,先减去p-1个向量的投影Wp TWj,j=1,…,p-1,然后标准化Wp。
该步骤之后结束Wp的求值。接下来进入下一个数值的求解循环,步骤2450给出启动下一个大循环的启动指令。
步骤2450,将p=p+1,将p与m比较,当p<m,则返回返回步骤2410;当p≥m时,结束,得到分离矩阵W。
为了更好的执行上文的盲音分离方法,下面给出一种盲音分离结构。该盲音分离结构可以加载有盲音分离程序,安装在现有电器总成中,也可以以芯片的方式集成于现有语音控制***中,或者作为一套软件程序加载到现有的程序硬件中。
在下面的文字中进队结构及内部模块、单元进行说明,其原理及公式、算法等参照并沿用上文的陈述,此处不再赘述。
同时,需要说明的是,下面叙述的模块、单元多是以功能进行的概括,模块间可以合并,模块可以拆分。单元亦同。
该盲音分离结构,如图4所示,包括:
预处理模块,用于对检测的语音信号进行降噪预处理,语音信号为同时间多个信号源语音信息的线性叠加信号;
构建模块,用于以非高斯度量,对预处理后的语音信号构建目标函数;
估计模块,用于通过迭代算法估计目标函数期望最大的分离矩阵W;
求取模块,用于利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
其中,预处理模块包括数据中心化单元,其用于数据中心化处理,数据中心化处理的公式为:
Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
其中,预处理模块包括白化单元,其用于白化处理,白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
其中,估计模块包括:
预估单元,用于预估待估计的分量的个数m;
初始化单元,用于初始权矢量w;
计算单元,用于利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp;
判断单元,利用Wp=Wp/||Wp||,判断Wp是否收敛,若收敛,激活去相关单元对Wp做去相关处理,令p=p+1;将p与m比较,当p<m,则返回初始化单元,当p≥m时,结束,得到分离矩阵W;
若不收敛,激活计算单元。
其中去相关单元对Wp做去相关处理包括:
在估计出p个向量W1,W2,,W3,W4,……Wp之后,当估计Wp+1时,先减去p个向量的投影Wp+1 TWj,j=1,…,p,然后标准化Wp+1。
将上述盲音分离结构应用到语音控制***中,其包括:语音检测组件和上述的盲音分离结构;
语音检测组件,用于检测环境内多个信号源语音信息,得到语音信号,供盲音分离结构进行盲音分离。
将上述语音控制***应用到电器总成中,其包括电器本体和上文的语音控制***,电器本体和语音控制***相连。
该电器总成包括了所有需要语音控制的各种电器自动化控制设备,比如:家用电器、中央空调、电子类移动终端中的任一种。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种盲音分离方法,其特征在于,包括:
构建模型,根据线性叠加,构建检测语音信号的输出信号的模型矩阵:X(t)=AS(t);A为变换矩阵;S(t)为检测信号;
预处理步骤,对检测的语音信号进行降噪预处理,所述语音信号为同时间多个信号源语音信息的线性叠加信号;
构建步骤,以非高斯度量,对预处理后的语音信号构建目标函数;
估计步骤,通过迭代算法估计所述目标函数期望最大的分离矩阵W;所述估计步骤包括:预估步骤,预估待估计的分量的个数m;初始化步骤,初始权矢量w;计算步骤,利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp;判断步骤,利用Wp=Wp/||Wp||,判断Wp是否收敛;若收敛,对Wp做去相关处理,Wp为参数p对应的分离矩阵,p为向量个数;令p=p+1,将p与m比较,当p<m,则返回所述初始化步骤,当p≥m时,结束,得到所述分离矩阵W;若不收敛,则返回所述计算步骤;
求取步骤,利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
2.如权利要求1所述的盲音分离方法,其特征在于,所述预处理步骤包括:数据中心化处理,所述数据中心化处理的公式为:
Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
3.如权利要求1所述的盲音分离方法,其特征在于,所述预处理步骤包括:白化处理,所述白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
4.如权利要求1所述的盲音分离方法,其特征在于,所述目标函数为负熵函数,所述负熵函数的公式为:
Ng(Z)=H(ZGauss)-H(Z),式中,ZGauss是和Z具有相同方差的高斯随机变量,H(.)为随机变量的微分熵;Z为高斯分布时Ng(Z)=0;
Z的概率分布为[E{G(z)}–E{G(v)}]2,其中v是准高斯随机变量,G为下凸性质偶函数的非2次函数,u为变量。
5.如权利要求1-4任一项所述的盲音分离方法,其特征在于,所述对Wp做去相关处理包括:
在估计出p个向量W1,W2,,W3,W4,……Wp之后,当估计Wp+1时,先减去p个向量的投影Wp+ 1 TWj,j=1,…,p,然后标准化Wp+1。
6.一种执行权利要求1-5任一项所述的盲音分离方法的盲音分离结构,其特征在于,包括:
预处理模块,用于对检测的语音信号进行降噪预处理,所述语音信号为同时间多个信号源语音信息的线性叠加信号;
构建模块,用于以非高斯度量,对预处理后的语音信号构建目标函数;
估计模块,用于通过迭代算法估计所述目标函数期望最大的分离矩阵W;
求取模块,用于利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
7.如权利要求6所述的盲音分离结构,其特征在于,所述预处理模块包括数据中心化单元,其用于数据中心化处理,所述数据中心化处理的公式为:
Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
8.如权利要求6所述的盲音分离结构,其特征在于,所述预处理模块包括白化单元,其用于白化处理,所述白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
9.如权利要求6-8任一项所述的盲音分离结构,其特征在于,所述估计模块包括:
预估单元,用于预估待估计的分量的个数m;
初始化单元,用于初始权矢量w;
计算单元,用于利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp;
判断单元,利用Wp=Wp/||Wp||,判断Wp是否收敛,若收敛,激活去相关单元对Wp做去相关处理,令p=p+1;将p与m比较,当p<m,则返回所述初始化单元,当p≥m时,结束,得到所述分离矩阵W;,Wp为参数p对应的分离矩阵,p为向量个数;
若不收敛,激活所述计算单元。
10.如权利要求9所述的盲音分离结构,其特征在于,所述去相关单元对Wp做去相关处理包括:
在估计出p个向量W1,W2,,W3,W4,……Wp之后,当估计Wp+1时,先减去p个向量的投影Wp+ 1 TWj,j=1,…,p,然后标准化Wp+1。
11.一种语音控制***,其特征在于,包括:语音检测组件和权利要求6-10任一项所述的盲音分离结构;
所述语音检测组件,用于检测环境内多个信号源语音信息,得到语音信号,供所述盲音分离结构进行盲音分离。
12.一种电器总成,其特征在于,包括电器本体和权利要求11所述的语音控制***,所述电器本体和所述语音控制***相连。
13.如权利要求12所述的电器总成,其特征在于,包括:家用电器、中央空调、电子类移动终端中的任一种。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610866508.9A CN106356075B (zh) | 2016-09-29 | 2016-09-29 | 盲音分离方法、结构及语音控制***和电器总成 |
KR1020197012155A KR20190054157A (ko) | 2016-09-29 | 2017-09-26 | 블라인드 신호 분리 방법과 구조, 음성 제어 시스템 및 전기 장치 어셈블리 |
US16/338,198 US10825466B2 (en) | 2016-09-29 | 2017-09-26 | Blind signal separation method and structure, voice control system, and electrical appliance assembly |
PCT/CN2017/103517 WO2018059406A1 (zh) | 2016-09-29 | 2017-09-26 | 盲音分离方法、结构及语音控制***和电器总成 |
JP2019517820A JP6790253B2 (ja) | 2016-09-29 | 2017-09-26 | ブラインド信号分離方法、構成及び音声制御システム、並びに電器アセンブリ |
EP17854856.6A EP3522156A4 (en) | 2016-09-29 | 2017-09-26 | BLINDER SIGNAL SEPARATION AND STRUCTURE, LANGUAGE CONTROL SYSTEM AND ELECTRICAL EQUIPMENT ASSEMBLY |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610866508.9A CN106356075B (zh) | 2016-09-29 | 2016-09-29 | 盲音分离方法、结构及语音控制***和电器总成 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106356075A CN106356075A (zh) | 2017-01-25 |
CN106356075B true CN106356075B (zh) | 2019-09-17 |
Family
ID=57867241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610866508.9A Active CN106356075B (zh) | 2016-09-29 | 2016-09-29 | 盲音分离方法、结构及语音控制***和电器总成 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10825466B2 (zh) |
EP (1) | EP3522156A4 (zh) |
JP (1) | JP6790253B2 (zh) |
KR (1) | KR20190054157A (zh) |
CN (1) | CN106356075B (zh) |
WO (1) | WO2018059406A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106356075B (zh) * | 2016-09-29 | 2019-09-17 | 合肥美的智能科技有限公司 | 盲音分离方法、结构及语音控制***和电器总成 |
CN109413543B (zh) * | 2017-08-15 | 2021-01-19 | 音科有限公司 | 一种源信号提取方法、***和存储介质 |
CN109994120A (zh) * | 2017-12-29 | 2019-07-09 | 福州瑞芯微电子股份有限公司 | 基于双麦的语音增强方法、***、音箱及存储介质 |
US20220139368A1 (en) * | 2019-02-28 | 2022-05-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Concurrent multi-path processing of audio signals for automatic speech recognition systems |
WO2021100136A1 (ja) * | 2019-11-20 | 2021-05-27 | 日本電信電話株式会社 | 音源信号推定装置、音源信号推定方法、プログラム |
CN111312276B (zh) * | 2020-02-14 | 2023-01-17 | 北京声智科技有限公司 | 一种音频信号处理的方法、装置、设备和介质 |
CN113674752B (zh) * | 2020-04-30 | 2023-06-06 | 抖音视界有限公司 | 音频信号的降噪方法、装置、可读介质和电子设备 |
CN111863020B (zh) * | 2020-07-30 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、设备及存储介质 |
CN112082793A (zh) * | 2020-08-31 | 2020-12-15 | 洛阳师范学院 | 一种基于SCA和FastICA的旋转机械耦合故障诊断方法 |
CN112116922B (zh) * | 2020-09-17 | 2024-04-12 | 集美大学 | 一种噪声盲源信号分离方法、终端设备及存储介质 |
CN113255528A (zh) * | 2021-05-28 | 2021-08-13 | 胡琼 | 一种单多目标分类方法及装置 |
CN113470689B (zh) * | 2021-08-23 | 2024-01-30 | 杭州国芯科技股份有限公司 | 一种语音分离方法 |
CN113794489B (zh) * | 2021-09-07 | 2022-12-20 | 中国人民解放军陆军工程大学 | 一种通信抗强相关干扰的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833955A (zh) * | 2010-01-22 | 2010-09-15 | 大连理工大学 | 一种基于负熵最大化的复数约束独立分量分析方法 |
CN104064186A (zh) * | 2014-06-26 | 2014-09-24 | 山东大学 | 一种基于独立分量分析的电气设备故障音检测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0204548D0 (en) * | 2002-02-27 | 2002-04-10 | Qinetiq Ltd | Blind signal separation |
JP2007156300A (ja) * | 2005-12-08 | 2007-06-21 | Kobe Steel Ltd | 音源分離装置、音源分離プログラム及び音源分離方法 |
US8874439B2 (en) * | 2006-03-01 | 2014-10-28 | The Regents Of The University Of California | Systems and methods for blind source signal separation |
JP5078717B2 (ja) * | 2008-04-08 | 2012-11-21 | 三菱電機株式会社 | 入射波数推定装置及び入射波数推定方法 |
JP2011107603A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
JP5408810B2 (ja) * | 2011-06-24 | 2014-02-05 | アイシン・エィ・ダブリュ株式会社 | 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム |
CN106356075B (zh) * | 2016-09-29 | 2019-09-17 | 合肥美的智能科技有限公司 | 盲音分离方法、结构及语音控制***和电器总成 |
-
2016
- 2016-09-29 CN CN201610866508.9A patent/CN106356075B/zh active Active
-
2017
- 2017-09-26 EP EP17854856.6A patent/EP3522156A4/en not_active Withdrawn
- 2017-09-26 WO PCT/CN2017/103517 patent/WO2018059406A1/zh unknown
- 2017-09-26 KR KR1020197012155A patent/KR20190054157A/ko not_active IP Right Cessation
- 2017-09-26 US US16/338,198 patent/US10825466B2/en active Active
- 2017-09-26 JP JP2019517820A patent/JP6790253B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833955A (zh) * | 2010-01-22 | 2010-09-15 | 大连理工大学 | 一种基于负熵最大化的复数约束独立分量分析方法 |
CN104064186A (zh) * | 2014-06-26 | 2014-09-24 | 山东大学 | 一种基于独立分量分析的电气设备故障音检测方法 |
Non-Patent Citations (1)
Title |
---|
ICA在信号分离和消噪中的应用;邱作春;《大众科技》;20091231(第12期);28-29 |
Also Published As
Publication number | Publication date |
---|---|
KR20190054157A (ko) | 2019-05-21 |
CN106356075A (zh) | 2017-01-25 |
US20200027473A1 (en) | 2020-01-23 |
EP3522156A4 (en) | 2019-10-30 |
EP3522156A1 (en) | 2019-08-07 |
JP2019533194A (ja) | 2019-11-14 |
US10825466B2 (en) | 2020-11-03 |
JP6790253B2 (ja) | 2020-11-25 |
WO2018059406A1 (zh) | 2018-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106356075B (zh) | 盲音分离方法、结构及语音控制***和电器总成 | |
JP7186769B2 (ja) | 対象音声検出方法及び装置 | |
Tang | DOA estimation based on MUSIC algorithm | |
Hua et al. | MIG median detectors with manifold filter | |
Masnadi-Shirazi et al. | An ICA-SCT-PHD filter approach for tracking and separation of unknown time-varying number of sources | |
CN103235296B (zh) | 基于功率谱特征修正的噪声背景下雷达目标识别方法 | |
CN113449587B (zh) | 一种人体行为识别和身份认证方法、装置和电子设备 | |
Lin et al. | Research on PCA and KPCA self-fusion based MSTAR SAR automatic target recognition algorithm | |
Wang et al. | An improved integrated fingerprint location algorithm based on WKNN | |
Li et al. | Roughening methods to prevent sample impoverishment in the particle PHD filter | |
Simas Filho et al. | Modified post-nonlinear ICA model for online neural discrimination | |
Qin et al. | Fuzzy support vector machine-based emotional optimal algorithm in spoken chinese | |
Cao et al. | Direction-of-arrival estimation for uniform rectangular array: A multilinear projection approach | |
Zhou et al. | A high resolution DOA estimating method without estimating the number of sources | |
Mazzoleni et al. | Classification of light charged particles via learning-based system identification | |
Koh et al. | High resolution DOA estimation using matrix pencil | |
Xue et al. | Interference robust DOA estimation of human speech by exploiting historical information and temporal correlation. | |
Sun et al. | Adaptive interference mitigation space‐time array reconfiguration by joint selection of antenna and delay tap | |
Weiss et al. | On consistency and asymptotic uniqueness in quasi-maximum likelihood blind separation of temporally-diverse sources | |
Chang et al. | Complex-valued ICA utilizing signal-subspace demixing for robust DOA estimation and blind signal separation | |
Rong et al. | Estimation of the Number of Signals in White Noise via Large-Sample and High-Dimensional Asymptotic Theory | |
Huang et al. | Tensor-based source localization method with evs array | |
Zhen | Detection of wideband signal number based on bootstrap resampling | |
Koh et al. | DOA estimation using matrix pencil method | |
Orr et al. | Network-based quantification of the Substorm Current Wedge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180206 Address after: 230601 Building No. 198, building No. 198, Mingzhu Avenue, Anhui high tech Zone, Anhui Applicant after: Hefei Midea Intelligent Technology Co., Ltd. Address before: 230601 Hefei economic and Technological Development Zone, Fairview Road, Anhui Applicant before: Hefei Hualing Co., Ltd. Applicant before: Hefei Midea Refrigerator Co., Ltd. Applicant before: Midea Group Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |