CN1183158A

CN1183158A - 识别至少叠加了一个干扰信号的时变测试信号中的至少一个隐式马尔科夫模型建模的有定义信号的方法

Info

Publication number: CN1183158A
Application number: CN96193581A
Authority: CN
Inventors: K·聪克莱尔
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1995-03-07
Filing date: 1996-02-19
Publication date: 1998-05-27
Also published as: ATE179543T1; US5943438A; DK0813734T3; EP0813734A1; WO1996027871A1; EP0813734B1; DE59601778D1

Abstract

本发明涉及识别测试信号中的模式的一种特殊的方法。这些信号包括语音信号或者从字迹识别装置获得的信号。为实现本发明,在为待识别模式模型化建立的隐式马尔科夫模型上增扩一个特别的状态,该状态不具有任何发出和转移概率。这使得待查找模式所处的时间位置与其产生概率完全无关。另外,本发明还有一个优点是可以吸收新的和未预料到的干扰,而无需为此对模型进行训练。与现行的方法相比,不必对背景模型进行任何训练。但是这意味着在识别该模式时需要更加复杂的措施,因为必须把有关其概率的维特比算法的各个路径以在该路径上的当前累积概率规范化,以便对它们能够比较。本方法的优点是仅需分析测试信号中包含该模式的时间段。从而,保证较大的命中概率,同时减少计算机处理的开销。

Description

识别至少叠加了一个干扰信号的时变测试信号中的至少一个隐式马尔科夫模型建模的有定义信号的方法

由于技术***自动化的日益增长，模式识别的意义也日益增加。经常的情形是，模式包含在以某种方式从应被检验的过程中获得的测试信号中。一个例子是自然语言的分析，或者签名的检验。作为测试号自动分析，特别适合的是隐式马尔科夫(Hiedden-Markov-Modelle)模型[3]。

但是，测试信号自动分析的一个问题在于，要检验的测试信号常常与统计的、或者与数量恒定的干扰信号叠加。在采集和分析自然发音的语言时，可以遇到例如背景噪声、呼吸噪声、机器噪声、或者由接收介质和传输距离引起的干扰信号。在其它的测试信号中可能有类似的误差源。为了能够在困难的条件下从一个较大的模式中找出一个已知的模式，提出一种使用特殊隐式马尔科夫模型的估计方法[1]。这里引入一个特别的模型(混乱Garbage模型或者背景模型)，它把包括通常语音在内的背景噪声的模型化。这一特殊模型必须在所有情况下用相应的噪声或语音训练。这意味着，在识别一个模式时，只能够考虑存在于训练材料中的那些噪声或者干扰。在每种情况下，该模型的模型化对一个关键词或者任何一个要识别的模式的总概率有很大影响。一个另外的缺点是，该背景模型也识别语音发音或者在其它的测试信号种类情况下识别真正属于一个要识别的模式或关键词的模式的某些部分。这样产生另外建立该模型适当加权的问题，以避免过低的检测率[1]。使用隐式马尔科夫模型分析测试信号时考虑干扰部分的其它途径，在现有技术中是不知道的。

因此，本发明的一个基本任务是给出一种方法，它能更好地识别在测试信号中存在的叠加有干扰信号的模式。

该任务按照权利要求1的特征解决。

本发明的其它改进从从属权利要求给出。

本发明方法的一个特别的优点在于，可以消除各种背景噪声，同时可与所有其它的音位模型区分开。

本发明方法的另一优点在于，为模式识别使用的隐式马尔科夫模型不必用背景噪声训练。

这里有利的是，通过本发明的方法，模式识别的概率完全与在测试信号中存在的干扰噪声无关。也就是说，有利的是只要研究要识别的模式存在其中的测试信号的时间段。

有利的是本发明的方法对于应用的每种标准方法都是适宜的。

特别有利的是可以使用维特比算法(Viterbi-Algorithmus)进行模式查找和概率估值[2]。但是有利的是该方法也适于鲍姆-维尔希(Baum-Welch)方法，为此只需作些较小的修改。

有利的是本发明的方法规定，在使用维特比算法时在路径上积累的总发出概率根据到该时刻为止所考虑的发出概率数规范化，以便由此避免优选较短的路径。

有利的是按照本发明实现的对隐式马尔科夫模型，在计算总发出概率时的修改，通过引入一个简单的因子而加以考虑，该因子根据存在的背景状态，把要考虑的发出概率数改变为与该发出概率存在的背景状态数或者干扰状态有关的数。

有利的是在本发明的方法中使用鲍姆-维尔希方法时，用加法函数代替取极大值运算，以便能够把出现的发出概率的不同数在所述路径上同样加以考虑。

特别有利的是，使用本发明的方法可以分析语音信号，其中特别是关键词。这里经常碰到背景噪声，而用于语音分析的数学上有效的方法由于有时发生的大数据流和实时需求而特别重要。

有利的是本发明的方法也可用于手写过程分析，其中要分析的测试信号特别有利地通过光学或者压力测量装置得出。这里涉及的是经常出现的模式识别过程，它们需要可靠的方法。

下面根据一个附图进一步叙述本发明。

图1表示本发明方法的一个例子。

图中表示了为各个待识别模式的各种不同的隐式马尔科夫模型W1到Wn。待识别模式的各个隐式马尔科夫模型通过大量状态Z1到ZN表示。特别有利的是通过本发明的方法给每一个隐式马尔科夫模型附上一个特别的状态，图中用H表示。有利的是该状态分别直接附加在每一待识别隐式马尔科夫模型之前和之后。各隐式马尔科夫模型的该状态H代表周围环境中的干扰噪声。其特征特别表现在不占有任何发出概率和任何转移概率。以这种方式通过本发明的方法，特别有利的是可以把每个要查找的模式和为此存在的隐式马尔科夫模型简单地重叠起来，因为为识别该模式，只需使用该模式在测试信号中存在的相关的时间段。这里，待分析的测试信号MS从左方被详细标明。

本发明的方法可以应用于例如单个词汇命令***中的自动语音识别。其中实际上经常出现这种情况，发言者说出一个允许的命令词，并将其例如***一个句子中。另一种使用常规识别不能满意解决的情况是通过环境噪声出现的干扰在该命令或关键词之前和之后。

为解决上面的问题，提出了本发明方法，它能够例如从任意干扰信号中查找和识别关键词。在这件事情上，与其它的估值方法比较，对于背景噪声不需要任何前提条件。如果该方法应用于语音识别，那么不需对干扰信号的种类作任何假定。本发明的方法是通过应用隐式马尔科夫模型实现这一点的，其中，对一个关键词或者一个要识别的模式的每一个模型，用一个代表背景噪声或背景干扰的特别状态在词首和词尾补全。这里与众所周知的方法不同，这一特别的状态无需对可能的背景噪声进行训练。于是使用所说明的方法可能非常简单，只需考虑实际包含所涉及的模式的时间段，因此信号的其余部分可以不必考虑，并且因此使词的识别或者模式识别大大简化，而与此相关的计算开销也大为简省。

迄今为止的方法的缺点是，干扰噪声的基本背景模型也含有一些模式部分。因此，不能干净地分开要识别的模式和背景噪声。这里，本发明设定，特别在一定程度上人为地准备好在测试信号流中的待识别模式。为此所获得的隐式马尔科夫模型为单个的模式扩展一个特珠的状态，其特征为它不含有任何发出能量和没有任何转移概率。这样可以把待识别的模式干净地从测试信号信息的其余部分分离出来。并且，本发明的方法有可能使包含待识别模式的测试信号的时间段为模式识别得到准确利用。如同在众所周知的方法中那样，这里把一个背景干扰的特别模型添加在待识别的模式的隐式马尔科夫模型上。但是该模式模型仅由一个唯一的状态组成，同时与其它的标准模型无论其转移概率还是其发出概率都不同。选择的转移概率考虑到不可能预言环境干扰的持续时间。正如希望的那样查找到的模式的时间位置，对于一个产生概率而言完全无关。另外也不需确定词界限。与转移概率类似，发出概率也不必考虑，因为这些干扰不能充分模型化。新的和未预料到的干扰也被吸收，而无需将该模型为此进行训练，这具有极大优点。也就是说，一个关键词的概率在语音识别时完全独立于环境，这意味着，只考虑与该关键词相关的时间段。然而在识别该模式时，不需训练背景模型的优点是用增大的计算开销换来的。这会出现下面的问题：

在重新组合时，亦即在比较两个可能路径和决定更可能的路径时，在路径中一般包含有许多不同的有效发出概率。这一点也能从表1得出，表1包含一个以伪编码表示的程序清单，它表示本发明方法的一个例子。表中特别要注意累积发出概率一段。现在的问题在于，维特比算法总是挑选最大概率的路径。这在通常情况下是具有最少有效发出概率的那个路径。其结果是对于每次比较，必须根据所属路径上有效发出概率当时的数目进行积累概率的规范化。特别是在这种估值时必须考虑添加的人工环境状态的性质，如前所述，这种状态不具有任何发出概率和转移概率，因而可能导致估值错误。用公式表示的话，标准维特比方法的累积概率用下面的有效递推方程式给出：

δ_{t + 1} (j) = \max_{1 < j < N} (δ_{t} (i) a_{ij} * b_{j} (O_{t + 1}))

这里t表示当前时间点，j表示模型状态，i，j表示该模型状态的下标，a表示从状态i到状态j的转移概率，b_j表示观察为O时例如一个语音信号的特征状态j的发出概率，N表示模型状态的数目。在本方法中，它转变为另一描述形式。对于发出概率，下面的关系成立。定义例如n p个段{S₀，S₁，S_N-1}，其中S₀例如是所谓的背景模型段。一个词模型的每一状态j，1≤j≤N，在这里正好分配一个段，Segm(j)＝S_k，其中

Segm(1)＝Segm(N)＝S₀成立。下面用记分(Score)，代替概率否则类似[3]。

a_ij记为A_ij(亦即A_ij＝-const Ina_ij)

b_j(O_t) 记为B(S_k，O_t)＝-const In b_k(O_t)

δ_t(j) 记为Δ_t(j)另外定义

LSc (S_{k}, O_{t}) = B (S_{k}, O_{t}) - \min_{1 \leq j \leq N - 1} B (S_{t}, O_{t})

局部分因此，HMM递推算法可以以下面的修改形式表示：

ψ (j) =_{1 \leq i \leq N}^{\arg \min} \frac{Δ_{t} (i) + Δ_{t + 1}^{Inkrement} (i, j)}{1_{t} (i) + 1}

Δ_{t + 1} (j) = Δ_{t} (ψ (j)) + Δ_{t + 1}^{Inkrement} (ψ (j), j)

综合分式中，I_t(i)表示在Δ_t(i)中积累的、并从Δ^Inkrement定义中“否则”场合得出的Δ^Inkrement数。

类似地，当通过求和函数代替argmin运算时，对于鲍姆-维尔希方法也得出同样结果。与标准识别方法相比，本发明的方法由于需要另外存储路径长度，使得存储器用量增大一倍。然而与此相反，本方法由于不需对背景干扰进行训练，而相对于在待识别的模式之前和之后的任何背景干扰来说特别稳定。本发明方法不仅对语音识别，而且对一般模式识别应用特别适宜(例如医疗技术，图像识别，笔迹识别)。

下面叙述表1，其中以伪码表示的一个程序给出本发明方法的一个例子，使用这一程序可以按照本发明的方法实现语音识别。

该程序以一个由main和end为界的主程序开始。它包括子程序word-spotter。例如这里识别在一个语音信号中包含的命令词。这一点应该借助于经训练的隐式马尔科夫模型实现。子程序word-spotter为每一参考模型计算一次模型发出概率。它用以“foreach”和“enddo”为界的do循环形式解决。该do循环包含一个子程序，compute-modell-emission-probability(计算模型发出概率)。在该循环中，对所有要分类的模式的特征向量计算局部对数发出概率，亦即特征向量O_t从模型状态k发出的概率。接着，求出对模型状态k的最佳路径的发出概率。这通过子程序accumulate-emission-probability(累积发出概率)实现。最佳路径的长度通过该子程序求出并存储。如果到达该词的结尾，则该子程序确定ifword end detected(如果检测到词尾)则返回主程序。子程序compute-modell-emission-probability包含另外一个子程序compute-local-emission-proba bility(计算局部发出概率)。使用该子程序可以得出各个状态的局部发出概率b_k(O_k)。这一点非常重要，因为本发明的方法要点也在这里。因为根据本发明，在模式开始和模式结尾附在各个隐式马尔科夫模型的特别状态不具有任何发出概率。这意味着，其局部概率为1，因此其发出概率为0。该子程序对于这种情况赋予0值，否则它对于当前的特征向量完全正常地计算发出概率。子程序compute-modell-emission-probability包含另外的子程序accumulate-emission-probability。在这里对按其当时的长度规范化的所有可能前行者的各个路径上的累积概率彼此进行比较。接着，把为识别该模式最佳的概率存储起来。也就是说，把从最佳可能前行者状态的累积的对数发出概率以及局部对数发出概率得出的和存储起来。这里例如存储没有背景噪声的待识别模式的长度。

该实施例不能看作为对本发明的限制。它只应当把本发明基本考虑具体化。特别要注意的是，本发明对任何种类的模式识别都适用。特别是它也可以应用于笔迹识别和信号化方法中。

表1

    main()

　　word-spotter()  ！使用隐式马尔科夫模型

　　                  ！的词识别

　　end
　　------------------
　　word-spotter()
　　      foreach reference-model m do

　　                  ！就组合参考模型循环

　　         compute-model-emission-probability()
　　                  ！计算该模型的总发出概率，亦即

　　                  ！由马尔科夫模型m产生的待分类
　　                  ！的特征向量序列的概率

　　enddo

　　ranking()         ！根据马尔科夫模型的总发出概率
				
				<dp n="d6"/>
　　                   ！ 将其排序

　　rejecting()      ！拒绝无关键词的表示
end　　
--------------------------
compute-model-emission-probability()
　　initialize()    ！给累积发出概率置初值

　　foreach frame t do ！就待分类的模式的特征向量

　　                     ！循环

　　  foreach state k do ！就模型状态循环

　　      compute-local-emission-probability()

　　                  ！计算局部对数发出概率，亦即

　　                  ！从模型状态k发出的特征向量Ot

　　                  ！的概率
　　      accumulate-emission-probability()
　　                  ！计算对模型状态k的最佳路径的

　　                  ！发出概率并在该关键词内存储最

　　                  ！佳路径的长度

　　  end do k

　　  if word_end_detected()

　　                  ！在检测到词尾时中断查找

　　          return

　　end do t
end
--------------------------------
compute-local-emission-probability()

　　if state＝＝background ！在等待背景噪声的模型状

　　                      ！态时，局部概率＝1

　　            return 0 ！＝log(1)
　　else

　　            compute-emission-probability()

　　                     ！为当前特征向量计算一个对数发
　　                     ！ 出概率
				
				<dp n="d7"/>
　　endif
end
---------------------------
accumulate-emission-probability()

　　compare-emission-probability()

　　                    ！比较所有可能的前行者的累积

　　                    ！概率，以其当时的长度规范化

　　store-best-probability()

　　                    ！把从最佳可能前行者状态的累积

　　                    ！对数发出概率和局部对数发出概

　　                    ！率得出的和存储起来，

　　                    ！这里存储不带背景噪声的词长度
end
----------------------------

文献[1] Rose.R.C.和D.B.Paul(1990).A hidden markov modelbased keyword recognition system.In IEEE InternationalConference on Acoustics，Speech and Signal Processing，pages 129-132，Albuquerque.ICASSP.[2]Forney，D.G.(1973).The Viterbi algorithm.Proceed-ings of the IEEE，61(3)：268-278.[3]Rabiner，L.R.和B.H.Juang(1986).An introductionto hidden markov models.IEEE Transaction on Acoustics，Speech and Singal Processing，(1)：4-16.

Claims

1.识别时变测试信号中至少一个定义的、由隐式马尔科夫模型表述的模式的方法，所述测试信号至少叠加有一个干扰信号，

a)其中在该隐式马尔科夫模型的开始和结尾各附一个唯一的全等的状态，该状态代表该干扰信号，并至少具有下述特征：

-为实现不依赖于所定义的模式的时间位置，该状态不具有任何转移概率，

-为实现不依赖于所定义的模式的时间环境中的干扰信号，该状态不具有任何发射概率，

b)其中用一个已知的比较方法借助于扩展的隐式马尔科夫模型，在时变测量信号中，查找和识别有定义的模式。

2.根据权利要求1的方法，其中，使用维特比算法作为比较方法。

3.根据权利要求1的方法，其中，使用鲍姆-威尔希方法作为比较方法。

4.根据权利要求2或者3的方法，其中，在比较方法中在路径的每次重新组合中，把每一路径积累的总发出概率按照到该时刻考虑的发出概率规范化，以避免优选较短的路径。

5.根据权利要求2或者权利要求4不包括3的方法，其中，规范化按下述方式进行：

ψ (j) =_{1 \leq j \leq N}^{\arg rnin} \frac{Δ_{t} (i) + Δ_{t + 1}^{Inkrement} (i, j)}{l_{t} (i) + 1}

而

Δ_{t + 1} (j) = Δ_{t} (ψ (j)) + Δ_{t + 1}^{Inkrement} (ψ (j), j)

综合分

LSc (S_{k}, O_{t}) = B (S_{k}, O_{t}) - \min_{1 \leq j \leq N - 1} B (S_{t}, O_{t})

局部分

Segm(1)＝Segm(N)＝S₀a_ij 记为_Aij(亦即A_ij＝-const Ina_ij)b_j(O_t) 记为 B(S_k，O_t)＝-const In b_k(O_t)

δ_t(j) 记为 Δ_t(j)

t：当前时刻

j：当前模型状态

a_ij：转移概率

b_j(O_t)：观察O_t的发射概率

N：模型状态数式中，I_t(i)表示在Δ_t(i)中积累的、并从Δ^Inkrement定义中“否则”场合得出的Δ^Inkrement数；用记分代替概率，否则类似[3]的符号。

6.根据权利要求3或者权利要求4不包括2的方法，其中，使用一个求和函数代替取极大值运算。

7.根据前述权利要求中任何一个权利要求的方法，其中，使用一个语音信号的测试信号。

8.根据前述权利要求中任何一个权利要求的方法，其中，使用一个手写过程的测试信号。

9.根据权利要求8的方法，其中，测试信号按照光学路径上得出。

10.根据权利要求8的方法，其中，测量信号通过测量书写时的压紧力求出。