CN101609672A

CN101609672A - 一种语音识别语义置信特征提取的方法和装置

Info

Publication number: CN101609672A
Application number: CNA2009100888676A
Authority: CN
Inventors: 陈伟; 刘刚; 郭军; 国玉晶
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-07-21
Filing date: 2009-07-21
Publication date: 2009-12-23
Anticipated expiration: 2029-07-21
Also published as: CN101609672B

Abstract

本发明实施例公开了一种语音识别语义置信特征提取的方法，包括：通过主题模型对语音识别结果进行推理，获取识别结果的主题结构；利用推理结果计算得到词的主题分布；从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词(Anchor Words)；利用锚点词的主题分布，计算得到整个识别结果的基准主题分布；使用识别结果中词的主题分布，比较其与识别结果基准主题分布之间的相似性，作为词的语义置信特征。还公开了一种语音识别语义置信特征提取装置，为置信度标注提供了语义高层信息的指导，从而能够更准确的描述和分析语音识别结果，提高置信度标注的精度。

Description

一种语音识别语义置信特征提取的方法和装置

技术领域

本发明涉及语音识别领域，特别是一种语义置信特征提取的方法和装置。

背景技术

语音识别置信特征是语音识别后处理评价识别结果可靠性的关键，主要用于解决语音识别置信度标注问题。

语音置信度标注一般需要基于不同的置信特征或者特征组合将识别结果中置信度标注基元标记为正确和错误两类，从而评价识别结果的可靠性。置信度标注的基元一般采用词，同时也可以采用语音帧、音素以及句子等。

目前，语音识别置信特征主要来源于解码器的信息，但是，黄曾阳在其1998由清华大学出版社出版的书籍《HNC(概念层次网络)理论》中提到，人类听觉实验表明，人类听觉预处理只能听清楚连续语音流中70％的音节，当语音发音模糊时人们可以用语法、语义等知识来指导对语音的理解。目前，语音识别的关键也已取决于后处理***的解模糊及纠错能力，因此语法、语义等高层信息对于语音识别后处理是非常重要的。但是对机器而言，如何在语音识别后处理中有效地提取语法和语义置信特征还比较困难。

发明人在实现本发明的过程中，发现现有技术中至少存在如下问题：

现有方法提取的语音置信特征都来源于解码器的信息，特征信息来源比较单一，无法有效地从语义等高层信息提取语义层置信特征指导对识别结果的评价。

本发明基于统计主题模型(Statistical Topic Models)，给定识别结果，通过主题模型提取识别结果中隐含的主题结构以及可以被人理解的、相对稳定的隐含语义结构，并为识别结果寻找语义层的描述，进而提取识别结果中词或其他置信度标注基元的语义特征，主题模型包括了潜狄利克雷分配(Latent DirichletAllocation，LDA)、概率潜在语义分析(Probability Latent Semantic Analysis，PLSA)等。

发明内容

有鉴于此，本发明一个或多个实施例的目的在于提供一种语义置信特征提取的方法和装置，以实现增加置信特征的信息来源、通过语义等知识更准确的描述和分析语音识别结果、提高置信度标注精度的目的。

本发明实施例提供了一种语音识别语义置信特征提取的方法，包括：

通过主题模型对语音识别结果进行推理，获取识别结果的主题结构；

利用推理结果计算得到词的主题分布，并从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词(Anchor Words)，并利用锚点词的主题分布，计算得到整个识别结果的基准主题分布；

使用识别结果中词的主题分布，比较其与识别结果基准主题分布之间的相似性，作为词的语义置信特征。

还公开了一种语音识别语义置信特征提取装置，包括：

主题分析装置，用于使用主题模型对识别结果进行推理分析，得到识别结果中的主题结构；

后验概率生成装置，用于利用语音识别过程中记录的详细解码信息，计算得到识别结果中各个词的声学后验概率；

词主题分布生成装置，用于根据主题分析装置得到的识别结果中的主题结构，计算得到词的主题分布；

文档基准主题分布生成装置，用于确定锚点词，具体通过主题分析装置得到的识别结果中的主题结构，以及后验概率生成装置得到的识别结果中词的声学后验概率信息，从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词，然后利用锚点词的主题分布计算得到整个识别结果的基准主题分布；

语义特征提取装置，用于利用识别结果中词的主题分布，比较其与识别结果的基准主题分布之间的相似性，作为词的语义置信特征。

与现有技术相比，本发明实施例提出的语音识别语义置信特征，为置信度标注提供了语义高层信息的指导，从而能够更准确的描述和分析语音识别结果，提高置信度标注的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示，是本发明实施例的一种结构框图；

图2所示，是本发明实施例的生成识别结果基准主题分布的流程图；

图2-1所示，是本发明实施例的寻找锚点词的方法流程图；

图2-2所示，是以声学后验概率和本发明的语义置信特征组合进行置信度标注为例，给出标注精度同锚点词寻找参数的变化示意图；

图3所示，是本发明实施例的语义置信特征提取的装置框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例提供的语义置信特征提取的有关技术方案中，有一个基本前提，即识别结果中正确识别的词要比错误识别的词更符合语义规则，正是在上述前提下，发明人构思了本发明有关实施例。

在本发明实施例中，对语义置信特征提取的功能可以进行如下方式的划分：

本发明实施例的第一功能单元主要使用大量的文档集，训练出主题模型。

本发明实施例的第二功能单元主要进行语音识别，输出最终的识别结果，并且详细记录整个解码过程。

本发明实施例的第三功能单元主要用于在第一、第二功能单元生成信息的指导下，提取识别结果中词的语义置信特征。利用第一功能单元生成的主题模型对语音识别结果进行推理分析，得到识别结果中的主题结构；利用第二功能单元记录的详细解码信息，计算得到识别结果中各个词的声学后验概率。在这些信息的指导下，计算得到词的主题分布；并从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词，利用锚点词的主题分布，计算得到整个识别结果的基准主题分布；通过利用识别结果中词的主题分布，比较其与识别结果的基准主题分布之间的相似性，作为词的语义置信特征。

需要说明的是，上述功能模块的划分是相对的，主要用于帮助所属领域的技术人员从整体上理解本发明的原理，本发明实施例还可以以其他的功能模块及其组合来实现本发明的原理，达到相同的技术效果，这都没有超出本发明的保护范围。

如图1所示，是本发明实施例的一种结构框图，包括：

第一功能单元101，第二功能单元102和第三功能单元103，第三功能单元分别与第一功能单元和第二功能单元相连接，其中，第一功能单元101包括文档集1011、主题模型训练模块1012以及主题模型1013；第二功能单元102包括语音数据输入模块1021、语音识别模块1022、语音识别结果1023以及语音识别解码信息1024，第三功能单元包括主题模型分析模块1031、后验概率生成模块1032、词主题分布生成模块1033、文档基准主题分布生成模块1034以及语义特征提取模块1035。

下面以LDA为例，介绍主题模型分析模块1031以及词主题分布生成模块1033。

LDA模型是近年来提出的一种能够提取文本隐含主题的非监督学习的主题模型，是一个包含词、主题和文档三层结构的生成式概率模型，假设训练LDA的文档集包含M个文档和V个不同的词，LDA的主题个数为K，即

\overset{&RightArrow;}{z} = (z_{1}, z_{2}, . . ., z_{K}),

当前识别结果d中的词个数为N_d，对应词序列

\overset{&RightArrow;}{w} = (w_{1}, w_{2}, . . ., w_{N_{d}}) .

主题模型分析模块1031就是通过LDA推理得到当前识别结果d上的主题结构，即给定主题j下词w的概率以及当前识别结果d下主题j的概率：

Φ_{j}^{(w)} = P (w | z = j)

以及

θ_{j}^{(d)} = P (z = j | d) .

词主题分布生成模块1034就是利用主题模型分析模块1031得到的信息，计算词的主题分布Topic_dis(w_i)，其中w_i为识别结果d中的词，Topic_dis(w_i)为K维的矢量，具体见下式：

(Topic_dis(w_i)＝(H(w_i，z₁)，H(w_i，z₂)...H(w_i，z_K))；

其中，

H (w_{i}, z_{j}) = P (z_{j} | w_{i}) = \frac{P (w_{i} | z_{j}) * P (z_{j})}{p (w_{i})} = \frac{Φ_{j}^{(w_{i})} * P (z_{j})}{p (w_{i})};

P (z_{j}) = Σ_{i = 1}^{M} P (z_{j}, d_{i}) = Σ_{i = 1}^{M} P (z_{j} | d_{i}) * P (d_{i}) = P (d) * Σ_{i = 1}^{M} θ_{j}^{(d_{i})};

(注：文档d的先验概率被看作均匀分布，即P(d_i)＝p(d)，i＝1...M)

P (w_{i}) = Σ_{j = 1}^{K} P (w_{i}, z_{j}) = Σ_{j = 1}^{K} P (w_{i} | z_{j}) * P (z_{j}) = Σ_{j = 1}^{K} Φ_{j}^{(w_{i})} * P (z_{j});

下面，结合图2-图4，以LDA为例，说明图1中文档基准主题分布生成模块1034的方法。

如图2所示，是本发明实施例中识别结果基准主题分布生成模块的流程图，包括：

201、对当前识别结果进行主题模型推理，得到识别结果中的主题结构；

202、根据推理结果及后验概率查找识别结果中锚点词，识别结果d中的词和整篇文档所要表达的主题应当是一致的，但是考虑到识别结果d的主题分布主要由d内的一些主题性强的词决定，因此要计算识别结果的基准主题分布就需要找到这些对主题分布起决定作用的词，称为锚点词(Anchor word)。因为识别结果中存在被误识别的词，因此选择锚点词的时候需要首先保证锚点词有很大的可能被正确识别，即声学后验概率足够大，同时还要保证这些锚点词的主题性要比较强。具体的锚点词寻找办法如图2-1所示，图2-1是本发明实施例的寻找锚点词的方法流程图：

2021、通过语音识别记录的详细解码信息计算得到识别结果中各个词的声学后验概率；

2022、设置后验概率的阈值，命名为PPThresh，当某个词后验概率大于该阈值时，将该词加到可信类，命名为CClass中；若小于该阈值，则舍弃；

2023、统计可信类CClass中词的个数，命名为C_num；

2024、判断可信类CClass中是否有词，即C_num是否为0；

2025、若可信类CClass中没有词，即C_num等于0，则变更后验概率阈值PPThresh，重新挑选词加到可信类；

2026、若可信类CClass中有词，即C_num不等于0，计算可信类CClass中每个词的Topic_dis(w_i)，并记录w_i所对应的H(w_i，z_j)中的最大值，即

\max_prob (w_{i}) = \max_{j = 1 . . . K} H (w_{i}, z_{j}),

最大值对应该词主题性的强弱；

2027、设置选取锚点词的比例，命名为Aratio，锚点的个数L＝INT(C_num*Aratio)+1，其中函数INT()为取整函数，从可信类CClass中按照max_prob(w_i)从大到小选择L个词作为当前文档的锚点词。

203、在202找到识别结果中的锚点词之后，统计锚点词的主题分布，假设当前锚点词共L个，对应点序列

\overset{&RightArrow;}{A} = (A_{1}, A_{2} . . . A_{L}),

则锚点词A_i的主题分布为Topic_dis(A_i)，i＝1...L。

204、根据锚点词的主题分布计算识别结果d的基准主题分布，命名为Topic_dis(d)，为K维的矢量，具体见下式：

Topic_dis(d)＝(L(d，z₁)，L(d，z₂)...L(d，z_K))

其中，

L(d，z_j)＝Com(H(A₁，z_j)，H(A₂，z_j)...，H(A_L，z_j))；

其中，Com()为对各锚点词在某主题下的概率值进行组合的函数，例如使用求算数平均的方法，则

L (d, z_{j}) = \frac{1}{L} * Σ_{i = 1}^{L} H (A_{i}, z_{j})

因此，图1的语义特征提取模块1035，可以通过比较词主题分布Topic_dis(w_i)同文档基准主题分布Topic_dis(d)之间的相似性，作为识别结果中词的语义置信特征，即

Sem(w_i)＝Similarity(Topic_dis(w_i)，Topic_dis(d))

其中，Sem(w_i)为词w_i的语义置信特征，度量相似性Similarity()的方法有很多，比如对称K-L散度：

令 M1：Topic_dis(w_i)；M2：Topic_dis(d)；

则以M2作为参照模型的M1与M2的K-L散度可以定义为

D_{KL} (M 1 | | M 2) = Σ_{j = 1}^{K} H (w_{i}, z_{j}) * \log (\frac{H (w_{i}, z_{j})}{L (d, z_{j})})

为了不考虑参照模型，则定义对称K-L散度作为相似度的度量方法，从而词的语义置信特征为

Sem (w_{i}) = \frac{1}{2} {D_{KL} (M 1 | | M 2) + D_{KL} (M 2 | | M 1)}

如图2-2所示，是以声学后验概率和本发明的语义置信特征组合进行置信度标注为例，给出标注精度同锚点词查找参数的变化示意图。

从图2-2可以看到，不使用声学后验概率阈值，即锚点词查找参数PPThresh＝0，和使用声学后验概率阈值，该示意图中PPThresh＝0.88相比，可以看到使用PPThresh的效果会更好，从而证明了选择锚点词时需要选择被正确识别可能性大的词，即声学后验概率大于阈值的词。同时可以看到选择锚点词并使用声学后验概率阈值时，标注性能随着锚点词的选择比例Aratio变化幅度较大，从而也说明了选择Aratio参数的必要性，进而说明选择锚点词需要首先保证锚点词有很大的可能被正确识别，即声学后验概率足够大，同时还要保证这些锚点词的主题性要比较强，才能提取高性能的语义置信特征。

如图3所示，本发明实施例还提供了一种语音识别语义置信特征提取装置，包括：

主题分析装置301，用于使用主题模型对识别结果进行推理分析，得到识别结果中的主题结构，即假设主题数为K，即

\overset{&RightArrow;}{z} = (z_{1}, z_{2}, . . ., z_{K}),

给定主题j下词w的概率以及当前识别结果d下主题j的概率：

Φ_{j}^{(w)} = P (w | z = j)

以及

θ_{j}^{(d)} = P (z = j | d);

后验概率生成装置302，用于利用语音识别过程中记录的详细解码信息，计算得到识别结果中各个词的声学后验概率；

词主题分布生成装置303，用于根据主题分析装置301得到的识别结果中的主题结构，计算得到词的主题分布Topic_dis(w_i)，根据公式

Topic_dis(w_i)＝(H(w_i，z₁)，H(w_i，z₂)...H(w_i，z_K))；

其中，

H (w_{i}, z_{j}) = P (z_{j} | w_{i}) = \frac{P (w_{i} | z_{j}) * P (z_{j})}{p (w_{i})} = \frac{Φ_{j}^{(w_{i})} * P (z_{j})}{p (w_{i})};

P (z_{j}) = Σ_{i = 1}^{M} P (z_{j}, d_{i}) = Σ_{i = 1}^{M} P (z_{j} | d_{i}) * P (d_{i}) = P (d) * Σ_{i = 1}^{M} θ_{j}^{(d_{i})};

P (w_{i}) = Σ_{j = 1}^{K} P (w_{i}, z_{j}) = Σ_{j = 1}^{K} P (w_{i} | z_{j}) * P (z_{j}) = Σ_{j = 1}^{K} Φ_{j}^{(w_{i})} * P (z_{j});

文档基准主题分布生成装置304，用于确定锚点词，具体通过主题分析装置301得到的识别结果中的主题结构，以及后验概率生成装置302得到的识别结果中词的声学后验概率信息，从识别结果中选取一定数目的、声学后验概率大于某个阈值、并且主题性强的词作为锚点词，然后利用锚点词的主题分布计算得到整个识别结果的基准主题分布。假设当前锚点词共L个，对应点序列

\overset{&RightArrow;}{A} = (A_{1}, A_{2} . . . A_{L}),

i＝1...L。根据锚点词的主题分布计算识别结果d的基准主题分布，命名为Topic_dis(d)，为K维的矢量，具体通过公式：

Topic_dis(d)＝(L(d，z₁)，L(d，z₂)...L(d，z_K))；

其中，

L(d，z_j)＝Com(H(A₁，z_j)，H(A₂，z_j)...，H(A_L，z_j))；

其中，Com()为对各锚点词在某主题下概率值进行组合的函数；

语义特征提取装置305，用于利用识别结果中词的主题分布，比较其与识别结果的基准主题分布之间的相似性，作为词的语义置信特征，具体通过公式

Sem(w_i)＝Similarity(Topic_dis(w_i)，Topic_dis(d))

其中，Sem(w_i)为词w_i的语义置信特征，

Similarity()为相似性度量的方法。

本发明装置实施例具有与方法实施例相同的技术效果，不再重复。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1、一种语音识别语义置信特征提取的方法，其特征在于，包括：

利用推理结果计算得到词的主题分布；

从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词(Anchor Words)，然后利用锚点词的主题分布，计算得到识别结果的基准主题分布；

2、如权利要求1所述的方法，其特征在于，通过主题模型对语音识别结果进行推理，获取识别结果的主题结构，包括：

假设主题数为K，即

\overset{&RightArrow;}{z} = (z_{1}, z_{2}, . . ., z_{K}),

通过主题模型推理得到，当前识别结果d上的主题结构，即给定主题j下词w的概率以及当前识别结果d下主题j的概率：

Φ_{j}^{(w)} = P (w | z = j)

以及

θ_{j}^{(d)} = P (z = j | d) .

3、如权利要求1所述的方法，其特征在于，利用推理结果计算得到词的主题分布包括：

利用主题模型推理得到的信息，计算词的主题分布Topic_dis(w_i)，其中w_i为识别结果d中的词，Topic_dis(w_i)为K维的矢量，具体见下式：

Topic_dis(w_i)＝(H(w_i，z₁)，H(w_i，z₂)...H(w_i，z_K))；

其中，

H (w_{i}, z_{j}) = P (z_{j} | w_{i}) = \frac{P (w_{i} | z_{j}) * P (z_{j})}{p (w_{i})} = \frac{Φ_{j}^{(w_{i})} * P (z_{j})}{p (w_{i})};

P (z_{j}) = Σ_{i = 1}^{M} P (z_{j}, d_{i}) = Σ_{i = 1}^{M} P (z_{j} | d_{i}) * P (d_{i}) = P (d) * Σ_{i = 1}^{M} θ_{j}^{(d_{i})};

P (w_{i}) = Σ_{j = 1}^{K} P (w_{i}, z_{j}) = Σ_{j = 1}^{K} P (w_{i} | z_{j}) * P (z_{j}) = Σ_{j = 1}^{K} Φ_{j}^{(w_{i})} * P (z_{j}) .

4、如权利要求1所述的方法，其特征在于，从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词(Anchor Words)，然后利用锚点词的主题分布，计算得到识别结果的基准主题分布，包括：

锚点词的确定，主要通过以下步骤：

通过语音识别记录的详细解码信息，计算得到识别结果中各个词的声学后验概率；

设置后验概率的阈值，当识别结果中某个词后验概率大于该阈值时，将该词加到可信类中；若小于该阈值，则舍弃；

统计可信类中词的个数，命名为C_num；

判断可信类中是否有词；若可信类中没有词，则变更后验概率阈值，重新挑选词加到可信类；

若可信类中有词，计算可信类中每个词的Topic_dis(w_i)，并记录w_i所对应的H(w_i，z_j)中的最大值，即

\max_prob (w_{i}) = \max_{j = 1 . . . K} H (w_{i}, z_{j}),

最大值对应该词主题性的强弱；

设置选取锚点词的比例Aratio，锚点的个数L＝INT(C_num*Aratio)+1，其中函数INT()为取整函数，从可信类中按照max_prob(w_i)从大到小选择L个词作为当前识别结果的锚点词。

得到识别结果中的锚点词之后，识别结果基准主题分布的计算主要通过以下步骤：

统计锚点词的主题分布，假设当前锚点词共L个，对应点序列

\overset{&RightArrow;}{A} = (A_{1}, A_{2} . . . A_{L}),

则锚点词A_i的主题分布为Topic_dis(A_i)，i＝1...L。

根据锚点词的主题分布计算识别结果d的基准主题分布，命名为Topic_dis(d)，为K维的矢量，具体见下式：

Topic_dis(d)＝(L(d，z₁)，L(d，z₂)...L(d，z_K))；

其中，

L(d，z_j)＝Com(H(A₁，z_j)，H(A₂，z_j)...，H(A_L，z_j))；

其中，Com()为对各锚点词在第j个主题下的概率值进行组合的函数，Com()的形式有很多，比如求算数平均值等。

5、如权利要求1所述的方法，其特征在于，使用识别结果中词的主题分布，比较其与识别结果的基准主题分布之间的相似性，作为词的语义置信特征，包括：

通过使用词主题分布Topic_dis(w_i)，比较其与识别结果基准主题分布Topic_dis(d)之间的相似性，作为识别结果中词的语义置信特征，即

Sem(w_i)＝Similarity(Topic_dis(w_i)，Topic_dis(d))

其中，Sem(w_i)为词w_i的语义置信特征，Similarity()为相似性度量函数，常用的相似性度量函数有很多，比如对称K-L散度等。

6、一种语音识别语义置信特征提取装置，包括：

文档基准主题分布生成装置，用于确定锚点词，具体通过主题分析装置得到的识别结果中的主题结构，以及后验概率生成装置得到的识别结果中词的声学后验概率信息，从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词，然后利用锚点词的主题分布计算得到识别结果的基准主题分布；

7、如权利要求6所述的装置，其特征在于，所述主题分析装置包括：用于使用主题模型对识别结果进行推理分析，得到识别结果中的主题结构，即假设主题数为K，即

\overset{&RightArrow;}{z} = (z_{1}, z_{2}, . . ., z_{K}),

给定主题j下词w的概率以及当前识别结果d下主题j的概率：

Φ_{j}^{(w)} = P (w | z = j)

以及

θ_{j}^{(d)} = P (z = j | d) .

8、如权利要求6所述的装置，其特征在于，所述后验概率生成装置包括：用于利用语音识别过程中记录的详细解码信息，计算得到识别结果中各个词的声学后验概率。

9、如权利要求6所述的装置，其特征在于，所述词主题分布生成装置包括：用于根据主题分析装置得到的识别结果中的主题结构，计算得到词的主题分布Topic_dis(w_i)，根据公式

Topic_dis(w_i)＝(H(w_i.z₁)，H(w_i，z₂)...H(w_i，z_K))；

其中，

H (w_{i}, z_{j}) = P (z_{j} | w_{i}) = \frac{P (w_{i} | z_{j}) * P (z_{j})}{p (w_{i})} = \frac{Φ_{j}^{(w_{i})} * P (z_{j})}{p (w_{i})};

P (z_{j}) = Σ_{i = 1}^{M} P (z_{j}, d_{i}) = Σ_{i = 1}^{M} P (z_{j} | d_{i}) * P (d_{i}) = P (d) * Σ_{i = 1}^{M} θ_{j}^{(d_{i})};

P (w_{i}) = Σ_{j = 1}^{K} P (w_{i}, z_{j}) = Σ_{j = 1}^{K} P (w_{i} | z_{j}) * P (z_{j}) = Σ_{j = 1}^{K} Φ_{j}^{(w_{i})} * P (z_{j}) .

10、如权利要求6所述的装置，其特征在于，所述文档基准主题分布生成装置包括：用于确定锚点词，具体通过主题分析装置得到的识别结果中的主题结构，以及后验概率生成装置得到的识别结果中词的声学后验概率信息，从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词；然后利用锚点词的主题分布计算得到整个识别结果的基准主题分布。假设当前锚点词共L个，对应点序列

\overset{&RightArrow;}{A} = (A_{1}, A_{2} . . . A_{L}),

i＝1...L，根据锚点词的主题分布计算识别结果d的基准主题分布，命名为Topic_dis(d)，为K维的矢量，通过公式：

Topic_dis(d)＝(L(d，z₁)，L(d，z₂)...L(d，z_K))；

其中，

L(d，z_j)＝Com(H(A₁，z_j)，H(A₂，z_j)...，H(A_L，z_j))；

其中，Com()为对各锚点词在某主题下概率值进行组合的函数，Com()的形式有很多，比如求算数平均值等。

11、如权利要求6所述的装置，其特征在于，所述语义特征提取装置生成装置包括：用于用于利用识别结果中词的主题分布，比较其与识别结果的基准主题分布之间的相似性，作为词的语义置信特征，具体通过公式

Sem(w_i)＝Similarity(Topic_dis(w_i)，Topic_dis(d))

其中，Sem(w_i)为词w_i的语义置信特征，

Similarity()为相似性度量的方法，常用的相似性度量函数有很多，比如对称K-L散度等。