CN101609672A - 一种语音识别语义置信特征提取的方法和装置 - Google Patents

一种语音识别语义置信特征提取的方法和装置 Download PDF

Info

Publication number
CN101609672A
CN101609672A CNA2009100888676A CN200910088867A CN101609672A CN 101609672 A CN101609672 A CN 101609672A CN A2009100888676 A CNA2009100888676 A CN A2009100888676A CN 200910088867 A CN200910088867 A CN 200910088867A CN 101609672 A CN101609672 A CN 101609672A
Authority
CN
China
Prior art keywords
speech
recognition result
theme
anchor point
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100888676A
Other languages
English (en)
Other versions
CN101609672B (zh
Inventor
陈伟
刘刚
郭军
国玉晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN2009100888676A priority Critical patent/CN101609672B/zh
Publication of CN101609672A publication Critical patent/CN101609672A/zh
Application granted granted Critical
Publication of CN101609672B publication Critical patent/CN101609672B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种语音识别语义置信特征提取的方法,包括:通过主题模型对语音识别结果进行推理,获取识别结果的主题结构;利用推理结果计算得到词的主题分布;从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词(Anchor Words);利用锚点词的主题分布,计算得到整个识别结果的基准主题分布;使用识别结果中词的主题分布,比较其与识别结果基准主题分布之间的相似性,作为词的语义置信特征。还公开了一种语音识别语义置信特征提取装置,为置信度标注提供了语义高层信息的指导,从而能够更准确的描述和分析语音识别结果,提高置信度标注的精度。

Description

一种语音识别语义置信特征提取的方法和装置
技术领域
本发明涉及语音识别领域,特别是一种语义置信特征提取的方法和装置。
背景技术
语音识别置信特征是语音识别后处理评价识别结果可靠性的关键,主要用于解决语音识别置信度标注问题。
语音置信度标注一般需要基于不同的置信特征或者特征组合将识别结果中置信度标注基元标记为正确和错误两类,从而评价识别结果的可靠性。置信度标注的基元一般采用词,同时也可以采用语音帧、音素以及句子等。
目前,语音识别置信特征主要来源于解码器的信息,但是,黄曾阳在其1998由清华大学出版社出版的书籍《HNC(概念层次网络)理论》中提到,人类听觉实验表明,人类听觉预处理只能听清楚连续语音流中70%的音节,当语音发音模糊时人们可以用语法、语义等知识来指导对语音的理解。目前,语音识别的关键也已取决于后处理***的解模糊及纠错能力,因此语法、语义等高层信息对于语音识别后处理是非常重要的。但是对机器而言,如何在语音识别后处理中有效地提取语法和语义置信特征还比较困难。
发明人在实现本发明的过程中,发现现有技术中至少存在如下问题:
现有方法提取的语音置信特征都来源于解码器的信息,特征信息来源比较单一,无法有效地从语义等高层信息提取语义层置信特征指导对识别结果的评价。
本发明基于统计主题模型(Statistical Topic Models),给定识别结果,通过主题模型提取识别结果中隐含的主题结构以及可以被人理解的、相对稳定的隐含语义结构,并为识别结果寻找语义层的描述,进而提取识别结果中词或其他置信度标注基元的语义特征,主题模型包括了潜狄利克雷分配(Latent DirichletAllocation,LDA)、概率潜在语义分析(Probability Latent Semantic Analysis,PLSA)等。
发明内容
有鉴于此,本发明一个或多个实施例的目的在于提供一种语义置信特征提取的方法和装置,以实现增加置信特征的信息来源、通过语义等知识更准确的描述和分析语音识别结果、提高置信度标注精度的目的。
本发明实施例提供了一种语音识别语义置信特征提取的方法,包括:
通过主题模型对语音识别结果进行推理,获取识别结果的主题结构;
利用推理结果计算得到词的主题分布,并从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词(Anchor Words),并利用锚点词的主题分布,计算得到整个识别结果的基准主题分布;
使用识别结果中词的主题分布,比较其与识别结果基准主题分布之间的相似性,作为词的语义置信特征。
还公开了一种语音识别语义置信特征提取装置,包括:
主题分析装置,用于使用主题模型对识别结果进行推理分析,得到识别结果中的主题结构;
后验概率生成装置,用于利用语音识别过程中记录的详细解码信息,计算得到识别结果中各个词的声学后验概率;
词主题分布生成装置,用于根据主题分析装置得到的识别结果中的主题结构,计算得到词的主题分布;
文档基准主题分布生成装置,用于确定锚点词,具体通过主题分析装置得到的识别结果中的主题结构,以及后验概率生成装置得到的识别结果中词的声学后验概率信息,从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词,然后利用锚点词的主题分布计算得到整个识别结果的基准主题分布;
语义特征提取装置,用于利用识别结果中词的主题分布,比较其与识别结果的基准主题分布之间的相似性,作为词的语义置信特征。
与现有技术相比,本发明实施例提出的语音识别语义置信特征,为置信度标注提供了语义高层信息的指导,从而能够更准确的描述和分析语音识别结果,提高置信度标注的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示,是本发明实施例的一种结构框图;
图2所示,是本发明实施例的生成识别结果基准主题分布的流程图;
图2-1所示,是本发明实施例的寻找锚点词的方法流程图;
图2-2所示,是以声学后验概率和本发明的语义置信特征组合进行置信度标注为例,给出标注精度同锚点词寻找参数的变化示意图;
图3所示,是本发明实施例的语义置信特征提取的装置框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例提供的语义置信特征提取的有关技术方案中,有一个基本前提,即识别结果中正确识别的词要比错误识别的词更符合语义规则,正是在上述前提下,发明人构思了本发明有关实施例。
在本发明实施例中,对语义置信特征提取的功能可以进行如下方式的划分:
本发明实施例的第一功能单元主要使用大量的文档集,训练出主题模型。
本发明实施例的第二功能单元主要进行语音识别,输出最终的识别结果,并且详细记录整个解码过程。
本发明实施例的第三功能单元主要用于在第一、第二功能单元生成信息的指导下,提取识别结果中词的语义置信特征。利用第一功能单元生成的主题模型对语音识别结果进行推理分析,得到识别结果中的主题结构;利用第二功能单元记录的详细解码信息,计算得到识别结果中各个词的声学后验概率。在这些信息的指导下,计算得到词的主题分布;并从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词,利用锚点词的主题分布,计算得到整个识别结果的基准主题分布;通过利用识别结果中词的主题分布,比较其与识别结果的基准主题分布之间的相似性,作为词的语义置信特征。
需要说明的是,上述功能模块的划分是相对的,主要用于帮助所属领域的技术人员从整体上理解本发明的原理,本发明实施例还可以以其他的功能模块及其组合来实现本发明的原理,达到相同的技术效果,这都没有超出本发明的保护范围。
如图1所示,是本发明实施例的一种结构框图,包括:
第一功能单元101,第二功能单元102和第三功能单元103,第三功能单元分别与第一功能单元和第二功能单元相连接,其中,第一功能单元101包括文档集1011、主题模型训练模块1012以及主题模型1013;第二功能单元102包括语音数据输入模块1021、语音识别模块1022、语音识别结果1023以及语音识别解码信息1024,第三功能单元包括主题模型分析模块1031、后验概率生成模块1032、词主题分布生成模块1033、文档基准主题分布生成模块1034以及语义特征提取模块1035。
下面以LDA为例,介绍主题模型分析模块1031以及词主题分布生成模块1033。
LDA模型是近年来提出的一种能够提取文本隐含主题的非监督学习的主题模型,是一个包含词、主题和文档三层结构的生成式概率模型,假设训练LDA的文档集包含M个文档和V个不同的词,LDA的主题个数为K,即 z → = ( z 1 , z 2 , . . . , z K ) , 当前识别结果d中的词个数为Nd,对应词序列 w → = ( w 1 , w 2 , . . . , w N d ) .
主题模型分析模块1031就是通过LDA推理得到当前识别结果d上的主题结构,即给定主题j下词w的概率以及当前识别结果d下主题j的概率: Φ j ( w ) = P ( w | z = j ) 以及 θ j ( d ) = P ( z = j | d ) .
词主题分布生成模块1034就是利用主题模型分析模块1031得到的信息,计算词的主题分布Topic_dis(wi),其中wi为识别结果d中的词,Topic_dis(wi)为K维的矢量,具体见下式:
(Topic_dis(wi)=(H(wi,z1),H(wi,z2)...H(wi,zK));
其中,
H ( w i , z j ) = P ( z j | w i ) = P ( w i | z j ) * P ( z j ) p ( w i ) = Φ j ( w i ) * P ( z j ) p ( w i ) ;
P ( z j ) = Σ i = 1 M P ( z j , d i ) = Σ i = 1 M P ( z j | d i ) * P ( d i ) = P ( d ) * Σ i = 1 M θ j ( d i ) ;
(注:文档d的先验概率被看作均匀分布,即P(di)=p(d),i=1...M)
P ( w i ) = Σ j = 1 K P ( w i , z j ) = Σ j = 1 K P ( w i | z j ) * P ( z j ) = Σ j = 1 K Φ j ( w i ) * P ( z j ) ;
下面,结合图2-图4,以LDA为例,说明图1中文档基准主题分布生成模块1034的方法。
如图2所示,是本发明实施例中识别结果基准主题分布生成模块的流程图,包括:
201、对当前识别结果进行主题模型推理,得到识别结果中的主题结构;
202、根据推理结果及后验概率查找识别结果中锚点词,识别结果d中的词和整篇文档所要表达的主题应当是一致的,但是考虑到识别结果d的主题分布主要由d内的一些主题性强的词决定,因此要计算识别结果的基准主题分布就需要找到这些对主题分布起决定作用的词,称为锚点词(Anchor word)。因为识别结果中存在被误识别的词,因此选择锚点词的时候需要首先保证锚点词有很大的可能被正确识别,即声学后验概率足够大,同时还要保证这些锚点词的主题性要比较强。具体的锚点词寻找办法如图2-1所示,图2-1是本发明实施例的寻找锚点词的方法流程图:
2021、通过语音识别记录的详细解码信息计算得到识别结果中各个词的声学后验概率;
2022、设置后验概率的阈值,命名为PPThresh,当某个词后验概率大于该阈值时,将该词加到可信类,命名为CClass中;若小于该阈值,则舍弃;
2023、统计可信类CClass中词的个数,命名为C_num;
2024、判断可信类CClass中是否有词,即C_num是否为0;
2025、若可信类CClass中没有词,即C_num等于0,则变更后验概率阈值PPThresh,重新挑选词加到可信类;
2026、若可信类CClass中有词,即C_num不等于0,计算可信类CClass中每个词的Topic_dis(wi),并记录wi所对应的H(wi,zj)中的最大值,即 max _ prob ( w i ) = max j = 1 . . . K H ( w i , z j ) , 最大值对应该词主题性的强弱;
2027、设置选取锚点词的比例,命名为Aratio,锚点的个数L=INT(C_num*Aratio)+1,其中函数INT()为取整函数,从可信类CClass中按照max_prob(wi)从大到小选择L个词作为当前文档的锚点词。
203、在202找到识别结果中的锚点词之后,统计锚点词的主题分布,假设当前锚点词共L个,对应点序列 A → = ( A 1 , A 2 . . . A L ) , 则锚点词Ai的主题分布为Topic_dis(Ai),i=1...L。
204、根据锚点词的主题分布计算识别结果d的基准主题分布,命名为Topic_dis(d),为K维的矢量,具体见下式:
Topic_dis(d)=(L(d,z1),L(d,z2)...L(d,zK))
其中,
L(d,zj)=Com(H(A1,zj),H(A2,zj)...,H(AL,zj));
其中,Com()为对各锚点词在某主题下的概率值进行组合的函数,例如使用求算数平均的方法,则
L ( d , z j ) = 1 L * Σ i = 1 L H ( A i , z j )
因此,图1的语义特征提取模块1035,可以通过比较词主题分布Topic_dis(wi)同文档基准主题分布Topic_dis(d)之间的相似性,作为识别结果中词的语义置信特征,即
Sem(wi)=Similarity(Topic_dis(wi),Topic_dis(d))
其中,Sem(wi)为词wi的语义置信特征,度量相似性Similarity()的方法有很多,比如对称K-L散度:
令  M1:Topic_dis(wi);M2:Topic_dis(d);
则以M2作为参照模型的M1与M2的K-L散度可以定义为
D KL ( M 1 | | M 2 ) = Σ j = 1 K H ( w i , z j ) * log ( H ( w i , z j ) L ( d , z j ) )
为了不考虑参照模型,则定义对称K-L散度作为相似度的度量方法,从而词的语义置信特征为
Sem ( w i ) = 1 2 { D KL ( M 1 | | M 2 ) + D KL ( M 2 | | M 1 ) }
如图2-2所示,是以声学后验概率和本发明的语义置信特征组合进行置信度标注为例,给出标注精度同锚点词查找参数的变化示意图。
从图2-2可以看到,不使用声学后验概率阈值,即锚点词查找参数PPThresh=0,和使用声学后验概率阈值,该示意图中PPThresh=0.88相比,可以看到使用PPThresh的效果会更好,从而证明了选择锚点词时需要选择被正确识别可能性大的词,即声学后验概率大于阈值的词。同时可以看到选择锚点词并使用声学后验概率阈值时,标注性能随着锚点词的选择比例Aratio变化幅度较大,从而也说明了选择Aratio参数的必要性,进而说明选择锚点词需要首先保证锚点词有很大的可能被正确识别,即声学后验概率足够大,同时还要保证这些锚点词的主题性要比较强,才能提取高性能的语义置信特征。
如图3所示,本发明实施例还提供了一种语音识别语义置信特征提取装置,包括:
主题分析装置301,用于使用主题模型对识别结果进行推理分析,得到识别结果中的主题结构,即假设主题数为K,即 z → = ( z 1 , z 2 , . . . , z K ) , 给定主题j下词w的概率以及当前识别结果d下主题j的概率: Φ j ( w ) = P ( w | z = j ) 以及 θ j ( d ) = P ( z = j | d ) ;
后验概率生成装置302,用于利用语音识别过程中记录的详细解码信息,计算得到识别结果中各个词的声学后验概率;
词主题分布生成装置303,用于根据主题分析装置301得到的识别结果中的主题结构,计算得到词的主题分布Topic_dis(wi),根据公式
Topic_dis(wi)=(H(wi,z1),H(wi,z2)...H(wi,zK));
其中,
H ( w i , z j ) = P ( z j | w i ) = P ( w i | z j ) * P ( z j ) p ( w i ) = Φ j ( w i ) * P ( z j ) p ( w i ) ;
P ( z j ) = Σ i = 1 M P ( z j , d i ) = Σ i = 1 M P ( z j | d i ) * P ( d i ) = P ( d ) * Σ i = 1 M θ j ( d i ) ;
(注:文档d的先验概率被看作均匀分布,即P(di)=p(d),i=1...M)
P ( w i ) = Σ j = 1 K P ( w i , z j ) = Σ j = 1 K P ( w i | z j ) * P ( z j ) = Σ j = 1 K Φ j ( w i ) * P ( z j ) ;
文档基准主题分布生成装置304,用于确定锚点词,具体通过主题分析装置301得到的识别结果中的主题结构,以及后验概率生成装置302得到的识别结果中词的声学后验概率信息,从识别结果中选取一定数目的、声学后验概率大于某个阈值、并且主题性强的词作为锚点词,然后利用锚点词的主题分布计算得到整个识别结果的基准主题分布。假设当前锚点词共L个,对应点序列 A → = ( A 1 , A 2 . . . A L ) , i=1...L。根据锚点词的主题分布计算识别结果d的基准主题分布,命名为Topic_dis(d),为K维的矢量,具体通过公式:
Topic_dis(d)=(L(d,z1),L(d,z2)...L(d,zK));
其中,
L(d,zj)=Com(H(A1,zj),H(A2,zj)...,H(AL,zj));
其中,Com()为对各锚点词在某主题下概率值进行组合的函数;
语义特征提取装置305,用于利用识别结果中词的主题分布,比较其与识别结果的基准主题分布之间的相似性,作为词的语义置信特征,具体通过公式
Sem(wi)=Similarity(Topic_dis(wi),Topic_dis(d))
其中,Sem(wi)为词wi的语义置信特征,
Similarity()为相似性度量的方法。
本发明装置实施例具有与方法实施例相同的技术效果,不再重复。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (11)

1、一种语音识别语义置信特征提取的方法,其特征在于,包括:
通过主题模型对语音识别结果进行推理,获取识别结果的主题结构;
利用推理结果计算得到词的主题分布;
从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词(Anchor Words),然后利用锚点词的主题分布,计算得到识别结果的基准主题分布;
使用识别结果中词的主题分布,比较其与识别结果基准主题分布之间的相似性,作为词的语义置信特征。
2、如权利要求1所述的方法,其特征在于,通过主题模型对语音识别结果进行推理,获取识别结果的主题结构,包括:
假设主题数为K,即 z → = ( z 1 , z 2 , . . . , z K ) , 通过主题模型推理得到,当前识别结果d上的主题结构,即给定主题j下词w的概率以及当前识别结果d下主题j的概率: Φ j ( w ) = P ( w | z = j ) 以及 θ j ( d ) = P ( z = j | d ) .
3、如权利要求1所述的方法,其特征在于,利用推理结果计算得到词的主题分布包括:
利用主题模型推理得到的信息,计算词的主题分布Topic_dis(wi),其中wi为识别结果d中的词,Topic_dis(wi)为K维的矢量,具体见下式:
Topic_dis(wi)=(H(wi,z1),H(wi,z2)...H(wi,zK));
其中,
H ( w i , z j ) = P ( z j | w i ) = P ( w i | z j ) * P ( z j ) p ( w i ) = Φ j ( w i ) * P ( z j ) p ( w i ) ;
P ( z j ) = Σ i = 1 M P ( z j , d i ) = Σ i = 1 M P ( z j | d i ) * P ( d i ) = P ( d ) * Σ i = 1 M θ j ( d i ) ;
(注:文档d的先验概率被看作均匀分布,即P(di)=p(d),i=1...M)
P ( w i ) = Σ j = 1 K P ( w i , z j ) = Σ j = 1 K P ( w i | z j ) * P ( z j ) = Σ j = 1 K Φ j ( w i ) * P ( z j ) .
4、如权利要求1所述的方法,其特征在于,从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词(Anchor Words),然后利用锚点词的主题分布,计算得到识别结果的基准主题分布,包括:
锚点词的确定,主要通过以下步骤:
通过语音识别记录的详细解码信息,计算得到识别结果中各个词的声学后验概率;
设置后验概率的阈值,当识别结果中某个词后验概率大于该阈值时,将该词加到可信类中;若小于该阈值,则舍弃;
统计可信类中词的个数,命名为C_num;
判断可信类中是否有词;若可信类中没有词,则变更后验概率阈值,重新挑选词加到可信类;
若可信类中有词,计算可信类中每个词的Topic_dis(wi),并记录wi所对应的H(wi,zj)中的最大值,即 max _ prob ( w i ) = max j = 1 . . . K H ( w i , z j ) , 最大值对应该词主题性的强弱;
设置选取锚点词的比例Aratio,锚点的个数L=INT(C_num*Aratio)+1,其中函数INT()为取整函数,从可信类中按照max_prob(wi)从大到小选择L个词作为当前识别结果的锚点词。
得到识别结果中的锚点词之后,识别结果基准主题分布的计算主要通过以下步骤:
统计锚点词的主题分布,假设当前锚点词共L个,对应点序列 A → = ( A 1 , A 2 . . . A L ) , 则锚点词Ai的主题分布为Topic_dis(Ai),i=1...L。
根据锚点词的主题分布计算识别结果d的基准主题分布,命名为Topic_dis(d),为K维的矢量,具体见下式:
Topic_dis(d)=(L(d,z1),L(d,z2)...L(d,zK));
其中,
L(d,zj)=Com(H(A1,zj),H(A2,zj)...,H(AL,zj));
其中,Com()为对各锚点词在第j个主题下的概率值进行组合的函数,Com()的形式有很多,比如求算数平均值等。
5、如权利要求1所述的方法,其特征在于,使用识别结果中词的主题分布,比较其与识别结果的基准主题分布之间的相似性,作为词的语义置信特征,包括:
通过使用词主题分布Topic_dis(wi),比较其与识别结果基准主题分布Topic_dis(d)之间的相似性,作为识别结果中词的语义置信特征,即
Sem(wi)=Similarity(Topic_dis(wi),Topic_dis(d))
其中,Sem(wi)为词wi的语义置信特征,Similarity()为相似性度量函数,常用的相似性度量函数有很多,比如对称K-L散度等。
6、一种语音识别语义置信特征提取装置,包括:
主题分析装置,用于使用主题模型对识别结果进行推理分析,得到识别结果中的主题结构;
后验概率生成装置,用于利用语音识别过程中记录的详细解码信息,计算得到识别结果中各个词的声学后验概率;
词主题分布生成装置,用于根据主题分析装置得到的识别结果中的主题结构,计算得到词的主题分布;
文档基准主题分布生成装置,用于确定锚点词,具体通过主题分析装置得到的识别结果中的主题结构,以及后验概率生成装置得到的识别结果中词的声学后验概率信息,从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词,然后利用锚点词的主题分布计算得到识别结果的基准主题分布;
语义特征提取装置,用于利用识别结果中词的主题分布,比较其与识别结果的基准主题分布之间的相似性,作为词的语义置信特征。
7、如权利要求6所述的装置,其特征在于,所述主题分析装置包括:用于使用主题模型对识别结果进行推理分析,得到识别结果中的主题结构,即假设主题数为K,即 z → = ( z 1 , z 2 , . . . , z K ) , 给定主题j下词w的概率以及当前识别结果d下主题j的概率: Φ j ( w ) = P ( w | z = j ) 以及 θ j ( d ) = P ( z = j | d ) .
8、如权利要求6所述的装置,其特征在于,所述后验概率生成装置包括:用于利用语音识别过程中记录的详细解码信息,计算得到识别结果中各个词的声学后验概率。
9、如权利要求6所述的装置,其特征在于,所述词主题分布生成装置包括:用于根据主题分析装置得到的识别结果中的主题结构,计算得到词的主题分布Topic_dis(wi),根据公式
Topic_dis(wi)=(H(wi.z1),H(wi,z2)...H(wi,zK));
其中,
H ( w i , z j ) = P ( z j | w i ) = P ( w i | z j ) * P ( z j ) p ( w i ) = Φ j ( w i ) * P ( z j ) p ( w i ) ;
P ( z j ) = Σ i = 1 M P ( z j , d i ) = Σ i = 1 M P ( z j | d i ) * P ( d i ) = P ( d ) * Σ i = 1 M θ j ( d i ) ;
(注:文档d的先验概率被看作均匀分布,即P(di)=p(d),i=1...M)
P ( w i ) = Σ j = 1 K P ( w i , z j ) = Σ j = 1 K P ( w i | z j ) * P ( z j ) = Σ j = 1 K Φ j ( w i ) * P ( z j ) .
10、如权利要求6所述的装置,其特征在于,所述文档基准主题分布生成装置包括:用于确定锚点词,具体通过主题分析装置得到的识别结果中的主题结构,以及后验概率生成装置得到的识别结果中词的声学后验概率信息,从识别结果中选取一定数目、声学后验概率大于某个阈值、并且主题性强的词作为锚点词;然后利用锚点词的主题分布计算得到整个识别结果的基准主题分布。假设当前锚点词共L个,对应点序列 A → = ( A 1 , A 2 . . . A L ) , i=1...L,根据锚点词的主题分布计算识别结果d的基准主题分布,命名为Topic_dis(d),为K维的矢量,通过公式:
Topic_dis(d)=(L(d,z1),L(d,z2)...L(d,zK));
其中,
L(d,zj)=Com(H(A1,zj),H(A2,zj)...,H(AL,zj));
其中,Com()为对各锚点词在某主题下概率值进行组合的函数,Com()的形式有很多,比如求算数平均值等。
11、如权利要求6所述的装置,其特征在于,所述语义特征提取装置生成装置包括:用于用于利用识别结果中词的主题分布,比较其与识别结果的基准主题分布之间的相似性,作为词的语义置信特征,具体通过公式
Sem(wi)=Similarity(Topic_dis(wi),Topic_dis(d))
其中,Sem(wi)为词wi的语义置信特征,
Similarity()为相似性度量的方法,常用的相似性度量函数有很多,比如对称K-L散度等。
CN2009100888676A 2009-07-21 2009-07-21 一种语音识别语义置信特征提取的方法和装置 Expired - Fee Related CN101609672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100888676A CN101609672B (zh) 2009-07-21 2009-07-21 一种语音识别语义置信特征提取的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100888676A CN101609672B (zh) 2009-07-21 2009-07-21 一种语音识别语义置信特征提取的方法和装置

Publications (2)

Publication Number Publication Date
CN101609672A true CN101609672A (zh) 2009-12-23
CN101609672B CN101609672B (zh) 2011-09-07

Family

ID=41483397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100888676A Expired - Fee Related CN101609672B (zh) 2009-07-21 2009-07-21 一种语音识别语义置信特征提取的方法和装置

Country Status (1)

Country Link
CN (1) CN101609672B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN103177721A (zh) * 2011-12-26 2013-06-26 中国电信股份有限公司 语音识别方法和***
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN105529028A (zh) * 2015-12-09 2016-04-27 百度在线网络技术(北京)有限公司 语音解析方法和装置
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN109389983A (zh) * 2017-08-10 2019-02-26 奥迪股份公司 用于处理移动终端设备的自动的在线-语音识别器的识别结果的方法以及交换设备
WO2022121257A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 模型训练方法、语音识别方法、装置、设备及存储介质
CN115376499A (zh) * 2022-08-18 2022-11-22 东莞市乐移电子科技有限公司 一种应用于学习领域下的智能耳机的学习监控手段

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263042B1 (en) * 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1123863C (zh) * 2000-11-10 2003-10-08 清华大学 基于语音识别的信息校核方法
CN1223985C (zh) * 2002-10-17 2005-10-19 中国科学院声学研究所 语音识别置信度评价方法和***及应用该方法的听写装置
CN101013421B (zh) * 2007-02-02 2012-06-27 清华大学 基于规则的汉语基本块自动分析方法
CN101030369B (zh) * 2007-03-30 2011-06-29 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN103177721A (zh) * 2011-12-26 2013-06-26 中国电信股份有限公司 语音识别方法和***
CN103177721B (zh) * 2011-12-26 2015-08-19 中国电信股份有限公司 语音识别方法和***
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN103700368B (zh) * 2014-01-13 2017-01-18 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN105529028A (zh) * 2015-12-09 2016-04-27 百度在线网络技术(北京)有限公司 语音解析方法和装置
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN109389983A (zh) * 2017-08-10 2019-02-26 奥迪股份公司 用于处理移动终端设备的自动的在线-语音识别器的识别结果的方法以及交换设备
CN109389983B (zh) * 2017-08-10 2023-07-07 奥迪股份公司 用于处理移动终端设备的自动的在线-语音识别器的识别结果的方法以及交换设备
WO2022121257A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 模型训练方法、语音识别方法、装置、设备及存储介质
CN115376499A (zh) * 2022-08-18 2022-11-22 东莞市乐移电子科技有限公司 一种应用于学习领域下的智能耳机的学习监控手段
CN115376499B (zh) * 2022-08-18 2023-07-28 东莞市乐移电子科技有限公司 一种应用于学习领域下的智能耳机的学习监控方法

Also Published As

Publication number Publication date
CN101609672B (zh) 2011-09-07

Similar Documents

Publication Publication Date Title
Chung et al. Speech2vec: A sequence-to-sequence framework for learning word embeddings from speech
CN101609672A (zh) 一种语音识别语义置信特征提取的方法和装置
CN103400577B (zh) 多语种语音识别的声学模型建立方法和装置
Chen et al. Structure-aware abstractive conversation summarization via discourse and action graphs
Tran et al. Parsing speech: a neural approach to integrating lexical and acoustic-prosodic information
CN106328147A (zh) 语音识别方法和装置
EP3594940B1 (en) Training method for voice data set, computer device and computer readable storage medium
CN101763855B (zh) 语音识别的置信度判决方法及装置
Potash et al. Towards debate automation: a recurrent model for predicting debate winners
CN105374352A (zh) 一种语音激活方法及***
Kim et al. Gated embeddings in end-to-end speech recognition for conversational-context fusion
CN113609264B (zh) 电力***节点的数据查询方法、装置
Van Dalen et al. Improving multiple-crowd-sourced transcriptions using a speech recogniser
Ganesan et al. N-best ASR transformer: Enhancing SLU performance using multiple ASR hypotheses
Bowen Word order detection in English classroom teaching based on improved genetic algorithm of block coding
Ruiz-Casado et al. Using context-window overlapping in synonym discovery and ontology extension
CN103559289A (zh) 语种无关的关键词检索方法及***
CN113779190B (zh) 事件因果关系识别方法、装置、电子设备与存储介质
Dan et al. Enhancing class understanding via prompt-tuning for zero-shot text classification
Ranaldi et al. Modeling easiness for training transformers with curriculum learning
Mitra et al. Feature fusion for high-accuracy keyword spotting
Shrivastava et al. Retrieve-and-fill for scenario-based task-oriented semantic parsing
Kim et al. A composite kernel approach for dialog topic tracking with structured domain knowledge from wikipedia
Cuayáhuitl et al. Barge-in effects in Bayesian dialogue act recognition and simulation
Harichandana et al. Adaptive Beam Search to Enhance On-device Abstractive Summarization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110907

Termination date: 20140721

EXPY Termination of patent right or utility model