CN101266793B - 通过对话回合间上下文关系来减少辨识错误的装置与方法 - Google Patents

通过对话回合间上下文关系来减少辨识错误的装置与方法 Download PDF

Info

Publication number
CN101266793B
CN101266793B CN2007100870226A CN200710087022A CN101266793B CN 101266793 B CN101266793 B CN 101266793B CN 2007100870226 A CN2007100870226 A CN 2007100870226A CN 200710087022 A CN200710087022 A CN 200710087022A CN 101266793 B CN101266793 B CN 101266793B
Authority
CN
China
Prior art keywords
rule
dialogue
context
bout
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007100870226A
Other languages
English (en)
Other versions
CN101266793A (zh
Inventor
吴旭智
李青宪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Priority to CN2007100870226A priority Critical patent/CN101266793B/zh
Publication of CN101266793A publication Critical patent/CN101266793A/zh
Application granted granted Critical
Publication of CN101266793B publication Critical patent/CN101266793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明揭示一种通过对话回合间上下文关系来减少辨识错误的装置与方法。该装置包含一规则储存单元、一演化式规则产生模块、和一规则触发器。本发明先通过一大量平行的演化式计算方法,分析对话历史记录,训练出一规则组,该规则组描述对话回合间的上下文关系。根据该规则组作为语音辨识模块所参考的额外信息,或者针对现有的语音辨识所产生的结果进行重新评估,并测量重新评估后的语音辨识信心度。最后,利用每一成功的对话回合,动态调适该规则组。本发明可在现有的语音辨识基础上,提高辨识的准确度,可帮助新一代或是较复杂的对话***的语音辨识。本发明所使用的规则组学习方法,其训练所耗费的成本也较低。

Description

通过对话回合间上下文关系来减少辨识错误的装置与方法 
技术领域
本发明关于一种通过对话回合(dialogue turn)间上下文(context)关系来减少辨识错误的装置与方法。 
背景技术
自动语音辨识(Automatic Speech Recognition,ASR)中,如何减少辨识错误(recognition error)是一个很重要的问题。历来的研究发现,利用更多的信息,作为辨识的参考,可有效地降低辨识错误率。可利用的信息包含语音(speech utterance)信息、语意(speech semantics)信息、还有对话上下文(dialoguecontext)相关信息。 
传统语音辨识主要是采取关键词辨识(keyword spotting)。如果关键词的辨识正确,那么便可以正确地继续对话,完成所需的任务。对于传统的信息存取对话***(例如查询天气、查询人员信息、语音订票等***)来说,只要能将关键词的辨识率提高,结合其它相关技术(例如不同的对话状态采取不同的子对话***),即可实现一个可用的***。 
较新的对话***中,***和使用者之间的关系不同于以往的由固定一方问,另一方答,其更复杂的互动,导致单靠关键词辨识的技术无法实现一个可行的对话***。例如,在一个语言学习***中,使用者和***会互相问对方问题,并回答问题,一同完成某一个任务,或达到双方共有的任务。图1是这种对话***的一个例子。参考图1,使用者(以U表示)和***(以S表示)进行对话,双方要共同协调出一个时间,还有双方都可以接受的活动来进行。 
在该例子中,双方不再设定是一问一答,因此可能出现的辨识错误会如下所示: 
“Do you like dancing?”有可能被错误辨识成:“I do like dancing.”; 
“Would you like to...?”有可能被错误辨识成:“What do you like to..?” 
从上述的例子当中,可以知道仅通过关键词辨识来进行错误辨识,可能 无法解决这样的错误。如果可以参考对话上下文的相关信息,那么对于辨识率的提升,会有相当大的帮助。 
现今技术中,有利用对话的历史内容,来提高辨识率。例如,RebeccaJonson等人在IEEE SLT 2006所提出的论文“Dialogue Context-basedRe-ranking of ASR Hypotheses”中,其利用语音特征(utterance feature)、实时上下文特征(immediate context feature)、最近上下文特征(close-contextfeature)、对话上下文特征(dialogue context feature)和可能者清单特征(listfeature)等不同方面的特征,作为判定辨识错误的参考。而在实时上下文特征、最近上下文特征中,该论文只考虑了最近的前两次对话回合的对话上下文信息,作为辨识的基础。 
另一种参照对话历史内容的作法,则是计算出之前对话的相关统计信息(例如,对话进行中的取消率(cancel percentage)、错误率(error percentage)、***回合数(number of system turns)、使用者回合数(number of user turns)等概括的信息,没有详细和精确地参照到之前每一回合对话内容的相关信息,也没有精确地描述对话回合之间可能存在的关系 
目前的技术大多是根据上一个对话句子(通常是***所发出的句子),作为判定目前句子的主要依据。然而,在真实的对话中,目前的句子可能会跟前几个句子相关,而非仅与前一个句子相关。在现有的技术当中,对于这样的情况,尚无有效的表示。例如,现有的例子当中,采用类似N连文法(N-gram)的作法。如果要考虑n>3的情况,那么其频率的分布会非常稀疏(sparse)。 
在语音辨识***中,利用N-最佳可能者清单(N-Best List)的重新评分方法来提高语音的辨识率,也是一个广泛应用的概念。N-最佳可能者清单的方法中,大多着重于如何利用N-最佳可能者清单信息来测量信心度(confidencemeasure),与如何在辨识过程中,产生N-最佳可能者清单的方法,以及N-最佳可能者清单如何进行调适性学习(adaptive learning)。 
发明内容
本发明的目的是提供一种通过对话回合间上下文关系来减少辨识错误的装置与方法。本发明将一个或多个对话回合间上下文关系纳入语音辨识时寻找最佳答案的考虑,可降低自动语音辨识***的辨识错误率。本发明可帮 助新一代或是较复杂的对话***的语音辨识。 
本发明分析现有的对话内容,找出多条描述对话上下文关系的规则组成的一规则组(rule set)。每一条规则所描述的信息是以对话回合(dialogue turn)为单位,并可描述多个对话回合之间的上下文关系。经过训练后的规则组,可用来根据对话的历史记录,决定目前对话回合中,每一种上下文关系出现的机率。以该机率可对语音辨识所产生的N-最佳可能者清单进行重算分数,由此来降低辨识错误率。 
本发明的通过对话回合间上下文关系来减少辨识错误的装置包含一规则储存单元(rule storage unit)、一演化式规则产生模块(evolutionary rulegeneration module)、和一规则触发器(rule trigger)。规则储存单元备有一条或多条规则组成的一规则组,每一条规则描述一组对话回合间的关系。演化式规则产生模块从一对话记录(dialogue log)中进行演化调适,训练出该规则组。规则触发器根据训练出的规则组与前面多个对话回合的对话历史记录(dialogue history),从训练出的规则组中选出至少一条规则及其相对应的信心度测量(confidence measure),供一ASR***对其语音辨识进行重新评估。 
重新评估后的辨识结果回馈至对话记录中,该装置可再通过一酬赏/惩罚元件进一步调整该规则组。 
根据所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该规则组的每一条所述规则的表示中至少包括该对话回合之间的上下文关系。 
根据所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该规则组的每一条所述规则所描述的信息包括一序列的前面多个对话回合的上下文类别、当次对话回合的上下文类别、以及该条规则相对应的信心度测量。 
根据所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该规则组的每一条所述规则所描述的信息中具有一种或多种不同的对话上下文类别。 
根据所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该条规则相对应的信心度测量为该条规则的信心分数。 
根据所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该规则组的每一条所述规则所描述的信息中还享有一种万用类别的表示方式, 该万用类别代表所述一种或多种不同的上下文类别中的任何一种上下文类别。 
根据所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该演化式规则产生模块包括三个操作元,分别为规则变异、规则评估和规则筛选。 
本发明还提供一种通过对话回合间上下文关系来减少辨识错误的方法,该方法包含下列步骤:通过一大量平行的演化式计算方法分析对话历史记录,以训练出一规则组,该规则组描述一个或多个对话回合之间的上下文关系;根据该规则组和一自动语音辨识***原本产生的辨识结果进行重新评估,并测量该重新评估的语音辨识的信心度;以及对于每一成功的对话回合,动态调适该规则组。 
根据所述的通过对话回合间上下文关系来减少辨识错误的方法,其中所述训练出该规则组的步骤还包括:随机产生一随机规则集合;以及将该随机规则集合通过一演化式计算的三个操作元,包括规则变异、规则评估和规则筛选,经过逐代的演化调适而训练出该规则组。 
根据所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该规则组由一或多条规则组成,并以对话回合为单位来表示每一条该规则所描述的信息。 
根据所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该规则组通过下列步骤来描述一个或多个对话回合之间的上下文关系:将所述一个或多个对话回合的对话内容当中的属性定义成一种或多种对话上下文类别;以及每一所述规则以符号M1M2M3...Mn:R,I来表示,其中M1M2M3...Mn代表前n个对话回合的上下文类别,R代表当次对话回合的上下文类别,I代表该条规则相对应的信心度测量。 
根据所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该规则变异是指每一所述规则会有一机率,通过变异、或组合中的一种方式而成为另一新的规则。 
根据所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该规则评估是指评估每一所述规则的信心度。 
根据所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该 规则筛选包括下列步骤:保留一预定比例的规则;随机或从现有规则中通过规则变异来产生新的规则;找出等价规则,并从中删除较一般性的规则;以及如果有规则被删除时,则返回至所述产生新规则的步骤。 
根据所述的通过对话回合间上下文关系来减少辨识错误的方法,其中所述进行重新评估,并测量该重新评估的语音辨识的信心度的步骤还包括下列步骤:将前面多次的对话记录套用在该规则组中的每一条规则,以找出前面多次对话回合的上下文类别符合所述前面多次对话记录的规则;以及在所有所述符合的规则中,根据所有所述符合的规则的当次对话回合的上下文类别来进行分类,并计算出每一种对话上下文类别的信心分数信息。 
根据所述的通过对话回合间上下文关系来减少辨识错误的方法,其中在计算出该信心分数信息后,所述进行重新评估并测量该重新评估的语音辨识的信心度的步骤还包括:将该信心分数信息提供给该自动语音辨识***。 
根据所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该信心分数信息使该自动语音辨识***有更多的信息,以产生一精确的最佳可能者清单。 
根据所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该信心分数信息是提供给该自动语音辨识***作为后处理,通过该信心分数信息来调整该自动语音辨识***原本的最佳可能者清单的分数。 
本发明将对话内容当中的属性,定义成一种或多种类别,也即对话上下文类别。每一句对话,根据其信息,都可以归属到一个特定的对话上下文类别。然后,每一规则所描述的信息包括一序列的前面多个对话回合的上下文类别、当次对话回合的上下文类别,以及该条规则相对应的信心度测量。每一规则还享有一种万用类别的表示方式,代表所述一种或多种不同的上下文类别中的任何一种上下文类别。 
根据本发明的装置的结构与该规则组的每一条规则的定义和表示法,本发明首先通过一大量平行的演化式计算方法(evolutionary massive parallelismapproach),分析对话历史记录,以训练出一规则组。然后,根据该规则组和自动语音辨识***原本产生的辨识结果进行重新评估,并测量重新评估的语音辨识的信心度。最后,对于每一成功的对话回合,动态调适该规则组。 
该大量平行的演化式计算方法从对话记录中训练出该规则组。首先,随 机产生一随机规则集合。然后,将该随机规则集合通过该演化式计算的三个操作元,包括规则变异(rule variation)、规则评估(rule evaluation)与规则筛选(rule selection),经过逐代的演化调适而训练出该规则组。 
而经过规则筛选产生的规则组经过逐代调适之后,所产生的规则的信心分数会较高,更能表示对话回合之间的对话上下文的关系。利用这种关系,可在现有的语音辨识基础上,更进一步提高辨识的准确度。同时,本发明所使用的学习方法,其训练所耗费的成本较低,有助于设计一个可动态调整辨识规则的语音辨识***。这样的机制对于未来处理更复杂互动的对话***,也会有相当大的帮助。 
结合下列附图、实施例的详细说明及权利要求书,将上述及本发明的其它目的与优点详述于后。 
附图说明
图1为一个传统对话***的例子。 
图2A为本发明的通过对话回合间上下文关系来减少辨识错误的装置的一个示意图。 
图2B说明自动语音辨识***应用本发明进行重新评估,且本发明可通过一酬赏/惩罚元件,调整图2A中的规则组。 
图3为一个流程图,说明本发明的通过对话回合间上下文关系来减少辨识错误的方法的操作。 
图4说明通过一演化式计算,从对话记录中,训练出规则组。 
图5以图1的对话记录为一范例,说明本发明将该对话记录定义出的9种不同的对话上下文类别。 
图6说明规则筛选的步骤流程。 
图7进一步说明本发明如何进行重新评估,并测量目前对话回合中各种对话上下文类别的可能性的机率。 
图8为对话记录内的一段对话与其对应的对话上下文类别型态的一个示意图。 
图9A为图8的对话记录通过随机方式产生的规则集合的一个范例。 
图9B至图9D分别是经过100代、200代与10000代的演化调适后,训 练出的规则组,其中均只列出其规则组中的前30条规则。 
图10说明规则触发器将对话历史记录套用在规则组中,并算出目前对话回合中每一种对话上下文类别的机率。 
其中,附图标记说明如下: 
S  *** 
U  使用者 
200利用对话回合间上下文关系来减少辨识错误的装置 
201规则储存单元 
203演化式规则产生模块 
205规则触发器 
211规则组 
215a至少一条规则 
215b信心度测量 
221对话记录 
N自然数 
223前N个对话回合的状态的对话历史记录 
225自动语音辨识*** 
225a语音辨识的结果 
237酬赏/惩罚元件 
301通过一大量平行的演化式计算方法,分析对话历史记录,以训练出一规则组,此规则组描述着一或多个对话回合之间的上下文关系 
302根据此规则组和自动语音辨识***原本产生的辨识结果进行重新评估,并测量重新评估的语音辨识的信心度 
303对于每一成功的对话回合,动态调适该规则组 
401随机产生一随机规则集合 
402规则变异 
403规则评估 
404规则筛选 
M1M2M3...Mn:R,I规则表示方式 
601保留一预定比例的规则 
602随机或从现有规则中通过规则变异来产生新的规则 
603找出等价规则,并从中删除较一般性的规则 
604有规则被删除? 
701将前n次的对话记录套用在该规则组中的逐条规则 
702在所有符合的规则中,根据这些规则的当次对话回合的上下文类别(也就是R)来进行分类,并计算出每一种对话上下文类别的信心分数 
具体实施方式
图2A为本发明的通过对话回合间上下文关系来减少辨识错误的装置的一个示意图。参考图2,该通过对话回合间上下文关系来减少辨识错误的装置200包含一规则储存单元201、一演化式规则产生模块203、和一规则触发器205。规则储存单元201备有一规则组211,该规则组211由一条或多条规则组成,并以对话回合为单位来表示每一条规则。演化式规则产生模块203与该规则储存单元相互连接,并从一对话记录(dialogue log)221中进行演化调适,而训练出该规则组211。规则触发器205与规则储存单元201连接,并根据训练出的规则组211与前N个对话回合的对话历史记录223,从训练出的规则组211中选出至少一条规则215a及其相对应的信心度测量215b,供一自动语音辨识***225对其语音辨识进行重新评估,其中N为一自然数(natural number)。 
该重新评估后的语音辨识结果225a回馈至对话记录221中。本发明的装置200可通过一酬赏/惩罚元件(reward/punishment element)237,进一步调整该规则组211,如图2B所示。 
参考图2B,当使用者语音输入自动语音辨识***225时,该自动语音辨识***225可根据规则触发器205所选出的至少一条规则215a及其相对应的信心度测量215b,将自动语音辨识***225原本产生的N-最佳可能者清单进行重新评估,与N-最佳可能者清单的分数再进行权重加总,重估分数(rescoring)即考虑到对话回合间上下文信息的关系。由此来减少语音辨识错误,即可增加N-最佳可能者清单的分数评估的可靠度,从该N-最佳可能者清单中找到更适合的解答,并回馈至对话记录221中。通过酬赏/惩罚元件237,可进一步调整规则组211内的规则。 
根据本发明,演化式规则产生模块203从一个现有的对话记录中训练出规则组211。例如,先随机产生一随机规则集合,然后将该随机规则集合通过该演化式规则产生模块的三个操作元,包括规则变异、规则评估与规则筛选,而训练出该规则组211。 
依此,本发明的装置应用在自动语音辨识***时,将一个或多个对话回合间上下文关系,演化调适而训练出多条描述该对话上下文关系的一组规则,其中每一条规则所描述的信息是以对话回合为单位。经过训练后的规则组,可用来根据对话回合的历史记录,决定目前对话回合中,每一种上下文关系出现的机率。以该机率可对语音辨识原本产生的N-最佳可能者清单进行重新评估,由此来减少辨识错误,提高该自动语音辨识***对辨识结果的信心度。 
规则组的每一条规则所描述的信息包括一序列的前一个或多个对话回合的上下文类别、当次对话回合的上下文类别,以及该条规则相对应的信心度测量。每一条规则所描述的信息中并具有一种或多种不同的对话上下文类别。每一条规则相对应的信心度测量为该条规则的信心分数。每个对话回合的对话上下文除了所属的对话上下文类别之外,每一条规则所描述的信息中还可享有一种万用类别的表示方式,该万用类别代表所述一种或多种不同的上下文类别中的任何一种上下文类别。 
结合图2A与图2B的根据本发明的结构特征,以下进一步说明本发明的操作、每一条规则的表示方式,以及其所描述信息的定义。 
图3为一个流程图,说明本发明的通过对话回合间上下文关系来减少辨识错误的方法的操作。首先,如步骤301所示,通过一大量平行的演化式计算方法,分析对话历史记录,以训练出一规则组,该规则组描述着一个或多个对话回合之间的上下文关系。然后,如步骤302所示,根据该规则组和自动语音辨识***原本产生的辨识结果进行重新评估,并测量重新评估的语音辨识的信心度。最后,如步骤303所示,对于每一成功的对话回合,动态调适该规则组。以下进一步说明步骤301至303。 
在步骤301中,该大量平行的演化式计算方法从对话记录中训练出该规则组。如图4所示,首先,如标号401所示,随机产生一随机规则集合。然后,将该随机规则集合通过该演化式计算的三个操作元,包括规则变异402、 规则评估403与规则筛选404,经过逐代的演化调适而训练出该规则组。 
接下来,说明该规则组如何描述一个或多个对话回合之间的上下文关系。如前所述,该规则组由一条或多条规则组成,并以对话回合为单位来表示每一条规则。首先,将对话内容当中的属性,定义成一种或多种类别,也即对话上下文类别。每一句对话,根据其信息,都可以归属到一个特定的对话上下文类别。然后,一个规则以符号M1M2M3...Mn:R,I来表示,其中M1M2M3...Mn代表前n次对话回合的上下文类别,R代表当次对话回合的上下文类别,以及I代表该条规则相对应的信心度测量。I的范例如该条规则的评估分数,或是该条规则出现的次数或机率等。 
不失一般性,图5以图1的对话记录为一范例,说明该对话记录被定义出的9种不同的对话上下文类别。例如,对话“I do not like to go swimming.”被定义为n型态、对话“Do you like dancing?”被定义为V型态、对话“Good byenow.”被定义为X型态。 
值得一提的是,对话上下文类别型态的定义不限于上述的9种型态,可依照对话句型定义出更多不同型态的对话上下文类别。 
在规则表示方式的设定上,每个对话回合的对话上下文除了所属的对话上下文类别型态外,本发明也提供一种万用类别型态,记为“#”。在M1M2M3...Mn中,若某一对话回合使用类别型态“#”,则代表该次对话回合允许任何一种的对话上下文类别。例如,假设对话上下文类别可能的种类有:{V,Y,N,Q,S},该条规则的评估分数为50,那么“VY#N:S,50”当中,#位置可以是任何一种对话上下文类别。也就是说“VYVN:S,50”、“VYYN:S,50”、“VYNN:S,50”、“VYQN:S,50”以及“VYSN:S,50”均符合该条规则所描述。 
通过演化式规则产生模块的三个操作元进行规则调适,并经过多个世代的调适之后所产生出来的规则,其信心分数会较高。换句话说,该规则组内的每条规则可以描述出对话上下文当中,回合和回合之间的上下文关系。值得一提的是,该上下文关系不会受限于对话回合的个数。以下进一步说明演化式规则产生模块的三个操作元,规则变异402、规则评估403与规则筛选404。 
规则变异402:现有规则集合中,每一条规则会有一个机率 来变异(variation)或组合成其它的规则。变异的方式是其中某一次的对话上下文类别 型态从Mi变成Mj,或者从Mi变成“#”,或者从“#”变成Mj,也可以是其规则的结果从R变成R’,其中Mi、Mj、R、R’均代表不同的对话上下文类别。例如,VS#Q变异成VS##。组合的方式是将规则集合中不同的规则组合成一新的规则。例如,VS##+##SQ组合成VSSQ。 
规则评估403:是指评估规则的信心度测量I,可依照该规则在现有对话记录中出现的次数或机率来决定。例如,出现次数愈多,评估分数愈高。 
规则筛选404:是根据以下四个步骤来进行规则的筛选,以图6来说明该规则筛选的步骤流程。在步骤601中,保留一预定比例的规则,例如300条规则。每条规则被保留下来的机率和其信心度成正比。在步骤602中,随机或从现有规则中通过规则变异来产生新的规则。在步骤603中,找出等价规则(equivalence rule),并从中删除较一般性的规则。例如,规则VS#:R和规则VS##:R如果评估分数相同,则这两条规则视为等价,删除较一般性的规则(VS##:R)。另一种情况例如,假设发现两个评估分数相同且类似的规则MiMj#M1:Mr,23以及MiMjMmM1:Mr,23,则这两条规则实际上是描述同一种情况。也就是说MiMj#M1:Mr,23当中的“#”,只有可能是Mm。本发明会删除规则MiMj#M1:Mr,23,来提高规则描述的正确率。 
如步骤604所示,若有规则被删除时,则回至步骤602,否则结束该规则筛选。 
经过逐代的演化调适而训练出规则组后,其规则的评估分数会愈来愈高,而整个规则组所描述的规则,即愈能代表不同对话之间对话上下文类别的关系。因此,可用来计算出目前所辨识的对话中出现各式对话上下文类别的机率。该信息可以重新对N-最佳可能者清单进行评分,以提高辨识结果的信心度。 
有了训练出的规则组后,在步骤302中,本发明还包括下列步骤来进行重新评估,并测量目前对话回合中各种对话上下文类别的可能性的机率。参考图7,首先,如步骤701所示,将前n次的对话记录套用在该规则组中的逐条规则。也就是说,在该规则组中的每一条规则中,找出其前n次对话回合的上下文类别(也即M1M2M3...Mn)符合前n次对话记录的规则。 
然后,如步骤702所示,在所有符合的规则中,根据这些规则的当次对话回合的上下文类别(也就是R)来进行分类,并计算出每一种对话上下文类 别的信心分数。该信心分数的计算为,结果是该类别并且符合前n次对话记录的所有规则的信心分数总和。根据每种对话类别的信心分数,就可看出这种对话类别的机率。信心分数愈高,其机率就愈高。 
将该信心分数信息输入自动语音辨识***中,即可用来降低语音辨识的错误率。其方法有二:第一种方式是将信心分数信息提供给自动语音辨识***,让其利用更多的信息,来产生更精确的N-最佳可能者清单。第二种方式是作自动语音辨识的后处理,通过信心分数信息或机率较高的规则来调整自动语音辨识***原本的N-最佳可能者清单的分数,由此提高辨识的准确率。 
在步骤303中,自动语音辨识***输出的辨识结果回馈至对话记录,可再通过酬赏/惩罚元件237动态调整规则组内的规则。 
以对话记录内的一段对话为范例,以及对话上下文类别型态定义如图5,以下说明本发明的实际操作流程。不失一般性,该范例中,本发明的规则表示是以前4次对话回合的上下文类别来作说明,换句话说,每一规则表示为M1M2M3M4:R,I。 
图8是上述该段对话及其对应的对话上下文类别型态的一个示意图,其中U代表使用者,S代表一语音辨识***。 
接收图8的对话记录后,图9A至图9D说明以大量平行的演化式计算方法来产生规则组。图9A是通过随机方式产生的规则集合的一个范例。图9B至图9D分别是经过100代、200代与10000代的演化调适后,训练出的规则组,其中均只列出其规则组300条规则中的前30条规则。 
然后,则将前面多个对话回合的状态的对话历史记录套用在图9D中的规则组的逐条规则,并分析目前对话中目前对话回合中每一种对话上下文类别的信心分数与机率,结果如图10所示。 
不失一般性,第39个对话回合的状态的对话历史记录如下所示: 
使用者:″What did you do yesterday morning?″ 
***:″what did nothing yesterday morning″ 
根据上述的第39个回合的对话历史记录,可看出***的回答有问题。 
通过规则触发器205,将上述的前4次对话回合的状态的对话历史记录套用规则组中的逐条规则,并找出规则的前4次对话回合的上下文类别,即M1M2M3M4。在该范例,找出规则组中某一符合规则的M1M2M3M4为XXXQ。 然后,根据该上下文类别XXXQ的当次对话回合的上下文类别(也就是R)来进行分类,并计算出目前对话回合中每一种对话上下文类别的分数或机率。 
在该范例中,以图5中定义出的9种对话上下文类别型态分别计算其机率。如图10所示,上下文类别“Q”的机率为0.32、上下文类别“Y”的机率为0.12、上下文类别“N”的机率为0.03、上下文类别“y”的机率为0.21、上下文类别“n”的机率为0.04、上下文类别“S”的机率为0.89、上下文类别“V”的机率为0.31、上下文类别“C”的机率为0.25、上下文类别“X”的机率为0。 
由于上下文类别“S”的机率最高,因此,这条XXXQ:S规则出现的机率最高,换句话说,***回答的句型应为直述句。 
最后,该规则XXXQ:S可与自动语音辨识***原本的最佳可能者清单进行权重加总,从最佳可能者清单中找最符合的句型回答,例如:“I did nothingyesterday morning.”,由此提高最佳可能者清单的分数评估的可靠度。当然该规则XXXQ:S也可以在自动语音辨识***内作后处理,也即直接调整最佳可能者清单的分数,来提高辨识率。 
本发明调适过的规则组与自动语音辨识***原本的最佳可能者清单的分数再进行权重加总,即考虑到对话回合间上下文类别的关系,如此可增加最佳可能者清单分数评估的可靠度。 
以上所述,仅为发明的优选实施例,应当不能以此限定本发明实施的范围。即但凡根据本发明权利要求所作的均等变化与修饰,均应仍属于本发明专利涵盖的范围内。 

Claims (17)

1.一种通过对话回合间上下文关系来减少辨识错误的装置,该装置包含:
一规则储存单元,备有一规则组,该规则组由一条或多条规则组成,并以对话回合为单位来表示每一条所述规则所描述的信息,该规则组的每一条所述规则所描述的信息包括一序列的前面多个对话回合的上下文类别、当次对话回合的上下文类别、以及该条规则相对应的信心度测量;
一演化式规则产生模块,与该规则储存单元相互连接,并从一对话记录中进行演化调适,以训练出该规则组;以及
一规则触发器,与该规则储存单元连接,并根据该训练出的规则组和先前一个或多个对话回合的对话历史记录,从该训练出的规则组中选出至少一条规则及其相对应的信心度测量,供一自动语音辨识***对其语音辨识重新评估。
2.如权利要求1所述的通过对话回合间上下文关系来减少辨识错误的装置,其中,该重新评估后的结果回馈至该对话记录中,该装置还通过一酬赏/惩罚元件来调整该规则组。
3.如权利要求1所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该规则组的每一条所述规则的表示中至少包括该对话回合之间的上下文关系。
4.如权利要求1所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该规则组的每一条所述规则所描述的信息中具有一种或多种不同的对话上下文类别。
5.如权利要求1所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该条规则相对应的信心度测量为该条规则的信心分数。
6.如权利要求4所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该规则组的每一条所述规则所描述的信息中还享有一种万用类别的表示方式,该万用类别代表所述一种或多种不同的上下文类别中的任何一种上下文类别。
7.如权利要求1所述的通过对话回合间上下文关系来减少辨识错误的装置,其中该演化式规则产生模块包括三个操作元,分别为规则变异、规则评估和规则筛选。
8.一种通过对话回合间上下文关系来减少辨识错误的方法,该方法包含下列步骤:
通过一大量平行的演化式计算方法分析对话历史记录,以训练出一规则组,该规则组由一条或多条规则组成,并以对话回合为单位来表示每一条该规则所描述的信息,该规则组描述一个或多个对话回合之间的上下文关系,该规则组的每一条所述规则所描述的信息包括一序列的前面多个对话回合的上下文类别、当次对话回合的上下文类别、以及该条规则相对应的信心度测量;
根据该规则组和一自动语音辨识***原本产生的辨识结果进行重新评估,并测量该重新评估的语音辨识的信心度;以及
对于每一成功的对话回合,动态调适该规则组。
9.如权利要求8所述的通过对话回合间上下文关系来减少辨识错误的方法,其中所述训练出该规则组的步骤还包括:
随机产生一随机规则集合;以及
将该随机规则集合通过一演化式计算的三个操作元,包括规则变异、规则评估和规则筛选,经过逐代的演化调适而训练出该规则组。
10.如权利要求8所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该规则组通过下列步骤来描述一个或多个对话回合之间的上下文关系:
将所述一个或多个对话回合的对话内容当中的属性定义成一种或多种对话上下文类别;以及
每一所述规则以符号M1M2M3...Mn:R,I来表示,其中M1M2M3...Mn代表前n个对话回合的上下文类别,R代表当次对话回合的上下文类别,I代表该条规则相对应的信心度测量。
11.如权利要求9所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该规则变异是指每一所述规则会有一机率,通过变异、或组合中的一种方式而成为另一新的规则。
12.如权利要求9所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该规则评估是指评估每一所述规则的信心度。
13.如权利要求9所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该规则筛选包括下列步骤:
保留一预定比例的规则;
随机或从现有规则中通过规则变异来产生新的规则;
找出等价规则,并从中删除较一般性的规则;以及
如果有规则被删除时,则返回至所述产生新规则的步骤。
14.如权利要求8所述的通过对话回合间上下文关系来减少辨识错误的方法,其中所述进行重新评估,并测量该重新评估的语音辨识的信心度的步骤还包括下列步骤:
将前面多次的对话记录套用在该规则组中的每一条规则,以找出前面多次对话回合的上下文类别符合所述前面多次对话记录的规则;以及
在所有所述符合的规则中,根据所有所述符合的规则的当次对话回合的上下文类别来进行分类,并计算出每一种对话上下文类别的信心分数信息。
15.如权利要求14所述的通过对话回合间上下文关系来减少辨识错误的方法,其中在计算出该信心分数信息后,所述进行重新评估并测量该重新评估的语音辨识的信心度的步骤还包括:将该信心分数信息提供给该自动语音辨识***。
16.如权利要求15所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该信心分数信息使该自动语音辨识***有更多的信息,以产生一精确的最佳可能者清单。
17.如权利要求15所述的通过对话回合间上下文关系来减少辨识错误的方法,其中该信心分数信息是提供给该自动语音辨识***作为后处理,通过该信心分数信息来调整该自动语音辨识***原本的最佳可能者清单的分数。
CN2007100870226A 2007-03-14 2007-03-14 通过对话回合间上下文关系来减少辨识错误的装置与方法 Active CN101266793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100870226A CN101266793B (zh) 2007-03-14 2007-03-14 通过对话回合间上下文关系来减少辨识错误的装置与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100870226A CN101266793B (zh) 2007-03-14 2007-03-14 通过对话回合间上下文关系来减少辨识错误的装置与方法

Publications (2)

Publication Number Publication Date
CN101266793A CN101266793A (zh) 2008-09-17
CN101266793B true CN101266793B (zh) 2011-02-02

Family

ID=39989145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100870226A Active CN101266793B (zh) 2007-03-14 2007-03-14 通过对话回合间上下文关系来减少辨识错误的装置与方法

Country Status (1)

Country Link
CN (1) CN101266793B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112014005354T5 (de) * 2013-11-25 2016-08-04 Mitsubishi Electric Corporation Dialog-management-system und dialog-management-verfahren
CN104679826B (zh) * 2015-01-09 2019-04-30 北京京东尚科信息技术有限公司 基于分类模型的上下文识别的方法和***
US10049666B2 (en) 2016-01-06 2018-08-14 Google Llc Voice recognition system
CN108182942B (zh) * 2017-12-28 2021-11-26 瑞芯微电子股份有限公司 一种支持不同虚拟角色交互的方法和装置
CN111048074A (zh) * 2019-12-25 2020-04-21 出门问问信息科技有限公司 一种用于辅助语音识别的上下文信息生成方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1637740A (zh) * 2003-11-20 2005-07-13 阿鲁策株式会社 对话控制设备和对话控制方法
CN1842788A (zh) * 2004-10-08 2006-10-04 松下电器产业株式会社 对话支援装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1637740A (zh) * 2003-11-20 2005-07-13 阿鲁策株式会社 对话控制设备和对话控制方法
CN1842788A (zh) * 2004-10-08 2006-10-04 松下电器产业株式会社 对话支援装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP特开2003-223185A 2003.08.08
Rebecca Jonson.DIALOGUE CONTEXT-BASED RE-RANKING OF ASR HYPOTHESES.《Spoken Language Technology Workshop,2006.IEEE》.2006,174-177. *
RebeccaJonson.DIALOGUECONTEXT-BASEDRE-RANKINGOFASRHYPOTHESES.《SpokenLanguageTechnologyWorkshop 2006.IEEE》.2006

Also Published As

Publication number Publication date
CN101266793A (zh) 2008-09-17

Similar Documents

Publication Publication Date Title
US7890329B2 (en) Apparatus and method to reduce recognition errors through context relations among dialogue turns
CN110032623B (zh) 用户问句与知识点标题的匹配方法和装置
CA2508946C (en) Method and apparatus for natural language call routing using confidence scores
EP0708960B1 (en) Topic discriminator
EP0960417B1 (en) Method of determining model-specific factors for pattern recognition, in particular for speech patterns
CN110517693B (zh) 语音识别方法、装置、电子设备和计算机可读存储介质
CN1211779C (zh) 语音识别***中确定非目标语言的方法和装置
CN101266793B (zh) 通过对话回合间上下文关系来减少辨识错误的装置与方法
AU2008303513A1 (en) Method and system for identifying information related to a good
CN109544104A (zh) 一种招聘数据处理方法及装置
CN101452701A (zh) 基于反模型的置信度估计方法及装置
CN113836269B (zh) 一种基于问答式***的篇章级核心事件抽取方法
JP3496706B2 (ja) 音声認識方法及びそのプログラム記録媒体
CN1213398C (zh) 使用行为模型来进行无干扰的说话者验证的方法和***
CN111680476B (zh) 一种用于智能生成类文本的业务热词识别转换的方法
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题***
CN112133291B (zh) 一种语种识别模型训练、语种识别的方法和相关装置
KR20230116143A (ko) 상담 유형 분류 시스템
Gleason et al. Composite background models and score standardization for language identification systems
CN107283438A (zh) 一种服务机器人交互决策方法和装置
CN117831573B (zh) 基于多模态的语言障碍人群言语录音分析方法及***
Craven et al. A hybrid neural network/rule-based technique for on-line gesture and hand-written character recognition
CN117744661B (zh) 基于提示词工程的文本生成模型训练方法和文本生成方法
CN113255361B (zh) 语音内容的自动检测方法、装置、设备以及存储介质
McDermott et al. Prototype-based MCE/GPD training for word spotting and connected word recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant