CN1326074C

CN1326074C - 数据库资料登记项的测定方法

Info

Publication number: CN1326074C
Application number: CNB021231192A
Authority: CN
Inventors: S·克拉斯; H·霍达姆
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Huawei Technologies Co Ltd
Priority date: 2001-04-20
Filing date: 2002-04-17
Publication date: 2007-07-11
Anticipated expiration: 2022-04-17
Also published as: EP1251491A2; US7496508B2; JP4741777B2; JP2003029784A; US20020169751A1; EP1251491A3; CN1384453A; DE50205081D1; ATE311649T1; EP1251491B1; DE10119677A1

Abstract

本发明涉及一种依靠自动对话***对数据库资料登记项的测定方法，自动对话***有以下操作步骤：1.1语音输入的临时存储，1.2依靠自动语音识别设备的语音输入的处理和使用第一个词典的语音识别结果的产生，第一个词典有词典词汇项的第一个集合，集合中每个词典词汇项包含至少一个声音参考，1.3搜索符合语音识别结果的数据库资料登记项，1.4若在步骤1.3中未发现对应的数据库资料登记项，则—对第一个词典进行适应调整，使得第一个词典有第二个词汇项集合，第二个集合中至少有一个词汇项与第一个集合中的不同。—使用临时存储的语音输入和适应调整过第一个词典，重复步骤1.2和1.3的操作。

Description

数据库资料登记项的测定方法

技术领域

本发明涉及一种使用自动对话***对数据库资料登记项进行测定的方法。

背景技术

为保证对话***的自动运行，通常使用一个基于隐藏马尔可夫模式工作的自动语音识别设备来访问一个有很多词汇项(语言识别设备的词汇)的词典。词汇项包含用于语音识别设备的声音参考，这个声音参考对比语音识别过程中的语音输入。例如声音参考描述音位序列。例如，根据本发明，这种方法可用于“黄页”服务。每一个使用这项服务的用户能够获得所期望了解的部门的信息，像医生、零售商或其它的公司，还有像警察局、游泳馆、学校等公共设施的信息。这种通过电话的，也就是采用专业电话信息的形式的部门信息***，为人们熟知。另外，已经有应用于例如Internet或Intranet这样的数据网络中的信息***。此类信息***使用的终端，可以是一部电话、一部手机、一台电脑或一台具有电话功能的管理器，若信息***应用于纯数据网络中，终端可以是计算机、管理器或拥有网络访问设备的手机，像WAP手机。搜索参数有不同的搜索标准，例如，部门、专业领域或地理位置，或关联搜索信息，像“医生”、“同种疗法”、“慕尼黑”。例如，用户数据可能是电话号码、地址或其他信息，使用户能够联系到信息***的数据库资料中的信息提供方。在已知***中，词典用于语音输入的特定种类，如部门的输入，而为了限制计算开销，语音识别***上的词典是简洁的。这就会有问题出现：数据库搜索并执行相关的语音识别结果，却并不能找到可输出给用户的关联的数据库资料登记项。

发明内容

本发明基于用最小的附加计算开销解决现有问题，保证使用户受到的影响最小。

此目的可由上文提及的方法来实现，上文提及的方法有以下特性：

1.1语音输入的临时存储，

1.2依靠自动语音识别***的语音输入的处理和使用第一个词典的语音识别结果的产生，第一个词典有词典词汇项的第一个集合，集合中每个词典词汇项包含至少一个声音参考，

1.3搜索符合语音识别结果的数据库资料登记项，

1.4若在步骤13中未发现对应的数据库资料登记项，则

-对第一个词典进行适应调整，使得第一个词典有第二个词汇项集合，第二个集合中至少有一个词汇项与第一个词汇项集合中的不同。

-使用临时存储的语音输入和适应调整过第一个词典，重复步骤1.2和1 .3的操作。

即使第一次搜索数据库没有成功，用户并不需要重复进行语音输入。用适应调整后的词典，对临时存储的语音输入进行第二次语音识别操作。词典被动态地适应调整。选择同典适应调整的策略，保证用最小的词典实现与语音识别结果关联的数据库资料登记项的最大成功。尤其使用一个总汇词典，用其中的词汇项来调整第一个词典(权利要求2)。

权利要求3保证当语音输入质量很差或如果没有匹配的数据项时，本发明的方法将根据预设标准被中断。

权利要求4和5描述这样的实施例，这些实施例中的用于语音识别的第一个词典的词汇项与一类数据库资料登记项相关。权利要求4描述的词典的适应调整，在这类数据库资料登记项(如一个部门)的限制范围内，不是增加新的词汇项，就是改变词汇项。权利要求4公开了一个用于适应调整第一个词典的实施例变量，在这个实施例中，词汇项适用于除此种类别之外的其它类别。如果第一个词典在调整前包含属于一个特定的数据库资料登记项类别的词汇项，则在调整后，第一个词典至少包含一个属于相关类别的词汇项(也就是相关的部门)。

如权利要求6所述的实施例变量中，对于找不到数据库资料登记项对应语音输入的情况，进行词典的适应调整，这不仅是单个语音识别结果的替换，而且当词典被调整时，也要考虑替换的语音识别。这提高了这种可能性：随着又一次新的语音识别操作，现在数据库资料登记项能够与临时储存的语音输入匹配。

本发明的方法特别用于测定黄页数据集(权利要求7)中的数据项，在黄页数据集中，通过电话接口(权利要求8)实现对对话***的访问。

本发明也涉及到用于实现本发明的方法的自动对话***。

附图说明

本发明的实施例通过使用图表的形式来加以详细说明：

图1是对话***的电路结构图，

图2是用来解释本发明方法的流程图。

具体实施方式

图1是一个对话***1，它有一个接口2，接口2在此处是一个电话接口。对话***1通过接口2连接到经由个人支路交换的电话网上。存储器3的作用是将已接收的语音输入作为声音文件临时保存在其中。自动语音识别设备4对存储器3中的语音输入进行自动识别。语音识别设备4包括一个语音识别模块5和一个词典6，词典6的词汇项组成可供语音识别设备4使用的词汇。每一条词汇项至少包含一个描述一个单词和词组的声音参考。每一声音参考对应隐藏马尔可夫模式(HMM)的至少一个状态。这里的语音识别模块5包括了语音识别设备4中除去词典6的所有功能。例如，使用菲利普公司的“语音珍珠”***来实现语音识别设备4。

本发明的对话***1中，语音识别设备4所用的词典6是动态自适应的。在本例中，词典6的词汇项构成了总汇词典7的一个子集。总汇词典7是词典6的词汇项的储备。中心对话控制和管理单元8用来控制用户的会话和词典6的适应调整。单元8与数据库9相连，它使用有特定应用数据的数据库9，控制语音输出单元10，语音输出单元10产生语音输出并通过接口2输出给用户。

存储在数据库9中的特定应用数据用来定义对话结构，对话结构可根据应用而预先设定。例如，用户首先用问候和请求等话语激活特别的语音输入部件。用户随后的语音输入通过接口2被接收，并被临时存储在存储器3中。临时存储的语音输入3被自动语音识别设备4转换为语音识别结果，供单元8使用，然后作为该语音识别结果的功能，或是根据存储在数据库9中的数据以预先制定的方式继续用户的对话，或是结束对话。

图2是本发明的详细实施例的流程图。此处用能为用户提供分类信息的黄页数据集的例子，对本发明进行讲解。分类信息存储在数据库9中，它包括公司的多种信息：地理位置、街区信息、街道名称、电话号码和邮政编码。用户拨通电话，进入对话***1，***1对用户说一句欢迎使用的话，并要求用户说出城市名称。在步骤20，当查明输入的城市名称正确后，在步骤21，***要求用户输入街区名称。在步骤22，当用户说出街区名称后，在步骤23，将这个语音输入作为声音文件临时保存在存储器3中。在步骤24，使用语音识别设备4对临时存储的语音输入进行语音识别。这里要用到词典LEX(1)，它描述了有限的街区名称，在步骤24语音识别设备只能使用有限的词汇。随着步骤24中语音识别结果的产生，在接下来的步骤25中，用对话控制和管理单元8对数据库9中的数据进行搜索，以期发现存在数据库9中用于识别的街区名称和域市的公司名称。在步骤26中，如果发现至少有一个数据项属于识别的部门名称，则或是在步骤35，通过语音输出部件输出对应的公司名称和其它相关信息；或是继续与用户对话向用户询问更详细的信息(用户可输入邮政编码或街道名称)。但是，如果在步骤26中，发现数据库9中没有数据项符合已识别的城市和街区名称，则在步骤27中将参数n置为n＝1(参数n表示前一次语音识别过程用到的词典6的版本号)。在步骤28中，词典6被适应调整，词典版本号加1，由LEX(n)变为LEX(n+1)，LEX(n+1)中至少有一条词汇项与LEX(n)不同。与词典版本LEX(n+1)比较，词典版本ELX(n)包含有限的描述街区名称的词汇项，随着n的增加，原先很少尝试的街区名也被考虑。储存在数据库9中的分配表决定词典的扩充。

如果总汇词典7的词汇项被按类别划分，则词典可能在一类词汇项之内进行适应调整，或在几类之中进行适应调整。举例说明，某个城市的一些街区名称构成了词典的一类词汇项。如果这座城市的其它街区的名称发生了改变或新增了一些街区，考虑到词典6的构成，则对词典在此种类别之内进行适应调整。而如果考虑被识别城市周围的其它城市的街区名称变化，则对词典在几类词汇项之中进行适应调整。在这种情况下，储存在数据库9中的分配表定义了很多指派。大体上，由相应的应用和对词典适应调整的要求而产生的词汇项类别可能有很多，为了这种目的对其进行最优化。

在步骤28中，词典的适应调整完成后，在步骤29a中使用一种语音识别方法，此处要用到改变后的词典LEX(n+1)。随着语音识别结果的确定，表示一个已知的街区，并且城市已知，对话控制和管理单元8在数据库9中执行进一步的数据库搜索。在步骤31中，如果数据搜索找到了已识别城市的数据项(街区名称)，则转到执行步骤36，使用同步骤35的方法输出数据。

在步骤31中，如果还未发现能够指定的数据库资料登记项，则在步骤32中，对参数n进行+1操作。步骤33检测是否达到了中断标准。在此种情况下，中断标准用一个预设的数值N表示。数值N表示词典能适应调整的次数。如果在步骤33中，不满足中断标准(n＜＝N)，***返回到步骤28。如果在步骤33中，满足中断标准，也就是n＞N，则中断对话***1进行的用户输入处理程序。在这种情况下，对话***1与用户之间的对话被中断，转到执行步骤34，将用户接到电话接线员，使用户通过这样的方式来获希望的数据。在本发明的实施例中，语音识别设备1不仅提供单独的语音识别结果，而且提供一个最佳识别结果的N值，N＞＝1。在这种情况下，词典6的适应调整依赖于语音识别设备4提供的一个或多个识别结果。因此语音识别设备6能输出识别结果，例如，在输入街区名称后，产生两个语音识别结果，两个相似发音的街区名根据它们的可靠性排序。如果在存储在数据库9里的分配列表中，为不同的语音识别结果所确定的两个街区名称，提供词典6的适应调整的不同指派，则两项都需要考虑增加到词典6的适应调整中。

Claims

1、一种依靠自动对话***(1)对数据库(9)资料登记项的测定方法，自动对话***(1)有以下操作步骤：

1.1语音输入的临时存储，

1.2依靠自动语音识别设备(4)的语音输入的处理和使用第一个词典(6)的语音识别结果的产生，第一个词典有词典词汇项的第一个集合，其中的词典词汇项包含至少一个声音参考，

1.3搜索符合语音识别结果的数据库资料登记项，

1.4在步骤1.3中未发现匹配的数据项的情况：

-对第一个词典(6)进行适应调整，使第一个词典(6)的版本号n加1，使得第一个词典(6)有第二个词汇项集合，第二个词汇项集合中至少有一个词汇项与第一个词汇项集合中的不同，

-使用临时存储的语音输入和适应调整过的第一个词典(6)，重复步骤1.2和1.3的操作，

-语音识别设备提供的语音识别结果包含一个最佳识别结果数值N其中N＞＝1，词典根据至少一个识别结果进行适应调整，

-如果n＞N，则中断自动对话，转向人工服务。

2、如权利要求1所述的方法，其特征在于，所用的词汇项皆来自第二个词典(7)，第二个词典(7)是一个总汇词典。

3、如权利要求1的方法，其特征在于，词典词汇项的类别与数据库资料登记项的类别相对应，它至少指定一类词汇项，第一个词典在适应调整前的这类词汇项至少包括一个子集，而第一个词典在适应调整后的第二类词汇项至少也包含一个子集。

4、如权利要求1的方法，其特征在于，数据库资料登记项是黄页数据集的一部分。

5、如权利要求1的方法，其特征在于，对话***有一个电话接口(2)，由电话接口(2)进行语音输入和输出的传送。