CN1278944A

CN1278944A - 语音基准登记方法

Info

Publication number: CN1278944A
Application number: CN98810981A
Authority: CN
Inventors: 小R·W·博斯梅尔
Original assignee: Ameritech Corp
Current assignee: AT&T Teleholdings Inc
Priority date: 1997-09-09
Filing date: 1998-08-17
Publication date: 2001-01-03
Also published as: DE69822179D1; US6249760B1; EP1019904A4; AU9106898A; DE69822179T2; US7319956B2; ATE261173T1; US20080015858A1; WO1999013456A1; US6012027A; US20050036589A1; CA2303362A1; EP1019904B1; EP1019904A1; CA2303362C

Abstract

一种语音基准登记方法,它包含下述步骤:(a)请一用户说出一单词;(b)检测一第一发音(354);(c)请用户说出该单词;(d)检测第二个发音(358);(e)确定第一个发音和第二个发音之间的第一个相似性(362);(f)当第一个相似性小于一预定的相似性时,请用户说出该单词;(g)检测第三个发音(366);(h)确定第一个发音和第三个发音之间的第二个相似性(370);以及(i)当第二个相似性大于或等于预定的相似性时,产生一基准(364)。

Description

语音基准登记方法

本发明是申请日为1997年5月27日、标题为“访问拨号服务的方法(Methodof Accessing a Dial—up Service)”并且己申请转让给本申请的受让人的专利申请08／863，462的续展申请。

发明领域

本发明涉及语音识别***领域，尤其涉及语音基准登记方法。

发明背景

语音识别和说话人验证通常采用一种登记过程，以获得基准语音方式(pattern)，供以后使用。采用登记过程的语音识别***通常是依赖于说话人的***。本文中，采用登记过程的语音识别***和说话人验证***称为语音基准***。语音基准***的性能受登记过程中得到的基准模式质量的限制。现有技术的登记过程请求用户说出被登记的词语，并使用析取的特征作为该词语的基准模式。这些***受登记过程中使用者说出词语时所不希望的背景噪声的困扰。该不希望的背景噪声随后又混入该基准模式。因为并不是每次用户发音时都会出现所不希望的背景噪声的，所以就降低了语音基准***使基准模式与以后的发音相匹配的能力。

所以，需要有一个语音基准***的登记过程，它不会使不希望的背景噪声混入基准模式中。

发明概述

克服这样和那样的问题的语音基准登记方法包含下述步骤：(a)请使用者说出一个单词；(b)检测第一个发音；(c)请使用者说出这个单词；(d)检测第二个发音；(e)确定第一个发音与第二个发音之间的第一个相似形；(f)当第一个相似形小于一预定的相似形时，请使用者说出这个单词；(g)检测第三个发音；(h)确定第一个发音与第三个发音之间的第二个相似形；以及(i)当第二个相似形大于或等于预定的相似形时，产生一个基准。

附图简述

图1是说话人验证***实施例的方框图；

图2是用来形成说话人验证判断的步骤实施例的流程图；

图3是用来形成说话人验证判断的码本(code book)的步骤的实施例流程图；

图4是用来形成说话人验证判断的步骤的实施例的流程图；

图5是采用说话人验证方法的拨号服务的示意图；

图6是拨号服务中使用的步骤的实施例流程图；

图7是拨号服务中使用的步骤的实施例的流程图；

图8是在智能网电话***中采用按照本发明的语音基准登记方法的语音基准***方框图；

图9a和b是语音基准登记方法中使用的步骤的实施例的流程图；

图10是说话持续时间检验的步骤的实施例流程图；

图11是信噪比检验中使用的步骤的实施例流程图；

图12是说话对应时间的幅度图；

图13是对某一说话的语音帧个数对应时间的图；

图14是某一说话的幅度直方图；以及

图15是自动增益控制电路的方框图。

附图的详细描述

本文中描述的语音基准登记方法可以用作说话人验证方法和语音确认方法。首先描述可以与语音登记方法一起使用的说话人验证方法中的几个改进。然后描述采用登记方法的优点的拨号服务。随后详细描述语音登记方法。

图1是说话人验证***的实施例方框图。重要的是要注意，说话人验证***可以在物理上用几种方式来实施。例如，该***可以是以与话筒相连的通用计算机中的软件来实施；或者，本***也可以以与存储器和话筒相连的通用微处理器中的固件(firmware)来实现；或者，本***也可以用受合适的软件控制的数字信号处理器(DSP)、控制器、存储器和话筒来实现。注意，因为该过程可以用计算机中的软件来执行，因此含有计算机可读指令的可读存储介质可以被用来实施说话人验证方法。对本领域中的普通技术人员来说很明显的是，可以有各种各样的***结构，而特定的***结构的选择取决于特定的应用。

话筒12接收输入话音，并将声波转换成电信号。特征析取器14分析该电信号，并析取语音的重要特征。例如，特征析取器首先将电信号数字化。随后执行数字化信号的倒频谱，以确定倒频谱系数。在另一只实施例中，采用线性预测分析(linear predictive analysis)来找到线性预测编码(LPC)系数。也可以采用其他的特征获取技术。

开关16附装在特征析取器4上。该开关16代表训练阶段与验证阶段使用了不同的路径。在训练阶段中，由码本发生器18来分析倒频谱系数。码本发生器18的输出被存储到码本20内。在一种实施例中，码本发生器18比较来自同一说话人的相同的发声取样，以形成这个人发声的一般化的表述。该通用的表述是码本中的训练发声。训练发声代表说出如数字“一”的使用者的一般化倒频谱系数。训练发声可以是语音、音素或如“二十一”或其他语言片段的一部分。除了记录的使用者取样以外，发声还从一组非使用者取得。这些说话用来形成代表具有多个假冒基准的假冒码的混合。

在一种实施例中，码本发生器18将说话人(使用者和非使用者)分成男性组和女性组。男性登记的基准(男性组)被集中起来，以确定男性变差矢量。女性登记的基准(女性组)被集中起来，以确定女性变差矢量。这些性别变差矢量将用在计算验证阶段中加权的Euclidean距离(接近程度的度量)。

在验证阶段，开关16将特征析取器14与比较器22相连。比较器22进行说话人的试验说话码本中存储的登记基准之间以及试验说话与假冒基准分布之间的接近程度的数学分析。在一种实施例中，将一次试验说话如说出的“一”与该说话人的“一”登记基准以及“一”的假基准分布比较。比较器22决定“一”的登记基准、“一”的试验发音和“一”的假冒基准分布之间的接近程度的度量。当试验发音比假冒基准分布更接近登记的基准时，该说话人被验证为是真实的说话人。否则，该说话人被判断为是假冒者。在一种实施例中，接近程度的度量是修改的加权Euclidean距离。一种实施例中的修改包含采用通用的变差矢量，而不是每一登记的使用者的一个个变差矢量。在一种实施例中，男性变差矢量用于男性说话者，而女性变差矢量用于女性说话人。

判断加权和组合***24采用接近程度的度量来判断试验发音是否更接近于登记的基准或假冒基准分布。当试验发音比假冒基准分布更接近于登记的基准时，则作出验证的判断。当试验发音不是比假冒基准分布更接近于登记的基准时，则作出未被验证的判断。这是初步判断。通常，要求说话人说出几个发音(如“一”、“三”、“五”、“二十一”)。对这些试验发音中的每一发音作出判断。对多个判断中的每一个加权，并组合起来，形成验证判断。

对判断加权是因为并不是所有的发音都具有相同的可靠性的。例如，“一”可以比“八”具有多得多的可靠判断。结果，根据基本(underlying)的发音，通过首先对判断加权，可以形成更精确的验证判断。可以采用两种加权方法。一种加权方法采用历史方法。将取样的发音与登记的基准比较，以确定虚警的几率P_FA(说话者不是假冒者，但判断是假冒的)和丢失的几率P_M(说话者是假冒的，但判断不是假冒的)。P_FA和P_M是误差的几率。这些误差的几率用来对每一判断加权。在一种实施例中，加权系数(权重)是由下面的等式描述的：

a_{i} = \log \frac{1 - P_{Mi}}{P_{FAi}}

判断是被验证(真实的说话者)

a_{i} = \log \frac{P_{Mi}}{1 - P_{FAi}}

判断是未被验证(假冒者)

当经加权的判断之和大于零时，则验证判断是真实的说话者。否则，验证判断是假冒者。

对判断加权的其他方法是基于判断质量的直接评估的。在一种实施例中，这是采用x²检测器的。随后，对这些判断根据x²检测器决定的置信度进行加权。在另一种实施例中，采用大的样本近似。所以，如果试验统计量是t，找到b，使得c²(b)=t。如果它超过c²分布的1—a分位数，则判断是假冒者。

一种加权方案如下：

1．5，如果b＞cx_接受

1．0，如果1—a≤b≤c_接受

—1．0，如果c_拒绝≤b≤1—a

—1．25，如果b＜c_拒绝

当加权的判断之和大于零时，验证判断是真实的说话者。当经加权的判断之和小于或等于零时，判断是一冒者。

在另一种实施例中，特征析取器14将语音信号分成说话发出的声音和非说话发出的声音。说话发出的声音通常包括元音，而大多数其他的声音是非说话声音。非说话声音在训练阶段和验证阶段中计算倒频谱系数之前被除去。

这些采用取决于性别倒频谱并仅采用说话声音对判断加权的技术可以被组合起来，或分开应用于说话者验证***中。

图2是用来形成说话者验证判断的步骤的实施例的流程图。该过程在步骤40处通过在步骤42处产生一码本开始。该码本有多个用于多个说话者(登记的使用者，多人)中的每一个的登记基准和多个假冒基准。一种实施例中的登记基准是用于发出特定声音(如“一”)的特定使用者的倒频谱系数。登记的基准是由发声的使用者产生的。确定每一发音的倒频谱系数，形成登记的基准。在一种实施例中，请说话者重复该发音，并存储两个发音的通用化了的发音，作为登记的基准。在另一个实施例中，两次发音都被存储起来作为登记的基准。

在一种实施例中，男性说话者的数据库用来确定男性变差矢量，而女性说话者的数据库用来确定女性的变差矢量。在另一种实施例中，男性和女性说话者的数据量用来形成一男性假冒者码本和女性假冒者码本。特定性别的变差矢量被存储在码本中。在步骤44处，接收来自说话者的多个测试发音(输入的发音集)。在一种实施例中，计算测试发音的倒频谱系数。在步骤46处，将多个测试发音中的每一个发音与该说话者的多个登记的基准比较。根据比较，形成多个判断，多个登记的基准中的每一个有一个判断。在一种实施例中，该比较是有测试发音和登记基准之间以及测试发音和假冒基准分布之间的Euclidean加权距离决定的。在另一个实施例中，如果说话者是男性，则用男性变差矢量计算Euclidean加权距离，而如果说话者是女性，则用女性变差矢量计算Euclidean加权距离。在步骤48处加权多个判断中的每一个，形成多个加权的判断。加权可以是根据发音的历史误差率进行的，也可以是根据发音电平置信度级别(置信度度量)进行的。在步骤50处，将多个加权的判断组合起来。在一种实施例中，组合的步骤包含将加权的判断相加。随后在步骤52处，根据组合的加权判断进行验证判断，在步骤54处结束该过程。在一种实施例中，如果和大于零，则验证判断是，说话者是真实的说话者，否则，说话者是假冒者。

图3是用来形成说话者验证判断的码本的步骤的实施例流程图。该过程通过在步骤72处接收一输入发音，在步骤70处开始。在一种实施例中，在步骤74处，输入发音随后被分成说话的声音和非说话的声音。随后，在步骤76处，用说话的声音计算倒频谱系数。在步骤78处，这些系数被存储起来，作为说话者的登记基准。该过程随后回到步骤72，用于下一个输入的发音，直到所有的登记基准已经被存储到了码本中为止。

图4是用来形成说话者验证的步骤实施例的流程图。该过程通过在步骤102处接收输入发音而在步骤100处开始。接着，在步骤104处判断说话者是男性还是女性。在说话者验证应用中，说话者表明他是特定的某个人。如果说话者表明的特定某个人是男性，那么就假定说话者是男性，即使该说话者是女性也是如此。随后，在步骤106处，将输入的发音分成说话发出的声音和非说话发出的声音。在步骤108处，从说话发出的声音中获取一些特征(如倒频谱系数)，形成测试发音。在步骤110处，如果通报的说话者是男性，则用通用的男性变差矢量计算加权的Euclidean距离(WED)。当通报的说话者是女性时，就采用女性的变差矢量。在该说话者的测试发音和登记基准之间和测试发音和男性(或者是女性)假冒基准分布之间计算WED。在步骤112处，根据WED，为每一试验发音形成判断。随后在步骤114处，根据用x²检测器确定的置信度级别(置信度的度量)对这些判断作出加权。在步骤116处，将加权的判断相加。在步骤118处，根据加权判断的和，作出验证判断。

采用上面讨论的说话者验证判断使得说话者验证***得到改进，该***比现有技术更可靠。

采用上述说话者验证方法的拨号服务如图5中所示。图中的拨号服务是以银行服务方式示出的。用户在他们的电话150上拨打一服务号码。随后，公共交换电话网(PSTN)152将用户的电话150与银行156中的拨号服务计算机154相连。拨号服务无需是位于银行内的。下面参照图6中的流程图来说明该服务。通过在步骤172处拨打服务号码(通信服务地址、号码)，该过程在步骤170处开始。随后，计算机154敦促用户(请求方)说出多个数字(访问码、多个号码、访问号)，在步骤174处形成第一个发音(第一数字化发音)。在步骤176处，用独立于说话者的话音识别，确认这些数字。当用户以前曾经使用过该拨号服务时，在步骤178处根据第一个发音，验证该用户。当在步骤178处该用户被确认为是一个真实的用户时，在步骤180处允许访问该拨号服务。当不能验证该用户时，在步骤182处请求用户输入一个个人标识号(PIN)。该PIN可以由用户或者说出PIN，或者在键盘上输入该PIN来输入。在步骤184处，确定该PIN是否是有效的。当PIN是无效的，则用户在步骤186处被拒绝。当该PIN是有效的，则该用户在步骤180处允许访问该服务。采用上述方法，该拨号服务采用说话者验证***作为一种PIN选择，当如果它无法验证该用户则不能对该用户拒绝访问。

图7是拨号访问中使用的步骤的另一个实施例的流程图。该过程通过在步骤202处用户说出一个访问码形成多个发音，在步骤200处开始。在步骤204处，判断是否用户先前已经访问过该服务。当用户先前已经访问过该服务时，在步骤206处，说话者验证***尝试验证该用户(识别)。当说话者验证***能够验证该用户时，在步骤208，允许用户访问该***。当***不能验证用户时，在步骤210处请求一PIN。注意，用户可以口述PIN，也可以在键盘上输入PIN。在步骤212处，判断该PIN是否有效。当PIN是无效的，则在步骤214处拒绝该用户。当该PIN是有效的，则在步骤208处允许该用户的访问。

当用户先前没有在步骤204处访问过该通信服务，则请该用户在步骤216处输入一PIN。在步骤218处，判断该PIN是否有效。当该PIN是无效的时候，在步骤220处拒绝访问该服务。当该PIN是有效的，在步骤222处，请该用户第二次口述访问码，形成第二个发音(多个第二次发音，第二个数字化的发音)。在步骤224处，将第一个发音(步骤202)和第二个发音之间的相似性与一阈值比较。在一个实施例中，用加权的Euclidean距离计算相似性。当相似性小于或等于该阈值时，在用户是男性的时候，请用户再次口述访问码。当用户是女性时，从第二组数字中选择出预定的数字。这使得***能够判断用户是男性还是女性。根据该信息，在说话者验证过程中使用男性变差矢量或女性变差矢量。

图8是智能网电话***302中采用按照本发明的语音基准登记方法的语音基准***300的方框图。语音基准***300可以进行语音识别或说话者验证。语音基准***300是在服务节点或智能***设备(SN／IP)中实现的。当语音基准***300是在服务节点中实现时，它直接与电话中心局—服务交换点(C0／SSP)304—308相连。中心局—服务交换点304—308与多个电话310—320相连。当语音基准***300是在智能***设备中实现时，它与服务控制点(SCP)322相连。该方案中，来自多个调用特定特征如语音识别的电话310—320中的一个的呼叫要求有服务控制点322进行处理。在CO／SSP 304—308处检测要求特定处理的呼叫。这触发了CO／SSP304—308中断呼叫处理，而CO／SSP 304—308向SCP 300发送一个询问，请求识别由用户说出的单词的信息。询问是在7号信号***7(SS7)链路324上进行的，并由信号转发点(STP)326路由选择到合适的SCP 322。SCP 322发送一个智能***设备300的请求，进行语音识别。语音基准***300可以用计算机服务节点来实施，它直接与电话中心局—服务交换点(C0／SSP)304—308相连。中心局—服务交换点304—308与多个电话310—320相连。当语音基准***300是在智能***设备中实现的时候，它与服务控制点(SCP)322相连。该方案中，来自调用—特定性能如语音识别的多个电话310—320中的一个的呼叫要求由服务控制点322进行处理。在C0／SSP 304—308处检测要求特别处理的呼叫。这触发了CO／SSP 304—308中断呼叫处理，而C0／SSP 304—308向SCP 300发送一个询问，请求识别由用户说出的词语的信息。该询问在7号信号***(SS7)链路324上执行，并由信号转发点(STP)326路由选择到合适的SCP 322。SCP 322发送智能***设备300执行语音识别的请求。语音基准***300可以用能够读取和执行计算机可读存储介质328中存储的计算机可读指令的计算机来执行。存储介质328上的指令指令计算机如何执行按照本发明的登记方法。

图9a和b是语音基准登记方法的流程图。该方法可以用于任何语音基准***，包括用于图8中所示的智能电话网的一部分。通过在步骤352处接收来自用户的第一个单词发音，登记过程在步骤350处开始。接着，在步骤354处，从第一个发音中获取多个特征。在一个实施例中，多个特征是发音的倒频谱系数。在步骤356处，接收第二个发音。在一个实施例中，根据用户口述单词的请求，接收第一个发音和第二个发音。接着，在步骤358处，从第二个发音中获取多个特征。注意，这相同的特征是为两个发音而获取的。在步骤360处，决定来自第一个发音的多个特征和来自第二个发音的多个特征之间的第一个相似性。在一个实施例中，该相似性是用隐藏的(hidden)Markov模型Veterbi计分***确定的。随后，在步骤362处，确定第一个相似性是否小于预定的相似性。当第一个相似性不小于预定的相似性时，则在步骤364处形成一基准模式(pattern)(基准发音)。

在一个实施例中，基准模式是来自第一和第二发音的特征的平均值。在另一个实施例中，基准模式由存储来自第一发音和第二发音的特征组成，有一个从二者到词汇单词的指针。

当第一个相似性小于预定的相似性时，接收第三个发音(第三个数字化的发音)，并在步骤366处获取来自第三个发音的多个特征。通常，发音是根据***的请求接收的。在步骤368处，确定来自第一个发音和第三个发音的特征之间的第二个相似性。用同一函数作为第一个相似性计算第二个相似性。接着，在步骤370处，确定第二个相似性是否大于或等于预定的相似性。当第二个相似性大于或等于预定的相似性时，在步骤364处形成一个基准。当第二个相似性不大于或等于预定的相似性时，则在步骤372处，计算来自第二个发音和第三个发音的特征之间的相似性。接着，在步骤374处，判断第三个相似性是否大于或等于预定的相似性。当第三个相似性大于或等于预定的相似性时，在步骤376处形成一个基准。当第三个相似性不大于或等于预定的相似性时，在步骤378处重新开始登记过程。采用该方法，登记过程避免了在基准模式(pattern)中有不希望的噪声或其他的不正常。

在图9a和b所示语音基准登记方法的一种实施例中，对每一个发音进行持续时间的检查。持续时间的检查增加了背景噪声不被认为是发音或发音的一部分的机会。持续时间检查的流程图如图10所示。通过在步骤402处确定发音的持续时间，该过程在步骤400处开始。接着，在步骤404处判断持续时间是否小于一最小持续时间。当持续时间小于该最小持续时间时，在步骤406处就不去管这个发音。在一种实施例中，请用户再次口述该单词，并且重新开始该过程。当持续时间不小于最小持续时间时，则在步骤408处，判断该持续时间是否大于一最大持续时间。当该持续时间大于一最大持续时间时，在步骤406处不去管这个发音。当该持续时间不大于该最大持续时间时，在步骤410处保留该发音用于进一步的处理。

语音基准登记方法的另一个实施例检查信噪比是否适合于每一发音。这减小了噪声被存储为基准模式的可能性。该方法如图11中的流程图所示。通过在步骤422处接收一发音，过程在步骤420处开始。接着，在步骤424处确定信噪比。在步骤426处，判断信噪比是否大于一阈值(预定的信噪比)。当信噪比大于该阈值时，在步骤428处对该发音进行处理。当信噪比不大于该阈值时，在步骤430处请求另一个发音。

图12是发音幅度对应时间的图450，并且示出了如何确定发音的持续时间的一个实施例。语音基准***请求用户口述一个单词，开始该响应时间(发音时间)452。如果没有检测到发音，则响应周期在一超时处(超时周期)454结束。对幅度进行监视，并且当它跨越到一幅度阈值456以上时，就假设开始发音(开始时间)458。当发音的幅度落到该阈值以下时，就将其标记为结束时间460。计算该持续时间，作为结束时间460和开始时间458之差。

在本发明的另一个实施例中，确定响应周期或开始时间与结束时间之间出现的语音帧的个数(计数)。将响应周期分成几个帧，通常为20ms长，并且每一帧的特征或者是一个非话音帧，或者是一个话音帧。图13给出了响应周期中话音帧472的个数估计的图470。当话音帧的个数估计超过一阈值(预定个数的话音帧)时，则判断接收到一有效的发音。当话音帧的个数不超过阈值时，则接收到噪声的可能性较大，而不是有效的发音。

在另一种实施例中，执行发音的幅度直方图。图14是发音的幅度直方图480。幅度直方图480测量来自数字化仪的幅度每一位中取样的个数。当特定的位482没有或只有很少几个取样时，***产生一条数字化仪可能存在问题的告警消息。数字化仪的运行不当会使语音基准***的运行质量下降。

在另一个实施例中，用一自动增益控制电路在从发音获取特征前，用来调节放大器的增益。图15是自动增益控制电路500的方框图。该电路500还包括一些逻辑电路，用以判断是否应当保持该发音用于处理或是否应当请求另一发音。一可调增益放大器502有一个与发音信号线(输入信号)504耦合的输入。放大器502的输出506与信噪比表508相连。信噪比表508的输出510与比较器512耦合。比较器512判断信噪比是否大于一阈值信噪比514。当信噪比小于该阈值时，从比较器512输出一逻辑“1”。比较器512的输出513与或门514以及可调增益放大器502的增加增益输入516耦合。当输出513是逻辑“1”时，放大器516的增益增加一个增量台阶。

放大器502的输出506与引导到特征析取器的信号线518相连。另外，输出506与幅度比较器520相连。比较器520判断输出506是否超过一饱和阈值522。输出524与或门514相连，也与放大器502的下降增益输入526相连。当输出506超过该饱和阈值522时，比较器520输出一个逻辑“1”，使放大器502将其增益减小一个增量。或门514的输出是一个忽略发音信号线528。当或门的输出是逻辑“1”时，该发音被忽略。电路减小了因输入放大器不正确增益而接收发音不良表述的机会。

至此，已经描述了一种显著减小采用不良发音形成基准模式的机会的语音基准登记方法。尽管本发明的描述是针对特定实施例来进行的，但对本领域的技术人员来说，还可以有各种变异、修改和变化形式。因此，权利要求书中应当包含了所有这些变异、修改和变化形式。

Claims

1．一种语音基准登记方法，其特征在于，它包含下述步骤：

(a)接收一单词的第一个发音；

(b)从第一个发音中获取多个特征；

(c)接收所述单词的第二个发音；

(d)从所述第二个发音中获取所述多个特征；

(e)确定从所述第一个发音获得的所述多个特征与从所述第二个发音获得的所述多个特征之间的第一个相似性；

(f)当所述第一个相似性小于一预定的相似性时，请用户说出所述单词的第三个发音；

(g)从所述第三个发音获得所述多个特征；

(h)确定从所述第一个发音的所述多个特征与从所述第三个发音的所述多个特征之间的第二个相似性；以及

(i)当所述第二个相似性大于或等于所述预定的相似性，形成所述单词的一个基准。

2．如权利要求1所述的方法，其特征在于，它还包含下述步骤：

(j)当所述第二个相似性小于所述预定的相似性时，确定从所述第二个发音获得的所述多个特征与从所述第三个发音获得的所述多个特征之间的相似性；

(k)当所述第三个相似性大于或等于所述预定相似性时，形成所述单词的所述基准。

3．如权利要求2所述的方法，其特征在于，它还包括下述步骤：

(1)当所述第三个相似性小于所述预定的相似性时，回到步骤(a)。

4．如权利要求1所述的方法，其特征在于，所述步骤(c)还包括下述步骤：

(c1)确定所述第二个发音的持续时间；

(c2)当所述持续时间小于一最小持续时间时，不考虑所述第二个发音。

5．如权利要求1所述的方法，其特征在于，所述步骤(c)还包括下述步骤：

(c1)确定所述第二个发音的持续时间；

(c2)当所述持续时间大于一最大持续时间时，不考虑所述第二个发音。

6．如权利要求5所述的方法，其特征在于，所述步骤(c1)还包括下述步骤：

(ⅰ)设定一幅度阈值；

(ⅱ)当一输入信号超过所述幅度阈值时，确定一起始时间；

(ⅲ)当所述输入信号小于所述幅度阈值时，在所述起始时间以后，确定一结束时间；

(ⅳ)计算所述结束时间和所述起始时间的差值，作为所述持续时间。

7．如权利要求1所述的方法，其特征在于，所述步骤(d)还包括下述步骤：

(d1)确定话音语音帧个数的估计；

(d2)当所述话音语音帧的所述个数的所述估计小于一阈值时，请用户重复所述单词；

(d3)回到步骤(c)；

8．如权利要求1所述的方法，其特征在于，所述步骤(a)还包括下述步骤：

(a1)确定所述第一个发音的信噪比；

(a2)当所述信噪比小于一预定的信噪比时，增大一话音放大器的增益。

9．如权利要求8所述的方法，其特征在于，它还包括下述步骤：

(a3)请所述用户重复所述单词。

10．如权利要求1所述的方法，其特征在于，所述步骤(b)还包括下述步骤：

(b1)确定所述第一个发音的幅度直方图。

11．一种语音基准登记方法，其特征在于，它包含下述步骤：

(a)请用户说出一单词；

(b)检测一第一个发音；

(c)请所述用户说出所述单词；

(d)检测第二个发音；

(e)确定所述第一个发音与所述第二个发音之间的第一个相似性；

(f)当所述第一个相似性小于一预定的相似性时，请所述用户说出所述单词；

(d)检测第三个发音；

(h)检测所述第一个发音与所述第三个发音之间的第二个相似性；以及

(i)当所述第二个相似性大于或等于所述预定的相似性时，产生一基准。

12．如权利要求11所述的方法，其特征在于，它还包括下述步骤：

(j)确定所述第二个发音与所述第三个发音之间的第三个相似性；

(k)当所述第三个相似性大于或等于所述预定的相似性时，产生所述基准。

13．如权利要求12所述的方法，其特征在于，它还包括下述步骤：

当所述第三个相似性小于所述预定的相似性时，回到步骤(a)。

14．如权利要求11所述的方法，其特征在于，所述步骤(b)还包括下述步骤：

(b1)确定所述第一个发音是否在一超时周期中超过了一个幅度阈值；

(b2)当所述第一个发音不超过所述超时周期内的所述幅度阈值时，回到步骤(a)。

15．如权利要求11所述的方法，其特征在于，所述步骤(b)还包括下述步骤：

(b1)确定话音语音帧个数的估计；

(b2)当所述话音语音帧的个数小于话音语音帧的一预定个数时，回到步骤(a)。

16．如权利要求11所述的方法，其特征在于，所述步骤(b)还包括下述步骤：

(b1)确定所述第一个发音的持续时间；

(b2)当所述持续时间小于一最小持续时间时，回到步骤(a)；

(b3)当所述持续时间大于一最大持续时间时，回到步骤(a)。

17．一种含有计算机可读指令的计算机可读存储介质，其特征在于，当由计算机执行所述计算机可读指令时，所述计算机可读存储介质执行下述步骤：

(a)请一用户说出一单词；

(b)接收第一个数字化的发音；

(c)从所述第一个数字化的发音获取多个特征；

(d)请所述用户说出所述单词；

(e)接收所述单词的第二个数字化发音；

(f)从所述第二个数字化发音获取所述多个特征；

(g)确定从所述第一个数字化的发音获得的所述多个特征与从所述第二个数字化的发音获得的所述多个特征之间的第一个相似性；

(h)当所述第一个相似性小于一预定的相似性时，请所述用户说出所述单词的第三个发音；

(i)从所述第三个数字化的发音获得所述多个特征；

(j)确定从所述第一个数字化发音获得的所述多个特征与从所述第三个数字化的发音获得的所述多个特征之间的第二个相似性；以及

(k)当所述第二个相似性大于或等于所述预定的相似性时，形成所述单词的一个基准。

18．如权利要求17所述的计算机可读存储介质，其特征在于，它执行下述步骤：

(1)当所述第二个相似性小于所述预定的相似性时，确定从所述第二个数字化发音获得的所述多个特征与从所述第三个数字化的发音获得的所述多个特征之间的第三个相似性；

(m)当所述第三个相似性大于或等于所述预定的相似性时，形成所述单词的所述基准。

19．如权利要求18所述的计算机可读存储介质，其特征在于，它还执行下述步骤：

(n)当所述第三个相似性小于所述预定的相似性时，回到步骤(a)。

20．如权利要求17所述的计算机可读存储介质，其特征在于，所述步骤(c)还包括下述步骤：

(c1)确定一信噪比；

(c2)当所述信噪比小于一预定的信噪比时，进行到步骤(a)；

(c3)确定一放大器增益是否饱和了；

(c4)当所述放大器增益饱和时，进行到步骤(a)。

21．如权利要求20所述的计算机可读存储介质，其特征在于，所述步骤(c2)还包括增大放大器的增益的步骤。

22．如权利要求20所述的计算机可读存储介质，其特征在于，所述步骤(c4)还包括降低一放大器增益的步骤。