CN1326583A - 减轻分布式语音识别过程中的错误 - Google Patents

减轻分布式语音识别过程中的错误 Download PDF

Info

Publication number
CN1326583A
CN1326583A CN99813183A CN99813183A CN1326583A CN 1326583 A CN1326583 A CN 1326583A CN 99813183 A CN99813183 A CN 99813183A CN 99813183 A CN99813183 A CN 99813183A CN 1326583 A CN1326583 A CN 1326583A
Authority
CN
China
Prior art keywords
vector
speech recognition
vectors
parameter
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99813183A
Other languages
English (en)
Other versions
CN1162841C (zh
Inventor
戴维·J·B·皮尔斯
乔·A·吉布斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google Technology Holdings LLC
Original Assignee
Motorola Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Ltd filed Critical Motorola Ltd
Publication of CN1326583A publication Critical patent/CN1326583A/zh
Application granted granted Critical
Publication of CN1162841C publication Critical patent/CN1162841C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Error Detection And Correction (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Machine Translation (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

在一个分布式语音识别过程中减轻错误的一个方法。这个方法包括步骤:识别包括一个或者多个所述具有一个传输错误的矢量的一个矢量组,和替代被识别矢量组中的一个或者多个语音识别参数。在一个实施方式中,组中的每一个矢量的所有语音识别参数通过替代整个矢量而被替代,并且每一个相应的被替代的整个矢量用前面或者后面所接收的、没有错误的、在接收顺序上最靠近需要被替代矢量的一个矢量的拷贝所替代。在另一个实施方式中,确定哪一个语音识别参数或者那些语音识别参数需要被替代是通过从没有错误的接收矢量来对所述被识别矢量组中的每一个语音识别参数预测一个预测值,并且替代在被识别矢量组中那些相对其需要预测值来说,在一预定阈值范围外的语音识别参数,而执行的。另外描述的是用于在一个分布式语音识别过程中减轻错误的一个装置。

Description

减轻分布式语音识别过程中的错误
本发明涉及用于减轻在一个分布式语音识别***中的错误的方法。本发明也涉及用于减轻在一个分布式语音识别***中的错误的装置。本发明适合于,但是不局限于,减轻影响语音识别参数的传输错误,当它们被经过一个无线通信链路而传送时。
语音识别是用于从语音中自动地识别声音,部分单词,单词,或者短语的一个过程。这样一个过程可以被用作在人与机器之间的一个接口,或者是作为普遍使用的工具,例如开关,键盘,鼠标等等的补充,或者是作为它们的替代者。一个语音识别过程也可以被用于自动地从某个语音通信或者消息中检索信息。
已经开发了各种方法,并且仍然在改进这些方法,来提供自动语音识别。某些方法是基于具有相应的启发式策略的扩展知识的,其它则使用了统计模型。
在典型的语音识别过程中,需要被处理的语音在一个采样时间帧内被采样很多次,例如每秒50到100次。使用算法来处理被采样的值,来提供语音识别参数。例如,一个语音识别参数类型包括称作唛耳倒频谱系数的一个系数。这样的语音识别参数被以矢量的形式组织在一起,也称作阵列,它可以被认为是以某个顺序而进行排列的参数组或者参数集合。在后面的采样时间帧内,重复采样过程。一个典型的格式是每一个采样时间帧产生一个矢量。
上述参数化处理和将它们安排成矢量构成称作一个语音识别过程的前端操作。然后,上面所描述的、被安排成矢量的语音识别参数被根据称作语音识别过程的后端处理操作的语音识别技术来分析。在一个前端过程和后端过程是在相同的位置或者在相同的设备中执行的语音识别过程中,在语音识别参数中引入错误的可能性或者错误被从前端传递到后端的可能性是非常小的。
但是,在称作一个分布式语音识别的过程中,这个语音识别过程的前端过程是在远离后端部分的位置被执行的。在第一位置,这个语音被采样,进行参数化处理,并且语音识别参数被安排成矢量。然后,这个语音识别参数被量化,并且然后例如,经过一个已有通信***的一个通信链路被发送到第二位置。通常,第一位置是一个远程终端,并且第二位置是一个中心处理台。然后,根据第二位置的语音识别技术来分析这个所接收的语音识别参数。
在很多类型的通信***中,很多类型的通信链路可以被考虑为用于一个分布式语音识别过程。一个示例是一个传统的有线通信***,例如,一个公众交换电话网络。另一个示例是一个无线通信***,例如TETRA。另一个示例是一个蜂窝通信***。一个应用的蜂窝通信***的示例是全球移动通信***(GSM),另一个示例是其标准化过程正在进行中的通用移动通信***(UMTS)。
在任何通信***中,使用任何通信链路能够产生这样的可能性:当语音识别参数被通过这个通信链路被从第一位置传送到第二位置时,将在它们中引入错误。
众所周知,可以在通信***中提供错误检测技术,以使可以检测在一被传送信息的给定部分中的一个错误。一个众所周知的技术是循环冗余编码。
当检测到产生了一个错误时,根据所传送信息的特点,可以使用不同的减轻错误的技术。用于其它形式信息的错误减轻技术不会特别适合于减轻在语音识别参数中的错误,因为处理这些参数所使用的专用的语音识别技术,因此理想的是,提供用于减轻在一个分布式语音识别过程中的错误的装置。
本发明提供了一个装置,来减轻如上面所描述的传输错误的影响。
根据本发明的一个方面,提供了一个减轻在一个分布式语音识别***中的错误的方法,这个方法是如权利要求1的所要求的。
根据本发明的另一个方面,提供了一个减轻在一个分布式语音识别***中的错误的装置,这个装置如权利要求13所要求的。
本发明的另外方面如后附权利要求书所定义的。
本发明是用于提供减轻错误的装置,并且特别适合于一个分布式语音识别过程的特点,其中所使用的语音识别参数的特性,和其中所组织的矢量。
更特别地,在一个语音识别过程中允许有延迟的可能性可以被方便地利用起来,当根据本发明的一个方面,在一个被识别矢量组中的一个或者多个语音识别参数被从参考在被识别矢量组接收后的一个矢量中的一个或者多个语音识别参数而确定的相应替代参数所替代时。
进一步,当根据本发明的另一个方面,确定哪一个语音识别参数,或者哪些语音识别参数需要被替代的这个过程是通过从没有错误的接收矢量中预测在所述被识别矢量组内的每一个语音识别参数的一个预测值,并且替代在被识别矢量组内的这些语音识别参数,被识别矢量组是在相对其相应预测值的一预定阈值范围外的,然后,这个作用是方便地利用在一个语音识别矢量中的不同参数之间的错误的独立关系。
另外的特别优点从下面的描述与图中可以得到更清楚的理解。
图1是被安排在与本发明的一个实施方式的采样时间帧相应的矢量中的语音识别参数的一个示意图性显示。
图2是本发明的一个实施方式的一个处理流图。
图3是本发明的一个实施方式的连续接收矢量的一个示意图性显示。
在下面所描述的示例性实施方式中,这个语音识别参数被安排在与图1示意图所显示的采样时间帧相应的矢量中。
需要被处理的语音信号110的一部分被显示在图1中。语音信号100被以非常简单的形式而显示,因为实际上,它将包括一个更复杂的采样值序列。
如图1中所显示的采样时间帧,一第一采样时间帧121,一第二采样时间帧122,一第三采样时间帧123和一第四采样时间帧124被施加在如图1所显示的这个语音信号上。在下面所描述的实施方式中,每秒有100个采样时间帧。在每一个采样时间帧内,这个语音信号被重复采样。
在下面所描述的实施方式中,这个语音识别过程是其中使用了总共14个语音识别参数的一个过程。这14个语音识别参数中的前12个是第一12个静态唛耳倒频谱系数,即,
c(m)=[c1(m),c2(m),…,c12(m)]T
其中m表示采样时间帧的号码。所使用的第13个语音识别参数是零阶倒频谱系数,即,C0(m)。所使用的第14个语音识别参数是一个对数能量项,即,log[E(m)]。这些系数的细节和它们在语音识别过程中的使用在该领域内是众所周知的,并且在这里不需要进行进一步的描述。另外,应注意,本发明可以用于形成这个语音识别参数的其它倒频谱系数的组合,同样本发明也可以用于其它不是倒频谱系数的语音识别参数的选择或者方法。
每一个采样时间帧的第14个参数被安排成,或者被格式化成一个相应的矢量,称作一个阵列,如图1所显示的。矢量131与采样时间帧121相应,矢量132与采样时间帧122相应,矢量133与采样时间帧123相应,和矢量134与采样时间帧124相应。这样一个矢量一般可以被表示为 y ( m ) = C ( m ) C 0 ( m ) log [ E ( m ) ]
在从一第一位置被传送到一第二位置以前,这个语音识别参数被进行处理。在下面所描述的实施方式中,这是如下面所描述的而被执行的。来自矢量131的这些参数被量化。这是通过直接用一个分隔矢量量化器来进行量化而实现的。系数被分成对,并且每一对被使用预定用于这个相应对的一个矢量量化(VQ)码本来进行量化。然后,所产生的索引值集合被用于表示这个语音帧。前端参数的系数对,与每一对所使用的码本如表1所显示的。
表1分隔矢量量化特征配对
码本        尺寸    权重矩阵    元素1    元素2
                    (Wi,i+1)
Q0,1       64          I         C1       C2
Q2,3       64          I        C3        C4
Q4,5       64          I        C5        C6
Q6,7       64          I        C7        C8
Q8,9       64          I        C9        C10
Q10,11     64          I        C11       C12
Q12,13     256    非单位矩阵    C0        Log[E]
最近的VQ质心是使用一个加权欧几里得几何距离来确定这个索引而发现的, d j i , i + 1 = y i ( m ) y i + 1 ( m ) - q j i , i + 1 id x i , i + 1 ( m ) = 0 ≤ j ≤ ( N i , i + 1 - 1 ) arg min { ( d j i , i + 1 ) t W i , i + 1 ( d j i , i + 1 ) } , i = 0,2,4 , . . . , 12
其中qi i,i+1表示码本Qi,i+1中的第j个码矢量,Ni,i+1是码本的大小,Wi,i+1是将被用于码本Qi,i+1的(可能是单位矩阵)的权重矩阵,并且idxi,i+1 j(m)表示被选择来表示矢量[yi(m),yi+1(m)]T的码本索引。
被产生的指数然后被表示成44比特。这44比特被放置在一个比特流帧150的前44个时隙中,如图1的标号141所显示的。为下面的矢量,即矢量132所产生的相应44比特被放置在这个比特流帧150的下44个时隙中,如图1的标号142所显示的。这个比特流帧150的剩余比特包括4比特的循环冗余代码,如图1的标号146所显示的,这些比特的值是根据能够以一个已知的方法为这个比特流帧150的前88个比特提供错误检测而确定的。类似地,来自矢量133的44比特被放置在一第二比特流帧155的前44个时隙中,如图1的标号143所显示的。另外,下一个矢量,即矢量134的相应44比特也被放置在这个比特流帧155的下一个44时隙中,如图1的标号144所显示的。这个比特流帧155的剩余比特包括4比特的循环冗余代码,如图1的标号148所显示的。对下面的这些矢量重复这个结构。比特流帧的上述格式,其中从两个矢量来的比特数据被安排在一单个组合比特流帧内,仅仅是一个示例。例如,替代地,每一个示例的数据可以被放置在一单个帧内并且包括其自己的错误检测比特。类似地,每比特流帧中时隙的数目也仅仅是一个示例。
为了避免产生混淆,应指出,上面所描述的比特流帧不应与后面通过通信***的通信链路来传送比特流数据时所使用的传送帧进行混淆,在这个通信中,数据被从第一位置传送到一第二位置,例如,一个GSM蜂窝无线通信***中的一个时分多址(TDMA)时间帧,GSM蜂窝通信通信***是这里描述的实施方式中所使用的通信***。在本发明的示例中,第一位置包括一个远程用户台,并且第二,即接收位置包括一个集中的处理台,这个集中的处理台可以位于,例如这个蜂窝通信***的一个基站位置。所以,在这里所描述的这个实施方式中,语音识别参数被从第一位置传送到第二位置,其传送是通过一个无线通信链路进行的。但是,应理解,第一位置和第二位置的特征将取决于所考虑通信***的类型和这里所描述的分布式语音识别过程的结构。
在第二位置接收到传送格式的数据后,在第二位置从传送格式的比特流数据重构比特流帧。
这样,上面描述了一个分布式语音识别过程,其中语音识别参数被以与采样时间帧相应的矢量来进行组织,并且所述语音识别参数在从一第一位置被发送后在第二位置被接收。根据一第一实施方式,来减轻在这样一个语音识别过程中的错误的方法被显示在图2的过程流图200中。参考图2,功能模块210显示了识别包括所述矢量中发生了错误的一个或者多个矢量的一个组的步骤。在本发明的实施方式中,通过使用已知的循环冗余校验代码方法,将4个循环冗余校验编码比特,例如146,148与相应的比特流帧150,155的内容进行比较,来执行错误检测。在本发明的示例中,这将识别任何已经发生了一个传输错误的单个比特流帧。这样,在本发明的示例中,被识别的矢量组包括两个矢量,即来自这单个比特流帧的一对矢量。如果,在另一个例子中,每一个具有一个错误检测机制的比特流中仅包括一个矢量,则被识别的矢量组仅包括一单个矢量。应理解,确定有多少个矢量在这样一个被识别组中的确切形式和技术原因将取决于矢量在比特流中被组织的不同方法,并且另外,取决于一个错误检测方法是如何对比特流进行作用的。特别地,不是在本发明实施方式中所使用的循环冗余编码方法的其它错误检测方法将可能在一个被识别组中提供不同数目的矢量。另外,对任何给定的比特流结构来说,关于如何处理错误信息的辅助设计选择也将对确定在一个被识别组中有多少个矢量产生作用。例如,参考本发明的实施方式,为了节省处理功率,可能确定仅考虑一批比特流帧是否包括一个错误,即使这个错误检测方法物理上能够检测到在更细的范围内的错误。
通过执行与上面所描述的矢量量化过程相反的一个过程,就可以从这个比特流帧检索出语音识别参数。更特别地,从这个比特流中提取指数,并且使用这些指数,用下面的形式重构矢量 y ^ i ( m ) y ^ i + 1 ( m ) = q id x i , i + 1 ( m ) i , i + 1 , i = 0,2,4 , . . . , 12
功能模块220显示了本发明实施方式的下一个步骤,即替代在这个被识别矢量组中的一个或者多个语音识别参数的步骤。在本发明的实施方式中,不同处理步骤的执行顺序是这样的,以使在替代一个或者多个语音识别参数以前,所有被接收的语音识别参数可以被从这些比特流帧中检索出来,并且被临时保存。但是,应注意,替代地,可以通过在实际物理上从这个比特流帧格式中检索语音识别参数(包括新引入的替代语音识别参数)以前,使用一个相应的方法来改变这个比特流信息,可以替代一个或者多个语音识别参数。
在下面关于如何确定替代语音识别参数的描述中,可以参考图3,图3显示了已经参考图1而描述的矢量131-134,和其后连续接收的另外6个矢量135-140。在本发明的实施方式中,在所述被识别矢量组中的一个或者多个语音识别参数被用通过参考在所述被识别矢量组后面被接收的一个矢量中的一个或者多个语音识别参数而确定出来的相应替代参数来替代。这样,在本发明的实施方式中,当在比特流帧155中检测到一个错误,并且这样就识别出包括矢量133和134的组时,然后,在矢量133和134中的一个或者多个语音识别参数被参考矢量135-140中一个矢量中的一个或者多个语音识别参数,或者参考在矢量140后所接收的、在图3中没有被显示的一个矢量中的一个或者多个语音识别参数确定出来的相应替代参数来进行替代。应注意,这样参考随后的矢量来确定替代参数的方法没有排除参考前面的矢量(例如131,132)或者其它没有被显示的矢量来确定替代参数的方法也被包括在这个确定过程中。
参考在被识别矢量组后面所接收的矢量提供了一个能够特别有效地执行语音识别的一个方法,因为可以方便地利用延迟来从后端语音识别器中提供更好的性能。应用这样的方法包括在将它们输出到后端以前,临时将所接收的矢量保存在一个缓冲器中。在被识别矢量组后面被接收的矢量被用于计算替代值。所以,在错误被减轻的矢量被传送到后端以前,就使时间延迟增加了。通常,这个延迟并不对后端语音识别器产生问题,特别地,如果它是一个集中服务器的一部分时,将有足够的计算资源来克服这个错误减轻方法所产生的临时延迟波动。
更特别地,在本发明的实施方式中,所述组中每一个矢量的所有语音识别参数均通过替代整个矢量而被替代,并且每一个相应的被替代整个矢量是被在其接收前面的或者后面的、没有发生错误的矢量中、在接收顺序上最靠近这个被替代矢量的一个矢量的拷贝而替代的。因为对目前所描述的传送模式和错误检测模式来说,被识别的矢量组包括一对连续的矢量,然后,所述对中的第一个矢量被前一个没有发生错误的矢量中的第二矢量所替代,并且所述对中的第二矢量被后面所接收的、没有发生错误的一个矢量中的一第一矢量所替代。在本发明的情形下,如果例如矢量135和136被识别为具有一个错误的一对矢量,那么整个矢量135被矢量134的一个拷贝所替代,整个矢量136被矢量137的一个拷贝所替代,假设矢量134和137没有被识别为是在已经被识别为发生一个传输错误的对中的一部分。如果,假设,矢量133和134对自己确实也是一对发生了一个错误的矢量,然后,矢量135和136均被矢量137的一个拷贝所替代,矢量137是在它们后面的第一已知正确矢量,因为在接收顺序上,比矢量132更靠近矢量135和136中的任何一个,矢量132是在前面已知正确矢量中最靠近它们的一个矢量。在后一种的情形下,矢量133和134均将被矢量132的拷贝所替代,这是因为这个矢量在接收顺序上是最靠近它们的。
在本发明整个矢量被替代的实施方式的一个替代实施方式中,不使用已知是正确的、前面或者后面所接收的矢量中的简单拷贝,而是,每一个相应被替代的整个矢量被根据一个内插技术而确定的一个矢量来替代。技术人员将根据所考虑的特定语音识别过程而选择一个合适的内插技术。可以被使用的内插方法的示例如下面所描述的:
(ⅰ)线性内插-在这个方法中,对每一个参数来说,从已知包括错误的矢量前面或者后面所接收的一个或者多个矢量中的值被用于确定定义在它们之间的一条直线方程的一个常数和梯度。然后,使用这个直线方程来计算被用于替代具有错误的这些矢量中的每一个参数的内插值。
(ⅱ)后向预测-这个方法包括考虑在已知包括错误的矢量后面所接收的、没有发生错误的一个或者多个矢量。对每一个参数来说,替代值是从这个矢量序列中这些矢量元素的一个加权和中产生的,这个方法被称作预测。通过对没有错误的语音的矢量的参数进行训练,来预确定这些权重。
(ⅲ)曲线拟合-这个方法包括考虑在已知包括错误的矢量前面和后面所接收的一个或者多个矢量。这个方法与线性内插方法类似,但是不是将它们拟合成一条直线,是使用根据好的参数的一个曲线和使用曲线方程来产生每一个参数的替代值来进行拟合的。
在上面的实施方式中,是通过替代整个矢量来替代语音识别参数的。但是,在本发明的另一个实施方式中,如下面所描述的,不必要替代在一个矢量中的所有语音识别参数。
在后面所描述的实施方式中,确定哪一个语音识别参数或者哪些语音识别参数需要被替代的执行是通过从没有错误的接收矢量中,预测在所述被识别矢量组中的每一个语音识别参数的一个预测值,并且替代那些处于相对其相应预测值的一预定阈值外的、被识别矢量组中的语音识别参数。
考虑这样一个情形,当矢量133和134被识别为一对具有一个错误的矢量时。对矢量133的每一个语音识别参数c1(3),c2(3),…,c12(3),c0(3),和log[E(3)]确定一个预测值,对矢量134的每一个语音识别参数c1(4),c2(4),…,c12(4),c0(4),和log[E(4)]确定一个预测值,预测值是使用任何合适的预测方法来确定的。例如,上面针对整个矢量而描述的预测即,例如线性内插,后向预测和曲线拟合,可以被用于预测每一个语音识别参数。当用于每一个语音识别参数时,在其它矢量内的相应位置的参数也被使用,例如在计算c1(3)的一个预测值的情形下,相应位置的语音识别参数c1(1),c1(2),c1(5),c1(6)等等均被使用。
这样,在本发明的实施方式中,在一个语音识别矢量中不同参数之间的独立关系可以被方便地利用起来。
相对预测值的一个预定阈值被使用了。这个阈值电平是根据所考虑的特定过程的需求来设置的。它可以根据所考虑的这个过程或者其它过程得到的经验,或者尝试或者模拟或者类似的信息,进行随时的改变。这个阈值电平也可以自动地根据一个正在提供的反馈而进行改变。例如,它可以根据正在被识别的错误程度来进行改变。这个阈值电平也可以是预测值的一个函数。这个阈值电平也可以作为哪一个语音识别参数,即,是否是参数c1(m)或者c2(m),或者c3(m)等等的一个函数而进行改变,当本发明被用于这样一个语音识别过程,其中对语音识别过程的成功来说,特定语音识别参数比其它语音识别参数更重要时,这就是特别方便的。在本发明的示例中,实际上就是这样一个情形,其中这个语音识别过程对中间级的唛耳倒频谱系数,例如c3(m),c4(m)和c5(m)的敏感程度比高阶的系数,例如c10(m),c11(m),c12(m)等的敏感程度更高。
在本发明实施方式的一个版本中,如果在所述被识别矢量组中的一规定数目的语音识别参数超过了它们相应的预测值阈值时,然后,所述被识别矢量组中的所有语音识别参数均被替代。在本发明的情形下,如果在矢量133和134中的28个语音识别参数中有比4个更多的语音识别参数在其相应预测阈值范围外,然后,矢量133和134的所有语音识别参数均被替代。规定数目的选择是根据所考虑的特定语音识别过程的要求而选择的。通过使用这个方法来替代整个矢量,其优点是消除了那些可能已经发生了错误的语音识别参数,即使它们落在上面所描述的阈值范围内。
在本实施方式中,语音识别参数被在确定哪一个语音识别参数需要被替代的步骤中所使用的相应预测值所替代。其有效的原因是这些值已经被确定了。
在本发明的另一个实施方式中,相对它们的相应预测值来说,那些处于一预定阈值范围内的语音识别参数被与一组参考矢量进行比较,来从所述参考矢量组中发现最佳匹配的一个矢量,并且相对它们的相应预测值来说,那些处于一预定阈值范围外的语音识别参数被所述最佳匹配矢量中的相应语音识别参数所替代。
另外考虑当矢量133和134被识别为具有一个错误的一对矢量时的情形。进一步考虑将从这两个矢量中确定出来的唯一一个在阈值范围外的语音识别参数是矢量133中的c1(3)时。然后,使用一个相关技术,来确定在这个矢量133和一组参考矢量的剩余语音识别参数之间的最近匹配。
在这组参考矢量内,参考矢量的数目与其内容是根据所考虑的特定语音识别过程的要求而选择的。与所需要的处理程度相比,这些选择将包括在准确性和错误检测敏感程度之间进行折衷。确定哪一个参考矢量表示对超过阈值参数外的剩余部分的最佳匹配的准则也是根据所考虑的特定语音识别过程的要求而实现的。使用了已知的相关技术,例如计算欧几里得几何距离。它们如何被调节成适合于本发明仅仅是在阈值范围内的矢量元素被包括在距离的计算中。
在本发明的另一个实施方式中,从一个或者多个相邻矢量中的语音识别参数也被与这组参考矢量进行比较,并且相对多个连续参考矢量来说是最佳的匹配也被选择。再次考虑,当矢量133和134被识别为具有一个错误的一对矢量,并且进一步将从这两个矢量确定出来的唯一一个在阈值范围外的语音识别参数是矢量133中的c1(3)这种情形。矢量133的剩余语音识别参数(即,语音识别参数c2(3),c3(3),…,c12(3),c0(3),和log[E(3)])加上整个周围的矢量132与134被与3个连续参考矢量的参考组进行总体比较。
在上面所描述的实施方式中,识别包括一个或者多个其具有一个传输错误的所述矢量的一组的步骤包括,使用众所周知的循环冗余编码技术,将4个循环冗余编码比特,例如146,148与相应的比特流帧150,155的内容进行比特。但是,在本发明的另一个实施方式中,识别包括一个或者多个其具有一个传输错误的所述矢量的一组的步骤包括,评价这些语音识别参数本身。这可以是一个与传统的方法(例如循环冗余编码)一起执行的附加的安全网络类型的方法,或者,可以用这个方法来代替传统的方法(例如循环冗余编码方法),从而把它作为识别错误矢量组的唯一方法。
在这些进一步实施方式的开始,语音识别参数的相应预测值被确定。这可以使用上面针对确定哪一个语音识别参数需要被替代的实施方式中所描述的方法中的任何一个方法来实现,尽管当这个方法被作为唯一的识别错误的方法而执行并且然后,当然,不可能包括前面描述中所包括的细节,其中仅被接收的、没有错误的矢量被用于预测计算,而不是从到内插函数的输入的角度来描述。相对被预测值的一个或者多个阈值被确定。其执行的方法也可以是前面针对确定哪一个语音识别参数需要被替代的实施方式中所描述的方法中的任何一个方法。但是,通常,这里所使用的阈值将比在上面所描述的情形中所使用的阈值大。另外,应注意,一个或者多个阈值电平应被确定。例如,在确定两个阈值电平的情形下,一个可以与一个高可能性的错误相应,而另一个与一个不大可能的错误相应。然后,对关于一个矢量组中多少个语音识别参数在所述一个或者多个阈值电平中每一个的范围外的一个权重分析作出响应,被考虑为具有一个传输错误的矢量组被识别。例如,在本发明的情形下,权重分析可以是这样的,以使如果高可能错误的阈值被超过,然后就分配一个5分,并且如果一个不大可能错误的阈值被超过,然后就分配一个1分,并且如果其总分是6或者更多,这组矢量被识别为具有一个传输错误。这仅仅是可以被使用的一个权重分析的一个示例,并且特定方法的选择,包括比刚才所描述的更复杂的方法,可以被根据所考虑的特定分布式语音识别过程的要求而使用。
这些进一步实施方式的第二方面,包括确定相应的语音识别参数到一个矢量组内不同矢量之间的距离的一个步骤。参考矢量133和134,例如,在c1(3)和c1(4)之间的差异被计算,并且在c2(3)和c2(4)之间的差异被计算,在c3(3)和c3(4)之间的差异被计算,等等。对关于多少个所述差异超过了一预定阈值电平的分析作出相应,被考虑为具有一个传输错误的矢量组被识别。一个合适的预定阈值电平被设置,并且可以随时间而改变,其方法可以与上面针对确定哪一个语音识别参数需要被替代的实施方式中所描述的方法中的任何一个方法相同。在本发明的情形下,如果所述计算差异中的两个或者更多个在阈值电平的范围外,那么这组矢量就被识别为具有一个传输错误。关于多少个需要在阈值电平的范围外的这个选择仅仅是示例性的,并且一般可以根据所考虑的特定分布式语音识别过程的要求而选择。另一个可选的方面可以被用于实施方式,其中作为矢量量化过程的一部分,语音识别参数被分组成对,如上面参考表1所描述的。在这个情形下,如果在一给定码本索引中的任何一个语音识别参数的差异超过了阈值,然后,这个码本索引就被标识为其接收具有错误,即,参考表1,如果或者是c3的差异或者是c4的差异超过了阈值,然后,码本索引Q2,3被标识为其接收具有错误。然后,如果一个矢量组的7个中,比一给定数目多的,例如2,的码本索引被标识为其接收具有错误,这个矢量组就被标识为具有一个传输错误。很清楚,当选择这个阈值电平和选择多少差异必定会在阈值范围外时,必须根据所考虑的特定分布式语音识别过程的要求而评价折衷考虑。
在上面所描述的实施方式中,所描述的数据处理步骤是被一个可编程数字信号处理设备执行的,例如从摩托罗拉公司所生产的DSP56xxx(商标)系列设备中选择的一个。替代的,可以使用一个应用专用集成电路(ASIC)。其它的可能性也存在。例如,一个接口单元可以被用于在一个无线接收器与一个计算机***之间的接口通信,其中无线接收器与这个计算机***形成了一个后端语音识别处理器的一部分。

Claims (26)

1.在一个分布式语音识别过程中减轻错误的方法,这个分布式语音识别过程是其中语音识别参数被以与采样时间帧相应的矢量而安排的一个语音识别过程,并且所述语音识别参数在从第一位置被发送后在第二位置被接收;
这个方法包括步骤:
识别包括一个或者多个具有一个传输错误的所述矢量的矢量组;和
替代被识别矢量组中的一个或者多个语音识别参数。
2.如权利要求1的方法,其中在所述被识别矢量组中的所述一个或者多个语音识别参数被通过参考在所述被识别矢量组后面而接收的一个矢量中一个或者多个语音识别参数而确定的相应替代参数所替代。
3.如权利要求1或者2的方法,其中所述组中的每一个矢量的所有语音识别参数通过替代整个矢量而被替代,并且每一个相应的被替代的整个矢量用前面或者后面所接收的、没有错误的、在接收顺序上最靠近需要被替代矢量的一个矢量的拷贝所替代。
4.如权利要求3的方法,其中一个传输模式和一个错误检测模式是这样的,以使所述被识别组包括一对连续的矢量,以使所述矢量对中的第一个矢量被前一个没有错误的矢量对中的第二个矢量所替代,而所述矢量对中的第二个矢量被后一个没有传输错误的矢量对中的第一个矢量所替代。
5.如权利要求1或者2的方法,其中所述组中的每一个矢量的所有语音识别参数通过替代整个矢量而被替代,并且每一个相应的被替代的整个矢量用通过一个内插技术所确定的一个矢量所替代。
6.如权利要求1或者2的方法,其中确定哪一个语音识别参数或者哪些语音识别参数需要被替代是通过从没有错误的接收矢量来对所述被识别矢量组中的每一个语音识别参数预测一个预测值,并且替代被识别矢量组中那些相对各自预测值来说在一预定阈值范围外的语音识别参数,而执行的。
7.如权利要求6的方法,其中如果在所述被识别矢量组中,比一规定数目多的语音识别参数在它们各自相应的预定阈值的范围外,然后,就替代所述被识别矢量组中的所有语音识别参数。
8.如权利要求6或者7的方法,其中语音识别参数被在确定哪一个语音识别参数需要被替代的步骤中所使用的相应预测值所替代。
9.如权利要求6或者7的方法,其中相对它们相应的预测值来说,那些处于一预定阈值范围内的语音识别参数被与一组参考矢量进行比较,来从所述参考矢量组中发现一个最佳匹配矢量,并且相对它们相应的预测值来说,那些处于一预定阈值范围外的语音识别参数被所述最佳匹配矢量中相应的语音识别参数所替代。
10.如权利要求9的方法,其中从一个或者多个相邻矢量中来的语音识别参数也被与这组参考矢量进行比较,并且选择相对多个连续参考矢量来说是最佳匹配的一个矢量。
11.如前面权利要求中任何一个的方法,其中识别包括一个或者多个具有一个传输错误的所述矢量的一个组的所述步骤包括步骤:预测所述语音识别参数的相应预测值,确定相对这些预测值的一个或者多个阈值电平,并且对关于一个矢量组中多少个语音识别参数在所述一个或者多个阈值电平范围外的一个权重分析作出响应,识别具有一个传输错误的矢量组。
12.如权利要求1到10中任何一个的方法,其中识别包括一个或者多个具有一个传输错误的所述矢量的一个组的所述步骤包括步骤:确定一个矢量组内不同矢量的相应语音识别参数之间的差异,对关于多少个所述差异在一预定阈值电平范围外的一个分析作出响应,识别具有一个传输的矢量组。
13.在一个分布式语音识别过程中减轻错误的装置,这个分布式语音识别过程是其中语音识别参数被以与采样时间帧相应的矢量而安排的一个语音识别过程,并且所述语音识别参数在从第一位置发送后在第二位置被接收;
这个装置包括:
用于识别包括一个或者多个所述具有一个传输错误的矢量的一个矢量组的装置;和
用于替代被识别矢量组中的一个或者多个语音识别参数的装置。
14.如权利要求13的装置,其中在所述被识别矢量组中的所述一个或者多个语音识别参数被通过参考在所述被识别矢量组后面而接收的一个矢量中一个或者多个语音识别参数而确定的相应替代参数所替代。
15.如权利要求13或者14的装置,其中所述组中的每一个矢量的所有语音识别参数通过替代整个矢量而被替代,并且每一个相应的被替代的整个矢量用前面或者后面所接收的、没有错误的、在接收顺序上最靠近需要被替代矢量的一个矢量的拷贝所替代。
16.如权利要求15的装置,其中一个传输模式和一个错误检测模式是这样的,以使所述被识别组包括一对连续的矢量,以使所述矢量对中的第一个矢量被前一个没有错误的矢量对中的第二个矢量所替代,而所述矢量对中的第二个矢量被后一个没有传输错误的矢量对中的第一个矢量所替代。
17.如权利要求13或者14的装置,其中所述组中的每一个矢量的所有语音识别参数通过替代整个矢量而被替代,并且每一个相应的被替代的整个矢量用通过一个内插技术所确定的一个矢量所替代。
18.如权利要求13或者14的装置,其中确定哪一个语音识别参数或者那些语音识别参数需要被替代是通过从没有错误的接收矢量来对所述被识别矢量组中的每一个语音识别参数预测一个预测值,并且替代被识别矢量组中那些相对各自预测值来说在一预定阈值范围外的语音识别参数,而执行的。
19.如权利要求18的装置,其中如果在所述被识别矢量组中,比一规定数目多的语音识别参数在它们各自相应的预定阈值的范围外,然后,就替代所述被识别矢量组中的所有语音识别参数。
20.如权利要求18或者19的装置,其中语音识别参数被在确定哪一个语音识别参数需要被替代的步骤中所使用的相应预测值所替代。
21.如权利要求18或者19的装置,其中相对它们相应的预测值来说,那些处于一预定阈值范围内的语音识别参数被与一组参考矢量进行比较,来从所述参考矢量组中发现一个最佳匹配矢量,并且相对它们相应的预测值来说,那些处于一预定阈值范围外的语音识别参数被所述最佳匹配矢量中相应的语音识别参数所替代。
22.如权利要求21的装置,其中从一个或者多个相邻矢量中来的语音识别参数也被与这组参考矢量进行比较,并且选择相对多个连续参考矢量来说是最佳匹配的一个矢量。
23.如权利要求13到22中任何一个的装置,其中识别包括一个或者多个具有一个传输错误的所述矢量的一个组的所述装置包括:用于预测所述语音识别参数的相应预测值,确定相对这些预测值的一个或者多个阈值电平,并且对关于一个矢量组中多少个语音识别参数在所述一个或者多个阈值电平范围外的一个权重分析作出响应,识别具有一个传输错误的矢量组的装置。
24.如权利要求13到23中任何一个的装置,其中识别包括一个或者多个具有一个传输错误的所述矢量的一个组的所述装置包括:用于确定一个矢量组内不同矢量的相应语音识别参数之间的差异,对关于多少个所述差异在一预定阈值电平范围外的一个分析作出响应,识别具有一个传输的矢量组的装置。
25.如权利要求13到24中任何一个的装置,其中所述语音识别参数被通过一个无线通信链路从所述第一位置传送到所述第二位置。
26.如权利要求1到12中任何一个的方法,其中所述语音识别参数被通过一个无线通信链路从所述第一位置传送到所述第二位置。
CNB998131830A 1998-11-13 1999-11-12 分布式语音识别过程中减轻错误的方法和装置 Expired - Lifetime CN1162841C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9824894A GB2343777B (en) 1998-11-13 1998-11-13 Mitigating errors in a distributed speech recognition process
GB9824894.1 1998-11-13

Publications (2)

Publication Number Publication Date
CN1326583A true CN1326583A (zh) 2001-12-12
CN1162841C CN1162841C (zh) 2004-08-18

Family

ID=10842390

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB998131830A Expired - Lifetime CN1162841C (zh) 1998-11-13 1999-11-12 分布式语音识别过程中减轻错误的方法和装置

Country Status (12)

Country Link
US (1) US8050912B1 (zh)
EP (1) EP1131814B1 (zh)
JP (3) JP4510293B2 (zh)
CN (1) CN1162841C (zh)
AT (1) ATE290249T1 (zh)
AU (1) AU1385600A (zh)
CA (1) CA2350751C (zh)
DE (1) DE69923997T2 (zh)
ES (1) ES2242452T3 (zh)
GB (1) GB2343777B (zh)
WO (1) WO2000030072A1 (zh)
ZA (1) ZA200103387B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966513A (zh) * 2014-06-09 2015-10-07 腾讯科技(深圳)有限公司 语言命令处理方法和装置
CN105609109A (zh) * 2014-10-16 2016-05-25 通用汽车有限责任公司 混合式自动语音识别

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2343777B (en) * 1998-11-13 2003-07-02 Motorola Ltd Mitigating errors in a distributed speech recognition process
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
EP1098297A1 (en) * 1999-11-02 2001-05-09 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
GB2363236B (en) * 2000-06-05 2002-06-12 Motorola Inc Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system
FR2830970B1 (fr) * 2001-10-12 2004-01-30 France Telecom Procede et dispositif de synthese de trames de substitution, dans une succession de trames representant un signal de parole
US10074364B1 (en) * 2016-02-02 2018-09-11 Amazon Technologies, Inc. Sound profile generation based on speech recognition results exceeding a threshold
US11361769B2 (en) 2019-11-05 2022-06-14 International Business Machines Corporation Assessing accuracy of an input or request received by an artificial intelligence system

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5073940A (en) * 1989-11-24 1991-12-17 General Electric Company Method for protecting multi-pulse coders from fading and random pattern bit errors
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
DE4202140A1 (de) * 1992-01-27 1993-07-29 Thomson Brandt Gmbh Verfahren zur uebertragung digitaler audio-signale
DE69326431T2 (de) 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
JP3725566B2 (ja) 1992-12-28 2005-12-14 株式会社東芝 音声認識インターフェース
US5903867A (en) 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH07152787A (ja) 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体
US5884261A (en) * 1994-07-07 1999-03-16 Apple Computer, Inc. Method and apparatus for tone-sensitive acoustic modeling
FI944345A (fi) * 1994-09-19 1996-03-20 Nokia Telecommunications Oy Menetelmä virheellisten puhekehysten tunnistamiseksi puhetta välittävän tietoliikennejärjestelmän vastaanottimessa, sekä tietoliikennejärjestelmän vastaanotin
KR970011728B1 (ko) * 1994-12-21 1997-07-14 김광호 음향신호의 에러은닉방법 및 그 장치
FI950917A (fi) 1995-02-28 1996-08-29 Nokia Telecommunications Oy Puhekoodausparametrien käsittely tietoliikennejärjestelmässä
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5636231A (en) * 1995-09-05 1997-06-03 Motorola, Inc. Method and apparatus for minimal redundancy error detection and correction of voice spectrum parameters
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5917835A (en) * 1996-04-12 1999-06-29 Progressive Networks, Inc. Error mitigation and correction in the delivery of on demand audio
JPH10177468A (ja) 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索通信システム
US6157830A (en) * 1997-05-22 2000-12-05 Telefonaktiebolaget Lm Ericsson Speech quality measurement in mobile telecommunication networks based on radio link parameters
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
US6775652B1 (en) * 1998-06-30 2004-08-10 At&T Corp. Speech recognition over lossy transmission systems
GB2343777B (en) 1998-11-13 2003-07-02 Motorola Ltd Mitigating errors in a distributed speech recognition process

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966513A (zh) * 2014-06-09 2015-10-07 腾讯科技(深圳)有限公司 语言命令处理方法和装置
CN104966513B (zh) * 2014-06-09 2018-09-04 腾讯科技(深圳)有限公司 语言命令处理方法和装置
CN105609109A (zh) * 2014-10-16 2016-05-25 通用汽车有限责任公司 混合式自动语音识别

Also Published As

Publication number Publication date
JP2002530704A (ja) 2002-09-17
WO2000030072A1 (en) 2000-05-25
EP1131814B1 (en) 2005-03-02
GB2343777A (en) 2000-05-17
ZA200103387B (en) 2002-06-26
JP2010160506A (ja) 2010-07-22
US8050912B1 (en) 2011-11-01
DE69923997T2 (de) 2006-04-06
DE69923997D1 (de) 2005-04-07
JP4510293B2 (ja) 2010-07-21
GB2343777B (en) 2003-07-02
JP2010160507A (ja) 2010-07-22
CA2350751A1 (en) 2000-05-25
ES2242452T3 (es) 2005-11-01
CA2350751C (en) 2008-12-16
ATE290249T1 (de) 2005-03-15
CN1162841C (zh) 2004-08-18
EP1131814A1 (en) 2001-09-12
AU1385600A (en) 2000-06-05
GB9824894D0 (en) 1999-01-06

Similar Documents

Publication Publication Date Title
CN1162841C (zh) 分布式语音识别过程中减轻错误的方法和装置
CN1284133C (zh) 使用声学特征矢量修正进行语音识别的设备和方法
CN1673997A (zh) 以apra标准格式表示经删除插值n字母语言模型
US20120188899A1 (en) Method for processing channel state information terminal and base station
CN103905149A (zh) 码本设计方法、通信设备以及码本训练方法
CN101208741B (zh) 一种适用于数字信号短时相关性模型之间的互用性的方法
US6732072B1 (en) Processing received data in a distributed speech recognition process
CN100527647C (zh) 传输格式组合指示器解码电路及其解码方法
EP1292942B1 (en) Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system
AU2001283839A1 (en) Method and apparatus for mitigating the effect of transmission errors in a distributed speech recognition process and system
US8996361B2 (en) Method and device for determining a decoding mode of in-band signaling
US8887023B2 (en) Method of identifying a correct decoding codeward
CN100349395C (zh) 用于语音帧误差降低的语音通信单元和方法
CN108092749B (zh) 软比特存储方法及装置
CN117556821A (zh) 一种基于智能反射面辅助的语义通信***和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTORALA SOLUTIONS

Free format text: FORMER OWNER: MOTOROLA SOLUTIONS BRITISH INC.

Effective date: 20140512

Owner name: MOTOROLA MOBILITY LLC

Free format text: FORMER OWNER: MOTORALA SOLUTIONS

Effective date: 20140512

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: MOTOROLA SOLUTIONS BRITISH INC.

Free format text: FORMER NAME: MOTOROLA LIMITED

CP01 Change in the name or title of a patent holder

Address after: England Hampshire

Patentee after: Motorola solutions UK Ltd.

Address before: England Hampshire

Patentee before: MOTOROLA Ltd.

TR01 Transfer of patent right

Effective date of registration: 20140512

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA SOLUTIONS, Inc.

Effective date of registration: 20140512

Address after: Illinois State

Patentee after: MOTOROLA SOLUTIONS, Inc.

Address before: England Hampshire

Patentee before: Motorola solutions UK Ltd.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160309

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC

CX01 Expiry of patent term

Granted publication date: 20040818

CX01 Expiry of patent term