CN1153567A - 基于新字建模的语音识别方法和装置 - Google Patents

基于新字建模的语音识别方法和装置 Download PDF

Info

Publication number
CN1153567A
CN1153567A CN96190450A CN96190450A CN1153567A CN 1153567 A CN1153567 A CN 1153567A CN 96190450 A CN96190450 A CN 96190450A CN 96190450 A CN96190450 A CN 96190450A CN 1153567 A CN1153567 A CN 1153567A
Authority
CN
China
Prior art keywords
word
pronunciation
model
sequence
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN96190450A
Other languages
English (en)
Other versions
CN1130688C (zh
Inventor
R·哈布-乌贝赫
P·拜尔莱因
E·特伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of CN1153567A publication Critical patent/CN1153567A/zh
Application granted granted Critical
Publication of CN1130688C publication Critical patent/CN1130688C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

对于语音识别,一个新字基于子字单元模型的储存目录而得到表示。首先,大量与字相对应的发音得到表示。为了根据发音建立字模型,这些发音由特征向量序列表示。首先,发音用于训练与子字单元模型独立的全字模型。全字模型的长度等于平均发音长度。其次,马尔可夫状态序列和全字模型声学事件的联合概率密度序列可以解释为由平均特征向量串表示的参考模板。最后,通过比较特征向量串和目录中的模型,并储存充当发音模型的识别结果,使该串得到识别。

Description

基于新字建模的语音识别方法和装置
发明领域
本发明涉及用于语音识别的新字表示方法,它基于子字单元模型的储存目录,该方法包含步骤:
表示大量预期与新字相对应的发音,
利用特征向量序列表示发音,并根据发音建立字模型。
在本发明范围内,“字”应当解释为长度或多或少受到限制的任何语言实体,它可以包括简单句、人名及其它名称、和其它条目,以语音形式表示的这些字应当保证机器能够识别。特别是,本发明论述了寻找充当子字单元序列的未知字声音表示的问题,该表示在下文中称之为“改编”。这种改编可以通过提供少量的未知字发音样本及与发音者无关的子字单元模型目录来实现。
如果使用者想利用仅有的几个新字发音,通过对***进行训练而向与发音者无关的识别***添加一个或多个附加字,那么就会产生问题。如果使用特定类型***的预计发音者数目相对地较大并且/或者***相对地廉价,那么与发音者无关的识别是可以使用的。一个典型例子是语音控制电话机,它通常可以识别十个数字和少量的标准术语,此外,使用者还可以对它进行训练,使它能够识别名字或者其它与经常被呼叫的电话分机有关的标号。
在另一个可能只有有限可识别标准字组的例子中,例如二十个字,与发音者无关的语音识别***也是可以使用的。这种***应当由许多不同的发音者进行训练。现在,***可以扩展一些额外的字,它们只适用于非常有限的几个发音训练者,例如不超过三个,但是,要求它们的识别稳定性与原始字组相同。
另一个例子是字母-语音的变换,其中由键盘输入的新字被改编成声音模型。为了提高可靠性,键盘输入的同时还补充了同一个字的声音输入。这种并行表示再次提高了稳定性,在特定的范围内,它还可以解决可靠性的问题,该问题是由表声法误差产生的,或者是由于单个书写字具有两个分别表示不同含义的正确发音而产生的。
特别是,要求所需的最小训练发音数应当很小,例如不超过三个,而且仍然可以保证后续识别的可靠性。问题通常限于只允许增补有限字组,例如至多十个字的***。如果增补的字的数目过高,改编可能会产生引起混淆的结果。另一方面,标准字组可以很大,也可以很小。
发明概述
结果,及于其它事情,本发明的目的是提供一种根据前文得到的方法,其中各种训练发音之间的偏差不会产生有害的影响,因为它们不会利用使用者的错误畸形发音来训练***。结果,根据本发明的一个方面,其特征在于:
第一,利用发音,训练独立于子字单元模型的全字模型,全字模型的长度与平均发音长度相对应,
第二,把第一马尔可夫状态序列和全字模型声学事件的联合概率密度序列解释为由第二平均特征向量序列表示的参考模板,和
第三,通过比较第二序列和目录中的子字单元模型,并储存充当发音模型的识别结果,来识别第二序列。
与此相反,L.R.Bahl等所著的文章,一种构造用于字的声学马尔可夫模型的方法,IEEE语言与音频处理交流,volI,No.4,十月,1993,pp443-452(“A Method for the Construction of Acoustic Markov Models forWords”,IEEE Trans.on Speech and Audio Processing Vol I,No.4,October1993,pp.443-452),描述了基于大量发音的用来生成改编的另一种方法。根据该参考文献,每一个发音产生各自的改编。然后,把所有的相应改编映射到所有的发音,以便寻找最佳改编,最佳改编也就意味着最佳发音。本发明人已经发现,如果全面考虑发音中的声音失真、时间扭曲、尺度变化和其它非一致性,这样的过程将需要处理大量的数据。特别是,在功能有限的设备中,例如,但并不仅仅是,手提电话,在考虑该发明的预计应用时,数据处理将长时间占用设备,在此期间该设备将不能执行其它功能。实际上,已知处理过程所需的处理时间与发音数目的平方成比例,而本发明所需的处理时间只与发音数目成线性关系。
其它相关参考文献是EP-B1-285 222,对应于有关建模的美国专利申请No.07/175,976(PHD87.073),和/EP-A3-533 260,对应于美国专利申请No.07/944,554(PHD91.138),它与在语音识别中所执行的树搜索操作有关,所有这些都已转让给本申请的受让人,并引入作为参考。
此外,本发明的有利实施方案利用了Bahl等的教导,因为在后续步骤中,本发明中实现的基于平均发音的改编将与根据Bahl等的方法生成的各种单音改编进行竞争。在特定范围内,这样做可以进一步改进由上文得到的结果。
本发明还涉及实现该方法的设备。更进一步的优点将在从属权利要求中陈述。
附图简述
本发明的各个方面和优点将在下文中参照优选实施方案,特别是参照附图而进行详述,附图是:
图1是实现识别的***;
图2是实现改编的***;
图3是实现改编的过程流图;
图4是实现改编的设备。
实施方案的概念基础
首先,给出了本发明方法的简化公式。处理过程的起点是提供子字模型的储存目录。现在,在本方法中,具有单密度输出概率(Single-density emissionprobabilities)的分立全字模型由给定的n个发音产生,其中n是一个适当的数值,例如三或者五。该模型可以解释为是由各种发音得到的‘平均发音’ Y,其中平均发音的观测向量是具有与状态有关输出概率密度(state-specificemission probability densities)的平均向量。未知字的改编由子字单元序列给出,该序列以最大可能性生成平均发音 Y:
Tavg=argmaxs∈SP( Y|s)
依次地,该子字单元序列可以从连续语音识别过程中找到。特别是,所选的改编Tavg可以是子字单元序列组S中的任何一个。
在稍宽的方面,首先,本发明利用各种发音来训练全字模型,该模型独立于子字单元模型,并且其长度与平均发音长度相等。其次,全字模型用于从中产生马尔可夫状态序列和声学事件的联合概率密度序列。自然而然地,这种隐式马尔可夫过程表示法已经广泛地应用于语音识别技术。该表示法还产生了发音的子字单元辨别法,这样,解释的结果可以作为由平均特征向量序列组成的模板。依次地,后续序列的元素可以与目录中的子字单元模型相匹配,这样,识别串实际上是平均发音模型,并且可以顺序地用于识别更多的发音。
图1显示了识别口头字的***。在这里,方框20代表待识别的口头字,图中的时间是由左向右流逝的,方框内容是采样语音的时变特征向量。首先,字被划分为如小方块所示的子字单元。各种单元可以是单音、双音、部分音节、全音节、或者甚至是单个特征向量。不必要求子字单元具有声音关联性。这种划分是基于各种上述特征向量而实现的,并且可以按照传统的方法进行。划分由垂直线表示,由于混合使用长字单元和短字单元是可行的,所以这种划分不必是等间距的,如图中所示。其次,从待分析字的一端开始,子字单元与储存在目录22中的条目进行比较,该目录是通过分析大量的语音而建立起来的。自然而然地,这种分析方法在本发明范围之外,本发明只是使用它。各个连续子字单元可以生成与一个或多个与目录条目的匹配。
现在,每一种匹配还产生一个评分,该评分取决于两个匹配条目间的不相关程度,这样,低评分表示匹配较好,反之亦然。而且,评分取决于语言模型,该模型表示字的具体链接的概率。低概率产生高评分,反之亦然。根据一个策略,按照这种方式,树由各种可能的已识别子字链接而建立起来,这种链接具有智能分枝评分的能力。一种删改机制用于中止和切断树的这种分枝,该分枝利用它们的高评分表示极低的相关识别概率。当正好在某一点,对于不同的特定分配不再有类似的可能性时,那么就已经识别出了待分析的字或部分字,除非相关评分表示一种不切实际的极低概率。后者将导致放弃未识别的语音部分并且复位评分。利用符号表示法,各种方法得到显示,每一个点表示一种子字到来自存储***22相关列的条目的分配。应当清楚的是,图中的表示完全是象征性的。各种其它的评分和搜索策略也是可行的。
图2显示了实现改编的***,该***基于使用者对(假设)同一字的三种发音(30,32,34)。使用者可以是同一个人也可以不是。首先,确定发音长度,例如通过计算每个发音的均匀间隔样本数目,然后计算它的平均长度。其次,独立于子字模型目录的、具有平均发音长度的全字模型(36)利用各种发音而得到训练。这种训练可以通过标准语音识别训练方法实现。再次,这种训练结果通过马尔可夫状态序列和全字模型语音事件的联合概率密度序列而得到解释。结果(38)是表示为一系列平均特征向量的参考模板。然后,这种声音模型起到模板的作用,即作为一些平均发音。然后,后一个序列通过与目录22中的各种子字单元模型的比较而被识别,结果(40)是用于后续语音的模型。
最后,新字的改编通过寻找与平均特征向量序列匹配最佳的子字单元序列而生成,它与用于图1的过程相同。然而,与图1相反的是,通常没有语音模型可以利用,因为没有关于发音特性的先验知识:它可以是一个单字,或者是复合词,例如在上述电话***中被呼叫人的姓和名。然而在其它范围内,这种语言模型可以用于可能的子字单元序列。
声音模型可用于识别,因为声音模型通常不需要依赖于基本音节的含义。如果平均发音的识别评分特别地高,因此它表示极低的识别概率,使用者将被告知,例如通过声音消息或者指示灯:训练失败,必须进行新的训练。如果训练成功,已识别的子字单元串储存在目录中,由方框40表示,随后还是通过声音消息或者指示灯,使用者被要求指定与基于后续识别的串40相联系的电话分机号码。这种特点允许进行语音控制拨号,其中,改编用来识别正对***进行过训练的字。
图3显示了实现改编的流图。在方框60,初始化***,特别是通过提供子字模型目录和复位操作参数来初始化***。在方框62中,***检测是否接收到话音。如果是否定,等待循环使***再次返回到方框62。如果是肯定,在方框64,对发音进行采样,并且在把样本表示为特征向量之后储存发音。在方框66,***检查预期的合格发音数目是否达到适当的值,例如三个。另一个策略是检测‘执行’命令。如果是否定,***再一次返回到方框62等待另外的发音。在方框68,发音的全字模型通过各种接收到的发音而得到训练,而不依赖于目录,模型的长度是各种发音的平均值。然后,在方框70,由马尔可夫状态序列和声学事件的联合概率密度序列表示的全字模型被解释为由平均特征向量序列给出的参考模板。然后,在方框72,后一序列通过与目录中子字单元模型的比较而得到识别。然后,这允许辨别作为发音之一而在以后被接收的发音,这些发音已经由子字模型串表示。下一步,在方框76,***检测是否仍然有新发音需要接收,并依次地进行处理。如果还没有准备好,那么***返回到方框62。如果已经准备好,或者,利用一些‘结束’命令,***通过终止方框78而退出。
图4显示了实现本发明改编的设备。方框80是一些麦克风或其它用于语音输入的设备。方框82实现对接收发音的周期采样,它可以包含只在有效地接收到语音时用于实现采样的语音检测器。方框84根据样本流产生语音特征的特征向量。结果,***包含各种常规元件,例如带通滤波器、A/D改编器,这样,特征向量基本上成为后续处理的有用工具。在方框86,发音的特征向量串存储于相应的子块A、B、C。通过对该存储器的复合存取,训练块88训练长度与平均发音长度相对应的全字模型。这还需要排列各种发音表示。自然而然地,单一发音建模已经公开于上文中的引用技术。然后,方框90解释从方框88接收到的全字模型,特别是该模型包含马尔可夫状态序列和全字模型中声学事件的联合概率密度分布序列。解释的结果是包含平均特征向量序列的参考模板。最后,方框92存取方框96中的子字单元存储目录,通过与存储子字单元模型的特定序列进行比较来识别由方框90接收到的模板。方框94根据需要与各种其它设备相连。例如,它可以包含用于存储来自方框96的子字模型序列的额外存储器,该子字模型序列与用于后续识别的发音有关,这样在翻译成特征向量之后,后续接收的单个发音可以直接与特定子字单元模型比较。
一些附加的、然而是任选的用户接口设备已经显示在图中。方框98是电话键盘。通常,这是十二键设备。在储存与后续发音相关的子字单元模型序列之后,电话分机号码的键入将把这个发音和键入数字联系起来,结果,允许在相关标号发音的语音输入的控制下激活这个号码。方框100是一个字母键盘,例如字母数字混合的QWERTY。在方框102中的文本输入导致字母-语音的变换,这自然是一个常规的特点。所使用的语音已经根据目录存储器96中的子字单元建模而被模型化。变换器102的输出被提供给识别方框92。这样,字母-语音的变换可以通过本发明话音-语音的表示而得到加强,例如,在具有不同拼写的外国名字的条件下。在其它方向加强也是可能的,因为在话音中可能很难识别一个特定的字。

Claims (6)

1 一种用于语音识别的新字表示方法,基于子字单元模型的储存目录,该法包含步骤:
表示大量与预期新字相对应的发音,
利用特征向量序列表示发音,并根据发音建立字模型,其特征在于:
第一,利用发音,训练独立于子字单元模型的全字模型,全字模型的长度与平均发音长度相对应,
第二,把第一马尔可夫状态序列和全字模型声学事件的联合概率密度序列解释为由第二平均特征向量序列表示的参考模板,和
第三,通过比较第二序列和目录中的子字单元模型,并储存充当发音模型的识别结果,来识别第二序列。
2 一种用于语音识别的新字表示方法,其中建模操作被实现,因为每一个发音序列都由它自己的改编表示,所有相应的改编作为候选者被映射到所有的发音以便发现最佳改编,最佳改编还意味着最佳发音,和根据权利要求1的作为又一候选者的表示结果。
3 一种用于语音识别的新字表示设备,它基于子字单元模型的存储目录,该设备包含:
输入装置,用于接收大量的与预期字完全相应的发音,
表示装置,用于利用特征向量序列表示发音并根据发音建立字模型,其特征在于
训练装置,由输入装置提供输入,利用发音,用来训练与子字单元模型独立的全字模型,全字模型的长度与平均发音长度相对应,
解释装置,由训练装置提供输入,把第一马尔可夫状态序列和全字模型声学事件的联合概率密度序列解释为由第二平均特征向量序列表示的参考模板,和
识别装置,通过比较第二序列和目录中的子字单元模型,并储存充当发音模型的识别结果,来识别第二序列,
和第一输出装置,由识别装置提供输入,用于输出识别结果,以便作为与后续发音进行比较的基础。
4 根据权利要求4的设备,具有电话功能并允许数字智能语音激活拨号,发音表示缩写拨号的标号。
5 根据权利要求3的设备,其中目录允许标准字组的与发音者无关的识别,此外,还可以按照可与标准字组相比拟的识别稳定性来识别新字。
6 根据权利要求3的设备,具有带有第二输出装置的字母-语音变换器,该变换器向识别装置提供输入,以便在总体上确保提高字母-语音变换器的性能。
CN96190450A 1995-05-03 1996-05-02 基于新字建模的语音识别方法和装置 Expired - Fee Related CN1130688C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP95201139.3 1995-05-03
EP95201139 1995-05-03

Publications (2)

Publication Number Publication Date
CN1153567A true CN1153567A (zh) 1997-07-02
CN1130688C CN1130688C (zh) 2003-12-10

Family

ID=8220249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN96190450A Expired - Fee Related CN1130688C (zh) 1995-05-03 1996-05-02 基于新字建模的语音识别方法和装置

Country Status (6)

Country Link
US (1) US5873061A (zh)
EP (1) EP0769184B1 (zh)
JP (1) JPH10503033A (zh)
CN (1) CN1130688C (zh)
DE (1) DE69607913T2 (zh)
WO (1) WO1996035207A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101027716B (zh) * 2004-09-23 2011-01-26 皇家飞利浦电子股份有限公司 健壮的说话者相关的语音识别***
CN106548787A (zh) * 2016-11-01 2017-03-29 上海语知义信息技术有限公司 优化生词的评测方法及评测***

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100397435B1 (ko) * 1996-07-20 2003-12-24 엘지전자 주식회사 음성인식시스템에서새로운등록단어처리가가능한클래식를이용한언어학적모델처리방법
DE19751123C1 (de) * 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
US5927988A (en) 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
CN1343337B (zh) * 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
DE60026637T2 (de) * 1999-06-30 2006-10-05 International Business Machines Corp. Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
DE19952049A1 (de) * 1999-10-28 2001-05-10 Siemens Ag Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
JP3689670B2 (ja) * 1999-10-28 2005-08-31 キヤノン株式会社 パターン整合方法及び装置
US6434547B1 (en) 1999-10-28 2002-08-13 Qenm.Com Data capture and verification system
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US6961703B1 (en) * 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
GB0204474D0 (en) * 2002-02-26 2002-04-10 Canon Kk Speech recognition system
DE102005002474A1 (de) 2005-01-19 2006-07-27 Obstfelder, Sigrid Handy und Verfahren zur Spracheingabe in ein solches sowie Spracheingabebaustein und Verfahren zur Spracheingabe in einen solchen
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
US9570069B2 (en) * 2014-09-09 2017-02-14 Disney Enterprises, Inc. Sectioned memory networks for online word-spotting in continuous speech
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
WO2019077013A1 (en) 2017-10-18 2019-04-25 Soapbox Labs Ltd. METHODS AND SYSTEMS FOR PROCESSING AUDIO SIGNALS CONTAINING VOICE DATA

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5165007A (en) * 1985-02-01 1992-11-17 International Business Machines Corporation Feneme-based Markov models for words
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
JP2955297B2 (ja) * 1988-05-27 1999-10-04 株式会社東芝 音声認識システム
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
US5454062A (en) * 1991-03-27 1995-09-26 Audio Navigation Systems, Inc. Method for recognizing spoken words
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
EP0562138A1 (en) * 1992-03-25 1993-09-29 International Business Machines Corporation Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US5528728A (en) * 1993-07-12 1996-06-18 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and DTW matching technique
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5429513A (en) * 1994-02-10 1995-07-04 Diaz-Plaza; Ruth R. Interactive teaching apparatus and method for teaching graphemes, grapheme names, phonemes, and phonetics
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101027716B (zh) * 2004-09-23 2011-01-26 皇家飞利浦电子股份有限公司 健壮的说话者相关的语音识别***
CN106548787A (zh) * 2016-11-01 2017-03-29 上海语知义信息技术有限公司 优化生词的评测方法及评测***
CN106548787B (zh) * 2016-11-01 2019-07-09 云知声(上海)智能科技有限公司 优化生词的评测方法及评测***

Also Published As

Publication number Publication date
CN1130688C (zh) 2003-12-10
JPH10503033A (ja) 1998-03-17
EP0769184B1 (en) 2000-04-26
US5873061A (en) 1999-02-16
WO1996035207A1 (en) 1996-11-07
EP0769184A1 (en) 1997-04-23
DE69607913D1 (de) 2000-05-31
DE69607913T2 (de) 2000-10-05

Similar Documents

Publication Publication Date Title
CN1130688C (zh) 基于新字建模的语音识别方法和装置
US9965552B2 (en) System and method of lattice-based search for spoken utterance retrieval
US5991720A (en) Speech recognition system employing multiple grammar networks
US5293584A (en) Speech recognition system for natural language translation
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
US5502791A (en) Speech recognition by concatenating fenonic allophone hidden Markov models in parallel among subwords
US5729656A (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
US5732187A (en) Speaker-dependent speech recognition using speaker independent models
WO1996037881A2 (en) Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
JP2002540477A (ja) クライアント−サーバ音声認識
JPH0583918B2 (zh)
US5680509A (en) Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
CA2136369A1 (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
CN1264468A (zh) 给用户提供声音反馈的可扩展语音识别***
EP1922653A1 (en) Word clustering for input data
Hori et al. Fast on-the-fly composition for weighted finite-state transducers in 1.8 million-word vocabulary continuous speech recognition.
Alvarez et al. Development and evaluation of the ATOS spontaneous speech conversational system
US20080103775A1 (en) Voice Recognition Method Comprising A Temporal Marker Insertion Step And Corresponding System
Ström Continuous speech recognition in the WAXHOLM dialogue system
Roucos et al. A stochastic segment model for phoneme-based continuous speech recognition
Álvarez et al. Speech Technology Group
Georgila et al. Fast very large vocabulary recognition based on compact DAWG-structured language models.
Li et al. Large list recognition using voice search framework
CA2256781A1 (en) Method and apparatus for automatically dialling a desired telephone number using speech commands
Georgila et al. Large Vocabulary Search Space Reduction Employing Directed Acyclic Word Graphs and Phonological Rules

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee