CN101221759B - 使用隐含语者自适应的语音识别*** - Google Patents

使用隐含语者自适应的语音识别*** Download PDF

Info

Publication number
CN101221759B
CN101221759B CN200710196697.4A CN200710196697A CN101221759B CN 101221759 B CN101221759 B CN 101221759B CN 200710196697 A CN200710196697 A CN 200710196697A CN 101221759 B CN101221759 B CN 101221759B
Authority
CN
China
Prior art keywords
acoustic model
person
template
evaluation
coupling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN200710196697.4A
Other languages
English (en)
Other versions
CN101221759A (zh
Inventor
N·马拉亚
A·P·德雅柯
C·张
S·贾里尔
毕宁
H·加鲁达德里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN101221759A publication Critical patent/CN101221759A/zh
Application granted granted Critical
Publication of CN101221759B publication Critical patent/CN101221759B/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Complex Calculations (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及使用隐含语者自适应的语音识别***。具体地,揭示了一种语音识别(VR)***,该***采用语者无关(SI)(230和232)和语者特定(SD)(234)的声学模型的组合。至少一个SI声学模型(230和232)用于和至少一个SD声学模型(234)的组合,以提供至少与纯SI声学模型的语音识别性能相同的水平。所揭示的SI/SD VR***可连续使用非监督式的训练,来更新在一个和多个SD声学模型(234)中的声学模板。混合的VR***随后使用与至少一个SI声学模型(230和232)组合的经更新的SD声学模型(234),在VR测试过程中提供改良的VR性能。

Description

使用隐含语者自适应的语音识别***
本申请是申请号为02810586.9,国际申请日为2002年3月22日,发明名称为“使用内置式扬声器的语音识别***”的发明申请的分案申请。
背景技术
技术领域
本发明涉及语音信号的处理。更具体的说,本发明涉及通过非监督式训练来获得性能改善的新颖语音识别方法和装置。
技术背景
语音识别是最重要的技术之一,它可赋予机器以模拟智能,用于识别用户的语音命令且便于作为人类与机器的接口。采用从声学语音信号中恢复语言信息的技术的***被称为语音识别(VR)***。图1显示了基本的VR***,它包括:预加重滤波器102,声学特征提取(AFE)单元104,以及模式匹配引擎110。AFE单元104将一系列数字语音样本转变为一组测量数值(例如,被提取的频率分量),该测量数值可称之为声学特征矢量。模式匹配引擎110将一系列声学特征矢量与在VR声学模型112中所包含的模板相匹配。VR模式匹配引擎一般采用动态时间规整(DTW,Dynamic Timing Warping)或隐马尔可夫(Markov)模型(HMM)技术。DTW或HMM都是在本领域中所熟悉的,并且在Rabiner,L.R和Juang,B.H编著的《语音识别的基础》(Prentic Hall出版,1993年出版)中详细讨论了。当一系列声学特征与在声学模型112中所包含的一个模板相匹配时,可用该被识别的模板产生所希望的输出格式,例如,对应于输入语音的语言词汇的识别序列。
正如以上所指出的,声学模型112一般是HMM模型或者DTW模型。DTW声学模型可以认为是与需要识别的各种词汇有关的模板数据库。一般来说,DTW模板包括特征矢量的序列,该特征矢量序列是根据许多相关词汇的例子加以平均的。DTW模式匹配一般会涉及到将具有最小距离的存储模板置于表示输入语音的输入特征矢量序列中。在基于HMM的声学模型中使用的模板包含了对相关语音发音的详细统计描述。一般来说,HMM模板存储了一系列的平均矢量、方差矢量和一组转变的概率。这些参数可用于描述语音单元的统计并且是从许多语音单元的例子中估算出来的。HMM模式匹配一般涉及到根据与输入语音相关的输入特征矢量系列,为模型中的各个模板生成概率。具有最高概率的模板可选择为最类似输入的发音。
“训练”是指从一个和多个语者的特殊语音片段和音节中收集语音样本以便于产生声学模型112中的模板的过程。在声学模型中的各种模板与称为发音种类的特殊词汇或语音片段有关。在与同一发音种类有关的声学模型中可以有许多模板。“测试”是指将声学模型中的模板与从输入语音中提取的特征矢量序列相匹配的过程。给定***的性能很大程度上取决于最终用户的输入语音和数据库中的内容之间的匹配程度,因此,也取决于在通过训练所产生的参考模板和用于VR测试的语音样本之间的匹配。
两种常用类型的训练是监督式训练和非监督式训练。在监督式训练中,与各组训练特征矢量有关的发音种类是先验已知的。提供输入语音的语者通常具有对应于预定发音种类的词汇和语音片段的原稿。随后,朗读原稿所产生的特征矢量可以合并到与正确发音种类有关的声学模型模板中。
在非监督式训练中,与一组训练特征矢量有关的发音种类不是先验已知的。在一组训练特征矢量可以合并到正确的声学模型模板中之前,必须正确地识别发音种类。在非监督式训练中,在对一组训练特征矢量识别发音种类时发生错误会导致在错误的声学模型模板中引起变化。此类错误一般会降低,而不是提高语言识别性能。为了能避免这类错误,基于非监督式训练的声学模型的任何变化一般都必须非常小心地来进行。只有具有相当高的可信程度认为已经正确识别了发音种类,则该组训练特征量才可以合并到声学模型中。这类必要的保守使得通过非监督式训练来构成SD声学模型是一个非常慢的处理过程。直到SD声学模型采用该方法来构成,VR性能或许对大多数用户是难以接受的。
最佳的是,最终的用户在训练和测试过程中提供语音声学特征矢量,使得声学模型112能与最终用户的语音有力匹配。适用于单个语者的个性化声学模型也可称为语者特定(SD)声学模型。产生SD声学模型一般要求最终用户能提供大量监督式训练样本。首先,用户必须为许多不同的发音种类提供训练样本。同样,为了获得最好的性能,最终用户必须为各个发音种类提供表示各种可能的声学环境的多个模板。因为大多数用户不能或者不希望提供产生SD声学模型所需的输入语音,所以许多现有的VR***使用广义的声学模型作为替代,该模型是采用许多“代表性”语者的语音来训练的。这类声学模型可称为语者无关(SI)声学模型,并且可设计成对广泛范围的用户都具有最好的性能。然而,SI声学模型并不是对任何一个用户都是最佳的。使用SI声学模型的VR***对特殊的用户并不能像使用适合于该用户的SD声学模型的VR***那样工作。对某些用户来说,例如,具有强烈的外地口音的用户,使用SI声学模型的VR***的性能就非常差,以致于根本不能有效地使用VR的服务。
最佳的是,对各个个性的用户产生SD声学模型。正如以上所讨论的,使用监督式训练来构成SD声学模型是不实际的。但是,使用非监督式训练来产生SD声学模型会花费很长的时间,在这过程中,基于部分SD声学模型的VR性能将是非常差的。因此,本领域需要一种VR***,该***能在使用非监督式训练来产生SD声学模型之前或过程中比较好地工作。
发明内容
本文所揭示的方法和装置提出了一种新颖和改进的语音识别(VR)***,该***采用了语者无关(SI)和语者特定(SD)声学模型的组合。将至少一个SI声学模型与至少一个SD声学模型组合使用,以使得所提供的语音识别性能的水平至少等于纯SI声学模型的水平。所揭示的混合SI/SD VR***可继续使用非监督式训练来更新在一个或多个SD声学模型中的声学模板。混合的VR***随后单独或与至少一个SI声学模型组合使用更新的SD声学模型,以便于在VR测试过程中提供改进的VR性能。
本文所使用的术语“示例”是指“用作一个例子、实例、或说明”。作为“示例性实施例”所讨论的任何实施例并不一定解释为好过或胜过其它实施例。
附图的简要说明
从结合附图所阐明的详细讨论中,本发明所揭示的方法和装置的性能、目标和优点将变得显而易见,在附图中,类似的参考符号将标示所对应的部件,其中:
图1示出基本语音识别***;
图2示出根据示例性实施例的语音识别***;
图3示出用于进行非监督式训练的方法;
图4示出用于产生在非监督式训练中所使用的组合匹配评价的示例性方法;
图5是示出使用语者无关(SI)和语者特定(SD)匹配评价两者来进行语音识别(测试)方法的流程图;
图6示出用于从语者无关(SI)和语者特定(SD)匹配评价中产生组合匹配评价的方法。
具体实施方法
图2显示了可以在无线远程站202中实现的混合语音识别(VR)***的示例性实施例。在该示例性实施例中,远程站202通过无线信道(未显示)与无线通信网络(未显示)通信。例如,远程站202可以是与无线电话***通信的无线电话。在本领域的专业人士会意识到,本文所讨论的技术可以同样应用于固定(不是便携的)的VR***或者不包括无线信道。
在所示的实施例中,来自用户的语音信号在麦克风(MIC)210中转换成电信号,并且在模拟数字变换器(ADC)212转换成数字语音样本。该数字样本流随后使用预加重(PE)滤波器214进行滤波,例如,可以采用衰减低频信号分量的有限脉冲响应(FIR)滤波器。
滤波后的样本随后在声学特征提取(AFE)单元216中进行分析。该AFE单元216将数字语音样本转换成声学特征矢量。在示例性实施例中,AFE单元216对具有连续的数字样本的片段进行傅立叶变换,以产生对应于不同频率箱的信号强度的矢量。在示例性实施例中,频率箱可以根据巴克标度(bark scale)来变化带宽。在巴克标度中,各个频率箱的带宽具有与箱的中心频率有关的关系,使得更高频率箱可具有比较低频率箱更宽的频率带宽。在Rabiner,L.R和Juang,B.H编著的《语音识别的基础》(Prentic Hall出版,1993年出版)讨论了巴克标度。
在示例性实施例中,各个声学特征矢量是从在固定时间间隔中所收集的一系列语音样本中提取的。在示例性实施例中,这些时间间隔是重叠的。例如,声学特征可以从每个10毫秒开始的语音数据的20毫秒间隔中获得,使得每两个连续的间隔都可以公用10毫秒的片段。在本领域中的专业人士都会意识到,可以在不脱离本文所揭示实施例的范围的条件下,时间间隔可以被替换成非重叠的或者具有非固定的周期。
由AFE单元216所产生的声学特征矢量可提供给VR引擎220,该引擎进行模式匹配,以便根据一个和多个声学模型230、232和234的内容表征声学特征矢量的特征。
在图2所示的示例性实施例中,显示了三个声学模型:语者无关(SI)隐马尔可夫模型(HMM)的模型230,语者无关动态时间规整(Dynamic Time Warping)(DTW)模型232,以及语者特定(SD)声学模型234。本领域的专业人士将会意识到,在其它实施例中可以使用SI声学模型的不同组合。例如,远程站202可以仅包括SIHMM声学模型230和SD声学模型234,而省去了SIDTW声学模型232。另外,远程站202可以包括单个的SIHMM声学模型230,一个SD声学模型234和两个不同的SIDTW声学模型232。另外,本领域的专业人士将会意识到,SD声学模型234可以是HMM类型的或者是DTW类型的或者是两者的组合。在示例性实施例中,SD声学模型234是DTW声学模型。
正如以上所讨论的,VR引擎220进行模式匹配,以确定在声学特征矢量和一个或多个声学模型230、232和234的内容之间的匹配程度。在示例性实施例中,VR引擎220根据声学特征的矢量与在各个声学模型230、232和234中的不同声学模板的匹配来产生匹配的评价。例如,VR引擎220根据一组声学特征矢量与在SIHMM声学模型230中的多个HMM模板的匹配来产生HMM匹配的评价。同样,VR引擎220根据声学特征的矢量与在SIDTW声学模型232中的多个DTW模板的匹配来产生DTW匹配的评价。VR引擎220根据声学特征矢量与在SD声学模型234中的模板的匹配来产生匹配的评价。
正如以上所讨论的,在声学模型中的各个模板是与发音种类有关的。在一个示例性实施例中,VR引擎220组合了与相同发音种类有关的模板的评价,以产生将在非监督式训练中使用的组合匹配评价。例如,VR引擎220组合了通过使一组输入的声学特征矢量相关所获得的SIHMM和SIDTW的评价,从而产生组合的SI评价。根据该组合的匹配评价,VR引擎220确定是否存储该组输入的声学特征矢量作为在SD声学模型234中的SD模板。在一个示例性实施例中,使用独特的SI匹配评价来进行用于更新SD声学模型234的非监督式训练。这就防止了在对其本身进行非监督式训练而使用扩展的SD声学模型234所引发的其它差错。进行非监督式训练的示例性方法将在下文中作更详细的讨论。
除了非监督式训练之外,VR引擎220在测试过程中使用了各种声学模型(230,232和234)。在示例性实施例中,VR引擎220从声学模型(230,232和234)中检索匹配的评价,并且产生适用于各个发音种类的组合匹配评价。组合匹配评价可用于选择最佳匹配于输入语音的发音种类。VR引擎220根据需要将连续发音种类集合在一起,以识别整个词汇或短语。随后,VR引擎220将有关识别的词汇或短语的信息提供给控制处理器222,该处理器222使用该信息来确定对语音信息或命令的适当响应。例如,响应于所识别的词汇或短语,控制处理器222可以提过显示器或其它用户接口向用户提供反馈。在另一个实施例中,控制处理器222可以通过无线调制解调器218和天线224向无线网络(未显示)发送信息,开始对与被发音和被识别的人的名字有关的目标电话号码的移动电话呼叫。
无线调制解调器218可以通过包括CDMA、TDMA或FDMA的多种无线信道类型中的任何一种来发送信号。此外,无线调制解调器218可以采用通过非无线信道通信的其它类型的通信接口来替代,这并不脱离所揭示实施例的范围。例如,远程站202可以通过任何一类通信信道来发送信令信息,其中:通信信道的类型可以包括地面-有线调制解调器、T1/E1、ISDN、DSL、以太网、或者甚至是印刷电路板(PCB)上的线径。
图3是显示进行非监督式训练的示例性方法的流程图。在步骤302,模拟数字转换器(ADC)(图2中212)采样模拟语音数据。随后,在步骤304,使用预加重(PE)滤波器(图2中的214)滤波数字样本流。在步骤306,声学特征提取(AFE)单元(图2中的216)从滤波后的样本中提取输入的声学特征矢量。VR引擎(图2中的220)接收来自AFE单元216的输入声学特征矢量,并且进行输入声学特征矢量与SI声学模型(图2中的230和232)中的内容的模式匹配。在步骤308,VR引擎220从模式匹配的结果中产生匹配的评价。VR引擎220通过输入声学特征矢量与SIHMM声学模型230的匹配产生SIHMM匹配评价,并且通过输入声学特征矢量与SIDTW声学模型232的匹配产生SIDTW匹配评价。在SIHMM和SIDTW声学模型(230和232)中的各个声学模板都与特定的发音种类相关。在步骤310,对SIHMM和SIDTW评价进行组合,以形成组合匹配评价。
图4显示了在非监督式训练中使用的组合匹配评价的产生。在示例性实施例中,关于一特定发音种类的语者无关组合匹配评价SCOMB_SI是根据图示的等式1的加权和,其中:
SIHMMT是目标发音种类的SIHMM匹配评价;
SIHMMNT是适用于SIHMM声学模型中与非目标发音种类(不是目标发音种类的发音种类)有关的模板的下一个最佳匹配评价;
SIHMMG是适用于“垃圾(garbage)”发音种类的SIHMM的匹配评价。
SIDTWT是目标发音种类的SIDTW匹配评价;
SIDTWNT是适用于SIDTW声学模型中与非目标发音种类有关的模板的下一个最佳匹配;以及,
SIDTWG是适用于“垃圾”发音种类的SIDTW的匹配评价。
各种个体的匹配评价SIHMMn和SIDTWn可以被视为表示在一系列输入声学特征矢量和声学模型中一模板之间的距离值。输入声学特征矢量和模板之间的距离越长,则匹配的评价就越大。模板和输入声学特征矢量之间的紧密匹配会产生非常低的匹配评价。如果将一系列输入声学特征矢量与两个和不同发音种类相关的模板比较且产生近似相等的两个匹配评价,则VR***就不能识别哪一个是“正确”的发音种类。
SIHMMG和SIDTWG是适用于“垃圾”发音种类的匹配评价。与垃圾发音种类相关的一个模板或多个模板都称为垃圾模板并且不会对应于具体的词汇和短语。正是这个原因,它们对所有的输入语音都同样趋于不正确,垃圾匹配评价作为一种在VR***中的噪声水平的测量是非常有用的。一般来说,在可以确信能识别发音种类之前,一系列的输入声学特征矢量对与目标发音种类相关的模板的匹配程度应该比与垃圾模板的匹配程度好得多。
在VR***可以确信识别出一个发音种类为“正确”的发音种类之前,输入声学特征矢量对与该发音种类相关的模板的匹配程度应该比对与其它发音种类相关的垃圾模板和其他模板有关的匹配程度更高。比基于单一声学模型的匹配评价相比,从各种声学模型中产生的组合匹配评价可以在发音种类之间得到更加确定的区分。在示例性实施例中,VR***使用这类组合匹配评价来确定是否采用从一组新的输入声学特征矢量中获得的模板来取代在SD声学模型(图2中的234)中的模板。
可以选择加权因子(W1...W6)来提供在整个声学环境中的最佳训练性能。在示例性实施例中,加权因子(W1...W6)在所有的发音种类中都是恒定的。换句话说,用于产生第一目标发音种类的组合匹配评价所使用的Wn和用于产生另一个目标发音种类的组合匹配评价所使用的Wn是相同的。在另一个实施例中,加权因子根据目标发音种类而变化。对本领域的专业人士来说,进行图4所示组合的其他方法是显而易见的,并且可以视为在本文所讨论实施例的范围中。例如,也可以使用大于6或小于6的加权输入。另一个显而易见的变化是根据一类声学模型来产生组合的匹配评价。例如,根据SIHMMT,SIHMMNT和SIHMMG来产生组合匹配评价,或者根据SIDTWT,SIDTWNT和SIDTWG来产生组合匹配评价。
在示例性实施例中,W1和W4是负数,并且SCOMB的较大(即负得较少)数值表示在目标发音种类和一系列输入声学特征矢量之间有较大程度的匹配(较小的距离)。在本领域中的专业人士会意识到,在不脱离所揭示实施例的范围的条件下,加权因子的符号可以容易地重新设置,使得较大程度的匹配可以对应较小的数值。
再返回到图3,在步骤310,为与HMM和DTW声学模型(230和232)中的模板相关的发音种类产生组合匹配评价。在示例性实施例中,只为与最佳的n个SIHMM匹配评价相关的发音种类和与最佳的m个SIDTW匹配评价相关的发音种类产生组合匹配评价。为保存计算资源,此限制是需要的,即使在产生各个匹配评价时需消耗大量的计算功率。例如,如果n=m=3,可以为与最好的三个SIHMM匹配评价相关的发音种类和与最好的三个SIDTW匹配评价相关的发音种类产生组合匹配评价。根据与最好的三个SIHMM匹配评价相关的发音种类是否和与最好的三个SIDTW匹配评价相关的发音种类相同,此方法会产生三个至六个不同的组合匹配评价。
在步骤312,远程站202将组合匹配评价与所对应的模板一起存储在SD声学模型中的组合匹配评价进行比较。如果对于相同的发音种类,新的输入声学特征矢量系列比存储在SD模板中的旧的模板具有更大的匹配程度,那么从新的输入声学特征矢量系列中产生新的SD模板。在SD声学模型是DTW声学模型的实施例中,输入声学特征矢量系列自身就构成新的SD模板。随后,用新的模板替代旧的模板,并且将与新的模板有关的组合匹配评价存储在SD声学模型中,供以后比较使用。
在替换的实施例中,非监督式训练用于更新语者特定隐马尔可夫模型(SDHMM)的声学模型中的一个和多个模板。该SDHMM声学模型可以代替SDDTW模型使用,或者除了SDDTW模型以外,也在SD声学模型234中使用。
在示例性实施例中,在步骤312中的比较还包括将预期的新SD模板的组合匹配评价与恒定训练阈值进行比较。即使在SD声学模型中还没有存储任何适用于一特定发音种类的模板,则新的模板也不能存储在SD声学模型中,除非它具有比训练阈值的数值更好的组合匹配评价(表示匹配程度更大)。
在替换的实施例中,在替代SD声学模型中的任何模板之前,SD声学模型一般是由SI声学模型的模板来定义的。这样的初始化提供了一种替换方法,用于保证使用SD声学模型的VR性能在开始时至少和只使用SI声学模型的VR性能一样好。随着越来越多的在SD声学模型中的模板被更新,使用SD声学模型的VR性能会超越只使用SI声学模型的VR性能。
在替换的实施例中,VR***允许用户进行监督式训练。用户必须在进行这类监督式训练之前将VR***置于监督式训练的模式。在监督式训练的过程中,VR***具有正确发音种类的先验知识。如果关于输入语音的组合匹配评价好于为该发音种类在先存储的SD模板的组合匹配评价,则用输入语音形成替换的SD模板。在替换的实施例中,VR***允许用户在监督式训练过程中强制替换现有的SD模板。
SD声学模型可以采用适用于单个发音种类的多个(两个或多个)模板的情况来设计。在替换的实施例中,在SD模型中为每个发音种类存储了两个模板。因此,在步骤312所作的比较必然将用新模板所获得的匹配评价与为SD声学模型中关于相同发音种类的两个模板所获得的匹配评价进行比较。如果新的模板比在SD声学模型中任何一个较旧的模板具有更好的匹配评价,则在步骤314,具有最差匹配评价的SD声学模型模板可采用该新的模板来替代。如果新的模板的匹配评价没有两个旧的模板好,则跳过步骤314。另外,在步骤312,将用新的模板所获得的匹配评价与匹配评价的阈值进行比较。如此地,在用新的模板来覆盖SD声学模型的原先内容之前,进行新的模板与该阈值数值的比较,直到新的模板具有比存储在SD声学模型中的阈值更好的匹配评价。可以预料各种显而易见的变化,例如,根据组合匹配评价按分类次序存储SD声学模型模板以及将新的匹配评价与最低的匹配评价进行比较,这些变化被认为在本文所揭示的实施例的范围内。还可以预料对于存储在声学模型中的关于各个发音种类的模板数的各种显而易见的变化。例如,SD声学模型可以对于各个发音种类包含多于两个的模板,或者可以对于不同发音种类包含不同数量的模板。图5是显示了采用SI和SD声学模型的组合来进行VR测试的示例性方法的流程图。步骤302,304,306和308与图3的讨论相同。在步骤510,该示例的方法不同于图3所示的方法。在步骤510,VR引擎220根据输入特征矢量与在SD声学模型中模板的比较来产生SD匹配评价。在示例性实施例中,只为与最佳n SIHMM匹配评价和最佳m SIDTW匹配评价相关的发音种类产生SD匹配评价。在示例性实施例中,n=m=3。根据在两组发音种类之间的重叠程度,这可以导致为三个至六个发音种类产生SD匹配评价。正如以上所讨论的,SD声学模型可以包含单个发音种类的多个模板。在步骤512,VR引擎220产生混合的组合匹配评价,供在VR测试中使用。在示例性实施例中,这些混合的组合匹配评价是基于各个SI和各个SD匹配评价两者的。在步骤514,可选择具有最佳组合匹配评价的词汇或发音,并且将其与测试阈值相比较。如果某个发音的组合匹配评价超过了测试阈值,只认为识别出该发音。在示例性实施例中,用于产生训练用组合评价的加权[W1...W6](如图4所示)与用于产生测试用组合评价的加权[W1...W6](如图6所示)是相同的,但是训练的阈值不同于测试的阈值。
图6显示了在步骤512所进行的混合的组合匹配评价的产生。所示的示例性实施例的操作雷同于图4所示的组合器,除了采用加权因子W4应用于DTWT以替代SIDTWT以及采用加权因子W5应用于DTWNT以替代SIDTWNT。从与目标发音种类相关的SIDTW和SDDTW最佳评价中选择DTWT(适用于目标发音种类的动态时间规整匹配评价)。类似地,从与非目标发音种类相关的SIDTW和SDDTW最佳评价中选择DTWNT(适用于其余非目标发音种类的动态时间规整匹配评价)。
适用于特殊发音种类的SI/SD混合评价SCOMB_H是根据图示EQN.2的加权和,式中:SIHMMT,SIHMMNT,SIHMMG和SIDTWG与EQN.1中的SIHMMT,SIHMMNT,SIHMMG和SIDTWG是相同的。特别是,在EQN.2中:
SIHMMT是目标发音种类的SIHMM匹配评价;
SIHMMNT是适用于与非目标发音种类(不是目标发音种类的发音种类)有关的SIHMM声学模型中模板的下一个最佳匹配;
SIHMMG是适用于“垃圾”发音种类的SIHMM匹配评价;
DTWT是对应于目标发音种类的适用于SI和SD模板的最佳DTW匹配评价;
DTWNT是对应于非目标发音种类的适用于SI和SD模板的最佳DTW匹配评价;以及,
SIDTWG是适用于“垃圾”发音种类的SIDTW匹配评价。
于是,SI/SD混合评价SCOMB_H是各个SI和各个SD匹配评价的组合。最终的组合匹配评价并不整个依赖于SI或SD声学模型。如果匹配评价SIDTWT比任何SDDTWT的评价要好,则从较好的SIDTWT评价中计算出SI/SD混合评价。类似地,如果匹配评价SDDTWT比任何SIDTWT的评价要好,则从较好的SDDTWT评价中计算出SI/SD混合评价。因此,如果在SD声学模型中的模板产生较差的匹配评价,则VR***仍旧可以根据SI/SD混合评价的SI部分来识别输入语音。这类较差的SD匹配评价可以具有多种原因,包括在训练和测试过程中声学环境之间的差异。或者或许是训练所使用的较差质量的输入。
在替换的实施例中,对SI评价的加权轻于SD评价,或者甚至可以全部忽略。例如,从与目标发音种类相关的最佳SDDTW评价中选择DTWT,并忽略该目标发音种类的SIDTW评价。同样,可以从与非目标发音种类相关的最佳SIDTW或SDDTW评价中选择DTWNT,代替使用两组评价。
尽管只采用适用于语者特定模式的SDDTW声学模型来讨论示例性实施例,本文所讨论的混合方法可以同样应用于使用SDHMM声学模型或者甚至于使用SDDTW和SDHMM声学模型的VR***。例如,通过改进图6所示的方法,加权因子W1可以应用于从最佳的SIHMMT和SDHMMT评价中选出的匹配评价。加权因子W2可以应用于从最佳的SIHMMNT和SDHMMNT评价中选出的匹配评价。
于是,本文所揭示的是使用SI和SD声学模型的组合来改善在非监督式训练和测试过程中的VR性能的VR方法和装置。本领域的专业人士都会理解到:信息和信号可以采用多种不同工艺和技术中任何一种来表示。例如,在以上讨论中所参考的数据、指令、命令、信息、信号、比特、码元、和码片都可以采用电压、电流、电磁波、磁场或粒子、光场或粒子,或者其上述的组合来表示。同样,尽管上述的实施例主要考虑了动态时间规整(DTW)或隐马尔可夫模型(HMM)声学模型,但是所讨论的技术同样可以应用于其它类型的声学模型,例如,神经网络声学模型。
本领域的普通专业人士还会进一步意识到,参考本文所揭示的实施例所讨论的各种说明性的逻辑单元、模块、电路和算法步骤都可以采用电子硬件、计算机软件、及其两者的组合来实现。为了能简洁地说明这些硬件和软件的互换性,以上已经从功能上讨论了各种说明性的元件、逻辑单元、模块、电路以及步骤。这些功能是实现为硬件还是软件取决于施加在整个***上的特定的应用和设计制约。专业人士都可以采用各种特殊应用的变化方式来实现上述的功能,但是这类实现方法都不应理解为脱离本发明的范围。
以上结合本文所揭示的实施例讨论的各种说明性的逻辑单元、模块、和电路可以采用通用处理器、数字信号处理器(DPS)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立的门电路和晶体管逻辑、分立硬件元件、或者为实现上述功能而设计的任何组合来实现或完成。通用处理器可以是微处理器,但是在替换中,处理器可以是任何一种常规的处理器、控制器、微控制器、或者状态机。处理器也可以用计算器件的组合来实现,例如,DSP和微处理器的组合、多个微处理器、一个或多个结合DSP芯核的微处理器,或者任何其它这类结构。
结合本文揭示的实施例所讨论的方法或算法的步骤可以直接嵌入在硬件中、直接嵌入在处理器所执行的软件模块中、或者直接嵌入在两者的组合之中。该软件模块可以驻留在RAM存储器,闪存存储器、ROM存储器、EPROM存储器、EPPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或者本领域中所熟悉的任何其它形式的存储媒介中。示例性存储媒介与处理器相耦合,使得处理器能从存储媒介中读取信息,也可以将信息写入该存储媒介中。在替换的实施例中,存储媒介可以集成于处理器。处理器和存储媒介可以驻留在ASIC中。在替换的实施例中,处理器和存储媒介可以驻留在用户终端中的分立元件中。
上述揭示实施例的说明使得本领域任何专业人士都能够产生或应用本发明。对本领域任何专业人士来说,各种对这些实施例的改进都是显而易见的,本文所定义的基本原理可以在不脱离本发明的精神和范围的条件下应用于其它实施例。于是,本发明并不试图受限于本文所显示的实施例,而是考虑与本文所揭示的原理和新颖特征相一致的最广泛范围。

Claims (18)

1.一种语音识别方法,所述方法包括下述步骤:
将第一输入语音片段与至少第一模板进行模式匹配,以产生至少一个输入模式匹配评价并且确定被识别的发音种类;
将所述至少一个输入模式匹配评价跟与至少第二模板相关的对应评价作比较,其中所述至少第二模板来自与所识别的发音种类相关的语者特定声学模型,其中与来自与所识别的发音种类相关的语者特定声学模型的所述至少第二模板相关的对应评价是先前为该发音种类所存储的;和
根据所述比较结果,确定是否更新所述至少第二模板。
2.如权利要求1所述的方法,其特征在于,所述第一模板来自语者无关声学模型,并且所述至少一个输入模式匹配评价是语者无关模式匹配评价,并且根据所述比较结果,确定是否更新所述至少第二模板的步骤还包括:
当所述至少一个第一输入模式匹配评价高于与至少第二模板相关的对应评价时,更新所述至少第二模板。
3.如权利要求1所述的方法,其特征在于,用于进行模式匹配的所述步骤还包括:
将所述第一输入语音片段与至少一个隐马尔可夫模型模板进行隐马尔可夫模型模式匹配,以生成至少一个隐马尔可夫模型匹配评价;
将所述第一输入语音片段与至少一个动态时间规整模板进行动态时间规整模式匹配,以生成至少一个动态时间规整匹配评价;和
对所述至少一个隐马尔可夫模型匹配评价和所述至少一个动态时间规整匹配评价求至少一个加权和,以生成所述至少一个输入模式匹配评价。
4.如权利要求1所述的方法,其特征在于,还包括:
通过将第二输入语音片段与所述至少第一模板进行模式匹配,生成至少一个语者无关匹配评价;
通过将所述第二输入语音片段与所述至少第二模板进行模式匹配,生成至少一个语者特定匹配评价;并且
将所述至少一个语者无关匹配评价与所述语者特定匹配评价进行组合,以生成至少一个组合匹配评价。
5.如权利要求4所述的方法,其特征在于,还包括:识别与所述至少一个组合匹配评价中的最佳组合匹配评价相关的发音种类。
6.一种进行非监督式语音识别训练和测试的方法,所述方法包括下述步骤:
在语音识别引擎(220)中,将来自语者的输入语音与语者无关声学模型(230,232)中的内容进行模式匹配,以产生语者无关模式匹配评价;
用所述语音识别引擎(220),将所述语者无关模式匹配评价跟与语者特定声学模型(234)的模板相关的评价作比较,其中所述语者特定声学模型适合于所述语者;和
如果所述语者无关模式匹配评价高于与所述语者特定声学模型(234)的模板相关的所述评价,则根据所述语者无关模式匹配评价,为所述语者特定声学模型(234)生成新模板,其中所述与语者特定声学模型的模板相关的评价是先前存储的。
7.如权利要求6所述的方法,其特征在于,所述语者无关声学模型(230,232)包括至少一个隐马尔可夫模型声学模型。
8.如权利要求6所述的方法,其特征在于,所述语者无关声学模型(230,232)包括至少一个动态时间规整声学模型。
9.如权利要求6所述的方法,其特征在于,所述语者无关声学模型(230,232)包括至少一个隐马尔可夫模型声学模型和至少一个动态时间规整声学模型。
10.如权利要求6所述的方法,其特征在于,所述语者无关声学模型(230,232)包括至少一个垃圾模板,其中所述比较步骤包括将所述输入语音与所述至少一个垃圾模板作比较。
11.如权利要求6所述的方法,其特征在于,所述语者特定声学模型(234)包括至少一个动态时间规整声学模型。
12.如权利要求6所述的方法,其特征在于,还包括:
构造所述语音识别引擎(220),以便将第二输入语音片段与所述语者无关声学模型和所述语者特定声学模型中的内容作比较,从而生成至少一个语者特定和语者无关的组合匹配评价;以及
识别具有语者特定和语者无关的最佳组合匹配评价的发音种类,其中发音种类是特定的词汇或语音片段。
13.如权利要求12所述的方法,其特征在于,所述语者无关声学模型包括至少一个隐马尔可夫模型声学模型。
14.如权利要求12所述的方法,其特征在于,所述语者无关声学模型(230,232)包括至少一个动态时间规整声学模型。
15.如权利要求12所述的方法,其特征在于,所述语者无关声学模型(230,232)包括至少一个隐马尔可夫模型声学模型和至少一个动态时间规整声学模型。
16.如权利要求12所述的方法,其特征在于,所述语者特定声学模型(234)包括至少一个动态时间规整声学模型。
17.一种语音识别方法,所述方法包括下述步骤:
将输入语音片段与至少一个语者无关声学模板进行模式匹配,以生成至少一个语者无关匹配评价;
将所述输入语音片段与语者特定声学模板进行模式匹配,以生成至少一个语者特定匹配评价;
将所述至少一个语者无关匹配评价与所述至少一个语者特定匹配评价组合,以生成至少一个组合匹配评价,其中每个组合匹配评价对应于一个发音种类并且依赖于该发音种类的语者无关模式匹配评价以及该发音种类的语者特定模式匹配评价,其中发音种类是特定的词汇或语音片段。
18.如权利要求17所述的方法,其特征在于,用于进行模式匹配的所述步骤和用于组合的所述步骤是由语音识别引擎(220)来执行的。
CN200710196697.4A 2001-03-28 2002-03-22 使用隐含语者自适应的语音识别*** Expired - Lifetime CN101221759B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/821,606 2001-03-28
US09/821,606 US20020143540A1 (en) 2001-03-28 2001-03-28 Voice recognition system using implicit speaker adaptation

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN028105869A Division CN1531722B (zh) 2001-03-28 2002-03-22 使用隐含语者自适应的语音识别***

Publications (2)

Publication Number Publication Date
CN101221759A CN101221759A (zh) 2008-07-16
CN101221759B true CN101221759B (zh) 2015-04-22

Family

ID=25233818

Family Applications (3)

Application Number Title Priority Date Filing Date
CN028105869A Expired - Fee Related CN1531722B (zh) 2001-03-28 2002-03-22 使用隐含语者自适应的语音识别***
CNA200710196696XA Pending CN101221758A (zh) 2001-03-28 2002-03-22 使用隐含语者自适应的语音识别***
CN200710196697.4A Expired - Lifetime CN101221759B (zh) 2001-03-28 2002-03-22 使用隐含语者自适应的语音识别***

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN028105869A Expired - Fee Related CN1531722B (zh) 2001-03-28 2002-03-22 使用隐含语者自适应的语音识别***
CNA200710196696XA Pending CN101221758A (zh) 2001-03-28 2002-03-22 使用隐含语者自适应的语音识别***

Country Status (13)

Country Link
US (1) US20020143540A1 (zh)
EP (3) EP1628289B1 (zh)
JP (5) JP2004530155A (zh)
KR (6) KR100933108B1 (zh)
CN (3) CN1531722B (zh)
AT (3) ATE525719T1 (zh)
AU (1) AU2002255863A1 (zh)
DE (2) DE60233763D1 (zh)
DK (1) DK1374223T3 (zh)
ES (3) ES2330857T3 (zh)
HK (2) HK1092269A1 (zh)
TW (1) TW577043B (zh)
WO (1) WO2002080142A2 (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
KR20050059766A (ko) * 2003-12-15 2005-06-21 엘지전자 주식회사 동적 시간 워핑을 이용한 음성 인식 방법
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7440894B2 (en) 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US8762148B2 (en) * 2006-02-27 2014-06-24 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
US8244545B2 (en) * 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
WO2007132404A2 (en) * 2006-05-12 2007-11-22 Koninklijke Philips Electronics N.V. Method for changing over from a first adaptive data processing version to a second adaptive data processing version
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别***
US7552871B2 (en) * 2006-12-19 2009-06-30 Nordic Id Oy Method for collecting data fast in inventory systems and wireless apparatus thereto
US9026444B2 (en) * 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US9478216B2 (en) 2009-12-08 2016-10-25 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
JP2012168477A (ja) * 2011-02-16 2012-09-06 Nikon Corp ノイズ推定装置、信号処理装置、撮像装置、及びプログラム
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
JP5982297B2 (ja) * 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9282096B2 (en) 2013-08-31 2016-03-08 Steven Goldstein Methods and systems for voice authentication service leveraging networking
US20150081294A1 (en) * 2013-09-19 2015-03-19 Maluuba Inc. Speech recognition for user specific language
US10405163B2 (en) * 2013-10-06 2019-09-03 Staton Techiya, Llc Methods and systems for establishing and maintaining presence information of neighboring bluetooth devices
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
EP3480811A1 (en) * 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US20170011406A1 (en) * 2015-02-10 2017-01-12 NXT-ID, Inc. Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
RU2704746C2 (ru) * 2015-08-24 2019-10-30 ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи Динамическая акустическая модель для транспортного средства
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102458805B1 (ko) 2017-04-20 2022-10-25 구글 엘엘씨 장치에 대한 다중 사용자 인증
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
CN111243606B (zh) * 2017-05-12 2023-07-21 苹果公司 用户特定的声学模型
EP3905242A1 (en) * 2017-05-12 2021-11-03 Apple Inc. User-specific acoustic models
DK179496B1 (en) * 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10896673B1 (en) * 2017-09-21 2021-01-19 Wells Fargo Bank, N.A. Authentication of impaired voices
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新***
KR102263973B1 (ko) 2019-04-05 2021-06-11 주식회사 솔루게이트 인공지능 기반 일정관리 시스템
KR102135182B1 (ko) 2019-04-05 2020-07-17 주식회사 솔루게이트 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
EP4086904A1 (en) * 2019-12-04 2022-11-09 Google LLC Speaker awareness using speaker dependent speech model(s)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5091947A (en) * 1987-06-04 1992-02-25 Ricoh Company, Ltd. Speech recognition method and apparatus
CN1160450A (zh) * 1994-09-07 1997-09-24 摩托罗拉公司 从连续语音中识别讲话声音的***及其应用方法
CN1231469A (zh) * 1998-01-30 1999-10-13 摩托罗拉公司 语音识别***中评估发声的方法
CN1264888A (zh) * 1998-12-17 2000-08-30 索尼国际(欧洲)股份有限公司 半监控说话者自适应

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6045298A (ja) * 1983-08-22 1985-03-11 富士通株式会社 単語音声認識装置
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
JPH01309099A (ja) * 1987-06-04 1989-12-13 Ricoh Co Ltd 音声応答装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JPH02232696A (ja) * 1989-03-06 1990-09-14 Toshiba Corp 音声認識装置
JP2989231B2 (ja) * 1989-10-05 1999-12-13 株式会社リコー 音声認識装置
JPH04280299A (ja) * 1991-03-08 1992-10-06 Ricoh Co Ltd 音声認識装置
JPH05188991A (ja) * 1992-01-16 1993-07-30 Oki Electric Ind Co Ltd 音声認識装置
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JPH08314493A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法,数字列音声認識装置及びビデオレコーダシステム
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
JP3865924B2 (ja) * 1998-03-26 2007-01-10 松下電器産業株式会社 音声認識装置
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
JP2000137495A (ja) * 1998-10-30 2000-05-16 Toshiba Corp 音声認識装置および音声認識方法
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5091947A (en) * 1987-06-04 1992-02-25 Ricoh Company, Ltd. Speech recognition method and apparatus
CN1160450A (zh) * 1994-09-07 1997-09-24 摩托罗拉公司 从连续语音中识别讲话声音的***及其应用方法
CN1231469A (zh) * 1998-01-30 1999-10-13 摩托罗拉公司 语音识别***中评估发声的方法
CN1264888A (zh) * 1998-12-17 2000-08-30 索尼国际(欧洲)股份有限公司 半监控说话者自适应

Also Published As

Publication number Publication date
JP2008077099A (ja) 2008-04-03
EP1374223B1 (en) 2007-09-05
JP2013152475A (ja) 2013-08-08
DE60222249T2 (de) 2008-06-12
JP2008203876A (ja) 2008-09-04
KR20070106809A (ko) 2007-11-05
KR20090106628A (ko) 2009-10-09
EP1850324B1 (en) 2011-09-21
KR20090106630A (ko) 2009-10-09
ATE443316T1 (de) 2009-10-15
ATE372573T1 (de) 2007-09-15
WO2002080142A3 (en) 2003-03-13
KR100933107B1 (ko) 2009-12-21
KR101031744B1 (ko) 2011-04-29
KR100933109B1 (ko) 2009-12-21
EP1628289B1 (en) 2009-09-16
JP4546555B2 (ja) 2010-09-15
TW577043B (en) 2004-02-21
EP1850324A1 (en) 2007-10-31
EP1628289A3 (en) 2006-03-01
ATE525719T1 (de) 2011-10-15
JP4546512B2 (ja) 2010-09-15
US20020143540A1 (en) 2002-10-03
HK1092269A1 (en) 2007-02-02
DE60233763D1 (de) 2009-10-29
KR100933108B1 (ko) 2009-12-21
CN101221759A (zh) 2008-07-16
KR101031717B1 (ko) 2011-04-29
JP2004530155A (ja) 2004-09-30
KR20090106625A (ko) 2009-10-09
WO2002080142A2 (en) 2002-10-10
KR20030085584A (ko) 2003-11-05
ES2330857T3 (es) 2009-12-16
KR101031660B1 (ko) 2011-04-29
CN101221758A (zh) 2008-07-16
CN1531722B (zh) 2011-07-27
EP1374223A2 (en) 2004-01-02
DK1374223T3 (da) 2007-10-08
CN1531722A (zh) 2004-09-22
JP2010211221A (ja) 2010-09-24
AU2002255863A1 (en) 2002-10-15
KR20070106808A (ko) 2007-11-05
HK1117260A1 (en) 2009-01-09
ES2288549T3 (es) 2008-01-16
DE60222249D1 (de) 2007-10-18
EP1628289A2 (en) 2006-02-22
ES2371094T3 (es) 2011-12-27

Similar Documents

Publication Publication Date Title
CN101221759B (zh) 使用隐含语者自适应的语音识别***
CN1750124B (zh) 带限音频信号的带宽扩展
JP4202124B2 (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
CN109243465A (zh) 声纹认证方法、装置、计算机设备以及存储介质
CN1199488A (zh) 模式识别
CN114283783A (zh) 语音合成方法、模型训练方法、设备及存储介质
US20230206924A1 (en) Voice wakeup method and voice wakeup device
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
Bu et al. Perceptual speech processing and phonetic feature mapping for robust vowel recognition
Reetz A fast expert program for pitch extraction.
Ming et al. Speaker verification over handheld devices with realistic noisy speech data
CN115620701A (zh) 语音合成方法、装置、电子设备和存储介质
JPH05508242A (ja) 話者認識方法
CN113488021A (zh) 一种提高语音合成自然度的方法
MXPA98003964A (en) Integration of multiple models for the recognition of speech in multip environments
Teshome Neural networks for speech recognition of a phonetic language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1117264

Country of ref document: HK

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1117264

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20150422

CX01 Expiry of patent term