CN101636784B - 语音识别***及语音识别方法 - Google Patents

语音识别***及语音识别方法 Download PDF

Info

Publication number
CN101636784B
CN101636784B CN2007800522508A CN200780052250A CN101636784B CN 101636784 B CN101636784 B CN 101636784B CN 2007800522508 A CN2007800522508 A CN 2007800522508A CN 200780052250 A CN200780052250 A CN 200780052250A CN 101636784 B CN101636784 B CN 101636784B
Authority
CN
China
Prior art keywords
frame
initial point
reference value
characteristic quantity
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007800522508A
Other languages
English (en)
Other versions
CN101636784A (zh
Inventor
鹫尾信之
原田将治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101636784A publication Critical patent/CN101636784A/zh
Application granted granted Critical
Publication of CN101636784B publication Critical patent/CN101636784B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

语音识别***(1)具有:特征量计算部(2);声音级别计算部(6),其计算各帧的输入声音级别;对照部(7),其将各帧的特征量与声学模型和语言模型进行对照,并输出识别单词串;始点判断部(31),其根据基准值来确定语音区间的始点帧;终点判断部(32),其根据基准值来确定语音区间的终点帧;以及基准值更新部(4),其根据输入声音级别的变动来更新基准值。始点判断部(31)在每次基准值被更新时更新始点帧,对照部(7)在终点帧之前开始对照,并在每次接收到始点帧的通知时修改对照结果。语音识别***(1)能够进行基于适当语音区间的语音识别,并能够抑制响应时间延迟。

Description

语音识别***及语音识别方法
技术领域
本发明涉及输入包含用户话语的声音信号来进行语音识别处理,并输出话语中包含的识别单词串的语音识别处理、语音识别程序及语音识别方法。
背景技术
以往,大多数语音识别***都具有根据输入的语音数据来判断语音区间(话语区间)在时间轴上位于何处的功能。这种语音识别***针对被判定为语音区间的区间的帧来计算特征量,并将该特征量与声学模型和语言模型进行对照而输出识别结果。为了判断语音区间存在于何处,例如语音识别***可以在输入语音的功率持续一定时间(一定帧数)高于基准值(=背景噪声级别+α(阈值))的情况下,判定为语音区间开始。并且,语音识别***可以在输入语音的功率持续一定时间低于基准值的情况下,判定为语音区间结束。
在上述语音区间判断方法中,有时在背景噪声级别超过阈值α而变动时,会将噪声区间错误地判定为语音区间而导致错误识别。因此,提出了根据输入语音的最大能量来动态地判断语音区间始端的语音区间始端检测装置(例如参照专利文献1)。该始端检测装置在从检测到语音区间的始端到检测到终端的过程中,将所输入的语音数据存储在缓存中,在所输入的语音数据中检测到语音能量的最大值和极大值的时刻,重新设定新的阈值,并根据该阈值来重新判断新的始端。之后,在检测到终端时,输出始端与终端之间的语音数据。
但是,在上述始端判断装置中,构成为只有确定了语音区间的终端才能开始对照处理等,因此存在响应时间延长的问题。
专利文献1:日本特许第2625682号公报
发明内容
因此,本发明的目的在于,提供能够进行基于适当语音区间的语音识别,同时能够抑制响应时间延迟的语音识别***、语音识别程序及语音识别方法。
本发明的语音识别***具有:特征量计算部,其将输入的声音信号转换成每个帧的特征量;声音级别计算部,其计算由各帧的所述声音信号的功率或振幅表示的输入声音级别;对照部,其接受特征量计算部计算出的各帧的特征量,与预先存储的声学模型和语言模型进行对照,并根据相应对照结果来确定要输出的识别单词串,所述声学模型是对语音容易成为什么样的特征量进行建模而得的数据,所述语言模型是关于识别单词的数据;始点判断部,其通过将所述声音级别计算部计算出的所述输入声音级别与基准值进行比较,来确定作为语音区间始点的始点帧并通知给所述对照部;终点判断部,其通过将所述声音级别计算部计算出的所述输入声音级别与基准值进行比较,来确定作为语音区间终点的终点帧并通知给所述对照部;以及基准值更新部,其根据所述始点帧以后的输入声音级别的变动来更新所述基准值,所述始点判断部在所述基准值更新部更新了基准值时,使用该更新后的基准值来更新始点帧并通知给所述对照部,所述对照部在接受了特征量计算部计算出的各帧的特征量而开始对照后,在从所述终点判断部接收到终点帧的通知之前,从所述始点判断部接收到始点帧的通知的情况下,根据所通知的始点帧来修正所述对照结果。
根据上述结构,基准值更新部根据始点帧以后的输入声音级别的变动来更新基准值,始点判断部根据更新后的基准值来更新始点帧。由此,根据输入声音信号中包含的语音的输入声音级别来更新始点帧。因此,能够自动更正例如由不稳定噪声、输入声音级别的偏差等引起的语音区间始点的错误判断。此外,终点判断部也根据输入声音级别来确定终点帧。像这样由始点判断部更新的始点帧和由终点判断部确定的终点帧被通知给对照部。对照部在开始对照处理后,在接收到终点帧的通知之前更新了始点帧时,根据该始点帧来修正对照结果。即,对照部可构成为不等待终点帧而进行对照处理。因此,抑制了响应时间的延迟。此外,对照部根据更新后的始点帧来修正对照结果,因此能够输出基于更正了始点判断错误的适当语音区间的识别结果。此外,即使更新了始点帧,对照部也不会从开始重新进行对照处理,而是修正对照结果,因此能够利用已经进行了对照处理的对照结果而不会浪费。结果,改善了响应时间。进而,能够进行基于适当语音区间的语音识别,并抑制响应时间延迟。
另外,输入声音级别可以由各帧的声音信号的功率或其对数值表示,或者由各帧的声音信号的振幅或其对数值表示。
在本发明的语音识别***中,可以采用这种方式:所述对照部只根据从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的语音区间中包含的帧的特征量的对照结果,来确定所述识别单词串。
由此,对照部可以根据除去了由始点判断部和终点判断部判定为不是语音区间的区间的对照结果后的结果,来确定识别单词串。结果,减轻了噪声可能性较高的帧的对照结果对识别结果的影响。
在本发明的语音识别***中,可以采用这种方式:所述对照部通过对各帧的特征量的对照结果进行加权来修正所述对照结果,所述对照部以如下方式进行加权:使得未包含在从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的语音区间中的帧的特征量的对照结果的权重小于从所述始点帧到所述终点帧的语音区间内的帧的特征量的对照结果的权重。
由此,对照部将被判定为语音区间外的帧的特征量的对照结果权重估计得比语音区间内的对照结果权重小,来确定识别单词串。因此,对照部能够减轻由始点判断部和终点判断部判定为不是语音区间的区间的对照结果的影响度,来确定识别单词串。结果,减轻了噪声可能性较高的帧的对照结果对识别结果造成的影响。即,减轻了语音区间判断结果中的微小错误对识别结果造成较大影响的情况,进而使识别结果稳定。
在本发明的语音识别***中,可以采用这种方式:所述对照部根据未处于从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的区间的帧中包含的单词,来确定所述输出的识别单词串。
由此,对照部能够从待输出的识别单词串中,除去被判定为语音区间外的帧所涉及的单词。结果,减轻了噪声可能性较高的帧的对照结果对识别结果造成的影响。
在本发明的语音识别***中,可以采用这种方式:所述基准值更新部计算所述始点帧以后的帧的最大输入声音级别,并根据该最大输入声音级别来更新所述基准值。
基准值更新部可以通过根据始点帧以后的帧的最大输入声音级别来更新基准值,来使基准值反映语音区间的输入声音级别。
在本发明的语音识别***中,可以采用这种方式:所述基准值更新部随着时间的经过而阶段性地降低所述基准值。
通常,在人说话时,在话语结尾处话语音量有减小的趋势。基准值更新部通过随着时间的经过而使基准值阶段性地下降,能够对应于该话语结尾处话语音量减小的趋势而更新基准值。终点判断部根据如此更新的基准值来判断终点帧,由此能够根据人说话的趋势来判断适当的终点帧。
在本发明的语音识别***中,可以采用这种方式:所述基准值更新部随着时间的经过使计算的所述最大输入声音级别阶段性地下降。
基准值是根据最大声音级别来更新的,因此对应于在话语结尾处话语音量减小的趋势来更新基准值。此外,例如能够防止由于以下情况等的不规律因素导致最大声音级别上升,之后无法设定适当的基准值的情形,所述情况包括:说话者突然情绪激动而输入声音级别一时急剧上升,或者掺入了突发的大音量噪声。
本发明的语音识别程序使计算机执行以下处理:特征量计算处理,将输入的声音信号转换成每个帧的特征量;声音级别计算处理,计算由各帧的所述声音信号的功率或振幅表示的输入声音级别;对照处理,接受由特征量计算处理计算的各帧的特征量,与预先存储的声学模型和语言模型进行对照,并根据相应对照结果来输出识别单词串,所述声学模型是对语音容易成为什么样的特征量进行建模而得的数据,所述语言模型是关于识别单词的数据;始点判断处理,通过对所述声音级别计算处理计算出的所述输入声音级别与基准值进行比较,来确定作为语音区间始点的始点帧;终点判断处理,通过对所述声音级别计算处理计算出的所述输入声音级别与基准值进行比较,来确定作为语音区间终点的终点帧;以及基准值更新处理,根据所述始点帧以后的输入声音级别的变动来更新所述基准值,该语音识别程序的特征在于,在所述始点判断处理中,当由所述基准值更新处理更新了基准值时,使用该更新后的基准值来更新始点帧,在所述对照处理中,在接受了由特征量计算处理计算的各帧的特征量而开始对照后,在由所述终点判断处理确定终点帧之前,由所述始点判断处理更新了始点帧的情况下,根据更新后的始点帧来修正所述对照结果。
本发明的语音识别方法包括以下步骤:特征量计算步骤,将输入的声音信号转换成每个帧的特征量;声音级别计算步骤,计算由各帧的所述声音信号的功率或振幅表示的输入声音级别;对照步骤,接受在特征量计算步骤中计算的各帧的特征量,与预先存储的声学模型和语言模型进行对照,并根据相应对照结果来输出识别单词串,所述声学模型是对语音容易成为什么样的特征量进行建模而得的数据,所述语言模型是关于识别单词的数据;始点判断步骤,通过将所述声音级别计算步骤中计算出的所述输入声音级别与基准值进行比较,来确定作为语音区间始点的始点帧;终点判断步骤,通过将所述声音级别计算步骤中计算出的所述输入声音级别与基准值进行比较,来确定作为语音区间终点的终点帧;以及基准值更新步骤,根据所述始点帧以后的输入声音级别的变动来更新所述基准值,该语音识别方法的特征在于,在所述始点判断步骤中,当在所述基准值更新步骤中更新了基准值时,使用该更新后的基准值来更新始点帧,在所述对照步骤中,接受了在特征量计算步骤中计算的各帧的特征量而开始对照后,在所述终点判断步骤中确定终点帧之前,在所述始点判断步骤中更新了始点帧的情况下,根据更新后的始点帧来修正所述对照结果。
此外,本发明的存储介质是存储有本发明的语音识别程序的计算机可读存储介质。
根据本发明,可提供能够进行基于适当语音区间的语音识别、并抑制响应时间延迟的语音识别***、语音识别程序及语音识别方法。
附图说明
图1是表示语音识别***的结构的功能框图。
图2是表示输入声音信号的输入声音级别、基准值等的随时间变化的曲线图。
图3是示出语音区间判断部的处理流程的流程图。
图4是示出对照部的处理流程的流程图。
具体实施方式
(语音识别***的结构)
图1是表示本实施方式的语音识别***的结构的功能框图。图1所示的语音识别***1根据包含用户语音的输入声音信号,进行识别单词串的语音识别处理,并将识别出的单词串作为识别结果输出。语音识别***1例如用作为从语音对话应用程序等上位程序接受用户语音、并将识别结果返回上位程序的语音识别引擎。
语音识别***1具有:特征量计算部2、语音区间判断部3、基准值更新部4、声音级别缓存5、声音级别计算部6、对照部7、声学模型存储部8和语言模型存储部9。
语音识别***例如通过在个人计算机或组装在电子设备中的计算机等任意计算机上安装程序来实现。即,通过计算机的CPU根据实现这些功能的程序进行工作来实现特征量计算部2、语音区间判断部3、基准值更新部4、声音级别计算部6和对照部7。因此,用于使计算机实现特征量计算部2、语音区间判断部3、基准值更新部4、声音级别计算部6和对照部7的功能的程序或存储了该程序的存储介质也是本发明的一个实施方式。此外,声音级别缓存5、声学模型存储部8和语言模型存储部9通过计算机的内置存储装置或可由该计算机进行访问的存储装置来实现。
特征量计算部2将输入声音信号转换成每个帧的特征量。对于特征量,大多使用MFCC、LPC倒谱或功率、它们的一次或二次回归系数、以及通过主成分分析或判别分析对它们的值进行维数压缩而得到的产物等的多维矢量,不过这里没有特别的限定。所计算的特征量与各帧固有的信息(帧固有信息)一起存储在内部存储器(未图示)中。其中,帧固有信息例如是表示各帧为从开头起的第几个帧的帧编号,或者是表示各帧的开始时刻、结束时刻等的数据。
对照部7接受由特征量计算部2计算出的各帧的特征量,将其与声学模型存储部8的声学模型和语言模型存储部9的语言模型进行对照,根据相应的对照结果来确定识别单词列,并将其作为识别结果输出。声学模型是对语音容易成为什么样的特征量进行建模而得的数据,语言模型是关于识别单词的数据。例如在语言模型中包含语法、识别词汇信息等。
具体而言,对照部7例如进行如下的对照处理。首先,对照部7通过将各帧的特征量与声学模型进行比较,来针对语音区间中包含的每个帧计算音素分数。另外,在该情况下,声学模型例如是对哪个音素容易成什么样的特征量的信息进行建模而得的,当前的主流是音素HMM(Hidden Markov Model:隐马尔可夫模型)。声学模型预先存储在声学模型存储部8中。
进而,对照部7以计算出的音素分数为基础,根据存储在语言模型存储部9中的语法和识别词汇信息来假定多个单词串(语句)候选,并计算各单词串候选的分数(似然度)。对照部7将计算出的分数最高的单词串候选作为识别结果输出。
这里,作为存储在语言模型存储部9中的语法的例子,可以列举出上下文无关语法(CFG:Context Free Grammar)、有限状态语法(FSG:Finite State Grammar)、以及单词链的概率模型(N-gram)等。本发明所采用的语法没有特别限定,假设在以下例子中使用FSG。此外,作为识别词汇信息,例如包括识别单词的ID、读音(如何发音)或与读音等价的音素串,还可以包括其它任意信息。
这样,作为对照部7将各帧的特征量与声学模型和语言模型进行对照的对照结果的例子,可以列举表示声学模型与特征量的一致度的音素分数、以及根据音素分数和语言模型计算出的各单词串候选的分数等,不过对照结果不限于上述例子。例如,对照结果可以是通过事后概率进行校正后的音素分数或单词分数,在对照结果中也可以包含持续时间长度、单词***惩罚(penalty)、单词的共现概率、基于单词事后概率的可信度等任意要素。另外,有时还将音素分数称为似然度。
声音级别计算部6根据输入声音信号,依次计算每个帧的语音功率(帧功率),作为输入声音级别。声音级别计算部6例如可以计算各帧的声音信号的平方和或平方和的平均值,将其对数化后得到的值设为各帧的帧功率。另外,声音级别计算部6也可以计算各帧的振幅或振幅的平均值作为输入声音级别,来取代上述帧功率。此外,输入声音级别可以是在时域中计算出的值,也可以是通过FFT等在频谱域中计算出的值。即,输入声音级别只要是表示声音大小级别的值即可,其计算方法不限于上述例子。
由声音级别计算部6计算出的各帧的帧功率与各帧固有信息一起存储在声音级别缓存5中。另外,在本实施方式中,采用了帧功率与特征量分别独立存储的方式,但也可以采用帧功率与特征量结合起来进行存储的方式。
语音区间判断部3包括始点判断部31和终点判断部32。始点判断部31通过将由声音级别计算部6计算并被存储在声音级别缓存5中的各帧的输入声音级别与基准值进行比较,来确定作为语音区间始点的始点帧,通知给上述对照部。终点判断部32通过将存储在声音级别缓存5中的各帧的输入声音级别与基准值进行比较,来确定作为语音区间终点的终点帧,通知给上述对照部。
始点判断部31例如按照时间顺序依次读出存储在声音级别缓存5中的各帧的输入声音级别(这里,作为一例为帧功率),与基准值进行比较。始点判断部31例如可以在帧功率超过基准值的帧持续了规定时间的情况下,将帧功率超过基准值时刻的帧判定为始点帧。同样,终点判断部32例如可以在帧功率低于基准值的帧持续了规定时间的情况下,将帧功率低于基准值时刻的帧判定为终点帧。可以将这样判断出的始点帧与终点帧之间的区间判定为语音区间。
基准值更新部4根据始点帧以后的帧的输入声音级别的变动来更新基准值。例如,基准值更新部4可以根据输入声音级别的变动,来计算可推定为是语音而不是噪声的声音级别(推定话语级别),并根据该推定话语级别来更新基准值。具体而言,基准值更新部4在始点帧以后的帧中,检测帧功率最大的帧,并将该最大帧功率设为推定话语级别。然后,基准值更新部4可以将从该检测出的最大帧功率(推定话语级别)减去固定值β后得到的值设为新的基准值候选,当该基准值候选超过当前的基准值时,更新基准值。
基准值更新部4在更新了基准值的情况下,将更新后的基准值通知给始点判断部31和终点判断部32。始点判断部31使用更新后的基准值来更新始点帧。始点判断部31例如可以从输入声音信号的输入开始时的开头帧起,按照每个帧依次对输入声音级别与更新后的基准值进行比较,由此来重新设定始点帧。或者,始点判断部31也可以通过如下方式来确定始点帧,即:从基准值被更新的时刻的帧起,依次向前追溯,将输入声音级别不低于基准值的范围设为语音区间。另外,终点判断部32也使用更新后的基准值来确定终点帧。
始点判断部31向对照部7通知所确定或更新的始点帧。终点判断部32也向对照部7通知所确定的终点帧。
对照部7在从终点判断部32接收到终点帧的通知前,例如在最初被通知了始点帧时,从特征量计算部2接受特征量而开始对照处理。接着,之后又从始点判断部31接收到始点帧的通知时,根据所通知的始点帧来修正对照结果。然后,根据来自终点判断部32的终点帧的通知而结束对照。在针对终点帧以后的帧的特征量也进行了对照处理的情况下,例如丢弃终点帧以后的上述对照结果等来修正对照结果。
下面列举了对照部7根据更新后的始点帧来修正对照结果的例子。作为第1例,由于更新而使始点帧在时间上往后的情况下,针对更新后的始点帧以前的帧(即,语音区间之外的帧),对照部7可以将其当作未进行过对照处理来进行处理。即,对照部7可以从对照结果中除去始点帧以前的对照结果,来确定识别单词串。此外,作为第2例,对照部7可以从识别候选中除去作为识别单词串候选的单词中的、与始点帧以前的帧相关的单词。作为第3例,对照部7可以与其它帧相比而减轻与始点帧以前的帧相关的音素分数、单词或单词串的分数的权重。
另外,对照部7例如可以追加如下处理来试图改善识别结果。通常,人们在说话开始时和结束时的发声与其它时候的发声相比,会不清楚且功率也较低。为了与此对应,对照部7可以通过对在始点帧与终点帧之间的区间(语音区间)前后追加了若干帧的区间进行对照处理,来避免将功率较低的话语开始时、结束时的话语误认为是语音区间之外而切除的情况。
此外,对照部7还可以在语音区间中追加始点帧与终点帧之间的区间(语音区间)的前后一定数量的帧,并对所追加的帧中的一部分进行对照处理。具体而言,对照部7对语音区间追加语音区间前后的一定数量的帧,并对所追加的帧中的一部分设定间除标志。此时,对照部7例如可以随着远离原来的语音区间而提高设定间除标志的帧的比例。对照部7不对设定了间除标志的帧进行对照处理。由此,进行反映了话语类似度/噪声类似度的对照。即,能够减轻由噪声类似度高的帧产生的恶劣影响。另外,这种语音区间两端的帧追加和间除标志的设定也可以由语音区间判断部3来进行。
以上,对语音识别***1的结构进行了说明,不过本发明不限于上述结构。例如还可以是这样的结构:语音区间判断部3除了向对照部7还向特征量计算部2通知语音区间的始点和终点,特征量计算部2只针对所通知的语音区间计算特征量而传给对照部7。由此,能够减轻特征量计算部2的负担。此外,在图1所示的例子中,声学模型存储部8和语言模型存储部9设置在语音识别***1内,但也可以设置在语音识别***1之外。
(语音识别***的动作例)
接下来,针对语音识别***1的动作例,还参照图2来进行说明。图2是表示输入声音信号的输入声音级别、基准值等的随时间变化的曲线图。在图2所示的曲线图中,纵轴表示声音级别,横轴表示时刻t。用粗线描绘的函数S(t)表示输入声音级别的时间转变,用粗虚线描绘的函数A(t)表示基准值的时间转变,用点划线描绘的函数B(t)表示推定话语级别的时间转变,用细虚线描绘的函数C(t)表示推定背景噪声级别的时间转变。
这里,作为一例,由函数S(t)表示的输入声音级别的时间转变是由声音级别计算部6计算出的各帧的帧功率来表示的。因此,虽然在图2中S(t)用连续函数来描绘,但实际上是每个帧的离散值的集合。即,在图2中,时刻t不是连续值而是与各帧对应的离散值。此外,由B(t)表示的推定话语级别是从时刻T0到时刻t之间的帧功率的最大值。该B(t)可以由基准值更新部4参照存储在声音级别缓存5中的各帧的帧功率来计算。
在图2所示的例子中,在时刻T0,开始进行输入声音信号的输入。从时刻T0到时刻T1,输入声音级别S(t)<基准值A(t)。在时刻T1,输入声音级别S(t)超过基准值A(t)。之后的一段时间,S(t)>A(t)。当S(t)>A(t)持续了规定时间(这里设为γ)时,始点判断部31将成为S(t)>A(t)的时刻T1判定为语音区间的始点。即,始点判断部31将时刻T1的帧设为始点帧。这里,γ是用于避免对短时间噪声的错误反应的等待时间,γ的值例如可以根据最短单词长度来确定。
在时刻T1~时刻T2,基准值A(t)是对推定背景噪声级别C(t)加上固定值α后得到的值(即,A(t)=C(t)+α)。这里,推定背景噪声级别C(t)例如可以是基准值更新部4根据输入声音级别S(t)来计算出的,或者也可以是预先存储的值。
在本实施方式中,作为一例,推定背景噪声级别是根据非语音区间的输入声音级别来计算出的。作为该计算例,可以使用最近N个帧的平均值(移动平均),也可以按照下式使用IIR滤波器来计算。
C(t)=p*S(t)+(1-p)*S(t-1)(0<p<1)
从时刻T2的稍微之前起,输入声音级别S(t)开始急剧上升,B(t)也开始随之增加。并且在时刻T2,从推定话语级别B(t)减去固定值β后得到的值[B(t)-B]变得大于C(t)+α。在该情况下,基准值更新部4进行更新为基准值A(t)=B(t)-β的处理。即,在推定话语级别B(t)增加并且[B(t)-β]>[C(t)+α]的情况下,基准值更新部4进行更新为A(t)=B(t)-β的处理。由此,基准值更新部4能够将基准值A(t)更新为与话语级别对应的适当的值。另外,在如时刻T2~时刻T4的情况下,基准值更新部4无需每当推定话语级别B(t)增加就对基准值A(t)进行更新,例如可以每隔一定时间地对基准值A(t)进行更新。
随着基准值更新部4对基准值A(t)进行更新,始点判断部31执行对语音区间的始点帧进行更新的处理。例如在时刻T4,始点判断部31以下述方式来更新始点。始点判断部31从时刻T0开始按照时间顺序,针对每个帧来比较输入声音级别S(t)和基准值A(T4)。可以在S(t)>A(T4)的帧持续了规定时间(γ)的情况下,将S(t)超过A(T4)的时刻(即,时刻T3)的帧设为始点帧。此外,始点判断部31也可以从时刻T4开始按时间顺序进行追溯,按照每个帧来比较S(t)和A(T4)以确定始点帧。这样,语音区间的始点帧从时刻T1的帧更新为时刻T3的帧。在时刻T4以后推定话语级别B(t)未被更新,因此直至时刻T5基准值A(t)都保持恒定。
例如,在图2的时刻T1~时刻T3的区间中,由于回声这样的语音噪声而导致输入声音级别一时上升的情况下,时刻T1~时刻T3的区间实际上是噪声区间。在该情况下,虽然最初始点判断部31错误地将时刻T1判定为语音区间的始点,不过之后,随着在时刻T4基准值A(t)的更新,可以将错误判断的始点时刻(时刻T1)修正成正确的始点时刻(时刻T3)。
在时刻T5,输入声音级别S(T5)低于基准值A(T5),之后S(t)<A(t)。这样,在成为S(t)<A(t)而该状态持续了规定时间(例如γ′)的情况下(=时刻T6),终点判断部32将时刻T5设为语音区间的终点。即,将时刻T5的帧判定为终点帧。这里,γ′是用于避免因促音或单词间停顿等说话中一时的无声而错误检测为话语终端的等待时间。像这样,终点判断部32对时刻t的输入声音级别S(t)与该时刻t的基准值A(t)进行比较来判断终点,因此能够以根据推定话语级别B(t)而适当更新后的基准值A(t)为基础来判断终点。结果,例如避免了错误地将话语结束后的噪声区间判定为语音区间的情况。
另外,基准值更新部4将语音区间终点的时刻T6以后的基准值A(t)设为基于推定背景噪声级别C(t)的值(即,A(t)=C(t)+α)。由此,针对下次话语检测的基准值的初始值成为基于背景噪声级别的值。另外,基准值更新部4可以不在语音区间结束后清除到此为止的基准值,不是最大地符合推定背景噪声级别,而是继续使用最大输入声音级别A(t)=B(t)-β来检测下一个语音区间的始点。此外,在图2所示的例子中,最大输入声音级别B(t)在语音区间结束后保持不变来检测下一个语音区间的始点,但是,例如也可以在每次语音区间结束时返回初始值。
(对照部7的动作例)
接下来,说明产生如图2所示的输入声音级别的变动时对照部7的动作例。在图2所示的例子中,从时刻T1开始经过γ后,从始点判断部31向对照部7通知时刻T1的帧作为始点帧。然后,在时刻T4后的始点更新处理之后,向对照部7通知时刻T3的帧作为始点帧。然后,在时刻T6后,向对照部7通知时刻T6的帧作为终点帧。
对照部7在被通知了时刻T1的帧作为始点帧时,开始对照处理。如上所述,对照部7例如将时刻T1以后的各帧的特征量与声学模型进行比较,按照每个帧来计算音素分数。根据该音素分数,参照语言模型来生成多个单词串候选,并计算各单词串候选的分数。
然后,在被通知了时刻T3的帧作为始点帧时,对照处理已经进行到时刻T3以后的帧的情况下(T4与T3之间的间隔越大越容易发生),对照部7以时刻T3以后的帧的对照结果优先于时刻T3之前的帧的对照结果的方式,来修正对照结果。
这里说明几个修正对照结果的处理的具体例。首先,第1例是对照部7丢弃时刻T3之前的帧的对照结果的处理。例如,对照部7将时刻T3之前的帧的音素分数替换成规定的最差值(最低值),重新计算利用该音素分数求出的单词分数。此时,对照部7可通过进行识别候选的筛选,来使单词分数不反映最差值的音素分数。由此,可以忽略时刻T3之前的帧的对照处理,针对时刻T3以后的帧进行对照处理。
第2例是对照部7从单词串候选中除去各单词串候选所包含的单词中的、与时刻T3之前的帧相关的单词的处理。例如,在某个单词仅由时刻T3之前的帧构成的情况下,对照部7可以将该单词从单词串候选中除去,在构成单词的帧的一定比例以上为时刻T3之前的帧的情况下,对照部7可以将该单词除去。另外,在使用N-gram作为语言模型的情况下,当除去单词候选时单词排列发生变化,因此该情况下对照部还重新计算语言分数。
第3例是对照部7对每个帧的音素分数乘以权重系数,使时刻T3以后的帧与时刻T3之前的帧的权重系数不同的处理。作为一例,说明由从t0帧到tn帧的帧构成的单词串候选W的分数Sc(W,t0,tn)如下式1所示的情况。另外,在下式1中,Sc(W[i])表示与单词串候选W中的第i个帧对应的音素分数。
[式1]
Sc ( W , t 0 , tn ) = Σ i = t 0 tn Sc ( W [ i ] )
这里,可以使用表示话语类似度/噪声类似度的权重系数weight[i](0≤weight[i]≤1),通过下式2来计算单词串候选W的分数Sc(W,t0,tn)。
[式2]
Sc ( W , t 0 , tn ) = Σ i = t 0 tn { Sc ( W [ i ] ) × weight [ i ] }
对照部7针对所有单词串候选使用上式2来计算分数,由此针对各单词串候选得到反映了每个帧的话语类似度/噪声类似度的分数。即,通过weight[i]来调整每个帧的分数。例如,对照部7针对比时刻T3以后的帧靠前的帧,将weight[i]设定成低于时刻T3的帧来进行计算。由此,能够降低语音区间之外的、被判定为噪声的可能性较高的帧对分数的影响度。
作为一例,在时刻T3的帧为第i=tT3个帧的情况下,对照部7可以进行这样的设定,即:当t0≤i<tT3-10时,weight[i]=0;当tT3-10≤i<tT3时,weight[i]=0.7、当tT3≤i<tn时,weight[i]=1。
此外,对照部7例如针对时刻T3前后一定数量的帧,设定成weight[i]随着从噪声区间侧向语音区间侧的移动而阶段性地增加。由此,针对难以区分是噪声区间还是语音区间的模糊区间,得到反映了模糊话语类似度/噪声类似度的分数。此外,可以通过将时刻T3前后一定数量的帧中的、至少一部分的帧的weight[i]设为0,来对这些帧进行间除。
第4例是对照部7对每个帧的音素分数附加惩罚值的处理,可以通过下式3来计算单词串候选W的分数Sc(W,t0,tn)。
[式3]
Sc ( W , t 0 , tn ) = Σ i = t 0 tn { Sc ( W [ i ] ) + penalty [ i ] }
这里,penalty[i]的正负取决于分数的取法。例如,在使用对数似然度作为音素分数的情况下,通常分数为负值,并且在负方向上值越大越是差的值,因此在时刻T3的帧为第i=tT3个帧的情况下,对照部7可以进行这样的设定,即:当t0≤i<tT3-10时,penalty[i]=-∞(或者为规定的最低值);当tT3-10≤i<tT3时,penalty[i]=-3;当tT3≤i<tn时,penalty[i]=0。相反,在对分数使用了欧几里得距离这样的0以上的值的情况下,在施加惩罚值的区间中设为penalty[i]>0即可。
以上说明了对照部7修正对照结果的处理的例子,但不限与此。另外,在时刻T3的帧被通知为始点帧时,如果对照处理尚未前进到时刻T3的帧,则对照部7可以丢弃到此为止的对照结果,从时刻T3的帧起重新开始对照处理。
在对照部7被通知了时刻T5的帧作为终点帧时,如果对照处理进行到时刻T5的帧以后的情况下,结束对照处理而修正对照结果。在对照处理尚未进行到时刻T5的帧以后的情况下,对照部7进行对照处理直到时刻T5的帧为止,然后结束。此时,对照部7也可以针对时刻T5以后的一定数量的帧进行对照处理。而且,例如,对照部7也可以同样地对语音区间终点附近的帧赋予如上所述的基于weight[i]的权重。
这样,对照部7根据语音区间的终点帧的通知而结束了对照处理后,输出各单词串候选的分数中分数最高的单词串候选作为识别结果。由此,针对根据输入声音级别进行了适当修正后的语音区间而得到识别结果。此外,在上述动作例中,对照部7在确定终点帧之前开始对照处理,在始点帧更新以及终点帧确定的时机修正对照结果。因此,与等到终点帧判断之后才开始对照处理的情况相比,能够缩短等待时间。
(推定话语级别B(t)的变形例)
在图2所示的例子中,由B(t)表示的推定话语级别是通过基准值更新部4计算帧功率的最大值来确定的。此外,下面列举基准值更新部4可计算的推定话语级别的例子。
(A)对输入声音信号实施了HPF、BPF、LPF、噪声消除、谱减(spectrum subtraction)和回声消除中的至少一个处理后求出的各帧功率的最大值
(B)各帧功率包络线的最大值
(C)对输入声音信号实施了HPF、BPF、LPF、噪声消除、谱减(spectrum subtraction)和回声消除中的至少一个处理后求出的各帧功率包络线最大值
基准值更新部4可以通过将上述(A)设为推定话语级别进行计算,来针对除去了噪声等无用成分的信号求出帧功率。此外,可以通过将上述(B)设为推定话语级别,来抑制由与话语重叠的不稳定噪声的影响导致的推定话语级别的急剧变化。
另外,上述(B)的包络线例如可以使用IIR滤波器来求取。下面说明基准值更新部4使用IIR滤波器来计算各帧功率包络线的最大值作为推定话语级别的例子。这里,将第i个帧的推定话语级别设为A[i],将第i个帧的输入声音级别(帧功率)设为S[i]对于第i个帧,在S[i]≥A[i-1]的情况下,基准值更新部4设A[i]=S[i]。即,如果输入声音级别大于等于到前一个帧为止的推定话语级别,即为最大值,则利用该值来更新推定话语级别。另一方面,在S[i]<A[i-1]的情况下,基准值更新部4设A[i]=k×S[i]+(1-k)×A[i-1]。这里,系数k为0<k<1。上式是一次IIR滤波器的表达式的一例。当系数k的值接近于0时,可减少对突发噪声的错误反应。
另外,在S[i]≥A[i-1]的情况下,也可以设A[i]=k′×S[i]+(1-k′)×A[i-1]。当产生突发性噪声时,输入声音级别急剧上升,因此可以通过施加基于k′的平滑化处理来抑制错误反应。
(推定话语级别B(t)和基准值A(t)的其它变形例)
此外,基准值更新部4可以从始点判断部31判定的始点帧开始经过规定时间后,随着时间的经过而阶段性地降低推定话语级别。基准值更新部4也随之阶段性地降低基准值。由此,基准值与在话语结尾处语音功率降低的情况对应地降低。具体地讲,对于第i个帧,在S[i]≥A[i-1]的情况下(即,输入声音级别为最大值的情况),基准值更新部4设A[i]=S[i],利用最大值进行更新。另一方面,在S[i]<A[i-1]的情况下,基准值更新部4设A[i]=m×S[i-1]。m是规定的系数。S[i]的值根据帧功率测量方法(原点取法),存在S[i]≥0(0为最小值)的情况和S[i]≤0(0为最大值)的情况。在S[i]≥0的情况下设m<1,在S[i]≤0的情况下设m>1,由此推定话语级别A[i]随时间衰减。
另外,使推定话语级别阶段性地降低的方法不限于上述方法。例如,基准值更新部4可以从始点帧经过规定量的帧后,才开始使推定话语级别阶梯性降低的处理。此外,基准值更新部4也可以不使推定话语级别阶梯性降低,而是使基准值阶梯性降低。
此外,在根据推定话语级别确定的基准值低于根据推定背景噪声级别确定的基准值的情况下,即,如果B(t)-β<C(t)+α,则可以停止使该推定话语级别降低的处理。
以上,对推定话语级别和基准值的求取方法的变形例进行了描述,但变形例不限于上述例子。例如,基准值更新部4可以使用振幅取代帧功率来同样地计算。
(语音区间判断部3的处理)
图3是示出用于实现参照上述图2所示的动作的语音区间判断部3的处理流程的流程图。在图3中,首先,语音区间判断部3将帧编号i初始化为“0”(Op10)。在本实施方式中,帧编号是表示各帧是从开头起第几个帧的编号。
初始化后,语音区间判断部3对i加1(Op11),始点判断部31针对第i个帧判断是否出现了语音区间的始点(Op12)。始点判断部31例如可以根据从第(i-L)个帧到第i个帧的所有帧的输入声音级别是否都超过基准值来进行上述判断。这里,L为预定的常数。另外,从第(i-L)个到第i个帧的输入声音级别存储在声音级别缓存5中。
如果判定为未出现语音区间的始点(Op12中的“否”),则对i加1(Op11)并重复判断处理(Op12)。当判定为出现了语音区间的始点时(Op12中的“是”),始点判断部31向对照部7通知从第(i-L)个帧到第i个帧中的一个作为始点帧(Op13)。例如,始点判断部31可以将输入声音级别超过基准值的最初的帧(i-L)设为始点帧,将帧编号(i-L)通知给对照部7。
被通知了始点帧时,语音区间判断部3对帧编号i加1(Op14),判断是否更新了基准值(Op15)。如上所述,基准值更新部4针对每个帧根据输入声音级别来计算基准值,因此每当帧编号增加1时,语音区间判断部3都要向基准值更新部4询问基准值以确认基准值有无更新。
在更新了基准值的情况下(Op15中的“是”),始点判断部3根据更新后的基准值再次进行始点判断(Op16),结果,如果更新了始点,则将更新后的始点帧通知给对照部7(Op17)。
在Op15中判定为基准值未更新(“否”)的情况下,终点判断部32判断是否出现了语音区间的终点(Op18)。终点判断部32例如可以通过从第(i-M)个帧到第i个帧的所有帧的输入声音级别是否都低于基准值来进行上述判断。这里,M为预定的常数。
在Op18中判定为未出现终点(“否”)的情况下,重复Op14~Op17的处理。由此,在检测到终点之前,根据基准值的变化来更新始点。
在判定为出现了终点时(Op18中的“是”),将终点帧通知给对照部7。终点判断部32向对照部7通知从第(i-M)个帧到第i个帧中的一个作为终点帧(Op19)。例如,终点判断部32可以将输入声音级别低于基准值的最初的帧(i-M)设为终点帧,将帧编号(i-M)通知给对照部7。由此,向对照部7通知始点帧和终点帧。即,语音区间判断部3检测始点和终点,将该始点与终端之间的区间设为语音区间而通知给对照部7。
重复以上Op11~Op19的处理,直到语音识别***1判定为处理结束(Op20中的“是”)。例如,在没有输入声音信号的输入的情况下,判定为处理结束。
(对照部7的处理)
图4是示出用于实现参照上述图2所示的动作的对照部7的处理流程的流程图。在图4中,对照部7待机直到从始点判断部31接收到始点帧的通知(Op21)。当接收到始点帧的通知时,对照部7将帧编号i设为始点帧编号(Op22)。之后,对照部7进行考虑了帧编号i的帧的对照处理(Op23),并对帧编号i加1(Op24)。如上所述,对照处理是将各帧的特征量与声学模型和语言模型进行对照的处理。
对照处理开始后,从始点判断部31接收到始点帧的通知的情况下(Op25中的“是”),对照部7对到此为止的对照结果进行修正(Op26)。该修正处理的细节如上所述。对照部7重复Op23的对照处理和Op24~Op26的处理,直到接收到终点帧的通知(Op27中的“是”)。
从终点判断部32接收到终点帧j的通知的情况下(Op27中的“是”),不进行第j个帧以后的对照处理,使用到此为止的对照结果来生成并输出识别结果(Op28)。由此,针对从始点帧到终点帧的帧进行对照处理。此外,在对照处理的过程中更新了始点帧的情况下,根据更新后的始点帧来修正对照处理的结果。
重复以上Op21~Op28的处理,直到语音识别***1判定为处理结束(Op29中的“是”)。例如在没有输入声音信号的输入的情况下等,判定为处理结束。
另外,图4所示的对照部7的处理只是一例而不限于此。例如,对照部7在Op22中设i=始点帧编号,但这里也可以设i=始点帧编号-常数N。由此,从始点帧往前N个帧的帧起,开始对照处理。此时,对照部7可以对始点帧之前的N个帧的处理结果(例如分数)乘以加权系数来降低权重。同样,对照部7也可以在收到终点帧的通知后,进行对照处理直至从终点帧往后规定数量的M个之后的帧。
此外,在图4所示的处理中,对照部7只对从始点帧到终点帧的帧进行对照处理,但是也可以与始点帧和终点帧无关而对所有的帧进行对照处理,根据被通知的始点帧和终点帧来修正其对照结果。例如,对照部7可以利用字定位技术等,不判断语音区间而计算输入声音信号中包含的单词串候选及其分数。对照部7可以根据被通知的始点帧和终点帧来修正通过这种方式计算出的单词串候选及其分数。该情况下的修正也可以按照与上述对照结果修正相同的方式来进行。
另外,在上述实施方式中,示出了由计算机来实施语音识别***1的例子,但是用于使计算机实现语音识别***1的功能的程序或存储该程序的存储介质也是本发明的一种实施方式。此外,语音识别***1还可以称为语音识别装置。
产业上的可利用性
本发明可用作能够进行基于适当语音区间的语音识别并抑制响应时间延迟的语音识别***。

Claims (8)

1.一种语音识别***,该语音识别***具有:
特征量计算部,其将输入的声音信号转换成每个帧的特征量;
声音级别计算部,其计算由各帧的所述声音信号的功率或其对数值表示的输入声音级别、或者由各帧的所述声音信号的振幅或其对数值表示的输入声音级别;
对照部,其接受特征量计算部计算出的各帧的特征量,与预先存储的声学模型和语言模型进行对照,并根据相应对照结果来确定要输出的识别单词串,所述声学模型是对音素的特征量的信息进行建模而得的数据,所述语言模型是关于识别单词的数据;
始点判断部,其通过将所述声音级别计算部计算出的所述输入声音级别与基准值进行比较,来确定作为语音区间始点的始点帧并通知给所述对照部;
终点判断部,其通过将所述声音级别计算部计算出的所述输入声音级别与基准值进行比较,来确定作为语音区间终点的终点帧并通知给所述对照部;以及
基准值更新部,其根据所述始点帧以后的输入声音级别的变动来更新所述基准值,
所述始点判断部在所述基准值更新部更新了基准值时,使用该更新后的基准值来更新始点帧并通知给所述对照部,
所述对照部在接受了特征量计算部计算出的各帧的特征量而开始对照后,在从所述终点判断部接收到终点帧的通知之前,从所述始点判断部接收到始点帧的通知的情况下,根据所通知的始点帧来修正所述对照结果。
2.根据权利要求1所述的语音识别***,其特征在于,
所述对照部只根据从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的语音区间中包含的帧的特征量的对照结果,来确定所述识别单词串。
3.根据权利要求1所述的语音识别***,其特征在于,
所述对照部通过对各帧的特征量的对照结果进行加权来修正所述对照结果,
所述对照部以如下方式进行加权:使得未包含在从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的语音区间中的帧的特征量的对照结果的权重小于从所述始点帧到所述终点帧的语音区间内的帧的特征量的对照结果的权重。
4.根据权利要求1所述的语音识别***,其特征在于,
所述对照部除去未处于从所述始点判断部通知的所述始点帧到所述终点判断部通知的所述终点帧的区间中的帧所包含的单词,来确定所述要输出的识别单词串。
5.根据权利要求1所述的语音识别***,其特征在于,
所述基准值更新部计算所述始点帧以后的帧的最大输入声音级别,并根据该最大输入声音级别来更新所述基准值。
6.根据权利要求1所述的语音识别***,其特征在于,
所述基准值更新部随着时间的经过而阶段性地降低所述基准值。
7.根据权利要求5所述的语音识别***,其特征在于,
所述基准值更新部随着时间的经过而阶段性地降低计算出的所述最大输入声音级别。
8.一种语音识别方法,该语音识别方法包括以下步骤:
特征量计算步骤,将输入的声音信号转换成每个帧的特征量;
声音级别计算步骤,计算由各帧的所述声音信号的功率或振幅表示的输入声音级别;
对照步骤,接受在特征量计算步骤中计算出的各帧的特征量,与预先存储的声学模型和语言模型进行对照,并根据相应对照结果来输出识别单词串,所述声学模型是对音素的特征量的信息进行建模而得的数据,所述语言模型是关于识别单词的数据;
始点判断步骤,通过将所述声音级别计算步骤中计算出的所述输入声音级别与基准值进行比较,来确定作为语音区间始点的始点帧;
终点判断步骤,通过将所述声音级别计算步骤中计算出的所述输入声音级别与基准值进行比较,来确定作为语音区间终点的终点帧;以及
基准值更新步骤,根据所述始点帧以后的输入声音级别的变动来更新所述基准值,
该语音识别方法的特征在于,
在所述始点判断步骤中,当在所述基准值更新步骤中更新了基准值时,使用该更新后的基准值来更新始点帧,
在所述对照步骤中,接受了特征量计算步骤中计算出的各帧的特征量而开始对照后,在所述终点判断步骤中确定终点帧之前,在所述始点判断步骤中更新了始点帧的情况下,根据更新后的始点帧来修正所述对照结果。
CN2007800522508A 2007-03-20 2007-03-20 语音识别***及语音识别方法 Expired - Fee Related CN101636784B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/055760 WO2008114448A1 (ja) 2007-03-20 2007-03-20 音声認識システム、音声認識プログラムおよび音声認識方法

Publications (2)

Publication Number Publication Date
CN101636784A CN101636784A (zh) 2010-01-27
CN101636784B true CN101636784B (zh) 2011-12-28

Family

ID=39765569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800522508A Expired - Fee Related CN101636784B (zh) 2007-03-20 2007-03-20 语音识别***及语音识别方法

Country Status (4)

Country Link
US (1) US7991614B2 (zh)
JP (1) JP4836290B2 (zh)
CN (1) CN101636784B (zh)
WO (1) WO2008114448A1 (zh)

Families Citing this family (213)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8152802B2 (en) * 2009-01-12 2012-04-10 Tyco Healthcare Group Lp Energy delivery algorithm filter pre-loading
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
KR20110047852A (ko) * 2009-10-30 2011-05-09 삼성전자주식회사 동작 환경에 적응 가능한 음원녹음장치 및 그 방법
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR101298740B1 (ko) * 2010-04-02 2013-08-21 에스케이플래닛 주식회사 키워드 스파팅 방식에서 단어 연관성을 이용한 키워드 재탐색 방법 및 장치
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
CN102541505A (zh) * 2011-01-04 2012-07-04 ***通信集团公司 语音输入方法及其***
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130073286A1 (en) * 2011-09-20 2013-03-21 Apple Inc. Consolidating Speech Recognition Results
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20140072670A (ko) * 2012-12-05 2014-06-13 한국전자통신연구원 사용자 음성 처리용 인터페이스 장치 및 방법
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
KR101478459B1 (ko) * 2013-09-05 2014-12-31 한국과학기술원 언어 지연 치료 시스템 및 그 시스템 제어 방법
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9564128B2 (en) * 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
JP5863928B1 (ja) * 2014-10-29 2016-02-17 シャープ株式会社 音声調整装置
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
CN106157959B (zh) * 2015-03-31 2019-10-18 讯飞智元信息科技有限公司 声纹模型更新方法及***
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US20170069309A1 (en) 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR102643501B1 (ko) * 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11100932B2 (en) * 2017-02-10 2021-08-24 Synaptics Incorporated Robust start-end point detection algorithm using neural network
US11853884B2 (en) 2017-02-10 2023-12-26 Synaptics Incorporated Many or one detection classification systems and methods
US11132998B2 (en) * 2017-03-24 2021-09-28 Mitsubishi Electric Corporation Voice recognition device and voice recognition method
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
EP4083998A1 (en) 2017-06-06 2022-11-02 Google LLC End of query detection
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
CN109147770B (zh) 2017-06-16 2023-07-28 阿里巴巴集团控股有限公司 声音识别特征的优化、动态注册方法、客户端和服务器
US11489691B2 (en) 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10930276B2 (en) 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
JP6392950B1 (ja) * 2017-08-03 2018-09-19 ヤフー株式会社 検出装置、検出方法、および検出プログラム
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11450339B2 (en) * 2017-10-06 2022-09-20 Sony Europe B.V. Audio file envelope based on RMS power in sequences of sub-windows
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10964311B2 (en) * 2018-02-23 2021-03-30 Kabushiki Kaisha Toshiba Word detection system, word detection method, and storage medium
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
KR20220010259A (ko) 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치
JP2022039440A (ja) * 2020-08-28 2022-03-10 デュポン・東レ・スペシャルティ・マテリアル株式会社 硬化性シリコーン組成物、封止材、および光半導体装置
US11984124B2 (en) 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
CN116230003B (zh) * 2023-03-09 2024-04-26 北京安捷智合科技有限公司 一种基于人工智能的音视频同步方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1337670A (zh) * 2001-09-28 2002-02-27 北京安可尔通讯技术有限公司 特定人汉语短语语音识别快速方法
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置
CN1763844A (zh) * 2004-10-18 2006-04-26 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别***
CN1920948A (zh) * 2005-08-24 2007-02-28 富士通株式会社 语音识别***及语音处理***

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5797599A (en) * 1980-12-10 1982-06-17 Matsushita Electric Ind Co Ltd System of detecting final end of each voice section
JPS60499A (ja) * 1983-06-17 1985-01-05 カシオ計算機株式会社 音声認識装置におけるしきい値設定方式
JPH07104675B2 (ja) * 1986-06-12 1995-11-13 沖電気工業株式会社 音声認識方法
JP2625682B2 (ja) 1986-09-19 1997-07-02 松下電器産業株式会社 音声区間の始端検出装置
US4984275A (en) 1987-03-13 1991-01-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JP2705061B2 (ja) * 1987-03-13 1998-01-26 松下電器産業株式会社 音声認識方法
US5220609A (en) 1987-03-13 1993-06-15 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5121428A (en) 1988-01-20 1992-06-09 Ricoh Company, Ltd. Speaker verification system
JP2816163B2 (ja) * 1988-01-20 1998-10-27 株式会社リコー 話者照合方式
JPH0792989A (ja) 1993-09-22 1995-04-07 Oki Electric Ind Co Ltd 音声認識方法
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
JP3748964B2 (ja) 1996-11-29 2006-02-22 三洋電機株式会社 空気調和機
EP0944036A4 (en) 1997-04-30 2000-02-23 Japan Broadcasting Corp METHOD AND DEVICE FOR DETECTING LANGUAGE AREAS, AND METHOD AND DEVICE FOR LANGUAGE SPEED CONVERSION
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP2000250568A (ja) * 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
CN1242379C (zh) * 1999-08-23 2006-02-15 松下电器产业株式会社 音频编码装置
US6405164B1 (en) * 1999-12-30 2002-06-11 Engineering Consortium, Inc. Audio compression circuit and method
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
JP2002258882A (ja) * 2001-03-05 2002-09-11 Hitachi Ltd 音声認識システム及び情報記録媒体
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
JP4265908B2 (ja) * 2002-12-12 2009-05-20 アルパイン株式会社 音声認識装置及び音声認識性能改善方法
JP4521673B2 (ja) * 2003-06-19 2010-08-11 株式会社国際電気通信基礎技術研究所 発話区間検出装置、コンピュータプログラム及びコンピュータ
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
US20060136210A1 (en) * 2004-12-16 2006-06-22 Sony Corporation System and method for tying variance vectors for speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置
CN1337670A (zh) * 2001-09-28 2002-02-27 北京安可尔通讯技术有限公司 特定人汉语短语语音识别快速方法
CN1763844A (zh) * 2004-10-18 2006-04-26 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别***
CN1920948A (zh) * 2005-08-24 2007-02-28 富士通株式会社 语音识别***及语音处理***

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JP昭62-293299A 1987.12.19
JP昭63-223796A 1988.09.19
JP特开2000-250568A 2000.09.14
JP特开2002-258882A 2002.09.11
JP特开2005-31632A 2005.02.03
JP特开平2-236599A 1990.09.19
JP特许第3297346号B2 2002.04.12

Also Published As

Publication number Publication date
CN101636784A (zh) 2010-01-27
WO2008114448A1 (ja) 2008-09-25
JPWO2008114448A1 (ja) 2010-07-01
US20100004932A1 (en) 2010-01-07
JP4836290B2 (ja) 2011-12-14
US7991614B2 (en) 2011-08-02

Similar Documents

Publication Publication Date Title
CN101636784B (zh) 语音识别***及语音识别方法
US8244522B2 (en) Language understanding device
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
US6226612B1 (en) Method of evaluating an utterance in a speech recognition system
KR100976643B1 (ko) 자동 음성 인식 시스템용 적응형 콘텍스트
US6985862B2 (en) Histogram grammar weighting and error corrective training of grammar weights
US7043422B2 (en) Method and apparatus for distribution-based language model adaptation
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
US20040186714A1 (en) Speech recognition improvement through post-processsing
US20090119103A1 (en) Speaker recognition system
KR20100115093A (ko) 음성 검출 장치 및 방법
EP1205906B1 (en) Reference templates adaptation for speech recognition
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
US7191130B1 (en) Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
US20050192806A1 (en) Probability density function compensation method for hidden markov model and speech recognition method and apparatus using the same
JPH11184491A (ja) 音声認識装置
JP4239479B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
Huerta et al. Distortion-class modeling for robust speech recognition under GSM RPE-LTP coding
JP4749990B2 (ja) 音声認識装置
Wang et al. Improved Mandarin speech recognition by lattice rescoring with enhanced tone models
JPH09114482A (ja) 音声認識のための話者適応化方法
Abbas Confidence Scoring and Speaker Adaptation in Mobile Automatic Speech Recognition Applications
Choi et al. Robust estimation of discrete hidden Markov model parameters using the entropy-based feature-parameter weighting and source-quantization modeling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111228

CF01 Termination of patent right due to non-payment of annual fee