CN101515457A - 利用片段对大列表进行语音识别 - Google Patents

利用片段对大列表进行语音识别 Download PDF

Info

Publication number
CN101515457A
CN101515457A CNA200910002539XA CN200910002539A CN101515457A CN 101515457 A CN101515457 A CN 101515457A CN A200910002539X A CNA200910002539X A CN A200910002539XA CN 200910002539 A CN200910002539 A CN 200910002539A CN 101515457 A CN101515457 A CN 101515457A
Authority
CN
China
Prior art keywords
list
fragment
entries
mark
voice input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200910002539XA
Other languages
English (en)
Other versions
CN101515457B (zh
Inventor
马库斯·施瓦茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Harman Becker Automotive Systems GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman Becker Automotive Systems GmbH filed Critical Harman Becker Automotive Systems GmbH
Publication of CN101515457A publication Critical patent/CN101515457A/zh
Application granted granted Critical
Publication of CN101515457B publication Critical patent/CN101515457B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种经由语音输入从条目列表中选取条目的语音识别方法,该方法包括如下步骤:检测语音输入,识别语音输入,提供列表条目的片段,将已识别语音输入与条目列表进行比较,以基于比较结果生成最佳匹配条目的候选列表,其中,为了生成所述候选列表,将已识别语音输入与所述条目的所述片段进行比较。

Description

利用片段对大列表进行语音识别
技术领域
本发明涉及一种语音识别方法,其经由语音输入从条目列表中选取一个条目,本发明还涉及一种语音识别***。
背景技术
在许多应用中,诸如导航、名称拨号或者音频/视频播放器控制中,需要从诸如城市名、街道名、固有名称、地址或音乐题目等大量条目的列表中选取一个条目。为了可以在具有中等容量存储器的处理器资源中进行语音识别,常常使用一种具有两个步骤的语音识别方法。在第一步中,由语音识别模块识别音素序列(phoneme sequence)或音素串。然而,音素识别的识别准确率通常是不可接受的,其中会出现很多音素被替换、***以及删除的情况。然后,将诸如音素串等已识别的语音输入与可能会很长的按照发音转录的条目列表进行比较,以确定较短的最佳匹配条目的候选列表。然后,将候选列表作为新的词汇表提供给语音识别器,以供第二次识别途径使用。由于对第一步中进行的识别要求不高,而在进行计算繁重的第二步时仅使用了大条目列表的一个小子集,这个方法节省了计算资源。从WO 2004/077405A1中可以了解以上讨论的具有两个步骤的语音识别方法。
然而,在列表非常大的情况下,计算负担仍然非常大。在导航***具有语音驱动控件的情况下,会出现驱动器/扬声器说出诸如城市和目的城市的街道相结合的目的地组合的情况。例如,德国大约存在三百万个城市-街道的组合。当对这样大的列表执行识别步骤时,上述匹配步骤将需要过多的存储器和匹配运行时间,从而不能集成在车辆的嵌入式***中。在其它应用领域也可能存在这些大列表,例如,当在产品中集成了歌曲的声控选择时选择艺术家姓名、艺术家的歌曲。
发明内容
于是,存在对从条目列表中选取条目的语音识别方法进行改进的需要,从而,进一步最小化计算负担。
独立权利要求的特征满足了此需求。在从属权利要求中,描述了本发明的优选实施例。
根据本发明的第一个方面,提供了一种经由语音输入从条目列表选取条目的语音识别方法。此方法包括检测和识别语音输入的步骤。进一步,提供了列表条目的片段。然后,已识别的语音输入被用来与条目列表进行比较,以便基于比较结果生成最佳匹配条目的候选列表。根据本发明的一个方面,通过将已识别的语音输入与列表条目的所述片段进行比较,生成候选列表。通过将列表条目片段而不是完整的列表条目用于比较步骤,相比将已识别的语音输入与完整的列表条目进行匹配的匹配过程,计算负担可被降低到最小程度。在大列表的情况下,在列表条目中可以重复使用各个片段,例如,在目的地的情况中,在很多列表条目中可能存在片段*street(英语“街道”)或*strasse(德语“街道”)。进一步,在列表条目为城市街道组合的情况下,对于所述城市的每个街道都可能存在城市名。因此,片段列表将比初始列表短得多。进一步,片段本身也比对应的列表条目更短。这些方面共同使得运行时性能得到显著提高。
根据一种优选实施例,至少为每个列表条目提供一个片段。进一步,可以为每个片段加入至少一个通配符。由于分割的原因,片段仅表示列表条目的一部分。通配符则表示当生成列表条目的片段时所没有考虑的列表条目部分。优选地,通配符能够一律匹配任何其它部分。这意味着片段本身将准确匹配与之相关联的语音输入部分,而(语音输入的)其它任何部分则匹配通配符。即使在匹配步骤中不能完全避免通配符的影响,也能够最小化其影响。可以通过计算或者实验测试确定通配符的权重。
当执行列表条目分割时,优选地,片段的列表基本上包含所有不同的列表条目片段。为了生成最佳匹配条目的候选列表,将已识别的语音输入与包含所有不同片段的片段列表进行比较。这个完整的片段列表比完整的条目列表短。当在匹配步骤中使用所述完整的片段列表时,由于许多片段出现在许多不同的列表条目中,已识别的语音输入是和更短的列表进行比较,所以,可以最小化计算负担。
在匹配过程的附加步骤中,则可以为每个片段计算分数,在将已识别的语音输入与所述片段进行比较时,此分数度量已识别的语音输入与片段的适配程度。基于此分数,可以选择列表中的最佳匹配条目。为此,对片段列表中的每个片段计算出分数,并且,可以通过对组成列表条目的片段的分数进行加总,为列表条目计算列表条目分数。即使需要计算两个不同的分数时,从计算的角度来看,为了得到列表条目分数而将各分数简单加总也比将已识别的语音输入与完整列表条目进行匹配要更不费力。
片段可以伴随着一个或几个通配符,可以在一侧、两侧提供一个或几个通配符,当然,也可以不提供通配符。当没有通配符时,意味着列表条目非常短,不能被进一步分割。还可以在片段的不同侧使用不同的通配符,例如,片段的第一侧是具有第一权重的第一通配符,第二侧则是具有第二权重的第二通配符。进一步,有可能不可以在片段的两侧同时提供通配符,而仅可以在片段的一侧提供通配符。这有助于更好地模拟片段在语音输入中出现的位置。如果确定了仅在一侧提供了通配符,则没有提供通配符的一侧也得到了确定。然后,可以确定已识别语音输入的对应一侧,并基于在已识别的语音输入的所述侧提供的已识别语音输入的一部分执行已识别语音输入与片段的匹配。例如,片段*strasse,在城市街道列表条目的情况下,*表示的通配符通常匹配话语的最右边的部分。仅具有一个通配符的片段的另一个优点在于,片段与话语的匹配实际上不需要识别完整的话语,而仅需识别适当的一侧。当考虑仅对已识别语音输入/话语的一侧进行匹配时,也可以进一步加速匹配过程。这样仅具有一个通配符的边界片段也有助于更准确地模拟列表条目,这将显著提高识别率。
另外,条目列表中的条目也可以包含通配符。这些通配符有助于模拟以下这种情况,即用户不仅说出列表条目的名称,同时列表条目被嵌在完整的句子中的情况(例如,请引导到慕尼黑的Linden大街)。
也可以通过从一侧进行匹配组合以适当的剪枝机制来实现仅对已识别语音输入的右侧或左侧进行匹配的特征。在一种语音识别方法中,将已识别的语音输入与列表条目的语音表示进行比较。这样的匹配算法的一种例子是Levenshtein算法,其计算为了包含另一个串而修改一个串所需要的编辑操作的最少的次数。在这样的操作期间,可以检测出,相比不需要继续进行计算的其它片段,对于预先确定的片段,修改或编辑操作的次数已经非常高了。在语音识别中,用“剪枝”这个表述来称呼此机制。这样的剪枝机制可以应用于已识别语音输入的其它侧,其中,在片段中存在通配符。
与在其中片段的一侧仅匹配已识别语音输出的一部分的匹配算法相关的剪枝机制的优点在于,不需要对话语中的切分点进行预先猜测。而不利之处则在于,使用从左到右以及从右到左匹配的组合来提高性能即使不是不可能,至少也是很难的。在某种意义上,由于片段的正确顺序的串联不必给出初始的列表条目,片段也就不必是一对一的。可以以某列表条目的片段相交迭的方式选取列表条目的片段。进一步,可以以各片段仅覆盖列表条目的一部分的方式(所谓欠重叠)选取列表条目的片段。进一步,可以是这两种方式的组合,这意味着一些片段可以与其它片段交迭,然而,同一列表条目的其它片段不覆盖整个列表条目。进一步,可以完全交迭,这样,列表条目的所有部分恰好由两个片段覆盖,然而,也可以使用不完全交迭,此时,对于一个或两个名字或子单元,一些片段相交迭。
当为了计算列表条目的结果分数而编辑不同片段的分数时,可以计算归一化的分数,归一化分数被加上,以便计算列表条目的分数。为了能够对不同的分数进行相互比较,此归一化是必需的。一种执行归一化的可能情况是计算中性分数,可通过将单个的通配符符号与识别结果进行匹配来确定此中性分数。然后,可以从为不同的片段计算得到的所有分数中减去此中性分数。进一步,可以以将零作为中性分数的方式归一化此片段分数,然后,加上属于整个列表条目的片段的分数。这样,可以通过加上所述列表条目的片段的归一化分数来获得每个列表条目的分数。对于列表条目分数的计算,也可以明确考虑片段的个数和大小。归一化的另一种可能情况是为每个片段确定片段的具体中性分数。当对不同的语音输入执行了大量的语音识别步骤时,并且当基于片段的不同语音输入的识别结果时,这是可能的,可以计算不同语音输入的平均分数作为片段的具体分数。片段的具体分数或者期望分数是具体片段的分数的随机期望值,能够用于模拟期望分数和观察分数之间的差异。
在本发明的一种实施例中,分数不取决于片段在列表条目中的位置。然而,也可以取代每个片段的单个分数,使用片段的基于位置的分数。在使用这样的基于位置的分数时,“linden-furt”的分数不同于“furt-linden”的分数,或者,“linden-strasse”的分数不同于“strasse-linden”的分数。
对于片段和各个分数的优化处理,可以树状结构提供片段。此树状结构可以用于对不同片段的分数进行相加,从而计算列表条目的分数。这可以从如下例子看出。当列表包含条目Lindenfurt和Lindendorf时,Lindenfurt的分数对应于片段Lin的分数加上片段den的分数加上片段furt的分数,也对应于Linden的分数和furt的分数。对于Lindenfurt和Lindendorf的分数的计算,已经计算出了Linden的分数,从而当使用树状结构时,可以避免一个相加的步骤。
此基于片段的匹配可以结合在本申请的引言部分所提到的两步识别步骤一起使用。这意味着基于列表条目的片段确定的最佳匹配条目的候选列表可以作为额外的识别步骤的基础。在此第二步中,可以通过将候选列表中列出的条目的语音或声学表示与声学输入进行匹配来确定列表中的最可能的条目。可以通过根据计算得到的分数对列表条目进行分类来生成候选列表,具有n个最佳分数的n个最佳列表条目构建了所述候选列表。
除了此基于片段的匹配,为了生成候选列表,还可以将已识别语音输入与完整的列表条目中的一些条目进行匹配。例如,当对某个片段计算出好的分数时,在生成最佳匹配条目的候选列表之前,也将包含所述片段的列表条目与已识别的语音输入进行匹配将是有利的。这种情况下,仅对列表中的一些条目而不是对列表中的所有条目执行完全匹配,从而,相比将已识别语音输入与列表的全部条目进行比较的情况,计算负担更小。
以下是两步骤匹配的一种可能的实施例:在第一步中,利用开放音素环执行语音输入的识别步骤。然后,利用片段列表将已识别语音输入与列表条目进行匹配。作为第三步骤,执行完全匹配步骤,其中,将已识别语音输入与整个列表条目进行比较。此步骤可以进一步缩短可能的匹配结果的列表。在第四步中,可执行实际的语音识别。
在本发明一种实施例中,可以基于子单元级别,例如,音素级别,将列表条目分割成片段。当列表条目包括城市名和街道名的组合时,至少在城市和街道之间进行分割将是有利的。然而,可以理解,可以进一步分割城市名和街道名。此分割也有助于降低存储数据时的存储器需求。
本发明进一步涉及一种语音识别***,其用于经由语音输入从包含数据库的条目列表中选取条目,其中,所述数据库包括条目列表和片段列表,如以上所解释,每个片段至少表示列表条目的一部分。语音识别模块识别语音输入,并将已识别语音输入与条目列表进行比较,从而基于比较结果生成最佳匹配条目的候选列表。根据本发明一个方面,为了生成候选列表,语音识别模块将已识别语音与片段列表进行比较。此语音识别***按照以上详细解释的方式进行工作。
本发明进一步涉及一种计算机程序产品,其包括指令,当计算机***的处理器执行此指令时,该计算机程序产品执行以上详细解释的方法。
附图说明
本发明的这些和其它潜在的目标、特征以及有益效果将从本发明实施例的如下描述和例子中更加充分地表现出来。然而,可以理解,本发明的范围不限于附图中所示的任何实施例,附图中,
图1示意性示出一种语音识别***,该***使用基于片段的方法;
图2示出流程图,其为基于片段的识别方法的主要步骤;
图3阐明另一个流程图,其包括基于片段的语音识别方法的一些步骤的详细视图;以及
图4示出片段的树状结构的例子。
具体实施方式
在图1中,示出了一种语音识别***,其使用基于片段的方法从大的条目列表中选取条目。图1所示的***能够用于车辆目标位置的语音驱动选择,用于选择媒体文件库的媒体文件,以及用于选择地址簿中的个人姓名等。此***可用于车辆环境中,然而,所示的***也可在非车辆环境中作为独立单元进行使用。该语音识别***包括语音识别模块10,该语音识别模块10接收来自用户11的语音输入。语音识别模块10结合着数据库12一起使用,数据库12包括条目列表13。条目列表可包括诸如一个国家甚至或几个国家等预定地理区域的城市街道组合。在所示实施例中,列表13包括不同的条目14。在所示实施例中,列表条目14是城市A和诸如街道B的地址的组合。例如,列表条目可为如下这样:Frankfurt Lindenstrasse或者Ulm OlgastrasseMünchen Wettersteinplatz等。除了初始的列表条目以外,可以提供第二列表15,列表15包括来自列表13的列表条目14的不同片段。优选地,在列表15中为所有列表条目提供片段。分割列表条目,因为,对于足够大的列表,就运行时间而言,匹配片段比匹配全部列表条目要明显省时。可以在音素级别或一些其它子单词级别执行分割。关于在哪里分割哪些列表条目的分割决定可基于预期的识别率、存储需求以及运行时性能。在所示实施例中,在城市街道组合的情况下,在大多数情况下至少在城市和街道之间进行分割是有利的,可以减少存储数据时对存储器的需求。对于上例,分割可如下所示:
Frankfurt Lindenstrasse=>Frank|furt|Linden|strasse
Ulm Olgastrasse=>Ulm|Olga|strasse
München Wettersteinplatz=>Mün|chen|Wetter|stein|platz
Hamburg Steinstrasse=>Ham|burg|Stein|strasse
在此列表中,为了将条目与语音输入11的已识别音素串进行比较,通常以按发音转录的条目的形式存储这些条目。为便于阐述,示出了这些列表条目的正确拼法。从以上提到的例子可以看出,之前不相连的列表条目现在具有共同的片段“strasse”和“stein”。列表越大,效果越显著。结果,独特的或者不同的片段的列表变得比初始列表更短。进一步地,片段本身也比完整的列表条目更短。这两个方面有助于优化和加速选取大列表中的条目时的语音识别。从图中可看出,列表15中的片段伴随着用标记*表示的通配符。在此列表中,片段a的左侧有通配符,而另一个片段b的通配符在右侧。进一步地,可以在两侧同时提供通配符。对于非常短的列表条目,可得知片段对应于列表条目,从而不提供通配符。在上述例子中,可提供类似*strasse或者*olga*等片段。所使用的通配符不必具有相同的属性。例如,可以在左侧和右侧使用不同的通配符,类似*olga$,表示两个通配符的权重不同。
当语音识别模块10已经执行了用于识别语音输入的第一识别步骤时,例如,使用开放音素环或者一些其它子单词单元,为了确定最佳匹配片段,将已识别语音输入与片段15的列表进行比较。然后,基于片段匹配来计算最佳匹配列表条目的候选列表。此最佳匹配列表条目的列表对应于候选列表20。在此较短的候选列表中,可将最佳的M个匹配条目显示给用户,以进行进一步选取。然而,此候选列表也可以与具有两个步骤的语音识别方法结合使用,其中,另一个识别步骤是对短列表进行的。在另外的识别步骤中,通过将候选列表中列出的条目的语音声学表示与声学输入进行匹配并确定最佳匹配条目,来确定在列表中对于同一语音输入的最可能的条目。相比第一步,第二步需要更多的计算能力。为了减少计算时间,列表20中的列表条目的数目比列表13中列表条目的数目显著减少。例如,列表条目的大列表13可包括几十万或几百万个列表条目。最佳匹配条目的第二候选列表20要短得多,例如,其具有几百个或几千个条目。然后,可以对这样的短候选列表20执行第二识别步骤。可以在显示器30上显示此第二步骤的最佳匹配结果。可以理解,第二匹配步骤不是必需的。也可以仅执行一个匹配步骤。
图2所示的流程图示出了语音识别方法的主要步骤。此方法从步骤41开始。在步骤42中,识别语音输入11。此处,语音识别模块识别音素序列或音素串。一旦生成此语音输入的音素序列,则必须提供片段15的列表(步骤43)。此片段列表也可以是已经存储在***中的预先确定的列表。在列表条目变化的情况下,也可以在执行匹配步骤之前生成片段列表。在步骤44中执行已识别音素串与片段列表的匹配。为了确定已识别音素串与已匹配片段的对应情况如何,可以为列表15的每个片段确定分数(步骤45)。当知道不同片段的分数时,就可以在步骤46中确定列表条目的分数。可以知道整个列表条目通过哪些片段进行连接。于是,为了确定此列表条目的分数,可以将形成此列表条目的不同片段的分数简单相加。根据此分数,在列表47中确定最佳匹配条目的候选列表。然后,可以将候选列表用于附加匹配步骤,或者,将最佳匹配条目示于用户,以便进一步选择或确认。然而,此第二步骤可从现有技术得知,此处不再进一步详细解释。此实施例中,方法在步骤48处结束。
图3中,进一步详细示出了此方法。结合图2解释在步骤43中提供了这些片段之后,在步骤51中询问片段是否伴随着通配符。如果伴随着通配符,则在步骤52中确定通配符在哪一侧。在片段是边界片段的情况下,为了更好地模拟片段位置以及模拟其在话语中能够出现的位置,不在各个片段的两侧同时提供通配符是更有利的。例如,在列表条目包含城市-街道对的情况下,片段“*strasse”通常能够匹配话语的最右部分。相应地,在步骤53中,确定初始语音输入中的对应侧。结果,当提供*片段的组合时,将较少考虑到或者完全不会考虑到相应的已识别语音输入的左侧部分,然而,当此组合是片段*时,仅第一部分,即表示已识别语音输入的左侧部分将用于匹配。此外,例如,如果有类似于strassenhausen和olgastrasse的列表条目时,可以对类似*strasse和strasse*的同一个片段使用不同的变量。这可以得到更好的打分。当仅考虑已识别语音输入的一侧时,匹配过程更加迅速。这种仅对话语的右侧和左侧部分进行的匹配,可通过结合适当的剪枝机制从右侧开始的匹配来完成。这样做的优点在于不需要预先猜测话语中的切分点。而不利之处则在于使用从左到右以及从右到左匹配的组合即使不是不可能,至少也是很难的。如果没有在片段中检测到通配符,则此方法直接将已识别的语音输入与此片段进行比较(步骤54)。
根据本发明的一个方面,执行分割时不需要使以正确顺序连接的片段一定能产生初始列表条目。片段可以交迭,或者它们可以仅覆盖列表条目的一部分。然而,可以利用交迭的片段执行匹配步骤。这种交迭甚至能提高匹配的准确率。对于步骤54中的比较步骤,可以使用上下文敏感的Levenshtein距离或者一些其它适合的匹配算法。如本领域技术人员已知的那样,Levenshtein算法计算将一个字串修改为另一个字串所需要的编辑操作的最少次数。对此进行计算的最常见的方法是通过使用矩阵的动态规划(programming)方法。在此矩阵中,可以看到将第一字串改变为第二字串所需要的编辑操作。在加权算法的情况下,将一个字符改变为另一个字符的代价不是固定的。在当前的例子中,此代价取决于上下文。然而,可以理解,也可以使用任何其它匹配算法。当已识别语音输入与片段匹配时,对每个片段得到一个分数。为了更好的比较不同的分数,可以对分数进行归一化(normalise),例如,可以将零作为中性分数。然后可以加上属于整个列表条目的所有片段的分数。为了计算列表条目的分数,也可以明确考虑片段的个数和大小。在一种实施例中,可通过将单个的通配符符号与识别结果进行匹配来计算中性分数。然后从所有片段的分数中减去此中性分数,从而获得归一化分数。进一步,可以使用具体片段的中性分数,此具体片段的分数取决于各个片段。这种情况下,例如,希望使用片段的期望分数,并希望能模拟期望分数和观察分数之间的差异。对于通过将片段与各种各样不同的语音输入进行匹配所获得的分数而言,此期望分数可以是随机期望值。对于每个语音输入,此片段具有具体的分数。一个片段的所有具体分数的平均值则是具体片段的分数。相应地,在步骤55中计算了各个片段的分数,并且在步骤56中对分数进行了归一化之后,可以在步骤57中最终计算不同列表条目的分数,但并不限于在步骤57中计算该分数。
在图4中示出了怎样获取片段的有效组织的实施例。在图4所示的实施例中,示出了Lindenweg、Lindenstrasse、Lindenfurt、Lindendorf这四个不同的列表条目。在存储和计算分数时,可以使用树状结构,以便于高效存储整个列表。列表条目具有如下片段:Lin|den|furt、Lin|den|dorf、Lin|den|strasse、Lin|den|weg。那么,Lindenfurt的分数可以是片段Lin的分数加上片段den的分数加上片段furt的分数,对应于片段Linden的分数加上片段furt的分数。如图4所示,片段61“Lin”具有第一分数s1,片段“den”具有第二分数s2,等等。为了计算四个不同条目的分数,lin和den的分数仅需要相加一次,从而在确定四个不同的列表条目的分数时,仅需执行五次加法操作。也可以取代每个片段的单个分数s,使用片段的基于位置的分数。这意味着片段A加上片段B的分数并不等同于片段B加上片段A的分数。
当基于片段的分数已知时,整个列表条目的分数也就已知了,并且可以基于这些分数对列表分类,来计算最佳匹配条目的列表。
总而言之,从以上描述可见,使用基于片段而不是基于整个列表条目的语音识别方法,有助于优化计算能力,以及优化发现正确选择的列表条目所需要的时间。

Claims (31)

1.一种经由语音输入从条目列表中选取条目的语音识别方法,所述方法包括如下步骤:
检测语音输入,
识别语音输入,
提供列表条目的片段,
将已识别语音输入与条目列表进行比较,以基于比较结果生成最佳匹配条目的候选列表,其中,为了生成所述候选列表,将已识别语音输入与所述条目的所述片段进行比较。
2.根据权利要求1所述的方法,其中为列表中的每个条目提供至少一个片段。
3.根据权利要求1所述的方法,其中所述片段至少伴随着一个通配符,该通配符表示在列表条目的片段中没有考虑的列表条目部分。
4.根据权利要求1所述的方法,其中提供了基本上包含列表条目的所有不同片段的片段列表,其中,为了生成候选列表,将已识别语音输入与片段列表进行比较。
5.根据权利要求1所述的方法,其中,当将已识别语音输入与片段进行比较时,计算片段的分数,该分数衡量已识别语音输入与一个片段的适配程度如何。
6.根据权利要求4或5所述的方法,其中,为片段列表中的每个片段计算分数。
7.根据权利要求5所述的方法,其中,通过将构建所述列表条目的片段的分数相加,计算出一个列表条目的分数。
8.根据权利要求3所述的方法,其中,将通配符添加到片段的一侧,添加到片段的另一侧,或者,添加到片段的两侧。
9.根据权利要求3所述的方法,其中,选取通配符时使得此通配符基本上一律匹配任何已识别的语音输入。
10.根据权利要求3所述的方法,其中,片段伴随着不同的通配符,当将已识别语音输入与片段进行比较时,每个通配符具有不同的权重。
11.根据权利要求3所述的方法,其中,当仅在片段的一侧提供通配符时,则确定出没有提供通配符的一侧,其中,确定已识别语音输入的对应一侧,其中,基于在已识别的语音输入的所述对应侧提供的已识别语音输入的一部分,来执行已识别语音输入与片段的匹配。
12.根据权利要求3所述的方法,其中,当仅在片段的一侧提供通配符时,则确定出识别语音输入的对应侧,其中,将剪枝机制作用于已识别语音输入的另一侧。
13.根据权利要求5所述的方法,其中,对将已识别语音输入与片段列表进行匹配时计算出的分数进行归一化,为计算每个列表条目的分数而加上经归一化的分数。
14.根据权利要求5所述的方法,其中,通过将所述至少一个通配符与已识别语音输入进行匹配来计算中性分数,从为不同的片段计算出的所有分数中减去该中性分数。
15.根据权利要求1所述的方法,其中,以树状结构提供这些片段。
16.根据权利要求15所述的方法,其中,基于片段的树状结构对构建列表条目的不同片段的分数进行相加。
17.根据权利要求5所述的方法,其中,为片段计算基于位置的分数,其中,片段的分数取决于片段在列表条目中的位置。
18.根据权利要求1所述的方法,其中,基于列表条目的片段确定的最佳匹配条目的候选列表被作为识别步骤的基础。
19.根据权利要求1所述的方法,其中,列表条目包括如下信息中的至少一种:个人姓名、地址、城市名称、街道名称、兴趣点、歌曲名。
20.根据权利要求1所述的方法,其中,通过根据计算出的分数对列表条目进行分类,来生成最佳匹配条目的列表,用具有最佳分数的n个列表条目构建候选列表。
21.根据权利要求1所述的方法,其中,为了将已识别语音输入与列表条目的片段进行匹配,使用了上下文敏感Levenshtein算法。
22.根据权利要求14所述的方法,其中,为了计算中性分数,则计算具体片段的中性分数,基于所述具体片段的分数计算列表条目的分数。
23.根据权利要求1所述的方法,其中,进一步将已识别语音输入与全部列表条目中的至少一些条目进行比较,以生成候选列表。
24.根据权利要求1所述的方法,其中,将列表条目分割成片段的操作是在子单词单元级上执行的。
25.根据权利要求1所述的方法,其中,列表条目包括城市名称和街道名称的组合,并且至少在城市名称和街道名称之间执行片段分割。
26.根据权利要求1所述的方法,其中,选取列表条目的片段,以使得一个列表条目的各片段相交迭。
27.根据权利要求1所述的方法,其中选取列表条目的片段,以使得这些片段仅覆盖列表条目的一部分。
28.根据权利要求1所述的方法,其中,将列表条目与通配符存储在一起,通配符考虑了这样的事实,即,用户从所述条目列表中选取一个条目时所说的话语中包含的不止列表条目本身。
29.一种语音识别***,其用于经由语音输入从条目列表中选取条目,该语音识别***包括:
数据库,其包括条目列表和片段列表,每个片段表示一个列表条目的一部分,
语音识别模块,其识别语音输入,并将已识别语音输入与条目列表进行比较,从而基于比较结果生成最佳匹配条目的候选列表,其中,为了生成所述候选列表,语音识别模块将已识别语音输入与所述片段列表进行比较。
30.根据权利要求29所述的语音识别***,其中,所述语音识别***根据权利要求1到28的任何一个中所述的方法进行工作。
31.一种包含指令的计算机程序产品,该指令在被计算机***的处理器执行时,使得该计算机程序产品执行权利要求1到28的任何一个中所述的方法。
CN200910002539XA 2008-01-16 2009-01-16 利用片段对大列表进行语音识别 Expired - Fee Related CN101515457B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP08000772.7A EP2081185B1 (en) 2008-01-16 2008-01-16 Speech recognition on large lists using fragments
EP08000772.7 2008-01-16

Publications (2)

Publication Number Publication Date
CN101515457A true CN101515457A (zh) 2009-08-26
CN101515457B CN101515457B (zh) 2013-01-02

Family

ID=39434220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910002539XA Expired - Fee Related CN101515457B (zh) 2008-01-16 2009-01-16 利用片段对大列表进行语音识别

Country Status (6)

Country Link
US (2) US8401854B2 (zh)
EP (1) EP2081185B1 (zh)
JP (1) JP5517458B2 (zh)
KR (1) KR20090079169A (zh)
CN (1) CN101515457B (zh)
CA (1) CA2650141C (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346151A (zh) * 2013-07-30 2015-02-11 联想(北京)有限公司 一种信息处理方法及电子设备
CN111276147A (zh) * 2019-12-30 2020-06-12 天津大学 一种基于语音输入的饮食记录方法
CN112446975A (zh) * 2020-11-18 2021-03-05 平安普惠企业管理有限公司 考勤方法、***、装置和计算机设备

Families Citing this family (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
EP2081185B1 (en) 2008-01-16 2014-11-26 Nuance Communications, Inc. Speech recognition on large lists using fragments
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
EP2221806B1 (en) * 2009-02-19 2013-07-17 Nuance Communications, Inc. Speech recognition of a list entry
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8401852B2 (en) 2009-11-30 2013-03-19 Microsoft Corporation Utilizing features generated from phonic units in speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) * 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20130158999A1 (en) 2010-11-30 2013-06-20 Mitsubishi Electric Corporation Voice recognition apparatus and navigation system
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2815579B2 (ja) 1987-03-10 1998-10-27 富士通株式会社 音声認識における単語候補削減装置
US5202952A (en) 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5566272A (en) 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US6065003A (en) 1997-08-19 2000-05-16 Microsoft Corporation System and method for finding the closest match of a data entry
JP2000047690A (ja) * 1998-07-29 2000-02-18 Meidensha Corp 音声認識装置における音素計算処理量削減方法
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
US6571210B2 (en) 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US6850886B2 (en) 1999-10-21 2005-02-01 Sony Corporation System and method for speech verification using an efficient confidence measure
JP2001312293A (ja) * 2000-04-28 2001-11-09 Matsushita Electric Ind Co Ltd 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
US20020003547A1 (en) * 2000-05-19 2002-01-10 Zhi Wang System and method for transcoding information for an audio or limited display user interface
DE60016722T2 (de) 2000-06-07 2005-12-15 Sony International (Europe) Gmbh Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
US7155061B2 (en) * 2000-08-22 2006-12-26 Microsoft Corporation Method and system for searching for words and phrases in active and stored ink word documents
US6985861B2 (en) 2001-12-12 2006-01-10 Hewlett-Packard Development Company, L.P. Systems and methods for combining subword recognition and whole word recognition of a spoken input
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
JP3892338B2 (ja) * 2002-05-08 2007-03-14 松下電器産業株式会社 単語辞書登録装置および単語登録用プログラム
AU2003273357A1 (en) 2003-02-21 2004-09-17 Harman Becker Automotive Systems Gmbh Speech recognition system
US20040260681A1 (en) 2003-06-19 2004-12-23 Dvorak Joseph L. Method and system for selectively retrieving text strings
US7529657B2 (en) * 2004-09-24 2009-05-05 Microsoft Corporation Configurable parameters for grammar authoring for speech recognition and natural language understanding
EP1734509A1 (en) 2005-06-17 2006-12-20 Harman Becker Automotive Systems GmbH Method and system for speech recognition
US7277029B2 (en) * 2005-06-23 2007-10-02 Microsoft Corporation Using language models to expand wildcards
JP2007280104A (ja) * 2006-04-07 2007-10-25 Pioneer Electronic Corp 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体
EP2081185B1 (en) 2008-01-16 2014-11-26 Nuance Communications, Inc. Speech recognition on large lists using fragments

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346151A (zh) * 2013-07-30 2015-02-11 联想(北京)有限公司 一种信息处理方法及电子设备
CN104346151B (zh) * 2013-07-30 2018-04-27 联想(北京)有限公司 一种信息处理方法及电子设备
CN111276147A (zh) * 2019-12-30 2020-06-12 天津大学 一种基于语音输入的饮食记录方法
CN112446975A (zh) * 2020-11-18 2021-03-05 平安普惠企业管理有限公司 考勤方法、***、装置和计算机设备

Also Published As

Publication number Publication date
US8401854B2 (en) 2013-03-19
EP2081185B1 (en) 2014-11-26
CN101515457B (zh) 2013-01-02
EP2081185A1 (en) 2009-07-22
CA2650141A1 (en) 2009-07-16
JP2009169418A (ja) 2009-07-30
US20130231934A1 (en) 2013-09-05
US20090210230A1 (en) 2009-08-20
KR20090079169A (ko) 2009-07-21
CA2650141C (en) 2014-04-15
US8731927B2 (en) 2014-05-20
JP5517458B2 (ja) 2014-06-11

Similar Documents

Publication Publication Date Title
CN101515457B (zh) 利用片段对大列表进行语音识别
US7925506B2 (en) Speech recognition accuracy via concept to keyword mapping
EP1800294B1 (en) System and methods for improving accuracy of speech recognition
US9361879B2 (en) Word spotting false alarm phrases
US20080319748A1 (en) Conversation System and Conversation Software
US20080183468A1 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
CN111916070A (zh) 经由深度前馈神经网络使用自然语言理解相关知识的语音识别
CN102549652A (zh) 信息检索装置、信息检索方法及导航***
JP2003036093A (ja) 音声入力検索システム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP4950024B2 (ja) 会話システムおよび会話ソフトウェア
Moyal et al. Phonetic search methods for large speech databases
CN108899016A (zh) 一种语音文本规整方法、装置、设备及可读存储介质
CA2483805C (en) System and methods for improving accuracy of speech recognition
JP5196114B2 (ja) 音声認識装置およびプログラム
US10832675B2 (en) Speech recognition system with interactive spelling function
JP6097776B2 (ja) 単語選択装置、方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO., LTD.

Free format text: FORMER OWNER: HAMANBECK AUTOMATED SYSTEMS CO., LTD.

Effective date: 20100421

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: KARLSBAD, GERMANY TO: MASSACHUSETTS STATE, U.S.A

TA01 Transfer of patent application right

Effective date of registration: 20100421

Address after: Massachusetts, USA

Applicant after: Nuance Communications Inc

Address before: Carlsbad

Applicant before: Harman Becker Automotive Sys

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130102

Termination date: 20170116

CF01 Termination of patent right due to non-payment of annual fee