CN1965349A - 多形式的非歧意性语音识别 - Google Patents

多形式的非歧意性语音识别 Download PDF

Info

Publication number
CN1965349A
CN1965349A CNA2005800178056A CN200580017805A CN1965349A CN 1965349 A CN1965349 A CN 1965349A CN A2005800178056 A CNA2005800178056 A CN A2005800178056A CN 200580017805 A CN200580017805 A CN 200580017805A CN 1965349 A CN1965349 A CN 1965349A
Authority
CN
China
Prior art keywords
input
word
candidate
speech recognition
mobile device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005800178056A
Other languages
English (en)
Inventor
M·朗格
R·埃亚德
K·C·贺尔费什
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AMERICAN ON-LINE
Original Assignee
AMERICAN ON-LINE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AMERICAN ON-LINE filed Critical AMERICAN ON-LINE
Publication of CN1965349A publication Critical patent/CN1965349A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种结合了一或多种替代的输入形式(modality)的语音辨识***用以确保有效率及正确的文字输入。语音辨识***因为有限的处理能力,环境噪音,及/或说话风格上的自然变化等因素的关系而尚未达到完全正确的程度。可供选择的输入形式使用清晰化或识别引擎来补偿减缩的键盘,潦草的输入,及/或在书写风格上的自然的变化。在语音辨识处理中的歧意性(ambiguity)大多数是与可供选择的输入模式中固有的歧意性正交,使得两种形式的结合可有效率地及正确地解决辨识错误。本发明特别适用于键盘输入或触控屏幕输入的空间有限的可携式装置。

Description

多形式的非歧意性语音识别
技术领域
本发明是有关于使用者使用一输入装置将信息输入到一***中中。详言之,本发明是有关于与文字输入清晰化***相结合的语音辨识。
背景技术
多年来可携式计算机已经变得愈来愈小。在制造一更小的可携式计算机的努力中主要的尺寸限制构件为键盘。如果使用标准打字机尺寸的按键的话,则可携式计算机至少要跟标准键盘一样大。迷你键盘已被使用在可携式计算机上,但迷你键盘的按键太小而无法让使用者轻易地或快速地操作。外加一全尺寸的键盘于一可携式计算机上亦妨碍了计算机真实的可携式用途。若没有被放置到一平坦的工作平面上,让使用者能够用两只手来打字的话,则大多数可携式计算机是无法***作的。当在移动中或站着时,使用者是无法使用一可携式计算机的。
目前,在无线工业上的一巨大的成长已大量制造出可靠,方便,及非常普遍的一般消费者可得到的移动装置,无移动电话,PDA等。因此,需要文字输入的掌上型无线通信及运算装置仍是变得愈来愈小。最近在移动电话上及其它可携式无线技术上的进步已引发对于小且可携带的双向通讯***的需求。大多数无线通信装置制造商亦想要提供可让使用者用握持该装置的手即可操作的消费商品。
语音辨识长久以来已被期待是文字输入的最佳方式,就提高桌上型计算机的生产率及就作为移动装置的尺寸限制的解决的道这两方面而言都是如此。一种语音辨识***典型地包括一麦克风用来侦测并记录声音输入。声音输入被数字化且被分析用以获取语音模式(pattern)。语音辨识典型地需要一强有力的***来处理该声音输入。某些具有有限能力的语音辨识***已被应用在小型装置上,如移动电话的命令及控制上,但对于以语音控制的操作而言,一装置只需要辨识几个命令而已。即便是此一有限范围的语音辨识,一小型装置仍无法具有令人满意的语音辨识正确性,因为语音模式在不同的说话者之间有着很大的变化,且环境噪音更添信号的复杂度。
Suhm等人在发表于ACM Transactions on Computer-HumanInteraction(2001)的一篇文章中讨论到一特别的问题。「修补问题」为修正因为不完美的辨识所产生的错误。他们发现使用相同的形式(modality)(重说)不太可能能够修正辨识错误,大部分是因为「Lombard 」效应,即人们在一开始被误解之后它们说话会跟平常不一样,且他们发现使用一不同的形式,像是键盘,是一更为有效且有效率的补救方法。很不幸地,移动装置特别缺乏处理能力及内存来提供完整的语音辨识能力,而造成更高的辨识误差,及缺乏实体的空间来提供完整的键盘及鼠标输入以进行有效率的错误修正。
清晰化
先前的开发工作已考虑到使用一按键数减少的键盘。就如同一按键式电话的小型键盘的外形所示的,许多缩小型的键盘都使用3乘4的按键数组。在此按键数组中每一按键都包含数个字符。因此,当使用者输入一连串的按键时,即会产生歧意性(ambiguity),因为每一按键操作都象征数个字母中的一个。已有数种方法被提出来解决成串按键操作的歧意性。这些方法被称为清晰化。
在J.Arnott,M.Javad总结在他们发表于Journal of the lnternationalSociety for Augmentative and Alternative Communication  期刊的一篇’Probabilistic Character Disambiguation for Reduced Keyboards UsingSmall Text Samples’论文中提出一些方法,用来决定相应于一不确定的按键操作顺序的正确的字符顺序。
T9Text Input为以美国专利第5,818,437号专利及其后续专利为基础的提供小型键盘,像是电话键盘,单字层级的清晰化的领导品牌。藉由使用的频率来编排引起歧义的单字的顺序可降低在稍早的研究中所出现的效率问题,以及添加新字的能力来使其在经过一段时间之后更易于使用。输入顺序依据笔尖轻敲的位置或输入模式,如多次轻敲,会被同时解读为单字,字符串及/或完成,数目,及清楚的字符串。
亦有供具表意的(ideographic)而非字母的(alphabetic)语言(如中文)的小型键盘使用的T9及类似的产品。这些产品通常采用以下两种方式中的一种:基本手写笔画或笔画类别被映射(map)至可用的按键上;及使用者依照传统的顺序输入所想要的字符的笔画;或一语音字母被映射到该等按键上且使用者输入所想要的字符的语音拼法。不论哪一种方法,使用者都必需从许多符合输入顺序的字符中找出并选取所想要的字符。该等输入产品通常都可从之前已输入的字符的上下文(context)中获益,用以改善最常被使用的字符的显示顺序,因为界定一个单字或词组通常需要两个或多个表意的字符。
不幸地,移动装置被都设计成带有更小的键盘,其按键是更加的时髦但同时亦更不容易快速且正确地打字。所以,将歧意的按键操作顺序加以清晰化需要更多的改进。例如,在将一输入的顺序清晰化时或在预测下一个输入顺序时,通常没考量语法或应用的上下文。
另一种经常使用在小型装置上的键盘包含一触控式面板,在该面板上印有某种形式的键盘,或包含一触控式面板其上显示有一键盘。根据该特定的键盘的大小及本质,一手指或一触控笔(stylus)可被用来与该面板或显示屏幕上的使用者想要按的键或字母所在的区域互动。因为许多可携式装置的尺寸很小,所以在敲打每一按键时通常会使用一触控笔用来获得所需的精确度。此等键盘的整体尺寸很小使得每一按键的相对面积亦很小,因此对于一般使用者而言很难以足够的精确度来打字。
有多种内建式或外挂式的产品提供文字预测供上述的触控视屏幕键盘用。在使用者小心翼翼地按下该字的前给个字母之后,该预测***会显示以这几个字母开头的最可能的完整字的清单。然而,如果有太多可能的选择的话,使用者就必需继续打,直到所想要打的字出现或使用完成该字为止。在打了一个字母之后即需将视觉焦聚切换于该触控式屏幕键盘与该选字清单之间是会减慢而不是加速内文的输入。
描述于美国专利第6,801,190号专利中的***使用文字等级的自动校正来解决精确性的问题并可在小型键盘上快速输入。因为敲打位置被假设是不正确的,所以在关于使用者想要打的字是什么方面会有不确定性。使用者会被提供每一按键敲击顺序对应于一个字的一或多种诠释,使得使用者能够轻易地选取所想要的诠释。此方法让该***能够使用包含在整个按键敲击顺序中信息来解开使用者对于每一字母顺序的意图。然而,当自动校正被激活时,该***可能无法使太多文字完整化,因为它并不是假定前几个字母是正确的,因而不能决定使用者是否在打整个字,且该按键顺序有许多其它的诠释要显示。
手写辨识是另一种被用来解决在具有触控式屏幕或可侦测手指或触控笔的运动的垫子的小型装置上的文字输入的方法。在一触控式面板或显示屏幕上写字会产生一显示接触点的数据流的输入。手写辨识软件会分析该数据流输入的几何特征,用以决定每一字母或文字。
很不幸地,目前的手写辨识解决方案都具有许多的问题:
1)手写通常比打字慢;
2)在小型装置上,内存的限制降低了手写辨识的精确度;及
3)每个人的手写风格与用来训练手写软件的人的手写风格差异很大。
有鉴于以上的问题,许多手写产品要求使用者学***常自然地书写的方式有极大的不同。这造成该产品的采用率很低。
在移动装置上的手写输入对于辨识精确度有更大的挑战:当尝试要握持住该装置时,手写的方向会让输入变化或扭曲;及在移动中使用,如在搭公车期间的震动或巅簸,会造成未能与触控面板接触,而形成在接触点输入流中的「噪声」。
因此,用来弥补小型装置的限制而用于文字输入上的以歧意性及辨识器为基础的***的限制为,它们的速度及精确度会降到使用者认为为法接受的一个程度。
Suhm的论文定义「多形式错误修正」使用一替代的(非语音的)形式来重新输入被错误辨识的整个字或词组。人们发现这比部分重说有效率多了,因为语音形式已被证明式不正确的。在决定要使用哪一个形式来重新输入时,使用者必需考量该另一种输入形式有其本身的辨识精确性问题,但在完成该文字输入工作期间每一种形式都是独立***作的。
因此,若能提供一种用于语音辨识输出的智能型编辑的语音辨识设备及方法是有优点的。
若能提供一种可将一替代输入形式在修正辨识错误上的好处最大化的语音辨识设备及方法是有优点的。
在当下的工作或环境下语音辨识无效或非所想要的时候,若能提供一有效率的替代输入形式的语音辨识设备及方法是有优点的。
发明内容
本发明提供一种结合了一或多种替代的输入形式(modality)的语音辨识***用以确保有效率及正确的文字输入。语音辨识***因为有限的处理能力,环境噪音,及/或说话风格上的自然变化等因素的关系而尚未达到完全正确的程度。可供选择的输入形式使用清晰化或识别引擎来补偿减缩的键盘,潦草的输入,及/或在书写风格上的自然的变化。在语音辨识处理中的歧意性(ambiguity)大多数是与可供选择的输入模式中固有的歧意性正交,使得两种形式的结合可有效率地及正确地解决辨识错误。本发明特别适用于键盘输入或触控屏幕输入的空间有限的可携式装置。
本发明的一实施例提供一种用来处理在一数据处理***中的语言输入的方法,其包含的步骤有:接收包含声音输入的第一输入;根据该第一输入决定第一数个候选字;接收包含非声音输入的第二输入;及根据该第一输入及第二输入来决定一或多个候选字。该一或多个候选字是根据该第二输入在第一输入的限制下所决定的。或者,两个候选字清单的联集或交集被决定,而不是用一个输入来过滤另一个输入。
在另一实施例中,该一或多个候选字是根据第一输入依文字上下文来决定的。该文字上下文是以N-gram语言模式及语音辨识引擎的语言模式中的任何一种为基础。
在另一实施例中,该一或多个候选字的决定包含了根据该第二输入来修正或过滤该第一数个候选字的步骤。
在另一实施例中,该第二输入是在一移动装置上被接收;及对于声音输入的语音辨识部分是在该移动装置上实施的且部分是在一通过无线通信连接耦合至该移动装置的服务器上实施的。
在另一实施例中,该语音辨识是藉由该移动装置上的一压下通话(push-to-talk)钮来激活的。
在另一实施例中,该第二输入是在一或多个候选字被呈现以进行选取或编辑时来被接收的。
在另一实施例中,该第二输入包含触控键盘,手写姿势辨识,及小键盘输入中的任何一个。
本发明的一实施例提供一种其上储存有指令的机器可读取的媒体,该等指令在一数据处理***上被执行时会让该数据处理***实施一用于处理语言输入的方法,该方法包含的步骤有:接收一包含声音输入的第一输入;根据该第一输入决定第一数个候选字;接收一包含非声音输入的第二输入;及根据该第一输入及第二输入来决定一或多个候选字。
该一或多个候选字是根据所决定的。在另一实施例中,该一或多个候选字是根据该第二输入在第一输入的限制下且依文字上下文来决定的,该文字上下文是以N-gram语言模式及语音辨识引擎的语言模式中的任何一种为基础。
在另一实施例中,该一或多个候选字的决定是通过修正该第一数个候选字来决定的。
在另一实施例中,该声音输入的语音辨识部分是在该移动装置上实施的且部分是在通过无线通信连接耦合至该移动装置的服务器上实施的;且该语音辨识是藉由该移动装置上的压下通话(push-to-talk)钮来激活的。
在另一实施例中,该第二输入是在该第一数个候选字被呈现以进行编辑时或在第一数个候选字被呈现以进行选取时被接收的,且该第二输入包含触控键盘,手写姿势辨识,及小键盘输入中的任何一个。
在另一实施例中,分离的输入形式可被用来说代表标点符号的字。一暂时形式(如,T9的符号形式)可被唤起,用以只辨识单一字符,如符号或数字。例如,输出「句点」的文字,「.」会被辨识出来。
在一实施例中,「智能型」标点符号可在第二输入期间被输入用以将该声音输入的一部分诠释为标点符号。在另一实施例中,无需输入任何特别的形式来辨识标点符号。例如,当使用者说「句点」时,文字「句点」及「.」两者都会出现在清单中。
附图说明
图1为一示意图,其显示依据本发明的一用来辨识在一数据处理***上的使用者输入的***;
图2为依据本发明的用来辨识使用者输入的数据处理***的方块图;
图3为用来处理在一依据本发明的数据处理***中的语言输入的方法的流程图;
图4为一方块图,其提供一例子,其中一使用者已依据本发明的实施例口述一个字;及
图5A-5C为方块图,其提供一个例子,其中一使用者已依据本发明的
实施例口述一个字。
主要组件符号说明
101  使用者        103  显示器
105  数字化器      109  译码器
111  辨识引擎      113  本文缓存器
107  数字化器      115  清晰化引擎
117  清晰化引擎    119  语言数据库
201  处理器        202  手写输入装置
203  显示器        204  声音输入装置
205  声音输出装置  206  按键输入装置
210  内存          211  操作***
220  应用程序      214  字清单
216  以字为基础的清晰化引擎
217  以词组为基础的辨识或清晰化引擎
218  以上下文为基础的辨识或清晰化引擎
215词组清单    213  音素辨识引擎
具体实施方式
本发明提供一种用于语音辨识输出的智能型编辑的设备及方法,其可根据使用者的输入提供最可能的选择或假设(hypotheses)。该语音辨识引擎为替代的假设打分数,这些假设将数值加到提供给使用者的信息上。例如,如果语音辨识提供给使用者错的第一选择假设的话,则使用者会想要取得其它N个最佳(N-best)的假设用以修正被该辨识器所回送的假设。在一多形式环境中,可获得来自该语音辨识输出的N个最佳假设清单。详言之,该N个最佳假设的清单被加入到目前的文字选单中以便于编辑。
本发明的一个实施例在提供N个最佳的假设上使用声学(acoustic)信息及文字上下文这两者。这可以是语法相依或独立。亦即,语言模型可提供会影响一给定的文字的或然率的语法信息,或其只单纯地提供一会显示一些接在一字或数个字之后的一特定字的或然率的N-gram模型。
声学上相近的发音会出现在该N个最佳的清单上。此信息因一混淆性矩阵而更便利,该矩阵告知有关特定发音错误的频率的N个最佳假设公式。例如,如果语音辨识引擎会将在字的最后一个位置的/p/与/b/混淆的话,则具有这些音素(phoneme)的N个最佳假设会将此列入考量。用来显示每一音素在一给定的语言中与其它音素混淆的频率信息亦可获得,此信息包括位置上的上下文,如它是发生在一个字的开头,中段或末端。除了混淆性信息的外,有关音素何时被删除或***的信息亦可被提供。
在本发明中,在此多形式环境中所产生的使用者文字书入亦被用来更新任何辨识***语言数据库。理想地,可被应用到任何形式上的数据库在每一形式中都被更新。如果该语音辨识引擎所提供的一个字并不在该T9字典内的话,则它可被加入字典中。此外,字及词组频率以及N-gram信息亦可随着使用而被更新。
本发明提供一种智能型编辑特征。例如,一使用者对该移动装置装口述。当游标位在文字输入屏幕位置时,来自该辨识器的文字输出被回送给使用者。为了编辑与修正的目的,加上该N-best信息,使得该输出是丰富的。
本发明的一实施例亦提供一主从(client-server)特征,由此该等发音在该装置上被预先处理,在一通过无线数据管道相连接的服务器上被辨识并被回送成为N-best清单给该装置来进行文字的显示及编辑。假设是更为动态且与使用者对该文字作的任何改变更为相关。例如,如果该语音辨识引擎显示「winner」且使用者将它修正为「winter」且使用者的修正亦被传回给该服务器的话,则此动作将会提高加下来的字「storm」被正确地辨识的可能性。服务器侧的语言模型可对该输入提供一更为有充分理解力的形态-语法分析来改善辨识效能。该等模型具有更大的能力来预测使用者的下一个字,强化字的预测及完成字的算法则。此外,语言特有的特征(例如,主词和动词间的一致性、大小写(case)、性别、及数量一致性等等)可更轻易地在一强大的服务器上被实施用以提高辨识精确性。该***可允许使用者控制经由客户端组态或发起的送至服务器的修正及更新流。
本发明亦提供「智能型」标点符号。语音辨识***在使用者想要***一符号而非文字时(例如,***「.」而非「句点」,或「:-)」而非「笑脸」)会产生侦测上的困难性。歧意性文字输入***具有有限的按键或手势来选取一符号而非一字母。用一歧意的「智能型」标点符号特征来修正语音告知该***该发音的适当诠释为一符号。
本发明容许一「按下并口述」的暂时模式,其与「按下并说话」的特征相近,只是该语音被转换为文字,而不是如一声音信号被传送至另一电话或如一电子邮件的声音附件般被保存。
此外,本发明容许向量量子化(其可在该装置上实施),其具有在该装置或服务器上产生匹配/假设清单。
图1为一示意图,其显示依据本发明的一用来辨识在一数据处理***上的使用者输入的***。使用者101藉由口述一个字,词组,句子或段落来开始。数字化器105及译码器109使用一语音模型(未示出)将该声音输入转换成语音数据。辨识引擎111根据在语言数据库119中的语汇及/或语言模型,及非必要地可包括使用的频率及最近的使用,且非必要地可根据在该本文缓存器113内的周围文章上下文,来分析该数据。最佳的诠释被加到该本文缓存器113中且经由本文及清单显示器103显示给使用者101看。或者,该N-best的诠释清单被储存在该本文缓存器113内以供稍后参考用及/或经由本文及清单显示器103显示给使用者101以进行确认。
在稍后的某个时点,使用者101经由本文及清单显示器103选取一个字或词组以进行修正。依据该替代的形式的输入能力,使用者按下按键或在一触控屏幕上书写,这将会被一适当的数字化器107转换成一输入序列。该清晰化引擎115根据在语言数据库119中的语汇及/或语言模型,及非必要地可包括使用的频率及最近的使用,且非必要地可根据在该本文缓存器113内的周围文章上下文,来决定可能的诠释。多形式清晰化引擎117包含该歧意输入序列及/或对照着该语音辨识的最佳或N-best诠释的诠释,且通过该本文及清单显示器103将修改过的诠释呈现给使用者101以进行确认。在另一实施例中,该清晰化引擎115,117被结合,且相互的清晰化会发生,就如同处理来自另一形式的输入时的固有的部分。
在另一实施例中,该多形式清晰化引擎117将歧意的诠释引导回到该辨识引擎111,用以与该语音辨识的最佳或N-best清单一起再诠释。在此一实施例中,原始的向量或音素卷标会被储存在该本文缓存器113中;在另一实施例中,该多形式清晰化引擎117或辨识引擎111将在该最佳或N-best及/或歧意诠释中的字的字母(图表)映射回该等向量或音素以供该辨识引擎111再诠释。
该辨识及清晰化引擎111、115、117可更新一或多个语言数据库119用以添加使用者101已明确地拼出或混合成的新字或词组,用以反映出被使用者101输入的或修正的字或词组的使用频率或最近的使用。
在本发明的另一实施例中,该***辨识手写笔迹(正体,草体,或甚至是速记)而不是语音。该***构件105、109、111在辨识手写笔迹上所提供的功能与其在辨识语音上的相同。该替代的形式可以是来自键盘或触控屏幕键盘,或语音辨识(不论是连续的,分开的,或字母)的歧意的输入,依该设备的输入功能及处理能力而定。
图2为依据本发明的用来辨识使用者输入的数据处理***的方块图。虽然图2显示一数据处理***例的各式构件,但应被了解的是,一依据本发明的数据处理***大体上可包括除了图2所示的构件的外的其它构件。例如,在一移动电话实施例中,某些***可具有通信电路。图2显示与本发明的至少某些特性极有关的各式构件。因此之故,熟习此技艺者将可了解到,依据本发明的一数据处理***的配置并不局限于图2所示的特定架构。
显示器203通过适当的接口电路而被耦合到处理器210。一手写输入装置202,如一触控屏幕,一鼠标,或一数字笔,被耦合至该处理器201用以接收需要手些辨识的使用者输入及/或其它使用者输入。一语音输入装置204,如一麦克风,被耦合至该处理器201用以接收需要语音辨识的使用者输入及/或其它使用者输入。一按键输入装置206,如一电话按键,一组专属的或可装配的按钮,或一显示在触控屏幕上的小键盘,被耦合至该处理器201用以接收使用者的打字输入及/或其它输入。非必要地,一声音输出装置205,如一喇叭,亦被耦合至该处理器。
处理器201接收来自输入装置,如手写输入装置202,或语音输入装置204或按键输入装置206,的输入并管理输出至该显示器及喇叭。处理器201被耦合至一内存210。该内存包含暂时储存媒体,如随机存取内存(RAM),及永久储存媒体,如只读存储器(ROM),磁盘片,硬盘机,或CD-ROM。内存210包含管理该***的操作所需的所有软件例程及数据。该内存典型地包含一操作***211及应用程序220。应用程序的例子包括文书处理器,通讯客户,及外国语言翻译器。语音合成软件亦可被提供作为该数据处理***的一部分。
在本发明的一实施例中,内存210包括用于辨识处理及/或清晰化处理的每一部分的分开的形式,其可包括:以文字为基础的清晰化引擎216、一以词组为基础的辨识或清晰化引擎217、一以文章上下文为基础的辨识或清晰化引擎218、一选择形式219、及其它(如一字清单214及一词组清单215)。在此实施例中,该以文章上下文为基础的辨识或清晰化引擎利用使用者的动作的文章上下文态样(aspect)于输入清晰化上。例如,一字汇可根据被选定的使用者位置,如使用者是在工作或是在家里;一天中的时段,如上班时间vs.休闲时间;接收者;等等而被选取。
在本发明的一实施例中,用于辨识及清晰化的大部分构件在不同的输入形式,如用于语音辨识及用于小型键盘输入,之间是共享的。字清单214包含一列用于所有形式的在一语言中的已知的字。字清单214进一步包含在该语言中相应字的使用频率的信息。在一实施例中,一个不在该语言的字清单214内的字被视为具有零频率。或者,一未知的字可被指定一非常小的使用频率。藉由使用该被假设的使用频率于未知的字上,已知的字及未知的字即可用大致相同的方式来处理。字清单214可被该以字为基础的辨识或清晰化引擎216用来对候选字排等级,删除,及/或选取候选字,该等候选字是根据图案辨识引擎,如笔画/特征辨识引擎212或音素辨识引擎213,的结果所决定的,及用来根据一部分的使用者输入来预测字用以完成该字。相类地,词组清单215包含一列包括两个字或多个字的词组,及使用频率的信息,该以词组为基础的辨识或清晰化引擎217可使用该信息且可被用来预测完成该词组的字。
图3为一用来处理一依据本发明的数据处理***中的语言输入的方法的流程图。该方法从接收一包含了声音输入的第一输入的步骤300开始。该方法前进至步骤302用以根据该第一输入来决定第一数个候选字。该方法继续至步骤304用以接收一包含非声音输入的第二输入。最后,该方法在步骤306根据该第一及第二输入来决定一或多个候选字。
语音辨识***将该声音信号转成为一数字的向量序列,它们与具有其文章上下文的潜在的音素(phone)相匹配。又,发音形式被匹配一语汇及语言模式用以产生每一分离的发声的N-best字清单。
在连续的语音辨识中,在字与字之间可能不会有清楚的停顿,所以辨识输出可以有一或多个可能的词组或句子诠释。最可能的诠释被显示在该应用的目前的输入区域中的文字***点。
在该方法的步骤之后,使用者接着决定某些之前识别的字是不正确的。藉由使用一触控笔,方向按键或声音命令,使用者可选取一或多个字来进行修正。该输入***可显示一列在此时点最可能的诠释,但它并不是永远都会显示所想要的字,特别是如果存在有显示限制的话。
藉由使用可用的或偏好的替代形式,如在一电话按键上的T9文字输入,使用者开始打入第一个被反白的字。因为该等字母对应要每一个按键,像是按键2上的ABC,在听觉上并不相近,所以***可以立即决定第一个音素,例如破裂音/b/或/p/,事实上是B而不是P,因为是按键2被按下而不是包含PQRS的按键7被按下。相类似地,轻敲在VBN附近而不是在IOP附近的自动修正QWERTY键盘可提高B是所想要的字母的可能性。相类似地,让一手写辨识引擎诠释为较接近B或3而不是P或R的一笔的姿势相互地解决了在两个辨识器中的歧意性。
当使用者重新书写不正确的字时,一实施该方法的实施例的***将立即提供该原始的辨识器输出的较佳的诠释,给予每一歧意修正。如在上面的例子中所显示的,只重新输入第一个字母或前两个字母对于该***而言即足以将整个字相互清晰化并提供所想要的字作为最佳的选择。在该输入区中之前行的及/或后续的字的上下文与文法(其未被选来修正所以被假设为是正确的)可进一步将经过使用者修正的发音的诠释定优先级及精制。在给予目前的发音的最可能的文字再诠释之下,后续的发音可被再诠释为其它更可能的字。在另一实施例中,藉由使用语汇或明确指明每一字母的读法的特定语言规则,其它被选取的字于重新诠释为其它更可能的字之前会被对应回音素。
在一实施例中,该方法具有向量或音素卷标且该歧意修正输入被引导回该语音辨识***以进行一精制化的假设搜寻。在另一实施例中,该方法要求该清晰化***使用该等向量或音素卷标来精制及过滤该修正,使得只有具有与该等向量或音素兼容的字符的歧意诠释会被考虑。
当使用者将字修正之后,该语音辨识***即可决定连续语音的段落是错误的并可根据使用者的修正来重新诠释介于字与字之间的边界;或决定一停顿不是代表介于字与字之间的一定义符号,所以重新诠释话语并将其显示为一单一的字。
如果在该装置上的输入选项很有限的话,则使用者可以在一个时间只选择一个字来修正。在此情形中,在使用者选取该待修正的字之后,该方法可包括根据该被修正的字的上下文来重新考量下一个字及/或原始的向量如何对应到该经过修正的字的尾端及下一个字的开头的步骤。该***可显示出下一个字具有一较地的信心分数或可自动地显示出相关的话语的一列诠释。
在本发明的一个实施例中,该***自动地诠释跟在一经过辨识的话语之后的歧意输入作为前面的字或词组的一个修正。在另一实施例中,该***在使用者完成该字的输入的时同时将该输入诠释为对前面的字的一个修正以及是一将被加入到本文中的一个新字,一少数有效的修正或新字诠释会被保留且最可能的修正或新字诠释将被提出。
在本发明的另一实施例中,该第一及第二输入几乎是同时的或重叠的;事实上,使用者对于他或她正在打的字发出声音。该***自动地诠释这两种输入且将它们相互清晰化用以产生这两者的佳诠释。使用者无需经常回溯并修正字或词组,因为将这两个输入相结合可提高该***选取正确的诠释的可能性。只输入少数代表每一个字的开头的歧意的输入在许多例子中即已足够。在本发明的另一实施例中,这两个输入被同步输入,辨识,及只在一字或词组被选取以进行修正之后被相互地清晰化。
例如,使用者可为了「a」而按下按键2并说出一个以「a」为开头的字。在一实施例中,该按键的按压可被解读为代表所想要的字的第一个字母。因此,当输入的两个形式似乎相符时,一个输入形式可加强另一个输入形式并提高该***对于其所提呈出的字的信心度。然而,该输入的两个形式亦可能不相符。在此情形中,与该输入的两个形式相匹配的字都可被呈现在该候选字的清单中。该使用者然后可使用一个模式或两个模式来作进一步确认。
此外,该输入的一个形式可被用来从该输入的另一形式「发展出(buildaround)」字词。例如,使用者可说出「home」这个字然后马上按下按键9。因为这两个输入似乎相冲突,所以该可能的字的清单中应会包括发音与「home」相近的字而且以会包括以按键9上的字母「w」,「x」,「y」或「z」开头的字。按键9的按压亦可被认定为该复合字的下一个部分的开头,使得当使用者说出「work」时,按下按键9可被用来帮助下一个语音输入的清晰化。
图4为一方块图,其显示使用者已依据本发明的一实施例口述一个字的例子。该语音引擎辨识一话语400。该字被显示给使用者402看。如果使用者在应用的输入区中重新选择该字的话,则该选字清单提供来自该语音辨识输出404的替代的假设。使用者然后可从该选字清单中选取正确的诠释并继续语音辨识输入406。如果使用者在一个字是在使用中时按压一或多个歧意的按键的话,该选字清单只会反映出来自该N-best清单的符合该按键序列的字408。
第5A-5C图为显示使用者已依据本发明的一实施例口述「The top」的例子的图标及样本显示屏幕。该语音引擎将该话语辨识为「The top」并回送至使用者的移动装置(图5A)。如果使用者从多形式T9上打出「stop」这个字的话,则该选字清单会提供来自该语音辨识输出的替代假设(图5B)使用者然后可从该选字清单中选取其所说的话语并继续用T9输入或用语音辨识输入。
如果使用者输入一按键按压的话,则该选字清单显示来自该N-best清单受此按键按压限制的字(图5C)。当一个字是使用中(active)时,一额外的按键按压会延伸该字母的序列。因此,一软键「Edit」选项可唤起该修正方法。
很明显的是,本发明亦可使用小型键盘上或用在以表意字符来书写的语言上。例如,用对应到每一按键的Pinyin字母,如按键2上的ABC,来修正被误认为「ping」的话语「being」;在按下按键2之后,该***能够立即地决定第一个音素事实上是B而非P。相类似地,在使用敲击顺序输入***时,在使用者按下一代表所想要的字符的第一个敲击范畴时,该语音辨识引擎即能够考量以另一范畴中的敲击开头的字符且能够提供该话语的一更佳的诠释。相类似地,使用一手写形意字符辨识引擎来开始画出第一个字符亦可修正该语音诠释。
虽然一歧意的笔画顺序输入***或一手写辨识引擎可能无法名确地决定哪一个手写笔画是所想要的,但该语音的诠释与该笔画诠释的组合足以将两种输入形式清晰化用以提供使用者所想要的字符。如前文中提到有关字母语言的语音修正,在使用者选取经过修正的表意的字符(character)时,该方法可包括根据该精过修正的上下文及/或原始的声音向量是如何对应到该经过修正的字符尾端及下一个字符的开头来辨识下一个字符的步骤。因为该等修正的关系,该语音辨识***亦可决定一暂时的停顿不可能代表介于字与字或词组与词组之间的定义符号,因此新诠释该话语并将它显示为代表一单一字或词组的一连串的字符,而不是两个分开的字或词组;反的亦然。
语音辨识及歧意输入的组合具有其它的好处。在一嘈杂的环境中,像是在城市的人行道上,在一人多的餐厅中,或在一建筑工地内,该语音辨识精确到会掉落到使用者无法接受的一程度之下。或者,在一安静的环境中,像是在在图书馆中或是在会议当中,或当话题是隐私且敏感时,可能无法使用语音口述。使用者则可以用歧意输入***作为一可靠的***来自由地输入内文。此外,辨识或拼出一个没有在该语音辨识***的词汇中的字将会是很难的,而歧意输入***典型地提供一可靠的机构来打入任何字符序列并将其语汇加入。此外,该语音辨识引擎可被用来从由该歧意输入***所显示出来的候选字清单中选取一个字。
在本发明的一个实施例中,字或词组的诠释是依这些字或词组在该语言的一般使用中的出现频率来排顺序的。在本发明的一实施例中,该排序被持续地或偶尔被用作为每一个字或词组相对于其它的字或词组的使用者的频率及/或使用频率。
在本发明的一实施例中,符合到目前为止的按键敲击或触控笔轻敲的字的完成或预测与其它的字诠释一体被提供,用以让修正及额外字的重新键入更加快速及容易。在本发明的一实施例中,区别发音符号,像是元音腔调,被放在该被说出的字或被修正的字的适当字符上,无需使用者指出需要一区别发音的标记。
在本发明的一实施例中,某些或所有来自该替代的形式的输入并不是歧意的。这可减少或省去对于图1中的清晰化引擎115的需要,但仍需要该多形式清晰化引擎117,用以根据到现在为止的新的输入序列来重新诠释该被修正的字或词组的向量或音素卷标。
在本发明的一实施例中,如当该歧意的输入***是一显示在一触控屏幕装置上的自动修正键盘,使用者在修正或重新打字期间的最佳诠释的每一个字符,如最接近每一触控笔轻敲的字符,形成一个序列,该***会将其显示为一无歧意的诠释,如果所想要的字没有在该字汇中的话该使用者会选取该无歧意的诠释。
在本发明的一实施例中,如当该歧意的输入***使用一小型键盘时,如一标准的电话键盘时,该无歧意的诠释为该按键序列的一两按键或多轻敲诠释。
在本发明的一实施例中,该无歧意的诠释被加入到该字汇中,如果使用者选取它来实施修正或输出的话。在本发明的一实施例中,该被辨识出的或经过修正的字或该无歧意的诠释指认出一用于输出的取代字或词组,如一较长的词组的缩写或一脏话的可被接受的替代物。在本发明的一实施例中,该***可根据使用者实际上选取之后续的字或词组诠释来适应在使用者的输入之间,如轻敲的位置或手写形状的歪斜,及所想要的字符或字之间,的***性差异。
在本发明的一实施例中,使用者唤起一模式,在该模式中语调被辨识为分开的字符,如一字母,数字或标点符号。该字符序列可被加到该字汇中,如果它是新的的话。在本发明的一实施例中,用于拼字的替代字,如「Alpha Tango Charlie」或「A as in Andy,P as in Paul」被辨识为分开的字符。
在本发明的一实施例中,当该等向量或语音卷标不再提供有用的导引来进行重新诠释或清晰化时,该***可选择不理会它们。在本发明的一实施例中,该***提供一个机构,如一按键或姿势,给使用者来解除某些或全部与该被辨识出的字相关的语音数据。
在另一实施例中,在安装阶段,或在文字信息或其它数据的接收期间,信息文件被扫描用以将字加到语汇中。扫描信息文件的方法在此技艺中是属习知。在扫描期间发现暂时,它们会被加到一字汇形式中当作低使用频率的字,且被放在该选字清单的尾端。根据一给定的新字在一扫描期间被侦测到的次数,藉由将它在它的选字清单中的位置提升来指定给它一较高的优先权,因而提高该字在信息输入期间出现在选字清单中的可能性。用于目前的或已决定的语言上的标准的发音规则会被应用到新的字上用以达成它们供未来辨识用的语音学上的形式。
熟习此技艺者将可了解的是,额外的字汇形式(不论是藉由规则或在语汇上具体指定的)可在该计算机中实施,如包含法律用语,医疗用语,及其它语言的字汇形式。又,在某些语言中,像是印度语是语言,字汇形式会使用有效的子字(sub-word)序列样本来决定哪些是可能的候选字组成或给予在前的输入及被考虑的候选字。通过一***选单,使用者可将该***设定为让额外的字汇出现在可能的字清单中的第一个或最后一个字,如具有特殊的颜色或反白,或该***会根据哪一个字汇形式在被选取的字之前被提供而自动地改变字的顺序。因此,在下面的申请专利范围的范围内,应被了解的是,本发明可用不同于本文中所具体描述的方式来实施。
虽然本发明在本文中是参照较佳实施例来说明,但熟习此技艺者将很容易可了解到,在不偏离本发明的精神及范围下,其它的应用可取代本文中所提出的应用。因此,本发明的范围只由以下的申请专利范围来界定。

Claims (20)

1.一种用来处理在一数据处理***中的语言输入的方法,其至少包含以下的步骤:
接收第一输入,其包含一声音输入;
根据该第一输入决定一或多个候选字;
接收第二榆入,其包含一非声音输入;及
根据该第一输入及第二输入来决定一或多个候选字。
2.如如权利要求1所述的方法,其中该一或多个候选字是根据该第二输入在第一输入的限制下所决定的。
3.如如权利要求2所述的方法,其中该一或多个候选字是根据第一输入在考量字的上下文(context)下决定的。
4.如如权利要求3所述的方法,其中该字的上下文是根据以下所列的任何一个:
N-gram语言模式;及
语音辨识引擎的语言模式。
5.如如权利要求1所述的方法,其中决定该一或多个候选字的步骤包含了根据该第二输入来修正或过滤该第一数个候选字的步骤。
6.如如权利要求1所述的方法,其中该第二输入是在一移动装置上被接收;及其中对于声音输入的语音辨识部分是在该移动装置上实施的且部分是在一通过无线通信连接耦合至该移动装置的服务器上实施的。
7.如如权利要求6所述的方法,其中该语音辨识是藉由该移动装置上的一压下通话(push-to-talk)钮来激活的。
8.如如权利要求1所述的方法,其中该第二输入是在一或多个候选字被呈现以进行选取或编辑时被接收的。
9.如如权利要求8所述的方法,其中该第二输入包含以下所列的任何一个:
触控键盘;
手写姿势辨识;及
小键盘输入。
10.如如权利要求1所述的方法,其中当该第二输入与标点符号或符号相关连时,该第一输入被诠释为标点符号或一或多个其它符号。
11.一种其上储存有指令的机器可读取的媒体,该等指令在一数据处理***上被执行时会让该数据处理***实施一用于处理语言输入的方法,该方法至少包含以下的步骤:
接收第一输入,其包含一声音输入;
根据该第一输入决定一或多个候选字;
接收第二输入,其包含一非声音输入;及
根据该第一输入及第二输入来决定一或多个候选字。
12.如如权利要求11所述的机器可读取的媒体,其中该一或多个候选字是根据第一输入在考量字的上下文(context)下决定的;及该字的上下文是根据以下所列的任何一个:
N-gram语言模式;及
语音辨识引擎的语言模式。
13.如如权利要求11所述的机器可读取的媒体,其中决定该一或多个候选字的步骤包含了修正该第一数个候选字的步骤。
14.如如权利要求11项述的机器可读取的媒体,其中该第二输入是在一移动装置上被接收;及其中对于声音输入的语音辨识部分是在该移动装置上实施的且部分是在一通过数据连接而耦合至该移动装置的服务器上实施的;及其中该语音辨识是藉由该移动装置上的一压下通话(push-to-talk)钮来激活的。
15.如如权利要求11项述的机器可读取的媒体,其中该第二输入是在一或多个候选字被呈现以进行编辑时,或是在该第一数个候选字被呈现以进行选取时被接收的;及该第二输入包含以下所列的任何一个:
触控键盘;
手写姿势辨识;及
小键盘输入。
16.一种用于处理语言输入的移动装置,其至少包含:
语音辨识形式,用来处理第一输入,其包含一声音输入;及
或多个第二输入形式,用来处理一第二输入,其包含一非声音输入;
处理形式,其耦合至该一或多个第二输入形式及该语音辨识形式,该处理形式根据该第一输入决定一第一复数候选字并接下来根据该第一输入及第二输入来决定一或多个候选字。
17.如如权利要求16所述的装置,其中该一或多个候选字是根据该第二输入在第一输入的限制下及在考量字的上下文(context)下决定的;及该字的上下文是根据以下所列的任何一个:
N-gram语言模式;及
语音辨识引擎的语言模式。
18.如如权利要求16所述的装置,其中该一或多个候选字是藉由修正该第一数个候选字来决定的。
19.如如权利要求16所述的装置,其中对于声音输入的语音辨识部分是在该移动装置上实施的且部分是在一通过无线通信连接耦合至该移动装置的服务器上实施的;及其中该语音辨识是藉由该移动装置上的一压下通话(push-to-talk)钮来激活的。
20.如如权利要求16项所述的装置,其中该第二输入是在一或多个候选字被呈现以进行编辑时,或是在该第一数个候选字被呈现以进行选取时被接收的;及该第二输入包含以下所列的任何一个:
触控键盘;
手写姿势辨识;及
小键盘输入。
CNA2005800178056A 2004-06-02 2005-06-02 多形式的非歧意性语音识别 Pending CN1965349A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US57673204P 2004-06-02 2004-06-02
US60/576,732 2004-06-02
US10/866,634 2004-06-10
US11/043,506 2005-01-25
US60/651,302 2005-02-08
US11/143,409 2005-06-01

Publications (1)

Publication Number Publication Date
CN1965349A true CN1965349A (zh) 2007-05-16

Family

ID=38083522

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005800178056A Pending CN1965349A (zh) 2004-06-02 2005-06-02 多形式的非歧意性语音识别

Country Status (1)

Country Link
CN (1) CN1965349A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102282610B (zh) * 2009-01-20 2013-02-20 旭化成株式会社 声音对话装置、对话控制方法
CN103038728A (zh) * 2010-03-12 2013-04-10 纽昂斯通信有限公司 例如在移动电话上使用触摸屏的多模式文本输入***
CN109147791A (zh) * 2017-06-16 2019-01-04 深圳市轻生活科技有限公司 一种速记***和方法
TWI815658B (zh) * 2022-09-14 2023-09-11 仁寶電腦工業股份有限公司 語音辨識裝置、語音辨識方法及雲端辨識系統

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102282610B (zh) * 2009-01-20 2013-02-20 旭化成株式会社 声音对话装置、对话控制方法
CN103038728A (zh) * 2010-03-12 2013-04-10 纽昂斯通信有限公司 例如在移动电话上使用触摸屏的多模式文本输入***
CN103038728B (zh) * 2010-03-12 2016-01-20 纽昂斯通信有限公司 例如在移动电话上使用触摸屏的多模式文本输入***
CN109147791A (zh) * 2017-06-16 2019-01-04 深圳市轻生活科技有限公司 一种速记***和方法
TWI815658B (zh) * 2022-09-14 2023-09-11 仁寶電腦工業股份有限公司 語音辨識裝置、語音辨識方法及雲端辨識系統

Similar Documents

Publication Publication Date Title
US11914925B2 (en) Multi-modal input on an electronic device
TWI266280B (en) Multimodal disambiguation of speech recognition
US8311829B2 (en) Multimodal disambiguation of speech recognition
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
CN1918578B (zh) 具有自动校正的手写及语音输入
US7395203B2 (en) System and method for disambiguating phonetic input
CN102272827B (zh) 利用语音输入解决模糊的手工输入文本输入的方法和装置
JP2005202917A (ja) 表音入力の曖昧さを除くためのシステムおよび方法
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索***及方法
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US11416214B2 (en) Multi-modal input on an electronic device
CN1965349A (zh) 多形式的非歧意性语音识别
CN1275174C (zh) 具有语音辨识辅助功能的中文输入方法及其***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070516