CN1779781A - 字符的受控处理 - Google Patents

字符的受控处理 Download PDF

Info

Publication number
CN1779781A
CN1779781A CNA2005101164989A CN200510116498A CN1779781A CN 1779781 A CN1779781 A CN 1779781A CN A2005101164989 A CNA2005101164989 A CN A2005101164989A CN 200510116498 A CN200510116498 A CN 200510116498A CN 1779781 A CN1779781 A CN 1779781A
Authority
CN
China
Prior art keywords
character
word
numerical value
unique numerical
display screen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005101164989A
Other languages
English (en)
Inventor
D.莫厄特
F.G.T.I.安德鲁
R.L.钱伯斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1779781A publication Critical patent/CN1779781A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

一种用于操纵显示屏上显示的字符的方法和***,其中该方法包括识别所选择的单词,其中该所选择的单词包括要被修改的至少一个字符。该方法进一步包括将至少一个字符中的每一个字符与唯一数值关联,以及接收选择命令和修改命令,其中选择命令是与所选择的字符相应的唯一数值。而且,该方法包括响应于修改命令修改所选择的字符,以创建经修改的单词。

Description

字符的受控处理
技术领域
本发明一般涉及话音识别软件应用,并且更为具体地,涉及通过话音识别应用来处理单词的字符的方法。
背景技术
语音可能是人类最古老的沟通方式,许多科学家现在相信通过发声来通信的能力在生物学上说是人类大脑天生固有的。因此,允许用户使用自然用户界面(NUI)(如语音)来与计算机进行通信一向是人类追求的目标。事实上,近来,在实现这个目标方面已经取得了极大的进步。例如,现在,一些计算机包括允许用户口头输入用于操作计算机的命令和要被转换为文本的口述材料的语音识别应用。这些应用一般通过周期性地记录从话筒采集的声音采样、分析这些采样以辨别用户所讲的音素、以及识别所讲的音素所构成的单词来进行操作。
尽管语音识别现在变得愈发普通,但使用易于使有经验的用户受挫以及使新用户疏远的传统的语音识别应用仍然存在一些缺点。一个这样的缺点涉及讲话人和计算机之间的交互。例如,对于人类之间的交互,人们往往根据他们察觉的听众的反应来控制他们的语音。这样,在谈话期间,听众可通过点头或作出口头响应(比如“嗯”或“啊哈”)来提供反馈,以指示他或她听懂了对他们说的话。此外,如果听众没有听懂对他们说的话,听众就会做出疑惑的表情,向前探身或做出其他口头或非口头的暗示。响应于这种反馈,讲话人一般会改变他或她正在说话的方式,并且在某些情况下,讲话人可以讲得更慢、更大声、更频繁地停顿,或者甚至重复陈述,通常没有听众意识到讲话人正在改变与听众交互的方式。因此,谈话期间的反馈是非常重要的元素,它通知讲话人他们是否被听懂。然而,不幸的是,传统的声音识别应用仍不能对由人机接口促使的语音输入/命令提供这种类型的“自然用户界面(NUI)”反馈响应。
近来,话音识别应用已经实现了90%到98%的正确率。这就意味着,当用户使用一般的话音识别应用口述一个文档时,话音识别应用大约90%到98%的时间是可以正确识别他们的语音的。因此,话音识别应用记录的每一百个(100)字母中,大约两(2)到十个(10)字母需要被校正。解决这个问题并修改误识别的字母或单词的两种常用的方式包括字母或单词的重复,或重述或者请求更换另一个语音。然而,这两种方式并非在每次用户执行校正时都会起作用,因此对于那些在执行校正时必须使用语音的一类用户(例如那些在身体上不能使用键盘的用户)来说,这是尤为不利的。
解决这个问题以及校正显示屏上显示的误识别的字母或单词的另一种方法包括删除整个单词并从头重新拼写该单词。例如,为了将单词“intent”改为“indent”,用户必须说“删除intent”,然后通过说“i”、“n”、“d”、“e”、“n”、“t”来重新拼写想要的单词。解决这个问题以及校正显示屏上显示的误识别的单词的又一种方法包括通过话音来控制键盘以改变错误的字母。这种情况下,用户必须删除单词内所有的字母直到需要改变的字母为止。然后,他们重新拼写剩余的字母。例如,为了将单词“intent”改为“indent”,用户会说“退格退格退格退格”(backspace),然后通过说“d”、“e”、“n”、“t”来重新拼写想要的单词。
然而,不幸的是,这些方法还有许多与之相关的不利之处。首先,改变一个字母需要大量的命令。其次,这些方法依赖于大量字母的重新拼写,因为语音识别领域的现有水平的正确率只是10个子母中有9个是正确的,这就意味着仅在通过重新拼写校正仅仅两三个单词之后,在统计上,用户就可能出错。这意味着每个字母之后用户都要停顿以确保它是正确的(这增加了时间),或者用户必须多次忍受他们将可能必须说“退格退格……”然后再次重新拼写整个单词的事实。第三,因为语音识别错误经常是只有几个字母与用户想要的单词不同,经常,用户正在处理的单词的拼写非常接近用户想要的单词。这些不利之处不仅容易使常用的用户受挫,而且也容易使新用户心生沮丧,很可能导致用户拒绝继续使用该话音识别应用。
发明内容
提供了一种操纵显示屏上显示的字符的方法,其中该方法包括识别所选择的单词,所选择的单词包括要被修改的至少一个字符。该方法进一步包括将至少一个字符中的每一个与唯一数值相关联,以及接收选择命令和修改命令,其中选择命令是与所选择的字符相对应的唯一数值。此外,这种方法包括响应于修改命令来修改所选择的字符以产生已修改的单词。
提供了一种为实现用于操纵显示屏上显示的字符的方法的***,其中该***包括存储装置,其中该存储装置包括被配置成接收输入命令的音频模块。该***还包括用于接收输入命令的输入装置和显示装置,其中显示装置包括用于显示输入命令的显示屏。此外,该***包括处理装置,其中该处理装置与存储装置、输入装置和显示装置进行通信,这样处理装置接收指令以便在显示屏上显示拼写UI并响应于输入命令来操纵显示的数据。
提供了一种机器可读的计算机程序代码,其中该程序代码包括用于导致处理装置实现用于操纵显示屏上显示的字符的方法的指令。该方法包括识别所选择的单词,其中所选择的单词包括要被修改的至少一个字符,以及将至少一个字符中的每一个与唯一数值相关联。这种方法进一步包括接收选择命令和修改命令,其中选择命令是与所选择的字符相对应的唯一数值,以及响应于修改命令修改所选择的字符以产生已修改的单词。
提供了一种用机器可读的计算机程序代码编码的媒质,其中该程序代码包括用于导致处理装置实现用于操纵显示屏上显示的字符的方法的指令。该方法包括识别所选择的单词,其中所选择的单词包括要被修改的至少一个字符,以及将至少一个字符中的每一个与唯一数值相关联。这种方法进一步包括接收选择命令和修改命令,其中选择命令是与所选择的字符相对应的唯一数值,以及响应于修改命令修改所选择的字符以产生已修改的单词。
附图说明
从下面说明性的实施例的详细描述,并结合相应的附图,可以更为全面地理解本发明的前述和其他特征以及优点,附图中相同的元素用相同的数字表示。
图1描述了依照示例性的实施例,用于实现使用具有拼写用户界面(UI)的语音识别软件应用来操纵显示屏上显示的字符的方法的***的示意性框图;
图2描述了依照示例性的实施例,使用具有拼写用户界面(UI)的语音识别软件应用来操纵显示屏上显示的字符的方法的框图;
图3是图1中描述图2中的方法的***的显示屏的前视图;
图4是图1中描述图2中的方法的***的显示屏的前视图;
图5是图1中描述图2中的方法的***的显示屏的前视图;
图6是图1中描述图2中的方法的***的显示屏的前视图;
图7是图1中描述图2中的方法的***的显示屏的前视图;
图8是图1中描述图2中的方法的***的显示屏的前视图;
图9是图1中描述图2中的方法的***的显示屏的前视图;
图10是图1中描述图2中的方法的***的显示屏的前视图;
图11是图1中描述图2中的方法的***的显示屏的前视图;
图12是图1中描述图2中的方法的***的显示屏的前视图;
图13是图1中描述图2中的方法的***的显示屏的前视图;以及
图14是图1中描述图2中的方法的***的显示屏的前视图。
具体实施方式
尽管这里描述的本发明是在使用语音识别应用来接收并识别用户输入的话音命令的通用计算机实现的***中使用的孤立和/或集成的应用模块的上下文环境中来进行描述的,然而应该理解,这里披露的本发明也可以在适合于想要的最终目的的任何上下文中使用。例如,本发明可以是目标软件应用中集成的软件例程或功能部件(feature),比如具有实施在显示屏上定位软件用户界面(UI)窗口的方法的语音识别模块的MicrosoftWord,和/或本发明可以是通用计算机的操作***中的例程或功能部件。作为面向对象的应用程序,应用模块可给出客户程序可以访问以便与应用模块通信的标准界面。应用模块也可以允许多个不同的客户程序,比如字处理程序、桌面发布程序、应用程序等,本地化地和/或通过网络(如WAN、LAN和/或基于Internet的载体)来使用它。例如,任何具有文本字段的应用和/或控件,比如电子邮件应用或MicrosoftWord,都可以本地化地或通过Internet访问点来访问和使用该应用模块。然而,在描述本发明的各方面之前,下面描述能够结合本发明并从中获益的适合的计算环境的一个实施例。
参考图1,显示了用于实现使用具有拼写用户界面(UI)的语音识别软件应用来操纵目标软件应用在显示屏上显示的字符的方法的***100的框图。该***包括通用计算机***102,它包括处理装置104、***存储器106和***总线108,其中***总线108将***存储器106耦合到处理装置104。***存储器106可包括只读存储器(ROM)110和随机存取存储器(RAM)112。基本输入/输出***114(BIOS)存储在ROM 110内,它包含如启动时帮助在通用计算机***102内的元件间传输信息的基本例程。通用计算机***102进一步包括存储装置116,比如硬盘驱动器118、磁盘驱动器120(例如对可移动的磁盘122进行读写)和光盘驱动器124(例如对CD-ROM盘126进行读取或者对其他光学媒质进行读写)。存储装置116可通过存储装置接口(比如硬盘驱动器接口130、磁盘驱动器接口132和光盘驱动器接口134)连接到***总线108。这些驱动器及其相关的计算机可读的媒质为通用计算机***102提供了非易失的存储器。尽管以上涉及硬盘、可移动的磁盘和CD-ROM盘描述了计算机可读的媒质,然而应该理解到,计算机***可读的和适合于想要的最终目的的其他类型的媒质也是可以用的,比如磁带盒、闪存卡、数字视频盘、伯努利(Bernoulli)盒式磁盘等等。
用户可以通过传统的输入装置135(包括键盘136、如鼠标135之类的顶点设备和话筒140)将命令和信息输入到通用计算机***102中,其中可以使用话筒140将诸如语音之类的音频输入到通用计算机***102中。此外,用户可以通过用笔在书写板142上绘制图形信息,将图形信息(如图画或手写稿)输入到通用计算机***102中。通用计算机***102还可以包括适合于想要的最终目的其它的输入装置,比如操作杆、游戏垫、圆盘式卫星天线、扫描仪等等。可以通过耦合至***总线108的音频适配器144将话筒140连接到处理装置104。而且,经常通过耦合至***总线108的串口接口146将其他输入装置连接到处理装置104,但也可以是使用其他的接口,比如游戏端口或通用串行总线(USB)进行连接。
通过如视频适配器150之类的接口将具有显示屏148的显示装置147(如监视器或其他类型的显示装置147)连接到***总线108。除显示屏148之外,通用计算机***102一般还可以包括其他***输出装置,比如扬声器和/或打印机。通用计算机***102可以工作在使用到一个或多个远程计算机***152的逻辑连接的网络化环境中。远程计算机***152可以是服务器、路由器、对等设备或其他公共网络节点,并可包括与通用计算机***102相关的任何或所有上述元件,尽管图1中仅说明了远程存储器存储装置154。图1所示的逻辑连接包括局域网(LAN)156和广域网(WAN)158。这种网络环境常见于办公室、企业范围的计算机网络、内联网以及Internet。
当用于LAN网络环境中时,通过网络接口160将通用计算机***102连接到LAN 156。当用于WAN环境中时,通用计算机***102一般包括调制解调器162或用于通过WAN 158(如Internet)建立通信的其他装置。调制解调器162可以是内置或外置的,它可通过串口接口146连接到***总线108。在网络化环境内,所述与通用计算机***102相关的程序模块或其中的一部分可被存储在远程存储器存储装置154内。应该理解到,所示的网络连接是示例性的,可以使用在计算机***间建立通信链路的其他手段。还应该理解到,应用模块除了在通用计算机***上实现之外还可等效地在主机或服务器计算机***上实现,并且可以通过除了CD-ROM之外的手段(例如通过网络连接接口160)等效地传送给主机计算机***。
而且,许多程序模块可被存储在通用计算机***102的驱动器和RAM112中。程序模块控制通用计算机***102如何运行并与用户、I/O装置或其他计算机交互。程序模块包括例程、操作***164、目标应用程序模块166、数据结构、浏览器和其他软件或固件组件。本发明的方法可包括在应用模块中,并且该应用模块可在一个或多个程序模块(如基于此处描述的方法的语音引擎校正模块170)中方便地实现。目标应用程序模块166可包括结合本发明使用的各种应用,其中一些显示在图2中。关于图2的文本描述中更为全面地讨论了这些程序模块中的一些的用途及其间的交互。这些包括具有文本字段的任何应用和/或控件,例如,电子邮件应用、字处理程序(比如华盛顿州的雷蒙德市的微软公司制作的MicrosoftWord)、手写识别程序模块、语音识别校正模块170和输入方式编辑器(IME)。
应该理解到,并没有描述用于执行详细描述中描述的各种程序的特定的编程语言,因为考虑到在附图中描述并说明的操作、步骤和程序已被充分披露,允许本领域的普通技术人员来实施本发明的示例性的实施例。而且,许多计算机和操作***可被用于实施示例性的实施例,因此,并没有提供所有这些不同***能应用的详细的计算机程序。特定计算机的每个用户会意识到对用户的需要和目的来说最有用的语言和工具。
参考图2,根据用户使用语音识别软件应用在目标软件应用中输入单词,显示并讨论了使用具有拼写用户界面(UI)的语音识别软件应用来操纵目标软件应用在显示屏148上显示的字符的方法200的框图。
如图3所示,为了将文本输入到目标软件应用中,用户可通过操作语音识别软件应用和目标软件应用,以通过目标软件应用将至少一个字符显示在显示屏148上。应该理解到,处理装置104可响应于通过话筒输入装置135输入的用户指令来操作语音识别软件应用,和/或处理装置104可响应于操作***164在启动时识别的指令,比如“引导”指令,来执行语音识别软件应用。根据语音识别软件应用的起动,用户可以通过话筒输入装置140口头上将命令传递到语音识别软件应用以激活目标软件应用,其中目标软件应用可以是具有文本字段的任何应用和/或控件,比如,电子邮件应用和MicrosoftWord。一旦目标软件应用被激活了,在显示屏148上就显示目标软件应用窗口302。然后,用户可经由话筒输入装置140通过输入文本来操作语音识别软件应用,以使语音识别软件应用通过目标软件应用窗口302显示输入的文本304。这种情况下,一系列输入的文本304已经被输入到***100中,其中该系列的输入文本304被输入为“I”、“t”、“空格”、“i”、“s”、“空格”、“t”、“h”、“e”、“空格”、“i”、“n”、“t”、“e”、“n”、“t”。然而,语音识别软件应用所“听到”该系列的已输入的文本304为“I”、“t”、“空格”、“i”、“s”、“空格”、“t”、“h”、“e”、“空格”、“i”、“n”、“v”、“e”、“n”、“t”,因此,最后的单词“invent”需要被修改为“intent”。应该理解到,以上的文本已经被口述作为一个完整的单词或是作为字母(字符)并且该口述能力可以是操作***级的组件。
参考图4,为了修改这个单词,启动拼写命令以调用拼写UI,以允许向通用计算机***102口头上传递要被修改的单词,即“拼写intent”。一旦通用计算机***102接收了拼写命令,就识别已选择的单词,并通过将至少一个空格404追加到该已选择的单词来创建经追加的单词402,其中该经追加的单词402包括要被修改的至少一个字符406,如操作框202所示。然后,该经追加的单词中的每一个字符408被赋值并与唯一的数值410相关,如操作框204所示。然后,通过显示屏148显示经追加的单词402,以便直观地传达经追加的单词402中的每个字符408和它们被赋值的唯一数值410之间的相关性。可通过在显示屏148上经追加的单词402周围画框412,并把每个唯一数值410相邻地显示在经追加的单词402内的所赋值的字符408上,来直观地传达这种相关性。这样,每个字符408被“赋值”有与该字符408相关的唯一数值410。例如,希望将单词“invent”414改为“intent”的用户口头将命令(如“拼写invent”)输入到语音识别软件应用中。这将执行拼写UI并使框412显示在单词“invent”414周围的显示屏418上。这还使得单词“invent”414内的每个字母被赋予一个唯一数值410,它显示在相应的字符408的附近,两者都在图4中示出。这将允许用户改变和/或修改单词“invent”内的任何字母。
这样的话,通用计算机***102可接收选择命令和修改命令,其中选择命令是与所选择的字符相应的唯一数值410,如操作框206所示。这向通用计算机***102指示出经追加的单词402中的哪一个字符要被改变。一旦通用计算机***102接收修改命令,响应于修改命令,通过修改所选择的字符来产生经修改的单词,如操作框208所示。应该理解到,用户可以输入多个修改命令,比如“删除”、“***”或要增加的字母/字符,下面讨论每一种情况。
例如,参考图5,考虑用户希望删除显示屏148上显示的经追加的单词“invent_”504内的字母“v”502的上述情况。如上所述,用户向通用计算机***102传递与要改变的字符相应的唯一数值。应该理解到,尽管这些唯一数值508从1开始逐1递增,然而可以指定任何唯一的数值508和增量。如所示,经追加的单词“invent_”504内的字母“v”502被赋予唯一数值“3”。这样,用户将口头将数值“3”传递给通用计算机***102。这就“选择”了与数值“3”相应并相关的字母,如由脱字符510所指出的那样,在该情况中是经追加的单词“invent”504内的字母“v”502。然后,用户可以输入想要的修改命令,比如“删除”,这将使得从经追加的单词“invent”504中删除字母“v”502,剩下“inent”512,如图6所示。这样,修改命令“删除”会从经追加的单词中移除所选择的字母及其相应的空间,并且选择脱字符510将选择下一个接着的字符,即“e”。
另一方面,参考图7,考虑用户希望在显示屏148上显示的单词“invent”中的字母“n”704和字母“v”706之间***字符,比如字母或空格的情况。其实,用户希望在与唯一数值“3”相应的地点***字符。如上所述,用户可通过口头传递命令“拼写invent”来执行拼写UI。这使得将空格被追加到单词“invent”以创建经追加的单词“invent_”708,以及使得在经追加的单词“invent_”708周围显示框710,以及赋予唯一数值712并显示在经追加的单词“invent_”708内邻近每个字符附近。如所示,经追加的单词内的字母“v”706被赋予“3”这个唯一数值712。这样,用户就能口头将数值“3”传递给通用计算机***102。这使得通用计算机***102“选择”与数值“3”相应并相关的字母,如脱字符714所指示的那样,在该情况中是经追加的单词“invent_”708内的字母“v”706。然后,用户可以输入修改命令,使通用计算机***102以适当的方式响应。例如,如果用户传递修改命令“***”,然后传递单词“空格”,则在字母“n”704和字母“v”706之间会***空格,这就有效地将经追加的单词“invent_”708改为“in vent_”716,如图8所示。这种情况下,脱字符714仍然保持在原地,以指示出与该唯一数值“3”相关的空格已被选择。然而,如果用户传递命令“***”然后传递字母“p”,则在字母“n”704和字母“v”706之间***字母“p”,这就有效地将经追加的单词“invent_”708改为“inpvent_”718,如图9所示,并且选择脱字符714将移到下一字符以指示出该下一字符(即与唯一数值“4”相应的字符)已被选择。
类似地,参考图10,考虑用户简单地希望改变显示屏148上显示的单词“invent”内的字母的情况。如上所述,用户可通过口头传递命令“拼写invent”来执行拼写UI。这使得空格将被追加到单词“invent”,以创建经追加的单词“invent_”902,以及使得框904显示在经追加的单词“invent_”902周围,以及唯一数值906被赋予并显示在经追加的单词“invent_”902内的每个字符908附近。如所示,经追加的单词“invent_”902内的字母“v”912被赋予“3”这个唯一数值906。这样,用户就能口头将数值“3”传递给计算机***102。这使得选择与数值“3”相应并相关的字母,如脱字符910所指示出的那样,在该情况中是经追加的单词“invent_”902内的字母“v”912。然后,用户可以输入使计算机***以适当的方式响应的修改命令(这种情况下,命令仅是字母)。例如,如果用户在数值“3”之后传递修改命令“t”,则字母“v”912将被字母“t”替代,这就有效地将经追加的单词“invent_”902修改为单词“intent”914,如图11所示。这里,选择脱字符910将移向下一字符以指示该下一字符(即与唯一数值“4”相应的字符)已被选择。
应该理解到,一旦用户输入与要改变的字母相应的唯一数值,可显示建议的修改命令的菜单,比如下拉菜单,其中每个建议的动作被赋予其自己的唯一数值。例如,参考图12,考虑用户希望改变显示屏148上显示的单词“invent”内的字母的情况。用户通过口头传递命令“拼写invent”来执行拼写UI。这使得空格被追加到所选择的单词“invent”,以创建经追加的单词“invent_”1002,以及使得框1004显示在经追加的单词“invent_”1002周围,以及唯一数值1006被显示在经追加的单词“invent_”1002内的每个字母附近。如所示,经追加的单词“invent_”1002内的字母“v”1008被赋予“3”这个唯一的数值1006。这样,用户就能口头将数值“3”传递给通用计算机***102。这样,用户口头将数值“3”传递给通用计算机***102,以“选择”与唯一数值“3”相应和相关的字符,如脱字符1010所指示的那样,在该情况中是经追加的单词“invent_”1002内的字母“v”1008。参考图13,可在显示屏148上显示给用户多个修改命令选择的菜单,其中每个命令被赋予第二唯一数值1014。然后,用户可输入作为与导致语音识别软件应用以适当方式响应的所希望的修改命令相关的第二唯一数值1014的修改命令。例如,如果用户在数值“3”之后传递数值“4”,则字母“v”1008将被字母“d”取代,这就有效地将经追加的单词“invent_”1002改变为单词“indent”1018,如图14所示。如上所述,选择脱字符1010将移向下一字符,以指示该下一字符(即与唯一数值“4”相应的字符)已被选择。
应该理解到,建议的修改命令的菜单1012可包括适合于想要的最终目的的任何修改命令,比如在听觉上类似于所选择的字母或单词的字符/单词菜单,例如如果选择“v”,那么菜单1012将包含“d”、“t”、“e”、“g”、“3”。此外,菜单1012也可包含大写形式的字符,例如“V”,以及来自拼写检查程序的自动完成列表。如此,对这个例子,菜单1012可包括单词“indent”、“intent”、“amend”。而且,应该理解到,本发明可包括同时执行多个功能的话音命令,例如,“按照eagle将3改为“e””,或如果所选择的单词内只有一个字母“t”,“将t改为g”会把字母“t”改成字母“g”。如果在所选择的单词内有两个字母“t”,可向用户提供反馈以更为精确。而且,也可以提供其他命令,比如将先前改变的字符恢复为从前的状态的“撤销”,例如如果用户说“cap that”(大写所选择的字母),但该输入被识别为“caret”,那么用户可以说“撤销”,以将字母恢复为从前的状态。
依照示例性的实施例,可以通过响应于机器可读的计算机程序操作的控制器来全部或者部分地实现图2的处理。为了执行描述的功能和想要的处理以及由此产生的计算(例如,执行控制算法、这里描述的控制进程等等),控制器可包括但不限于:处理器、计算机、内存、存储器、寄存器、定时、中断、通信接口和输入/输出信号接口,以及包含所述的至少一种的结合。
而且,本发明可以计算机或控制器执行的过程来的形式来表现。本发明也可以包含收录于有形的媒质,比如软盘、CD-ROM、硬盘驱动器和/或任何其他的计算机可读的媒质中的指令的计算机程序代码的形式来表现,其中当计算机程序代码被载入并由计算机或控制器执行时,计算机或控制器成为用于实施本发明的装置。本发明也可以计算机程序代码的形式来表现,例如,无论是存储在存储器媒质中、载入和/或由计算机或控制器执行,或者是通过某些传输媒质传输,比如通过电线或电缆,通过光纤或通过电磁辐射,其中当计算机程序代码被载入并被计算机或控制器执行时,计算机或控制器就成为用于实施本发明的装置。当在通用微处理器上执行时,计算机程序代码段可以配置微处理器来创建特定的逻辑电路。
尽管本发明已经关于示例性的实施例做出了描述,然而本领域的技术人员应该明白,可以做出各种变化、删除和/或增加,并且其中的元件可用等价物来取代,而不会脱离本发明的精神和范围。此外,可以做出许多修改以适合本发明的教义的特定情况或材料,这不会脱离其范围。因此,应该懂得本发明不限定披露的特定实施例是执行本发明的最佳模式,但是本发明包括落入附加的权利要求的范围中的所有实施例。而且,除非特别声明,否则术语第一、第二等等的任何使用并不表示任何顺序或重要性,术语第一、第二等仅是用于区别一个元件和另一个元件。

Claims (25)

1.一种用于操纵显示屏上显示的字符的方法,所述方法包括:
识别所选择的单词,其中所述所选择的单词包括要被修改的至少一个字符;
将所述至少一个字符中的每一个字符与唯一数值相关联;
接收选择命令和修改命令,其中所述选择命令是与所述所选择的单词内的所选择的字符相应的所述唯一数值;以及
响应于所述修改命令修改所述所选择的字符,以产生经修改的单词。
2.如权利要求1所述的方法,其特征在于,所述识别进一步包括:
启动拼写命令,以调用允许用户口头传递所述所选择的单词的拼写用户界面。
3.如权利要求1所述的方法,其特征在于,所述将所述至少一个字符中的每一个字符与唯一数值相关联进一步包括:
在显示屏上显示所述所选择的单词,以直观地传达所述至少一个字符中的每一个字符与所述唯一数值中的每一个之间的相关性。
4.如权利要求3所述的方法,其特征在于,所述显示包括:
在显示屏上所述所选择的单词周围画框;以及
将所述唯一数值中的每一个显示在所述至少一个字符中的每一个字符附近。
5.如权利要求1所述的方法,其特征在于,所述识别包括识别所选择的单词,并向所述所选择的单词追加至少一个空格,以创建经追加的单词,其中所述经追加的单词包括要被修改的至少一个字符。
6.如权利要求5所述的方法,其特征在于,所述将所述至少一个字符中的每一个字符与唯一数值相关联进一步包括:
在显示屏上显示所述经追加的单词,以直观地传达所述至少一个字符中的每一个字符与所述唯一数值的每一个之间的相关性。
7.如权利要求6所述的方法,其特征在于,所述显示包括:
在显示屏上所述所选择的单词周围画框;以及
将所述唯一数值中的每一个显示在所述至少一个字符的每一个字符附近。
8.如权利要求5所述的方法,其特征在于,如果所述修改命令是“删除”,则所述修改包括从所述经追加的单词中删除所述所选择的字符。
9.如权利要求1所述的方法,其特征在于,所述接收包括:
通过音频输入装置接收所述选择命令和所述修改命令。
10.如权利要求1所述的方法,其特征在于,如果所述修改命令是替代字符,则所述修改包括用所述替代字符替代所述所选择的字符。
11.如权利要求1所述的方法,其特征在于,如果所述修改命令是“删除”,则所述修改包括从所述所选择的单词中删除所述所选择的字符。
12.如权利要求1所述的方法,其特征在于,如果所述修改命令是“***”,则所述修改包括在所述所选择的字符和紧接着的前一个字符之间***空格。
13.如权利要求12所述的方法,其特征在于,所述修改进一步包括选择所述空格,并直观地在显示屏上指示出所述空格。
14.如权利要求1所述的方法,其特征在于,所述修改进一步包括选择随后的字符,其中所述随后的字符位于紧接着所述所选择的字符之后。
15.如权利要求14所述的方法,其特征在于,所述修改进一步包括直观地在显示屏上指示出所述随后的字符。
16.如权利要求2所述的方法,其特征在于,还包括允许用户通过退出命令口头退出拼写UI。
17.如权利要求16所述的方法,其特征在于,所述允许进一步包括响应于所述退出命令,用所述经修改的单词替代所述所选择的单词。
18.如权利要求16所述的方法,其特征在于,所述退出命令为“OK”。
19.如权利要求1所述的方法,其特征在于,所述接收进一步包括显示至少一个可允许的字符修改的列表,其中所述列表包括与所述至少一个可允许的字符修改相应的第二唯一数值。
20.如权利要求19所述的方法,其特征在于,所述修改命令是所述第二唯一数值。
21.如权利要求1所述的方法,其特征在于,所述修改命令是“改变”和“撤销”中的至少一个。
22.如权利要求2所述的方法,其特征在于,所述识别进一步包括拼写UI通过音频输入装置接收音频信号。
23.如权利要求1所述的方法,其特征在于,该方法可作为孤立的应用模块和与目标软件应用、语音识别软件应用和操作***中的至少一个集成的应用模块中的至少一个来实现。
24.如权利要求1所述的方法,其特征在于,所述方法可以作为与目标软件应用集成的集成应用模块来实现,其中,所述目标软件应用包括字处理应用、电子数据表应用和电子邮件应用中的至少一个。
25.一种用机器可读的计算机程序代码编码的计算机可读的媒质,该程序代码包括用于使处理装置实现操纵显示屏上显示的字符的方法的指令,该方法包括:
识别所选择的单词,其中所述所选择的单词包括要被修改的至少一个字符;
将所述至少一个字符的每一个字符与唯一数值相关联;
接收选择命令和修改命令,其中所述选择命令是与所选择的字符相应的唯一数值;以及
响应于所述修改命令修改所述所选择的字符,以产生经修改的单词。
CNA2005101164989A 2004-11-24 2005-10-24 字符的受控处理 Pending CN1779781A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/997,255 US7778821B2 (en) 2004-11-24 2004-11-24 Controlled manipulation of characters
US10/997,255 2004-11-24

Publications (1)

Publication Number Publication Date
CN1779781A true CN1779781A (zh) 2006-05-31

Family

ID=35809546

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005101164989A Pending CN1779781A (zh) 2004-11-24 2005-10-24 字符的受控处理

Country Status (12)

Country Link
US (2) US7778821B2 (zh)
EP (1) EP1662373A3 (zh)
JP (1) JP2006146887A (zh)
KR (1) KR20060058006A (zh)
CN (1) CN1779781A (zh)
AU (1) AU2005229676A1 (zh)
BR (1) BRPI0504862A (zh)
CA (1) CA2523898A1 (zh)
MX (1) MXPA05011453A (zh)
RU (1) RU2005134647A (zh)
TW (1) TW200627377A (zh)
ZA (1) ZA200508562B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366741A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音输入纠错方法及***

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778821B2 (en) * 2004-11-24 2010-08-17 Microsoft Corporation Controlled manipulation of characters
US20070106501A1 (en) * 2005-11-07 2007-05-10 General Electric Company System and method for subvocal interactions in radiology dictation and UI commands
KR100737343B1 (ko) * 2005-12-08 2007-07-09 한국전자통신연구원 음성 인식 장치 및 방법
US20090300126A1 (en) * 2008-05-30 2009-12-03 International Business Machines Corporation Message Handling
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8548814B2 (en) * 2009-11-05 2013-10-01 Johnson Manuel-Devadoss Method and portable system for phonetic language translation using brain interface
US20120159341A1 (en) 2010-12-21 2012-06-21 Microsoft Corporation Interactions with contextual and task-based computing environments
US20120166522A1 (en) * 2010-12-27 2012-06-28 Microsoft Corporation Supporting intelligent user interface interactions
US20120303368A1 (en) * 2011-05-27 2012-11-29 Ting Ma Number-assistant voice input system, number-assistant voice input method for voice input system and number-assistant voice correcting method for voice input system
US9612670B2 (en) 2011-09-12 2017-04-04 Microsoft Technology Licensing, Llc Explicit touch selection and cursor placement
US9922651B1 (en) * 2014-08-13 2018-03-20 Rockwell Collins, Inc. Avionics text entry, cursor control, and display format selection via voice recognition
US9432611B1 (en) 2011-09-29 2016-08-30 Rockwell Collins, Inc. Voice radio tuning
US9570086B1 (en) * 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
KR20130080515A (ko) * 2012-01-05 2013-07-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법.
KR102105101B1 (ko) * 2012-11-07 2020-04-27 삼성전자주식회사 디스플레이 장치 및 이의 문자 수정 방법
US20140257808A1 (en) * 2013-03-11 2014-09-11 Samsung Electronics Co. Ltd. Apparatus and method for requesting a terminal to perform an action according to an audio command
GB2518002B (en) * 2013-09-10 2017-03-29 Jaguar Land Rover Ltd Vehicle interface system
WO2015093632A1 (ko) * 2013-12-16 2015-06-25 주식회사 큐키 전자 장치, 오타 수정 방법 및 이를 수행하기 위한 프로그램을 포함하는 컴퓨터로 판독 가능한 기록매체
US9383827B1 (en) * 2014-04-07 2016-07-05 Google Inc. Multi-modal command display
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10275152B2 (en) 2014-10-28 2019-04-30 Idelan, Inc. Advanced methods and systems for text input error correction
US11112965B2 (en) 2014-10-28 2021-09-07 Idelan, Inc. Advanced methods and systems for text input error correction
US10831997B2 (en) * 2018-08-09 2020-11-10 CloudMinds Technology, Inc. Intent classification method and system
CN111415412B (zh) * 2020-03-18 2023-08-04 北京山维科技股份有限公司 一种立体测图采编***和方法
WO2023090960A1 (ko) * 2021-11-22 2023-05-25 주식회사 컬러버스 3차원 캐릭터 치환 시스템 및 방법
WO2023090959A1 (ko) * 2021-11-22 2023-05-25 주식회사 컬러버스 3차원 캐릭터 치환 시스템 및 방법

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US571831A (en) * 1896-11-24 Paper vessel
US5754847A (en) * 1987-05-26 1998-05-19 Xerox Corporation Word/number and number/word mapping
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5007008A (en) 1988-12-15 1991-04-09 Hewlett-Packard Company Method and apparatus for selecting key action
US5046096A (en) * 1990-04-09 1991-09-03 Ncm International, Inc. Windowed rotatable cover which reveals one indicia on one surface and a second indicia on a second surface corresponding to the first that encodes and decodes messages
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5987170A (en) * 1992-09-28 1999-11-16 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
DE69326431T2 (de) 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
US5710831A (en) * 1993-07-30 1998-01-20 Apple Computer, Inc. Method for correcting handwriting on a pen-based computer
US6125347A (en) 1993-09-29 2000-09-26 L&H Applications Usa, Inc. System for controlling multiple user application programs by spoken input
WO1995025326A1 (en) 1994-03-17 1995-09-21 Voice Powered Technology International, Inc. Voice/pointer operated system
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
EP1199707A3 (en) 1995-05-26 2002-05-02 Speechworks International, Inc. Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5682439A (en) * 1995-08-07 1997-10-28 Apple Computer, Inc. Boxed input correction system and method for pen based computer systems
US5852801A (en) 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5995921A (en) 1996-04-23 1999-11-30 International Business Machines Corporation Natural language help interface
US6311182B1 (en) 1997-11-17 2001-10-30 Genuity Inc. Voice activated web browser
US6078914A (en) 1996-12-09 2000-06-20 Open Text Corporation Natural language meta-search system and method
ES2182363T3 (es) * 1997-09-25 2003-03-01 Tegic Communications Inc Sistema de resolucion de ambiguedades de teclado reducido.
DE69712485T2 (de) 1997-10-23 2002-12-12 Sony Int Europe Gmbh Sprachschnittstelle für ein Hausnetzwerk
US6085159A (en) 1998-03-26 2000-07-04 International Business Machines Corporation Displaying voice commands with multiple variables
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6260015B1 (en) * 1998-09-03 2001-07-10 International Business Machines Corp. Method and interface for correcting speech recognition errors for character languages
US6646573B1 (en) * 1998-12-04 2003-11-11 America Online, Inc. Reduced keyboard text input system for the Japanese language
US6636162B1 (en) * 1998-12-04 2003-10-21 America Online, Incorporated Reduced keyboard text input system for the Japanese language
US7720682B2 (en) 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US6192343B1 (en) 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US7206747B1 (en) 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
FI110216B (fi) * 1998-12-29 2002-12-13 Nokia Corp Menetelmä ja laite syötetyn tekstin muokkaamiseksi
US7506252B2 (en) * 1999-01-26 2009-03-17 Blumberg Marvin R Speed typing apparatus for entering letters of alphabet with at least thirteen-letter input elements
US6591236B2 (en) 1999-04-13 2003-07-08 International Business Machines Corporation Method and system for determining available and alternative speech commands
DE69942663D1 (de) 1999-04-13 2010-09-23 Sony Deutschland Gmbh Zusammenfügen von Sprachschnittstellen zur gleichzeitigen Benützung von Vorrichtungen und Anwendungen
US6556841B2 (en) * 1999-05-03 2003-04-29 Openwave Systems Inc. Spelling correction for two-way mobile communication devices
US6173523B1 (en) * 1999-07-15 2001-01-16 Michael E. Johnson Sonic plastic bait
US7069220B2 (en) 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
EP1158799A1 (en) 2000-05-18 2001-11-28 Deutsche Thomson-Brandt Gmbh Method and receiver for providing subtitle data in several languages on demand
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US7130790B1 (en) 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
US7085723B2 (en) 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
AUPR270201A0 (en) * 2001-01-25 2001-02-22 Easykeys Limited Character generation system
US7313526B2 (en) * 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US7083342B2 (en) * 2001-12-21 2006-08-01 Griffin Jason T Keyboard arrangement
US6847311B2 (en) * 2002-03-28 2005-01-25 Motorola Inc. Method and apparatus for character entry in a wireless communication device
US7174294B2 (en) 2002-06-21 2007-02-06 Microsoft Corporation Speech platform architecture
JP2004093698A (ja) 2002-08-29 2004-03-25 Alpine Electronics Inc 音声入力方法
US7197494B2 (en) 2002-10-15 2007-03-27 Microsoft Corporation Method and architecture for consolidated database search for input recognition systems
JP4107093B2 (ja) 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
US7119794B2 (en) * 2003-04-30 2006-10-10 Microsoft Corporation Character and text unit input correction system
US20040243415A1 (en) 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US20050027539A1 (en) 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US20050075857A1 (en) 2003-10-02 2005-04-07 Elcock Albert F. Method and system for dynamically translating closed captions
US20050108026A1 (en) 2003-11-14 2005-05-19 Arnaud Brierre Personalized subtitle system
CN1697515A (zh) 2004-05-14 2005-11-16 创新科技有限公司 字幕翻译引擎
US8942985B2 (en) * 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
US7778821B2 (en) * 2004-11-24 2010-08-17 Microsoft Corporation Controlled manipulation of characters
US20060136195A1 (en) 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application
US20060234818A1 (en) * 2005-04-15 2006-10-19 Wilson Lee H Match-play version basketball process

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366741A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音输入纠错方法及***
CN103366741B (zh) * 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及***

Also Published As

Publication number Publication date
AU2005229676A1 (en) 2006-06-08
RU2005134647A (ru) 2007-05-20
EP1662373A2 (en) 2006-05-31
ZA200508562B (en) 2008-02-27
US20100265257A1 (en) 2010-10-21
US20060111890A1 (en) 2006-05-25
TW200627377A (en) 2006-08-01
EP1662373A3 (en) 2006-06-07
JP2006146887A (ja) 2006-06-08
CA2523898A1 (en) 2006-05-24
US8082145B2 (en) 2011-12-20
KR20060058006A (ko) 2006-05-29
MXPA05011453A (es) 2007-12-11
US7778821B2 (en) 2010-08-17
BRPI0504862A (pt) 2006-07-11

Similar Documents

Publication Publication Date Title
CN1779781A (zh) 字符的受控处理
EP1657709B1 (en) Centralized method and system for clarifying voice commands
CN1140871C (zh) 实现多源文件的音频信号重放的方法和***
CN1779783B (zh) 普通拼写助记法
US6581033B1 (en) System and method for correction of speech recognition mode errors
CN1717717A (zh) 手持便携式设备的语音输入方法编辑器的体系结构
US20050108010A1 (en) System and method for post processing speech recognition output
CN101669116A (zh) 用于生成亚洲语字符的识别体系结构
JP2007509377A (ja) ユーザインタフェースを有するインテリジェント音声認識
CN1292523A (zh) 背景声频恢复***
US8847962B2 (en) Exception processing of character entry sequences
JP2004334207A (ja) 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助
KR20220122742A (ko) 데이터 입력들을 위한 음성 인식 및 훈련
EP1692610A2 (en) Method and device for transcribing an audio signal
US20070260941A1 (en) Information processing apparatus and information processing method
US20060111916A1 (en) Microphone feedback and control

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20060531