CN101253548B - 将语音引擎训练结合入交互式用户教学***的方法 - Google Patents

将语音引擎训练结合入交互式用户教学***的方法 Download PDF

Info

Publication number
CN101253548B
CN101253548B CN2006800313103A CN200680031310A CN101253548B CN 101253548 B CN101253548 B CN 101253548B CN 2006800313103 A CN2006800313103 A CN 2006800313103A CN 200680031310 A CN200680031310 A CN 200680031310A CN 101253548 B CN101253548 B CN 101253548B
Authority
CN
China
Prior art keywords
user
speech recognition
teaching
navigation
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006800313103A
Other languages
English (en)
Other versions
CN101253548A (zh
Inventor
D·莫瓦特
F·G·T·I·安德鲁
J·D·雅各布
O·舒霍茨
P·A·肯尼迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101253548A publication Critical patent/CN101253548A/zh
Application granted granted Critical
Publication of CN101253548B publication Critical patent/CN101253548B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明将语音识别教学训练与语音识别器声音训练相结合。***向用户提示语音数据,并用预定义的屏幕截图模拟当语音命令被接收时的情况。在教学过程中的每一步骤,当向用户提示输入时,***被配置,使得语音识别器只能识别一组预定义的用户输入(可能只有一个)。当识别成功,语音数据就被用来训练语音识别***。

Description

将语音引擎训练结合入交互式用户教学***的方法
背景技术
当前语音识别***的用户面临许多问题。首先,用户必须熟悉语音识别***并且学会如何操作该***。除此之外,用户还必须训练语音识别***使之能更好的识别用户的语音。 
为解决第一个问题(教用户使用语音识别***),当前的语音识别教学***试图利用多种不同的手段教用户语音识别器的工作方式。例如,有些***使用帮助文档形式的教学信息,帮助文档可以是电子文档或纸质文档,而且仅允许用户通读帮助文档。其他教学***还提供关于用户如何使用语音识别***不同特征的视频演示。 
所以,当前的教学***不能为用户提供在安全的、受控制的环境下试用语音识别的实践体验。相反,它们只允许用户观看或通读教学内容。然而,已有发现表明,在用户仅被要求读出教学内容时,即使是大声朗读,用户能记住的有意义的教学内容非常少,几乎可以忽略。 
除此之外,当前的语音教学不能被第三方扩展。换句话说,如果第三方厂商想要创建它们自己的语音命令或功能、向现有的语音***增加语音命令或功能、或者要教当前教学***没有教的语音***的现有的或新的功能,一般必须重新创建单独的教学***。 
为了解决第二个问题(训练语音识别器更好地识别说话者),也使用了许多不同的***。在所有这些***中,计算机被首先置于一个特殊的训练模式中。在一个现有***中,用户仅被要求向语音识别器朗读一给定量的预先定义的文本,语音识别器用从朗读该文本的用户获取的语音数据来进行训练。在另一个***中,提示用户朗读不同类型的文本项目,并且要求用户重复朗读语音识别器难以识别的某些项目。 
在一当前***中,要求用户大声朗读教学内容,语音识别***也同时被激活。因此,用户不仅朗读教学内容(描述语音识别***如何工作,并且包括语音识别***使用的某些命令),而且语音识别器实际上也在用户朗读教学内容的时候识别来自用户的语音数据。所获取的语音数据然后被用来训练语音识别器。然而,在上述***中,语音识别***的全部语音识别性能都是活动的。因此,语音识别器实质上能识别其词库中的任何内容,词库通常包括数千条命令。这种类型的***未得到紧密控制。如果语音识别器识别了一个错误的命令,***就会偏离教学内容,用户则会被搞糊涂。 
因此,当前的语音识别训练***还要一些特殊的条件才能有效地工作。计算机必须处于特殊的训练模式,要确信用户会说出的具体的短语,且只能主动听出少数几个不同的短语。 
因此可看出,语音引擎训练和用户教学训练处理不同的问题,但在用户成功识别语音时都是需要的。 
以上讨论仅提供了一般的背景信息,不用来作为确定权利要求范围的辅助。 
发明内容
本发明将语音识别教学训练与语音识别器声音训练结合。***向用户提示语音数据并用预定义的屏幕截图模拟当语音命令被接收时的情况。在教学过程中的每一步骤当向用户提示输入时,***被配置,使得语音识别器只能识别一组预定义的用户输入(可能只有一个)。当识别成功,语音数据就被用来训练语音识别***。 
本发明内容部分提供一些简单形式的概念的介绍,这些概念在下面的内容中将进行详细的描述。本发明内容部分不用来确定权利要求主题的关键特征或实质特征,也不用来确定所要求保护的主题的范围。 
附图说明
图1是可使用本发明的一个示例性环境。 
图2是根据本发明一个实施例的教学***的更详细框图。 
图3是例示图2所示的教学***的操作的一个实施例的流程图。 
图4例示了一个示例性的导航分层结构。 
图5-11是例示图2所示的***的示例性实施例的屏幕截图。 
附录A例示了根据本发明一个实施例所使用的示例性教学流程图。 
具体实施方式
本发明涉及一种教学***,该***教用户语音识别***,而且同时还基于从 用户处获取的声音数据训练语音识别***。然而,在更详细的描述本发明之前将描述可利用本发明的一个示例性环境。 
图1例示了实施例可以实施的一个合适的计算***环境100。计算***环境100仅是一个合适的计算环境的一个示例,并不用来限制本发明的使用范围或功能。计算环境100不应解释为依赖于或需要例示的示例性操作环境100中相关的任何组件或其组合。 
各实施例可操作于众多其他通用或专用计算***环境或配置中。适合各种实施例使用的公知的计算***、环境和/或配置的例子包括,但不局限于:个人计算机、服务器计算机、手持式或膝上型电脑设备、多处理器***、基于微处理器的***、机顶盒、可编程用户电子设备、网络计算机、微型计算机、大型计算机、电话通讯***以及包括任何上述***或设备等的分布式计算环境等。 
实施例可以在计算机可执行指令的一般上下文中描述,例如由计算机执行的程序模块中。一般地,程序模块包括执行具体任务或实现具体抽象数据类型的例行程序、程序、对象、组件、数据结构等。有些实施例是为分布式计算机环境而设计的,在该环境下,由通讯网络连接的远程处理设备执行任务。在分布式计算机环境下,程序模块位于包括存储器存储设备的本地和远程计算机存储介质中。 
参考图1,实施一些实施例的示例性***包括计算机110形式的通用计算设备。计算机110的组件可以包括,但不局限于:处理单元120、***存储器130、将各种包括***存储器的各种***组件藕合到处理单元120的***总线121。***总线121可能是总线结构中几种类型中的任何一种,包括存储器总线或存储器控制器、***总线、使用多种总线结构中任何一种的本地总线。作为例子,而非限制,此类架构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外设部件互连(PCI)总线(也称为Mezzanine总线)。 
计算机110一般包括多种计算机可读介质。计算机可读介质可以是能由计算机110访问的任何可用介质,而且包含易失/非易失性介质、以及可移动/不可移动介质。作为例子而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括:RAM、ROM、EEPROM、闪速存储器或者其它存储器技术、CD-ROM、数字通用盘(DVD)或者其它光学存储器、磁带盒、磁带、磁盘存储器或者其它磁存储设备、或者任何其它能够被用来存储所需信息并且能够由计算机110访问的介质。通信媒质通常以调制的数据信号,诸如载波或者其它典型传输机 制的形式来体现计算机可读指令、数据结构、程序模块、或者其它数据,并且包括如何信息传递介质。术语“调制的数据信号”是指以在该信号中编码信息的方式来设置或改变其一个或多个特性的信号。作为例子而不是限制,通信媒质包括有线媒质,诸如有线网络或者直接有线连接,以及无线媒质,诸如声频、射频、红外或者其它无线媒质。以上任何一个的组合也应当被包括在计算机可读介质的范围之内。 
***存储器130包括只读存储器(ROM)131以及随机存取存储器(RAM)132。基本输入/输出***133(BIOS)存储在ROM 131内,它包括比如在启动时帮助在计算机110内的元件间传输信息的基本例程。RAM 132通常包含可由处理单元120即时存取的和/或目前在操作的数据和/或程序模块。作为例子,而非限制,图1举例说明了操作***134、应用程序135、其它程序模块136以及程序数据137。 
计算机110还包括其它可移动/不可移动、易失/非易失计算机存储介质。仅仅作为例子,图1显示有从不可移动的非易失磁性介质读取或向其中写入的硬盘驱动器141、从可移动的非易失磁性磁盘152读取或向其中写入的磁盘驱动器151、以及用于向诸如CD-ROM或其它光学媒质那样的可移动非易失光介质156读写的光盘驱动器155。其它能用于示例性操作环境的可移动/不可移动、易失/非易失计算机存储介质包括但不限于:盒式磁带、闪存卡、数字多用途盘、数字视频磁带、固态RAM、固态ROM等等。硬盘驱动器141通常通过诸如接口140等不可移动存储器接口连接到***总线121,而磁盘驱动器151通过诸如接口150等可移动存储器接口连接到***总线121。 
以上讨论并在图1中示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储器。例如,在图1中,示出硬盘驱动器141储存操作***144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作***134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作***144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的拷贝。 
用户可以通过输入设备,如键盘162、耳机163和定位设备161,例如鼠标、跟踪球或触摸板。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至***总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口 如视频接口190连接至***总线121。除监视器之外,计算机也可包括其它***输出设备,如扬声器197和打印机196,它们可通过输出***接口195连接。 
计算机110工作在使用到一个或多个诸如远程计算机180的远程计算机的逻辑连接的网络化环境内。远程计算机180可以是个人电脑、手持装置、服务器、路由器、网络PC、对等设备或其它公共网络节点,并且一般包括与计算机110相关的许多或所有上述元件。图1所述的逻辑连接包括局域网(LAN)171以及广域网(WAN)173。这种网络环境常见于办公室、企业范围的计算机网络、内联网以及因特网。 
当用于LAN网络环境时,计算机110通过网络接口或适配器170连到局域网171。当用于WAN网络环境时,计算机110通常包括调制解调器172或其它装置,用于在诸如因特网的广域网173上建立通信。调制解调器172可以是内置的或外置的,它通过用户输入接口160连到***总线121。在网络化环境中,与计算机110相关描述的程序模块或其中的一部分可存储在远程存储器设备内。作为例子而非限制,图1例示有远程应用程序185驻留在远程计算机180上。可以理解的是,所示网络连接是示例性的,可以使用在计算机之间建立通信链路的其它方式。 
图2是根据一个实施例的教学***200的更详细的框图。教学***200包括访问多种不同教学应用程序的教学内容204、206的教学框架202。图2也展示了教学框架202耦合到语音识别***208、语音识别训练***210和用户界面组件212。教学***200不仅可用来为用户(用数字214表示)提供教学,还可用来从用户处获取语音数据,并用所获取的语音数据利用语音识别训练***210来训练语音识别***208。 
教学框架202通过用户界面组件212向用户214提供交互式教学信息230。交互式教学信息230引导用户体验如何何语音识别***208的教学内容。这样,交互式教学信息230就会向用户提示语音数据。一旦用户说出语音数据,该语音数据就通过例如麦克风被获取,并作为用户输入232被提供给教学框架202。然后教学框架202将用户语音数据232提供给语音识别***208,该***对所述语音数据232进行语音识别。然后,语音识别***208为教学框架202提供表明用户语音数据232被识别(或未被识别)的语音识别结果234。 
作为回应,教学框架202通过用户界面组件212为用户214提供另一组交互式教学信息230。如果用户语音数据232能准确地被语音识别***208识别,交互式教学***230则为用户显示语音识别***接收该语音数据时的情况。类似的,如 果用户语音数据232不能被语音识别***208识别,交互式教学信息230则为用户显示在语音识别***中的那个步骤出现未能识别时的情况。这对于当前运行的教学应用程序的每一个步骤都持续出现。 
图3是一个流程图,该图更好地例示了图2所示的***200如何根据一个实施例的运作。在详细描述***200的运作之前,应当注意,想要提供能教语音识别***的教学应用程序的开发者必须首先先生成如教学内容204或206这样的教学内容。为了便于论述,假定开发者已经为应用程序一生成了教学内容204。 
教学内容示例性地包括教学流程内容216和一组屏幕截图或其他用户节目显示要素218。教学流程内容216示例性地描述了教学应用程序的完整导航流程和允许存在于该导航流程中的每一步骤的用户输入。在一实施例中,教学流程内容216是为应用程序定义导航分层结构的可扩展标记语言(XML)文件。图4例示了可使用的一个示例性导航分层结构300。然而,导航不一定要是分层次的,也可以使用其他层次或者甚至是一组线性步骤(而不是层次)。 
无论如何,示例性导航分层结构300展示了教学应用程序包括一个或多个主题302。每个主题具有一个或多个不同章304,而且也可以有页面。每章有一个或多个不同的页面306,而且每页有零个或多个不同的步骤308(具有零步的页面的一个例子是没有步骤的介绍页面)。这些步骤是用户为了逐步导航完成教学内容的给定页面306所执行的。当教学内容的给定页面306中的所有步骤308都完成后,向用户提供继续到另一页面306的选项。当给定章304中的所有页面都完成后,向用户提供继续下一章的选项。当然,当给定主题的所有章都完成后,用户则可以继续教学内容的另一主题。当然,还应当理解,用户可以如教学应用程序开发者期望的那样跳过分层结构的不同级。 
教学流程内容216的一个具体示例作为附录A附于本申请。附录A是根据图4所示的导航分层结构300完整定义教学应用程序流程的可扩展标记语言文件。附录A中的可扩展标记语言文件还定义了用户在教学内容的任何给定步骤308中允许发表的意见,而且定义了或引用了响应于用户发表的预定义的意见而显示的给定的屏幕截图218(或其他文本或显示项目)。以下参照图5至图11讨论一些示例性屏幕截图。 
一旦开发者(或其他教学内容的作者)生成了教学内容204后,为其生成教学内容204的教学应用程序可由图2所示的***200运行。图3所示的流程图例示了运行教学内容的***200的运作的一个实施例。 
用户214首先打开教学应用程序一。图3中的方框320表明了这一点,并且可以由多种不同的方法完成。例如,用户界面组件212可以显示用户界面元素,为打开给定的教学应用程序,该用户界面元素可由用户(例如使用点指设备或通过声音启动等)启动。 
一旦用户打开了教学应用程序,教学框架202就访问相应的教学内容204并将教学流程内容216解析成导航分层结构模式、图4所代表的一个例子以及附录A所示的一个具体的例子。如上所述,一旦流程内容被解析到导航分层结构模式,流程内容不仅定义了教学的流程,而且还引用要在教学流程的每一步骤中显示的屏幕截图218。图3中的方框322表明了流程内容被解析到导航分层结构。 
然后,教学框架202通过用户界面212向用户214显示允许用户开始教学内容的用户界面元素。例如,教学内容框架202可以在用户界面212上显示开始按钮,用户只需说“Start(开始)”(或其他相似的短语)或使用其他点击设备就能启动该按钮。当然,也可以使用其他方法来开始教学应用程序。然后,用户214开始所述教学应用程序的运行。这在图3中的方框324和方框326已经表明。 
然后,教学框架202运行教学内容,交互式地向用户提示语音数据并用屏幕截图来模拟在用户被提示的命令由运行教学内容的语音识别***接收到时所发生的情形。这在图3的方框328中已经表明了。在继续图3所示的操作前,先描述一些示例性的屏幕截图以更好的理解教学内容是如何运作的。 
图5至图11是示例性的屏幕截图。图5例示了在一实施例中,屏幕截图502包括提供描述语音识别***操作的书面教学内容的教学部分504,所述教学应用程序是为语音识别***而写的。 
图5所示的屏幕截图502还展示了向用户显示的导航分层结构200(如图4所示)的一部分。多个主题按钮506至516依次位于图5所示的截图中按钮上,标识了在所运行的教学应用程序中的主题。这些主题包括:“Welcome(欢迎)”、“Basics(要素)”、“Dictation(口述)”、“Commanding(命令)”等。当所述主题按钮506至516之一被选中,多个章按钮就会显示出来。 
更具体地,图5例示了与欢迎按钮506相应的欢迎页面。当用户阅读过所述欢迎页面上的教学信息后,用户可以启动屏幕截图502中的下一个按钮518前进到下一屏。 
图6展示了与图5所示的屏幕截图相似的屏幕截图523,但是图6中的屏幕截图例示了每个主题按钮506至516相应地都具有多个章按钮。例如,图6展示了命 令按钮512已被用户启动。然后,与命令主题按钮512相应的多个章按钮520则被显示出来。示例性的章按钮520包括:“Introduction(介绍)”、“Say what you see(说出你看到的)”、“Click what you see(点击你看到的)”、“Desktop Interaction(桌面交互)”、“Show Numbers(显示数字)”和“Summary(总结)”。用户可以启动章按钮520以显示一页或更多页。在图6中,“Introduction(介绍)”章按钮520已经被用户启动,并且在屏幕截图的教学部分504中展示了简要教学内容。 
教学部分504下面是多个步骤522,用户可以执行这些步骤以完成一项任务。当用户执行步骤522时,屏幕截图的演示部分524则演示在步骤被执行时语音识别***中的情况。例如,当用户说“Start(开始)”、“All Programs(所有程序)”、“Accessories(附件)”,屏幕截图的演示部分524则展示显示526,所述显示526显示了“Accessories(附件)”程序被显示出来。然后,当用户说“Wordpad(写字板)”时,显示则转换成显示“写字板”应用程序被打开。 
图7例示了另一示例性屏幕截图530,其中所述“Wordpad(写字板)”应用程序已被打开。用户现在已选择“Show Numbers(显示数字)”章按钮。屏幕截图530的教学部分504中的信息现在被变成与已由教学内容写入的应用程序的“Show Numbers(显示数字)”特征相应的信息。步骤522也已变成与“ShowNumbers(显示数字)”章相应的信息。在示例性实施例中,可启动按钮或在演示部分524的显示532中显示的应用程序的特征分别被分配一个数字,用户只要说该数字就能表明或启动应用程序中的按钮。 
图8与图7相似,除了在图8中的屏幕截图550是对应于用户选择与“Commanding(命令)”主题相对应的“Click what you see(点击你看到的)”章按钮的情况。同样地,屏幕截图550的教学部分504包括和如何使用语音识别***来“Click(点击)”用户界面上的内容有关的教学信息。与该章相应的多个步骤522也被列出。步骤522向用户详细解释“Click(点击)”演示部分524中的显示522上的内容的一个或多个例子。如果用户确实是通过语音识别***使用步骤522中的命令来命令应用程序,演示显示552则被更新以反映用户真正看到的信息。 
图9展示了用户选择“Dictation(口述)”主题按钮510后,一组新的示例性的章按钮590显示的另一屏幕截图600。新的示例性按钮组包括:“Introduction(介绍)”、“Connecting Mistakes(连接错误)”、“Dictating Letters(口述字母)”、“Navigation(导航)”、“Pressing Keys(按按键)”和“Summary(总结)”。 图9展示了用户已经启动“Pressing Keys(按按键)”章按钮603。同样地,屏幕截图的教学部分504展示了表明字母如何一次一个地被输入屏幕截图600的演示部分524上的演示显示602所示的写字板应用程序中的教学信息。教学部分504下面是用户为利用语音将单个字母输入应用程序可执行的多个步骤522。用户执行每一步骤522后屏幕截图600的演示显示602就会被更新,就像是语音识别***在控制应用程序一样。 
图10还展示了用户选择口述主题按钮510和“导航”章按钮对应的屏幕截图610。屏幕截图610的教学部分504现在包括描述导航***如何利用语音口述***来控制应用程序运作的信息。同样地,引导用户体验一些示例性导航命令的步骤522也被列出。更新演示部分524的演示显示614以反映如果用户确实通过语音识别***利用步骤522所示的命令控制应用程序时所显示的情况。 
图11与图10所示相似,除了在图11所示的屏幕截图650是对应于用户启动“Dictating Letters(口述字母)”章按钮652的情况。所以,教学部分504包含指导用户如何使用特定口述特征的信息,例如,通过语音识别***在口述应用程序中创建新的行和段。步骤522引导用户体验如何在口述应用程序的文档中创建新段的例子。更新屏幕截图650的演示部分524中的演示显示654以显示如果用户确实通过语音识别***输入步骤522中的命令、用户将在该应用程序中看到的情况。 
教学内容中的识别的所有语音信息都会被提供给语音识别训练***210以更好的训练语音识别***208。 
应当理解,在教学内容的每一步骤522中,当用户被要求说一个单词或短语时,框架202就被配置成只能接收对语音数据提示的一组预定义的响应。换句话说,如果用户被提示说“开始”,框架202只能被配置为接收被识别为“Start(开始)”的用户输入的语音数据。如果用户输入其他任何语音数据,框架202会示例性的提供说明该语音输入未被识别的屏幕截图。 
教学框架202还示例性的展示当语音输入未被识别时语音识别***中的情况。这可以由多种不同方法完成。例如,教学框架202自己可以被配置为只能响应于给定的提示而接收来自语音识别***208的预定语音识别结果。如果识别结果与教学框架202所允许的结果不相匹配,那么教学框架202就通过用户界面组件212向用户214提供交互式教学信息,表明语音未被识别。或者,语音识别***自己可以被配置为只能识别一组预定的语音输入。在这种情况下,只有预定的规则可以在语音识别***208中被激活,或者可以执行其他步骤来配置语音识别***208,从而该 ***就不能识别一组预定义的可能语音输入以外的任何语音输入。 
无论如何,在教学过程中的任何指定步骤中只允许一组预定的语音输入被识别具备一些优越性。因为教学应用程序会知道下一步必需做什么,因此这使用户能响应于在所处理的步骤处允许的任何给定的预定义语音输入而了解教学***的运行情况。这与一些现有的基本上允许识别来自用户的任何语音输入的***相反。 
再次参见图3中的流程图,方框330表明了接收对语音数据提示的一组预定义的响应。当语音识别***208向教学框架202提供识别结果234、表明已作出准确的、可接受的识别时,教学框架202就把识别结果234(该结果为用户语音数据232的示例性录音)和用户语音数据232提供给语音识别训练***210。然后,语音识别训练***210就利用用户语音数据232和识别结果234来更好的训练语音识别***208中的模型以识别用户的语音。这种训练可以有多种不同的公知的形式,完成语音识别***训练的具体方法并不形成本发明的一部分。图3中的方框332表明了利用用户语音数据232和识别结果234执行语音识别训练。作为该训练的结果,语音识别***208能更好的识别当前用户的语音。 
本模型的多种特征见附录A展示的例子。例如,本模型可用来创建实践页面,实践页面可在没有即刻提供完成该任务的确切说明的情况下,指导用户执行用户已学会的任务。本模型允许用户尝试记起具体的指令,并且在没有被告知确切的要做的事情的情况下就能输入具体的命令。本模型提高了学习进程。 
如附录A中的例子所示,实践页面可通过设置记号<page>中的“practice=true”标记来创建。如下所示: 
<page title=“stop listening”practice=“true”> 
这使得“Step(步骤)”记号下的<instruction>不被显示出来,除非出现超时(例如30秒钟)或语音识别器208得知来自用户的错误识别(也就是用户说错了)。 
在“Page Title(页面标题)”被设置成“Stop Listening(停止收听)”,“PracticeFlag(实践标记)”被设置为“True(真)”的具体的例子中,显示会举例说明教学语言: 
“During the tutorial,we will sometimes ask you to practice what you have justlearned.If you make mistake,we will help you along.Do you remember how to showthe context menu,or right click menu for the speech recognition interface?Try showingit now!(在教学过程中,我们会不时要求你实践你刚才所学的。如果你犯了错误,我们会帮助你。你记得如何显示上下文菜单或右击菜单进入语音识别界面吗?现在 就试试吧!)” 
这可以例如显示在教学部分504中,然后,教学内容就等待收听用户说短语“Show speech options(显示语音选项)”。在一实施例中,一旦用户说出合适的语音命令,如果该命令确实是赋予该应用程序的命令,演示显示部分524就会被更新以显示被用户看到的信息。 
然而,如果在超过预定的时间后,例如30秒或任何理想的时间范围,用户还没有输入语音命令,或者如果用户输入了不合适的无法被语音识别***识别的命令,以下说明将被显示出来:“Try saying‘show speech options’(试试说‘显示语音选项’)”。 
可以看出,本发明以令人满意的方式把教学内容和语音训练过程相结合。在一实施例中,***是交互式的,因为该***向用户显示了当向用户提示的命令被语音识别***接收时语音识别***的情况。为了使教学过程中的语音识别更有效以及使用户处于受控制的教学环境中,本发明还将教学内容中的任何步骤中的可能的识别限定在了一组预定义的识别中。 
还应当注意到,教学***200易于扩展。为了给新语音命令或新语音功能提供新的教学内容,第三方只需设计教学流程内容216和屏幕截图218,它们可以被轻松的***教学***200的框架202中。如果第三方想要为现有的语音命令或功能创建新的教学内容,或者如果第三方想要变更现有教学内容,也是可以实现的。在所有这些情形中,第三方只需参考屏幕截图(或其他显示要素)设计教学内容,从而该教学内容就可以被解析成教学框架202使用的教学模型。在此讨论的实施例中的模型是分层结构性模型,但是其他模型也容易使用。 
虽然本发明的主题已用具有特殊的结构性特征的语言和/或方法性的步骤描述过,应当理解,所附权利要求书中定义的主题不必限制在上述具体的特征或步骤中。相反,上述具体的特征和步骤是作为实施权利要求而公开的示例形式。 

Claims (9)

1.一种训练语音识别***的方法,其特征在于,包括:
运行教导用户如何使用所述语音识别***的教学应用程序;
显示多个教学显示之一,所述教学显示包括提示,提示用户说出用于控制语音识别***的命令;
把响应于所述提示接收到的接收语音数据提供给语音识别***进行识别、以获得语音识别结果;
如果所述语音识别结果与一预定义的可能命令子集中的一个相对应,则基于所述语音识别结果和所述接收语音数据训练语音识别***;以及
基于所述语音识别结果显示另一教学显示;
其中显示另一教学显示包括:显示一模拟,所述模拟表明如果用户确实通过所述语音识别***输入对应于所述语音识别结果的命令、用户将看到的情况。
2.如权利要求1所述的方法,其特征在于,显示多个教学显示之一包括:
显示描述语音识别***的特征的教学文本。
3.如权利要求1所述的方法,其特征在于,显示包括提示的多个教学显示之一包括:
显示多个步骤,每个步骤都提示用户说命令,所述多个步骤被执行以完成语音识别***的一项或多项任务。
4.如权利要求3所述的方法,其特征在于,显示多个教学显示之一包括:
参照教学内容以获得一选定的应用程序。
5.如权利要求4所述的方法,其特征在于,所述教学内容包括导航流程内容和相应的显示要素,其中显示多个教学显示之一包括:
访问导航流程内容,其中所述导航流程内容符合一预定义模型,并且在不同点引用相应的显示要素;
跟随由导航流程内容定义的导航流程;以及
显示在所述导航流程中的不同点处引用的显示要素。
6.如权利要求5所述的方法,其特征在于,还包括:
配置语音识别***以仅识别与用户被当前教学显示所提示执行的步骤相应的预定义的可能命令子集。
7.如权利要求5所述的方法,其特征在于,所述导航流程内容包括一导航排列,所述导航排列表明如何安排教学信息和如何允许对教学信息的导航。
8.如权利要求7所述的方法,其特征在于,所述导航流程内容包括导航分层结构。
9.如权利要求8所述的方法,其特征在于,所述导航分层结构包括被分层排列的主题、章、页面和步骤。
CN2006800313103A 2005-08-31 2006-08-29 将语音引擎训练结合入交互式用户教学***的方法 Expired - Fee Related CN101253548B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US71287305P 2005-08-31 2005-08-31
US60/712,873 2005-08-31
US11/265,726 US20070055520A1 (en) 2005-08-31 2005-11-02 Incorporation of speech engine training into interactive user tutorial
US11/265,726 2005-11-02
PCT/US2006/033928 WO2007027817A1 (en) 2005-08-31 2006-08-29 Incorporation of speech engine training into interactive user tutorial

Publications (2)

Publication Number Publication Date
CN101253548A CN101253548A (zh) 2008-08-27
CN101253548B true CN101253548B (zh) 2012-01-04

Family

ID=37809198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800313103A Expired - Fee Related CN101253548B (zh) 2005-08-31 2006-08-29 将语音引擎训练结合入交互式用户教学***的方法

Country Status (9)

Country Link
US (1) US20070055520A1 (zh)
EP (1) EP1920433A4 (zh)
JP (1) JP2009506386A (zh)
KR (1) KR20080042104A (zh)
CN (1) CN101253548B (zh)
BR (1) BRPI0615324A2 (zh)
MX (1) MX2008002500A (zh)
RU (1) RU2008107759A (zh)
WO (1) WO2007027817A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008028478B4 (de) 2008-06-13 2019-05-29 Volkswagen Ag Verfahren zur Einführung eines Nutzers in die Benutzung eines Sprachbediensystems und Sprachbediensystem
JP2011209787A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN101923854B (zh) * 2010-08-31 2012-03-28 中国科学院计算技术研究所 一种交互式语音识别***和方法
JP5842452B2 (ja) * 2011-08-10 2016-01-13 カシオ計算機株式会社 音声学習装置及び音声学習プログラム
CN103116447B (zh) * 2011-11-16 2016-09-07 上海闻通信息科技有限公司 一种语音识别页面装置及方法
KR102022318B1 (ko) * 2012-01-11 2019-09-18 삼성전자 주식회사 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
RU2530268C2 (ru) 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
US10148808B2 (en) 2015-10-09 2018-12-04 Microsoft Technology Licensing, Llc Directed personal communication for speech generating devices
US9679497B2 (en) * 2015-10-09 2017-06-13 Microsoft Technology Licensing, Llc Proxies for speech generating devices
US10262555B2 (en) 2015-10-09 2019-04-16 Microsoft Technology Licensing, Llc Facilitating awareness and conversation throughput in an augmentative and alternative communication system
TWI651714B (zh) * 2017-12-22 2019-02-21 隆宸星股份有限公司 語音選項選擇系統與方法以及使用其之智慧型機器人
US10715713B2 (en) * 2018-04-30 2020-07-14 Breakthrough Performancetech, Llc Interactive application adapted for use by multiple users via a distributed computer-based system
CN109976702A (zh) * 2019-03-20 2019-07-05 青岛海信电器股份有限公司 一种语音识别方法、装置及终端
JP7495220B2 (ja) 2019-11-15 2024-06-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
CN114679614B (zh) * 2020-12-25 2024-02-06 深圳Tcl新技术有限公司 一种语音查询方法、智能电视及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0241163A1 (en) * 1986-03-25 1987-10-14 AT&T Corp. Speaker-trained speech recognizer
US6167376A (en) * 1998-12-21 2000-12-26 Ditzik; Richard Joseph Computer system with integrated telephony, handwriting and speech recognition functions
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
CN1512483A (zh) * 2002-12-27 2004-07-14 联想(北京)有限公司 一种状态转换的实现方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4468204A (en) * 1982-02-25 1984-08-28 Scott Instruments Corporation Process of human-machine interactive educational instruction using voice response verification
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
US5388993A (en) * 1992-07-15 1995-02-14 International Business Machines Corporation Method of and system for demonstrating a computer program
US6101468A (en) * 1992-11-13 2000-08-08 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
JPH0792993A (ja) * 1993-09-20 1995-04-07 Fujitsu Ltd 音声認識装置
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
EP0920692B1 (en) * 1996-12-24 2003-03-26 Cellon France SAS A method for training a speech recognition system and an apparatus for practising the method, in particular, a portable telephone apparatus
KR100265142B1 (ko) * 1997-02-25 2000-09-01 포만 제프리 엘 관련된웹페이지와동시에도움말윈도우를디스플레이하기위한방법및장치
EP1021804A4 (en) * 1997-05-06 2002-03-20 Speechworks Int Inc SYSTEM AND METHOD FOR DEVELOPING INTERACTIVE LANGUAGE APPLICATIONS
US6067084A (en) * 1997-10-29 2000-05-23 International Business Machines Corporation Configuring microphones in an audio interface
US6192337B1 (en) * 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US7206747B1 (en) * 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6275805B1 (en) * 1999-02-25 2001-08-14 International Business Machines Corp. Maintaining input device identity
GB2348035B (en) * 1999-03-19 2003-05-28 Ibm Speech recognition system
US6224383B1 (en) * 1999-03-25 2001-05-01 Planetlingo, Inc. Method and system for computer assisted natural language instruction with distracters
US6535615B1 (en) * 1999-03-31 2003-03-18 Acuson Corp. Method and system for facilitating interaction between image and non-image sections displayed on an image review station such as an ultrasound image review station
KR20000074617A (ko) * 1999-05-24 2000-12-15 구자홍 음성인식기기의 자동 훈련방법
US6704709B1 (en) * 1999-07-28 2004-03-09 Custom Speech Usa, Inc. System and method for improving the accuracy of a speech recognition program
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
US6665640B1 (en) * 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
JP2002072840A (ja) * 2000-08-29 2002-03-12 Akihiro Kawamura 基礎能力訓練管理システム及び方法
US6556971B1 (en) * 2000-09-01 2003-04-29 Snap-On Technologies, Inc. Computer-implemented speech recognition system training
CA2317825C (en) * 2000-09-07 2006-02-07 Ibm Canada Limited-Ibm Canada Limitee Interactive tutorial
US20030058267A1 (en) * 2000-11-13 2003-03-27 Peter Warren Multi-level selectable help items
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US7324947B2 (en) * 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
US20050149331A1 (en) * 2002-06-14 2005-07-07 Ehrilich Steven C. Method and system for developing speech applications
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7461352B2 (en) * 2003-02-10 2008-12-02 Ronald Mark Katsuranis Voice activated system and methods to enable a computer user working in a first graphical application window to display and control on-screen help, internet, and other information content in a second graphical application window
US8033831B2 (en) * 2004-11-22 2011-10-11 Bravobrava L.L.C. System and method for programmatically evaluating and aiding a person learning a new language
US20060241945A1 (en) * 2005-04-25 2006-10-26 Morales Anthony E Control of settings using a command rotor
DE102005030963B4 (de) * 2005-06-30 2007-07-19 Daimlerchrysler Ag Verfahren und Vorrichtung zur Bestätigung und/oder Korrektur einer einem Spracherkennungssystems zugeführten Spracheingabe

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0241163A1 (en) * 1986-03-25 1987-10-14 AT&T Corp. Speaker-trained speech recognizer
US6167376A (en) * 1998-12-21 2000-12-26 Ditzik; Richard Joseph Computer system with integrated telephony, handwriting and speech recognition functions
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
CN1512483A (zh) * 2002-12-27 2004-07-14 联想(北京)有限公司 一种状态转换的实现方法

Also Published As

Publication number Publication date
EP1920433A4 (en) 2011-05-04
US20070055520A1 (en) 2007-03-08
JP2009506386A (ja) 2009-02-12
CN101253548A (zh) 2008-08-27
KR20080042104A (ko) 2008-05-14
EP1920433A1 (en) 2008-05-14
WO2007027817A1 (en) 2007-03-08
BRPI0615324A2 (pt) 2011-05-17
MX2008002500A (es) 2008-04-10
RU2008107759A (ru) 2009-09-10

Similar Documents

Publication Publication Date Title
CN101253548B (zh) 将语音引擎训练结合入交互式用户教学***的方法
JP4854259B2 (ja) 音声コマンドを明瞭化する集中化された方法およびシステム
US20200175890A1 (en) Device, method, and graphical user interface for a group reading environment
KR101066732B1 (ko) 음성 문법들 내에 포함되어 있는 내용으로부터 이용 가능한음성 명령들을 포함하는 동적 도움말
KR101213835B1 (ko) 음성 인식에 있어서 동사 에러 복원
CN1279461A (zh) 改善语音识别准确性的方法和装置
KR20080031357A (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
US20140315163A1 (en) Device, method, and graphical user interface for a group reading environment
US20030216915A1 (en) Voice command and voice recognition for hand-held devices
JP5127201B2 (ja) 情報処理装置及び方法並びにプログラム
Lee Voice user interface projects: build voice-enabled applications using dialogflow for *** home and Alexa skills kit for Amazon Echo
KR101899609B1 (ko) 다양한 디바이스들과 컴퓨터화된 작업을 수행
KR101868795B1 (ko) 음향 효과 제공시스템
CN1551102A (zh) 日文及中文语音识别训练的动态发音支持
KR200486582Y1 (ko) 모바일 기기를 이용한 입체적인 독서 시스템
KR101987644B1 (ko) 낭독 효과 제공시스템
KR20170129979A (ko) 음향 효과 제공시스템
Salvador et al. Requirement engineering contributions to voice user interface
AU2020103209A4 (en) Voice commanded bracelet for computer programming
KR102453876B1 (ko) 외국어 스피킹 훈련 방법, 장치 및 프로그램
De Marsico et al. VoiceWriting: a completely speech-based text editor
JP3851621B2 (ja) 外国語学習装置、外国語学習プログラムおよび外国語学習プログラムを記録した記録媒体
KR20180074238A (ko) 음향 효과 제공시스템
Mountain Soft (a) ware in the English Classroom: Can You Here Me Now? Speech Recognition Software in Educational Settings
KR101302178B1 (ko) 학습장치에서 태그 파일을 이용하는 학습미디어의 재생 방법 및 그 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150421

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150421

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120104

Termination date: 20190829

CF01 Termination of patent right due to non-payment of annual fee