CN1551102A

CN1551102A - 日文及中文语音识别训练的动态发音支持

Info

Publication number: CN1551102A
Application number: CNA2004100434524A
Authority: CN
Inventors: ��ʳ�; 朱允诚; 洪小文; K·森竹
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-05-01
Filing date: 2004-04-30
Publication date: 2004-12-01
Also published as: EP1475776A1; KR20040094634A; EP1475776B1; MXPA04004142A; CA2463572A1; DE602004001280T2; JP2004334207A; US20040236581A1; BRPI0401664A; AU2004201480A1; ATE331276T1; RU2004113568A; RU2344492C2; DE602004001280D1

Abstract

本发明提供一种用于以汉字为基础的语言的语音识别训练***。该***为每一个训练讲话中的象形文字加载一发音帮助(232)，但实际上并不显示出象形文字除非训练***识别出发音困难。一旦识别出发音困难则为该困难象形文字显示出相关的发音帮助(卢比)(232)。

Description

日文及中文语音识别训练的动态发音支持

(1)技术领域

本发明涉及图形识别。本发明特别涉及对训练现代语音识别***的改进。

(2)背景技术

通常训练语音识别***是为了提高其识别口语的能力。在训练的过程中，训练者将会给语音识别***读或者提供相当大数量的语音。提供给***的语音是已知的，因而训练者的已知语音说话方式可以用来调节用于语音识别的数学模式以提高准确度。通常在训练中提供给语音识别***的语音越多接下来的语音识别就越准确。

因此，训练语音识别***的过程将需要一段时间。在声模型训练过程中能让训练者尽可能长久感觉舒适是很重要的。远东的语言，诸如日语及国语在这方面尤其需要努力。现代日文象中文一样是大量用汉字书写***慢慢书写的。汉字(或中文字)为代表发音和含义的象形文字，有时会给使用者带来发音的问题。发展出称作卢比(rubi)(日文的假名，中文的拼音)的发音辅助为此目的提供发音标识。现在，在用于以汉字为基础的语言的语音识别训练中，一给定单词的卢比显示在每一语音训练需要的单词上显示给定单词的卢比。因此，同时显示出给训练者读的语音及相关的卢比就会比较杂乱。另外，相信显示出每一个单词的卢比实际上会惹恼那些在训练期间知道绝大部分单词发音的训练者。

提供在帮助中文及日文字发音的同时简化训练显示并不惹恼训练者的语音识别训练对话将为用于诸如中文及日文的以汉字为基础的语言的语音识别训练带来重大的进步。另外，这样一个***将会提高训练者更长时间更准确地训练的能力，籍此提高语音***的整体语音识别。经提高的识别将进一步改善用户对语音识别***的整体印象。

(3)发明内容

提供一种用于以汉字为基础的语言的语音识别训练***。该***载有训练语音中为每一象形文字提供的发音帮助，但实际上并不显示出象形文字，除非训练***识别出一发音困难。一旦识别出发音困难，则显示出与遇到问题的象形文字相关的发音帮助(卢比)。

(4)附图说明

图1为可实施的本发明的计算环境的方框图。

图2可实施本发明的另一计算环境的方框图。

图3为已有技术的语音识别训练用户接口的简图。

图4为本发明一实施例的语音识别训练用户接口的简图。

图5为本发明一实施例的语音识别训练用户接口的简图。

图6为本发明一实施例的语音训练中有选择地帮助发音的方法的方框图。

(5)具体实施方式

图1示出可实施本发明的合适的计算***环境100的例子。该计算***环境100仅仅是合适的计算环境的例子而并不意味着对本发明的使用范围或功能性的任何限定。计算环境100不能被解释成或对于示例的操作环境100中示出的任一元件或其组合存在依赖性或条件。

本发明是与众多其它通用或特殊用途计算***环境或结构一起操作的。可与本发明一起使用的已知计算***、环境、和/或结构的例子包括但不限于个人计算机、服务器计算机、手提或膝上装置、多处理器***、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人计算机、微型计算机、大型计算机、电话技术***、包含任何以上***或装置的分布式的计算环境、等等。

可以在可执行计算机命令(例如：由计算机执行的程序模块)的总的环境中描述本发明。程序模块一般包含例行程序、程序、对象、部件、数据结构、等等执行特殊任务或实施特别的抽象的数据类型。本发明也可实施于任务由通过通信网络连接的远端处理装置执行的分布式计算环境。在一分布式计算环境中，程序模块可以处在本地的和远端的包含存储装置的远端计算机存储媒体中。

图1示出一实施本发明的包括以计算机110形式出现的通用计算装置的示例***。计算机110的元件可包括但不限于中央处理单元120、***存储器130、将包括***存储器的多种***元件耦合到处理单元120的***总线121。

所述***总线121可以是几种总线结构中的任一种，包含存储器总线或存储器控制装置、***总线和使用多种总线结构中任一种的本地总线。作为示例而非限定，这些结构包含工业标准结构(ISA)总线、微通道结构(MCA)总线、扩展工业标准结构(EISA)总线、视频电子标准协会(VESA)本地总线和周边元件互连接口(PCI)总线也称夹层总线。

计算机110通常包含多种计算机可读媒体。计算机可读媒体可以是可以由计算机110存取的任何媒体并包含易失性和非易失性媒体、可换及不可换媒体。作为示例而非限定，计算机可读媒体可包括计算机存储媒体和通信媒体。计算机存储媒体包含实施于任何用于存储诸如计算机可读命令、数据结构、程序模块或其它数据的信息存储的方法或技术的易失性和非易失性媒体、可换及不可换媒体。计算机存储媒体包含但不限于RAM、ROM、EEPROM、闪速存储器或其它存储器技术、CD-ROM、数字通用光盘或其它光盘存储、磁带盒、磁带、磁盘存储器或其它磁存储装置或其它任何一种可用于存储所需信息并可由计算机110存取的媒体。通信媒体通常实施计算机可读命令、数据结构、程序模块或经调制的数据信号中的其它数据，例如：载波或其它传输机制并包含任何信息传送媒体。经调制的数据信号的意思是一个信号的一个或多个特性被以信号中信息编码的方式调整或改变。作为示例而非限定，通信媒体包含诸如有线网络或直接有线连接的有线媒体和诸如声波、RF、红外线的无线媒体和其它无线媒体。上述的组合也应包括在计算机可读媒体的范围内。

***存储器130包含以诸如只读存储器(ROM)131和随机存取存储器(RAM)132的易失和/或非易失性存储器形式出现的存储媒体。通常在ROM131存储包含例如启动时帮助在计算机110中的元件间传送信息的基本例行程序的基本输入/输出***133(BIOS)包含。RAM132通常包含可立即存取并且/或者当前由处理单元120操作的数据和/或程序模块。作为示例而非限定，图1示出操作***134、应用程序135、其它程序模块136和程序数据137。

计算机110也可包含其它可换/不可换、易失性/非易失性计算机存储媒体。仅作为示例，图1示出读取或写入不可换、非易失性磁媒体的硬盘驱动器141，读取或写入可换、非易失性磁盘152的磁盘驱动器151、读取或写入可换、非易失性磁盘156(例如CD ROM或其它光学媒体)的光盘驱动器155，。其它可用于示例的操作环境的可换/不可换、易失性/非易失性计算机存储媒体包含但不限于磁带盒、闪速存储卡、数字通用光盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过一个诸如接口140的不可换存储接口连接到***总线121，硬盘驱动器151和光盘驱动器155通常通过诸如接口150的可换存储接口连接到***总线121。

以上讨论的及图1示出的驱动器及与其相联系的计算机存储媒体提供了计算机可读命令的存储、数据结构、程序模块和用于计算机110的其它数据。例如在图1中硬盘驱动器141图示为存储操作***144、应用程序145、其它程序模块146及程序数据147。注意这些元件既可与操作***134、应用程序135、其它程序模块136及程序数据137相同也可与之不同。这里将操作***144、应用程序145、其它程序模块146及程序数据147标以不同的号码是为了表示它们至少是不同的版本。

用户可以通过诸如键盘162、麦克风163的输入装置和诸如鼠标跟踪球或触摸板的点击设备将命令和信息输入计算机110。其它输入装置(未示出)可包含操纵杆、游戏盘、圆盘式***天线、扫描仪等等。这些及其它输入装置常常通过耦合至***总线的用户输入接口160连接到处理单元120，但可以由其它接口或诸如并行端口、游戏端口或通用串行总线(USB)的总线结构连接。监视器191或其它类型的显示装置也经过诸如视频接口190的接口连接至***总线121。除了监视器之外，计算机还可包含其它诸如扬声器197、打印机196的可通过输出***接口190连接的***输出设备。

计算机110可在一个使用到对一个或多个诸如远端计算机180的远端计算机逻辑连接的联网环境中操作。远端计算机180可以是个人计算机、手提装置、服务器、路由器、PC网络、同级设备或其它常用网络节点并通常包含许多或所有以上对计算机110说明的元件。图1所示的逻辑连接包含局域网(LAN)171和广域网(WAN)173，但也包含其它网络。这些网络环境在办公室、企业范围网、企业内部互联网和互联网中是很平常的。

在用于局域网联网环境时，计算机110由网络接口或路由器170连接至局域网170。在用于广域网联网环境时，计算机110通常包含调制解调器172或其它用于在诸如互联网络的广域网173上建立通信的装置。调制解调器172可以是内置的或外置的，可以通过用户输入接口160或其它适合的机构与***总线121相连。在联网环境中，以上描述的与计算机110相关的程序模块或其一部分可以存储在远端存储装置。作为示例而非限定，图1示出位于远端计算机180上的远端应用程序185。可以理解图示的网络连接是示例，还可以使用建立计算机间通信连接的其它手段。

图2为移动装置200的方框图，它是计算环境的示例。移动装置200包含微处理器202、存储器204、输入/输出(I/O)元件206和用于与远端计算机或其它移动装置通信的通信接口208。在一个实施例中，上述元件之间通过合适的总线210互相耦合。

存储器204是作为诸如带有电池备份模块(未示出)的随机存取存储器(RAM)这样的非易失性电子存储器实现的，该模块使向移动装置200供电的总电源关闭时存在存储器204中的信息就不会丢失。存储器204的一部分最好分配成用于执行程序的可寻址的存储器而存储器204的另一部分最好用于存储以模拟盘驱动器上的存储。

存储器204包括操作***212、应用程序214及目标存储216。在操作中，最好处理器202从存储器204执行操作***212。在一较佳实施例中，操作***212是市场上可从微软公司购得的WINDOW^CE牌操作***。操作***最好是为移动装置设计的，并且实现应用程序214可通过一套外露应用编程接口和方法由利用的数据库特性。目标存储216中的目标由应用程序214及操作***212维护，至少部分响应对外露应用编程接口和方法的调用。

通信接口208代表允许移动装置200发送和接收信息的众多装置和技术。这些装置包括有线和无线调制解调器、***、广播调谐器等等。移动装置200也可直接连接至计算机以与之交换数据。在这些例子中，通信接口208可以是红外线接收器或串行或并行通信连接，它们都可以传送流信息。

输入/输出元件206包括诸如触摸屏、按键和麦克风的多种输入装置和包含声音发生器、振动装置和显示器的多种输出装置。上面列出的装置只是示例不需要都出现在移动装置200上。另外，在本发明的范围内其它输入/输出装置可以附加在移动装置200上或在该装置上找到。

本发明的一个方面使用了用户接口元件，它只动态显示训练者发音有困难的字的卢比。这一新UI元件204为日本及中国用户提供更友好更舒适的训练对话。图3示出了根据已有技术的用户接口元件。以前，在显示一个句子给训练者读之前，提示文件显示用户接口模块230为所有字准备卢比232然后将所有卢比232与整个句子一同显示。接着已有技术用户接口元件230等待来自语音识别引擎的通知，以加亮说出的字，显示进展，并在检测到任何拒绝或不成熟的长时间停顿时重新造出新的免去上下文的语法以继续适应句子的其余部分。

根据本发明的一个主要的方面，用户接口模块240准备卢比但并不显示任何卢比。这样，训练者在他们开始每一页新的训练文本的时只看见句子本身。图4示出状况。随着用户接口模块240继续处理该句子，模块240在每观察到一个发音困难(语音识别拒绝或长时间停顿标识)时就会在离困难字最近处显示卢比。模块240最好包含用于显示一定数量训练文本的训练文本部分244。模块240也包括用于接收来自语音识别引擎248的通知的通信通道246。以前，语音识别引擎只会简单地提供一个经识别的字的指示，使训练者适时地得到提示以继续读下去。然而，模块240使用具有识别引擎248的通信通道来接收发音困难的通知。作为响应，模块240有选择地在训练者遇到发音困难的字上显示卢比。因此，完全有可能如果训练者能无任何发音困难地读出所有文本则显示可以不被卢比干扰或中断。相信这样将为训练者提供最简单最有效的语音训练显示。

图5示出训练者在语音训练中遇到发音困难的情形。用户接口模块240按需要显示卢比。在这种情形下，训练者不知道字的正确发音，因此语音识别引擎生成一拒绝通知并由用户接口模块240接收。现在用户接口模块240以指出困难字的发音并使训练者可继续的方式将该字的卢比242仔细地显示出来。

图6为根据本发明的一个方面的有选择地显示以汉字为基础的训练文本的方法的流程图。尽管在方框300训练文本的所有卢比都加载到***存储器，在方框300中用户接口模块一开始将不显示卢比。在方框302语音识别检测到一发音困难。例如这种困难包括停顿或错误发音。然而，根据本发明的实施例也可以使用其它合适的可检测的发音困难。

在方框302语音识别模块(未示出)将检测到的发音困难通知用户接口模块240。随后将控制传递到方框304，在那里用户接口模块确定训练者是否已完成训练页。如果训练页已经完成，控制沿路线306传递且该页的训练完成。然而，如沿路线308所示如果该页还没有由训练者完成，就如方框310指示的那样用户接口模块将为训练文本中的下一个字显示卢比。一旦显示了卢比，控制返回至方框302且重复该方法。

尽管参照了特殊的实施例来描述本发明，本技术领域的技术人员将认识到可不偏离本发明的精神和范围地作对形式和细节上的改变。例如：虽然原文中所述的发音帮助是广本(卢比)，也可以动态地提供诸如正确发音的录音的其它合适的发音帮助。

Claims

1.用于语音识别训练的用户接口模块，其特征在于，该模块包含：

一用于显示训练文本的训练文本部分；

一从与训练文本中困难词相关的语音识别引擎接收发音困难指示的可与语音识别引擎相耦合的通信通道；

一配置成响应发音困难指示帮助困难词发音的有选择地显示的发音帮助。

2.如权利要求1所述的模块，其特征在于，所述有选择的发音帮助为卢比。

3.如权利要求1所述的模块，其特征在于，所述训练文本包含至少一个象形文字。

4.如权利要求3所述的模块，其特征在于，所述训练文本以中文书写。

5.如权利要求3所述的模块，其特征在于，所述训练文本以日文书写。

6.如权利要求1所述的模块，其特征在于，所述发音帮助显示在困难字上方。

7.一种训练语音识别***的方法，其特征在于，所述方法包含：

以至少一个象形文字的形式加载一定数量的训练文本；

显示没有发音帮助的训练文本；

接收一个在训练文本中与困难字相关的发音困难通知；且

有选择地提供与困难字相关的发音帮助。

8.如权利要求7所述的方法，其特征在于，所述提供发音帮助包括显示卢比来辅助困难字的发音。

9.如权利要求7所述的方法，其特征在于，所述训练文本以中文书写。

10.如权利要求7所述的方法，其特征在于，所述训练文本以日文书写。

11.如权利要求7所述的方法，其特征在于，所述通知从一语音识别引擎接收。

12.如权利要求7所述的方法，其特征在于，所述发音困难包括停顿。

13.如权利要求7所述的方法，其特征在于，所述发音困难包括错误发音。