CN101218625A - 用于移动设备的使用拼写识别的字典查找 - Google Patents

用于移动设备的使用拼写识别的字典查找 Download PDF

Info

Publication number
CN101218625A
CN101218625A CNA2006800245515A CN200680024551A CN101218625A CN 101218625 A CN101218625 A CN 101218625A CN A2006800245515 A CNA2006800245515 A CN A2006800245515A CN 200680024551 A CN200680024551 A CN 200680024551A CN 101218625 A CN101218625 A CN 101218625A
Authority
CN
China
Prior art keywords
letter
user
tabulation
dictionary
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800245515A
Other languages
English (en)
Inventor
O·阿朱莱
R·胡里
Z·西范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101218625A publication Critical patent/CN101218625A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

一种用于使用由用户念出的字母表上的字母来查询电子字典的方法,所述方法包括接受来自用户的语音输入。所述语音输入包括由用户念出所拼写的字母序列,该字母序列拼写查询单词。分析所述语音输入来确定所述字母的一个或多个序列,其近似于所述所拼写的字母序列。后处理所述字母的所述一个或多个序列,以便产生近似于所述查询单词的多个所识别的单词。用所述多个所识别的单词查询电子字典,以便检索到相应的多个字典条目。向所述用户呈现结果的列表其包括所述多个所识别的单词和所述相应的多个字典条目。

Description

用于移动设备的使用拼写识别的字典查找
技术领域
本发明总体涉及语音识别***,并特别涉及用于使用口头输入来查询电子字典的方法和***。
背景技术
许多移动设备和桌面应用支持用户查询电子字典。电子字典可以包括例如提供对词或短语的定义的词库或词典。在其他应用中,双语或多语言的字典提供将词从一种语言到另一种语言的翻译。
本领域公知用于输入要在字典中查找的单词或短语的多种数据录入方法。在一些应用中,用户使用键盘或键区键入查询单词。例如,Ectaco公司(纽约,长岛市)提供了大量手持电子字典和翻译机。在www.ectaco.com/dictionaries/view_info.php3?refid=831&pagelang=23&dict_id=92描述了一种示例性的产品。其他的应用使用语音识别方法,其中,用户用读音发出查询单词。例如,Ectaco公司提供支持话音输入的被称为“UT-103 Universal Translator”的多语言翻译机。可以在www.universal-translator.net找到关于此产品的其他细节。
一些字典应用使用光学字符识别(OCR)方法用于录入查询。例如,Wizcom Technologies公司(以色列,耶路撒冷)提供被称为“Quicktionary”的翻译机和字典族。Quicktionary产品是使用OCR方法来扫描并分析打印文本的笔形手持设备。能够在www.wizcomtech.com找到关于Quicktionary产品的其他细节。使用OCR技术的另一个例子是由Elgan在2002年6月的HP World杂志(5:6),“Nothing Lost in Translation”中所描述的。也可以在www.interex.org/hpworldnews/hpw206/pub_hpw_featuresl.jsp获得此文章。根据此方法,用户使用数码相机得到所需要的单词的照片。OCR模块产生了包括该单词的字母的字符串,继而,将其用于查询字典。
大体说来,数据录入方法容易出错。因此,一些应用使用用于检测错误或减少出错的数据录入的可能性的方法。减少错误的可能性的一种方法是为相同单词使用两个或多个的不同数据录入方法。此方式有时被称为“多方式”数据录入。例如,一些语音识别应用使用来自电话键区的字母数字数据录入。此技术由Parthasarathy在“Experiments in Keypad-Aided Spelling Recognition”(2004 IEEEInternal Conference on Acoustics,Speech and Signal Processing(ICASSP 2004),加拿大,魁北克,2004年5月)中描述。作者描述了在呼叫中心应用中,用来自电话键区的输入扩张语音输入的一些方案。
另一个例子是使用键区录入用于错误检测的航班预定***,由Filisko和Seneff在“Error Detection and Recovery in Spoken DialogueSystems”(Proceedings of the Human Language Technology Conference,North American Chapter of the Association for Computation LinguisticsAnnual Meeting(HLT-NAACL 2004),Workshop on Spoken LanguageUnderstanding for Conversational Systems,马萨诸塞州,波士顿,2004年5月,31-38页)中描述。
一些应用使用字母拼写或发音拼写数据录入的模式。上面引用的Filisko和Seneff的文章也描述了“Speak and Spell”方法,其中,也请用户拼写单词作为错误恢复的措施。在美国专利6,321,196中描述了另一个应用,其中用户使用发音拼写输入目标单词。用发音拼写单词意味着用普通地理解的单词表示待拼写的单词中的每个字母。例如,可以通过说“Kilo echo yankee”来发音地拼写单词“key”。发明人描述了一种语音识别***,其中用户说出从给定的词汇表中选择的单词序列,而无需将该词汇表约束为预先指定的音标。该***识别所说出的单词,同这些单词相关联的字母,并继而,安排这些字母来形成目标单词。
在美国专利5,995,928中描述了另一种基于拼写的应用。发明人描述了一种语音识别***,能够基于连续的用户对单词的连续拼写而识别该单词。该***基于由用户发出的字母,连续地输出所假设的字母的更新的字符串。该***将所假设的字母的每个字符串同单词的词汇表进行比较,并返回对该字符串的最佳匹配。
在一些语音识别应用中,用伴随着自动识别过程的一些可选的结果呈现给用户。例如,美国专利5,027,406描述了在自然语言听写***中创建单词模型的方法。在用户口述了一个单词之后,***显示在最匹配该被说出的单词的活跃词汇表中的单词的列表。通过键盘或话音命令,用户可以从该列表中选择正确的单词,或者如果正确的单词没有在列表中,用户可以选择编辑类似的单词。可选地,用户可以键入或说出该单词的首字母。
在美国专利申请公开2002/0064257 A1中描述了另一个用户辅助方法。发明人描述了一个语音激活的拨号***,其使用DTMF(双音多频)录入设备来缩小对基于发音的名字的选择的可能结果。用户输入名字的DTMF签名,并且通过字典来使用该签名以生成对该单词适当可能的可能性。请用户来确认所建议的名字是否是所输入的名字。
发明内容
因此,根据本发明的实施方式,提供了一种使用由用户念出的字母表的字母来查询电子字典的方法。所述方法包括接受来自所述用户的语音输入,所述语音输入包括由用户念出拼出查询单词的所拼写字母的序列。分析所述语音输入来确定所述字母的一个或多个序列,其近似于所拼写的字母的所述序列。后处理所述字母的所述一个或多个序列,以便产生近似于所述查询单词的多个所识别的单词。用所述多个所识别的单词查询所述电子字典,以便检索相应的多个字典条目。向所述用户呈现结果的列表,其包括所述多个所识别的单词以及所述相应的多个字典条目。
在另一个实施方式中,分析所述语音输入包括向所述语音输入应用声学模型和语言模型的至少一个。另外地,或可选地,应用所述语言模型包括按照有限状态语法(FSG)表示所述字典的至少一部分。进一步另外地或可选地,应用所述语言模型包括基于概率语言模型向所述字母的所述序列指派概率。
在另一个实施方式中,后处理所述序列包括定义两个或多个字母分类,所述字母分类包括在所述字母表中具有类似发音的字母的子集,以及通过替换同所述查询单词的至少一个所述字母属于相同字母分类的至少一个所述字母,来构建所述字母的序列,以便产生所述多个所识别的单词。
在又一个实施方式中,查询所述字典包括接受用户命令其包括键入输入和话音命令的至少一个,以及基于所述用户命令调整所述所识别的单词之一的至少一个字母。
在又一个实施方式中,呈现所述结果的列表包括将似然性评分指派给在所述列表中的所述所识别的单词,并且基于所述似然性评分来对所述列表进行排序。另外地或可选地,呈现结果的所述列表包括将所述列表的至少一部分转换为语音输出,以及向所述用户播放所述语音输出。进一步另外地或可选地,呈现结果的所述列表包括接受用户命令其包括键入的输入和话音输入的至少一个,以及响应于所述用户命令而从头至尾滚动所述列表。
在一个实施方式中,接受所述语音输入包括经由同移动设备相关联的音频接口接收所述语音输入,所述移动设备包括移动电话、便携式计算机和个人数字助理(PDA)的至少一个,以及呈现所述列表包括经由所述移动设备的输出而提供所述列表。
在另一个实施方式中,接受所述语音输入包括从所述移动设备向远程服务器发送所述语言,所述远程服务器服务于一个或多个用户,以及呈现所述结果的列表包括从所述远程服务器向所述移动设备传送所述结果的列表,用于向所述用户呈现。
也提供了用于查询电子字典的装置和计算机软件产品。
根据本发明的实施方式,另外还提供了一种使用由用户念出的字母表的字母来查询电子字典的***。所述***包括包含存储器的远程服务器,所述存储器用于存储所述电子字典。
所述***包括一个或多个拼写处理器,用于从所述用户接受语音输入,所述语音输入包括由所述用户念出拼出查询单词的所拼写的字母的序列;分析所述语音输入,以便确定近似于所述所拼写的字母的序列的所述字母的一个或多个序列;后处理所述字母的所述一个或多个序列,以便产生近似于所述查询单词的多个所识别的单词;用所述多个所识别的单词查询存储于所述存储器中的所述电子字典,以便检索到相应的多个字典条目;以及生成结果的列表,其包括所述多个所识别的单词和所述相应的多个字典条目。
所述***也包括用户设备,包括客户端处理器,其用于从所述用户接收所述语音输入,并向所述远程服务器发送所述语音输入,以及响应于所述语音输入而接收所述结果的列表。所述用户设备包括输出设备,其用于向所述用户呈现由所述拼写处理器生成的所述结果的列表。
通过下面对本发明实施方式的详细描述,结合附图,将更充分地理解本发明,附图包括:
附图说明
图1是根据本发明的实施方式,对一种用于查询电子字典的***的示意性图示;
图2A是根据本发明的实施方式,示意性地示出了移动设备的框图;
图2B是根据本发明实施方式,示意性地示出了拼写处理器的框图;
图3是根据本发明的另一个实施方式,示意性地示出了一种用于查询电子字典的***的框图;
图4是根据本发明的又一个实施方式,示意性地示出了一种用于查询电子字典的***的框图;以及
图5是根据本发明的实施方式,示意性地示出了一种用于查询电子字典的方法的流程图。
具体实施方式
概述
本发明的实施方式提供了改进的方法和***,其允许移动设备的用户使用拼写识别来查询电子字典。作为如在传统语音识别***中实现的对查询单词发出整体读音的替代,用户逐字母地发音拼写查询单词。在移动设备中的拼写处理器捕获并处理所拼写的单词。根据预定义模型,产生可能的所识别的单词的列表。将结果的列表呈现给用户,该列表包括所识别的单词连同对应的字典条目。然后,用户能够在结果中从头至尾滚动并标识正确单词和字典条目。
在与识别整个单词的传统语音识别方法的比较中,拼写识别典型地实现了较好的识别性能。本发明的实施方式提供了一种方法和***,尤其适合不熟悉所讨论语言的用户,诸如旅行者或外国人。此类用户可能不知道单词的正确发音,但能够容易地将其拼写出。具有话语障碍的用户,其单词的发音可能难以理解,也可以从本公开的方法中获益。
另一方面,可靠的逐字母拼写识别并非无关紧要的任务,如同下面将要解释的,其引入了其他类型的错误机制。本公开的方法通过定义确定了可选的所识别单词的列表的恰当模型而解决这些错误机制。典型地,使用基于相同的错误机制和/或所使用的模型的相关性度量标准,通过相关性,而对该列表排序。
在本发明的一些实施方式中,也提供了用于移动设备的用户的快速而简单的用户界面。这些用户界面将拼写识别同键区功能和/或话音命令结合起来。此多方式功能支持由普通的用户和带有特殊需要的用户二者的对字典应用的快速而平滑的操作。
另外地,所公开的用户界面支持用户查询字典,而无需将他或她的眼睛离开所书写的文本。对于阅读用布莱叶盲文书写的文本的盲人用户,用户界面允许查询字典而无需将用户的手指从页面移开。
在所公开的实施方式中,使用文本到语音(TTS)生成器将结果的列表转换为语音,并向用户播放。此实现也特别适合于盲人用户以及适合于在操作该***的同时驱动或实现需要连续视觉关注的其他任务的用户。
在另一个实施方式中,使用分布式语音识别(DSR)在远程服务器配置中实现字典查询***。
***描述
图1是根据本发明的实施方式,对一种用于查询电子字典的***的示意性的图示。用户22使用语音24同移动设备26通信,用于查询电子字典。移动设备可以包括诸如PalmOneTM PDA产品(见www.palmone.com)之一的个人数字助理(PDA)。可选地,移动设备可以包括膝上型计算机、移动电话或具有合适的计算和I/O能力的其他设备。尽管下面描述的实施方式通过图示的方式涉及移动设备,也可将本发明的原则应用于诸如台式计算机的非移动计算设备。
移动设备典型地包括麦克风27用于接受来自用户的语音,以及键区28用于接受用户的输入。显示器30向用户呈现文本信息。在一些实施方式中,移动设备26也包括用于向用户播放合成语音的扬声器31,其也将在下面解释。
电子字典应用可以包括词库或词典,其中查询字典意味着检索到对单词的定义。可选地,字典可以包括双语或多语言字典,在这种情况下,查询字典意味着对单词从一种语言向另一种语言的翻译进行检索。另外的字典应用包括专用于特定专业规则的字典以及将短语从一种语言翻译为另一种语言的短语手册。对本领域技术人员而言其他的字典应用将变得显而易见,并且,可使用下面描述的方法加以实现。在本专利申请的上下文中,以及在权利要求书中,术语“字典”适于任何此类字典应用。术语“字典条目”指代对单词或短语的定义或翻译,也同特定的应用相关。
图2A是根据本发明的实施方式,示意性地示出了移动设备26的框图。移动设备26包括诸如麦克风27的输入设备,其接受来自用户的语音输入。语音包括查询单词或短语,由用户逐字母拼写。采样器32对语音输入采样并产生数字化的语音。拼写处理器34处理数字化的语音,并产生可能的所识别单词的列表。在下面的图5中的描述中详细地解释了若干可选的识别方法。
典型地将拼写处理器实现为软件进程,其运行在移动设备的中央处理单元(CPU)上。拼写处理器查询电子字典36,并检索到对应于所识别的单词的字典条目,所述电子字典36存储在移动设备的存储器中。典型地,拼写处理器使用诸如显示器30的输出设备显示结果的列表。另外地或可选地,输出设备包括文本到语音(TTS)生成器38,其将结果的列表或其部分转换为语音,并向用户播放。此外,在下面的图5的说明中给出了对该方法以及相关联的用户界面的详细描述。
图2B是根据本发明的实施方式,示意性地示出了拼写处理器34的框图。在一些实施方式中,将由处理器34执行的拼写识别进程分为两个连续的步骤。在处理器34中的语音识别器39接受数字化的语音。语音识别器将适当的模型应用于数字化语音,以便产生一个或多个代表可能地被识别的单词的字母序列。向每个字母序列指派一个概率值,其指示代表由用户拼写的单词的特定字母序列的概率。在一些实施方式中,作为识别进程的部分,语音识别器39查询字典36。在可选的实施方式中,由识别器39使用的模型已经包含了字典的至少一部分。
在拼写处理器36中的后处理器41接受字母序列以及来自识别器39的相关联的概率。后处理器用所识别的单词查询字典36,并产生结果的有序列表。该列表包括所识别的单词,以及这些单词的相关联的字典定义。典型地,在上面图2A中示出的本地配置和下面的图3和图4中示出的远程服务器配置中,使用在图2B中示出的拼写处理器34的配置。在一些实施方式中,将语音识别器39和后处理器41实现为由拼写处理器34管理的两个软件进程。
图3是根据本发明的实施方式,示意性地示出了一种用于查询电子字典36的远程服务器***的框图。在一些情况中,优选地使用远程服务器配置实现字典应用。在一些远程服务器配置中,将电子字典置于单一的中央位置。如本领域中所公知的,多个用户能够使用分布式语音识别(DSR)技术而查询字典。
有时,中央化的字典配置是优选地,因为它支持对较大字典的使用。大的字典,或保有大而详细的条目的字典,可能显著地超出典型的移动设备的存储器设备容量。此外,在中央化字典数据结构中维护和更新信息通常比管理分布于多个用户之间的多个字典要容易。
在图3中示出的配置包括应用服务器40。将拼写处理器34和字典36置于服务器40中。尽管图3示出了单一的拼写处理器,服务器40的典型实现包括同多个移动设备26交互的多个拼写处理器34。典型地,将多个拼写处理器实现为运行于服务器40的一个或多个CPU上的并行软件实例或线程。可以使用诸如数据库的适合于多用户访问的合适的数据结构来实现字典36。
在远程服务器配置中,移动设备26包括客户端处理器42,其经由麦克风27和采样器32(此图中未示出)接受来自用户的语音输入。处理器42压缩所捕获并数字化的语音,并且典型地,以诸如经压缩的特征向量的流的压缩形式,将其传送给在服务器40中的拼写处理器34。根据下面图5中的方法,拼写处理器解压缩该特征相量,处理该经解压缩的语音,并查询字典36。由在远程服务器配置中的拼写处理器36执行的处理,类似于在上面的图2A的本地配置中执行的处理。拼写处理器向在移动设备中的客户端处理器42发送所识别的单词的列表以及对应的字典条目。客户端处理器使用显示器30和/或TTS生成器38向用户呈现结果。客户端处理器操纵用户界面,其允许用户使用键区28和/或话音命令滚动并编辑结果的列表。此外,在下面对图5的描述中,详细地解释该用户界面。
由通信信道链接移动电话26和服务器40。使用该信道向服务器发送经压缩的语音,向移动设备发送结果的列表,以及交换各种控制信息。通信信道可以包括任何合适的介质,诸如因特网连接、电话线、无线数据网络、蜂窝网络或者若干此类介质的组合。
图4是根据本发明的又一个实施方式,示意性地示出了一种用于查询电子字典36的远程服务器***的框图。图4的配置类似于上面图3的配置,除了在图4的配置中,也在服务器和移动设备之间分离文本到语音转换功能。这里的服务器40包括TTS生成器38,在此实施方式中,其接受来自拼写处理器的结果的列表,并将其(或其部分)转换为经压缩的语音特征向量的流。继而,在通信信道上向移动设备发送经压缩的语音。在移动设备中的语音解码器解压缩并且解码所接收的特征向量,并向用户播放经解码的语音。
典型地,拼写处理器34和客户端处理器42包括通用目的计算机处理器,用软件对其编程来实现这里所描述的功能。可以电子形式在例如网络上将软件下载到计算机,或者可选地,可以在诸如CD-ROM的有形介质上将其提供给计算机。进一步可选地,拼写处理器可以是单独的单元,或者可选地,可将其同移动设备26或服务器40的其他计算功能集成。另外地或可选地,可以使用专用硬件实现拼写处理器的至少一些功能。也可将客户端处理器42同移动设备26的其他计算功能集成。
字典查询方法说明
图5是根据本发明的实施方式,示意性地示出了一种用于查询电子字典36的方法的流程图。该方法开始于在单词录入步骤50处,用户22录入查询单词或短语。为此目的,用户首先启动运行于移动设备26上的字典应用。继而,用户例如通过点击在键区28上的按钮开始语音获取过程。用户用读音逐字母地拼写查询单词。在拼写了整个单词之后,用户例如使用键区28停止语音获取过程。移动设备使用麦克风27捕获包含所拼写的字母序列的语音。采样器32数字化所捕获的语音。在另一个实施方式中,用户能够使用预定义的话音命令开始和停止语音获取过程。
(如果如上面在图3和图4中示出的使用远程服务器配置实现所公开的方法,在语音传送步骤52,客户端处理器42典型地以经压缩的特征向量的流形式向拼写处理器传送表示经压缩的语音的数据。如上面的图3和图4中示出的,在此配置中,拼写处理器是服务器40的部分。如果如上面的图2A中示出的在移动设备中本地实现该方法,则忽略步骤52。)
在语音处理步骤54,在拼写处理器34(图2B)中的语音识别器39和后处理器41处理经数字化的语音。语音识别器39分析经数字化的语音,典型地将语音分割为代表查询单词的单独字母的发音成分。在本领域中有公知的多种方法用于在有限的词汇表里标识表示发音的声音。语音识别器能够使用任何合适的方法来标识在所捕获的语音中的所拼写的字母。大部分方法无需用户特定的训练(有时被称作“用户登记”),因为在所拼写字母的读法中其词汇表较小,而且根据用户的差别性也较小。
然而,在特定情况下,诸如具有话语障碍的用户或具有较重口音的用户,对经学习的用户特定语音特性的使用可以提高识别的质量。在一些实施方式中,语音识别器39提取来自数字化语音的额外的信息,如同下面将要解释的,可将该额外的信息用于识别过程。
在一些实施方式中,语音识别器使用合适的用于向每个经标识的拼写字母指派似然性评分的声学模型。每个似然性评分量化确实由用户重复的特定字母的似然性。
语音识别器使用语言模型,其可以整体上或部分地基于正被使用的字典。使用语言模型,语音识别器响应于所捕获的输入语音而生成表示可能被识别的单词的一个或多个字母序列。
在一些实施方式中,语言模型包括表示字典的曲线图,通常将其称为有限状态语法(FSG)。例如,由Rabiner和Juang在“Fundamentalsof Speech Recognition”(Prentice Hall,1993年4月,414-416页)中描述了有限状态语法(有时也被称为有限状态网络)。FSG的节点代表字母表中的字母。(在典型的实现中,在曲线图中,字母表的每个字母出现若干次。)节点之间的弧代表在合法单词中的邻接字母。换句话说,以通过曲线图的轨迹或通路代表字典中的每个单词。
在一些实施方式中,仅将字典的部分由FSG来代表。在许多实际情况中,将基于FSG的模型用于小型到中型的词汇表和字典,典型地多至几千个单词。
当使用FSG时,语音识别器典型地将数字化语音的所拼写字母的序列同通过FSG的不同轨迹做比较。在一些实施方式中,语音识别器向轨迹指派似然性评分。语音识别器产生字母序列以及相关联的似然性评分。
在其他实施方式中,语言模型包括概率语言模型,其向词汇表中的不同字母序列指派概率。例如,由Young在“A Review ofLarge-Vocabulary Continuous-Speech Recognition”(IEEE SignalProcessing Magazine,1996年9月,45-57页)中描述了概率语言模型。典型地,当字典非常大,难以清楚地表示模型中的每个单词时,使用概率语言模型。在这些实施方式中,语音识别器39产生一个或多个同所拼写的字母序列相似的字母序列,其具有根据概率语言模型的相关联的似然性评分。
在又一个实施方式中,语音识别器表示通过按照格形(lattice)的概率语言模型产生的不同字母序列。格形是包括字母的可能序列的曲线图,具有根据概率语言模型,为每个序列所指派的相应的似然性评分。
跟随着语音识别过程,如上面所述,语音识别器39向后处理器41提供一个或多个具有相关联的似然性评分的字母序列。
在一个实施方式中,当语音识别器39使用FSG作为语言模型时,提供给后处理器41的字母序列已经是出现于字典36中的合法单词。
在另一个实施方式中,其中,如上所述,语音识别器39使用具有格形输出的概率语言模型,后处理器41选择在格形中具有最高似然性评分的字母序列的子集。因为,并非在格形中的所有可能的字母序列都必然对应于合法的字典单词,后处理器41典型地用所选择的字母序列查询字典36,并且丢弃在字典中未出现的单词。
在又一个实施方式中,其中语音识别器39使用概率语言模型,语音识别器39仅输出具有最大似然性评分的字母序列(在下面被称为最高等级序列)。如同下面所解释的,后处理器41通过使用字母分类,基于最高等级序列,构建可选字母序列的列表。
可将所拼写的字母基于其发音特性而分类为字母。在语音识别期间,可能将一些被拼写的字母误解为另一个。例如,被拼写的字母/b/、/c/、/d/、/e/、/g/、/p/、/t/、/v/和/z/都属于相同字母分类(被称为“e类”)。当拼写时,这些字母具有类似的元音读音。在一些情况中,语音识别器可能不正确地将此类字母的一个误解为另一个。类似地,语音识别器可能将属于“a类”(/a/、/h/、/j/、/k/)的字母同属于“i类”(/i/、/y/)和“u类”(/u/、/q/)的字母错误地相互交换。
典型地,将一个字母误解为另一个的概率由矩阵代表,将其称为“混淆矩阵”。将属于不同字母分类的字母相互交换的概率假定为小。当使用字母分类时,后处理器根据上面描述的字母分类,通过用读音相类似的字母替换最高等级序列的每个字母,而来构建可选的字母序列的列表。例如,通过基于混淆矩阵而计算似然性评分,典型地,后处理器对列表分等级。
例如,假设用户已经拼写出了单词“cat”,假设由语音识别器39识别的最佳等级序列是/c/、/a/和/t/。使用上面描述的字母分类,后处理器构建由[{e类}、{a类}、{e类}](即,所有9×4×9=324个三字母字符串,其中第一个字母属于e类,第二个字母属于a类,而第三个字母再次属于e类)定义的可选字母序列的列表。在一些实施方式中,可选字母序列也可以包括不同数量的字母,或者来自其他字母分类的字母。例如,也可以将查询单词“cat”识别为“beat”。
显然,在上面的例子中产生的可选字母序列中,仅有少数是有意义的单词(例如“bat”、“the”、“pad”和原始的“cat”)。大多数是无意义的字符串。也注意到,整个单词的发音可能同查询单词的发音有非常大的区别。作为一个极端的例子,单词“the”的读音同单词“cat”的读音有非常大的区别。不过,拼写处理器将这两个单词都考虑为合法的可选字母序列,因为,所拼写的序列/t/、/h/、/e/的确听起来同所拼写的序列/c/、/a/、/t/相类似。后处理器仅维护(或在最初的位置产生)对应于有意义的单词的字母序列。后处理器可以通过查询字典36,或通过使用任何合适的语法规则来在有意义和无意义的字母序列之间做出区分,其中所述语法规则是所使用的语言模型的一部分。
为了最小化错误识别的概率,拼写处理器在确定所识别的字母序列或所识别的单词的哪一个是用户输入的原本查询的单词时,可以请求用户援助。为此目的,在列表准备步骤56,后处理器准备结果的列表。在一些实施方式中,后处理器根据上面描述的语言模型之一产生结果的列表。在一些实施方式中,后处理器用适当的降序对结果的列表进行排序。典型地,如上所述,根据所使用的语言模型而确定特定被识别的单词的相关的评分。可选地,可将列表按字母表顺序,或使用任何其他合适的标准排序。
(如在上面的图3和图4中所示,如果使用远程服务器配置实现所公开的方法,在结果传送步骤58中,在服务器40中的拼写处理器34向客户端处理器42传送结果的列表。如果如上面图2A所示出的,在移动设备中本地实现该方法,则忽略步骤58。)
在呈现步骤60,拼写处理器向用户呈现结果的列表。典型地,将所识别单词的列表在移动设备的显示器30上显示为文本。用户可以使用键区28在列表中从头至尾滚动,直到他或她找到想要的查询单词,以及相对应的字典条目。可选地,仅将在列表中的第一个单词连同其字典条目一起显示。如果在结果的列表中的第一个所识别的单词是不正确的,用户可以向下滚动并选择下一个单词。根据特定的应用,以及移动设备的键区28和显示器30的能力,可以使用任何其他合适的呈现方法。此外,用户也可以使用键区在任何时候编辑所显示的所识别的单词,以便输入想要查询的单词的部分或全部。
在另一个实施方式中,使用TTS生成器38将结果的列表转换为语音,并通过扬声器31向用户播放。用户能够使用键区或者通过发出话音命令来指出,何时正在播放正确的单词。当选择了正确的单词后,TTS生成器播放相对应的字典条目。
尽管所公开的方法主要解决了在移动设备中的基于拼写的字典查找,在多种另外的应用中,也可以使用相同的方法。例如,在需要高质量的单词识别的台式或大型计算机应用中也能够使用本公开的方法。此类应用包括,例如,字典辅助服务和姓名拨号应用。
因而,应该理解上述实施方式是通过举例的方式加以引用,并且,本发明不限于已经在上面特定示出和描述的内容。而是,本发明的范围包括上述多种特征的组合和子组合二者,而且,在本领域技术人员读到前述说明书和现有技术中尚未公开的内容时,可以想到其变形以及调整。

Claims (16)

1.一种用于使用由用户念出的字母表上的字母来查询电子字典的方法,所述方法包括:
接受来自所述用户的语音输入,所述语音输入包括由所述用户念出拼出查询单词的所拼写的字母的序列;
分析所述语音输入以确定近似于所述所拼写的字母序列的所述字母的一个或多个序列。
后处理所述字母的所述一个或多个序列,以便产生近似于所述查询单词的多个所识别的单词;
用所述多个所识别的单词查询所述电子字典,以便检索相应的多个字典条目;以及
向所述用户呈现结果的列表,其包括所述多个所识别的单词以及所述相应的多个字典条目。
2.根据权利要求1所述的方法,其中分析所述语音输入包括向所述语音输入应用声学模型和语言模型中的至少一个模型。
3.根据权利要求2所述的方法,其中应用所述语言模型包括按照有限状态语法(FSG)表示所述字典的至少一部分。
4.根据权利要求2所述的方法,其中应用所述语言模型包括基于概率语言模型向所述字母的所述序列指派概率。
5.根据权利要求1到4中任一项所述的方法,其中后处理所述序列包括定义两个或多个字母分类,所述字母分类包括在所述字母表中具有类似发音的所述字母的子集,以及通过将所述查询单词的至少一个所述字母替换为与其同属于相同字母分类的至少一个字母,来构建所述字母的序列,以便产生所述多个所识别的单词。
6.根据权利要求1到5中任一项所述的方法,其中查询所述字典包括接受用户命令,所述用户命令包括键入的输入和话音命令中的至少一个,以及基于所述用户命令调整所述所识别的单词之一的至少一个字母。
7.根据权利要求1-6中任一项所述的方法,其中呈现所述结果的列表包括以下多项之一:
(i)向在所述列表上的所述所识别的单词指派似然性评分,以及基于所述似然性评分对所述列表排序;
(ii)将所述列表的至少一部分转换为语音输出,并且向所述用户播放所述语音输出;以及
(iii)包括接受用户命令,所述用户命令包括键入的输入和话音命令的至少一个,以及响应于所述用户命令,从头至尾滚动所述列表。
8.根据权利要求1到7中的任一项所述的方法,其中接受所述语音输入包括经由同移动设备相关联的音频接口接收所述语音输入,所述移动设备包括移动电话、便携式计算机和个人数字助理(PDA)的至少一个,并且其中呈现所述列表包括经由所述移动设备的输出提供所述列表,和/或
从所述移动设备向远程服务器发送所述语音输入,所述远程服务器服务于一个或多个用户,并且其中呈现所述结果的列表包括从所述远程服务器向所述移动设备传送所述结果的列表,用于向所述用户呈现。
9.一种用于使用由用户念出的字母表上的字母来查询电子字典的装置,所述装置包括:
存储器,其用于存储所述电子字典;
拼写处理器,其用于从所述用户接受语音输入,所述语音输入包括由所述用户念出拼出查询单词的所拼写的字母的序列;分析所述语音输入,以便确定近似于所述所拼写的字母的序列的所述字母的一个或多个序列;后处理所述字母的所述一个或多个序列,以便产生近似于所述查询单词的多个所识别的单词;用所述多个所识别的单词查询存储于所述存储器中的所述电子字典,以便检索到相应的多个字典条目;以及生成结果的列表,其包括所述多个所识别的单词和所述相应的多个字典条目;以及
输出设备,用于向所述用户呈现由所述拼写处理器生成的所述结果的列表。
10.根据权利要求9所述的装置,其中所述拼写处理器包括语音识别器,其用于应用声学模型和语言模型的至少一个,以便分析所述语音输入。
11.根据权利要求10所述的装置,其中所述语言模型包括表示所述字典的至少一部分的有限状态语法(FSG),
概率语言模型,并且其中所述语音识别器用于基于所述概率语言模型向所述所识别的单词指派概率。
12.根据权利要求9到11中任一项所述的装置,其中所述拼写处理器用于定义两个或多个字母分类,所述字母分类包括在所述字母表中具有类似读音的所述字母的子集;以及通过将所述查询单词的至少一个所述字母替换为与其同属于相同字母分类的至少一个字母,来构建所述字母的序列,以便产生所述多个所识别的单词;或者
所述拼写处理器用于接受用户命令,所述用户命令包括键入的输入和话音命令中的至少一个,以及基于所述用户命令调整所述所识别的单词之一的至少一个字母;
所述拼写处理器用于向在所述结果的列表上的所述所识别的单词指派似然性评分,以及基于所述似然性评分对所述列表进行排序。
13.根据权利要求9到12中的任一项所述的装置,其中所述输出设备包括文本到语音转换器,其用于将所述列表的至少一部分转换为语音输出,以及向所述用户播放所述语音输出。
14.根据权利要求9到13中的任一项所述的装置,其中所述拼写处理器用于经由同移动设备相关联的音频接口接收所述语音输入,所述移动设备包括移动电话、便携式计算机和个人数字助理(PDA)中的至少一个,以及用于经由所述移动设备的输出来提供所述结果的列表。
15.一种用于使用由用户念出的字母表上的字母来查询电子字典的***,所述***包括:
远程服务器,包括:
存储器,用于存储所述电子字典;以及
一个或多个拼写处理器,其用于从所述用户接受语音输入,所述语音输入包括由所述用户念出拼出查询单词的所拼写的字母的序列;分析所述语音输入,以便确定近似于所述所拼写的字母的序列的所述字母的一个或多个序列;后处理所述字母的所述一个或多个序列,以便产生近似于所述查询单词的多个所识别的单词;用所述多个所识别的单词查询存储于所述存储器中的所述电子字典,以便检索相应的多个字典条目;以及生成结果的列表,其包括所述多个所识别的单词和所述相应的多个字典条目;以及
用户设备,包括:
客户端处理器,其用于从所述用户接收所述语音输入,并向所述远程服务器发送所述语音输入,以及响应于所述语音输入而接收所述结果的列表;以及
输出设备,其用于向所述用户呈现由所述拼写处理器生成的所述结果的列表。
16.一种用于使用由用户念出的字母表上的字母来查询电子字典的软件产品,所述产品包括在其中存储了程序指令的计算机可读介质,当由计算机读取时,所述计算机指令引起所述计算机:接受来自所述用户的语音输入,所述语音输入包括由所述用户念出拼出查询单词的所拼写的字母的序列;分析所述语音输入,以便确定近似于所述所拼写的字母的序列的所述字母的一个或多个序列;后处理所述字母的所述一个或多个序列,以便产生近似于所述查询单词的多个所识别的单词;用所述多个所识别的单词查询所述电子字典,以便检索相应的多个字典条目;生成结果的列表,其包括所述多个所识别的单词和所述相应的多个字典条目;并且输出由所述拼写处理器生成的所述结果的列表用于向所述用户呈现。
CNA2006800245515A 2005-07-07 2006-05-12 用于移动设备的使用拼写识别的字典查找 Pending CN101218625A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/176,154 2005-07-07
US11/176,154 US20070016420A1 (en) 2005-07-07 2005-07-07 Dictionary lookup for mobile devices using spelling recognition

Publications (1)

Publication Number Publication Date
CN101218625A true CN101218625A (zh) 2008-07-09

Family

ID=36617037

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800245515A Pending CN101218625A (zh) 2005-07-07 2006-05-12 用于移动设备的使用拼写识别的字典查找

Country Status (6)

Country Link
US (1) US20070016420A1 (zh)
EP (1) EP1905001A1 (zh)
CN (1) CN101218625A (zh)
BR (1) BRPI0613699A2 (zh)
CA (1) CA2613154A1 (zh)
WO (1) WO2007006596A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722525A (zh) * 2012-05-15 2012-10-10 北京百度网讯科技有限公司 通讯录人名的语言模型建立方法、语音搜索方法及其***
CN105096945A (zh) * 2015-08-31 2015-11-25 百度在线网络技术(北京)有限公司 一种终端的语音识别方法和装置
CN105531758A (zh) * 2014-07-17 2016-04-27 微软技术许可有限责任公司 使用外国单词语法的语音识别
CN107195306A (zh) * 2016-03-14 2017-09-22 苹果公司 识别提供凭据的语音输入
CN110019667A (zh) * 2017-10-20 2019-07-16 沪江教育科技(上海)股份有限公司 一种基于语音输入信息的查词方法及装置
CN111859920A (zh) * 2020-06-19 2020-10-30 北京国音红杉树教育科技有限公司 单词拼写错误的识别方法、***及电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756063B2 (en) * 2006-11-20 2014-06-17 Samuel A. McDonald Handheld voice activated spelling device
US8195456B2 (en) * 2009-12-04 2012-06-05 GM Global Technology Operations LLC Robust speech recognition based on spelling with phonetic letter families
US10586537B2 (en) * 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances
CN113053362A (zh) * 2021-03-30 2021-06-29 建信金融科技有限责任公司 语音识别的方法、装置、设备和计算机可读介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4890230A (en) * 1986-12-19 1989-12-26 Electric Industry Co., Ltd. Electronic dictionary
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US6047257A (en) * 1997-03-01 2000-04-04 Agfa-Gevaert Identification of medical images through speech recognition
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US6321196B1 (en) * 1999-07-02 2001-11-20 International Business Machines Corporation Phonetic spelling for speech recognition
DE19944608A1 (de) * 1999-09-17 2001-03-22 Philips Corp Intellectual Pty Erkennung einer in buchstabierter Form vorliegenden Sprachäußerungseingabe
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6304844B1 (en) * 2000-03-30 2001-10-16 Verbaltek, Inc. Spelling speech recognition apparatus and method for communications
CN1462537A (zh) * 2000-09-25 2003-12-17 雅马哈株式会社 便携终端装置
US6728348B2 (en) * 2000-11-30 2004-04-27 Comverse, Inc. System for storing voice recognizable identifiers using a limited input device such as a telephone key pad
WO2002049004A2 (de) * 2000-12-14 2002-06-20 Siemens Aktiengesellschaft Verfahren und anordnung zur spracherkennung für ein kleingerät
US7225130B2 (en) * 2001-09-05 2007-05-29 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US7152213B2 (en) * 2001-10-04 2006-12-19 Infogation Corporation System and method for dynamic key assignment in enhanced user interface
EP1396840A1 (de) * 2002-08-12 2004-03-10 Siemens Aktiengesellschaft Verfahren zur Spracherkennung von buchstabierten Worten
EP1614102A4 (en) * 2002-12-10 2006-12-20 Kirusa Inc VOICE ENTRY DESAMBIGUATION TECHNIQUES BASED ON THE USE OF MULTIMODAL INTERFACES
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722525A (zh) * 2012-05-15 2012-10-10 北京百度网讯科技有限公司 通讯录人名的语言模型建立方法、语音搜索方法及其***
CN105531758A (zh) * 2014-07-17 2016-04-27 微软技术许可有限责任公司 使用外国单词语法的语音识别
US10290299B2 (en) 2014-07-17 2019-05-14 Microsoft Technology Licensing, Llc Speech recognition using a foreign word grammar
CN105096945A (zh) * 2015-08-31 2015-11-25 百度在线网络技术(北京)有限公司 一种终端的语音识别方法和装置
CN107195306A (zh) * 2016-03-14 2017-09-22 苹果公司 识别提供凭据的语音输入
CN110019667A (zh) * 2017-10-20 2019-07-16 沪江教育科技(上海)股份有限公司 一种基于语音输入信息的查词方法及装置
CN111859920A (zh) * 2020-06-19 2020-10-30 北京国音红杉树教育科技有限公司 单词拼写错误的识别方法、***及电子设备
CN111859920B (zh) * 2020-06-19 2024-06-04 北京国音红杉树教育科技有限公司 单词拼写错误的识别方法、***及电子设备

Also Published As

Publication number Publication date
US20070016420A1 (en) 2007-01-18
CA2613154A1 (en) 2007-01-18
EP1905001A1 (en) 2008-04-02
BRPI0613699A2 (pt) 2011-01-25
WO2007006596A1 (en) 2007-01-18

Similar Documents

Publication Publication Date Title
CN101218625A (zh) 用于移动设备的使用拼写识别的字典查找
US8185539B1 (en) Web site or directory search using speech recognition of letters
US8275618B2 (en) Mobile dictation correction user interface
Wang et al. An introduction to voice search
JP4880258B2 (ja) 信頼性スコアを使用した自然言語コール・ルーティングのための方法および装置
US8364487B2 (en) Speech recognition system with display information
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
US20030187649A1 (en) Method to expand inputs for word or document searching
US20060149551A1 (en) Mobile dictation correction user interface
JP2011254553A (ja) 小型キーパッド用日本語入力メカニズム
US6990445B2 (en) System and method for speech recognition and transcription
KR20080024752A (ko) 채팅 에이전트를 위한 대화 관리 장치 및 그 방법
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
JP4724051B2 (ja) キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体
CN1359514A (zh) 多模式数据输入设备
TW201409462A (zh) 語意辨識方法
JP2012168349A (ja) 音声認識システムおよびこれを用いた検索システム
US20050125224A1 (en) Method and apparatus for fusion of recognition results from multiple types of data sources
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP2008216461A (ja) 音声認識・キーワード抽出・知識ベース検索連携装置
CN111429886B (zh) 一种语音识别方法及***
US20080162144A1 (en) System and Method of Voice Communication with Machines
EP1895748B1 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080709