CN101669116A - 用于生成亚洲语字符的识别体系结构 - Google Patents

用于生成亚洲语字符的识别体系结构 Download PDF

Info

Publication number
CN101669116A
CN101669116A CN200880013543A CN200880013543A CN101669116A CN 101669116 A CN101669116 A CN 101669116A CN 200880013543 A CN200880013543 A CN 200880013543A CN 200880013543 A CN200880013543 A CN 200880013543A CN 101669116 A CN101669116 A CN 101669116A
Authority
CN
China
Prior art keywords
character
speech
spelling
user
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880013543A
Other languages
English (en)
Other versions
CN101669116B (zh
Inventor
S-Z·郭
K·E·弗里吉
Y·宫
T·美和
A·奇特拉普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101669116A publication Critical patent/CN101669116A/zh
Application granted granted Critical
Publication of CN101669116B publication Critical patent/CN101669116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种用于在亚洲语言语音识别***中纠正不正确的识别结果的体系结构。可以响应于接收到语音输入来启动一种拼写模式,该拼写模式用于纠正识别结果的不正确的拼写或生成新词。纠正可以通过语音和/或手动选择和输入来获得。该体系结构方便单遍纠正,而非像常规***中那样多次纠正。使用该拼写模式来纠正的词是作为一个单元来纠正的并且被当作词。该拼写模式至少适用于亚洲大陆的语言,如简体中文、繁体中文、和/或诸如日文等其它亚洲语言。

Description

用于生成亚洲语字符的识别体系结构
背景
用于英文的语音识别(SR)引擎需要拼写向导,主要是因为引擎词典中不能够包括所有或基本上所有合适的名词,尤其是名字。另一方面,中文字符集可被认为是闭合的,因为所有字符都包括在词典中。不必考虑或担忧词汇外的字符。然而,中文SR引擎的主要问题是跨多个不同字符的同音字共享。有大约47,000个有效的中文字符,但中文中只有大约1600个不同但固定的音节。这意味着,如果这些音节跨不同的字符平均分布,每一音节可对应于大约23-31个不同的字符,这些字符中的许多都表示不同的事物。
固定音节是与有效中文字符相关联的音节集合。例如,音节“chu”对应于像“出初處……”(其拼音是/ch uh/)等字符,但不存在对应于任何有效字符的“chiu”。因为固定音节的有限数量,所以存在大量的共享同一发音的字符。以下是共享同一发音/l ih/的54个字符的一个示例;并且/l ih/的列表仍然不全面:
力利立麗例莉歷俐勵厲曆栗笠粒蒞隸儷吏壢屴慄戾櫪瀝琍瓅痢癘苙荔蝷釙靂蝷釙靋礪鬲鷅丽俪凓励历厉厤厯呖唎娳婯悧捩攭……
因此,在引擎未能正确识别一个词时,用户可以尝试从备选列表中纠正它,或尝试重复说出所需的词以供识别,但这由于以下问题而不成功。
第一,如果声学模型(AM)未正确处理语音音频或AM对所需的词具有比其它词更低的相关性分数,而其它词具有更高的语言模型(LM)分数,则不管用户说出该词多少次,输出可能都不是来自备选列表的正确的词。
第二,假定发声的音频被AM正确地处理,但如果所需字符在超过备选项的数量的列表项中并且未被呈现给用户,则用户将不能在不键入的情况下获得该词。这可能发生在中文中,尤其是在字符还是数字或数的同音字时,此时SR引擎还显示数的不同格式的ITN(逆文本标准化,如将“twelve”标准化成“12”)结果。
第三,即使中文SR引擎不考虑词汇外字符,但用户可以通过不同的字符的组合来创造新词。除新词之外,各词之间没有空间来标记词边界。为确定词边界,亚洲语言(至少与简体中文(CHS)、繁体中文(CHT)、和日文(JPN)相关)需要在引擎或IME(输入方法编辑器)进程中进行断词。因此,在用户向中文SR引擎口述诸如人名(该人名很可能是未知的词)等正确的名词时,SR正确地处理该名字的可能性很低,除非该名字很常见并且在训练数据中出现过。即使AM和LM完美地工作,用户仍然可能接收到与所期望的输出“劉莉”不同的具有诸如“劉麗”等字符的输出名字(焦点在于第二字符,其中第一字符是姓且第二字符是名),这是由于上述的同音字问题,即“麗”和“莉”是同音字但用作不同个人的名。对于中文对话期间的人们的感知而言也是如此,在对话中第一个人告诉第二个人他的名字,而第二个人将需要问第一个人该名字中确切地使用的是哪些字符。
最后,当用户在SR过程期间尝试纠正词中的字符时,通过选择字符和/或重复说出字符以确定正确的字符是否将最终出现在备选列表上来获得正确的输出是可能的。通常,在字符不具有许多同音字时,获得供替换的正确的词是可能的。然而,这类纠正将在单独的字符的基础上完成。在SR中将不采取这一纠正,因为SR按词而非按单个字符来学习。因此,如果用户想要在文档中多次使用这一字符,用户将需要在每次讲出该字符时都重复纠正过程。因此,常规识别过程是麻烦而且低效的。
概述
以下提出了简化概述以便提供对在此描述的某些新颖实施例的基本理解。本概述不是详尽的概览,并且它不旨在标识关键/重要的元素,也不旨在描绘其范围。其唯一的目的是以简化的形式来介绍一些概念,作为稍后提出的更为详细的描述的序言。
所公开的体系结构提供用于亚洲语语音识别算法的拼写模式。这方便确定新词的边界以及将新词添加到词典中。因此,与其中词纠正发生多次的常规***不同,基于该拼写模式,词纠正只发生一次。
具体地,在中文字符的上下文中,拼写模式方便在语音识别引擎返回不正确的口述字符时输入中文字符。使用该拼写模式来纠正的词是作为一个单元来纠正的并且被当作词。这是因为与例如其中词边界很容易识别的英文单词不同,亚洲语言中的边界不清楚。因此,通过经历拼写模式来输入中文字符(在该示例中)减少或消除了后续识别处理中对该词的误识别。
所公开的拼写模式适用于其中字符具有对应的固定发声的简体中文、繁体中文、和/或诸如日文等其它亚洲语言。
为实现上述及相关目的,本文结合下面的描述和附图描述某些说明性方面。然而,这些方面仅指示了可利用此处公开的原理的各种方法中的少数几种,且旨在包括所有这些方面及其等效方面。结合附图阅读下面的详细描述,则其它优点和新颖特征将变得显而易见。
附图简述
图1示出计算机实现的转换***。
图2示出基于在拼写/纠正过程期间所学习的新词来方便词典共享的***。
图3示出采用方便自动化一个或多个功能的推断组件的***。
图4示出可由此处公开的拼写/纠正体系结构采用的一个或多个方法。
图5示出采用词发音作为字符规范方法的***。
图6示出在用户期望亚洲语字符/词作为输出时所呈现的拼写对话框面板的屏幕截图。
图7示出在用户期望英文单词作为输出时所呈现的拼写对话框面板的屏幕截图。
图8示出所呈现的用于同音字命令处理的拼写对话框面板的屏幕截图。
图9示出响应于用于同音字纠正的语音激活命令来呈现的拼写模式对话框面板的屏幕截图。
图10示出其中响应于所发声的索引选择来纠正误识别的词并清除列表框的面板。
图11示出所呈现的用于语音发音的拼写对话框面板的屏幕截图。
图12示出所呈现的用于纠正所说出的发音的拼写对话框面板的屏幕截图。
图13示出基于对所说出的发音的纠正来呈现的具有修订的同音字列表框的拼写对话框面板的屏幕截图。
图14示出在纠正误识别的词时,并且光标移动到下一字符以对所说出的发音进行处理以使用户可以在需要时继续对该下一字符进行纠正时所呈现的拼写对话框面板的屏幕截图。
图15示出根据第二方法将正面、中性、和负面意义用于字符加权的***。
图16示出根据第三方法按所需字符的子分量的语音输入来采用词分解的***。
图17示出所呈现的用于通过平假名的语音/键入输入来进行日语识别和处理以获得日文汉字的拼写对话框面板的屏幕截图。
图18示出所呈现的用于与获得日文罗马字相关的日语识别和处理的拼写对话框面板的屏幕截图。
图19示出根据所公开的体系结构的识别语音的方法。
图20示出使用拼写向导来纠正识别结果的方法。
图21示出将语音发音转换成字符的方法。
图22示出在亚洲语和英语中使用拆分命令来进行纠正处理的方法。
图23示出在亚洲语拼写向导中使用同音字命令的方法。
图24示出将加权值应用于词意义的方法。
图25示出共享经更新的词典的方法。
图26示出将字符分解用于拼写纠正的方法。
图27A和27B示出基于用于拼写纠正的多个方法来进行纠正处理的方法。
图28示出可用于执行根据所公开的体系结构的纠正处理的计算***的框图。
图29示出了用于根据所公开的体系结构的纠正处理的示例性计算环境的示意性框图。
详细描述
此处所公开的是提供算法、数据、以及至少一个用户界面(UI)的体系结构,该用户界面包括用于亚洲语语音识别和获得新词/字符或对误识别的字符的纠正的拼写模式。
现在参考附图,附图中相同的附图标记用于指代在全文中相同的元素。在以下描述中,为解释起见,阐述了众多具体细节以提供对本发明的全面理解。然而,显然,这些新颖实施例可以在没有这些具体细节的情况下实现。在其它情况下,以框图形式示出了公知的结构和设备以便于描述它们。
首先参考附图,图1示出了计算机实现的转换***100。***100包括接收亚洲语声音或语音输入并对该输入执行识别处理的语音识别组件102。在某些情况下,识别过程会输出不正确的亚洲语字符和/或词。因此,***100还包括纠正组件104,该组件用于基于语音识别组件所输出的不正确的亚洲语字符/词和/或新亚洲语字符/词来生成正确的字符和/或词。
***100将至少在用于用户交互的UI、用于检索英语和亚洲语词并还用于提供和执行不同的命令来启动各UI面板并与其进行交互的拆分拼写面板UI、以及用于捕捉新词并确定词边界的用户拼写模式的上下文中更详细地描述。***100还在用户使用发音通过语音输入获得字符、包含所需字符的词、所需字符的子分量、通过同音字列表来选择时进行帮助,并随后从经转换的候选中选择所需字符。提供了包含存储语音***中的音素的语音距离信息的数据的数据存储,并且数据被存储在混淆矩阵表中。该信息帮助用户快速并容易地纠正误识别的发音,从而减少***犯同样错误的可能性。
提供了包含具有每一字符的使用频率以及字符可以存在于其中的诸如人名、公司名等可能类别的数据的数据存储。因此,在检测到关键词时,将触发对应的类别并且在列表中会将用于该类别的字符推得更高。读取词中的关键字符并重新调整字符列表,以使所需字符在列表顶部出现,因为其余的纠正也是此处公开的方法的一部分。
***100通过使用包含所需字符的词来进行语音输入以方便获得字符,并还通过检查字符的子分量来以方便获得字符。***100的UI处理同音字命令,以获得正确的词并避免重新输入发音。用户还可以共享新词的词典,并发送回新词以供评估和更新不同的词典。此外,其它亚洲语语音输入(例如日文)可以在多个(例如四个)不同的书写***之间切换。
图2示出基于在纠正过程期间所学习的新词来方便词典共享的***200。***200包括图1的语音识别组件102和拼写/纠正组件104。然而,纠正组件104的输出馈送回识别组件102以更新内部词典122。然而,注意,词典202可以在识别组件102的外部。
如在常规识别***中一样,***200还可包括语言模型(LM)204和声学模型(AM)206。LM 204(或语法文件)包含词序列的概率集合。AM206基于语音数据及其转录来以音素的形式表征词的声学行为。AM 206基于从语音音频信号生成的特征向量来对语言的声音单元进行建模。识别组件102处理从LM 204和AM 206接收到的输入以提供最佳输出。然而,如所示的,在诸如亚洲语言识别处理等复杂应用程序中,提供正确的结果并随后解决不正确的结果会是一个挑战。因此,在得到经纠正的结果时,更新(或改进)词典202是有好处的。这些更新在这样的复杂应用程序中可能是很重要的。因此,在适当的安全检查就位的情况下,共享组件208方便与其它优化或***和/或词典供应商来共享诸如词典202等信息,以分发新词典语料库。这将在此处更详细地描述。
图3示出采用方便自动化一个或多个功能的推断组件302的***300。例如,不仅可以基于用户(例如用户简档)还可以基于组件302所学习和推理的语音和纠正活动来做出推断。考虑用户对英文远远比中文更精通,则推断组件302随时间学习到用户通常有与特定中文字符相关联的语音识别错误。因此,推断组件302可以在预测到用户犯同样错误的情况下,通过呈现拼写模式界面对发音界面来自动化UI的功能以更有效地帮助该用户。
在另一示例中,可能学习到,比起所提供的任何其它模式,用户通常偏好使用拼写模式。因此,在遇到选择一种方法来进行纠正时,组件302将自动地呈现拼写模式UI。这些只是可以基于学习和推理所作出的许多推断中的几个示例,学习和推理不仅对于用户交互,还对于往往基于特定输入准则而重复发生的***进程。
推断组件302可以采用机器学习和推理(MLR)例如来监控、分析、计算、以及使用所学习和推理的结果。本发明的体系结构(例如,结合选择)可采用各种基于MLR的方案来实现其各个方面。例如,用于确定选择和呈现哪个字符或词中的哪个字符的过程可以经由自动分类器***和进程来促进。
分类器是将输入属性向量x=(x1,x2,x3,x4,xn)映射到类标签class(x)的函数。分类器也可以输出输入属于一个类的置信度,即f(x)=confidence(class(x))。这样的分类可采用概率性的和/或其它统计性的分析(例如,分解成分析效用和成本以最大化对一人或多人的期望值)来预测或推断用户期望自动执行的动作。
如此处所使用的,术语“推断”和“推论”通常是指从经由事件和/或数据捕捉的一组观察结果来推理或推断***、环境和/或用户的状态的过程。例如,推断可用于标识特定的上下文或动作,或可生成状态的概率分布。推断可以是概率性的,即,推断是基于对数据和事件的考虑的对所关注状态的概率分布的计算。推断也可以指用于从一组事件和/或数据组成更高级事件的技术。这类推断导致从一组观察到的事件和/或存储的事件数据中构造新的事件或动作,而无论事件是否在相邻时间上相关,也无论事件和数据是来自一个还是若干个事件和数据源。
支持向量机(SVM)是可采用的分类器的一个示例。SVM通过在可能的输入空间中找出以最优方式将触发输入事件和非触发事件分离开来的超曲面来操作。直观上,这使得分类对于接近但不等同于训练数据的测试数据正确。可采用其它定向和非定向模型分类方法,包括,例如,各种形式的统计回归、朴素贝叶斯、贝叶斯网络、决策树、神经网络、模糊逻辑模型以及表示不同独立性模式的其它统计分类模型。如此处所使用的分类也包括用于分派排名和/或优先级的方法。
如从本说明书中可以容易地理解的,本发明的体系结构可以使用显式训练(例如,经由一般训练数据)以及隐式训练(例如,经由观察用户行为、接收外来信息)的分类器。例如,SVM经由分类器构造器和特征选择模块内的学习或训练阶段来配置。因此,可采用分类器来根据预定准则自动学习和执行多个功能。
推断组件302可以与识别组件102、纠正组件104、词典202、LM 204(未示出连接)、AM 206和共享组件208进行接口,以例如监控用户和***进程并获得数据。在***300中使用推断组件302只是采用和连接推断的多个不同方式的一个示例。换言之,可以用后面的附图中的***组件的更详细说明来采用推断组件302。
图4示出可由此处公开的纠正体系结构采用的一个或多个方法400。例如,拼写/纠正组件104可包括词发音方法402、词中的字符方法404、以及字符分解方法406。这些方法400提供至少三种指定字符的方式。可以指定字符的方式包括给出关于如何用本地音标来发出该词的音的信息(例如发音方法402)。词中的字符方法404包括给出关于如何通过给出其中存在该字符的词来写出该字符的信息。例如,如果用户选择指定“薰”,则用户可以说“薰陶的薰”。这类似于在英文中使用“a,as in apple”。
给出关于如何组成(或分解)字符的信息由分解方法406提供。换言之,用户可以说出字符的组成部分。例如,如果用户想要指定“李”,则用户可以说“木子;李”。所有三种方法(402、404和406)都在此详细描述。
第一种方法(发音方法402)可以使用拼写向导来提供,而方法404和406可以直接应用而不用向导。然而,可以理解,所有方法(402、404和406)都可以使用向导来实现,以使用户可以选择这些方法中的一个来进行词纠正。还可以理解,对术语“向导”的使用决不旨在被解释为限制。换言之,可以呈现集中于总体过程的一小部分的一系列对话框,而非通常可被认为是引导用户提供一个过程的向导。
在用户尝试以中文字符或词键入时,使用发音方法402。在某些亚洲国家中,使用亚洲语字符的发音方法是常见的。然而,可以使用除繁体中文OS中的发音以外的其它输入方法。给定发音所提供的方便性,许多用户在使用键盘键入字符时会使用发音(注音)。情况对于使用简体中文OS的中国大陆用户而言更是这样,其中使用拼音(本地发音***)来用键盘键入字符。台湾用户(使用繁体中文)将键入“ㄒㄩㄣ”和用于第一音调的空格键,来得到使用该发音的词列表,例如“勳薰勛……”,并选择这些词中的一个,例如第二个词“薰”。相反,中国大陆用户可以键入“xun”并接收词列表,诸如“勳薰勛……”,并选择这些词中的一个,例如第二个词“薰”。
然而,键入花费时间并且可能易于出错。对台湾用户而言这尤其消耗时间和劳动,因为繁体中文的语音***与中国大陆中文中使用的26个字母集合(用于拼音)不同。例如,音标看起来像“ㄅㄆㄇㄈ”,并且第一个符号“ㄅ”可被认为是/b/声,但被给出了键1(数字)和!(感叹号),而非对于字母b的键盘键。因此用户需要学习每一符号位于键盘上的哪里。另一方面,中国大陆使用的拼音有26个英文字母组成,如果用户熟悉26个英文字母在键盘上的位置,则不需要学习另一种键盘设置。
拼写向导通过允许用户通过语音而非键入获得中文词来克服这一限制。这在用户不熟悉音标和/或26个英文字母在键盘上的位置的情况下、或在用户不频繁与符号交互以快速选择和输入符号的情况下尤其有用。
第二(即词中的字符)方法404可比词发音方法402更复杂,因为所选的包含该字符的词可以是任何词,甚至来自名人的名字。所公开的体系结构将包含中文语言中所使用的所有字符,但可以不包含所有词,尤其是尚未是训练数据的一部分的最新近名人的名字。
用户可以选择包含所需字符的词,但该字符可以不是该词中的第一个字符。该字符可以出现在该词的中间或结尾。例如,用户可以说“薰陶的陶”来得到最后(或粗体)字符“陶”。
为获得良好的识别准确度,对使用什么类型的词来指定字符和或者对哪些词分配较高加权或者特别训练哪些词具有良好的感觉是合乎需要的。正确地收集和安排数据帮助提升SR准确度。另外,SR的AM越好,来自该方法的结果越好。一旦实现了这些,则采用这一方法404来纠正误识别的中文词可以比第一方法402更容易,因为获得正确的字符的步骤的数量少于提供发音。
第三方法406可被用于较少量的一些容易分解的词。换言之,没有大量的可被容易地分解并被广泛使用的词。因此,可以在语法(或LM)中列出可分解词以支持这一方法406。
图5示出采用词发音作为字符规范方法的***500。如上所示,可以将拼写向导用于发音方法。为支持用户提供发音和选择正确的字符,向导采用在字符和发音之间进行映射的一个或多个数据文件。另外,提供同音词的优化列表以使用户可以快速获得所需字符。
以下描述供在语音***和字符之间进行转换的数据文件。在该第一示例中,语音***是以CHS/CHT描述的,连同示例性数据文件的概览。
如上所述,CHS使用拼音,而拼音也使用英文的26个字母,但具有可任选声调信息。相反,CHT使用注音,注音是象形符号而非正规中文。CHT的注音类似于英文的国际音标(IPA)。例如,对于字符“田”,以下给出CHS和CHT的语音表示
CHS:tian
CHT:ㄊ一ㄢ′
图5的识别组件102示出多个亚洲语言引擎502(示为亚洲语言1SR引擎……亚洲语言N SR引擎,其中N是正整数)。引擎502中的第一引擎504使用词发音方法402,词发音方法402又使用三个数据文件506来提供数据。每一语言引擎502将三个数据文件506用于将发音转换成字符的过程。第一数据文件508将词作为索引并将每一个词的相关信息作为值来存储,该值包括发音、声调、使用频率、和/或可能的类别。第二数据文件510将发音作为索引并将具有该发音的所有词作为值,并以基于使用频率的次序来存储。第三数据文件512用于存储音素之间的混淆矩阵信息,以供用户高效地纠正误识别的音素。
如所示的,第一数据文件508存储字符的信息和字符发音、声调、频率、和/或可能的类别。例如,
CHS:
好hao_3_1_z;hao_4_1_z
田tian_2_1_n
……
CHT:
好ㄏ幺_3_1_z;ㄏ幺_4_1_z
田ㄊ一ㄢ_2_1_n
……
对于不同词中的具有不同的发音的字符,如“好”(该字符在“很好”中用作第三声;但在“喜好”中用作第四声)),在一个行中记录可能的发音,各元素由分号(;)分开。
根据最近信息,有大约47035个有效的中文字符,大量中文字符很少使用并且是整个历史积累下来的。中国有文化的人现行只使用大约2000个字符。因此,落入该2000个现行使用的字符集中的字符可被首先显示。为知道现行使用的集合中的字符是否显示在呈现给用户的列表的顶部或顶部附近,现行使用的字符被标记为“1”,其它的被标记为“2”。出现在诸如人名等特定类别中的字符可被给出人名的类别码,例如“n”。
***500还可包括用于跟踪存储在第二数据文件510中的字符和/或词的使用频率的频率组件514,。该第二数据文件510存储发音,并以出现在不同词中的频率以及该词或字符的频率的次序来存储与该发音相关联的字符。第一数据文件508存储词是否落入2000个现行使用的字符。该第二数据文件510根据总体活动/不活动频率和根据与其它同音字符相关的使用频率中的一个或两者来对字符进行排序。频率信息可以从现有训练数据中获得。第二数据文件510中的次序可以基于对用户选择的学习和推理来调整。如果第一数据文件508中可以指定更多具体频率信息,则第二数据文件510可以从第一数据文件508中生成。然而,第二数据文件510应在用户简档文件夹中生成并保存,以使第二文件510可被用来在学习了用户选择之后保存经调整的次序。以下列表指示发音和词频率。下划线的词是很少使用的词。
CHS
hao_1蒿侾嚆薅迲
hao_2豪毫蠔号嚎貉壕濠蚵鶴儫勂……
hao_3好郝恏
hao_4号浩耗皓镐好灝顥涸昊傐哠……
tian_1天添倎兲……
tian_2田填恬甜沺盷湉璳……
tian_3舔忝靦殄腆唺悿晪……
tian_4瑱掭煔
CHT
ㄏ幺_1  蒿侾嚆薅迲
ㄏ幺_2  豪毫蠔號嚎貉壕濠蚵鶴儫勂……
ㄏ幺_3  好郝恏
ㄏㄠ_4  號浩耗皓鎬好灝顥涸昊傐哠……
ㄊ一ㄢ_1天添倎兲……
ㄊ一ㄢ_2田填恬甜沺盷湉璳……
ㄊ一ㄢ_3舔忝靦殄腆唺悿晪……
ㄊ一ㄢ_4瑱掭煔
可以提供上下文无关语法(CFG)来存储有效音节。对于CHS,用户能够说出“TIAN”来在CHS语音***中获得“tian”,并随后将其转换成使用该发音的字符列表。CFG包括允许用户说“TIAN”来在转换成字符之前接收“tian”的另一选择。该方法对双元音或双元音加上尾鼻音中的一些进行分组,如以下所给出的,
<?xml version=″1.0″encoding=″utf-16″?>
<grammar xml:lang=″zh-TW″version=″1.0″
xmlns=″http://www.w3.org/2001/06/grammar″
xmlns:sapi=″http://schemas/microsoft.com/Speech/2002/06/SRGSExtensions″
root=″Greeting″tag-format=″semantics-ms/1.0″>
  <rule id=″Greeting″scope=″public″>
    <one-of>
     <item><token sapi:pron=″b o_h o_h a_ha_h″>b a</token></item>
     <item><token sapi:pron=″b o_h o_h a_h eh_h″>b
ai</token></item>
       <item><token sapi:pron=″b o_h o_h aa_h ng_h″>b
ang</token></item>
     …
    </one-of>
    <one-of>
      <item><token sapi:pron=″bi i_h i_h ge eh_h i_h″>b
a</token></item>
      <item><token sapi:pron=″bi i_h i_h ge eh_h i_h ga a_h eh_h″>b
ai</token></item>
      <item><token sapi:pron=″bi i_h i_h ge eh_h i_h ge el_h nn_h ji
i_h i_h″>bang</token></item>
</one-of>
对于CHT,在语法中只使用注音中的音素。引擎中所使用的发音也将在语法中提供以增加SR准确度。
<?xml version=″1.0″encoding=″utf-16″?>
<grammar xml:lang=″zh-TW″version=″1.0″
xmlns=″http://www.w3.org/2001/06/grammar″
xmlns:sapi=″http://schemas/microsoft.com/Speech/2002/06/SRGSExtensions″
root=″Greeting″tag-format=″semantics-ms/1.0″>
  <rule id=″Greeting″scope=″public″>
    <one-of>
     <item><token sapi:pron=″b o_h o_h a ha_h″>ㄅ丫</token></item>
     <item><token sapi:pron=″b o_h o_h a_h eh_h″>ㄅㄞ
</token></item>
      <item><token sapi:pron=″b o_h o_h aa_h ng_h″>ㄅ尢
</token></item>
如果发音被不正确地识别,则向导允许用户纠正发音。在选择了要纠正的音素后,向导示出与误识别的音素相近的音素列表,并且该列表可以根据两音素之间的距离来排序,该距离取决于例如吐字的位置、吐字的方式、声带振动、上下文、和其它本地方言的影响。
在台湾许多人讲国语和闽南语。来自闽南语方言的声音结构以若干方式极大地影响国语语调。大多数人不能区分“ㄓㄔㄕㄖ(卷舌音)”和“ㄗㄘ厶(齿龈音)”,而一些人不能区分“ㄈ(唇齿摩擦音)”与“ㄏ(软腭摩擦音)”。对于中国大陆南方某些方言,/n/和/l/是不可区分的,并且还影响其它所学习的语言的成果。对最小可区分音素集合之间的距离给出更短的距离。
上下文指的是两个音素是否出现在同一上下文中。例如,“ㄅ(/b/)”和“ㄆ(/ph/)”在上下文方面比“ㄅ(/b/)”和“ㄈ(/f/)”更近,因为这些音素后面可跟随同样的核元音和尾辅音。
  ㄅ丫   ba ㄆ丫   pa   ㄈ丫   fa
  ㄅㄞ   bai ㄆㄞ   pai
  ㄅㄢ   ban ㄆㄢ   pan   ㄈㄢ   fan
  ㄅ尢   bang ㄆ尢   pang   ㄈ尢   fang
  ㄅ幺   bao ㄆ幺   pao
  ㄅㄟ   bei ㄆㄟ pei   ㄈㄟ   fei
  ㄅㄣ   ben ㄆㄣ   pen   ㄈㄣ   fen
  ㄅㄥ   beng ㄆㄥ   peng   ㄈㄥ   feng
  ㄅㄧ   bi ㄆㄧ pi
  ㄅㄧㄢ   bian ㄆㄧㄢ   pian
  ㄅㄧ幺   biao ㄆㄧ幺   piao
  ㄅㄧㄝ   bie ㄆㄧㄝ pie
  ㄅㄧㄣ   bin ㄆㄧㄣ   pin
  ㄅㄧㄥ   bing ㄆㄧㄥ   ping
  ㄅㄛ   bo ㄆㄛ   po   ㄈㄛ   fo
  ㄅㄨ   bu ㄆㄨ   pu   ㄈㄨ   fu
  ㄈㄡ   fou
基于CHT中所使用的辅音的这些特征的示例性混淆矩阵表在以下给出。下表是通过基于吐字的位置、吐字的方式、声带振动、上下文、以及其它本地方言的影响来计算距离获得的。这一类型的混淆矩阵还可以通过自动地比较具有不同音子的将覆盖吐字的位置、吐字的方式、声带振动的AM来生成。混淆矩阵还可以通过具有不同音子的AM并基于上下文和其它方言的影响来调整以得到最终形式来获得。可以使用同样的方法来生成CHT的元音和声调的矩阵,以及所有其它亚洲语言的辅音和元音。
Figure G200880013543XD00161
可以向中文和英文拼写模式提供拆分命令,例如以获得更好的识别结果。例如,可以对“中文拼字(拼写)”和“英文拼字”进行拆分。这样做的原因包括以下各项。在使用英文拼写时,可以直接向文本返回英文字母;但在使用中文拼写时,输出音标并随后将其转换成中文。因此,这两个拼写模式的过程是不同的。英文字母和中文音标中的一些是同音的。因此,拆分两个过程避免了混淆。此外,如果拆分该过程,则所激活的CFG可以更加简单。另外,识别准确度会更高。拆分这两个命令使CHS受益最大,因为CHS中的音标也是相同的26个英文字母。如果不执行拆分,则用于转换成中文字符的时间将是未知的。此外,如果用户旨在对中文使用拼音,则可不执行对有效语音序列的更严格的检查。
以下描述在用户说出命令时所触发和呈现的一系列拼写模式面板(或屏幕截图)。图6示出在用户期望亚洲字符/词作为输出时所呈现的拼写对话框面板600的屏幕截图。在用户说出“中文拼字”时,呈现拼写模式面板600,且其包括指示面板600是中文拼写(拼字)面板的标题栏602,使用发音来获得字符或同音字命令来改变字符(注音拼字或諧音换字)604,发音(注音)606,以及各中文对话框选择器:同音字(諧音)(H)选择器608、确定(確定)(O)选择器610、和取消(取消)(E)选择器612。在用户说出“英文拼字”时,图7示出在用户期望英文单词作为输出时所呈现的拼写模式对话框面板700的屏幕截图。面板700用中文示出“拼写(拼字)面板”702、“清晰地拼写单词”(或吐字清晰)的中文指令(用清晰的聲音拼出文字)704、“再次拼写”的中文指令(再拼字一次)706、以及用中文标记的一个或多个选择器:确定(確定)选择器708和取消(取消)选择器710。面板700还呈现英文字母和/或其它字符(例如@)的经索引和排序的列表712。虽然在该实施例中被示为有某种程度的不同,但面板600和700具有除在一个中出现而不在另一个中出现的特征之外的更相似的外观以提供更一致的用户体验是合乎需要的。
图8-1 0呈现与使用同音字纠正的过程相关联的屏幕截图。图8示出所呈现的用于同音字命令处理的拼写对话框面板800的屏幕截图。用于获得作为同音字的正确字符的命令被发声。所显示/识别的词作为608中的“諧音(同音字)”来提供。该语音命令界面可被认为比键入更高效,因为可以避免对音标的重复键入。换言之,有时所发声的命令被正确地识别,但用户想要不同的字符。并非提示用户重复发音,该命令可被处理以输出同音字列表。使用这一功能,通过语音来纠正提供了超过手动输入(例如键入)的改进用户体验。即,在用户通过键入手动地输入发音并从同音字列表中选择词时,该词将作为底下有虚线的文本来呈现。在该模式中,用户仍然可以改变来自列表的字符。
然而,在用户对词确信时,用户可以选择回车(或“确定”)选择器610以在文本中锁定该词,以使输入***不再从所分配的LM分数自动调整该词。因此,一旦在对话框面板800中锁定了词,则如果用户想要再次改变该词,则必须重试音标。该语音命令界面通过识别“諧音”命令而节省了手动输入的额外努力。作为第一步骤,用户通过说“更正1号字”来选择要纠正的词。随后加亮第一字符802。用户随后可以说用于同音字的“谐音”或选择“諧音”(“同音字”)选择器608,以获得原始中文字符的同音字(H)字符。面板800还以中文呈现对话框选择器:同音字选择器608、确定选择器610和取消选择器612。
注意,可以对面板800中的任何字符(标记为1、2或3的域中)执行通过同音字命令或提供发音的纠正,其中802是第一字符。然而,候选字符列表将是不同的。来自同音字命令的候选列表将包含音调相同或稍微不同的字符。来自提供发音的候选列表将包含与用户给出的发音精确匹配的字符。如果用户将采用发音,则将使第二字符被加亮来呈现图8的屏幕截图,而非如图10所示的第一字符被加亮。随后,在用户提供了发音后,呈现图11的屏幕截图。
图9示出响应于用于同音字纠正的语音激活命令来呈现的拼写模式对话框面板900的屏幕截图。拼写向导支持原始字符的发音,以便在列表框902中呈现经索引的同音字符列表。用户随后可以通过说出相关联的索引号,如第一候选的“一”或“一号”,或在该情况下点击字符906来选择所需字符。作为响应,发音面板900将清除列表框902,用所选字符906替换原始字符802,并且如图10的面板1000所示,列表框902已响应于所发声的索引选择而被清除。向导随后将交互移动到第二字符1002(第二域中)以进行类似处理,如以上根据图8的字符802(第一域中)所述。
继续图10,所发声的纠正可以通过提供发音来完成。如果向导尚未移动到并加亮第二字符1002,则用户通过说出“更正二号字”来通过选择或导航到要纠正的词来开始,以加亮第二字符1002。
图11示出所呈现的用于语音发音的拼写对话框面板1100的屏幕截图。接着,用户说出用于发音的“ㄒㄩㄣ”,该发音在发音域1102中被呈现给用户,并且向导再次在列表框902中提供经索引的词列表。列表框902以更频繁使用的词在顶部并且较不频繁使用的词靠近底部的次序列出候选词。另外,在***指示用诸如姓等关键词来纠正第一字符802时,***将检测到该关键词并调整对后续字符候选列表的纠正。在这种情况下,在纠正其余字符时,用于名的字符将提升到候选列表902的顶部。如上所述,用户随后可以通过说出相关联的索引号来选择所需字符,诸如与第二候选相关联的“二”或“二号”以获得“薰”。此后,所选候选替换旧字符且发音面板1100将被清除,并且列表框902将从对话框中移除。
如果SR不正确地识别了发音,则向导将基于上述混淆矩阵来显示最接近的音素。图12示出所呈现的用于纠正所说出的发音的拼写对话框面板1200的屏幕截图。用户可以通过说来表达要纠正的音素以与向导进行交互,例如“更正第一个音”。第一音素1202随后将被加亮。音素列表框1204随后将被呈现为具有以音素距离为次序的音素列表。用户随后可以说出“ㄑ”(等于拼音中的“qi”),以使第一误识别的音素1202被正确的音素“ㄑ”替换,如列表框1204中的经索引的“1”。
图13示出基于对所说出的发音的纠正来呈现的具有修订的同音字列表框902的拼写对话框面板1300的屏幕截图。基于改变的音素来纠正同音字符列表框902。接着,用户通过说出相关联的号码来选择图14中示出的第一字符1402,如在该情况下是“一”或“一号”。因此,所选候选替换原始字符且发音域1102将被清除,并且列表框902将从对话框中移除。图14示出在光标移动到下一字符以对所说出的发音进行处理或在图13的处理完成时所呈现的拼写对话框面板1400的屏幕截图。
如此处所描述的,名字可能需要拼写向导,因为每一用户不会精确知道名字中所使用的字符。因此,提示可以从名字中获得并提供。例如,在某些情况下,可能只有几百个类型的姓值得考虑,并且如上所述,已经知道该集合是固定的。因此,在选择总是词/字符串的第一字符的姓时,列表框中所显示的字符候选列表将被调整。例如,对于使用‘fan’的名字,该字符可以是凡、繁、煩、藩、犯等。
对于大多数字符,用户将选择正面或中性意义的名字,在以上前两个示例中示出。然而,如果训练数据是从报纸上获得的(这是大多数当前语言训练***的情况),该字符可能与具有很高频率计数的最后的意义“犯”相关联。因此,通过在数据文件中提供类别信息,词的列表可以根据提示来调整。可被考虑的提示包括但不限于个人名字(例如姓)、街道名称(例如利用路、街、市和縣)、以及公司/组织名称(例如利用公司和院)。
当用户更熟悉或精通在拼写模式中用多个字符来选择词并且基于有限的字符序列来正确地解析该词(以寻找词边界)时,以上场景更易于由所公开的***来处理(或识别)。如果用户只从多个字符的词中选择一个字符,则该***可能丢失该新词的词边界信息。
上述第二方法通过包含所需字符的词的语音输入来获得中文字符。图15示出根据第二方法将正面、中性、和负面意义用于字符加权的***1500。图15的识别组件102示出多个亚洲语言引擎502,其中第一引擎504使用词中的字符方法404,该方法又使用数据文件1502来提供数据。每一语言引擎502都可以使用数据文件1502来基于词中的字符方法404获得字符。第一数据文件1504包括正面和中性意义的词,第二数据文件1506包括负面意义的词,而第三数据文件1508包括词典中的不是这两个数据文件(1504和1506)的一部分的其余词。
根据词中的字符方法404,和/或除提供发音来获得字符之外,用户还可以通过给出包含所需字符的其它词来获得字符。类似于“a,as in apple”用户可以诸如通过说出包含所需字符“薰”的词“薰陶的薰”指定该字符。“薰陶”是包含所需字符“薰”的词。词“的”是指示所需字符是该词的一部分的所有格形式。
为获得SR识别准确度,具有关于往往用来指定字符的词的信息或数据是合乎需要的。在许多情况下,往往使用最频繁使用的词以及具有正面语义的词来指定字符。以下是可以获得CFG的词的方式。可以收集名字的大型语料库,以具有这些名字中通常将使用的字符的列表。此外,该语料库应当是有效字符的小子集。
另外,识别准确度可以通过寻找词的包含该字符的大型语料库,随后将这些词分组到包括正面或中性意义的第一组或文件1504和包括负面意义的第二组或文件1506来改进。往往使用具有正面或中性意义的词来指定名字中使用的字符。***1500可包括向词分配加权数据或值的加权组件1510。随后可以向正面和中性意义分配较高的加权值,向负面意义分配中间加权值,并向词典中的不包含通常在名字中使用的字符的其余词分配较低加权值。此外,这三个组中的词可以使用图5的频率组件514以基于词使用频率来排序。
该方法例如适用于中文以及日文中的汉字。在UI光标处于拼写窗口的顶部(或拆分或中文)面板中的各字符(诸如802、1002和1402中的各字符)中的一个的上方时,该方法活动。即,用户可以提供发音或者包含该字符的词以最终获得所需字符。
上述第三方法406提供词分解来获得中文字符。图16示出根据第三方法按所需字符的子分量的语音输入来采用词分解的***1600。识别组件102示出多个亚洲语言引擎502,其中第一引擎504使用字符分解方法406,该方法又利用数据文件1602来提供数据。每一语言引擎502都可以使用数据文件1602来基于字符分解方法406获得字符。第一数据文件1604包括可分解字符而第二数据文件1606包括字符的组成分量。
用户可以通过说“木子;李”来指定“李”以通过提供词的子分量来获得所需字符,其中“木”和“子”是组合形成“李”的子分量符号;“木”是该字符的顶部符号而“子”是底部符号。
可以理解,可分解并且用户还普遍使用的字符并不很多。因此,将收集可被分解的所有字符和普遍使用的可分解表达式并将其包括在语法中。类似于第二方法404,在光标处于拼写向导面板的拆分面板的顶部面板中的各字符(诸如802、1002和1402中的各字符)中的一个的上方时,第三方法406可以活动。换言之,用户可以通过发音或包含词、或子分量来得到所需字符。***1600包括用于寻找、处理和存储流行字符1604并将这些字符分解成组成分量1606的流行性组件1608。
简要参考图2,共享组件208允许用户共享本地词典,以改进其他用户的SR准确度或减少他们的纠正努力。在用户使用本体系结构的各方面时,该用户可以“教导”该***,或该***可以学习该用户的活动和/或***数据/参数(例如,使用图3的推断组件302的学习和推理能力)。如用户所指示的,所识别的词的概率可以改变,以示出哪些词被最频繁地使用。另外,如果词未出现在图2的默认词典202中,则用户可以将其添加到词典的用户定义的部分。此时,用户可以“告诉”语音识别器102在词典中的哪里(例如默认或用户定义的)可以找到附加的词。
跨多个用户共享、加载、以及上传新词典的能力方便提供持续改进的分布式语料库。换言之,每一用户将使用心疼或类似的词来“教导”各个用户计算机和方法。例如,在组或协作环境中,与其他用户共享用户定义的词典是有好处的。例如,在团队项目的上下文中,随着用户用新词更新相关联的用户词典,共享可以将这些新词传播给项目团队的其他成员。共享可以用多种方式来执行,包括在其中在多个用户之间共享单个文件以及批量共享对逐词共享的中央位置。
除域另一用户或团队共享之外,所公开的体系结构的共享组件208包括向供应商实体提供关于语音识别器102学习了什么的反馈,以使供应商可以改进默认词典的能力。为此,语音识别器102可包括允许用户指示向用户定义的词典添加的新词是否可以在用户***、项目团队、和/或公司边界之外共享的机制。如果允许,则识别器102可以将该信息发送到供应商,以供审阅并包括在下一公共发行或更新的默认词典中。然而,如果用户不允许这一点,则不向供应商发送新添加的项。可以发送到供应商的项的示例是社区中最近变得流行的新的工业范围的词,而专用词的示例可以是公司名称或项目的内部名称。应当考虑安全问题以确保共享不违反例如知识产权规章、共享的内容的范围、以及共享的决策过程。
所公开的体系结构还方便使用和实现不同亚洲语字符集的命令。例如,日语具有四种不同类型的书写***:平假名、片假名、日文汉字和日文罗马字。平假名可被认为是日文语音***,并且也是有效的书写***(类似于西班牙语,其中用户写的即是该词听起来的)。片假名是较正式的书写***,其具有到平假名的一对一映射。日文汉字通常用于书写名字。类似于中文,一组平假名声音可对应于日文汉字中的多个同音字。因此,可以采用相同的拼写面板和过程来从平假名获得日文汉字。
此外,并非像在中文中一样提供同音字功能,将给出平假名和片假名的按钮,以便如果用户只想要平假名或对应的片假名,则可以利用在拆分面板方法(图17中的1708或图18中的1806)的顶部词面板中得到词的语音命令能力或按钮。可以有一个按钮或选择器供用户选择和/或根据按钮名称的语音命令来将平假名转换成日文罗马字。因为一组平假名可以对应于多个日文罗马字字符,所以在用户说出例如“ロ一マ字”(“日文罗马字”)等平假名发音以触发日文罗马字转换时,用于列出日文汉字的同音字的列表框将被清除并用日文罗马字的结果来重新填充。随后,用户可以说所需日文罗马字字符前的索引号来将该日文罗马字字符移动到顶部词面板(图17中的1708或图18中的1806)。
例如,对于诸如“土”,该字符在平假名、片假名、日文汉字、日文罗马字等四种书写***的输出如下:
平假名:つち
片假名:ツチ
日文罗马字:tsuchi、tuchi、tuti
日文汉字:土
存在共享同一发音(同一片假名)的其它日文汉字,例如,
日文汉字同音字:槌、鎚、
图17示出所呈现的用于通过平假名的语音/键入输入来进行日语识别和处理以获得日文汉字的拼写对话框面板1700的屏幕截图。面板1700包括指示使用平假名的标题栏(ひらがな入力パネル )。列表框1704示出日文罗马字词列表的日文汉字同音字列表或图18中的1802。串1706告诉用户使用平假名作为输入来处理到所需书写***的转换。词面板1708存储输入到词处理器应用程序的最终字符。发音域1710示出所识别的输入以供处理。面板1700还包括以下选择器:日文罗马字(ロ一マ字)(R)1712、平假名(ひらがな)(H)选择器1714、片假名(カタカナ)(K)选择器1716、确定(OK)(O)选择器1718、以及取消(キヤンセル)(E)选择器1720。
为获得日文汉字字符,用户可以说出“ひらがな入力パネル”(“平假名输入面板”)以触发向导拼写面板1700,随后说出“つち”(平假名中的“土”),这作为反馈在发音域1710中呈现给用户(此后,列表框1704将自动地说出日文汉字同音字符的列表,每一字符前具有数字索引)。用户随后可以说出“1番”(“第一个”)来使列表框1704中的第一个词“土”被移动到词面板域1708。列表框1704此后不再展示。用户随后可以说“确定”来关闭拼写面板1700,并且使用当前使用的任何文字处理程序来将词面板1708中的词“土”复制到文档中。
为获得平假名,用户可以说“ひらがな入力パネル”以触发拼写面板1700的启动。在用户说出“つち”以使“つち”呈现在发音域1710中时,列表框1704将自动地生成日文汉字同音字符的列表作为默认列表;然而,用户可以选择忽略该列表。接着,用户可以说出“ひらがな”(“平假名”)并且1710中所识别的“つち”将自动地被移动到词面板1708。列表框1704随后将被移除,因为不再需要它了。通过说“OK(确定)”,用户使对话框拼写面板1700关闭,并且词面板1708中的词将被复制到当前打开的文档中。
为获得片假名,用户可以说出“ひらがな入力パネル ”以触发拼写面板1700的启动。在用户说出“つち”以使“つち”呈现在发音面板域1710中时,列表框1704将自动地生成日文汉字同音字符的列表;然而,用户可以选择忽略该列表。接着,用户可以说“カタカナ”(“片假名”),并且***将获得片假名版本“ツチ”(片假名中的“土”),并且该***将在词面板1708中直接写“ツチ”。随后可以使列表框1704消失,因为不再需要它了。用户可以选择“OK”来关闭拼写面板1700,并且词面板1708中的词将经由现有文字处理器来复制到文档中。
图18示出所呈现的用于与获得日文罗马字相关的日语识别和处理的拼写对话框面板1800的屏幕截图。为获得日文罗马字,用户可以说“ひらがな入力パネル”以触发拼写面板1800来打开。在用户说出“つち”以使“つち”呈现在发音面板域1804中时,列表框1802将在列表框1802中自动地生成日文汉字同音字符的列表;然而,用户可以忽略该列表。如果用户说出“ロ一マ字”(“日文罗马字”),则***会将“つち”转换成日文罗马字版本。因为存在日文罗马字版本的多个候选,所以用日文罗马字的候选替换列表框1802中的日文汉字候选。用户随后可以说出“1番”以获得列表框1802中的第一个词,以使“tsuchi”移动到词面板1806。随后可以使列表框1802消失。如果用户说“OK”,则拼写面板1800关闭,并且词面板1806中的词将被复制到文档中或当前正在使用的文字处理器中。
尽管参考如屏幕截图的各个附图示出并描述了向用户显示信息的一些方式,但相关领域的技术人员可以认识到,可采用各种其它替换方案。术语“屏幕”、“屏幕截图”、“网页”、“文档”和“页面”在本文中一般可互换使用。页面或屏幕作为显示描述、作为图形用户界面或通过描绘屏幕(例如,无论是个人计算机、PDA、移动电话还是其它合适的设备)上的信息的其它方法被存储和/或传输,其中要显示在页面上的布局和信息或内容被存储在存储器、数据库或另一存储设施中。
图19示出根据所公开的体系结构的识别语音的方法。尽管出于解释简明的目的,此处例如以流图或流程图形式示出的一个或多个方法被示出并描述为一系列动作,但是可以理解和明白,这些方法不受动作的次序的限制,因为根据本发明,某些动作可以按与此处所示并描述的不同的次序和/或与其它动作同时发生。例如,本领域技术人员将会明白并理解,方法可被替换地表示为一系列相互关联的状态或事件,诸如以状态图的形式。此外,并非一方法中所示的所有动作都是对于新颖实现所必需的。
在1900处,语音识别引擎接收亚洲语语音形式的语音输入。在1902处,对亚洲语语音信号进行识别处理以输出结果。在1904处,进入拼写/纠正模式来拼写新词或纠正结果。在1906处,基于语音发音和/或字符选择来单遍纠正结果的拼写。在1908处,随后将经纠正的结果输出到文档或应用程序。
图20示出使用拼写向导来纠正识别结果的方法。在2000处,识别引擎接收亚洲语语音输入。在2002处,对亚洲语语音信号进行识别处理,并进入纠正模式以纠正结果的拼写。在2004处,启动拼写向导作为纠正模式的一部分。在2006处,通过语音发音来将亚洲语字符输入到向导。在2008处,经由向导基于语音发音来纠正拼写。
图21示出将语音发音转换成字符的方法。在2100处,开始为转换过程准备数据文件。在2102处,创建经索引的词和词值的数据文件,该值包括发音、音调、使用频率、以及类别。在2104处,按照使用频率的次序来创建经索引的发音和具有发音作为值的词的数据文件。在2106处,创建音素距离的混淆矩阵的数据文件。在2108处,访问数据文件以经由拼写向导进行发音处理。
图22示出在亚洲语和英语中使用拆分命令来进行纠正处理的方法。在2200处,呈现亚洲语和英语两者中的拆分命令。在2202处,进行是否要进入英文拼写纠正模式的检查。如果是,则在2204处,进入英文拼写模式。在2206处,通过拼写模式中可用的方法基于语音信号来呈现候选字符列表。在2208处,基于所选候选来拼写新词或纠正误识别的词。如果在2202处,未进入英文拼写模式,则流程去到2210以进入亚洲语拼写模式,并如上所述随后去到2206以继续。
图23示出在亚洲语拼写向导中使用同音字命令的方法。在2300处,呈现亚洲语和英语两者中的拆分命令。在2302处,进入亚洲语拼写纠正模式。在2304处,接收同音字命令。在2306处,基于目标字符的同音字字符来呈现候选字符的列表。在2308处,基于所选候选来纠正误识别的词。
图24示出将加权值应用于词意义的方法。在2400处,开始准备通过包含所需字符的词来进行纠正。在2402处,收集名字的大型语料库。在2404处,寻找包含名字中的字符的词。在2406处,将词分组到正面和中性意义的文件中。在2408处,将词分组到负面意义的文件中。在2410处,将高加权应用于正面和中性意义组中的词。在2412处,将中等加权应用于负面意义组中的词。在2414处,将低加权应用于不在这两组中的词。在2416处,根据使用频率来对词进行排序。
图25示出共享经更新的词典的方法。在2500处,进入纠正模式。在2502处,跟踪和记录纠正模式期间所采用的新词。在2504处,将新词输入到本地词典中。在2506处,随后将经更新的词典传送给其他用户。在2508处,用户可以将经更新的词典传送给供应商以更新分发词典语料库。
图26示出将字符分解用于拼写纠正的方法。在2600处,启动拼写纠正模式。在2602处,用户说出所需字符的子分量符号。在2604处,该方法循环通过子分量和相应字符之间的关系的对应的表。在2606处,如果存在超过一个匹配,则呈现子分量的所有可能的字符。在2608处,随后基于子分量来选择候选字符。
图27A和27B示出基于用于拼写纠正的多个方法来进行纠正处理的方法。在2700处,引擎接收亚洲语语音输入。在2702处,在UI中呈现所识别的引擎结果。在2704处,***接收进入拼写/纠正模式的语音命令(直接输入新词)。流程随后去到2706,在此,为词上下文处理同样的和/或其它字符。另选地,流程可以从2702去到2708,在此,***接收选择词来纠正的语音命令。在2710处,***接收进入拼写模式和选择并纠正字符的语音命令。如上所述,流程随后去到2706,在此,为词上下文处理同样的和/或其它字符。
移到图27B,在2712处,基于所计算的上下文来访问可能的词列表。例如,上下文可以是个人名字。在2714处,基于同样的和/或其它字符来对词列表的字符进行排序。在2716处,选择对字符进行选择的方法。在2718处,流程可以行进到2720,在2720中,选择在其中以类似用法说出包含字符的词的方法。另选地,在2722处,选择通过提供所需字符的发音来获得字符的方法。另外,在2724处,选择在其中按子分量来说出词以获得字符的方法。或者,在2726处,选择说出(多个)词以获得同音字列表并从该同音字列表中进行选择的方法。在2728处,添加新字符或随后用所选字符替换拼错的词中的不正确的字符。在2730处,随后从用户接收对整个词正确性的语音确认。在2732处,随后使用正确的字符来纠正引擎结果。
如在本申请中所使用的,术语“组件”和“***”旨在表示计算机相关的实体,其可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如,组件可以是但不限于,在处理器上运行的进程、处理器、硬盘驱动器、多个(光和/或磁存储介质的)存储驱动器、对象、可执行代码、执行的线程、程序、和/或计算机。作为说明,运行在服务器上的应用程序和服务器都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程内,且组件可以位于一台计算机内上/或分布在两台或更多的计算机之间。
现在参考图28,示出了可用于执行根据所公开的体系结构的纠正处理的计算***2800的框图。为了提供用于其各方面的附加上下文,图28及以下讨论旨在提供对其中可实现该各方面的合适的计算***2800的简要概括描述。尽管以上描述是在可在一个或多个计算机上运行的计算机可执行指令的一般上下文中进行的,但是本领域的技术人员将认识到,新颖实施例也可结合其它程序模块和/或作为硬件和软件的组合来实现。
一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构等等。此外,本领域的技术人员可以理解,本发明的方法可用其它计算机***配置来实施,包括单处理器或多处理器计算机***、小型计算机、大型计算机、以及个人计算机、手持式计算设备、基于微处理器的或可编程消费电子产品等,其每一个都可操作上耦合到一个或多个相关联的设备。
所示各方面也可以在其中某些任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实施。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
计算机通常包括各种计算机可读介质。计算机可读介质可以是可由计算机访问的任何可用介质,且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以存储如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或者其它存储器技术、CD-ROM、数字视频盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或可以用于存储所需信息并且可以由计算机访问的任何其它介质。
再次参考图28,用于实现各方面的示例性计算***2800包括计算机2802,计算机2802包括处理单元2804、***存储器2806和***总线2808。***总线2808向包括但不限于***存储器2806的各***组件提供到处理单元2804的接口。处理单元2804可以是市场上可购买到的各种处理器中的任意一种。双微处理器和其它多处理器体系结构也可用作处理单元2804。
***总线2808可以是若干种总线结构中的任一种,这些总线结构还可互连到存储器总线(带有或没有存储器控制器)、***总线、以及使用各类市场上可购买到的总线体系结构中的任一种的局部总线。***存储器2806包括只读存储器(ROM)2810和随机存取存储器(RAM)2812。基本输入/输出***(BIOS)储存在诸如ROM、EPROM、EEPROM等非易失性存储器2810中,其中BIOS包含帮助诸如在启动期间在计算机2802内的元件之间传输信息的基本例程。RAM 2812还可包括诸如静态RAM等高速RAM来用于高速缓存数据。
计算机2802还包括内置硬盘驱动器(HDD)2814(例如,EIDE、SATA),该内置硬盘驱动器2814还可被配置成在合适的机壳(未示出)中外部使用;磁软盘驱动器(FDD)2816(例如,从可移动磁盘2818中读取或向其写入);以及光盘驱动器2820(例如,从CD-ROM盘2822中读取,或从诸如DVD等其它高容量光学介质中读取或向其写入)。硬盘驱动器2814、磁盘驱动器2816和光盘驱动器2820可分别通过硬盘驱动器接口2824、磁盘驱动器接口2826和光盘驱动器接口2828来连接到***总线2808。用于外置驱动器实现的接口2824包括通用串行总线(USB)和IEEE 1394接口技术中的至少一种或两者。
驱动器及其相关联的计算机可读介质提供了对数据、数据结构、计算机可执行指令等的非易失性存储。对于计算机2802,驱动器和介质容纳适当的数字格式的任何数据的存储。尽管以上对计算机可读介质的描述涉及HDD、可移动磁盘以及诸如CD或DVD等可移动光学介质,但是本领域的技术人员应当理解,示例性操作环境中也可使用可由计算机读取的任何其它类型的介质,诸如zip驱动器、磁带盒、闪存卡、盒式磁带等等,并且任何这样的介质可包含用于执行所公开的体系结构的新颖方法的计算机可执行指令。
多个程序模块可存储在驱动器和RAM 2812中,包括操作***2830、一个或多个应用程序2832、其它程序模块2834和程序数据2836。所有或部分操作***、应用程序、模块和/或数据也可被高速缓存在RAM 2812中。应该明白,所公开的体系结构可以用市场上可购得的各种操作***或操作***的组合来实施。
用户可以通过一个或多个有线/无线输入设备,例如键盘2838和诸如鼠标2840等定点设备将命令和信息输入到计算机2802中。输入/输出设备可包括话筒/扬声器2837和其它设备(未示出),例如,IR遥控器、操纵杆、游戏手柄、指示笔、触摸屏等等。这些和其它输入设备通常通过耦合到***总线2808的输入设备接口2842连接到处理单元2804,但也可通过其它接口连接,如并行端口、IEEE 1394串行端口、游戏端口、USB端口、IR接口等等。
监视器2844或其它类型的显示设备也经由接口,诸如视频适配器2846连接至***总线2808。除了监视器2844之外,计算机通常包括诸如扬声器、打印机等其它***输出设备(未示出)。
计算机2802可使用经由有线和/或无线通信至一个或多个远程计算机,诸如远程计算机2848的逻辑连接在网络化环境中操作。远程计算机2848可以是工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐设备、对等设备或其它常见的网络节点,并且通常包括相对于计算机2802描述的许多或所有元件,尽管为简明起见仅示出了存储器/存储设备2850。所描绘的逻辑连接包括到局域网(LAN)2852和/或例如广域网(WAN)2854等更大的网络的有线/无线连接。这一LAN和WAN连网环境常见于办公室和公司,并且方便了诸如内联网等企业范围计算机网络,所有这些都可连接到例如因特网等全球通信网络。
当在LAN连网环境中使用时,计算机2802通过有线和/或无线通信网络接口或适配器2856连接到局域网2852。适配器2856可以方便到LAN2852的有线或无线通信,并且还可包括其上设置的用于与无线适配器2856通信的无线接入点。
当在WAN连网环境中使用时,计算机2802可包括调制解调器2858,或连接到WAN 2854上的通信服务器,或具有用于通过WAN 2854,诸如通过因特网建立通信的其它装置。或为内置或为外置以及有线和/或无线设备的调制解调器2858经由串行端口接口2842连接到***总线2808。在网络化环境中,相对于计算机2802所描述的程序模块或其部分可以存储在远程存储器/存储设备2850中。应该理解,所示网络连接是示例性的,并且可以使用在计算机之间建立通信链路的其它手段。
计算机2802可用于与操作上设置在无线通信中的任何无线设备或实体通信,这些设备或实体例如有打印机、扫描仪、台式和/或便携式计算机、便携式数据助理、通信卫星、与无线可检测标签相关联的任何一个设备或位置(例如,公用电话亭、报亭、休息室)以及电话机。这至少包括Wi-Fi和蓝牙TM无线技术。由此,通信可以如对于常规网络那样是预定义结构,或者仅仅是至少两个设备之间的自组织(ad hoc)通信。
现在参考图29,示出了用于根据所公开的体系结构的纠正处理的示例性计算环境2900的示意性框图。***2900包括一个或多个客户机2902。客户机2902可以是硬件和/或软件(例如,线程、进程、计算设备)。例如,客户机2902可容纳cookie和/或相关联的上下文信息。
***2900还包括一个或多个服务器2904。服务器2904也可以是硬件和/或软件(例如,线程、进程、计算设备)。服务器2904可以例如通过使用本体系结构来容纳线程以执行变换。在客户机2902和服务器2904之间的一种可能的通信能够以适合在两个或多个计算机进程之间传输的数据分组的形式进行。数据分组可包括例如cookie和/或相关联的上下文信息。***2900包括可以用来使客户机2902和服务器2904之间通信更容易的通信框架2906(例如,诸如因特网等全球通信网络)。
通信可经由有线(包括光纤)和/或无线技术来促进。客户机2902操作上被连接到可以用来存储对客户机2902本地的信息(例如,cookie和/或相关联的上下文信息)的一个或多个客户机数据存储2908。同样地,服务器2904可在操作上连接到可以用来存储对服务器2904本地的信息的一个或多个服务器数据存储2910。
以上所描述的包括所公开的体系结构的各示例。当然,描述每一个可以想到的组件和/或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,许多其它组合和排列都是可能的。因此,本新颖的体系结构旨在涵盖所有这些落入所附权利要求书的精神和范围内的更改、修改和变化。此外,就在说明书或权利要求书中使用术语“包括”而言,这一术语旨在以与术语“包含”在被用作权利要求书中的过渡此时所解释的相似的方式为包含性的。

Claims (20)

1.一种计算机实现的转换***(100),包括:
用于基于语音输入来输出亚洲语字符的语音识别组件(102);以及
用于基于所述语音识别组件的不正确的输出来生成经纠正的输出的纠正组件(104)。
2.如权利要求1所述的***,其特征在于,所述纠正组件包括方便口头或手动地进行用户交互的用于选择并纠正所述不正确的输出的拼写向导。
3.如权利要求1所述的***,其特征在于,所述纠正组件接收与使用本地音标的词发音相关的信息。
4.如权利要求1所述的***,其特征在于,所述纠正组件接收有关如何通过提供所述字符在其中被使用的词来书写词的信息。
5.如权利要求1所述的***,其特征在于,所述纠正组件接收与如何组成所述字符相关的信息。
6.如权利要求1所述的***,其特征在于,还包括采用基于概率和/或基于统计的分析来预测或推断期望自动执行的动作的推断组件。
7.如权利要求1所述的***,其特征在于,还包括用于与其他用户和词典供应商共享经更新的词典的共享组件。
8.如权利要求1所述的***,其特征在于,还包括用于基于意义来对词进行加权的加权组件。
9.如权利要求1所述的***,其特征在于,还包括用于存储使用频率信息的频率组件,所述纠正组件使用该使用频率信息来提供候选字符的排序列表。
10.如权利要求1所述的***,其特征在于,所述亚洲语字符具有中文或日文的书写形式,该书写形式包括具有相关联的固定发音的象形文字。
11.一种识别语音的计算机实现的方法,包括:
识别亚洲语语音信号来输出结果(1902);
进入拼写/纠正模式以纠正所述结果的拼写(1904);以及
基于语音发音或字符选择中的至少一个来单遍纠正所述结果的拼写(1906)。
12.如权利要求11所述的方法,其特征在于,还包括响应于接收到所述亚洲语语音信号来自动地进入所述拼写/纠正模式,其中纠正模式包括接收所述语音发音的拼写向导。
13.如权利要求11所述的方法,其特征在于,还包括应用存储用于纠正所述拼写的音素距离的混淆矩阵。
14.如权利要求11所述的方法,其特征在于,还包括使用发声的同音命令来纠正所述拼写。
15.如权利要求11所述的方法,其特征在于,还包括基于将词分解成诸符号子分量来纠正所述拼写。
16.如权利要求11所述的方法,其特征在于,还包括在纠正所述拼写的同时发展新词典,并将所述新词典传送给另一用户。
17.如权利要求11所述的方法,其特征在于,还包括基于所述亚洲语语音信号的语言来在多个书写***之间切换。
18.如权利要求11所述的方法,其特征在于,还包括基于包含所述字符的一个或多个词的语音输入来选择该字符。
19.如权利要求11所述的方法,其特征在于,还包括生成候选字符的区分了优先次序的列表,并将所述候选字符作为经索引的列表来呈现以供通过手动地或通过语音命令中的一种方式来选择。
20.一种计算机实现的***,包括:
用于识别亚洲语语音信号来输出结果的计算机实现的装置(102);
用于进入拼写/纠正模式来纠正所述结果的拼写的计算机实现的装置(302);
用于执行关键字搜索的计算机实现的装置(502);以及
用于基于语音命令和手动字符选择来单遍纠正所述结果的拼写的计算机实现的装置(104)。
CN200880013543.XA 2007-04-26 2008-04-08 用于生成亚洲语字符的识别体系结构 Active CN101669116B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/789,878 2007-04-26
US11/789,878 US8457946B2 (en) 2007-04-26 2007-04-26 Recognition architecture for generating Asian characters
PCT/US2008/059688 WO2008134208A1 (en) 2007-04-26 2008-04-08 Recognition architecture for generating asian characters

Publications (2)

Publication Number Publication Date
CN101669116A true CN101669116A (zh) 2010-03-10
CN101669116B CN101669116B (zh) 2016-01-06

Family

ID=39888049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880013543.XA Active CN101669116B (zh) 2007-04-26 2008-04-08 用于生成亚洲语字符的识别体系结构

Country Status (8)

Country Link
US (1) US8457946B2 (zh)
EP (1) EP2153352B1 (zh)
JP (2) JP5622566B2 (zh)
KR (1) KR101532447B1 (zh)
CN (1) CN101669116B (zh)
BR (1) BRPI0810626A2 (zh)
RU (1) RU2477518C2 (zh)
WO (1) WO2008134208A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847407A (zh) * 2010-03-12 2010-09-29 中山大学 一种基于xml的语音识别参数处理方法
CN102324233A (zh) * 2011-08-03 2012-01-18 中国科学院计算技术研究所 汉语语音识别中重复出现词识别错误的自动修正方法
CN103324621A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
CN107544726A (zh) * 2017-07-04 2018-01-05 百度在线网络技术(北京)有限公司 基于人工智能的语音识别结果纠错方法、装置及存储介质
CN108573250A (zh) * 2017-03-08 2018-09-25 株式会社东芝 生成装置、存储介质、识别***以及生成方法
TWI802165B (zh) * 2021-12-22 2023-05-11 中華電信股份有限公司 用於語音核證之語音辨識系統、方法及其電腦可讀媒介

Families Citing this family (190)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8365071B2 (en) * 2007-08-31 2013-01-29 Research In Motion Limited Handheld electronic device and associated method enabling phonetic text input in a text disambiguation environment and outputting an improved lookup window
CN101408873A (zh) * 2007-10-09 2009-04-15 劳英杰 全范围语义信息综合认知***及其应用
US20090157385A1 (en) * 2007-12-14 2009-06-18 Nokia Corporation Inverse Text Normalization
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
EP2211336B1 (en) * 2009-01-23 2014-10-08 Harman Becker Automotive Systems GmbH Improved speech input using navigation information
CN102439544A (zh) * 2009-03-20 2012-05-02 谷歌股份有限公司 与输入法编辑器计算设备的交互
WO2010131256A1 (en) * 2009-05-13 2010-11-18 Rajesh Mehra A keyboard for linguistic scripts
US9104244B2 (en) * 2009-06-05 2015-08-11 Yahoo! Inc. All-in-one Chinese character input method
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110171617A1 (en) * 2010-01-11 2011-07-14 Ideographix, Inc. System and method for teaching pictographic languages
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
GB2480649B (en) * 2010-05-26 2017-07-26 Sun Lin Non-native language spelling correction
US9239829B2 (en) 2010-10-01 2016-01-19 Mitsubishi Electric Corporation Speech recognition device
US9262397B2 (en) * 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120303368A1 (en) * 2011-05-27 2012-11-29 Ting Ma Number-assistant voice input system, number-assistant voice input method for voice input system and number-assistant voice correcting method for voice input system
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8855997B2 (en) 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5642037B2 (ja) * 2011-09-22 2014-12-17 株式会社東芝 検索装置、検索方法およびプログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102105101B1 (ko) * 2012-11-07 2020-04-27 삼성전자주식회사 디스플레이 장치 및 이의 문자 수정 방법
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
US9858038B2 (en) * 2013-02-01 2018-01-02 Nuance Communications, Inc. Correction menu enrichment with alternate choices and generation of choice lists in multi-pass recognition systems
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9465985B2 (en) 2013-06-09 2016-10-11 Apple Inc. Managing real-time handwriting recognition
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
US9423890B2 (en) * 2013-06-28 2016-08-23 Lenovo (Singapore) Pte. Ltd. Stylus lexicon sharing
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9489943B2 (en) 2013-10-16 2016-11-08 Interactive Intelligence Group, Inc. System and method for learning alternate pronunciations for speech recognition
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9626354B2 (en) 2014-01-21 2017-04-18 Lenovo (Singapore) Pte. Ltd. Systems and methods for using tone indicator in text recognition
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9946704B2 (en) * 2014-07-18 2018-04-17 Lenovo (Singapore) Pte. Ltd. Tone mark based text suggestions for chinese or japanese characters or words
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
RU2598300C2 (ru) * 2015-01-27 2016-09-20 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы автоматического распознавания символов с использованием дерева решений
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
CN107112005A (zh) * 2015-04-17 2017-08-29 微软技术许可有限责任公司 深度神经支持向量机
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
SG11201704826YA (en) * 2015-07-01 2017-07-28 Vasan Sun Methods for multi-language data entry using a processor, and systems and devices for multi-language data entry
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10049655B1 (en) * 2016-01-05 2018-08-14 Google Llc Biasing voice correction suggestions
US9971758B1 (en) 2016-01-06 2018-05-15 Google Llc Allowing spelling of arbitrary words
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179329B1 (en) 2016-06-12 2018-05-07 Apple Inc Handwriting keyboard for monitors
CN106297797B (zh) * 2016-07-26 2019-05-31 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US20180358004A1 (en) * 2017-06-07 2018-12-13 Lenovo (Singapore) Pte. Ltd. Apparatus, method, and program product for spelling words
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10832675B2 (en) 2018-08-24 2020-11-10 Denso International America, Inc. Speech recognition system with interactive spelling function
CN109712607B (zh) * 2018-12-30 2021-12-24 联想(北京)有限公司 一种处理方法、装置及电子设备
US11194467B2 (en) 2019-06-01 2021-12-07 Apple Inc. Keyboard management user interfaces
US11636282B2 (en) * 2019-06-28 2023-04-25 International Business Machines Corporation Machine learned historically accurate temporal classification of objects
JP2021144271A (ja) * 2020-03-10 2021-09-24 オムロン株式会社 文字入力装置、文字入力方法、および、文字入力プログラム
JP2023067353A (ja) * 2021-11-01 2023-05-16 株式会社東芝 字幕生成装置、方法及びプログラム

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
JPH08212213A (ja) * 1995-01-31 1996-08-20 Toshiba Corp 文字変換方法
US6903723B1 (en) * 1995-03-27 2005-06-07 Donald K. Forest Data entry method and apparatus
US5893133A (en) 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5903861A (en) * 1995-12-12 1999-05-11 Chan; Kun C. Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer
JP2820093B2 (ja) * 1995-12-26 1998-11-05 日本電気株式会社 単音節認識装置
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
CN1120436C (zh) * 1997-09-19 2003-09-03 国际商业机器公司 用于识别孤立、非相关汉字的语音识别方法和***
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
KR19990043026A (ko) 1997-11-28 1999-06-15 유기범 음성인식 한글입력장치
JPH11306176A (ja) * 1998-04-22 1999-11-05 Sharp Corp 文字処理装置及び方法並びにその制御プログラムを記憶した媒体
US6694055B2 (en) * 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
ES2276674T3 (es) * 1999-02-19 2007-07-01 Custom Speech Usa, Inc. Sistema automatizado de transcripcion y metodo que usa dos modelos de conversion de voz y correccion asistida por computadora.
JP3980791B2 (ja) * 1999-05-03 2007-09-26 パイオニア株式会社 音声認識装置を備えたマンマシンシステム
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别***
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
JP2001229162A (ja) * 2000-02-15 2001-08-24 Matsushita Electric Ind Co Ltd 中国語文書自動校正方法及び装置
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US7085716B1 (en) * 2000-10-26 2006-08-01 Nuance Communications, Inc. Speech recognition using word-in-phrase command
JP2002189490A (ja) * 2000-12-01 2002-07-05 Leadtek Research Inc ピンイン音声入力の方法
FI20010644A (fi) * 2001-03-28 2002-09-29 Nokia Corp Merkkisekvenssin kielen määrittäminen
JP2002323969A (ja) * 2001-04-24 2002-11-08 Omron Corp コミュニケーション支援方法およびこの方法を用いたシステムならびに装置
CN1864204A (zh) * 2002-09-06 2006-11-15 语音信号技术有限公司 用来完成语音识别的方法、***和程序
US7467087B1 (en) * 2002-10-10 2008-12-16 Gillick Laurence S Training and using pronunciation guessers in speech recognition
US7003457B2 (en) * 2002-10-29 2006-02-21 Nokia Corporation Method and system for text editing in hand-held electronic device
US7359850B2 (en) * 2003-09-26 2008-04-15 Chai David T Spelling and encoding method for ideographic symbols
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
JP2005227510A (ja) * 2004-02-12 2005-08-25 Ntt Docomo Inc 音声認識装置及び音声認識方法
TWI247276B (en) * 2004-03-23 2006-01-11 Delta Electronics Inc Method and system for inputting Chinese character
JP2006031092A (ja) * 2004-07-12 2006-02-02 Sony Ericsson Mobilecommunications Japan Inc 音声文字入力プログラム及び携帯端末装置
TWI258731B (en) * 2004-11-04 2006-07-21 Univ Nat Cheng Kung Chinese speech synthesis unit selection module and method
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
RU2296376C2 (ru) * 2005-03-30 2007-03-27 Открытое акционерное общество "Корпорация "Фазотрон - научно-исследовательский институт радиостроения" Способ распознавания слов речи
US20060271882A1 (en) * 2005-05-26 2006-11-30 Inventec Appliances Corp. Method for implementing a fuzzy spelling while inputting Chinese characters into a mobile phone
US7643985B2 (en) * 2005-06-27 2010-01-05 Microsoft Corporation Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
JP4751192B2 (ja) * 2005-12-12 2011-08-17 本田技研工業株式会社 移動ロボット
JP2008090625A (ja) 2006-10-02 2008-04-17 Sharp Corp 文字入力装置、文字入力方法、制御プログラム、および、記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847407A (zh) * 2010-03-12 2010-09-29 中山大学 一种基于xml的语音识别参数处理方法
CN101847407B (zh) * 2010-03-12 2013-01-02 中山大学 一种基于xml的语音识别参数处理方法
CN102324233A (zh) * 2011-08-03 2012-01-18 中国科学院计算技术研究所 汉语语音识别中重复出现词识别错误的自动修正方法
CN102324233B (zh) * 2011-08-03 2014-05-07 中国科学院计算技术研究所 汉语语音识别中重复出现词识别错误的自动修正方法
CN103324621A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
CN108573250A (zh) * 2017-03-08 2018-09-25 株式会社东芝 生成装置、存储介质、识别***以及生成方法
CN108573250B (zh) * 2017-03-08 2021-09-24 株式会社东芝 生成装置、存储介质、识别***以及生成方法
CN107544726A (zh) * 2017-07-04 2018-01-05 百度在线网络技术(北京)有限公司 基于人工智能的语音识别结果纠错方法、装置及存储介质
TWI802165B (zh) * 2021-12-22 2023-05-11 中華電信股份有限公司 用於語音核證之語音辨識系統、方法及其電腦可讀媒介

Also Published As

Publication number Publication date
CN101669116B (zh) 2016-01-06
KR101532447B1 (ko) 2015-06-29
JP5622566B2 (ja) 2014-11-12
WO2008134208A1 (en) 2008-11-06
JP5819924B2 (ja) 2015-11-24
JP2010525415A (ja) 2010-07-22
RU2009139274A (ru) 2011-04-27
EP2153352A4 (en) 2018-01-10
EP2153352A1 (en) 2010-02-17
EP2153352B1 (en) 2020-07-08
JP2014067062A (ja) 2014-04-17
RU2477518C2 (ru) 2013-03-10
US20080270118A1 (en) 2008-10-30
BRPI0810626A2 (pt) 2014-11-04
US8457946B2 (en) 2013-06-04
KR20100015696A (ko) 2010-02-12

Similar Documents

Publication Publication Date Title
CN101669116B (zh) 用于生成亚洲语字符的识别体系结构
US9824085B2 (en) Personal language model for input method editor
CN104813275B (zh) 用于预测文本的方法和***
CN100555203C (zh) 修正已输入文字的***及方法
EP3091535B1 (en) Multi-modal input on an electronic device
CN101276245B (zh) 一种输入过程中编码纠错的提示方法和***
US7831911B2 (en) Spell checking system including a phonetic speller
CN101622616B (zh) 共享语言模型
KR20120006489A (ko) 입력 방법 편집기
CN101595449A (zh) 用于在电子设备中输入中文字符的交叉媒体输入***和方法
CN109791761A (zh) 使用校正的术语的声学模型训练
US11257484B2 (en) Data-driven and rule-based speech recognition output enhancement
US20150199332A1 (en) Browsing history language model for input method editor
WO2014032265A1 (en) Browsing history language model for input method editor
Huang et al. Research on the input method of Hakka language for intelligent mobile devices
JP5182954B2 (ja) 穴埋問題生成装置及びそのプログラム
Sunitha et al. Minimum data generation for Telugu speech recognition
JP2020030379A (ja) 認識結果補正装置、認識結果補正方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150720

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150720

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant