CN102246158A - 用户指定的短语输入学习 - Google Patents

用户指定的短语输入学习 Download PDF

Info

Publication number
CN102246158A
CN102246158A CN2009801503429A CN200980150342A CN102246158A CN 102246158 A CN102246158 A CN 102246158A CN 2009801503429 A CN2009801503429 A CN 2009801503429A CN 200980150342 A CN200980150342 A CN 200980150342A CN 102246158 A CN102246158 A CN 102246158A
Authority
CN
China
Prior art keywords
phrase
language
user
input
separator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009801503429A
Other languages
English (en)
Inventor
Y-C·昆
S-Y·辛
C-N·李
Y·L·黄
H-F·刘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102246158A publication Critical patent/CN102246158A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

允许用户通过短语输入执行手动断词的体系结构。短语输入是其中用户可***短语键(或分割符)作为当输入(例如亚洲的)字符时向诸如IME(输入方法编辑器)的编辑器应用程序指示指定的短语的组成的定界符。该断词是由该用户控制。由于该用户知道所需的输入并且减少了含糊的情况,因此改进了转换的质量。当该用户撰写字符时,可指定短语。通过选择短语键分隔符,该用户可在将字符作为短语呈现之前指定撰写字符。此外,该体系结构包括短语优先化机制,其中可以将每个短语作为单个实体对待并且向其分配与候选列表的序列相关的字符标识符(ID)。

Description

用户指定的短语输入学习
背景技术
由科技进步促进的全球通信的发展继续有益于用户的商业和个人生活。然而,浮现出先前不存在的新问题并且要求解决方案。例如,在基于文本的通信中语言翻译形式的通信浮现出来成为需要便于更高效和有效的通信的解决方案的问题。采用诸如中文的变体的数千个字符的语言更加复杂,并且因此直接翻译不是简单的。由此,降低了转换的准确度。
当使用输入和转换东亚字符的自动化手段时,转换准确度显著地取决于诸如IME(输入方法编辑器)的编辑器应用程序的断词能力的质量。尽管应用程序的断词质量可能不是完美的,但是例如新的单词和新的使用的快速发展的语言开发使得应用程序厂商越来越难以或不可能继续。
发明内容
以下提出了简化概述以提供对此处所描述的一些新颖的实施例的基本理解。本概述并不是全面综述,也不旨在标识关键/重要的元素或描绘其范围。其唯一目的是以简化的形式来介绍一些概念,作为稍后呈现的更为详细的描述的前序部分。
所公开的体系结构包括允许用户通过短语输入手动地进行断词的机制。短语输入意指用户可将短语键(或分隔符)用作当输入(例如亚洲的)字符时向编辑器应用程序指示指定的短语的组成的定界符。换而言之,断词由用户控制。由于用户知道所需的输入并且减少了有歧义的情况,因此改进了转换的质量。由此,用增强的断词改进了转换的准确度。
当用户撰写字符时,可容易地指定短语。例如,通过选择短语键分隔符,用户可在将字符作为短语呈现之前指定撰写字符。此外,体系结构包括短语优先化机制,其中可以将每个短语作为单个实体对待并且向其分配与候选列表的序列相关的字符标识符(ID)。
为实现上述及相关目的,本文结合下面的描述和附图描述某些说明性方面。这些方面指示了可以实现本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。结合附图阅读下面的详细描述,则其他优点和新颖特征将变得清楚。
附图说明
图1示出了根据所公开的体系结构的计算机实现的语言编辑***。
图2示出了语言编辑***的替换性实施例。
图3示出了显示编辑器组件的更为详细的表示的语言编辑***的替换性实施例。
图4示出了用于短语处理的流程图。
图5示出了便于中文对象的短语输入的设置配置的英文的示例性UI。
图6用中文的UI示出了便于短语输入的设置配置的图5的示例性UI。
图7示出了语言编辑的方法。
图8示出了为已确定的和未确定的短语提供视觉提示的方法。
图9示出了学习短语的方法。
图10示出了使用输入短语确定运行时中的最佳路径的方法。
图11示出了根据所公开的体系结构可用于执行语言短语编辑和学习的计算***的框图。
具体实施方式
所公开的体系结构允许用户通过短语输入执行手动断词。短语输入是其中用户可***短语键(或分割符)作为当输入(例如亚洲的)字符时向诸如IME(输入方法编辑器)的编辑器应用程序指示具体的短语的组成的定界符。断词由用户控制。由于用户知道所需的输入并且减少了有歧义的情况,因此改进了转换的质量。当用户撰写字符时,可指定短语。通过选择短语键分隔符,用户可在将字符作为短语呈现之前指定撰写字符。此外,体系结构包括短语优先化机制,其中可以将每个短语作为单个实体对待并且向其分配与候选列表的序列相关的字符标识符(ID)。
例如,为了防止编辑器应用程序将“電子郵件”转换成“電子游件”(其中“子游”是中国历史上古代学者的名字),用户可在字符串中输入短语键分隔符以得到“電子<短语键>郵件”。这样,“電子”被理解为一个单词,而“郵件”也被理解为一个单词。相应地,基于用户输入的短语的结构,编辑器应用程序可实现更高的转换准确度。
现在参考附图,所有附图中使用相同的参考标号来指代相同的元素。在以下描述中,为解释起见,阐明了众多具体细节以提供对本发明的全面理解。然而,很明显,新颖的实施例可以在没有这些具体细节的情况下实施。在其它情况下,以框图形式示出了公知的结构和设备以便于描述本发明。旨在涵盖所有这些落入所附权利要求书的精神和范围内的改变、等效方面和变动。
语言通常包括其中字符被隔开或不被隔开的格式。例如,英文采用空隔来将字符串分割成可识别的单词。其他语言不都使用这种间隔,诸如在亚洲语言中。短语输入体系机构通过允许用户通过打开候选字符窗口以允许用户选择候选字符并确定在何处***分隔符来协助用户改进输入准确度。然而,应该理解,也可以在当前采用间隔的语言中采用所公开的体系结构。
图1示出了根据所公开的体系结构的计算机实现的语言编辑***100。***100包括编辑器组件102,用于接收和处理书面语言的语言对象104的字符串。书面语言可以是东亚语言。***100还可包括输入组件106,用于将用户指定的分隔符108***到语言对象104的字符串中以将对象104的字符串的语言对象断成可识别为语法单元的短语110。当输入语言对象时,手动地***分隔符。
编辑器组件102可以将强调(例如突出显示、下划线、粗体等)应用到短语110上以指定短语为无歧义的。此外,编辑器组件102将相关联的强调应用到解构的短语上以指定经解构的短语为有歧义的。用户接着可以快速看到强调,以确定编辑器对短语和/或对象的指定。
图2示出了语言编辑***200的替换性实施例。***200包括编辑器组件,用于接收和处理书面语言(例如繁体中文、简体中文等)的语言对象的字符串,以及输入组件106,用于手动地(例如键盘、语音输入和控制、触摸垫选择等)将用户指定的分隔符108***到语言对象104的字符串中以将字符串的语言对象断成可识别为语法单元的短语110。
***200还可以包括学习组件202,用于基于多次使用分隔符108创建短语110来学习短语110。***200还可以包括解码组件204,用于基于短语110选择语言模型中的最佳路径的。***200还可以包括短语优先化组件,用于将短语110与其他候选短语一起排序并且自动地提议要***到字符串中的已排序的短语。如上所述,编辑器组件102可以将强调应用到短语上以指定短语为无歧义的,并且可以将强调应用到解构的短语上以指定经解构的短语为有歧义的。
图3示出了语言编辑***300的替换实施例,语言编辑***300示出了编辑器组件102的更为详细的表示。编辑器组件102可包括定义编辑器组件102的工作的编辑模块302。编辑模块302连接到由语言对象定义的短语的字典304。语言模块306连接到字典304以提供可以被输入和分成适当的语法单元或短语的特定的语言对象。语言模块306用作所编辑的特定语言中采用的语言对象的大的分段(例如单词、短语、字符等)的基础。例如,一种语言模型可以是繁体中文,而另一种语言模型可以是简体中文。也可以理解,当这些语言在书面语言对象上接近时,语言模型306可包括简体和繁体中文对象和短语两者。
例如,当用户输入语言对象时,一些对象可以被翻译为编辑模块302将试图使用字典304翻译的预期的短语(无歧义的)、非预期的短语(有歧义的)。如果短语在字典中,那么可以强调这些短语为可理解的短语。然而,如果短语不在字典304中,那么编辑器组件102自动地指定(强调)短语为有歧义的。用户可以通过手动地输入分隔符以按照用户的期望消除短语的歧义使之成为用户定义的短语来纠正这种歧义。一旦用户定义的短语被“纠正”或定义,就可以将其存储在字典中以用于编辑器组件102将来的翻译。
***300示出了通过文本服务框架312连接到编辑器组件102上的一个或多个应用程序310。例如,应用程序310之一可以是文本处理应用程序和/或诸如电子邮件的通信应用程序。
图4示出了用于短语处理的流程图400。用户与撰写编辑器(编辑器组件102)交互以输入语言对象。在用户输入对象时,撰写编辑器102向语言对象提供强调(例如实线下划线)。为了在语言对象的字符串中的适当位置处进行断词,用户可输入分隔符,分隔符接着由语言模块306处理以找到最佳路径。
在输入时,短语键(或分隔符)被***自动地识别为用户所采用的用于将字符串分成适当的短语的特定的断词字符。稍后也可以在同一应用程序中为了其他目的使用该短语键。
如果用户不止一次地指定同一短语,那么该短语被识别为已习得的。换而言之,除非短语已经被移除,否则短语被记录并且可以在应用程序会话中使用。
可以使用输入编辑器语言模型运行时(LMR)来进行语言模型解码。LMR的核心功能可被概括为两个领域:从大量的输入替换或候选中点阵(lattice)解码—搜索最优假设(或路径),以及对上下文进行上下文编辑—跟踪(包含许多使用点阵的替换),并且LMR的核心功能支持在点阵上***/删除/替换或纠错。
对于点阵解码的第一功能,短语输入可固定LMR中的最佳路径。换而言之,用户可以期望短语输入不会再次改变,即使用户继续键入而不是最终化撰写字符。
转换准确度显著地依赖于断词的质量。当自动断词不完美时,断词就留给用户。当用户使用编辑器组件键入时,用户可以将规定的<短语键>用作定界符以便向编辑器组件指示什么语言对象撰写短语。基于用户提供的短语的结构,编辑器组件执行转换并产生经改进的转换准确度。
在一个实现中,其中分配分隔符<短语键>为“\”键(也被识别为0x005C、反斜线或倒斜线号)并且被***到语言对象的有歧义的(或未确定的)字符串中,可创建新的短语并且可以将实线下划线形式的强调应用到新的短语上。
“短语”旨在意指当分隔符是首次***的分隔符时,在语言对象的未确定的字符串的已***的分隔符之前的字符,或者未确定的字符串的两个连续的分隔符之间的字符。然而,如果在两个连续的分隔符之间没有语言对象(例如字符),那么可以将编辑器组件配置成不作为。当按下<短语键>(例如反斜杠字符键)时,短语可以是有歧义的(未确定的)对象字符串的部分或全部的突出显示的语言对象(例如字符)。
以下是可以对短语采取的限制。例如,一种限制(或例外)是施加在短语上的长度限制(比X数量个语言对象长)。如果用户为比X个对象(例如字符)长的有歧义的字符串按下<短语键>,那么仅将最后X个字符看作短语。
另一限制涉及没有读法的对象。如果要被构建为短语的有歧义的字符串包含任何没有相关联的读法(例如标点)的对象,那么短语结构将无声地失败(即,没有UI改变或没有对<短语键>输入的响应)。
例如,当在以下未确定的字符串的结束处按下分隔符<短语键>时,编辑器将不响应。然而,可以按需提供警报或哔哔声。在另一实现中,将逗号和<短语键>之间的字符看作短语,如以下所示。
Figure BPA00001388917400061
如果用户从未将与<短语键>相关联的分隔符用于短语输入,那么在有歧义的字符串下面的下划线强调是虚线的,其维护UI向后的兼容性。然而,在构建短语时,将语言对象(例如字符)下的下划线改成实线下划线以提供对短语的构成的用户的反馈。由此,例如,键入電子<短语键>郵件<短语键>产生電子 郵件
当绘制实线下划线时,将下划线的长度缩短以便在视觉上呈现经分组的语言对象的特殊性。换而言之,两条连续的实线下划线不作为单条长的下划线出现,如以下所示。
電子 郵件
在诸如文本应用程序和演示应用程序的一些应用程序中,可能不能看到两个连续的实线下划线之间的间隔。换而言之,两个连续的短语会表现为具有单个连续的下划线的单个长短语。为了减少这种UI的可能的混淆,当用户将光标移动到未确定的字符串中的对象上方时,UI为短语示出粗体的实线下划线,这使得用户更快地将注意力集中到短语上,如以下所示。
Figure BPA00001388917400062
对于短语解构,如果用户将对象(例如字符)修改(例如添加、移除、改变等)为未确定的字符串中的短语,可以解构短语,并且实线下划线改变为规则的虚线下划线。例如,如果用户构建两个字符的短语,并接着删除第二字符或者这两个字符之间添加额外的字符,那么就解构该短语。
除了其中用户通过分隔符<短语键>指定短语的改进的断词机制之外,使用短语输入的另一益处是加速学习。由于短语输入意味着用户期望明确地定义短语,因此当用户通过使用<短语键>键入相同的短语s次(例如两次)时,可以将短语添加到最终用户定义的短语308中的用户定义的短语中。这种设计确保用户在短语输入中获取更快的学习效果。
图5示出了便于用于中文对象的短语输入的设置配置的英文的示例性UI500。UI 500包括高级面板502,其中可以设置短语输入选项并且可以定义短语输入键(此处,如反斜杠键),如框504强调的(或诸如突出显示的其他强调的形式)。
图6用中文的UI 600示出了便于短语输入的设置配置的图5的示例性UI500。UI 600包括高级面板602,其中可以设置短语输入选项并且可以定义短语输入键(此处,如反斜杠键),如框604强调的(或诸如突出显示的其他强调的形式)。
此处包括的是代表用于执行所公开的体系结构的新颖方面的示例性方法的一组流程图。尽管出于简化解释的目的,此处例如以流程图或流线图形式示出的一种或多种方法被显示和描述为一系列的动作,但应该理解和明白,这些方法不受动作的顺序所限,因为一些动作能够以与在此所示和所描述的所不同的顺序发生和/或与其他动作同时发生。例如,本领域技术人员将会明白并理解,方法可替换地被表示为一系列相互关联的状态或事件,诸如以状态图的形式。此外,对于新颖的实现可能并不需要在方法中所示的所有动作。
图7示出了语言编辑的方法。在700处,将书面语言的语言对象接收到编辑器中。在702处,当输入语言对象时,按照已确定的和未确定的短语来处理语言对象。在704处,将***到语言对象的未确定的短语中的手动输入的分隔符处理为断词。在706处,将与分隔符相关的语言对象解释为已确定的短语。
如上所述,语言对象可以是例如东亚语言的一部分。其他语言也可以受益于所公开的体系结构。方法还可以包括根据分配给分隔符的键盘键的选择,自动地在模式键入和非模式键入之间切换。例如,如果用户按下分配给分隔符的<短语键>,那么编辑器自动地理解下一输入是编辑模式。
图8示出了为已确定的和未确定的短语提供视觉提示的方法。在800处,将书面语言的语言对象接收到编辑器中。在802处,当输入语言对象时,按照已确定的和未确定的短语来处理语言对象。在804处,将第一强调(例如,加粗、虚线下划线、实线下划线、突出显示等)应用到未确定的短语上,作为该短语是未确定的的视觉提示。在806处,将第二强调(例如,加粗、虚线下划线、实线下划线、突出显示等)应用到已确定的短语上,作为该短语是已确定的的视觉提示。
例如,第一强调和第二强调可以是相同的强调类型(例如粗体、下划线等);然而如用户指定的或编辑器默认的彼此不同。注意随着未确定的短语变成已确定的短语(当使用分隔符时)以及反之亦然,强调就动态地改变以匹配未确定的或已确定的状态。由此,用户可以立即看出编辑器是如何翻译语言对象的短语的,并且输入分隔符以便快速地明确短语。
图9示出了学习短语的方法。在900处,将书面语言的语言对象接收到编辑器中。在902处,将手动***到语言对象的未确定的短语中的分隔符处理为断词以创建已确定的短语。在904处,学习已确定的短语,用于经由编辑器对作为语言对象的短语输入的后续翻译。
图10示出了使用输入短语确定运行时中的最佳路径的方法。在1000处,将书面语言的语言对象接收到编辑器中。在1002处,使用输入短语来固定语言模型运行时中的最佳路径。在1004处,基于路径将强调应用到语言对象的短语上。在1006处,将***到语言对象的未确定的短语中的手动输入的分隔符处理为断词以创建已确定的短语。在1008处,基于分隔符再次将强调应用到短语上。在1010处,学习已确定的短语,用于经由编辑器对作为语言对象的短语输入的后续翻译。
尽管相对于作为屏幕截图的某些图示出和描述了向用户显示信息的某些方式,但是相关领域的技术人员会认识到可以采用各种其他替换。页面和屏幕作为显示描述、作为图形用户界面或用在屏幕上描绘信息的其他方法(例如,无论是个人计算机、PDA、移动电话或其他适当的设备)来存储和/或发送,其中将要在页面上显示的布局和信息或内容存储在存储器、数据库或另一存储设施中。
如在本申请中所使用的,术语“组件”和“***”旨在表示计算机相关的实体,其可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如,组件可以是,但不限于是,在处理器上运行的进程、处理器、硬盘驱动器、(光和/或磁性存储介质的)多个存储驱动器、对象、可执行码、执行的线程、程序和/或计算机。作为说明,运行在服务器上的应用程序和服务器都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程中,并且组件可以位于一个计算机内和/或分布在两个或更多的计算机之间。在此可使用词语“示例性”意指用作示例、实例或说明。在此被描述为“示例性的”任何方面或设计并不一定被解释为比其他方面或设计优选或有利。
现在参考图11,示出了根据所公开的体系结构可用于执行语言短语编辑和学习的计算***1100的框图。为了提供对本说明的各方面的附加上下文,图11及以下讨论旨在提供其中可各方面的合适的计算环境1100的简要、概括描述。尽管以上描述是在可在一个或多个计算机上运行的计算机可执行指令的一般上下文中进行的,但是本领域的技术人员将认识到,新颖实施例也可结合其它程序模块和/或作为硬件和软件的组合来实现。
用于实现各方面的计算***1100包括计算机1102,其具有处理单元1104、***存储器1106以及***总线1108。处理单元1104可以是各种市场上可买到的处理器中的任一种,包括单处理器、多处理器、单核单元以及多核单元。此外,本领域的技术人员可以理解,各新颖方法可用其它计算机***配置来实施,包括小型机、大型计算机、以及个人计算机(例如、台式、膝上型等)、手持式计算设备、基于微处理器的或可编程消费电子产品等,其每一个都可操作上耦合到一个或多个相关联的设备。
***存储器1106可包括易失性(VOL)存储器1110(例如,随机存取存储器(RAM))和非易失性存储器(NON-VOL)1112(如ROM、EPROM、EEPROM等)。基本输入/输出***(BIOS)可被存储在非易失性存储器1112中,并且包括诸如在启动期间便于在计算机1102内的组件之间传递数据和信号的基本例程。易失性存储器1110还可包括诸如静态RAM等高速RAM来用于高速缓存数据。
***总线1108提供了用于包括,但不限于存储器子***1106的***组件对处理单元1104的接口。***总线808可以是若干种总线结构中的任一种,这些总线结构还可使用各类可购买到的总线体系结构中的任一种互连到存储器总线(带有或没有存储器控制器)以及***总线(例如PCI、PCIe、AGP、LPC等)。
计算机1102还包括存储子***1114以及将存储子***1114接口到***总线1108和其他所需计算机组件的存储接口1116。存储子***1114可包括例如硬盘驱动器(HDD)、磁软盘驱动器(FDD)和/或光盘存储驱动器(例如,CD-ROM驱动器、DVD驱动器)中的一种或多种。存储接口1116可包括诸如,例如EIDE、ATA、SATA和IEEE 1394等接口技术。
一个或多个程序和数据可被存储在存储器子***1106、可移动存储器子***1118(例如,闪存驱动器形状因子技术)和/或存储子***1114中,包括操作***1120、一个或多个应用程序1122、其他程序模块1124以及程序数据1126。一个或多个应用程序1122、其他程序模块1124以及程序数据1126可包括例如图1的***100、图2的***200、图3的语言编辑***300、图4的流程图400、图5的UI 500、图6的UI 600、以及图7-10的方法的实体。
一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、方法、数据结构、其他软件组件等等。操作***1120、应用程序1122、模块1124和/或数据1126的全部或部分也可被高速缓存在例如诸如易失性存储器1110等存储器中。应该明白,所公开的体系结构可以用各种市场上可购得的操作***或操作***的组合(例如,作为虚拟机)来实施。
存储子***1114和存储器子***(1106和1118)用作用于数据、数据结构、计算机可执行指令等的易失性和非易失性的数据存储的计算机可读介质。计算机可读介质可以是可由计算机1102访问的任何可用介质,且包括易失性和非易失性、可移动和不可移动的介质。对于计算机1102,介质容纳任何适当的数字格式的数据的存储。本领域的技术人员应当理解,可使用其他类型的计算机可读介质,如zip驱动器、磁带、闪存卡、闪存驱动器、磁带盒等来存储用于执行所公开的体系结构的新颖方法的计算机可执行指令。
用户可以使用诸如键盘和鼠标等外部用户输入设备1128来与计算机1102、程序和数据交互。其他外部用户输入设备1128可包括话筒、IR(红外)遥控器、操纵杆、游戏手柄、照相机识别***、指示笔、触摸屏、姿势***(例如,眼移动、头移动等)和/或类似物。在计算机1102是例如便携式计算机的情况下,用户可以使用诸如触摸垫、话筒、键盘等板载用户输入设备1130来与计算机1102、程序和数据交互。这些和其它输入设备通过输入/输出(I/O)设备接口1132经由***总线1108连接到处理单元1104,但也可通过其它接口连接,如并行端口、IEEE 1394串行端口、游戏端口、USB端口、IR接口等等。I/O设备接口1132还便于使用输出***设备1134,如打印机、音频设备、照相机设备等,如声卡和/或板载音频处理能力。
一个或多个图形接口1136(通常也称为图形处理单元(GPU))提供计算机1102和外部显示器1138(例如,LCD、等离子)和/或板载显示器1140(例如,对于便携式计算机)之间的图形和视频信号。图形接口1136也可作为计算机***板的一部分来制造。
计算机102可以使用经由有线/无线通信子***1142到一个或多个网络和/或其他计算机的逻辑连接在联网环境(例如,IP)中操作。其他计算机可包括工作站、服务器、路由器、个人计算机、基于微处理器的娱乐设备、对等设备或其他常见的网络节点,并且通常包括以上相对于计算机1102描述的许多或所有元件。逻辑连接可包括到局域网(LAN)、广域网(WAN)、热点等的有线/无线连接。LAN和WAN联网环境常见于办公室和公司,并且方便了诸如内联网等企业范围计算机网络,所有这些都可连接到例如因特网等全球通信网络。
当在联网环境中使用时,计算机1102经由有线/无线通信子***1142(例如,网络接口适配器、板载收发机子***等)连接到网络来与有线/无线网络、有线/无线打印机、有线/无线输入设备1144等通信。计算机1102可包括用于通过网络建立通信的调制解调器或具有用于通过网络建立通信的其他装置。在联网环境中,相对于计算机1102的程序和数据可被存储在远程存储器/存储设备中,如与分布式***相关联。应该理解,所示网络连接是示例性的,并且可以使用在计算机之间建立通信链路的其它手段。
计算机1102可用于使用诸如IEEE 802.xx标准家族等无线电技术来与有线/无线设备或实体通信,如操作上设置在与例如打印机、扫描仪、台式和/或便携式计算机、个人数字助理(PDA)、通信卫星、任何一件与无线可检测标签相关联的设备或位置(例如,电话亭、报亭、休息室)以及电话的无线通信(例如,IEEE 802.11空中调制技术)的无线设备。这至少包括用于热点的Wi-Fi(即无线保真)、WiMax和蓝牙TM无线技术。由此,通信可以如对于常规网络那样是预定义结构,或者仅仅是至少两个设备之间的自组织(ad hoc)通信。Wi-Fi网络使用称为IEEE 802.11x(a、b、g等等)的无线电技术来提供安全、可靠、快速的无线连接。Wi-Fi网络可用于将计算机彼此连接、连接到因特网以及连接到有线网络(使用IEEE 802.3相关媒体和功能)。
上面描述的包括所公开的体系结构的各示例。当然,描述每一个可以想到的组件和/或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,许多其它组合和排列都是可能的。因此,该新颖体系结构旨在涵盖所有这些落入所附权利要求书的精神和范围内的更改、修改和变化。此外,就在说明书或权利要求书中使用术语“包括”而言,这一术语旨在以与术语“包含”在被用作权利要求书中的过渡此时所解释的相似的方式为“包含性的”。

Claims (15)

1.一种计算机实现的语言编辑***(100),包括:
编辑器组件(102),用于接收和处理书面语言的语言对象的字符串;以及
输入组件(106),用于将用户指定的分隔符***到所述语言对象的字符串中,以便将所述字符串的语言对象断成可识别为语法单元的短语。
2.如权利要求1所述的***,其特征在于,其中所述书面语言是东亚语言。
3.如权利要求1所述的***,其特征在于,还包括用于基于所述短语选择语言模型中的最佳路径的解码组件。
4.如权利要求1所述的***,其特征在于,其中在输入语言对象时,所述分隔符被手动地***。
5.如权利要求1所述的***,其特征在于,其中所述编辑器组件将强调应用于所述短语上以指定所述短语为无歧义的。
6.如权利要求1所述的***,其特征在于,其中所述编辑器组件将相关联的强调应用到解构的短语上以指定所述经解构的短语为有歧义的。
7.如权利要求1所述的***,其特征在于,还包括用于基于多次使用所述分隔符创建所述短语来学习所述短语的学习组件。
8.如权利要求1所述的***,其特征在于,还包括用于短语优先化组件,用于将所述短语连同其他候选短语一起排序并且自动地提议要***到所述有歧义的字符串中的已排序的短语。
9.一种计算机实现的语言编辑方法,包括:
将书面语言的语言对象接收到编辑器中(700);
在输入所述语言对象时,按照已确定的和未确定的短语来处理所述语言对象(702);
将***到所述语言对象的不确定的短语中的手动输入的分隔符处理为断词(704);以及
将与所述分隔符相关的语言对象解释为已确定的短语(706)。
10.如权利要求9所述的方法,其特征在于,其中所述语言对象是东亚语言的一部分。
11.如权利要求9所述的方法,其特征在于,还包括:
自动地将第一强调应用到所述未确定的短语上,作为所述短语是未确定的的视觉提示;以及
自动地将第二强调应用到所述已确定的短语上,作为所述短语是已确定的的视觉提示。
12.如权利要求9所述的方法,其特征在于,还包括将所述分隔符前的语言对象指定为已确定的短语。
13.如权利要求9所述的方法,其特征在于,还包括学习所述已确定的短语,以用于对在所述编辑器中作为语言对象的短语输入的后续翻译。
14.如权利要求9所述的方法,其特征在于,还包括根据分配给所述分隔符的键盘键的选择,自动地在模式键入和非模式键入之间切换。
15.如权利要求9所述的方法,其特征在于,还包括经由所述编辑器使用短语输入的点阵解码来固定语言模型运行时间中的最佳路径。
CN2009801503429A 2008-12-11 2009-11-06 用户指定的短语输入学习 Pending CN102246158A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/332,372 US9009591B2 (en) 2008-12-11 2008-12-11 User-specified phrase input learning
US12/332,372 2008-12-11
PCT/IB2009/007688 WO2010067178A2 (en) 2008-12-11 2009-11-06 User-specified phrase input learning

Publications (1)

Publication Number Publication Date
CN102246158A true CN102246158A (zh) 2011-11-16

Family

ID=42241588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801503429A Pending CN102246158A (zh) 2008-12-11 2009-11-06 用户指定的短语输入学习

Country Status (6)

Country Link
US (1) US9009591B2 (zh)
JP (1) JP2012511759A (zh)
KR (1) KR101921333B1 (zh)
CN (1) CN102246158A (zh)
TW (1) TWI528192B (zh)
WO (1) WO2010067178A2 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102039553B1 (ko) * 2012-08-31 2019-11-01 삼성전자 주식회사 사용자 디바이스에서 입력 문자를 이용한 지능형 서비스 제공 방법 및 장치
CN104064058B (zh) * 2013-03-22 2016-10-05 陈文辉 中文繁体字学习***及其操作方法
US11443646B2 (en) * 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
CN110032730B (zh) * 2019-02-18 2023-09-05 创新先进技术有限公司 一种文本数据的处理方法、装置和设备
US11444893B1 (en) 2019-12-13 2022-09-13 Wells Fargo Bank, N.A. Enhanced chatbot responses during conversations with unknown users based on maturity metrics determined from history of chatbot interactions

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212541A1 (en) * 2002-05-13 2003-11-13 Gary Kinder Method for editing and enhancing readability of authored documents
US20050102249A1 (en) * 2003-11-12 2005-05-12 Bigus Joseph P. Methods and apparatus for customization of rule-based applications
CN1704879A (zh) * 2004-05-31 2005-12-07 诺基亚公司 用于输入中文汉字短语的方法和设备
US20060129926A1 (en) * 2002-06-12 2006-06-15 Microsoft Corporation User interaction when editing web page views of database data
US20060173674A1 (en) * 2000-04-25 2006-08-03 Microsoft Corporation Language model sharing
WO2008144964A1 (en) * 2007-06-01 2008-12-04 Google Inc. Detecting name entities and new words

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6365564A (ja) 1986-09-05 1988-03-24 Sharp Corp 質問応答システムの日本語入力処理方式
JPH01217552A (ja) 1988-02-25 1989-08-31 Toshiba Corp 文書作成装置における同音語候補選択確定方式
JP2766084B2 (ja) 1991-03-08 1998-06-18 株式会社日立製作所 仮名漢字変換方法
JPH0844472A (ja) 1994-07-29 1996-02-16 Sharp Corp 文書処理装置
JPH08263471A (ja) 1995-03-27 1996-10-11 Hitachi Ltd 情報処理装置
JPH096761A (ja) 1995-06-23 1997-01-10 Casio Comput Co Ltd 中国語用漢字変換装置及び中国語用漢字変換方法
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
JP2991335B2 (ja) 1997-03-12 1999-12-20 株式会社ジャストシステム 文書作成装置及び仮名漢字変換文字列の表示方法
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错***中的应用
US5966719A (en) 1997-11-20 1999-10-12 Microsoft Corporation Method for inserting capitalized Latin characters in a non-Latin document
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US20070242071A1 (en) * 2004-05-24 2007-10-18 Harding Patrick M Character Display System
US8321786B2 (en) * 2004-06-17 2012-11-27 Apple Inc. Routine and interface for correcting electronic text
US20060018545A1 (en) * 2004-07-23 2006-01-26 Lu Zhang User interface and database structure for Chinese phrasal stroke and phonetic text input
JP5166255B2 (ja) * 2005-06-16 2013-03-21 ガサビアン,フィルズ データ入力システム
US7277029B2 (en) * 2005-06-23 2007-10-02 Microsoft Corporation Using language models to expand wildcards
US20070052868A1 (en) * 2005-09-02 2007-03-08 Charisma Communications, Inc. Multimedia accessible universal input device
US8364468B2 (en) 2006-09-27 2013-01-29 Academia Sinica Typing candidate generating method for enhancing typing efficiency
TW200820635A (en) 2006-10-27 2008-05-01 Sapuz Thch Co Chinese input method
US7912700B2 (en) * 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060173674A1 (en) * 2000-04-25 2006-08-03 Microsoft Corporation Language model sharing
US20030212541A1 (en) * 2002-05-13 2003-11-13 Gary Kinder Method for editing and enhancing readability of authored documents
US20060129926A1 (en) * 2002-06-12 2006-06-15 Microsoft Corporation User interaction when editing web page views of database data
US20050102249A1 (en) * 2003-11-12 2005-05-12 Bigus Joseph P. Methods and apparatus for customization of rule-based applications
CN1704879A (zh) * 2004-05-31 2005-12-07 诺基亚公司 用于输入中文汉字短语的方法和设备
WO2008144964A1 (en) * 2007-06-01 2008-12-04 Google Inc. Detecting name entities and new words

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIN HONG LEE AND MAU KIT MICHAEL NG QINLU: "text segmentation for chinese spell checking", 《JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE》 *

Also Published As

Publication number Publication date
KR101921333B1 (ko) 2018-11-22
JP2012511759A (ja) 2012-05-24
TW201022960A (en) 2010-06-16
TWI528192B (zh) 2016-04-01
WO2010067178A2 (en) 2010-06-17
US9009591B2 (en) 2015-04-14
US20100153091A1 (en) 2010-06-17
WO2010067178A3 (en) 2010-09-30
KR20110101147A (ko) 2011-09-15

Similar Documents

Publication Publication Date Title
CN104866469B (zh) 具有第二语言模式的输入法编辑器
US10825444B2 (en) Speech synthesis method and apparatus, computer device and readable medium
CN101669116B (zh) 用于生成亚洲语字符的识别体系结构
CN105117376B (zh) 多模式输入法编辑器
US8996384B2 (en) Transforming components of a web page to voice prompts
CN1779783B (zh) 普通拼写助记法
CN102567799A (zh) 文档内的版本历史
CN102209963A (zh) 对事实数据的脚注的自动指定
WO2006028438A1 (en) System, method, and apparatus for continuous character recognition
US10664659B2 (en) Method for modifying segmentation model based on artificial intelligence, device and storage medium
CN104471639A (zh) 语音和手势识别增强
KR102294364B1 (ko) 인공지능 기반 문서 자동 변환 시스템 및 그 방법
CN104020950A (zh) 基于触摸屏的输入方法和包含触摸屏的输入装置
CN102193913A (zh) 翻译装置及翻译方法
CN102246158A (zh) 用户指定的短语输入学习
CN113434642B (zh) 文本摘要生成方法、装置及电子设备
CN1755591A (zh) 注音符号和音调标记的输入方法以及电子设备
CN109359308B (zh) 机器翻译方法、装置及可读存储介质
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
JP2010520532A (ja) 画数の入力
JP7309811B2 (ja) データ注釈方法、装置、電子機器および記憶媒体
CN102508822A (zh) 泰语显示方法、装置和***
CN116569159A (zh) 使用图神经网络自动描绘和提取可移植文档格式的表格数据
CN111178018B (zh) 一种基于深度学习的目标软文的生成方法及装置
CN117221656A (zh) 题目讲解视频的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1163293

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150727

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150727

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20111116

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1163293

Country of ref document: HK