CN101346717A - 用于语言处理的方法和装置 - Google Patents

用于语言处理的方法和装置 Download PDF

Info

Publication number
CN101346717A
CN101346717A CNA2004800191253A CN200480019125A CN101346717A CN 101346717 A CN101346717 A CN 101346717A CN A2004800191253 A CNA2004800191253 A CN A2004800191253A CN 200480019125 A CN200480019125 A CN 200480019125A CN 101346717 A CN101346717 A CN 101346717A
Authority
CN
China
Prior art keywords
word
context
sentence
equal
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800191253A
Other languages
English (en)
Inventor
约尔·奥维尔
里然·布里纳尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WHITESMOKE Inc
Original Assignee
WHITESMOKE Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WHITESMOKE Inc filed Critical WHITESMOKE Inc
Publication of CN101346717A publication Critical patent/CN101346717A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种用于语言增强的方法,包括:接收文本;识别文本内的语法结构;以及为文本的至少一个原始部分建议至少一个替代文本部分,所述替代文本部分与原始部分的语法结构一致,并且与原始部分具有基本相同的含意,但是传达不同的印象。装置也被描述和要求保护。

Description

用于语言处理的方法和装置
技术领域
本发明涉及自然语言处理,尤其涉及语言增强(languageenhancement)。
背景技术
传统现有技术自然语言处理(NLP)应用包括许多类型的语言助手,其中包括:(i)拼写检查器,其检查文本内的各个单词的拼写;(ii) 法检查器,其检查文本内的句子的语法;(iii)辞典(thesaurus),其提供文本内的单词的同义词;以及(iv)习语(idiom)处理器,其翻译习语。
拼写检查器
传统现有技术拼写检查器检查各个单词的拼写错误,并提供更正建议。一种常见的拼写检查器是Microsoft Word内使用的那种,这种拼写检查器用红色下划线标志误拼写的单词,并且在用户右键点击带红色下划线的单词时提供更正建议。拼写检查器可在用户动态输入字符串时实时(on-the-fly)工作,或者作为一次对整个文档的批处理来工作。拼写检查器的应用例如包括字处理器、带光学字符识别的扫描仪和电子语音到文本录音电话机。
Rosenbaum的美国专利No.3995254描述了搜索预定义的列表以查找误拼写的单词。
Travis的美国专利No.5604897描述了使用常见误拼写单词及其建议更正的数据库。
Yoshimura的美国专利No.4799188使用共同后缀来使误拼写单词与建议更正相关联。
Saito等的美国专利No.5148367描述了使用概率表来确定对于误拼写单词的建议更正。
Nielson的美国专利5970492描述了基于因特网的拼写检查器。
Mogilevsky的美国专利No.5787451描述了使用背景拼写检查来减轻实时拼写检查器的时间延迟。但是,Mogilevsky的技术适合于本地拼写检查器应用,而对于基于因特网的拼写检查器效果不好,这是因为背景拼写检查只有在数据被在因特网上传送时才工作。上述Nielson的用于基于因特网的拼写检查的美国专利5970492并不解决时间延迟减轻的问题。
其他拼写检查器在以下专利中描述:Glickman的美国专利No.4498148、Kucera的美国专利No.4580241、Heard等的美国专利No.4689768、Duncan IV等的美国专利No.4797855、Yoshimura的美国专利No.4799191、McCourt等的美国专利No.4829472、Suzuki的美国专利No.4842428、Frisch等的美国专利No.4873634、Itoh等的美国专利No.4903206、Kobayashi等的美国专利No.4915546、Kojima的美国专利No.4980855、Kobayashi的美国专利No.4995740、Hardy等的美国专利No.5203705、Shibaoka的美国专利No.5215388、McWherter的美国专利No.5218536、Travis的美国专利No.5765180、Makita的美国专利No.5802537、Goldberg的美国专利No.6219453以及Lawrence的美国专利No.6393444。
语法检查器
传统现有技术语法检查器分析分句和整个句子而不是个体单词,以检查不正确的语法使用。一种常见的语法检查器是Microsoft Word内使用的那种,这种语法检查器以绿色下划线标志语法错误,并且在用户右键点击带绿色下划线的文本时提供更正建议。语法检查器可在用户动态输入字符串时实时工作,或者作为一次对整个文档的批处理来工作。语法检查器的应用例如包括字处理、信息检索和语言翻译。
拼写检查器一般在个体单词的粒度上进行处理,而语法检查器一般在分句或句子的粒度上进行处理。许多语法检查器通过将句子解析成包括名词、代词、形容词、动词、副词、介词和连词的语言结构来进行操作——与语言教学过程中句子被图解的方式类似。
现有技术自然语言解析器(parsers)有两大类型:依照句法的 (syntactic)依照语义的(semantic)。句法解析器是基于语法规则的。这种解析器一般是通过基于查找字典(lookup dictionary)得出句子的解析 树(parse tree)来进行操作的。句子中的每个单词被识别为一个功能结构,并且被表示为树中的一个节点。被称为规则(rule)公式 (formula)的句法模板模式被与解析后的句子相适配,并且最适当的规则被确定。
存在两类用于句法解析的算法:自下而上的分析(bottom-up analysis)自上而下的分析(top-down analysis)。自下而上的分析通过以下方式进行操作:首先识别并标记句子中的各个单词,然后分析句子。自上而下的分析通过以下方式进行操作:首先将句子匹配到预定义的句法模板,然后分析各个单词。句法解析器所面临的许多挑战之一是单词使用的歧义(ambiguity);即,同一个单词可以按不同方式来使用。
Hemphill等的美国专利No.5083268描述了解析器和预测器(predictor)的使用,并且通过同意或反对单词组合来识别可允许的句子。
Hutchins的美国专利No.4994966描述了基于规则的语法检查器,其基于“好规则”和“坏规则”,其中坏规则描述相对于好规则的语法偏差。
Zamora等的美国专利No.4887212描述了按以下阶段分析句子的句法解析器:隔离、词素分析(morphological analysis)、字典查找、单词专家规则、动词群组分析和分句分析。
Bespalko的美国专利No.5224038和Schabes等的美国专利No.5610812描述了基于规则来标记词性(parts ofspeech)。
Kucera等的美国专利No.4878750、Schabes等的美国专利No.5799629、Schultz的美国专利No.5822731和Haug等的美国专利No.6292771描述了使用基于统计参数的概率表来检查其单词已被标记的句子的语法。
Kutsumi等的美国专利No.5353221和Horiguchi等的美国专利No.6243669描述了通过确定上下文(context)来克服歧义的翻译***。
Fein等的美国专利No.6012075描述了在用户空闲期间进行背景语法检查,以便减轻实时语法检查器的时间延迟。
另一方面,语义解析器是基于对句子中使用的单词的上下文的理解或领会的,从而更擅长处理歧义。
Lange等的美国专利No.4674065描述了基于同音词和易混词的数据库来确定单词在其中被错误使用的上下文,并且建议替代方案。
Adi的美国专利No.4849898描述了用于在两个单词或措辞之间关联含意的方法。
Hemphill等的美国专利No.5083268描述了预测给定单词之后的词性。
Zaenen等的美国专利No.5642522描述了通过将单词与其相邻单词进行匹配来根据其上下文分析该单词。
Dahlgren等的美国专利No.5794050描述了用于检索的自然语言理解***。
Sanfilippo的美国专利No.6260008描述了相关单词的依照句法的歧义消除。
Segond等的美国专利No.6405162描述了使用预定义的规则来消除单词的歧义。
其他自然语言助手
除了拼写和语法检查外,自然语言处理领域还包括用于帮助用户进行文本组织的工具。这样的工具包括电子辞典和习语翻译器。
Minkler,II的美国专利No.4712174描述了响应于输入数据而生成预定义的诗歌或散文文本。
Blanchard,Jr等的美国专利No.4923314描述了电子辞典,该辞典显示用户输入的单词的同义词。
Squillante等的美国专利No.5007019描述了维持用户从辞典进行选择的历史。
Bedecarrax等的美国专利No.5237503描述了使用表来消除同义词的歧义,并在辞典内为同义词提供“含意条目”
Koyama等的美国专利No.5541838描述了利用固定和可变习语的分类来注册和翻译习语。
Fukumochi等的美国专利No.5644774描述了具有习语处理功能的翻译***。
Kobayashi的美国专利No.5742834描述了向过于频繁使用的句子成分和习语提供替代方案。
MacMillan的美国专利No.6256605描述了根据含意为形容词和动词分组,以便向用户提供单词的词源。
Chase的美国专利No.6389415描述了根据给定概貌(profile)生成情绪内涵(emotional connotation)。
发明内容
本发明提供了一种通过向用户或作者给出增强建议来增强自然语言写作的方法和装置。本发明可实现为客户端内的独立软件或硬件,或者实现为服务器-客户端体系结构内的web服务。这种在线web服务接收来自客户端的输入文本,并返回用于增强文本的建议。
叙述可以按多种方式来表达。形容词、副词、动词和名词的谨慎选择确定了叙述的精神。在句子中使用特定的形容词和副词可以对读者或听者产生影响。
本发明提供了这样的新颖的能力:通过添加新文本部分,并通过使用现有文本部分的上下文等同替换,来增强句子。利用本发明,用户能够以所选择的风格和语调来表达消息,从而改进其语言表达。
例如,以诸如“I’m happy with your work”这样的句子开始,本发明提供了一种逐步的方法,用于将该句子转换成更丰富的形式,例如“I’m verypleased with your excellent performance”。用户被提供了出现在原始句子中的单词的上下文等同物,还被提供了用于***的形容词和副词。用户可接受本发明提供的建议,或者选择忽略这些建议。此外,优选地,本发明做出的建议被检验,以保证它们保持了句子的整体语言完好性。
在优选实施例中,本发明保持用于语言丰富的多种概貌。概貌对应于特定类别的读者所熟悉的风格,例如医学专业、法律专业和科学专业。利用本发明,可以根据用于律师或法官的一种概貌来增强消息,以及根据用于物理学家或科学家的另一种不同的概貌来增强消息。
在优选实施例中,本发明还基于用户选择和频繁使用的上下文等同物,来构建用于特定用户的个人概貌。通过这种方式,本发明可通过向用户建议其自己最喜爱的散文选择来增强句子。
本发明具有广泛的应用,并且尤其有利于不以某种自然语言为母语的人以及语言能力较弱的讲母语者。利用本发明,未讲母语者为了有效地交流,只需要拥有关于外语的有限知识。本发明还有利于具有良好语言能力的希望使用专用于特定读者类别的词汇的讲母语者。
从而,根据本发明的优选实施例,提供了一种用于语言增强的方法,包括:接收文本;识别文本内的语法结构;以及为文本的至少一个原始部分建议至少一个替代文本部分,所述替代文本部分与原始部分的语法结构一致,并且与原始部分具有基本上相同的含意,但是传达不同的印象。
根据本发明的优选实施例,还提供了一种语言增强装置,包括:存储器,用于存储文本;自然语言解析器,用于识别文本内的语法结构;以及自然语言丰富器,用于为文本的至少一个原始部分建议至少一个替代文本部分,所述替代文本部分与原始部分的语法结构一致,并且与原始部分具有基本上相同的含意,但是传达不同的印象。
根据本发明的优选实施例,还提供了一种计算机可读存储介质,其存储了用于使得计算机执行以下步骤的程序代码:接收文本;识别文本内的语法结构;以及为文本的至少一个原始部分建议至少一个替代文本部分,所述替代文本部分与原始部分的语法结构一致,并且与原始部分具有基本上相同的含意,但是传达不同的印象。
根据本发明的优选实施例,还提供了一种用于消除句子内单词含意中的歧义的方法,包括对于训练文本内的多个句子中的每一个:识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;并且指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的;并且对于用户提交的句子:按以下方式得出句子内的单词的一致上下文:在所述句子内联合使用的与单词对的得出的上下文相对应的单词对之间被指定了匹配。
根据本发明的优选实施例,还提供了一种用于消除句子内单词含意中的歧义的装置,包括:自然语言解析器,用于识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;数据库管理器,用于指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的;以及上下文分析器,用于按以下方式得出所述句子内的单词的一致上下文:在所述句子内联合使用的与单词对的得出的上下文相对应的单词对之间被指定了匹配。
根据本发明的优选实施例,还提供了一种计算机可读存储介质,其存储了用于使得计算机执行以下步骤的程序代码:对于训练文本内的多个句子中的每一个:识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;并且指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的;并且对于用户提交的句子:按以下方式得出句子内的单词的一致上下文:在所述句子内联合使用的与单词对的得出的上下文相对应的单词对之间被指定了匹配。
根据本发明的优选实施例,还提供了一种web服务,包括:接收包括自然语言文本的一个或多个句子的请求;得出至少一个用于增强所述一个或多个句子的建议;以及返回包括所述至少一个建议的响应。
根据本发明的优选实施例,还提供了一种用于得出用于增强自然语言文本的数据库表的方法,包括:提供符合选定的概貌的训练文本,所述选定的概貌与特定类型的作者相对应;对于所述训练文本内的多个句子中的每一个:识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;并且指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的。
根据本发明的优选实施例,还提供了一种用于得出用于增强自然语言文本的数据库表的装置,包括:文本接收器,用于接收符合选定的概貌的训练文本,所述选定的概貌与特定类型的作者相对应;自然语言解析器,用于识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;以及上下文分析器,用于指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的。
根据本发明的优选实施例,还提供了一种计算机可读存储介质,其存储了用于使得计算机执行以下步骤的程序代码:提供符合选定的概貌的训练文本,所述选定的概貌与特定类型的作者相对应;对于所述训练文本内的多个句子中的每一个:识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;并且指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的。
根据本发明的优选实施例,还提供了一种用于分辨自然语言句子内的上下文歧义的方法,包括:提供多个上下文等同群组,其中上下文等同群组的特定对被指定为匹配,上下文等同群组是用于相同上下文中并且具有相同语法类型的单词的群组;解析自然语言句子以识别所述句子内的单词的语法类型;识别所述句子内的单词所属的上下文等同群组;以及分辨所述句子内的有歧义的单词的上下文,所述上下文与识别出的上下文等同群组之间的匹配一致。
根据本发明的优选实施例,还提供了一种用于分辨自然语言句子内的上下文歧义的装置,包括:存储器,用于存储多个上下文等同群组,其中所述上下文等同群组的特定对被指定为匹配,上下文等同群组是用于相同上下文中并且具有相同语法类型的单词的群组;自然语言解析器,用于解析自然语言句子以识别所述句子内的单词的语法类型;上下文识别器,用于识别所述句子内的单词所属的上下文等同群组;以及上下文分辨器,用于分辨所述句子内的有歧义的单词的上下文,所述上下文与识别出的上下文等同群组之间的匹配一致。
根据本发明的优选实施例,还提供了一种计算机可读存储介质,其存储了用于使得计算机执行以下步骤的程序代码:提供多个上下文等同群组,其中所述上下文等同群组的特定对被指定为匹配,上下文等同群组是用于相同上下文中并且具有相同语法类型的单词的群组;解析自然语言句子以识别所述句子内的单词的语法类型;识别所述句子内的单词所属的上下文等同群组;以及分辨所述句子内的有歧义的单词的上下文,所述上下文与识别出的上下文等同群组之间的匹配一致。
在整个说明书和权利要求书中,采取以下定义。
1.歧义(Ambiguity)——一个单词有多于一个可能的含意
2.上下文等同群组(Context Equivalence Group),也作群组(Group)——可以被用于传达相同或相似含意的具有共同语法类型的单词的群组。例如,描述争论(argument)的名词的群组可包括单词“argument”、“confrontation”、“disagreement”、“dispute”、“fight”、“quarrel”和“spat”;描述动词的步速的副词的群组可包括单词“quickly”、“slowly”、“rapidly”、“hastily”和“fast”。注意,上下文等同群组包括用于相同上下文中的单词,它不仅仅包括同义词。
3.丰富概貌(Enrichment Profile),也作概貌(Profile)——特定写作风格,文本是联系该风格而被丰富的。概貌例如包括一般风格、法律风格、医学风格和科学风格。概貌还可包括特定作者专用的写作风格,例如Mark Twain风格或Nathaniel Hawthorne风格。也可为用户自己的写作风格定制一般和专用概貌。
4.语法类型(Grammatical Type),也作词性(Part of Speech)——包括名词、代词、形容词、动词、副词、介词、连词等等的语言元素。
5.习语(Idiom),也作短语(Phrase)——具有特定含意的单词群组
6.标记(Tagging)——标识句子内的单词的语法类型。
附图说明
结合附图,从以下详细描述中可以更充分地理解和认识本发明,附图中:
图1是根据本发明优选实施例的用于语言增强软件应用的用户界面的第一图示;
图2是根据本发明优选实施例的用于语言增强软件应用的用户界面的第二图示;
图3是根据本发明优选实施例的自然语言增强器的简化框图;
图4是根据本发明优选实施例的训练或学习阶段的简化流程图,在该阶段中用于给定概貌的数据库表被填充了语言条目;
图5是根据本发明优选实施例的增强阶段的简化流程图,其中文本基于给定概貌的数据库表而被增强;
图6是根据本发明优选实施例的识别处理或标记的简化流程图;
图7A是根据本发明优选实施例的单词对匹配处理的简化流程图;
图7B是根据本发明优选实施例将单词对之间的匹配延伸到其上下文等同物之间的匹配的简图;
图8是根据本发明优选实施例的理解处理的简化流程图;
图9A和图9B是根据本发明优选实施例的使用频率制表的简化流程图;
图10是根据本发明优选实施例的习语处理的简化流程图;
图11是根据本发明优选实施例的自然语言增强器的web服务器实施例的简化流程图;
图12是根据本发明优选实施例的自然语言增强器的web服务形式的简化框图;以及
图13是根据本发明优选实施例的带歧义单词的上下文分辨的示例的简图。
具体实施方式
本发明提供了一种通过向用户或作者给出增强建议来增强自然语言文本的方法和装置。本发明可实现为客户端内的独立软件或硬件,或者实现为服务器-客户端体系结构内的web服务。这种在线web服务接收来自客户端的输入文本,并返回用于增强文本的建议。
如上所述,现有技术字处理程序通过检测拼写和语法错误并建议更正来进行操作。经常,所建议的对拼写和语法错误的更正导致文本偏离其预期含意。这种偏离例如产生于单词使用的歧义、风格差异和语音变化。例如,措辞“hard labor”可以指耗费体力的工作,或者难产;“take off”和“take over”具有不同的含意,虽然他们都使用相同的动词;表示很小的“minute”和表示小时的一部分的“minute”的语音不同;“running outof”可以指迅速移动,比如“running out of the house”,或者指耗尽,比如“running out of bread”。在错误的上下文中使用单词或措辞,尤其是不以某个自然语言为母语的人在错误的上下文中使用单词或措辞,会导致混淆和费解。
本发明克服了现有技术拼写和语法检查器的局限性,并检测由歧义引起的错误,如下面所描述的。
自然语言的叙述可以按多种方式来表达。一般,谨慎选择名词、形容词、动词和副词会传达特殊的强调和精神。形容词和副词的选择可以给人留下特定印象。例如,叙述“I’ll leave it in your capable hands”比起叙述“I’ll leave it in your hands”传达了更高级别的评价。形容词“capable”向该句子添加了精神。
通过添加新词性并通过使用现有词性的不同上下文等同物来自动增强句子的能力是语言处理上的重大进步。本发明使得用户能够以不同的风格和语调来表达同样的基本概念。本发明的用户简单地以基本形式叙述其意图,本发明会引导他经过一个逐步的过程,以获得所需的语言表达。例如,通过更改词性并添加新词性,可将基本句子“I’m happy with yourwork”转换成含意更丰富的句子“I’m very pleased with your excellentperformance”。根据本发明的优选实施例,用户在句子中的单词的上下文等同物中进行选择,所述等同物例如是(1)“happy”、“content”、“pleased”、“thrilled”或“satisfied”;和(2)“work”、“performance”、“achievement”、“labor”或“results”。上下文等同物常常反映不同的细微差别,并且向句子中引入精神。
优选地,本发明还给出了可供用户选择的新的词性。优选地,本发明为句子所建议的更改和添加保持了句子的整体语法合法性。
在优选实施例中,本发明基于按语法类型和上下文功能的分类,将具有相似上下文的单词群组组织成上下文等同群组。优选地,具有多个含意或语法类型的单词属于多于一个群组。上下文等同群组在分辨歧义时有用。上下文等同物不仅是同义词——它们反映了不同风格并且可以为句子赋予新的方面。
在优选实施例中,本发明在增强句子之前,检查句子的拼写错误和语法正确性。
用户界面
现在参考图1,该图是根据本发明优选实施例的用于语言增强软件应用的用户界面的第一图示。图1中所示出的是屏幕110,包括文本框120、丰富建议(enrichment suggestion)的可滚动列表130和来自辞典的同义词列表140。屏幕110中还包括概貌列表150,通过该列表用户可选择与要进行的语言丰富相关的特定概貌。
如图1所示,文本框120中的句子“This is a test”被分析。单词“word”被加下划线,列表130和列表140中的建议适用于此单词。列表130包括可以与单词“test”组合的形容词和代词;例如“the genuinetest”、“lost the test”和“ready for the test”。列表140包括单词“test”的同义词,例如“appraisal”、“assessment”和“check”。用户可从列表130和列表140中选择项目以增强文本框120中的句子。
列表130和140中显示的项目按星级来分等级;例如,列表130中的“genuine”被分级为四星,列表中的“appraisal”被分级为五星。星级对应于得分。在优选实施例中,本发明优选地根据项目在文本中被使用的频率来为项目分配分数,虽然可以意识到,其他得分标准也可取代使用频率或与使用频率结合使用。
现参考图2,该图是根据本发明优选实施例的用于语言增强软件应用的用户界面的第二图示。图2中示出的是被弹出窗口10覆盖的屏幕110,这使得用户能够接收来自丰富列表130和辞典列表140(图1)的项目。
现参考图3,该图是根据本发明优选实施例的自然语言增强器的简化框图。图3中示出的是处理输入文本并产生用于增强的文本的建议的***300。如图3所示,输入文本被字符串接收器310接收,并被自然语言解析器320处理。自然语言解析器320包括单词标记器330,该单词标记器优选地标记或识别来自接收到的文本的句子中的单词的角色。自然语言解析器320所生成的标记后的文本被自然语言增强器340处理,该自然语言增强器包括用于得出句子中的单词的上下文的上下文分析器350。基于得出的上下文,自然语言增强器生成一个或多个用于增强文本的建议。
在本发明的优选实施例中,自然语言增强器340使用语言信息数据库来得出建议。数据库在图3中被表示为数据库管理***360。优选地,数据库管理***360是关系数据库***。关系数据库利用链接表及其列条目来存储信息。下文中描述的表I~XIV是存储语言信息的关系数据库表的示例。本领域的技术人员可以意识到,可使用诸如XML文档之类的其他数据结构来取代关系数据库。
本发明还提供了一种用于生成关系数据库管理***360中存储的数据库表的方法和装置。优选地,数据库表是通过用训练器模块370处理用于训练或学习的文本输入来填充的。优选地,训练器模块370接收来自自然语言处理器320的标记后的文本,但是训练器模块370并不处理文本以便增强,而是处理文本以便得出用于存储在数据库管理***360中的语言信息。优选地,训练器模块370包括匹配处理器380,用于识别联合使用的单词的上下文之间的关系,正如以下参考图7A和图7B所述的。
在本发明的优选实施例中,数据库管理***360存储用于多个概貌的语言数据,并且自然语言增强器340和训练器模块370各自使用和生成对给定概貌特定的语言信息。给定概貌可以是特定概貌,例如医学、法律或科学概貌,或者一般概貌。
正如上文中参考图3所提到的,在优选实施例中,本发明包括两个阶段:学习阶段(Learning Phase),在该阶段中分析训练文本文件,并且基于训练文本文件,用语言数据填充数据库表;以及增强阶段 (Enhancement Phase),在该阶段中基于学习阶段中填充的表来增强输入文本。
学习阶段
学习阶段分析输入训练文本,并构建数据库表。训练文本可以是来自诸如教科书和杂志文章这样的专业出版物的文本,以及来自因特网上的web页面的文本。
在本发明的优选实施例中,学习阶段包括识别过程(Identification Process)匹配过程(Matching Process)。识别过程优选地识别来自输入文本文件内的句子的单词,并将识别出的单词链接到数据库内的相关数据。具体而言,数据库被搜索,以尝试在数据库表中定位识别出的单词,并且关于使用形式、语法类型和一个或多个相关联的含意的信息被链接到所述单词。此外,单词优选地被链接到一个或多个包括它们的上下文等同群组。识别过程在下文中参考图6来描述。
优选地,单词基于语法类型和上下文被分类到上下文等同群组中。具有多于一种语法类型的用法或者具有多于一种含意的单词优选地出现在多于一个上下文等同群组中。
匹配过程优选地识别如下的在句子内联合使用的语法类型对:
名词到名词匹配——匹配联合在一起出现的名词,例如由介词或助动词隔开的名词。优选地,来自不同句子成分的名词不被匹配。例如,在句子“His achievement was a breakthrough in the field of mathematics”中,名词“field”和“mathematics”被匹配,而它们中的任何一个都不与“achievement”匹配。
动词到动词匹配——匹配联合在一起出现的动词。例如,在句子“Shewanted to take the dog home”中,动词“to want”被与动词“to take”匹配。优选地,来自不同句子成分的动词不被匹配。
形容词到名词匹配——匹配与名词联合出现的形容词。例如,在句子“The sun set in the dark blue sea”中,形容词“dark”和名词“sea”被匹配;形容词“blue”和名词“sea”也被匹配。优选地,名词不被与处于不同句子成分中的形容词匹配。
副词到动词匹配——匹配与动词联合出现的副词。例如,在句子“Hesuddenly looked into her eyes and instinctively stepped aside”中,副词“suddenly”被与动词“looked”匹配;副词“instinctively”被与动词“stepped”匹配。优选地,动词不被与处于不同句子成分中的副词匹配。介词到名词匹配——匹配与名词联合出现的介词。例如,在句子“Therewas something hidden under the floor”中,介词“under”被与名词“floor”匹配。优选地,名词不被与处于不同句子成分中的介词匹配。
在本发明的优选实施例中,两个单词之间的匹配被延伸到包含这些单词的上下文等同群组之间的匹配。具体而言,在两个单词,比如说W1和W2被匹配后,它们的上下文等同群组被检查以查找许可的匹配。具体而言,每个包含W1的上下文等同群组(比如说G1)被检查,以查找与每个包含W2的上下文等同群组(比如说G2)的匹配。对于满足检查的上下文等同群组匹配,群组本身被匹配,这帮助将W1和W2之间的匹配延伸到来自两个各自的群组的单词对。匹配信息优选地被存储在数据库管理***360(图3)内。
例如,在句子“The boy gave the flowers to the woman”中,名词-动词对“boy”-“to give”、“flowers”-“to give”和“woman”-“to give”被匹配。优选地,当这种匹配发生在具有多于一个含意的单词之间时,只有先前确定的这种单词的含意被匹配。每个包含来自上述示例性名词-动词对的名词的上下文等同群组都被检查,以查找与每个包含成对动词的上下文等同群组的匹配。只要存在这种链接,则匹配被延伸,使得名词的上下文等同群组中的单词被与动词的上下文等同群组中的单词相匹配。匹配在下文中参考图7来描述。
经常,在填充数据库表时,会遇到相同的单词、短语、名词-形容词对、副词-动词对或名词-动词对。在优选实施例中,本发明跟踪数据库表中的单词和单词对条目的使用频率,以便能够向条目分配等级或得分。从而,例如,基于使用频率,可以为一个名词-形容词对分配比另一个名词-形容词对更高的得分。数据库表中项目的得分帮助改进增强阶段,这是因为得分可用于使一个选择优于另一个。在下文中参考图8A和8B描述使用频率制表。
在本发明的优选实施例中,通过存储与在用户的句子中找到的错误相关的信息来得出用户的错误概貌。
现参考图4,该图是根据本发明优选实施例的学习或训练阶段的简化流程图,其中用于给定概貌的数据库表被填充了语言条目。学习阶段开始于步骤405处,并对所有概貌循环。只要在步骤410处确定还有概貌需要处理,则在步骤415处选择下一概貌P。然后,学习阶段对与概貌P相关联的所有训练文本文件循环。只要在步骤420处确定还有与概貌P相关联的训练文本文件需要处理,则在步骤425处选择文本文件T。然后,学习阶段对文本文件T内的文本的所有句子循环。只要在步骤430处确定文本文件T内还有句子需要处理,则在步骤435处选择下一句子S。
在步骤440处,学习阶段从句子S中提取短语,并将其存储在下文中参考图XIII描述的短语表(Phase Table)中。在步骤445处,通过下文中参考图6描述的识别过程,根据语法类型标记句子S中的单词。在步骤450处,基于句子S中的单词,更新辞典。辞典优选地被存储在一个或多个数据库表中。在步骤455处,名词-形容词、副词-动词和名词-动词的组合被匹配过程所匹配,并且在步骤460处,结果被存储在一个或多个适当的数据库表中。匹配过程在下文中参考图7来描述。在步骤465处,正如下文中参考图9A和图9B所描述的,为数据库条目累计使用频率。
在步骤465之后,控制循环回到步骤430,并且如果还有文本文件T的未经处理的句子,则控制前进到步骤435;否则控制循环前进到步骤420。如果还有概貌P的未经处理的训练文本文件,则控制前进到步骤425;否则,控制循环回到步骤410。如果还有未经处理的概貌,则控制前进到步骤415;否则在步骤460处学习阶段结束。
在本发明的优选实施例中,学习阶段还从输入文本得出写作风格;例如,副词是否被用于动词之前或之后。因此,增强阶段可建议副词相对于动词的适当放置方式。类似地,学习阶段得出关于与名词一起使用的代词以及与动词一起使用的介词的信息。
可以意识到,学习阶段类似于人类思维从读物文本中学习单词组合然后在写作时使用这些组合的方式。
丰富阶段
在本发明的优选实施例中,丰富阶段包括识别过程理解过程 (Comprehension Process)。识别过程与学习阶段中使用的识别过程类似,在下文中参考图6来描述。理解过程在下文中参考图9来描述。
理解过程优选地使用在句子内发现的单词对匹配来确定单词的上下文。一般而言,只要两种语法类型联合出现在句子内,则其中一种类型只能与另一种类型的一个上下文或含意相关联。例如,出现在名词前的形容词一般仅与名词的一个上下文或含意相关联。这样,句子内的每个单词一般都帮助降低句子中可能的歧义。
当分析具有两个联合的语法类型的句子时,可能出现这样的情形:一种语法类型的上下文等同物与另一种语法类型的任何上下文等同物都不匹配。这种情形在这里被称为理解失败。优选地,当发生这种情形时,查阅语音表以找出有相似发音语音但有拼写不同的单词,这些单词可取代句子中的两种语法类型中的任何一个或两者。如果这样就能获得匹配,则向用户建议这种语音相似替换,以便进行语言增强。优选地,首先向用户建议具有较接近的语音相似性的替换单词,然后才建议不那么相似的替换。
例如,对于句子“He spoke to his sun”,“speak”和“sun”之间的匹配显示出动词“to speak”的上下文等同物中没有一个与名词“sun”的上下文等同物中的任何一个相匹配。利用语音表,单词“son”被发现,并且作为“sun”的可能替换被测试。然后在动词“to speak”或其上下文等同物之一与名词“son”或其上下文等同物之一之间发现了匹配,因此向用户提供以下建议:用“son”替换“sun”。
语音表被用于量化语音相似性。它们可以回溯到早在1918年的Soundex编码***,其中,四位数字被用于表示单词的语音发音。一般,Soundex***将除“H”和“W”外的英文字母划分成七个类别,并且向每个类别分配数字表示。Soundex***使用一种算法来将数字表示转换为Soundex代码。具有相同Soundex代码的单词一般发音相似。
增强是这样一种过程,其用于:(i)提供对现有名词、形容词、动词和副词的所建议的上下文等同物;(ii)建议新的形容词和副词,用于在句子可被增强的位置处结合在句子中,同时保持语法正确性;以及(iii)建议习语来替换词性,反之亦然。一般而言,在执行理解过程后,只会找到一个反映用户意图的一致的有意义的上下文。在增强处理期间,向用户建议与有意义的上下文相对应的上下文等同物和附加语法类型。在找到多于一个一致的有意义的上下文的情况下,优选地,处理每个这种有意义的上下文,并且基于其中每一个向用户进行建议。
例如,考虑句子“I am happy with your work”。单词“happy”与动词“to be”的正确形式“am”联合出现,从而,能被另一个作为happy的上下文等同物的形容词所替换,比如被“pleased”替换。类似地,单词“work”可由上下文等同的名词所替换,例如由“performance”、“results”或“achievement”替换。除了单词替换外,可添加另外的单词,其中包括可以与“happy”成对的上下文相关副词,例如“absolutely”和“very”,以及可以与“work”成对的上下文相关形容词,例如“brilliant”、“extraordinary”和“outstanding”。
在本发明的优选实施例中,用户可通过选择特定丰富概貌来细化丰富阶段。诸如法律、医学和科学概貌这样的专业概貌,或者基于特定作者或诗人的语言概貌可被选择,并且相应地,增强阶段被限制到与所选中的概貌相对应的数据库表。
优选地,用户可在增强阶段期间随时切换概貌。如果用户不选择特定概貌,则优选地使用一般概貌作为增强的默认设置。
在本发明的优选实施例中,如上文中关于学习阶段和下文中参考图9A和图9B所描述的,增强过程基于所存储的在学习阶段期间确定的使用频率,为被建议给用户的单词分等级。例如,考虑句子“They foundevidence that he had committed the crime”,并且假设用户选择了法律丰富概貌。基于此概貌,可以位于名词“evidence”之前的形容词包括诸如“circumstantial”、“compelling”、“sufficient”、“insufficient”、“strong”、“weak”、“enough”等等。优选地,这些形容词根据使用频率被分级,并且最高等级的形容词和选项“更多”(“more”)一起被提供给用户作为增强建议,所述选项“更多”用于显示更多的具有较低等级的使用频率的形容词。或者,用户优选地可添加他自己选择的形容词,不论该形容词是否被作为建议给出。类似地,用户可从诸如“vicious”这样的建议中选择位于名词“crime”之前的形容词,并且他可以从诸如“intentionally”和“willfully”这样的建议中选择位于动词“committed”前的副词,这些建议是根据使用频率来分等级的。此外,名词“evidence”和“crime”的上下文等同物以及动词“found”和“committed”的上下文等同物也被建议给用户,这些等同物是根据使用频率来分等级的。或者,用户可分别用他自己选择的名词和动词来替换名词和动词,不论这些替换是否被作为建议给出。
现参考图5,该图是根据本发明优选实施例的增强阶段的简化流程图,其中文本基于给定概貌的数据库表而被增强。丰富阶段开始于步骤505处,并且对文本的所有句子循环。只要在步骤510处确定还有句子需要处理,则在步骤515处选择下一句子S。在步骤520处,丰富阶段识别句子S内的短语。在步骤525处,利用下文中参考图6描述的识别过程,句子S被解析,并且根据语法类型,单词被标记。在步骤530处,理解过程被用于分辨歧义,并确定句子S中的单词的上下文。理解过程在下文中参考图8来描述。只要在步骤535处确定还有概貌需要处理,则在步骤540处选择下一概貌P。在步骤545处,增强阶段基于与概貌P相对应的数据库表中所存储的辞典,为句子S中的单词建议同义词。在步骤550处,增强阶段为每个名词建议形容词,在步骤555处,丰富阶段为每个动词建议副词。
在步骤555之后,控制循环回到步骤535,并且如果还有未经处理的概貌,则控制前进到步骤540;否则,控制循环回到步骤510。如果还有未经处理的文本句子,则控制前进到步骤515;否则,在步骤560处增强阶段结束。
识别过程
现参考图6,该图是根据本发明优选实施例的识别处理或标记的简化流程图。优选地,句子中单词的标记是由自然语言解析器来执行的,所述自然语言解析器例如是步骤610~630中的移位-归约(shift-reduce)解析器。移位-归约解析器在J.Allen,“Natural Language Understanding,2ndEdition”,1995,Benjamin Cummins Publishing Co.,pages 163-170中被描述。
匹配处理
现参考图7A,该图是根据本发明优选实施例的单词对匹配处理的简化流程图。如图7A所示,匹配处理开始于步骤705处,并且在步骤710处识别名词-名词对,这种名词-名词对包括联合在一起使用的表示为名词1和名词2的两个名词。在步骤715处,名词1的上下文等同群组,比如说G1,被与名词2的上下文等同群组,比如说G2相匹配,从而将名词1和名词2之间的匹配延伸到了群组G1中的名词和群组G2中的名词之间的匹配。
步骤720和725将类似的匹配处理应用到动词-动词对。步骤730和735将类似的匹配处理应用到名词-形容词对,步骤740和745将类似的匹配处理应用到动词-副词对。然后在步骤750处,处理终止。
现参考图7B,该图是根据本发明优选实施例将单词对之间的匹配延伸到其上下文等同物之间的匹配的简图。图7B中示出的是两个上下文等同群组;用于与移动相关的动词的第一群组G1,以及用于与步速相关的副词的第二群组G2。如果在步骤710处(图7A),由图7B中的实线所指示的单词对“to stroll”和“slowly”的多个形式例如在句子“Theystrolled slowly through the hillside”内被联合使用,则在G1中的单词和G2中的单词之间指示出匹配。例如,如图7B中的虚线所示,在“to walk”和“fast”之间、“to run”和“quickly”之间以及“to stride”和“quickly”之间指示了匹配。
优选地,上下文等同群组之间的匹配被存储在关系数据库表中,例如下文中的表XV。
理解处理
理解处理为句子中的单词确定可行且彼此一致的上下文。与局部到每个单词或单词群组的拼写检查器和语法检查器不同,理解处理全局地应用到整个句子。句子中的单个单词的变化可能影响对整个句子的理解。
在本发明的优选实施例中,理解处理将句子作为一连串成分来分析,其中一个成分由一个或多个单词组成。例如,短语“in case of”被当作好像一个单词来对待。本发明通过将成分识别为单元而不是多个个体单词,来获得句子分析的精确结果。
理解处理通过识别单词所属的上下文等同群组来确定单词的上下文。单词的不同上下文一般与不同的上下文等同群组相对应。
理解处理可被视为对彼此联合在一起使用的单词群组的分析。如果句子的单词被安排成图的节点,则单词之间的边缘对应于在句子内联合在一起使用的单词对。在此框架中,理解处理可被看作以整个句子一致的方式将上下文分配到图的节点。为了使由边缘连接的两个节点的上下文一致,相应的上下文等同群组必须已在匹配过程(图7)期间被匹配。换言之,一致性要求由边缘连接的两个单词或其上下文等同物必须已在学习阶段(图4)期间被匹配。从而,可意识到,图中的边缘创建了单词的上下文之间的相关性,从而一个单词的上下文的变化影响到另一个单词的上下文。
现参考图8,该图是根据本发明优选实施例的理解处理的简化流程图。如图8所示,理解处理开始于步骤810处,并且在步骤820处,识别联合在一起使用的单词对单词1-单词2。在步骤830处,过程尝试分配上下文给单词1和单词2。在步骤840处,过程识别与步骤830处分配的上下文相对应的单词1的上下文等同群组G1和单词2的上下文等同群组G2。
在步骤850处,确定在匹配过程(图7)期间是否在群组G1和G2之间生成了匹配。如果是,则在步骤850处,单词1和单词2的当前上下文是可行的并被记录,并且在步骤860处,处理结束。否则,如果在步骤870处确定对于单词1和单词2存在其他可能的上下文,则过程返回步骤830,并检查其他上下文是否可行。如果在步骤870处,对于单词1和单词2不存在尚未被检查可行性的可能的上下文,则在步骤880处确认理解失败。
使用频率制表
优选地,对于每个增强概貌P,按以下格式为个体单词存储使用频率
·[单词W][概貌P][出现次数N],其中N是与W出现于其中的特定上下文相对应的输入文本内单词W的出现次数;
并且按以下格式为相关联的单词对存储使用频率
·[单词W][群组G][概貌P][出现次数N],其中N是单词W与来自上下文等同群组G的单词联合出现的出现次数。
[W][P][N]使用频率指示在符合概貌P的文本内,单词W出现的频率。
[W][G][P][N]使用频率指示在符合概貌P的文本内,形容词或副词W与来自群组G的单词联合出现的频率。
例如,假设在概貌P的学习阶段期间遇到了句子“His conviction wasbased on circumstantial evidence”。单词对“circumstantial”和“evidence”被计算为[单词“circumstantial”][群组“evidence”][概貌P][出现次数15],指示“circumstantial”与在“evidence”所属上下文等同群组G内的名词联合使用,在学习阶段中到目前为止总共15次。
现参考图9A和图9B,它们是根据本发明优选实施例的使用频率制表的简化流程图。制表开始于步骤904处,并且如果在步骤908处确定还有另一句子要处理,则在步骤912处处理下一句子。否则,如果所有句子都已处理,则在步骤916处,制表终止。在步骤920处,执行上文中参考图6描述的识别过程,在步骤924处,执行上文中参考图8描述的理解过程。
理解过程可能导致确定出句子的单个的一致的上下文。但是,如果无法确定一致上下文,则也可能导致理解失败,如图8所示,或者如果确定出多于一个一致的上下文,则可能导致理解歧义。如果在步骤928和932处确定发生理解失败或理解歧义,则当前句子被丢弃,并且控制返回步骤908。否则,如果确定出单个的一致的上下文,则在步骤936和940处,提取句子中的名词、动词、形容词和副词,以用于单个单词频率制表。如果在步骤944处确定对于名词、动词、形容词或副词已存在条目,则在步骤948处将其计数器增加1。否则,在步骤952处,为名词、动词、形容词或副词创建新条目,并将其计数器初始化为1。
在步骤956和960处,从句子中提取名词之前是形容词的名词-形容词对。如果在步骤964处确定对于名词-形容词对已存在条目,则在步骤968处将其计数器增加1。否则,在步骤972处,为名词-形容词对创建新条目,并将其计数器初始化为1。类似地,步骤976~992为动词-副词对制表,在完成这些步骤后,过程返回步骤918,以处理另一个句子。
习语处理
通过用适当的习语来替换一个或多个单词常常能够增强句子。在本发明的优选实施例中,正如在下文中参考表XII所描述的,习语与提示(cue)或关键词列表一起被存储,其中关键词被链接到该习语,并且每个关键词具有与习语类似的含意。优选地,关键词或者是(i)具体语法类型;或者是(ii)单词的词根形式,其中从词根得出的所有形式也都链接到该习语,如下文中参考表XIII所描述。
在完成理解过程(图5的步骤530)后,增强阶段向用户建议用相应的习语来替换关键词。例如,在处理句子“Carrying out such an operationis risky”时,单词“risky”可以是习语“a long shot”的关键词。相应地,向用户给出以下建议:用“a long shot”替换单词“risky”。
当用习语替换关键词时,常导致句子中的语法错误,这是因为习语所需的正确副词和形容词形式可能与关键词所需的正确形式不同。优选地,本发明根据与习语相联合的正确用法来得出用于更正语法错误的适当建议。这种更正可包括删除关键词前的副词、形容词、介词和动词,以及在习语之前***连接动词。在本发明的优选实施例中,习语的适当的连接动词和它一起被存储在数据库中。
现参考图10,该图是根据本发明优选实施例的习语处理的简化流程图。如图10所示,处理开始于步骤1010处,如果在步骤1020处确定还有另一习语需要处理,则在步骤1030处,将下一习语添加到数据库表。在步骤1040和1050处,与习语相关的关键词被标记,以便引用习语。如果没有另外的习语要处理,则在步骤1060处,处理结束。
客户端-服务器实施例
在优选实施例中,本发明被实现为web服务,其将输入文本当作请求来进行处理,并且提供增强建议作为响应。这种web服务可以用Web服务描述语言(Web Services Description language,WSDL)来描述,并且被张贴在通用描述发现和综合(Universal Description Discovery andIntegration,UDDI)注册中心中。
现参考图11,该图是根据本发明优选实施例的自然语言增强器的web服务的简化框图。图11中示出的是包括web浏览器1120的客户端计算机1110。客户端计算机向解析器服务器计算机1130发送文本,作为对在解析器服务器1130上运行的语言增强web服务1140的输入。解析器服务器1130包括web服务器1150,其一般通过利用HTTP协议,接收来自web浏览器1120的请求,并且一般利用HTTP协议,向web浏览器1120返回响应。
语言增强web服务1140分析输入文本并生成增强建议。如下所述,增强建议包括对位于字典服务器1160上的单词的引用。字典服务器1160包括数据库管理器1170,其根据单词的索引存储和取回单词。优选地,由解析器服务器1130生成的增强建议内对单词的引用是对数据库管理器1170内表的索引。
当客户端1110接收到来自解析器服务器1130的带有增强建议的响应时,它必须分辨单词引用,以便向用户显示建议。客户端1110向字典服务器1160发送带有一个或多个单词引用的请求,字典服务器1160将被引用的单词发送回客户端1110。优选地,客户端1110在本地缓存内将引用和单词存储为键-值对,以使它们易于被访问,以便解释将来来自解析器服务器1130的响应。在分辨了来自解析器服务器1130的响应内的单词引用后,web浏览器1120可以优选地在web页面内以友好的格式向用户显示建议。
现参考图12,该图是根据本发明优选实施例的自然语言增强器的web服务实施例的简化流程图。图12中示出了三列:最左边的列用于由诸如解析器服务器1130(图11)这样的解析器服务器所执行的步骤;中间列用于由诸如客户端1110这样的客户端计算机所执行的步骤;最右边的列用于由诸如字典服务器1160这样的字典服务器计算机所执行的步骤。
在步骤1205处,客户端计算机向解析器服务器发送一个或多个句子,作为对web服务的输入。一般,对web服务的输入采取XML文档的格式。在步骤1210处,解析器服务器验证客户端,以便授权使用web服务。在步骤1215处,解析器检查位于客户端本地缓存中的语言数据的版本。版本信息可以与输入文本一起被客户端发送到解析器服务器,或者可以在之后解析器服务器请求时由客户端提供。如果解析器服务器发现位于客户端缓存中的数据的版本不是当前版本,则在步骤1220处,它指示客户端从其本地缓存中清除旧的语言数据。
在步骤1225处,解析器服务器运行web服务,并且生成输入文本的增强建议。在步骤1230处,解析器服务器将建议发送回客户端,该建议优选地采取web服务输出的格式。在本发明的优选实施例中,句子的增强建议被编码为四个参数,如下:
Word_index——单词在句子中的相对位置
Action_code——建议动作的代码,包括1-替换、2-删除、3-在前***和4-在后***
Priority(优先级)——遵从建议的重要性的代码,包括1-必须、2-推荐和3-任选
Word_ID——单词在数据库表中的索引
以下是从web服务输出的与输入句子“This are a step for thecompany”相对应的示例性输出。
Figure A20048001912500361
第一行指示句子中的第二个单词,即“are”,必须被索引为8432的单词(“is”)替换。第二行指示句子中的第四个单词,即“step”,可以任选地由索引为6532的单词(“leap”)替换。第三行指示句子中的第四个单词,即“leap”,之前可以任选地加上索引为7653的单词(“enormous”)。索引为8432、6532和7653的单词的标识符是从字典服务器确定的,如下所述。
本领域的技术人员可以意识到,也可使用其他的建议编码来取代上述四参数编码。
以上述四参数形式传输建议的一个优点是只有原始和增强文本之间的建议的更改被传输,从而使需要在因特网上传输的数据量最小化。
回到图12,在步骤1235处,客户端接收来自解析器服务器的按上述方式编码的增强建议。在步骤1240处,客户端检查响应中索引的单词,如上面的单词8432、6532和7653,是否已存在于客户端本地缓存中。如果否的话,则在步骤1040处,客户端请求来自字典服务器的单词。在步骤1045处,字典服务器处理客户端请求,在步骤1050处,字典服务器将被请求的单词发送回客户端。优选地,字典服务器还向客户端发送版本号。
在步骤1260处,客户端接收到单词,在步骤1265处,客户端将单词存储在其本地缓存中,以供将来参考。优选地,客户端还将版本号存储在其本地缓存中,以便能够确定缓存数据是最新的还是过时的。在步骤1270处,客户端优选地在web页面内以友好的格式向用户显示建议。如果在步骤1240处客户端确定响应中索引的所有单词已经位于其本地缓存中,则控制从步骤1240直接前进到步骤1270。
数据库表
如上所述,在优选实施例中,本发明构建单词关系的数据库。第一个表,即以下的表I,充当辞典,并且包括同义单词列表。
Figure A20048001912500371
句子中的单词充当公知的语法角色,并且按照类型被相应标识,所述类型包括名词、代词、形容词、动词、副词、介词、连词等等。优选地,为每种语法类型提供表,例如以下的表II~XII。
以下表II是名词表(Noun Table),其中包括用于名词的单数和复数形式的字段,以及关于名词是否能以可数形式使用的指示符。
根据本发明的优选实施例,名词表中的名词条目还被链接到这些名词所出现的一个或多个上下文等同群组。例如,名词“achievement”的条目优选地包含到“performance”上下文等同群组群组的链接,该群组中包含另外的单词,例如“performance”、“results”和“work”。
以下表III是指代表(Referential Table),该表是第一、第二和第三人称名词指代的列表。
Figure A20048001912500381
以下表IV是代词表(Pronoun Table),其中包括用于代词的单数和复数形式的字段。
Figure A20048001912500382
以下表V是形容词表(Adjective Table),其中包括用于形容词的比较级和最高级形式的字段。
优选地,形容词表中的形容词条目还包括到形容词所属的一个或多个上下文等同群组的链接。例如,形容词可被链接到“color”群组、“shape”群组或“size”群组。
以下表VI是量词表(Quantifier Table),该表是量词的带索引列表。
Figure A20048001912500391
以下表VII是动词表(Verb Table),包括用于动词的不定式、第三人称单数的一般现在时形式、现在进行时形式、一般过去时形式和动词的过去完成时形式的字段。
Figure A20048001912500392
优选地,动词表中的动词条目还包括到动词所属的一个或多个上下文等同群组的链接。例如,动词“to run”的条目优选地包括到动词的“physicalexercise”群组的链接,该群组包括诸如“to jump”、“to walk”和“toswim”之类的另外的动词。由于动词“to run”还有“to manage”的含意,因此“to run”的条目优选地还包括到动词的“management”群组的链接。优选地,后跟不同介词的动词被视为不同动词,并且作为动词表中的不同条目出现。
优选地,动词表包含规则动词。诸如“be”、“can”、“dare”、“do”、“have”、“may”、“must”、“need”、“ought to”、“shall”、“used to”和“will”之类的助动词被硬编码在助动词表中。
表VIII是助动词表(Auxiliary Verb Table),该表是助动词的带索引列表。
Figure A20048001912500401
以下表IX是副词表(Adverb Table),其中包括用于副词的比较级和最高级的字段。
Figure A20048001912500402
优选地,副词表中的副词条目还包括到副词所属的一个或多个上下文等同群组的链接。例如,副词“slowly”可被链接到名为“degrees ofmovement”的上下文等同群组,该群组包括诸如“quickly”之类的其他副词。
以下表X是介词表(Preposition Table),该表是介词的带索引列表。
Figure A20048001912500403
Figure A20048001912500411
优选地,介词表中的介词条目还包括到介词所属的一个或多个上下文等同群组的链接。例如,介词的上下文等同群组可包括能够出现在某种类型的名词之前或之后的介词。
以下XI是连词表(Conjunction Table),该表是连词的带索引列表。
Figure A20048001912500412
以下表XII是习语表(Idiom Table)短语表(Phrase Table),该表具有用于习语及其提示的字段。
Figure A20048001912500413
本领域的技术人员可意识到,上述表II~XII是用于存储语法信息的多个表的示例。也可使用其他表来取代上述表。
在本发明的优选实施例中,提供了词根表(Root Table),以用于为不同语法类型的单词变体制表。这种表帮助分辨歧义。
Figure A20048001912500414
Figure A20048001912500421
例如,本发明优选地使用词根表XIII通过以下方式来更正如“Beautifulscenes attractive the attention of people”这样的句子:建议用户用动词“attract”替换形容词“attractive”。
在本发明的优选实施例中,如以上参考图4所描述的,根据与特定概貌相对应的训练文本文件,为每个概貌生成表II~XIII。一般,对于不同的概貌这些表是不同的。从而,本发明优选地以经验方式“学习”表II~XII的内容。
在本发明的优选实施例中,上下文等同群组以与上述表相分离的方式被存储在数据库中。优选地,上下文等同群组内包括的每个单词由指向适当适当表中与该单词相对应的条目的指针来指示。
优选地,本发明还使用计算机生成的表,该表充当单词用法字典 (Word Usage Dictionary),并且包括关于单词的使用方式的信息,如下所示:
Figure A20048001912500422
表XIV中的字段为:
单词索引(Word Index)——特定单词的进到辞典表(表I)的索引
群组(Group)——单词的上下文等同群组
语言类型(Language Type)——按语法类型的单词分类,包括名词、代词、形容词、动词、副词、介词、连词、前置词等等
词根表索引(Root Table Index)——进到词根表(表XIII)的索引
特定表引用(Specific Index)——与语言类型相称的进到名词表(表II)或代词表(表IV)或形容词表(表V)等的索引
短语引用(Phrase Reference)——进到短语表(表XII)的与包含单词的短语相对应的一个或多个索引的列表
习语引用(Idiom Reference)——进到习语表(表XII)的与可替换单词的习语相对应的一个或多个索引的列表
子习语引用(Sub-idiom Reference)——进到习语表(表XII)的与包含单词的习语相对应的一个或多个索引的列表
在本发明的优选实施例中,当正在分析某个单词,例如来自文本框120(图1)的单词“test”时,首先查阅单词用法字典表XIV,以找出该单词在字典辞典表I、词根表XII以及表II~XII中的一个或多个适当的特定表的索引。
优选地,具有多于一个含意的单词被存储在单词用法字典表XIV的多个行中——每个这种行与不同的含意相对应。
在本发明的优选实施例中,群组匹配表XV被用于基于匹配的上下文等同群组来分辨句子内的歧义。上下文等同群组的匹配在上文中参考图7A和7B描述。
以下表XV被示为具有两行,第一行用于与名词联合使用表示退出意义的短语“running out”,第二行用于与名词联合使用表示耗尽意义的短语“running out”。
Figure A20048001912500431
第一行指示与来自上下文等同群组V1的动词联合使用的来自上下文等同群组N1的名词。第二行指示与来自上下文等同群组V2的动词联合使用的来自上下文等同群组N1的名词。上下文等同群组N1是用于作为物理对象(physical object)的名词的群组,包括诸如“apple”、“bread”、“chair”和“dish”之类的名词。上下文等同群组V1是用于用来指示行为(activity)的动词的群组,包括诸如“to lift”、“to run”、“to step”和“to walk”之类的动词。上下文等同群组V2是用于用来指示缺乏(lackof)某事物的动词的群组,包括诸如“to deplete”、“to finish”、“tolack”和“to run out”之类的动词。表XV中所示的连接单词被用于在基于V1的上下文的用法和基于V2的上下文的用法之间进行区分。从而,在V1的上下文中,“running out”一般由前置词“the”连接到名词,而在V2的上下文中,“running out”一般由介词“of”连接到名词。
为了处理句子“John is running out of the yard”,本发明优选地执行以下步骤:
1.识别句子内的词性;并且
2.对于句子中的每个单词:
a.取回该单词可能属于的上下文等同群组的列表;并且
b.基于单词与句子中的其他词性及其上下文等同群组的组合,来识别最适当的上下文等同群组。
具体而言,动词“running out”被发现属于上下文等同群组V1和V2,名词“yard”被发现属于上下文等同群组N1,以及另一个用于测量单位的上下文等同群组N2。为了适当增强句子,优选地确定“running out”和“yard”的正确上下文。具体而言,根据表XV,使用将动词“runningout”与名词“yard”相连接的连接前置词“the”来分辨上下文;即附图应当被视为是举例说明的意义的而非限制的意义。

Claims (89)

1.一种用于语言增强的方法,包括:
接收文本;
识别所述文本内的语法结构;以及
为所述文本的至少一个原始部分建议至少一个替代文本部分,所述替代文本部分与所述原始部分的语法结构一致,并且具有与所述原始部分基本相同的含意,但是传达不同的印象。
2.如权利要求1所述的方法,其中所述替代文本部分当代替所述原始部分时,生成语法上正确的文本。
3.如权利要求1所述的方法,其中所述替代文本部分包括用于来自所述原始部分的名词的至少一个形容词。
4.如权利要求1所述的方法,其中所述替代文本部分包括用于来自所述原始部分的习语的至少一个同义词。
5.如权利要求1所述的方法,其中所述替代文本部分包括用于所述原始部分的至少一个习语。
6.如权利要求1所述的方法,其中所述替代文本部分包括用于来自所述原始部分的动词的至少一个副词。
7.如权利要求1所述的方法,其中所述文本的原始部分是单个单词。
8.如权利要求1所述的方法,其中所述文本的原始部分是分句。
9.如权利要求1所述的方法,其中所述文本的原始部分是习语。
10.如权利要求1所述的方法,其中所述替代文本部分符合选定的风格。
11.如权利要求10所述的方法,其中所述选定的风格是法律风格。
12.如权利要求10所述的方法,其中所述选定的风格是科学风格。
13.如权利要求10所述的方法,其中所述选定的风格是医学风格。
14.一种语言增强装置,包括:
存储器,用于存储文本;
自然语言解析器,用于识别所述文本内的语法结构;以及
自然语言丰富器,用于为所述文本的至少一个原始部分建议至少一个替代文本部分,所述替代文本部分与所述原始部分的语法结构一致,并且具有与所述原始部分基本相同的含意,但是传达不同的印象。
15.如权利要求14所述的装置,其中所述替代文本部分当代替所述原始部分时,生成语法上正确的文本。
16.如权利要求14所述的装置,其中所述替代文本部分包括用于来自所述原始部分的名词的至少一个形容词。
17.如权利要求14所述的装置,其中所述替代文本部分包括用于来自所述原始部分的习语的至少一个同义词。
18.如权利要求14所述的装置,其中所述替代文本部分包括用于所述原始部分的至少一个习语。
19.如权利要求14所述的装置,其中所述替代文本部分包括用于来自所述原始部分的动词的至少一个副词。
20.如权利要求14所述的装置,其中所述文本的原始部分是单个单词。
21.如权利要求14所述的装置,其中所述文本的原始部分是分句。
22.如权利要求14所述的装置,其中所述文本的原始部分是习语。
23.如权利要求14所述的装置,其中所述替代文本部分符合选定的风格。
24.如权利要求23所述的装置,其中所述选定的风格是法律风格。
25.如权利要求23所述的装置,其中所述选定的风格是科学风格。
26.如权利要求23所述的装置,其中所述选定的风格是医学风格。
27.一种计算机可读存储介质,存储了用于使得计算机执行以下步骤的程序代码:
接收文本;
识别所述文本内的语法结构;以及
为所述文本的至少一个原始部分建议至少一个替代文本部分,所述替代文本部分与所述原始部分的语法结构一致,并且具有与所述原始部分基本相同的含意,但是传达不同的印象。
28.一种用于消除句子内单词含意中的歧义的方法,包括:
对于训练文本内的多个句子中的每一个:
识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;以及
指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的;以及
对于由用户提交的句子:
按以下方式得出所述句子内的单词的一致的上下文:与单词对的得出的上下文相对应的在所述句子内联合使用的单词对之间被指定了匹配。
29.如权利要求28所述的方法,其中所述单词对W1和W2包括联合在一起使用的名词。
30.如权利要求28所述的方法,其中所述单词对W1和W2包括联合在一起使用的动词。
31.如权利要求28所述的方法,其中所述单词对W1和W2包括名词和所述名词之前的形容词。
32.如权利要求28所述的方法,其中所述单词对W1和W2包括动词和与所述动词相关联的副词。
33.一种用于消除句子内单词含意中的歧义的装置,包括:
自然语言解析器,用于识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;
数据库管理器,用于指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的;以及
上下文分析器,用于按以下方式得出所述句子内的单词的一致的上下文:与单词对的得出的上下文相对应的在所述句子内联合使用的单词对之间被指定了匹配。
34.如权利要求33所述的装置,其中所述单词对W1和W2包括联合在一起使用的名词。
35.如权利要求33所述的装置,其中所述单词对W1和W2包括联合在一起使用的动词。
36.如权利要求33所述的装置,其中所述单词对W1和W2包括名词和所述名词之前的形容词。
37.如权利要求33所述的装置,其中所述单词对W1和W2包括动词和与所述动词相关联的副词。
38.一种计算机可读存储介质,存储了用于使得计算机执行以下步骤的程序代码:
对于训练文本内的多个句子中的每一个:
识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;以及
指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的;以及
对于由用户提交的句子:
按以下方式得出所述句子内的单词的一致的上下文:与单词对的得出的上下文相对应的在所述句子内联合使用的单词对之间被指定了匹配。
39.一种web服务包括:
接收包括自然语言文本的一个或多个句子的请求;
得出至少一个用于增强所述一个或多个句子的建议;以及
返回包括所述至少一个建议的响应。
40.如权利要求39所述的web服务,其中所述至少一个建议被用以下参数编码:用于指定句子内的单词位置的第一参数、用于指定动作的第二参数、用于指定优先级的第三参数以及用于指定至少一个单词的第四参数。
41.如权利要求40所述的web服务,其中可能的动作包括替换、删除、在前***和在后***。
42.如权利要求40所述的web服务,其中可能的优先级包括必须、推荐和任选。
43.如权利要求40所述的web服务,其中所述第四参数是对位于单词字典内的至少一个单词的引用。
44.如权利要求43所述的web服务,其中所述单词字典位于字典服务器计算机中。
45.如权利要求39所述的web服务,其中所述至少一个建议根据使用频率被分等级。
46.如权利要求39所述的web服务,其中可能的建议包括用习语替换句子内的关键词。
47.如权利要求46所述的web服务,其中所述习语具有与所述关键词类似的含意。
48.如权利要求46所述的web服务,其中可能的建议包括修改与所述关键词相关联的文本。
49.如权利要求48所述的web服务,其中修改与所述关键词相关联的文本包括删除所述关键词之前的副词。
50.如权利要求48所述的web服务,其中修改与所述关键词相关联的文本包括删除所述关键词之前的形容词。
51.如权利要求48所述的web服务,其中修改与所述关键词相关联的文本包括删除所述关键词之前的介词。
52.如权利要求48所述的web服务,其中修改与所述关键词相关联的文本包括删除所述关键词之前的动词。
53.如权利要求46所述的web服务,其中可能的建议包括在所述习语之前***连接动词。
54.一种用于得出用在增强自然语言文本中的数据库表的方法,包括:
提供符合选定的概貌的训练文本,所述选定的概貌与特定类型的作者相对应;以及
对于所述训练文本内的多个句子中的每一个:
识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;以及
指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的。
55.如权利要求54所述的方法,其中所述选定的概貌是医学概貌。
56.如权利要求54所述的方法,其中所述选定的概貌是法律概貌。
57.如权利要求54所述的方法,其中所述选定的概貌是科学概貌。
58.如权利要求54所述的方法,其中所述选定的概貌与特定作者相对应。
59.如权利要求58所述的方法,其中所述特定作者是文学作者。
60.如权利要求58所述的方法,其中所述特定作者是指定的用户。
61.一种用于得出用在增强自然语言文本中的数据库表的装置,包括:
文本接收器,用于接收符合选定的概貌的训练文本,所述选定的概貌与特定类型的作者相对应;
自然语言解析器,用于识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;以及
上下文分析器,用于指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的。
62.如权利要求61所述的装置,其中所述选定的概貌是医学概貌。
63.如权利要求61所述的装置,其中所述选定的概貌是法律概貌。
64.如权利要求61所述的装置,其中所述选定的概貌是科学概貌。
65.如权利要求61所述的装置,其中所述选定的概貌与特定作者相对应。
66.如权利要求65所述的装置,其中所述特定作者是文学作者。
67.如权利要求65所述的装置,其中所述特定作者是指定的用户。
68.一种计算机可读存储介质,存储了用于使得计算机执行以下步骤的程序代码:
提供符合选定的概貌的训练文本,所述选定的概貌与特定类型的作者相对应;以及
对于所述训练文本内的多个句子中的每一个:
识别联合在一起使用的在句子内具有已知上下文的单词对W1和W2;并且
指定单词对V1和V2之间的匹配,其中V1在用于所述句子中时就上下文而言与W1是等同的,V2在用于所述句子中时就上下文而言与W2是等同的。
69.一种用于分辨自然语言句子内的上下文歧义的方法,包括:
提供多个上下文等同群组,其中所述上下文等同群组的特定对被指定为匹配,上下文等同群组是用于相同上下文中的具有相同语法类型的单词的群组;
解析自然语言句子,以识别所述句子内的单词的语法类型;
识别所述句子内的单词所属的上下文等同群组;以及
分辨所述句子内的有歧义的单词的上下文,所述上下文与所述识别出的上下文等同群组之间的匹配相一致。
70.如权利要求69所述的方法,其中所述提供、解析、识别和分辨适用于多种自然语言中的任一种。
71.如权利要求69所述的方法,其中上下文等同群组对之间的匹配被存储在至少一个关系数据库表中。
72.如权利要求69所述的方法,其中所述上下文等同群组是手动生成的。
73.如权利要求69所述的方法,其中匹配发生在包含彼此联合在一起使用的单词的上下文等同群组对之间。
74.如权利要求69所述的方法,其中连接单词被与上下文等同群组对之间的匹配相关联。
75.如权利要求74所述的方法,其中所述分辨是基于所述句子内存在特定连接单词。
76.如权利要求69所述的方法,其中等级被与上下文等同群组对之间的匹配相关联。
77.如权利要求76所述的方法,其中在所述分辨产生多个一致的上下文并且必须从中选择一个的情况下,所述等级被用于使一个匹配优先于另一个。
78.如权利要求76所述的方法,其中所述等级是基于使用频率的。
79.一种用于分辨自然语言句子内的上下文歧义的装置,包括:
存储器,用于存储多个上下文等同群组,其中所述上下文等同群组的特定对被指定为匹配,上下文等同群组是用于相同上下文中的具有相同语法类型的单词的群组;
自然语言解析器,用于解析自然语言句子,以识别所述句子内的单词的语法类型;
上下文识别器,用于识别所述句子内的单词所属的上下文等同群组;以及
上下文分辨器,用于分辨所述句子内的有歧义的单词的上下文,所述上下文与所述识别出的上下文等同群组之间的匹配相一致。
80.如权利要求79所述的装置,其中所述自然语言解析器、上下文识别器和上下文分辨器适用于多种自然语言中的任一种。
81.如权利要求79所述的装置,其中所述将上下文等同群组对之间的匹配存储在至少一个关系数据库表中。
82.如权利要求79所述的装置,其中所述上下文等同群组是手动生成的。
83.如权利要求79所述的装置,其中匹配发生在包含彼此联合在一起使用的单词的上下文等同群组对之间。
84.如权利要求79所述的装置,其中所述存储器存储与上下文等同群组对之间的匹配相关联的连接单词。
85.如权利要求84所述的装置,其中所述上下文分辨器基于在所述句子内存在特定连接单词,来分辨有歧义的单词的上下文。
86.如权利要求79所述的装置,其中等级被与上下文等同群组对之间的匹配相关联。
87.如权利要求86所述的装置,其中在所述上下文分辨器产生多个一致的上下文并且必须从中选择一个的情况下,所述上下文分辨器使用所述等级来使一个匹配优先于另一个。
88.如权利要求86所述的方法,其中所述等级是基于使用频率的。
89.一种计算机可读存储介质,存储了用于使得计算机执行以下步骤的程序代码:
提供多个上下文等同群组,其中所述上下文等同群组的特定对被指定为匹配,上下文等同群组是用于相同上下文中的具有相同语法类型的单词的群组;
解析自然语言句子,以识别所述句子内的单词的语法类型;
识别所述句子内的单词所属的上下文等同群组;以及
基于所述识别出的上下文等同群组之间的匹配,分辨所述句子内的有歧义的单词的上下文。
CNA2004800191253A 2003-07-03 2004-07-06 用于语言处理的方法和装置 Pending CN101346717A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/613,146 US20040030540A1 (en) 2002-08-07 2003-07-03 Method and apparatus for language processing
US10/613,146 2003-07-03

Publications (1)

Publication Number Publication Date
CN101346717A true CN101346717A (zh) 2009-01-14

Family

ID=34273210

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800191253A Pending CN101346717A (zh) 2003-07-03 2004-07-06 用于语言处理的方法和装置

Country Status (7)

Country Link
US (2) US20040030540A1 (zh)
EP (1) EP1644796A4 (zh)
JP (1) JP2007531065A (zh)
CN (1) CN101346717A (zh)
AU (1) AU2004269650A1 (zh)
CA (1) CA2530812A1 (zh)
WO (1) WO2005022294A2 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324604A (zh) * 2012-03-07 2013-09-25 国际商业机器公司 用于域特定的自然语言标准化的方法和***
CN103324621A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
CN106909276A (zh) * 2017-01-10 2017-06-30 网易(杭州)网络有限公司 用于实现电子读物内容互动的方法及设备
CN107148624A (zh) * 2015-06-22 2017-09-08 电子部品研究院 预处理文本的方法以及用于执行该方法的预处理***
CN108140019A (zh) * 2015-10-09 2018-06-08 三菱电机株式会社 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序
CN108255804A (zh) * 2017-09-25 2018-07-06 上海四宸软件技术有限公司 一种语言交流人工智能***及其语言处理方法
CN108519966A (zh) * 2018-04-11 2018-09-11 掌阅科技股份有限公司 电子书特定文本元素的替换方法及计算设备
CN110096707A (zh) * 2019-04-29 2019-08-06 北京三快在线科技有限公司 生成自然语言的方法、装置、设备及可读存储介质
TWI833226B (zh) * 2021-09-28 2024-02-21 美商萬國商業機器公司 一文字輸入之動態預先輸入建議

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070265834A1 (en) * 2001-09-06 2007-11-15 Einat Melnick In-context analysis
AU2003274592A1 (en) 2002-11-28 2004-06-18 Koninklijke Philips Electronics N.V. Method to assign word class information
US7373102B2 (en) * 2003-08-11 2008-05-13 Educational Testing Service Cooccurrence and constructions
US7158980B2 (en) * 2003-10-02 2007-01-02 Acer Incorporated Method and apparatus for computerized extracting of scheduling information from a natural language e-mail
CN1871638B (zh) * 2003-10-21 2012-01-25 皇家飞利浦电子股份有限公司 采用用户接口的智能语音识别
US8190419B1 (en) 2006-09-11 2012-05-29 WordRake Holdings, LLC Computer processes for analyzing and improving document readability
US20050283724A1 (en) * 2004-06-18 2005-12-22 Research In Motion Limited Predictive text dictionary population
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US7349924B2 (en) * 2004-11-29 2008-03-25 International Business Machines Corporation Colloquium prose interpreter for collaborative electronic communication
AU2005327096A1 (en) * 2004-12-01 2006-08-17 Whitesmoke, Inc. System and method for automatic enrichment of documents
US7490033B2 (en) * 2005-01-13 2009-02-10 International Business Machines Corporation System for compiling word usage frequencies
FR2886445A1 (fr) * 2005-05-30 2006-12-01 France Telecom Procede, dispositif et programme d'ordinateur pour la reconnaissance de la parole
US20060277028A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Training a statistical parser on noisy data by filtering
US7844603B2 (en) * 2006-02-17 2010-11-30 Google Inc. Sharing user distributed search results
US8862572B2 (en) * 2006-02-17 2014-10-14 Google Inc. Sharing user distributed search results
US8122019B2 (en) * 2006-02-17 2012-02-21 Google Inc. Sharing user distributed search results
US8065135B2 (en) 2006-04-06 2011-11-22 Research In Motion Limited Handheld electronic device and method for employing contextual data for disambiguation of text input
US7477165B2 (en) 2006-04-06 2009-01-13 Research In Motion Limited Handheld electronic device and method for learning contextual data during disambiguation of text input
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
JP2009537038A (ja) 2006-05-07 2009-10-22 バーコード リミティド 製品ロジスティックチェーンにおける品質管理を改善するためのシステムおよび方法
US20070276651A1 (en) * 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
US20080052272A1 (en) * 2006-08-28 2008-02-28 International Business Machines Corporation Method, System and Computer Program Product for Profile-Based Document Checking
US7683886B2 (en) * 2006-09-05 2010-03-23 Research In Motion Limited Disambiguated text message review function
US8099287B2 (en) * 2006-12-05 2012-01-17 Nuance Communications, Inc. Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
CN101595474B (zh) * 2007-01-04 2012-07-11 思解私人有限公司 语言分析
US7991609B2 (en) * 2007-02-28 2011-08-02 Microsoft Corporation Web-based proofing and usage guidance
JP2010526386A (ja) 2007-05-06 2010-07-29 バーコード リミティド バーコード標識を利用する品質管理のシステムと方法
EP2183685A4 (en) * 2007-08-01 2012-08-08 Ginger Software Inc AUTOMATIC CONTEXT-RELATED LANGUAGE CORRECTION AND EXPANSION USING AN INTERNET CORP
US8423346B2 (en) * 2007-09-05 2013-04-16 Electronics And Telecommunications Research Institute Device and method for interactive machine translation
CN100592249C (zh) * 2007-09-21 2010-02-24 上海汉翔信息技术有限公司 快速输入相关词的方法
EP2218055B1 (en) 2007-11-14 2014-07-16 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US8271870B2 (en) 2007-11-27 2012-09-18 Accenture Global Services Limited Document analysis, commenting, and reporting system
US8266519B2 (en) 2007-11-27 2012-09-11 Accenture Global Services Limited Document analysis, commenting, and reporting system
US8412516B2 (en) * 2007-11-27 2013-04-02 Accenture Global Services Limited Document analysis, commenting, and reporting system
US20090235167A1 (en) * 2008-03-12 2009-09-17 International Business Machines Corporation Method and system for context aware collaborative tagging
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
US8386239B2 (en) * 2010-01-25 2013-02-26 Holovisions LLC Multi-stage text morphing
US9298697B2 (en) * 2010-01-26 2016-03-29 Apollo Education Group, Inc. Techniques for grammar rule composition and testing
EP2531930A1 (en) 2010-02-01 2012-12-12 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
EP2362333A1 (en) 2010-02-19 2011-08-31 Accenture Global Services Limited System for requirement identification and analysis based on capability model structure
GB201005241D0 (en) 2010-03-29 2010-05-12 Winning Team Holdings Ltd Text enhancement
US8782037B1 (en) 2010-06-20 2014-07-15 Remeztech Ltd. System and method for mark-up language document rank analysis
US8566731B2 (en) 2010-07-06 2013-10-22 Accenture Global Services Limited Requirement statement manipulation system
US9400778B2 (en) 2011-02-01 2016-07-26 Accenture Global Services Limited System for identifying textual relationships
US20120246133A1 (en) * 2011-03-23 2012-09-27 Microsoft Corporation Online spelling correction/phrase completion system
US8725495B2 (en) * 2011-04-08 2014-05-13 Xerox Corporation Systems, methods and devices for generating an adjective sentiment dictionary for social media sentiment analysis
US8935654B2 (en) 2011-04-21 2015-01-13 Accenture Global Services Limited Analysis system for test artifact generation
US8510328B1 (en) * 2011-08-13 2013-08-13 Charles Malcolm Hatton Implementing symbolic word and synonym English language sentence processing on computers to improve user automation
US10339214B2 (en) * 2011-11-04 2019-07-02 International Business Machines Corporation Structured term recognition
US20130253910A1 (en) * 2012-03-23 2013-09-26 Sententia, LLC Systems and Methods for Analyzing Digital Communications
CN102831170B (zh) * 2012-07-25 2016-06-08 东莞宇龙通信科技有限公司 活动信息的推送方法及装置
US9171069B2 (en) * 2012-07-31 2015-10-27 Freedom Solutions Group, Llc Method and apparatus for analyzing a document
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US9009197B2 (en) 2012-11-05 2015-04-14 Unified Compliance Framework (Network Frontiers) Methods and systems for a compliance framework database schema
US9710463B2 (en) * 2012-12-06 2017-07-18 Raytheon Bbn Technologies Corp. Active error detection and resolution for linguistic translation
US9183195B2 (en) * 2013-03-15 2015-11-10 Disney Enterprises, Inc. Autocorrecting text for the purpose of matching words from an approved corpus
US10073839B2 (en) 2013-06-28 2018-09-11 International Business Machines Corporation Electronically based thesaurus querying documents while leveraging context sensitivity
US9870357B2 (en) * 2013-10-28 2018-01-16 Microsoft Technology Licensing, Llc Techniques for translating text via wearable computing device
WO2015069994A1 (en) * 2013-11-07 2015-05-14 NetaRose Corporation Methods and systems for natural language composition correction
US9436676B1 (en) 2014-11-25 2016-09-06 Truthful Speaking, Inc. Written word refinement system and method
US9898455B2 (en) * 2014-12-01 2018-02-20 Nuance Communications, Inc. Natural language understanding cache
CN104598441B (zh) * 2014-12-25 2019-06-28 上海科阅信息技术有限公司 一种计算机拆分汉语句子的方法
CN104615588B (zh) * 2014-12-25 2019-06-28 上海科阅信息技术有限公司 一种计算机校验汉语同音错别字的方法
WO2016171927A1 (en) 2015-04-20 2016-10-27 Unified Compliance Framework (Network Frontiers) Structured dictionary
US11060924B2 (en) 2015-05-18 2021-07-13 Varcode Ltd. Thermochromic ink indicia for activatable quality labels
US10697837B2 (en) 2015-07-07 2020-06-30 Varcode Ltd. Electronic quality indicator
US10460012B2 (en) 2015-08-31 2019-10-29 Microsoft Technology Licensing, Llc Enhanced document services
US11727198B2 (en) * 2016-02-01 2023-08-15 Microsoft Technology Licensing, Llc Enterprise writing assistance
US11049190B2 (en) 2016-07-15 2021-06-29 Intuit Inc. System and method for automatically generating calculations for fields in compliance forms
US11222266B2 (en) 2016-07-15 2022-01-11 Intuit Inc. System and method for automatic learning of functions
US10725896B2 (en) 2016-07-15 2020-07-28 Intuit Inc. System and method for identifying a subset of total historical users of a document preparation system to represent a full set of test scenarios based on code coverage
US10579721B2 (en) 2016-07-15 2020-03-03 Intuit Inc. Lean parsing: a natural language processing system and method for parsing domain-specific languages
US20180018311A1 (en) * 2016-07-15 2018-01-18 Intuit Inc. Method and system for automatically extracting relevant tax terms from forms and instructions
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
US10698978B1 (en) * 2017-03-27 2020-06-30 Charles Malcolm Hatton System of english language sentences and words stored in spreadsheet cells that read those cells and use selected sentences that analyze columns of text and compare cell values to read other cells in one or more spreadsheets
US11250842B2 (en) * 2019-01-27 2022-02-15 Min Ku Kim Multi-dimensional parsing method and system for natural language processing
US11586822B2 (en) * 2019-03-01 2023-02-21 International Business Machines Corporation Adaptation of regular expressions under heterogeneous collation rules
US11163956B1 (en) 2019-05-23 2021-11-02 Intuit Inc. System and method for recognizing domain specific named entities using domain specific word embeddings
US10769379B1 (en) 2019-07-01 2020-09-08 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US10824817B1 (en) 2019-07-01 2020-11-03 Unified Compliance Framework (Network Frontiers) Automatic compliance tools for substituting authority document synonyms
US11120227B1 (en) 2019-07-01 2021-09-14 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US11783128B2 (en) 2020-02-19 2023-10-10 Intuit Inc. Financial document text conversion to computer readable operations
CN113569565B (zh) * 2020-04-29 2023-04-11 抖音视界有限公司 一种语义理解方法、装置、设备和存储介质
US11636263B2 (en) * 2020-06-02 2023-04-25 Microsoft Technology Licensing, Llc Using editor service to control orchestration of grammar checker and machine learned mechanism
EP4205018A1 (en) 2020-08-27 2023-07-05 Unified Compliance Framework (Network Frontiers) Automatically identifying multi-word expressions
US11397846B1 (en) * 2021-05-07 2022-07-26 Microsoft Technology Licensing, Llc Intelligent identification and modification of references in content
US20230031040A1 (en) 2021-07-20 2023-02-02 Unified Compliance Framework (Network Frontiers) Retrieval interface for content, such as compliance-related content

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3995254A (en) * 1975-07-16 1976-11-30 International Business Machines Corporation Digital reference matrix for word verification
US4498148A (en) * 1980-06-17 1985-02-05 International Business Machines Corporation Comparing input words to a word dictionary for correct spelling
US4456973A (en) * 1982-04-30 1984-06-26 International Business Machines Corporation Automatic text grade level analyzer for a text processing system
US4689768A (en) * 1982-06-30 1987-08-25 International Business Machines Corporation Spelling verification system with immediate operator alerts to non-matches between inputted words and words stored in plural dictionary memories
US4580241A (en) * 1983-02-18 1986-04-01 Houghton Mifflin Company Graphic word spelling correction using automated dictionary comparisons with phonetic skeletons
US4712174A (en) * 1984-04-24 1987-12-08 Computer Poet Corporation Method and apparatus for generating text
JPS6195472A (ja) * 1984-10-16 1986-05-14 Brother Ind Ltd 電子タイプライタ
DE3577937D1 (de) * 1984-11-16 1990-06-28 Canon Kk Wortverarbeitungsgeraet.
JPS61214051A (ja) * 1985-03-20 1986-09-22 Brother Ind Ltd 電子辞書
US4674085A (en) * 1985-03-21 1987-06-16 American Telephone And Telegraph Co. Local area network
JPS61217863A (ja) * 1985-03-23 1986-09-27 Brother Ind Ltd 電子辞書
US4773039A (en) * 1985-11-19 1988-09-20 International Business Machines Corporation Information processing system for compaction and replacement of phrases
US4888750A (en) * 1986-03-07 1989-12-19 Kryder Mark H Method and system for erase before write magneto-optic recording
JPS6359660A (ja) * 1986-08-29 1988-03-15 Brother Ind Ltd 情報処理装置
US4915546A (en) * 1986-08-29 1990-04-10 Brother Kogyo Kabushiki Kaisha Data input and processing apparatus having spelling-check function and means for dealing with misspelled word
US5083268A (en) * 1986-10-15 1992-01-21 Texas Instruments Incorporated System and method for parsing natural language by unifying lexical features of words
US4829472A (en) * 1986-10-20 1989-05-09 Microlytics, Inc. Spelling check module
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4797855A (en) * 1987-01-06 1989-01-10 Smith Corona Corporation Word processor having spelling corrector adaptive to operator error experience
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
GB2208448A (en) * 1987-07-22 1989-03-30 Sharp Kk Word processor
US4923314A (en) * 1988-01-06 1990-05-08 Smith Corona Corporation Thesaurus feature for electronic typewriters
US4994966A (en) * 1988-03-31 1991-02-19 Emerson & Stern Associates, Inc. System and method for natural language parsing by initiating processing prior to entry of complete sentences
US4849898A (en) * 1988-05-18 1989-07-18 Management Information Technologies, Inc. Method and apparatus to identify the relation of meaning between words in text expressions
US5218536A (en) * 1988-05-25 1993-06-08 Franklin Electronic Publishers, Incorporated Electronic spelling machine having ordered candidate words
US5215388A (en) * 1988-06-10 1993-06-01 Canon Kabushiki Kaisha Control of spell checking device
JPH0811462B2 (ja) * 1988-08-24 1996-02-07 ブラザー工業株式会社 スペルチェック機能を備えた電子タイプライタ
US5007019A (en) * 1989-01-05 1991-04-09 Franklin Electronic Publishers, Incorporated Electronic thesaurus with access history list
US5148387A (en) * 1989-02-22 1992-09-15 Hitachi, Ltd. Logic circuit and data processing apparatus using the same
US5203705A (en) * 1989-11-29 1993-04-20 Franklin Electronic Publishers, Incorporated Word spelling and definition educational device
US5604897A (en) * 1990-05-18 1997-02-18 Microsoft Corporation Method and system for correcting the spelling of misspelled words
US5225038A (en) * 1990-08-09 1993-07-06 Extrude Hone Corporation Orbital chemical milling
EP0494573A1 (en) * 1991-01-08 1992-07-15 International Business Machines Corporation Method for automatically disambiguating the synonymic links in a dictionary for a natural language processing system
JP2815714B2 (ja) * 1991-01-11 1998-10-27 シャープ株式会社 翻訳装置
US5742834A (en) * 1992-06-24 1998-04-21 Canon Kabushiki Kaisha Document processing apparatus using a synonym dictionary
US5541838A (en) * 1992-10-26 1996-07-30 Sharp Kabushiki Kaisha Translation machine having capability of registering idioms
JPH0756957A (ja) * 1993-08-03 1995-03-03 Xerox Corp ユーザへの情報提供方法
JP3377290B2 (ja) * 1994-04-27 2003-02-17 シャープ株式会社 イディオム処理機能を持つ機械翻訳装置
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
EP0692765B1 (en) * 1994-06-21 2003-05-21 Canon Kabushiki Kaisha Text preparing system using knowledge base and method therefor
US5610812A (en) * 1994-06-24 1997-03-11 Mitsubishi Electric Information Technology Center America, Inc. Contextual tagger utilizing deterministic finite state transducer
US5678053A (en) * 1994-09-29 1997-10-14 Mitsubishi Electric Information Technology Center America, Inc. Grammar checker interface
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5822731A (en) * 1995-09-15 1998-10-13 Infonautics Corporation Adjusting a hidden Markov model tagger for sentence fragments
US5781879A (en) * 1996-01-26 1998-07-14 Qpl Llc Semantic analysis and modification methodology
US5875443A (en) * 1996-01-30 1999-02-23 Sun Microsystems, Inc. Internet-based spelling checker dictionary system with automatic updating
US6012075A (en) * 1996-11-14 2000-01-04 Microsoft Corporation Method and system for background grammar checking an electronic document
US6219453B1 (en) * 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6292771B1 (en) * 1997-09-30 2001-09-18 Ihc Health Services, Inc. Probabilistic method for natural language processing and for encoding free-text data into a medical database by utilizing a Bayesian network to perform spell checking of words
US6267601B1 (en) * 1997-12-05 2001-07-31 The Psychological Corporation Computerized system and method for teaching and assessing the holistic scoring of open-ended questions
US6260008B1 (en) * 1998-01-08 2001-07-10 Sharp Kabushiki Kaisha Method of and system for disambiguating syntactic word multiples
GB2343037B (en) * 1998-10-22 2002-12-31 Ibm Phonetic spell checker
US6199067B1 (en) * 1999-01-20 2001-03-06 Mightiest Logicon Unisearch, Inc. System and method for generating personalized user profiles and for utilizing the generated user profiles to perform adaptive internet searches
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6594657B1 (en) * 1999-06-08 2003-07-15 Albert-Inc. Sa System and method for enhancing online support services using natural language interface for searching database
US6405162B1 (en) * 1999-09-23 2002-06-11 Xerox Corporation Type-based selection of rules for semantically disambiguating words
WO2001033409A2 (en) * 1999-11-01 2001-05-10 Kurzweil Cyberart Technologies, Inc. Computer generated poetry system
US6256605B1 (en) * 1999-11-08 2001-07-03 Macmillan Alan S. System for and method of summarizing etymological information
AU2731001A (en) * 1999-12-21 2001-07-03 David B. Fogel System and method for determining and controlling the impact of text
EP1325430A2 (en) * 2000-09-29 2003-07-09 Axonwave Software Inc. A method and system for adapting synonym resources to specific domains
US7107254B1 (en) * 2001-05-07 2006-09-12 Microsoft Corporation Probablistic models and methods for combining multiple content classifiers
US20030130898A1 (en) * 2002-01-07 2003-07-10 Pickover Clifford A. System to facilitate electronic shopping
US7313513B2 (en) * 2002-05-13 2007-12-25 Wordrake Llc Method for editing and enhancing readability of authored documents

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324604A (zh) * 2012-03-07 2013-09-25 国际商业机器公司 用于域特定的自然语言标准化的方法和***
CN103324621A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
CN103324621B (zh) * 2012-03-21 2017-08-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
CN107148624A (zh) * 2015-06-22 2017-09-08 电子部品研究院 预处理文本的方法以及用于执行该方法的预处理***
CN108140019A (zh) * 2015-10-09 2018-06-08 三菱电机株式会社 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序
CN108140019B (zh) * 2015-10-09 2021-05-11 三菱电机株式会社 语言模型生成装置、语言模型生成方法以及记录介质
CN106909276B (zh) * 2017-01-10 2020-04-24 网易(杭州)网络有限公司 用于实现电子读物内容互动的方法及设备
CN106909276A (zh) * 2017-01-10 2017-06-30 网易(杭州)网络有限公司 用于实现电子读物内容互动的方法及设备
CN108255804A (zh) * 2017-09-25 2018-07-06 上海四宸软件技术有限公司 一种语言交流人工智能***及其语言处理方法
CN108519966B (zh) * 2018-04-11 2019-03-29 掌阅科技股份有限公司 电子书特定文本元素的替换方法及计算设备
CN108519966A (zh) * 2018-04-11 2018-09-11 掌阅科技股份有限公司 电子书特定文本元素的替换方法及计算设备
CN110096707A (zh) * 2019-04-29 2019-08-06 北京三快在线科技有限公司 生成自然语言的方法、装置、设备及可读存储介质
CN110096707B (zh) * 2019-04-29 2020-09-29 北京三快在线科技有限公司 生成自然语言的方法、装置、设备及可读存储介质
TWI833226B (zh) * 2021-09-28 2024-02-21 美商萬國商業機器公司 一文字輸入之動態預先輸入建議

Also Published As

Publication number Publication date
JP2007531065A (ja) 2007-11-01
AU2004269650A1 (en) 2005-03-10
US20110270603A1 (en) 2011-11-03
EP1644796A4 (en) 2009-11-04
WO2005022294A2 (en) 2005-03-10
EP1644796A2 (en) 2006-04-12
WO2005022294A3 (en) 2007-06-14
CA2530812A1 (en) 2005-03-10
US20040030540A1 (en) 2004-02-12

Similar Documents

Publication Publication Date Title
CN101346717A (zh) 用于语言处理的方法和装置
Sadler Working with analogical semantics: disambiguation techniques in DLT
McKeown et al. Collocations
Miháltz et al. Methods and results of the Hungarian WordNet project
Fraser et, al.(2015)
McKay Generation of idiom-based witticisms to aid second language learning
RU2004131643A (ru) Способ синтеза сомообучающейся системы извлечения знаний из текстовых документов для поисковых систем
Azmi et al. Universal web accessibility and the challenge to integrate informal Arabic users: a case study
Liang et al. Automatic pronominal anaphora resolution in english texts
Vincze et al. A corpus study of Spanish as a foreign language learners’ collocation production
Dittenbach et al. A natural language query interface for tourism information
Abdulrahim A corpus study of basic motion verbs in Modern Standard Arabic
Giomi Similatives are Manners, comparatives are Quantities (except when they aren’t)
Leveling et al. On metonymy recognition for geographic information retrieval
Pasça High-performance, open-domain question answering from large text collections
Pęzik Facets of prefabrication. Perspectives on modelling and detecting phraseological units
Nuccorini 7.4 Towards an ‘ideal’Dictionary of English Collocations
Tang Crosslinguistic influence on Chinese EFL learners’ acquisition of English finite and nonfinite distinctions
Norré et al. Word Sense Disambiguation for Automatic Translation of Medical Dialogues into Pictographs
Rudnick Cross-Lingual Word Sense Disambiguation for Low-Resource Hybrid Machine Translation
Cichosz et al. Formulaic language in Old English prose: A corpus-driven functional analysis
Valentim 11 European Portuguese
Fraser The feminisation of agentives in French and Spanish speaking countries: a cross-linguistic and cross-continental comparison
Liu Can Wizards be Polyglots: Towards a Multilingual Knowledge-grounded Dialogue System
Alzaben A step towards machine translation between communication symbols and Arabic text

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1125197

Country of ref document: HK

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090114

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1125197

Country of ref document: HK