CN110096705A - 一种无监督的英文句子自动简化算法 - Google Patents

一种无监督的英文句子自动简化算法 Download PDF

Info

Publication number
CN110096705A
CN110096705A CN201910354246.1A CN201910354246A CN110096705A CN 110096705 A CN110096705 A CN 110096705A CN 201910354246 A CN201910354246 A CN 201910354246A CN 110096705 A CN110096705 A CN 110096705A
Authority
CN
China
Prior art keywords
sentence
word
algorithm
complex
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910354246.1A
Other languages
English (en)
Other versions
CN110096705B (zh
Inventor
强继朋
李云
袁运浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN201910354246.1A priority Critical patent/CN110096705B/zh
Publication of CN110096705A publication Critical patent/CN110096705A/zh
Application granted granted Critical
Publication of CN110096705B publication Critical patent/CN110096705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了互联网领域内的一种无监督的英文句子自动简化算法,按如下步骤进行:步骤1、训练词的向量表示;步骤2、获取词的频率;步骤3、分别获取简化句子集合和复杂句子集合;步骤4、填充短语表;步骤5、分别训练简化句子语言模型和复杂句子语言模型;步骤6、构建基于短语的句子简化模型;步骤7、迭代执行回译的策略,训练更优的句子简化模型,本发明在没有利用任何标注的并行语料,充分利用英文***语料,有效提高了英文句子简化的准确性。

Description

一种无监督的英文句子自动简化算法
技术领域
本发明涉及一种互联网文本算法,特别涉及一种无监督的英文句子自动简化算法。
背景技术
近年来,互联网上的文本资料向更广泛的用户提供了很多有用的知识和信息。然后,对于许多人来说,网上文本的撰写方式,如词汇和句法结果,可能难以阅读和理解,特别是对那些识字率低、认知或语言障碍、或者文本语言知识有限的人。包含非常用词或长而复杂句子的文本不仅很难被人们阅读和理解,也同样很难被机器进行分析。自动文本简化是在保留原有文本信息的情况下,尽可能简化原有文本的内容,从而达到更容易被更广泛的观众阅读和理解。
现有的文本简化算法利用机器翻译的算法,从一种语言下的复杂句子和简化句子的并行语料对中学习简化句子。这种文本简化算法是一种有监督的学习任务,它的有效性严重依赖大量的并行简化语料。可是,现在已有的英文并行简化语料主要是从普通英语的***和儿童版的英语***中获取,通过匹配算法分别两个不同***中选择句子作为并行句子对。目前能够获取的并行简化语料,不仅数量少,而且包含很多非简化的句子对和错误的句子对,主要因为儿童版的***由非专业人士编写,并不是和普通的***一一对应,导致很难选择合适的句子匹配算法。因为简化并行语料的问题,导致已有文本简化算法效果并不是很理想。
发明内容
本发明的目的是提供一种无监督的英文句子自动简化算法,在无需要任何并行简化语料,只利用公开下载的***语料,实现对英文句子的自动简化,从而能让用户更容易阅读和理解英文句子,特别是认知或者语言障碍的人。
本发明的目的是这样实现的:一种无监督的英文句子自动简化算法,按如下步骤进行:
步骤1、把公开的英文***语料库D作为训练语料,采用词嵌入算法Word2vec获取词语t的向量表示vt;通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征;采用Skip-Gram模型学习词嵌入算法Word2vec;给定语料库D和词语t,考虑一个以t为中心的滑动窗口,用Wt表示出现在t上下文窗口中的词语集合;观察上下文词语集合的对数概率定义如下:
式(1)中,v'w是词语w的上下文向量表示,V是D的词汇表;然后,Skig-Gram的整体目标函数被定义如下:
式(2)中,词的向量表示可以通过最大化该目标函数进行学习;
步骤2、利用***语料D,统计每个词语t的频率f(t),f(t)表示词语t在D中的出现次数;
步骤3、利用***语料D,获取简化句子集合S和复杂句子集合C;
步骤4、利用词的向量表示和词的频率,填充表示词翻译为另一个词语概率的短语表PT(Phrase Table);在PT中,词语ti到词语tj的翻译概率p(tj|ti)的计算公式如下:
式(4)中,cos表示余弦相似度计算公式;
步骤5、针对简化句子集合S和复杂句子集合C,分别采用语言模型KenLM算法进行训练,获取简化语言模型LMS和复杂语言模型LMC;LMS和LMC在后面的迭代学习过程中保持不变;
步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC,采用基于短语的机器翻译算法PBMT(Phrased-based Machine Translation),构建复杂句子到简化句子的简化算法给定复杂句子c,算法利用式(5),分别计算不同词的组合组成的句子s的得分,最后选择得分做高的句子s’将作为简化句子:
s'=argmaxsp(c|s)p(s) (5)
式(5)中,PBMT算法分解p(c|s)作为短语表PT的内积,p(s)是句子s的概率,是从语言模型LMS获得;
步骤7、利用初始的PBMT算法迭代执行回译(Back-translation)的策略,生成更优的文本简化算法。
作为本发明的进一步限定,步骤3具体包括:
步骤3.1、针对***语料D中的每个句子s,采用Flesch Reading Ease(FRE)算法进行打分,如式(3),并按分值从高到低进行排序;
式(3)中,FRE(s)表示句子s的FRE得分,tw(s)表示句子s中所有词的数目,ts(s)表示句子s中所有音节的数目;
步骤3.2、去除得分超过100的句子集合,去除得到低于20分的句子集合,去除中间得分的句子集合;最后,选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C。
作为本发明的进一步限定,所述步骤7具体包括:
步骤7.1、首先利用算法,翻译复杂句子集合C,得到新的合成的简化句子集合S0,然后,循环执行步骤7.2到7.5,迭代次数i从1到N;
步骤7.2、利用合成的并行语料(Si-1,C)、简化语言模型LMS和复杂语言模型LMC,训练新的从简化句子到复杂句子的PBMT算法
步骤7.3、利用翻译简化句子集合S,得到新的合成的复杂句子集合Ci
步骤7.4、利用合成的并行语料(Ci,S)、简化语言模型LMC和复杂语言模型LMS,训练新的从复杂句子到简化句子的PBMT算法
步骤7.5、利用翻译复杂句子集合C,得到新的合成的简化句子集合Si;重新回到步骤7.2重复执行,直到迭代N次。
与现有技术相比,本发明的有益效果在于:
1、本发明在填充短语表的过程中,结合了从***语料中获取的词向量表示和词频率,能够抓住词语的语义信息和词语的使用频率,克服了传统的基于短语的机器翻译PBMT算法需要利用并行语料填充短语表;
2、本发明将***语料库作为知识库,利用Flesch Reading Ease(FRE)算法对句子进行打分,从而获取简化句子集合和复杂句子集合,从而能够更为准确的训练复杂句子语言模型和简化句子语言模型;
3、本发明利用获得的短语表、复杂句子语言模型和简化句子语言模型,基于PBMT算法构建了初始的无监督的文本简化算法;该文本简化算法不仅是无监督的算法,更是简单、容易解释和能够快速的进行训练;
4、本发明在构建初始的简化算法之后,利用简化算法生成并行语料,从而采用回译的策略对已有的文本简化模型进行优化,修正了初始的短语表中可能错误的条目,进一步提升算法型性能。
具体实施方式
下面结合具体实施例对本发明做进一步说明。
一种无监督的英文句子自动简化算法,按如下步骤进行:
步骤1、把公开的英文***语料库D作为训练语料,可以从“https:// dumps.wikimedia.org/enwiki/”下载,采用词嵌入算法Word2vec获取词语t的向量表示vt;通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征;获取词的向量表示后,可以获取词语的相似度,帮助寻找每个词的高相似的词语集合;本实例中,每个向量的维数设置为300,采用Skip-Gram模型学习词嵌入算法Word2vec;给定语料库D和词语t,考虑一个以t为中心的滑动窗口,用Wt表示出现在t上下文窗口中的词语集合;滑动窗口设置为t前面5个词和后面5个词;观察上下文词语集合的对数概率定义如下:
式(1)中,v'w是词语w的上下文向量表示,V是D的词汇表;然后,Skig-Gram的整体目标函数被定义如下:
式(2)中,词的向量表示可以通过采用随机的梯度下降算法和负抽样,最大化该目标函数进行学习。
步骤2、利用***语料D,统计每个词语t的频率f(t),f(t)表示词语t在D中的出现次数;在文本简化领域中,词的复杂度测量通过会考虑词语的频率;一般说来,词的频率越高,该词越容易理解;因此,词频可以用来从词语t的高相似的词语集合中寻找最容易理解的词。
步骤3、***语料D中一个超大的语料库,包含了大量的复杂句子集合和简单句子集合;利用***语料D,获取简化句子集合S和复杂句子集合C;
步骤3.1、针对***语料D中的每个句子s,采用FRE(Flesch Reading Ease)算法进行打分,如式(3),并按分值从高到低进行排序;分值越高意味着句子越简单,分值越低意味着句子越困难;
式(3)中,FRE(s)表示句子s的FRE得分,tw(s)表示句子s中所有词的数目,ts(s)表示句子s中所有音节的数目;FRE算法通常被用来评价文本简化模型最后简化结果的好坏;
步骤3.2、去除得分超过100的句子集合,去除得到低于20分的句子集合,去除中间得分的句子集合;去除高分和低分的句子,是为了去除特别极端的句子;去除中间得分的句子是为了在S和C之间建立明显的界限;最后,选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C;本实例中,S和C都分别选择了1千万个句子。
步骤4、利用词的向量表示和词的频率,填充表示词翻译为另一个词语概率的短语表PT(Phrase Table)。在PT中,词语ti到词语tj的翻译概率p(tj|ti)的计算公式如下:
式(4)中,cos表示余弦相似度计算公式;考虑到学习所有词的概率转换是不可行的,在本实例中,选择了最频繁的30万个词语,并只计算到最相似的200个词语的概率;对词语中的专有名词,只计算到自己本身的概率。
步骤5、针对步骤3获取的简化句子集合S和复杂句子集合C,分别采用语言模型KenLM算法进行训练,获取简化语言模型LMS和复杂语言模型LMC;LMS和LMC在后面的迭代学习过程中保持不变;语言模型用来计算给语料中指定的词语序列的概率;简化语言模型和复杂语言模型通过计算词语序列的概率,有助于通过以下方法提高简化模型的质量:执行本地替换和词语顺序重排。
步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC,采用基于短语的机器翻译算法PBMT(Phrased-based Machine Translation),构建复杂句子到简化句子的简化算法PBMT算法最先在2007年《Statistical phrase-based translation》提出,用来用于有双语言的机器翻译;给定复杂句子c,算法利用式(5),分别计算不同词的组合组成的句子s的得分,最后选择得分做高的句子s’将作为简化句子:
s'=argmaxsp(c|s)p(s) (5)
式(5)中,PBMT算法分解p(c|s)作为短语表PT的内积,p(s)是句子s的概率,是从语言模型LMS获得。
步骤7、鉴于只能获取非并行语料,利用初始的PBMT算法迭代执行回译(Back-translation)的策略,可以把非常困难的无监督学习问题转化为有监督学习任务,从而生成更优的文本简化算法;
步骤7.1、首先利用算法,翻译复杂句子集合C,得到新的合成的简化句子集合S0;然后,循环执行步骤7.2到7.5,迭代次数i从1到N;
步骤7.2、利用合成的并行语料(Si-1,C)、简化语言模型LMC和复杂语言模型LMS,训练新的从简化句子到复杂句子的PBMT算法
步骤7.3、利用翻译简化句子集合S,得到新的合成的复杂句子集合Ci
步骤7.4、利用合成的并行语料(Ci,S)、简化语言模型LMC和复杂语言模型LMS,训练新的从复杂句子到简化句子的PBMT算法
步骤7.5、利用翻译复杂句子集合C,得到新的合成的简化句子集合Si;重新回到步骤7、2重复执行,直到迭代N次;本实例中,N被设置为3。
直观的说,由于PBMT算法的输入是包含噪音的,导致短语表中许多条目是不正确的;尽管如此,在产生简化句子的过程中,语言模型能够帮助纠正一些错误;只要这种情况发生了,随着迭代的持续进行,短语表和翻译算法都会相应的被提高;随着短语表中更多的条目将被纠正过来,PBMT算法也会越来越强大。
本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。

Claims (3)

1.一种无监督的英文句子自动简化算法,其特征在于,按如下步骤进行:
步骤1、把公开的英文***语料库D作为训练语料,采用词嵌入算法Word2vec获取词语t的向量表示vt;通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征;采用Skip-Gram模型学习词嵌入算法Word2vec;给定语料库D和词语t,考虑一个以t为中心的滑动窗口,用Wt表示出现在t上下文窗口中的词语集合;观察上下文词语集合的对数概率定义如下:
式(1)中,v'w是词语w的上下文向量表示,V是D的词汇表;然后,Skig-Gram的整体目标函数被定义如下:
式(2)中,词的向量表示可以通过最大化该目标函数进行学习;
步骤2、利用***语料D,统计每个词语t的频率f(t),f(t)表示词语t在D中的出现次数;
步骤3、利用***语料D,获取简化句子集合S和复杂句子集合C;
步骤4、利用词的向量表示和词的频率,填充表示词翻译为另一个词语概率的短语表PT(Phrase Table);在PT中,词语ti到词语tj的翻译概率p(tj|ti)的计算公式如下:
式(4)中,cos表示余弦相似度计算公式;
步骤5、针对简化句子集合S和复杂句子集合C,分别采用语言模型KenLM算法进行训练,获取简化语言模型LMS和复杂语言模型LMC;LMS和LMC在后面的迭代学习过程中保持不变;
步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC,采用基于短语的机器翻译算法PBMT(Phrased-based Machine Translation),构建复杂句子到简化句子的简化算法给定复杂句子c,算法利用式(5),分别计算不同词的组合组成的句子s的得分,最后选择得分做高的句子s’将作为简化句子:
s'=argmaxsp(c|s)p(s) (5)
式(5)中,PBMT算法分解p(c|s)作为短语表PT的内积,p(s)是句子s的概率,是从语言模型LMS获得;
步骤7、利用初始的PBMT算法迭代执行回译(Back-translation)的策略,生成更优的文本简化算法。
2.根据权利要求1所述的一种无监督的英文句子自动简化算法,其特征在于,步骤3具体包括:
步骤3.1、针对***语料D中的每个句子s,采用Flesch Reading Ease(FRE)算法进行打分,如式(3),并按分值从高到低进行排序;
式(3)中,FRE(s)表示句子s的FRE得分,tw(s)表示句子s中所有词的数目,ts(s)表示句子s中所有音节的数目;
步骤3.2、去除得分超过100的句子集合,去除得到低于20分的句子集合,去除中间得分的句子集合;最后,选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C。
3.根据权利要求1所述的一种无监督的英文句子自动简化算法,其特征在于,所述步骤7具体包括:
步骤7.1、首先利用算法,翻译复杂句子集合C,得到新的合成的简化句子集合S0,然后,循环执行步骤7.2到7.5,迭代次数i从1到N;
步骤7.2、利用合成的并行语料(Si-1,C)、简化语言模型LMS和复杂语言模型LMC,训练新的从简化句子到复杂句子的PBMT算法
步骤7.3、利用翻译简化句子集合S,得到新的合成的复杂句子集合Ci
步骤7.4、利用合成的并行语料(Ci,S)、简化语言模型LMC和复杂语言模型LMS,训练新的从复杂句子到简化句子的PBMT算法
步骤7.5、利用翻译复杂句子集合C,得到新的合成的简化句子集合Si;重新回到步骤7.2重复执行,直到迭代N次。
CN201910354246.1A 2019-04-29 2019-04-29 一种无监督的英文句子自动简化算法 Active CN110096705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910354246.1A CN110096705B (zh) 2019-04-29 2019-04-29 一种无监督的英文句子自动简化算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910354246.1A CN110096705B (zh) 2019-04-29 2019-04-29 一种无监督的英文句子自动简化算法

Publications (2)

Publication Number Publication Date
CN110096705A true CN110096705A (zh) 2019-08-06
CN110096705B CN110096705B (zh) 2023-09-08

Family

ID=67446309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910354246.1A Active CN110096705B (zh) 2019-04-29 2019-04-29 一种无监督的英文句子自动简化算法

Country Status (1)

Country Link
CN (1) CN110096705B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427629A (zh) * 2019-08-13 2019-11-08 苏州思必驰信息科技有限公司 半监督文本简化模型训练方法和***
CN112612892A (zh) * 2020-12-29 2021-04-06 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN113807098A (zh) * 2021-08-26 2021-12-17 北京百度网讯科技有限公司 模型训练方法和装置、电子设备以及存储介质
CN117808124A (zh) * 2024-02-29 2024-04-02 云南师范大学 一种基于Llama2的文本简化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及***
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及***
CN109614626A (zh) * 2018-12-21 2019-04-12 北京信息科技大学 基于万有引力模型的关键词自动抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及***
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及***
CN109614626A (zh) * 2018-12-21 2019-04-12 北京信息科技大学 基于万有引力模型的关键词自动抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKUMI MARUYAMA等: "Sentence simplification with core vocabulary", 《 2017 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING (IALP)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427629A (zh) * 2019-08-13 2019-11-08 苏州思必驰信息科技有限公司 半监督文本简化模型训练方法和***
CN110427629B (zh) * 2019-08-13 2024-02-06 思必驰科技股份有限公司 半监督文本简化模型训练方法和***
CN112612892A (zh) * 2020-12-29 2021-04-06 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN112612892B (zh) * 2020-12-29 2022-11-01 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN113807098A (zh) * 2021-08-26 2021-12-17 北京百度网讯科技有限公司 模型训练方法和装置、电子设备以及存储介质
CN113807098B (zh) * 2021-08-26 2023-01-10 北京百度网讯科技有限公司 模型训练方法和装置、电子设备以及存储介质
CN117808124A (zh) * 2024-02-29 2024-04-02 云南师范大学 一种基于Llama2的文本简化方法
CN117808124B (zh) * 2024-02-29 2024-05-03 云南师范大学 一种基于Llama2的文本简化方法

Also Published As

Publication number Publication date
CN110096705B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN110096705A (zh) 一种无监督的英文句子自动简化算法
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN110543639B (zh) 一种基于预训练Transformer语言模型的英文句子简化算法
CN107273355A (zh) 一种基于字词联合训练的中文词向量生成方法
McMahon et al. Language classification by numbers
Brodsky et al. Characterizing motherese: On the computational structure of child-directed language
US8069027B2 (en) Word alignment apparatus, method, and program product, and example sentence bilingual dictionary
CN109858042B (zh) 一种翻译质量的确定方法及装置
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Alqudsi et al. A hybrid rules and statistical method for Arabic to English machine translation
CN106649289A (zh) 同时识别双语术语与词对齐的实现方法及实现***
CN103810993B (zh) 一种文本注音方法及装置
Kondrak Identification of cognates and recurrent sound correspondences in word lists
CN106502988B (zh) 一种目标属性抽取的方法和设备
CN113657122B (zh) 一种融合迁移学***行语料库的蒙汉机器翻译方法
CN107608959A (zh) 一种英文社交媒体短文本地名识别方法
CN102156692A (zh) 统计机器翻译中的基于森林的***融合方法
CN106484670A (zh) 一种中文分词纠错方法、离线训练装置及在线处理装置
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
CN111767743B (zh) 翻译试题的机器智能评阅方法及***
JP5295037B2 (ja) ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム
CN109446537B (zh) 一种针对机器翻译的译文评估方法及装置
JP2011243087A (ja) 自動単語対応付け装置とその方法とプログラム
Zhou et al. Generating Chinese couplets and quatrain using a statistical approach
Singh et al. H-AES: towards automated essay scoring for hindi

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant