CN111737980A - 一种英语文本单词使用错误的纠正方法 - Google Patents

一种英语文本单词使用错误的纠正方法 Download PDF

Info

Publication number
CN111737980A
CN111737980A CN202010573320.1A CN202010573320A CN111737980A CN 111737980 A CN111737980 A CN 111737980A CN 202010573320 A CN202010573320 A CN 202010573320A CN 111737980 A CN111737980 A CN 111737980A
Authority
CN
China
Prior art keywords
word
english
words
target
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010573320.1A
Other languages
English (en)
Other versions
CN111737980B (zh
Inventor
黄桂敏
孙正霖
李俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010573320.1A priority Critical patent/CN111737980B/zh
Publication of CN111737980A publication Critical patent/CN111737980A/zh
Application granted granted Critical
Publication of CN111737980B publication Critical patent/CN111737980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种英语文本单词使用错误的纠正方法,该方法是一个由顺序连接的英语文本预处理模块、目标英语单词匹配模块、英语单词上下文语义分析模块、英语单词使用错误纠正模块组成的纠正模型。一篇英语文本通过该纠正模型和纠正方法处理后,最后能够得到这篇英语文本的单词使用错误纠正结果。本发明纠正方法解决了英语文本的单词使用错误自动纠正问题,其纠正结果比传统的英语文本单词使用错误的纠正方法的纠正结果更好。

Description

一种英语文本单词使用错误的纠正方法
技术领域
本发明涉及自然语言处理技术,具体是一种针对英语文本单词使用错误的纠正方法,本发明的方法只适用于纠正英语文本的单词使用错误,不适用于中文文本的单词使用错误。
背景技术
英语文本的英语单词使用错误是将英语单词错写成英语字典中的相似单词,但是错写的英语单词在英语文本中存在使用上的错误。由于英语单词使用错误的纠正依赖于错写单词的上下文语义信息,因此英语单词使用错误纠正难度较大。传统的英语单词使用错误纠正方法主要有基于N元统计模型方法、基于机器学习方法、基于语义信息方法。基于N元统计模型方法依赖N元统计模型,需要从海量的英语文本中统计出高质量的N 元语义信息,该方法纠正过程复杂且效率低,难以捕获更长的语法关系。基于机器学习方法依赖语法特征训练集,在采用单词使用错误易混淆集合进行纠错时耗费精力较多,普适性和扩展性较差。基于语义信息方法以语义词典为基础,该方法检查单词使用错误的效果较差,容易产生纠正的误判,纠正的精确率不高。本发明的一种英语文本单词使用错误的纠正方法解决了上述纠正方法的问题。
发明内容
本发明的英语文本单词使用错误的纠正方法的总体处理流程图如图1所示,其中包括英语英语文本预处理模块、目标英语单词匹配模块、英语单词上下文语义分析模块、英语单词使用错误纠正模块四个部分。
其中的英语英语文本预处理模块的处理流程是:第一,输入需要检查英语单词使用错误的英语文本,对输入的英语文本进行分词分句、英语单词小写化处理;第二,对分词分句、单词小写化处理后的英语文本进行词性标注,生成英语文本词汇表;第三,以英语句子为切分标准,编号英语单词位置并分条存放英语文本词汇表,输出经上述处理后的英语文本词汇表。
其中的目标英语单词匹配模块的处理流程是:第一,输入英语英语文本预处理模块处理后的英语文本词汇表;第二,输入英语单词使用错误易混淆集合,将英语文本词汇表中的英语单词,与英语单词使用错误易混淆集合的英语单词进行匹配,记录匹配的英语单词及其对应位置编号,标记匹配的英语单词为可能发生英语单词使用错误的目标英语单词;第三,提取目标英语单词在英语文本中对应编号位置的左相邻和右相邻的上下文英语单词各一个,分别与目标英语单词组成两个二元单词对;第四,输入二元统计模型,将上一步的两个二元单词对,在二元统计模型中分别进行最长公共子序列匹配,得到满足二元统计模型的英语单词及其词频;第五,提取二元统计模型匹配得到的英语单词中与目标英语单词相似的英语单词及其词频,正则化匹配的最长公共子序列长度和英语单词及其词频;第六,根据正则化匹配的最长公共子序列长度和英语单词及其词频,计算匹配的英语单词权重,以权重大小排序二元统计模型匹配的英语单词;第七,根据权重排序选取二元统计模型中与目标英语单词相匹配的英语单词,标记该英语单词为二元统计模型的匹配候选英语单词;第八,结合单词使用错误易混淆集合和二元统计模型匹配的英语单词,去掉重复的英语单词得到匹配的候选英语单词,输出匹配的候选英语单词。
其中的英语单词上下文语义分析模块的处理流程是:第一,输入目标英语单词匹配模块处理后的匹配的候选英语单词,把候选英语单词与目标英语单词放入候选英语单词列表;第二,输入英语单词的共现词向量模型,将上一步得到的候选英语单词列表中的英语单词,与英语单词的共现词向量模型匹配,得到候选英语单词列表中英语单词的词向量;第三,依据候选英语单词列表中英语单词与目标英语单词的词性标注,选取出目标英语单词在英语文本中相应位置的上下文英语单词;第四,将目标英语单词的上下文英语单词与英语单词的共现词向量模型匹配,得到上下文英语单词的词向量;第五,利用英语单词的词向量,计算候选英语单词列表中每个英语单词与上下文英语单词的语义相关值,输出英语单词上下文语义分析结果。
其中的英语单词使用错误纠正模块的处理流程是:第一,英语单词上下文语义分析模块处理后,根据候选英语单词列表中的英语单词上下文语义相关排序,来判断上下文相关最高的英语单词是否为目标英语单词;第二,根据候选英语单词列表中上下文语义相关最高的英语单词是否为目标英语单词,来判断英语文本中的目标英语单词是否发生英语单词使用错误,如果目标英语单词的上下文语义相关值在候选英语单词列表中不是最高值时,则该目标英语单词为英语单词使用错误,输出候选英语单词列表中上下文语义相关值最高的英语单词作为英语单词使用错误的纠正建议。
1.本发明的概念与结构定义如下
(1)单词的词性标注
本发明采用宾州树库词性标注集,对英语文本的英语单词和候选英语单词列表的英语单词进行词性标注。
(2)英语文本词汇表的结构
本发明的英语文本词汇表的结构如下所示:
句子1:单词1/单词1词性_单词编号1,……,单词m/单词m词性_单词编号m
句子2:单词1/单词1词性_单词编号1,……,单词k/单词k词性_单词编号k
……
句子n:单词1/单词1词性_单词编号1,……,单词p/单词p词性_单词编号p
(3)单词使用错误易混淆集合的结构
本发明的单词使用错误易混淆集合的结构如下所示:
单词使用错误易混淆集合1{目标单词1=易混淆单词1#……#易混淆单词m}
单词使用错误易混淆集合2{目标单词2=易混淆单词1#……#易混淆单词k}
单词使用错误易混淆集合3{目标单词3=易混淆单词1#……#易混淆单词p}
……
单词使用错误易混淆集合n{目标单词n=易混淆单词1#……#易混淆单词r}
(4)二元统计模型
本发明的二元统计模型包含两个英语单词的二元单词对及其在英语文本中的词频。
(5)共现词向量模型
本发明的共现词向量模型是由英语文本中的英语单词及其共同出现的词频组成的向量模型。
2.本发明的计算公式定义如下
(1)正则化目标单词与匹配单词最长公共子序列长度计算公式
Figure BDA0002550168750000031
在公式(1)中,目标单词长度是指目标单词的英语字母总个数,匹配单词长度是指匹配单词的英语字母总个数,二元单词对长度是指二元单词对中两个单词的英语字母总个数。
(2)正则化二元单词对词频计算公式
Figure BDA0002550168750000032
在公式(2)中,二元单词对词频是指二元单词对中两个单词共同出现的次数;n 表示目标单词的当前二元单词对在二元统计模型中匹配的二元单词对个数,i表示匹配单词的二元单词对的序号。
(3)匹配单词权重计算公式
匹配单词权重=(1-λ)×正则化目标单词与匹配单词最长公共子序列长度+λ×正则化二元单词对词频 (3)
在公式(3)中,λ是平衡匹配单词最长公共子序列长度和二元单词对词频的比例因子,正则化目标单词与匹配单词最长公共子序列长度由上述的公式(1)计算得出,正则化二元单词对词频由上述的公式(2)计算得出。
(4)单词语义相关值计算公式
Figure BDA0002550168750000033
(5)单词上下文语义相关值计算公式
Figure BDA0002550168750000034
在公式(5)中,单词语义相关值由上述的公式(4)计算得出,n表示选取单词的上下文单词的窗口大小。
本发明的英语文本预处理模块、目标英语单词匹配模块、英语单词上下文语义分析模块、英语单词使用错误纠正模块的处理流程图如下所述。
如图2所示,所述的英语文本预处理模块处理流程如下:
P201开始;
P202读取需要检查单词使用错误的英语文本;
P203对输入的英语文本进行分词,并输出英语文本的分词结果;
P204对英语文本的分词结果进行单词小写化,并输出英语文本的单词小写化结果;
P205对英语文本的分词结果进行词性标注,并输出英语文本的词性标注结果;
P206统计英语文本的单词总数,输出单词总数统计结果;
P207依据单词总数统计结果,依序编号英语文本中单词的位置,并输出英语文本的单词编号结果;
P208依据分词结果、单词小写化结果、词性标注结果、单词编号结果,生成英语文本词汇表;
P209结束。
如图3所示,所述的目标英语单词匹配模块处理流程如下:
P301开始;
P302读取预处理的英语文本词汇表;
P303读取单词使用错误易混淆集合;
P304依序将英语文本词汇表中的单词匹配单词使用错误易混淆集合中的单词;
P305判断单词是否存在于单词使用错误易混淆集合中,是则执行P306,否则执行P327;
P306提取匹配单词使用错误易混淆集合的英语文本词汇表中单词的位置编号;
P307标记该单词为可能发生单词使用错误的目标单词;
P308读取二元统计模型;
P309提取目标单词在英语文本中左相邻编号位置的单词;
P310目标单词与左相邻单词组成目标单词的左二元单词对;
P311在二元统计模型中匹配左二元单词对的左相邻单词,获得包含左相邻单词的匹配词组;
P312依据包含左相邻单词的二元统计模型的匹配词组与目标单词的字符组合,得到符合条件的所有匹配单词中,目标单词的匹配单词与目标单词的最长公共子序列长度;
P313提取左二元单词对匹配二元统计模型得到的符合条件的所有匹配单词中,目标单词的匹配单词及其词频;
P314提取目标单词在英语文本中右相邻编号位置的单词;
P315目标单词与右相邻单词组成目标单词的右二元单词对;
P316在二元统计模型中匹配右二元单词对的右相邻单词,获得包含右相邻单词的匹配单词;
P317依据包含右相邻单词的二元统计模型的匹配单词与目标单词的字符组合,得到符合条件的所有匹配单词中,目标单词的匹配单词与目标单词的最长公共子序列长度;
P318提取右二元单词对匹配二元统计模型得到的符合条件的所有匹配单词中,目标单词的匹配单词及其词频;
P319汇总左二元单词对和右二元单词对匹配二元统计模型得到的匹配单词及其词频,并标记为匹配单词及其词频;
P320依次读取匹配二元统计模型得到的匹配单词及其词频;
P321根据公式(1)计算出匹配单词的正则化目标单词与匹配单词最长公共子序列长度;
P322根据公式(2)计算出匹配单词的正则化二元单词对词频;
P323根据公式(3)计算出匹配单词权重;
P324判断匹配单词是否为当前目标单词的最后一个匹配单词,是则执行P325,否则执行P320;
P325依据匹配单词权重对所有当前目标单词的匹配单词进行从大到小排序;
P326选取权重排序靠前的匹配单词作为当前目标单词的候选单词;
P327判断当前目标单词是否为英语文本词汇表的最后一个单词,是则执行P328,否则执行P304;
P328汇总所有目标单词匹配二元统计模型得到的候选单词;
P329将目标单词匹配的单词使用错误易混淆集合中的单词和匹配二元统计模型得到的候选单词合并;
P330去除P329步中合并的单词中的重复单词,标记非重复单词为候选单词;
P331输出得到的候选单词;
P332结束。
如图4所示,所述的英语单词上下文语义分析模块处理流程如下:
P401开始;
P402读取目标英语单词匹配模块处理的候选单词;
P403将目标单词与候选单词合并;
P404去掉重复的单词,标记为相应目标单词所在英语文本中对应编号位置的候选单词列表;
P405读取英语单词的共现词向量模型;
P406依据目标单词编号位置依次读取相应候选单词列表;
P407将候选单词列表中的每个单词匹配英语单词的共现词向量模型,得到列表中每个单词的词向量;
P408汇总当前候选单词列表中单词的词向量;
P409对候选单词列表中除目标单词以外的所有单词进行词性标注;
P410判断候选单词列表中的单词是否与目标单词词性相同,是则执行P411,否则执行P412;
P411选取当前目标单词对应编号位置的左相邻3个单词和右相邻3个单词作为上下文单词;
P412选取当前目标单词对应编号位置的左相邻2个单词和右相邻2个单词作为上下文单词;
P413将上下文单词与英语单词的共现词向量模型匹配,得到上下文单词的词向量;
P414依次读取上下文单词的词向量;
P415根据候选单词列表中的候选单词的词向量和上下文单词的词向量,根据公式(4)计算出候选单词列表中单词与上下文单词的单词语义相关值;
P416判断是否是当前候选单词的最后一个上下文单词,是则执行P417,否则执行P414;
P417根据公式(5)计算出候选单词列表中单词上下文语义相关值;
P418根据候选单词列表中单词上下文语义相关值,标记候选单词列表中单词的上下文语义相关性;
P419汇总该候选单词列表中单词的上下文语义相关性;
P420判断是否是最后一个候选单词列表,是则执行P421,否则执行P406;
P421输出候选单词列表中单词的上下文语义相关性结果;
P422结束。
如图5所示,所述的英语单词使用错误纠正模块处理流程如下:
P501开始;
P502读取英语单词上下文语义分析模块的候选单词列表中单词的上下文语义相关性结果;
P503依据目标单词的标号位置提取候选单词列表中单词的上下文语义相关性结果;
P504依据单词上下文语义相关性,从高到低对候选单词列表中的单词进行排序;
P505判断是否目标单词的单词语义相关性最高,是则执行P506,否则执行P507;
P506标记当前目标单词不存在单词使用错误;
P507标记当前目标单词发生了单词使用错误;
P508汇总当前目标单词的候选单词列表中单词上下文语义相关性最高的单词,作为单词使用错误的纠正建议;
P509判断是否是最后一个候选单词列表,是则执行P510,否则执行P503;
P510输出英语文本中发生单词使用错误的单词及相应的单词使用错误纠正建议;
P511结束。
附图说明
图1是本发明方法的总体处理流程图;
图2是本发明方法的英语文本预处理模块处理流程图;
图3是本发明方法的目标英语单词匹配模块处理流程图;
图4是本发明方法的英语单词上下文语义分析模块处理流程图;
图5是本发明方法的英语单词使用错误纠正模块处理流程图。
具体实施方式
本发明的一种英语文本的单词使用错误纠正方法的具体实施方式分为如下五个步骤。
第一步骤:执行“英语文本预处理模块”
本发明实施方式中输入的英语文本题目为“Health Gains In DevelopingCountries”。
(1)输入的英语文本内容如下所示:
Health is a very important business in our lift,it is the foundationoff every activity,and everyone needs good health.Things were not good in thedeveloping world a hundred years ago,bit nowadays,health in developingcountries comes to getting well.
In developing countries,life expectancy and infant mortality havechanged a lot,and life expectancy rises from 40years old to 60years oldduring the period form 1960to 1990.In the 1960s,life expectancy in developingcountries was 40years old,at the same time,their infant mortality was250deaths percent 1,000births.Nevertheless,in the 1990s,there life expectancywas got to 60 years old,and their infant mortality was 100deaths percent 1,000births.Will the development of these countries,all the condition haschanged.This change was a good performance.It indicates their life conditionswhere improved greatly in developing countries.Their economy is developing,they possessed a lot of hospitals,schools,medicine,and so on.
In my opinion,this great change was taken place bye their people andthe whole word people.The world was helping those developing countriesactively, so the condition of health could be beater than the past indeveloping countries.
(2)英语文本词性标注结果如下所示:
Health/NNP,is/VBZ,a/DT,very/RB,important/JJ,business/NN,in/IN, our/PRP$,lift/NN,,/,,it/PRP,is/VBZ,the/DT,foundation/NN,off/IN,every/DT,activity/NN,,/,,and/CC,everyone/NN,needs/VBZ,good/JJ,health/NN,./., Things/NNS,were/VBD,not/RB,good/JJ,in/IN,the/DT,developing/VBG,world/NN, a/DT,hundred/CD,years/NNS,ago/RB,,/,,bit/NN,nowadays/RB,,/,,health/NN, in/IN,developing/VBG,countries/NNS,comes/VBZ,to/TO,getting/VBG, well/RB,./.
In/IN,developing/VBG,countries/NNS,,/,,life/NN,expectancy/NN,and/CC,infant/NN,mortality/NN,have/VBP,changed/VBN,a/DT,lot/NN,,/,,and/CC, life/NN,expectancy/NN,rises/VBZ,from/IN,40/CD,years/NNS,old/JJ,to/TO, 60/CD,years/NNS,old/JJ,during/IN,the/DT,period/NN,form/NN,1960/CD,to/TO, 1990/CD,./.,In/IN,the/DT,1960s/NNS,,/,,life/NN,expectancy/NN,in/IN, developing/VBG,countries/NNS,was/VBD,40/CD,years/NNS,old/JJ,,/,,at/IN, the/DT,same/JJ,time/NN,,/,,their/PRP$,infant/NN,mortality/NN,was/VBD, 250/CD,deaths/NNS,percent/NN,1,000/CD,births/NNS,./.,Nevertheless/RB,,/,, in/IN,the/DT,1990s/CD,,/,,there/EX,life/NN,expectancy/NN,was/VBD, got/VBN,to/TO,60/CD,years/NNS,old/JJ,,/,,and/CC,their/PRP$,infant/NN, mortality/NN,was/VBD,100/CD,deaths/NNS,percent/NN,1,000/CD, births/NNS,./.,Will/MD,the/DT,development/NN,of/IN,these/DT, countries/NNS,,/,,all/PDT,the/DT,condition/NN,has/VBZ,changed/VBN,./., This/DT,change/NN,was/VBD,a/DT,good/JJ,performance/NN,./.,It/PRP,indicates/VBZ,their/PRP$,life/NN,conditions/NNS,where/WRB,improved/VBN,greatly/RB,in/IN,developing/VBG,countries/NNS,./.,Their/PRP$,economy/NN, is/VBZ,developing/VBG,,/,,they/PRP,possessed/VBD,a/DT,lot/NN,of/IN, hospitals/NNS,,/,,schools/NNS,,/,,medicine/NN,,/,,and/CC,so/RB, on/IN,./.
In/IN,my/PRP$,opinion/NN,,/,,this/DT,great/JJ,change/NN,was/VBD,taken/VBN,place/NN,bye/NN,their/PRP$,people/NNS,and/CC,the/DT,whole/JJ, word/NN,people/NNS,./.,The/DT,world/NN,was/VBD,helping/VBG,those/DT, developing/VBG,countries/NNS,actively/RB,,/,,so/IN,the/DT,condition/NN, of/IN,health/NN,could/MD,be/VB,beater/NN,than/IN,the/DT,past/NN,in/IN, developing/VBG,countries/NNS,./.
(3)生成的英语文本词汇表如下所示:
句子1:health/NNP_1,is/VBZ_2,a/DT_3,very/RB_4,important/JJ_5,business/NN_6,in/IN_7,our/PRP$_8,lift/NN_9,it/PRP_10,is/VBZ_11,the/DT_12,foundation/NN_13,off/IN_14,every/DT_15,activity/NN_16,and/CC_17, everyone/NN_18,needs/VBZ_19,good/JJ_20,health/NN_21,./.
句子2:things/NNS_1,were/VBD_2,not/RB_3,good/JJ_4,in/IN_5,the/DT_6,developing/VBG_7,world/NN_8,a/DT_9,hundred/CD_10,years/NNS_11,ago/RB_12, bit/NN_13,nowadays/RB_14,health/NN_15,in/IN_16,developing/VBG_17, countries/NNS_18,comes/VBZ_19,to/TO_20,getting/VBG_21,well/RB_22,./.
句子3:in/IN_1,developing/VBG_2,countries/NNS_3,life/NN_4, expectancy/NN_5,and/CC_6,infant/NN_7,mortality/NN_8,have/VBP_9, changed/VBN_10,a/DT_11,lot/NN_12,and/CC_13,life/NN_14,expectancy/NN_15, rises/VBZ_16,from/IN_17,40/CD_18,years/NNS_19,old/JJ_20,to/TO_21, 60/CD_22,years/NNS_23,old/JJ_24,during/IN_25,the/DT_26,period/NN_27, form/NN_28,1960/CD_29,to/TO_30,1990/CD_31,./.
句子4:in/IN_1,the/DT_2,1960s/NNS_3,life/NN_4,expectancy/NN_5,in/IN_6,developing/VBG_7,countries/NNS_8,was/VBD_9,40/CD_10,years/NNS_11, old/JJ_12,at/IN_13,the/DT_14,same/JJ_15,time/NN_16,their/PRP$_17, infant/NN_18,mortality/NN_19,was/VBD_20,250/CD_21,deaths/NNS_22, percent/NN_23,1,000/CD_24,births/NNS_25,./.
句子5:nevertheless/RB_1,in/IN_2,the/DT_3,1990s/CD_4,there/EX_5, life/NN_6,expectancy/NN_7,was/VBD_8,got/VBN_9,to/TO_10,60/CD_11, years/NNS_12,old/JJ_13,and/CC_14,their/PRP$_15,infant/NN_16, mortality/NN_17,was/VBD_18,100/CD_19,deaths/NNS_20,percent/NN_21, 1,000/CD_22,births/NNS_23,./.
句子6:will/MD_1,the/DT_2,development/NN_3,of/IN_4,these/DT_5,countries/NNS_6,all/PDT_7,the/DT_8,condition/NN_9,has/VBZ_10, changed/VBN_11,./.
句子7:this/DT_1,change/NN_2,was/VBD_3,a/DT_4,good/JJ_5, performance/NN_6,./.
句子8:it/PRP_1,indicates/VBZ_2,their/PRP$_3,life/NN_4, conditions/NNS_5,where/WRB_6,improved/VBN_7,greatly/RB_8,in/IN_9, developing/VBG_10,countries/NNS_11,./.
句子9:their/PRP$_1,economy/NN_2,is/VBZ_3,developing/VBG_4,they/PRP_5,possessed/VBD_6,a/DT_7,lot/NN_8,of/IN_9,hospitals/NNS_10,schools/NNS_11,medicine/NN_12,and/CC_13,so/RB_14,on/IN_15,./.
句子10:in/IN_1,my/PRP$_2,opinion/NN_3,this/DT_4,great/JJ_5, change/NN_6,was/VBD_7,taken/VBN_8,place/NN_9,bye/NN_10,their/PRP$_11, people/NNS_12,and/CC_13,the/DT_14,whole/JJ_15,word/NN_16, people/NNS_17,./.
句子11:The/DT_1,world/NN_2,was/VBD_3,helping/VBG_4,those/DT_5,developing/VBG_6,countries/NNS_7,actively/RB_8,so/IN_9,the/DT_10, condition/NN_11,of/IN_12,health/NN_13,could/MD_14,be/VB_15,beater/NN_16, than/IN_17,the/DT_18,past/NN_19,in/IN_20,developing/VBG_21, countries/NNS_22,./.
第二步骤:执行“目标英语单词匹配模块”
(1)匹配单词使用错误易混淆集合如下所示:
句子1:lift/NN_9,off/IN_14
句子2:bit/NN_13
句子3:form/NN_28
句子5:there/EX_5
句子6:will/MD_1
句子8:where/WRB_6
句子10:bye/NN_10,word/NN_16
句子11:beater/NN_16
(2)生成目标单词的左二元单词对和右二元单词对如下所示:
左二元单词对:
句子1:our/PRP$_8lift/NN_9,foundation/NN_13off/IN_14
句子2:ago/RB_12bit/NN_13
句子3:period/NN_27form/NN_28
句子5:1990s/CD_4there/EX_5
句子8:conditions/NNS_5where/WRB_6
句子10:place/NN_9bye/NN_10,whole/JJ_15word/NN_16
句子11:be/VB_15beater/NN_16
右二元单词对:
句子1:lift/NN_9it/PRP_10,off/IN_14every/DT_15
句子2:bit/NN_13nowadays/RB_14
句子3:form/NN_28 1960/CD_29
句子5:there/EX_5life/NN_6
句子6:will/MD_1the/DT_2
句子8:where/WRB_6improved/VBN_7
句子10:bye/NN_10their/PRP$_11,word/NN_16people/NNS_17
句子11:beater/NN_16than/IN_17
(3)匹配二元统计模型得到的匹配单词如下所示:
lift/NN_9:list,like
off/IN_14:of
bit/NN_13:it,but
form/NN_28:for,from
there/EX_5:their,the
will/MD_1:with,all
where/WRB_6:were,when
bye/NN_10:by,the,get,you
word/NN_16:for,more,world
beater/NN_16:better,either,rather
(4)目标英语单词匹配模块最终输出的匹配的候选单词如下所示:
lift/NN_9:life,list,like
off/IN_14:of
bit/NN_13:it,but,big
form/NN_28:for,from
there/EX_5:their,the
will/MD_1:with,all
where/WRB_6:wear,were,when
bye/NN_10:by,the,get,you
word/NN_16:for,more,world
beater/NN_16:better,either,rather
第三步骤:执行“英语单词上下文语义分析模块”
(1)合并且词性标注的候选单词列表如下所示:
lift/NN_9:life/NN,list/NN,like/IN,lift/NN
off/IN_14:of/IN,off/IN
bit/NN_13:it/PRP,but/CC,big/JJ,bit/NN
form/NN_28:for/IN,from/IN,form/NN
there/EX_5:their/PRP$,the/DT,there/EX
will/MD_1:with/IN,all/DT,will/MD
where/WRB_6:wear/NN,were/VBD,when/WRB,where/WRB
bye/NN_10:by/IN,the/DT,get/VB,you/PRP,bye/NN
word/NN_16:for/IN,more/RBR,world/NN,word/NN
beater/NN_16:better/RB,either/RB,rather/RB,beater/NN
(2)计算单词语义相关性选择的上下文单词如下所示:
lift/NN_9:
life/NN:business/NN_6,in/IN_7,our/PRP$_8,it/PRP_10,is/VBZ_11, the/DT_12
list/NN:business/NN_6,in/IN_7,our/PRP$_8,it/PRP_10,is/VBZ_11, the/DT_12
like/IN:in/IN_7,our/PRP$_8,it/PRP_10,is/VBZ_11
lift/NN:business/NN_6,in/IN_7,our/PRP$_8,it/PRP_10,is/VBZ_11, the/DT_12
off/IN_14:
of/IN:is/VBZ_11,the/DT_12,foundation/NN_13,every/DT_15,activity/NN_16, and/CC_17
off/IN:is/VBZ_11,the/DT_12,foundation/NN_13,every/DT_15, activity/NN_16,and/CC_17
bit/NN_13:
it/PRP:years/NNS_11,ago/RB_12,nowadays/RB_14,health/NN_15
but/CC:years/NNS_11,ago/RB_12,nowadays/RB_14,health/NN_15
big/JJ:years/NNS_11,ago/RB_12,nowadays/RB_14,health/NN_15
bit/NN:hundred/CD_10,years/NNS_11,ago/RB_12,nowadays/RB_14, health/NN_15,in/IN_16
form/NN_28:
for/IN:the/DT_26,period/NN_27,1960/CD_29,to/TO_30
from/IN:the/DT_26,period/NN_27,1960/CD_29,to/TO_30
form/NN:during/IN_25,the/DT_26,period/NN_27,1960/CD_29,to/TO_30,1990/CD_31
there/EX_5:
their/PRP$:the/DT_3,1990s/CD_4,life/NN_6,expectancy/NN_7
the/DT:the/DT_3,1990s/CD_4,life/NN_6,expectancy/NN_7
there/EX:in/IN_2,the/DT_3,1990s/CD_4,life/NN_6,expectancy/NN_7, was/VBD_8
will/MD_1:
with/IN:the/DT_2,development/NN_3
all/DT:the/DT_2,development/NN_3
will/MD:the/DT_2,development/NN_3,of/IN_4
where/WRB_6:
wear/NN:life/NN_4,conditions/NNS_5,improved/VBN_7,greatly/RB_8
were/VBD:life/NN_4,conditions/NNS_5,improved/VBN_7,greatly/RB_8
when/WRB:their/PRP$_3,life/NN_4,conditions/NNS_5,improved/VBN_7,greatly/RB_8,in/IN_9
where/WRB:their/PRP$_3,life/NN_4,conditions/NNS_5,improved/VBN_7,greatly/RB_8,in/IN_9
bye/NN_10:
by/IN:taken/VBN_8,place/NN_9,their/PRP$_11,people/NNS_12
the/DT:taken/VBN_8,place/NN_9,their/PRP$_11,people/NNS_12
get/VB:taken/VBN_8,place/NN_9,their/PRP$_11,people/NNS_12
you/PRP:taken/VBN_8,place/NN_9,their/PRP$_11,people/NNS_12
bye/NN:was/VBD_7,taken/VBN_8,place/NN_9,their/PRP$_11,people/NNS_12,and/CC_13
word/NN_16:
for/IN:the/DT_14,whole/JJ_15,people/NNS_17
more/RBR:the/DT_14,whole/JJ_15,people/NNS_17
world/NN:and/CC_13,the/DT_14,whole/JJ_15,people/NNS_17
word/NN:and/CC_13,the/DT_14,whole/JJ_15,people/NNS_17
beater/NN_16:
better/RB:could/MD_14,be/VB_15,than/IN_17,the/DT_18
either/RB:could/MD_14,be/VB_15,than/IN_17,the/DT_18
rather/RB:could/MD_14,be/VB_15,than/IN_17,the/DT_18
beater/NN:health/NN_13,could/MD_14,be/VB_15,than/IN_17,the/DT_18,past/NN_19
(3)部分单词匹配单词的共现词向量模型如下所示:
lift:0.56568 -0.23691 -0.38831 -0.82032 0.069845 0.14803 0.00800560.24434 -0.41206 -1.2638 -0.026871 -0.46036 0.36933 -0.21969 0.062654 0.369610.16722 0.0055895 -0.39244 -0.4679 -0.044386 -0.14724 0.31443 0.25545 -0.36198 0.12101 -0.035477 0.30122 0.10192 0.072114 -0.18484 -0.10472 -0.08678-0.1242 -0.70933 0.35155 -0.025813 0.3254 0.34089 0.39495 -0.64856 0.448090.10786 0.16879 -0.011479 -0.052673 -0.14861 -0.68484 0.16677 -0.042850.10193 0.066021 -0.31367 -0.58791 -0.29021 0.13206 0.047495 0.0061609 -0.46959 0.31012 0.12945 0.092864 -0.11916 -0.19131 -0.46917 -0.021252 -0.85772 0.46172 0.33695 0.10779 0.088468 0.31445 0.033369 0.43117 0.890720.50387 -0.21844 0.29895 -0.022475 -0.094172 0.04749 -0.17144 -0.12303 -0.22863 -0.41367 -0.52865 -0.18882 0.3751 -0.34397 0.045857 0.54281 -0.10720.27258 0.033114 -0.47889 0.17712 -0.5596 -0.07055 -0.055711 0.4397 -0.0129920.28889 -0.43809 -0.34264 0.12137 0.088432 -0.24348 -0.48843 -0.00064962 -0.38722 -0.011186 -0.13471 -0.38856 -0.26961 -0.19256 0.47013 -0.24231 -0.16887 0.081067 -0.02459 0.73603 -0.17947 0.74775 -0.058111 -0.146 0.17228 -0.29813 -0.31022 0.36832 0.36316 0.10413 0.85485 -0.29624 0.24627 0.126590.38284 -0.358 -0.075646 -0.29439 0.40096 -0.33533 -0.24786 0.021241 -0.1759-0.77575 -0.34906 -0.096349 -0.58527 0.19256 -0.10197 -0.26235 -0.4201 -0.22941 0.10733 0.68504 0.43247 -0.053171 -0.4423 -0.45382 0.22845 0.184880.14171 -0.27621 -0.19863 0.37962 0.030572 0.4047 -0.0038779 0.26091 -0.057528 -0.44636 -0.072603 0.11821 -0.17566 0.24986 -0.35782 0.0857870.17689 -0.28475 0.42292 0.35051 -0.037967 0.023523 -0.10126 -0.22759 0.2636-0.29787 0.054549 -0.49876 0.77931 -0.16223 0.42511 -0.26616 0.0863350.039502 -0.27779 -0.43197 -0.10044 0.010501 0.18403 0.96271 0.36792 -0.188890.2546 -0.36858 -0.38844 -0.066649 0.13525 -0.096165 -0.16614 -0.27691 -0.52206 -0.036597 0.28167 0.059882 -0.61552 0.15776 -0.60141 -0.20605 -0.095027 0.2245 -0.079114 0.1 -0.33538 0.066933 0.23367 0.098229 0.0306060.040105 -0.051699 -0.056546 0.056695 0.2404 -0.22287 0.098319 -0.33619 -0.3929 -0.20915 0.31173 -0.32123 -0.28822 0.030451 -0.36253 -0.07215 -0.49241-0.13684 0.29783 0.48646 -0.52495 -0.7053 -0.64105 -0.090258 0.93403 -0.063219 -0.23034 -0.0060796 -0.4216 0.016508 -0.13331 -0.060148 -0.094721 -0.21757 -0.37617 0.32151 -0.062131 0.44744 0.24707 0.7195 -0.26339 -0.52458 -0.077516 0.095248 -0.084255 0.0085512 0.28825 -0.60639 -1.7116 -0.697470.49086 -0.16208 -0.37274 -0.012509 0.084384 -0.10859 -0.3966 -0.22357 -0.14723 -0.072722 -0.01939 0.31381 -0.29454 -0.20101 -0.68774 0.019659 -0.017644 0.1935 -0.50135 -0.3435 0.072787 0.37098
……
where:where-0.51369 0.50502 -0.039881 -0.26528 -0.16697 0.230910.23279 -0.0091991 0.1669 -1.3963 -0.0036446 0.033718 0.022864 0.0821440.19963 0.10847 -0.49997 -0.17094 0.12348 -0.074317 -0.025484 0.32624 0.50641-0.55694 -0.43176 -0.10346 0.32605 0.19733 -0.3921 0.15175 0.23033 0.045672 -0.35131 0.47108 -0.24673 -0.10171 -0.1497 -0.039292 -0.48296 -0.38066 -0.014226 -0.53625 -0.33421 0.23372 -0.19318 0.054128 0.34851 0.24068 -0.055696 0.34372 0.025941 -0.25521 0.19746 0.097996 0.30323 0.050731 -0.114310.034469 0.23253 -0.017021 -0.094599 -0.06248 0.39344 0.28202 -0.016055 -0.48906 0.11432 0.25729 -0.094022 -0.071059 -0.074808 -0.039591 -0.14913 -0.10561 -0.47521 -0.039489 0.088501 -0.058646 -0.18929 -0.31581 0.11228 -0.22751 -0.094652 -0.10093 -0.20754 0.092886 0.093109 0.02669 0.0802980.044669 0.037931 0.20937 -0.03622 -0.16924 0.023949 0.058466 -0.034268 -0.13189 -0.21878 -0.54804 0.25839 0.21677 0.00034522 0.226 -0.26826 0.477530.78059 0.35526 -0.12199 0.28106 -0.072994 -0.79044 0.034032 -0.061018 -0.0051319 0.1478 0.17658 0.040862 -0.29617 -0.0037941 0.20082 -0.039630.12158 0.1103 0.29765 0.18268 0.036413 -0.25024 0.23397 -0.091884 0.0420280.11458 0.29972 -0.22914 0.018369 -0.32108 0.0026725 0.019201 0.00725750.068829 0.177 -0.1668 -0.38309 0.1998 -0.48591 -0.44718 0.54602 -0.21317 -0.43415 0.16129 0.2214 0.0060356 0.20028 -0.026369 0.42227 -0.030493 0.11222-0.019765 0.47002 -0.07416 0.19907 -0.24469 0.12352 -0.052297 -0.017263 -0.052472 0.27656 -0.3955 0.0134 0.20014 -0.0061983 -0.0027917 -0.306220.037698 -0.1326 0.34021 -0.036533 -0.00051907 -0.045522 0.25267 0.000559780.49555 -0.12401 -0.02819 0.36046 0.068893 -0.2507 0.37406 0.22795 0.196790.12182 0.054364 0.10715 -0.21045 0.23376 -0.086757 0.059817 -0.029444 -0.42082 -0.012973 1.4066 -0.20096 0.11904 0.19607 0.14607 -0.3497 -0.0234650.22593 0.13606 -0.1005 -0.015114 0.23844 0.24159 -0.25914 0.053386 0.40195 -0.012732 -0.011912 -0.037132 -0.11086 0.33898 -0.036439 0.084158 -0.15174 -0.19033 -0.2564 0.015571 -0.12603 -0.073167 -0.080291 0.18875 0.06778 0.14324-0.21792 0.20475 0.179 0.17787 0.19336 -0.081237 0.1833 -0.096642 0.0726350.51635 0.24022 -0.47286 -0.3619 0.077693 0.11419 -0.13202 0.28593 0.20318 -0.0057642 -0.24232 0.17621 0.37416 0.24609 0.038502 -0.21721 0.025831 0.174450.23232 -0.39596 0.23061 -0.26313 0.085634 -0.23679 -0.19392 0.015977 0.25876-0.044308 -0.57316 -0.08326 0.082753 0.20613 0.035211 0.0099125 -2.3042 -0.1502 0.29709 0.32191 -0.74416 -0.21553 -0.33644 -0.18838 -0.3015 0.48585 -0.053338 0.22684 -0.19177 -0.028475 0.14525 -0.15988 0.10909 0.047691 -0.01537 0.13058 0.38774 -0.32947 -0.28606 0.39605
……
(4)单词上下文语义相关性结果如下所示:
lift/NN_9:
life:0.4451975
list:0.32497
like:0.4164372
lift:0.2543425
off/IN_14:
of:0.3329875
off:0.3182
bit/NN_13:
it:0.1755625
but:0.355585
big:0.22723
bit:0.1786025
form/NN_28:
for:0.31273
from:0.4911275
form:0.20754
there/EX_5:
their:0.4535025
the:0.33562
there:0.2723675
will/MD_1:
with:0.506025
all:0.42083
will:0.25163
where/WRB_6:
wear:0.30142
were:0.457105
when:0.2828825
where:0.260729
bye/NN_10:
by:0.4867825
the:0.440355
get:0.417652
you:0.3945574
bye:0.2156825
word/NN_16:
for:0.31629
more:0.23432
world:0.462106
word:0.279343
beater/NN_16:
better:0.6104226
either:0.5247925
rather:0.4970574
beater:0.22216249
第四步骤:执行“英语单词使用错误纠正模块”
(1)依据单词上下文语义相关性排序候选单词列表中单词的如下所示:
lift/NN_9:life,like,list,lift
off/IN_14:of,off
bit/NN_13:but,big,bit,it
form/NN_28:from,for,form
there/EX_5:their,the,there
will/MD_1:with,all,will
where/WRB_6:were,wear,when,where
bye/NN_10:by,the,get,you,bye
word/NN_16:world,for,word,more
beater/NN_16:better,either,rather,beater
(2)最终输出英语文本的单词使用错误及其纠正建议如下所示:
第1个句子第9个单词lift,建议纠正为life
第1个句子第14个单词off,建议纠正为of
第2个句子第13个单词bit,建议纠正为but。

Claims (7)

1.一种英语文本单词使用错误的纠正方法,其特征是:包括英语文本预处理模块、目标英语单词匹配模块、英语单词上下文语义分析模块、英语单词使用错误纠正模块组成的纠正模型,其纠正方法包括如下步骤:
(1)英语文本预处理模块输入需要检查英语单词使用错误的英语文本,对输入的英语文本进行分词分句、英语单词小写化处理;对分词分句、单词小写化处理后的英语文本进行词性标注,生成英语文本词汇表;以英语句子为切分标准,编号英语单词位置并分条存放英语文本词汇表,输出处理后的英语文本词汇表;
(2)目标英语单词匹配模块输入英语文本预处理模块处理后的英语文本词汇表;输入英语单词使用错误易混淆集合,将英语文本词汇表中的英语单词,与英语单词使用错误易混淆集合的英语单词进行匹配,记录匹配的英语单词及其对应位置编号,标记匹配的英语单词为可能发生英语单词使用错误的目标英语单词;提取目标英语单词在英语文本中对应编号位置的左相邻和右相邻的上下文英语单词各一个,分别与目标英语单词组成两个二元单词对;输入二元统计模型,将上一步的两个二元单词对,在二元统计模型中分别进行最长公共子序列匹配,得到满足二元统计模型的英语单词及其词频;提取二元统计模型匹配得到的英语单词中与目标英语单词相似的英语单词及其词频,正则化匹配的最长公共子序列长度和英语单词及其词频;根据正则化匹配的最长公共子序列长度和英语单词及其词频,计算匹配的英语单词权重,以权重大小排序二元统计模型匹配的英语单词;根据权重排序选取二元统计模型中与目标英语单词相匹配的英语单词,标记该英语单词为二元统计模型的匹配候选英语单词;结合单词使用错误易混淆集合和二元统计模型匹配的英语单词,去掉重复的英语单词得到匹配的候选英语单词,输出匹配的候选英语单词;
(3)英语单词上下文语义分析模块输入目标英语单词匹配模块处理后的匹配的候选英语单词,把候选英语单词与目标英语单词放入候选英语单词列表;输入英语单词的共现词向量模型,将上一步得到的候选英语单词列表中的英语单词,与英语单词的共现词向量模型匹配,得到候选英语单词列表中英语单词的词向量;依据候选英语单词列表中英语单词与目标英语单词的词性标注,选取出目标英语单词在英语文本中相应位置的上下文英语单词;将目标英语单词的上下文英语单词与英语单词的共现词向量模型匹配,得到上下文英语单词的词向量;利用英语单词的词向量,计算候选英语单词列表中每个英语单词与上下文英语单词的语义相关值,输出英语单词上下文语义分析结果;
(4)英语单词使用错误纠正模块输入英语单词上下文语义分析结果,根据候选英语单词列表中的英语单词上下文语义相关排序,来判断上下文相关最高的英语单词是否为目标英语单词;根据候选英语单词列表中上下文语义相关最高的英语单词是否为目标英语单词,来判断英语文本中的目标英语单词是否发生英语单词使用错误,如果目标英语单词的上下文语义相关值在候选英语单词列表中不是最高值时,则该目标英语单词为英语单词使用错误,输出候选英语单词列表中上下文语义相关值最高的英语单词作为英语单词使用错误的纠正建议。
2.根据权利要求1所述的纠正方法,其特征是:所述的英语文本预处理模块处理步骤如下:
P201开始;
P202读取需要检查单词使用错误的英语文本;
P203对输入的英语文本进行分词,并输出英语文本的分词结果;
P204对英语文本的分词结果进行单词小写化,并输出英语文本的单词小写化结果;
P205对英语文本的分词结果进行词性标注,并输出英语文本的词性标注结果;
P206统计英语文本的单词总数,输出单词总数统计结果;
P207依据单词总数统计结果,依序编号英语文本中单词的位置,并输出英语文本的单词编号结果;
P208依据分词结果、单词小写化结果、词性标注结果、单词编号结果,生成英语文本词汇表;
P209结束。
3.根据权利要求1所述的纠正方法,其特征是:所述的目标英语单词匹配模块的计算公式定义如下:
(1)正则化目标单词与匹配单词最长公共子序列长度计算公式
Figure FDA0002550168740000021
在公式(1)中,目标单词长度是指目标单词的英语字母总个数,匹配单词长度是指匹配单词的英语字母总个数,二元单词对长度是指二元单词对中两个单词的英语字母总个数;
(2)正则化二元单词对词频计算公式
Figure FDA0002550168740000022
在公式(2)中,二元单词对词频是指二元单词对中两个单词共同出现的次数;n表示目标单词的当前二元单词对在二元统计模型中匹配的二元单词对个数,i表示匹配单词的二元单词对的序号;
(3)匹配单词权重计算公式
匹配单词权重=
(1-λ)×正则化目标单词与匹配单词最长公共子序列长度+λ×正则化二元单词对词频(3)
在公式(3)中,λ是平衡匹配单词最长公共子序列长度和二元单词对词频的比例因子,正则化目标单词与匹配单词最长公共子序列长度由上述的公式(1)计算得出,正则化二元单词对词频由上述的公式(2)计算得出。
4.根据权利要求1或3所述的纠正方法,其特征是:所述的目标英语单词匹配模块处理步骤如下:
P301开始;
P302读取预处理的英语文本词汇表;
P303读取单词使用错误易混淆集合;
P304依序将英语文本词汇表中的单词匹配单词使用错误易混淆集合中的单词;
P305判断单词是否存在于单词使用错误易混淆集合中,是则执行P306,否则执行P327;
P306提取匹配单词使用错误易混淆集合的英语文本词汇表中单词的位置编号;
P307标记该单词为可能发生单词使用错误的目标单词;
P308读取二元统计模型;
P309提取目标单词在英语文本中左相邻编号位置的单词;
P310目标单词与左相邻单词组成目标单词的左二元单词对;
P311在二元统计模型中匹配左二元单词对的左相邻单词,获得包含左相邻单词的匹配词组;
P312依据包含左相邻单词的二元统计模型的匹配词组与目标单词的字符组合,得到符合条件的所有匹配单词中,目标单词的匹配单词与目标单词的最长公共子序列长度;
P313提取左二元单词对匹配二元统计模型得到的符合条件的所有匹配单词中,目标单词的匹配单词及其词频;
P314提取目标单词在英语文本中右相邻编号位置的单词;
P315目标单词与右相邻单词组成目标单词的右二元单词对;
P316在二元统计模型中匹配右二元单词对的右相邻单词,获得包含右相邻单词的匹配单词;
P317依据包含右相邻单词的二元统计模型的匹配单词与目标单词的字符组合,得到符合条件的所有匹配单词中,目标单词的匹配单词与目标单词的最长公共子序列长度;
P318提取右二元单词对匹配二元统计模型得到的符合条件的所有匹配单词中,目标单词的匹配单词及其词频;
P319汇总左二元单词对和右二元单词对匹配二元统计模型得到的匹配单词及其词频,并标记为匹配单词及其词频;
P320依次读取匹配二元统计模型得到的匹配单词及其词频;
P321根据公式(1)计算出匹配单词的正则化目标单词与匹配单词最长公共子序列长度;
P322根据公式(2)计算出匹配单词的正则化二元单词对词频;
P323根据公式(3)计算出匹配单词权重;
P324判断匹配单词是否为当前目标单词的最后一个匹配单词,是则执行P325,否则执行P320;
P325依据匹配单词权重对所有当前目标单词的匹配单词进行从大到小排序;
P326选取权重排序靠前的匹配单词作为当前目标单词的候选单词;
P327判断当前目标单词是否为英语文本词汇表的最后一个单词,是则执行P328,否则执行P304;
P328汇总所有目标单词匹配二元统计模型得到的候选单词;
P329将目标单词匹配的单词使用错误易混淆集合中的单词和匹配二元统计模型得到的候选单词合并;
P330去除P329步中合并的单词中的重复单词,标记非重复单词为候选单词;
P331输出得到的候选单词;
P332结束。
5.根据权利要求1所述的纠正方法,其特征是:所述的英语单词上下文语义分析模块的计算公式定义如下:
(1)单词语义相关值计算公式
Figure FDA0002550168740000041
(2)单词上下文语义相关值计算公式
Figure FDA0002550168740000051
在公式(5)中,单词语义相关值由上述的公式(4)计算得出,n表示选取单词的上下文单词的窗口大小。
6.根据权利要求1或5所述的纠正方法,其特征是:所述的英语单词上下文语义分析模块处理步骤如下:
P401开始;
P402读取目标英语单词匹配模块处理的候选单词;
P403将目标单词与候选单词合并;
P404去掉重复的单词,标记为相应目标单词所在英语文本中对应编号位置的候选单词列表;
P405读取英语单词的共现词向量模型;
P406依据目标单词编号位置依次读取相应候选单词列表;
P407将候选单词列表中的每个单词匹配英语单词的共现词向量模型,得到列表中每个单词的词向量;
P408汇总当前候选单词列表中单词的词向量;
P409对候选单词列表中除目标单词以外的所有单词进行词性标注;
P410判断候选单词列表中的单词是否与目标单词词性相同,是则执行P411,否则执行P412;
P411选取当前目标单词对应编号位置的左相邻3个单词和右相邻3个单词作为上下文单词;
P412选取当前目标单词对应编号位置的左相邻2个单词和右相邻2个单词作为上下文单词;
P413将上下文单词与英语单词的共现词向量模型匹配,得到上下文单词的词向量;
P414依次读取上下文单词的词向量;
P415根据候选单词列表中的候选单词的词向量和上下文单词的词向量,根据公式(4)计算出候选单词列表中单词与上下文单词的单词语义相关值;
P416判断是否是当前候选单词的最后一个上下文单词,是则执行P417,否则执行P414;
P417根据公式(5)计算出候选单词列表中单词上下文语义相关值;
P418根据候选单词列表中单词上下文语义相关值,标记候选单词列表中单词的上下文语义相关性;
P419汇总该候选单词列表中单词的上下文语义相关性;
P420判断是否是最后一个候选单词列表,是则执行P421,否则执行P406;
P421输出候选单词列表中单词的上下文语义相关性结果;
P422结束。
7.根据权利要求1所述的纠正方法,其特征是:所述的英语单词使用错误纠正模块处理步骤如下:
P501开始;
P502读取英语单词上下文语义分析模块的候选单词列表中单词的上下文语义相关性结果;
P503依据目标单词的标号位置提取候选单词列表中单词的上下文语义相关性结果;
P504依据单词上下文语义相关性,从高到低对候选单词列表中的单词进行排序;
P505判断是否目标单词的单词语义相关性最高,是则执行P506,否则执行P507;
P506标记当前目标单词不存在单词使用错误;
P507标记当前目标单词发生了单词使用错误;
P508汇总当前目标单词的候选单词列表中单词上下文语义相关性最高的单词,作为单词使用错误的纠正建议;
P509判断是否是最后一个候选单词列表,是则执行P510,否则执行P503;
P510输出英语文本中发生单词使用错误的单词及相应的单词使用错误纠正建议;
P511结束。
CN202010573320.1A 2020-06-22 2020-06-22 一种英语文本单词使用错误的纠正方法 Active CN111737980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010573320.1A CN111737980B (zh) 2020-06-22 2020-06-22 一种英语文本单词使用错误的纠正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010573320.1A CN111737980B (zh) 2020-06-22 2020-06-22 一种英语文本单词使用错误的纠正方法

Publications (2)

Publication Number Publication Date
CN111737980A true CN111737980A (zh) 2020-10-02
CN111737980B CN111737980B (zh) 2023-05-16

Family

ID=72650297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010573320.1A Active CN111737980B (zh) 2020-06-22 2020-06-22 一种英语文本单词使用错误的纠正方法

Country Status (1)

Country Link
CN (1) CN111737980B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036135A (zh) * 2020-11-06 2020-12-04 腾讯科技(深圳)有限公司 一种文本处理方法和相关装置
CN112487806A (zh) * 2020-11-30 2021-03-12 桂林电子科技大学 一种英语文本概念理解方法
CN113516994A (zh) * 2021-04-07 2021-10-19 北京大学深圳研究院 实时语音识别方法、装置、设备及介质
CN113553835A (zh) * 2021-08-11 2021-10-26 桂林电子科技大学 一种英语文本中句子语法错误自动纠正方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365838A (zh) * 2013-07-24 2013-10-23 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法
CN103885938A (zh) * 2014-04-14 2014-06-25 东南大学 基于用户反馈的行业拼写错误检查方法
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
CN106776549A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365838A (zh) * 2013-07-24 2013-10-23 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
CN103885938A (zh) * 2014-04-14 2014-06-25 东南大学 基于用户反馈的行业拼写错误检查方法
CN106776549A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李灿润;吴桂兴;吴敏;: "基于层次语言模型的英语动名词搭配纠错策略", 计算机***应用 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036135A (zh) * 2020-11-06 2020-12-04 腾讯科技(深圳)有限公司 一种文本处理方法和相关装置
CN112487806A (zh) * 2020-11-30 2021-03-12 桂林电子科技大学 一种英语文本概念理解方法
CN112487806B (zh) * 2020-11-30 2023-05-23 桂林电子科技大学 一种英语文本概念理解方法
CN113516994A (zh) * 2021-04-07 2021-10-19 北京大学深圳研究院 实时语音识别方法、装置、设备及介质
CN113516994B (zh) * 2021-04-07 2022-04-26 北京大学深圳研究院 实时语音识别方法、装置、设备及介质
CN113553835A (zh) * 2021-08-11 2021-10-26 桂林电子科技大学 一种英语文本中句子语法错误自动纠正方法
CN113553835B (zh) * 2021-08-11 2022-12-09 桂林电子科技大学 一种英语文本中句子语法错误自动纠正方法

Also Published As

Publication number Publication date
CN111737980B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN111737980A (zh) 一种英语文本单词使用错误的纠正方法
Kondrak Phonetic alignment and similarity
US7917350B2 (en) Word boundary probability estimating, probabilistic language model building, kana-kanji converting, and unknown word model building
US5835888A (en) Statistical language model for inflected languages
CN110276069B (zh) 一种中国盲文错误自动检测方法、***及存储介质
CN113168498A (zh) 语言校正***及其方法以及***中的语言校正模型学习方法
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
CN116306600B (zh) 一种基于MacBert的中文文本纠错方法
CN108509423A (zh) 一种基于二阶hmm的中标网页命名实体抽取方法
CN109299246B (zh) 一种文本分类方法及装置
CN106776550B (zh) 一种英语作文语篇连贯质量的分析方法
CN108536656B (zh) 基于wfst的文本正则化方法及***
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
KR101072460B1 (ko) 한국어 형태소 분석 방법
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
CN112487806B (zh) 一种英语文本概念理解方法
TW420774B (en) Method and apparatus for automatically correcting documents in chinese language
CN112685548B (zh) 问题回答方法以及电子设备、存储装置
JP4266240B1 (ja) 項目判定システムおよび項目判定プログラム
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
Reichart et al. Automatic selection of high quality parses created by a fully unsupervised parser
Khalifa et al. Towards learning Arabic morphophonology
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
Gore et al. Development of Part-of-Speech tagger for a low-resource endangered language
Milovanović et al. Part of speech tagging for serbian language using natural language toolkit

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201002

Assignee: Guilin ruiweisaide Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2023980046266

Denomination of invention: A Method for Correcting Word Usage Errors in English Text

Granted publication date: 20230516

License type: Common License

Record date: 20231108

EE01 Entry into force of recordation of patent licensing contract