CN107797995A - 一种中英文片段语料生成方法 - Google Patents
一种中英文片段语料生成方法 Download PDFInfo
- Publication number
- CN107797995A CN107797995A CN201711160312.9A CN201711160312A CN107797995A CN 107797995 A CN107797995 A CN 107797995A CN 201711160312 A CN201711160312 A CN 201711160312A CN 107797995 A CN107797995 A CN 107797995A
- Authority
- CN
- China
- Prior art keywords
- word
- english
- chinese
- sentence
- fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及机器翻译领域,尤其涉及一种中英文片段语料生成方法。包括分句处理、精确匹配、模糊匹配、修正词语对应关系、生成片段语料五个主要步骤。通过词性判断非实义词间隔找出复合词语对应关系,基于词对应关系和非实义词间隔判断提取片段。本发明提供的中英文片段语料生成方法,易于实现、生成的片段语料准确性高。对于提高机器辅助翻译效率的有着重要的意义。
Description
技术领域
本发明涉及机器翻译领域,尤其涉及一种中英文片段语料生成方法。
背景技术
随着信息技术的发展,国际交流日益频繁,准确理解不同语言成为了一个重要的需求。为解决不同语言之间人的沟通障碍,机器翻译,作为自然语言处理领域一个重要的方向,得到了越来越多的关注和发展,其中基于神经网络的机器翻译已经取代原有的基于统计的机器翻译成为了业界主流。无论是最新的基于神经网络的机器翻译还是过去的基于统计的机器翻译,大多基于语料库。现有的语料库一般包括单个词语语料和句子语料。在实际翻译工作中,单个词语语料类似于英汉词典,对于文章翻译,效率明显不够;而由于不同的翻译文章,完全相同的句子并不多,因此句子语料对于翻译的帮助作用有限。不同文中真正容易重复使用的往往是片段,片段是长度大于一个词语、小于一个句子的几个连续的词语的集合。片段语料则是中、英文片段的准确的互译文本。
显然,片段语料对于翻译效率的提高有着重要的意义。然而,现有语料库缺乏针对片段的语料。
发明内容
本发明所要解决的技术问题是提供一种中英文片段语料生成方法,以生成片段语料。
为解决上述技术问题,本发明提供一种中英文片段语料生成方法,包括以下步骤:
步骤1、选取一对已翻译好的中英文句子;分别对所述英文、中文句子作分词处理;
步骤2、根据英汉字典释义,查找英文单词释义与中文单词完全相同的所有英文单词,记录匹配的英文单词与中文单词的对应关系。
步骤3、对于经过步骤2尚未被记录对应关系的英文单词,如果该英文单词的词典释义与某中文单词相似度在设定阈值之上,则认为该英文单词与该中文单词意思匹配,记录该对应关系;
步骤4、修正词语对应关系,即
遍历步骤3后得到的多个英文单词对应一个中文单词的对应关系,将英文单词按在英文句子中出现的顺序排序,如果单词序号连续,则确认对齐关系,加入英汉词典释义;否则,如果最相近的两个单词顺序不连续,则判断间隔单词的词性,如果所述间隔单词全部为非实义词,则记录包括该间隔单词在内的对应关系;如果最相近的两个单词顺序不连续,且间隔单词中存在非实义词,则放弃该多个英文单词与该中文单词的对应关系;将所述对应关系合并到英汉词典;
步骤5、生成片段语料,即
设置片段起点为第一个中文词语,按中文词语在句子中出现的位置依次遍历中文词语和对应的英文单词,如果英文单词序号连续,继续下一个英文单词;如果当前片段包含中文词语超过2个,记录此片段;如果英文单词序号不连续且为实义词,记录不包含不连续单词的片段,重新开始设置片段起点;如果英文单词序号不连续且为非实义词,继续下一个英文单词,如果下一个单词连续,继续。如果下一个单词不连续,记录不包含最后两个不连续单词的片段,重新开始设置片段起点;当中文词语遇到分句标点符号时,重新设置片段起点为下一个中文词语。
中文句子遍历完成,得到一个个片段语料。
优选的,对所述英文、中文句子作分词处理包括:
英文句子分词:将通用英汉词典和已对齐的双语句子涉及到的英汉专业词典合并成单个英汉词典文件,对英文句子进行词形还原处理,按照最大正向匹配法根据词典中单词对英文句子进行分词;
中文句子分词:选用中文分词器对中文句子进行分词。
进一步的,所述中文分词器具有新词发现功能。
步骤2所述的根据英汉字典释义,查找英文单词释义与中文单词完全相同的所有英文单词,记录匹配的英文单词与中文单词的对应关系具体包括:
以分词处理后的英文为对象,从第一个实词开始,根据该英文单词的英汉词典中文释义查找中文句子中出现的词语,如果出现某中文词语与该英文单词的释义相同的,则记录英语单词和该中文词语的对应关系;继续下一个英文实词,直到最后一个单词。
优选的,所述相似度设定阈值为20%。
进一步的,选择更多的已翻译好的中英文句子对,重复上述步骤1至步骤5,得到足够多的片段语料。
本发明提供了一种中英文片段语料生成方法,以生成片段语料。该方法易于实现、生成的片段语料准确性高。对于提高机器辅助翻译效率的有着重要的意义。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明的整体流程图。
具体实施方式
结合图1所示,本发明具体包括以下步骤:
步骤1、句子分词
选取一对已翻译好的中英文句子;分别对所述英文、中文句子分词,包括,
英文句子分词:将通用英汉词典和已对齐的双语句子涉及到的英汉专业词典合并成单个英汉词典文件,对英文句子进行词形还原处理,按照最大正向匹配法根据词典中单词对英文句子进行分词。
中文句子分词:选用含有新词发现功能的中文分词器对中文句子进行分词。
步骤2、精确匹配
以分词处理后的英文为对象,从第一个实词开始,根据该英文单词的英汉词典中文释义查找中文句子中出现的词语,如果出现某中文词语与该英文单词的释义相同的,则记录英语单词和该中文词语的对应关系;继续下一个英文实词,直到最后一个单词。
步骤3、模糊匹配
对于经过步骤2尚未被记录对应关系的英文单词,如果该英文单词的词典释义与某中文单词相似度在设定阈值之上,则认为该英文单词与该中文单词意思匹配,记录该对应关系;可以多个英文单词对应一个中文单词。
例如:中文句子为“传统的超级计算机只擅长科学工程计算,而超级服务器兼顾这两方面的应用,它是高端计算机的主流”,英文句子为“The traditional supercomputersare good at the scientific engineering computing only,while this super-serveris good at both,thus being the mainstream of the high-end computers.”。“超级服务器”是一个词,super词典释义中有“超级”的含义,对应到“超级服务器”,server词典释义中有“服务器”的含义,对应到“超级服务器”。“高端”是一个词,high词典释义中有“高级”的含义,和“高端”的相似度为(1+1)/(2+2)=25%,大于20%,对应到“高端”,end词典释义中有“末端”的含义,和“高端”的相似度为(1+1)/(2+2)=25%,大于20%,对应到“高端”。
步骤4、修正词语对应关系,即
遍历步骤3后得到的多个英文单词对应一个中文单词的对应关系,将英文单词按在英文句子中出现的顺序排序,如果单词序号连续,则确认对齐关系,加入英汉词典释义。否则,如果最相近的两个单词顺序不连续,则判断间隔单词的词性,如果所述间隔单词全部为非实义词,则记录包括该间隔单词在内的对应关系;如果最相近的两个单词顺序不连续,且间隔单词中存在非实义词,则放弃该多个英文单词与该中文单词的对应关系;将所述对应关系合并到英汉词典。
例如:上例中super和server均对应超“超级服务器”,“-”属于非实义词,则记录“super-server”和“超级服务器”的对应关系,类似“high-end”和“高端”具有对应关系。
步骤5、生成片段语料
设置片段起点为第一个中文词语,按中文词语在句子中出现的位置依次遍历中文词语和对应的英文单词,如果英文单词序号连续,继续下一个英文单词。如果当前片段包含中文词语超过2个,记录此片段。如果英文单词序号不连续且为实义词,记录不包含不连续单词的片段,重新开始设置片段起点。如果英文单词序号不连续且为非实义词,继续下一个英文单词,如果下一个单词连续,继续。如果下一个单词不连续,记录不包含最后两个不连续单词的片段,重新开始设置片段起点。当中文词语遇到逗号、句号、感叹号等分句标点符号,重新设置片段起点为下一个中文词语。
中文句子遍历完成后,得到一个个片段语料。
例如:上例中“传统”对应“traditional”,“的”对应“of”,不连续,但“of”为非实义词,继续,“超级计算机”对应“supercomputers”,连续,记录片段“传统的计算机”对应“traditional supercomputers”。“只”对应“only”,不连续,“only”为实义词,重新设置片段起点。“擅长”对应“are good at”,“擅长”与上一个片段词“超级计算机”不连续,且“aregood at”为实义词,因此重新设置片段起点为“擅长”。继续匹配,“科学”对应“scientific”,是连续“擅长”的,记录片段“擅长科学”对应“are good at scientific”。“工程”对应“engineering”,记录片段“擅长科学工程”对应“are good at scientificengineering”和“科学工程”对应“scientific engineering”。“计算”对应“computing”,连续,记录片段“擅长科学工程计算”对应“are good at scientific engineeringcomputing”,“科学工程计算”对应“scientific engineering computing”和“工程计算”对应“engineering computing”。
选择更多的已翻译好的中英文句子对,重复上述步骤1至步骤5,得到足够多的片段语料。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种中英文片段语料生成方法,其特征在于,包括以下步骤:
步骤1、分句处理,即选取一对已翻译好的中英文句子;分别对所述英文、中文句子作分词处理;
步骤2、根据英汉字典释义,查找英文单词释义与中文单词完全相同的所有英文单词,记录匹配的英文单词与中文单词的对应关系;
步骤3、对于经过步骤2尚未被记录对应关系的英文单词,如果该英文单词的词典释义与某中文单词相似度在设定阈值之上,则认为该英文单词与该中文单词意思匹配,记录该对应关系;
步骤4、修正词语对应关系,即
遍历步骤3后得到的多个英文单词对应一个中文单词的对应关系,将英文单词按在英文句子中出现的顺序排序,如果单词序号连续,则确认对齐关系,加入英汉词典释义;否则,如果最相近的两个单词顺序不连续,则判断间隔单词的词性,如果所述间隔单词全部为非实义词,则记录包括该间隔单词在内的对应关系;如果最相近的两个单词顺序不连续,且间隔单词中存在非实义词,则放弃该多个英文单词与该中文单词的对应关系;将所述对应关系合并到英汉词典;
步骤5、生成片段语料,即
设置片段起点为第一个中文词语,按中文词语在句子中出现的位置依次遍历中文词语和对应的英文单词,如果英文单词序号连续,继续下一个英文单词;如果当前片段包含中文词语超过2个,记录此片段;如果英文单词序号不连续且为实义词,记录不包含不连续单词的片段,重新开始设置片段起点;如果英文单词序号不连续且为非实义词,继续下一个英文单词,如果下一个单词连续,继续;如果下一个单词不连续,记录不包含最后两个不连续单词的片段,重新开始设置片段起点;当中文词语遇到分句标点符号时,重新设置片段起点为下一个中文词语。
2.根据权利要求1所述的中英文片段语料生成方法,其特征在于,对所述英文、中文句子作分词处理包括:
英文句子分词:将通用英汉词典和已对齐的双语句子涉及到的英汉专业词典合并成单个英汉词典文件,对英文句子进行词形还原处理,按照最大正向匹配法根据词典中单词对英文句子进行分词;
中文句子分词:选用中文分词器对中文句子进行分词。
3.根据权利要求4所述的中英文片段语料生成方法,其特征在于,所述中文分词器具有新词发现功能。
4.根据权利要求1所述的中英文片段语料生成方法,其特征在于,步骤2所述的根据英汉字典释义,查找英文单词释义与中文单词完全相同的所有英文单词,记录匹配的英文单词与中文单词的对应关系具体包括:
以分词处理后的英文为对象,从第一个实词开始,根据该英文单词的英汉词典中文释义查找中文句子中出现的词语,如果出现某中文词语与该英文单词的释义相同的,则记录英语单词和该中文词语的对应关系;继续下一个英文实词,直到最后一个单词。
5.根据权利要求1所述的中英文片段语料生成方法,其特征在于,所述相似度设定阈值为20%。
6.根据权利要求1所述的中英文片段语料生成方法,其特征在于,选择更多的已翻译好的中英文句子对,重复上述步骤1至步骤5,得到足够多的片段语料。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711160312.9A CN107797995A (zh) | 2017-11-20 | 2017-11-20 | 一种中英文片段语料生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711160312.9A CN107797995A (zh) | 2017-11-20 | 2017-11-20 | 一种中英文片段语料生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107797995A true CN107797995A (zh) | 2018-03-13 |
Family
ID=61535901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711160312.9A Pending CN107797995A (zh) | 2017-11-20 | 2017-11-20 | 一种中英文片段语料生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107797995A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344389A (zh) * | 2018-08-15 | 2019-02-15 | 中国科学院计算技术研究所 | 一种汉盲对照双语语料库的构建方法和*** |
CN109657244A (zh) * | 2018-12-18 | 2019-04-19 | 语联网(武汉)信息技术有限公司 | 一种英文长句自动切分方法及*** |
CN109857746A (zh) * | 2018-11-09 | 2019-06-07 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
CN109918677A (zh) * | 2019-03-21 | 2019-06-21 | 广东小天才科技有限公司 | 一种英文单词语义解析的方法及*** |
CN110209771A (zh) * | 2019-06-14 | 2019-09-06 | 哈尔滨哈银消费金融有限责任公司 | 用户地理信息分析与文本挖掘方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1801140A (zh) * | 2004-12-30 | 2006-07-12 | 中国科学院自动化研究所 | 一种机器翻译模板自动获取方法及装置 |
CN103678287A (zh) * | 2013-11-30 | 2014-03-26 | 武汉传神信息技术有限公司 | 一种关键词翻译统一的方法 |
CN104375988A (zh) * | 2014-11-04 | 2015-02-25 | 北京第二外国语学院 | 一种词语对齐方法及装置 |
CN105068997A (zh) * | 2015-07-15 | 2015-11-18 | 清华大学 | 平行语料的构建方法及装置 |
CN105912522A (zh) * | 2016-03-31 | 2016-08-31 | 长安大学 | 基于成分分析的英语语料自动提取方法和提取器 |
-
2017
- 2017-11-20 CN CN201711160312.9A patent/CN107797995A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1801140A (zh) * | 2004-12-30 | 2006-07-12 | 中国科学院自动化研究所 | 一种机器翻译模板自动获取方法及装置 |
CN103678287A (zh) * | 2013-11-30 | 2014-03-26 | 武汉传神信息技术有限公司 | 一种关键词翻译统一的方法 |
CN104375988A (zh) * | 2014-11-04 | 2015-02-25 | 北京第二外国语学院 | 一种词语对齐方法及装置 |
CN105068997A (zh) * | 2015-07-15 | 2015-11-18 | 清华大学 | 平行语料的构建方法及装置 |
CN105912522A (zh) * | 2016-03-31 | 2016-08-31 | 长安大学 | 基于成分分析的英语语料自动提取方法和提取器 |
Non-Patent Citations (2)
Title |
---|
李萌涛,孙强华: "《大学英语六级阅读理解集训》", 31 October 2002 * |
许鑫: "《基于文本特征计算的信息分析方法》", 30 November 2015 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344389A (zh) * | 2018-08-15 | 2019-02-15 | 中国科学院计算技术研究所 | 一种汉盲对照双语语料库的构建方法和*** |
CN109344389B (zh) * | 2018-08-15 | 2020-08-18 | 中国科学院计算技术研究所 | 一种汉盲对照双语语料库的构建方法和*** |
CN109857746A (zh) * | 2018-11-09 | 2019-06-07 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
CN109857746B (zh) * | 2018-11-09 | 2021-05-04 | 语联网(武汉)信息技术有限公司 | 双语词库的自动更新方法、装置与电子设备 |
CN109657244A (zh) * | 2018-12-18 | 2019-04-19 | 语联网(武汉)信息技术有限公司 | 一种英文长句自动切分方法及*** |
CN109657244B (zh) * | 2018-12-18 | 2023-04-18 | 语联网(武汉)信息技术有限公司 | 一种英文长句自动切分方法及*** |
CN109918677A (zh) * | 2019-03-21 | 2019-06-21 | 广东小天才科技有限公司 | 一种英文单词语义解析的方法及*** |
CN110209771A (zh) * | 2019-06-14 | 2019-09-06 | 哈尔滨哈银消费金融有限责任公司 | 用户地理信息分析与文本挖掘方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107797995A (zh) | 一种中英文片段语料生成方法 | |
Boudin et al. | Keyphrase extraction for n-best reranking in multi-sentence compression | |
Zhou et al. | Resolving surface forms to wikipedia topics | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的***及方法 | |
El-Shishtawy et al. | An accurate arabic root-based lemmatizer for information retrieval purposes | |
Dziob et al. | plWordNet 4.1-a linguistically motivated, corpus-based bilingual resource | |
CN101308512B (zh) | 一种基于网页的互译翻译对抽取方法及装置 | |
CN105630770A (zh) | 一种基于sc文法的分词标音连写方法及装置 | |
CN108132917B (zh) | 一种文档纠错标记方法 | |
Fu et al. | Generating chinese named entity data from a parallel corpus | |
Van Der Goot et al. | Lexical normalization for code-switched data and its effect on POS-tagging | |
Sun et al. | GEDIT: geographic-enhanced and dependency-guided tagging for joint POI and accessibility extraction at *** maps | |
Sagot et al. | Error mining in parsing results | |
Sembok et al. | Arabic word stemming algorithms and retrieval effectiveness | |
Attia et al. | Gwu-hasp: Hybrid arabic spelling and punctuation corrector | |
Hu et al. | CSCD-IME: correcting spelling errors generated by pinyin IME | |
Nguyen et al. | An approach to construct a named entity annotated English-Vietnamese bilingual corpus | |
Arcan | A comparison of statistical and neural machine translation for Slovene, Serbian and Croatian | |
Yamamoto et al. | Learning sequence-to-sequence correspondences from parallel corpora via sequential pattern mining | |
Guo et al. | Character-level dependency model for joint word segmentation, POS tagging, and dependency parsing in Chinese | |
Reinel et al. | Sentiment phrase generation using statistical methods | |
Chakrawarti et al. | Phrase-Based Statistical Machine Translation of Hindi Poetries into English | |
Garcia | Comparing bilingual word embeddings to translation dictionaries for extracting multilingual collocation equivalents | |
Zitouni et al. | Cross-language information propagation for arabic mention detection | |
Hung-Ngo et al. | A visualizing annotation tool for semi-automatically building a bilingual corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180313 |