CN107797995A

CN107797995A - 一种中英文片段语料生成方法

Info

Publication number: CN107797995A
Application number: CN201711160312.9A
Authority: CN
Inventors: 宋安琪
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language Network (wuhan) Information Technology Co Ltd
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2018-03-13

Abstract

本发明涉及机器翻译领域，尤其涉及一种中英文片段语料生成方法。包括分句处理、精确匹配、模糊匹配、修正词语对应关系、生成片段语料五个主要步骤。通过词性判断非实义词间隔找出复合词语对应关系，基于词对应关系和非实义词间隔判断提取片段。本发明提供的中英文片段语料生成方法，易于实现、生成的片段语料准确性高。对于提高机器辅助翻译效率的有着重要的意义。

Description

一种中英文片段语料生成方法

技术领域

本发明涉及机器翻译领域，尤其涉及一种中英文片段语料生成方法。

背景技术

随着信息技术的发展，国际交流日益频繁，准确理解不同语言成为了一个重要的需求。为解决不同语言之间人的沟通障碍，机器翻译，作为自然语言处理领域一个重要的方向，得到了越来越多的关注和发展，其中基于神经网络的机器翻译已经取代原有的基于统计的机器翻译成为了业界主流。无论是最新的基于神经网络的机器翻译还是过去的基于统计的机器翻译，大多基于语料库。现有的语料库一般包括单个词语语料和句子语料。在实际翻译工作中，单个词语语料类似于英汉词典，对于文章翻译，效率明显不够；而由于不同的翻译文章，完全相同的句子并不多，因此句子语料对于翻译的帮助作用有限。不同文中真正容易重复使用的往往是片段，片段是长度大于一个词语、小于一个句子的几个连续的词语的集合。片段语料则是中、英文片段的准确的互译文本。

显然，片段语料对于翻译效率的提高有着重要的意义。然而，现有语料库缺乏针对片段的语料。

发明内容

本发明所要解决的技术问题是提供一种中英文片段语料生成方法，以生成片段语料。

为解决上述技术问题，本发明提供一种中英文片段语料生成方法，包括以下步骤：

步骤1、选取一对已翻译好的中英文句子；分别对所述英文、中文句子作分词处理；

步骤2、根据英汉字典释义，查找英文单词释义与中文单词完全相同的所有英文单词，记录匹配的英文单词与中文单词的对应关系。

步骤3、对于经过步骤2尚未被记录对应关系的英文单词，如果该英文单词的词典释义与某中文单词相似度在设定阈值之上，则认为该英文单词与该中文单词意思匹配，记录该对应关系；

步骤4、修正词语对应关系，即

遍历步骤3后得到的多个英文单词对应一个中文单词的对应关系，将英文单词按在英文句子中出现的顺序排序，如果单词序号连续，则确认对齐关系，加入英汉词典释义；否则，如果最相近的两个单词顺序不连续，则判断间隔单词的词性，如果所述间隔单词全部为非实义词，则记录包括该间隔单词在内的对应关系；如果最相近的两个单词顺序不连续，且间隔单词中存在非实义词，则放弃该多个英文单词与该中文单词的对应关系；将所述对应关系合并到英汉词典；

步骤5、生成片段语料，即

设置片段起点为第一个中文词语，按中文词语在句子中出现的位置依次遍历中文词语和对应的英文单词，如果英文单词序号连续，继续下一个英文单词；如果当前片段包含中文词语超过2个，记录此片段；如果英文单词序号不连续且为实义词，记录不包含不连续单词的片段，重新开始设置片段起点；如果英文单词序号不连续且为非实义词，继续下一个英文单词，如果下一个单词连续，继续。如果下一个单词不连续，记录不包含最后两个不连续单词的片段，重新开始设置片段起点；当中文词语遇到分句标点符号时，重新设置片段起点为下一个中文词语。

中文句子遍历完成，得到一个个片段语料。

优选的，对所述英文、中文句子作分词处理包括：

英文句子分词：将通用英汉词典和已对齐的双语句子涉及到的英汉专业词典合并成单个英汉词典文件，对英文句子进行词形还原处理，按照最大正向匹配法根据词典中单词对英文句子进行分词；

中文句子分词：选用中文分词器对中文句子进行分词。

进一步的，所述中文分词器具有新词发现功能。

步骤2所述的根据英汉字典释义，查找英文单词释义与中文单词完全相同的所有英文单词，记录匹配的英文单词与中文单词的对应关系具体包括：

以分词处理后的英文为对象，从第一个实词开始，根据该英文单词的英汉词典中文释义查找中文句子中出现的词语，如果出现某中文词语与该英文单词的释义相同的，则记录英语单词和该中文词语的对应关系；继续下一个英文实词，直到最后一个单词。

优选的，所述相似度设定阈值为20％。

进一步的，选择更多的已翻译好的中英文句子对，重复上述步骤1至步骤5，得到足够多的片段语料。

本发明提供了一种中英文片段语料生成方法，以生成片段语料。该方法易于实现、生成的片段语料准确性高。对于提高机器辅助翻译效率的有着重要的意义。

附图说明

下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。

图1为本发明的整体流程图。

具体实施方式

结合图1所示，本发明具体包括以下步骤：

步骤1、句子分词

选取一对已翻译好的中英文句子；分别对所述英文、中文句子分词，包括，

英文句子分词：将通用英汉词典和已对齐的双语句子涉及到的英汉专业词典合并成单个英汉词典文件，对英文句子进行词形还原处理，按照最大正向匹配法根据词典中单词对英文句子进行分词。

中文句子分词：选用含有新词发现功能的中文分词器对中文句子进行分词。

步骤2、精确匹配

步骤3、模糊匹配

对于经过步骤2尚未被记录对应关系的英文单词，如果该英文单词的词典释义与某中文单词相似度在设定阈值之上，则认为该英文单词与该中文单词意思匹配，记录该对应关系；可以多个英文单词对应一个中文单词。

例如：中文句子为“传统的超级计算机只擅长科学工程计算，而超级服务器兼顾这两方面的应用，它是高端计算机的主流”，英文句子为“The traditional supercomputersare good at the scientific engineering computing only,while this super-serveris good at both,thus being the mainstream of the high-end computers.”。“超级服务器”是一个词，super词典释义中有“超级”的含义，对应到“超级服务器”，server词典释义中有“服务器”的含义，对应到“超级服务器”。“高端”是一个词，high词典释义中有“高级”的含义，和“高端”的相似度为(1+1)/(2+2)＝25％，大于20％，对应到“高端”，end词典释义中有“末端”的含义，和“高端”的相似度为(1+1)/(2+2)＝25％，大于20％，对应到“高端”。

步骤4、修正词语对应关系，即

遍历步骤3后得到的多个英文单词对应一个中文单词的对应关系，将英文单词按在英文句子中出现的顺序排序，如果单词序号连续，则确认对齐关系，加入英汉词典释义。否则，如果最相近的两个单词顺序不连续，则判断间隔单词的词性，如果所述间隔单词全部为非实义词，则记录包括该间隔单词在内的对应关系；如果最相近的两个单词顺序不连续，且间隔单词中存在非实义词，则放弃该多个英文单词与该中文单词的对应关系；将所述对应关系合并到英汉词典。

例如：上例中super和server均对应超“超级服务器”，“-”属于非实义词，则记录“super-server”和“超级服务器”的对应关系，类似“high-end”和“高端”具有对应关系。

步骤5、生成片段语料

设置片段起点为第一个中文词语，按中文词语在句子中出现的位置依次遍历中文词语和对应的英文单词，如果英文单词序号连续，继续下一个英文单词。如果当前片段包含中文词语超过2个，记录此片段。如果英文单词序号不连续且为实义词，记录不包含不连续单词的片段，重新开始设置片段起点。如果英文单词序号不连续且为非实义词，继续下一个英文单词，如果下一个单词连续，继续。如果下一个单词不连续，记录不包含最后两个不连续单词的片段，重新开始设置片段起点。当中文词语遇到逗号、句号、感叹号等分句标点符号，重新设置片段起点为下一个中文词语。

中文句子遍历完成后，得到一个个片段语料。

例如：上例中“传统”对应“traditional”，“的”对应“of”，不连续，但“of”为非实义词，继续，“超级计算机”对应“supercomputers”，连续，记录片段“传统的计算机”对应“traditional supercomputers”。“只”对应“only”，不连续，“only”为实义词，重新设置片段起点。“擅长”对应“are good at”，“擅长”与上一个片段词“超级计算机”不连续，且“aregood at”为实义词，因此重新设置片段起点为“擅长”。继续匹配，“科学”对应“scientific”，是连续“擅长”的，记录片段“擅长科学”对应“are good at scientific”。“工程”对应“engineering”，记录片段“擅长科学工程”对应“are good at scientificengineering”和“科学工程”对应“scientific engineering”。“计算”对应“computing”，连续，记录片段“擅长科学工程计算”对应“are good at scientific engineeringcomputing”，“科学工程计算”对应“scientific engineering computing”和“工程计算”对应“engineering computing”。

选择更多的已翻译好的中英文句子对，重复上述步骤1至步骤5，得到足够多的片段语料。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种中英文片段语料生成方法，其特征在于，包括以下步骤：

步骤1、分句处理，即选取一对已翻译好的中英文句子；分别对所述英文、中文句子作分词处理；

步骤2、根据英汉字典释义，查找英文单词释义与中文单词完全相同的所有英文单词，记录匹配的英文单词与中文单词的对应关系；

步骤4、修正词语对应关系，即

步骤5、生成片段语料，即

设置片段起点为第一个中文词语，按中文词语在句子中出现的位置依次遍历中文词语和对应的英文单词，如果英文单词序号连续，继续下一个英文单词；如果当前片段包含中文词语超过2个，记录此片段；如果英文单词序号不连续且为实义词，记录不包含不连续单词的片段，重新开始设置片段起点；如果英文单词序号不连续且为非实义词，继续下一个英文单词，如果下一个单词连续，继续；如果下一个单词不连续，记录不包含最后两个不连续单词的片段，重新开始设置片段起点；当中文词语遇到分句标点符号时，重新设置片段起点为下一个中文词语。

2.根据权利要求1所述的中英文片段语料生成方法，其特征在于，对所述英文、中文句子作分词处理包括：

中文句子分词：选用中文分词器对中文句子进行分词。

3.根据权利要求4所述的中英文片段语料生成方法，其特征在于，所述中文分词器具有新词发现功能。

4.根据权利要求1所述的中英文片段语料生成方法，其特征在于，步骤2所述的根据英汉字典释义，查找英文单词释义与中文单词完全相同的所有英文单词，记录匹配的英文单词与中文单词的对应关系具体包括：

5.根据权利要求1所述的中英文片段语料生成方法，其特征在于，所述相似度设定阈值为20％。

6.根据权利要求1所述的中英文片段语料生成方法，其特征在于，选择更多的已翻译好的中英文句子对，重复上述步骤1至步骤5，得到足够多的片段语料。