CN105653516B

CN105653516B - 平行语料对齐的方法和装置

Info

Publication number: CN105653516B
Application number: CN201511022223.9A
Authority: CN
Inventors: 江潮; 张芃
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language Network (wuhan) Information Technology Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2018-08-10
Anticipated expiration: 2035-12-30
Also published as: CN105653516A

Abstract

一种平行语料对齐的方法，包括：将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符；对转换后的原文中的所有原文语句分词，去除其中的停用词，获得实义词；获取原文语句的每个实义词的所有译项；将每个原文语句的每个实义词的所有译项在转换后的译文中的所有译文语句中进行匹配，获得每个原文语句的每个实义词和译文语句的相似度；根据每个原文语句的所有实义词和译文语句的相似度，将每个原文语句和译文语句进行匹配，获得每个原文语句和译文语句的相似度；将与原文语句相似度最高的译文语句和原文语句匹配并对齐。本发明公开一种平行语料对齐的装置。该方法和装置解决原文和译文对齐问题。

Description

平行语料对齐的方法和装置

技术领域

本发明涉及翻译技术领域，具体涉及一种平行语料对齐的方法和装置。

背景技术

平行语料库在机器翻译、辅助翻译、语义消岐和词典编撰等众多领域都起着基础性的作用。平行语料库的对齐是指，将原文和译文按不同的分割粒度进行对应，形成规范的语对。语料对齐的单位从大到小有篇章、段落、句子、词等不同的粒度，粒度越小的平行语料，其提供的语言信息就越丰富，应用价值也越大。

一般而言，语料如果是按篇章或段落对齐，可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句或更小粒度进行对齐则无法这样简单处理，由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因，段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以这种粒度小于句子的原译文对齐工作往往需要人工来处理，既费时费力，效率也很低。

发明内容

本发明实施例的目的在于克服现有技术的上述不足，提供一种平行语料对齐的方法，该方法基于实义词的相似度，解决了原文和译文对齐的问题。

本发明实施例的另一目的在于克服现有技术的上述不足，提供一种平行语料对齐的装置，该装置基于实义词的相似度，解决了原文和译文对齐的问题。

为了实现上述发明目的，本发明实施例的技术方案如下：

一种平行语料对齐的方法，包括：将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符；对转换后的所述原文中的所有所述原文语句分词，去除其中的停用词，获得实义词；获取所述原文语句的每个实义词的所有译项；将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

进一步，所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括：根据sim(nw_jl,TR_inw_r)＝L/(dis(nw_jl,TR_inw_r)+L)获得原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度；根据获得所述原文语句OR的第j个实义词的第l个译项nw_jl与所述译文语句TR_i的相似度；根据获得所述原文语句OR的第j个实义词nw_j和第i个所述译文语句TR_i的相似度；其中，所述原文语句OR具有m个实义词，所述译文中共有n个所述译文语句，所述译文语句TR_i具有p个实义词，第j个实义词具有k个译项，L表示调节参数，dis(nw_jl,TR_inw_r)表示所述原文语句OR的第j个实义词的第l个译项nw_jl和第i个所述译文语句TR_i的第r个实义词TR_inw_r在词典中的代码的距离，i＝1，2，…，n，j＝1，2，…，m，l＝1，2，…，k，r＝1，2，…，p。

进一步，所述根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度的过程包括：根据获得所述原文语句OR与所述译文语句TR_i的相似度。

进一步，还包括：对转换后的所述原文中的所述原文语句按顺序进行编号；对转换后的所述译文中的所述译文语句按顺序进行编号；如果同一所述译文语句和多个所述原文语句的相似度均为最高，则获取多个所述原文语句在所述原文中的所述编号，以及所述译文语句在所述译文中的所述编号；如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近，则将该一个所述原文语句与所述译文语句匹配并对齐；如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近，则将所述编号较小的所述原文语句与所述译文语句匹配并对齐；比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低，将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐；重复上述过程，直到每个所述原文语句均与每个所述译文语句匹配并对齐。

进一步：所述词典为按树形结构编码的同义词分类词典，所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。

进一步：所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。

进一步，所述将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符的过程包括：根据所述原文中的所有所述原文语句的字符的编码方式读取所述原文语句中的字符或者字符串，以及根据所述译文中的所有所述译文语句的字符的编码方式读取所述译文语句中的字符或者字符串；根据相同目标编码方式分别将读取的所述原文语句和所述译文语句中的字符或者字符串转换成目标编码字符或者字符串。

进一步，所述实义词包括：名词、动词、形容词和副词。

以及，一种平行语料对齐的装置，包括：第一单元，用于将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符；第二单元，用于对转换后的所述原文中的所有所述原文语句分词，去除其中的停用词，获得实义词；第三单元，用于获取所述原文语句的每个实义词的所有译项；第四单元，用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；第五单元，用于根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；第六单元，用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

本发明实施例的有益效果如下：

1、本发明实施例的平行语料对齐的方法，基于实义词的相似度，解决了译后处理的原译文对齐问题。

2、本发明实施例的平行语料对齐的方法，不需要通过人工处理，节省了时间，提高了效率。

3、本发明实施例的平行语料对齐的方法，通过将原文语句和译文语句转换成相同编码的字符，解决由于不同编码方式产生乱码的问题，以及通过统一原文和译文的字符的编码方式，便于对齐原文和译文。

4、本发明实施例的平行语料对齐的装置，基于实义词的相似度，解决了译后处理的原译文对齐问题。

5、本发明实施例的平行语料对齐的装置，实现了自动化，节省了时间，提高了效率。

6、本发明实施例的平行语料对齐的装置，通过将原文语句和译文语句转换成相同编码的字符，解决由于不同编码方式产生乱码的问题，以及通过统一原文和译文的字符的编码方式，便于对齐原文和译文。

附图说明

图1是本发明实施例的平行语料对齐的方法的流程图；

图2是本发明实施例的平行语料对齐的装置的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种平行语料对齐的方法。如图1所示，为本发明实施例的平行语料对齐的方法的流程图。该平行语料对齐的方法的具体过程如下：

步骤S10：将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符。

步骤S10包括如下的步骤：

步骤S101：根据原文中的所有原文语句的字符的编码方式读取原文语句中的字符或者字符串，以及根据译文中的所有译文语句的字符的编码方式读取译文语句中的字符或者字符串。

步骤S102：根据相同目标编码方式分别将读取的原文语句和译文语句中的字符或者字符串转换成目标编码字符或者字符串。

具体的，上述步骤的具体过程可以通过下述的方式实现：

(1)获取原文中的所有原文语句的字符的编码方式得到原文语句的编码字符数据集，以及获取译文中的所有译文语句的字符的编码方式得到译文语句的编码字符数据集。

(2)根据原文语句的字符的编码方式流式读取原文语句的编码字符数据集中的字符或者字符串，以及根据译文语句的字符的编码方式流式读取译文语句的编码字符数据集中的字符或者字符串。

(3)根据相同目标编码方式将原文语句和译文语句的编码字符数据集中的字符或者字符串转换成原文语句的目标编码字符或者字符串以及译文语句的目标编码字符或者字符串。

(4)将原文语句的目标编码字符或者字符串加入到原文语句的动态目标字符集中，以及将译文语句的目标编码字符或者字符串加入到译文语句的动态目标字符集中。

(5)重复步骤(1)～(4)，直到原文语句的编码字符数据集和译文语句的编码字符数据集中的字符或者字符串读取完毕。

(6)将原文语句的动态目标字符集取出转换成原文语句的目标编码字符数据集，以及将译文语句的动态目标字符集取出转换成译文语句的目标编码字符数据集。

经过步骤S10可以将原文语句和译文语句转换成相同编码方式的字符，解决由于不同编码方式产生乱码的问题，以及通过统一原文和译文的字符的编码方式，便于对齐原文和译文。

步骤S20：对转换后的原文中的所有原文语句分词，去除其中的停用词，获得实义词。

具体的，实义词包括：名词、动词、形容词和副词。优选的，将所有实义词建立一个实义词集合。

步骤S30：获取原文语句的每个实义词的所有译项。

一个实义词往往有多种表达含义，每个不同的含义称之为该实义词的一个译项。译项为同义词词典中的最小单位，在词典中有相应的代码与其对应。例如：“骄傲”这个词可以有两种含义，“自豪”和“傲慢”，该两种含义就是骄傲这个词语的两个译项。因此，需要获取每个实义词的所有译项。例如，可建立如表1所示的实义词和译项的对应表。

表1实义词和译项的对应表

步骤S40：将每个原文语句的每个实义词的所有译项在标记后的译文中的所有译文语句中进行匹配，获得每个原文语句的每个实义词和译文语句的相似度。

其中，步骤S40具体包括如下的过程：

步骤S401：

根据sim(nw_jl,TR_inw_r)＝L/(dis(nw_jl,TR_inw_r)+L)获得原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度。

本实施例中的实义词和实义词之间的相似度是一个取值范围在[0,1]之间的数值。如果一个实义词是另一个实义词的本身的语义，则两个实义词之间的相似度为1；如果两个实义词在任何上下文中都不能替换，则两个实义词之间的相似度为0。

其中，原文语句OR具有m个实义词。译文中共有n个译文语句。译文语句TR_i具有p个实义词。i表示译文语句的计数，i＝1，2，…，n。第j个实义词具有k个译项。j表示一个原文语句中的实义词的计数，j＝1，2，…，m。l表示一个实义词的译项的计数，l＝1，2，…，k。r表示一个译文语句中的实义词的计数，r＝1，2，…，p。dis(nw_jl,TR_inw_r)表示在词典中，原文语句OR的第j个实义词的第l个译项nw_jl和第i个译文语句TR_i的第r个实义词TR_inw_r之间的距离。L表示调节参数。原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度与两个词在词典中的距离呈反比关系。具体的，本发明中所述的词典指的是按树形结构编码的同义词分类的词典。例如，《同义词词林》和《WordNet》等同义词本体工具。该词典中，该按树形结构编码的同义词分类词典的每个节点具有唯一的代码。每个代码对应了若干个译项。调节参数L为按树形结构编码的同义词分类词典的层数，即树形结构的层数。dis(nw_jl,TR_inw_r)具体为原文语句OR的第j个实义词的第l个译项nw_jl和第i个译文语句TR_i的第r个实义词TR_inw_r在词典中的代码的距离，即两个代码之间的差值。

步骤S402：

根据下式

获得原文语句OR的第j个实义词的第l个译项nw_jl与译文语句TR_i的相似度。

步骤S403：

根据下式

获得原文语句OR的第j个实义词nw_j和译文语句TR_i的相似度。

步骤S50：根据每个原文语句的所有实义词和译文语句的相似度，将每个原文语句和译文语句进行匹配，获得每个原文语句和译文语句的相似度。

根据下式

获得原文语句OR与译文语句TR_i的相似度。

步骤S60：将与原文语句相似度最高的译文语句和原文语句匹配并对齐。

将与原文语句OR的相似度最高的译文语句和原文语句OR匹配并对齐。

在步骤S60中，可能存在同一译文语句和多个原句的相似度相同且均为最高的情况，则步骤S60具体还包括如下的比对过程：

(1)对转换后的原文中的原文语句按顺序进行编号。

例如，将原文中的第一句编号为1，第二句编号为2，依次类推。优选的，将所有编号后的原文语句建立一个原文语句的集合。

(2)对转换后的译文中的译文语句按顺序进行编号。

例如，将译文中的第一句编号为1，第二句编号为2，依次类推。优选的，将所有编号后的译文语句建立一个译文语句的集合。

(3)获取多个原文语句在原文中的编号，以及译文语句在译文中的编号。

具体的，该过程又包括如下的两种处理方式：

1)如果多个原文语句中的一个原文语句在原文中的编号和译文语句在译文中的编号最接近，则将该一个原文语句与译文语句匹配并对齐。

例如，4个原文语句在原文中的编号分别为1，2，3，4。译文语句在译文中的编号为5。该4个原文语句和该译文语句的相似度均为最高。编号为4的原文语句的编号和译文语句的编号最接近，则将编号为4的原文语句和编号为5的译文语句匹配并对齐。

2)如果多个原文语句中的两个原文语句在原文中的编号和译文语句在译文中的编号均为最接近，则将编号较小的原文语句与译文匹配并对齐。比较两个原文语句中编号较大的原文语句与剩余译文语句的相似度的高低，将剩余译文语句中与编号较大的原文语句的相似度最高的译文语句和编号较大的原文语句匹配并对齐。

例如，4个原文语句在原文中的编号分别为1，3，5，7。译文语句在译文中的编号为4。该4个原文语句和译文语句的相似度均为最高。编号为3的原文语句的编号、编号为5的原文语句的编号均和该译文语句的编号最接近。由于编号3比编号5小，则将编号为3的原文语句和编号为4的译文语句匹配并对齐。在编号为4的译文语句以外的剩余译文语句中，如果一译文语句与编号为5的原文语句的相似度最高，则将该译文语句和编号为5的原文语句匹配。

3)重复上述过程1)和2)，直到每个原文语句均与每个译文语句匹配并对齐。

本发明的方法基于实义词的相似度，解决了译后处理的原译文对齐问题。该方法可通过机器完成，不需要通过人工处理，节省了时间，提高了效率。

本发明实施例还提供了一种平行语料对齐的装置。如图2所示，该平行语料对齐的装置包括：

第一单元101，用于将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符。

第二单元102，用于对转换后的原文中的所有原文语句分词，去除其中的停用词，获得实义词。

第三单元103，用于获取原文语句的每个实义词的所有译项。

第四单元104，用于将每个原文语句的每个实义词的所有译项在标记后的译文中的所有译文语句中进行匹配，获得每个原文语句的每个实义词和译文语句的相似度。

第五单元105，用于根据每个原文语句的所有实义词和译文语句的相似度，将每个原文语句和译文语句进行匹配，获得每个原文语句和译文语句的相似度。

第六单元106，用于将与原文语句相似度最高的译文语句和原文语句匹配并对齐。

本发明的平行语料对齐的装置用以实现上述的平行语料对齐的方法，基于实义词的相似度，解决了译后处理的原译文对齐问题。该装置使得上述的方法不需要通过人工实现，实现了自动化，节省了时间，提高了效率。

本发明提供了一种以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包括在本发明的保护范围之内。

Claims

1.一种平行语料对齐的方法，其特征在于，包括：

将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符；

对转换后的所述原文中的所有所述原文语句分词，去除其中的停用词，获得实义词；

获取所述原文语句的每个实义词的所有译项，其中，一个所述译项为所述实义词的一种表达含义；

将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；

根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；

将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

2.如权利要求1所述的平行语料对齐的方法，其特征在于，所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括：

根据sim(nw_jl,TR_inw_r)＝L/(dis(nw_jl,TR_inw_r)+L)获得原文语句OR的第j个实义词的第l个译项nw_jl与第i个译文语句TR_i的第r个实义词TR_inw_r的相似度；

根据获得所述原文语句OR的第j个实义词的第l个译项nw_jl与所述译文语句TR_i的相似度；

根据获得所述原文语句OR的第j个实义词nw_j和第i个所述译文语句TR_i的相似度；

其中，所述原文语句OR具有m个实义词，所述译文中共有n个所述译文语句，所述译文语句TR_i具有p个实义词，第j个实义词具有k个译项，L表示调节参数，dis(nw_jl,TR_inw_r)表示所述原文语句OR的第j个实义词的第l个译项nw_jl和第i个所述译文语句TR_i的第r个实义词TR_inw_r在词典中的代码的距离，i＝1，2，…，n，j＝1，2，…，m，l＝1，2，…，k，r＝1，2，…，p。

3.如权利要求2所述的平行语料对齐的方法，其特征在于，所述根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度的过程包括：

根据获得所述原文语句OR与所述译文语句TR_i的相似度。

4.如权利要求3所述的平行语料对齐的方法，其特征在于，所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括：

根据获得与所述原文语句OR的相似度最高的所述译文语句；

将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR匹配，并对齐所述原文语句OR和所述译文语句。

5.如权利要求1所述的平行语料对齐的方法，其特征在于，还包括：

对转换后的所述原文中的所述原文语句按顺序进行编号；

对转换后的所述译文中的所述译文语句按顺序进行编号；

如果同一所述译文语句和多个所述原文语句的相似度均为最高，则获取多个所述原文语句在所述原文中的所述编号，以及所述译文语句在所述译文中的所述编号；

如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近，则将该一个所述原文语句与所述译文语句匹配并对齐；

如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近，则将所述编号较小的所述原文语句与所述译文语句匹配并对齐；

比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低，将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐；

重复上述过程，直到每个所述原文语句均与每个所述译文语句匹配并对齐。

6.如权利要求2所述的平行语料对齐的方法，其特征在于：所述词典为按树形结构编码的同义词分类词典，所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。

7.如权利要求6所述的平行语料对齐的方法，其特征在于：所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。

8.如权利要求1所述的平行语料对齐的方法，其特征在于，所述将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符的过程包括：

根据所述原文中的所有所述原文语句的字符的编码方式读取所述原文语句中的字符或者字符串，以及根据所述译文中的所有所述译文语句的字符的编码方式读取所述译文语句中的字符或者字符串；

根据相同目标编码方式分别将读取的所述原文语句和所述译文语句中的字符或者字符串转换成目标编码字符或者字符串。

9.如权利要求1所述的平行语料对齐的方法，其特征在于，所述实义词包括：名词、动词、形容词和副词。

10.一种平行语料对齐的装置，其特征在于，包括：

第一单元，用于将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符；

第二单元，用于对转换后的所述原文中的所有所述原文语句分词，去除其中的停用词，获得实义词；

第三单元，用于获取所述原文语句的每个实义词的所有译项，其中，一个所述译项为所述实义词的一种表达含义；

第四单元，用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；

第五单元，用于根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；

第六单元，用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。