CN105653516A - 平行语料对齐的方法和装置 - Google Patents

平行语料对齐的方法和装置 Download PDF

Info

Publication number
CN105653516A
CN105653516A CN201511022223.9A CN201511022223A CN105653516A CN 105653516 A CN105653516 A CN 105653516A CN 201511022223 A CN201511022223 A CN 201511022223A CN 105653516 A CN105653516 A CN 105653516A
Authority
CN
China
Prior art keywords
statement
original text
translation
similarity
described original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511022223.9A
Other languages
English (en)
Other versions
CN105653516B (zh
Inventor
江潮
张芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201511022223.9A priority Critical patent/CN105653516B/zh
Publication of CN105653516A publication Critical patent/CN105653516A/zh
Application granted granted Critical
Publication of CN105653516B publication Critical patent/CN105653516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种平行语料对齐的方法,包括:将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;对转换后的原文中的所有原文语句分词,去除其中的停用词,获得实义词;获取原文语句的每个实义词的所有译项;将每个原文语句的每个实义词的所有译项在转换后的译文中的所有译文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度;根据每个原文语句的所有实义词和译文语句的相似度,将每个原文语句和译文语句进行匹配,获得每个原文语句和译文语句的相似度;将与原文语句相似度最高的译文语句和原文语句匹配并对齐。本发明公开一种平行语料对齐的装置。该方法和装置解决原文和译文对齐问题。

Description

平行语料对齐的方法和装置
技术领域
本发明涉及翻译技术领域,具体涉及一种平行语料对齐的方法和装置。
背景技术
平行语料库在机器翻译、辅助翻译、语义消岐和词典编撰等众多领域都起着基础性的作用。平行语料库的对齐是指,将原文和译文按不同的分割粒度进行对应,形成规范的语对。语料对齐的单位从大到小有篇章、段落、句子、词等不同的粒度,粒度越小的平行语料,其提供的语言信息就越丰富,应用价值也越大。
一般而言,语料如果是按篇章或段落对齐,可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句或更小粒度进行对齐则无法这样简单处理,由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因,段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以这种粒度小于句子的原译文对齐工作往往需要人工来处理,既费时费力,效率也很低。
发明内容
本发明实施例的目的在于克服现有技术的上述不足,提供一种平行语料对齐的方法,该方法基于实义词的相似度,解决了原文和译文对齐的问题。
本发明实施例的另一目的在于克服现有技术的上述不足,提供一种平行语料对齐的装置,该装置基于实义词的相似度,解决了原文和译文对齐的问题。
为了实现上述发明目的,本发明实施例的技术方案如下:
一种平行语料对齐的方法,包括:将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;对转换后的所述原文中的所有所述原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
进一步,所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;根据获得所述原文语句OR的第j个实义词的第l个译项nwjl与所述译文语句TRi的相似度;根据获得所述原文语句OR的第j个实义词nwj和第i个所述译文语句TRi的相似度;其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,i=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。
进一步,所述根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的过程包括:根据获得所述原文语句OR与所述译文语句TRi的相似度。
进一步,所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括:根据 max i = 1 , 2 , ... , n ( s i m ( O R , TR i ) ) = max i = 1 , 2 , ... , n ( Π j = 1 , 2 , ... , m s i m ( nw j , TR i ) ) 获得与所述原文语句OR的相似度最高的所述译文语句;将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR匹配,并对齐所述原文语句OR和所述译文语句。
进一步,还包括:对转换后的所述原文中的所述原文语句按顺序进行编号;对转换后的所述译文中的所述译文语句按顺序进行编号;如果同一所述译文语句和多个所述原文语句的相似度均为最高,则获取多个所述原文语句在所述原文中的所述编号,以及所述译文语句在所述译文中的所述编号;如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近,则将该一个所述原文语句与所述译文语句匹配并对齐;如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近,则将所述编号较小的所述原文语句与所述译文语句匹配并对齐;比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低,将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐;重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。
进一步:所述词典为按树形结构编码的同义词分类词典,所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。
进一步:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。
进一步,所述将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符的过程包括:根据所述原文中的所有所述原文语句的字符的编码方式读取所述原文语句中的字符或者字符串,以及根据所述译文中的所有所述译文语句的字符的编码方式读取所述译文语句中的字符或者字符串;根据相同目标编码方式分别将读取的所述原文语句和所述译文语句中的字符或者字符串转换成目标编码字符或者字符串。
进一步,所述实义词包括:名词、动词、形容词和副词。
以及,一种平行语料对齐的装置,包括:第一单元,用于将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;第二单元,用于对转换后的所述原文中的所有所述原文语句分词,去除其中的停用词,获得实义词;第三单元,用于获取所述原文语句的每个实义词的所有译项;第四单元,用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;第五单元,用于根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;第六单元,用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
本发明实施例的有益效果如下:
1、本发明实施例的平行语料对齐的方法,基于实义词的相似度,解决了译后处理的原译文对齐问题。
2、本发明实施例的平行语料对齐的方法,不需要通过人工处理,节省了时间,提高了效率。
3、本发明实施例的平行语料对齐的方法,通过将原文语句和译文语句转换成相同编码的字符,解决由于不同编码方式产生乱码的问题,以及通过统一原文和译文的字符的编码方式,便于对齐原文和译文。
4、本发明实施例的平行语料对齐的装置,基于实义词的相似度,解决了译后处理的原译文对齐问题。
5、本发明实施例的平行语料对齐的装置,实现了自动化,节省了时间,提高了效率。
6、本发明实施例的平行语料对齐的装置,通过将原文语句和译文语句转换成相同编码的字符,解决由于不同编码方式产生乱码的问题,以及通过统一原文和译文的字符的编码方式,便于对齐原文和译文。
附图说明
图1是本发明实施例的平行语料对齐的方法的流程图;
图2是本发明实施例的平行语料对齐的装置的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种平行语料对齐的方法。如图1所示,为本发明实施例的平行语料对齐的方法的流程图。该平行语料对齐的方法的具体过程如下:
步骤S10:将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符。
步骤S10包括如下的步骤:
步骤S101:根据原文中的所有原文语句的字符的编码方式读取原文语句中的字符或者字符串,以及根据译文中的所有译文语句的字符的编码方式读取译文语句中的字符或者字符串。
步骤S102:根据相同目标编码方式分别将读取的原文语句和译文语句中的字符或者字符串转换成目标编码字符或者字符串。
具体的,上述步骤的具体过程可以通过下述的方式实现:
(1)获取原文中的所有原文语句的字符的编码方式得到原文语句的编码字符数据集,以及获取译文中的所有译文语句的字符的编码方式得到译文语句的编码字符数据集。
(2)根据原文语句的字符的编码方式流式读取原文语句的编码字符数据集中的字符或者字符串,以及根据译文语句的字符的编码方式流式读取译文语句的编码字符数据集中的字符或者字符串。
(3)根据相同目标编码方式将原文语句和译文语句的编码字符数据集中的字符或者字符串转换成原文语句的目标编码字符或者字符串以及译文语句的目标编码字符或者字符串。
(4)将原文语句的目标编码字符或者字符串加入到原文语句的动态目标字符集中,以及将译文语句的目标编码字符或者字符串加入到译文语句的动态目标字符集中。
(5)重复步骤(1)~(4),直到原文语句的编码字符数据集和译文语句的编码字符数据集中的字符或者字符串读取完毕。
(6)将原文语句的动态目标字符集取出转换成原文语句的目标编码字符数据集,以及将译文语句的动态目标字符集取出转换成译文语句的目标编码字符数据集。
经过步骤S10可以将原文语句和译文语句转换成相同编码方式的字符,解决由于不同编码方式产生乱码的问题,以及通过统一原文和译文的字符的编码方式,便于对齐原文和译文。
步骤S20:对转换后的原文中的所有原文语句分词,去除其中的停用词,获得实义词。
具体的,实义词包括:名词、动词、形容词和副词。优选的,将所有实义词建立一个实义词集合。
步骤S30:获取原文语句的每个实义词的所有译项。
一个实义词往往有多种表达含义,每个不同的含义称之为该实义词的一个译项。译项为同义词词典中的最小单位,在词典中有相应的代码与其对应。例如:“骄傲”这个词可以有两种含义,“自豪”和“傲慢”,该两种含义就是骄傲这个词语的两个译项。因此,需要获取每个实义词的所有译项。例如,可建立如表1所示的实义词和译项的对应表。
表1实义词和译项的对应表
步骤S40:将每个原文语句的每个实义词的所有译项在标记后的译文中的所有译文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度。
其中,步骤S40具体包括如下的过程:
步骤S401:
根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度。
本实施例中的实义词和实义词之间的相似度是一个取值范围在[0,1]之间的数值。如果一个实义词是另一个实义词的本身的语义,则两个实义词之间的相似度为1;如果两个实义词在任何上下文中都不能替换,则两个实义词之间的相似度为0。
其中,原文语句OR具有m个实义词。译文中共有n个译文语句。译文语句TRi具有p个实义词。i表示译文语句的计数,i=1,2,…,n。第j个实义词具有k个译项。j表示一个原文语句中的实义词的计数,j=1,2,…,m。l表示一个实义词的译项的计数,l=1,2,…,k。r表示一个译文语句中的实义词的计数,r=1,2,…,p。dis(nwjl,TRinwr)表示在词典中,原文语句OR的第j个实义词的第l个译项nwjl和第i个译文语句TRi的第r个实义词TRinwr之间的距离。L表示调节参数。原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度与两个词在词典中的距离呈反比关系。具体的,本发明中所述的词典指的是按树形结构编码的同义词分类的词典。例如,《同义词词林》和《WordNet》等同义词本体工具。该词典中,该按树形结构编码的同义词分类词典的每个节点具有唯一的代码。每个代码对应了若干个译项。调节参数L为按树形结构编码的同义词分类词典的层数,即树形结构的层数。dis(nwjl,TRinwr)具体为原文语句OR的第j个实义词的第l个译项nwjl和第i个译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,即两个代码之间的差值。
步骤S402:
根据下式
s i m ( nw j l , TR i ) = max r = 1 , 2 , ... , p ( s i m ( nw j l , TR i nw r ) ) = max r = 1 , 2 , ... , p ( L / ( d i s ( nw j l , TR i nw r ) + L ) )
获得原文语句OR的第j个实义词的第l个译项nwjl与译文语句TRi的相似度。
步骤S403:
根据下式
s i m ( nw j , TR i ) = max l = 1 , 2 , ... , k ( s i m ( nw j l , TR i ) ) = max l = 1 , 2 , ... , k ( max r = 1 , 2 , ... , p ( L / ( d i s ( TR i nw r ) + L ) )
获得原文语句OR的第j个实义词nwj和译文语句TRi的相似度。
步骤S50:根据每个原文语句的所有实义词和译文语句的相似度,将每个原文语句和译文语句进行匹配,获得每个原文语句和译文语句的相似度。
根据下式
s i m ( O R , TR i ) = Π j = 1 , 2 , ... , m s i m ( nw j , TR i ) = Π j = 1 , 2 , ... , m ( max l = 1 , 2 , ... , k ( max r = 1 , 2 , ... , p ( L / ( d i s ( nw j l , TR i nw r ) + L ) ) )
获得原文语句OR与译文语句TRi的相似度。
步骤S60:将与原文语句相似度最高的译文语句和原文语句匹配并对齐。
具体的,根据 max i = 1 , 2 , ... , n ( s i m ( O R , TR i ) ) = max i = 1 , 2 , ... , n ( Π j = 1 , 2 , ... , m si m ( nw j , TR i ) ) 获得与原文语句OR的相似度最高的译文语句。
将与原文语句OR的相似度最高的译文语句和原文语句OR匹配并对齐。
在步骤S60中,可能存在同一译文语句和多个原句的相似度相同且均为最高的情况,则步骤S60具体还包括如下的比对过程:
(1)对转换后的原文中的原文语句按顺序进行编号。
例如,将原文中的第一句编号为1,第二句编号为2,依次类推。优选的,将所有编号后的原文语句建立一个原文语句的集合。
(2)对转换后的译文中的译文语句按顺序进行编号。
例如,将译文中的第一句编号为1,第二句编号为2,依次类推。优选的,将所有编号后的译文语句建立一个译文语句的集合。
(3)获取多个原文语句在原文中的编号,以及译文语句在译文中的编号。
具体的,该过程又包括如下的两种处理方式:
1)如果多个原文语句中的一个原文语句在原文中的编号和译文语句在译文中的编号最接近,则将该一个原文语句与译文语句匹配并对齐。
例如,4个原文语句在原文中的编号分别为1,2,3,4。译文语句在译文中的编号为5。该4个原文语句和该译文语句的相似度均为最高。编号为4的原文语句的编号和译文语句的编号最接近,则将编号为4的原文语句和编号为5的译文语句匹配并对齐。
2)如果多个原文语句中的两个原文语句在原文中的编号和译文语句在译文中的编号均为最接近,则将编号较小的原文语句与译文匹配并对齐。比较两个原文语句中编号较大的原文语句与剩余译文语句的相似度的高低,将剩余译文语句中与编号较大的原文语句的相似度最高的译文语句和编号较大的原文语句匹配并对齐。
例如,4个原文语句在原文中的编号分别为1,3,5,7。译文语句在译文中的编号为4。该4个原文语句和译文语句的相似度均为最高。编号为3的原文语句的编号、编号为5的原文语句的编号均和该译文语句的编号最接近。由于编号3比编号5小,则将编号为3的原文语句和编号为4的译文语句匹配并对齐。在编号为4的译文语句以外的剩余译文语句中,如果一译文语句与编号为5的原文语句的相似度最高,则将该译文语句和编号为5的原文语句匹配。
3)重复上述过程1)和2),直到每个原文语句均与每个译文语句匹配并对齐。
本发明的方法基于实义词的相似度,解决了译后处理的原译文对齐问题。该方法可通过机器完成,不需要通过人工处理,节省了时间,提高了效率。
本发明实施例还提供了一种平行语料对齐的装置。如图2所示,该平行语料对齐的装置包括:
第一单元101,用于将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符。
第二单元102,用于对转换后的原文中的所有原文语句分词,去除其中的停用词,获得实义词。
第三单元103,用于获取原文语句的每个实义词的所有译项。
第四单元104,用于将每个原文语句的每个实义词的所有译项在标记后的译文中的所有译文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度。
第五单元105,用于根据每个原文语句的所有实义词和译文语句的相似度,将每个原文语句和译文语句进行匹配,获得每个原文语句和译文语句的相似度。
第六单元106,用于将与原文语句相似度最高的译文语句和原文语句匹配并对齐。
本发明的平行语料对齐的装置用以实现上述的平行语料对齐的方法,基于实义词的相似度,解决了译后处理的原译文对齐问题。该装置使得上述的方法不需要通过人工实现,实现了自动化,节省了时间,提高了效率。
本发明提供了一种以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种平行语料对齐的方法,其特征在于,包括:
将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;
对转换后的所述原文中的所有所述原文语句分词,去除其中的停用词,获得实义词;
获取所述原文语句的每个实义词的所有译项;
将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;
根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;
将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
2.如权利要求1所述的平行语料对齐的方法,其特征在于,所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:
根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;
根据 s i m ( nw j l , TR i ) = m a x r = 1 , 2 , ... , p ( s i m ( nw j l , TR i nw r ) ) 获得所述原文语句OR的第j个实义词的第l个译项nwjl与所述译文语句TRi的相似度;
根据 s i m ( nw j , TR i ) = m a x l = 1 , 2 , ... , k ( s i m ( nw j l , TR i ) ) 获得所述原文语句OR的第j个实义词nwj和第i个所述译文语句TRi的相似度;
其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,i=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。
3.如权利要求2所述的平行语料对齐的方法,其特征在于,所述根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的过程包括:
根据获得所述原文语句OR与所述译文语句TRi的相似度。
4.如权利要求3所述的平行语料对齐的方法,其特征在于,所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括:
根据 max i = 1 , 2 , ... , n ( s i m ( O R , TR i ) ) = max i = 1 , 2 , ... , n ( Π j = 1 , 2 , ... , m s i m ( nw j , TR i ) ) 获得与所述原文语句OR的相似度最高的所述译文语句;
将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR匹配,并对齐所述原文语句OR和所述译文语句。
5.如权利要求1所述的平行语料对齐的方法,其特征在于,还包括:
对转换后的所述原文中的所述原文语句按顺序进行编号;
对转换后的所述译文中的所述译文语句按顺序进行编号;
如果同一所述译文语句和多个所述原文语句的相似度均为最高,则获取多个所述原文语句在所述原文中的所述编号,以及所述译文语句在所述译文中的所述编号;
如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近,则将该一个所述原文语句与所述译文语句匹配并对齐;
如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近,则将所述编号较小的所述原文语句与所述译文语句匹配并对齐;
比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低,将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐;
重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。
6.如权利要求2所述的平行语料对齐的方法,其特征在于:所述词典为按树形结构编码的同义词分类词典,所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。
7.如权利要求6所述的平行语料对齐的方法,其特征在于:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。
8.如权利要求1所述的平行语料对齐的方法,其特征在于,所述将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符的过程包括:
根据所述原文中的所有所述原文语句的字符的编码方式读取所述原文语句中的字符或者字符串,以及根据所述译文中的所有所述译文语句的字符的编码方式读取所述译文语句中的字符或者字符串;
根据相同目标编码方式分别将读取的所述原文语句和所述译文语句中的字符或者字符串转换成目标编码字符或者字符串。
9.如权利要求1所述的平行语料对齐的方法,其特征在于,所述实义词包括:名词、动词、形容词和副词。
10.一种平行语料对齐的装置,其特征在于,包括:
第一单元,用于将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;
第二单元,用于对转换后的所述原文中的所有所述原文语句分词,去除其中的停用词,获得实义词;
第三单元,用于获取所述原文语句的每个实义词的所有译项;
第四单元,用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;
第五单元,用于根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;
第六单元,用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
CN201511022223.9A 2015-12-30 2015-12-30 平行语料对齐的方法和装置 Active CN105653516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511022223.9A CN105653516B (zh) 2015-12-30 2015-12-30 平行语料对齐的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511022223.9A CN105653516B (zh) 2015-12-30 2015-12-30 平行语料对齐的方法和装置

Publications (2)

Publication Number Publication Date
CN105653516A true CN105653516A (zh) 2016-06-08
CN105653516B CN105653516B (zh) 2018-08-10

Family

ID=56490853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511022223.9A Active CN105653516B (zh) 2015-12-30 2015-12-30 平行语料对齐的方法和装置

Country Status (1)

Country Link
CN (1) CN105653516B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697287A (zh) * 2018-12-20 2019-04-30 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及***
CN112446224A (zh) * 2020-12-07 2021-03-05 北京彩云环太平洋科技有限公司 平行语料处理方法、装置、设备及计算机可读存储介质
CN113705158A (zh) * 2021-09-26 2021-11-26 上海一者信息科技有限公司 一种文档翻译中智能还原原文样式的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040260535A1 (en) * 2003-06-05 2004-12-23 International Business Machines Corporation System and method for automatic natural language translation of embedded text regions in images during information transfer
CN101187924A (zh) * 2007-11-28 2008-05-28 北京金山软件有限公司 一种从双语句对获取词对译文的方法及***
CN101308512A (zh) * 2008-06-25 2008-11-19 北京金山软件有限公司 一种基于网页的互译翻译对抽取方法及装置
CN101488126A (zh) * 2008-12-31 2009-07-22 深圳市点通数据有限公司 双语语句对齐方法及装置
KR20120077794A (ko) * 2010-12-31 2012-07-10 에스케이플래닛 주식회사 자동 번역 시스템에서 중국어 문장의 단어의 뜻을 제공하는 방법, 번역 장치 및 단말기, 그리고 이 방법을 실행시키기 위한 프로그램을 저장한 기록매체
CN102567293A (zh) * 2010-12-13 2012-07-11 汉王科技股份有限公司 文本文件的编码格式探测方法和装置
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040260535A1 (en) * 2003-06-05 2004-12-23 International Business Machines Corporation System and method for automatic natural language translation of embedded text regions in images during information transfer
CN101187924A (zh) * 2007-11-28 2008-05-28 北京金山软件有限公司 一种从双语句对获取词对译文的方法及***
CN101308512A (zh) * 2008-06-25 2008-11-19 北京金山软件有限公司 一种基于网页的互译翻译对抽取方法及装置
CN101488126A (zh) * 2008-12-31 2009-07-22 深圳市点通数据有限公司 双语语句对齐方法及装置
CN102567293A (zh) * 2010-12-13 2012-07-11 汉王科技股份有限公司 文本文件的编码格式探测方法和装置
KR20120077794A (ko) * 2010-12-31 2012-07-10 에스케이플래닛 주식회사 자동 번역 시스템에서 중국어 문장의 단어의 뜻을 제공하는 방법, 번역 장치 및 단말기, 그리고 이 방법을 실행시키기 위한 프로그램을 저장한 기록매체
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697287A (zh) * 2018-12-20 2019-04-30 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及***
CN109697287B (zh) * 2018-12-20 2020-01-21 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及***
CN112446224A (zh) * 2020-12-07 2021-03-05 北京彩云环太平洋科技有限公司 平行语料处理方法、装置、设备及计算机可读存储介质
CN113705158A (zh) * 2021-09-26 2021-11-26 上海一者信息科技有限公司 一种文档翻译中智能还原原文样式的方法
CN113705158B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种文档翻译中智能还原原文样式的方法

Also Published As

Publication number Publication date
CN105653516B (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
CN101079025B (zh) 一种文档相关度计算***和方法
CN105446962A (zh) 原文和译文的对齐方法和装置
CN105005557A (zh) 一种基于依存分析的中文兼类词处理方法
CN103365838A (zh) 基于多元特征的英语作文语法错误自动纠正方法
Chu et al. Chinese Characters Mapping Table of Japanese, Traditional Chinese and Simplified Chinese.
CN101021842A (zh) 汉语基本块描述规则的自动学习和扩展进化处理方法
Lavie et al. Syntax-driven learning of sub-sentential translation equivalents and translation rules from parsed parallel corpora
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN105653516A (zh) 平行语料对齐的方法和装置
CN102929865B (zh) 一种用于中文和东盟各国语言互译的pda翻译***
CN104536951A (zh) 一种微博文本规范化及分词和词性标注的方法及***
Gehlot et al. Hindi to English transfer based machine translation system
CN106777404A (zh) 从LaTeX格式到XML格式的转换***及转换方法
CN1776673A (zh) 一种pdf文档到xml文档转换的方法
Sinhal et al. Machine translation approaches and design aspects
Guo et al. Character-level dependency model for joint word segmentation, POS tagging, and dependency parsing in Chinese
Gornostay et al. Terminology extraction from comparable corpora for latvian
Vignesh et al. Automatic question generator in Tamil
CN103268314A (zh) 一种获取泰文断句规则的方法及装置
Altenbek et al. Identification of basic phrases for kazakh language using maximum entropy model
CN103119585B (zh) 知识获取装置及方法
Maimaiti et al. Construction of Uyghur named entity corpus
Karmani et al. Building a standardized Wordnet in the ISO LMF for aeb language
Wang et al. An automatic treebank conversion algorithm for corpus sharing
CN105677621B (zh) 翻译错误的定位方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 Hubei, East Lake, Wuhan New Technology Development Zone, software park, No., E City, building E2, building five, building

Applicant before: Wuhan Transn Information Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant