CN1567297A - 一种从双语语料库中自动抽取多词翻译等价单元的方法 - Google Patents

一种从双语语料库中自动抽取多词翻译等价单元的方法 Download PDF

Info

Publication number
CN1567297A
CN1567297A CN 03148989 CN03148989A CN1567297A CN 1567297 A CN1567297 A CN 1567297A CN 03148989 CN03148989 CN 03148989 CN 03148989 A CN03148989 A CN 03148989A CN 1567297 A CN1567297 A CN 1567297A
Authority
CN
China
Prior art keywords
speech
association
occurrence
word
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 03148989
Other languages
English (en)
Inventor
杜利民
陈博兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN 03148989 priority Critical patent/CN1567297A/zh
Publication of CN1567297A publication Critical patent/CN1567297A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及计算机自然语言处理技术,特别涉及一种从双语句子对齐语料库中自动抽取双语多词翻译等价单元的技术。本发明方法采用平均关联度和关联度的归一化差值作为双语多词翻译等价单元的关联衡量标准;在对齐的过程中同时识别多词单元。本发明方法的改进使得算法能有效地同时抽取高频和低频双语多词翻译等价单元,提高抽取的正确率和降低计算复杂度。

Description

一种从双语语料库中自动抽取多词翻译等价单元的方法
技术领域
本发明涉及计算机自然语言处理技术,特别涉及一种从双语句子对齐语料库中自动抽取双语多词翻译等价单元的技术。
背景技术
多词单元(Multi-Word Unit,MWU)是在语法上合理,具有一定语义,搭配较为紧密,由多个词语构成的语法结构;包括多词短语、多词固定搭配、多词习语和多词术语等;从属性上可以分为名词多词单元、动词多词单元、形容词多词单元、副词多词单元等等。多词翻译等价单元是指源语言和目标语言均为多词单元,而且源语言和目标语言部分具有对等关系的翻译等价对。多词翻译等价单元能够应用于机器翻译、机器辅助翻译、双语词典编纂、术语学、信息抽取、自然语言生成等自然语言处理技术以及应用于第二语言教学等等。
从上个世纪90年代以来,双语多词单元的自动抽取技术就一直受到很多研究人员的关注,该技术传统的方法也是应用最多的方法由两部分技术组成:单语多词单元的抽取和双语等价单元的对齐。国内外相关的工作很多,典型技术流程可以总结如下:
首先,用某个关联度度量标准,如互信息(mutual information)[Church et al.,1990]等等,计算文本中所有词对(Bi-gram)之间的关联度,并标记出所有关联度大于某个预设阈值的词对;
然后,递归调用算法,进一步标记出长度大于2个词的多词单元;
第三步,从对齐语料中列出所有可能的双语翻译等价单元并计算出它们之间的关联度;
最后,抽取关联度大于某个预设阈值的双语多词单元。
这些方法由于主要算法流程相似,所以它们都有一些共同的不足之处:(a)预设阈值为全局阈值,高频多词单元和低频多词单元的关联度的大小存在较大差异,该阈值不能兼顾,这就导致低频多词单元无法正确抽取,如在[Smadja et al.,1996]的实验中抽取的是出现频次大于10的多词单元,而且阈值会随着语言种类的改变、语料的多少以及所选取的关联值的不同而发生改变;(b)抽取结果很大程度上依靠于算法中循环开始时合适的词对(Bi-gram)的确定[Dias et al.,2000a];(c)这种方法有多处需要计算两个对象之间的关联度,而最后结果的正确率依赖于这多处应用关联度所得正确率的乘积,因此,如果当应用一次关联度和阈值所得到结果的正确率不高的话,那么这些错误就会累计,导致最后结果的正确率迅速下降。同时需要很大的计算量。
发明内容
为了提高抽取双语翻译等价单元的正确率和降低计算复杂度,本发明提供一种计算方法,该方法应具有以下特点:(1)摒弃了利用关联度参数反复统计词对(Bi-gram)来获取多词单元的算法,而是利用关联度的平均值和归一化差值构建抽取模型;(2)把首先识别单语多词单元,然后对齐的算法流程改成在对齐的过程中同时识别多词单元;(3)把满足全局阈值改成局部最优算法。
为达到上述目的,本发明的技术解决方法是提供一个从双语语料库中抽取双语多词翻译等价单元的方法,其采用平均关联度和关联度的归一化差值作为双语多词翻译等价单元的关联衡量标准;在对齐的过程中同时识别多词单元。
所述的方法,其分为以下几步:
(1)语料预处理,包括英文的断词、词形变换和中文分词:将英文标点符号和单词分开,词形变换,包括将动词的单数形式、分词形式、过去式和过去分词形式变换成动词原形,以及名词的复数形式变换成名词原形;将中文进行分词;
(2)通过统计共现频率估计共现概率:统计出所有词对的共现频次和每个词汇的出现频次后,以公式计算出它们的概率;
(3)计算单个源语言词汇和单个目标语言词汇的关联度:用公式
MI ( X , Y ) = log Pr ( X , Y ) Pr ( X ) Pr ( Y )
计算每个词对的关联度:互信息MI(S,T);其中Pr(X,Y)为X和Y的共现概率,Pr(X)和Pr(Y)分别为这两个变量的出现概率;
(4)计算每个源语言词汇和与其共现的目标语言的词串之间的平均关联度:运用公式
AMI ( S , C ) = 1 n Σ i = 1 n MI ( S , W i )
计算单个源语言词汇和目标语言多词单元之间的平均关联度;
(5)计算每个目标语言的词串和与其共现的源语言的词串之间的关联值:运用公式
ASAMI ( H , C ) = 1 m Σ i = 1 m AMI ( S i , C )
NDAMI ( H , C ) = 1 m × ASAMI ( H , C ) Σ i = 1 m | ASAMI ( H , C ) - AMI ( S i , C ) |
计算源语言多词单元和目标语言多词单元之间的平均关联度和归一化关联度差值;
(6)应用局部最优算法:针对每个源语言词串利用局部最优算法将其非局部最优的候选目标语言多词单元排除掉,针对每个目标语言词串也运用局部最优算法做同样的过滤;
(7)关联值最优过滤:
将剩下的候选多词单元取其中关联值最大的一项作为可能的目标语言翻译出来。
所述的方法,其第(3)步所述的互信息MI(X,Y),表示的是两个变量独立的情况下,这两个变量均出现1的事件的联合概率的对数似然比。
所述的方法,其第(6)步所述的局部最优算法可以表述如下:
x∈Ωn-1,y∈Ωn+1如果
(length(C)=2and S(C)>S(y))或者
(length(C)>2and S(x)<=S(C)and S(C)>S(y))
则词串C是一个短语;其中length(C)表示词串C所包含的词语的个数;其中,用Ωn-1表示所有(n-1)词串的集合,Ωn+1表示所有(n+1)词串的集合。
本发明的这些改进使得算法能有效地同时抽取高频和低频双语多词翻译等价单元,能提高抽取的正确率和降低计算复杂度。
具体实施方式
本发明先建立一个数学模型,再归纳出实施的方法。
一、数学模型
从信息论的角度,两个随机变量之间的互信息的定义是:
I ( X , Y ) = Σ x ∈ ( 0,1 ) Σ y ∈ ( 0,1 ) p ( X = x , Y = y ) log p ( X = x , Y = y ) p ( X = x ) p ( Y = y ) . - - ( 1 )
但是,在自然语言处理领域中,大多数情况下,互信息只用到了上面公式中的一部分,也就是当X=1,Y=1的情况,在这里我们用MI(X,Y)表示,见公式(2)。I(X,Y)表示的是通信前后,平均不确定度的消除,也就是X包含在Y中的信息。而计算语言学意义上的互信息MI(X,Y)表示的是两个变量独立的情况下,这两个变量均出现1的事件的联合概率的对数似然比。
MI ( X , Y ) = log Pr ( X , Y ) Pr ( X ) Pr ( Y ) . - - ( 2 )
其中Pr(X,Y)为X和Y的共现概率,Pr(X)和Pr(Y)分别为这两个变量的出现概率。互信息可以为正,也可以为负,当它为正时,说明这两个变量是相互关联的,而且互信息越大,表示两个变量的关联度也越大。当互信息为0时,说明这两个变量无关,而当它为负时,说明这两个变量的出现为相互排斥事件。如果把一个中文机译单元的出现和一个英文机译单元的出现分别看作两个事件,那么就可以通过统计它们在整个语料库中的出现概率以及共现概率来计算它们的关联度。
假设一个目标语言词串C(Chunk)用下面的符号表示:
C=W1W2...Wi...Wn。                                 (3)
则互信息平均值AMI(Average Mutual Information)、互信息归一化差值NMID(Normalized Mutual Information Difference)的计算公式分别如下:
AMI ( S , C ) = 1 n Σ i = 1 n MI ( S , W i ) , - - ( 4 )
NMID ( S , C ) = 1 n × AMI ( S , C ) Σ i = 1 n | MI ( S , W i ) - AMI ( S , C ) | . - - ( 5 )
其中S为源语言词汇。
假设输入端为一个源语言词汇,N个输出端分别为N个独立的目标语言词汇,那么单元源语言词汇和目标语多词单元中每个词语之间得互信息的算术平均值指的是输入端和所有输出端均为1的事件(假设该事件叫做E1)的概率对数似然比的归一化值。
互信息归一化差值是度量将词串C中的N个词汇分别与源语言词汇共现这N个事件各自的概率对数似然比与事件E1的概率对数似然比之间的偏离程度。当这个偏离程度较小的时候,说明当源语言词汇出现时,词串C中的N个词汇也出现的可能性较大,说明词串C是一个固定多词单元的可能性同时也增大,所以能用关联度的归一化差值来提取多词单元。
假设一个源语言词串H(Chunk)用下面的符号表示:
H=S1S2...Si...Sm。                           (6)
那么每个目标语言的词串(n-gram)和与其共现的源语言的词串(n-gram)之间的统计关联度:平均互信息的平均值ASAMI(Average Score ofAverage Mutual Information)与平均互信息的归一化差值NDAMI(Normalized Difference of Average Mutual Information)的计算公式如下:
ASAMI ( H , C ) = 1 m Σ i = 1 m AMI ( S i , C ) , - - ( 7 )
NDAMI ( H , C ) = 1 m × ASAMI ( H , C ) Σ i = 1 m | ASAMI ( H , C ) - AMI ( S i , C ) | . - - ( 8 )
同理,当平均互信息的归一化差值NDAMI较小的时候,说明:词串H中的每个词汇出现,同时词串C中的每个词汇也出现的可能性较大。也就是,词串H是一个固定多词单元的可能性同时也增大。
二、算法描述
本发明提取双语多词等价翻译单元的方法分为以下几步:
(1)语料预处理,包括英文的断词、词形变换和中文分词
所谓英文的断词(tokenization)主要是指将标点符号和单词分开,词形变换(lemmatization)主要包括将动词的单数形式、分词形式、过去式和过去分词形式变换成动词原形,以及名词的复数形式变换成名词原形等等。因为中文没有词边界,而该方法是以词语为处理对象,所以必须进行分词。
(2)通过统计共现频率估计共现概率
统计出所有词对的共现频次和每个词汇的出现频次后可以估计出它们的概率,计算公式如(9)、(10)、(11)。
Pr ( S ) = freq ( S ) N , - - - ( 9 )
Pr ( T ) = freq ( T ) N , - - - ( 10 )
Pr ( S , T ) = freq ( S , T ) N . - - - ( 11 )
其中N是语料库中所有句子对(共现模型)的总数。freq(.)表示的是源语言词汇S、目标语言词汇T出现的频次或者S和T共现的频次。Pr(.)表示的是概率。
(3)计算单个源语言词汇和单个目标语言词汇的关联度用公式(2)计算每个词对的关联度:互信息MI(S,T)。
(4)计算每个源语言词汇和与其共现的目标语言的词串(n-gram)之间的平均关联度运用公式(4)计算单个源语言词汇和目标语言多词单元之间的平均关联度。
(5)计算每个目标语言的词串(n-gram)和与其共现的源语言的词串(n-gram)之间的关联值运用公式(7)和(8)计算源语言多词单元和目标语言多词单元之间的平均关联度和归一化关联度差值。
(6)应用局部最优算法
针对每个源语言词串(n-gram)利用局部最优算法将其非局部最优的候选目标语言多词单元排除掉,针对每个目标语言词串(n-gram)也运用局部最优算法做同样的过滤。
从局部最大算法改进得到的局部最优算法提供了一个鲁棒性更强、适用范围更广、更为灵活的提取短语的手段。如果每一个词串(n-gram)是一个短语,那么会有着更强的内在关联,同时它的关联值肯定也会更高,并且一个短语是一个局部的结构,在一个局部能表现出最优的关联程度,而在全局范围内可能会因为它出现的频率太低等原因而表现不出在全局范围内有优势的关联值来,所以当一个词串的关联值在一个局部表现出最优,那么可以认为该词串就是一个短语。例如,对于词对(Bi-gram)<ice,cream>,在词语“ice”和“cream”之间有很强的内在关联,但是对于词对(Bi-gram)<the,in>,不能说词语“the”和“in”之间有很强的内在关联。假设函数S(.)可以衡量这种内在关联的大小。
假设一个词串(n-gram)C(Chunk)包含的所有(n-1)-gram的集合用Ωn-1表示,而所有包含该词串(n-gram)  C的(n+1)-gram的集合用Ωn+1表示,假设关联值S(.)越大,结果就越优,则局部最优算法可以表述如下:
算法2.1局部最优算法
x∈Ωn-1,y∈Ωn+1如果
(length=2 and S>S(y))或者
(length>2 and S(x)<=Sand S>S(y))
则词串C是一个短语。
其中length表示词串C所包含的词语的个数。
(7)关联值最优过滤
将剩下的候选多词单元取其中关联值最大的1项作为可能的目标语言翻译。
实施例:
以抽取“meat packing:肉类/加工厂”为例来说明整个算法的过程,选择该双语多词单元的原因是它在语料库中出现的频率较低,只有一次,其他算法很容易漏掉。
(a)There is meat packing a big industry in your country?
(b)在 你们 国家 肉类 加工厂 是否 算一门 大型 工业?
该句对中各个词语在语料库中出现的频次以及各个源语言词汇和各个目标语言词汇在语料库中共现的频次如表1所示。
表1. 例句句对中各词汇的频次以及共现频次
  在   你们   国家   肉类 加工厂   是否   算    一   门   大型   工业
  1123   178   15   1 1   81   6   493   24   1   7
  Is     1467   169   13   8   1 1   14   1   54   6   1   4
  Meat     9   1   1   1   1 1   1   1   1   1   1   1
  Packing     1   1   1   1   1 1   1   1   1   1   1   1
  A     2686   220   40   3   1 1   19   1   332   7   1   2
  Big     15   3   1   1   1 1   1   1   3   1   1   1
  Industry     4   1   1   1   1 1   1   1   1   2   1   4
  In     1125   320   31   7   1 1   9   1   42   9   1   2
  Your     1042   80   41   2   1 1   8   1   23   6   1   1
  Country     18   4   1   7   1 1   1   1   1   1   1   1
其中第二行是中文各词汇在语料库中出现的频次,第二列是各英文单词在语料库中出现的频次。
用公式(2)计算的每个源语言词汇与它所有共现的单个目标语言词汇的互信息MI(S,T)如表2所示。S为源语言词汇,T为目标语言词汇。
表2.“meat、packing、肉类、加工厂”四个词语与其他词语的共现概率
Meat  Packing  肉类  加工厂
0.364990  2.562215  Is  2.323096  2.323096
你们 2.235063  4.432287  Meat  7.416846  7.416846
国家 4.708796  6.906020  Packing  9.614071  9.614071
肉类 7.416846  9.614071  A  1.718262  1.718262
加工厂 7.416846  9.614071  Big  6.906020  6.906020
是否 3.022397  5.219621  Industry  8.227776  8.227776
4.472407  6.669632  In  2.588532  2.588532
1.291069  2.795147  Your  2.665173  2.665173
4.238792  6.436017  Country  6.723699  6.723699
大型 7.416846  9.614071
工业 5.470936  7.668160
以“meat”和“packing”为源语言词汇,所有可能由上面例句(a)和(b)所产生的中文多词单元为目标语言,其采用公式(4)计算得到的互信息的平均值为表3所示(为了节省篇幅,仅列出与“肉类/加工厂”有关的若干条记录)。
表3.与“meat、packing”共现的目标语言多词单元的互信息平均值
  Meat   Packing
国家 肉类   6.062821   8.260046
国家 肉类 加工厂   6.514163   8.711387
国家 肉类 加工厂 是否   5.641221   7.838446
你们 国家 肉类   4.786902   6.984126
你们 国家 肉类 加工厂   5.444388   7.641612
你们 国家 肉类 加工厂 是否   4.959990   7.157214
肉类 加工厂   7.416846   9.614071
肉类 加工厂 是否   5.952030   8.149254
肉类 加工厂 是否 算   5.582124   7.779349
以与“肉类/加工厂:meat packing”有关的双语词串(n-gram)为例,其采用公式(7)和(8)计算得到的平均互信息的平均值ASAMI和平均互信息的归一化差值NDAMI为表4所示。
表4双语词串(n-gram)的ASAMI和NDAMI
 ASAMI  NDAMI
肉类 加工厂:Is meat packing  7.061801  0.274464
肉类 加工厂:meat packing  8.515458  0.129014
肉类 加工厂:meat packing a  6.262760  0.479596
国家 肉类 加工厂:meat packing  7.612775  0.144312
肉类 加工厂 是否:meat packing  7.050642  0.155817
在基于该例句对生成的1980个双语词串(n-gram)中,平均互信息的平均值ASAMI和平均互信息的归一化差值NDAMI同时满足局部最优算法的记录如表5所示。
表5 ASAMI和NDAMI同时满足局部最优的双语词串(n-gram)
    ASAMI     NDGMI
大型 工业:big industry     6.940516     0.145155
肉类 加工厂:big industry     7.566898     0.087338
肉类 加工厂:meat packing     8.515458     0.129014
肉类 加工厂:big industry in your country     5.443985     0.405992
门 大型:big industry in your country     4.223847     0.451290
关联度最优过滤所得结果如表5中黑体字所示。

Claims (4)

1、种从双语语料库中抽取双语多词翻译等价单元的方法,其特征在于,采用平均关联度和关联度的归一化差值作为双语多词翻译等价单元的关联衡量标准;在对齐的过程中同时识别多词单元。
2、如权利要求1所述的方法,其特征在于,该方法分为以下几步:
a)语料预处理,包括英文的断词、词形变换和中文分词:将英文标点符号和单词分开,词形变换,包括将动词的单数形式、分词形式、过去式和过去分词形式变换成动词原形,以及名词的复数形式变换成名词原形;将中文进行分词;
b)通过统计共现频率估计共现概率:统计出所有词对的共现频次和每个词汇的出现频次后,以公式计算出它们的概率;
c)计算单个源语言词汇和单个目标语言词汇的关联度:用公式
MI ( X , Y ) = log Pr ( X , Y ) Pr ( X ) Pr ( Y )
计算每个词对的关联度:互信息MI(S,T);其中Pr(X,Y)为X和Y的共现概率,Pr(X)和Pr(Y)分别为这两个变量的出现概率;
d)计算每个源语言词汇和与其共现的目标语言的词串之间的平均关联度:运用公式
AMI ( S , C ) = 1 n &Sigma; i = 1 n MI ( S , W i )
计算单个源语言词汇和目标语言多词单元之间的平均关联度;
e)计算每个目标语言的词串和与其共现的源语言的词串之间的关联值:运用公式
ASAMI ( H , C ) = 1 m &Sigma; i = 1 m AMI ( S i , C )
NDAMI ( H , C ) = 1 m &times; ASAMI ( H , C ) &Sigma; i = 1 m | ASAMI ( H , C ) - AMI ( S i , C ) |
计算源语言多词单元和目标语言多词单元之间的平均关联度和归一化关联度差值;
(6)应用局部最优算法:针对每个源语言词串利用局部最优算法将其非局部最优的候选目标语言多词单元排除掉,针对每个目标语言词串也运用局部最优算法做同样的过滤;
(7)关联值最优过滤:
将剩下的候选多词单元取其中关联值最大的一项作为可能的目标语言翻译出来。
3、如权利要求2所述的方法,其特征在于,第(3)步所述的互信息MI(X,Y),表示的是两个变量独立的情况下,这两个变量均出现1的事件的联合概率的对数似然比。
4、如权利要求2所述的方法,其特征在于,第(6)步所述的局部最优算法可以表述如下:
x∈Ωn-1,y∈Ωn+1如果
(length(C)=2 and S(C)>S(y))或者
(length(C)>2 and S(x)<=S(C)and S(C)>S(y))
则词串C是一个短语;其中length(C)表示词串C所包含的词语的个数;其中,用Ωn-1表示所有(n-1)词串的集合,Ωn+1表示所有(n+1)词串的集合。
CN 03148989 2003-07-03 2003-07-03 一种从双语语料库中自动抽取多词翻译等价单元的方法 Pending CN1567297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 03148989 CN1567297A (zh) 2003-07-03 2003-07-03 一种从双语语料库中自动抽取多词翻译等价单元的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 03148989 CN1567297A (zh) 2003-07-03 2003-07-03 一种从双语语料库中自动抽取多词翻译等价单元的方法

Publications (1)

Publication Number Publication Date
CN1567297A true CN1567297A (zh) 2005-01-19

Family

ID=34472443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 03148989 Pending CN1567297A (zh) 2003-07-03 2003-07-03 一种从双语语料库中自动抽取多词翻译等价单元的方法

Country Status (1)

Country Link
CN (1) CN1567297A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030196B (zh) * 2006-02-28 2010-05-12 株式会社东芝 训练双语词对齐模型的方法和装置、双语词对齐方法和装置
WO2012019478A1 (zh) * 2010-08-09 2012-02-16 中国科学院自动化研究所 对双语平行句子对进行语义角色标注的方法
CN101714137B (zh) * 2008-10-06 2012-06-27 株式会社东芝 评价、选择例句对,构建通用例句库,机器翻译的方法及装置
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN104346325A (zh) * 2013-07-30 2015-02-11 富士通株式会社 信息处理方法和装置
CN104794110A (zh) * 2014-01-20 2015-07-22 腾讯科技(深圳)有限公司 机器翻译方法及装置
CN106649263A (zh) * 2016-11-10 2017-05-10 中科院合肥技术创新工程院 一种多词表达抽取方法及其装置
CN107229611A (zh) * 2017-05-18 2017-10-03 大连大学 一种基于词对齐的历史典籍分词方法
CN107632982A (zh) * 2017-09-12 2018-01-26 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN109960812A (zh) * 2017-12-23 2019-07-02 华为技术有限公司 语言处理方法及设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030196B (zh) * 2006-02-28 2010-05-12 株式会社东芝 训练双语词对齐模型的方法和装置、双语词对齐方法和装置
CN101714137B (zh) * 2008-10-06 2012-06-27 株式会社东芝 评价、选择例句对,构建通用例句库,机器翻译的方法及装置
US9411802B2 (en) 2010-08-09 2016-08-09 Institute Of Automation, Chinese Academy Of Sciences Method for labeling semantic role of bilingual parallel sentence pair
WO2012019478A1 (zh) * 2010-08-09 2012-02-16 中国科学院自动化研究所 对双语平行句子对进行语义角色标注的方法
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN104346325A (zh) * 2013-07-30 2015-02-11 富士通株式会社 信息处理方法和装置
CN104794110A (zh) * 2014-01-20 2015-07-22 腾讯科技(深圳)有限公司 机器翻译方法及装置
CN104794110B (zh) * 2014-01-20 2018-11-23 腾讯科技(深圳)有限公司 机器翻译方法及装置
CN106649263A (zh) * 2016-11-10 2017-05-10 中科院合肥技术创新工程院 一种多词表达抽取方法及其装置
CN107229611A (zh) * 2017-05-18 2017-10-03 大连大学 一种基于词对齐的历史典籍分词方法
CN107229611B (zh) * 2017-05-18 2020-06-30 大连大学 一种基于词对齐的历史典籍分词方法
CN107632982A (zh) * 2017-09-12 2018-01-26 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN109960812A (zh) * 2017-12-23 2019-07-02 华为技术有限公司 语言处理方法及设备
CN109960812B (zh) * 2017-12-23 2021-05-04 华为技术有限公司 语言处理方法及设备
US11704505B2 (en) 2017-12-23 2023-07-18 Huawei Technologies Co., Ltd. Language processing method and device

Similar Documents

Publication Publication Date Title
Bhagavatula et al. Tabel: Entity linking in web tables
CN1102271C (zh) 具有习惯用语处理功能的电子词典
Pitler et al. Using web-scale N-grams to improve base NP parsing performance
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN105808711A (zh) 一种基于文本语义的概念生成模型的***和方法
CN104375988A (zh) 一种词语对齐方法及装置
CN102214189B (zh) 基于数据挖掘获取词用法知识的***及方法
CN104317846A (zh) 一种语义分析与标注方法及***
Sidorov Non-linear construction of n-grams in computational linguistics
Al-Kabi et al. Benchmarking and assessing the performance of Arabic stemmers
CN106528621A (zh) 一种改进的密度文本聚类算法
CN1567297A (zh) 一种从双语语料库中自动抽取多词翻译等价单元的方法
Pande et al. Application of natural language processing tools in stemming
CN111737420A (zh) 一种基于争议焦点的类案检索方法及***及装置及介质
Alhanini et al. The enhancement of arabic stemming by using light stemming and dictionary-based stemming
Daille Building bilingual terminologies from comparable corpora: The TTC TermSuite
Lee et al. Alignment of bilingual named entities in parallel corpora using statistical models and multiple knowledge sources
KR20160009916A (ko) 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법
CN1114165C (zh) 中文文本中的字词分割方法
CN105653516A (zh) 平行语料对齐的方法和装置
Fawi et al. Italian-Arabic domain terminology extraction from parallel corpora
CN112395856B (zh) 文本匹配方法、装置、计算机***及可读存储介质
Kılıçaslan et al. Filtering Machine Translation Results with Automatically Constructed Concept Lattices
CN101655841A (zh) 汉语文本全分词的一种递归方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication