CN103235833A - 一种借助统计机器翻译的答案检索方法及装置 - Google Patents

一种借助统计机器翻译的答案检索方法及装置 Download PDF

Info

Publication number
CN103235833A
CN103235833A CN2013101801464A CN201310180146A CN103235833A CN 103235833 A CN103235833 A CN 103235833A CN 2013101801464 A CN2013101801464 A CN 2013101801464A CN 201310180146 A CN201310180146 A CN 201310180146A CN 103235833 A CN103235833 A CN 103235833A
Authority
CN
China
Prior art keywords
matrix
language
low
representing
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101801464A
Other languages
English (en)
Other versions
CN103235833B (zh
Inventor
周光有
赵军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310180146.4A priority Critical patent/CN103235833B/zh
Publication of CN103235833A publication Critical patent/CN103235833A/zh
Application granted granted Critical
Publication of CN103235833B publication Critical patent/CN103235833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种借助统计机器翻译的答案检索方法及装置。首先利用统计机器翻译工具将候选答案翻译翻译成其它若干种语言,得到候选答案的若干种等价表示。然后利用矩阵分解的方法,对候选答案的若干种等价表示进行降维数,得到低维的隐含表示形式。其次,利用统计机器翻译和矩阵分解方法将查询问题转化成低维的隐含表示形式。最后,在隐含空间上计算查询问题与候选答案之间的相似度,返回相似度最高的若干个候选答案作为该查询问题的答案。本发明提出的方法,可以有效地解决词汇不匹配和词汇歧义的问题。经过试验证明,在大规模的社区问答数据集中,答案检索的性能提高了29.36%。

Description

一种借助统计机器翻译的答案检索方法及装置
技术领域
本发明涉及自然语言处理技术领域,是一种借助统计机器翻译的答案检索方法及装置。
背景技术
随着互联网技术的快速发展,基于用户生成(User-Generated Content,UGC)的互联网服务越来越流行。社区问答正是在这一背景下出现的一种新的以“提问-回答”为主的信息交流和知识分享***,例如Yahoo!Answers、百度知道等。区别于自动问答***,在社区问答上,用户可以提出任何类型的问题,也可以回答其它用户任何类型的问题。答案检索是社区问答分析的基础,占有很重要的位置。答案检索的任务是指从大规模的候选答案库中检索出与查询问题在语义上相似或相近的答案,用户回答该查询问题。因此,答案检索具有重要的理论意义和实用价值。
目前答案检索面临的主要挑战是查询问题与候选答案之间的词汇不匹配以及词汇歧义问题。词汇不匹配通常会引发答案检索模型检索出许多与用户查询意图不匹配的答案,主要原因是社区问答中查询问题和答案都是由用户给出的,而用户的查询意图高度多样化。例如,依据不同的用户,词语“interest”既可以指“curiosity”也可以指“a charge for borrowingmoney”。“词语歧义”是查询问题与候选答案之间的常见现象,具体表现在,很多词语在查询问题和候选答案中出现的次数并不多,甚至都没有在查询问题或候选答案中出现过,无法用传统的基于词条匹配的方法。
解决上述“词汇歧义”和“词汇鸿沟”问题的一个方法就是借助统计机器翻译,将原始语言中的歧义词以及字面上表示不一样的词汇用它们对应的翻译来表示。而借助统计机器翻译的方法前提是首先要建立一个合理的目标函数,将原始语言及其对应的翻译集成在一个框架中,其次是如何尽量减少统计机器翻译带来的噪声,最后是如何设计一种快速的求解方法来解决上述目标函数。而直接将得到的翻译词汇添加到原始语言中,答案检索的准确率会大打折扣,主要原因是将翻译词汇直接添加到原始语言中会大大增加计算的复杂度,同时机器翻译的错误也会带来很多噪音。
答案检索的任务是指对用户输入的查询问题,从答案文档集合中检索出能够回答该查询的答案。答案检索面临的主要困难是用户查询问题与候选答案在表达相同或相似的意思时使用不同的用词形式,容易导致词汇不匹配和词汇歧义的问题。传统的方法主要依靠挖掘单语之间的词语关联,忽视了多语言信息之间的语义关联。
发明内容
为解决上述问题,本发明首先需要设计一个合理的目标函数,将原始语言及其对应的翻译有效地集成到一个框架中,同时在该框架下约束机器翻译的噪声对答案检索的影响。然后根据建立的目标函数及其约束,设计了一种快速的求解方法。通过对目标函数的求解,得到原始语言及其对应翻译的隐含表示,最后在隐含空间上计算用户查询和候选答案之间的相似度。根据上述思路,本发明主要针对答案检索存在的两大难点问题入手,成功地将统计机器翻译引入到答案检索的过程中,通过实验证明,该方法有效地提高了答案检索的准确率。
本发明的基本思想是充分借助统计机器翻译,将原始语言中的歧义词和字面上表示不一样的词汇用它们对应的翻译来表示,从而提高答案检索的性能。
本发明公开了
一种借助统计机器翻译的答案检索方法,包括如下步骤:
步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言;
步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;
步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到所有候选答案的所述每种语言表示的低维表达;
步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译;
步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达,将查询问题及其它多种语言翻译转化到低维空间上;
步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达,计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度,并根据相似度得到最终检索结果。
本发明还公开了一种借助统计机器翻译的答案检索装置,其包括:
候选答案翻译模块,用于将候选答案翻译成其它语言;
矩阵分解模块,将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;
优化求解模块,利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到每一个问题的所有候选答案的所述每种语言表示的低维表达;
查询问题翻译模块,用于将查询问题翻译成其它语言;
基于低维空间的相似度计算模块,其用于将查询问题转化到低维空间上,并计算查询问题与候选答案在低维空间上的相似度;
所述结果排序学习模块,其用于根据所述相似度计算模块计算得到的相似度,最终得到检索答案。
本发明采用借助统计机器翻译的思想来提升答案检索的性能。利用统计机器翻译工具Google Translate,将原始语言中的歧义词和字面上表示不一样的词汇用它们对应的翻译来表示,从而提高答案检索的性能。
附图说明
图1是本发明中借助统计机器翻译的答案检索方法。
图2是本发明中借助统计机器翻译的答案检索装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明公开了一种借助统计机器翻译的答案检索方法及装置。其可以分为离线过程和在线过程两部分。离线过程分由三个模块实现,即候选答案翻译模块、矩阵分解模块,优化求解模块。在线过程也分三个模块进行,即查询问题翻译模块、基于低维空间的相似度计算模块以及结果排序学习模块。
图1示出了本发明提出的一种借助统计机器翻译的答案检索方法。如图1所示,其包括离线部分和在线部分两个阶段。其中离线过程包括:
步骤(1)、利用统计机器翻译工具将用原始语言l1(例如英语)表示的所有候选答案进行翻译,获得L-1种不同语言的等价表示{l1,l2,…,lL-1},其中L表示所有语言的数目,所述统计机器翻译工具可选用Google Translate等。
步骤(2)、对每种语言表示的候选答案集合表示成一个Mp×N的词-文档矩阵
Figure BDA00003194029400041
其中Mp表示第p种语言表示的候选答案集合中的所有词汇,N表示候选答案集合中答案的数目。
步骤(3)、设计一个新的目标函数,采用非负矩阵分解的方法将P种不同语言表示的候选答案集成到一个统一的框架中,并且采用正则化的策略来减少统计机器翻译带来的噪声。
步骤(4)、设计一个基于最小二乘的快速梯度下降算法,通过对上述目标函数求解得到L种不同语言的低维表示形式,即系数矩阵和重构矩阵
Figure BDA00003194029400043
所述在线过程包括:
步骤(1)、利用统计机器翻译工具将原始语言l1(例如英语)表示的查询问题翻译成L-1种不同语言的等价表示,所述统计机器翻译工具可选用Google Translate等。
步骤(2)、利用上述离线过程(4)中求解得到的系数矩阵
Figure BDA00003194029400044
将查询问题及其对应的L-1种翻译表示转化到低维空间上。;
步骤(3)、在低维空间表示上计算查询问题与候选答案的相似度。
步骤(4)、采用线性排序学习的策略,将L种不同语言在低维空间表示的相似度进行融合,得分最高的若干个候选答案作为最终的答案返回。
图2示出了本发明中提出的借助统计机器翻译的答案检索装置。如图2所示,该检索装置包括:候选答案翻译模块、矩阵分解模块,优化求解模块、查询问题翻译模块以及基于低维空间的相似度计算模块。
所述候选答案翻译模块,用于在离线阶段时,将用原始语言l1(例如英语)表示的所有候选答案进行翻译,获得L-1种不同语言的等价表示{l1,l2,…,lL-1},其中L表示所有语言的数目,即通过对候选答案集合D1翻译得到另外L-1种语言表示的候选答案集合D2,…,DL
候选答案翻译是本发明的技术之一。为了将候选答案从一种语言翻译成另外L-1种语言,采用人工翻译费时费力,尤其是针对社区问答答案检索这个真实任务来说,对大规模的候选答案进行翻译显然是不现实的。幸运的是,目前机器翻译的水平在自然语言处理中得到了较好的发展,尽管在翻译质量上还不是令人十分满意。目前已经有许多公开的免费翻译工具提供日常翻译服务。本发明优选实施例中采用Google Translate,该翻译工具利用统计机器学***行语料库上训练翻译模型,在从一种语言翻译成另一种语言的过程中,可以考虑丰富的上下文信息,在众多的翻译工具中表现出了良好的翻译性能。通过对候选答案集合D1翻译后,可以得到另外L-1种语言表示的候选答案集合D2,…,DL
所述矩阵分解模块,用于在离线阶段,对每种语言表示的候选答案集合表示成一个Mp×N的词-文档矩阵
Figure BDA00003194029400051
其中Mp表示第p种语言表示的候选答案集合中的所有词汇,N表示候选答案结合中答案的数目。
矩阵分解模块是本发明的关键技术之一。定义{l1,l2,…,lL}表示本发明中使用的语言集合,其中L表示语言的数目,l1表示原始语言(例如,英语),l2…lp表示另外L-1种语言。定义
Figure BDA00003194029400052
表示基于l1语言表达的候选答案集合。定义候选答案
Figure BDA00003194029400053
可以表示成一个Mp维的向量
Figure BDA00003194029400054
其中向量
Figure BDA00003194029400055
中的每个元素对应一个词,其表示该词在第i个候选答案中的重要程度;该向量
Figure BDA00003194029400056
可以用tf-idf计算,tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个数据集中其中一份的重要程度。Dp可以表示成一个Mp×N维的词-文档矩阵
Figure BDA00003194029400061
该矩阵中,每一行表示一个不同的词,每一列表示一个候选答案,其中Mp表示Dp中不重复单词的数目,N表示Dp中候选答案的数目。
直观上来说,可以将翻译后得到的另外L-1种语言表示的候选答案集合D2,…,DL中的词汇直接添加到原始候选答案集合D1中,这样将会导致D1对应的矩阵
Figure BDA00003194029400062
的维数从M1×N增加到然而这种做法存在两个缺点:(1)引起数据稀疏性;(2)统计机器翻译的翻译错误将会带来噪声问题。为了解决上述问题,本发明采用矩阵分解的方法。
假设矩阵
Figure BDA00003194029400064
可以分解成两个低维矩阵
Figure BDA00003194029400065
Figure BDA00003194029400066
同时考虑矩阵
Figure BDA00003194029400067
独立于
Figure BDA00003194029400068
可以获得如下的目标函数:
F ( U ‾ p , V ‾ p ) = min U ‾ p ≥ 0 , V ‾ p ≥ 0 | | D ‾ p - U ‾ p V ‾ p | | F 2
其中,||·||F表示矩阵的范数,其中
Figure BDA000031940294000610
表示分解后得到的系数矩阵,
Figure BDA000031940294000611
表示分解后得到的重构矩阵,K表示隐含空间的维数大小。
为了降低统计机器翻译错误带来的噪声问题,本发明假设从矩阵
Figure BDA000031940294000612
(p∈[2,L])获得的重构矩阵
Figure BDA000031940294000613
应当与从矩阵
Figure BDA000031940294000614
获得的重构矩阵
Figure BDA000031940294000615
越接近越好。因此,本发明提出最小化重构矩阵
Figure BDA000031940294000616
(p∈[2,L])与重构矩阵
Figure BDA000031940294000617
之前的距离:
F ′ ( V ‾ p ) = min V ‾ p ≥ 0 Σ p = 2 L | | V ‾ p - V ‾ 1 | | F 2
合并上述两个目标函数,可以得到如下的目标函数:
F ′ ′ ( U ‾ 1 , · · · , U ‾ L ; V ‾ 1 , · · · , V ‾ L ) = Σ p = 1 L | | D ‾ p - U ‾ p V ‾ p | | F 2 + Σ p = 2 L λ p | | V ‾ p - V ‾ 1 | | F 2
其中参数λp(p∈[2,L])用来调整两部分的相对权重。如果对参数λp设置较小的值,上述目标函数
Figure BDA000031940294000620
类似于传统的非负矩阵(Non-negative Matrix Factorization),如果对参数λp设置较大的值,上述目标函数更加强调统计机器翻译带来的错误。
所述优化求解模块用于求解上述矩阵分解模块中的参数,即系数矩阵
Figure BDA00003194029400071
和重构矩阵
Figure BDA00003194029400072
通过该优化求解模块,得到系数矩阵
Figure BDA00003194029400073
和重构矩阵
Figure BDA00003194029400074
的局部最优表示,即为离线部分的输入结果。
优化求解模块是本发明的核心技术之一。上述目标函数
Figure BDA00003194029400075
同时考虑了数据稀疏性和统计机器翻译错误的问题,该目标函数中有2L个成对的优化对象,当同时考虑
Figure BDA00003194029400076
Figure BDA00003194029400077
的时候,很难找到一个算法来求解上述最小化问题。本发明提出了一种基于最小二乘法的快速梯度下降算法,用来找到局部最优解,当优化某个目标对象时,保持其它2L-1个对象不变。
保持
Figure BDA00003194029400078
不变,对系数矩阵
Figure BDA000031940294000710
的迭代更新可以将上述目标函数转成为如下的优化问题:
min U ‾ p ≥ 0 | | D ‾ p - U ‾ p V ‾ p | | F 2
定义
Figure BDA000031940294000713
表示一个列向量,代表的是矩阵
Figure BDA000031940294000714
的第i行所有元素;
Figure BDA000031940294000715
表示一个列向量,代表的是系数矩阵第i行的所有元素。因此,上述优化问题可以分解成Mp个相互独立的子优化问题,每一个子优化问题对应系数矩阵
Figure BDA000031940294000717
的一行:
min u ‾ i ( p ) ≥ 0 | | d ‾ i ( p ) - V ‾ T p u ‾ i ( p ) | | 2 2
下标i=1,…,Mp,其中Mp表示Dp中不重复单词的数目。
上述子优化问题是一个标准的最小二乘问题,它的数值解是:
u ‾ i ( p ) = ( V ‾ p V ‾ T p ) - 1 V ‾ p d ‾ i ( p )
保持系数矩阵
Figure BDA000031940294000720
和重构矩阵
Figure BDA000031940294000721
不变,对重构矩阵
Figure BDA000031940294000722
的迭代更新可以将上述目标函数
Figure BDA000031940294000723
转成为如下两类的优化问题:
当p∈[2,L],
Figure BDA000031940294000724
可以转化为下面的目标函数:
min V ‾ p ≥ 0 | | D ‾ p - U ‾ p V ‾ p | | F 2 + λ p | | V ‾ p - V ‾ 1 | | F 2
当p=1时,
Figure BDA000031940294000726
可以转化为下面的目标函数:
min V ‾ 1 ≥ 0 | | D ‾ 1 - U ‾ 1 V ‾ 1 | | F 2 + λ 1 | | V ‾ 1 | | F 2
对于上述第一种情况的目标函数,定义
Figure BDA00003194029400082
是矩阵
Figure BDA00003194029400083
中的第j列向量,
Figure BDA00003194029400084
表示重构矩阵
Figure BDA00003194029400085
中的第j列向量。因此,上述第一种情况的目标函数可以分解成N个相互独立的子优化问题,每一个子优化问题对应重构矩阵
Figure BDA00003194029400086
的一列:
min v ‾ j ( p ) ≥ 0 | | d ‾ j ( p ) - U ‾ p v ‾ j ( p ) | | 2 2 + λ p | | v ‾ j ( p ) - v ‾ j ( 1 ) | | 2 2
其中下标j=1,…,N,N表示集合Dp中候选答案的数目。
上述子优化问题是一个标准的基于L2正则化的最小二乘问题,那么它的数值解为:
v ‾ j ( p ) = ( U ‾ T p U ‾ p + λ p I ‾ ) - 1 ( U ‾ T p d ‾ j ( p ) + λ p v ‾ j ( 1 ) )
其中,p∈[2,L]表示翻译后的第p种语言,表示单位矩阵。
类似地,上述第二种情况的目标函数,可以采用类似的方法求解,它的数值解为:
v ‾ j ( 1 ) = ( U ‾ T 1 U ‾ 1 + λ 1 I ‾ ) - 1 U ‾ 1 T d ‾ j ( 1 )
所述查询问题翻译模块,其用于在在线阶段时,利用统计机器翻译工具将查询问题翻译成L-1种不同语言的等价表示,所述统计机器翻译工具可选用Google Translate等。
类似于候选答案翻译模块,为了将查询问题从一种语言翻译成另外L-1种语言,本发明借助统计机器翻译工具——Google Translate。对于给定的查询问题q,经过翻译后得到另外L-1种语言表示的查询问题q2,…,qL
所述基于低维空间的相似度计算模块,用于在低维空间表示上计算查询问题与候选答案的相似度。
基于低维空间的相似度计算模块是本发明的关键技术之一。对于给定的查询问题q及其对应的L-1种语言的翻译q2,…,qL,需要将其转化到低维的空间上。为了便于表述起见,用符号q1代替原始语言表示的查询问题q,即q=q1。因此,可以利用如下的公式将q1转化到低维空间上:
v ‾ q 1 = arg min v ‾ ≥ 0 | | q ‾ 1 - U ‾ 1 v ‾ | | 2 2 + λ 1 | | v ‾ | | 2 2
其中,
Figure BDA00003194029400091
是查询问题q1的向量表示,
Figure BDA00003194029400092
是查询问题q1在低维空间上的向量表示,即重构矩阵;其中
Figure BDA00003194029400093
表示优化求解模块得到的原始语言对应的系数矩阵。然而对于候选答案d1,可以直接利用矩阵分解模块进行低维转换后得到的转换结果,即
Figure BDA00003194029400094
查询问题q1与候选答案d1在低维空间上的相似度,可以用余弦相似度表示:
s ( q 1 , d 1 ) = < v &OverBar; q 1 , v &OverBar; d 1 > | | v &OverBar; q 1 | | 2 &CenterDot; | | v &OverBar; d 1 | | 2
其中,s(q1,d1)表示查询问题q1与候选答案d1在低维空间上的相似度。
对于q1对应的翻译qi(i∈[2,L])来说,可以利用如下的公式将其表示到低维的空间上:
v &OverBar; q i = arg min v &OverBar; &GreaterEqual; 0 | | q &OverBar; i - U &OverBar; i v &OverBar; | | 2 2 + &lambda; i | | v &OverBar; - v &OverBar; q 1 | | 2 2
其中,
Figure BDA00003194029400097
是查询问题qi的向量表示。类似地,对于候选答案d1对应的翻译di(i∈[2,L])来说,可以直接利用矩阵分解模块进行低维空间转换后得到的结果
Figure BDA00003194029400098
查询问题q1对应的翻译qi与候选答案d1对应的翻译di,在低维空间上的相似度可以采用上述类似的余弦相似度计算方法。
所述结果排序学习模块,用于将L种不同语言在低维空间表示的相似度进行融合,得分最高的若干个候选答案作为最终的答案返回。对于给定的查询问题q1以及候选答案d1,本发明设计了一种如下的排序学习函数:
Score ( q 1 , d 1 ) = &theta; &OverBar; &CenterDot; &Phi; ( q 1 , d 1 )
其中,Score(q1,d1)表示查询问题q1与候选答案d1最终的得分,
Figure BDA000031940294000910
表示特征向量的权重,Φ(q1,d1)={s(q1,d1),s(q2,d2),…,s(qL,dL)}表示特征向量,对应查询问题q1与候选答案d1的L种不同语言在低维空间表示的相似度。其中,参数
Figure BDA000031940294000911
采用统计机器学习中最常用的交叉验证策略获得最佳值。最终,按照Score(q1,d1)的高低排序,将得分最高的若干个候选答案作为最终的答案返回。
为了说明该装置的性能,本发明通过实验来验证借助统计机器翻译方法对答案检索***性能的提高。
本发明的实验数据来源于Yahoo!Answers社区问答***,在这些历史问题集中,每个问题主要由四部分组成:问题的题目、问题的类别、问题的描述以及问题的答案。我们所采用的数据集包含1232个用户类别标签,2,288,607个问答对。为了评价该发明方法的有效性,我们另外选择了252个查询问题作为测试数据集。对于测试数据集中的每个查询问题,我们采用语言模型检索出最好的20个结果,然后让两个标注者去手工标注。如果返回的候选答案与该查询问题相似,就标注为“相关”,否则标注为“不相关”。如果两个标注者的标注结构有冲突,让第三个人来做最终的决定。在判断候选答案与查询问题是否相似的过程中,标注者仅仅知道问题本身。
在本发明中,设置参数L=5,即需要将英语翻译成其它的4种语言(汉语、法语、意大利语、德语)。
假设Qt表示测试问题集,本发明采用如下两个评价指标:
平均正确率(MAP):其计算公式如下:
MAP ( Q t ) = 1 Q t &Sigma; q &Element; Q t 1 m q &Sigma; k = 1 m q Precision ( R k )
其中,mq是与查询问题q相关的问题数目,Rk是检索结果中第k个问题及其之前全部问题的集合,Precision(Rk)是Rk与q相关的问题比例。该指标反映了测试结果整体上的平均水平。
Precisionn(Pn):定义为***对于查询问题返回的前n个结果的准确率。整个测试集的Precisionn为测试集合中所有问题的Precisionn的平均值,其计算公式如下:
P ( q ) n = k n
其中,k表示检索***返回的前k个问题中相关问题数目,n表示检索***返回的问题总数目。因此,
P n = &Sigma; q = 1 Q t p ( q ) n Q t
考虑到用户在查看检索结果时,往往希望在前面几个结果就找到自己所需要的信息,因此常常设置n=10。
本发明借助统计机器翻译,将查询问题与候选答案之间存在的“词汇歧义”和“词汇鸿沟”问题,采用翻译后的词来表示,可以有效地解决上述两个问题。表1给出了借助统计机器翻译的答案检索性能的实验。
检索方法 MAP P10
TRLM 0.436 0.261
SMT 0.564(↑29.36%) 0.291(↑11.49%)
表1:借助统计机器翻译的答案检索性能的实验
如表1所示,TRLM表示传统的基于单语言翻译的答案检索方法;SMT表示本发明提出的借助统计机器翻译的答案检索方法。通过表1的对比,可以看到本发明的方法使答案检索的性能有明显的提升。如MAP提升了29.36%,P10提升了11.49%。实验结果证明,本发明可以较好地提升答案检索的性能。
从以上表1的实验结果可以看到,借助统计机器翻译的答案检索方法在性能取得了不错的效果,这个方法被证明是有效的。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种借助统计机器翻译的答案检索方法,包括如下步骤: 
步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言; 
步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架; 
步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到所有候选答案的所述每种语言表示的低维表达; 
步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译; 
步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达,将查询问题及其它多种语言翻译转化到低维空间上; 
步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达,计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度,并根据相似度得到最终检索结果。 
2.如权利要求1所述的方法,其特征在于,所述基于非负矩阵分解的框架具体如下表示: 
Figure FDA00003194029300011
其中,
Figure FDA00003194029300012
表示该框架的目标函数;L表示原始语言在内的所有语言的数目;
Figure FDA00003194029300013
表示对应于第p种语言的一个Mp×N维的词-文档矩阵,Mp表示所有候选答案集合中不重复单词的数目,N表示所有候选答案的数目,向量
Figure FDA00003194029300014
中的每个元素对应第i个候选答案中的一个词,其元素值表示该词在第i个候选答案中的重要程度;
Figure FDA00003194029300015
表示
Figure FDA00003194029300016
分解后得到的系数矩阵,
Figure FDA00003194029300017
表示
Figure FDA00003194029300018
分解后得到的重构矩阵;||·||F表示矩阵的范数,参数λp用来调整两部分的相对权重,
Figure FDA00003194029300019
表示原始语言对应的重构矩阵。 
3.如权利要求2所述的方法,其特征在于,利用所述基于最小二乘法的快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,具体为找到的局部最优解;其中,当优化第p个系数矩阵时,保持 
Figure FDA00003194029300024
Figure FDA00003194029300025
不变,对系数矩阵
Figure FDA00003194029300026
进行迭代更新,上述目标函数
Figure FDA00003194029300027
转成为如下的优化问题: 
4.如权利要求3所述的方法,其特征在于,当优化第p个重构矩阵
Figure FDA00003194029300029
时,保持系数矩阵
Figure FDA000031940293000210
和重构矩阵
Figure FDA000031940293000211
不变,对重构矩阵
Figure FDA000031940293000212
进行迭代更新,上述目标函数
Figure FDA000031940293000213
转成为如下两类的优化问题: 
第一类优化问题:当p∈[2,L],
Figure FDA000031940293000214
转化为下面的目标函数: 
第二类优化问题:当p=1时,
Figure FDA000031940293000216
转化为下面的目标函数: 
Figure FDA000031940293000217
5.如权利要求3所述的方法,其特征在于,对系数矩阵
Figure FDA000031940293000218
进行迭代更新时,所述目标函数的优化问题分解成Mp个相互独立的子优化问题,每一个子优化问题对应系数矩阵
Figure FDA000031940293000219
的一行: 
Figure FDA000031940293000220
其中,
Figure FDA000031940293000221
表示一个列向量,代表的是矩阵
Figure FDA000031940293000222
的第i行所有元素;
Figure FDA000031940293000223
表示一个列向量,代表的是系数矩阵
Figure FDA000031940293000224
第i行的所有元素。 
6.如权利要求4所述的方法,其特征在于,对重构矩阵
Figure FDA000031940293000225
进行迭代更新时,所述第一类优化问题分解成N个相互独立的子优化问题,每一个子优化问题对应重构矩阵
Figure FDA000031940293000226
的一列: 
Figure FDA000031940293000227
其中,定义
Figure FDA00003194029300031
是矩阵
Figure FDA00003194029300032
中的第j列向量,
Figure FDA00003194029300033
表示重构矩阵中的第j列向量; 
同样,所述第二类优化问题可以采用类似的方法求解。 
7.如权利要求5所述的方法,其特征在于,所述Mp个相互独立的子优化问题对应的数值解为: 
Figure FDA00003194029300035
8.如权利要求6所述的方法,其特征在于,所述第一类子优化问题对应的数值解为: 
Figure FDA00003194029300036
其中,p∈[2,L]表示翻译后的第p种语言,
Figure FDA00003194029300037
表示单位矩阵; 
所述第二类子优化问题对应的数值解为: 
9.如权利要求2所述的方法,其特征在于,步骤3中利用所述所有候选答案的所述每种语言表示的低维表达将查询问题转化到低维空间上,其计算方法如下: 
其中,
Figure FDA000031940293000310
是查询问题q1的向量表示,
Figure FDA000031940293000311
是查询问题q1在低维空间上的向量表示,
Figure FDA000031940293000312
表示原始语言对应的系数矩阵,
Figure FDA000031940293000313
表示查询问题q1的一种低维向量表示。 
10.如权利要求2所述的方法,其特征在于,步骤3中利用所述所有候选答案的所述每种语言表示的低维表达,将其它多种语言翻译转化到低维空间上,具体如下表示: 
Figure FDA000031940293000314
其中,
Figure FDA000031940293000315
是查询问题的其它多种语言翻译qi的向量表示,表示查询问题对应的其它多种语言翻译qi对应的系数矩阵;
Figure FDA000031940293000317
表示查询问题q1对应的翻译qi的一种低维向量表示,表示查询问题q1的最优低维向量表示。 
11.如权利要求1所述的方法,其特征在于,查询问题q1与候选答案d1在低维空间上的相似度,如下计算: 
Figure FDA00003194029300041
其中,s(q1,d1)表示查询问题q1与候选答案d1在低维空间上的相似度, 
Figure FDA00003194029300042
Figure FDA00003194029300043
分别表示查询问题q1与候选答案d1在低维空间上的向量表示; 
同样,查询问题q1对应的翻译qi与候选答案d1对应的翻译di,在低维空间上的相似度采用同样的方法计算。 
12.一种借助统计机器翻译的答案检索装置,其包括: 
候选答案翻译模块,用于将候选答案翻译成其它语言; 
矩阵分解模块,将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架; 
优化求解模块,利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到每一个问题的所有候选答案的所述每种语言表示的低维表达; 
查询问题翻译模块,用于将查询问题翻译成其它语言; 
基于低维空间的相似度计算模块,其用于将查询问题转化到低维空间上,并计算查询问题与候选答案在低维空间上的相似度; 
所述结果排序学习模块,其用于根据所述相似度计算模块计算得到的相似度,最终得到检索答案。 
CN201310180146.4A 2013-05-15 2013-05-15 一种借助统计机器翻译的答案检索方法及装置 Active CN103235833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310180146.4A CN103235833B (zh) 2013-05-15 2013-05-15 一种借助统计机器翻译的答案检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310180146.4A CN103235833B (zh) 2013-05-15 2013-05-15 一种借助统计机器翻译的答案检索方法及装置

Publications (2)

Publication Number Publication Date
CN103235833A true CN103235833A (zh) 2013-08-07
CN103235833B CN103235833B (zh) 2017-02-08

Family

ID=48883874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310180146.4A Active CN103235833B (zh) 2013-05-15 2013-05-15 一种借助统计机器翻译的答案检索方法及装置

Country Status (1)

Country Link
CN (1) CN103235833B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782789A (zh) * 2020-07-03 2020-10-16 江苏瀚涛软件科技有限公司 智能问答方法与***
CN112182439A (zh) * 2020-09-30 2021-01-05 中国人民大学 一种基于自注意力网络的搜索结果多样化方法
US12027070B2 (en) 2022-03-15 2024-07-02 International Business Machines Corporation Cognitive framework for identification of questions and answers

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUANGYOU ZHOU 等: "《Phrase-Based Translation Model for Question Retrieval in Community Question Answer Archives》", 《PROCEEDINGS OF THE 49TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
徐泰燕,郝玉龙: "《非负矩阵分解及其应用现状分析》", 《武汉工业学院学报》 *
王海峰,吴华,刘占一: "《互联网机器翻译》", 《中文信息学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782789A (zh) * 2020-07-03 2020-10-16 江苏瀚涛软件科技有限公司 智能问答方法与***
CN112182439A (zh) * 2020-09-30 2021-01-05 中国人民大学 一种基于自注意力网络的搜索结果多样化方法
CN112182439B (zh) * 2020-09-30 2023-05-23 中国人民大学 一种基于自注意力网络的搜索结果多样化方法
US12027070B2 (en) 2022-03-15 2024-07-02 International Business Machines Corporation Cognitive framework for identification of questions and answers

Also Published As

Publication number Publication date
CN103235833B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN109271505B (zh) 一种基于问题答案对的问答***实现方法
CN110147436B (zh) 一种基于教育知识图谱与文本的混合自动问答方法
CN105893523B (zh) 利用答案相关性排序的评估度量来计算问题相似度的方法
CN104408173B (zh) 一种基于b2b平台的核心关键词自动提取方法
Yao et al. Information extraction over structured data: Question answering with freebase
CN101763402B (zh) 多语言信息检索一体化检索方法
Elsaid et al. A comprehensive review of arabic text summarization
CN107562792A (zh) 一种基于深度学习的问答匹配方法
Xie et al. Topic enhanced deep structured semantic models for knowledge base question answering
CN106372187B (zh) 一种面向大数据的跨语言检索方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
Zhou et al. Statistical machine translation improves question retrieval in community question answering via matrix factorization
Roller et al. Cross-lingual candidate search for biomedical concept normalization
Das et al. Deep learning based Bengali question answering system using semantic textual similarity
CN103235833B (zh) 一种借助统计机器翻译的答案检索方法及装置
Garrido et al. TM-gen: A topic map generator from text documents
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法
Bai et al. Learning to generate structured queries from natural language with indirect supervision
Zhang Research on English machine translation system based on the internet
Kazi et al. Uquad1. 0: development of an urdu question answering training data for machine reading comprehension
Jia et al. Bilingual terminology extraction from comparable e-commerce corpora
Callison-Burch Active learning for statistical machine translation
Sati et al. Arabic text question answering from an answer retrieval point of view: A survey

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant