CN115310460A

CN115310460A - 一种机器翻译质量评估方法、装置、设备和存储介质

Info

Publication number: CN115310460A
Application number: CN202210970061.5A
Authority: CN
Inventors: 陶大程; 丁亮; 陆清屿
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-08
Also published as: WO2024032691A1

Abstract

本发明实施例公开了一种机器翻译质量评估方法、装置、设备和存储介质，应用于自然语言处理技术领域。该方法包括：获取待评估的翻译文本对，翻译文本对包括源语种对应的源文本和翻译后的目标语种对应的目标文本；基于至少两种质量评估指标和源文本，对目标文本进行质量评估，确定每种质量评估指标对应的评估结果；基于源语种与目标语种之间的语种相似度，确定每种质量评估指标对应的评估权重；基于各个评估权重，对各个评估结果进行融合处理，确定翻译文本对的目标评估结果。通过本发明实施例的技术方案，可以综合评估翻译质量，并且保证不同语种对的翻译评估准确度。

Description

一种机器翻译质量评估方法、装置、设备和存储介质

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种机器翻译质量评估方法、装置、设备和存储介质。

背景技术

随着计算机技术的快速发展，往往需要对利用机器翻译模型翻译出的文本质量进行评估。

目前，可以基于翻译质量评估模型，对翻译后的文本进行质量评估。例如，基于句子级别标注数据进行训练获得的评估模型对翻译文本进行质量评估，获得的指标评估结果偏向于表征翻译文本的整体流畅度。或者，基于词级别标注数据进行训练获得的评估模型对翻译文本进行质量评估，获得的指标评估结果偏向于表征翻译文本的忠实度。

然而，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

利用每种翻译质量评估模型获得的指标评估结果仅能偏向于评估翻译文本单一层面的质量情况，比如翻译文本的整体流畅度或者忠实度，无法综合评估出翻译质量，并且对不同语种对的翻译文本均采用相同的评估方式，进而导致不同语种对的翻译评估准确度差异较大的现象。

发明内容

本发明实施例提供了一种机器翻译质量评估方法、装置、设备和存储介质，以综合评估翻译质量，并且保证不同语种对的翻译评估准确度。

第一方面，本发明实施例提供了一种机器翻译质量评估方法，包括：

获取待评估的翻译文本对，所述翻译文本对包括源语种对应的源文本和翻译后的目标语种对应的目标文本；

基于至少两种质量评估指标和所述源文本，对所述目标文本进行质量评估，确定每种所述质量评估指标对应的评估结果；

基于所述源语种与所述目标语种之间的语种相似度，确定每种所述质量评估指标对应的评估权重；

基于各个所述评估权重，对各个所述评估结果进行融合处理，确定所述翻译文本对的目标评估结果。

第二方面，本发明实施例还提供了一种机器翻译质量评估装置，包括：

翻译文本对获取模块，用于获取待评估的翻译文本对，所述翻译文本对包括源语种对应的源文本和翻译后的目标语种对应的目标文本；

评估结果确定模块，用于基于至少两种质量评估指标和所述源文本，对所述目标文本进行质量评估，确定每种所述质量评估指标对应的评估结果；

评估权重确定模块，用于基于所述源语种与所述目标语种之间的语种相似度，确定每种所述质量评估指标对应的评估权重；

评估结果融合模块，用于基于各个所述评估权重，对各个所述评估结果进行融合处理，确定所述翻译文本对的目标评估结果。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的机器翻译质量评估方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的机器翻译质量评估方法。

上述发明中的实施例具有如下优点或有益效果：

通过基于至少两种质量评估指标和待评估的翻译文本对中的源文本，对目标文本进行质量评估，确定每种质量评估指标对应的评估结果，并基于源语种与目标语种之间的语种相似度，确定每种质量评估指标对应的评估权重，从而基于各个评估权重对各个评估结果进行融合处理，确定翻译文本对的目标评估结果，从而可以将不同的至少两种质量评估指标对应的评估结果进行融合处理，综合评估出翻译质量，避免产生的评估结果偏向情况，并且基于源语种与目标语种之间的语种相似度确定各个评估权重，从而可以考虑到不同语种对之间的语种差异，有效避免不同语种对的翻译评估准确度差异较大的情况，进而保证不同语种对的翻译评估准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种机器翻译质量评估方法的流程图；

图2是本发明实施例提供的另一种机器翻译质量评估方法的流程图；

图3是本发明实施例提供的一种机器翻译质量评估装置的结构示意图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的一种机器翻译质量评估方法的流程图，本实施例可适用于对机器翻译模型翻译出的文本质量进行评估的情况。该方法可以由机器翻译质量评估装置来执行，该装置可以由软件和/或硬件的方式来实现，集成于电子设备中。如图1所示，该方法具体包括以下步骤：

S110、获取待评估的翻译文本对，翻译文本对包括源语种对应的源文本和翻译后的目标语种对应的目标文本。

其中，源语种可以是指待翻译的语种。目标语种是指翻译后的语种。源文本可以是指利用源语种表达的原本，即待翻译的句子。目标文本可以是指利用目标语种表达的与源文本相同含义的译文，即翻译后的句子。

具体地，可以将源文本输入至机器翻译模型中进行翻译，获得机器翻译模型输出的目标文本，从而获得待评估的翻译文本对。

S120、基于至少两种质量评估指标和源文本，对目标文本进行质量评估，确定每种质量评估指标对应的评估结果。

其中，质量评估指标可以是用于评估目标文本的翻译质量的指标。不同种类的质量评估指标偏向于评估不同层面的翻译情况。例如，质量评估指标可以是但不限于：偏向于评估目标文本整体流畅度的流畅度评估指标，或者偏向于评估目标文本忠实度的忠实度评估指标。其中，流畅度评估指标可以用于表征翻译文本的整体流畅度、是否符合表述习惯等信息。忠实度评估指标可以用于表征翻译文本中的细节是否忠实地反映了原文的意思，也就是对译文中的错翻、漏翻、情感错误等细节问题进行评判。每种质量评估指标可以对应一个或多个质量评估模型，以便利用一个或多个质量评估模型确定出该种质量评估指标对应的评估结果。本实施例可以利用打分方式表明评估结果。例如，评估结果中的分值越大，则表明该种质量评估指标所对应的质量程度越高，比如，流畅度越高，或者忠实度越高。

具体地，基于业务需求可以选取不同的至少两种质量评估指标，并针对每种质量评估指标而言，可以基于该种质量评估指标对应的至少一个质量评估模型，对目标文本进行质量评估，确定出该种质量评估指标对应的评估结果。例如，若该种质量评估指标对应多个质量评估模型，则可以从各个质量评估模型中随机选取一个质量评估模型，基于选取的质量评估模型和源文本对目标文本进行质量评估，并将获得的评估结果作为该种质量评估指标对应的评估结果；也可以基于每个质量评估模型和源文本，均对目标文本进行质量评估，并将获得的各个评估结果进行平均处理，获得该种质量评估指标对应的平均评估结果，以便进一步提高质量评估的准确性。

S130、基于源语种与目标语种之间的语种相似度，确定每种质量评估指标对应的评估权重。

其中，语种相似度可以是指源语种和目标语种在语系、词汇和语法结构等方面的语言学相似度。

具体地，可以预先确定每两个语种之间的语种相似度，从而可以直接获取源语种与目标语种之间的语种相似度，也可以实时确定出源语种与目标语种之间的语种相似度。基于源语种与目标语种之间的语种相似度，可以确定出不同质量评估指标对应的最优评估权重，也就是基于不同的语种对可以确定出不同的评估权重，从而可以考虑到不同语种对之间的语种差异，有效避免不同语种对的翻译评估准确度差异较大的情况，进而保证不同语种对的翻译评估准确度，提高了质量翻译评估的通用性。

S140、基于各个评估权重，对各个评估结果进行融合处理，确定翻译文本对的目标评估结果。

具体地，可以将每种质量评估指标对应的评估结果和相应的评估权重进行相乘，并将各个相乘结果进行相加，获得的加权平均结果作为目标评估结果，从而可以融合至少两种质量评估指标对应的评估结果，综合评估出翻译质量，避免单一评估指标对翻译文本评价时产生的偏向情况，进而提高了质量评估的准确性和鲁棒性。

本实施例的技术方案，通过基于至少两种质量评估指标和待评估的翻译文本对中的源文本，对目标文本进行质量评估，确定每种质量评估指标对应的评估结果，并基于源语种与目标语种之间的语种相似度，确定每种质量评估指标对应的评估权重，从而基于各个评估权重对各个评估结果进行融合处理，确定翻译文本对的目标评估结果，从而可以将不同的至少两种质量评估指标对应的评估结果进行融合处理，综合评估出翻译质量，避免产生的评估结果偏向情况，并且基于源语种与目标语种之间的语种相似度确定各个评估权重，从而可以考虑到不同语种对之间的语种差异，有效避免不同语种对的翻译评估准确度差异较大的情况，进而保证不同语种对的翻译评估准确度。

在上述技术方案的基础上，S130可以包括：将源语种与目标语种之间的语种相似度输入至预设网络模型中，预设网络模型是预先基于翻译样本对数据和标签评估结果进行训练获得的；根据预设网络模型的输出，确定每种质量评估指标对应的评估权重。

其中，预设网络模型可以用于表征每种质量评估指标对应的最优评估权重与语种相似度之间的映射关系，该映射关系可以通过基于翻译样本对数据和标签评估结果进行学习获得的。例如，可以基于至少两种质量评估指标和翻译样本对数据中的源样本文本，对翻译样本对数据中的目标样本文本进行质量评估，获得每个翻译样本对数据对应的各个样本评估结果，并将样本语种对之间的语种相似度输入至待训练的预设网络模型中，基于预设网络模型的输出，确定出每种质量评估指标对应的样本评估权重，并基于各个样本评估结果，对各个样本评估权重进行融合处理，获得目标样本评估结果，基于目标样本评估结果和标签评估结果确定出训练误差，并将训练误差反向传播至待训练的预设网络模型，调整预设网络模型中的模型参数，直到满足预设收敛条件，比如迭代次数达到预设次数或者训练误差收敛时，确定预设网络模型训练结束。

需要说明的是，预设网络模型的网络架构可以基于业务需求进行设置。例如，预设网络模型可以直接输出每种质量评估指标对应的评估权重，也可以仅输出一种质量评估指标对应的评估权重，并基于输出的该评估权重确定出其他质量评估指标对应的评估权重。例如，若存在两种质量评估指标A和B，且预设网络模型是用于输出质量评估指标A对应的评估权重，则由于A和B对应的评估权重之和为1，从而可以将1与指标A对应的评估权重之间的差值确定为指标B对应的评估权重。

在上述技术方案的基础上，在S130之前，还可以包括：基于预设多语种模型，根据源语种对应的源语料库和目标语种对应的目标语料库，确定源语种对应的源语种表征向量和目标语种对应的目标语种表征向量；基于源语种表征向量和目标语种表征向量，确定源语种与目标语种之间的语言相似度。

其中，预设多语种模型可以是对不同语种中的文本进行语言处理的模型。例如，预设多语种模型可以是但不限于XLM-RoBERTa模型。

具体地，基于预设多语种模型和源语料库可以确定出用于表征源语言学的源语种表征向量v_i。基于预设多语种模型和目标语料库可以确定出用于表征目标语言学的目标语种表征向量v_j。本实施例可以将源语种表征向量v_i与目标语种表征向量v_j之间的余弦距离cos(v_i,v_j)确定为源语种与目标语种之间的语言相似度。

示例性地，基于预设多语种模型，根据源语种对应的源语料库和目标语种对应的目标语料库，确定源语种对应的源语种表征向量和目标语种对应的目标语种表征向量，可以包括：

将源语种对应的源语料库中的每个源文本输入至预设多语种模型中，确定每个源文本对应的源语言表征向量，并基于各个源语言表征向量，确定源语种对应的源语种表征向量；将目标语种对应的目标语料库中的每个目标文本输入至预设多语种模型中，确定每个目标文本对应的目标语言表征向量，并基于各个目标语言表征向量，确定目标语种对应的目标语种表征向量。

示例性地，基于各个源语言表征向量，确定源语种对应的源语种表征向量，可以包括：对各个源语言表征向量进行平均处理，获得的平均向量确定为源语种对应的源语种表征向量。

示例性地，基于各个目标语言表征向量，确定目标语种对应的目标语种表征向量，可以包括：对各个目标语言表征向量进行平均处理，获得的平均向量确定为目标语种对应的目标语种表征向量。

具体地，可以将源语料库中的每个源文本输入至预先训练获得的预设多语种模型中，并基于预设多语种模型的输出，确定每个源文本对应的源语言表征向量R(x_im)，其中，i代表的是源语种，m代表的是第m个源文本。通过对各个源语言表征向量R(x_im)进行平均处理，获得的平均向量确定为源语种表征向量v_i，即

其中，n_i代表的是源文本数量。同理，可以基于预设多语种模型确定出每个目标文本对应的目标语言表征向量R(x_jm)，其中，j代表的是目标语种。通过对各个目标语言表征向量R(x_jm)进行平均处理，获得的平均向量确定为目标语种表征向量v_j，即

其中，n_j代表的是目标文本数量。

图2为本发明实施例提供的另一种机器翻译质量评估方法的流程图，本实施例在上述各实施例的基础上，在质量评估指标包括：流畅度评估指标和忠实度评估指标时，对翻译质量的整个评估过程进行了详细描述。其中与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图2，本实施例提供的另一种机器翻译质量评估方法具体包括以下步骤：

S210、获取待评估的翻译文本对，翻译文本对包括源语种对应的源文本和翻译后的目标语种对应的目标文本。

S220、基于至少一个预设流畅度评估模型和源文本，对目标文本进行流畅度评估，确定流畅度评估指标对应的评估结果。

其中，流畅度评估指标可以用于表征翻译文本的整体流畅度、是否符合表述习惯等信息。预设流畅度评估模型可以是用于偏向于评估目标文本整体流畅度的评估模型，以便获得流畅度评估指标对应的评估结果。预设流畅度评估模型可以包括但不限于：COMET-MQM(Multidimensional Quality Metric)跨语种多维质量模型、COMET-QE跨语种质量评估模型和BLEURT(Bilingual Evaluation Understudy with Representations fromTransformers)双语评估替代模型中的至少一个。其中，COMET(Crosslingual OptimizedMetric for Evaluation of Translation)是一系列翻译评估模型的总称，COMET是一种模型框架，这些指标都由人工评估训练而成。MQM是一种多维度、多层次进行人工评估方法，COMET-MQM模型是将COMET这一模型在MQM数据上训练后得到的。QE(Quality Estimation)是翻译评价领域的一种特定任务，这一任务不允许使用参考译文，只能基于源文本进行评价。COMET-QE模型是将COMET这一模型在QE数据上训练后得到的。BLEURT模型是使用Transformers模型得到的双语评估替代的翻译评估模型。

具体地，可以基于一个或多个预设流畅度评估模型，对目标文本进行流畅度评估，确定出流畅度评估指标对应的评估结果。例如，若存在多个预设流畅度评估模型，则可以从各个预设流畅度评估模型中随机选取一个预设流畅度评估模型，基于选取的预设流畅度评估模型和源文本对目标文本进行质量评估，并将获得的评估结果作为流畅度评估指标对应的评估结果。也可以基于每个预设流畅度评估模型和源文本，均对目标文本进行质量评估，并将获得的各个评估结果进行平均处理，并将平均评估结果作为流畅度评估指标对应的评估结果，以便进一步提高质量评估的准确性。

需要说明的是，不同预设流畅度评估模型对应的评估方式不同，从而在对目标文本进行质量评估时，所需要的参考文本可能不同。例如，COMET-MQM跨语种多维质量模型需要基于源文本和源文本对应的参考译文进行评估，获得COMET-MQM流畅度评估指标对应的评估结果。COMET-QE跨语种质量评估模型需要基于源文本进行评估，获得COMET-QE流畅度评估指标对应的评估结果。BLEURT双语评估替代模型需要基于源文本对应的参考译文进行评估，获得BLEURT流畅度评估指标对应的评估结果。

S230、基于至少一个预设忠实度评估模型和源文本，对目标文本进行忠实度评估，确定忠实度评估指标对应的评估结果。

其中，忠实度评估指标可以用于表征翻译文本中的细节是否忠实地反映了原文的意思，也就是对译文中的错翻、漏翻、情感错误等细节问题进行评判。预设忠实度评估模型可以是用于偏向于评估目标文本忠实度的评估模型，以便获得忠实度评估指标对应的评估结果。预设忠实度评估模型可以包括但不限于：OpenKiwi(Open-Source MachineTranslation Quality Estimation in PyTorch)评估模型和Yisi-2语义评估模型。OpenKiwi评估模型和Yisi-2语义评估模型均需要基于源文本进行评估，获得OpenKiwi和Yisi-2这两个忠实度评估指标对应的评估结果。

具体地，可以基于一个或多个预设忠实度评估模型，对目标文本进行忠实度评估，确定出忠实度评估指标对应的评估结果。例如，若存在多个预设忠实度评估模型，则可以从各个预设忠实度评估模型中随机选取一个预设忠实度评估模型，基于选取的预设忠实度评估模型和源文本对目标文本进行质量评估，并将获得的评估结果作为忠实度评估指标对应的评估结果。也可以基于每个预设忠实度评估模型和源文本，均对目标文本进行质量评估，并将获得的各个评估结果进行平均处理，并将平均评估结果作为忠实度评估指标对应的评估结果，以便进一步提高质量评估的准确性。

S240、将源语种与目标语种之间的语种相似度输入至预设网络模型中，并根据预设网络模型的输出，确定流畅度评估指标对应的评估权重和忠实度评估指标对应的评估权重。

具体地，预设网络模型可以直接输出流畅度评估指标对应的评估权重和忠实度评估指标对应的评估权重，也可以仅输出流畅度评估指标或者忠实度评估指标对应的评估权重，并基于输出的该评估权重确定出另一个指标对应的评估权重。本实施例通过基于语言学相似度确定流畅度评估指标和忠实度评估指标对应的最优评估权重，可以有效解决对于不同语种的翻译文本在评价时流畅度和忠实度时的产生不同偏向性的问题，进一步提升了质量评估的鲁棒性。

示例性地，S240可以包括：根据预设网络模型的输出，确定流畅度评估指标对应的评估权重；基于流畅度评估指标对应的评估权重，确定出忠实度评估指标对应的评估权重。

具体地，在预设网络模型是用于预测流畅度评估指标对应的评估权重的模型时，可以将预设网络模型输出的权重作为流畅度评估指标对应的评估权重。由于流畅度评估指标和忠实度评估指标所对应的两个评估权重之和为1，从而可以将1与流畅度评估指标对应的评估权重之间的差值确定为忠实度评估指标对应的评估权重。

S250、基于各个评估权重，对各个评估结果进行融合处理，确定翻译文本对的目标评估结果。

具体地，可以将流畅度评估指标对应的评估结果和评估权重进行相乘，以及将忠实度评估指标对应的评估权重和评估权重进行相乘，并将两个相乘结果进行相加，获得的加权平均结果作为目标评估结果，从而可以融合忠实度和流畅度进行综合评估，避免单一评价指标对翻译文本评价时产生的对忠实度或流畅度的偏向问题，进而提高了质量评估的准确性和鲁棒性。

本实施例的技术方案，通过基于语言学相似度确定流畅度评估指标和忠实度评估指标对应的最优评估权重，并基于各个评估权重进行融合处理，从而可以有效解决对于不同语种的翻译文本在评价时流畅度和忠实度时的产生不同偏向性的问题，进一步提升了质量评估的准确性和鲁棒性。

以下是本发明实施例提供的机器翻译质量评估装置的实施例，该装置与上述各实施例的机器翻译质量评估方法属于同一个发明构思，在机器翻译质量评估装置的实施例中未详尽描述的细节内容，可以参考上述机器翻译质量评估方法的实施例。

图3为本发明实施例提供的一种机器翻译质量评估装置的结构示意图，本实施例可适用于对预训练模型进行机器翻译质量评估的情况，尤其是适用于下游任务为翻译任务这类跨语种任务时的微调场景中。如图3所示，该装置具体包括：翻译文本对获取模块310、评估结果确定模块320、评估权重确定模块330和评估结果融合模块340。

其中，翻译文本对获取模块310，用于获取待评估的翻译文本对，翻译文本对包括源语种对应的源文本和翻译后的目标语种对应的目标文本；评估结果确定模块320，用于基于至少两种质量评估指标和源文本，对目标文本进行质量评估，确定每种质量评估指标对应的评估结果；评估权重确定模块330，用于基于源语种与目标语种之间的语种相似度，确定每种质量评估指标对应的评估权重；评估结果融合模块340，用于基于各个评估权重，对各个评估结果进行融合处理，确定翻译文本对的目标评估结果。

可选地，质量评估指标包括：流畅度评估指标和忠实度评估指标；评估结果确定模块320，具体用于：

基于至少一个预设流畅度评估模型和源文本，对目标文本进行流畅度评估，确定流畅度评估指标对应的评估结果；基于至少一个预设忠实度评估模型和源文本，对目标文本进行忠实度评估，确定忠实度评估指标对应的评估结果。

可选地，预设流畅度评估模型包括：COMET-MQM跨语种多维质量模型、COMET-QE跨语种质量评估模型和BLEURT双语评估替代模型中的至少一个；

预设忠实度评估模型包括：OpenKiwi评估模型和Yisi-2语义评估模型。

可选地，评估权重确定模块330，包括：

语种相似度输入单元，用于将源语种与目标语种之间的语种相似度输入至预设网络模型中，预设网络模型是预先基于翻译样本对数据和标签评估结果进行训练获得的；

评估权重确定单元，用于根据预设网络模型的输出，确定每种质量评估指标对应的评估权重。

可选地，在质量评估指标包括流畅度评估指标和忠实度评估指标时，评估权重确定单元，具体用于：

根据预设网络模型的输出，确定流畅度评估指标对应的评估权重；基于流畅度评估指标对应的评估权重，确定出忠实度评估指标对应的评估权重。

可选地，该装置还包括：

语种相似度确定模块，用于：在基于源语种与目标语种之间的语种相似度，确定每种质量评估指标对应的评估权重之前，基于预设多语种模型，根据源语种对应的源语料库和目标语种对应的目标语料库，确定源语种对应的源语种表征向量和目标语种对应的目标语种表征向量；基于源语种表征向量和目标语种表征向量，确定源语种与目标语种之间的语言相似度。

可选地，语种相似度确定模块，具体用于：

可选地，语种相似度确定模块，还具体用于：对各个源语言表征向量进行平均处理，获得的平均向量确定为源语种对应的源语种表征向量。

本发明实施例所提供的机器翻译质量评估装置可执行本发明任意实施例所提供的机器翻译质量评估方法，具备执行机器翻译质量评估方法相应的功能模块和有益效果。

值得注意的是，上述机器翻译质量评估装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

图4为本发明实施例提供的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图4显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

电子设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。***存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如***存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发实施例所提供的一种机器翻译质量评估方法步骤，该方法包括：

获取待评估的翻译文本对，翻译文本对包括源语种对应的源文本和翻译后的目标语种对应的目标文本；

基于至少两种质量评估指标和源文本，对目标文本进行质量评估，确定每种质量评估指标对应的评估结果；

基于源语种与目标语种之间的语种相似度，确定每种质量评估指标对应的评估权重；

基于各个评估权重，对各个评估结果进行融合处理，确定翻译文本对的目标评估结果。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的机器翻译质量评估方法的技术方案。

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的机器翻译质量评估方法步骤，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种机器翻译质量评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述质量评估指标包括：流畅度评估指标和忠实度评估指标；

所述基于至少两种质量评估指标和所述源文本，对所述目标文本进行质量评估，确定每种所述质量评估指标对应的评估结果，包括：

基于至少一个预设流畅度评估模型和所述源文本，对所述目标文本进行流畅度评估，确定所述流畅度评估指标对应的评估结果；

基于至少一个预设忠实度评估模型和所述源文本，对所述目标文本进行忠实度评估，确定所述忠实度评估指标对应的评估结果。

3.根据权利要求1所述的方法，其特征在于，所述基于所述源语种与所述目标语种之间的语种相似度，确定每种所述质量评估指标对应的评估权重，包括：

将所述源语种与所述目标语种之间的语种相似度输入至预设网络模型中，所述预设网络模型是预先基于翻译样本对数据和标签评估结果进行训练获得的；

根据所述预设网络模型的输出，确定每种所述质量评估指标对应的评估权重。

4.根据权利要求3所述的方法，其特征在于，在所述质量评估指标包括流畅度评估指标和忠实度评估指标时，根据所述预设网络模型的输出，确定每种所述质量评估指标对应的评估权重，包括：

根据所述预设网络模型的输出，确定流畅度评估指标对应的评估权重；

基于所述流畅度评估指标对应的评估权重，确定出忠实度评估指标对应的评估权重。

5.根据权利要求1-4任一项所述的方法，其特征在于，在基于所述源语种与所述目标语种之间的语种相似度，确定每种所述质量评估指标对应的评估权重之前，还包括：

基于预设多语种模型，根据所述源语种对应的源语料库和所述目标语种对应的目标语料库，确定所述源语种对应的源语种表征向量和所述目标语种对应的目标语种表征向量；

基于所述源语种表征向量和目标语种表征向量，确定源语种与目标语种之间的语言相似度。

6.根据权利要求5所述的方法，其特征在于，所述基于预设多语种模型，根据所述源语种对应的源语料库和所述目标语种对应的目标语料库，确定所述源语种对应的源语种表征向量和所述目标语种对应的目标语种表征向量，包括：

将所述源语种对应的源语料库中的每个源文本输入至预设多语种模型中，确定每个源文本对应的源语言表征向量，并基于各个所述源语言表征向量，确定所述源语种对应的源语种表征向量；

将所述目标语种对应的目标语料库中的每个目标文本输入至预设多语种模型中，确定每个目标文本对应的目标语言表征向量，并基于各个所述目标语言表征向量，确定所述目标语种对应的目标语种表征向量。

7.根据权利要求6所述的方法，其特征在于，所述基于各个所述源语言表征向量，确定所述源语种对应的源语种表征向量，包括：

对各个所述源语言表征向量进行平均处理，获得的平均向量确定为所述源语种对应的源语种表征向量。

8.一种机器翻译质量评估装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的机器翻译质量评估方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的机器翻译质量评估方法。