CN110874536B - 语料质量评估模型生成方法和双语句对互译质量评估方法 - Google Patents

语料质量评估模型生成方法和双语句对互译质量评估方法 Download PDF

Info

Publication number
CN110874536B
CN110874536B CN201810995294.4A CN201810995294A CN110874536B CN 110874536 B CN110874536 B CN 110874536B CN 201810995294 A CN201810995294 A CN 201810995294A CN 110874536 B CN110874536 B CN 110874536B
Authority
CN
China
Prior art keywords
sentence
corpus
bilingual
inter
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810995294.4A
Other languages
English (en)
Other versions
CN110874536A (zh
Inventor
陆军
汪嘉怿
施杨斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810995294.4A priority Critical patent/CN110874536B/zh
Publication of CN110874536A publication Critical patent/CN110874536A/zh
Application granted granted Critical
Publication of CN110874536B publication Critical patent/CN110874536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种语料质量评估模型生成方法和双语句对的互译质量评估方法及其装置、设备和存储介质。其中,所述的语料质量评估模型的生成方法包括:构建双语语料库,所述双语语料库包括多个双语句对和双语句对所对应的互译质量标签;将所述双语句对和双语句对所对应的互译质量标签作为训练样本,对预设的语料质量评估网络进行训练,以生成语料质量评估模型,所述语料质量评估模型适于评估给定双语句对的互译质量。利用本发明实施例可实现对双语句对的互译质量评估。

Description

语料质量评估模型生成方法和双语句对互译质量评估方法
技术领域
本发明涉及机器翻译技术领域,尤其是涉及一种语料质量评估模型生成方法、双语句对的互译质量评估方法及其装置、设备和存储介质。
背景技术
机器翻译是指利用计算机程序将文字从一种自然语言(源语言)翻译成另一种自然语言(目标语言)的技术。目前,基于语料库的机器翻译技术代表着该领域的主流技术趋势,诸如统计机器翻译(Statistical Machine Translation,SMT)及神经网络机器翻译(Neural Machine Translation,NMT),均依赖于含有大量训练数据的语料库来进行对翻译模型的训练。无论对于SMT,还是NMT,其翻译质量的优劣都与语料库的质量和规模息息相关。因此,对语料库中的语料的质量进行评估显得尤为重要。
双语语料,有时也称双语平行语料,是这类语料库中的一种语料数据,是机器翻译模型的关键训练数据。双语语料通常指可互为翻译的文本语料,一般包含词级别、短语级别、语句级别和文档级别等文本语料。例如,“今天天气很好、It's a nice day today”为中英互译的双语语料,且是属于语句级别的双语语料。
以往的能够用来评估双语语料质量的方案大多是基于词汇的翻译概率计算句对的翻译概率,进而评估双语语料的质量,大致处理过程为:1)构建双语词表,计算词汇的翻译概率,并获得词表条目;例如词表条目为“apple苹果0.8 0.6”,表示英文词“apple”翻译成中文词“苹果”的概率为0.8,中文词“苹果”翻译成英文词“apple”的概率为0.6。2)如果双语语料为短语级别或语句级别的双语语料,将双语语料的原文和译文分别做分词,并做词对齐处理,得到词对关系;所述的词对齐处理指将可能互译的原文词和译文词对应起来的处理。3)通过所述的词对关系,结合1)中得到的该词对的词汇翻译概率,以适合的算法(例如对统计加权的互译词比例的计算)计算出双语语料的整体翻译概率。这里,以该整体翻译概率反映双语语料的质量,该整体翻译概率越高,认为双语语料的质量越好。
利用这种方案虽然能够在一定程度上反映双语语料的质量,但由于这种方案从根本上是基于词汇的处理,一方面依赖构建的双语词表,另一方面需对原文和译文进行分词处理及词对齐处理,再一方面还需引入其他算法计算最后的整体翻译概率,这些处理的不确定性都会对该整体翻译概率的计算结果产生影响,使得这种整体翻译概率无法准确反映双语语料的质量。
发明内容
有鉴于此,本发明提出一种基于双语语料的训练方法、质量评估方法及其装置、设备和计算机存储介质,用以解决难以完成对双语语料质量评估的问题。
第一方面,本发明提供一种语料质量评估模型的生成方法,所述方法包括:
构建双语语料库,所述双语语料库包括多个双语句对和双语句对所对应的互译质量标签;
将所述双语句对和双语句对所对应的互译质量标签作为训练样本,对预设的语料质量评估网络进行训练,以生成语料质量评估模型,所述语料质量评估模型适于评估给定双语句对的互译质量。
第二方面,本发明还提供语料质量评估模型的生成装置,所述装置包括:
语料库构建模块,用于构建双语语料库,所述双语语料库包括多个双语句对和双语句对所对应的互译质量标签;
语料质量评估模型训练模块,用于将所述双语句对和双语句对所对应的互译质量标签作为训练样本,对预设的语料质量评估网络进行训练,以生成语料质量评估模型,所述语料质量评估模型适于评估给定双语句对的互译质量。
第三方面,本发明还提供一种语料质量评估模型的生成设备,其包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如上所述的方法。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如上所述的方法。
第五方面,本发明还提供一种双语句对的互译质量评估方法,所述方法包括:
获取待评估的双语句对;
将所述双语句对输入训练好的语料质量评估模型中;
根据所述语料质量评估模型的输出来确定所述双语句对的互译质量。
第六方面,本发明还提供一种双语句对的互译质量评估装置,所述装置包括:
双语句对获取模块,用于获取待评估的双语句对;
双语句对输入模块,用于将所述双语句对输入训练好的语料质量评估模型中;
所述语料质量评估模型,根据所述语料质量评估模型的输出来确定所述双语句对的互译质量。
第七方面,本发明还提供一种双语句对的互译质量评估设备,其包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如上所述的双语句对的互译质量评估方法。
第八方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如上所述的双语句对的互译质量评估方法。
本发明实施例通过构建含有互译的双语句对和不互译的双语句对的双语训练语料库,能够实现对语料质量评估网络的期望的训练,使之形成由双语句对到互译质量标签的稳定的映射关系,可用于对双语句对的互译质量评估,并且评估结果准确度高。
附图说明
图1为本发明实施例的语料质量评估模型生成方法的流程示意图。
图2为本发明实施例的双语句对的互译质量评估方法的流程示意图。
图3为本发明实施例的语料质量评估网络的训练过程示意图。
图4为本发明实施例的语料质量评估模型生成装置的结构示意图。
图5为本发明实施例的双语句对的互译质量评估装置的结构示意图。
图6为本发明实施例的设备的硬件结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行详细描述。应理解,所描述的具体实施例仅用于解释本发明,而并不用于限定本发明。文中的诸如第一、第二等用语仅用来对一个实体(或操作)与另一个实体(或操作)进行区分,而不表示这些实体(或操作)之间存在任何关系或顺序;另外,文中的诸如上、下、左、右、前、后等表示方向或方位的用语,仅表示相对的方向或方位,而非绝对的方向或方位。在没有额外限制的情况下,由语句“包括”限定的要素,不排除在包括所述要素的过程、方法、物品或者设备中还存在其他要素。
本发明的目的在于通过构建全新的双语语料库,以该双语语料库作为训练数据,对构建的语料质量评估网络进行训练,生成语料质量评估模型,该模型能够实现对目标双语语料的互译质量的评估。以下对本发明的各个方面进行详细描述。
<双语语料库>
为了实现对双语语料——尤其是短语级别或语句级别的双语语料——的质量评估,本发明实施例构建的所述双语语料库包括双语句对,所述双语句对是指源语言与目标语言不同的能够互译的短语或语句,例如中英互译的短语或语句、中俄互译的短语或语句、英法互译的短语或语句、法日互译的短语或语句等。所述双语语料库中的双语句对的数量可结合实际情况和需求进行设定,例如双语句对的数量可在万、十万、百万或千万的级别,双语句对的数量越多,对语料质量评估网络的训练效果越好。
为了实现对双语语料的质量优劣的评估,本发明实施例构建的所述双语语料库包括“正例”和“反例”,所述的“正例”是指完全互译的双语语料,完全互译的双语语料被认为翻译质量较高,其将被打上高质量标签,作为后续训练生成语料质量评估模型的正样本。所述的“反例”是指不完全互译的双语语料,不完全互译的双语语料被认为翻译质量较低,其将被打上低质量标签,作为后续训练生成语料质量评估模型的负样本。因此,本发明实施例构建的所述双语语料库包括:完全互译的双语句对和不完全互译的双语句对,分别对应高质量标签和低质量标签。以下对两种质量的双语句对分别进行详细描述。
需要说明的是,为了便于叙述,在下文中,将双语句对所包括的两个语句分别称为原文语句和译文语句。本领域技术人员可以理解,原文语句、译文语句仅用于对双语句对中的两个语句进行区分,而不特指某一语言的语句。原文语句可以是双语句对中的任一语句,相应地,双语句对中的另一语句即为译文语句。
<完全互译的双语句对>
在本发明的一种实施方式中,所述的完全互译的双语句对是指具有完备的词对齐关系的双语平行句对,例如,“今天天气很好、It's a nice day today”属于完全互译的双语句对。
<不完全互译的双语句对>
在本发明的一种实施方式中,所述的不完全互译的双语句对是指任何不能称之为完全互译的双语句对的那些双语句对,也即,任何不具有完备词对齐关系的双语句对。例如,在原文语句和/或译文语句中随机删除词,如“今天很好、It's a nice day today”,中文语句中缺少与“today”对齐的词,因而属于不完全互译的双语句对;又如,在原文语句和/或译文语句中随机***新的词,随机***的词缺乏对齐的译词,因而属于不完全互译的双语句对;再如,将原文语句和/或译文语句的词顺序随机打乱,则词对齐关系错误,因而属于不完全互译的双语句对。
对于上各种情况,在实际应用场景中可以根据实际条件和需求(如训练数据的来源、训练数据的数量、模型训练的精度等)进行选择和必要的组合。
作为一种示例,所述的不完全互译的双语句对包括不存在互译关系的两个短语或两个语句,例如,“天气很好、tell me your name”,句对中的两个短语不存在互译关系;又如“我们晚上吃什么、It's a nice day today”,句对中的两个语句不存在互译关系,因而属于不完全互译的双语句对。
此外,在本发明的实施例中,采用顿号“、”对双语句对的两个短语或语句分隔开来,表示该两个短语或语句构成一个双语句对。在不同的实施方式或不同的运行环境中,也可采用其他符号表示这种关系,例如“|”、“||”、“|||”、“-”、“--”和/或“---”等。
<训练数据的来源>
本发明实施例的训练数据包括所述双语语料库中的所有双语句对,根据这些双语句对的互译情况,其来源也不尽相同。
在本发明的一种实施方式中,对于“正例”的互译的双语句对,可以利用本领域已经积累的那些互译的双语平行句对,这部分数据较容易获得,进一步,为了确保翻译质量为高,还可进行人工标注处理,将不属于期望的句对排除出去。
例如期望以完全互译的双语句对作为高质量句对,则可将不完全互译的句对剔除掉,得到所述“正例”的互译的双语句对,作为训练数据中的正样本。
此外,也可以直接以人工翻译的高质量的双语句对作为所述“正例”的互译的双语句对,但是由于人工处理的成本较高,这部分训练数据的数量通常不会很多。
对于“反例”的不完全互译的双语句对,有多种获取方式,可以直接以现成的语句构建这种不完全互译的双语句对,也可以通过在完全互译的双语句对上进行处理而构建这种不完全互译的双语句对。以下示例性地罗列一些所述的不完全互译的双语句对的构建方式:
a)在完全互译的双语句对基础上,通过人工或计算机手段,将原文语句和/或译文语句换成其它语句:例如,“今天天气很好、What is your name?”;“我们今天吃什么、It'sa nice day today”。
b)在完全互译的双语句对基础上,通过人工或计算机手段,在原文和/或译文语句中随机删除单个(或多个)词,比如“今天很好、It's a nice day today”。
c)在完全互译的双语句对基础上,通过人工或计算机手段,将原文和/或译文语句的词顺序随机打乱,比如“今天很好天气、It's a nice today day”。
d)在完全互译的双语句对基础上,通过人工或计算机手段,在原文和/或译文语句中随机***其它词。
e)在完全互译的双语句对基础上,通过人工或计算机手段,将原文和/或译文语句的至少一部分替换成机器翻译句对。这里,一般认为机器翻译的质量较差。
f)任意选取这两种语言的语句,将它们任意配对。
g)其它任何可以降低互译质量的方法。
对于上述的a)至g),可以基于其中任一种来构建所述的不完全互译的双语句对,也可以基于其中任意多种(例如两种、三种或更多)的组合来构建所述的不完全互译的双语句对,均能得到符合要求的所述“反例”的不完全互译的双语句对,作为训练数据中的负样本。
其中,对于上述的a)至f),为了避免人工成本的投入,可以主要以计算机手段实现,对于计算机领域的技术人员而言,实现a)至f)当中的诸如数据的增、删、改、配对等处理本身,是容易实现的过程,对于这部分处理本身的实现过程和原理,这里不再赘述。
需要指出,对于上述的a)至e),在本发明的实施例中,当涉及的操作的词的个数超过语句的词的总个数的10%时,可认为形成了一个“反例”的不完全互译的双语句对。当然,也可以设置为其他的比例阈值,例如20%、30%等,作为形成所述不完全互译的双语句对的标准。
<训练语料质量评估网络>
可以理解,当设置好语料质量评估网络和训练样本后,将训练样本输入语料质量评估网络,网络会输出该样本对应的标签,基于网络输出的标签与训练样本的真实标签,可以计算出网络的损失函数值,根据损失函数值来调整网络参数。基于更新后的参数,再次将训练样本输入网络,根据网络输出的标签与训练样本的真实标签,计算损失函数值并更新网络参数,以此类推,不断更新网络参数,以使损失函数达到最小(实践中当损失函数收敛或小于预定阈值时,即认为达到最小)。使损失函数最小的这一组参数即为网络的最优参数,最优参数确定后,即得到训练完成的模型。
在本发明的一种实施方式中,设置的语料质量评估网络包括依次相连的词嵌入层、句嵌入层、拼接层和分类层:其中,所述词嵌入层用于生成双语句对中的两个语句所包括的词的词向量序列;所述句嵌入层用于根据所述两个语句所包括的词的词向量序列分别生成所述两个语句所对应的句向量;所述拼接层用于将所述两个语句所对应的句向量进行拼接,得到拼接向量;所述分类层用于根据所述拼接向量输出互译质量标签。
在本发明的一个实施例中,词嵌入层的输入为双语句对中的两个语句(或经过分词的两个语句),输出为两个语句所包括的词的词向量序列。词嵌入层例如可以是word2vec、GloVe等词向量模型。在一个实施例中,词嵌入层还包括注意力(Attention)模块,用于捕捉双语句对中原文语句和译文语句的词之间的互译关系信息,从而使训练好的语料质量评估模型能够更加有效的预测双语句对的互译质量。
在本发明的一个实施例中,句嵌入层的输入为词嵌入层所输出的词向量序列,输出为双语句对中的两个语句所对应的句向量。句嵌入层可以采用卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)等网络结构来实现。其中,对于单个双语句对的原文语句和译文语句的处理,可以采用相同的网络结构,例如都采用CNN网络,也可以采用不同的神经网络结构,例如原文语句采用CNN网络处理而译文语句采用RNN网络处理,等等。此外,对于上述过程中的各神经网络本身,还可以进行扩展,例如对CNN网络加入RNN网络等。
在本发明的一个实施例中,拼接层的输入为句嵌入层所输出的两个语句的句向量,输出为将两个语句的句向量进行拼接所得到的拼接向量。
在本发明的一个实施例中,分类层的输入为拼接层所输出的拼接向量,输出为双语句对属于各互译质量标签的概率,并将概率最大的标签作为双语句对的互译质量。
在一个实施例中,分类层包括依次相连的全连接层和柔性最大值(Softmax)层。全连接层的输入为拼接层所输出的拼接向量,全连接层的输出为Softmax层的输入,Softmax层的输出为双语句对属于各互译质量标签的概率,概率最大的标签即为该双语句对的互译质量。
全连接层的数量可以由本领域技术人员自行设置,本发明对此不做限制。在一个实施例中,为了兼顾模型的分类效果和训练效率,将全连接层的数量设置为2。
Softmax层的输出的维度与质量标签的种类数量相同。例如,质量标签包括高质量、低质量两种,那么,Softmax层的输出为一个二维向量,向量中的每一维数据分别表示双语句对属于高质量标签、低质量标签的概率。又例如,质量标签包括高质量、中质量、低质量三种,那么,Softmax层的输出为一个三维向量,向量中的每一维数据分别表示双语句对属于高、中、低质量标签的概率。概率最大的标签即为双语句对的互译质量。
对于训练样本,训练样本为标记了分类标签的数据样本,标签即为该数据样本所属的真实类别。在本发明中训练样本为标记了互译质量标签的双语句对,具体地,完全互译的双语句对为正样本,其标签为1(表示高质量);不完全互译的双语句对为负样本,其标签为0(表示低质量)。
基于上述构建好的包括完全互译的双语句对和不完全互译的双语句对的双语语料库以及各句对所对应的互译质量标签,对所述的语料质量评估网络进行训练,可以生成语料质量评估模型,用于评估给定双语句对的互译质量。
基于上述内容,本发明实施例可提供一种语料质量评估模型的生成方法,参考图1,所述方法包括:
S101,构建双语语料库,所述双语语料库包括多个双语句对和双语句对所对应的互译质量标签;
S102,将所述双语句对和双语句对所对应的互译质量标签作为训练样本,对预设的语料质量评估网络进行训练,以生成语料质量评估模型,所述语料质量评估模型适于评估给定双语句对的互译质量。
利用本发明提供的上述方案,能够基于所构建的双语语料库,对预设的语料质量评估网络进行训练,从而生成语料质量评估模型,该模型可用于对给定的双语句对的互译质量进行评估,评估结果稳定可靠。
参考图2,本发明还提供一种双语句对的互译质量评估方法,利用图1所示的方法训练好的语料质量评估模型,对待评估的双语语料进行质量评估,评估方法包括:
S201,获取待评估的双语句对;;
S202,将所述双语句对输入训练好的语料质量评估模型中;
S203,根据所述语料质量评估模型的输出来确定所述双语句对的互译质量。
利用本发明提供的双语句对的互译质量评估方法,评估结果稳定可靠。
本发明实施例适用的应用场景包括绝大多数需要或可以对双语语料进行质量评估的场合,例如,在用户主导的双语数据资源的挖掘工程中,用户可以利用本发明的实施例对挖掘的双语数据进行质量评估,从而定性或定量的掌握挖掘效果,可基于此优化挖掘方案。又如,在机器翻译中的双语语料的选用过程中,可利用本发对候选的双语语料进行评估,将低质量的语料剔除出去,达到优化双语语料库的效果。
以下通过具体的实例,描述本发明实施例的可选的具体处理过程。需要说明的是,本发明的方案并不依赖于具体的算法,在实际应用中,可选用任何已知或未知的硬件、软件、算法、程序或其任意组合等来实现本发明的方案,只要是采用了本发明方案的实质思想,均落入本发明的保护范围。
图3示出了一种本发明实施例的语料质量评估网络的训练过程示意图,该语料质量评估网络包括依次相连的词嵌入层、CNN层、拼接层、两个全连接层和Softmax层。
其中的SRC和TGT分别代表原文和译文,比如,SRC:今天天气不错;TGT:It's anice day today。
①首先对原文和译文做分词处理,获得词序列,比如,SRC:“今天”“天气”“不错”。
②将原文和译文的词输入词嵌入层的词向量word-embedding模块,使得语句中的词都转化为一个向量,比如,SRC中的“今天”:[0.13,0.21,0.0.101,…,0.28],向量的维度可取200或300。每个词用其对应的向量表示,由此原文语句和译文语句分别转换成了对应的向量序列。
③原文和译文的向量序列输入到句嵌入层的CNN网络,CNN网络中包含了卷积层(convolutional layer)和池化层(pooling layer),可以抽取出语句的信息。CNN网络模块可输出一个代表语句语义的向量,比如[0.280,0.116,…,0.101]。
这里,鉴于CNN是神经网络中经典的网络结构,在这里可以比较精确的对语句进行向量化表示,这个向量代表着语句的语义。
④获得原文、译文的语句向量后,输入拼接层将二者拼接在一起(concatenation),获得一个更高维度的拼接向量,该向量代表了这个句对。
⑤拼接向量包含了原文和译文的语义,这个向量进入两个全连接层(2-layerfully connection)以及Softmax层,最后输出预测结果,所述的预测结果即为代表这个句对的质量分数或质量标签。
其中,两个全连接层主要是对原文和译文的语义匹配度进行建模,Softmax是用于输出最终的标签。
关于预测结果,以0和1的概率表示,如果1的概率大于0的概率,则判断该句对的标签为1(高质量标签),如果1的概率小于等于0的概率,则判断该句对的标签为0(低质量标签)。
进一步,图3实施例可使用TensorFlow工具实现。在上述过程中,还可在原文和译文的词向量序列之间构建基于注意力机制的Attention模块,用于捕捉双语句对中原文和译文的词之间的互译关系信息,能够更加有效的预测句对的质量。
基于以上实例,可以理解,首先本发明实施例的实现过程不需要双语词表,因此不存在词表依赖问题;并且,本发明实施例对原文和译文进行了建模(word embedding模块、CNN网络模块),可以较好的表示出原文和译文的语义,这样,如果原文本身和译文本身的质量较差(或较好),也将在涉及的模块中有所体现,并在最终输出的质量标签中有所体现。因此,最终的预测结果是融合了原文本身、译文本身、原文与译文的互译度的评价结果。
与本发明实施例的语料质量评估模型的生成方法相对应地,本发明还提供一种语料质量评估模型的生成装置、设备和计算机存储介质。
其中,参考图4,所述语料质量评估模型的生成装置包括:
语料库构建模块100,用于构建双语语料库,所述双语语料库包括多个双语句对和双语句对所对应的互译质量标签;
语料质量评估模型训练模块200,用于将所述双语句对和双语句对所对应的互译质量标签作为训练样本,对预设的语料质量评估网络进行训练,以生成语料质量评估模型,所述语料质量评估模型适于评估给定双语句对的互译质量。
其中,所述语料质量评估模型的生成设备包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行本发明实施例所述的语料质量评估模型的生成方法中的各步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现本发明实施例所述的语料质量评估模型的生成方法中的各步骤。
利用本发明能够实现对语料质量评估网络的期望的训练,生成的模型用于对双语语料的质量评估。
与本发明实施例的双语句对的互译质量评估方法相对应地,本发明还提供一种双语句对的互译质量评估装置、设备和计算机存储介质。其中,
参考图5,所述的双语句对的互译质量评估装置包括:
双语句对获取模块10,用于获取待评估的双语句对;
双语句对输入模块20,用于将所述双语句对输入训练好的语料质量评估模型中;
所述语料质量评估模型30,用于根据所述语料质量评估模型的输出来确定所述双语句对的互译质量。
所述的双语句对的互译质量评估设备包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行本发明实施例所述的双语句对的互译质量评估方法中的各步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现本发明实施例所述的双语句对的互译质量评估方法中的各步骤。
利用本发明提供的双语句对的互译质量评估装置、设备和计算机存储介质,能够实现对双语语料的质量评估,且评估结果准确度高。
应当指出,在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机程序指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
图6示出了能够实现根据本发明实施例的方法和设备的示例性硬件架构的结构图,例如本发明实施例的基于双语语料的训练设备以及双语语料质量评估设备。其中,计算设备1000包括输入设备1001、输入接口1002、处理器1003、存储器1004、输出接口1005、以及输出设备1006。
其中,输入接口1002、处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接,输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接,进而与计算设备1000的其他组件连接。
具体地,输入设备1001接收来自外部的输入信息,并通过输入接口1002将输入信息传送到处理器1003;处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1004中,然后通过输出接口1005将输出信息传送到输出设备1006;输出设备1006将输出信息输出到计算设备1000的外部供用户使用。
计算设备1000可以执行本发明上述的方法中的各步骤。
处理器1003可以是一个或多个中央处理器(英文:Central Processing Unit,CPU)。在处理器601或处理器701是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器1004可以是但不限于随机存储存储器(RAM)、只读存储器(ROM),可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、硬盘等中的一种或多种。存储器1004用于存储程序代码。
可以理解,本发明实施例提供的任一模块或全部模块的功能可以用图6所示的中央处理器1003实现。
本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置和***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处可参见方法实施例部分的说明。

Claims (16)

1.一种语料质量评估模型的生成方法,所述方法包括:
构建双语语料库,所述双语语料库包括多个双语句对和双语句对所对应的互译质量标签;
将所述双语句对和双语句对所对应的互译质量标签作为训练样本,对预设的语料质量评估网络进行训练,以生成语料质量评估模型,所述语料质量评估模型适于评估给定双语句对的互译质量;
其中,所述预设的语料质量评估网络包括依次相连的词嵌入层、句嵌入层、拼接层和分类层;所述词嵌入层还包括注意力模块,所述注意力模块用于捕捉所述双语句对中的两个语句的词之间的互译关系信息;所述句嵌入层为卷积神经网络和/或循环神经网络;所述分类层包括依次相连的全连接层和柔性最大值层。
2.根据权利要求1所述的方法,其中,所述对预设的语料质量评估网络进行训练,以生成语料质量评估模型的步骤包括:
对预设的语料质量评估网络进行训练,以确定所述语料质量评估网络的最优参数;
将所述最优参数下的语料质量评估网络作为语料质量评估模型。
3.根据权利要求1所述的方法,其中,所述互译质量标签包括高质量标签和低质量标签,所述构建双语语料库包括:
获取多个双语句对,所述多个双语句对包括完全互译的双语句对和不完全互译的双语句对;以及
将完全互译的双语句对标记为高质量标签,将不完全互译的双语句对标记为低质量标签。
4.根据权利要求3所述的方法,其中,所述不完全互译的双语句对基于所述完全互译的双语句对而获得,且在所述不完全互译的双语句对中,不完全互译的词的个数占相应语句的总词数的比例大于等于预设阈值。
5.根据权利要求3或4所述的方法,其中,所述双语句对包括原文语句和译文语句,所述不完全互译的双语句对通过以下各种方式中的至少一种来获得:
将完全互译的双语句对中的原文语句和/或译文语句中的至少一个词删除;
在完全互译的双语句对中的原文语句和/或译文语句中增加至少一个词;
将完全互译的双语句对中的原文语句和/或译文语句的词序改变;
将完全互译的双语句对中的原文语句和/或译文语句的至少一部分替换为机器翻译结果;
将完全互译的双语句对中的原文语句和/或译文语句替换为除本身之外的其他语句。
6.根据权利要求1所述的方法,所述词嵌入层用于生成双语句对中的两个语句所包括的词的词向量序列;
所述句嵌入层用于根据所述两个语句所包括的词的词向量序列分别生成所述两个语句所对应的句向量;
所述拼接层用于将所述两个语句所对应的句向量进行拼接,得到拼接向量;
所述分类层用于根据所述拼接向量输出互译质量标签。
7.根据权利要求1或6所述的方法,其中,所述分类层分别输出双语句对属于各互译质量标签的概率,并将概率最大的互译质量标签作为双语句对的互译质量。
8.一种语料质量评估模型的生成装置,所述装置包括:
语料库构建模块,用于构建双语语料库,所述双语语料库包括多个双语句对和双语句对所对应的互译质量标签;
语料质量评估模型训练模块,用于将所述双语句对和双语句对所对应的互译质量标签作为训练样本,对预设的语料质量评估网络进行训练,以生成语料质量评估模型,所述语料质量评估模型适于评估给定双语句对的互译质量;
其中,所述预设的语料质量评估网络包括依次相连的词嵌入层、句嵌入层、拼接层和分类层;所述词嵌入层还包括注意力模块,所述注意力模块用于捕捉所述双语句对中的两个语句的词之间的互译关系信息;所述句嵌入层为卷积神经网络和/或循环神经网络;所述分类层包括依次相连的全连接层和柔性最大值层。
9.一种语料质量评估模型的生成设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如权利要求1至7中任一项所述的方法。
11.一种双语句对的互译质量评估方法,所述方法包括:
获取待评估的双语句对;
将所述双语句对输入训练好的语料质量评估模型中;
根据所述语料质量评估模型的输出来确定所述双语句对的互译质量;
其中,所述语料质量评估模型包括依次相连的词嵌入层、句嵌入层、拼接层和分类层;所述词嵌入层还包括注意力模块,所述注意力模块用于捕捉所述双语句对中的两个语句的词之间的互译关系信息;所述句嵌入层为卷积神经网络和/或循环神经网络;所述分类层包括依次相连的全连接层和柔性最大值层。
12.根据权利要求11所述的方法,所述词嵌入层用于生成双语句对中的两个语句所包括的词的词向量序列;
所述句嵌入层用于根据所述两个语句所包括的词的词向量序列分别生成所述两个语句所对应的句向量;
所述拼接层用于将所述两个语句所对应的句向量进行拼接,得到拼接向量;
所述分类层用于根据所述拼接向量输出互译质量标签。
13.根据权利要求11或12所述的方法,其中,所述分类层分别输出双语句对属于各互译质量标签的概率,并将概率最大的互译质量标签作为双语句对的互译质量。
14.一种双语句对的互译质量评估装置,所述装置包括:
双语句对获取模块,用于获取待评估的双语句对;
双语句对输入模块,用于将所述双语句对输入训练好的语料质量评估模型中;
所述语料质量评估模型,用于根据所述语料质量评估模型的输出来确定所述双语句对的互译质量;
其中,所述语料质量评估模型包括依次相连的词嵌入层、句嵌入层、拼接层和分类层;所述词嵌入层还包括注意力模块,所述注意力模块用于捕捉所述双语句对中的两个语句的词之间的互译关系信息;所述句嵌入层为卷积神经网络和/或循环神经网络;所述分类层包括依次相连的全连接层和柔性最大值层。
15.一种双语句对的互译质量评估设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求11-13中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如权利要求11-13中任一项所述的方法。
CN201810995294.4A 2018-08-29 2018-08-29 语料质量评估模型生成方法和双语句对互译质量评估方法 Active CN110874536B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810995294.4A CN110874536B (zh) 2018-08-29 2018-08-29 语料质量评估模型生成方法和双语句对互译质量评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810995294.4A CN110874536B (zh) 2018-08-29 2018-08-29 语料质量评估模型生成方法和双语句对互译质量评估方法

Publications (2)

Publication Number Publication Date
CN110874536A CN110874536A (zh) 2020-03-10
CN110874536B true CN110874536B (zh) 2023-06-27

Family

ID=69714634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810995294.4A Active CN110874536B (zh) 2018-08-29 2018-08-29 语料质量评估模型生成方法和双语句对互译质量评估方法

Country Status (1)

Country Link
CN (1) CN110874536B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642337B (zh) * 2020-05-11 2023-12-19 阿里巴巴集团控股有限公司 数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质
CN112347795B (zh) * 2020-10-04 2024-07-02 北京交通大学 机器翻译质量评估方法、装置、设备及介质
CN112800745A (zh) * 2021-02-01 2021-05-14 北京明略昭辉科技有限公司 用于文本生成质量评估的方法、装置和设备
CN113761944B (zh) * 2021-05-20 2024-03-15 腾讯科技(深圳)有限公司 翻译模型的训练语料处理方法、装置、设备和存储介质
CN113641724B (zh) * 2021-07-22 2024-01-19 北京百度网讯科技有限公司 知识标签挖掘方法、装置、电子设备及存储介质
CN114386437B (zh) * 2022-01-13 2022-09-27 延边大学 基于跨语言预训练模型的中朝翻译质量估计方法和***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1203316A1 (en) * 1999-06-30 2002-05-08 Synerges OY System for internationalization of search input information
CN101777044A (zh) * 2010-01-29 2010-07-14 中国科学院声学研究所 利用语句结构信息的机器翻译自动评测***及实现方法
JP2011118496A (ja) * 2009-12-01 2011-06-16 National Institute Of Information & Communication Technology 統計的機械翻訳のための言語独立な単語セグメント化
CN102945232A (zh) * 2012-11-16 2013-02-27 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN105512114A (zh) * 2015-12-14 2016-04-20 清华大学 平行句对的筛选方法和***
CN106066851A (zh) * 2016-06-06 2016-11-02 清华大学 一种考虑评价指标的神经网络训练方法及装置
CN106598959A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030197A (zh) * 2006-02-28 2007-09-05 株式会社东芝 双语词对齐方法和装置、训练双语词对齐模型的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1203316A1 (en) * 1999-06-30 2002-05-08 Synerges OY System for internationalization of search input information
JP2011118496A (ja) * 2009-12-01 2011-06-16 National Institute Of Information & Communication Technology 統計的機械翻訳のための言語独立な単語セグメント化
CN101777044A (zh) * 2010-01-29 2010-07-14 中国科学院声学研究所 利用语句结构信息的机器翻译自动评测***及实现方法
CN102945232A (zh) * 2012-11-16 2013-02-27 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN105512114A (zh) * 2015-12-14 2016-04-20 清华大学 平行句对的筛选方法和***
CN106066851A (zh) * 2016-06-06 2016-11-02 清华大学 一种考虑评价指标的神经网络训练方法及装置
CN106598959A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
古丽尼尕尔・买合木提 ; 帕力旦・吐尔逊 ; 艾斯卡尔・艾木都拉 ; .基于词形分析的汉-维机器翻译性能分析.电脑知识与技术.2018,(第11期),全文. *

Also Published As

Publication number Publication date
CN110874536A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN110874536B (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109493977B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
US10504010B2 (en) Systems and methods for fast novel visual concept learning from sentence descriptions of images
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
US10592607B2 (en) Iterative alternating neural attention for machine reading
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN110019732B (zh) 一种智能问答方法以及相关装置
CN106557563B (zh) 基于人工智能的查询语句推荐方法及装置
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN110705206B (zh) 一种文本信息的处理方法及相关装置
US20180025121A1 (en) Systems and methods for finer-grained medical entity extraction
CN107861954B (zh) 基于人工智能的信息输出方法和装置
CN108121699B (zh) 用于输出信息的方法和装置
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
US10198497B2 (en) Search term clustering
US11797281B2 (en) Multi-language source code search engine
CN115798661A (zh) 临床医学领域的知识挖掘方法和装置
CN110738056A (zh) 用于生成信息的方法和装置
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN108701126B (zh) 主题推定装置、主题推定方法以及存储介质
CN115269828A (zh) 用于生成评论回复的方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant