CN110472251A - 翻译模型训练的方法、语句翻译的方法、设备及存储介质 - Google Patents

翻译模型训练的方法、语句翻译的方法、设备及存储介质 Download PDF

Info

Publication number
CN110472251A
CN110472251A CN201810445783.2A CN201810445783A CN110472251A CN 110472251 A CN110472251 A CN 110472251A CN 201810445783 A CN201810445783 A CN 201810445783A CN 110472251 A CN110472251 A CN 110472251A
Authority
CN
China
Prior art keywords
sample
training
disturbance
translation
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810445783.2A
Other languages
English (en)
Other versions
CN110472251B (zh
Inventor
程勇
涂兆鹏
孟凡东
翟俊杰
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810445783.2A priority Critical patent/CN110472251B/zh
Priority to PCT/CN2019/080411 priority patent/WO2019214365A1/zh
Priority to EP19800044.0A priority patent/EP3792789A4/en
Priority to JP2020545261A priority patent/JP7179273B2/ja
Publication of CN110472251A publication Critical patent/CN110472251A/zh
Priority to US16/987,565 priority patent/US11900069B2/en
Application granted granted Critical
Publication of CN110472251B publication Critical patent/CN110472251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • G06F9/30196Instruction operation extension or modification using decoder, e.g. decoder per instruction set, adaptable or programmable decoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种翻译模型训练的方法,包括:获取训练样本集合,训练样本集合中包括多个训练样本;确定训练样本集合中每个训练样本各自对应的扰动样本集合,扰动样本集合包括至少一个扰动样本,扰动样本与对应训练样本的语义相似度高于第一预设值;使用多个训练样本和每个训练样本各自对应的扰动样本集合训练初始翻译模型,以得到目标翻译模型。本申请实施例提供的方案在模型训练是引入了扰动样本,所以可以提高机器翻译的鲁棒性,以及翻译质量。

Description

翻译模型训练的方法、语句翻译的方法、设备及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种翻译模型训练的方法、语句翻译的方法、计算机设备、终端设备及计算机可读存储介质。
背景技术
随着人工智能的发展,机器翻译已经被广泛使用,如同声传译和聊天内容翻译等,都是基于机器翻译将一种输入语言转换为另一种语言输出。
神经机器翻译是一种完全基于神经网络的机器翻译模型,其在诸多语言对上已经达到了很好的翻译水平,已被广泛的应用在各种机器翻译产品中。然而,由于神经机器翻译模型基于一个完整的神经网络,其建模的全局性导致目标端的每个输出依赖于源端输入的每个词,使得对于输入中的微小扰动过度敏感。例如,在中文到英文得翻译中,用户输入“他们不怕困难做出围棋AI”,机器翻译模型给出的英文翻译为“They are not afraid ofdifficulties to make Go AI”,然而,当用户输入一个相似的语句“他们不畏困难做出围棋AI”,机器翻译的输出发生了剧烈改变,结果为“They are not afraid to make Go AI”,尽管用户只是用近义词替换了其中一个词,但其翻译结果却发生了剧烈变化。
由此可见,目前的神经机器翻译的稳定性,也就是鲁棒性比较差。
发明内容
本申请实施例提供一种翻译模型训练的方法,可以提高机器翻译的鲁棒性,以及翻译质量。本申请实施例还提供了相应的语句翻译的方法、计算机设备、终端设备以及计算机可读存储介质。
本申请第一方面提供一种翻译模型训练的方法,包括:
获取训练样本集合,所述训练样本集合中包括多个训练样本;
确定所述训练样本集合中每个训练样本各自对应的扰动样本集合,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
使用所述多个训练样本和所述每个训练样本各自对应的扰动样本集合训练初始翻译模型,以得到目标翻译模型。
本申请第二方面提供一种语句翻译的方法,包括:
接收以第一语言表达的第一待翻译语句;
使用目标翻译模型对所述第一待翻译语句进行翻译,以得到用第二语言表达的翻译结果语句,其中所述目标翻译模型为使用多个训练样本和所述多个训练样本中每个训练样本各自对应的扰动样本集合训练得到的,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
输出所述用第二语言表达的翻译结果语句。
本申请第三方面提供一种翻译模型训练的装置,包括:
获取单元,用于获取训练样本集合,所述训练样本集合中包括多个训练样本;
确定单元,用于确定所述获取单元获取的所述训练样本集合中每个训练样本各自对应的扰动样本集合,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
模型训练单元,用于使用所述获取单元获得的所述多个训练样本和所述确定单元确定的所述每个训练样本各自对应的扰动样本集合训练初始翻译模型,以得到目标翻译模型。
本申请第四方面提供一种语句翻译的装置,包括:
接收单元,用于接收以第一语言表达的第一待翻译语句;
翻译单元,用于使用目标翻译模型对所述接收单元接收的所述第一待翻译语句进行翻译,以得到用第二语言表达的翻译结果语句,其中所述目标翻译模型为使用多个训练样本和所述多个训练样本中每个训练样本各自对应的扰动样本集合训练得到的,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
输出单元,用于输出所述翻译单元翻译出的用第二语言表达的翻译结果语句。
本申请第五方面提供一种计算机设备,所述计算机设备包括:输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如第一方面所述的方法。
本申请第六方面提供一种终端设备,所述终端设备包括:输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如第二方面所述的方法。
本申请第七方面提供一种计算机可读存储介质,包括指令,所述指令在计算机设备上运行时,使得所述计算机设备执行如上述第一方面所述的方法或第二方面所述的方法。
本申请的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法。
本申请实施例在翻译模型训练时就采用了扰动样本,扰动样本与训练样本的语义相似度高于第一预设值,也就是扰动样本与训练样本的语义很相近,这样训练出来的目标翻译模型在接收到带有噪声的语句时,也可以正确进行翻译。从而提高了机器翻译的鲁棒性,以及翻译质量。
附图说明
图1是本申请实施例中翻译模型训练的***的一实施例示意图;
图2是本申请实施例中翻译模型训练的方法的一实施例示意图;
图3是本申请实施例中初始翻译模型的一架构示意图;
图4是本申请实施例中语句翻译的方法的一实施例示意图;
图5是本申请实施例中语句翻译的一应用场景示意图;
图6是本申请实施例中语句翻译的另一应用场景示意图;
图7是本申请实施例中语句翻译的另一应用场景示意图;
图8是本申请实施例中语句翻译的另一应用场景示意图;
图9是本申请实施例中翻译模型训练的装置的一实施例示意;
图10是本申请实施例中语句翻译的装置的一实施例示意;
图11是本申请实施例中计算机设备的一实施例示意图;
图12是本申请实施例中终端设备的一实施例示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例提供一种翻译模型训练的方法,可以提高机器翻译的鲁棒性,以及翻译质量。本申请实施例还提供了相应的语句翻译的方法、计算机设备、终端设备以及计算机可读存储介质。以下分别进行详细说明。
随着人工智能的发展,机器翻译的准确度越来越高,很大程度上方便了用户。如:同声传译、文字翻译等场景中都用到了机器翻译。机器翻译通常是基于模型的翻译,也就是通过预先训练翻译模型,训练好的翻译模型可以接收一种语言的语句,然后将该语句转换成另一种语言输出。目前神经机器翻译是完全基于神经网络的机器翻译模型,翻译的准确度较高,但该模型的抗噪声能力不好,一旦输入的语句中有微小的扰动,输出的语句就会不准确。因此,本申请实施例提供一种翻译模型训练的方法,在翻译模型训练时在训练样本中就引入了各种扰动样本,从而保证了训练出的翻译模型在接收到带有扰动的语句时,也可以正确进行翻译。
需要说明的是,本申请实施例中,扰动包括噪声。
下面结合附图介绍本申请实施例中翻译模型训练的过程。
图1为本申请实施例中翻译模型训练的***的一实施例示意图。
如图1所示,本申请实施例中的翻译模型训练的***的一实施例包括计算机设备10和数据库20,数据库20中存储有训练样本。
计算机设备10从数据库20获取训练样本集合,然后使用该训练样本集合进行翻译模型训练,得到目标翻译模型。
该模型训练的过程参阅图2翻译模型训练的方法的一实施例进行理解。
如图2所示,本申请实施例提供的翻译模型训练的方法的一实施例包括:
101、获取训练样本集合,所述训练样本集合中包括多个训练样本。
本申请实施例中,训练样本集合中的训练样本指的是不带有扰动的样本。
102、确定所述训练样本集合中每个训练样本各自对应的扰动样本集合,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值。
本申请实施例中,扰动样本是指包含了扰动信息或者噪声的样本,但语义与训练样本的相似度还是基本一致的,扰动信息可以是意思相同但文字不同的词,也可以是其他情形能使语句的语义不发生较大变化的词。
本申请实施例中的第一预设值可以为一具体值,如:90%或95%等,本处只是举例说明,并不限定第一预设值的取值,该第一预设值可以根据需求设定。
关于训练样本与扰动样本的关系可以参阅如下例子进行理解:
训练样本:“他们不怕困难做出围棋AI”。
扰动样本:“他们不畏困难做出围棋AI”。
由上述例子可见,训练样本和扰动样本的语义很接近,只是用不同的词,如“不畏”对原词“不怕”做了替换。
103、使用所述多个训练样本和所述每个训练样本各自对应的扰动样本集合训练初始翻译模型,以得到目标翻译模型。
在模型训练时,使用训练样本和对应的扰动样本一起训练。
本申请实施例在翻译模型训练时就采用了扰动样本,扰动样本与训练样本的语义相似度高于第一预设值,也就是扰动样本与训练样本的语义很相近,这样训练出来的目标翻译模型在接收到带有噪声的语句时,也可以正确进行翻译。从而提高了机器翻译的鲁棒性,以及翻译质量。
可选地,本申请实施例提供的翻译模型训练的方法的另一实施例中,
所述每个训练样本为一个训练样本对,所述训练样本对包括训练输入样本和训练输出样本;
对应地,所述确定每个训练样本各自对应的扰动样本集合,可以包括:
确定每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本,所述扰动输入样本集合包括至少一个扰动输入样本,所述扰动输出样本与所述训练输出样本相同;
对应地,使用所述多个训练样本和所述每个训练样本各自对应的扰动样本集合训练初始翻译模型,以得到目标翻译模型,可以包括:
使用多个训练样本对和所述每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本训练初始翻译模型,以得到目标翻译模型。
本申请实施例中,训练输入样本为第一语言,训练输出样本为第二种语言。第一语言和第二语言不同。本申请实施例中第一语言用中文举例,第二语言用英文举例。但不应将中文和英文理解为是对本申请实施例中翻译模型的限定。本申请实施例中的翻译模型可以适用于任意两种不同语言之间的互译。只要训练时采用了相应两种语言的训练样本,就可以实现这两种语言之间的翻译。
本申请实施例中,每个训练输入样本可以有多个扰动输入样本,但每个扰动输入样本对应的扰动输出样本都与训练输出样本相同。
以上训练输入样本、训练输出样本、扰动输入样本与扰动输出样本之间的对应关系可以参阅表1进行理解。
表1
由以上表1可见,训练输入样本为x时,训练输出样本为y,x对应的扰动输入样本有多个,分别为x′1、x′2和x′3等,每个扰动输入样本对应的扰动输出样本都为y。这样,就可以确保训练出来的目标翻译模型,在无论输入为x还是为x′1、x′2和x′3时,输出的翻译结果都为y。从而进一步保证了目标翻译模型翻译的鲁棒性和翻译质量。
当然,表1也只是举例说明,训练输入样本对应的扰动输入样本可以比表1中列举的少或者比表1中列举的多。
以上介绍了扰动输入样本,下面介绍扰动输入样本的产生。
一种扰动输入样本的产生方式可以是:
所述确定所述训练样本集合中每个训练输入样本各自对应的扰动输入样本集合,可以包括:
确定所述每个训练输入样本中的第一词语,所述第一词语为待被替换的词语;
用至少一个第二词语分别替换所述第一词语,以得到所述扰动输入样本集合,所述第二词语与所述第一词语的语义相似度高于第二预设值。
本申请实施例中,从词汇级别来产生带扰动的语句,给定一个输入的语句,然后采样其中的要修改的第一词语,确定该第一词语的位置,然后将这些位置的第一词语用词语表中第二词语替换。
词语表中会包含很多词语,关于第二词语的选择可以参考如下公式进行理解。
其中,E[xi]是第一词语xi的词向量,cos(E[xi],E[x])度量了第一词语xi与第二词语x的相似度。由于词向量能够捕捉词语的语义信息,因此,通过此替换方式,能够较好的将当前语句中的第一词xi替换成与其有相近语义信息的第二词语x。
另一种扰动输入样本的产生方式可以是:
所述确定所述训练样本集合中每个训练输入样本各自对应的扰动输入样本集合,可以包括:
确定所述每个训练输入样本中每个词语的词向量;
每次在所述每个词语的词向量上叠加一个不同的高斯噪声向量,以得到所述扰动样本集合。
本申请实施例中,从特征级别产生带扰动的语句。给定一个语句,可以得到该语句中每个词语的向量,然后给每个词语的词向量都加上高斯噪声来模拟可能的扰动种类,可以参阅如下公式进行理解:
E[x′i]=E[xi]+ε,ε~N(0,δ2I)
以上公式表示,E[xi]标识词语xi的词向量,E[x′i]是加入高斯噪声后词语的词向量,向量ε是从方差为δ2的高斯噪声中采样出来的,δ是一个超参数。
本技术方案中是一个通用方案,其可以自由的定义任何加入扰动输入的策略。
以上介绍了扰动输入样本的产生过程,下面介绍本申请实施例中翻译模型的架构。
如图3所示,本申请实施例提供的初始翻译模型包括编码器、分类器和解码器。
编码器用于接收训练输入样本和对应的扰动输入样本,并输出第一中间表示结果和第二中间表示结果,第一中间表示结果为训练输入样本的中间表示结果,第二中间表示结果为对应的扰动输入样本的中间表示结果。
分类器用于区分第一中间表示结果和第二中间表示结果。
解码器用于根据第一中间表示结果输出训练输出样本,根据第二中间表示结果输出训练输出样本。
所述初始翻译模型的模型目标函数包括与所述分类器和所述编码器相关的分类目标函数、与所述编码器和所述解码器相关的训练目标函数和扰动目标函数;
其中,所述分类目标函数中包括所述训练输入样本、所述对应的扰动输入样本、所述编码器的参数和所述分类器的参数;
所述训练目标函数包括所述训练输入样本、所述训练输出样本、所述编码器的参数和所述解码器的参数;
所述扰动目标函数包括所述扰动输入样本、所述训练输出样本、所述编码器的参数和所述解码器的参数。
本申请实施例中,训练输入样本可以用x表示,对应的扰动输入样本可以用x′表示,训练输出样本和扰动输出样本都用y表示,第一中间表示结果可以用Hx表示,第二中间表示结果可以用Hx′表示,分类目标函数可以用Linv(x,x′)表示,训练目标函数可以用Ltrue(x,y)表示,扰动目标函数可以用Lnoisy(x′,y)表示。
本申请实施例中的初始翻译模型可以为神经机器翻译模型。
对初始翻译模型的训练目标是使得初始翻译模型能对于x和x′的翻译行为保持基本一致。编码器负责将第一语言的语句x转化为Hx,而解码器以Hx为输入输出目标语言语句y。本申请实施例的训练目标是训练一个扰动不变的编码器和解码器。
因为x′是x的一个微小的改变,所以会有相似的语义信息。给定一个输入对(x,x′),在翻译模型训练时的训练目标是:(1)编码表示Hx应该与Hx′尽可能相近;(2)给定Hx′,解码器应该输出相同的y。因此,本申请实施例中引入了两个训练目标去增强编码器与解码器的鲁棒性:
引入Linv(x,x′)鼓励编码器对于x和x′输出相似的表示,从而实现扰动不变的编码器,通过对抗学习来实现此目标。
引入Lnoisy(x′,y)引导解码器能够对于含有扰动的输入x′产生目标语言语句y。
两个新引入的训练目标能够实现神经机器翻译模型的鲁棒性,使得其可以免于遭受由于输入的微小扰动而引起的输出空间的剧烈变化。同时,会将在原始数据x和y上的训练目标Ltrue(x,y)引入来保证在提升神经机器翻译模型鲁棒性的同时增强翻译的质量。
因此,初始翻译模型的模型目标函数为:
其中θenc是编码器的参数,θdec是解码器的参数,θdis是分类器的参数。α和β用来控制原始的翻译任务和机器翻译模型稳定性之间的重要度。
扰动不变的编码器的目标是当编码器输入一个正确语句x和其对应的扰动语句x′后,编码器对两个语句产生的表示是无法区分,其能直接有利于解码器产生鲁棒的输出。在本申请实施例中可以将编码器作为产生器G,其定义了产生隐表示Hx序列的过程。同时引入了分类器D去区分原始输入的表示Hx和扰动输入Hx′。产生器G的作用是对于x和x′产生相近的表示,使得分类器D无法区分他们,然而分类器D的作用是尽力区分它们。
形式上,对抗性学习目标定义为:
Linv(x,x′;θencdis)=Ex~S[-log D(G(x))]
+Ex′~N(x)[-log(1-D(G(x′)))]
给定一个输入,分类器会输出一个分类值,其目标是最大化正确语句x的分类值,同时最小化扰动语句x′的分类值。
采用随机梯度下降来优化模型目标函数J(θ)。在前向传播中,除了包含x和y的一批数据,还包含x′和y的一批数据。通过这两批数据能够计算出J(θ)的数值,然后,计算出J(θ)对应于模型参数的梯度,这些梯度会用来去更新模型参数。因为,Linv的目标是最大化正确语句x的分类值,同时最小化扰动语句x′的分类值,所以Linv对于参数集合θenc的梯度乘以-1,其他梯度正常传播。由此,可以计算出初始训练模型中θenc、θdec和θdis的取值,从而训练出具有抗噪能力的目标翻译模型。
也就是说,本申请实施例中,所述使用多个训练样本对和所述每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本训练初始翻译模型,以得到目标翻译模型,包括:
将每个训练输入样本、对应的扰动输入样本以及对应的训练输出样本输入所述模型目标函数;
按照梯度下降的方式优化所述模型目标函数,以确定出所述编码器的参数的取值、所述解码器的参数的取值和所述分类器的参数的取值,其中,对于分类目标函数中编码器的参数的梯度乘以-1。
以上介绍了目标翻译模型的训练过程,下面介绍使用该目标翻译模型进行语句翻译的过程。
如图4所示,本申请实施例提供的语句翻译的方法的一实施例包括:
201、接收以第一语言表达的第一待翻译语句。
本申请实施例中,第一语言可以是目标翻译模型所支持的任意一种类型的语言。
202、使用目标翻译模型对所述第一待翻译语句进行翻译,以得到用第二语言表达的翻译结果语句,其中所述目标翻译模型为使用多个训练样本和所述多个训练样本中每个训练样本各自对应的扰动样本集合训练得到的,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值。
关于目标翻译模型可以参阅前述模型训练过程的实施例进行理解,本处不做过多赘述。
203、输出所述用第二语言表达的翻译结果语句。
第二语言是与第一语言不同的语言,例如:第一语言为中文,第二语言为英文。
本申请实施例中,因为目标翻译模型具备抗噪能力,所以接收到带有噪声的语句时,也可以正确进行翻译。从而提高了机器翻译的鲁棒性,以及翻译质量。
可选地,本申请实施例提供的语句翻译的方法的另一实施例中,还可以包括:
接收以所述第一语言表达的第二待翻译语句,所述第二待翻译语句为所述第一待翻译语句的扰动语句,所述第二待翻译语句与所述第一待翻译语句的相似度高于第一预设值;
使用目标翻译模型对所述第二待翻译语句进行翻译,以得到与所述第一待翻译语句对应的所述翻译结果语句;
输出所述用所述翻译结果语句。
本申请实施例中,第一待翻译语句不限于是上述示例中的训练输入样本,可以是上述扰动输入样本中的一个。
关于本申请实施例中的语句翻译方案可以参阅下述两个场景示例进行理解。
图5中的(A)-(C)为本申请实施例在社交应用中的文本翻译的一场景示例图。
如图5中的(A)所示,要将社交应用中的“他们不怕困难做出围棋AI”翻译成英文,则长按文字部分,就会出现图5中的(B)所示的页面,在图5中的(B)所示的页面中出现了“复制”、“转发”、“删除”和“译英”等功能框,当然图5中的(B)只是举例说明,“译英”也可以改成“翻译”,然后再出现下拉框选择对应的翻译文字。用户在图5中的(B)所示的页面上点击“译英”后,则会出现图5中的(C)所示的翻译结果“They are not afraid of difficulties tomake Go AI”。
图5中的(A)-(C)为本申请实施例在社交应用中的文本翻译的另一场景示例图。
如图6中的A所示,要将社交应用中的“他们不畏困难做出围棋AI”翻译成英文,则长按文字部分,就会出现图6中的(B)所示的页面,在图5中的(B)所示的页面中出现了“复制”、“转发”、“删除”和“译英”等功能框,用户在
图6中的(B)所示的页面上点击“译英”后,则会出现图6中的(C)所示的翻译结果“They are not afraid of difficulties to make Go AI”。
由图5中的(A)-(C),以及图6中的(A)-(C)的过程和结果比对中可见,虽然图5中的(A)要翻译的语句是“他们不怕困难做出围棋AI”,图6的(A)中要翻译的语句是“他们不畏困难做出围棋AI”,针对这两个语义相似的语句,图5的(C)和图6的(C)中分别得到了相同的翻译结果“They are not afraid of difficulties to make Go AI”。可见,本申请实施例提供的语句翻译方案的鲁棒性更好,翻译质量更好。
图7为本申请实施例的语句翻译在同声传译场景的一应用示意图。
如图7所示,在同声传译场景中,发言者用中文说出了“他们不怕困难做出围棋AI”,在使用英文频道的听众中听到的语句为“They are not afraid of difficulties tomake Go AI”。
图8为本申请实施例的语句翻译在同声传译场景的另一应用示意图。
如图8所示,在同声传译场景中,发言者用中文说出了“他们不畏困难做出围棋AI”,在使用英文频道的听众中听到的语句为“They are not afraid of difficulties tomake Go AI”。
由图7和图8的示例对比可见,对于语义相似的输入,翻译的结果是相同的,可见,本申请实施例提供的语句翻译方案的鲁棒性更好,翻译质量更好。
需要说明的是,以上两个应用场景只是举例说明,本申请实施例的方案可以用在多种翻译场景中,而且涉及到的终端设备的形态也不限于图5至图8中所示出的形态。
以上实施例介绍了本申请实施例中目标翻译模型的训练过程和使用目标翻译模型进行语句翻译的过程,下面结合附图介绍本申请实施例中的翻译模型训练的装置、语句翻译的装置、计算节设备和终端设备。
如图9所示,本申请实施例提供的翻译模型训练的装置30的一实施例包括:
获取单元301,用于获取训练样本集合,所述训练样本集合中包括多个训练样本;
确定单元302,用于确定所述获取单元301获取的所述训练样本集合中每个训练样本各自对应的扰动样本集合,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
模型训练单元303,用于使用所述获取单元301获得的所述多个训练样本和所述确定单元302确定的所述每个训练样本各自对应的扰动样本集合训练初始翻译模型,以得到目标翻译模型。
本申请实施例在翻译模型训练时就采用了扰动样本,扰动样本与训练样本的语义相似度高于第一预设值,也就是扰动样本与训练样本的语义很相近,这样训练出来的目标翻译模型在接收到带有噪声的语句时,也可以正确进行翻译。从而提高了机器翻译的鲁棒性,以及翻译质量。
可选地,所述确定单元302,用于在所述每个训练样本为一个训练样本对,所述训练样本对包括训练输入样本和训练输出样本时,确定每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本,所述扰动输入样本集合包括至少一个扰动输入样本,所述扰动输出样本与所述训练输出样本相同;
模型训练单元303,用于使用多个训练样本对和所述每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本训练初始翻译模型,以得到目标翻译模型。
可选地,所述确定单元302用于:
确定所述每个训练输入样本中的第一词语,所述第一词语为待被替换的词语;
用至少一个第二词语分别替换所述第一词语,以得到所述扰动输入样本集合,所述第二词语与所述第一词语的语义相似度高于第二预设值。
可选地,所述确定单元302用于:
确定所述每个训练输入样本中每个词语的词向量;
每次在所述每个词语的词向量上叠加一个不同的高斯噪声向量,以得到所述扰动样本集合。
可选地,所述初始翻译模型包括编码器、分类器和解码器;
所述编码器用于接收所述训练输入样本和对应的扰动输入样本,并输出第一中间表示结果和第二中间表示结果,所述第一中间表示结果为所述训练输入样本的中间表示结果,所述第二中间表示结果为所述对应的扰动输入样本的中间表示结果;
所述分类器用于区分所述第一中间表示结果和所述第二中间表示结果;
所述解码器用于根据第一中间表示结果输出所述训练输出样本,根据所述第二中间表示结果输出所述训练输出样本。
可选地,所述初始翻译模型的模型目标函数包括与所述分类器和所述编码器相关的分类目标函数、与所述编码器和所述解码器相关的训练目标函数和扰动目标函数;
其中,所述分类目标函数中包括所述训练输入样本、所述对应的扰动输入样本、所述编码器的参数和所述分类器的参数;
所述训练目标函数包括所述训练输入样本、所述训练输出样本、所述编码器的参数和所述解码器的参数;
所述扰动目标函数包括所述扰动输入样本、所述训练输出样本、所述编码器的参数和所述解码器的参数。
可选地,模型训练单元303用于:
将每个训练输入样本、对应的扰动输入样本以及对应的训练输出样本输入所述模型目标函数;
按照梯度下降的方式优化所述模型目标函数,以确定出所述编码器的参数的取值、所述解码器的参数的取值和所述分类器的参数的取值,其中,对于分类目标函数中编码器的参数的梯度乘以-1。
本申请实施例提供的翻译模型训练的装置30可以参阅上述方法实施例部分的相应内容进行理解,本处不再重复赘述。
如图10所示,本申请实施例提供的语句翻译的装置的一实施例包括:
接收单元401,用于接收以第一语言表达的第一待翻译语句;
翻译单元402,用于使用目标翻译模型对所述接收单元401接收的所述第一待翻译语句进行翻译,以得到用第二语言表达的翻译结果语句,其中所述目标翻译模型为使用多个训练样本和所述多个训练样本中每个训练样本各自对应的扰动样本集合训练得到的,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
输出单元403,用于输出所述翻译单元402翻译出的用第二语言表达的翻译结果语句。
本申请实施例中,因为目标翻译模型具备抗噪能力,所以接收到带有噪声的语句时,也可以正确进行翻译。从而提高了机器翻译的鲁棒性,以及翻译质量。
可选地,所述接收单元401,还用于接收以所述第一语言表达的第二待翻译语句,所述第二待翻译语句为所述第一待翻译语句的扰动语句,所述第二待翻译语句与所述第一待翻译语句的相似度高于第一预设值;
所述翻译单元402,还用于使用目标翻译模型对所述第二待翻译语句进行翻译,以得到与所述第一待翻译语句对应的所述翻译结果语句;
所述输出单元403,还用于输出所述翻译结果语句。
以上语句翻译的装置40可以参阅方法实施例部分的相应内容进行理解,本处不再重复赘述。
图11是本申请实施例提供的计算机设备50的结构示意图。所述计算机设备50包括处理器510、存储器540和输入输出(I/O)接口530,存储器540可以包括只读存储器和随机存取存储器,并向处理器510提供操作指令和数据。存储器540的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器540存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
在本申请实施例中,在地面标志确定的过程中,通过调用存储器540存储的操作指令(该操作指令可存储在操作***中),
获取训练样本集合,所述训练样本集合中包括多个训练样本;
确定所述训练样本集合中每个训练样本各自对应的扰动样本集合,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
使用所述多个训练样本和所述每个训练样本各自对应的扰动样本集合训练初始翻译模型,以得到目标翻译模型。
本申请实施例在翻译模型训练时就采用了扰动样本,扰动样本与训练样本的语义相似度高于第一预设值,也就是扰动样本与训练样本的语义很相近,这样训练出来的目标翻译模型在接收到带有噪声的语句时,也可以正确进行翻译。从而提高了机器翻译的鲁棒性,以及翻译质量。
处理器510控制计算机设备50的操作,处理器510还可以称为CPU(CentralProcessing Unit,中央处理单元)。存储器540可以包括只读存储器和随机存取存储器,并向处理器510提供指令和数据。存储器540的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中计算机设备50的各个组件通过总线***520耦合在一起,其中总线***520除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线***520。
上述本申请实施例揭示的方法可以应用于处理器510中,或者由处理器510实现。处理器510可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器510可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器540,处理器510读取存储器540中的信息,结合其硬件完成上述方法的步骤。
可选地,处理器510用于:
在所述每个训练样本为一个训练样本对,所述训练样本对包括训练输入样本和训练输出样本时,确定每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本,所述扰动输入样本集合包括至少一个扰动输入样本,所述扰动输出样本与所述训练输出样本相同;
使用多个训练样本对和所述每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本训练初始翻译模型,以得到目标翻译模型。
可选地,处理器510用于:
确定所述每个训练输入样本中的第一词语,所述第一词语为待被替换的词语;
用至少一个第二词语分别替换所述第一词语,以得到所述扰动输入样本集合,所述第二词语与所述第一词语的语义相似度高于第二预设值。
可选地,处理器510用于:
确定所述每个训练输入样本中每个词语的词向量;
每次在所述每个词语的词向量上叠加一个不同的高斯噪声向量,以得到所述扰动样本集合。
可选地,所述初始翻译模型包括编码器、分类器和解码器;
所述编码器用于接收所述训练输入样本和对应的扰动输入样本,并输出第一中间表示结果和第二中间表示结果,所述第一中间表示结果为所述训练输入样本的中间表示结果,所述第二中间表示结果为所述对应的扰动输入样本的中间表示结果;
所述分类器用于区分所述第一中间表示结果和所述第二中间表示结果;
所述解码器用于根据第一中间表示结果输出所述训练输出样本,根据所述第二中间表示结果输出所述训练输出样本。
可选地,所述初始翻译模型的模型目标函数包括与所述分类器和所述编码器相关的分类目标函数、与所述编码器和所述解码器相关的训练目标函数和扰动目标函数;
其中,所述分类目标函数中包括所述训练输入样本、所述对应的扰动输入样本、所述编码器的参数和所述分类器的参数;
所述训练目标函数包括所述训练输入样本、所述训练输出样本、所述编码器的参数和所述解码器的参数;
所述扰动目标函数包括所述扰动输入样本、所述训练输出样本、所述编码器的参数和所述解码器的参数。
可选地,处理器510用于:
将每个训练输入样本、对应的扰动输入样本以及对应的训练输出样本输入所述模型目标函数;
按照梯度下降的方式优化所述模型目标函数,以确定出所述编码器的参数的取值、所述解码器的参数的取值和所述分类器的参数的取值,其中,对于分类目标函数中编码器的参数的梯度乘以-1。
上对计算机设备50的描述可以参阅图1至图3部分的描述进行理解,本处不再重复赘述。
上述语句翻译的过程由终端设备来执行时,例如手机,平板电脑、PDA(PersonalDigital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以终端为手机为例:
图12示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图12,手机包括:射频(Radio Frequency,RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,WiFi)模块1170、处理器1180、以及摄像头1190等部件。本领域技术人员可以理解,图12中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图12对手机的各个构成部件进行具体的介绍:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,RF电路1110也就是收发器。特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(Global System of Mobile communication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1130可用于接收用户输入的待翻译语句、翻译指示灯。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示翻译的结果。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(OrganicLight-Emitting Diode,OLED)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图12中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1170,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;优选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
摄像头1190用于采集图像。
手机还包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理***与处理器1180逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端所包括的处理器1180还具有以下控制功能:
接收以第一语言表达的第一待翻译语句;
使用目标翻译模型对所述第一待翻译语句进行翻译,以得到用第二语言表达的翻译结果语句,其中所述目标翻译模型为使用多个训练样本和所述多个训练样本中每个训练样本各自对应的扰动样本集合训练得到的,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
输出所述用第二语言表达的翻译结果语句。
可选地,还可以:
接收以所述第一语言表达的第二待翻译语句,所述第二待翻译语句为所述第一待翻译语句的扰动语句,所述第二待翻译语句与所述第一待翻译语句的相似度高于第一预设值;
使用目标翻译模型对所述第二待翻译语句进行翻译,以得到与所述第一待翻译语句对应的所述翻译结果语句;
输出所述翻译结果语句。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本申请实施例所提供的翻译模型训练的方法、语句翻译的方法、装置以及设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种翻译模型训练的方法,其特征在于,包括:
获取训练样本集合,所述训练样本集合中包括多个训练样本;
确定所述训练样本集合中每个训练样本各自对应的扰动样本集合,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
使用所述多个训练样本和所述每个训练样本各自对应的扰动样本集合训练初始翻译模型,以得到目标翻译模型。
2.根据权利要求1所述的方法,其特征在于,所述每个训练样本为一个训练样本对,所述训练样本对包括训练输入样本和训练输出样本;
对应地,所述确定每个训练样本各自对应的扰动样本集合,包括:
确定每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本,所述扰动输入样本集合包括至少一个扰动输入样本,所述扰动输出样本与所述训练输出样本相同;
对应地,使用所述多个训练样本和所述每个训练样本各自对应的扰动样本集合训练初始翻译模型,以得到目标翻译模型,包括:
使用多个训练样本对和所述每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本训练初始翻译模型,以得到目标翻译模型。
3.根据权利要求2所述的方法,其特征在于,所述确定所述训练样本集合中每个训练输入样本各自对应的扰动输入样本集合,包括:
确定所述每个训练输入样本中的第一词语,所述第一词语为待被替换的词语;
用至少一个第二词语分别替换所述第一词语,以得到所述扰动输入样本集合,所述第二词语与所述第一词语的语义相似度高于第二预设值。
4.根据权利要求2所述的方法,其特征在于,所述确定所述训练样本集合中每个训练输入样本各自对应的扰动输入样本集合,包括:
确定所述每个训练输入样本中每个词语的词向量;
每次在所述每个词语的词向量上叠加一个不同的高斯噪声向量,以得到所述扰动样本集合。
5.根据权利要求2-4任一所述的方法,其特征在于,所述初始翻译模型包括编码器、分类器和解码器;
所述编码器用于接收所述训练输入样本和对应的扰动输入样本,并输出第一中间表示结果和第二中间表示结果,所述第一中间表示结果为所述训练输入样本的中间表示结果,所述第二中间表示结果为所述对应的扰动输入样本的中间表示结果;
所述分类器用于区分所述第一中间表示结果和所述第二中间表示结果;
所述解码器用于根据第一中间表示结果输出所述训练输出样本,根据所述第二中间表示结果输出所述训练输出样本。
6.根据权利要求5所述的方法,其特征在于,所述初始翻译模型的模型目标函数包括与所述分类器和所述编码器相关的分类目标函数、与所述编码器和所述解码器相关的训练目标函数和扰动目标函数;
其中,所述分类目标函数中包括所述训练输入样本、所述对应的扰动输入样本、所述编码器的参数和所述分类器的参数;
所述训练目标函数包括所述训练输入样本、所述训练输出样本、所述编码器的参数和所述解码器的参数;
所述扰动目标函数包括所述扰动输入样本、所述训练输出样本、所述编码器的参数和所述解码器的参数。
7.根据权利要求6所述的方法,其特征在于,所述使用多个训练样本对和所述每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本训练初始翻译模型,以得到目标翻译模型,包括:
将每个训练输入样本、对应的扰动输入样本以及对应的训练输出样本输入所述模型目标函数;
按照梯度下降的方式优化所述模型目标函数,以确定出所述编码器的参数的取值、所述解码器的参数的取值和所述分类器的参数的取值,其中,对于分类目标函数中编码器的参数的梯度乘以-1。
8.一种语句翻译的方法,其特征在于,包括:
接收以第一语言表达的第一待翻译语句;
使用目标翻译模型对所述第一待翻译语句进行翻译,以得到用第二语言表达的翻译结果语句,其中所述目标翻译模型为使用多个训练样本和所述多个训练样本中每个训练样本各自对应的扰动样本集合训练得到的,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
输出所述用第二语言表达的翻译结果语句。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
接收以所述第一语言表达的第二待翻译语句,所述第二待翻译语句为所述第一待翻译语句的扰动语句,所述第二待翻译语句与所述第一待翻译语句的相似度高于第一预设值;
使用目标翻译模型对所述第二待翻译语句进行翻译,以得到与所述第一待翻译语句对应的所述翻译结果语句;
输出所述翻译结果语句。
10.一种翻译模型训练的装置,其特征在于,包括:
获取单元,用于获取训练样本集合,所述训练样本集合中包括多个训练样本;
确定单元,用于确定所述获取单元获取的所述训练样本集合中每个训练样本各自对应的扰动样本集合,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
模型训练单元,用于使用所述获取单元获得的所述多个训练样本和所述确定单元确定的所述每个训练样本各自对应的扰动样本集合训练初始翻译模型,以得到目标翻译模型。
11.根据权利要求10所述的装置,其特征在于,
所述确定单元,用于在所述每个训练样本为一个训练样本对,所述训练样本对包括训练输入样本和训练输出样本时,确定每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本,所述扰动输入样本集合包括至少一个扰动输入样本,所述扰动输出样本与所述训练输出样本相同;
所述模型训练单元,用于使用多个训练样本对和所述每个训练输入样本各自对应的扰动输入样本集合,以及所述扰动输出样本集合对应的扰动输出样本训练初始翻译模型,以得到目标翻译模型。
12.一种语句翻译的装置,其特征在于,包括:
接收单元,用于接收以第一语言表达的第一待翻译语句;
翻译单元,用于使用目标翻译模型对所述接收单元接收的所述第一待翻译语句进行翻译,以得到用第二语言表达的翻译结果语句,其中所述目标翻译模型为使用多个训练样本和所述多个训练样本中每个训练样本各自对应的扰动样本集合训练得到的,所述扰动样本集合包括至少一个扰动样本,所述扰动样本与对应训练样本的语义相似度高于第一预设值;
输出单元,用于输出所述翻译单元翻译出的用第二语言表达的翻译结果语句。
13.一种计算机设备,其特征在于,所述计算机设备包括:输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如权利要求1-7任一所述的方法。
14.一种终端设备,其特征在于,所述终端设备包括:输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如权利要求8或9所述的方法。
15.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1-7中任一项所述的方法或权利要求8或9所述的方法。
CN201810445783.2A 2018-05-10 2018-05-10 翻译模型训练的方法、语句翻译的方法、设备及存储介质 Active CN110472251B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810445783.2A CN110472251B (zh) 2018-05-10 2018-05-10 翻译模型训练的方法、语句翻译的方法、设备及存储介质
PCT/CN2019/080411 WO2019214365A1 (zh) 2018-05-10 2019-03-29 翻译模型训练的方法、语句翻译的方法、设备及存储介质
EP19800044.0A EP3792789A4 (en) 2018-05-10 2019-03-29 MODEL TRANSLATION LEARNING PROCESS, SENTENCE TRANSLATION PROCESS AND APPARATUS, AND INFORMATION MEDIA
JP2020545261A JP7179273B2 (ja) 2018-05-10 2019-03-29 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム
US16/987,565 US11900069B2 (en) 2018-05-10 2020-08-07 Translation model training method, sentence translation method, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810445783.2A CN110472251B (zh) 2018-05-10 2018-05-10 翻译模型训练的方法、语句翻译的方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110472251A true CN110472251A (zh) 2019-11-19
CN110472251B CN110472251B (zh) 2023-05-30

Family

ID=68466679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810445783.2A Active CN110472251B (zh) 2018-05-10 2018-05-10 翻译模型训练的方法、语句翻译的方法、设备及存储介质

Country Status (5)

Country Link
US (1) US11900069B2 (zh)
EP (1) EP3792789A4 (zh)
JP (1) JP7179273B2 (zh)
CN (1) CN110472251B (zh)
WO (1) WO2019214365A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723550A (zh) * 2020-06-17 2020-09-29 腾讯科技(深圳)有限公司 语句改写方法、装置、电子设备以及计算机存储介质
CN111753556A (zh) * 2020-06-24 2020-10-09 掌阅科技股份有限公司 双语对照阅读的方法、终端及计算机存储介质
CN111859997A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN111859995A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN112257459A (zh) * 2020-10-16 2021-01-22 北京有竹居网络技术有限公司 语言翻译模型的训练方法、翻译方法、装置和电子设备
CN112328348A (zh) * 2020-11-05 2021-02-05 深圳壹账通智能科技有限公司 应用程序多语言支持方法、装置、计算机设备及存储介质
CN112417895A (zh) * 2020-12-15 2021-02-26 广州博冠信息科技有限公司 弹幕数据处理方法、装置、设备以及存储介质
CN113283249A (zh) * 2020-02-19 2021-08-20 阿里巴巴集团控股有限公司 机器翻译方法、装置及计算机可读存储介质
CN113609157A (zh) * 2021-08-09 2021-11-05 平安科技(深圳)有限公司 语言转换模型训练、语言转换方法、装置、设备及介质
CN113762397A (zh) * 2021-09-10 2021-12-07 北京百度网讯科技有限公司 检测模型训练、高精度地图更新方法、设备、介质及产品

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364999B (zh) * 2020-10-19 2021-11-19 深圳市超算科技开发有限公司 冷水机调节模型的训练方法、装置及电子设备
CN112380883B (zh) * 2020-12-04 2023-07-25 北京有竹居网络技术有限公司 模型训练方法、机器翻译方法、装置、设备及存储介质
CN112528637B (zh) * 2020-12-11 2024-03-29 平安科技(深圳)有限公司 文本处理模型训练方法、装置、计算机设备和存储介质
CN112541557B (zh) * 2020-12-25 2024-04-05 北京百度网讯科技有限公司 生成式对抗网络的训练方法、装置及电子设备
US20220222441A1 (en) * 2021-01-13 2022-07-14 Salesforce.Com, Inc. Machine learning based named entity recognition for natural language processing
CN113110843B (zh) * 2021-03-05 2023-04-11 卓尔智联(武汉)研究院有限公司 合约生成模型训练方法、合约生成方法及电子设备
CN112598091B (zh) * 2021-03-08 2021-09-07 北京三快在线科技有限公司 一种训练模型和小样本分类的方法及装置
CN113204977B (zh) * 2021-04-29 2023-09-26 北京有竹居网络技术有限公司 信息翻译方法、装置、设备和存储介质
CN113221581A (zh) * 2021-05-13 2021-08-06 北京小米移动软件有限公司 文本翻译的方法、装置及存储介质
CN113688245B (zh) * 2021-08-31 2023-09-26 中国平安人寿保险股份有限公司 基于人工智能的预训练语言模型的处理方法、装置及设备
CN114241268A (zh) * 2021-12-21 2022-03-25 支付宝(杭州)信息技术有限公司 一种模型的训练方法、装置及设备
CN115081462A (zh) * 2022-06-15 2022-09-20 京东科技信息技术有限公司 翻译模型训练、翻译方法和装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014270A (ja) * 2010-06-29 2012-01-19 Kddi R & D Laboratories Inc サポートベクトルマシンの再学習方法及び装置
CN102439596A (zh) * 2009-05-22 2012-05-02 微软公司 从非结构化资源挖掘短语对
CN102799579A (zh) * 2012-07-18 2012-11-28 西安理工大学 具有错误自诊断和自纠错功能的统计机器翻译方法
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
CN107180026A (zh) * 2017-05-02 2017-09-19 苏州大学 一种基于词嵌入语义映射的事件短语学习方法及装置
US20170286376A1 (en) * 2016-03-31 2017-10-05 Jonathan Mugan Checking Grammar Using an Encoder and Decoder
CN107273503A (zh) * 2017-06-19 2017-10-20 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置
CN107438842A (zh) * 2014-12-18 2017-12-05 Asml荷兰有限公司 通过机器学习的特征搜索
CN107463879A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别方法
US20170371870A1 (en) * 2016-06-24 2017-12-28 Facebook, Inc. Machine translation system employing classifier
CN107608973A (zh) * 2016-07-12 2018-01-19 华为技术有限公司 一种基于神经网络的翻译方法及装置
CN107766577A (zh) * 2017-11-15 2018-03-06 北京百度网讯科技有限公司 一种舆情监测方法、装置、设备及存储介质
CN113761950A (zh) * 2021-04-28 2021-12-07 腾讯科技(深圳)有限公司 一种翻译模型的测试方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122525A (ja) * 2005-10-29 2007-05-17 National Institute Of Information & Communication Technology 言い換え処理方法及び装置
US9201871B2 (en) * 2010-06-11 2015-12-01 Microsoft Technology Licensing, Llc Joint optimization for machine translation system combination
US8515736B1 (en) * 2010-09-30 2013-08-20 Nuance Communications, Inc. Training call routing applications by reusing semantically-labeled data collected for prior applications
US8972240B2 (en) * 2011-05-19 2015-03-03 Microsoft Corporation User-modifiable word lattice display for editing documents and search queries
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
US9026551B2 (en) * 2013-06-25 2015-05-05 Hartford Fire Insurance Company System and method for evaluating text to support multiple insurance applications
US9443513B2 (en) * 2014-03-24 2016-09-13 Educational Testing Service System and method for automated detection of plagiarized spoken responses
US10055485B2 (en) * 2014-11-25 2018-08-21 International Business Machines Corporation Terms for query expansion using unstructured data
US10115055B2 (en) * 2015-05-26 2018-10-30 Booking.Com B.V. Systems methods circuits and associated computer executable code for deep learning based natural language understanding
US9984068B2 (en) * 2015-09-18 2018-05-29 Mcafee, Llc Systems and methods for multilingual document filtering
CN105279252B (zh) * 2015-10-12 2017-12-26 广州神马移动信息科技有限公司 挖掘相关词的方法、搜索方法、搜索***
JP6655788B2 (ja) * 2016-02-01 2020-02-26 パナソニックIpマネジメント株式会社 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
JP6671027B2 (ja) * 2016-02-01 2020-03-25 パナソニックIpマネジメント株式会社 換言文生成方法、該装置および該プログラム
CN107526720A (zh) * 2016-06-17 2017-12-29 松下知识产权经营株式会社 意思生成方法、意思生成装置以及程序
KR102565275B1 (ko) * 2016-08-10 2023-08-09 삼성전자주식회사 병렬 처리에 기초한 번역 방법 및 장치
US20180061408A1 (en) * 2016-08-24 2018-03-01 Semantic Machines, Inc. Using paraphrase in accepting utterances in an automated assistant
CN109690577A (zh) 2016-09-07 2019-04-26 皇家飞利浦有限公司 利用堆叠式自动编码器进行的半监督式分类
JP6817556B2 (ja) * 2016-09-27 2021-01-20 パナソニックIpマネジメント株式会社 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
KR102589638B1 (ko) * 2016-10-31 2023-10-16 삼성전자주식회사 문장 생성 장치 및 방법
JP7149560B2 (ja) * 2018-04-13 2022-10-07 国立研究開発法人情報通信研究機構 リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439596A (zh) * 2009-05-22 2012-05-02 微软公司 从非结构化资源挖掘短语对
JP2012014270A (ja) * 2010-06-29 2012-01-19 Kddi R & D Laboratories Inc サポートベクトルマシンの再学習方法及び装置
CN102799579A (zh) * 2012-07-18 2012-11-28 西安理工大学 具有错误自诊断和自纠错功能的统计机器翻译方法
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN107438842A (zh) * 2014-12-18 2017-12-05 Asml荷兰有限公司 通过机器学习的特征搜索
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
US20170286376A1 (en) * 2016-03-31 2017-10-05 Jonathan Mugan Checking Grammar Using an Encoder and Decoder
US20170371870A1 (en) * 2016-06-24 2017-12-28 Facebook, Inc. Machine translation system employing classifier
CN107608973A (zh) * 2016-07-12 2018-01-19 华为技术有限公司 一种基于神经网络的翻译方法及装置
CN107180026A (zh) * 2017-05-02 2017-09-19 苏州大学 一种基于词嵌入语义映射的事件短语学习方法及装置
CN107273503A (zh) * 2017-06-19 2017-10-20 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置
CN107463879A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别方法
CN107766577A (zh) * 2017-11-15 2018-03-06 北京百度网讯科技有限公司 一种舆情监测方法、装置、设备及存储介质
CN113761950A (zh) * 2021-04-28 2021-12-07 腾讯科技(深圳)有限公司 一种翻译模型的测试方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GEORG HEIGOLD等: "How Robust Are Character-Based Word Embeddings in Tagging and MT Against Wrod Scramlbing or Randdm Nouse?", 《ARXIV:1704.04441V1》 *
YITONG LI等: "Learning Robust Representations of Text", 《ARXIV:1609.06082V1》 *
YONG CHENG等: "Towards Robust Neural Machine Translation", 《ARXIV:1805.06130V1》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283249A (zh) * 2020-02-19 2021-08-20 阿里巴巴集团控股有限公司 机器翻译方法、装置及计算机可读存储介质
JP2021197188A (ja) * 2020-06-16 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 機械翻訳モデルの訓練方法、装置、電子デバイス及び記憶媒体
CN111859997A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN111859995A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
KR102641398B1 (ko) 2020-06-16 2024-02-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 기계 번역 모델의 훈련 방법, 장치, 전자기기 및 저장 매체
CN111859997B (zh) * 2020-06-16 2024-01-26 北京百度网讯科技有限公司 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN111859995B (zh) * 2020-06-16 2024-01-23 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
JP7203153B2 (ja) 2020-06-16 2023-01-12 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 機械翻訳モデルの訓練方法、装置、電子デバイス及び記憶媒体
KR20210156223A (ko) * 2020-06-16 2021-12-24 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 기계 번역 모델의 훈련 방법, 장치, 전자기기 및 저장 매체
CN111723550A (zh) * 2020-06-17 2020-09-29 腾讯科技(深圳)有限公司 语句改写方法、装置、电子设备以及计算机存储介质
CN111753556A (zh) * 2020-06-24 2020-10-09 掌阅科技股份有限公司 双语对照阅读的方法、终端及计算机存储介质
CN112257459A (zh) * 2020-10-16 2021-01-22 北京有竹居网络技术有限公司 语言翻译模型的训练方法、翻译方法、装置和电子设备
CN112328348A (zh) * 2020-11-05 2021-02-05 深圳壹账通智能科技有限公司 应用程序多语言支持方法、装置、计算机设备及存储介质
CN112417895A (zh) * 2020-12-15 2021-02-26 广州博冠信息科技有限公司 弹幕数据处理方法、装置、设备以及存储介质
CN113609157B (zh) * 2021-08-09 2023-06-30 平安科技(深圳)有限公司 语言转换模型训练、语言转换方法、装置、设备及介质
CN113609157A (zh) * 2021-08-09 2021-11-05 平安科技(深圳)有限公司 语言转换模型训练、语言转换方法、装置、设备及介质
CN113762397A (zh) * 2021-09-10 2021-12-07 北京百度网讯科技有限公司 检测模型训练、高精度地图更新方法、设备、介质及产品
CN113762397B (zh) * 2021-09-10 2024-04-05 北京百度网讯科技有限公司 检测模型训练、高精度地图更新方法、设备、介质及产品

Also Published As

Publication number Publication date
JP2021515322A (ja) 2021-06-17
US11900069B2 (en) 2024-02-13
EP3792789A4 (en) 2021-07-07
JP7179273B2 (ja) 2022-11-29
US20200364412A1 (en) 2020-11-19
CN110472251B (zh) 2023-05-30
WO2019214365A1 (zh) 2019-11-14
EP3792789A1 (en) 2021-03-17

Similar Documents

Publication Publication Date Title
CN110472251A (zh) 翻译模型训练的方法、语句翻译的方法、设备及存储介质
CN108304846B (zh) 图像识别方法、装置及存储介质
CN103959282B (zh) 用于文本识别***的选择性反馈
US11238348B2 (en) Using meta-information in neural machine translation
CN107102746B (zh) 候选词生成方法、装置以及用于候选词生成的装置
US8751972B2 (en) Collaborative gesture-based input language
US9396724B2 (en) Method and apparatus for building a language model
CN103959283B (zh) 用于交互文本编辑的方法、***和设备
CN108304388A (zh) 机器翻译方法及装置
CN104850542B (zh) 非可听语音输入校正
CN108984535B (zh) 语句翻译的方法、翻译模型训练的方法、设备及存储介质
CN110427627A (zh) 基于语义表示模型的任务处理方法和装置
CN108885729A (zh) 在协作平台中控制内容项通知的技术
CN108121736A (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN108369585B (zh) 用于提供翻译服务的方法及其电子装置
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN109656510A (zh) 一种网页中语音输入的方法及终端
CN109558600A (zh) 翻译处理方法及装置
CN112862021B (zh) 一种内容标注方法和相关装置
WO2022142442A1 (zh) 一种密切接触判断方法、装置、电子设备和介质
KR102327790B1 (ko) 정보 처리 방법, 장치 및 저장 매체
US20210232911A1 (en) Siamese Neural Networks for Flagging Training Data in Text-Based Machine Learning
CN108920560B (zh) 生成方法、训练方法、装置、计算机可读介质及电子设备
JP2023078411A (ja) 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant