CN111931517A - 文本翻译方法、装置、电子设备以及存储介质 - Google Patents
文本翻译方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN111931517A CN111931517A CN202010873804.8A CN202010873804A CN111931517A CN 111931517 A CN111931517 A CN 111931517A CN 202010873804 A CN202010873804 A CN 202010873804A CN 111931517 A CN111931517 A CN 111931517A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- translated
- training
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 174
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000003860 storage Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 170
- 238000012549 training Methods 0.000 claims description 313
- 238000009826 distribution Methods 0.000 claims description 88
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000012360 testing method Methods 0.000 description 51
- 230000008569 process Effects 0.000 description 20
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000000418 atomic force spectrum Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种文本翻译方法、装置、电子设备以及存储介质,可适用于人工智能以及大数据等领域。该方法包括:获取待翻译文本,待翻译文本为源语言和目标语言的混合文本;根据源语言对应的词向量空间,生成待翻译文本中各第一词的词向量,根据目标语言对应的词向量空间,生成待翻译文本中各第二词的词向量,第一词为对应于源语言的词,第二词为对应于目标语言的词;根据待翻译文本所包含的各词的词向量,确定待翻译文本对应的编码特征;根据编码特征,生成待翻译文本的对应于目标语言的目标文本。采用本申请实施例,可将源语言与目标语言的混合文本,准确翻译为目标语言的文本,适用性高。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种文本翻译方法、装置、电子设备以及存储介质。
背景技术
随机人工智能(Artificial Intelligence,AI)和大数据的不断发展,文本翻译成为其中最为重要的技术之一。
目前的文本翻译方法通常将一种语种的文本翻译成具有相同语义的另一语种的文本。当被翻译的文本为混合语种文本,即被翻译的文本中包含多语种的词或者短语时,当前的文本翻译方法往往由于多语种的词或者短语的存在,导致最终得到的翻译文本语义表述不准确,甚至出现无法对上述混合语种中部分词进行翻译的情况,适用性不高。
因此,如何提升对混合语种的文本的翻译的准确性,成为亟需解决的问题。
发明内容
本申请实施例提供一种文本翻译方法、装置、电子设备以及存储介质,可将源语言与目标语言的混合文本,准确翻译为目标语言的文本,适用性高。
第一方面,本申请实施例提供一种文本翻译方法,该方法包括:
获取待翻译文本,上述待翻译文本为源语言和目标语言的混合文本;
根据上述源语言对应的词向量空间,生成上述待翻译文本中各第一词的词向量,根据上述目标语言对应的词向量空间,生成上述待翻译文本中各第二词的词向量,上述第一词为对应于上述源语言的词,上述第二词为对应于上述目标语言的词;
根据上述待翻译文本所包含的各词的词向量,确定上述待翻译文本对应的编码特征;
根据上述编码特征,生成上述待翻译文本的对应于上述目标语言的目标文本。
第二方面,本申请实施例提供了一种文本翻译装置,该文本翻译装置包括:
获取模块,用于获取待翻译文本,上述待翻译文本为源语言和目标语言的混合文本;
生成模块,用于根据上述源语言对应的词向量空间,生成上述待翻译文本中各第一词的词向量,根据上述目标语言对应的词向量空间,生成上述待翻译文本中各第二词的词向量,上述第一词为对应于上述源语言的词,上述第二词为对应于上述目标语言的词;
确定模块,用于根据上述待翻译文本所包含的各词的词向量,确定上述待翻译文本对应的编码特征;
翻译模块,用于根据上述编码特征,生成上述待翻译文本的对应于上述目标语言的目标文本。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;
上述存储器用于存储计算机程序;
上述处理器被配置用于在调用上述计算机程序时,执行上述第一方面所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现上述第一方面所提供的方法。
第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所提供的方法。
在本申请实施例中,在对待翻译文本进行翻译处理时,在待翻译文本为源语言和目标语言的混合文本时,对于待翻译文本中包含的目标语言的词,使用共享目标端词表的方式,即待翻译文本中包含的属于目标语言的词的词向量和目标文本中词的词向量对应于同一向量空间,从而使得编码部分和解码部分所处理的属于目标语言的词的词向量是相同的,可以有效避免翻译得到的目标文本中UNK(Unknown Words,未知词)问题的出现,并能够有效提升解码端对于待翻译文本中的属于目标语言的词的识别能力,提升了待翻译文本的翻译准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本翻译方法的流程示意图;
图2是本申请实施例提供的文本翻译的一场景示意图;
图3是本申请实施例提供的目标文本的生成方法的流程示意图;
图4是本申请实施例提供的基于指针网络生成目标文本的原理示意图;
图5是本申请实施例提供的文本翻译方法的另一场景示意图;
图6是本申请实施例提供的模型训练方法的流程示意图;
图7是本申请实施例提供的确定对齐信息的场景示意图;
图8是本申请实施例提供的确定第三训练文本的场景示意图;
图9是本申请实施例提供的确定第二训练集的原理示意图;
图10是本申请实施例提供的模型训练的场景示意图;
图11是本申请实施例提供的文本翻译模型的性能对比示意图
图12是本申请实施例提供的文本翻译装置的结构示意图;
图13是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的文本翻译方法可适用于人工智能、大数据等多种领域,如基于自然语言处理(Nature Language processing,NLP)的人机交互、云技术(Cloudtechnology)中的云计算、人工智能云服务以及大数据领域中的相关数据计算处理领域,旨在将待翻译文本翻译为目标语言文本。其中,上述待翻译文本为源语言文本,或者为由源语言或者目标语言所构成的混合文本,具体可基于实际应用场景确定,在此不做限制。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答等。
云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。本申请实施例所提供的文本翻译方法可基于云技术中的云计算(cloud computing)实现。
云计算是指通过网络以按需、易扩展的方式获得所需资源,是网格计算(GridComputing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
人工智能云服务,一般也被称作是AIaaS(AI as a Service,AI即服务)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的人工智能服务进行拆分,并在云端提供独立或者打包的服务,如文本翻译服务等。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注。大数据基于大规模并行处理数据库、数据挖掘、分布式文件***、分布式数据库、以及上述云计算等技术,有效地实施本实施例所提供的文本翻译方法。
请参见图1,图1是本申请实施例提供的文本翻译方法的流程示意图。该方法可以由任一电子设备执行,如可以是服务器或者用户终端,也可以是用户终端和服务器交互完成,可选的,可以由服务器执行,用户终端可以将需要待翻译文本发送给服务器,进而由服务器对待翻译文本进行翻译。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,但并不局限于此。
如图1所示,本申请实施例提供的文本翻译方法包括如下步骤:
步骤S1、获取待翻译文本。
在一些可行的实施方式中,上述待翻译文本为源语言和目标语言的混合文本,源语言为被翻译的语义,目标语言为将待翻译文本进行翻译后对应的翻译语言。其中,任一需要翻译为目标语言文本的待翻译文本,包括但不限于人工智能领域下的智能问答、智能翻译以及语义分析等过程中的待翻译文本,如将同声传译的语音进行文本转换后得到的文本,用户输入至翻译网页以及翻译工具中的文本等,在此不做限制。
可选的,上述待翻译文本还可以为源语言的文本,即待翻译文本中只由对应于源语言的词所组成的文本,进而基于本实施例提供的文本翻译方法,将源语言的待翻译文本翻译为对应于目标语言的目标文本。也就是说,本申请实施例提供的文本翻译方法可将源语言的目标文本以及源语言和目标语言的混合文本,翻译为对应于目标语言的目标文本。
可选的,当本申请实施例提供的文本翻译方法由用户终端执行时,用户终端可获取用户输入的文本作为待翻译文本,或者将用户语音转化为文本后得到待翻译文本,或者为用户基于用户终端从网络、大数据等获取的待翻译文本,具体获取方式可基于实际应用场景需求确定,在此不做限制。
可选的,当本申请实施例提供的文本翻译方法由服务器执行时,服务器可获取任一用户终端发送的文本作为待翻译文本,或者基于用户终端发送的生成指令,基于云计算、大数据等技术生成待翻译文本,或者基于用户终端所发送的获取指令,从该获取指令所指示的存储空间中获取待翻译文本,具体获取方式可基于实际应用场景需求确定,在此不做限制。其中,上述存储空间包括但不限于云服务器、云存储空间等,在此不做限制。
步骤S2、根据源语言对应的词向量空间,生成待翻译文本中各第一词的词向量,根据目标语言对应的词向量空间,生成待翻译文本中各第二词的词向量。
在一些可行的实施方式中,在生成待翻译文本所包含的词的词向量之前需要对待翻译文本进行分词处理,以将完整的待翻译文本拆分成独立的多个词。具体的,可基于预设词典,采用正向最大匹配、逆向最大匹配、最小切分、双向匹配以及最短路径匹配等方法对待翻译文本进行分词处理。可选的,可基于统计的分词方法,如采用建立隐马尔可夫模型以及N元文法模型的方式对待翻译文本进行分词处理。可选的,可基于待翻译文本的语义对待翻译文本进行分词处理,可选的,还可基于分词工具对待翻译文本进行分词处理,具体分词方式可基于实际应用场景需求配置,在此不做限制。
通常情况下,当待翻译文本中同时包含对应于源语言和对应于目标语言的词时,对应于目标语言的词与待翻译文本对应于目标语言的目标文本中对应的词通常表示同一种含义。但是现有的文本翻译方法或者模型往往会将待翻译文本中目标语言的词作为源语言的词进行理解,从而导致翻译不准确的情况或者出现UNK。另一方面,待翻译文本中存在的属于目标语言的词(为方便描述,以下简称为目标词),会导致现有的文本翻译模型需要在编码端的词表中额外增加目标词,进而会造成模型参数的增加,增加了模型的复杂度,增加模型训练中相关训练参数以及翻译过程中的数据处理量,、降低文本翻译效率。
因此,针对上述问题,在本申请实施例提供的文本翻译方法中,在待翻译文本中包含对应于目标语言的目标词时,目标词的词向量和目标文本中每个词的词向量对应于同一向量空间,从而可在不增加模型参数训练的情况下,准确识别待翻译文本中的目标词,提升翻译准确度和效率,并在可减少UNK的出现。
因此,在将待翻译文本进行分词处理得到待翻译文本所包含的各词之后,可确定待翻译文本所包含的各词中的各第一词,根据源语言对应的词向量空间,生成各第一词的词向量。其中,待翻译文本所包含的各词中的各第一词,为对应于源语言的词。与此同时,可确定待翻译文本所包含的各词中的第二词,根据目标语言对应的词向量空间,生成第二词的词向量。其中,待翻译文本所包含的各词中的各第二词,为对应于目标语言的词。
具体的,可基于各语言(对应于源语言的词以及对应于目标语言的词)对应的词向量空间所对应的词向量编码方式(如热独编码),生成对应于源语言的词(第一词)的词向量以及对应于目标语言的词(第二词)的词向量。可选的,可基于各语言对应的词向量空间所对应的word2vector模型,生成对应于源语言的词的词向量以及对应于目标语言的词的词向量。可选的,还可通过各语言对应的词向量空间所对应的嵌入(embedding)层生成对应于源语言的词的词向量以及对应于目标语言的词的词向量,具体词向量的生成方式在此不做限制。
需要特别说明的是,上述确定待翻译文本所包含的各词的词向量的方法仅为示例,具体可基于实际应用场景需求确定,在此不做限制。
也就是说,在生成待翻译文本所包含的各词的词向量时,如果待翻译文本中存在对应于目标语言的词(即目标词),则采用解码器可识别的编码方式对目标词进行处理,得到目标词的词向量。即通过共享词嵌入,可以使编码器与解码器同时公用一个目标端词嵌入,即编码器和解码器所处理的对应于同一目标语言的词的词嵌入始终是相同的。共享词嵌入也意味着编码器侧的目标词的词向量是可以被解码器所识别,进而待翻译文本中所有的词的词向量均可被解码器正确识别,不会被识别成UNK,大大减少了UNK出现的可能性,进而有助于生成高质量的目标文本。
步骤S3、根据待翻译文本所包含的各词的词向量,确定待翻译文本对应的编码特征。
在一些可行的实施方式中,可将待翻译文本所包含的各词的词向量输入编码器,即采用编码器对待翻译文本所包含的各词的词向量进行编码,得到待翻译文本对应的编码特征。
其中,上述编码器具体可以采用神经网络结构实现,编码器的具体网络结构本申请实施例不做限定,可以根据实际需求选择和配置,且神经网络包括但不限于循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆神经网络(Long Short-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)以及基于自注意力(self-attention)的神经网络构等,具体可基于实际应用场景需求配置和选择,在此不做限制。
步骤S4、根据编码特征,生成待翻译文本的对应于目标语言的目标文本。
在一些可行的实施方式中,在得到待翻译文本的编码特征之后,可基于解码器对编码特征进行解码,进而生成待翻译文本的对应于目标语言的目标文本。其中,目标文本中的每个词是基于该词的前一个词的词向量,和待翻译文本对应的编码特征生成的。
可以理解的是,对于目标文本中的第一个词,该词可以是基于编码特征生成的,或者是基于编码特征和起始符的向量生成的。
具体的,在基于解码器对编码特征进行初次解码时,可以基于该编码特征和起始符向量,解码得到目标文本中的第一个词。进一步的,将第一个词的词向量输入解码器,以使解码器基于第一个词的词向量和解码特征得到目标文本中的第二个词的词向量。重复上述过程直至解码结束时,得到多个词的词向量,进而基于解码器所得到的多个词的词向量生成待翻译文本的对应于目标语言的目标文本。
其中,上述解码器具体可采用神经网络结构实现,解码器的具体网络结构本申请实施例不做限定,可以根据实际需求选择和配置,且神经网络包括但不限于循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆神经网络(Long Short-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)以及基于自注意力(self-attention)的神经网络构等,具体可基于实际应用场景需求配置和选择,在此不做限制。
可以理解的是,对于编码端的词嵌入层和解码端的词嵌入层而言,词嵌入层可以是编码器内/解码器内的一部分,也可以是编码器外/解码器外的一部分,本申请实施例中,为了描述方便,将词嵌入层作为了独立于编码器/解码器的一部分进行的描述。
通过上述实现方式,在基于解码器对编码特征进行解码时,解码器可识别出待翻译文本中属于目标语言的词的词向量,以避免因对不同语言的词采用同一编码方式进行编码而导致解码器识别错误或者无法解码的情况,从而基于解码器生成的目标语言的目标文本的语义与待翻译文本的语义保持一致。
下面结合图2对本申请实施例提供的文本翻译方法进行说明。图2是本申请实施例提供的文本翻译的一场景示意图。如图2所示,待翻译文本“我相信you will成功”为英文和中文的混合语句,需要将其翻译为英文(英文为目标语言),对待翻译文本进行分词处理后得到待翻译文本的各词“我”、“相信”、“you”、“will”以及“成功”。确定上述各词的词向量之后,通过编码器编码对各词的词向量进行编码,得到待翻译文本对应的编码特征。在基于解码器对编码特征进行解码时,将起始符<start>对应的向量输入解码器中,以使解码器基于起始符<start>对应的向量和解码特征的得到目标文本中的第一个词“I”。
进一步的,基于解码器侧的词嵌入层生成“I”对应的词向量,并将“I”对应的词向量输入解码器中,使得解码器基于“I”对应的词向量和解码特征得到“I”的下一个词“believe”,以此类推,直至解码器输出结束符号<eos>,或者解码长度达到解码器的最大解码长度时,停止解码。此时可基于解码器得到的各词得到待翻译文本的对应于目标语言的目标文本“I believe you will succeed”。
在一些可行的实施方式中,为了进一步提升待翻译文本进行文本翻译的准确性,可基于指针网络生成待翻译文本的对应于目标语言的目标文本。具体可参见图3,图3是本申请实施例提供的目标文本的生成方法的流程示意图。如图3所示,本申请实施例提供的目标文本的生成方法可包括如下步骤:
步骤S41、对于待翻译文本的对应于目标语言的目标文本的每个待预测词,根据编码特征和待预测词的前一个已预测词的词向量,确定待预测词对应的解码特征。
在一些可行的实施方式中,为方便描述,此时将待翻译文本的对应于目标语言的目标文本中,已经翻译得到的词称为已预测词,将未翻译得到的词称为待预测词。其中,目标文本中的任一待预测词的解码特征,由解码器基于该待预测词的上一个已预测词的词向量对编码特征进行解码时的隐状态特征确定。如将一个待预测词的上一个已预测词的词向量输入基于LSTM结构的解码器,解码器输出该待预测词的词向量时的隐状态特征,进而确定该待预测词的解码特征。其中,待预测词对应的隐状态特征具体可基于实际的解码器结构确定,在此不做限制。
步骤S42、根据待翻译文本所包含的各词的词向量,确定待翻译文本对应的隐状态特征。
在一些可行的实施方式中,待翻译文本对应的隐状态特征为,将待翻译文本所包含的各词的词向量输入编码器之后,每一个词的词向量所对应的隐状态特征,即隐状态向量{h1,n,h2,n,…,hm,n}。其中,m表示待翻译文本的语句长度,即待翻译文本中词的数量,n表示编码器所采用的神经网络层数。
步骤S43、根据隐状态特征和解码特征,确定待预测词对应的注意力分布、待预测词对应的词分布、注意力分布对应的第一权重,以及词分布对应的第二权重。
在一些可行的实施方式中,为进一步提升文本翻译的准确性,在确定目标文本中的任一待预测时,可基于该待预测词对应的注意力分布和其对应的词分布,确定出最终的待预测词。其中,任一待预测词对应的注意力分布表示了在翻译得到该待预测词的过程中待翻译文本中各词对该待预测词的关注程度(即重要程度),任一待预测词对应的词分布为解码器基于该待预测词的上一个已预测词的词向量和编码特征所输出的、用于表示解码词典中各词为该待预测词的词概率分布。
具体的,对于任一待预测词,基于该待预测词对应的解码特征st,以及待翻译文本所对应的隐状态特征{h1,n,h2,n,…,hm,n}进行注意力计算,得到第i个待预测词对应的注意力分布其中,t表示当前解码时刻。显然易见地,每确定出一个待预测词之后,均需要将该待预测词的词向量输入解码器得到下一个待预测词对应的解码特征,即此时该待预测词为下一个待预测词对应于目标文本中的上一个已预测词。从而基于下一个待预测词的解码特征和待翻译文本对应的隐状态特征得到下一个待预测词对应的注意力分布。
具体的,由于待预测词对应的注意力分布和表示在解码过程中待翻译文本中各词对待预测词的关注程度,因此可基于注意力分布和待翻译文本对应的隐状态特征{h1,n,h2,n,…,hm,n}确定出待预测词对应的上下文向量ct。其中,进一步的,基于待预测词对应的上下文向量ct和解码特征ct,确定出此时解码词典中各词为该待预测词的概率分布,即该待预测词对应的词分布Ppredict。显而易见地,每确定出一个待预测词之后,该待预测词作为已预测词,并需要将其对应的词向量输入解码器得到下一个待预测词对应的解码特征,从而基于下一个待预测词的解码特征和上下文向量得到下一个待预测词对应的词分布。
在一些可行的实施方式中,为进一步确定待预测词的准确性,可确定待预测词对应的注意力分布和词分布对于待预测词的影响程度,从而结合不同的影响程度确定出该待预测词。为方便描述,将待预测词对应的注意力分布对待预测词的影响程度称为第一权重,将待预测词的词分布对待预测词的影响程度称为第二权重。其中,上述第一权重和第二权重均可由待翻译文本对应的隐状态特征{h1,n,h2,n,…,hm,n}和待预测词的解码特征st确定,即上述第二权重为gpred=σ(ctWp+stWq+br),第一权重为1-gpred。其中,Wp、Wq以及br为神经网络参数,可以通过训练得到,在此不做限制。
步骤S45、根据注意力分布、词分布、第一权重以及第二权重,生成待预测词。
在一些可行的实施方式中,对于任一待预测词,可确定待预测词对应的加权后的注意力分布和加权后的词分布的并集,将并集中概率最大的词确定为当前时刻的待预测词。
在一些可行的实施方式中,基于当前待预测词的注意力分布及其第一权重(1-gpred),以及当前待预测词的词分布Ppredict及其第二权重gpred,可得到当前待预测词最终的词概率分布,即P=(1-gpred)*Pencdec-att+gpred*Ppredict。其中,Pencdec-att为注意力分布对应于与Pencdec-att的相同维度的影响力分布,注意力分布的第一权重(1-gpred)即为上述Pencdec-att对应的权重。Pencdec-att用于表示待翻译文本中各词对待预测词的影响程度,如当待翻译文本中包含属于目标语言的词(即上述目标词)时,该目标词在上述Pencdec-att中的分布值相较于源语言的词的分布值大,即目标词对待预测词的影响程度高,作为待预测词出现于目标文本中的概率大。换句话说,对于待翻译文本中的源语言的词,其不会出现在目标文本中,因此待翻译文本中的源语言的词在Pencdec-att中的分布值(可为0)远远小于目标语言的目标词的分布值。其中,注意力分布对应的影响力分布Pencdec-att,可将注意力分布进行归一化处理,并将处理结果做进一步处理使其至与Ppredict具有相同的词的维度后得到,或者基于其他注意力分布处理机制、相关处理函数实现,在此不做限制。基于上述实现方式,可确定出每一待预测词确定过程中的待预测词,进而将其作为目标文本中的已预测词,生成待翻译文本的对应于目标语言的目标文本。
下面结合图4对图3所示的方法进行进一步说明,图4是本申请实施例提供的基于指针网络生成目标文本的原理示意图。在图4中,待翻译文本为“我相信你会succeed”,且源语言为英文,目标语言为中文。将将待翻译文本中各词的词向量输入编码器之后,得到的待翻译文本对应的隐状态特征为{h1,n,h2,n,…,hm,n}。并且基于解码器已预测得到待翻译文本对应于目标语言的目标文本的部分词,即图4中的“I”、“believe”、“you”以及“will”,此时需要预测得到目标文本中词“will”之后的待预测词。
将词“will”对应的词向量输入解码器,基于解码器的解码特征st以及待翻译文本的隐状态特征{h1,n,h2,n,…,hm,n},得到待预测词对应的注意力分布并进一步基于注意力分布确定出对应的影响力分布Pencdec-att。基于待预测词对应的注意力分布和隐状态特征{h1,n,h2,n,…,hm,n}可确定待预测词对应的上下文向量ct,进而基于上下文向量ct和解码特征st确定出待预测词对应的词分布Ppredict。进一步的,基于上下文向量ct和解码特征st确定出词分布Ppredict对应的权重gpred,以及注意力分布对应的权重1-gpred之后,可根据分布Ppredict及其对应的权重gpred,影响力分布Pencdec-att以及对应的权重1-gpred确定出待预测词对应的最终词概率分布P。此时,词概率分布P中概率最大的词即为待翻译文本对应于目标语言的目标文本中词“will”之后的待预测词,即图4所示的“succeed”。从而基于先前预测出的词(“I”、“believe”、“you”以及“will”)以及上述待预测词“succeed”确定出待翻译文本对应于目标语言的目标文本“I believe you will succeed”。
需要特别说明的是,若待翻译文本中包含属于目标语言的目标词时,目标词的词向量和目标文本中每个词的词向量对应于同一向量空间。如图5所示,图5是本申请实施例提供的文本翻译方法的另一场景示意图。在图5中,待翻译文本为源语言(维吾尔语)和目标语言(汉语)的混合文本,在确定待翻译文本中的词的词向量时,由于“大学”与其他词的语言不同,采用源语言对应的向量生成方式对“大学”进行处理时,解码器很可能对“大学”的词向量作为维吾尔语的词向量处理,进而导致翻译效果变差。因此,可将“大学”采用解码器可识别的编码方式进行处理得到对应的词向量后,将“大学”对应的词向量和其他维吾尔语的词的词向量输入至解码器(Encoder)中,进而经相关处理后得到“大学”作为目标文本中的待预测词时所对应的影响力分布和词分布。也就是说,待翻译文本中的“大学”对待预测词的影响力较大,从而基于相对应的影响力分布和词分布可进一步得到其最终的词概率分布,其中,“大学”在最终的词概率中的概率最大,进而将概率最大的词(大学)作为目标文本中的一个待预测词。
在本申请实施例中,在对待翻译文本进行翻译处理时,在待翻译文本为源语言和目标语言的混合文本时,对于待翻译文本中包含的目标语言的目标词,使用共享目标端词表的方式,即待翻译文本中包含的属于目标语言的目标词的词向量和目标文本中词的词向量对应于同一向量空间,从而使得编码部分和解码部分所处理的目标词的词向量是相同的,可以有效避免翻译得到的目标文本UNK问题的出现,并能够有效提升解码端对于待翻译文本中的目标词的识别能力,提升了待翻译文本的翻译准确性。
在一些可行的实施方式中,上述文本翻译方法可基于文本翻译模型实现,其中,上述文本翻译模型的训练方法可参见图6。图6是本申请实施例提供的模型训练方法的流程示意图,图6所示模型训练方法可包括如下步骤:
步骤S5、获取第一训练集和第二训练集。
在一些可行的实施方式中,用于训练文本翻译模型的训练数据包括第一训练集和第二训练集。其中,第一训练集中包括多个训练文本,每个训练文本对包括第一训练文本和第二训练文本,并且第一训练文本为源语言文本,第二训练文本为第一训练文本对应的目标语言文本。假设源语言为维吾尔语,目标语言为汉语,每个训练文本对的第一训练文本的语言为维吾尔语,第二训练文本的语言为汉语,并且第一训练文本的语义和第二训练文本的语义相同。也就是说,对于第一训练集中的任一训练文本对来说,第二训练文本为第一训练文本的目标语言的翻译文本。
其中,第一训练集中的各训练文本对可从网络、数据库等获取,也可以基于人工构造获得,本申请实施例在此不做限制。如可基于现有的翻译模型的训练文本集得到,也可在获取源语言文本或者目标语言文本之后,确定出其相对应的另一种语言文本,从而构建出第一训练集。需要特别说明的是,基于第一训练集对初始模型训练,可使训练后的模型具有将单一语言的待翻译文本翻译为目标语言的文本的能力。
其中,第二训练集同样包括多个训练文本对,每个训练文本对中包括第三训练文本和第四训练文本。需要特别说明的是,对于第二训练集中的每个训练文本对,第三训练文本为源语言和目标语言的混合文本,第四训练文本为第三训练文本对应的目标语言文本。
假设源语言为维吾尔语,目标语言为汉语,对于第一训练集中的每个训练文本来说,每个训练文本对的第一训练文本的语言为维吾尔语,相对应的第二训练文本的语言为汉语。对于第二训练集中的每个训练文本对来说,每个训练文本对的第三训练文本的语言为维吾尔语和汉语,第四训练文本的语言为汉语,并且第三训练文本的语义和第四训练文本的语义相同。也就是说,对于第二训练集中的任一训练文本对来说,第三训练文本包括源语言和目标语言的词,且第四训练文本为第三训练文本的目标语言的翻译文本。需要特别说明的是,基于第二训练集对初始翻译模型进行训练,可使训练后的模型具有将源语言和目标语言的混合文本翻译为目标语言文本的能力。
在一些可行的实施方式中,在获取第二训练集时,可先获取初始训练集。其中初始训练集包括多个初始文本对,每个初始文本对包括第一文本和第二文本,并且第一文本为源语言文本,第二文本为第一文本对应的目标语言文本。其中,上述初始训练集的获取方式可与第一训练集的获取方式相同,也可将第一训练集作为上述初始训练集,也可采用与第一训练集的获取方式相同的方式获取部分初始文本对之后,再将第一训练集中的训练文本对作为另一部分的初始文本对,具体可基于实际应用场景需求确定,在此不做限制。
对于初始训练集中的任意一个初始文本对,基于词对齐工具、短语表以及其他翻译模型将初始文本对的第一文本和第二文本中的词和/或短语进行对齐,得到第一文本和第二文本中的词对齐信息和/或短语对齐信息。其中,上述词对齐工具包括但不限于FastAlign以及GIZA++等,在此不做限制。上述短语表为源语言和目标语言中各词的对应信息,如英汉词典中的个英文词和汉语的对应信息等。
如图7所示,图7是本申请实施例提供的确定对齐信息的场景示意图。在图7中,当一个初始文本对中的第一文本为“我相信你会成功”,第二文本为“I believe you willsucceed”时,基于上述方式将第一文本和第二文本的词进行对齐之后,可得到第一文本和第二文本的词对齐信息,即图7中所示的第一文本中的“我”、“相信”、“你”、“会”、“成功”分别与第二文本中“I”、“believe”、“you”、“will”、“succeed”相对应。当另一初始文本对中的第一文本为“他遇到麻烦了”,第二文本为“He is in trouble”时,基于上述方式将第一文本和第二文本的词进行对齐之后,可得到第一文本和第二文本的词对齐信息和短语对齐信息,即图7中所示的第一文本中的“他”、“遇到麻烦了”分别与第二文本中“He”、“is introuble”相对应。
进一步的,根据初始文本对的第一文本和第二文本中的词对齐信息和/或短语对齐信息,采用第二文本中的至少一个词和/或短语替换对应的第一文本中的至少一个待替换词和/或待替换短语,得到替换后的文本,此时可将替换后的文本确定为第二训练集中的一个训练文本对中的第三训练文本,将替换后的文本对应的第二文本作为第三训练文本相对应的第四训练文本。
具体可对第一文本和第二文本进行文本分析,得到文本分析结果,进而结合词对齐信息和/或短语对齐信息,确定第一文本中的待替换词和/或待替换短语。其中,上述文本分析结果用于说明第一文本和第二文本中各词和/或短语的语句成分,如代词、名词以及动词等,具体可通过序列标注、句法树以及词替换工具等方式确定,或者可通过随机确定等方式确定,在此不做限制。基于文本分析,可避免将第一文本中无意义的词和/或短语,如语气词、无意义词确定为待替换词和/或待替换短语。
进一步的,采用第二文本中的与上述待替换词和/或待替换短语对应的至少一个词和/或短语,替换第一文本中的待替换词和/或待替换短语。其中,上述采用第二文本中的至少一个词和/或短语替换对应的第一文本中的待替换词和/或待替换短语的目的在于,构建出同时包括源语言的词和/或短语,以及目标语言的词和/或短语的文本,因此待替换词和/或待替换短语的替换数量可同样基于实际应用场景确定,在此不做限制。基于上述实现方式,可构建出多个包含第三训练文本和第四训练文本的训练文本对,进而构建出用于训练初始翻译模型的第二训练集。
如图8所示,图8是本申请实施例提供的确定第三训练文本的场景示意图。如图8所示,初始文本对中的第一文本为“我相信你会成功”,相对应的第二文本为“I believe youwill succeed”。基于词对齐信息和文本分析结果可确定出第一文本中的待替换词分别为“相信”和“成功”。进而采用第二文本中相对应的“believe”替换“相信”、采用“succeed”替换“成功”之后,得到替换后的训练文本“我believe你会succeed”。此时该文本可作为第二训练集中一个训练文本对中的第三训练文本,相对应的第二文本“I believe you willsucceed”可作为图8中第三训练文本对应的第四训练文本。
在一些可行的实施方式中,为确保第二训练集对于初始翻译模型的训练效果,可在获取到初始训练集之后,基于预设条件对初始训练集中的各初始文本进行过滤筛选,以得到具有完整语义且语义较为丰富的第二训练集。
具体的,可确定初始训练集中各文本对的第一文本和/或第二文本的文本长度,并过滤掉第一文本和第二文本中任一文本长度小于设定长度的文本对。通过文本长度对文本对进行过滤,可将包含语义较为单一、语义表述不完整的第一文本或者第二文本的文本对剔除。
可选的,当任一文本对的词对齐信息和/或短语对齐信息为特定字符的对齐信息时,说明该文本对中第一文本和/或第二文本不具有任何语义,此时可将该文本对剔除,以避免得到无意义的训练文本对。其中,上述特定字符包括但不限于标点符号、字符串以及其他符号等,在此不做限制。
可选的,当任一文本对中的词对齐信息和/或短语对齐信息中包括一对多或者多对一的词对齐信息或短语信息时,说明该文本对中第一文本中的某一词和/或短语对应第二文本中的多个词和/或短语,或者第二文本中的某一词和/或短语对应第一文本中的多个词和/或短语,为避免翻译过程中引起歧义,此时可将此类文本对剔除。
可选的,每确定一个初始文本对的词对齐信息和/或短语对齐信息之后,可将该初始文本对的第一文本中各词的词对齐信息和/或各短语的短语信息与之前的初始文本对的词对齐信息和/或短语对齐进行比较。若当前初始文本中的某一词的词对齐信息和/或某一短语的短语信息,与之前所有初始文本对的词对齐信息和/或短语信息不一致,则说明当前初始文本对的词对齐信息和/或短语对齐信息出现错误,此时可将当前初始文本对剔除。
如当前初始文本对中第一文本的词“A”对应第二文本中的词“B”,但是此前其他初始文本对中第一文本的词“A”均对应词“B”,此时可直接将当前初始文本对剔除。
需要特别说明的是,为保证基于第一训练集训练初始翻译模型的训练效果和基于第二训练集训练初始翻译模型的训练效果保持均衡,以使最终得到的文本翻译模型将混合语言的文本翻译至目标语言的文本,以及将源语言文本翻译至目标语言的文本的准确性保持平衡,第二训练集中训练文本对中的数量可为第一训练集中训练文本对的数量的一定比例,如百分之十、百分之二十等,具体可基于实际应用场景确定在,在此不做限制。
在一些可行的实施方式中,在基于初始训练集获取第二训练集时,还可先确定初始文本对中第一文本和第二文本中的词对齐信息和/或短语对齐信息,进而在基于文本分析结果进行词替换之后,对替换后的文本进行过滤。具体可结合图9对该方法进行说明,图9是本申请实施例提供的确定第二训练集的原理示意图。如图9所示,对于初始训练集中的每个初始文本对,先确定其第一文本和第二文本的词对齐信息和/或短语对齐信息,同时对第一文本和第二文本进行文本分析,基于文本分析结果和词对齐信息和/或短语对齐信息对第一文本中的代替换词和/或待替换短语进行替换之后,可基于上述预设条件确定上述替换是否合理。即当替换后的文本的文本长度小于预定长度,或者替换时的词对齐信息和/或短语对齐信息为特定字符的对齐信息,或者替换时的词对齐信息和/或短语对齐信息中包括一对多或者多对一的词对齐信息或短语对齐信息时,确定此次替换不合理(即图9中“替换合理”判断步骤对应的N,表示替换不合理)。在任一初始文本对对应的替换过程不合理的情况下,可舍弃该初始文本对并对下一文本对进行替换。
当替换后的文本的文本长度不小于预定长度,且替换时的词对齐信息和/或短语对齐信息不为特定字符的对齐信息,且替换时的词对齐信息和/或短语对齐信息中不包括一对多或者多对一的词对齐信息或短语对齐信息时,确定此次替换合理(即图9中“替换合理”判断步骤对应的Y,表示替换合理)。在基于上述替换过程得到的作为第二训练集中的训练文本对之后,需要确定替换是否结束,即确定是否停止上述替换过程来得到第二训练集中的训练文本对。当确定替换结束(图9中“替换结束”判断步骤对应的Y,表示替换结束),终止上述替换过程得到以得到第二训练集。当确定替换未结束(图9中“替换结束”判断步骤对应的N,表示替换未结束),则继续重复上述替换过程以不断得到新的训练文本对,直至替换结束。
其中,当基于上述替换过程得到的训练文本对达到第一训练集中训练文本对的数量的预设比例,或者无第一文本存在待替换词和/或待替换短语等时,可确定替换结束,否则上述替换过程将持续进行。
步骤S6、根据第一训练集和第二训练集对初始翻译模型进行训练,直至模型的训练损失满足预设的训练结束条件,将训练停止时的模型确定为文本翻译模型。
在一些可行的实施方式中,在基于第一训练集和第二训练集对初始翻译模型进行训练时,初始翻译模型的输入为第一训练集中的各第一训练文本,以及第二训练集中的各第三训练文本,初始翻译模型输出各第一训练文本对应于目标语言的预测文本,以及各第三训练文本对应于目标语言的预测文本。其中,每将一个第一训练文本或者第三训练文本输入初始翻译模型以对初始翻译模型进行训练时,可确定出初始翻译模型的训练损失,该训练损失表征了第一训练文本与其相对应的预测文本之间的差异,以及第三训练文本与其相对应的预测文本之间的差异。根据每次的训练损失不断调整初始翻译模型的模型参数,以不断提升初始翻译模型的翻译稳定性和准确性,并在模型的训练损失满足预设的训练结束条件时,将训练停止时的模型确定为最终的文本翻译模型。其中,上述训练结束条件可以为上述训练损失达到收敛状态,或者为上述收敛损失的值低于预设阈值,或者是连续的设定训练次数的训练损失之间的差异小于设定值(即训练损失很小且连续多次训练的损失差异很小趋于平稳),在此不做限制。
其中,上述初始翻译模型可采用神经网络结构与指针网络相结合的方式实现,且神经网络包括但不限于循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆神经网络(Long Short-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)以及基于自注意力(self-attention)的神经网络构等,具体可基于实际应用场景需求配置和选择,在此不做限制。
结合图10进一步对本申请实施例提供的模型训练方法进行说明。图10是本申请实施例提供的模型训练的场景示意图。以初始训练集中的一个初始文本对为例,该初始文本对包括第二文本“我很喜欢动画片里面的光头强啊!”及其对应的语言为维吾尔语的第一文本。可以通过词对齐、短语表等方式可确定第一文本和第二文本的词对齐信息和/或短语对齐信息,基于序列标注、句法树等方式确定第一文本和第二文本的文本分析结果,从而基于第一文本和第二文本的词对齐信息和/或短语对齐信息,以及对应的文本分析结果,确定第一文本中待替换词和/或待替换短语(可选的,可以设定每个第一文本中待替换词和/或待替换短语的数量,如设定最多替换几个,或者替换几个),并对第一文本中的待替换词和/或待替换短语进行替换。或者采用图10中的随机替换方式(Random)方式对第一文本中的待替换词和/或待替换短语进行替换得到不同的文本对。进一步可将得到的文本对作为第二训练集中的训练文本对输入初始翻译模型(如可以是图10中所示的基于Transformer的初始翻译模型)中,以对初始翻译模型进行训练以得到最终的文本翻译模型。
在一些可行的实施方式中,为进一步确保基于第一训练集和第二训练集训练得到的文本翻译模型具有稳定的翻译能力,在上述训练结束之后,可测试集对得到文本翻译模型进行测试。若测试结果满足预设测试条件时,则停止模型训练,否则继续基于第一训练集和第二训练集进行模型训练,直至得到最终的文本翻译模型。
具体的,测试训练集中包括多组测试文本,每组测试文本包括多个测试文本对,其中,每个测试文本对中包括第一测试文本和多个第二测试文本,第一测试文本为源语言文本,或者为源语言和目标语言的混合文本,第二测试文本为第一测试文本相对应的目标语言文本。也就是说,第一测试文本可以同时对应多个目标语言文本,即传统意义上的多种表达方式。并且,测试训练集中的测试文本可基于第一训练集和第二训练集相同的获取方式获得,在此不再赘述。
在基于测试文本对文本翻译模型进行测试时,可将每组测试文本中的第一测试文本输入至文本翻译模型中,得到各第一测试文本对应于目标语言的预测文本,进而基于各第二测试文本和相对应的预测文本,确定每组测试文本对应的测试值。其中,对于每组测试文本对应的测试值,可确定每个测试文本对中各第二测试本文和相对应的预测文本的文本相似度,进而确定出该组测试文本中每个测试文本对的文本相似度平均值,以将该文本相似度平均值确定为该组测试文本对应的测试值,测试值越高表示预测文本与第二测试文本的相似度越高,模型翻译效果越好。
其中,上述第二测试文本和相对应的预测文本的文本相似度,可基于编辑距离计算方法、杰卡德系数计算方法、TF计算方法以及TFIDF计算方法等进行计算,或者基于第二测试文本和相对应的预测文本,计算得到测试文本对应的BLEU(Bilingual EvaluationUnderstudy,双语评估替补)值作为文本相似度,文本相似度的具体计算方式可基于实际应用场景需求确定,在此不做限制。
进一步的,在确定出每组测试文本对应的测试值之后,若连续预设组数对应的测试值没有提升,则表示模型的翻译性能趋于稳定,此时可确定基于第一训练集和第二训练集训练得到的文本翻译模型符合预设测试条件。同理,拖连续预设组数对应的测试值起伏较大,说明上述文本翻译模型的翻译能力并未稳定,此时可基于第一训练集和第二训练集继续对模型进行训练,直至得到最终的文本翻译模型。
在一些可行的实施方式中,结合上述文本翻译模型的训练方式,在基于第一训练集和第二训练集对初始翻译模型进行训练的过程中,还可实时基于测试集对初始翻译模型进行测试,以在达到一定条件时终止模型的训练,得到最终的文本翻译模型。具体的,在模型训练的过程中,基于初始翻译模型实时确定每组测试文本对应的测试值,当连续预设组数的测试文本对应的测试值不再提升时,说明此时初始翻译模型的翻译能力趋于稳定。此时可将最大测试值所对应的初始翻译模型确定为最终的文本翻译模型。
参见表1,表1为基于测试数据对文本翻译模型进行测试的部分实例。当将越南语作为源语言,将汉语作为目标语言训练得到文本翻译模型之后,一测试文本对中的第一测试文本为越南语和汉语的混合文本“thích苹果”,将其输入至文本翻译模型之后得到对应的预测文本“我喜欢吃苹果”。当将维吾尔语作为源语言,将汉语作为目标语言训练得到文本翻译模型之后,一测试文本对中的第一测试文本为越南语和汉语的混合文本“表格 ”,将其输入至文本翻译模型之后得到对应的预测文本“表格的最顶部角写的是什么”。
表1测试实例
基于本申请实施例提供的模型训练方法,可训练得到具有高翻译准确度的文本翻译模型。如表2所示,方法1为传统的将源语言翻译为目标语言的模型训练的方法,方法2为采用标签化方法(Tentrans-tag)对训练数据进行处理后,基于处理后的训练数据进行模型训练的方法,方法3为对训练数据进行词语转化后,基于转化后的训练数据进行模型训练的方法,方法4为本申请提供的模型训练方法。由表2中不难看出,本申请实施例提供的模型训练方法的BLEU值最高,说明本申请实施例提供的模型训练方法所训练得到的文本翻译模型的准确度最高。召回率表示模型输出的预测样本的正确率,基于本申请实施例提供的方法所训练得到的文本翻译模型,相较于其他训练方法训练得到的模型具有较高的正确率。
表2不同训练方法得到的文本翻译模型的性能对比
方法 | BLEU | 召回率 |
方法1 | 31.25 | 2.09% |
方法2 | 48.10 | 99.16% |
方法3 | 47.08 | 74.40% |
本方法 | 50.87 | 93.52% |
如表3所示,采用本申请实施例提供的模型训练方法训练得到的文本翻译模型,相较于现有的文本翻译产品(工具)同样具有较高的BLEU值和召回率(RECALL),说明本申请实施例中的文本翻译模型的文本翻译准确度高于现有产品。
表3本申请实施例中文本翻译模型与现有产品的性能比较
产品 | BLEU | 召回率 |
文本翻译模型 | 50.87 | 93.52% |
产品1 | 45.52 | 63.01% |
产品2 | 31.59 | 18.60% |
产品3 | 20.75 | 20.38% |
进一步的,请一并参见图11,图11是本申请实施例提供的文本翻译模型的性能对比示意图。其中,图11是基于表1和表2得到的。通过图11可可直观看出,本申请实施例提供的模型训练方法的训练效果明显优于现有的其他训练方法,且基于本申请实施例提供的模型训练方法所训练得到的文本翻译模型,其翻译正确率明显优于现有的文本翻译产品。
在本申请实施例中,在对待翻译文本进行翻译处理时,在待翻译文本为源语言和目标语言的混合文本时,对于待翻译文本中包含的目标语言的目标词,使用共享目标端词表的方式,即待翻译文本中包含的属于目标语言的目标词的词向量和目标文本中词的词向量对应于同一向量空间,从而使得编码部分和解码部分所处理的目标词的词向量是相同的,可以有效避免翻译得到的目标文本UNK的出现,并能够有效提升解码端对于待翻译文本中的目标词的识别能力。另一方面,通过指针网络可促进解码端对待翻译文本中属于目标语言的目标词的输出,提升了待翻译文本的翻译准确性。
参见图12,图12是本申请实施例提供的文本翻译装置的结构示意图。本申请实施例提供的训练装置1包括:
获取模块11,用于获取待翻译文本,上述待翻译文本为源语言和目标语言的混合文本;
生成模块12,用于根据上述源语言对应的词向量空间,生成上述待翻译文本中各第一词的词向量,根据上述目标语言对应的词向量空间,生成上述待翻译文本中各第二词的词向量,上述第一词为对应于上述源语言的词,上述第二词为对应于上述目标语言的词;
确定模块13,用于根据上述待翻译文本所包含的各词的词向量,确定上述待翻译文本对应的编码特征;
翻译模块14,用于根据上述编码特征,生成上述待翻译文本的对应于上述目标语言的目标文本。
在一些可行的实施方式中,上述生成模块11,用于:
对上述待翻译文本进行分词处理,得到上述待翻译文本所包含的各词;
确定上述待翻译文本所包含的各词中的各第一词,根据上述源语言对应的词向量空间,生成上述各第一词的词向量;
确定上述待翻译文本所包含的各词中的各第二词,根据上述目标语言对应的词向量空间,生成上述各第二词的词向量。
在一些可行的实施方式中,上述翻译模块14,用于:
对于上述待翻译文本的对应于上述目标语言的目标文本的每个待预测词,根据上述编码特征和上述待预测词的前一个已预测词的词向量,确定上述待预测词对应的解码特征;
根据上述解码特征,生成上述待预测词。
在一些可行的实施方式中,上述翻译模块14,用于:
根据上述待翻译文本所包含的各词的词向量,确定上述待翻译文本对应的隐状态特征;根据上述隐状态特征和上述解码特征,确定上述待预测词对应的注意力分布、上述待预测词对应的词分布、上述注意力分布对应的第一权重,以及上述词分布对应的第二权重;
根据上述注意力分布、上述词分布、上述第一权重以及上述第二权重,生成上述待预测词。
在一些可行的实施方式中,上述翻译模块14,用于:
根据上述隐状态特征和上述解码特征,上述待预测词对应的注意力分布;
根据上述隐状态特征和上述注意力分布,确定上述待预测词对应的上下文向量;
根据上述上下文向量和上述解码特征,确定上述待预测词对应的词分布、上述注意力分布对应的第一权重,以及上述词分布对应的第二权重。
在一些可行的实施方式中,生成上述待翻译文本所包含的各词的词向量、上述根据上述待翻译文本所包含的各词的词向量,确定上述待翻译文本对应的编码特征,以及上述根据上述编码特征,生成上述待翻译文本的对应于上述目标语言的目标文本是通过文本翻译模型实现的;
其中,上述文本翻译模型是通过翻译装置训练得到的:
上述训练装置,用于:
获取第一训练集和第二训练集;
其中,上述第一训练集中的每个训练文本对包括第一训练文本和第二训练文本,上述第一训练文本为源语言文本,上述第二训练文本为上述第一训练文本对应的目标语言文本;
上述第二训练集包括中的每个训练文本对包括第三训练文本和第四训练文本,上述第三训练文本为上述源语言和上述目标语言的混合文本,上述第四训练文本为上述第三训练文本对应的目标语言文本;
根据上述第一训练集和上述第二训练集对初始翻译模型进行训练,直至模型的训练损失满足预设的训练结束条件,将训练停止时的模型确定为上述文本翻译模型;
其中,上述初始翻译模型的输入为各上述第一训练文本和各上述第三训练文本,上述初始翻译模型的输出为输入的各训练文本对应于上述目标语言的预测文本;
上述训练损失表征了上述输入的各训练文本与相对应的预测文本之间的差异。
在一些可行的实施方式中,上述训练装置,用于:
获取第二训练集包括:
获取初始训练集,上述初始训练集中的每个初始文本对包括第一文本和第二文本,上述第一文本为源语言文本,上述第二文本为上述第一文本对应的目标语言文本;
对于上述初始训练集中的每个初始文本对,确定上述初始文本对的第一文本和第二文本中的词对齐信息和/或短语对齐信息;
根据上述词对齐信息和/或短语对齐信息,采用上述初始文本对的第二文本中的至少一个词和/或短语替换对应的第一文本中的词和/或短语,得到上述第三训练文本,并将上述第二文本作为上述第四训练文本。
在一些可行的实施方式中,上述训练装置,用于:
对上述第一文本和上述第二文本进行文本分析,得到文本分析结果,上述文本分析包括句法分析和/或序列标注;
根据上述词对齐信息和/或短语对齐信息,以及上述文本分析结果,确定上述第一文本中的待替换词和/或待替换短语;
采用上述第二文本中与上述待替换词和/或待替换短语对应的至少一个词和/或短语,替换上述第一文本中的待替换词和/或待替换短语。
在一些可行的实施方式中,上述训练装置,还用于:
根据预设条件对上述初始训练集中的各上述初始文本对进行过滤;
其中,上述预设条件包括以下至少一项:
文本对的第一文本的文本长度和/或第二文本的文本长度小于设定长度;
文本对的词对齐信息和/或短语对齐信息为特定字符的对齐信息;
文本对的词对齐信息和/或短语对齐信息中包括一对多或者多对一的词对齐信息或短语对齐信息。
在一些可行的实施方式中,上述初始翻译模型为基于指针网络的翻译模型。
具体实现中,上述文本翻译装置1可通过其内置的各个功能模块执行如上述图1、图3和/或图6中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,通过将待翻译文本中包含属于目标语言的目标词的词向量和目标文本中词的词向量对应于同一向量空间,可提升待翻译文本中各词的词向量的识别率,有助于提升待翻译文本的翻译准确性。同时基于指针网络训练的到的文本翻译模型,可在待翻译文本中出现属于目标语言的目标词时,可对其进行准确识别并输出,从而进一步提升对混合语言文本的翻译准确性。
参见图13,图13是本申请实施例提供的电子设备的结构示意图。如图13所示,本实施例中的电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述电子设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示,作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。
在图13所示的电子设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取待翻译文本,上述待翻译文本为源语言和目标语言的混合文本;
根据上述源语言对应的词向量空间,生成上述待翻译文本中各第一词的词向量,根据上述目标语言对应的词向量空间,生成上述待翻译文本中各第二词的词向量,上述第一词为对应于上述源语言的词,上述第二词为对应于上述目标语言的词;
根据上述待翻译文本所包含的各词的词向量,确定上述待翻译文本对应的编码特征;
根据上述编码特征,生成上述待翻译文本的对应于上述目标语言的目标文本。
在一些可行的实施方式中,上述处理器1001用于:
对上述待翻译文本进行分词处理,得到上述待翻译文本所包含的各词;
确定上述待翻译文本所包含的各词中的各第一词,根据上述源语言对应的词向量空间,生成上述各第一词的词向量;
确定上述待翻译文本所包含的各词中的各第二词,根据上述目标语言对应的词向量空间,生成上述各第二词的词向量。
在一些可行的实施方式中,上述处理器1001用于:
对于上述待翻译文本的对应于上述目标语言的目标文本的每个待预测词,根据上述编码特征和上述待预测词的前一个已预测词的词向量,确定上述待预测词对应的解码特征;
根据上述解码特征,生成上述待预测词。
在一些可行的实施方式中,上述处理器1001用于:
根据上述待翻译文本所包含的各词的词向量,确定上述待翻译文本对应的隐状态特征;
根据上述隐状态特征和上述解码特征,确定上述预测词对应的注意力分布、上述待预测词对应的词分布、上述注意力分布对应的第一权重,以及上述词分布对应的第二权重;
根据上述注意力分布、上述词分布、上述第一权重以及上述第二权重,生成上述待预测词。
在一些可行的实施方式中,上述处理器1001用于:
根据上述隐状态特征和上述解码特征,上述待预测词对应的注意力分布;
根据上述隐状态特征和上述注意力分布,确定上述待预测词对应的上下文向量;
根据上述上下文向量和上述解码特征,确定上述待预测词对应的词分布、上述注意力分布对应的第一权重,以及上述词分布对应的第二权重。
在一些可行的实施方式中,生成上述待翻译文本所包含的各词的词向量、上述根据上述待翻译文本所包含的各词的词向量,确定上述待翻译文本对应的编码特征,以及上述根据上述编码特征,生成上述待翻译文本的对应于上述目标语言的目标文本是通过文本翻译模型实现的;
上述处理器1001用于:
获取第一训练集和第二训练集;
其中,上述第一训练集中的每个训练文本对包括第一训练文本和第二训练文本,上述第一训练文本为源语言文本,上述第二训练文本为上述第一训练文本对应的目标语言文本;
上述第二训练集包括中的每个训练文本对包括第三训练文本和第四训练文本,上述第三训练文本为上述源语言和上述目标语言的混合文本,上述第四训练文本为上述第三训练文本对应的目标语言文本;
根据上述第一训练集和上述第二训练集对初始翻译模型进行训练,直至模型的训练损失满足预设的训练结束条件,将训练停止时的模型确定为上述文本翻译模型;
其中,上述初始翻译模型的输入为各上述第一训练文本和各上述第三训练文本,上述初始翻译模型的输出为输入的各训练文本对应于上述目标语言的预测文本;
上述训练损失表征了上述输入的各训练文本与相对应的预测文本之间的差异。
上述处理器1001用于:
获取初始训练集,上述初始训练集中的每个初始文本对包括第一文本和第二文本,上述第一文本为源语言文本,上述第二文本为上述第一文本对应的目标语言文本;
对于上述初始训练集中的每个初始文本对,确定上述初始文本对的第一文本和第二文本中的词对齐信息和/或短语对齐信息;
根据上述词对齐信息和/或短语对齐信息,采用上述初始文本对的第二文本中的至少一个词和/或短语替换对应的第一文本中的词和/或短语,得到上述第三训练文本,并将上述第二文本作为上述第四训练文本。
在一些可行的实施方式中,上述处理器1001用于:
对上述第一文本和上述第二文本进行文本分析,得到文本分析结果,上述文本分析包括句法分析和/或序列标注;
根据上述词对齐信息和/或短语对齐信息,以及上述文本分析结果,确定上述第一文本中的待替换词和/或待替换短语;
采用上述第二文本中与上述待替换词和/或待替换短语对应的至少一个词和/或短语,替换上述第一文本中的待替换词和/或待替换短语。
在一些可行的实施方式中,上述处理器1001还用于:
根据预设条件对上述初始训练集中的各上述初始文本对进行过滤;
其中,上述预设条件包括以下至少一项:
文本对的第一文本的文本长度和/或第二文本的文本长度小于设定长度;
文本对的词对齐信息和/或短语对齐信息为特定字符的对齐信息;
文本对的词对齐信息和/或短语对齐信息中包括一对多或者多对一的词对齐信息或短语对齐信息。
在一些可行的实施方式中,上述初始翻译模型为基于指针网络的翻译模型。
应当理解,在一些可行的实施方式中,上述处理器1001可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,上述电子设备1000可通过其内置的各个功能模块执行如上述图1、图3和/或图6中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,通过将待翻译文本中包含属于目标语言的目标词的词向量和目标文本中词的词向量对应于同一向量空间,可提升待翻译文本中各词的词向量的识别率,有助于提升待翻译文本的翻译准确性。同时基于指针网络训练的到的文本翻译模型,可在待翻译文本中出现属于目标语言的目标词时,可对其进行准确识别并输出,从而进一步提升对混合语言文本的翻译准确性。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,被处理器执行以实现图1、图3和/或图6中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的任务处理装置的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(randomaccess memory,RAM)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1、图3和/或图6中各个步骤所提供的方法。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或电子设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (15)
1.一种文本翻译方法,其特征在于,包括:
获取待翻译文本,所述待翻译文本为源语言和目标语言的混合文本;
根据所述源语言对应的词向量空间,生成所述待翻译文本中各第一词的词向量,根据所述目标语言对应的词向量空间,生成所述待翻译文本中各第二词的词向量,所述第一词为对应于所述源语言的词,所述第二词为对应于所述目标语言的词;
根据所述待翻译文本所包含的各词的词向量,确定所述待翻译文本对应的编码特征;
根据所述编码特征,生成所述待翻译文本的对应于所述目标语言的目标文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述源语言对应的词向量空间,生成所述待翻译文本中各第一词的词向量,根据所述目标语言对应的词向量空间,生成所述待翻译文本中各第二词的词向量,包括:
对所述待翻译文本进行分词处理,得到所述待翻译文本所包含的各词;
确定所述待翻译文本所包含的各词中的各第一词,根据所述源语言对应的词向量空间,生成所述各第一词的词向量;
确定所述待翻译文本所包含的各词中的各第二词,根据所述目标语言对应的词向量空间,生成所述各第二词的词向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述编码特征,生成所述待翻译文本的对应于目标语言的目标文本,包括:
对于所述待翻译文本的对应于所述目标语言的目标文本的每个待预测词,根据所述编码特征和所述待预测词的前一个已预测词的词向量,确定所述待预测词对应的解码特征;
根据所述解码特征,生成所述待预测词。
4.根据权利要求3所述的方法,其特征在于,所述根据所述解码特征,生成所述待预测词,包括:
根据所述待翻译文本所包含的各词的词向量,确定所述待翻译文本对应的隐状态特征;
根据所述隐状态特征和所述解码特征,确定所述待预测词对应的注意力分布、所述待预测词对应的词分布、所述注意力分布对应的第一权重,以及所述词分布对应的第二权重;
根据所述注意力分布、所述词分布、所述第一权重以及所述第二权重,生成所述待预测词。
5.根据权利要求4所述的方法,其特征在于,所述根据所述隐状态特征和所述解码特征,确定所述待预测词对应的注意力分布、所述待预测词对应的词分布、所述注意力分布对应的第一权重,以及所述词分布对应的第二权重,包括:
根据所述隐状态特征和所述解码特征,确定所述待预测词对应的注意力分布;
根据所述隐状态特征和所述注意力分布,确定所述待预测词对应的上下文向量;
根据所述上下文向量和所述解码特征,确定所述待预测词对应的词分布、所述注意力分布对应的第一权重,以及所述词分布对应的第二权重。
6.根据权利要求1所述的方法,其特征在于,生成所述待翻译文本所包含的各词的词向量、所述根据所述待翻译文本所包含的各词的词向量,确定所述待翻译文本对应的编码特征,以及所述根据所述编码特征,生成所述待翻译文本的对应于所述目标语言的目标文本是通过文本翻译模型实现的;
其中,所述文本翻译模型是通过以下方式训练得到的:
获取第一训练集和第二训练集;
其中,所述第一训练集中的每个训练文本对包括第一训练文本和第二训练文本,所述第一训练文本为源语言文本,所述第二训练文本为所述第一训练文本对应的目标语言文本;
所述第二训练集包括中的每个训练文本对包括第三训练文本和第四训练文本,所述第三训练文本为所述源语言和所述目标语言的混合文本,所述第四训练文本为所述第三训练文本对应的目标语言文本;
根据所述第一训练集和所述第二训练集对初始翻译模型进行训练,直至模型的训练损失满足预设的训练结束条件,将训练停止时的模型确定为所述文本翻译模型;
其中,所述初始翻译模型的输入为各所述第一训练文本和各所述第三训练文本,所述初始翻译模型的输出为输入的各训练文本对应于所述目标语言的预测文本;
所述训练损失表征了所述输入的各训练文本与相对应的预测文本之间的差异。
7.根据权利要求6所述的方法,其特征在于,获取第二训练集包括:
获取初始训练集,所述初始训练集中的每个初始文本对包括第一文本和第二文本,所述第一文本为源语言文本,所述第二文本为所述第一文本对应的目标语言文本;
对于所述初始训练集中的每个初始文本对,确定所述初始文本对的第一文本和第二文本中的词对齐信息和/或短语对齐信息;
根据所述词对齐信息和/或短语对齐信息,采用所述初始文本对的第二文本中的至少一个词和/或短语替换对应的第一文本中的词和/或短语,得到所述第三训练文本,并将所述第二文本作为所述第四训练文本。
8.根据权利要求7所述的方法,其特征在于,所述根据所述词对齐信息和/或短语对齐信息,采用所述初始文本对的第二文本中的至少一个词和/或短语替换对应的第一文本中的词和/或短语,包括:
对所述第一文本和所述第二文本进行文本分析,得到文本分析结果,所述文本分析包括句法分析和/或序列标注;
根据所述词对齐信息和/或短语对齐信息,以及所述文本分析结果,确定所述第一文本中的待替换词和/或待替换短语;
采用所述第二文本中与所述待替换词和/或待替换短语对应的至少一个词和/或短语,替换所述第一文本中的待替换词和/或待替换短语。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据预设条件对所述初始训练集中的各所述初始文本对进行过滤;
其中,所述预设条件包括以下至少一项:
文本对的第一文本的文本长度和/或第二文本的文本长度小于设定长度;
文本对的词对齐信息和/或短语对齐信息为特定字符的对齐信息;
文本对的词对齐信息和/或短语对齐信息中包括一对多或者多对一的词对齐信息或短语对齐信息。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述初始翻译模型为基于指针网络的翻译模型。
11.一种文本翻译装置,其特征在于,所述文本翻译装置包括:
获取模块,用于获取待翻译文本,所述待翻译文本为源语言和目标语言的混合文本;
生成模块,用于根据所述源语言对应的词向量空间,生成所述待翻译文本中各第一词的词向量,根据所述目标语言对应的词向量空间,生成所述待翻译文本中各第二词的词向量,所述第一词为对应于所述源语言的词,所述第二词为对应于所述目标语言的词;
确定模块,用于根据所述待翻译文本所包含的各词的词向量,确定所述待翻译文本对应的编码特征;
翻译模块,用于根据所述编码特征,生成所述待翻译文本的对应于所述目标语言的目标文本。
12.根据权利要求11所述的文本翻译装置,其特征在于,所述生成模块,用于:
对所述待翻译文本进行分词处理,得到所述待翻译文本所包含的各词;
确定所述待翻译文本所包含的各词中的各第一词,根据所述源语言对应的词向量空间,生成所述各第一词的词向量;
确定所述待翻译文本所包含的各词中的各第二词,根据所述目标语言对应的词向量空间,生成所述各第二词的词向量。
13.根据权利要求11所述的文本翻译装置,其特征在于,所述翻译模块,用于:
对于所述待翻译文本的对应于所述目标语言的目标文本的每个待预测词,根据所述编码特征和所述待预测词的前一个已预测词的词向量,确定所述待预测词对应的解码特征;
根据所述解码特征,生成所述待预测词。
14.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序;
所述处理器被配置用于在调用所述计算机程序时,执行如权利要求1至10任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873804.8A CN111931517B (zh) | 2020-08-26 | 2020-08-26 | 文本翻译方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873804.8A CN111931517B (zh) | 2020-08-26 | 2020-08-26 | 文本翻译方法、装置、电子设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931517A true CN111931517A (zh) | 2020-11-13 |
CN111931517B CN111931517B (zh) | 2023-12-12 |
Family
ID=73305870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010873804.8A Active CN111931517B (zh) | 2020-08-26 | 2020-08-26 | 文本翻译方法、装置、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931517B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395892A (zh) * | 2020-12-03 | 2021-02-23 | 内蒙古工业大学 | 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法 |
CN112528679A (zh) * | 2020-12-17 | 2021-03-19 | 科大讯飞股份有限公司 | 一种意图理解模型训练方法及装置、意图理解方法及装置 |
CN112800785A (zh) * | 2021-04-13 | 2021-05-14 | 中国科学院自动化研究所 | 多模态机器翻译方法、装置、电子设备和存储介质 |
CN112987664A (zh) * | 2021-02-09 | 2021-06-18 | 东北大学 | 一种基于深度强化学习的流水车间调度方法 |
CN113158695A (zh) * | 2021-05-06 | 2021-07-23 | 上海极链网络科技有限公司 | 一种面向多语言混合文本的语义审核方法与*** |
CN113241074A (zh) * | 2021-04-28 | 2021-08-10 | 平安科技(深圳)有限公司 | 多语言转译模型的训练方法、装置、设备及可读存储介质 |
CN113343716A (zh) * | 2021-05-20 | 2021-09-03 | 北京三快在线科技有限公司 | 一种多语种翻译方法、装置、存储介质及设备 |
CN114282552A (zh) * | 2021-11-16 | 2022-04-05 | 北京百度网讯科技有限公司 | 非自回归翻译模型的训练方法及其装置 |
CN115114939A (zh) * | 2022-04-28 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法、语句翻译方法、装置、设备、程序 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663092A (zh) * | 2014-10-24 | 2017-05-10 | 谷歌公司 | 具有罕见词处理的神经机器翻译*** |
CN106649288A (zh) * | 2016-12-12 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于人工智能的翻译方法和装置 |
CN108874785A (zh) * | 2018-06-01 | 2018-11-23 | 清华大学 | 一种翻译处理方法及*** |
CN109271646A (zh) * | 2018-09-04 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN109543199A (zh) * | 2018-11-28 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法以及相关装置 |
-
2020
- 2020-08-26 CN CN202010873804.8A patent/CN111931517B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663092A (zh) * | 2014-10-24 | 2017-05-10 | 谷歌公司 | 具有罕见词处理的神经机器翻译*** |
CN106649288A (zh) * | 2016-12-12 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于人工智能的翻译方法和装置 |
CN108874785A (zh) * | 2018-06-01 | 2018-11-23 | 清华大学 | 一种翻译处理方法及*** |
CN109271646A (zh) * | 2018-09-04 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、可读存储介质和计算机设备 |
CN109543199A (zh) * | 2018-11-28 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法以及相关装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395892A (zh) * | 2020-12-03 | 2021-02-23 | 内蒙古工业大学 | 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法 |
CN112528679A (zh) * | 2020-12-17 | 2021-03-19 | 科大讯飞股份有限公司 | 一种意图理解模型训练方法及装置、意图理解方法及装置 |
CN112528679B (zh) * | 2020-12-17 | 2024-02-13 | 科大讯飞股份有限公司 | 一种意图理解模型训练方法及装置、意图理解方法及装置 |
CN112987664A (zh) * | 2021-02-09 | 2021-06-18 | 东北大学 | 一种基于深度强化学习的流水车间调度方法 |
CN112800785A (zh) * | 2021-04-13 | 2021-05-14 | 中国科学院自动化研究所 | 多模态机器翻译方法、装置、电子设备和存储介质 |
CN113241074A (zh) * | 2021-04-28 | 2021-08-10 | 平安科技(深圳)有限公司 | 多语言转译模型的训练方法、装置、设备及可读存储介质 |
CN113158695A (zh) * | 2021-05-06 | 2021-07-23 | 上海极链网络科技有限公司 | 一种面向多语言混合文本的语义审核方法与*** |
CN113343716A (zh) * | 2021-05-20 | 2021-09-03 | 北京三快在线科技有限公司 | 一种多语种翻译方法、装置、存储介质及设备 |
CN114282552A (zh) * | 2021-11-16 | 2022-04-05 | 北京百度网讯科技有限公司 | 非自回归翻译模型的训练方法及其装置 |
CN114282552B (zh) * | 2021-11-16 | 2022-11-04 | 北京百度网讯科技有限公司 | 非自回归翻译模型的训练方法及其装置 |
CN115114939A (zh) * | 2022-04-28 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法、语句翻译方法、装置、设备、程序 |
CN115114939B (zh) * | 2022-04-28 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法、语句翻译方法、装置、设备、程序 |
Also Published As
Publication number | Publication date |
---|---|
CN111931517B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN107798140B (zh) | 一种对话***构建方法、语义受控应答方法及装置 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
US20200042597A1 (en) | Generating question-answer pairs for automated chatting | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
US11729120B2 (en) | Generating responses in automated chatting | |
CN111738025B (zh) | 基于人工智能的翻译方法、装置、电子设备和存储介质 | |
CN110737768A (zh) | 基于深度学习的文本摘要自动生成方法及装置、存储介质 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN112613305A (zh) | 基于循环神经网络的中文事件抽取方法 | |
CN111694937A (zh) | 基于人工智能的面试方法、装置、计算机设备及存储介质 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN116628186B (zh) | 文本摘要生成方法及*** | |
CN111666400A (zh) | 消息获取方法、装置、计算机设备及存储介质 | |
CN116050352A (zh) | 文本编码方法和装置、计算机设备及存储介质 | |
CN113449081A (zh) | 文本特征的提取方法、装置、计算机设备及存储介质 | |
CN115269768A (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
CN113609873A (zh) | 翻译模型训练方法、装置及介质 | |
CN114722774B (zh) | 数据压缩方法、装置、电子设备及存储介质 | |
CN116881446A (zh) | 一种语义分类方法、装置、设备及其存储介质 | |
CN116432705A (zh) | 文本生成模型构建、文本生成方法和装置、设备及介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN113591493A (zh) | 翻译模型的训练方法及翻译模型的装置 | |
CN113627197A (zh) | 文本的意图识别方法、装置、设备及存储介质 | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |