CN111783482A - 一种文本翻译方法、装置、计算机设备及存储介质 - Google Patents

一种文本翻译方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111783482A
CN111783482A CN202010641273.XA CN202010641273A CN111783482A CN 111783482 A CN111783482 A CN 111783482A CN 202010641273 A CN202010641273 A CN 202010641273A CN 111783482 A CN111783482 A CN 111783482A
Authority
CN
China
Prior art keywords
file
information
text
translated
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010641273.XA
Other languages
English (en)
Inventor
夏鹏
张鑫
李钢江
马义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Baijiayun Technology Co Ltd
Original Assignee
Nanjing Baijiayun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Baijiayun Technology Co Ltd filed Critical Nanjing Baijiayun Technology Co Ltd
Priority to CN202010641273.XA priority Critical patent/CN111783482A/zh
Publication of CN111783482A publication Critical patent/CN111783482A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出了一种文本翻译方法、装置、计算机设备及存储介质,包括:在获取到原始文件后,根据原始文件的标签信息,确定原始文件中的待翻译文件;对待翻译文件进行解析,确定待翻译文件中的第一文本和其他文件信息,并记录第一文本与其他文件信息之间的相对位置信息;对第一文本进行翻译,得到翻译后的第二文本,并将相对位置信息确定为第二文本与其他文件信息之间的相对位置信息;根据第二文本、其他文件信息以及相对位置信息,生成待翻译文件对应的译文文件。在本申请中,可以通过对外文文件中的文本部分进行处理,并回填至原始文件的方法,增加文本翻译的准确率,提高文本翻译的效率。

Description

一种文本翻译方法、装置、计算机设备及存储介质
技术领域
本申请涉及文字处理技术领域,尤其涉及一种文本翻译方法、装置、计算机设备及存储介质。
背景技术
随着全球化的发展以及世界文化的交融,越来越多的外文文件通过互联网进行分享,但是,由于语言的关系,针对用户外文文件的阅读效率低,因此,通过将这些作品进行翻译处理,能够提高阅读效率。
目前,在互联网上存在的大量外文文件,这些外文文件包括可扩展标记语言(Extensible Markup Language,XML),或是,超文本标记语言(HyperText MarkupLanguage,HTML)格式。在现有技术中,对于外文文件的翻译的过程往往会对这些外文文件的格式等信息造成一定的影响,甚至对于一些图片或是网络链接等信息不能很好地还原出来,影响对于外文文件的翻译效率,以及翻译的准确度。
发明内容
有鉴于此,本申请实施例至少提供一种文本翻译方法、装置、计算机设备及存储介质,通过对外文文件中的文本部分进行处理,并回填至原始文件的方法,可以增加文本翻译的准确率,提高文本翻译的效率。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供一种文本翻译方法,所述文本翻译方法包括:
在获取到原始文件后,根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件;
对所述待翻译文件进行解析,确定所述待翻译文件中的第一文本和其他文件信息,并记录所述第一文本与所述其他文件信息之间的相对位置信息;
对所述第一文本进行翻译,得到翻译后的第二文本,并将所述相对位置信息确定为所述第二文本与所述其他文件信息之间的相对位置信息;
根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件。
在一种可能的实施方式中,所述标签信息包括第一起始标签信息和第一终止标签信息;
所述根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件,包括:
基于所述原始文件的第一起始标签信息以及第一终止标签信息,确定位于所述第一起始标签与所述第一终止标签之间的文件为所述待翻译文件。
在一种可能的实施方式中,当所述原始文件中包括所述第一起始标签信息,但未包括第一终止标签信息时,所述根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件,包括:
确定所述第一终止标签在所述原始文件中的添加位置,并在所述添加位置添加所述第一终止标签;
将位于所述第一起始标签与所述第一终止标签之间的文件确定为所述待翻译文件。
在一种可能的实施方式中,所述确定所述第一终止标签在所述原始文件中的添加位置,包括:
从所述原始文件中查找与所述第一起始标签的相邻的第二起始标签信息;
若所述原始文件中包括与所述第二起始标签信息对应第二终止标签信息,则根据第一起始标签以及所述第二起始标签,确定所述第一终止标签的添加位置。
在一种可能的实施方式中,对所述待翻译文件进行解析,确定所述待翻译文件中的第一文本和其他文件信息,包括:
基于文件识别方法,对所述待翻译文件进行解析,确定出所述待翻译文件中的多个文件信息;其中,所述文件信息包括以下至少之一:文本、图片、链接;
提取所述待翻译文件中的文本信息为所述待翻译文件中的第一文本。
在一种可能的实施方式中,所述根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件,包括:
根据所述其他文件信息在所述原始文件的第一位置,确定所述其他文件信息在位置模板文件的第二位置,并在第二位置写入所述其他文件信息;
基于所述其他文件信息在所述位置模板文件的第二位置以及相对位置信息,确定第三位置;
在所述第三位置写入所述第二文本,生成所述待翻译文件对应的译文文件;
或者,
基于其他文件信息在原始文件中的位置和所述第二文本与所述其他文件信息之间的相对位置信息,利用所述第二文本替换所述第一文本,生成所述待翻译文件对应的译文文件。
在一种可能的实施方式中,在所述原始文件包括多个所述待翻译文件时,所述翻译方法还包括:
采用并行处理的方式,对多个所述待翻译文件进行解析,确定多个所述待翻译文件中的多个第一文本和其他文件信息,并记录多个所述第一文本与所述其他文件信息之间的相对位置信息;
对多个所述第一文本进行翻译,得到多个翻译后的第二文本,并将所述相对位置信息确定为多个所述第二文本与所述其他文件信息之间的相对位置信息;
根据多个所述第二文本、所述其他文件信息以及所述相对位置信息,生成多个所述待翻译文件对应的译文文件。
第二方面,本申请实施例还提供一种文本翻译装置,所述文本翻译装置包括:
第一确定模块,用于在获取到原始文件后,根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件;
第二确定模块,用于对所述待翻译文件进行解析,确定所述待翻译文件中的第一文本和其他文件信息,并记录所述第一文本与所述其他文件信息之间的相对位置信息;
翻译模块,用于对所述第一文本进行翻译,得到翻译后的第二文本,并将所述相对位置信息确定为所述第二文本与所述其他文件信息之间的相对位置信息;
第一生成模块,用于根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件。
在一种可能的实施方式中,所述标签信息包括第一起始标签信息和第一终止标签信息;
所述第一确定模块具体用于:
基于所述原始文件的第一起始标签信息以及第一终止标签信息,确定位于所述第一起始标签与所述第一终止标签之间的文件为所述待翻译文件。
在一种可能的实施方式中,当所述原始文件中包括所述第一起始标签信息,但未包括第一终止标签信息时,所述第一确定模块包括:
添加单元,用于确定所述第一终止标签在所述原始文件中的添加位置,并在所述添加位置添加所述第一终止标签;
确定单元,用于将位于所述第一起始标签与所述第一终止标签之间的文件确定为所述待翻译文件。
在一种可能的实施方式中,所述添加单元具体用于:
从所述原始文件中查找与所述第一起始标签的相邻的第二起始标签信息;
若所述原始文件中包括与所述第二起始标签信息对应第二终止标签信息,则根据第一起始标签以及所述第二起始标签,确定所述第一终止标签的添加位置。
在一种可能的实施方式中,所述第二确定模块具体用于:
基于文件识别方法,对所述待翻译文件进行解析,确定出所述待翻译文件中的多个文件信息;其中,所述文件信息包括以下至少之一:文本、图片、链接;
提取所述待翻译文件中的文本信息为所述待翻译文件中的第一文本。
在一种可能的实施方式中,所述第一生成模块具体用于:
根据所述其他文件信息在所述原始文件的第一位置,确定所述其他文件信息在位置模板文件的第二位置,并在第二位置写入所述其他文件信息;
基于所述其他文件信息在所述位置模板文件的第二位置以及相对位置信息,确定第三位置;
在所述第三位置写入所述第二文本,生成所述待翻译文件对应的译文文件;
或者,
基于其他文件信息在原始文件中的位置和所述第二文本与所述其他文件信息之间的相对位置信息,利用所述第二文本替换所述第一文本,生成所述待翻译文件对应的译文文件。
在一种可能的实施方式中,所述翻译装置还包括:
第三确定模块,用于采用并行处理的方式,对多个所述待翻译文件进行解析,确定多个所述待翻译文件中的多个第一文本和其他文件信息,并记录多个所述第一文本与所述其他文件信息之间的相对位置信息;
第四确定模块,用于对多个所述第一文本进行翻译,得到多个翻译后的第二文本,并将所述相对位置信息确定为多个所述第二文本与所述其他文件信息之间的相对位置信息;
第二生成模块,用于根据多个所述第二文本、所述其他文件信息以及所述相对位置信息,生成多个所述待翻译文件对应的译文文件。
第三方面,本公开可选实现方式还提供一种计算机设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种文本翻译方法、装置、计算机设备及存储介质,包括在获取到原始文件后,根据原始文件的标签信息,确定原始文件中的待翻译文件;对待翻译文件进行解析,确定待翻译文件中的第一文本和其他文件信息,并记录第一文本与其他文件信息之间的相对位置信息;对第一文本进行翻译,得到翻译后的第二文本,并将相对位置信息确定为第二文本与其他文件信息之间的相对位置信息;根据第二文本、其他文件信息以及相对位置信息,生成待翻译文件对应的译文文件。
相对于现有技术中的文件翻译方法容易对外文文件的格式等信息造成一定的影响。在本申请中,可以通过对外文文件中的文本部分进行处理,并回填至原始文件的方法,增加文本翻译的准确率,提高文本翻译的效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种文本翻译方法的流程图;
图2示出了本申请实施例所提供的另一种文本翻译方法的流程图;
图3示出了本申请实施例所提供的一种文本翻译装置的示意图之一;
图4示出了本申请实施例所提供的第一确定模块的示意图;
图5示出了本申请实施例所提供的一种文本翻译装置的示意图之二;
图6示出了本申请实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
经研究发现,对于外文文件的翻译的过程往往会对这些外文文件的格式等信息造成一定的影响,甚至对于一些图片或是网络链接等信息不能很好地还原出来,影响对于外文文件的翻译效率,以及翻译的准确度。
基于上述研究,本申请实施例通过在获取到原始文件后,根据原始文件的标签信息,确定原始文件中的待翻译文件;对待翻译文件进行解析,确定待翻译文件中的第一文本和其他文件信息,并记录第一文本与其他文件信息之间的相对位置信息;对第一文本进行翻译,得到翻译后的第二文本,并将相对位置信息确定为第二文本与其他文件信息之间的相对位置信息;根据第二文本、其他文件信息以及相对位置信息,生成待翻译文件对应的译文文件。在本申请中,可以通过对外文文件中的文本部分进行处理,并回填至原始文件的方法,增加文本翻译的准确率,提高文本翻译的效率。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种文件翻译方法进行详细介绍,本申请实施例所提供的文件翻译方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该文件翻译方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面以执行主体为终端设备为例对本申请实施例提供的文件翻译方法加以说明。
参见图1所示,为本申请实施例提供的文件翻译方法的流程图,所述方法包括步骤S101~S104,其中:
S101:在获取到原始文件后,根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件;
S102:对所述待翻译文件进行解析,确定所述待翻译文件中的第一文本和其他文件信息,并记录所述第一文本与所述其他文件信息之间的相对位置信息;
S103:对所述第一文本进行翻译,得到翻译后的第二文本,并将所述相对位置信息确定为所述第二文本与所述其他文件信息之间的相对位置信息;
S104:根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件。
本申请实施例通过对外文文件中的文本部分进行处理,并回填至原始文件的方法,可以增加文本翻译的准确率,提高文本翻译的效率。
下面分别对上述S101~S104加以详细说明。
在上述S101中,所述原始文件可以为可扩展标记语言(Extensible MarkupLanguage,XML),或是,超文本标记语言(HyperText Markup Language,HTML)格式等多种标签格式,其标签可以是由<>……</>”组成的。
示例性的,<w:wordDocument>//、<dom1>//、<dom2>//可以表示为开始标签,</w:wordDocument>//、</dom1>//、</dom2>//可以表示为结束标签。
在本申请一种实施例中,当标签信息同时包括第一起始标签信息和第一终止标签信息时,根据标签信息,确定原始文件中的待翻译文件的方法包括:
基于所述原始文件的第一起始标签信息以及第一终止标签信息,确定位于所述第一起始标签与所述第一终止标签之间的文件为所述待翻译文件。
示例性的,若原始文件表示为<w:binData w:name="wordml://01000001.gif"xml:space="preserve">R0lGODdhVQHgAfcAAAAAABQPEg8QExURDhISE……(省略若干字符)</w:binData>,则其待翻译文件为“R0lGODdhVQHgAfcAAAAAABQPEg8QExURDhISE……(省略若干字符)”。
在本申请另一种实施例中,所述原始文件中包括所述第一起始标签信息,但未包括第一终止标签信息。具体的,该原始文件不符合XML规范,以"w:body"的元素类型为例,在该文件中,只存在起始标签<w:body>,不存在终止标签</w:body>,此时会抛出异常信息“Nested exception:元素类型"w:body"必须由匹配的结束标记"</w:body>"终止”,故而无法使用传统方案进行解析。
在该实施例中,根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件的方法可以包括:
确定所述第一终止标签在所述原始文件中的添加位置,并在所述添加位置添加所述第一终止标签,并将位于所述第一起始标签与所述第一终止标签之间的文件确定为所述待翻译文件。
具体的,可以在不包括终止标签的文件里,确定添加位置,以添加与起始标签对应的终止标签,从而进行后续的处理过程。
其中,确定所述第一终止标签在所述原始文件中的添加位置的方法包括:
从所述原始文件中查找与所述第一起始标签的相邻的第二起始标签信息;
若所述原始文件中包括与所述第二起始标签信息对应第二终止标签信息,则根据第一起始标签以及所述第二起始标签,确定所述第一终止标签的添加位置。
示例性的,将整个文件逐行进行读取,检测该文档的标签信息。具体的,首先,检测到XML文档的文档起始信息,即<?xml version="1.0"encoding="UTF-8"standalone="yes"?>;之后,检查到<w:body>标签,将此标签入栈,此时如果检测到的是“闭合标签”,即标签格式为<ABC/>以及</ABC>,则不进行入栈处理,也就是说,在该步骤中,只将不闭合标签中的开始标签入栈。
在确定开始标签之后,需要检测结束标签,如果检测到结束标签,即格式为<ABC/>或者</ABC>,则将配对标签出栈;但是,如果检测的是开始标签,即格式为<ABC>,则继续进行检测,并将该开始标签入栈,再次进行结束标签的检测过程。在整个文件检测完成后,“栈”中只剩下<w:body>,于是便可以找到与该开始标签对应的添加位置,添加结束标签。
这里,栈(stack),是一种计算机术语,是计算机技术领域数据结构中的一个概念,是一种运算受限的线性表,其中,针对“栈”结构有两个主要运行方式,即入栈(push)和出栈(pop),具体的包括,数据从栈顶压入,从栈顶退出。
在本实施例中,通过补齐标签的方法,可以克服现有技术中,由于无法在标签文件中找到闭合的对应标签,抛出异常或错误信息,无法成功解析文件的不足,实现对于非对称标签文件的处理,提高了标签文件的翻译效率。
在上述S102中,由于在翻译过程中,只需对文本信息进行翻译,而待翻译文件中不仅包括文本信息,还包括其他文件信息,因此,需要对待翻译文件进行解析,并将其中的文本信息提取出来,以便后续的翻译过程。
具体的,对待翻译文件进行解析,并确定所述待翻译文件中的第一文本和其他文件信息的方法包括:
基于文件识别方法,对所述待翻译文件进行解析,确定出所述待翻译文件中的多个文件信息;其中,所述文件信息包括以下至少之一:文本、图片、链接,并提取所述待翻译文件中的文本信息为所述待翻译文件中的第一文本。
具体的,所述文件识别方法可以包括:文本数据(character data,CDATA)识别、文本识别,链接(Link)识别,流格式内容识别,HTML识别等多种方法。
示例性的,CDATA识别:在翻译场景下,CDATA属于程序代码片段,在翻译场景下,是不需要翻译的。但是,在传统翻译平台会默认为文本进行翻译,而在本实施例中,将CDATA信息进行原始保留,降低翻译过程的出错率,减少处理数据量,从而提高翻译效率。
Link识别:通过自定义的统一资源定位符(Uniform Resource Locator,URL)规则判断方法,识别出所有http/https/ftp/file等各类绝对地址链接、相对链接,包括链接的各种参数,还可以通过自定义的账号规则判断方法,识别出所有的邮箱社交账号等信息,在本实施例中,Link信息同样不需要翻译,降低翻译过程的出错率,减少处理数据量,从而提高翻译效率。
流格式识别:在部分文件中,会包括一些二进制文件,这些二进制文件可以是图片等文件信息。通过自定义的规则,可以识别出各种二进制文件转码后的信息,包括二进制、十六进制、美国信息交换标准代码((American Standard Code for InformationInterchange,ASCII)等。在本实施例中,流格式不需要翻译,克服了现有技术中在对图片等进行翻译处理时,容易产生乱码,以及数据量较大造成超时处理的不足,由此可以降低翻译过程的出错率,减少处理数据量,从而提高翻译效率。
在本实施例中,可以将上述步骤集成到特定函数中,例如:NewSaxReader(Filefile)函数中,以实现格式校验、内容解析、输出格式的整个过程。
在上述S103中,可以利用TranslatedUtil等翻译工具对解析出的文本信息进行翻译处理,得到翻译后的第二文本,其中,第二文本与第一文本具有相同的位置信息。
示例性的,可以基于预设的语言转换关系,例如英语-中文、韩语-中文等,利用TranslatedUtil等翻译工具对解析出的文本信息进行翻译处理。
在上述S104中,在得到第二文本之后,需要将第二文本与其他文件信息进行组合,以生成翻译后的文件。
具体的,根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件方法包括以下多种方式,下面举例说明。
示例一:根据所述其他文件信息在所述原始文件的第一位置,确定所述其他文件信息在位置模板文件的第二位置,并在第二位置写入所述其他文件信息;
基于所述其他文件信息在所述位置模板文件的第二位置以及相对位置信息,确定第三位置;
在所述第三位置写入所述第二文本,生成所述待翻译文件对应的译文文件。
示例性的,在翻译完成文本部分之后,需要回填到原文位置,从而保证原格式不变化。具体的,可以使用文档对象模型(Document Object Model,DOM)技术,回填第二文本,从而保证原格式不变化,在此,采用DOM技术,可以实现文档对象模型循环调用,大大减少重复的代码量,从而提升效率。
示例二:基于其他文件信息在原始文件中的位置和所述第二文本与所述其他文件信息之间的相对位置信息,利用所述第二文本替换所述第一文本,生成所述待翻译文件对应的译文文件。
参见图2所示,为本申请实施例提供的另一种文件翻译方法的流程图,所述方法包括步骤S201~S203,其中:
S201:采用并行处理的方式,对多个所述待翻译文件进行解析,确定多个所述待翻译文件中的多个第一文本和其他文件信息,并记录多个所述第一文本与所述其他文件信息之间的相对位置信息;
S202:对多个所述第一文本进行翻译,得到多个翻译后的第二文本,并将所述相对位置信息确定为多个所述第二文本与所述其他文件信息之间的相对位置信息;
S203:根据多个所述第二文本、所述其他文件信息以及所述相对位置信息,生成多个所述待翻译文件对应的译文文件。
具体的,在本实施例中,可以通过将同级的文档对象模型(Document ObjectModel,DOM)分配给不同线程,从而实现并发解析。
在本实施例中,在所述原始文件包括多个所述待翻译文件时,采用并行处理的方式,克服了现有技术中采用的单线程的处理方法,提高了文件翻译的效率。
本申请实施例提供了一种文件翻译方法,包括在获取到原始文件后,根据原始文件的标签信息,确定原始文件中的待翻译文件;对待翻译文件进行解析,确定待翻译文件中的第一文本和其他文件信息,并记录第一文本与其他文件信息之间的相对位置信息;对第一文本进行翻译,得到翻译后的第二文本,并将相对位置信息确定为第二文本与其他文件信息之间的相对位置信息;根据第二文本、其他文件信息以及相对位置信息,生成待翻译文件对应的译文文件。在本申请中,可以通过对外文文件中的文本部分进行处理,并回填至原始文件的方法,增加文本翻译的准确率,提高文本翻译的效率。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本申请实施例中还提供了与文件翻译方法对应的文件翻译装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述文件翻译方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图3、4、5所示,图3为本申请实施例所提供的一种文本翻译装置的示意图之一;图4为本申请实施例所提供的第一确定模块的示意图;图5为本申请实施例所提供的一种文本翻译装置的示意图之二。所述文件翻译装置包括:第一确定模块310、第二确定模块320、翻译模块330以及第一生成模块340,其中:
第一确定模块310,用于在获取到原始文件后,根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件;
第二确定模块320,用于对所述待翻译文件进行解析,确定所述待翻译文件中的第一文本和其他文件信息,并记录所述第一文本与所述其他文件信息之间的相对位置信息;
翻译模块330,用于对所述第一文本进行翻译,得到翻译后的第二文本,并将所述相对位置信息确定为所述第二文本与所述其他文件信息之间的相对位置信息;
第一生成模块340,用于根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件。
本申请实施例提供了一种文件翻译装置,可以通过对外文文件中的文本部分进行处理,并回填至原始文件的方法,增加文本翻译的准确率,提高文本翻译的效率。
在一种可能的实施方式中,所述标签信息包括第一起始标签信息和第一终止标签信息;
所述第一确定模块310具体用于:
基于所述原始文件的第一起始标签信息以及第一终止标签信息,确定位于所述第一起始标签与所述第一终止标签之间的文件为所述待翻译文件。
在一种可能的实施方式中,如图4所示,当所述原始文件中包括所述第一起始标签信息,但未包括第一终止标签信息时,所述第一确定模块310包括:
添加单元311,用于确定所述第一终止标签在所述原始文件中的添加位置,并在所述添加位置添加所述第一终止标签;
确定单元312,用于将位于所述第一起始标签与所述第一终止标签之间的文件确定为所述待翻译文件。
在一种可能的实施方式中,所述添加单元311具体用于:
从所述原始文件中查找与所述第一起始标签的相邻的第二起始标签信息;
若所述原始文件中包括与所述第二起始标签信息对应第二终止标签信息,则根据第一起始标签以及所述第二起始标签,确定所述第一终止标签的添加位置。
在一种可能的实施方式中,所述第二确定模块320具体用于:
基于文件识别方法,对所述待翻译文件进行解析,确定出所述待翻译文件中的多个文件信息;其中,所述文件信息包括以下至少之一:文本、图片、链接;
提取所述待翻译文件中的文本信息为所述待翻译文件中的第一文本。
在一种可能的实施方式中,所述第一生成模块340具体用于:
根据所述其他文件信息在所述原始文件的第一位置,确定所述其他文件信息在位置模板文件的第二位置,并在第二位置写入所述其他文件信息;
基于所述其他文件信息在所述位置模板文件的第二位置以及相对位置信息,确定第三位置;
在所述第三位置写入所述第二文本,生成所述待翻译文件对应的译文文件;
或者,
基于其他文件信息在原始文件中的位置和所述第二文本与所述其他文件信息之间的相对位置信息,利用所述第二文本替换所述第一文本,生成所述待翻译文件对应的译文文件。
在一种可能的实施方式中,如图5所示,所述翻译装置还包括:
第三确定模块350,用于采用并行处理的方式,对多个所述待翻译文件进行解析,确定多个所述待翻译文件中的多个第一文本和其他文件信息,并记录多个所述第一文本与所述其他文件信息之间的相对位置信息;
第四确定模块360,用于对多个所述第一文本进行翻译,得到多个翻译后的第二文本,并将所述相对位置信息确定为多个所述第二文本与所述其他文件信息之间的相对位置信息;
第二生成模块370,用于根据多个所述第二文本、所述其他文件信息以及所述相对位置信息,生成多个所述待翻译文件对应的译文文件。
本申请实施例还提供了一种计算机设备,如图6所示,为本申请实施例提供的计算机设备结构示意图,包括:
处理器11和存储器12;所述存储器12存储有所述处理器11可执行的机器可读指令,当计算机设备运行时,所述机器可读指令被所述处理器执行以实现下述步骤:
在获取到原始文件后,根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件;
对所述待翻译文件进行解析,确定所述待翻译文件中的第一文本和其他文件信息,并记录所述第一文本与所述其他文件信息之间的相对位置信息;
对所述第一文本进行翻译,得到翻译后的第二文本,并将所述相对位置信息确定为所述第二文本与所述其他文件信息之间的相对位置信息;
根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件。
一种可选的实施方式中,处理器11执行的指令中,所述标签信息包括第一起始标签信息和第一终止标签信息;
所述根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件,包括:
基于所述原始文件的第一起始标签信息以及第一终止标签信息,确定位于所述第一起始标签与所述第一终止标签之间的文件为所述待翻译文件。
一种可选的实施方式中,处理器11执行的指令中,当所述原始文件中包括所述第一起始标签信息,但未包括第一终止标签信息时,所述根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件,包括:
确定所述第一终止标签在所述原始文件中的添加位置,并在所述添加位置添加所述第一终止标签;
将位于所述第一起始标签与所述第一终止标签之间的文件确定为所述待翻译文件。
一种可选的实施方式中,处理器11执行的指令中,所述确定所述第一终止标签在所述原始文件中的添加位置,包括:
从所述原始文件中查找与所述第一起始标签的相邻的第二起始标签信息;
若所述原始文件中包括与所述第二起始标签信息对应第二终止标签信息,则根据第一起始标签以及所述第二起始标签,确定所述第一终止标签的添加位置。
一种可选的实施方式中,处理器11执行的指令中,对所述待翻译文件进行解析,确定所述待翻译文件中的第一文本和其他文件信息,包括:
基于文件识别方法,对所述待翻译文件进行解析,确定出所述待翻译文件中的多个文件信息;其中,所述文件信息包括以下至少之一:文本、图片、链接;
提取所述待翻译文件中的文本信息为所述待翻译文件中的第一文本。
一种可选的实施方式中,处理器11执行的指令中,所述根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件,包括:
根据所述其他文件信息在所述原始文件的第一位置,确定所述其他文件信息在位置模板文件的第二位置,并在第二位置写入所述其他文件信息;
基于所述其他文件信息在所述位置模板文件的第二位置以及相对位置信息,确定第三位置;
在所述第三位置写入所述第二文本,生成所述待翻译文件对应的译文文件;
或者,
基于其他文件信息在原始文件中的位置和所述第二文本与所述其他文件信息之间的相对位置信息,利用所述第二文本替换所述第一文本,生成所述待翻译文件对应的译文文件。
一种可选的实施方式中,处理器11执行的指令中,在所述原始文件包括多个所述待翻译文件时,所述翻译方法还包括:
采用并行处理的方式,对多个所述待翻译文件进行解析,确定多个所述待翻译文件中的多个第一文本和其他文件信息,并记录多个所述第一文本与所述其他文件信息之间的相对位置信息;
对多个所述第一文本进行翻译,得到多个翻译后的第二文本,并将所述相对位置信息确定为多个所述第二文本与所述其他文件信息之间的相对位置信息;
根据多个所述第二文本、所述其他文件信息以及所述相对位置信息,生成多个所述待翻译文件对应的译文文件。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文件翻译方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本申请实施例所提供的文件翻译方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的文件翻译方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本申请实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种文本翻译方法,其特征在于,所述文本翻译方法包括:
在获取到原始文件后,根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件;
对所述待翻译文件进行解析,确定所述待翻译文件中的第一文本和其他文件信息,并记录所述第一文本与所述其他文件信息之间的相对位置信息;
对所述第一文本进行翻译,得到翻译后的第二文本,并将所述相对位置信息确定为所述第二文本与所述其他文件信息之间的相对位置信息;
根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件。
2.根据权利要求1所述的文本翻译方法,其特征在于,所述标签信息包括第一起始标签信息和第一终止标签信息;
所述根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件,包括:
基于所述原始文件的第一起始标签信息以及第一终止标签信息,确定位于所述第一起始标签与所述第一终止标签之间的文件为所述待翻译文件。
3.根据权利要求2所述的文本翻译方法,其特征在于,当所述原始文件中包括所述第一起始标签信息,但未包括第一终止标签信息时,所述根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件,包括:
确定所述第一终止标签在所述原始文件中的添加位置,并在所述添加位置添加所述第一终止标签;
将位于所述第一起始标签与所述第一终止标签之间的文件确定为所述待翻译文件。
4.根据权利要求3所述的文本翻译方法,其特征在于,所述确定所述第一终止标签在所述原始文件中的添加位置,包括:
从所述原始文件中查找与所述第一起始标签的相邻的第二起始标签信息;
若所述原始文件中包括与所述第二起始标签信息对应第二终止标签信息,则根据第一起始标签以及所述第二起始标签,确定所述第一终止标签的添加位置。
5.根据权利要求1所述的文本翻译方法,其特征在于,对所述待翻译文件进行解析,确定所述待翻译文件中的第一文本和其他文件信息,包括:
基于文件识别方法,对所述待翻译文件进行解析,确定出所述待翻译文件中的多个文件信息;其中,所述文件信息包括以下至少之一:文本、图片、链接;
提取所述待翻译文件中的文本信息为所述待翻译文件中的第一文本。
6.根据权利要求1所述的文本翻译方法,其特征在于,所述根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件,包括:
根据所述其他文件信息在所述原始文件的第一位置,确定所述其他文件信息在位置模板文件的第二位置,并在第二位置写入所述其他文件信息;
基于所述其他文件信息在所述位置模板文件的第二位置以及相对位置信息,确定第三位置;
在所述第三位置写入所述第二文本,生成所述待翻译文件对应的译文文件;
或者,
基于其他文件信息在原始文件中的位置和所述第二文本与所述其他文件信息之间的相对位置信息,利用所述第二文本替换所述第一文本,生成所述待翻译文件对应的译文文件。
7.根据权利要求1所述的文本翻译方法,其特征在于,在所述原始文件包括多个所述待翻译文件时,所述翻译方法还包括:
采用并行处理的方式,对多个所述待翻译文件进行解析,确定多个所述待翻译文件中的多个第一文本和其他文件信息,并记录多个所述第一文本与所述其他文件信息之间的相对位置信息;
对多个所述第一文本进行翻译,得到多个翻译后的第二文本,并将所述相对位置信息确定为多个所述第二文本与所述其他文件信息之间的相对位置信息;
根据多个所述第二文本、所述其他文件信息以及所述相对位置信息,生成多个所述待翻译文件对应的译文文件。
8.一种文本翻译装置,其特征在于,所述文本翻译装置包括:
第一确定模块,用于在获取到原始文件后,根据所述原始文件的标签信息,确定所述原始文件中的待翻译文件;
第二确定模块,用于对所述待翻译文件进行解析,确定所述待翻译文件中的第一文本和其他文件信息,并记录所述第一文本与所述其他文件信息之间的相对位置信息;
翻译模块,用于对所述第一文本进行翻译,得到翻译后的第二文本,并将所述相对位置信息确定为所述第二文本与所述其他文件信息之间的相对位置信息;
第一生成模块,用于根据所述第二文本、所述其他文件信息以及所述相对位置信息,生成所述待翻译文件对应的译文文件。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的文本翻译方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的文本翻译方法的步骤。
CN202010641273.XA 2020-07-06 2020-07-06 一种文本翻译方法、装置、计算机设备及存储介质 Pending CN111783482A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010641273.XA CN111783482A (zh) 2020-07-06 2020-07-06 一种文本翻译方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010641273.XA CN111783482A (zh) 2020-07-06 2020-07-06 一种文本翻译方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111783482A true CN111783482A (zh) 2020-10-16

Family

ID=72759028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010641273.XA Pending CN111783482A (zh) 2020-07-06 2020-07-06 一种文本翻译方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111783482A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766005A (zh) * 2021-01-27 2021-05-07 维沃移动通信有限公司 文本翻译方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763255A (zh) * 2008-12-23 2010-06-30 ***通信集团公司 一种专用界面工具的格式转换方法及装置
CN101923541A (zh) * 2005-03-22 2010-12-22 富士施乐株式会社 翻译装置、翻译方法
CN102929867A (zh) * 2011-11-03 2013-02-13 微软公司 用于自动化的文档翻译的技术
CN102959537A (zh) * 2010-06-25 2013-03-06 乐天株式会社 机器翻译***及机器翻译方法
CN104951497A (zh) * 2014-03-25 2015-09-30 三星电子株式会社 用于构建文档的方法和装置
CN106021242A (zh) * 2016-05-27 2016-10-12 成都优译信息技术有限公司 Dwg格式图纸翻译数据回写***及其回写方法
CN109766560A (zh) * 2019-01-14 2019-05-17 姚珍强 翻译方法、***、终端以及存储介质
CN110210040A (zh) * 2019-04-28 2019-09-06 深圳传音控股股份有限公司 文本翻译方法、装置、设备和可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923541A (zh) * 2005-03-22 2010-12-22 富士施乐株式会社 翻译装置、翻译方法
CN101763255A (zh) * 2008-12-23 2010-06-30 ***通信集团公司 一种专用界面工具的格式转换方法及装置
CN102959537A (zh) * 2010-06-25 2013-03-06 乐天株式会社 机器翻译***及机器翻译方法
CN102929867A (zh) * 2011-11-03 2013-02-13 微软公司 用于自动化的文档翻译的技术
CN104951497A (zh) * 2014-03-25 2015-09-30 三星电子株式会社 用于构建文档的方法和装置
CN106021242A (zh) * 2016-05-27 2016-10-12 成都优译信息技术有限公司 Dwg格式图纸翻译数据回写***及其回写方法
CN109766560A (zh) * 2019-01-14 2019-05-17 姚珍强 翻译方法、***、终端以及存储介质
CN110210040A (zh) * 2019-04-28 2019-09-06 深圳传音控股股份有限公司 文本翻译方法、装置、设备和可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766005A (zh) * 2021-01-27 2021-05-07 维沃移动通信有限公司 文本翻译方法、装置、设备及介质
WO2022161307A1 (zh) * 2021-01-27 2022-08-04 维沃移动通信有限公司 文本翻译方法、装置、设备及介质
CN112766005B (zh) * 2021-01-27 2024-04-26 维沃移动通信有限公司 文本翻译方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN107193843B (zh) 一种基于ac自动机和后缀表达式的字符串筛选方法及装置
CN112015430A (zh) JavaScript代码翻译方法、装置、计算机设备及存储介质
CN111639473A (zh) 基于java的excel文件解析方法、装置、计算机设备及存储介质
CN111062187A (zh) 一种对docx格式文档进行结构化解析方法及***
CN108664471B (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN104750663B (zh) 页面中文本乱码的识别方法及装置
CN111126006A (zh) 导出带MathType公式的Word文档方法、装置、电子设备及存储介质
CN116521621A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN110008807B (zh) 一种合同内容识别模型的训练方法、装置及设备
CN112733056B (zh) 一种文档处理方法、装置、设备及存储介质
CN111783482A (zh) 一种文本翻译方法、装置、计算机设备及存储介质
CN113127776A (zh) 面包屑路径生成方法、装置及终端设备
CN115904167A (zh) 网页图标的处理方法、装置、存储介质及电子设备
CN110928549B (zh) 一种重编辑前端脚本程序的方法及装置
CN109871518B (zh) 一种科技论文网络版pdf文档生成方法及装置
CN109948123B (zh) 一种图像合并方法及装置
CN111159981A (zh) 一种Excel文档的解析翻译方法和装置
CN114003489B (zh) 一种前端代码文件检测方法、装置及电子设备和存储介质
CN106815249B (zh) 竖向文本广告过滤方法和装置
CN111581094B (zh) 头文件名检测方法、装置、存储介质及电子设备
CN111143719A (zh) 论文在线出版方法、装置、设备及计算机可读存储介质
CN111597205B (zh) 模板配置方法、信息提取方法、装置以及电子设备、介质
CN107402930B (zh) 网页文本的修改方法及装置
CN116755745A (zh) 代码编辑器的插件更新方法、装置、设备及存储介质
CN115545047A (zh) 文件的多语言处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201016