CN111985255A - 翻译方法、翻译装置、电子设备及存储介质 - Google Patents

翻译方法、翻译装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111985255A
CN111985255A CN202010905497.7A CN202010905497A CN111985255A CN 111985255 A CN111985255 A CN 111985255A CN 202010905497 A CN202010905497 A CN 202010905497A CN 111985255 A CN111985255 A CN 111985255A
Authority
CN
China
Prior art keywords
translation
original
html format
file
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010905497.7A
Other languages
English (en)
Inventor
周玉
翟飞飞
刘鹏
李小青
邓彪
韩延超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co ltd
Original Assignee
Beijing Zhongkefan Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkefan Language Technology Co ltd filed Critical Beijing Zhongkefan Language Technology Co ltd
Priority to CN202010905497.7A priority Critical patent/CN111985255A/zh
Priority to CN202011305058.9A priority patent/CN112199966B/zh
Publication of CN111985255A publication Critical patent/CN111985255A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种翻译方法,包括:对原文文本进行段落切分,以将原文文本切分为多个原文自然段落;将多个原文自然段落转换为原文模板文件,原文模板文件至少包括多个原文自然段落的顺序信息;对原文模板文件进行机器翻译,获得译文模板文件,译文模板文件至少包括多个译文自然段落的顺序信息;以及将原文模板文件转换为原文HTML格式文件,将译文模板文件转换为译文HTML格式文件,基于多个原文自然段落的顺序信息以及多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。本公开还公开了翻译装置、电子设备以及存储介质。

Description

翻译方法、翻译装置、电子设备及存储介质
技术领域
本公开涉及一种翻译方法、翻译装置、电子设备及存储介质,属于机器翻译和计算机辅助翻译技术领域。
背景技术
现有技术中的计算机辅助翻译软件和在线翻译平台,在处理office word、excel或这两种格式转换的PDF文档时,普遍采用的方法是将格式清除,以纯文本的形式展示在在线翻译界面,例如百度翻译、谷歌翻译等等,相当于将原有格式重新排版,仅保留文本,在翻译完成后再还原为原格式下载。
现有技术中的上述翻译方法存在以下弊端:翻译过程中译员无法获得纯文本之外原格式传达的信息,比如文字颜色、字体大小、背景高亮,段落关系等,特别在翻译表格、图文标题、注释等图文并茂的文件时,在线翻译体验不够友好,丢失格式信息,造成翻译过程中需要不时切换窗口查看原文件,翻译效率低下。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种翻译方法、翻译装置、电子设备及存储介质。
本公开的翻译方法、翻译装置、电子设备及存储介质通过以下技术方案实现。
根据本公开的一个方面,提供了一种翻译方法,包括:对原文文本进行段落切分,以将所述原文文本切分为多个原文自然段落;将所述多个原文自然段落转换为原文模板文件,所述原文模板文件至少包括所述多个原文自然段落的顺序信息;对原文模板文件进行机器翻译,获得译文模板文件,所述译文模板文件至少包括多个译文自然段落的顺序信息;以及将所述原文模板文件转换为原文HTML格式文件,将所述译文模板文件转换为译文HTML格式文件,基于所述多个原文自然段落的顺序信息以及所述多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。
根据本公开的至少一个实施方式的翻译方法,所述原文模板文件还包括每个原文自然段落的语句信息,所述译文模板文件还包括每个译文自然段落的语句信息;在所述段落对齐的基础上,基于原文自然段落的语句信息以及译文自然段落的语句信息,对原文HTML格式文件以及译文HTML格式文件进行语句对齐。
根据本公开的至少一个实施方式的翻译方法,对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示。
根据本公开的至少一个实施方式的翻译方法,所述HTML格式文件至少包括排版布局信息、图片信息、字体信息、注释信息中的一种信息或两种以上信息。
根据本公开的至少一个实施方式的翻译方法,在对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示之后,被展示地所述译文HTML格式文件能够被编辑。
根据本公开的至少一个实施方式的翻译方法,所述原文模板文件以及所述译文模板文件被存储在数据库中。
根据本公开的至少一个实施方式的翻译方法,在进行所述对照展示时,以段段对照的方式进行展示。
根据本公开的至少一个实施方式的翻译方法,当所述译文HTML格式文件被编辑时,被编辑的语句能够被突出展示,与该被编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。
根据本公开的至少一个实施方式的翻译方法,当所述译文HTML格式文件被预编辑时,被预编辑的语句能够被突出展示,与该被预编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。
根据本公开的至少一个实施方式的翻译方法,当所述译文HTML格式文件被编辑时或者当所述译文HTML格式文件被预编辑时,将所述被编辑的语句或者将所述被预编辑的语句与所述原文HTML格式文件中的相应语句进行实时语句对齐,以使得所述原文HTML格式文件的相应语句被突出展示;被编辑的语句或者被预编辑的语句也被突出展示。
根据本公开的另一个方面,提供一种翻译装置,包括:切分模块,所述切分模块对原文文本进行段落切分,以将所述原文文本切分为多个原文自然段落;第一转换模块,所述第一转换模块将所述切分模块切分后的所述多个原文自然段落转换为原文模板文件,所述原文模板文件至少包括所述多个原文自然段落的顺序信息;机器翻译模块,所述机器翻译模块对原文模板文件进行机器翻译,获得译文模板文件,所述译文模板文件至少包括多个译文自然段落的顺序信息;第二转换模块,所述第二转换模块将所述原文模板文件转换为原文HTML格式文件,将所述译文模板文件转换为译文HTML格式文件;以及对齐模块,所述对齐模块基于所述多个原文自然段落的顺序信息以及所述多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。
根据本公开的至少一个实施方式的翻译装置,所述原文模板文件还包括每个原文自然段落的语句信息,所述译文模板文件还包括每个译文自然段落的语句信息;在所述段落对齐的基础上,基于原文自然段落的语句信息以及译文自然段落的语句信息,所述对齐模块对原文HTML格式文件以及译文HTML格式文件进行语句对齐。
根据本公开的至少一个实施方式的翻译装置,还包括编辑展示模块,所述编辑展示模块对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示。
根据本公开的至少一个实施方式的翻译装置,所述HTML格式文件至少包括排版布局信息、图片信息、字体信息、注释信息中的一种信息或两种以上信息。
根据本公开的至少一个实施方式的翻译装置,在所述编辑展示模块对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示之后,所述编辑展示模块能够接收编辑动作以使得被展示地所述译文HTML格式文件能够被编辑。
根据本公开的至少一个实施方式的翻译装置,所述原文模板文件以及所述译文模板文件被存储在数据库中。
根据本公开的至少一个实施方式的翻译装置,所述编辑展示模块在进行所述对照展示时,以段段对照的方式进行展示。
根据本公开的至少一个实施方式的翻译装置,当所述译文HTML格式文件被编辑时,被编辑的语句能够被突出展示,与该被编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。
根据本公开的至少一个实施方式的翻译装置,当所述译文HTML格式文件被预编辑时,被预编辑的语句能够被突出展示,与该被预编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。
根据本公开的至少一个实施方式的翻译装置,当所述译文HTML格式文件被编辑时或者当所述译文HTML格式文件被预编辑时,所述对齐模块将所述被编辑的语句或者将所述被预编辑的语句与所述原文HTML格式文件中的相应语句进行实时语句对齐,以使得所述原文HTML格式文件的相应语句被所述编辑展示模块突出地展示;被编辑的语句或者被预编辑的语句也被所述编辑展示模块突出地展示。
根据本公开的至少一个实施方式的翻译装置,所述编辑展示模块将编辑后的语句发送给所述机器翻译模块,所述机器翻译模块基于编辑后的语句对所述译文模板文件进行更新。
根据本公开的至少一个实施方式的翻译装置,还包括确认模块,如果译文HTML格式文件的某一个或某几个段落未被编辑,所述确认模块对未被编辑的所述某一个或某几个段落进行自动确认,使得未被编辑的所述某一个或某几个段落处于确认状态。
根据本公开的至少一个实施方式的翻译装置,根据本公开的至少一个实施方式的翻译装置,如果译文HTML格式文件的某一个或某几个段落被编辑,所述确认模块接收到确认指令动作后对被编辑的所述某一个或某几个段落进行确认,使得未被编辑的所述某一个或某几个段落处于确认状态。
根据本公开的至少一个实施方式的翻译装置,还包括下载模块,通过所述下载模块,所述原文模板文件和/或所述译文模板文件能够被下载。
根据本公开的再一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
根据本公开的又一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1为本公开的一个实施方式的翻译方法的流程图。
图2为本公开的又一个实施方式的翻译方法的流程图。
图3为本公开的又一个实施方式的翻译方法的流程图。
图4为本公开的又一个实施方式的翻译方法的流程图。
图5为本公开的一个实施方式的翻译装置的结构示意框图。
图6为本公开的又一个实施方式的翻译装置的结构示意框图。
图7为本公开的又一个实施方式的翻译装置的结构示意框图。
图8为本公开的又一个实施方式的翻译装置的结构示意框图。
图9为使用本公开的一个实施方式的翻译方法/翻译装置进行翻译时的上下段段对照的效果图。
图10为使用本公开的一个实施方式的翻译方法/翻译装置进行翻译时的左右段段对照的效果图。
图11为本公开的一个实施方式的电子设备的结构示意框图。
附图标记说明
100翻译装置
101切分模块
102第一转换模块
103机器翻译模块
104第二转换模块
105对齐模块
106编辑展示模块
107确认模块
108下载模块
109存储模块
1000通讯接口
2000存储器
3000处理器。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
为了描述性目的,本公开可使用诸如“在……之下”、“在……下方”、“在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧(例如,如在“侧壁”中)”等的空间相对术语,从而来描述如附图中示出的一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外,空间相对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如,如果附图中的设备被翻转,则被描述为“在”其它部件或特征“下方”或“之下”的部件将随后被定位为“在”所述其它部件或特征“上方”。因此,示例性术语“在……下方”可以包含“上方”和“下方”两种方位。此外,设备可被另外定位(例如,旋转90度或者在其它方位处),如此,相应地解释这里使用的空间相对描述语。
这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是本公开的一个实施方式的翻译方法的流程示意图。
如图1所示,本实施方式的翻译方法,包括:对原文文本进行段落切分,以将原文文本切分为多个原文自然段落;将多个原文自然段落转换为原文模板文件,原文模板文件至少包括多个原文自然段落的顺序信息;对原文模板文件进行机器翻译,获得译文模板文件,译文模板文件至少包括多个译文自然段落的顺序信息;以及将原文模板文件转换为原文HTML格式文件,将译文模板文件转换为译文HTML格式文件,基于多个原文自然段落的顺序信息以及多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。
其中,原文文本例如具有格式的英文文本,其可以包括文本格式信息、图片信息、字体信息等等。
例如图片或者表格可以单独地作为一个自然段。
图2是本公开的又一个实施方式的翻译方法的流程示意图。
如图2所示,本实施方式的翻译方法,包括:对原文文本进行段落切分,以将原文文本切分为多个原文自然段落;将多个原文自然段落转换为原文模板文件,原文模板文件至少包括多个原文自然段落的顺序信息;对原文模板文件进行机器翻译,获得译文模板文件,译文模板文件至少包括多个译文自然段落的顺序信息;将原文模板文件转换为原文HTML格式文件,将译文模板文件转换为译文HTML格式文件,基于多个原文自然段落的顺序信息以及多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐;以及在段落对齐的基础上,基于原文自然段落的语句信息以及译文自然段落的语句信息,对原文HTML格式文件以及译文HTML格式文件进行语句对齐。
其中,原文模板文件包括每个原文自然段落的语句信息,译文模板文件还包括每个译文自然段落的语句信息。
图3是本公开的又一个实施方式的翻译方法的流程示意图。
如图3所示,本实施方式的翻译方法,包括:对原文文本进行段落切分,以将原文文本切分为多个原文自然段落;将多个原文自然段落转换为原文模板文件,原文模板文件至少包括多个原文自然段落的顺序信息;对原文模板文件进行机器翻译,获得译文模板文件,译文模板文件至少包括多个译文自然段落的顺序信息;将原文模板文件转换为原文HTML格式文件,将译文模板文件转换为译文HTML格式文件,基于多个原文自然段落的顺序信息以及多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐;在段落对齐的基础上,基于原文自然段落的语句信息以及译文自然段落的语句信息,对原文HTML格式文件以及译文HTML格式文件进行语句对齐;以及对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示。
上述实施方式中,HTML格式文件至少包括排版布局信息、图片信息、字体信息、注释信息中的一种信息或两种以上信息。
上述实施方式中,优选地,在对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示之后,被展示地译文HTML格式文件能够被编辑。
上述实施方式中,原文模板文件以及译文模板文件被存储在数据库中。
数据库可以配置在存储装置上。
上述实施方式中,优选地,在进行对照展示时,以段段对照的方式进行展示。
上述实施方式中,优选地,当译文HTML格式文件被编辑时,被编辑的语句能够被突出展示,与该被编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。
其中,突出展示可以是高亮展示等等。
图5是本公开的又一个实施方式的翻译方法的流程示意图。
如图5所示,本实施方式的翻译方法,包括:对原文文本进行段落切分,以将原文文本切分为多个原文自然段落;将多个原文自然段落转换为原文模板文件,原文模板文件至少包括多个原文自然段落的顺序信息;对原文模板文件进行机器翻译,获得译文模板文件,译文模板文件至少包括多个译文自然段落的顺序信息;将原文模板文件转换为原文HTML格式文件,将译文模板文件转换为译文HTML格式文件,基于多个原文自然段落的顺序信息以及多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐;以及对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示。
优选地,当所述译文HTML格式文件被编辑时或者当所述译文HTML格式文件被预编辑时,将所述被编辑的语句或者将所述被预编辑的语句与所述原文HTML格式文件中的相应语句进行实时语句对齐,以使得所述原文HTML格式文件的相应语句被突出展示;被编辑的语句或者被预编辑的语句也被突出展示。
其中,编辑可以是增加、删除等动作,预编辑可以是用户的鼠标指向动作,也可以是用户的***光标动作等等。
预编辑之后,可以选择进行编辑,也可以选择不进行编辑。
图5是根据本公开的一个实施方式的翻译装置100的结构示意框图。
如图5所示,翻译装置100,包括:切分模块101,切分模块101对原文文本进行段落切分,以将原文文本切分为多个原文自然段落;第一转换模块102,第一转换模块102将切分模块101切分后的多个原文自然段落转换为原文模板文件,原文模板文件至少包括多个原文自然段落的顺序信息;机器翻译模块103,机器翻译模块103对原文模板文件进行机器翻译,获得译文模板文件,译文模板文件至少包括多个译文自然段落的顺序信息;第二转换模块104,第二转换模块104将原文模板文件转换为原文HTML格式文件,将译文模板文件转换为译文HTML格式文件;以及对齐模块105,对齐模块105基于多个原文自然段落的顺序信息以及多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。
优选地,翻译装置还包括存储模块110,存储模块110用于存储原文模板文件以及译文模板文件。
优选地,原文模板文件还包括每个原文自然段落的语句信息,译文模板文件还包括每个译文自然段落的语句信息;在段落对齐的基础上,基于原文自然段落的语句信息以及译文自然段落的语句信息,对齐模块105对原文HTML格式文件以及译文HTML格式文件进行语句对齐。
图6是根据本公开的又一个实施方式的翻译装置100的结构示意框图。
如图6所示,翻译装置100,包括:切分模块101,切分模块101对原文文本进行段落切分,以将原文文本切分为多个原文自然段落;第一转换模块102,第一转换模块102将切分模块101切分后的多个原文自然段落转换为原文模板文件,原文模板文件至少包括多个原文自然段落的顺序信息;机器翻译模块103,机器翻译模块103对原文模板文件进行机器翻译,获得译文模板文件,译文模板文件至少包括多个译文自然段落的顺序信息;第二转换模块104,第二转换模块104将原文模板文件转换为原文HTML格式文件,将译文模板文件转换为译文HTML格式文件;以及对齐模块105,对齐模块105基于多个原文自然段落的顺序信息以及多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。
优选地,翻译装置100还包括存储模块110,存储模块110用于存储原文模板文件以及译文模板文件。
优选地,翻译装置100还包括编辑展示模块106,编辑展示模块106对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示。
优选地,翻译装置100可以通过编辑展示模块106接收待翻译的原文文本。
上述各个实施方式中,HTML格式文件至少包括排版布局信息、图片信息、字体信息、注释信息中的一种信息或两种以上信息。
优选地,在编辑展示模块106对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示之后,编辑展示模块106能够接收编辑动作以使得被展示地译文HTML格式文件能够被编辑。
优选地,上述各个实施方式的翻译装置100,原文模板文件以及译文模板文件被存储在数据库中。数据库可以配置在存储模块110上。
存储模块110可以是服务器。
上述各个实施方式中,编辑展示模块106在进行对照展示时,以段段对照的方式进行展示。
上述各个实施方式中,当译文HTML格式文件被编辑时,被编辑的语句能够被突出展示,与该被编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。
上述各个实施方式中,当译文HTML格式文件被预编辑时,被预编辑的语句能够被突出展示,与该被预编辑的语句对齐的原文HTML格式文件的语句同时被突出展示。
上述各个实施方式中,当所述译文HTML格式文件被编辑时或者当译文HTML格式文件被预编辑时,对齐模块105将被编辑的语句或者将被预编辑的语句与原文HTML格式文件中的相应语句进行实时语句对齐,以使得原文HTML格式文件的相应语句被编辑展示模块106突出地展示;被编辑的语句或者被预编辑的语句也被编辑展示模块106突出地展示。
优选地,编辑展示模块106将编辑后的语句发送给机器翻译模块103,机器翻译模块103基于编辑后的语句对译文模板文件进行更新。
图7是根据本公开的又一个实施方式的翻译装置100的结构示意框图。
如图7所示,翻译装置100,包括:切分模块101,切分模块101对原文文本进行段落切分,以将原文文本切分为多个原文自然段落;第一转换模块102,第一转换模块102将切分模块101切分后的多个原文自然段落转换为原文模板文件,原文模板文件至少包括多个原文自然段落的顺序信息;机器翻译模块103,机器翻译模块103对原文模板文件进行机器翻译,获得译文模板文件,译文模板文件至少包括多个译文自然段落的顺序信息;第二转换模块104,第二转换模块104将原文模板文件转换为原文HTML格式文件,将译文模板文件转换为译文HTML格式文件;以及对齐模块105,对齐模块105基于多个原文自然段落的顺序信息以及多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。
优选地,翻译装置100还包括存储模块110,存储模块110用于存储原文模板文件以及译文模板文件。
优选地,翻译装置100还包括编辑展示模块106,编辑展示模块106对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示。
优选地,翻译装置100还包括确认模块107,如果译文HTML格式文件的某一个或某几个段落未被编辑,确认模块107对未被编辑的某一个或某几个段落进行自动确认,使得未被编辑的某一个或某几个段落处于确认状态。
如果译文HTML格式文件的某一个或某几个段落被编辑,确认模块107接收到确认指令动作后对被编辑的某一个或某几个段落进行确认,使得未被编辑的某一个或某几个段落处于确认状态。
其中,确认模块107通过编辑展示模块106接收确认指令动作,该确认指令动作可以是用户通过键盘装置输入的回车操作等。
根据本公开的优选实施方式,在上述各个实施方式的翻译装置100的基础上,如图8所示,还包括下载模块108,通过下载模块108,原文模板文件和/或译文模板文件能够被下载。
本公开的翻译方法/翻译装置可以实现所见即所得的交互式在线翻译,可以确保原文和译文完全以原格式在线展示和编辑,在整个翻译流程全程保留原译文格式,解决了现有技术中在线辅助翻译不能全程保留格式、翻译体验差的问题。
本公开的翻译装置展示的预览界面完全实现原译文对照效果,且无需借助额外编辑框完成翻译和交互。另外,在段段对照情况下,实时提供原译文高亮对齐提示,帮助用户快速从长段落中定位到相应的原文。
本公开的翻译方法/翻译装置以一种彻底的方式解决了在线翻译格式展示和回显问题,且借助句句实时高亮技术大幅增强了该模式下的翻译体验,实现了所见即所得的实时在线翻译效果。
图9为使用本公开的一个实施方式的翻译方法/翻译装置进行翻译时的上下段段对照的效果图。
图10为使用本公开的一个实施方式的翻译方法/翻译装置进行翻译时的左右段段对照的效果图。
本公开还提供一种电子设备,如图11所示,该设备包括:通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行计算机程序时实现上述实施方式中方法。存储器2000和处理器3000的数量可以为一个或多个。
存储器2000可以包括高速RAM存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (10)

1.一种翻译方法,其特征在于,包括:
对原文文本进行段落切分,以将所述原文文本切分为多个原文自然段落;
将所述多个原文自然段落转换为原文模板文件,所述原文模板文件至少包括所述多个原文自然段落的顺序信息;
对原文模板文件进行机器翻译,获得译文模板文件,所述译文模板文件至少包括多个译文自然段落的顺序信息;以及
将所述原文模板文件转换为原文HTML格式文件,将所述译文模板文件转换为译文HTML格式文件,基于所述多个原文自然段落的顺序信息以及所述多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。
2.根据权利要求1所述的翻译方法,其特征在于,所述原文模板文件还包括每个原文自然段落的语句信息,所述译文模板文件还包括每个译文自然段落的语句信息;
在所述段落对齐的基础上,基于原文自然段落的语句信息以及译文自然段落的语句信息,对原文HTML格式文件以及译文HTML格式文件进行语句对齐。
3.根据权利要求1或2所述的翻译方法,其特征在于,对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示。
4.根据权利要求3所述的翻译方法,其特征在于,所述HTML格式文件至少包括排版布局信息、图片信息、字体信息、注释信息中的一种信息或两种以上信息。
5.根据权利要求3所述的翻译方法,其特征在于,在对段落对齐后的原文HTML格式文件以及译文HTML格式文件进行对照展示之后,被展示的所述译文HTML格式文件能够被编辑。
6.根据权利要求1所述的翻译方法,其特征在于,所述原文模板文件以及所述译文模板文件被存储在数据库中。
7.根据权利要求3所述的翻译方法,其特征在于,在进行所述对照展示时,以段段对照的方式进行展示。
8.一种翻译装置,其特征在于,包括:
切分模块,所述切分模块对原文文本进行段落切分,以将所述原文文本切分为多个原文自然段落;
第一转换模块,所述第一转换模块将所述切分模块切分后的所述多个原文自然段落转换为原文模板文件,所述原文模板文件至少包括所述多个原文自然段落的顺序信息;
机器翻译模块,所述机器翻译模块对原文模板文件进行机器翻译,获得译文模板文件,所述译文模板文件至少包括多个译文自然段落的顺序信息;
第二转换模块,所述第二转换模块将所述原文模板文件转换为原文HTML格式文件,将所述译文模板文件转换为译文HTML格式文件;以及
对齐模块,所述对齐模块基于所述多个原文自然段落的顺序信息以及所述多个译文自然段落的顺序信息,对原文HTML格式文件以及译文HTML格式文件进行段落对齐。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行权利要求1至7中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
CN202010905497.7A 2020-09-01 2020-09-01 翻译方法、翻译装置、电子设备及存储介质 Pending CN111985255A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010905497.7A CN111985255A (zh) 2020-09-01 2020-09-01 翻译方法、翻译装置、电子设备及存储介质
CN202011305058.9A CN112199966B (zh) 2020-09-01 2020-11-20 翻译方法、翻译装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010905497.7A CN111985255A (zh) 2020-09-01 2020-09-01 翻译方法、翻译装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111985255A true CN111985255A (zh) 2020-11-24

Family

ID=73447305

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010905497.7A Pending CN111985255A (zh) 2020-09-01 2020-09-01 翻译方法、翻译装置、电子设备及存储介质
CN202011305058.9A Active CN112199966B (zh) 2020-09-01 2020-11-20 翻译方法、翻译装置、电子设备及存储介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202011305058.9A Active CN112199966B (zh) 2020-09-01 2020-11-20 翻译方法、翻译装置、电子设备及存储介质

Country Status (1)

Country Link
CN (2) CN111985255A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765999A (zh) * 2020-12-24 2021-05-07 中国人民解放军战略支援部队信息工程大学 机器翻译双语对照方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7607085B1 (en) * 1999-05-11 2009-10-20 Microsoft Corporation Client side localizations on the world wide web
CN104714944A (zh) * 2015-04-14 2015-06-17 语联网(武汉)信息技术有限公司 一种翻译文件的方法及***
CN108182183B (zh) * 2017-12-27 2021-09-17 北京百度网讯科技有限公司 图片文字翻译方法、应用及计算机设备
CN110807334B (zh) * 2019-10-29 2023-07-21 网易有道信息技术(北京)有限公司 文本处理方法、装置、介质和计算设备
CN111401000B (zh) * 2020-04-03 2023-06-20 上海一者信息科技有限公司 一种在线辅助翻译的译文实时预览方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765999A (zh) * 2020-12-24 2021-05-07 中国人民解放军战略支援部队信息工程大学 机器翻译双语对照方法及***

Also Published As

Publication number Publication date
CN112199966A (zh) 2021-01-08
CN112199966B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CA2782903C (en) Method for sequenced document annotations
US7627592B2 (en) Systems and methods for converting a formatted document to a web page
US11592967B2 (en) Method for automatically indexing an electronic document
US20140006913A1 (en) Visual template extraction
US20150199422A1 (en) Universal text representation with import/export support for various document formats
CN112199966B (zh) 翻译方法、翻译装置、电子设备及存储介质
CN113836947B (zh) 机器翻译译后的术语翻译方法、装置、设备及存储介质
CN116245052A (zh) 一种图纸迁移方法、装置、设备和存储介质
JP4566196B2 (ja) 文書処理方法および装置
CN113297856B (zh) 文档翻译方法、装置及电子设备
WO2005098662A1 (ja) 文書処理装置及び文書処理方法
JP4627530B2 (ja) 文書処理方法および装置
JPWO2005098661A1 (ja) 文書処理装置及び文書処理方法
CN111708529A (zh) 一种基于angular通过拖拽生成表单的实现方法
EP1837776A1 (en) Document processing device and document processing method
JP2007183849A (ja) 文書処理装置
JP4719743B2 (ja) グラフ処理装置
CN110457659B (zh) 条款文档生成方法及终端设备
CN117311564A (zh) 交互方法及装置、电子设备、存储介质
CN113779943A (zh) 表格生成方法、表格生成装置、存储介质及电子设备
CN100561495C (zh) 消密和/或还原方法及装置
CN118295966A (zh) 基于体系架构设计成果的图文表一体化输出方法和***
JPH0567010A (ja) 電子メツセージシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201124

WD01 Invention patent application deemed withdrawn after publication