CN111159981A - 一种Excel文档的解析翻译方法和装置 - Google Patents
一种Excel文档的解析翻译方法和装置 Download PDFInfo
- Publication number
- CN111159981A CN111159981A CN201911407095.8A CN201911407095A CN111159981A CN 111159981 A CN111159981 A CN 111159981A CN 201911407095 A CN201911407095 A CN 201911407095A CN 111159981 A CN111159981 A CN 111159981A
- Authority
- CN
- China
- Prior art keywords
- label
- text
- excel
- file
- translated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/42—Syntactic analysis
- G06F8/427—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开一种Excel文档的解析翻译方法和装置,该方法包括:解析Excel文档,生成Excel资源文件目录;对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;将所述文档结构文件中的文本元素替换为所述译文内容;根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;重新打包所述Excel资源文件,生成译文Excel文档。本发明对Excel资源文件中的xml文件进行解析,根据解析得到的文档结构文件和待翻译文本列表文件支撑后续翻译工作的推进,从而实现在保持Excel原文档展示样式不变的前提下完成文档从源语种到目标语种的转换。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种Excel文档的解析翻译方法和装置。
背景技术
随着全球一体化进程的深入,跨语言获取信息成为一种常态,而Excel文档作为目前最流行的电子数据表程序,已成为被全球用户广泛使用的信息载体,大量的文档直接采用或者可以格式无损地转化为Excel文档,能够将Excel文档所承载的信息在不同语言之间转换,大大提高了跨语言的信息获取效率。
现有的Excel文档翻译解决方案通常存在以下问题:
(1)在解析Excel文档时,只抽取Excel文档的文本信息,而忽略样式信息和其他非文本元素,导致翻译生成的Excel文档丢失了源Excel文档的图、表以及信息布局等重要信息,不利于阅读和理解文档语义。
(2)由于Excel文档的元素标签粒度较大,翻译生成的Excel文档会大量丢失源Excel文档的格式信息,破坏了源Excel文档原有的排版格式,给阅读造成了视觉障碍,甚至造成译文文档的格式混乱。
发明内容
本发明提供了一种Excel文档的解析翻译方法和装置,已解决现有的Excel文档翻译解决方案大量丢失源Excel文档的格式信息,破坏源Excel文档原有的排版格式的缺陷。
本发明提供了一种Excel文档的解析翻译方法,包括以下步骤:
解析Excel文档,生成Excel资源文件目录;
对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;其中,所述待翻译文本列表文件中的文本内容与所述文档结构文件中的文本元素相对应;
对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;
将所述文档结构文件中的文本元素替换为所述译文内容,并根据目标语种对所述文本元素进行格式调整;
根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;
重新打包所述Excel资源文件,生成译文Excel文档。
可选地,所述对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表,包括:
解析所述Excel资源文件中的第一组xml文件,生成文档结构文件,并从文档结构文件中提取文本内容和对应的展现样式信息,极大化构建文本内容的上下文信息,生成待翻译文本列表。
可选地,所述对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表,包括:
对Excel资源文件中的第一组xml文件进行解析,生成标签数组,对所述标签数组中的每个标签的类型进行判断,并根据判断结果,生成文档结构文件和待翻译文本列表。
可选地,所述对所述标签数组中的每个标签的类型进行判断,包括:
依次判断所述标签数组中的每个标签是否为开标签及非文本标签。
可选地,所述根据判断结果,生成文档结构文件和待翻译文本列表,包括:
若所述标签数组中的第一标签不是开标签,则将所述第一标签写入文档结构文件;若所述标签数组中的第二标签既是开标签又是非文本标签,则将所述第二标签写入文档结构文件;若所述标签数组中的第三标签是开标签但不是非文本标签,则读取第三标签的标签样式,若所述第三标签的标签样式与所述标签数组中位于所述第三标签之前的标签的样式相同,则将所述第三标签写入文档结构文件和待翻译文本列表。
本发明还提供了一种Excel文档的解析翻译装置,包括:
解析模块,用于解析Excel文档,生成Excel资源文件目录;对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;其中,所述待翻译文本列表文件中的文本内容与所述文档结构文件中的文本元素相对应;
翻译模块,用于对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;
处理模块,用于将所述文档结构文件中的文本元素替换为所述译文内容,并根据目标语种对所述文本元素进行格式调整;根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;重新打包所述Excel资源文件,生成译文Excel文档。
可选地,所述解析模块,具体用于解析所述Excel资源文件中的第一组xml文件,生成文档结构文件,并从文档结构文件中提取文本内容和对应的展现样式信息,极大化构建文本内容的上下文信息,生成待翻译文本列表。
可选地,所述解析模块,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,对所述标签数组中的每个标签的类型进行判断,并根据判断结果,生成文档结构文件和待翻译文本列表。
可选地,所述解析模块,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,依次判断所述标签数组中的每个标签是否为开标签及非文本标签,并根据判断结果,生成文档结构文件和待翻译文本列表。
可选地,所述解析模块,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,依次判断所述标签数组中的每个标签是否为开标签及非文本标签,若所述标签数组中的第一标签不是开标签,则将所述第一标签写入文档结构文件;若所述标签数组中的第二标签既是开标签又是非文本标签,则将所述第二标签写入文档结构文件;若所述标签数组中的第三标签是开标签但不是非文本标签,则读取第三标签的标签样式,若所述第三标签的标签样式与所述标签数组中位于所述第三标签之前的标签的样式相同,则将所述第三标签写入文档结构文件和待翻译文本列表。
本发明对Excel资源文件中的xml文件进行解析,根据解析得到的文档结构文件和待翻译文本列表文件支撑后续翻译工作的推进,在不影响文档展示格式的前提下,尽力构建文本翻译的上下文环境,为提升翻译准确率做铺垫,从而保留源文档各个非文本元素的内容和展示样式,保持译文文档与源文档的文本元素具有一致的显示样式,进而提高译文文档的阅读体验,便于对跨语种内容的理解,实现在保持Excel原文档展示样式不变的前提下完成文档从源语种到目标语种的转换。
附图说明
图1为本发明实施例中的一种Excel文档的解析翻译方法流程图;
图2为本发明实施例中的一种Excel文档的解析翻译方法的任务流程示意图;
图3为本发明实施例中的Excel资源文件的结构图;
图4为本发明实施例中的文档解析流程图;
图5为本发明实施例中的文档合成流程图;
图6为本发明实施例中的一种Excel文档的解析翻译装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种Excel文档的解析翻译方法,如图1所示,包括以下步骤:
步骤101,解析Excel文档,生成Excel资源文件目录;
步骤102,对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;
具体地,Excel文档可以为Microsoft Excel 2007及以后版本所定义的xlsx格式的文档,通过解析Excel文档,可以得到的Excel资源文件。Excel资源文件中的第一组xml文件可以包括一个或多个xml文件,相应地,在Excel文档的翻译过程中,可以对第一组xml文件中的各个xml文件进行解析,得到与第一组xml文件对应的文档结构文件和待翻译文本列表。其中,第一组xml文件为Excel资源文件中待翻译的关键xml文件,文档结构文件包括一个或多个文本元素,待翻译文本列表文件包括一个或多个的文本内容,待翻译文本列表文件中的文本内容与文档结构文件中的文本元素相对应。
本实施例中,可以对Excel资源文件中的第一组xml文件进行解析,生成标签数组,对所述标签数组中的每个标签的类型进行判断,并根据判断结果,生成文档结构文件和待翻译文本列表。
步骤103,对待翻译文本列表中的文本内容进行翻译,得到对应的译文内容。
具体地,可以将待翻译文本列表中的文本内容从源语种转换到目标语种,得到与文本内容对应的译文内容。
步骤104,将文档结构文件中的文本元素替换为与待翻译文本列表中的文本内容对应的译文内容,并根据目标语种对所述文本元素进行格式调整。
步骤105,根据文档结构文件生成第二组xml文件,并将Excel资源文件中的第一组xml文件替换为第二组xml文件。
步骤106,重新打包Excel资源文件,生成译文Excel文档。
本发明实施例对Excel资源文件中的xml文件进行解析,根据解析得到的文档结构文件和待翻译文本列表文件支撑后续翻译工作的推进,在不影响文档展示格式的前提下,尽力构建文本翻译的上下文环境,为提升翻译准确率做铺垫,从而保留源文档各个非文本元素的内容和展示样式,保持译文文档与源文档的文本元素具有一致的显示样式,进而提高译文文档的阅读体验,便于对跨语种内容的理解,实现在保持Excel原文档展示样式不变的前提下完成文档从源语种到目标语种的转换。
如图2所示,为本发明实施例中的Excel文档的翻译方法的任务流程示意图,在用户提交Excel文档后,若文件类型检查无误,则启动创建任务S100,即,创建巡检任务S500、文档解析任务S200、文本翻译任务S300和文档合成任务S400,并在创建完毕后,启动巡检任务S500和文档解析任务S200,并随后启动文本翻译任务S300和文档合成任务S400。
其中,文档解析任务S200担负着Excel文档的结构解析的职能,用于解析Excel文档,生成Excel资源文件目录;对Excel资源文件中的关键xml文件,生成文档结构文件,并从文档结构文件中提取文本内容和对应的展现样式信息,在此基础上极大化构建文本内容的上下文信息,生成待翻译文本列表,为文本翻译任务S300的执行做准备。
文本翻译任务S300用于基于文档解析任务S200生成的待翻译文本列表,通过对字符编码的识别,判断待翻译文本列表中的文本内容的语言类型,并依次提交翻译引擎获取文本内容对应的译文内容,并根据译文内容完善待翻译文本列表。
文档合成任务S400用于基于文本翻译任务S300完善的待翻译文本列表,对照文档解析任务生成的文档结构文件,生成目标语言xml文件,并依据目标语言调整字体样式,以确保字体格式的正常显示,打包生成翻译完成的xlxs文档,以便输出给用户,并通知巡检任务S500文档翻译完毕。
巡检任务S500负责定期巡检Excel文档的翻译流程的执行状态,当发现翻译流程意外终止时,负责重启和唤醒任务执行进程,基于翻译流程执行过程中的任务执行记录,获取任务当前的完成状态,并继续执行任务。
如图3所示,为根据Excel文档解析得到的Excel资源文件的结构图,其中,worksheets文件夹、comments.xml系列文件和sharedStrings.xml、styles.xml等文件对于实现Excel文档正文内容的语言转化至关重要。worksheets文件夹内的多个文件保存了Excel文档每个工作表页的内容和样式信息;comments.xml系列文件是批注标识文件,每个工作表的批注内容单独保存在一个comments.xml文件中;sharedStrings.xml是共享字符串表文件,存储了Excel文档中出现的大多数文本字符;styles.xml标识和保存了文档的样式信息。
基于上述文档结构,本实施例中的文档解析任务的重点是针对worksheets文件夹内的xml文件以及comments.xml系列文件和sharedStrings.xml文件进行解析。如图4所示,为本发明实施例中的文档解析流程图,在获取Excel资源文件中的所有待处理的xml文件列表后,对每一个xml解析其文件结构生成标签数组,依次对标签数组中的每个标签进行判别分析,按条件依次完成文档结构文件和待翻译文本列表的写入工作,生成文档结构文件和待翻译文本列表两个解析产品。
具体地,可以依次判断标签数组中的每个标签是否为开标签及非文本标签,若标签数组中的第一标签不是开标签,则将第一标签写入文档结构文件;若标签数组中的第二标签既是开标签又是非文本标签,则将第二标签写入文档结构文件;若标签数组中的第三标签是开标签但不是非文本标签,则读取第三标签的标签样式,若第三标签的标签样式与标签数组中位于第三标签之前的标签的样式相同,则将第三标签写入文档结构文件和待翻译文本列表。
其中,步骤S201主要负责文档结构文件的写入工作,该文档结构文件记录有Excel文档的所有展示元素的内容和格式信息。为了降低文件的I/O开销,S201的写入过程引入先缓存后文件的方式,以提高单次文件I/O信息量,降低文件I/O次数。
步骤S202主要负责待翻译文本列表的写入工作,该待翻译文本列表记录有文档结构文件中对应的文本元素的内容,即Excel文档中需要翻译的文本内容。参考S201,S202的文件写入过程也会引入缓存机制。
如图5所示,为本发明实施例中的文档合成流程图,在读取完善后的待翻译文本列表和文档结构文件后,将文档结构文件的对应的文本信息替换为译文内容,调整字体标签,避免将西文字体作用在中文等类型的亚洲语言造成显示错乱的情况,随后由更新后的文档结构文件生成xml文件,替换Excel资源文件中对应的xml文件,并重新打包Excel资源文件,最后生成新的Excel文档,完成Excel文档的解析翻译工作。
由此可见,文档合成任务S400主要是对最终处理好的文件进行译文回写和标签合并操作。由于Excel的格式信息主要保存在styles.xml文件中,步骤S401主要负责将style.xml文件中文本字体标签修改为可以适配目标语言的字体。
本发明实施例通过对Excel资源文件的OOXML文件结构进行解析,对Excel资源文件的核心文件组成元素的标签属性与含义进行分析,梳理影响文档翻译前后展示样式的元素标签属性,抽取元素文本标签属性值,设计文本上下文合并策略,并通过字符集判断文本的原始语种,调用翻译引擎获取目标语种的翻译结果,通过结果回写和文档重新编译,实现生成保持源文档展示样式的目标语种文档。
基于上述Excel文档的解析翻译方法,本发明实施例还提供了一种Excel文档的解析翻译装置,如图6所示,包括:
解析模块601,用于解析Excel文档,生成Excel资源文件目录;对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;其中,所述待翻译文本列表文件中的文本内容与所述文档结构文件中的文本元素相对应;
翻译模块602,用于对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;
处理模块603,用于将所述文档结构文件中的文本元素替换为所述译文内容,并根据目标语种对所述文本元素进行格式调整;根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;重新打包所述Excel资源文件,生成译文Excel文档。
具体地,解析模块601,具体用于解析所述Excel资源文件中的第一组xml文件,生成文档结构文件,并从文档结构文件中提取文本内容和对应的展现样式信息,极大化构建文本内容的上下文信息,生成待翻译文本列表。
具体地,解析模块601,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,对所述标签数组中的每个标签的类型进行判断,并根据判断结果,生成文档结构文件和待翻译文本列表。
本实施例中,解析模块601,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,依次判断所述标签数组中的每个标签是否为开标签及非文本标签,并根据判断结果,生成文档结构文件和待翻译文本列表。
具体地,解析模块601,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,依次判断所述标签数组中的每个标签是否为开标签及非文本标签,若所述标签数组中的第一标签不是开标签,则将所述第一标签写入文档结构文件;若所述标签数组中的第二标签既是开标签又是非文本标签,则将所述第二标签写入文档结构文件;若所述标签数组中的第三标签是开标签但不是非文本标签,则读取第三标签的标签样式,若所述第三标签的标签样式与所述标签数组中位于所述第三标签之前的标签的样式相同,则将所述第三标签写入文档结构文件和待翻译文本列表。
本发明实施例对Excel资源文件中的xml文件进行解析,根据解析得到的文档结构文件和待翻译文本列表文件支撑后续翻译工作的推进,在不影响文档展示格式的前提下,尽力构建文本翻译的上下文环境,为提升翻译准确率做铺垫,从而保留源文档各个非文本元素的内容和展示样式,保持译文文档与源文档的文本元素具有一致的显示样式,进而提高译文文档的阅读体验,便于对跨语种内容的理解,实现在保持Excel原文档展示样式不变的前提下完成文档从源语种到目标语种的转换。
结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种Excel文档的解析翻译方法,其特征在于,包括以下步骤:
解析Excel文档,生成Excel资源文件目录;
对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;其中,所述待翻译文本列表文件中的文本内容与所述文档结构文件中的文本元素相对应;
对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;
将所述文档结构文件中的文本元素替换为所述译文内容,并根据目标语种对所述文本元素进行格式调整;
根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;
重新打包所述Excel资源文件,生成译文Excel文档。
2.如权利要求1所述的方法,其特征在于,所述对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表,包括:
解析所述Excel资源文件中的第一组xml文件,生成文档结构文件,并从文档结构文件中提取文本内容和对应的展现样式信息,极大化构建文本内容的上下文信息,生成待翻译文本列表。
3.如权利要求1所述的方法,其特征在于,所述对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表,包括:
对Excel资源文件中的第一组xml文件进行解析,生成标签数组,对所述标签数组中的每个标签的类型进行判断,并根据判断结果,生成文档结构文件和待翻译文本列表。
4.如权利要求3所述的方法,其特征在于,所述对所述标签数组中的每个标签的类型进行判断,包括:
依次判断所述标签数组中的每个标签是否为开标签及非文本标签。
5.如权利要求4所述的方法,其特征在于,所述根据判断结果,生成文档结构文件和待翻译文本列表,包括:
若所述标签数组中的第一标签不是开标签,则将所述第一标签写入文档结构文件;若所述标签数组中的第二标签既是开标签又是非文本标签,则将所述第二标签写入文档结构文件;若所述标签数组中的第三标签是开标签但不是非文本标签,则读取第三标签的标签样式,若所述第三标签的标签样式与所述标签数组中位于所述第三标签之前的标签的样式相同,则将所述第三标签写入文档结构文件和待翻译文本列表。
6.一种Excel文档的解析翻译装置,其特征在于,包括:
解析模块,用于解析Excel文档,生成Excel资源文件目录;对Excel资源文件中的第一组xml文件进行解析,生成文档结构文件和待翻译文本列表;其中,所述待翻译文本列表文件中的文本内容与所述文档结构文件中的文本元素相对应;
翻译模块,用于对所述待翻译文本列表中的文本内容进行翻译,得到对应的译文内容;
处理模块,用于将所述文档结构文件中的文本元素替换为所述译文内容,并根据目标语种对所述文本元素进行格式调整;根据所述文档结构文件生成第二组xml文件,并将所述Excel资源文件中的第一组xml文件替换为所述第二组xml文件;重新打包所述Excel资源文件,生成译文Excel文档。
7.如权利要求6所述的装置,其特征在于,
所述解析模块,具体用于解析所述Excel资源文件中的第一组xml文件,生成文档结构文件,并从文档结构文件中提取文本内容和对应的展现样式信息,极大化构建文本内容的上下文信息,生成待翻译文本列表。
8.如权利要求6所述的装置,其特征在于,
所述解析模块,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,对所述标签数组中的每个标签的类型进行判断,并根据判断结果,生成文档结构文件和待翻译文本列表。
9.如权利要求8所述的装置,其特征在于,
所述解析模块,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,依次判断所述标签数组中的每个标签是否为开标签及非文本标签,并根据判断结果,生成文档结构文件和待翻译文本列表。
10.如权利要求9所述的装置,其特征在于,
所述解析模块,具体用于对Excel资源文件中的第一组xml文件进行解析,生成标签数组,依次判断所述标签数组中的每个标签是否为开标签及非文本标签,若所述标签数组中的第一标签不是开标签,则将所述第一标签写入文档结构文件;若所述标签数组中的第二标签既是开标签又是非文本标签,则将所述第二标签写入文档结构文件;若所述标签数组中的第三标签是开标签但不是非文本标签,则读取第三标签的标签样式,若所述第三标签的标签样式与所述标签数组中位于所述第三标签之前的标签的样式相同,则将所述第三标签写入文档结构文件和待翻译文本列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911407095.8A CN111159981B (zh) | 2019-12-31 | 2019-12-31 | 一种Excel文档的解析翻译方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911407095.8A CN111159981B (zh) | 2019-12-31 | 2019-12-31 | 一种Excel文档的解析翻译方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159981A true CN111159981A (zh) | 2020-05-15 |
CN111159981B CN111159981B (zh) | 2023-08-08 |
Family
ID=70559741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911407095.8A Active CN111159981B (zh) | 2019-12-31 | 2019-12-31 | 一种Excel文档的解析翻译方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159981B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378585A (zh) * | 2021-06-01 | 2021-09-10 | 珠海金山办公软件有限公司 | Xml文本数据翻译方法和装置、电子设备、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100254604A1 (en) * | 2009-04-06 | 2010-10-07 | Accenture Global Services Gmbh | Method for the logical segmentation of contents |
CN102929867A (zh) * | 2011-11-03 | 2013-02-13 | 微软公司 | 用于自动化的文档翻译的技术 |
CN106649271A (zh) * | 2016-12-19 | 2017-05-10 | 成都优译信息技术股份有限公司 | 一种基于翻译的word文档解析方法 |
US20180095950A1 (en) * | 2016-10-05 | 2018-04-05 | Lingua Next Technologies Pvt. Ltd. | Systems and methods for complete translation of a web element |
CN107908625A (zh) * | 2017-12-04 | 2018-04-13 | 上海互盾信息科技有限公司 | 一种pdf文档内容原位置多语言翻译方法 |
CN109783826A (zh) * | 2019-01-15 | 2019-05-21 | 四川译讯信息科技有限公司 | 一种文档自动翻译方法 |
-
2019
- 2019-12-31 CN CN201911407095.8A patent/CN111159981B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100254604A1 (en) * | 2009-04-06 | 2010-10-07 | Accenture Global Services Gmbh | Method for the logical segmentation of contents |
CN102929867A (zh) * | 2011-11-03 | 2013-02-13 | 微软公司 | 用于自动化的文档翻译的技术 |
US20130117008A1 (en) * | 2011-11-03 | 2013-05-09 | Microsoft Corporation | Techniques for automated document translation |
CN107783967A (zh) * | 2011-11-03 | 2018-03-09 | 微软技术许可有限责任公司 | 用于自动化的文档翻译的技术 |
US20180095950A1 (en) * | 2016-10-05 | 2018-04-05 | Lingua Next Technologies Pvt. Ltd. | Systems and methods for complete translation of a web element |
CN106649271A (zh) * | 2016-12-19 | 2017-05-10 | 成都优译信息技术股份有限公司 | 一种基于翻译的word文档解析方法 |
CN107908625A (zh) * | 2017-12-04 | 2018-04-13 | 上海互盾信息科技有限公司 | 一种pdf文档内容原位置多语言翻译方法 |
CN109783826A (zh) * | 2019-01-15 | 2019-05-21 | 四川译讯信息科技有限公司 | 一种文档自动翻译方法 |
Non-Patent Citations (1)
Title |
---|
李则颖;: "PDF文本翻译中表格处理的方法比较", no. 15 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378585A (zh) * | 2021-06-01 | 2021-09-10 | 珠海金山办公软件有限公司 | Xml文本数据翻译方法和装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111159981B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783826B (zh) | 一种文档自动翻译方法 | |
US7774193B2 (en) | Proofing of word collocation errors based on a comparison with collocations in a corpus | |
US7770107B2 (en) | Methods and systems for extracting and processing translatable and transformable data from XSL files | |
CN111144070B (zh) | 一种文档解析翻译方法和装置 | |
US20110264705A1 (en) | Method and system for interactive generation of presentations | |
JP4940325B2 (ja) | 文書校正支援装置、方法およびプログラム | |
US20060285746A1 (en) | Computer assisted document analysis | |
CN108762743B (zh) | 一种数据表操作代码生成方法及装置 | |
CN1841364A (zh) | 文件翻译方法和文件翻译装置 | |
Clausner et al. | Efficient and effective OCR engine training | |
RU2579888C2 (ru) | Универсальное представление текста с возможностью поддержки различных форматов документов и текстовая подсистема | |
US9218411B2 (en) | Incremental dynamic document index generation | |
CN110770735A (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
KR20110041136A (ko) | 자동 스크롤 수행 시스템 및 방법 | |
CN102081594A (zh) | 从可移植电子文档中提取字符外接矩形的设备和方法 | |
US20130124969A1 (en) | Xml editor within a wysiwyg application | |
CN111159981B (zh) | 一种Excel文档的解析翻译方法和装置 | |
US20240104290A1 (en) | Device dependent rendering of pdf content including multiple articles and a table of contents | |
CN109885743B (zh) | 一种网页数据信息提取方法 | |
JP2014137613A (ja) | 翻訳支援プログラム、方法、および装置 | |
CN111783482A (zh) | 一种文本翻译方法、装置、计算机设备及存储介质 | |
Van Hecke | Computational stylometric approach to the Dead Sea Scrolls: towards a new research agenda | |
US20150019208A1 (en) | Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device | |
JP5941345B2 (ja) | 文字情報の分析方法および情報分析装置並びにプログラム | |
JP7116940B2 (ja) | オープンデータを効率的に構造化し補正する方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |