CN108334481A - 文档处理方法以及装置 - Google Patents
文档处理方法以及装置 Download PDFInfo
- Publication number
- CN108334481A CN108334481A CN201810173169.5A CN201810173169A CN108334481A CN 108334481 A CN108334481 A CN 108334481A CN 201810173169 A CN201810173169 A CN 201810173169A CN 108334481 A CN108334481 A CN 108334481A
- Authority
- CN
- China
- Prior art keywords
- text
- node
- document
- stored
- unique identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000013519 translation Methods 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 21
- 241000238876 Acari Species 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000011084 recovery Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 abstract description 11
- 230000000007 visual effect Effects 0.000 abstract description 5
- 206010021703 Indifference Diseases 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- WURBVZBTWMNKQT-UHFFFAOYSA-N 1-(4-chlorophenoxy)-3,3-dimethyl-1-(1,2,4-triazol-1-yl)butan-2-one Chemical compound C1=NC=NN1C(C(=O)C(C)(C)C)OC1=CC=C(Cl)C=C1 WURBVZBTWMNKQT-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种文档处理方法以及装置,主要是通过提取XML中的需要翻译的文本,然后对其进行替换实现无差异还原,能够高保真的还原原文档格式。通过部分可视化元素,减少页面(编辑器)标签,通过多源文档解压后的xml元素加唯一性id和model中标签id对应,实现元素节点还原,能够实现较好的保真效果。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种文档处理方法以及装置。
背景技术
近十年来,信息技术、人工智能、自然语言处理等的发展,特别是计算机硬件承载能力持续增长,互联网技术、云计算深入发展促使翻译技术突飞猛进,翻译***功能不断改善,翻译行业生产力不断提高,智能化、语境化、可视化、集成化、网络协作化等特征越来越明显。可以预见,传统翻译生产方式将逐步被新技术洪流淹没,以云计算为基础架构的云翻译***将会粉墨登场。
当前市面上的计算机程序中的计算机辅助翻译软件(Computer AidedTranslation,CAT)在针对Office在文档文本提取和样式存在标签过多的情况下时,如Visualtran,WordFast,还原文件易丢失内容,对译后查找校对有较大影响,对翻译后的文本内容和样式进行还原时,都容易丢失。
发明内容
有鉴于此,本发明实施例的目的在于提供一种文档处理方法以及装置,以解决上述问题。
第一方面,本发明实施例提供了一种文档处理方法,所述方法包括:将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;获取与所述待处理文档对应的译文;将所述译文与保存在所述标签模型内的所述文本节点进行替换;对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。
第二方面,本发明实施例提供了一种文档处理装置,所述装置包括:识别模块,用于将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;标记模块,用于基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;加密模块,用于将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;保存模块,用于将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;获取模块,用于获取与所述待处理文档对应的译文;替换模块,用于将所述译文与保存在所述标签模型内的所述文本节点进行替换;还原模块,用于对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。
与现有技术相比,本发明各实施例提出的文档处理方法以及装置,通过将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;获取与所述待处理文档对应的译文;将所述译文与保存在所述标签模型内的所述文本节点进行替换;对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。本方案主要是通过提取XML中的需要翻译的文本,然后对其进行替换实现无差异还原,能够高保真的还原原文档的格式。通过部分可视化元素,减少页面(编辑器)标签,通过多源文档解压后的xml元素加唯一性id和model中标签id对应,实现元素节点还原,能够实现较好的保真效果。减少了以前译员排版的烦恼。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的用户终端的结构框图;
图2为本发明第一实施例提供的一种文档处理方法的流程图;
图3为本发明第二实施例提供的一种文档处理装置的结构框图;
图4为本发明第二实施例提供的另一种文档处理装置的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图2所示,是所述用户终端100的方框示意图。所述用户终端100可以是个人电脑(personal computer,PC)、平板电脑、智能手机、个人数字助理(personal digitalassistant,PDA)等。所述用户终端100包括:文档处理装置、存储器110、存储控制器120、处理器130、外设接口140、输入输出单元150、音频单元160、显示单元170。
所述存储器110、存储控制器120、处理器130、外设接口140、输入输出单元150、音频单元160以及显示单元170各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述文档处理装置包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中或固化在客户端设备的操作***(operating system,OS)中的软件功能模块。所述处理器130用于执行存储器110中存储的可执行模块,例如所述文档处理装置包括的软件功能模块或计算机程序。
其中,存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器110用于存储程序,所述处理器130在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的服务器200、用户终端100所执行的方法可以应用于处理器130中,或者由处理器130实现。
处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器130可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述外设接口140将各种输入/输出装置耦合至处理器130以及存储器110。在一些实施例中,外设接口140,处理器130以及存储控制器120可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元150用于提供给用户输入数据实现用户与用户终端100的交互。所述输入输出单元150可以是,但不限于,鼠标和键盘等。
音频单元160向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元170在用户终端100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元170可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器130进行计算和处理。
第一实施例
请参照图2,图2是本发明第一实施例提供的一种文档处理方法的流程图,所述方法应用于用户终端。下面将对图2所示的流程进行详细阐述,所述方法包括:
步骤S110:将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点。
其中,所述待处理文档可以是Word格式、Excel格式、PPT格式以及Visio格式等。用户终端可以通过JAVA、C#等对待处理文档进行解析,识别待处理文档中的目标节点。其中,所述目标节点至少包括:Paragraph(段落节点)、Run(文本和文本样式节点)、Text(文本节点)、RunProperty(文本和样式属性节点)等关键节点。
当然,可能存在某个待处理文档的Paragraph节点下只有Text节点,无Run节点的情况。此时,为了保证统一性,用户终端在判断所述待处理文档不包括Run节点时,在所述Text节点外层添加Run节点。
步骤S120:基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识。
其中,作为一种实施方式,可以是基于Guid,对所述目标节点中的每个节点标记唯一性标识,即标记唯一的ID。
步骤S130:将添加唯一性标识后的待处理文档进行加密处理,得到加密文档。
由于Word、Excel、Ppt等是二进制格式,不能再X ml中存储,因此,可以将添加唯一性标识后的待处理文档生成Base64编码,得到加密文档。
步骤S140:将所述加密文档按照节点的不同分别保存在预先设置的标签模型内。
作为一种实施方式,所述预先设置的标签模型Model内可以包括多个标签子模型,例如可以包括段落子模型Paragraph、文本和文本样式子模型<all-run></all-run>以及文本子模型<text><value></value></text>。用户终端可以将加密文档存放在Model中<yyq-file form="base64"></yyq-file>节点中,原文节点的Paragraph存在Model中的Paragraph中(Excel每个cell视为Paragraph,PPT中Shape视为Paragraph),原文Run节点存放在<all-run></all-run>节点,Run的可视化样式(前景色背景色下划线上标下标粗体斜体等)存放在<all-run></all-run>下的Visual中,不可视化的,如书签,艺术字体作为不可视化标签,存放在<all-run></all-run>下的<no-visual></no-visual>中。文本节点存放在<text><value></value></text>中。
步骤S150:获取与所述待处理文档对应的译文。
翻译人员可以预先在翻译界面提供译文并通过程序存储在用户终端内,便于用户终端进行获取。
步骤S160:将所述译文与保存在所述标签模型内的所述文本节点进行替换。
通过用译文替换<text><value></value></text>中的原文,其他节点保持不变。
步骤S170:对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。
将替换后的Model根据标记的ID和<yyq-file form=“base64”>中的Base64反序列化后的文件查找相同的ID,进行译文还原,其他地方保持不变。
本发明第一实施例提供的一种文档处理方法,通过将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;获取与所述待处理文档对应的译文;将所述译文与保存在所述标签模型内的所述文本节点进行替换;对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。本方案主要是通过提取XML中的需要翻译的文本,然后对其进行替换实现无差异还原,能够高保真的还原原文档的格式。通过部分可视化元素,减少页面(编辑器)标签,通过多源文档解压后的xml元素加唯一性id和model中标签id对应,实现元素节点还原,能够实现较好的保真效果。减少了以前译员排版的烦恼。
第二实施例
请参照图3,图3是本发明第二实施例提供的一种文档处理装置400的结构框图。下面将对图3所示的结构框图进行阐述,所示装置包括:
识别模块410,用于将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;
标记模块420,用于基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;
加密模块430,用于将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;
保存模块440,用于将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;
获取模块450,用于获取与所述待处理文档对应的译文;
替换模块460,用于将所述译文与保存在所述标签模型内的所述文本节点进行替换;
还原模块470,用于对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。
其中,所述加密模块430,具体用于将添加唯一性标识后的待处理文档生成Base64编码,得到加密文档。
所述标记模块420,具体用于:基于全局唯一标识符,对所述目标节点中的每个节点标记唯一性标识。
所述预先设置的标签模型内包括段落子模型、文本和文本样式子模型以及文本子模型,所述保存模块440,用于将所述段落节点保存在所述段落子模型内,将所述文本和文本样式节点保存在所述文本和文本样式子模型内,将所述文本节点保存在所述文本子模型内。
此外,请参看图4,作为一种实施方式,所述装置还可以包括:
判断模块480,用于在判断所述待处理文档不包括文本和文本样式节点时,在所述文本节点外层添加文本和文本样式节点。
本实施例对文档处理的装置400的各功能模块实现各自功能的过程,请参见上述图1至图2所示实施例中描述的内容,此处不再赘述。
综上所述,本发明实施例提出的文档处理方法以及装置,通过将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;获取与所述待处理文档对应的译文;将所述译文与保存在所述标签模型内的所述文本节点进行替换;对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。本方案主要是通过提取XML中的需要翻译的文本,然后对其进行替换实现无差异还原,能够高保真的还原原文档的格式。通过部分可视化元素,减少页面(编辑器)标签,通过多源文档解压后的xml元素加唯一性id和model中标签id对应,实现元素节点还原,能够实现较好的保真效果。减少了以前译员排版的烦恼。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种文档处理方法,其特征在于,所述方法包括:
将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;
基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;
将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;
将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;
获取与所述待处理文档对应的译文;
将所述译文与保存在所述标签模型内的所述文本节点进行替换;
对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。
2.根据权利要求1所述的方法,其特征在于,所述将添加唯一性标识后的待处理文档进行加密处理,得到加密文档,包括:
将添加唯一性标识后的待处理文档生成Base64编码,得到加密文档。
3.根据权利要求2所述的方法,其特征在于,在所述将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点之前,所述方法还包括:
在判断所述待处理文档不包括文本和文本样式节点时,在所述文本节点外层添加文本和文本样式节点。
4.根据权利要求3所述的方法,其特征在于,所述基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识,包括:
基于全局唯一标识符,对所述目标节点中的每个节点标记唯一性标识。
5.根据权利要求4所述的方法,其特征在于,所述预先设置的标签模型内包括段落子模型、文本和文本样式子模型以及文本子模型,将所述加密文档按照节点的不同分别保存在预先设置的标签模型内,包括:
将所述段落节点保存在所述段落子模型内,将所述文本和文本样式节点保存在所述文本和文本样式子模型内,将所述文本节点保存在所述文本子模型内。
6.一种文档处理装置,其特征在于,所述装置包括:
识别模块,用于将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;
标记模块,用于基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;
加密模块,用于将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;
保存模块,用于将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;
获取模块,用于获取与所述待处理文档对应的译文;
替换模块,用于将所述译文与保存在所述标签模型内的所述文本节点进行替换;
还原模块,用于对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。
7.根据权利要求6所述的装置,其特征在于,
所述加密模块,具体用于将添加唯一性标识后的待处理文档生成Base64编码,得到加密文档。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
判断模块,用于在判断所述待处理文档不包括文本和文本样式节点时,在所述文本节点外层添加文本和文本样式节点。
9.根据权利要求8所述的装置,其特征在于,
所述标记模块,具体用于:基于全局唯一标识符,对所述目标节点中的每个节点标记唯一性标识。
10.根据权利要求9所述的装置,其特征在于,所述预先设置的标签模型内包括段落子模型、文本和文本样式子模型以及文本子模型,所述保存模块,用于将所述段落节点保存在所述段落子模型内,将所述文本和文本样式节点保存在所述文本和文本样式子模型内,将所述文本节点保存在所述文本子模型内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810173169.5A CN108334481B (zh) | 2018-03-01 | 2018-03-01 | 文档处理方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810173169.5A CN108334481B (zh) | 2018-03-01 | 2018-03-01 | 文档处理方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108334481A true CN108334481A (zh) | 2018-07-27 |
CN108334481B CN108334481B (zh) | 2021-08-27 |
Family
ID=62930136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810173169.5A Active CN108334481B (zh) | 2018-03-01 | 2018-03-01 | 文档处理方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108334481B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178088A (zh) * | 2019-12-20 | 2020-05-19 | 沈阳雅译网络技术有限公司 | 一种面向xml文档的可配置神经机器翻译方法 |
CN113296754A (zh) * | 2021-07-28 | 2021-08-24 | 北京蔚领时代科技有限公司 | 基于xml的脚本语言转换方法、编辑器、设备及存储介质 |
CN113378585A (zh) * | 2021-06-01 | 2021-09-10 | 珠海金山办公软件有限公司 | Xml文本数据翻译方法和装置、电子设备、存储介质 |
CN113761840A (zh) * | 2021-09-08 | 2021-12-07 | 中信建投证券股份有限公司 | 智能文档处理方法、***、计算机设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246782A1 (en) * | 1999-08-31 | 2011-10-06 | Intertrust Technologies Corporation | Data Protection Systems and Methods |
US20130246467A1 (en) * | 2012-03-16 | 2013-09-19 | International Business Machines Corporation | Remote Inventory Manager |
CN104463019A (zh) * | 2014-12-29 | 2015-03-25 | 北京致远协创软件有限公司 | 电子文档的加解密方法 |
CN104899517A (zh) * | 2015-05-15 | 2015-09-09 | 陕西师范大学 | 基于短语的可搜索对称加密方法 |
CN105677764A (zh) * | 2015-12-30 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN107330068A (zh) * | 2017-06-30 | 2017-11-07 | 联想(北京)有限公司 | 一种文件处理方法和电子设备 |
-
2018
- 2018-03-01 CN CN201810173169.5A patent/CN108334481B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246782A1 (en) * | 1999-08-31 | 2011-10-06 | Intertrust Technologies Corporation | Data Protection Systems and Methods |
US20130246467A1 (en) * | 2012-03-16 | 2013-09-19 | International Business Machines Corporation | Remote Inventory Manager |
CN104463019A (zh) * | 2014-12-29 | 2015-03-25 | 北京致远协创软件有限公司 | 电子文档的加解密方法 |
CN104899517A (zh) * | 2015-05-15 | 2015-09-09 | 陕西师范大学 | 基于短语的可搜索对称加密方法 |
CN105677764A (zh) * | 2015-12-30 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN107330068A (zh) * | 2017-06-30 | 2017-11-07 | 联想(北京)有限公司 | 一种文件处理方法和电子设备 |
Non-Patent Citations (2)
Title |
---|
SAMI E. I. BABA 等: ""Watermarking of Digital Images in Frequency Domain"", 《INTERNATIONAL JOURNAL OF AUTOMATION & COMPUTING》 * |
张翔: ""网络环境下计算机终端文档加密与管理"", 《网络安全技术与应用》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178088A (zh) * | 2019-12-20 | 2020-05-19 | 沈阳雅译网络技术有限公司 | 一种面向xml文档的可配置神经机器翻译方法 |
CN111178088B (zh) * | 2019-12-20 | 2023-06-02 | 沈阳雅译网络技术有限公司 | 一种面向xml文档的可配置神经机器翻译方法 |
CN113378585A (zh) * | 2021-06-01 | 2021-09-10 | 珠海金山办公软件有限公司 | Xml文本数据翻译方法和装置、电子设备、存储介质 |
CN113296754A (zh) * | 2021-07-28 | 2021-08-24 | 北京蔚领时代科技有限公司 | 基于xml的脚本语言转换方法、编辑器、设备及存储介质 |
CN113761840A (zh) * | 2021-09-08 | 2021-12-07 | 中信建投证券股份有限公司 | 智能文档处理方法、***、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108334481B (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334481A (zh) | 文档处理方法以及装置 | |
US10747737B2 (en) | Altering data type of a column in a database | |
CN106852185B (zh) | 基于字典的并行压缩编码器 | |
EP3252592A1 (en) | Method and device for storing and reading data | |
CN107704202B (zh) | 一种数据快速读写的方法和装置 | |
CN107919943A (zh) | 二进制数据的编码、解码方法和装置 | |
CN103150359B (zh) | 微博信息显示方法和装置 | |
CN104091129A (zh) | 一种数据处理方法及装置 | |
CN109086126B (zh) | 任务调度处理方法、装置、服务器、客户端及电子设备 | |
CN105095237A (zh) | 用于生成非关系数据库的模式的方法和设备 | |
CN108363684A (zh) | 表单创建方法、装置及服务器 | |
CN105094924A (zh) | 镜像文件的导入方法及装置 | |
JP2019504426A (ja) | ランダム文字列を生成する方法および装置 | |
CN104657668A (zh) | 一种终端 | |
CN115408350A (zh) | 日志压缩、日志还原方法、装置、计算机设备和存储介质 | |
CN110266834B (zh) | 基于互联网协议地址的地区查找方法及装置 | |
CN104657991A (zh) | 一种图片处理的方法 | |
CN108985109B (zh) | 一种数据存储方法及装置 | |
CN103124273A (zh) | 基于用户行为分析的路径倒排表建立、匹配方法及*** | |
CN112559497B (zh) | 一种数据处理方法、一种信息传输方法、装置及电子设备 | |
CN115408547A (zh) | 一种字典树构建方法、装置、设备及存储介质 | |
US20130247211A1 (en) | Authority changing device, generating device, and computer program product | |
CN104780038A (zh) | 一种分布式协同加密方法及装置 | |
CN104951450A (zh) | 用于信息处理的方法和*** | |
CN109840080B (zh) | 字符属性比较方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Document processing methods and devices Granted publication date: 20210827 Pledgee: Chengdu SME financing Company Limited by Guarantee Pledgor: SICHUAN LAN-BRIDGE INFORMATION TECHNOLOGY CO.,LTD. Registration number: Y2024990000186 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |