CN110688863B - 一种文档翻译***及文档翻译方法 - Google Patents

一种文档翻译***及文档翻译方法 Download PDF

Info

Publication number
CN110688863B
CN110688863B CN201910913794.3A CN201910913794A CN110688863B CN 110688863 B CN110688863 B CN 110688863B CN 201910913794 A CN201910913794 A CN 201910913794A CN 110688863 B CN110688863 B CN 110688863B
Authority
CN
China
Prior art keywords
document
translated
content
translation
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910913794.3A
Other languages
English (en)
Other versions
CN110688863A (zh
Inventor
刘立新
杨彬
贺文蝶
倪一非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Six Dimensional United Information Technology Beijing Co ltd
Original Assignee
Six Dimensional United Information Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Six Dimensional United Information Technology Beijing Co ltd filed Critical Six Dimensional United Information Technology Beijing Co ltd
Priority to CN201910913794.3A priority Critical patent/CN110688863B/zh
Publication of CN110688863A publication Critical patent/CN110688863A/zh
Application granted granted Critical
Publication of CN110688863B publication Critical patent/CN110688863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种文档翻译***及文档翻译方法,所述文档翻译***包括:文档格式转换模块,用于将待翻译文档的格式转换为XML格式;文档内容抽取模块,用于自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容;文档翻译模块,用于对所述提取内容进行翻译,获得翻译文档。根据本发明的文档翻译***,将待翻译文档转换为XML格式后,便于对待翻译文档中的内容进行自动识别及提取,并且在自动识别及提取后进行翻译,可以根据对行、段落的分析进行翻译,更加符合用户的阅读习惯,提高翻译效果,进而提高了用户体验。

Description

一种文档翻译***及文档翻译方法
技术领域
本发明涉及机器翻译技术领域,特别涉及一种文档翻译***及文档翻译方法。
背景技术
随着国际化程度的不断深入,国际间交流越来越频繁。其中大量的不同语种的文件需要翻译。机器翻译是利用计算机将一种自然语言(源语言)转换成另一种自然语言(目标语言)的过程。因其翻译效率明显高于人工,能协助用户更快速获取信息情报,因此具有重要的实用价值。据全球最大的市场研究库Research&Markets预测,2023年全球机器翻译市场规模将达1.95亿美元。2017至2023年期间,机器翻译市场的复合年增长率超过6.0%,并在2023年达到1.95亿美元。现有的机器翻译软件,比如翻译狗、Transgod采用机器翻译引擎进行全文翻译。
目前的机器翻译对于文档而言,是“一视同仁”的,即对于文档中的文字,进行全文翻译,不会自动识别文档中的内容,这极大地降低了用户体验。
发明内容
本发明提供一种文档翻译***及文档翻译方法,用以根据对行、段落的分析进行翻译,更加符合用户的阅读习惯,提高翻译效果。
本发明提供一种文档翻译***,包括:
文档格式转换模块,用于将待翻译文档的格式转换为XML格式;
文档内容抽取模块,用于自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容;
文档翻译模块,用于对所述提取内容进行翻译,获得翻译文档。
进一步地,所述文档翻译***还包括文档组装模块,用于将所述待翻译文档和所述翻译文档进行组装,获得组装文档,所述文档组装模块包括文档生成组件、文档分割组件、文档补全组件或文档合并组件,其中,
所述文档生成组件用于基于所述待翻译文档和所述翻译文档,生成包括所述待翻译文档和与所述待翻译文档对应的所述翻译文档的双语对照文档;
所述文档分割组件用于根据所述待翻译文档中的页码,对所述翻译文档的页码进行分割,以使所述双语对照文档中的所述翻译文档的页码与所述待翻译文档中的页码相对应:
所述文档补全组件用于根据所述翻译文档的页码,将所述双语对照文档中的所述翻译文档进行补全,以使所述翻译文档的若干页面的内容与所述待翻译文档中的每一页面的内容相对应:
所述文档合并组件用于将每一页面的所述待翻译文档和与每一页面的所述待翻译文档相对应的若干页面的所述翻译文档进行合并,获得合并文档。
进一步地,所述文档格式转换模块包括:
文档格式转化组件,用于将所述待翻译文档的非PDF格式转化为PDF格式;
内容抽取组件,用于分别抽取所述待翻译文档中的文本、图像、表格中的内容;
XML格式转化组件,用于分别将抽取的所述待翻译文档中的文本、图像、表格中的内容转化为XML格式文档。
进一步地,所述文档内容抽取模块包括基于坐标行的分析组件、基于坐标段落的分析组件、基于语义段落的分析组件或基于经验段落的分析组件,其中,所述基于坐标行的分析组件用于根据坐标行训练模型,分别提取转换为XML格式的所述待翻译文档中的每一行的内容;
所述基于坐标段落的分析组件用于根据坐标段落训练模型,分别提取转换为XML格式的所述待翻译文档中的每一段落的内容;
所述基于语义段落的分析组件用于根据语义段落训练模型,分别对转换为XML格式的所述待翻译文档中的每一段落的内容进行语义分析;
所述基于经验段落的分析组件用于根据经验段落训练模型,分别对转换为XML格式的所述待翻译文档中的每一段落的内容进行语义分析。
进一步地,所述文档翻译模块包括文本分类器、统一翻译模块或规范语义识别翻译模块,其中,
所述文本分类器用于根据所述提取内容,将所述待翻译文档按照行业进行分类;
所述统一翻译模块用于根据所述文本分类器的分类,选择针对不同行业的翻译模型,对所述待翻译文档进行翻译,获得中间翻译结果;
所述规范语义识别翻译模块用于根据规范语义识别模型,对所述中间翻译结果的语义进行规范化处理,以获得所述翻译文档。
进一步地,所述文档翻译模块还包括双语对照语料数据库,所述双语对照语料数据库中收录有双语对照语料,所述双语对照语料数据库中收录的双语对照语料带有最后一次使用时间、是否校正过、短句/术语、行业和专业领域的标记;
所述统一翻译模块将所述待翻译文档中的短句在双语对照语料数据库中进行比对,筛选匹配的译文。
进一步地,所述文档内容抽取模块采用以下公式自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容:
Figure BDA0002215484770000031
其中,Z为所述提取内容,g为提取函数,tagt为第t个标签的标签表示,vq为第q个节点的节点表示,Ctq为第q个节点第t个标签的所述待翻译文档内容,vroot为根节点表示,Croot为根节点对应所述待翻译文档内容,q为所述待翻译文档内容的节点变量,初始值为1,以1为单位递增,最大为r,r为所述待翻译文档内容的节点总数,t为所述待翻译文档内容的标签变量,初始值为1,以1为单位递增,最大为s,s为所述待翻译文档内容的标签总数。
进一步地,所述XML格式转化组件采用以下公式分别将抽取的所述待翻译文档中的文本、图像、表格中的内容转化为XML格式文档:
Figure BDA0002215484770000041
其中,yxml为所述待翻译文档的XML格式表示,T为所述待翻译文档中的所有文本对应XML格式下的所有文本之间的映射关系函数,M为所抽取所述待翻译文档中的所有图片对应XML格式下的图片之间的映射关系函数,E为所抽取所述待翻译文档中的所有表格对应XML格式下的所有表格之间的映射关系函数,
Figure BDA0002215484770000042
为文本与图片、表格之间的位置关系表,
Figure BDA0002215484770000043
为图片与文字、表格之间的位置关系表,
Figure BDA0002215484770000044
为表格与图片、文字之间的位置关系表,t为所述待翻译文档的文本内容,m为所述待翻译文档的图像内容,e为所述待翻译文档的表格内容,f为所述待翻译文档中的所有内容与XML格式的文本、图像、表格中的内容组合转换函数。
进一步地,所述文本分类器根据所述提取内容将所述待翻译文档按照行业进行分类,执行以下步骤:
首先,获取行业的分类集合Sk,Sk=(sk1,sk2,...,ski,...,skn),其中,k为行业的变量,初始值为1,以1为单位递增,最大为a,a为行业的分类的总个数,i为行业内术语个数的变量,初始值为1,以1为单位递增,最大为n,n为行业内术语个数的总量,Ski为第k个行业第i个行业内术语的行业术语表示;
然后,计算行业的分类Sk的中心向量,中心向量计算公式如下:
Figure BDA0002215484770000045
其中,Wk为行业的分类Sk的中心向量,sign(x)为符号函数,当x>0时,sign(x)=1,当x=0时,sign(x)=0,当x<0时,sign(x)=-1,α为预设系数,β为预设冗余项系数;
然后,计算所述待翻译文档内容x与行业的分类Sk的中心向量之间的相似度,相似度计算公式如下:
Figure BDA0002215484770000051
其中,j为所述待翻译文档内容的属性变量,初始值为1,以1为单位递增,最大为p,p为所述待翻译文档内容的属性总数,σj为第j个所述待翻译文档内容属性的所占权重,sim(x,Wk)为所述待翻译文档内容x与行业的分类Sk的中心向量Wk之间的相似度;
最后,找到最大的相似度,最大相似度的行业的分类即为所述待翻译文档内容的所在行业分类,最大相似度计算公式为
Figure BDA0002215484770000052
其中argmax为求最大值。
本发明实施例提供的一种文档翻译***,具有以下有益效果:将待翻译文档转换为XML格式后,便于对待翻译文档中的内容进行自动识别及提取,并且在自动识别及提取后进行翻译,可以根据对行、段落的分析进行翻译,更加符合用户的阅读习惯,提高翻译效果,进而提高了用户体验。
本发明还提供一种文档翻译方法,所述文档翻译方法执行以下步骤:
步骤1:将待翻译文档的格式转换为XML格式;
步骤2:自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容;
步骤3:对所述提取内容进行翻译,获得翻译文档。
本发明实施例提供的一种文档翻译方法,具有以下有益效果:将待翻译文档转换为XML格式后,便于对待翻译文档中的内容进行自动识别及提取,并且在自动识别及提取后进行翻译,可以根据对行、段落的分析进行翻译,更加符合用户的阅读习惯,提高翻译效果,进而提高了用户体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种文档翻译***的框图;
图2为本发明实施例中一种文档翻译方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种文档翻译***,如图1所示,包括:
文档格式转换模块101,用于将待翻译文档的格式转换为XML格式;
文档内容抽取模块102,用于自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容;
文档翻译模块103,用于对所述提取内容进行翻译,获得翻译文档。
上述技术方案的工作原理为:文档格式转换模块101将待翻译文档的格式转换为XML格式;文档内容抽取模块102自动识别并提取转换为XML格式的待翻译文档中的内容,以获取提取内容;文档翻译模块103对提取内容进行翻译,获得翻译文档。
将待翻译文档的格式转换为标准的XML(eXtensible Markup Language,可扩展标记语言)格式后,便于对待翻译文档中的内容进行自动识别及提取,并且通过自动识别及提取后翻译,可以根据行、段落的分析进行翻译,更加符合用户的阅读习惯,提高翻译效果,进而提高了用户体验。
所述待翻译文档及所述翻译文档的语种可以在英语、法语、日语、韩语、俄语等语种之间进行自由切换。可以直接调用第三方语种检测应用,快速完成语种的判别。基于部分文字的选取,可以减小语种判别的计算量,提高检测效率。
上述技术方案的有益效果为:将待翻译文档转换为XML格式后,便于对待翻译文档中的内容进行自动识别及提取,并且在自动识别及提取后进行翻译,可以根据对行、段落的分析进行翻译,更加符合用户的阅读习惯,提高翻译效果,进而提高了用户体验。
在一个实施例中,所述文档翻译***还包括文档组装模块104,用于将所述待翻译文档和所述翻译文档进行组装,获得组装文档。
上述技术方案的工作原理为:在文档翻译模块103完成翻译后,文档组装模块104将待翻译文档和翻译文档进行组装,获得组装文档。
上述技术方案的有益效果为:可以实现待翻译文档和翻译文档的组装。
在一个实施例中,所述文档组装模块104包括文档生成组件、文档分割组件、文档补全组件或文档合并组件,其中,
所述文档生成组件用于基于所述待翻译文档和所述翻译文档,生成包括所述待翻译文档和与所述待翻译文档对应的所述翻译文档的双语对照文档;
所述文档分割组件用于根据所述待翻译文档中的页码,对所述翻译文档的页码进行分割,以使所述双语对照文档中的所述翻译文档的页码与所述待翻译文档中的页码相对应:
所述文档补全组件用于根据所述翻译文档的页码,将所述双语对照文档中的所述翻译文档进行补全,以使所述翻译文档的若干页面的内容与所述待翻译文档中的每一页面的内容相对应:
所述文档合并组件用于将每一页面的所述待翻译文档和与每一页面的所述待翻译文档相对应的若干页面的所述翻译文档进行合并,获得合并文档。
上述技术方案的工作原理为:文档组装模型是基础模型,根据程序需要提供基础的文档操作功能。
文档生成组件生成包括待翻译文档和与待翻译文档对应的翻译文档的双语对照文档,例如,待翻译文档由10页组成,翻译文档由15页组成,文档生成组件生成的双语对照文档则含有25页,文档生成组件的功能是可根据中间标准化XML格式文档生成目标文档类型文件(PDF、WORD、PDF),并且最大程度的保证译文文档和待翻译文档的格式保持一致。
文档分割组件根据待翻译文档中的页码,对翻译文档的页码进行分割,以使双语对照文档中的翻译文档的页码与待翻译文档中的页码相对应,例如,第一页待翻译文档的内容对应于两页(第一页和第二页)的翻译文档的内容,则文档分割组件将两页(第一页和第二页)的翻译文档放在第一页待翻译文档的内容后面,以此类推,将每页待翻译文档中对应的翻译文档放在其对应的待翻译文档的页码后面,组成新页码的双语对照文档,文档分割组件的功能是可根据需求拆分文档,例如一个10页的文档,想分割成三个文档,三个文档在原文档的页数分别是1-2、3-7、8-10,那么可以使用该文档分割组件进行分割。
文档补全组件用于根据翻译文档的页码,将双语对照文档中的翻译文档进行补全,以使翻译文档的若干页面的内容与待翻译文档中的每一页面的内容相对应,例如,第四页末尾段落未完结,在第五页继续,则将第五页的第一段落挪动到第四页,或者将五页的末尾段落挪动到第四页,这样每一个页面都包括整数个段落,即每个段落都是完整的段落:文档合并组件用于将每一页面的待翻译文档和与每一页面的待翻译文档相对应的若干页面的翻译文档进行合并,获得合并文档。文档补全组件的功能是补全待翻译文档与译文文档的露出页,露出页是指由于源语种与目标语种的原因,原有的第二页翻译后可能需要两页才能完全显示出翻译后的文本段落,那么就会在译文文档中第二页和第三页对应待翻译文档的第二页,那么译文文档的第三页就是露出页。此时需要将待翻译文档在第二页与第三页之间***一个空白页以对应译文文档。
文档合并组件的功能是将待翻译文档和译文文档按照奇偶页的方式进行合并,奇数页是待翻译文档,偶数页是译文文档。
上述技术方案的有益效果为:借助于文档生成组件、文档分割组件、文档补全组件或文档合并组件,可以与待翻译文档保持相同的排版,更加符合用户的阅读习惯。
在一个实施例中,所述文档格式转换模块101包括:
文档格式转化组件,用于将所述待翻译文档的非PDF格式转化为PDF格式;
内容抽取组件,用于分别抽取所述待翻译文档中的文本、图像、表格中的内容;
XML格式转化组件,用于分别将抽取的所述待翻译文档中的文本、图像、表格中的内容转化为XML格式文档。
上述技术方案的工作原理为:文档格式转化组件将PDF、WORD、PPT文档格式统一转化成PDF文档格式。
内容抽取组件的功能是抽取PDF文档内容,包括文本内容、图片内容和表格内容,以及文档内容位置信息。此时抽取的文本内容是不规则的,不成行和段落体系。
例如,
This is a demonstration of the content,mainly to demonstrate that thetext content is not in line and paragraph system when it is firstextracted.This is the entire content of the first paragraph of information2019.
This is the second paragraph of the demo.
抽取出的内容是(括号中是坐标X,Y,W,其中W是宽度):This is a demonstrationof the(10,720,16);content,mainly to demonstrate that the text content(27,720,38);is not in line and paragraph system when it is first extracted.This is(66,720,60);the entire content of the first paragraph of information 2019.(2,692,50);This is the second paragraph of the demo.(2,664,47)。
最后将这些信息和图片内容、表格行列数坐标信息写入中间标准化XML格式文档中。
内容抽取组件分别抽取待翻译文档中的文本、图像、表格中的内容,对于图片类文件,需要借助对应的工具(如OCR工具)提取出文档中的文字及图片大小;对于文本类PDF(如将word文档进行PDF格式转换的文档),通过采用PDFbox等工具提取出文档中的文字;对于表格类文件,需要通过采用PDFbox等工具提取出表格中的文字,例如每一行、每一列的文字。
上述技术方案的有益效果为:借助于内容抽取组件和XML格式转化组件,可以分别将待翻译文档中的文本、图像、表格中的内容转化为XML格式文档。
在一个实施例中,所述文档内容抽取模块包括基于坐标行的分析组件、基于坐标段落的分析组件、基于语义段落的分析组件或基于经验段落的分析组件,其中,
所述基于坐标行的分析组件用于根据坐标行训练模型,分别提取转换为XML格式的所述待翻译文档中的每一行的内容;
所述基于坐标段落的分析组件用于根据坐标段落训练模型,分别提取转换为XML格式的所述待翻译文档中的每一段落的内容;
所述基于语义段落的分析组件用于根据语义段落训练模型,分别对转换为XML格式的所述待翻译文档中的每一段落的内容进行语义分析;
所述基于经验段落的分析组件用于根据经验段落训练模型,分别对转换为XML格式的所述待翻译文档中的每一段落的内容进行语义分析。
上述技术方案的工作原理为:文档内容抽取模型主要功能是读取接收到的被翻译文件,抽取出文档具体内容(包括文本内容、图片内容和表格内容)和内容坐标信息,根据这些信息计算出文档段落信息,并形成统一标准的XML文件,其中图片信息使用base64编码。
基于坐标行的分析组件的功能是读取中间标准化XML格式文档,根据文本内容坐标信息将内容组装成行信息。例如,在上一实施例中,将“This is a demonstration ofthe(10,720,16);content,mainly to demonstrate that the text content(27,720,38);is not in line and paragraph system when it is first extracted.This is(66,720,60)”组装成“This is a demonstration of the content,mainly todemonstrate that the text content is not in line and paragraph system when itis first extracted.This is(10,720,114)”。基于坐标行的分析组件根据坐标行训练模型,分别提取待翻译文档中的每一行的内容,例如,第二行中出现了哪些成分,例如介词、状语、主语等。
基于坐标段落的分析组件的功能是上一步中的输出结果进一步根据坐标将内容组装成段落信息。例如拼装后的段落信息:This is a demonstration of the content,mainly to demonstrate that the text content is not in line and paragraphsystem when it is first extracted.This is the entire content of the firstparagraph of information 2019.(10,720,2左边界X坐标,340右边界X坐标、字体大小等)。基于坐标段落的分析组件分别提取每一段落的内容,例如提取第二自然段中的主语、谓语、宾语等语法结构。
基于语义段落的分析组件的功能是根据不同语种的语法判别上一步骤中的段落是否完整,若不完整则给予语义再次重组段落信息。例如上一步骤中计算出的段落末尾是“of the”,这在英语中不可能是段落的末尾。故上一步骤组装的段落不完整,需要基于语义再次组装,以获得更准确的段落信息。基于语义段落的分析组件分别对每一段落的内容进行语义分析,例如可以采用语义段落训练模型分析段落中的主语、谓语、宾语等语法结构判断该段落的语义是否完整。
基于经验的段落的分析组件的功能是基于上一步骤的内容再次基于已有的段落经验模型判断段落组装的合理性。经验模型是由已知准确的段落文档训练而来,可以判别句子之间的连贯性,根据分栏结构、目录结构等经验再次对段落进行校对,以形成更准确的段落信息。基于经验段落的分析组件用于根据经验段落训练模型,分别对每一段落的内容进行语义分析,确定是否存在某一段落在当前页未完结,在下一页继续,若存在的话,将当前页和下一页的内容拼接成一个段落,例如可将下一页的内容前移到当前页。
上述技术方案的有益效果为:借助于坐标行的分析组件、基于坐标段落的分析组件、基于语义段落的分析组件或基于经验段落的分析组件,可以逐行、逐段落地分析文档,并且可以基于语义和经验进行翻译,在此基础上进行翻译,更加符合用户的阅读习惯,提高翻译的效果。
在一个实施例中,所述文档翻译模块包括文本分类器、统一翻译模块或规范语义识别翻译模块,其中,
所述文本分类器用于根据所述提取内容,将所述待翻译文档按照行业进行分类;
所述统一翻译模块用于根据所述文本分类器的分类,选择针对不同行业的翻译模型,对所述待翻译文档进行翻译,获得中间翻译结果;
所述规范语义识别翻译模块用于根据规范语义识别模型,对所述中间翻译结果的语义进行规范化处理,以获得所述翻译文档。
上述技术方案的工作原理为:文本翻译模型功能是将文本段落根据不同的语料模型精确的翻译成目标语言。
文本分类器的功能是根据所有段落信息分析出此文档内容是属于法律、金融、医药卫生、建筑建材、石油化工等26个行业中的哪个行业;统一翻译模块用于所述文本分类器的分类,选择针对不同行业的翻译模型,对待翻译文档进行翻译,获得中间翻译结果,翻译模型的功能是将段落文本信息根据确定的行业翻译成目标语言文本。
规范语义识别翻译模块的功能是将翻译模型翻译输出的目标语言文本进一步修正,更符合约定熟成的规范标准,例如:This is a demonstration of thecontent,mainlyto demonstrate that the text content is not in line and paragraph system whenit is first extracted.This is the entire content of the first paragraph ofinformation 2019.翻译成“这是对内容的演示,主要是为了证明文本内容在首次提取时不符合行和段落***。这是二零一九年第一段信息的全部内容”。其中“二零一九”约定俗称使用***数字2019,那么在此模块中将“二零一九”将替换成“2019”。
上述技术方案的有益效果为:借助于文本分类器、统一翻译模块、规范语义识别翻译模块,可以提高翻译的准确性。
在一个实施例中,所述文档翻译模块还包括双语对照语料数据库,所述双语对照语料数据库中收录有双语对照语料,所述双语对照语料数据库中收录的双语对照语料带有最后一次使用时间、是否校正过、短句/术语、行业和专业领域的标记;
所述统一翻译模块将所述待翻译文档中的短句在双语对照语料数据库中进行比对,筛选匹配的译文。
上述技术方案的工作原理为:筛选匹配的译文是指,统一翻译模块事先设定一个原文与译文匹配的阈值,将待翻译文档原文文字中的短句在双语对照语料数据库中进行比对时,如果原文与译文匹配率高于这个阈值的译文只有一个,则选择这个译文,如果原文与译文匹配率高于这个阈值的译文有多个,按所带的最后一次使用时间、是否校正过、短句/术语、行业和专业领域标记按既定的规则排序,如果原文与译文匹配率高于这个阈值的译文不存在,则不选择。
在本发明的实施例中,使用支持中文、日语、英语、法语、韩语等31种语言的10亿级语料,并且支持法律、金融、医药卫生、建筑建材、石油化工等26个行业专业词汇精准翻译。
上述技术方案的有益效果为:借助于双语对照语料数据库,可以大幅度地提高翻译效率,筛选匹配的译文。
在一个实施例中,所述文档翻译***还包括文档输入模块、文档扫描模块、文档输出模块,其中:
所述文档输入模块用于输入原始的待翻译文档,所述待翻译文档的格式包括PDF格式、WORD格式、PPT格式;
所述文档扫描模块用于对所述原始的待翻译文档进行扫描,获得扫描文档;
所述文档输出模块用于输出所述待翻译文档和与所述待翻译文档对应的所述翻译文档。
上述技术方案的工作原理为:文档输入模块输入原始的PDF格式、WORD格式、PPT格式的待翻译文档。
文档扫描模块对原始的待翻译文档进行扫描,识别文档种类,并根据文档种类调用不同的识别器,识别文档结构。例如:文档第一页是目录、第二页是左右分栏、第三页包含表格等。获取到这些信息有助于更好的统一转换成PDF文件。
文档输出模块输出待翻译文档和与待翻译文档对应的翻译文档。
文档翻译***的输入是被翻译文档和文档扫描模块输出的文档结构信息,输出是PDF文件。
上述技术方案的有益效果为:借助于文档输入模块、文档扫描模块、文档输出模块,可以实现待翻译文档的输入和扫描以及翻译文档的输出。
在一个实施例中,所述文档内容抽取模块102采用以下公式自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容:
Figure BDA0002215484770000141
其中,Z为所述提取内容,g为提取函数,tagt为第t个标签的标签表示,vq为第q个节点的节点表示,Ctq为第q个节点第t个标签的所述待翻译文档内容,vroot为根节点表示,Croot为根节点对应所述待翻译文档内容,q为所述待翻译文档内容的节点变量,初始值为1,以1为单位递增,最大为r,r为所述待翻译文档内容的节点总数,t为所述待翻译文档内容的标签变量,初始值为1,以1为单位递增,最大为s,s为所述待翻译文档内容的标签总数。
上述技术方案的有益效果为:根据转换为XML格式的待翻译文档中的内容的节点与标签信息,自动识别并获取文档中的内容,获得的信息更全面,大大提高了用户体验。
在一个实施例中,所述XML格式转化组件采用以下公式分别将抽取的所述待翻译文档中的文本、图像、表格中的内容转化为XML格式文档:
Figure BDA0002215484770000151
其中,yxml为所述待翻译文档的XML格式表示,T为所述待翻译文档中的所有文本对应XML格式下的所有文本之间的映射关系函数,M为所抽取所述待翻译文档中的所有图片对应XML格式下的图片之间的映射关系函数,E为所抽取所述待翻译文档中的所有表格对应XML格式下的所有表格之间的映射关系函数,
Figure BDA0002215484770000152
为文本与图片、表格之间的位置关系表,
Figure BDA0002215484770000153
为图片与文字、表格之间的位置关系表,
Figure BDA0002215484770000154
为表格与图片、文字之间的位置关系表,t为所述待翻译文档的文本内容,m为所述待翻译文档的图像内容,e为所述待翻译文档的表格内容,f为所述待翻译文档中的所有内容与XML格式的文本、图像、表格中的内容组合转换函数。
上述技术方案的有益效果为:把所述待翻译文档按文本、图像、表格三部分分别处理,实现待翻译文件内容的区别对待,自动识别文档中的文本、图像、表格内容,提高了用户体验,有利于全文翻译的实现。
在一个实施例中,所述文本分类器根据所述提取内容将所述待翻译文档按照行业进行分类,执行以下步骤:
首先,获取行业的分类集合Sk,Sk=(sk1,sk2,...,ski,...,skn),其中,k为行业的变量,初始值为1,以1为单位递增,最大为a,a为行业的分类的总个数,i为行业内术语个数的变量,初始值为1,以1为单位递增,最大为n,n为行业内术语个数的总量,Ski为第k个行业第i个行业内术语的行业术语表示;
然后,计算行业的分类Sk的中心向量,中心向量计算公式如下:
Figure BDA0002215484770000161
其中,Wk为行业的分类Sk的中心向量,sign(x)为符号函数,当x>0时,sign(x)=1,当x=0时,sign(x)=0,当x<0时,sign(x)=-1,α为预设系数,β为预设冗余项系数;
然后,计算所述待翻译文档内容x与行业的分类Sk的中心向量之间的相似度,相似度计算公式如下:
Figure BDA0002215484770000162
其中,j为所述待翻译文档内容的属性变量,初始值为1,以1为单位递增,最大为p,p为所述待翻译文档内容的属性总数,σj为第j个所述待翻译文档内容属性的所占权重,sim(x,Wk)为所述待翻译文档内容x与行业的分类Sk的中心向量Wk之间的相似度;
最后,找到最大的相似度,最大相似度的行业的分类即为所述待翻译文档内容的所在行业分类,最大相似度计算公式为
Figure BDA0002215484770000163
其中argmax为求最大值。
上述技术方案的有益效果为:利用权重与多距离平均技术计算待翻译文本与行业的相似度,比单独使用一种距离方法计算的相似度更可靠。利用冗余项计算技术获得准确的行业的分类中心向量,更逼近行业的真实情况。同一个词在不同行业内的解释会有差异,根据行业匹配文本的解释,能够大大提高翻译的准确性,提高了用户体验。
本发明还提供一种文档翻译方法,所述文档翻译方法执行以下步骤:
步骤1:将待翻译文档的格式转换为XML格式;
步骤2:自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容;
步骤3:对所述提取内容进行翻译,获得翻译文档。
上述技术方案的工作原理为:将待翻译文档的格式转换为XML格式,然后自动识别并提取转换为XML格式的待翻译文档中的内容,以获取提取内容;对提取内容进行翻译,获得翻译文档。
所述待翻译文档及所述翻译文档的语种可以在英语、法语、日语、韩语、俄语等语种之间进行自由切换。可以直接调用第三方语种检测应用,快速完成语种的判别。基于部分文字的选取,可以减小语种判别的计算量,提高检测效率。
上述技术方案的有益效果为:将待翻译文档转换为XML格式后,便于对待翻译文档中的内容进行自动识别及提取,并且在自动识别及提取后进行翻译,可以根据对行、段落的分析进行翻译,更加符合用户的阅读习惯,提高翻译效果,进而提高了用户体验。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种文档翻译***,其特征在于,包括:
文档格式转换模块,用于将待翻译文档的格式转换为XML格式;
文档内容抽取模块,用于自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容;
文档翻译模块,用于对所述提取内容进行翻译,获得翻译文档;
所述文档翻译***还包括文档组装模块,用于将所述待翻译文档和所述翻译文档进行组装,获得组装文档,所述文档组装模块包括文档生成组件、文档分割组件、文档补全组件或文档合并组件,其中,
所述文档生成组件用于基于所述待翻译文档和所述翻译文档,生成包括所述待翻译文档和与所述待翻译文档对应的所述翻译文档的双语对照文档;
所述文档分割组件用于根据所述待翻译文档中的页码,对所述翻译文档的页码进行分割,以使所述双语对照文档中的所述翻译文档的页码与所述待翻译文档中的页码相对应:
所述文档补全组件用于根据所述翻译文档的页码,将所述双语对照文档中的所述翻译文档进行补全,以使所述翻译文档的若干页面的内容与所述待翻译文档中的每一页面的内容相对应:
所述文档合并组件用于将每一页面的所述待翻译文档和与每一页面的所述待翻译文档相对应的若干页面的所述翻译文档进行合并,获得合并文档;
所述文档内容抽取模块采用以下公式自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容:
Figure FDA0003933657210000011
其中,Z为所述提取内容,g为提取函数,tagt为第t个标签的标签表示,vq为第q个节点的节点表示,Ctq为第q个节点第t个标签的所述待翻译文档内容,vroot为根节点表示,Croot为根节点对应所述待翻译文档内容,q为所述待翻译文档内容的节点变量,初始值为1,以1为单位递增,最大为r,r为所述待翻译文档内容的节点总数,t为所述待翻译文档内容的标签变量,初始值为1,以1为单位递增,最大为s,s为所述待翻译文档内容的标签总数。
2.如权利要求1所述的文档翻译***,其特征在于,所述文档格式转换模块包括:
文档格式转化组件,用于将所述待翻译文档的非PDF格式转化为PDF格式;
内容抽取组件,用于分别抽取所述待翻译文档中的文本、图像、表格中的内容;
XML格式转化组件,用于分别将抽取的所述待翻译文档中的文本、图像、表格中的内容转化为XML格式文档。
3.如权利要求1所述的文档翻译***,其特征在于,所述文档内容抽取模块包括基于坐标行的分析组件、基于坐标段落的分析组件、基于语义段落的分析组件或基于经验段落的分析组件,其中,
所述基于坐标行的分析组件用于根据坐标行训练模型,分别提取转换为XML格式的所述待翻译文档中的每一行的内容;
所述基于坐标段落的分析组件用于根据坐标段落训练模型,分别提取转换为XML格式的所述待翻译文档中的每一段落的内容;
所述基于语义段落的分析组件用于根据语义段落训练模型,分别对转换为XML格式的所述待翻译文档中的每一段落的内容进行语义分析;
所述基于经验段落的分析组件用于根据经验段落训练模型,分别对转换为XML格式的所述待翻译文档中的每一段落的内容进行语义分析。
4.如权利要求1所述的文档翻译***,其特征在于,所述文档翻译模块包括文本分类器、统一翻译模块或规范语义识别翻译模块,其中,
所述文本分类器用于根据所述提取内容,将所述待翻译文档按照行业进行分类;
所述统一翻译模块用于根据所述文本分类器的分类,选择针对不同行业的翻译模型,对所述待翻译文档进行翻译,获得中间翻译结果;
所述规范语义识别翻译模块用于根据规范语义识别模型,对所述中间翻译结果的语义进行规范化处理,以获得所述翻译文档。
5.如权利要求4所述的文档翻译***,其特征在于,所述文档翻译模块还包括双语对照语料数据库,所述双语对照语料数据库中收录有双语对照语料,所述双语对照语料数据库中收录的双语对照语料带有最后一次使用时间、是否校正过、短句/术语、行业和专业领域的标记;
所述统一翻译模块将所述待翻译文档中的短句在双语对照语料数据库中进行比对,筛选匹配的译文。
6.如权利要求2所述的文档翻译***,其特征在于,所述XML格式转化组件采用以下公式分别将抽取的所述待翻译文档中的文本、图像、表格中的内容转化为XML格式文档:
Figure FDA0003933657210000031
其中,yxml为所述待翻译文档的XML格式表示,T为所述待翻译文档中的所有文本对应XML格式下的所有文本之间的映射关系函数,M为所抽取所述待翻译文档中的所有图片对应XML格式下的图片之间的映射关系函数,E为所抽取所述待翻译文档中的所有表格对应XML格式下的所有表格之间的映射关系函数,
Figure FDA0003933657210000032
为文本与图片、表格之间的位置关系表,
Figure FDA0003933657210000033
为图片与文字、表格之间的位置关系表,
Figure FDA0003933657210000034
为表格与图片、文字之间的位置关系表,t为所述待翻译文档的文本内容,m为所述待翻译文档的图像内容,e为所述待翻译文档的表格内容,f为所述待翻译文档中的所有内容与XML格式的文本、图像、表格中的内容组合转换函数。
7.如权利要求4所述的文档翻译***,其特征在于,所述文本分类器根据所述提取内容将所述待翻译文档按照行业进行分类,执行以下步骤:
首先,获取行业的分类集合Sk,Sk=(sk1,sk2,...,ski,...,skn),其中,k为行业的变量,初始值为1,以1为单位递增,最大为a,a为行业的分类的总个数,i为行业内术语个数的变量,初始值为1,以1为单位递增,最大为n,n为行业内术语个数的总量,Ski为第k个行业第i个行业内术语的行业术语表示;
然后,计算行业的分类Sk的中心向量,中心向量计算公式如下:
Figure FDA0003933657210000041
其中,Wk为行业的分类Sk的中心向量,sign(x)为符号函数,当x>0时,sign(x)=1,当x=0时,sign(x)=0,当x<0时,sign(x)=-1,α为预设系数,β为预设冗余项系数;
然后,计算所述待翻译文档内容x与行业的分类Sk的中心向量之间的相似度,相似度计算公式如下:
Figure FDA0003933657210000042
其中,j为所述待翻译文档内容的属性变量,初始值为1,以1为单位递增,最大为p,p为所述待翻译文档内容的属性总数,σj为第j个所述待翻译文档内容属性的所占权重,sim(x,Wk)为所述待翻译文档内容x与行业的分类Sk的中心向量Wk之间的相似度;
最后,找到最大的相似度,最大相似度的行业的分类即为所述待翻译文档内容的所在行业分类,最大相似度计算公式为
Figure FDA0003933657210000043
其中argmax为求最大值。
8.一种文档翻译方法,其特征在于,所述文档翻译方法执行以下步骤:
步骤1:将待翻译文档的格式转换为XML格式;
步骤2:自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容;
步骤3:对所述提取内容进行翻译,获得翻译文档;
所述文档翻译方法还包括将所述待翻译文档和所述翻译文档进行组装,获得组装文档,所述获得组装文档所需组件包括文档生成组件、文档分割组件、文档补全组件或文档合并组件,其中,
所述文档生成组件用于基于所述待翻译文档和所述翻译文档,生成包括所述待翻译文档和与所述待翻译文档对应的所述翻译文档的双语对照文档;
所述文档分割组件用于根据所述待翻译文档中的页码,对所述翻译文档的页码进行分割,以使所述双语对照文档中的所述翻译文档的页码与所述待翻译文档中的页码相对应:
所述文档补全组件用于根据所述翻译文档的页码,将所述双语对照文档中的所述翻译文档进行补全,以使所述翻译文档的若干页面的内容与所述待翻译文档中的每一页面的内容相对应:
所述文档合并组件用于将每一页面的所述待翻译文档和与每一页面的所述待翻译文档相对应的若干页面的所述翻译文档进行合并,获得合并文档;
所述步骤2采用以下公式自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容:
Figure FDA0003933657210000051
其中,Z为所述提取内容,g为提取函数,tagt为第t个标签的标签表示,vq为第q个节点的节点表示,Ctq为第q个节点第t个标签的所述待翻译文档内容,vroot为根节点表示,Croot为根节点对应所述待翻译文档内容,q为所述待翻译文档内容的节点变量,初始值为1,以1为单位递增,最大为r,r为所述待翻译文档内容的节点总数,t为所述待翻译文档内容的标签变量,初始值为1,以1为单位递增,最大为s,s为所述待翻译文档内容的标签总数。
CN201910913794.3A 2019-09-25 2019-09-25 一种文档翻译***及文档翻译方法 Active CN110688863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910913794.3A CN110688863B (zh) 2019-09-25 2019-09-25 一种文档翻译***及文档翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910913794.3A CN110688863B (zh) 2019-09-25 2019-09-25 一种文档翻译***及文档翻译方法

Publications (2)

Publication Number Publication Date
CN110688863A CN110688863A (zh) 2020-01-14
CN110688863B true CN110688863B (zh) 2023-04-07

Family

ID=69110088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910913794.3A Active CN110688863B (zh) 2019-09-25 2019-09-25 一种文档翻译***及文档翻译方法

Country Status (1)

Country Link
CN (1) CN110688863B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597826B (zh) * 2020-05-15 2021-10-01 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN113378585B (zh) * 2021-06-01 2023-09-22 珠海金山办公软件有限公司 Xml文本数据翻译方法和装置、电子设备、存储介质
CN113296754B (zh) * 2021-07-28 2021-11-12 北京蔚领时代科技有限公司 基于xml的脚本语言转换方法、编辑器、设备及存储介质
CN116384418B (zh) * 2023-05-24 2023-08-15 深圳市微克科技有限公司 一种应用智能手表进行翻译的数据处理方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929867A (zh) * 2011-11-03 2013-02-13 微软公司 用于自动化的文档翻译的技术
WO2016206336A1 (zh) * 2015-06-25 2016-12-29 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929867A (zh) * 2011-11-03 2013-02-13 微软公司 用于自动化的文档翻译的技术
WO2016206336A1 (zh) * 2015-06-25 2016-12-29 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
国外跨语言自动问答***研究综述;孔令玉;《现代情报》;20081025(第10期);全文 *

Also Published As

Publication number Publication date
CN110688863A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110688863B (zh) 一种文档翻译***及文档翻译方法
CN109145260B (zh) 一种文本信息自动提取方法
Mao et al. Document structure analysis algorithms: a literature survey
US20070003147A1 (en) Grammatical parsing of document visual structures
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
WO2017080090A1 (zh) 一种网页正文提取比对方法
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、***及存储介质
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
US20070201768A1 (en) Method And System For Acquiring Data From Machine-Readable Documents
CN111144210A (zh) 图像的结构化处理方法及装置、存储介质及电子设备
CN106372053B (zh) 句法分析的方法和装置
WO2021108038A1 (en) Systems and methods for extracting and implementing document text according to predetermined formats
CN103678287A (zh) 一种关键词翻译统一的方法
CN108519963B (zh) 一种将流程模型自动转换为多语言文本的方法
Chang A new approach for automatic Chinese spelling correction
CN112765999A (zh) 机器翻译双语对照方法及***
CN112380864A (zh) 一种基于回译的文本三元组标注样本增强方法
Abolhassani et al. Information extraction and automatic markup for XML documents
Alaei et al. A new dataset of Persian handwritten documents and its segmentation
Wang Feature Extraction Method of Machine Translation Equivalent Pairs in Chinese-English Comparable Corpus based OCR Recognition
CN114003750A (zh) 物料上线方法、装置、设备及存储介质
Wahlberg et al. Data mining medieval documents by word spotting
Josi et al. Structural analysis of contract renewals
CN117473980B (zh) 一种便携式文档格式文件的结构化解析方法及相关产品
CN116384418B (zh) 一种应用智能手表进行翻译的数据处理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant