CN112765999A - 机器翻译双语对照方法及*** - Google Patents

机器翻译双语对照方法及*** Download PDF

Info

Publication number
CN112765999A
CN112765999A CN202011545504.3A CN202011545504A CN112765999A CN 112765999 A CN112765999 A CN 112765999A CN 202011545504 A CN202011545504 A CN 202011545504A CN 112765999 A CN112765999 A CN 112765999A
Authority
CN
China
Prior art keywords
translation
translated
text
original
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011545504.3A
Other languages
English (en)
Inventor
屈丹
闫红刚
李�真
李喜坤
储相瑞
张连海
谢超杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Zhengzhou Xinda Institute of Advanced Technology
Original Assignee
Information Engineering University of PLA Strategic Support Force
Zhengzhou Xinda Institute of Advanced Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force , Zhengzhou Xinda Institute of Advanced Technology filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202011545504.3A priority Critical patent/CN112765999A/zh
Publication of CN112765999A publication Critical patent/CN112765999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于人工智能翻译技术领域,特别涉及一种机器翻译双语对照方法及***,用于即时输入内容或上传文件内容翻译的原文和译文对照展示,包含如下内容:将即时输入或上传文件内容的原文分别送入翻译引擎,获取与原文对应的译文,并生成用于设置原文和译文相同文本样式属性的展示模板;依据展示模板将原文和译文以左右方向在目标页面进行对照显示。本发明解决现有双语翻译中信息捕捉效率低、体验差等问题,通过设置相同展示模板,便于原文和译文对齐展示,提升用户原文和译文中信息捕捉效率,利于目标词句或段落的精准定位显示,提升用户体验,具有较好的应用前景。

Description

机器翻译双语对照方法及***
技术领域
本发明属于人工智能翻译技术领域,特别涉及一种机器翻译双语对照方法及***。
背景技术
随着互联网深度发展全球化进程加快,人们获取信息的范围、渠道、方式、形式也日趋多样,信息量成***式增长,使国家、企业间竞争加剧,对跨语种阅读、资料翻译的要求日益增多,人工翻译已无法满足需求。机器翻译技术应运而生,现在大多数发明聚焦于翻译效果的提升,翻译效果也得到突飞猛进的发展,对于如何更加人性化展示翻译结果以方便用户查看、校对也是十分重要并值得研究的点,然而市场上已经存在的机器***也缺乏该系列功能。多数翻译***并未提供双语对照展示翻译结果的方法和功能,极少数已经实现双语对照方法和功能的存在对照精度粗糙不够精确、即时翻译不支持对照或采用上下方向对照、可支持的文档翻译类型较少等问题。
发明内容
为此,本发明提供一种机器翻译双语对照方法及***,解决现有双语翻译中信息捕捉效率低、体验差等问题,通过设置相同展示模板,便于原文和译文对齐展示,提升用户原文和译文中信息捕捉效率,利于目标词句或段落的精准定位显示,提升用户体验。
按照本发明所提供的设计方案,一种机器翻译双语对照方法,用于即时输入内容或上传文件内容翻译的原文和译文对照展示,包含如下内容:
将即时输入或上传文件内容的原文分别送入翻译引擎,获取与原文对应的译文,并生成用于设置原文和译文相同文本样式属性的展示模板;
依据展示模板将原文和译文以左右方向在目标页面进行对照显示。
作为本发明机器翻译双语对照方法,进一步的,依据即时输入内容生成带有标签的超文本标记语言数据,翻译引擎对该超文本标记语言数据进行翻译,获取译文。
作为本发明机器翻译双语对照方法,进一步地,即时输入内容翻译时,设定超文本标记语言标签并对输入内容进行纯文本处理,依据超文本标记语言标签生成展示模板;根据内容特征进行分句处理并送入翻译引擎翻译,获取纯文本译文。
作为本发明机器翻译双语对照方法,进一步地,以文本内容中标点作为分隔符进行分句处理,并保留相应标点。
作为本发明机器翻译双语对照方法,进一步地,将上传文件通过转换DOC文档并获取DOC文档的超文本标记语言文件;对超文本标记语言进行标签处理,并通过保留样式属性设置生成展示模板;将文本内容通过分句处理送入翻译引擎获取译文;其中,上传文件支持多种文件类型的待翻译文件。
作为本发明机器翻译双语对照方法,进一步地,依据展示模板对原文和译文同一句子和段落的超文本标记语言标签赋予相同句子ID和段落ID;将原文和译文的超文本标记语言标签按照顺序写入展示模板。
作为本发明机器翻译双语对照方法,进一步地,在目标页面后台程序中添加鼠标高亮显示、单击和双击事件实现对照展示中鼠标所在段落的高亮显示、单击事件中的同高调整及双击事件中的原文和译文关键词弹框。
作为本发明机器翻译双语对照方法,进一步地,对照展示中,通过遍历原文段落内容将原文和译文相同段落调整为顶部同高。
作为本发明机器翻译双语对照方法,进一步地,原文和译文对照展示的段落同高调整中,通过设置段落容器并在容器内设置滚动条将原文和译文中相同段落进行顶部同高设置。
进一步地,本发明还提供一种机器翻译双语对照***,用于即时输入内容或上传文件内容翻译的原文和译文对照展示,包含:
包含:输入模块、翻译模块和展示模块,其中,
输入模块,包含:用于输入即时翻译内容的即时输入单元和用于上传待翻译文档文件的上传文档单元;
翻译模块,用于将即时输入单元或上传文档单元的输入内容作为原文分别送入翻译引擎,获取与原文对应的译文,并生成用于设置原文和译文相同文本样式属性的展示模板;
展示模块,用于依据展示模板将原文和译文以左右方向在目标页面进行对照显示。
本发明的有益效果:
本发明通过设置展示模板实现双语对照显示,实现关键词、句子、段落等多颗粒度对齐,高亮对照,方便查看、校对,更加人性化。即时翻译和上传文档翻译的结果均采用左右方向对照展示,相比上下方向更符合视觉喜好用户体验较好。支持txt,pdf,doc,docx,rtf,eml,xml,html,zip,rar等多类型文件翻译结果的双语对照。初始化呈现的双语对照结果,译文和原文保留相同的样式属性设置,并且该样式属性设置是在原始待翻译文档样式属性的基础上自定义优化过的,便于去除和修改一些影响目标显示页面呈现和美观的设置。初始化呈现的双语对照结果可保证相同段落内容的原文和译文内容同段落顶部同高对齐展示。进一步,在初始化呈现双语对照结果的基础上,基于添加鼠标事件实现双语对照显示的优化:鼠标放上,即时翻译和文档翻译均可以左右双向高亮显示;鼠标单击,将原文和译文中顶部同高对齐段落中不同高句子内容调整至同高显示;鼠标双击,呈现对应原文句子中关键词及对应英译文内容,具有较好的应用前景。
附图说明:
图1为实施例中机器翻译双语对照方法流程示意;
图2为实施例中双语对照的机器翻译结果的展示方法总业务流程示意;
图3为实施例中即时翻译引擎业务流程示意
图4为实施例中文档翻译引擎业务流程示意;
图5为实施例中原文和译文中相同段落顶部同高对齐业务流程示意;
图6为实施例中将原文和译文中顶部同高对齐段落中不同高句子内容调整至同高业务流程示意;
图7为实施例中双语对照的机器翻译结果的展示***示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
本发明实施例,参见图1所示,提供一种机器翻译双语对照方法,用于即时输入内容或上传文件内容翻译的原文和译文对照展示,包含如下内容:
S101、将即时输入或上传文件内容的原文分别送入翻译引擎,获取与原文对应的译文,并生成用于设置原文和译文相同文本样式属性的展示模板;
S102、依据展示模板将原文和译文以左右方向在目标页面进行对照显示。
参见图2所示,实现即时输入和上传文件两种输入方式的翻译。即时翻译:提供入口,用户可以即时输入待翻译的文本内容;上传文件:用户可以直接上传待翻译的文档文件(支持多种文件类型:如txt,pdf,doc,docx,rtf,eml,xml,html,zip,rar等格式)。通过设置相同样式属性的展示模板,便于原文和译文对齐展示,提升用户原文和译文中信息捕捉效率,利于目标词句或段落的精准定位显示,提升用户体验。解决现有机器翻译原文和译文(双语)不对照展示大大降低用户捕捉翻译信息的效率,用户体验差;对照精度粗糙不够精确、即时翻译不支持对照或采用上下方向对照、可支持的文档翻译类型较少、可支持的文档翻译类型较少等问题。
作为本发明实施例中机器翻译双语对照方法,进一步的,依据即时输入内容生成带有标签的超文本标记语言数据,翻译引擎对该超文本标记语言数据进行翻译,获取译文。进一步地,即时输入内容翻译时,设定超文本标记语言标签并对输入内容进行纯文本处理,依据超文本标记语言标签生成展示模板;根据内容特征进行分句处理并送入翻译引擎翻译,获取纯文本译文。进一步地,以文本内容中标点作为分隔符进行分句处理,并保留相应标点。
参见图3所示,将html标签进行纯文本处理,去除html标签,去除头尾空白符,空白符包括:空格、制表符tab、不换行等其他空白符等。分句处理,可以”。!?”等标点为分隔符进行分句处理,并保留相应的标点符号。翻译处理,生成原文的译文内容,以句为单位得到原文和译文。为得到的纯文本译文和原文添加html标签,同时为相同句子原文和译文的html标签赋予相同句子id,相同段落内容的原文和译文赋予相同的段落id,一种句子id和段落id为两个id体系。遍历以句为单位得到原文和译文列表,以”\n”为标识符来判断原文内容和译文内容是否为相同段落,若为相同段落,原文和译文均添加p标签,并给该p标签赋予相同id(命名规则:p+index)。以是否为”。!?”等标识符来判断原文内容和译文内容是否为相同句子,若为相同句子,原文和译文均添加span标签,并给该span标签赋予相同id(命名规则:s+index)。将所有原文和译文的html标签按照顺序各自拼接成一个html整体,并返回。
作为本发明实施例中机器翻译双语对照方法,进一步地,将上传文件通过转换DOC文档并获取DOC文档的超文本标记语言文件;对超文本标记语言进行标签处理,并通过保留样式属性设置生成展示模板;将文本内容通过分句处理送入翻译引擎获取译文;其中,上传文件支持多种文件类型的待翻译文件。
参见图4所示,上传的待翻译的多类型文件:txt,pdf,doc,docx,rtf,eml,xml,html,zip,rar等。需要先判断是否为压缩文件,若是,先将压缩包进行解压。将非doc文档均转换成doc文档。待翻译文档是多种文件类型,便于统一处理,本发明将所有非doc类型文档转换成doc类型文档。为了便于待翻译文档的展示和翻译,将所有的doc文档转换成html文件。预处理html文档,将html处理成只p标签和span标签,保留样式属性设置并修改为符合自定义的一套规则。将b/big/code/cite等句子级标签替换成span标签;将<div>等块级标签替换成p标签;将h1-h6标签字体大小和行号替换成自定义数值;移除无用标签,如:Script、iframe等;按钮禁用,超链接禁点等。为段落标签添加段落id,为句子标签添加句子id,为p标签添加id(命名规则为p+index);为span标签添加id(命名规则为s+index)。分句处理将内容存入数据库并清除原文中的文本内容,生成待翻译文档的模板(只有html标签,无文本内容),将sapn标签内容对应id存入数据库,并清除原文中的内容,生成待翻译文档模板:只有p和span标签,以及样式设置。翻译处理,遍历数据库翻译文档内容,将翻译结果对应写入数据库。将原文和译文分别按照顺序写入步骤六生成的待翻译内容模板中,生成原文.html和译文,并返回。
作为本发明实施例中机器翻译双语对照方法,进一步地,在目标页面后台程序中添加鼠标高亮显示、单击和双击事件实现对照展示中鼠标所在段落的高亮显示、单击事件中的同高调整及双击事件中的原文和译文关键词弹框。
鼠标放上去:用户浏览原文和译文,将鼠标放在原文或译文上,该句内容和相同句子的译文或原文均高亮显示。即双向双语对照,鼠标放在原文具体内容上,该内容和相同内容的译文内容均高亮显示,同理鼠标放在译文具体内容上,该内容和相同内容的原文内容均高亮显示。
鼠标单击:初始化呈现的双语对照结果保证了相同段落内容的原文和译文内容同段落顶部同高对齐展示,而原文和译文属于不同语种的语言,将导致段落同高但具体句子不同高。当用户单击同高段落中具体不同高的句子内容时,本发明做了同高调整处理。
未出现滚动条,原文和译文内容,谁高将谁所在容器的整体内容下移;出现滚动条,单击原文,原文保持不动,该句译文内容调整成和原文同高,单击译文,译文保持不动,该句原文内容调整成和译文同高。
鼠标双击:双击原文或译文中具体句子,出现弹出框:呈现对应原文句子中关键词及对应英译文内容,例如:Debate:辩论。
作为本发明实施例中机器翻译双语对照方法,进一步地,对照展示中,通过遍历原文段落内容将原文和译文相同段落调整为顶部同高。
参见图5所示,相同段落内容的原文和译文内容,段落顶部同高对齐展示业务逻辑(前端初始化渲染时实现):
步骤一:遍历原文的段落内容(即p标签)
步骤二:找到相同id的译文段落
步骤三:分别获取相同段落原文和译文段落高度(height)
步骤四:取最大值更新高度,使原文和译文每段高度一样,函数如下:
Figure BDA0002855677630000051
其中,h原文代表原文段落高度,h译文代表译文段落高度,hnew代表两者最大值。
作为本发明实施例中的机器翻译双语对照方法,进一步地,原文和译文对照展示的段落同高调整中,通过设置段落容器并在容器内设置滚动条将原文和译文中相同段落进行顶部同高设置。
进一步地,参见图6所示,同高调整具体步骤可设计为:
步骤一:用户单击原文具体句子,或用户单击译文具体句子
步骤二:获取该句和相同内容译文的offset().top
步骤三:将两个offset().top的差值,赋予给较小者所在iframe的padding-top(原文或译文容器),函数如下:
Figure BDA0002855677630000052
其中,T原文代表原文具体句子的offset().top,T译文代表译文具体句子的offset().top,P译文代表需要给译文所在iframe容器设置的padding-top取值,P原文代表需要给原文所在iframe容器设置的padding-top取值。
出现滚动条,单击原文,原文保持不动,该句译文内容调整成和原文同高,单击译文,译文保持不动,该句原文内容调整成和译文同高,同高调整具体步骤可设计为:
步骤一:若用户单击原文具体句子
步骤二:获取该句和相同内容译文的offset().top
步骤三:译文iframe的scrollTop()修改为:原始scrollTop()+译文offset().top-原文offset().top
函数如下:
Figure BDA0002855677630000061
其中,T原文代表原文中当前句子的offset().top,T译文代表译文中相同内容句子的offset().top,S译文代表译文所在iframe的scrollTop(),S原文代表原文所在iframe的scrollTop()。
进一步地,基于上述的方法,本发明实施例还提供一种机器翻译双语对照***,用于即时输入内容或上传文件内容翻译的原文和译文对照展示,包含:
包含:输入模块、翻译模块和展示模块,其中,
输入模块,包含:用于输入即时翻译内容的即时输入单元和用于上传待翻译文档文件的上传文档单元;
翻译模块,用于将即时输入单元或上传文档单元的输入内容作为原文分别送入翻译引擎,获取与原文对应的译文,并生成用于设置原文和译文相同文本样式属性的展示模板;
展示模块,用于依据展示模板将原文和译文以左右方向在目标页面进行对照显示。参见图7所示,待翻译内容输入模块:包括即时输入单元和上传文档单元,分别用于即时翻译内容的输入和上传待翻译文档文件。翻译引擎模块:包括即时翻译引擎单元和文档翻译引擎单元。分别对即时输入的内容和上传的文档文件进行处理、翻译、返回可用于双语对照展示的原文和译文。翻译结果双语对照展示模块:包括初始化展示双语对照翻译结果单元和优化展示双语对照翻译结果单元。初始化展示双语对照翻译结果单用于初始化展示双语对照结果(相同段落内容的原文和译文内容同段落顶部同高对齐展示、译文和原文保留相同的样式属性设置);优化展示双语对照翻译结果单元,用于处理鼠标放上、鼠标单击、鼠标双击时的双语对照优化业务。解决现有机器翻译显示处理效率低、质量不高等问题,通过内容特征并利用超文本表示语言标签生成展示模板,对原文和译文通过页面样式数据处理,实现原文和译文双语对照展示,便于双语对照数据库的抽取,提高机器翻译对照显示效率和准确度,提升用户机器翻译的体验度。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的方法或***,本发明实施例还提供一种网络设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的***或执行上述的方法。
基于上述的***,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的***。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述***实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述***实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述***实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的***、***和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述***的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种机器翻译双语对照方法,用于即时输入内容或上传文件内容翻译的原文和译文对照展示,其特征在于,包含如下内容:
将即时输入或上传文件内容的原文分别送入翻译引擎,获取与原文对应的译文,并生成用于设置原文和译文相同文本样式属性的展示模板;
依据展示模板将原文和译文以左右方向在目标页面进行对照显示。
2.根据权利要求1所述的机器翻译双语对照方法,其特征在于,依据即时输入内容生成带有标签的超文本标记语言数据,翻译引擎对该超文本标记语言数据进行翻译,获取译文。
3.根据权利要求1或2所述的机器翻译双语对照方法,其特征在于,即时输入内容翻译时,设定超文本标记语言标签并对输入内容进行纯文本处理,依据超文本标记语言标签生成展示模板;根据内容特征进行分句处理并送入翻译引擎翻译,获取纯文本译文。
4.根据权利要求1所述的机器翻译双语对照方法,其特征在于,以文本内容中标点作为分隔符进行分句处理,并保留相应标点。
5.根据权利要求2或4所述的机器翻译双语对照方法,其特征在于,将上传文件通过转换DOC文档并获取DOC文档的超文本标记语言文件;对超文本标记语言进行标签处理,并通过保留样式属性设置生成展示模板;将文本内容通过分句处理送入翻译引擎获取译文;其中,上传文件支持多种文件类型的待翻译文件。
6.根据权利要求1所述的机器翻译双语对照方法,其特征在于,依据展示模板对原文和译文同一句子和段落的超文本标记语言标签赋予相同句子ID和段落ID;将原文和译文的超文本标记语言标签按照顺序写入展示模板。
7.根据权利要求1所述的机器翻译双语对照方法,其特征在于,在目标页面后台程序中添加鼠标高亮显示、单击和双击事件实现对照展示中鼠标所在段落的高亮显示、单击事件中的同高调整及双击事件中的原文和译文关键词弹框。
8.根据权利要求1所述的机器翻译双语对照方法,其特征在于,对照展示中,通过遍历原文段落内容将原文和译文相同段落调整为顶部同高。
9.根据权利要求7或8所述的机器翻译双语对照方法,其特征在于,原文和译文对照展示的段落同高调整中,通过设置段落容器并在容器内设置滚动条将原文和译文中相同段落进行顶部同高设置。
10.一种机器翻译双语对照***,用于即时输入内容或上传文件内容翻译的原文和译文对照展示,其特征在于,包含:输入模块、翻译模块和展示模块,其中,
输入模块,包含:用于输入即时翻译内容的即时输入单元和用于上传待翻译文档文件的上传文档单元;
翻译模块,用于将即时输入单元或上传文档单元的输入内容作为原文分别送入翻译引擎,获取与原文对应的译文,并生成用于设置原文和译文相同文本样式属性的展示模板;
展示模块,用于依据展示模板将原文和译文以左右方向在目标页面进行对照显示。
CN202011545504.3A 2020-12-24 2020-12-24 机器翻译双语对照方法及*** Pending CN112765999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011545504.3A CN112765999A (zh) 2020-12-24 2020-12-24 机器翻译双语对照方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011545504.3A CN112765999A (zh) 2020-12-24 2020-12-24 机器翻译双语对照方法及***

Publications (1)

Publication Number Publication Date
CN112765999A true CN112765999A (zh) 2021-05-07

Family

ID=75695477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011545504.3A Pending CN112765999A (zh) 2020-12-24 2020-12-24 机器翻译双语对照方法及***

Country Status (1)

Country Link
CN (1) CN112765999A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392660A (zh) * 2021-07-08 2021-09-14 北京百度网讯科技有限公司 页面翻译方法、装置、电子设备及存储介质
CN113625919A (zh) * 2021-08-11 2021-11-09 掌阅科技股份有限公司 书籍内容的翻译方法、计算设备及计算机存储介质
CN114091483A (zh) * 2021-10-27 2022-02-25 北京百度网讯科技有限公司 翻译处理方法、装置、电子设备及存储介质
CN114118112A (zh) * 2021-12-02 2022-03-01 江苏省舜禹信息技术有限公司 一种双语合并文档的合并方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760542A (zh) * 2016-03-15 2016-07-13 腾讯科技(深圳)有限公司 一种显示控制方法、终端及服务器
CN107943797A (zh) * 2017-11-22 2018-04-20 语联网(武汉)信息技术有限公司 一种全原文参考的在线翻译***
CN109766304A (zh) * 2018-12-11 2019-05-17 中新金桥数字科技(北京)有限公司 基于iPad的关于Epub图书双语言对照阅读的方法及其***
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法
CN111985255A (zh) * 2020-09-01 2020-11-24 北京中科凡语科技有限公司 翻译方法、翻译装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760542A (zh) * 2016-03-15 2016-07-13 腾讯科技(深圳)有限公司 一种显示控制方法、终端及服务器
CN107943797A (zh) * 2017-11-22 2018-04-20 语联网(武汉)信息技术有限公司 一种全原文参考的在线翻译***
CN109766304A (zh) * 2018-12-11 2019-05-17 中新金桥数字科技(北京)有限公司 基于iPad的关于Epub图书双语言对照阅读的方法及其***
CN109783826A (zh) * 2019-01-15 2019-05-21 四川译讯信息科技有限公司 一种文档自动翻译方法
CN111985255A (zh) * 2020-09-01 2020-11-24 北京中科凡语科技有限公司 翻译方法、翻译装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
科尔伊家: "使用百度在线翻译进行文档全文翻译", 《JINGYAN.BAIDU.COM/ARTICLE/624E7459F1BC3174E9BA5A67.HTML》 *
积极乐观的小羊: "(ZSCI)一键翻译外文网站+双语对照,它是最懂语境的神仙翻译工具", 《360DOC.COM/CONTENT/20/0409/16/69000788_904865217.SHTML》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392660A (zh) * 2021-07-08 2021-09-14 北京百度网讯科技有限公司 页面翻译方法、装置、电子设备及存储介质
CN113625919A (zh) * 2021-08-11 2021-11-09 掌阅科技股份有限公司 书籍内容的翻译方法、计算设备及计算机存储介质
CN114091483A (zh) * 2021-10-27 2022-02-25 北京百度网讯科技有限公司 翻译处理方法、装置、电子设备及存储介质
CN114091483B (zh) * 2021-10-27 2023-02-28 北京百度网讯科技有限公司 翻译处理方法、装置、电子设备及存储介质
CN114118112A (zh) * 2021-12-02 2022-03-01 江苏省舜禹信息技术有限公司 一种双语合并文档的合并方法

Similar Documents

Publication Publication Date Title
CN111737969B (zh) 一种基于深度学习的简历解析方法和***
CN112765999A (zh) 机器翻译双语对照方法及***
US9514216B2 (en) Automatic classification of segmented portions of web pages
US8166037B2 (en) Semantic reconstruction
US8346536B2 (en) System and method for multi-lingual information retrieval
TWI536181B (zh) 在多語文本中的語言識別
WO2017080090A1 (zh) 一种网页正文提取比对方法
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
CN110688863B (zh) 一种文档翻译***及文档翻译方法
CN112380864B (zh) 一种基于回译的文本三元组标注样本增强方法
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
Zanibbi et al. Math search for the masses: Multimodal search interfaces and appearance-based retrieval
CN112199960B (zh) 一种标准知识元粒度解析***
Abolhassani et al. Information extraction and automatic markup for XML documents
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
CN112464907A (zh) 一种文档处理***及方法
CN101196883A (zh) 一种互联网信息自然语言翻译通用方法和***
CN114298058B (zh) 文章替换词推荐方法、***、计算机可读介质
CN113448563B (zh) 一种LaTeX在线协作平台
WO2014049310A2 (en) Method and apparatuses for interactive searching of electronic documents
Choudhary et al. An annotated urdu corpus of handwritten text image and benchmarking of corpus
JP2007323238A (ja) 強調表示装置及びプログラム
Eyecioglu et al. Knowledge-lean paraphrase identification using character-based features
Guo Research on logical structure annotation in English streaming document based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507

RJ01 Rejection of invention patent application after publication