CN113420570B - 一种用于提升翻译准确性的方法、***及装置 - Google Patents

一种用于提升翻译准确性的方法、***及装置 Download PDF

Info

Publication number
CN113420570B
CN113420570B CN202110745049.XA CN202110745049A CN113420570B CN 113420570 B CN113420570 B CN 113420570B CN 202110745049 A CN202110745049 A CN 202110745049A CN 113420570 B CN113420570 B CN 113420570B
Authority
CN
China
Prior art keywords
expression
word
length
translation
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110745049.XA
Other languages
English (en)
Other versions
CN113420570A (zh
Inventor
郝顺平
关祎宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Chuangsijiye Technology Co ltd
Original Assignee
Shenyang Chuangsijiye Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Chuangsijiye Technology Co ltd filed Critical Shenyang Chuangsijiye Technology Co ltd
Priority to CN202110745049.XA priority Critical patent/CN113420570B/zh
Publication of CN113420570A publication Critical patent/CN113420570A/zh
Application granted granted Critical
Publication of CN113420570B publication Critical patent/CN113420570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种用于提升翻译准确性的方法、***及装置,本发明通过将输入原文的单词数组与翻译记忆库存储的原文数组转换为两个数字数组,这样在逐一比较单词的时候,只需要比较数字即可,缩减了比较次数,避免了每次的字符转码,并且计算机处理数字的速度要比文本快,提升了原文内容的比较速度,进而直接提升了匹配算法的性能和计算速度,同时对于翻译记忆库里的原文,可以采用每次存储之前先按本发明转换为数字后再进行存储的办法,在下次匹配直接比较已存储好的单词数组,可以减少转换开销,进一步提升性能。

Description

一种用于提升翻译准确性的方法、***及装置
技术领域
本发明涉及智能翻译领域,具体涉及一种用于提升翻译准确性的方法、***及装置。
背景技术
翻译记忆库是翻译领域中比较常用到的翻译辅助软件,不断收集和存储翻译项目中已被审核的无质量缺陷的原文和译文,并且提供一种匹配算法,从存储的原文里对需要翻译的输入原文进行相似度匹配,最终返回翻译记忆库中相似度较高的一批原文以及对应的译文。由于这些译文都是经过审核的,所以可以为译员提供高质量的译法参考。
综上所述,影响一个翻译记忆库匹配性能的关键环节是原文的存储以及匹配算法。原文内容作为匹配算法的基础和依据,同时直接决定了匹配算法的计算性能,主要体现在对原文的比较速度方面。随着翻译记忆库的存储量随着翻译业务逐渐累积,***在比较原文时的开销将随之增加,因此对原文内容的处理和数据类型的设计,是影响翻译记忆库匹配性能的重要环节。
传统的原文处理方法,是将整句原文内容按字符串类型存储到翻译记忆库中,发生匹配时,先将原文从库中取出进行分词,再将输入原文分词,将两个分词后的单词文本数组,通过匹配算法,计算出这两句原文的相似度,最终得出翻译记忆库中相似度最高的那条数据。
这种按文本进行匹配的方式,在比较原文中每个单词的时候可能会带来性能上的问题。首先计算机处理字符串的原理是先将每个字符转为ASCII码后,再逐一处理比较每个ASCII码值,这样对于一单词字符串来说,字符越多,比较的次数也就越多,如果单词个数也很多,匹配算法就可能非常慢。当翻译记忆库数据随着翻译业务的增多,参考原文数量和原文的单词个数增多,这种性能问题会更加明显。增加了译员等待参考译文的时间,降低了翻译效率。
发明内容
由于按文本方式匹配原文,获得对应参考译文的做法,会随着翻译记忆库内容的逐渐累加而影响计算性能,降低翻译效率,本发明为了解决这一技术问题,公开了一种原文处理方法,通过对原文存储方式和数据结构的优化,提升翻译记忆库的整体匹配性能;
本发明提供了一种用于提升翻译准确性的方法,包括以下步骤,
采集无质量缺陷的第一翻译资料的第一单词以及第一单词对应的第二单词,对第一单词、第二单词分别进行二进制转换,获得第一单词的第一数字表达式以及第二单词的第二数字表达式,其中,第一单词为第一翻译资料的原文单词,第二单词为第一翻译资料的译文单词;
采集待翻译文献资料,对待翻译文献资料进行二进制转换,获得待翻译文献资料的第三数字表达式,通过比较第三数字表达式与第一数字表达式或第二数字表达式的第一相似度,获得待翻译文献资料的第二翻译资料。
优选地,采集第三翻译资料,对第三翻译资料进行二进制转换,获得第三翻译资料的第四数字表达式,通过比较第四数字表达式与第一数字表达式或第二数字表达式的第二相似度,获得第三翻译资料的翻译准确度,其中,第三翻译资料为已翻译好待校对的文献资料。
优选地,基于翻译准确度,获得第一单词或第二单词,并将第一单词或第二单词添加到第三翻译资料中,其中,在将第一单词或第二单词添加到第三翻译资料中的过程中,标注第一单词或第二单词,标注的形式至少包括,单词字体、单词字号、单词颜色、对话框。
优选地,在对第一单词、第二单词、待翻译文献资料、第三翻译资料分别进行二进制转化的过程中,
采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
采集待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
基于第一表达式、第二表达式,构建数字表达式,其中,数字表达式包括第一数字表达式、第二数字表达式、第三数字表达式、第四数字表达式。
采集待转化英文单词的英文单词长度;
如果英文单词长度等于10,则将英文单词长度通过4位二进制表达,获得第一表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过第一表达式和第二表示获得数字表达式;
如果英文单词长度小于10,则将英文单词长度通过4位二进制表达,获得第一表达式,将单词内容中英文单词长度小于10的空位字符通过6位1进行表示,获得第三表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过第一表达式、第二表达式、第三表达式获得数字表达式;
如果英文单词长度大于10,则将英文单词长度通过4位二进制表达,获得第四表达式,采集单词内容的每个字符的ASCII码值,通过将ASCII码值进行31进制转换并进行累加,得到累加结果,将累加结果同260作相除取余计算并进行60位二进制转换,获得第五表达式,根据第四表达式和第五表达式获得数字表达式。
在处理英文单词长度大于10的待转化英文单词的过程中,包括以下步骤:
S101.采集单词内容的第一字符的第一ASCII码值,通过将第一ASCII码值进行31进制转换后,与单词内容的第二字符的第二ASCII码值相加,获得第一结果;
S103.将第一结果进行31进制转换后,与单词内容的第三字符的第三ASCII码值相加,获得第二结果;
S105.基于S103的计算过程,将第二结果进行累加至单词内容的最后一个字符后,同260相除取余计算并进行60位二进制转换,获得第五表达式。
优选地,在对第一单词、第二单词、待翻译文献资料、第三翻译资料分别进行二进制转化的过程中,
采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
采集待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
基于第一表达式、第二表达式,构建数字表达式,其中,数字表达式包括第一数字表达式、第二数字表达式、第三数字表达式、第四数字表达式。
采集待转化中文单词的中文单词长度;
如果中文单词长度等于4,则将中文单词长度通过4位二进制表达,获得第一表达式,将单词内容的每个字符的Unicode码值减掉2000后,转换成15位二进制累加,获得第二表达式,通过第一表达式和第二表示获得数字表达式;
如果中文单词长度小于4,则将中文单词长度通过4位二进制表达,获得第一表达式,将单词内容中中文单词长度小于4的空位字符通过15个1表达,获得第六表达式,通过第一表达式和第六表达式,获得数字表达式;
如果中文单词长度大于4,则将中文单词长度通过4位二进制表达,获得第七表达式,将单词内容的每个字符的Unicode码值进行13131进制转换后进行累加后,同260相除取余计算并进行60位二进制转换,获得第九表达式,根据第七表达式和第九表达式获得数字表达式。
在处理中文单词长度大于4的单词内容的过程中,包括以下步骤:
S201.提取第一字符的第一Unicode码值进行13131进制转换后,与第二字符的第二Unicode码值相加,获得第一结果;
S203.将第一结果进行13131进制转换后,与第三字符的第三第二Unicode码值相加,获得第二结果;
S205.基于S203的计算过程,将第二结果累加至最后一个字符后,同260相除取余计算并进行60位二进制转换,获得第九表达式。
一种用于提升翻译准确性的***,包括,
第一数据采集模块,用于采集无质量缺陷的第一翻译资料的第一原文和第一译文;
第二数据采集模块,用于采集待翻译文献或待审核翻译资料的第二原文;
第一数据转换模块,用于将第一原文和第一译文转化为第一数字表达式;
第二数据转换模块,用于将第二原文转化为第二数字表达式;
数据处理模块,用于将第二数字表达式与第一数字表达式进行比对,获得第二译文;
显示模块,用于显示第二译文;
存储模块,用于存储第一原文、第一译文、第二原文、第二译文,其中,存储模块还用于将第一原文与第二原文融合获得新的第一原文,以及将第二译文与第一译文融合获得新的第一译文。
一种用于提升翻译准确性的装置,包括,,
输入设备,用于输入待翻译文献或待审核翻译文献;
显示设备,用于显示待翻译文献的翻译结果或待审核翻译文献的审核结果;
数据处理设备,用于根据将待翻译文献或待审核翻译文献进行二进制数字转换获得第一数字表达式,并根据数据处理设备中已存在的第二数字表达式进行相似度匹配,根据匹配结果,选取相似度最高的至少一个第二数字表达式对应的单词,获得翻译结果或审核结果;
数据存储设备,用于存储待翻译文献、审核翻译文献、翻译结果、审核结果,并根据存储结果对已存储数据进行更新。
本发明公开了以下技术效果:
本发明提供的提升匹配算法性能:将原文里的单词转成了数字,使得匹配算法在计算输入原文和翻译记忆库里的存储原文的差异时,只需要比较两句话的数字数组,修正了传统方法中按字符串文本的形式进行比较,从而产生大量处理次数,降低算法效率和性能的问题。
无论对于哪种匹配算法,本发明都可以适用,因为对于一个匹配算法而言,本发明只是优化了调用它的输入参数,即原文内容,减轻了匹配算法的计算处理负担,提升了计算效率。另一方面,本发明在其他领域的应用实现中,也提供了一种数据处理与储存方案,如数据库***、内容差异化及数据安全性方面的应用中。。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还根据这些附图获得其他的附图。
图1为本发明所述的方法流程图;
图2为本发明所述的64位二进制示意图;
图3为本发明所述的方法与现有技术的对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,本发明提供了一种用于提升翻译准确性的方法,包括以下步骤,
采集无质量缺陷的第一翻译资料的第一单词以及第一单词对应的第二单词,对第一单词、第二单词分别进行二进制转换,获得第一单词的第一数字表达式以及第二单词的第二数字表达式,其中,第一单词为第一翻译资料的原文单词,第二单词为第一翻译资料的译文单词;
采集待翻译文献资料,对待翻译文献资料进行二进制转换,获得待翻译文献资料的第三数字表达式,通过比较第三数字表达式与第一数字表达式或第二数字表达式的第一相似度,获得待翻译文献资料的第二翻译资料。
优选地,采集第三翻译资料,对第三翻译资料进行二进制转换,获得第三翻译资料的第四数字表达式,通过比较第四数字表达式与第一数字表达式或第二数字表达式的第二相似度,获得第三翻译资料的翻译准确度,其中,第三翻译资料为已翻译好待校对的文献资料。
优选地,基于翻译准确度,获得第一单词或第二单词,并将第一单词或第二单词添加到第三翻译资料中,其中,在将第一单词或第二单词添加到第三翻译资料中的过程中,标注第一单词或第二单词,标注的形式至少包括,单词字体、单词字号、单词颜色、对话框。
优选地,在对第一单词、第二单词、待翻译文献资料、第三翻译资料分别进行二进制转化的过程中,
采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
采集待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
基于第一表达式、第二表达式,构建数字表达式,其中,数字表达式包括第一数字表达式、第二数字表达式、第三数字表达式、第四数字表达式。
采集待转化英文单词的英文单词长度;
如果英文单词长度等于10,则将英文单词长度通过4位二进制表达,获得第一表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过第一表达式和第二表示获得数字表达式;
如果英文单词长度小于10,则将英文单词长度通过4位二进制表达,获得第一表达式,将单词内容中英文单词长度小于10的空位字符通过6位1进行表示,获得第三表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过第一表达式、第二表达式、第三表达式获得数字表达式;
如果英文单词长度大于10,则将英文单词长度通过4位二进制表达,获得第四表达式,采集单词内容的每个字符的ASCII码值,通过将ASCII码值进行31进制转换并进行累加,得到累加结果,将累加结果同260作相除取余计算并进行60位二进制转换,获得第五表达式,根据第四表达式和第五表达式获得数字表达式。
在处理英文单词长度大于10的待转化英文单词的过程中,包括以下步骤:
S101.采集单词内容的第一字符的第一ASCII码值,通过将第一ASCII码值进行31进制转换后,与单词内容的第二字符的第二ASCII码值相加,获得第一结果;
S103.将第一结果进行31进制转换后,与单词内容的第三字符的第三ASCII码值相加,获得第二结果;
S105.基于S103的计算过程,将第二结果进行累加至单词内容的最后一个字符后,同260相除取余计算并进行60位二进制转换,获得第五表达式。
优选地,在对第一单词、第二单词、待翻译文献资料、第三翻译资料分别进行二进制转化的过程中,
采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
采集待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
基于第一表达式、第二表达式,构建数字表达式,其中,数字表达式包括第一数字表达式、第二数字表达式、第三数字表达式、第四数字表达式。
采集待转化中文单词的中文单词长度;
如果中文单词长度等于4,则将中文单词长度通过4位二进制表达,获得第一表达式,将单词内容的每个字符的Unicode码值减掉2000后,转换成15位二进制累加,获得第二表达式,通过第一表达式和第二表示获得数字表达式;
如果中文单词长度小于4,则将中文单词长度通过4位二进制表达,获得第一表达式,将单词内容中中文单词长度小于4的空位字符通过15个1表达,获得第六表达式,通过第一表达式和第六表达式,获得数字表达式;
如果中文单词长度大于4,则将中文单词长度通过4位二进制表达,获得第七表达式,将单词内容的每个字符的Unicode码值进行13131进制转换后进行累加后,同260相除取余计算并进行60位二进制转换,获得第九表达式,根据第七表达式和第九表达式获得数字表达式。
在处理中文单词长度大于4的单词内容的过程中,包括以下步骤:
S201.提取第一字符的第一Unicode码值进行13131进制转换后,与第二字符的第二Unicode码值相加,获得第一结果;
S203.将第一结果进行13131进制转换后,与第三字符的第三第二Unicode码值相加,获得第二结果;
S205.基于S203的计算过程,将第二结果累加至最后一个字符后,同260相除取余计算并进行60位二进制转换,获得第九表达式。
一种用于提升翻译准确性的***,包括,
第一数据采集模块,用于采集无质量缺陷的第一翻译资料的第一原文和第一译文;
第二数据采集模块,用于采集待翻译文献或待审核翻译资料的第二原文;
第一数据转换模块,用于将第一原文和第一译文转化为第一数字表达式;
第二数据转换模块,用于将第二原文转化为第二数字表达式;
数据处理模块,用于将第二数字表达式与第一数字表达式进行比对,获得第二译文;
显示模块,用于显示第二译文;
存储模块,用于存储第一原文、第一译文、第二原文、第二译文,其中,存储模块还用于将第一原文与第二原文融合获得新的第一原文,以及将第二译文与第一译文融合获得新的第一译文。
一种用于提升翻译准确性的装置,包括,,
输入设备,用于输入待翻译文献或待审核翻译文献;
显示设备,用于显示待翻译文献的翻译结果或待审核翻译文献的审核结果;
数据处理设备,用于根据将待翻译文献或待审核翻译文献进行二进制数字转换获得第一数字表达式,并根据数据处理设备中已存在的第二数字表达式进行相似度匹配,根据匹配结果,选取相似度最高的至少一个第二数字表达式对应的单词,获得翻译结果或审核结果;
数据存储设备,用于存储待翻译文献、审核翻译文献、翻译结果、审核结果,并根据存储结果对已存储数据进行更新。
实施例1:1、本发明提供的技术方案实现方案:
1.1.用4位二进制表达单词的类别,用来区分语言和单词长度。语言和单词长度决定了方法的计算粒度。
1.2.用60位二进制表达单词的内容,这里将内容转换为60位二进制的方法作为本发明的核心环节,会在【单词内容转换方法】里重点介绍。
1.3.将上述64位二进制转换为长整型数值,作为本发明的最终结果。
2、单词内容转换方法(分别按英文和中文举例)
符号说明
b1-4:1到4位二进制
b5-64:5到64位二进制
x:单词内容
xi:第i个字符
i:字符索引
n:单词字符个数
fc-b(c):字符的6位二进制表达方法
fc-a(c):字符的ASCII值表达方法
fc-u(c):字符的Unicode值表达方法
fb-n(b):64位二进制转为数字的方法
fn-b(n):数字转为60位二进制的方法
f(x):本发明结果。
2.1长度小于等于10的英文单词:进入英文短内容转换模块
处理思路:b1-4用0000表示;b5-64的处理,将每个字符的6位二进制累加,字符数量不足10,每个空位用6位1表达。将最终64位二进制转换成数字:
2.2长度大于10的英文单词:进入英文长内容转换模块
处理思路:b1-4用0001表示;b5-64的处理,先将第一个字符的ASCII码值的31进制与第二个字符的ASCII码值相加,将相加结果的31进制再与第三个字符的ASCII码值相加,依次类推加到最后一个字符得到:
将上述计算到xn-1处的结果a同2的60次方作相除取余计算,得到一个数字:
将上述结果b转换为60位二进制后,将最终64位二进制转换成数字:
f(x)=fb-n(b1-4+fn-b(b))
2.3长度小于等于4的中文单词:进入中文短内容转换模块
处理思路:b1-4用0010表示;b5-64的处理,将每个字符的Unicode减掉2000后,转换成15位二进制累加,字数数量不足4,每个空位用15个1表达。最终将64位二进制转换成数字:
2.4长度大于4的中文单词:进入中文长内容转换模块
处理思路:b1-4用0011表示;b5-64的处理,先将第一个字符的Unicode码值的13131进制与第二个字符的Unicode码值相加,将相加结果的13131进制再与第三个字符的Unicode码值相加,依次类推处理到最后一个字符得到:
将上述计算到xn-1处的结果a同2的60次方作相除取余计算,得到一个数字:
将上述结果b转换为60位二进制后,将最终64位二进制转换成数字:
f(x)=fb-n(b1-4+fn-b(b))
进一步地,关于技术方案中使用的数学函数说明:除f(x)作为方案计算结果需要阐述计算过程以外,其他函数和方法均可以通过各种开发语言、数学公式直接获得。
长度小于等于10的英文单词:
1~4比特位:0000,表示该单词的类别为“长度<=10的英文单词”
5~64比特位:用字符/数字的二进制表达式累加,例如1的二进制表达为000001,2的二进制表达为000010,a的二进制表达为001010等。对于大写字母的情况,此方法将会先将其转换为小写,再进行二进制处理,因为使用翻译记忆库进行翻译辅助的大部分场景,都是模糊查询,所以为了提升计算性能,缩减字符内容范围,此处将忽略大写的情况。这样用6位二进制来表达一个字符的处理,当单词长度最大为10时,就正好沾满60个比特位。当单词长度小于10时,每个空位用111111补充,例如单词长度为9,则在末尾补充111111,长度为8,则补充111111 111111.
二进制表达举例:对于单词students,二进制的表达式为:
0000 011100 011101 011110 001101 001110 010111
011101 011100
111111 111111
转换数字:将上述二进制转换成长整型数字后,为
512698782764617727
长度大于10的英文单词:
1~4比特位:0001,表示该单词的类别为“长度>10的英文单词”
5~64比特位:将第一个字符的ASCII码进行31进制处理后,与第二个字符的ASCII累加,将得到的结果进行31进制处理后,再与第三个字符的ASCII累加,以此类推一直处理到最后一个字符。将最终的计算结果同2的60次方相除取余数,如果余数大于0,则直接作为5~64位比特位的数字结果,否则,将余数同2的60次方相加,作为5~64位比特位的数字结果。
转换数字:例如一个由11个字符组成的单词,用Ascii_C1表示第一个字符的ASCII,Ascii_C2表示第二个字符的ASCII,以此类推:(((Ascii_C1*31+Ascii_C2)*31+Ascii_C3)*31+Ascii_C4……/2的60次方,将计算结果用60个比特位表达后,将结果转换成数字。
长度小于等于4的中文单词
1~4比特位:0010,表示该单词的类别为“长度<=4的中文单词”
5~64比特位:
算法发现过程:在对中文字符转码方法的研究中发现,中文字符的Unicode的范围,减去2000后的值正好位于0~32767之间,而0~32767这个范围内的数值正好可以用15个比特位表达,即2的15次方。按这种计算方式,当单词长度最大为4时,就正好沾满60个比特位。当单词长度小于4时,每个空位用15个比特位补充,即1111……(15个1)。
转换数字:长度正好为4的单词表达为Unicode-2000对应的二进制;长度为3的单词表达为Unicode-2000对应的二进制+15个1(用15个1占用15个比特位)。将次二进制结果转换为数字。
长度大于4的中文单词
1~4比特位:0010,表示该单词的类别为“长度>4的中文单词”
5~64比特位:将第一个字符的Unicode码进行13131进制处理后,与第二个字符的Unicode累加,将得到的结果进行13131进制处理后,再与第三个字符的Unicode累加,以此类推一直处理到最后一个字符。将最终的计算结果同2的60次方相除取余数,如果余数大于0,则直接作为5~64位比特位的数字结果,否则,将余数同2的60次方相加,作为5~64位比特位的数字结果。
转换数字:例如一个由5个字符组成的单词,用Unicode_C1表示第一个字符的Unicode,Unicode_C2表示第二个字符的Unicode,以此类推:(((Unicode_C1*13131+Unicode_C2)*13131+Unicode_C3)*13131+Unicode_C4……/2的60次方,将计算结果用60个比特位表达后,将结果转换成数字。
本发明实现了将单词转换为数字的方法,将两个单词内容数组(输入原文的单词数组与翻译记忆库存储的原文数组)先转换为两个数字数组,这样在逐一比较单词的时候,只需要比较数字即可,缩减了比较次数,避免了每次的字符转码,同时由于计算机处理数字的速度要比文本快得多,所以提升了原文内容的比较速度,由于对原文内容的比较是匹配算法中的重要环节,所以直接提升了匹配算法的性能和计算速度。而且对于翻译记忆库里的原文,可以采用每次存储之前先按本发明转换为数字后再进行存储的办法,下次匹配直接比较已存储好的单词数组,可以减少转换开销,进一步提升性能。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种用于提升翻译准确性的方法,其特征在于,包括以下步骤,
采集无质量缺陷的第一翻译资料的第一单词以及所述第一单词对应的第二单词,对所述第一单词、所述第二单词分别进行二进制转换,获得所述第一单词的第一数字表达式以及所述第二单词的第二数字表达式,其中,所述第一单词为所述第一翻译资料的原文单词,所述第二单词为所述第一翻译资料的译文单词;
采集待翻译文献资料,对所述待翻译文献资料进行二进制转换,获得所述待翻译文献资料的第三数字表达式,通过比较所述第三数字表达式与所述第一数字表达式或所述第二数字表达式的第一相似度,获得所述待翻译文献资料的第二翻译资料;
采集待转化英文单词的英文单词长度;
如果所述英文单词长度等于10,则将所述英文单词长度通过4位二进制表达,获得第一表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过所述第一表达式和所述第二表达式获得数字表达式;
如果所述英文单词长度小于10,则将所述英文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容中所述英文单词长度小于10的空位字符通过6位1进行表示,获得第三表达式,将所述单词内容的所述字符进行6位二进制转换并进行累加,获得所述第二表达式,通过所述第一表达式、所述第二表达式、所述第三表达式获得所述数字表达式;
如果所述英文单词长度大于10,则将所述英文单词长度通过4位二进制表达,获得第四表达式,采集所述单词内容的每个字符的ASCII码值,通过将所述ASCII码值进行31进制转换并进行累加,得到累加结果,将累加结果同260作相除取余计算并进行60位二进制转换,获得第五表达式,根据所述第四表达式和所述第五表达式获得所述数字表达式;
采集待转化中文单词的中文单词长度;
如果所述中文单词长度等于4,则将所述中文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容的每个字符的Unicode码值减掉2000后,转换成15位二进制累加,获得所述第二表达式,通过所述第一表达式和所述第二表达式获得所述数字表达式;
如果所述中文单词长度小于4,则将所述中文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容中所述中文单词长度小于4的空位字符通过15个1表达,获得第六表达式,通过所述第一表达式和所述第六表达式,获得所述数字表达式;
如果所述中文单词长度大于4,则将所述中文单词长度通过4位二进制表达,获得第七表达式,将所述单词内容的每个字符的Unicode码值进行13131进制转换后进行累加后,同260相除取余计算并进行60位二进制转换,获得第九表达式,根据所述第七表达式和所述第九表达式获得所述数字表达式。
2.根据权利要求1所述的一种用于提升翻译准确性的方法,其特征在于,
采集第三翻译资料,对所述第三翻译资料进行二进制转换,获得所述第三翻译资料的第四数字表达式,通过比较所述第四数字表达式与所述第一数字表达式或所述第二数字表达式的第二相似度,获得所述第三翻译资料的翻译准确度,其中,所述第三翻译资料为已翻译好待校对的文献资料。
3.根据权利要求2所述的一种用于提升翻译准确性的方法,其特征在于,
基于所述翻译准确度,获得所述第一单词或所述第二单词,并将所述第一单词或所述第二单词添加到所述第三翻译资料中,其中,在将所述第一单词或所述第二单词添加到所述第三翻译资料中的过程中,标注所述第一单词或所述第二单词,标注的形式至少包括,单词字体、单词字号、单词颜色、对话框。
4.根据权利要求3所述的一种用于提升翻译准确性的方法,其特征在于,
在对所述第一单词、所述第二单词、所述待翻译文献资料、所述第三翻译资料分别进行二进制转化的过程中,
采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
采集所述待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
基于所述第一表达式、所述第二表达式,构建数字表达式,其中,所述数字表达式包括所述第一数字表达式、所述第二数字表达式、所述第三数字表达式、所述第四数字表达式。
5.根据权利要求1所述的一种用于提升翻译准确性的方法,其特征在于,
在处理所述英文单词长度大于10的所述待转化英文单词的过程中,包括以下步骤:
S101.采集所述单词内容的第一字符的第一ASCII码值,通过将所述第一ASCII码值进行31进制转换后,与所述单词内容的第二字符的第二ASCII码值相加,获得第一结果;
S103.将所述第一结果进行31进制转换后,与所述单词内容的第三字符的第三ASCII码值相加,获得第二结果;
S105.基于所述S103的计算过程,将所述第二结果进行累加至所述单词内容的最后一个字符后,同所述260相除取余计算并进行60位二进制转换,获得所述第五表达式。
6.根据权利要求1所述的一种用于提升翻译准确性的方法,其特征在于,
在处理所述中文单词长度大于4的所述单词内容的过程中,包括以下步骤:
S201.提取第一字符的第一Unicode码值进行13131进制转换后,与第二字符的第二Unicode码值相加,获得第一结果;
S203.将所述第一结果进行13131进制转换后,与第三字符的第三第二Unicode码值相加,获得第二结果;
S205.基于所述S203的计算过程,将所述第二结果累加至最后一个字符后,同所述260相除取余计算并进行60位二进制转换,获得所述第九表达式。
7.一种用于提升翻译准确性的***,其特征在于,包括,
第一数据采集模块,用于采集无质量缺陷的第一翻译资料的第一原文和第一译文;
第二数据采集模块,用于采集待翻译文献或待审核翻译资料的第二原文;
第一数据转换模块,用于将所述第一原文和第一译文转化为第一数字表达式;
第二数据转换模块,用于将所述第二原文转化为第二数字表达式;
采集待转化英文单词的英文单词长度;
如果所述英文单词长度等于10,则将所述英文单词长度通过4位二进制表达,获得第一表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过所述第一表达式和所述第二表达式获得数字表达式;
如果所述英文单词长度小于10,则将所述英文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容中所述英文单词长度小于10的空位字符通过6位1进行表示,获得第三表达式,将所述单词内容的所述字符进行6位二进制转换并进行累加,获得所述第二表达式,通过所述第一表达式、所述第二表达式、所述第三表达式获得所述数字表达式;
如果所述英文单词长度大于10,则将所述英文单词长度通过4位二进制表达,获得第四表达式,采集所述单词内容的每个字符的ASCII码值,通过将所述ASCII码值进行31进制转换并进行累加,得到累加结果,将累加结果同260作相除取余计算并进行60位二进制转换,获得第五表达式,根据所述第四表达式和所述第五表达式获得所述数字表达式;
采集待转化中文单词的中文单词长度;
如果所述中文单词长度等于4,则将所述中文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容的每个字符的Unicode码值减掉2000后,转换成15位二进制累加,获得所述第二表达式,通过所述第一表达式和所述第二表达式获得所述数字表达式;
如果所述中文单词长度小于4,则将所述中文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容中所述中文单词长度小于4的空位字符通过15个1表达,获得第六表达式,通过所述第一表达式和所述第六表达式,获得所述数字表达式;
如果所述中文单词长度大于4,则将所述中文单词长度通过4位二进制表达,获得第七表达式,将所述单词内容的每个字符的Unicode码值进行13131进制转换后进行累加后,同260相除取余计算并进行60位二进制转换,获得第九表达式,根据所述第七表达式和所述第九表达式获得所述数字表达式;
数据处理模块,用于将所述第二数字表达式与所述第一数字表达式进行比对,获得第二译文;
显示模块,用于显示所述第二译文;
存储模块,用于存储所述第一原文、所述第一译文、所述第二原文、所述第二译文,其中,所述存储模块还用于将所述第一原文与所述第二原文融合获得新的所述第一原文,以及将所述第二译文与所述第一译文融合获得新的所述第一译文。
8.一种用于提升翻译准确性的装置,其特征在于,包括,
输入设备,用于输入待翻译文献或待审核翻译文献;
显示设备,用于显示所述待翻译文献的翻译结果或所述待审核翻译文献的审核结果;
数据处理设备,用于根据将所述待翻译文献或所述待审核翻译文献进行二进制数字转换获得第一数字表达式,并根据所述数据处理设备中已存在的第二数字表达式进行相似度匹配,根据匹配结果,选取相似度最高的至少一个第二数字表达式对应的单词,获得所述翻译结果或所述审核结果;
采集待转化英文单词的英文单词长度;
如果所述英文单词长度等于10,则将所述英文单词长度通过4位二进制表达,获得第一表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过所述第一表达式和所述第二表达式获得数字表达式;
如果所述英文单词长度小于10,则将所述英文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容中所述英文单词长度小于10的空位字符通过6位1进行表示,获得第三表达式,将所述单词内容的所述字符进行6位二进制转换并进行累加,获得所述第二表达式,通过所述第一表达式、所述第二表达式、所述第三表达式获得所述数字表达式;
如果所述英文单词长度大于10,则将所述英文单词长度通过4位二进制表达,获得第四表达式,采集所述单词内容的每个字符的ASCII码值,通过将所述ASCII码值进行31进制转换并进行累加,得到累加结果,将累加结果同260作相除取余计算并进行60位二进制转换,获得第五表达式,根据所述第四表达式和所述第五表达式获得所述数字表达式;
数据存储设备,用于存储所述待翻译文献、所述审核翻译文献、所述翻译结果、所述审核结果,并根据存储结果对已存储数据进行更新。
CN202110745049.XA 2021-07-01 2021-07-01 一种用于提升翻译准确性的方法、***及装置 Active CN113420570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110745049.XA CN113420570B (zh) 2021-07-01 2021-07-01 一种用于提升翻译准确性的方法、***及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110745049.XA CN113420570B (zh) 2021-07-01 2021-07-01 一种用于提升翻译准确性的方法、***及装置

Publications (2)

Publication Number Publication Date
CN113420570A CN113420570A (zh) 2021-09-21
CN113420570B true CN113420570B (zh) 2024-04-30

Family

ID=77719954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110745049.XA Active CN113420570B (zh) 2021-07-01 2021-07-01 一种用于提升翻译准确性的方法、***及装置

Country Status (1)

Country Link
CN (1) CN113420570B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314469B1 (en) * 1999-02-26 2001-11-06 I-Dns.Net International Pte Ltd Multi-language domain name service
CN101178705A (zh) * 2007-12-13 2008-05-14 中国电信股份有限公司 一种自然语言理解方法和人机交互智能***
CN101261633A (zh) * 2008-04-02 2008-09-10 深圳市共进电子有限公司 基于工程的电子翻译方法及***
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN103559172A (zh) * 2013-11-06 2014-02-05 北京百度网讯科技有限公司 多语混合文本的分句方法和装置
CN103793527A (zh) * 2014-02-25 2014-05-14 惠州Tcl移动通信有限公司 一种基于手势追踪的手语翻译方法及***
CN104331399A (zh) * 2014-07-25 2015-02-04 一朵云(北京)科技有限公司 字典树翻译方法
CN105408891A (zh) * 2013-06-03 2016-03-16 机械地带有限公司 用于多用户多语言通信的***和方法
CN105472451A (zh) * 2015-03-18 2016-04-06 深圳Tcl数字技术有限公司 终端间数据传输方法和装置
TWM532593U (zh) * 2016-08-10 2016-11-21 Nat Taichung University Science & Technology 語音翻譯系統
CN107329957A (zh) * 2017-05-18 2017-11-07 网易(杭州)网络有限公司 替换代码中文字符串的方法以及计算机可读存储介质
CN109492233A (zh) * 2018-11-14 2019-03-19 北京捷通华声科技股份有限公司 一种机器翻译方法和装置
CN109634869A (zh) * 2018-12-21 2019-04-16 中国人民解放军战略支援部队信息工程大学 基于语义等价验证的二进制翻译中间表示正确性测试方法及装置
CN111753555A (zh) * 2020-06-17 2020-10-09 兰州大学 一种基于MathML的数学公式到盲文的翻译方法及***
CN112818712A (zh) * 2021-02-23 2021-05-18 语联网(武汉)信息技术有限公司 基于翻译记忆库的机器翻译方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050027547A1 (en) * 2003-07-31 2005-02-03 International Business Machines Corporation Chinese / Pin Yin / english dictionary

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314469B1 (en) * 1999-02-26 2001-11-06 I-Dns.Net International Pte Ltd Multi-language domain name service
CN101178705A (zh) * 2007-12-13 2008-05-14 中国电信股份有限公司 一种自然语言理解方法和人机交互智能***
CN101261633A (zh) * 2008-04-02 2008-09-10 深圳市共进电子有限公司 基于工程的电子翻译方法及***
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN105408891A (zh) * 2013-06-03 2016-03-16 机械地带有限公司 用于多用户多语言通信的***和方法
CN103559172A (zh) * 2013-11-06 2014-02-05 北京百度网讯科技有限公司 多语混合文本的分句方法和装置
CN103793527A (zh) * 2014-02-25 2014-05-14 惠州Tcl移动通信有限公司 一种基于手势追踪的手语翻译方法及***
CN104331399A (zh) * 2014-07-25 2015-02-04 一朵云(北京)科技有限公司 字典树翻译方法
CN105472451A (zh) * 2015-03-18 2016-04-06 深圳Tcl数字技术有限公司 终端间数据传输方法和装置
TWM532593U (zh) * 2016-08-10 2016-11-21 Nat Taichung University Science & Technology 語音翻譯系統
CN107329957A (zh) * 2017-05-18 2017-11-07 网易(杭州)网络有限公司 替换代码中文字符串的方法以及计算机可读存储介质
CN109492233A (zh) * 2018-11-14 2019-03-19 北京捷通华声科技股份有限公司 一种机器翻译方法和装置
CN109634869A (zh) * 2018-12-21 2019-04-16 中国人民解放军战略支援部队信息工程大学 基于语义等价验证的二进制翻译中间表示正确性测试方法及装置
CN111753555A (zh) * 2020-06-17 2020-10-09 兰州大学 一种基于MathML的数学公式到盲文的翻译方法及***
CN112818712A (zh) * 2021-02-23 2021-05-18 语联网(武汉)信息技术有限公司 基于翻译记忆库的机器翻译方法及装置

Also Published As

Publication number Publication date
CN113420570A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
US5309358A (en) Method for interchange code conversion of multi-byte character string characters
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN109101494A (zh) 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质
JPH0519184B2 (zh)
CN110070853B (zh) 一种语音识别转化方法及***
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN111178061B (zh) 一种基于编码转换的多国语分词方法
CN109858025B (zh) 一种地址标准化语料的分词方法及***
CN111949774A (zh) 一种智能问答方法和***
US20140214854A1 (en) Extracting method, computer product, extracting system, information generating method, and information contents
CN111858933A (zh) 基于字符的层次化文本情感分析方法及***
CN115759119B (zh) 一种金融文本情感分析方法、***、介质和设备
Almuhareb et al. Arabic word segmentation with long short-term memory neural networks and word embedding
CN108536724A (zh) 一种基于双层哈希索引的地铁设计规范中主体识别方法
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN113420570B (zh) 一种用于提升翻译准确性的方法、***及装置
CN109977430B (zh) 一种文本翻译方法、装置及设备
Aliwy et al. Corpus-based technique for improving Arabic OCR system
CN113420564B (zh) 一种基于混合匹配的电力铭牌语义结构化方法及***
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
CN114154503A (zh) 一种敏感数据类型识别方法
Ekbal et al. Voted approach for part of speech tagging in bengali
US11263408B2 (en) Alignment generation device and alignment generation method
CN114417824A (zh) 基于依存句法预训练模型的篇章级关系抽取方法及***
Güngör Lexical and morphological statistics for Turkish

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant