CN113420570A - 一种用于提升翻译准确性的方法、***及装置 - Google Patents
一种用于提升翻译准确性的方法、***及装置 Download PDFInfo
- Publication number
- CN113420570A CN113420570A CN202110745049.XA CN202110745049A CN113420570A CN 113420570 A CN113420570 A CN 113420570A CN 202110745049 A CN202110745049 A CN 202110745049A CN 113420570 A CN113420570 A CN 113420570A
- Authority
- CN
- China
- Prior art keywords
- expression
- word
- translation
- result
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000006243 chemical reaction Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 230000014509 gene expression Effects 0.000 claims description 220
- 229910002056 binary alloy Inorganic materials 0.000 claims description 29
- 238000009825 accumulation Methods 0.000 claims description 11
- 230000007547 defect Effects 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 3
- 238000012550 audit Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 15
- 238000003491 array Methods 0.000 abstract description 7
- 230000014616 translation Effects 0.000 description 91
- 238000012795 verification Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开一种用于提升翻译准确性的方法、***及装置,本发明通过将输入原文的单词数组与翻译记忆库存储的原文数组转换为两个数字数组,这样在逐一比较单词的时候,只需要比较数字即可,缩减了比较次数,避免了每次的字符转码,并且计算机处理数字的速度要比文本快,提升了原文内容的比较速度,进而直接提升了匹配算法的性能和计算速度,同时对于翻译记忆库里的原文,可以采用每次存储之前先按本发明转换为数字后再进行存储的办法,在下次匹配直接比较已存储好的单词数组,可以减少转换开销,进一步提升性能。
Description
技术领域
本发明涉及智能翻译领域,具体涉及一种用于提升翻译准确性的方法、***及装置。
背景技术
翻译记忆库是翻译领域中比较常用到的翻译辅助软件,不断收集和存储翻译项目中已被审核的无质量缺陷的原文和译文,并且提供一种匹配算法,从存储的原文里对需要翻译的输入原文进行相似度匹配,最终返回翻译记忆库中相似度较高的一批原文以及对应的译文。由于这些译文都是经过审核的,所以可以为译员提供高质量的译法参考。
综上所述,影响一个翻译记忆库匹配性能的关键环节是原文的存储以及匹配算法。原文内容作为匹配算法的基础和依据,同时直接决定了匹配算法的计算性能,主要体现在对原文的比较速度方面。随着翻译记忆库的存储量随着翻译业务逐渐累积,***在比较原文时的开销将随之增加,因此对原文内容的处理和数据类型的设计,是影响翻译记忆库匹配性能的重要环节。
传统的原文处理方法,是将整句原文内容按字符串类型存储到翻译记忆库中,发生匹配时,先将原文从库中取出进行分词,再将输入原文分词,将两个分词后的单词文本数组,通过匹配算法,计算出这两句原文的相似度,最终得出翻译记忆库中相似度最高的那条数据。
这种按文本进行匹配的方式,在比较原文中每个单词的时候可能会带来性能上的问题。首先计算机处理字符串的原理是先将每个字符转为ASCII码后,再逐一处理比较每个ASCII码值,这样对于一单词字符串来说,字符越多,比较的次数也就越多,如果单词个数也很多,匹配算法就可能非常慢。当翻译记忆库数据随着翻译业务的增多,参考原文数量和原文的单词个数增多,这种性能问题会更加明显。增加了译员等待参考译文的时间,降低了翻译效率。
发明内容
由于按文本方式匹配原文,获得对应参考译文的做法,会随着翻译记忆库内容的逐渐累加而影响计算性能,降低翻译效率,本发明为了解决这一技术问题,公开了一种原文处理方法,通过对原文存储方式和数据结构的优化,提升翻译记忆库的整体匹配性能;
本发明提供了一种用于提升翻译准确性的方法,包括以下步骤,
采集无质量缺陷的第一翻译资料的第一单词以及第一单词对应的第二单词,对第一单词、第二单词分别进行二进制转换,获得第一单词的第一数字表达式以及第二单词的第二数字表达式,其中,第一单词为第一翻译资料的原文单词,第二单词为第一翻译资料的译文单词;
采集待翻译文献资料,对待翻译文献资料进行二进制转换,获得待翻译文献资料的第三数字表达式,通过比较第三数字表达式与第一数字表达式或第二数字表达式的第一相似度,获得待翻译文献资料的第二翻译资料。
优选地,采集第三翻译资料,对第三翻译资料进行二进制转换,获得第三翻译资料的第四数字表达式,通过比较第四数字表达式与第一数字表达式或第二数字表达式的第二相似度,获得第三翻译资料的翻译准确度,其中,第三翻译资料为已翻译好待校对的文献资料。
优选地,基于翻译准确度,获得第一单词或第二单词,并将第一单词或第二单词添加到第三翻译资料中,其中,在将第一单词或第二单词添加到第三翻译资料中的过程中,标注第一单词或第二单词,标注的形式至少包括,单词字体、单词字号、单词颜色、对话框。
优选地,在对第一单词、第二单词、待翻译文献资料、第三翻译资料分别进行二进制转化的过程中,
采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
采集待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
基于第一表达式、第二表达式,构建数字表达式,其中,数字表达式包括第一数字表达式、第二数字表达式、第三数字表达式、第四数字表达式。
采集待转化英文单词的英文单词长度;
如果英文单词长度等于10,则将英文单词长度通过4位二进制表达,获得第一表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过第一表达式和第二表示获得数字表达式;
如果英文单词长度小于10,则将英文单词长度通过4位二进制表达,获得第一表达式,将单词内容中英文单词长度小于10的空位字符通过6位1进行表示,获得第三表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过第一表达式、第二表达式、第三表达式获得数字表达式;
如果英文单词长度大于10,则将英文单词长度通过4位二进制表达,获得第四表达式,采集单词内容的每个字符的ASCII码值,通过将ASCII码值进行31进制转换并进行累加,得到累加结果,将累加结果同260作相除取余计算并进行60位二进制转换,获得第五表达式,根据第四表达式和第五表达式获得数字表达式。
在处理英文单词长度大于10的待转化英文单词的过程中,包括以下步骤:
S101.采集单词内容的第一字符的第一ASCII码值,通过将第一ASCII码值进行31进制转换后,与单词内容的第二字符的第二ASCII码值相加,获得第一结果;
S103.将第一结果进行31进制转换后,与单词内容的第三字符的第三ASCII码值相加,获得第二结果;
S105.基于S103的计算过程,将第二结果进行累加至单词内容的最后一个字符后,同260相除取余计算并进行60位二进制转换,获得第五表达式。
优选地,在对第一单词、第二单词、待翻译文献资料、第三翻译资料分别进行二进制转化的过程中,
采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
采集待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
基于第一表达式、第二表达式,构建数字表达式,其中,数字表达式包括第一数字表达式、第二数字表达式、第三数字表达式、第四数字表达式。
采集待转化中文单词的中文单词长度;
如果中文单词长度等于4,则将中文单词长度通过4位二进制表达,获得第一表达式,将单词内容的每个字符的Unicode码值减掉2000后,转换成15位二进制累加,获得第二表达式,通过第一表达式和第二表示获得数字表达式;
如果中文单词长度小于4,则将中文单词长度通过4位二进制表达,获得第一表达式,将单词内容中中文单词长度小于4的空位字符通过15个1表达,获得第六表达式,通过第一表达式和第六表达式,获得数字表达式;
如果中文单词长度大于4,则将中文单词长度通过4位二进制表达,获得第七表达式,将单词内容的每个字符的Unicode码值进行13131进制转换后进行累加后,同260相除取余计算并进行60位二进制转换,获得第九表达式,根据第七表达式和第九表达式获得数字表达式。
在处理中文单词长度大于4的单词内容的过程中,包括以下步骤:
S201.提取第一字符的第一Unicode码值进行13131进制转换后,与第二字符的第二Unicode码值相加,获得第一结果;
S203.将第一结果进行13131进制转换后,与第三字符的第三第二Unicode码值相加,获得第二结果;
S205.基于S203的计算过程,将第二结果累加至最后一个字符后,同260相除取余计算并进行60位二进制转换,获得第九表达式。
一种用于提升翻译准确性的***,包括,
第一数据采集模块,用于采集无质量缺陷的第一翻译资料的第一原文和第一译文;
第二数据采集模块,用于采集待翻译文献或待审核翻译资料的第二原文;
第一数据转换模块,用于将第一原文和第一译文转化为第一数字表达式;
第二数据转换模块,用于将第二原文转化为第二数字表达式;
数据处理模块,用于将第二数字表达式与第一数字表达式进行比对,获得第二译文;
显示模块,用于显示第二译文;
存储模块,用于存储第一原文、第一译文、第二原文、第二译文,其中,存储模块还用于将第一原文与第二原文融合获得新的第一原文,以及将第二译文与第一译文融合获得新的第一译文。
一种用于提升翻译准确性的装置,包括,,
输入设备,用于输入待翻译文献或待审核翻译文献;
显示设备,用于显示待翻译文献的翻译结果或待审核翻译文献的审核结果;
数据处理设备,用于根据将待翻译文献或待审核翻译文献进行二进制数字转换获得第一数字表达式,并根据数据处理设备中已存在的第二数字表达式进行相似度匹配,根据匹配结果,选取相似度最高的至少一个第二数字表达式对应的单词,获得翻译结果或审核结果;
数据存储设备,用于存储待翻译文献、审核翻译文献、翻译结果、审核结果,并根据存储结果对已存储数据进行更新。
本发明公开了以下技术效果:
本发明提供的提升匹配算法性能:将原文里的单词转成了数字,使得匹配算法在计算输入原文和翻译记忆库里的存储原文的差异时,只需要比较两句话的数字数组,修正了传统方法中按字符串文本的形式进行比较,从而产生大量处理次数,降低算法效率和性能的问题。
无论对于哪种匹配算法,本发明都可以适用,因为对于一个匹配算法而言,本发明只是优化了调用它的输入参数,即原文内容,减轻了匹配算法的计算处理负担,提升了计算效率。另一方面,本发明在其他领域的应用实现中,也提供了一种数据处理与储存方案,如数据库***、内容差异化及数据安全性方面的应用中。。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还根据这些附图获得其他的附图。
图1为本发明所述的方法流程图;
图2为本发明所述的64位二进制示意图;
图3为本发明所述的方法与现有技术的对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-3所示,本发明提供了一种用于提升翻译准确性的方法,包括以下步骤,
采集无质量缺陷的第一翻译资料的第一单词以及第一单词对应的第二单词,对第一单词、第二单词分别进行二进制转换,获得第一单词的第一数字表达式以及第二单词的第二数字表达式,其中,第一单词为第一翻译资料的原文单词,第二单词为第一翻译资料的译文单词;
采集待翻译文献资料,对待翻译文献资料进行二进制转换,获得待翻译文献资料的第三数字表达式,通过比较第三数字表达式与第一数字表达式或第二数字表达式的第一相似度,获得待翻译文献资料的第二翻译资料。
优选地,采集第三翻译资料,对第三翻译资料进行二进制转换,获得第三翻译资料的第四数字表达式,通过比较第四数字表达式与第一数字表达式或第二数字表达式的第二相似度,获得第三翻译资料的翻译准确度,其中,第三翻译资料为已翻译好待校对的文献资料。
优选地,基于翻译准确度,获得第一单词或第二单词,并将第一单词或第二单词添加到第三翻译资料中,其中,在将第一单词或第二单词添加到第三翻译资料中的过程中,标注第一单词或第二单词,标注的形式至少包括,单词字体、单词字号、单词颜色、对话框。
优选地,在对第一单词、第二单词、待翻译文献资料、第三翻译资料分别进行二进制转化的过程中,
采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
采集待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
基于第一表达式、第二表达式,构建数字表达式,其中,数字表达式包括第一数字表达式、第二数字表达式、第三数字表达式、第四数字表达式。
采集待转化英文单词的英文单词长度;
如果英文单词长度等于10,则将英文单词长度通过4位二进制表达,获得第一表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过第一表达式和第二表示获得数字表达式;
如果英文单词长度小于10,则将英文单词长度通过4位二进制表达,获得第一表达式,将单词内容中英文单词长度小于10的空位字符通过6位1进行表示,获得第三表达式,将单词内容的字符进行6位二进制转换并进行累加,获得第二表达式,通过第一表达式、第二表达式、第三表达式获得数字表达式;
如果英文单词长度大于10,则将英文单词长度通过4位二进制表达,获得第四表达式,采集单词内容的每个字符的ASCII码值,通过将ASCII码值进行31进制转换并进行累加,得到累加结果,将累加结果同260作相除取余计算并进行60位二进制转换,获得第五表达式,根据第四表达式和第五表达式获得数字表达式。
在处理英文单词长度大于10的待转化英文单词的过程中,包括以下步骤:
S101.采集单词内容的第一字符的第一ASCII码值,通过将第一ASCII码值进行31进制转换后,与单词内容的第二字符的第二ASCII码值相加,获得第一结果;
S103.将第一结果进行31进制转换后,与单词内容的第三字符的第三ASCII码值相加,获得第二结果;
S105.基于S103的计算过程,将第二结果进行累加至单词内容的最后一个字符后,同260相除取余计算并进行60位二进制转换,获得第五表达式。
优选地,在对第一单词、第二单词、待翻译文献资料、第三翻译资料分别进行二进制转化的过程中,
采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
采集待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
基于第一表达式、第二表达式,构建数字表达式,其中,数字表达式包括第一数字表达式、第二数字表达式、第三数字表达式、第四数字表达式。
采集待转化中文单词的中文单词长度;
如果中文单词长度等于4,则将中文单词长度通过4位二进制表达,获得第一表达式,将单词内容的每个字符的Unicode码值减掉2000后,转换成15位二进制累加,获得第二表达式,通过第一表达式和第二表示获得数字表达式;
如果中文单词长度小于4,则将中文单词长度通过4位二进制表达,获得第一表达式,将单词内容中中文单词长度小于4的空位字符通过15个1表达,获得第六表达式,通过第一表达式和第六表达式,获得数字表达式;
如果中文单词长度大于4,则将中文单词长度通过4位二进制表达,获得第七表达式,将单词内容的每个字符的Unicode码值进行13131进制转换后进行累加后,同260相除取余计算并进行60位二进制转换,获得第九表达式,根据第七表达式和第九表达式获得数字表达式。
在处理中文单词长度大于4的单词内容的过程中,包括以下步骤:
S201.提取第一字符的第一Unicode码值进行13131进制转换后,与第二字符的第二Unicode码值相加,获得第一结果;
S203.将第一结果进行13131进制转换后,与第三字符的第三第二Unicode码值相加,获得第二结果;
S205.基于S203的计算过程,将第二结果累加至最后一个字符后,同260相除取余计算并进行60位二进制转换,获得第九表达式。
一种用于提升翻译准确性的***,包括,
第一数据采集模块,用于采集无质量缺陷的第一翻译资料的第一原文和第一译文;
第二数据采集模块,用于采集待翻译文献或待审核翻译资料的第二原文;
第一数据转换模块,用于将第一原文和第一译文转化为第一数字表达式;
第二数据转换模块,用于将第二原文转化为第二数字表达式;
数据处理模块,用于将第二数字表达式与第一数字表达式进行比对,获得第二译文;
显示模块,用于显示第二译文;
存储模块,用于存储第一原文、第一译文、第二原文、第二译文,其中,存储模块还用于将第一原文与第二原文融合获得新的第一原文,以及将第二译文与第一译文融合获得新的第一译文。
一种用于提升翻译准确性的装置,包括,,
输入设备,用于输入待翻译文献或待审核翻译文献;
显示设备,用于显示待翻译文献的翻译结果或待审核翻译文献的审核结果;
数据处理设备,用于根据将待翻译文献或待审核翻译文献进行二进制数字转换获得第一数字表达式,并根据数据处理设备中已存在的第二数字表达式进行相似度匹配,根据匹配结果,选取相似度最高的至少一个第二数字表达式对应的单词,获得翻译结果或审核结果;
数据存储设备,用于存储待翻译文献、审核翻译文献、翻译结果、审核结果,并根据存储结果对已存储数据进行更新。
实施例1:1、本发明提供的技术方案实现方案:
1.1.用4位二进制表达单词的类别,用来区分语言和单词长度。语言和单词长度决定了方法的计算粒度。
1.2.用60位二进制表达单词的内容,这里将内容转换为60位二进制的方法作为本发明的核心环节,会在【单词内容转换方法】里重点介绍。
1.3.将上述64位二进制转换为长整型数值,作为本发明的最终结果。
2、单词内容转换方法(分别按英文和中文举例)
符号说明
b1-4:1到4位二进制
b5-64:5到64位二进制
x:单词内容
xi:第i个字符
i:字符索引
n:单词字符个数
fc-b(c):字符的6位二进制表达方法
fc-a(c):字符的ASCII值表达方法
fc-u(c):字符的Unicode值表达方法
fb-n(b):64位二进制转为数字的方法
fn-b(n):数字转为60位二进制的方法
f(x):本发明结果。
2.1长度小于等于10的英文单词:进入英文短内容转换模块
处理思路:b1-4用0000表示;b5-64的处理,将每个字符的6位二进制累加,字符数量不足10,每个空位用6位1表达。将最终64位二进制转换成数字:
2.2长度大于10的英文单词:进入英文长内容转换模块
处理思路:b1-4用0001表示;b5-64的处理,先将第一个字符的ASCII码值的31进制与第二个字符的ASCII码值相加,将相加结果的31进制再与第三个字符的ASCII码值相加,依次类推加到最后一个字符得到:
将上述计算到xn-1处的结果a同2的60次方作相除取余计算,得到一个数字:
将上述结果b转换为60位二进制后,将最终64位二进制转换成数字:
f(x)=fb-n(b1-4+fn-b(b))
2.3长度小于等于4的中文单词:进入中文短内容转换模块
处理思路:b1-4用0010表示;b5-64的处理,将每个字符的Unicode减掉2000后,转换成15位二进制累加,字数数量不足4,每个空位用15个1表达。最终将64位二进制转换成数字:
2.4长度大于4的中文单词:进入中文长内容转换模块
处理思路:b1-4用0011表示;b5-64的处理,先将第一个字符的Unicode码值的13131进制与第二个字符的Unicode码值相加,将相加结果的13131进制再与第三个字符的Unicode码值相加,依次类推处理到最后一个字符得到:
将上述计算到xn-1处的结果a同2的60次方作相除取余计算,得到一个数字:
将上述结果b转换为60位二进制后,将最终64位二进制转换成数字:
f(x)=fb-n(b1-4+fn-b(b))
进一步地,关于技术方案中使用的数学函数说明:除f(x)作为方案计算结果需要阐述计算过程以外,其他函数和方法均可以通过各种开发语言、数学公式直接获得。
长度小于等于10的英文单词:
1~4比特位:0000,表示该单词的类别为“长度<=10的英文单词”
5~64比特位:用字符/数字的二进制表达式累加,例如1的二进制表达为000001,2的二进制表达为000010,a的二进制表达为001010等。对于大写字母的情况,此方法将会先将其转换为小写,再进行二进制处理,因为使用翻译记忆库进行翻译辅助的大部分场景,都是模糊查询,所以为了提升计算性能,缩减字符内容范围,此处将忽略大写的情况。这样用6位二进制来表达一个字符的处理,当单词长度最大为10时,就正好沾满60个比特位。当单词长度小于10时,每个空位用111111补充,例如单词长度为9,则在末尾补充111111,长度为8,则补充111111 111111.
二进制表达举例:对于单词students,二进制的表达式为:
0000 011100 011101 011110 001101 001110 010111
011101 011100
111111 111111
转换数字:将上述二进制转换成长整型数字后,为
512698782764617727
长度大于10的英文单词:
1~4比特位:0001,表示该单词的类别为“长度>10的英文单词”
5~64比特位:将第一个字符的ASCII码进行31进制处理后,与第二个字符的ASCII累加,将得到的结果进行31进制处理后,再与第三个字符的ASCII累加,以此类推一直处理到最后一个字符。将最终的计算结果同2的60次方相除取余数,如果余数大于0,则直接作为5~64位比特位的数字结果,否则,将余数同2的60次方相加,作为5~64位比特位的数字结果。
转换数字:例如一个由11个字符组成的单词,用Ascii_C1表示第一个字符的ASCII,Ascii_C2表示第二个字符的ASCII,以此类推:(((Ascii_C1*31+Ascii_C2)*31+Ascii_C3)*31+Ascii_C4……/2的60次方,将计算结果用60个比特位表达后,将结果转换成数字。
长度小于等于4的中文单词
1~4比特位:0010,表示该单词的类别为“长度<=4的中文单词”
5~64比特位:
算法发现过程:在对中文字符转码方法的研究中发现,中文字符的Unicode的范围,减去2000后的值正好位于0~32767之间,而0~32767这个范围内的数值正好可以用15个比特位表达,即2的15次方。按这种计算方式,当单词长度最大为4时,就正好沾满60个比特位。当单词长度小于4时,每个空位用15个比特位补充,即1111……(15个1)。
转换数字:长度正好为4的单词表达为Unicode-2000对应的二进制;长度为3的单词表达为Unicode-2000对应的二进制+15个1(用15个1占用15个比特位)。将次二进制结果转换为数字。
长度大于4的中文单词
1~4比特位:0010,表示该单词的类别为“长度>4的中文单词”
5~64比特位:将第一个字符的Unicode码进行13131进制处理后,与第二个字符的Unicode累加,将得到的结果进行13131进制处理后,再与第三个字符的Unicode累加,以此类推一直处理到最后一个字符。将最终的计算结果同2的60次方相除取余数,如果余数大于0,则直接作为5~64位比特位的数字结果,否则,将余数同2的60次方相加,作为5~64位比特位的数字结果。
转换数字:例如一个由5个字符组成的单词,用Unicode_C1表示第一个字符的Unicode,Unicode_C2表示第二个字符的Unicode,以此类推:(((Unicode_C1*13131+Unicode_C2)*13131+Unicode_C3)*13131+Unicode_C4……/2的60次方,将计算结果用60个比特位表达后,将结果转换成数字。
本发明实现了将单词转换为数字的方法,将两个单词内容数组(输入原文的单词数组与翻译记忆库存储的原文数组)先转换为两个数字数组,这样在逐一比较单词的时候,只需要比较数字即可,缩减了比较次数,避免了每次的字符转码,同时由于计算机处理数字的速度要比文本快得多,所以提升了原文内容的比较速度,由于对原文内容的比较是匹配算法中的重要环节,所以直接提升了匹配算法的性能和计算速度。而且对于翻译记忆库里的原文,可以采用每次存储之前先按本发明转换为数字后再进行存储的办法,下次匹配直接比较已存储好的单词数组,可以减少转换开销,进一步提升性能。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种用于提升翻译准确性的方法,其特征在于,包括以下步骤,
采集无质量缺陷的第一翻译资料的第一单词以及所述第一单词对应的第二单词,对所述第一单词、所述第二单词分别进行二进制转换,获得所述第一单词的第一数字表达式以及所述第二单词的第二数字表达式,其中,所述第一单词为所述第一翻译资料的原文单词,所述第二单词为所述第一翻译资料的译文单词;
采集待翻译文献资料,对所述待翻译文献资料进行二进制转换,获得所述待翻译文献资料的第三数字表达式,通过比较所述第三数字表达式与所述第一数字表达式或所述第二数字表达式的第一相似度,获得所述待翻译文献资料的第二翻译资料。
2.根据权利要求1所述的一种用于提升翻译准确性的方法,其特征在于,
采集第三翻译资料,对所述第三翻译资料进行二进制转换,获得所述第三翻译资料的第四数字表达式,通过比较所述第四数字表达式与所述第一数字表达式或所述第二数字表达式的第二相似度,获得所述第三翻译资料的翻译准确度,其中,所述第三翻译资料为已翻译好待校对的文献资料。
3.根据权利要求2所述的一种用于提升翻译准确性的方法,其特征在于,
基于所述翻译准确度,获得所述第一单词或所述第二单词,并将所述第一单词或所述第二单词添加到所述第三翻译资料中,其中,在将所述第一单词或所述第二单词添加到所述第三翻译资料中的过程中,标注所述第一单词或所述第二单词,标注的形式至少包括,单词字体、单词字号、单词颜色、对话框。
4.根据权利要求3所述的一种用于提升翻译准确性的方法,其特征在于,
在对所述第一单词、所述第二单词、所述待翻译文献资料、所述第三翻译资料分别进行二进制转化的过程中,
采集待转化单词的单词长度,通过四位二进制进行表达,获得第一表达式;
采集所述待转化单词的单词内容,通过六十位二进制进行表达,获得第二表达式;
基于所述第一表达式、所述第二表达式,构建数字表达式,其中,所述数字表达式包括所述第一数字表达式、所述第二数字表达式、所述第三数字表达式、所述第四数字表达式。
5.根据权利要求4所述的一种用于提升翻译准确性的方法,其特征在于,
采集待转化英文单词的英文单词长度;
如果所述英文单词长度等于10,则将所述英文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容的字符进行6位二进制转换并进行累加,获得所述第二表达式,通过所述第一表达式和所述第二表示获得所述数字表达式;
如果所述英文单词长度小于10,则将所述英文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容中所述英文单词长度小于10的空位字符通过6位1进行表示,获得第三表达式,将所述单词内容的所述字符进行6位二进制转换并进行累加,获得所述第二表达式,通过所述第一表达式、所述第二表达式、所述第三表达式获得所述数字表达式;
如果所述英文单词长度大于10,则将所述英文单词长度通过4位二进制表达,获得第四表达式,采集所述单词内容的每个字符的ASCII码值,通过将所述ASCII码值进行31进制转换并进行累加,得到累加结果,将累加结果同260作相除取余计算并进行60位二进制转换,获得第五表达式,根据所述第四表达式和所述第五表达式获得所述数字表达式。
6.根据权利要求5所述的一种用于提升翻译准确性的方法,其特征在于,
在处理所述英文单词长度大于10的所述待转化英文单词的过程中,包括以下步骤:
S101.采集所述单词内容的第一字符的第一ASCII码值,通过将所述第一ASCII码值进行31进制转换后,与所述单词内容的第二字符的第二ASCII码值相加,获得第一结果;
S103.将所述第一结果进行31进制转换后,与所述单词内容的第三字符的第三ASCII码值相加,获得第二结果;
S105.基于所述S103的计算过程,将所述第二结果进行累加至所述单词内容的最后一个字符后,同所述260相除取余计算并进行60位二进制转换,获得所述第五表达式。
7.根据权利要求4所述的一种用于提升翻译准确性的方法,其特征在于,
采集待转化中文单词的中文单词长度;
如果所述中文单词长度等于4,则将所述中文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容的每个字符的Unicode码值减掉2000后,转换成15位二进制累加,获得所述第二表达式,通过所述第一表达式和所述第二表示获得所述数字表达式;
如果所述中文单词长度小于4,则将所述中文单词长度通过4位二进制表达,获得所述第一表达式,将所述单词内容中所述中文单词长度小于4的空位字符通过15个1表达,获得第六表达式,通过所述第一表达式和所述第六表达式,获得所述数字表达式;
如果所述中文单词长度大于4,则将所述中文单词长度通过4位二进制表达,获得第七表达式,将所述单词内容的每个字符的Unicode码值进行13131进制转换后进行累加后,同260相除取余计算并进行60位二进制转换,获得第九表达式,根据所述第七表达式和所述第九表达式获得所述数字表达式。
8.根据权利要求7所述的一种用于提升翻译准确性的方法,其特征在于,
在处理所述中文单词长度大于4的所述单词内容的过程中,包括以下步骤:
S201.提取第一字符的第一Unicode码值进行13131进制转换后,与第二字符的第二Unicode码值相加,获得第一结果;
S203.将所述第一结果进行13131进制转换后,与第三字符的第三第二Unicode码值相加,获得第二结果;
S205.基于所述S203的计算过程,将所述第二结果累加至最后一个字符后,同所述260相除取余计算并进行60位二进制转换,获得所述第九表达式。
9.一种用于提升翻译准确性的***,其特征在于,包括,
第一数据采集模块,用于采集无质量缺陷的第一翻译资料的第一原文和第一译文;
第二数据采集模块,用于采集待翻译文献或待审核翻译资料的第二原文;
第一数据转换模块,用于将所述第一原文和第一译文转化为第一数字表达式;
第二数据转换模块,用于将所述第二原文转化为第二数字表达式;
数据处理模块,用于将所述第二数字表达式与所述第一数字表达式进行比对,获得第二译文;
显示模块,用于显示所述第二译文;
存储模块,用于存储所述第一原文、所述第一译文、所述第二原文、所述第二译文,其中,所述存储模块还用于将所述第一原文与所述第二原文融合获得新的所述第一原文,以及将所述第二译文与所述第一译文融合获得新的所述第一译文。
10.一种用于提升翻译准确性的装置,其特征在于,包括,
输入设备,用于输入待翻译文献或待审核翻译文献;
显示设备,用于显示所述待翻译文献的翻译结果或所述待审核翻译文献的审核结果;
数据处理设备,用于根据将所述待翻译文献或所述待审核翻译文献进行二进制数字转换获得第一数字表达式,并根据所述数据处理设备中已存在的第二数字表达式进行相似度匹配,根据匹配结果,选取相似度最高的至少一个第二数字表达式对应的单词,获得所述翻译结果或所述审核结果;
数据存储设备,用于存储所述待翻译文献、所述审核翻译文献、所述翻译结果、所述审核结果,并根据存储结果对已存储数据进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745049.XA CN113420570B (zh) | 2021-07-01 | 2021-07-01 | 一种用于提升翻译准确性的方法、***及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745049.XA CN113420570B (zh) | 2021-07-01 | 2021-07-01 | 一种用于提升翻译准确性的方法、***及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420570A true CN113420570A (zh) | 2021-09-21 |
CN113420570B CN113420570B (zh) | 2024-04-30 |
Family
ID=77719954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110745049.XA Active CN113420570B (zh) | 2021-07-01 | 2021-07-01 | 一种用于提升翻译准确性的方法、***及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420570B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6314469B1 (en) * | 1999-02-26 | 2001-11-06 | I-Dns.Net International Pte Ltd | Multi-language domain name service |
US20050027547A1 (en) * | 2003-07-31 | 2005-02-03 | International Business Machines Corporation | Chinese / Pin Yin / english dictionary |
CN101178705A (zh) * | 2007-12-13 | 2008-05-14 | 中国电信股份有限公司 | 一种自然语言理解方法和人机交互智能*** |
CN101261633A (zh) * | 2008-04-02 | 2008-09-10 | 深圳市共进电子有限公司 | 基于工程的电子翻译方法及*** |
CN102693222A (zh) * | 2012-05-25 | 2012-09-26 | 熊晶 | 基于实例的甲骨文释文机器翻译方法 |
CN103559172A (zh) * | 2013-11-06 | 2014-02-05 | 北京百度网讯科技有限公司 | 多语混合文本的分句方法和装置 |
CN103793527A (zh) * | 2014-02-25 | 2014-05-14 | 惠州Tcl移动通信有限公司 | 一种基于手势追踪的手语翻译方法及*** |
CN104331399A (zh) * | 2014-07-25 | 2015-02-04 | 一朵云(北京)科技有限公司 | 字典树翻译方法 |
CN105408891A (zh) * | 2013-06-03 | 2016-03-16 | 机械地带有限公司 | 用于多用户多语言通信的***和方法 |
CN105472451A (zh) * | 2015-03-18 | 2016-04-06 | 深圳Tcl数字技术有限公司 | 终端间数据传输方法和装置 |
TWM532593U (zh) * | 2016-08-10 | 2016-11-21 | Nat Taichung University Science & Technology | 語音翻譯系統 |
CN107329957A (zh) * | 2017-05-18 | 2017-11-07 | 网易(杭州)网络有限公司 | 替换代码中文字符串的方法以及计算机可读存储介质 |
CN109492233A (zh) * | 2018-11-14 | 2019-03-19 | 北京捷通华声科技股份有限公司 | 一种机器翻译方法和装置 |
CN109634869A (zh) * | 2018-12-21 | 2019-04-16 | 中国人民解放军战略支援部队信息工程大学 | 基于语义等价验证的二进制翻译中间表示正确性测试方法及装置 |
CN111753555A (zh) * | 2020-06-17 | 2020-10-09 | 兰州大学 | 一种基于MathML的数学公式到盲文的翻译方法及*** |
CN112818712A (zh) * | 2021-02-23 | 2021-05-18 | 语联网(武汉)信息技术有限公司 | 基于翻译记忆库的机器翻译方法及装置 |
-
2021
- 2021-07-01 CN CN202110745049.XA patent/CN113420570B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6314469B1 (en) * | 1999-02-26 | 2001-11-06 | I-Dns.Net International Pte Ltd | Multi-language domain name service |
US20050027547A1 (en) * | 2003-07-31 | 2005-02-03 | International Business Machines Corporation | Chinese / Pin Yin / english dictionary |
CN101178705A (zh) * | 2007-12-13 | 2008-05-14 | 中国电信股份有限公司 | 一种自然语言理解方法和人机交互智能*** |
CN101261633A (zh) * | 2008-04-02 | 2008-09-10 | 深圳市共进电子有限公司 | 基于工程的电子翻译方法及*** |
CN102693222A (zh) * | 2012-05-25 | 2012-09-26 | 熊晶 | 基于实例的甲骨文释文机器翻译方法 |
CN105408891A (zh) * | 2013-06-03 | 2016-03-16 | 机械地带有限公司 | 用于多用户多语言通信的***和方法 |
CN103559172A (zh) * | 2013-11-06 | 2014-02-05 | 北京百度网讯科技有限公司 | 多语混合文本的分句方法和装置 |
CN103793527A (zh) * | 2014-02-25 | 2014-05-14 | 惠州Tcl移动通信有限公司 | 一种基于手势追踪的手语翻译方法及*** |
CN104331399A (zh) * | 2014-07-25 | 2015-02-04 | 一朵云(北京)科技有限公司 | 字典树翻译方法 |
CN105472451A (zh) * | 2015-03-18 | 2016-04-06 | 深圳Tcl数字技术有限公司 | 终端间数据传输方法和装置 |
TWM532593U (zh) * | 2016-08-10 | 2016-11-21 | Nat Taichung University Science & Technology | 語音翻譯系統 |
CN107329957A (zh) * | 2017-05-18 | 2017-11-07 | 网易(杭州)网络有限公司 | 替换代码中文字符串的方法以及计算机可读存储介质 |
CN109492233A (zh) * | 2018-11-14 | 2019-03-19 | 北京捷通华声科技股份有限公司 | 一种机器翻译方法和装置 |
CN109634869A (zh) * | 2018-12-21 | 2019-04-16 | 中国人民解放军战略支援部队信息工程大学 | 基于语义等价验证的二进制翻译中间表示正确性测试方法及装置 |
CN111753555A (zh) * | 2020-06-17 | 2020-10-09 | 兰州大学 | 一种基于MathML的数学公式到盲文的翻译方法及*** |
CN112818712A (zh) * | 2021-02-23 | 2021-05-18 | 语联网(武汉)信息技术有限公司 | 基于翻译记忆库的机器翻译方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113420570B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5835893A (en) | Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity | |
US7269548B2 (en) | System and method of creating and using compact linguistic data | |
JP5062131B2 (ja) | 情報処理プログラム、情報処理装置、および情報処理方法 | |
JPS63316231A (ja) | コンピユーター・ソーテイングを容易にする方法 | |
US20220083528A1 (en) | System and method for representing query elements in an artificial neural network | |
JP6447161B2 (ja) | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 | |
CN112434535A (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN109858025B (zh) | 一种地址标准化语料的分词方法及*** | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及*** | |
WO2004107202A1 (en) | Automatic segmentation of texts comprising chunsks without separators | |
JP2018018174A (ja) | 符号化プログラム、符号化装置、符号化方法、及び検索方法 | |
CN108536724A (zh) | 一种基于双层哈希索引的地铁设计规范中主体识别方法 | |
Srivastav et al. | A method to improve exact matching results in compressed text using parallel wavelet tree | |
KR20210125449A (ko) | 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램 | |
CN113420570B (zh) | 一种用于提升翻译准确性的方法、***及装置 | |
CN112182337A (zh) | 从海量短新闻中识别相似新闻的方法及相关设备 | |
Nongmeikapam et al. | A transliteration of CRF based Manipuri POS tagging | |
EP1631920B1 (en) | System and method of creating and using compact linguistic data | |
CN114154503A (zh) | 一种敏感数据类型识别方法 | |
JP4088171B2 (ja) | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
CN114579763A (zh) | 一种针对中文文本分类任务的字符级对抗样本生成方法 | |
Ristov et al. | Ziv Lempel compression of huge natural language data tries using suffix arrays | |
CN114201957A (zh) | 文本情感分析方法、装置及计算机可读存储介质 | |
US6526401B1 (en) | Device for processing strings | |
JP2019159743A (ja) | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |