CN107967303B - 语料显示的方法及装置 - Google Patents

语料显示的方法及装置 Download PDF

Info

Publication number
CN107967303B
CN107967303B CN201711102058.7A CN201711102058A CN107967303B CN 107967303 B CN107967303 B CN 107967303B CN 201711102058 A CN201711102058 A CN 201711102058A CN 107967303 B CN107967303 B CN 107967303B
Authority
CN
China
Prior art keywords
cell
value
current
edit
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711102058.7A
Other languages
English (en)
Other versions
CN107967303A (zh
Inventor
张腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Transn Iol Technology Co ltd
Original Assignee
Transn Iol Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Transn Iol Technology Co ltd filed Critical Transn Iol Technology Co ltd
Priority to CN201711102058.7A priority Critical patent/CN107967303B/zh
Publication of CN107967303A publication Critical patent/CN107967303A/zh
Application granted granted Critical
Publication of CN107967303B publication Critical patent/CN107967303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了语料显示的方法及装置,属于翻译技术领域。该方法包括:从被翻译过的历史语料库中,获取与待翻译语料匹配的第一语料;根据所述待翻译语料中的每个第一分词,以及所述第一语料中的每个第二分词,生成带起始单元格的编辑值的分词二维表格;根据所述分词二维表格中每个单元格对应的第一分词与第二分词之间的词语相似度,以及所述起始单元格的编辑值,确定每个所述单元格的编辑值,以及所述分词二维表格的编辑值生成路径;根据所述编辑值生成路径上相邻编辑值之间的差值,对所述第一语料进行编辑并显示,这样,可明确显示待翻译语料与第一语料之间的差异,提高了翻译的工作效率。

Description

语料显示的方法及装置
技术领域
本发明涉及翻译技术领域,特别涉及语料显示的方法及装置。
背景技术
当前计算机辅助翻译是提高翻译一致性和效率的重要手段,它能够帮助翻译者优质、高效、轻松地完成翻译,使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。
其中,在进行待翻译语料的历史语料的查询时,计算机辅助翻译可从被翻译过的历史语料库中,获取与待翻译语料匹配的第一语料并进行显示。但是,显示的第一语料与待翻译语料之间侧差异,需要翻译人员自行辨认,这样,不仅给翻译人员带来了不便,并且也使得翻译效率比较低下。
发明内容
本发明实施例提供了一种语料显示的方法及装置。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了一种语料显示的方法,包括:
从被翻译过的历史语料库中,获取与待翻译语料匹配的第一语料;
根据所述待翻译语料中的每个第一分词,以及所述第一语料中的每个第二分词,生成带起始单元格的编辑值的分词二维表格;
根据所述分词二维表格中每个单元格对应的第一分词与第二分词之间的词语相似度,以及所述起始单元格的编辑值,确定每个所述单元格的编辑值,以及所述分词二维表格的编辑值生成路径;
根据所述编辑值生成路径上相邻编辑值之间的差值,对所述第一语料进行编辑并显示。
本发明一实施例中,所述生成带起始单元格的编辑值的分词二维表格包括:
根据所述待翻译语料和所述第一语料的语序顺序,将每个所述第一分词以及所述第二分词进行排列,生成二维表格,其中,所述二维表格中每个分词都对应一个起始单元格;
配置所述二维表格中每个起始单元格的编辑值,形成分词二维表格,其中,所述起始单元格的编辑值根据所述语序顺序递增。
本发明一实施例中,所述确定每个所述单元格的编辑值包括:
根据设定的第一遍历方向遍历所述分词二维表格,确定当前单元格对应的当前第一分词与当前第二分词之间的当前词语相似度;
若根据所述当前词语相似度确定所述当前第一分词与所述当前第二分词为相同词语时,将第一单元格的编辑值确定为所述当前单元格的编辑值,其中,所述第一单元格的第一横坐标值与所述当前单元格的当前横坐标值之间的横差值为最小横坐标间隔值,所述第一单元格的第一纵坐标值与所述当前单元格的当前纵坐标值之间的纵差值为最小纵坐标间隔值,且所述第一单元格位于所述当前单元格的逆向生成方向上,所述逆向生成方向与所述第一遍历方向相反;
若根据所述当前词语相似度确定所述当前第一分词与所述当前第二分词为不同词语时,根据第二单元格的编辑值确定所述当前单元格的编辑值,其中,所述第二单元格是所述当前单元格的所述逆向生成方向上相邻单元格中编辑值最小的单元格。
本发明一实施例中,所述确定所述分词二维表格的编辑值生成路径包括:
将所述分词二维表格中最后一个单元格确定为所述编辑值生成路径中的当前路径单元格;
查找所述当前路径单元格的生成单元格,并将所述生成单元格确定为所述编辑值生成路径中的当前路径单元格,遍历所述分词二维表格,直至确定所述编辑值生成路径中的每个路径单元格,其中,所述当前路径单元格的逆向生成方向上相邻单元格中编辑值最小且生成优先级最高的单元格。
本发明一实施例中,所述根据所述编辑值生成路径上相邻编辑值之间的差值,对所述第一语料进行编辑并显示包括:
若所述编辑值生成路径上当前路径单元格的编辑值与所述编辑值生成路径上所述生成单元格的编辑值之间的差值不为零时,根据所述当前路径单元格的位置坐标值与所述生成单元格的位置坐标值之间的差值,对所述第一语料进行编辑,其中,所述编辑包括:删除、***或替换;
根据与每种编辑对应的显示提示方式,显示编辑后的所述第一语料。
根据本发明实施例的第二方面,提供一种语料显示的装置,包括:
获取单元,用于从被翻译过的历史语料库中,获取与待翻译语料匹配的第一语料;
生成单元,用于根据所述待翻译语料中的每个第一分词,以及所述第一语料中的每个第二分词,生成带起始单元格的编辑值的分词二维表格;
确定单元,用于根据所述分词二维表格中每个单元格对应的第一分词与第二分词之间的词语相似度,以及所述起始单元格的编辑值,确定每个所述单元格的编辑值,以及所述分词二维表格的编辑值生成路径;
编辑显示单元,用于根据所述编辑值生成路径上相邻编辑值之间的差值,对所述第一语料进行编辑并显示。
本发明一实施例中,所述生成单元,具体用于根据所述待翻译语料和所述第一语料的语序顺序,将每个所述第一分词以及所述第二分词进行排列,生成二维表格,其中,所述二维表格中每个分词都对应一个起始单元格;配置所述二维表格中每个起始单元格的编辑值,形成分词二维表格,其中,所述起始单元格的编辑值根据所述语序顺序递增。
本发明一实施例中,所述确定单元,具体用于根据设定的第一遍历方向遍历所述分词二维表格,确定当前单元格对应的当前第一分词与当前第二分词之间的当前词语相似度;若根据所述当前词语相似度确定所述当前第一分词与所述当前第二分词为相同词语时,将第一单元格的编辑值确定为所述当前单元格的编辑值,其中,所述第一单元格的第一横坐标值与所述当前单元格的当前横坐标值之间的横差值为最小横坐标间隔值,所述第一单元格的第一纵坐标值与所述当前单元格的当前纵坐标值之间的纵差值为最小纵坐标间隔值,且所述第一单元格位于所述当前单元格的逆向生成方向上,所述逆向生成方向与所述第一遍历方向相反;若根据所述当前词语相似度确定所述当前第一分词与所述当前第二分词为不同词语时,根据第二单元格的编辑值确定所述当前单元格的编辑值,其中,所述第二单元格是所述当前单元格的所述逆向生成方向上相邻单元格中编辑值最小的单元格。
本发明一实施例中,所述确定单元,还用于将所述分词二维表格中最后一个单元格确定为所述编辑值生成路径中的当前路径单元格;以及,查找所述当前路径单元格的生成单元格,并将所述生成单元格确定为所述编辑值生成路径中的当前路径单元格,遍历所述分词二维表格,直至确定所述编辑值生成路径中的每个路径单元格,其中,所述当前路径单元格的逆向生成方向上相邻单元格中编辑值最小且生成优先级最高的单元格。
本发明一实施例中,所述编辑显示单元,具体用于若所述编辑值生成路径上当前路径单元格的编辑值与所述编辑值生成路径上所述生成单元格的编辑值之间的差值不为零时,根据所述当前路径单元格的位置坐标值与所述生成单元格的位置坐标值之间的差值,对所述第一语料进行编辑,其中,所述编辑包括:删除、***或替换;并根据与每种编辑对应的显示提示方式,显示编辑后的所述第一语料。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,可根据待翻译语料的每个第一分词,以及对应历史语料库中第一语料的每个第二分词之间的词语相似度,对第一语料进行编辑并显示,这样,可明确显示待翻译语料与第一语料之间的差异,提高了翻译的工作效率,也提高了用户的体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语料显示方法的示意图;
图2是根据一示例性实施例示出的一种二维表格的示意图;
图3是根据一示例性实施例示出的一种分词二维表格的示意图;
图4是根据一示例性实施例示出的一种分词二维表格的示意图;
图5是根据一示例性实施例示出的一种编辑后第一语料的显示示意图;
图6是根据一示例性实施例示出的一种语料显示方法的示意图;
图7是根据一示例性实施例示出的一种语料显示装置的框图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言,由于其与实施例公开的部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
计算机辅助翻译是一种越来越普遍使用的软件应用,通过该应用可以帮助翻译者优质、高效、轻松地完成翻译。一般借助翻译应用,形成原文文件以及对应的译文文件。本发明实施例中,在进行历史语料查询时,可根据待翻译语料的每个第一分词,以及对应历史语料库中第一语料的每个第二分词之间的词语相似度,对第一语料进行编辑并显示,这样,可明确显示待翻译语料与第一语料之间的差异,提高了翻译的工作效率,也提高了用户的体验。
图1是根据一示例性实施例示出的一种语料显示方法的流程图。如图1所示,语料显示的过程包括:
步骤101:从被翻译过的历史语料库中,获取与待翻译语料匹配的第一语料。
待翻译文档中的一句话,一个词语,一个段落等等都可以是待翻译语料。可从被翻译过的历史语料库中,获取与待翻译语料匹配的第一语料,即第一语料是对应的曾经翻译过的历史语料。
例如:待翻译语料为:this is a cat,而获取的第一语料为:look,this isEinstein。
步骤102:根据待翻译语料中的每个第一分词,以及第一语料中的每个第二分词,生成带起始单元格编辑值的分词二维表格。
这里,需分别对待翻译语料以及第一语料进行分词,获得对应的第一分词和第二分词。一般可根据标点符号,以及去词语数据库中进行匹配,获得每个语料对应的分词。然后,根据每个第一分词,以及每个第二分词,生成与语序顺序一致的带起始单元格的编辑值的分词二维表格,其中,分词二维表格中每个分词配置一个起始单元格的编辑值,且起始单元格的编辑值根据语序顺序递增。即根据待翻译语料和第一语料的语序顺序,将每个第一分词以及第二分词进行排列,生成二维表格,其中,二维表格中每个分词都对应一个起始单元格;然后,配置二维表格中每个起始单元格的编辑值,形成分词二维表格,其中,起始单元格的编辑值根据语序顺序递增。
例如:待翻译语料为:this is a cat,而第一语料为:look,this is Einstein。则可分别以待翻译语料与第一语料中的分词建立一张二维表格,该二维表格可根据语序顺序生成,并且二维表格中,每个分词都对应一个起始单元格。
图2是根据一示例性实施例示出的一种二维表格的示意图。如图2所示,待翻译语料为横轴,而第一语料为纵轴,待翻译语料中的分词分别处于C1-F1中,而第一语料中的分词分别处于A3-A7中。而C2-F2为与C1-F1对应的起始单元格,而B3-B7为与A3-A7对应的起始单元格。而B2则为交叉起始单元格。
确定了二维表格后,可配置该二维表格中每个起始单元格的编辑值,生成对应的分词二维表格。由于二维表格是根据语序顺序生成的,因此,起始单元格的编辑值可根据语序顺序递增。
图3是根据一示例性实施例示出的一种分词二维表格的示意图。如图3所示,交叉起始单元格B2的起始单元格编辑值配置为0,从而,横轴方向C2-F2的起始单元格编辑值分别配置为1,2,3,4;而纵轴方向B3-B7的起始单元格编辑值分别配置为1,2,3,4,5。
步骤103:根据分词二维表格中每个单元格对应的第一分词与第二分词之间的词语相似度,以及起始单元格编辑值,确定每个单元格的编辑值,以及分词二维表格的编辑值生成路径。
分词二维表格中,待翻译语料中的第一分词根据一定顺序排列,且第一语料中的第二分词也按照一定顺序排列,且每个分词配置一个起始单元格编辑值,这样,可从设定单元格,设定遍历方向,遍历分词二维表格,根据每个单元格对应的第一分词与第二分词之间的词语相似度,以及起始单元格编辑值,确定每个单元格的编辑值,以及分词二维表格的编辑值生成路径。
其中,确定每个单元格的编辑值包括:根据设定的第一遍历方向遍历分词二维表格,确定当前单元格对应的当前第一分词与当前第二分词之间的当前词语相似度;若根据当前词语相似度确定当前第一分词与当前第二分词为相同词语时,将第一单元格的编辑值确定为当前单元格的编辑值,其中,第一单元格的第一横坐标值与当前单元格的当前横坐标值之间的横差值为最小横坐标间隔值,第一单元格的第一纵坐标值与当前单元格的当前纵坐标值之间的纵差值为最小纵坐标间隔值,且,逆向生成方向与第一遍历方向相反;若根据当前词语相似度确定当前第一分词与当前第二分词为不同词语时,根据第二单元格的编辑值确定当前单元格的编辑值,其中,第二单元格是当前单元格的逆向生成方向上相邻单元格中编辑值最小的单元格。
可见,第一遍历方向上当前单元格的编辑值是根据已确定的单元格的编辑值确定的,因此,逆向生成方向与第一遍历方向相反。
例如:生成的分词二维表格如图3所示,这样,单元格C3有三个相邻单元格有对应的编辑值,因此,可确定单元格C3为起始单元格,从该起始单元格开始,根据设定的第一遍历方向遍历分词二维表格,确定每个单元格的编辑值。可先从单元格C3开始,然后,根据纵轴方向遍历分词二维表格,确定每个单元格的编辑值,或者,根据横轴方向遍历分词二维表格,确定每个单元格的编辑值,或者,根据纵轴一列后横轴一行的方向遍历分词二维表格,确定每个单元格的编辑值。即第一遍历方向包括:纵轴方向,横轴方向,或横轴纵轴交错方向等等。
其中,可确定单元格C3为当前单元格,计算单元格C3对应的当前第一分词this与当前第二分词look之间的词语相似度后,根据计算获得的词语相似度可确定当前第一分词与当前第二分词为不同词语,此时,当前单元格C3的逆向生成方向上相邻单元格分别为单元格B2,单元格C2,以及单元格B3,对应的编辑值分别为0,1,1。其中,单元格B2的编辑值0最小,因此,可将单元格B2确定为第二单元格,从而,可根据单元格B2的编辑值确定单元格C3的编辑值。这里,单元格C3的编辑值为单元格B2的编辑值0加1,即单元格C3的编辑值为1。
若根据纵轴方向遍历分词二维表格,确定了单元格C3的编辑值后,可确定单元格C4的编辑值。由于根据单元格C4对应的当前第一分词this与当前第二分词,之间的词语相似度,可确定当前第一分词与当前第二分词为不同词语,此时,当前单元格C4的逆向生成方向上相邻单元格分别为单元格B3,单元格C3,以及单元格B4,对应的编辑值分别为1,1,2。其中,单元格B3和单元格C3的编辑值1都为最小,因此,可将单元格B3和单元格C3中的任意一个确定为第二单元格,例如单元格B3为第二单元格,从而,可根据单元格B3的编辑值确定单元格C4的编辑值。这里,单元格C4的编辑值为单元格B3的编辑值1加1,即单元格C4的编辑值为2。
继续遍历分词二维表格,由于根据单元格C5对应的当前第一分词this与当前第二分词this之间的词语相似度,可确定当前第一分词与当前第二分词为相同词语,此时,单元格B4与单元格C5中,当前横坐标值之间的横差值为1,与最小横坐标间隔值1相等,且当前纵坐标值之间的纵差值也为1,与最小横坐标间隔值1相等,且单元格B4位于单元格C5的逆向生成方向上,因此,可将单元格B4确定为第一单元格,将单元格B4的编辑值确定为单元格C5的编辑值。即C5的编辑值为2。
根据上述方式继续遍历分词二维表格,直至确定每个单元格的编辑值。
图4是根据一示例性实施例示出的一种分词二维表格的示意图。如图4所示,分词二维表格中每个单元格的编辑值已确定了。
确定了个单元格的编辑值之后,还需要确定分词二维表格的编辑值生成路径。这里,可采用追溯的方式进行确定,可包括:将分词二维表格中最后一个单元格确定为编辑值生成路径中的当前路径单元格;查找当前路径单元格的生成单元格,并将生成单元格确定为编辑值生成路径中的当前路径单元格,遍历分词二维表格,直至确定编辑值生成路径中的每个路径单元格,其中,生成单元格是当前路径单元格的逆向生成方向上相邻单元格中编辑值最小且生成优先级最高的单元格。这里也需要遍历分词二位表格,而遍历方向可与第一遍历方向相反。
这里,逆向生成方向与确定每个单元格的编辑值过程中的第一遍历方向相反,而生成优先级也是根据确定每个单元格的编辑值过程中的遍历方向确定的。例如:当前单元格的当前横坐标值和当前纵坐标值分别为(x,y),则生成优先级的先后顺序为(x-1,y-1),(x-1,y)以及(x,y-1)。
确定了每个单元格的编辑值的分词二维表格可如图4所示。这样,编辑值生成路径的终点是分词二维表格中最后一个单元格F7,从该单元格F7开始,遍历分词二维表格,直至确定编辑值生成路径中的每个路径单元格。
其中,单元格F7逆向生成方向上相邻单元格分别为单元格E6、单元格F6以及单元格E7,对应的编辑值为3、4、3,由于逆向生成方向上单元格E6、单元格F6以及单元格E7优先级的先后顺序为单元格E6、单元格E7以及单元格F6,从而,可确定单元格E6为当前路径单元格的生成单元格。然后,将单元格E6确定为当前路径单元格,遍历分词二维表格,直至确定编辑值生成路径中的每个路径单元格。这样,确定的分词二维表格的编辑值生成路径可如图4中,带阴影的单元格组成。
步骤104:根据编辑值生成路径上相邻编辑值之间的差值,对第一语料进行编辑并显示。
确定分词二维表格的编辑值生成路径后,可对第一语料进行编辑并显示,包括:若编辑值生成路径上当前路径单元格的编辑值与生成单元格的编辑值之间的差值不为零时,根据当前路径单元格的位置坐标值与生成单元格的位置坐标值之间的差值,对第一语料进行编辑,其中,编辑包括:删除、添加或替换;根据与每种编辑对应的显示提示方式,显示编辑后的第一语料。
例如:确定了编辑值生成路径的分词二维表格如4所示。如图4所示,从交叉起始单元格B2开始,遍历编辑值生成路径,根据编辑值之间的差值,对第一语料进行编辑并显示。其中,单元格B3的与编辑值生成路径上生成单元格B2的编辑值之间的差值为1-0=1,确定不为零,从而,可根据当前路径单元格的位置坐标值与生成单元格的位置坐标值之间的差值,对第一语料进行编辑。
可预设一个位置坐标值的差值与编辑方式之间的对应关系。这样,可根据保存的对应关系,确定与当前路径单元格的位置坐标值与生成单元格的位置坐标值之间的差值对应的编辑方式,然后根据确定的编辑方式对第一语料中的当前第二分词进行编辑。
表1为本实施例中位置坐标值的差值与编辑方式之间的对应关系。
位置坐标值的差值 编辑方式
横轴方向差值为1 在当前第二分词后***当前第一分词
纵轴方向差值为1 删除当前第二分词
横轴方向差值为1且纵轴方向差值为1 用当前第一分词替换当前第二分词
表1
例如:保存的位置坐标值的差值与编辑方式之间的对应关系如表1所示。这样,单元格B3的位置坐标值与单元格B2的位置坐标值之间纵轴方向差值为1,从而,可确定对应的编辑方式为删除,即可将单元格B3对应的当前第二分词look删除。
然后,将编辑值生成路径上后一个单元即格单元格B4作为当前路径单元格,而对应的编辑值生成路径上生成单元格为单元格B3,单元格B4的编辑值与单元格B3的编辑值之间差值为2-1=1,也不为零,且单元格B4的位置坐标值与单元格B3的位置坐标值之间纵轴方向差值也为1,则可将单元格B4对应的当前第二分词,删除。
将编辑值生成路径上后一个单元格即单元格C5作为当前路径单元格,而对应的编辑值生成路径上生成单元格为单元格B4,单元格C5的编辑值与单元格B4的编辑值之间差值为2-2=0,则不需要对当前第二分词this进行编辑。
将编辑值生成路径上后一个单元格即单元格D6作为当前路径单元格,而对应的编辑值生成路径上生成单元格为单元格C5,单元格D6的编辑值与单元格C5的编辑值之间差值为2-2=0,则不需要对当前第二分词is进行编辑。
将编辑值生成路径上后一个单元格即单元格E6作为当前路径单元格,而对应的编辑值生成路径上生成单元格为单元格D6,单元格E6的编辑值与单元格D6的编辑值之间差值为3-2=1,且单元格E6的位置坐标值与单元格D6的位置坐标值之间横轴方向差值为1,则确定的编辑方式为***,即可在当前第二分词is后***第一分词a。
将编辑值生成路径上后一个单元格即单元格F7作为当前路径单元格,而对应的编辑值生成路径上生成单元格为单元格E6,单元格F7的编辑值与单元格E6的编辑值之间差值为4-3=1,且单元格F7的位置坐标值与单元格E6的位置坐标值之间横轴方向差值为1且纵轴方向差值为1,则确定的编辑方式为替换,即可将当前第二分词Einstein替换为第一分词cat。
对第一语料进行编辑后,还需根据每种编辑对应的显示提示方式,显示编辑后的第一语料。
也可预设编辑方式与显示提示方式之间的对应关系,从而,可根据保存的对应关系,确定对应的显示提示方式,然后,显示编辑后的第一语料。
编辑方式与显示提示方式之间的对应关系可以多种多样,例如,与现有文字编辑中显示提示方式支持,或者,采用不同的颜色来提示不同的编辑方式,或者,采用不同的背景图形来提示不同的编辑方式。
表2为本实施例中编辑方式与显示提示方式之间的对应关系。
例如:确定了编辑值生成路径的分词二维表格如4所示,而保存的编辑方式与显示提示方式之间的对应关系如表2所示,则显示编辑后的第一语料则为图5所示。
图5是根据一示例性实施例示出的一种编辑后第一语料的显示示意图。
如同5所示,look以及,两个第二分词删除,a***,而Einstein替换为cat。
编辑方式 显示提示方式
*** ***字第一颜色高亮显示
删除 删除字第二颜色且加上横线
替换 替换前字第二颜色且加上横线,替换后字第一颜色高亮显示
表2
可见,本发明实施例中,通过上述方式显示编辑后的第一语料,翻译用户可直接获取第一语料与待翻译语料之间差异,不需要翻译用户去主观判断,进一步提高了翻译的工作效率,也进一步提高翻译应用的智能型以及提高了用户体验。
当然,上述实施例中,配置的起始单元格的编辑值根据语序顺序递增,而本发明另一个实施例中,配置的起始单元格的编辑值根据语序顺序递减,这样,根据第二单元格的编辑值确定当前单元格的编辑值时,可将第二单元格的编辑值减一,得到当前单元格的编辑值。或者,起始单元格的编辑值根据语序顺序递增的差值也不限于1,可以是其他设定值,例如2,3等等。并且,配置的起始单元格的位置不同,其对应的交叉起始单元格不同,则确定每个单元格的编辑值时的第一遍历方向也可不同,从而对应的编辑值生成路径的逆向生成方向也不同,这样,单元格的编辑值之间差值可以正值或负值,而位置坐标值的差值可以正值或负值,具体就不再一一累述了。
在本发明实施例语料显示过程中,需要根据分词二维表格中每个单元格对应的第一分词与第二分词之间的词语相似度,来确定每个单元格的编辑值。而词语相似度的计算方式可以有多种,针对不同的语种可以有不同的计算方式。
下面可以中文语料为例,确定“骄傲”与“仔细”两个词语是否为相同词语。
首先准备一本《同义词词林扩展版》。这样,可先确定每个分词对应的语林库中信息识别标号即义项编号。然后,根据义项编号通过词语相似度计算公式分别计算词语相似度。最后,根据计算词语相似度确定两个分词是否为相同词语。
若分词为“骄傲”与“仔细”两个词语,查询《同义词词林扩展版》得到了词语“骄傲”的义项编号为“Da13A01”、“Ee34D01”,而词语“仔细”的义项编号有“Ee26A01”、“Ee28A01”。
然后,计算词语相似度。若两个义项的相似度用Sim表示,具体过程包括:
1)若两个义项不在同一棵树上Sim(A,B)=f。
2)若两个义项在同一棵树上:
2.1)若在第2层分支,系数为a,则Sim(A,B)=a*(n-k+1)/n*cos(n*π/180);
2.2)若在第3层分支,系数为b,则
Sim(A,B)=b*(n-k+1)/n*cos(n*π/180);
2.3)若在第4层分支;系数为c,则
Sim(A,B)=c*(n-k+1)/n*cos(n*π/180);
2.4)若在第5层分支,系数为d,则
Sim(A,B)=d*(n-k+1)/n*cos(n*π/180);
其中a=0.65,b=0.8,c=0.9,d=0.96,e=0.5,f=0.1,π为常数3.1415926;
同义词词林提供了5层编码,第1层用大写英文字母表示;第2层用小写英文字母表示;第3层用二位十进制整数表示;第4层用大写英文字母表示;第5层用二位十进制整数表示;
如“Da13A01”,D为第一层、a为第二层、13为第三层、A为第四层、01为第五层;n是分支层的节点总数、k是两个分支间的距离。
分别计算义项的相似度包括:Da13A01与Ee26A01第一个字母D和E不同,故两个义项不在同一棵树上,根据公式Sim(A,B)=f;得到Sim(A,B)=0.1;Da13A01与Ee28A01第一个字母D和E不同,故两个义项不在同一棵树上,根据公式Sim(A,B)=f;得到Sim(A,B)=0.1;Ee34D01与Ee26A01第三层34和26不同,查询同义词词林,Ee下从Ee01***到Ee44***一共44个义项,故n=44,k=34-26,即k=8根据公式Sim(A,B)=b*(n-k+1)*cos(n*π/180);即Sim(A,B)=0.8*(44-8+1)*cos(44*3.1415926/180)=0.483920;
Ee34D01与Ee28A01第三层34和28不同,同上故n=44,k=34-28,即k=6根据公式Sim(A,B)=b*(n-k+1)*cos(n*π/180);即Sim(A,B)=0.8*(44-6+1)*cos(44*3.1415926/180)=0.510077;得到结果:0.1,0.1,0.483920,0.510077。从而得出“骄傲”和“仔细”的词语相似度为0.510077,即4个义项相似度的最大值。
最后,根据用户设置的词语相似度基准值0.8,由于骄傲和仔细的相似度0.510077<0.8,故确定为不是同一个词语,即不同词语。
对于英文语料,可参考WordNet,也根据其对应的信息识别标号来确定第一分词与第二分词之间的词语相似度,其他语种也可如此,具体过程就不累述了。
当然,对于一些语种,单词有大小写的区分,时态区分等等中的至少一种,为更好地确定两个分词之间的词语相似度,可在确定第一分词与第二分词之间的词语相似度时,先将第一分词和第二分词的格式进行统一,例如:第一语料中Einstein中第一字母大写了,可先将其转换为小写,即格式统一后的第二分词为einstein。或者语料中有分词went、gone、going、goes中的至少一个,都会被统一为分词go。这样,可提高确定分词之间的词语相似度的准确度,从而,提高语料编辑显示的准确度。
下面将操作流程集合到具体实施例中,举例说明本公开实施例提供的方法。
图6是根据一示例性实施例示出的一种语料显示方法的示意图。如图6所示,语料显示过程包括:
步骤601:从被翻译过的历史语料库中,获取与待翻译语料匹配的第一语料。
例如:待翻译语料为:this is a cat,而获取的第一语料为:look,this isEinstein。
步骤602:对待翻译语料以及第一语料进行分词处理,获得对应的第一分词和第二分词。
可根据标点符号,以及去词语数据库中进行匹配,对待翻译语料以及第一语料进行分词处理。
步骤603:根据待翻译语料和第一语料的语序顺序,将每个第一分词以及第二分词进行排列,生成二维表格。
该二维表格中,每个分词都对应一个起始单元格。例如:图2所示的二维表格。
步骤604:配置二维表格中每个起始单元格的编辑值,形成分词二维表格。
可从设定位置开始,根据语序顺序递增的方式配置起始单元格的编辑值。一般,设定位置可为交叉起始单元格,然后横轴方向递增,以及纵轴方向递增。例如:图3所示的分词二维表格。
步骤605:根据分词二维表格中每个单元格对应的第一分词与第二分词之间的词语相似度,以及起始单元格编辑值,确定每个单元格的编辑值,以及分词二维表格的编辑值生成路径。
这里,确定每个单元格的编辑值需遍历分词二维表格。而确定分词二维表格的编辑值生成路径也需要进行遍历,对于当前单元格的编辑值的确定过程包括:确定当前单元格对应的当前第一分词与当前第二分词之间的当前词语相似度;若根据当前词语相似度确定当前第一分词与当前第二分词为相同词语时,将第一单元格的编辑值确定为当前单元格的编辑值,其中,第一单元格的第一横坐标值与当前单元格的当前横坐标值之间的横差值为最小横坐标间隔值,第一单元格的第一纵坐标值与当前单元格的当前纵坐标值之间的纵差值为最小纵坐标间隔值,且,逆向生成方向与第一遍历方向相反;若根据当前词语相似度确定当前第一分词与当前第二分词为不同词语时,根据第二单元格的编辑值确定当前单元格的编辑值,其中,第二单元格是当前单元格的逆向生成方向上相邻单元格中编辑值最小的单元格。
确定了个单元格的编辑值之后,还需要确定分词二维表格的编辑值生成路径。这里,可采用追溯的方式进行确定,可包括:将分词二维表格中最后一个单元格确定为编辑值生成路径中的当前路径单元格;查找当前路径单元格的生成单元格,并将生成单元格确定为编辑值生成路径中的当前路径单元格,遍历分词二维表格,直至确定编辑值生成路径中的每个路径单元格,其中,生成单元格是当前路径单元格的逆向生成方向上相邻单元格中编辑值最小且生成优先级最高的单元格。这里也需要遍历分词二位表格,而遍历方向可与第一遍历方向相反。
例如:确定了每个单元格的编辑值,以及分词二维表格的编辑值生成路径后分词二维表格如图4所示。
步骤606:根据编辑值生成路径上相邻编辑值之间的差值,对第一语料进行编辑并显示。
可预先保存位置坐标值的差值与编辑方式之间的对应关系以及编辑方式与显示提示方式之间的对应关系,可分别如表1和表2所示。
从而,当确定编辑值生成路径上当前路径单元格的编辑值与生成单元格的编辑值之间的差值不为零时,可根据保存的如表1所示的对应关系,确定与当前路径单元格的位置坐标值与生成单元格的位置坐标值之间的差值对应的编辑方式,然后根据确定的编辑方式对第一语料中的当前第二分词进行编辑。
对第一语料进行编辑后,还需根据每种编辑对应的显示提示方式,显示编辑后的第一语料。可根据保存的如表2所示的对应关系,确定对应的显示提示方式,然后,显示编辑后的第一语料。
例如:编辑显示后的第一语料如图5所示。
可见,本实施例中,可根据待翻译语料的每个第一分词,以及对应历史语料库中第一语料的每个第二分词之间的词语相似度,对第一语料进行编辑并显示,这样,可明确显示待翻译语料与第一语料之间的差异,提高了翻译的工作效率,也提高了用户的体验。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
根据上述语料显示的过程,可构建一种语料显示的装置。
图7是根据一示例性实施例示出的一种语料显示装置的框图。如图7所示,该装置包括:获取单元100,生成单元200,确定单元300以及编辑显示单元400,其中,
获取单元100,用于从被翻译过的历史语料库中,获取与待翻译语料匹配的第一语料。
生成单元200,用于根据待翻译语料中的每个第一分词,以及第一语料中的每个第二分词,生成带起始单元格的编辑值的分词二维表格。
确定单元300,用于根据分词二维表格中每个单元格对应的第一分词与第二分词之间的词语相似度,以及起始单元格的编辑值,确定每个单元格的编辑值,以及分词二维表格的编辑值生成路径。
编辑显示单元400,用于根据编辑值生成路径上相邻编辑值之间的差值,对第一语料进行编辑并显示。
本发明一实施例中,生成单元200,具体用于根据待翻译语料和第一语料的语序顺序,将每个第一分词以及第二分词进行排列,生成二维表格,其中,二维表格中每个分词都对应一个起始单元格;配置二维表格中每个起始单元格的编辑值,形成分词二维表格,其中,起始单元格的编辑值根据语序顺序递增。
本发明一实施例中,确定单元300,具体用于根据设定的第一遍历方向遍历分词二维表格,确定当前单元格对应的当前第一分词与当前第二分词之间的当前词语相似度;若根据当前词语相似度确定当前第一分词与当前第二分词为相同词语时,将第一单元格的编辑值确定为当前单元格的编辑值,其中,第一单元格的第一横坐标值与当前单元格的当前横坐标值之间的横差值为最小横坐标间隔值,第一单元格的第一纵坐标值与当前单元格的当前纵坐标值之间的纵差值为最小纵坐标间隔值,且第一单元格位于当前单元格的逆向生成方向上,逆向生成方向与第一遍历方向相反;若根据当前词语相似度确定当前第一分词与当前第二分词为不同词语时,根据第二单元格的编辑值确定当前单元格的编辑值,其中,第二单元格是当前单元格的逆向生成方向上相邻单元格中编辑值最小的单元格。
本发明一实施例中,确定单元300,还用于将分词二维表格中最后一个单元格确定为编辑值生成路径中的当前路径单元格;以及,查找当前路径单元格的生成单元格,并将生成单元格确定为编辑值生成路径中的当前路径单元格,遍历分词二维表格,直至确定编辑值生成路径中的每个路径单元格,其中,当前路径单元格的逆向生成方向上相邻单元格中编辑值最小且生成优先级最高的单元格。
本发明一实施例中,编辑显示单元400,具体用于若编辑值生成路径上当前路径单元格的编辑值与编辑值生成路径上生成单元格的编辑值之间的差值不为零时,根据当前路径单元格的位置坐标值与生成单元格的位置坐标值之间的差值,对第一语料进行编辑,其中,编辑包括:删除、***或替换;并根据与每种编辑对应的显示提示方式,显示编辑后的第一语料。
可见,本实施例中,可根据待翻译语料的每个第一分词,以及对应历史语料库中第一语料的每个第二分词之间的词语相似度,对第一语料进行编辑并显示,这样,可明确显示待翻译语料与第一语料之间的差异,提高了翻译的工作效率,也提高了用户的体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (6)

1.一种语料显示的方法,其特征在于,包括:
从被翻译过的历史语料库中,获取与待翻译语料匹配的第一语料;
根据所述待翻译语料中的每个第一分词,以及所述第一语料中的每个第二分词,生成带起始单元格的编辑值的分词二维表格;
根据所述分词二维表格中每个单元格对应的第一分词与第二分词之间的词语相似度,以及所述起始单元格的编辑值,确定每个所述单元格的编辑值,以及所述分词二维表格的编辑值生成路径;
根据所述编辑值生成路径上相邻编辑值之间的差值,对所述第一语料进行编辑并显示;
所述确定所述分词二维表格的编辑值生成路径包括:
将所述分词二维表格中最后一个单元格确定为所述编辑值生成路径中的当前路径单元格;
查找所述当前路径单元格的生成单元格,并将所述生成单元格确定为所述编辑值生成路径中的当前路径单元格,遍历所述分词二维表格,直至确定所述编辑值生成路径中的每个路径单元格,其中,所述生成单元格是所述当前路径单元格的逆向生成方向上相邻单元格中编辑值最小且生成优先级最高的单元格;
所述确定每个所述单元格的编辑值包括:
根据设定的第一遍历方向遍历所述分词二维表格,确定当前单元格对应的当前第一分词与当前第二分词之间的当前词语相似度;
若根据所述当前词语相似度确定所述当前第一分词与所述当前第二分词为相同词语时,将第一单元格的编辑值确定为所述当前单元格的编辑值,其中,所述第一单元格的第一横坐标值与所述当前单元格的当前横坐标值之间的横差值为最小横坐标间隔值,所述第一单元格的第一纵坐标值与所述当前单元格的当前纵坐标值之间的纵差值为最小纵坐标间隔值,且所述第一单元格位于所述当前单元格的逆向生成方向上,所述逆向生成方向与所述第一遍历方向相反;
若根据所述当前词语相似度确定所述当前第一分词与所述当前第二分词为不同词语时,根据第二单元格的编辑值确定所述当前单元格的编辑值,其中,所述第二单元格是所述当前单元格的所述逆向生成方向上相邻单元格中编辑值最小的单元格。
2.如权利要求1所述的方法,其特征在于,所述生成带起始单元格的编辑值的分词二维表格包括:
根据所述待翻译语料和所述第一语料的语序顺序,将每个所述第一分词以及所述第二分词进行排列,生成二维表格,其中,所述二维表格中每个分词都对应一个起始单元格;
配置所述二维表格中每个起始单元格的编辑值,形成分词二维表格,其中,所述起始单元格的编辑值根据所述语序顺序递增。
3.如权利要求1所述的方法,其特征在于,所述根据所述编辑值生成路径上相邻编辑值之间的差值,对所述第一语料进行编辑并显示包括:
若所述编辑值生成路径上当前路径单元格的编辑值与所述编辑值生成路径上所示生成单元格的编辑值之间的差值不为零时,根据所述当前路径单元格的位置坐标值与所述生成单元格的位置坐标值之间的差值,对所述第一语料进行编辑,其中,所述编辑包括:删除、***或替换;
根据与每种编辑对应的显示提示方式,显示编辑后的所述第一语料。
4.一种语料显示的装置,其特征在于,包括:
获取单元,用于从被翻译过的历史语料库中,获取与待翻译语料匹配的第一语料;
生成单元,用于根据所述待翻译语料中的每个第一分词,以及所述第一语料中的每个第二分词,生成带起始单元格的编辑值的分词二维表格;
确定单元,用于根据所述分词二维表格中每个单元格对应的第一分词与第二分词之间的词语相似度,以及所述起始单元格的编辑值,确定每个所述单元格的编辑值,以及所述分词二维表格的编辑值生成路径;
编辑显示单元,用于根据所述编辑值生成路径上相邻编辑值之间的差值,对所述第一语料进行编辑并显示;
所述确定单元,还用于将所述分词二维表格中最后一个单元格确定为所述编辑值生成路径中的当前路径单元格;以及,查找所述当前路径单元格的生成单元格,并将所述生成单元格确定为所述编辑值生成路径中的当前路径单元格,遍历所述分词二维表格,直至确定所述编辑值生成路径中的每个路径单元格,其中,所述当前路径单元格的逆向生成方向上相邻单元格中编辑值最小且生成优先级最高的单元格;
所述确定单元,具体用于根据设定的第一遍历方向遍历所述分词二维表格,确定当前单元格对应的当前第一分词与当前第二分词之间的当前词语相似度,若根据所述当前词语相似度确定所述当前第一分词与所述当前第二分词为相同词语时,将第一单元格的编辑值确定为所述当前单元格的编辑值,其中,所述第一单元格的第一横坐标值与所述当前单元格的当前横坐标值之间的横差值为最小横坐标间隔值,所述第一单元格的第一纵坐标值与所述当前单元格的当前纵坐标值之间的纵差值为最小纵坐标间隔值,且所述第一单元格位于所述当前单元格的逆向生成方向上,所述逆向生成方向与所述第一遍历方向相反;若据所述当前词语相似度确定所述当前第一分词与所述当前第二分词为不同词语时,根据第二单元格的编辑值确定所述当前单元格的编辑值,其中,所述第二单元格是所述当前单元格的所述逆向生成方向上相邻单元格中编辑值最小的单元格。
5.如权利要求4所述的装置,其特征在于,
所述生成单元,具体用于根据所述待翻译语料和所述第一语料的语序顺序,将每个所述第一分词以及所述第二分词进行排列,生成二维表格,其中,所述二维表格中每个分词都对应一个起始单元格;配置所述二维表格中每个起始单元格的编辑值,形成分词二维表格,其中,所述起始单元格的编辑值根据所述语序顺序递增。
6.如权利要求4所述的装置,其特征在于,
所述编辑显示单元,具体用于若所述编辑值生成路径上当前路径单元格的编辑值与所述编辑值生成路径上所述生成单元格的编辑值之间的差值不为零时,根据所述当前路径单元格的位置坐标值与所述生成单元格的位置坐标值之间的差值,对所述第一语料进行编辑,其中,所述编辑包括:删除、***或替换;并根据与每种编辑对应的显示提示方式,显示编辑后的所述第一语料。
CN201711102058.7A 2017-11-10 2017-11-10 语料显示的方法及装置 Active CN107967303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711102058.7A CN107967303B (zh) 2017-11-10 2017-11-10 语料显示的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711102058.7A CN107967303B (zh) 2017-11-10 2017-11-10 语料显示的方法及装置

Publications (2)

Publication Number Publication Date
CN107967303A CN107967303A (zh) 2018-04-27
CN107967303B true CN107967303B (zh) 2021-03-26

Family

ID=62000087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711102058.7A Active CN107967303B (zh) 2017-11-10 2017-11-10 语料显示的方法及装置

Country Status (1)

Country Link
CN (1) CN107967303B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325241B (zh) * 2018-09-19 2023-07-04 传神语联网网络科技股份有限公司 基于一致性计算的翻译机器人优选方法及其计算机***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103154936A (zh) * 2010-09-24 2013-06-12 新加坡国立大学 用于自动化文本校正的方法和***
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆***的构造方法
CN103996021A (zh) * 2014-05-08 2014-08-20 华东师范大学 一种多字符识别结果的融合方法
CN106970912A (zh) * 2017-04-21 2017-07-21 北京慧闻科技发展有限公司 中文语句相似度计算方法、计算装置以及计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8077983B2 (en) * 2007-10-04 2011-12-13 Zi Corporation Of Canada, Inc. Systems and methods for character correction in communication devices
CN106547743B (zh) * 2015-09-23 2020-03-27 阿里巴巴集团控股有限公司 一种进行翻译的方法及其***
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103154936A (zh) * 2010-09-24 2013-06-12 新加坡国立大学 用于自动化文本校正的方法和***
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆***的构造方法
CN103996021A (zh) * 2014-05-08 2014-08-20 华东师范大学 一种多字符识别结果的融合方法
CN106970912A (zh) * 2017-04-21 2017-07-21 北京慧闻科技发展有限公司 中文语句相似度计算方法、计算装置以及计算机存储介质

Also Published As

Publication number Publication date
CN107967303A (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
CN105718586B (zh) 分词的方法及装置
CN107832229A (zh) 一种基于nlp的***测试用例自动生成方法
KR102204971B1 (ko) 검색어를 위한 오류 정정 방법 및 기기
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和***
CN106649783B (zh) 一种同义词挖掘方法和装置
US10460162B2 (en) Method, device, and system, for identifying data elements in data structures
CN104657439A (zh) 用于自然语言精准检索的结构化查询语句生成***及方法
CN107463553A (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和***
CN104657440A (zh) 结构化查询语句生成***及方法
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
CN101271451A (zh) 计算机辅助翻译的方法和装置
CN107992476B (zh) 面向句子级生物关系网络抽取的语料库生成方法及***
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
CN111160030A (zh) 一种信息抽取方法、装置、及存储介质
CN107797995A (zh) 一种中英文片段语料生成方法
CN108519963B (zh) 一种将流程模型自动转换为多语言文本的方法
CN112181949A (zh) 一种在线数据建模的方法及装置
CN111753536A (zh) 一种专利申请文本的自动撰写方法和装置
CN103927176B (zh) 一种基于层次主题模型的程序特征树的生成方法
CN107967303B (zh) 语料显示的方法及装置
CN112148735B (zh) 一种用于结构化表格数据知识图谱的构建方法
Höhn et al. Semiautomatic recognition and georeferencing of places in early maps
CN104484156A (zh) 多语言公式的编辑方法、编辑***和多语言公式编辑器
CN109710304B (zh) 一种格式调整方法及装置
CN103914447A (zh) 信息处理设备和信息处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device of corpus display

Effective date of registration: 20221228

Granted publication date: 20210326

Pledgee: Guanggu Branch of Wuhan Rural Commercial Bank Co.,Ltd.

Pledgor: TRANSN IOL TECHNOLOGY Co.,Ltd.

Registration number: Y2022420000396