CN111178090A - 一种用于企业名称翻译的方法及*** - Google Patents

一种用于企业名称翻译的方法及*** Download PDF

Info

Publication number
CN111178090A
CN111178090A CN201911234842.2A CN201911234842A CN111178090A CN 111178090 A CN111178090 A CN 111178090A CN 201911234842 A CN201911234842 A CN 201911234842A CN 111178090 A CN111178090 A CN 111178090A
Authority
CN
China
Prior art keywords
name
enterprise
word
data dictionary
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911234842.2A
Other languages
English (en)
Inventor
毛红保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN201911234842.2A priority Critical patent/CN111178090A/zh
Publication of CN111178090A publication Critical patent/CN111178090A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供一种用于企业名称翻译的方法及***。该方法包括:获取企业中文名称;将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。本发明实施例通过引入双语训练语料,对通用机器翻译引擎进行训练,并不断地更新训练数据库,从而能得到准确的企业名称机器翻译结果。

Description

一种用于企业名称翻译的方法及***
技术领域
本发明涉及语言翻译技术领域,尤其涉及一种用于企业名称翻译的方法及***。
背景技术
目前,在较为专业的翻译领域,往往会碰到针对企业名称的翻译场景,而企业名称是一种特殊形式的短语序列。目前机器翻译对企业名称的翻译结果普遍效果不佳,因此译员不得不将企业名称视为专有名词或专业术语,将其译文预先添加到术语库中进行管理。若在翻译过程中遇到新的、术语库中没有的企业名称,则只能依靠人工翻译,因为机器翻译的结果往往不可用。
现有的机器翻译引擎对企业名称翻译的效果不佳,主要有两点原因:
一是新的企业名称每天都在诞生,而基于语料库学习的机器翻译引擎在训练时接触不到这些新诞生的企业名称,自然造成翻译的效果不佳;
二是企业名称的组成结构和翻译形式比较特殊,按国家工商行政管理总局对企业命名的要求,典型的企业名称由如下四部分构成:
“行政区划”+“字号”+“行业”+“企业组织形式”
如:“上海来伊份食品连锁经营有限公司”对应上面四个部分的结构是:
(上海)(来伊份)(食品连锁经营)(有限公司)
该企业名称的英文译文是:
Shanghai Laiyifen Food Chain Management Co.,Ltd.
在上述四个部分里,“行政区划”和“字号”需要翻译为汉语拼音,“行业”和“企业组织形式”需要翻译为英语,尤其是对于“字号”部分,由于企业命名规则中对该部分没有严格的限制,所以会出现大量随意创造的新词语,进一步给机器翻译引擎的识别和翻译带来了困难。
因此,需要提出一种新的针对企业名称翻译的方法,能提高翻译准确率。
发明内容
本发明实施例提供一种用于企业名称翻译的方法及***,用以解决现有技术中针对企业名称的翻译采用现有的机器翻译引擎,导致翻译准确率低,翻译效果不理想的缺陷。
第一方面,本发明实施例提供一种用于企业名称翻译的方法,包括:
获取企业中文名称;
将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。
优选地,所述专用机器翻译引擎,通过以下步骤获得:
获取所述双语训练语料;
将所述双语训练语料输入至所述通用机器翻译引擎,进行增量训练,得到所述专用机器翻译引擎。
优选地,所述获取所述双语训练语料,具体包括:
获取企业名称的中文单语训练语料;
将所述中文单语训练语料进行中文分词和词性标注,得到分词结果;
建立包含预设字段类型集合的数据字典;
基于所述分词结果和所述数据字典,将所述企业中文名称分割为具有指定分段格式的名称结构;
针对具有指定分段格式的名称结构,输出对应的英文翻译;
将所述中文单语训练语料和所述英文翻译进行连接,得到所述双语训练语料。
优选地,所述将所述中文单语训练语料进行中文分词和词性标注,得到分词结果,具体包括:
获取Jieba分词算法或HanLP分词算法;
基于所述Jieba分词算法或所述HanLP分词算法,对所述中文单语训练语料进行中文分词处理和词性标注处理,得到所述分词结果。
优选地,所述建立包含预设字段类型集合的数据字典,具体包括:
获取第一类型标准,基于所述第一类型标准建立第一预设字段类型的第一类型数据字典;
获取第二类型标准,基于所述第二类型标准建立第二预设字段类型的第二类型数据字典;
获取第三类型标准,基于所述第三类型标准建立第三预设字段类型的第三类型数据字典;
将所述第一类型数据字典、所述第二类型数据字典和所述第三类型数据字典进行组合,构建所述数据字典。
优选地,所述基于所述分词结果和所述数据字典,将所述企业中文名称分割为具有指定分段格式的名称结构,具体包括:
基于所述分词结果,将所述企业中文名称的所有词语在所述数据字典中进行校验,判断所述所有词语是否为有效训练语料,并基于所述有效训练语料将所述企业中文名称分割为所述具有指定分段格式的名称结构。
优选地,所述基于所述有效训练语料将所述企业中文名称分割为所述具有指定分段格式的名称结构,具体包括:
从所述企业中文名称左侧的第一个词语开始,校验所述第一个词语是否属于所述第一类型数据字典,直至校验出任一个词语不属于所述第一类型数据字典,并将属于所述第一类型数据字典的若干词语分割为第一分段格式名称;
从所述企业中文名称中不属于所述第一类型数据字典的第二个词语开始,校验所述第二个词语是否属于预设类型词语,直至校验出任一个词语不属于所述预设类型词语,并将属于所述预设类型词语的若干词语分割为第二分段格式名称;
从所述企业中文名称中不属于所述预设类型词语的第三个词语开始,校验所述第三个词语是否属于所述第二类型数据字典,直至校验出任一个词语不属于所述第二类型数据字典,并将属于所述第二类型数据字典的若干词语分割为第三分段格式名称;
从所述企业中文名称中不属于所述第二类型数据字典的第四个词语开始,校验所述第四个词语是否属于所述第三类型数据字典,直至校验出任一个词语不属于所述第三类型数据字典,并将属于所述第三类型数据字典的若干词语分割为第四分段格式名称。
第二方面,本发明实施例提供一种用于企业名称翻译的***,包括:
获取模块,用于获取企业中文名称;
处理模块,用于将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。
第三方面,本发明实施例提供一种电子设备,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述用于企业名称翻译的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现任一项所述用于企业名称翻译的方法的步骤。
本发明实施例提供的用于企业名称翻译的方法及***,通过引入双语训练语料,对通用机器翻译引擎进行训练,并不断地更新训练数据库,从而能得到准确的企业名称机器翻译结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用于企业名称翻译的方法流程图;
图2为本发明实施例提供的双语训练语料生成流程图;
图3为本发明实施例提供的企业中文名称在数据字典中的校验过程示意图;
图4为本发明实施例提供的获得训练语料的英文译文的示意图;
图5为本发明实施例提供的一种用于企业名称翻译的***结构图;
图6为本发明实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种用于企业名称翻译的方法流程图,如图1所示,包括:
S1,获取企业中文名称;
S2,将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。
具体地,获取待翻译的企业中文名称,将该企业中文名称输入至训练好的专用机器翻译引擎,得到输出的翻译结果,其中,专用机器翻译引擎是由企业名称的双语训练语料作为输入,在通用机器翻译引擎上进行增量训练,使机器翻译引擎具备企业名称翻译的适应能力。
本发明实施例通过引入双语训练语料,对通用机器翻译引擎进行训练,并不断地更新训练数据库,从而能得到准确的企业名称机器翻译结果。
基于上述实施例,所述专用机器翻译引擎,通过以下步骤获得:
获取所述双语训练语料;
将所述双语训练语料输入至所述通用机器翻译引擎,进行增量训练,得到所述专用机器翻译引擎。
具体地,首先生成企业名称的双语训练语料,生成的训练语料作为输入,在通用机器翻译引擎上进行增量训练,使机器翻译引擎具备企业名称翻译的适应能力,最后将训练好的机器翻译引擎用于新的企业名称的翻译。
基于上述任一实施例,所述获取所述双语训练语料,具体包括:
获取企业名称的中文单语训练语料;
将所述中文单语训练语料进行中文分词和词性标注,得到分词结果;
建立包含预设字段类型集合的数据字典;
基于所述分词结果和所述数据字典,将所述企业中文名称分割为具有指定分段格式的名称结构;
针对具有指定分段格式的名称结构,输出对应的英文翻译;
将所述中文单语训练语料和所述英文翻译进行连接,得到所述双语训练语料。
具体地,如图2所示,首先获取企业名称的中文单语训练语料,进行中文分词和词性标注,得到分词结果,然后建立包括具有预设字段类型集合的数据字典,再结合得到的分词结果和数据字典,将企业中文名称分割为具有指定分段格式的名称结构,即分割成若干字段,将分割失败的数据移出训练语料库,进一步地,针对分割好的若干字段,分别翻译其中的每一段,得到对应的英文翻译,最后将企业中名称和该对应的英文翻译进行连接对应,即得到双语训练语料。
本发明实施例采用通用的分词算法对企业名称进行分词处理,并根据企业名称对应的字段类型建立数据字典,并对处理后的字段进行翻译,从而得到更加全面和精确的翻译对应结果。
基于上述任一实施例,所述将所述中文单语训练语料进行中文分词和词性标注,得到分词结果,具体包括:
获取Jieba分词算法或HanLP分词算法;
基于所述Jieba分词算法或所述HanLP分词算法,对所述中文单语训练语料进行中文分词处理和词性标注处理,得到所述分词结果。
具体地,获取到企业名称的中文单语训练语料后,采用Jieba分词算法或HanLP分词算法对语料进行中文分词和词性标注处理,此处,Jieba分词算法或HanLP分词算法均为自然语言处理领域最为常用的分词算法,具有准确度高和通用性强的特点,处理完成后即得到企业中文名称对应的分词结果。
基于上述任一实施例,所述建立包含预设字段类型集合的数据字典,具体包括:
获取第一类型标准,基于所述第一类型标准建立第一预设字段类型的第一类型数据字典;
获取第二类型标准,基于所述第二类型标准建立第二预设字段类型的第二类型数据字典;
获取第三类型标准,基于所述第三类型标准建立第三预设字段类型的第三类型数据字典;
将所述第一类型数据字典、所述第二类型数据字典和所述第三类型数据字典进行组合,构建所述数据字典。
具体地,第一步建立“行政区划”数据字典,即第一预设字段类型,根据第一类型标准,例如根据我国行政区划数据,建立包括省、市、区、县、乡、镇、村等行政区划名称的第一类型数据字典;
第二步建立“行业”数据字典,即第二预设字段类型,根据第二类型标准,如根据《国民经济行业分类》国家标准(GB/T4754-2017),提取其中涉及到的“行业”词汇,建立“行业”第二类型数据字典;
第三步建立“企业组织形式”数据字典,即第三预设字段类型,根据第三类型标准,即企业组织形式,是指企业存在的形态和类型,如有限责任公司、股份有限公司等有限的组织形态,还包括以子公司、分公司等公支机构存在的形态,建立第三类型数据字典。
本发明实施例通过对企业名称进行分类整理,输出对应的数据字典,提取了常用的分类信息,能提高分类的准确性。
基于上述任一实施例,所述基于所述分词结果和所述数据字典,将所述企业中文名称分割为具有指定分段格式的名称结构,具体包括:
基于所述分词结果,将所述企业中文名称的所有词语在所述数据字典中进行校验,判断所述所有词语是否为有效训练语料,并基于所述有效训练语料将所述企业中文名称分割为所述具有指定分段格式的名称结构。
其中,所述基于所述有效训练语料将所述企业中文名称分割为所述具有指定分段格式的名称结构,具体包括:
从所述企业中文名称左侧的第一个词语开始,校验所述第一个词语是否属于所述第一类型数据字典,直至校验出任一个词语不属于所述第一类型数据字典,并将属于所述第一类型数据字典的若干词语分割为第一分段格式名称;
从所述企业中文名称中不属于所述第一类型数据字典的第二个词语开始,校验所述第二个词语是否属于预设类型词语,直至校验出任一个词语不属于所述预设类型词语,并将属于所述预设类型词语的若干词语分割为第二分段格式名称;
从所述企业中文名称中不属于所述预设类型词语的第三个词语开始,校验所述第三个词语是否属于所述第二类型数据字典,直至校验出任一个词语不属于所述第二类型数据字典,并将属于所述第二类型数据字典的若干词语分割为第三分段格式名称;
从所述企业中文名称中不属于所述第二类型数据字典的第四个词语开始,校验所述第四个词语是否属于所述第三类型数据字典,直至校验出任一个词语不属于所述第三类型数据字典,并将属于所述第三类型数据字典的若干词语分割为第四分段格式名称。
具体地,如图3所示,根据上述实施例得到的分词结果,在数据字典中分别进行校验,若某条企业名称的各个部分在数据字典中均校验成功,则该条数据是有效的训练语料,否则将该条数据抛弃,移出训练语料库,校验方法具体为:
1)从左侧第一个词开始,校验该词语从左侧第一个词开始,校验该词语是否属于“行政区划”数据字典,若不是,则校验失败退出,否则继续校验下一个词是否属于“行政区划”数据字典,直到校验到某个词不属于“行政区划”数据字典,划分为第一分段格式名称,然后进入下一步;
2)校验该词的词性标注是否为NZ,这里NZ代表专用名词,若不是,则失败退出,否则继续校验下一个词的词性标注是否为NZ,直到校验到某个词的词性标注不是NZ,划分为第二分段格式名称,然后进入下一步;
3)校验该词语是否属于“行业”数据字典,若不是,则校验失败退出,否则继续校验下一个词是否属于“行业”数据字典,直到校验到某个词不属于“行业”数据字典,划分为第三分段格式名称,然后进入下一步;
4)校验余下的词语是否都属于“企业组织形式”数据字典,若不是,则校验失败退出,否则校验成功,划分为第四分段格式名称。
得到上述四段式划分结果之后,将第一段的“行政区划”和第二段的“字号”用汉语拼音翻译,第三段的“行业”和第四段的“企业组织形式”用英语翻译,再将四部分翻译结果连接起来,则获得中文语料的英文译文,如图4所示。
本发明实施例通过基于分词结果,将企业名称在数据字典中进行遍历查询和校验,全面分析了所有分词的类型,得到准确的分段划分结果,对后续的翻译提供了准确的字段词语输入。
图5为本发明实施例提供的一种用于企业名称翻译的***结构图,如图5所示,包括:获取模块51和处理模块52,其中:
获取模块51用于获取企业中文名称;处理模块52用于将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。
本发明实施例提供的***用于执行上述对应的方法,其具体的实施方式与方法的实施方式一致,涉及的算法流程与对应的方法算法流程相同,此处不再赘述。
本发明实施例通过引入双语训练语料,对通用机器翻译引擎进行训练,并不断地更新训练数据库,从而能得到准确的企业名称机器翻译结果。
基于上述任一实施例,处理模块52中的专用机器翻译引擎,通过以下步骤获得:
获取所述双语训练语料;
将所述双语训练语料输入至所述通用机器翻译引擎,进行增量训练,得到所述专用机器翻译引擎。
基于上述任一实施例,所述处理模块52包括:获取子模块521、分词子模块522、建立子模块523、分割子模块524、输出子模块525和连接子模块526;其中:
获取子模块521用于获取企业名称的中文单语训练语料;分词子模块522用于将所述中文单语训练语料进行中文分词和词性标注,得到分词结果;建立子模块523用于建立包含预设字段类型集合的数据字典;分割子模块524用于基于所述分词结果和所述数据字典,将所述企业中文名称分割为具有指定分段格式的名称结构;输出子模块525用于针对具有指定分段格式的名称结构,输出对应的英文翻译;连接子模块526用于将所述中文单语训练语料和所述英文翻译进行连接,得到所述双语训练语料。
本发明实施例采用通用的分词算法对企业名称进行分词处理,并根据企业名称对应的字段类型建立数据字典,并对处理后的字段进行翻译,从而得到更加全面和精确的翻译对应结果。
基于上述任一实施例,所述分词子模块522具体用于获取Jieba分词算法或HanLP分词算法;基于所述Jieba分词算法或所述HanLP分词算法,对所述中文单语训练语料进行中文分词处理和词性标注处理,得到所述分词结果。
基于上述任一实施例,所述建立子模块523具体用于获取第一类型标准,基于所述第一类型标准建立第一预设字段类型的第一类型数据字典;获取第二类型标准,基于所述第二类型标准建立第二预设字段类型的第二类型数据字典;获取第三类型标准,基于所述第三类型标准建立第三预设字段类型的第三类型数据字典;将所述第一类型数据字典、所述第二类型数据字典和所述第三类型数据字典进行组合,构建所述数据字典。
本发明实施例通过对企业名称进行分类整理,输出对应的数据字典,提取了常用的分类信息,能提高分类的准确性。
基于上述任一实施例,所述分割子模块524具体用于基于所述分词结果,将所述企业中文名称的所有词语在所述数据字典中进行校验,判断所述所有词语是否为有效训练语料,并基于所述有效训练语料将所述企业中文名称分割为所述具有指定分段格式的名称结构。其中,所述基于所述有效训练语料将所述企业中文名称分割为所述具有指定分段格式的名称结构,具体包括:从所述企业中文名称左侧的第一个词语开始,校验所述第一个词语是否属于所述第一类型数据字典,直至校验出任一个词语不属于所述第一类型数据字典,并将属于所述第一类型数据字典的若干词语分割为第一分段格式名称;从所述企业中文名称中不属于所述第一类型数据字典的第二个词语开始,校验所述第二个词语是否属于预设类型词语,直至校验出任一个词语不属于所述预设类型词语,并将属于所述预设类型词语的若干词语分割为第二分段格式名称;从所述企业中文名称中不属于所述预设类型词语的第三个词语开始,校验所述第三个词语是否属于所述第二类型数据字典,直至校验出任一个词语不属于所述第二类型数据字典,并将属于所述第二类型数据字典的若干词语分割为第三分段格式名称;从所述企业中文名称中不属于所述第二类型数据字典的第四个词语开始,校验所述第四个词语是否属于所述第三类型数据字典,直至校验出任一个词语不属于所述第三类型数据字典,并将属于所述第三类型数据字典的若干词语分割为第四分段格式名称。
本发明实施例通过基于分词结果,将企业名称在数据字典中进行遍历查询和校验,全面分析了所有分词的类型,得到准确的分段划分结果,对后续的翻译提供了准确的字段词语输入。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行如下方法:获取企业中文名称;将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取企业中文名称;将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于企业名称翻译的方法,其特征在于,包括:
获取企业中文名称;
将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。
2.根据权利要求1所述的用于企业名称翻译的方法,其特征在于,所述专用机器翻译引擎,通过以下步骤获得:
获取所述双语训练语料;
将所述双语训练语料输入至所述通用机器翻译引擎,进行增量训练,得到所述专用机器翻译引擎。
3.根据权利要求2所述的用于企业名称翻译的方法,其特征在于,所述获取所述双语训练语料,具体包括:
获取企业名称的中文单语训练语料;
将所述中文单语训练语料进行中文分词和词性标注,得到分词结果;
建立包含预设字段类型集合的数据字典;
基于所述分词结果和所述数据字典,将所述企业中文名称分割为具有指定分段格式的名称结构;
针对具有指定分段格式的名称结构,输出对应的英文翻译;
将所述中文单语训练语料和所述英文翻译进行连接,得到所述双语训练语料。
4.根据权利要求3所述的用于企业名称翻译的方法,其特征在于,所述将所述中文单语训练语料进行中文分词和词性标注,得到分词结果,具体包括:
获取Jieba分词算法或HanLP分词算法;
基于所述Jieba分词算法或所述HanLP分词算法,对所述中文单语训练语料进行中文分词处理和词性标注处理,得到所述分词结果。
5.根据权利要求3所述的用于企业名称翻译的方法,其特征在于,所述建立包含预设字段类型集合的数据字典,具体包括:
获取第一类型标准,基于所述第一类型标准建立第一预设字段类型的第一类型数据字典;
获取第二类型标准,基于所述第二类型标准建立第二预设字段类型的第二类型数据字典;
获取第三类型标准,基于所述第三类型标准建立第三预设字段类型的第三类型数据字典;
将所述第一类型数据字典、所述第二类型数据字典和所述第三类型数据字典进行组合,构建所述数据字典。
6.根据权利要求5所述的用于企业名称翻译的方法,其特征在于,所述基于所述分词结果和所述数据字典,将所述企业中文名称分割为具有指定分段格式的名称结构,具体包括:
基于所述分词结果,将所述企业中文名称的所有词语在所述数据字典中进行校验,判断所述所有词语是否为有效训练语料,并基于所述有效训练语料将所述企业中文名称分割为所述具有指定分段格式的名称结构。
7.根据权利要求6所述的用于企业名称翻译的方法,其特征在于,所述基于所述有效训练语料将所述企业中文名称分割为所述具有指定分段格式的名称结构,具体包括:
从所述企业中文名称左侧的第一个词语开始,校验所述第一个词语是否属于所述第一类型数据字典,直至校验出任一个词语不属于所述第一类型数据字典,并将属于所述第一类型数据字典的若干词语分割为第一分段格式名称;
从所述企业中文名称中不属于所述第一类型数据字典的第二个词语开始,校验所述第二个词语是否属于预设类型词语,直至校验出任一个词语不属于所述预设类型词语,并将属于所述预设类型词语的若干词语分割为第二分段格式名称;
从所述企业中文名称中不属于所述预设类型词语的第三个词语开始,校验所述第三个词语是否属于所述第二类型数据字典,直至校验出任一个词语不属于所述第二类型数据字典,并将属于所述第二类型数据字典的若干词语分割为第三分段格式名称;
从所述企业中文名称中不属于所述第二类型数据字典的第四个词语开始,校验所述第四个词语是否属于所述第三类型数据字典,直至校验出任一个词语不属于所述第三类型数据字典,并将属于所述第三类型数据字典的若干词语分割为第四分段格式名称。
8.一种用于企业名称翻译的***,其特征在于,包括:
获取模块,用于获取企业中文名称;
处理模块,用于将所述企业中文名称输入至预先训练好的专用机器翻译引擎,获取所述机器翻译引擎输出的翻译结果;其中所述专用机器翻译引擎,是基于企业名称的双语训练语料,在通用机器翻译引擎上进行增量训练得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述用于企业名称翻译的方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述用于企业名称翻译的方法的步骤。
CN201911234842.2A 2019-12-05 2019-12-05 一种用于企业名称翻译的方法及*** Pending CN111178090A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911234842.2A CN111178090A (zh) 2019-12-05 2019-12-05 一种用于企业名称翻译的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911234842.2A CN111178090A (zh) 2019-12-05 2019-12-05 一种用于企业名称翻译的方法及***

Publications (1)

Publication Number Publication Date
CN111178090A true CN111178090A (zh) 2020-05-19

Family

ID=70650101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911234842.2A Pending CN111178090A (zh) 2019-12-05 2019-12-05 一种用于企业名称翻译的方法及***

Country Status (1)

Country Link
CN (1) CN111178090A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766001A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 企业名称翻译方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075230A (zh) * 2006-05-18 2007-11-21 中国科学院自动化研究所 一种基于语块的中文机构名翻译方法及装置
CN102789451A (zh) * 2011-05-16 2012-11-21 北京百度网讯科技有限公司 一种个性化的机器翻译***、方法及训练翻译模型的方法
US20160092438A1 (en) * 2014-09-30 2016-03-31 Kabushiki Kaisha Toshiba Machine translation apparatus, machine translation method and program product for machine translation
CN109359304A (zh) * 2018-08-22 2019-02-19 新译信息科技(深圳)有限公司 限定性神经网络机器翻译方法及存储介质
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075230A (zh) * 2006-05-18 2007-11-21 中国科学院自动化研究所 一种基于语块的中文机构名翻译方法及装置
CN102789451A (zh) * 2011-05-16 2012-11-21 北京百度网讯科技有限公司 一种个性化的机器翻译***、方法及训练翻译模型的方法
US20160092438A1 (en) * 2014-09-30 2016-03-31 Kabushiki Kaisha Toshiba Machine translation apparatus, machine translation method and program product for machine translation
CN109359304A (zh) * 2018-08-22 2019-02-19 新译信息科技(深圳)有限公司 限定性神经网络机器翻译方法及存储介质
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
苗文彦: "高精度中文机构名称与地址机译策略研究" *
詹才琴;: "也谈中文公司名称的英译方法" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766001A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 企业名称翻译方法及装置

Similar Documents

Publication Publication Date Title
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
US20170308526A1 (en) Compcuter Implemented machine translation apparatus and machine translation method
KR20150036041A (ko) 구문 기반 사전 추출 및 번역 품질 평가 기법
CN111259652A (zh) 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN112699645B (zh) 语料标注方法、装置及设备
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
US9015161B2 (en) Mismatch detection system, method, and program
CN106372053B (zh) 句法分析的方法和装置
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
CN111191469B (zh) 大规模语料清洗对齐方法及装置
Graën Exploiting alignment in multiparallel corpora for applications in linguistics and language learning
US8738353B2 (en) Relational database method and systems for alphabet based language representation
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
CN111178090A (zh) 一种用于企业名称翻译的方法及***
RU2546064C1 (ru) Распределенная система и способ языкового перевода
US9720896B1 (en) Synthesizing union tables from the web
CN111027312B (zh) 文本扩充方法、装置、电子设备及可读存储介质
CN109657244B (zh) 一种英文长句自动切分方法及***
CN112395866A (zh) 报关单数据匹配方法及装置
CN116484809A (zh) 基于人工智能的文本处理方法及装置
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN113283218A (zh) 一种语义文本压缩方法及计算机设备
CN109783820B (zh) 一种语义解析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519

RJ01 Rejection of invention patent application after publication