CN117787296B - 一种基于机器学习的英语标准内容自动翻译方法及*** - Google Patents

一种基于机器学习的英语标准内容自动翻译方法及*** Download PDF

Info

Publication number
CN117787296B
CN117787296B CN202410205317.2A CN202410205317A CN117787296B CN 117787296 B CN117787296 B CN 117787296B CN 202410205317 A CN202410205317 A CN 202410205317A CN 117787296 B CN117787296 B CN 117787296B
Authority
CN
China
Prior art keywords
translation
similarity
sample
overlapping degree
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410205317.2A
Other languages
English (en)
Other versions
CN117787296A (zh
Inventor
甘克勤
孙红军
高俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202410205317.2A priority Critical patent/CN117787296B/zh
Publication of CN117787296A publication Critical patent/CN117787296A/zh
Application granted granted Critical
Publication of CN117787296B publication Critical patent/CN117787296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种基于机器学***进行了衡量;另一方面,即便是翻译模型的能力存在不足,也能够得到一定程度上可用的目标翻译结果。本申请的方法及***通过基于特定计算模型的计算机技术,实现了翻译。也为进一步地减少监督、管理资源的消耗提供了条件。

Description

一种基于机器学习的英语标准内容自动翻译方法及***
技术领域
本申请涉及适用于基于特定计算模型的计算机技术技术领域,尤其涉及一种基于机器学习的英语标准内容自动翻译方法及***。
背景技术
技术的发展惠及众多领域,为人们的生产、生活提供了较大的便利。为进一步提高人们的交流效率、交流质量,翻译设备(例如翻译模型)相关技术成为了备受关注的发展方向之一。
例如,公开(公告)号:CN110765786B,专利标题:“翻译***、耳机翻译方法及翻译设备”(主分类号:G06F40/58),将所述目标语音数据在所述扬声设备上播放,从而实现智能翻译,快捷高效地获取到翻译结果,无需依靠人工获取翻译结果,节省了大量的人力资源。一方面,能够说明基于特定计算模型的计算机技术在翻译相关技术领域大有可为;另一方面,也能够说明在该领域的技术挖掘还具有较为宽泛的扩展前景。
发明内容
本申请实施例提供了一种基于机器学习的英语标准内容自动翻译方法及***,以至少部分的解决上述技术问题。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种基于机器学习的英语标准内容自动翻译方法,所述方法包括:
将检测样本输入待检测翻译模型,得到待定翻译结果;
将与所述检测样本对应的检测标签输入参照翻译模型,得到参照翻译结果;所述待检测翻译模型与所述参照翻译模型各自训练过程中采用的训练样本至少部分不同;所述检测样本是训练所述参照翻译模型过程中采用的某一训练样本和待翻译样本融合得到的;
确定所述待定翻译结果与所述检测标签的第一相似度,所述检测样本与所述参照翻译结果的第二相似度,以及所述待翻译样本与所述检测样本的重叠度;
若所述第一相似度和所述第二相似度之一,小于预设的相似度阈值,则判断所述重叠度是否大于预设的重叠度阈值;
若所述重叠度大于预设的重叠度阈值,且所述第二相似度小于所述相似度阈值,则将所述待检测翻译模型针对所述待翻译样本的翻译结果,作为目标翻译结果。
在本说明书一个可选的实施例中,所述参照翻译模型是若干个备选翻译模型之一,所述方法还包括:
若所述重叠度不大于所述重叠度阈值,且所述第二相似度小于所述相似度阈值,则从所述备选翻译模型中,重新确定出参照翻译模型;
基于重新确定出的参照翻译模型,确定所述目标翻译结果。
在本说明书一个可选的实施例中,所述方法还包括:
若所述重叠度大于所述重叠度阈值,且所述第一相似度小于所述相似度阈值,则为所述待定翻译结果分配降权权重值;
将添加有所述降权权重值的、所述待检测翻译模型针对所述待翻译样本的翻译结果,作为目标翻译结果。
在本说明书一个可选的实施例中,所述方法还包括:
若所述重叠度不大于所述重叠度阈值,且所述第一相似度小于所述相似度阈值,则判定所述待检测翻译模型是风险模型。
在本说明书一个可选的实施例中,所述方法还包括:
若所述第一相似度和所述第二相似度,均大于所述相似度阈值,则将所述待检测翻译模型针对所述待翻译样本的翻译结果,作为所述目标翻译结果。
在本说明书一个可选的实施例中,所述方法还包括:
若所述第一相似度和所述第二相似度,均小于所述相似度阈值,且所述重叠度大于所述重叠度阈值,则重新基于所述待翻译样本生成所述检测样本;
基于所述重新生成的所述检测样本,确定所述目标翻译结果。
在本说明书一个可选的实施例中,所述方法还包括:
若所述第一相似度和所述第二相似度,均小于所述相似度阈值,且所述重叠度不大于所述重叠度阈值,则从所述备选翻译模型中,重新确定出参照翻译模型;
基于重新确定出的参照翻译模型,确定所述目标翻译结果。
第二方面,本申请实施例还提供一种基于机器学习的英语标准内容自动翻译***,所述***包括:
待定翻译结果确定模块,配置为:将检测样本输入待检测翻译模型,得到待定翻译结果;
参照翻译结果确定模块,配置为:将与所述检测样本对应的检测标签输入参照翻译模型,得到参照翻译结果;所述待检测翻译模型与所述参照翻译模型各自训练过程中采用的训练样本至少部分不同;所述检测样本是训练所述参照翻译模型过程中采用的某一训练样本和待翻译样本融合得到的;
分析模块,配置为:确定所述待定翻译结果与所述检测标签的第一相似度,所述检测样本与所述参照翻译结果的第二相似度,以及所述待翻译样本与所述检测样本的重叠度;
判断模块,配置为:若所述第一相似度和所述第二相似度之一,小于预设的相似度阈值,则判断所述重叠度是否大于预设的重叠度阈值;
目标翻译结果确定模块,配置为:若所述重叠度大于预设的重叠度阈值,且所述第二相似度小于所述相似度阈值,则将所述待检测翻译模型针对所述待翻译样本的翻译结果,作为目标翻译结果。
第三方面,本申请实施例还提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面所述的方法步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第一方面所述的方法步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
相关技术中,用于英语翻译(例如英汉翻译)的技术手段多种多样,不同的产品也性能各异、各具特色,为用户提供了多种选择,但是孰优孰劣则难以定夺。特别是在某些类似于针对标准内容的翻译的场景中,应该采用哪种产品以保障翻译质量,则成为亟待解决的技术问题。本说明书中的方法采用了技术的手段,一方面结合了至少两个翻译模型的翻译能力,对翻译模型的翻译水平进行了衡量;另一方面,即便是翻译模型的能力存在不足,也能够得到一定程度上可用的目标翻译结果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种基于机器学习的英语标准内容自动翻译方法的过程示意图;
图2为本说明书实施例中一种电子设备的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其它元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,本说明书中的基于机器学习的英语标准内容自动翻译方法包含以下步骤:
S100:将检测样本输入待检测翻译模型,得到待定翻译结果。
本说明书中的涉及的各模型均为通过机器学习的方法得到的模型。并且,各模型训练的过程均采用有监督的学习。不同的模型架构可以不同,不同的模型训练时采用的样本必须满足不完全相同。相关技术中的能够用于实现不同语言之间的翻译的模型,在条件允许的情况下,均适用于本说明书。
示例性地,在英汉互译的场景中,在检测样本是英语的情况下,待定翻译结果是汉语。
若待检测翻译模型是理想状态的模型,则待定翻译结果应该就是目标的目标翻译结果。但是,实际受模型能力的影响、受模型的应用场景(与技术范围相对应,例如化学分析是一个应用场景,航空航天是另一个应用场景)的局限,有可能存在待定翻译结果偏离理想状态的情况。
S102:将与所述检测样本对应的检测标签输入参照翻译模型,得到参照翻译结果。
本说明书中的方法涉及的模型不唯一,并且,在某些情况下,模型还可以更换,下文将提及具体内容。在英汉互译的场景中,检测样本对应的检测标签是汉语。
待检测翻译模型与所述参照翻译模型各自训练过程中采用的训练样本至少部分不同。实际上,相关技术中的翻译产品,大多数都不会采用完全相同的训练样本。本说明书中的检测样本是训练所述参照翻译模型过程中采用的某一训练样本和待翻译样本融合得到的。本说明书中的融合即为对待翻译样本添加某一短句。例如,待翻译样本是“丙烯酰胺含量不少于5%”,某一训练样本是“尺寸合格率不小于1%”。融合之后的检测样本是“丙烯酰胺含量不少于5%,尺寸合格率不小于1%”。可见融合之后的前后两个短句之间没有衔接性,但对各自语义的表达不够成影响。在翻译模型具备针对标准内容的翻译能力的情况下,即便是这种情况,也不会影响到两个短句各自的表达。然而,也可能存在其他个别情况,将在下文中继续介绍。
检测样本对应的检测标签可以通过人工标注的方式获得。检测标签对应于某一训练样本和待翻译样本,则可以将某一训练样本对应的标签和待翻译样本对应的翻译结果进行融合,得到检测标签。
在本说明书一个可选的实施例中,参照翻译模型也是相关技术中训练完毕的模型。可以基于标准内容构建训练样本,然后基于训练样本继续对参照翻译模型进行训练。
S104:确定所述待定翻译结果与所述检测标签的第一相似度,所述检测样本与所述参照翻译结果的第二相似度,以及所述待翻译样本与所述检测样本的重叠度。
相关技术中,能够用于确定相似度的技术手段,在条件允许的情况下,均适用于本说明书。若翻译模型能力足够,则第一相似度和第二相似度都不会太低。
重叠度是指语义上的重叠。重叠度越高,则语义上越混淆,重叠度越低,则语义上越清晰。相关技术中,能够对语义的相关性进行定量的技术手段,在条件允许的情况,均适用于本说明书,用于确定重叠度。
例如“丙烯酰胺含量不少于5%,尺寸合格率不小于1%”,前后两个短句之间几乎没有关联,则重叠度较低。若融合的结果是“丙烯酰胺含量不少于5%,含量不小于1%”,这种前后两个短句之间语义针对的对象是相同的,重叠度很高。由于前后语义不一致,也可能会对翻译的结果造成混淆。
S106:若所述第一相似度和所述第二相似度之一,小于预设的相似度阈值,则判断所述重叠度是否大于预设的重叠度阈值。
在本说明书中,由于参照翻译模型和待检测翻译模型均未必是完全可信的模型,则第一相似度和第二相似度均作为考察对象。若第一相似度和所述第二相似度之一,小于预设的相似度阈值,表明模型之间存在分歧,可能存在其中某一模型可信度较高,而另一模型可信度较低的情形,此时,则需进一步考察重叠度。
在本说明书一个可选的实施例中,相似度阈值、重叠度阈值至少之一是经验值。
S108:若所述重叠度大于预设的重叠度阈值,且所述第二相似度小于所述相似度阈值,则将所述待检测翻译模型针对所述待翻译样本的翻译结果,作为目标翻译结果。
重叠度大于预设的重叠度阈值,且所述第二相似度小于相似度阈值,表明融合对参照翻译模型造成的干扰较大,在该标准内容所属的技术范围来说,待检测翻译模型的能力至少要比参照翻译模型更加优秀。由于参照翻译模型是经过基于标准内容得到的训练样本训练之后的模型,则该结论可以得到证实,证明模型能力方面的检测结果是可信的,由此得到的目标翻译结果也是准确的。
相关技术中,用于英语翻译(例如英汉翻译)的技术手段多种多样,不同的产品也性能各异、各具特色,为用户提供了多种选择,但是孰优孰劣则难以定夺。特别是在某些类似于针对标准内容的翻译的场景中,应该采用哪种产品以保障翻译质量,则成为亟待解决的技术问题。本说明书中的方法采用了技术的手段,一方面结合了至少两个翻译模型的翻译能力,对翻译模型的翻译水平进行了衡量;另一方面,即便是翻译模型的能力存在不足,也能够得到一定程度上可用的目标翻译结果。
在本说明书一个可选的实施例中,所述参照翻译模型是若干个备选翻译模型之一。实际应用时,可以随机的、或者按照次序从备选翻译模型中确定出参照翻译模型。备选翻译模型各自之间也至少部分的不同。若所述重叠度不大于所述重叠度阈值,且所述第二相似度小于所述相似度阈值,表明融合程度不高的情况下,参照翻译模型的翻译能力都不尽人意,该参照翻译模型不具备与待检测翻译模型进行比较的能力,则从所述备选翻译模型中,重新确定出参照翻译模型。之后,基于重新确定出的参照翻译模型,确定所述目标翻译结果。
此外,在本说明书进一步可选的实施例中,若所述重叠度大于所述重叠度阈值,且所述第一相似度小于所述相似度阈值,表明融合对待检测翻译模型造成了干扰,待检测翻译模型的能力不如参照翻译模型,则为所述待定翻译结果分配降权权重值。降权权重值用于表征待定翻译结果存在一定程度的不可信,相关技术中,能够通过数值的方式表征可信度的技术手段,在条件允许的情况下,均适用于本说明书。例如,降权权重值的取值范围在0和1之间,0表示完全不可信,1表示完全可信。之后,将添加有所述降权权重值的、所述待检测翻译模型针对所述待翻译样本的翻译结果,作为目标翻译结果。在用户使用目标翻译结果时,可基于降权权重值自行决策是否采用该目标翻译结果。
此外,若所述重叠度不大于所述重叠度阈值,且所述第一相似度小于所述相似度阈值,表明即便是不考虑参照翻译模型的情况,待检测翻译模型的能力也是不足的,则判定所述待检测翻译模型是风险模型。此后,用户可以更换待检测翻译模型。
若所述第一相似度和所述第二相似度,均大于所述相似度阈值,表明待检测翻译模型和参照翻译模型都在该技术范围内能力良好,则将所述待检测翻译模型针对所述待翻译样本的翻译结果,作为所述目标翻译结果。
若所述第一相似度和所述第二相似度,均小于所述相似度阈值,且所述重叠度大于所述重叠度阈值,表明有可能是检测样本存在问题,则重新基于所述待翻译样本生成所述检测样本。基于所述重新生成的所述检测样本,确定所述目标翻译结果。在实际应用中,可以预先的基于标准内容摘选的、用于训练的若干个短句以及短句的译文构建融合数据库,在生成检测样本时,随机的、或者按照次序的从融合数据库中确定出某一训练样本用于生成检测样本。在生成检测样本不合理的情况下,可以重新生成检测样本。
若所述第一相似度和所述第二相似度,均小于所述相似度阈值,且所述重叠度不大于所述重叠度阈值,有可能存在待检测模型和参照模型均能力不足的情况,但是孰优孰劣尚不可知,则从所述备选翻译模型中,重新确定出参照翻译模型。基于重新确定出的参照翻译模型,确定所述目标翻译结果。
由于英语应用范围最广泛,针对英语翻译的模型也较为成熟,本说明书中的方法在适用于英语翻译时效果更佳。
进一步地,本说明书还提供一种基于机器学习的英语标准内容自动翻译***,所述***包括:
待定翻译结果确定模块,配置为:将检测样本输入待检测翻译模型,得到待定翻译结果;
参照翻译结果确定模块,配置为:将与所述检测样本对应的检测标签输入参照翻译模型,得到参照翻译结果;所述待检测翻译模型与所述参照翻译模型各自训练过程中采用的训练样本至少部分不同;所述检测样本是训练所述参照翻译模型过程中采用的某一训练样本和待翻译样本融合得到的;
分析模块,配置为:确定所述待定翻译结果与所述检测标签的第一相似度,所述检测样本与所述参照翻译结果的第二相似度,以及所述待翻译样本与所述检测样本的重叠度;
判断模块,配置为:若所述第一相似度和所述第二相似度之一,小于预设的相似度阈值,则判断所述重叠度是否大于预设的重叠度阈值;
目标翻译结果确定模块,配置为:若所述重叠度大于预设的重叠度阈值,且所述第二相似度小于所述相似度阈值,则将所述待检测翻译模型针对所述待翻译样本的翻译结果,作为目标翻译结果。
该***能够执行前述任一实施例中的方法,并能够获得相同或相似的技术效果,此处不再赘述。
图2是本申请的一个实施例电子设备的结构示意图。请参考图2,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成一种基于机器学习的英语标准内容自动翻译***。处理器,执行存储器所存放的程序,并具体用于执行前述任意一种基于机器学习的英语标准内容自动翻译方法。
上述如本申请图1所示实施例揭示的一种基于机器学习的英语标准内容自动翻译方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中一种基于机器学习的英语标准内容自动翻译方法,并实现图1所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,执行前述的任意一种基于机器学习的英语标准内容自动翻译方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的***。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令***的制造品,该指令***实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于机器学习的英语标准内容自动翻译方法,其特征在于,所述方法包括:
将检测样本输入待检测翻译模型,得到待定翻译结果;
将与所述检测样本对应的检测标签输入参照翻译模型,得到参照翻译结果;所述待检测翻译模型与所述参照翻译模型各自训练过程中采用的训练样本至少部分不同;所述检测样本是训练所述参照翻译模型过程中采用的某一训练样本和待翻译样本融合得到的;
确定所述待定翻译结果与所述检测标签的第一相似度,所述检测样本与所述参照翻译结果的第二相似度,以及所述待翻译样本与所述检测样本的重叠度;
若所述第一相似度和所述第二相似度之一,小于预设的相似度阈值,则判断所述重叠度是否大于预设的重叠度阈值;
若所述重叠度大于预设的重叠度阈值,且所述第二相似度小于所述相似度阈值,则将所述待检测翻译模型针对所述待翻译样本的翻译结果,作为目标翻译结果。
2.如权利要求1所述方法,其特征在于,所述参照翻译模型是若干个备选翻译模型之一,所述方法还包括:
若所述重叠度不大于所述重叠度阈值,且所述第二相似度小于所述相似度阈值,则从所述备选翻译模型中,重新确定出参照翻译模型;
基于重新确定出的参照翻译模型,确定所述目标翻译结果。
3.如权利要求1所述方法,其特征在于,所述方法还包括:
若所述重叠度大于所述重叠度阈值,且所述第一相似度小于所述相似度阈值,则为所述待定翻译结果分配降权权重值;
将添加有所述降权权重值的、所述待检测翻译模型针对所述待翻译样本的翻译结果,作为目标翻译结果。
4.如权利要求1所述方法,其特征在于,所述方法还包括:
若所述重叠度不大于所述重叠度阈值,且所述第一相似度小于所述相似度阈值,则判定所述待检测翻译模型是风险模型。
5.如权利要求1所述方法,其特征在于,所述方法还包括:
若所述第一相似度和所述第二相似度,均大于所述相似度阈值,则将所述待检测翻译模型针对所述待翻译样本的翻译结果,作为所述目标翻译结果。
6.如权利要求1所述方法,其特征在于,所述方法还包括:
若所述第一相似度和所述第二相似度,均小于所述相似度阈值,且所述重叠度大于所述重叠度阈值,则重新基于所述待翻译样本生成所述检测样本;
基于重新生成的所述检测样本,确定所述目标翻译结果。
7.如权利要求2所述方法,其特征在于,所述方法还包括:
若所述第一相似度和所述第二相似度,均小于所述相似度阈值,且所述重叠度不大于所述重叠度阈值,则从所述备选翻译模型中,重新确定出参照翻译模型;
基于重新确定出的参照翻译模型,确定所述目标翻译结果。
8.一种基于机器学习的英语标准内容自动翻译***,其特征在于,所述***包括:
待定翻译结果确定模块,配置为:将检测样本输入待检测翻译模型,得到待定翻译结果;
参照翻译结果确定模块,配置为:将与所述检测样本对应的检测标签输入参照翻译模型,得到参照翻译结果;所述待检测翻译模型与所述参照翻译模型各自训练过程中采用的训练样本至少部分不同;所述检测样本是训练所述参照翻译模型过程中采用的某一训练样本和待翻译样本融合得到的;
分析模块,配置为:确定所述待定翻译结果与所述检测标签的第一相似度,所述检测样本与所述参照翻译结果的第二相似度,以及所述待翻译样本与所述检测样本的重叠度;
判断模块,配置为:若所述第一相似度和所述第二相似度之一,小于预设的相似度阈值,则判断所述重叠度是否大于预设的重叠度阈值;
目标翻译结果确定模块,配置为:若所述重叠度大于预设的重叠度阈值,且所述第二相似度小于所述相似度阈值,则将所述待检测翻译模型针对所述待翻译样本的翻译结果,作为目标翻译结果。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~7之任一所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~7之任一所述方法。
CN202410205317.2A 2024-02-26 2024-02-26 一种基于机器学习的英语标准内容自动翻译方法及*** Active CN117787296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410205317.2A CN117787296B (zh) 2024-02-26 2024-02-26 一种基于机器学习的英语标准内容自动翻译方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410205317.2A CN117787296B (zh) 2024-02-26 2024-02-26 一种基于机器学习的英语标准内容自动翻译方法及***

Publications (2)

Publication Number Publication Date
CN117787296A CN117787296A (zh) 2024-03-29
CN117787296B true CN117787296B (zh) 2024-05-07

Family

ID=90396612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410205317.2A Active CN117787296B (zh) 2024-02-26 2024-02-26 一种基于机器学习的英语标准内容自动翻译方法及***

Country Status (1)

Country Link
CN (1) CN117787296B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051513A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于神经网络的中英翻译方法、及其相关设备
CN114282555A (zh) * 2022-03-04 2022-04-05 北京金山数字娱乐科技有限公司 翻译模型训练方法及装置、翻译方法及装置
CN116011470A (zh) * 2022-12-15 2023-04-25 山东科讯信息科技有限公司 翻译、对抗样本生成、模型鲁棒性增强方法及相关装置
CN116629277A (zh) * 2023-04-07 2023-08-22 金叶天成(北京)科技有限公司 一种基于强化学习的医学机器翻译方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051513A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于神经网络的中英翻译方法、及其相关设备
CN114282555A (zh) * 2022-03-04 2022-04-05 北京金山数字娱乐科技有限公司 翻译模型训练方法及装置、翻译方法及装置
CN116011470A (zh) * 2022-12-15 2023-04-25 山东科讯信息科技有限公司 翻译、对抗样本生成、模型鲁棒性增强方法及相关装置
CN116629277A (zh) * 2023-04-07 2023-08-22 金叶天成(北京)科技有限公司 一种基于强化学习的医学机器翻译方法

Also Published As

Publication number Publication date
CN117787296A (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
TWI724237B (zh) 名稱匹配方法及裝置
KR101691117B1 (ko) 웹 애플리케이션을 위한 보안 데이터 컨테이너
TWI486810B (zh) 在狀態機晶格中之計數器操作
CN109344406B (zh) 词性标注方法、装置和电子设备
CN111339751A (zh) 一种文本关键词处理方法、装置及设备
CN110457449B (zh) 在线训练模型的方法、装置、设备及存储介质
CN110705214A (zh) 一种自动编码方法及装置
US20200074992A1 (en) Method and apparatus for judging termination of sound reception and terminal device
CN112818126B (zh) 网络安全语料库构建模型的训练方法、应用方法及装置
CN112307509A (zh) 一种脱敏处理方法、设备、介质及电子设备
CN114817538A (zh) 文本分类模型的训练方法、文本分类方法及相关设备
CN111258905B (zh) 缺陷定位方法、装置和电子设备及计算机可读存储介质
CN117369783B (zh) 一种安全代码生成模型的训练方法及装置
CN117787296B (zh) 一种基于机器学习的英语标准内容自动翻译方法及***
US9275044B2 (en) Method, apparatus and system for finding synonyms
CN117272982A (zh) 基于大型语言模型的协议文本检测方法及装置
Wu et al. Enhancing fidelity of description in Android apps with category-based common permissions
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN113887234B (zh) 一种模型训练以及推荐方法及装置
CN115878654A (zh) 一种数据查询的方法、装置、设备及存储介质
WO2022063274A1 (zh) 一种数据标注方法、***和电子设备
CN110018844B (zh) 决策触发方案的管理方法、装置和电子设备
CN114564958A (zh) 文本识别方法、装置、设备及介质
CN109325127B (zh) 一种风险识别方法和装置
KR20210001882A (ko) 딥 러닝 칩을 검출하는 방법, 장치, 전자 기기 및 컴퓨터 저장 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant