CN116070643A - 一种古文到英文的固定风格翻译方法及*** - Google Patents

一种古文到英文的固定风格翻译方法及*** Download PDF

Info

Publication number
CN116070643A
CN116070643A CN202310343986.1A CN202310343986A CN116070643A CN 116070643 A CN116070643 A CN 116070643A CN 202310343986 A CN202310343986 A CN 202310343986A CN 116070643 A CN116070643 A CN 116070643A
Authority
CN
China
Prior art keywords
translation
ancient
poetry
english
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310343986.1A
Other languages
English (en)
Other versions
CN116070643B (zh
Inventor
杨红征
刘鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuchang University of Technology
Original Assignee
Wuchang University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuchang University of Technology filed Critical Wuchang University of Technology
Priority to CN202310343986.1A priority Critical patent/CN116070643B/zh
Publication of CN116070643A publication Critical patent/CN116070643A/zh
Application granted granted Critical
Publication of CN116070643B publication Critical patent/CN116070643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种古文到英文的固定风格翻译方法及***,方法包括:对获取的古文诗词和对应的英文翻译诗词进行子句对齐和分词操作,获取古文诗词分词语料库、古文翻译分词语料库和古文诗词翻译风格语料库;基于语料库分别对分词模型和古文诗词翻译风格模型进行训练;基于古文诗词翻译风格模型对古文诗词进行预测,输出英文翻译,对翻译风格进行分析。本发明针对固定风格的翻译问题,构建了固定翻译风格的古文诗词分词语料库以及其对应的古文翻译分词语料库,根据固定翻译风格对分词网络进行训练,形成了固定翻译风格的分词模型,解决了固定风格的翻译问题。

Description

一种古文到英文的固定风格翻译方法及***
技术领域
本发明涉及古文翻译领域,更具体地,涉及一种古文到英文的固定风格翻译方法及***。
背景技术
随着深度学习在机器翻译领域的发展,深度神经网络能够自动从语料库中学习翻译知识,使得翻译质量大幅提升,准确率达到90%以上。基于神经网络的机器翻译是一种通过神经网络将一种语言自动转换为另一种语言的自动翻译方法。通常采用编码器-解码器框架来实现自动翻译,但是编码器的状态只传递给解码器的第一个节点,因此来自编码器的信息将在下一个时间步骤变得越来越不相关,为了解决古汉语语法的长距离依赖问题,引入注意力机制网络,对编码后的上下文片段进行解码,以此来解决长句子的特征学习问题。
但在机器翻译领域,对于古文翻译问题大多是将古文翻译为现代汉语,无法直接将古文翻译为英文。
发明内容
本发明针对现有技术中存在的技术问题,提供一种古文到英文的固定风格翻译方法及***。
根据本发明的第一方面,提供了一种古文到英文的固定风格翻译方法,包括:
S1,获取古文诗词及其对应特定翻译风格的英文翻译诗词作为初始样本集,对所述初始样本集中的古文诗词和英文翻译诗词进行子句对齐和分词操作,获取古文诗词分词语料库、古文翻译分词语料库和古文诗词翻译风格语料库;
S2,基于所述古文诗词分词语料库、古文翻译分词语料库和sighan2005 PKU语料库训练分词模型,获取训练后的分词模型;
S3,基于训练后的所述分词模型对所述古文诗词翻译风格语料库进行预处理和分词,并将预处理后的数据编码为向量作为训练数据集训练得到古文诗词翻译风格模型;
S4,基于所述古文诗词翻译风格模型对古文诗词进行预测,输出对应的英文翻译,基于所述古文诗词和对应的英文翻译,分析翻译风格,得到翻译风格分析结果。
根据本发明的第二方面,提供了一种古文到英文的固定风格翻译***,包括:
获取模块,用于获取古文诗词及其对应特定翻译风格的英文翻译诗词作为初始样本集,对所述初始样本集中的古文诗词和英文翻译诗词进行子句对齐和分词操作,获取古文诗词分词语料库、古文翻译分词语料库和古文诗词翻译风格语料库;
第一训练模块,用于基于所述古文诗词分词语料库、古文翻译分词语料库和sighan2005 PKU语料库训练分词模型,获取训练后的分词模型;
第二训练模块,用于基于训练后的所述分词模型对所述古文诗词翻译风格语料库进行预处理和分词,并将预处理后的数据编码为向量作为训练数据集训练得到古文诗词翻译风格模型;
分析模块,用于基于所述古文诗词翻译风格模型对古文诗词进行预测,输出对应的英文翻译,基于所述古文诗词和对应的英文翻译,分析翻译风格,得到翻译风格分析结果。
根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现古文到英文的固定风格翻译方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现古文到英文的固定风格翻译方法的步骤。
本发明提供的一种古文到英文的固定风格翻译方法及***,构建了一种翻译风格的古文诗词翻译风格语料库,将古文诗词与固定翻译风格的英文翻译进行对齐,使其能直接将古文翻译为英文。对于固定翻译风格的问题,构建了某种固定翻译风格的古文诗词分词语料库以及其对应的古文翻译分词语料库,根据固定翻译风格对分词网络进行训练,得到固定翻译风格的分词模型用于后续机器翻译,提出了一种基于深度学习的古文到英文的自动固定风格翻译方法,利用所建语料库训练得到固定翻译风格的分词模型及翻译模型,使其能够将古文诗句自动翻译为固定翻译风格的英文诗句。
附图说明
图1为本发明提供的一种古文到英文的固定风格翻译方法流程图;
图2为获取语料库的流程示意图;
图3为对分类模型的训练样本集中句子的长度进行预处理的流程图;
图4为古文诗词翻译风格模型的翻译风格分析示意图;
图5为本发明提供的一种古文到英文的固定风格翻译***的结构示意图;
图6为本发明提供的一种可能的电子设备的硬件结构示意图;
图7为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,这种结合不受步骤先后次序和/或结构组成模式的约束,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
图1为本发明提供的一种古文到英文的固定风格翻译方法流程图,如图1所示,方法包括:
S1,获取古文诗词及其对应特定翻译风格的英文翻译诗词作为初始样本集,对所述初始样本集中的古文诗词和英文翻译诗词进行子句对齐和分词操作,获取古文诗词分词语料库、古文翻译分词语料库和古文诗词翻译风格语料库。
作为实施例,所述S1中获取古文诗词及其对应特定翻译风格的翻译数据作为初始样本集,包括:获取古文诗词的原文样本,以及获取古文诗词的特定翻译风格的英文翻译样本;基于古文诗词的原文样本和对应的特定翻译风格的英文翻译样本,形成结构为[诗词序号,中文标题,中文诗句,英文标题,英文诗句]的初始样本集。
可理解的是,获取古文诗词的原文样本以及对应特定翻译风格的英文翻译样本,对古文诗词样本和英文翻译样本进行匹配对齐,并以一定的结构形式构成初始样本集。
在此需要说明的是,特定翻译风格是指根据某一位知名翻译作者或者某一款知名的翻译工具对古文诗词进行的翻译风格。
比如,以苏轼的《定风波》及其卓振英翻译版本为例,其初始样本为:(284,“定风波”,“莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。……”,“Taming the Waves and Winds”,“What matters if on the woods and leavessplatters th’ rain? I may well recite poems while pacing on the cane. And insandals, which than horse back make me more eas’d. Howe’er could one withdread be seiz’d, Who’s known in th’ eventful life rain and wind and pain?…”)。
又以杜牧的《清明》及其杨宪益、戴乃迭翻译版本为例,其初始样本为:(789,“清明”,“清明时节雨纷纷,路上行人欲断魂。借问酒家何处有?牧童遥指杏花村。”,“TheMourning Day”,“It drizzles endless during the rainy season in spring,Travelers along the road look gloomy and miserable. When I ask a shepherd boywhere I can find a tavern, He points at a distant hamlet nestling amidstapricot blossoms.”)。
下面以苏轼的《饮湖上初晴后雨》及其许渊冲翻译版本为例对本发明提供的方法进行说明,其初始样本为:(22,“饮湖上初晴后雨”,“水光潋滟晴方好,山色空濛雨亦奇。欲把西湖比西子,淡妆浓抹总相宜。”,“Drinking at the Lake First in Sunny and thenin Rainy Weather”,“The brimming waves delight the eye on sunny days; Thedimming hills give a rare view in rainy haze. The West Lake looks like thefair lady at her best; Whether she is richly adorned or plainly dressed.”)。
参见图2,得到了初始样本集后,所述S1中获取古文诗词分词语料库包括根据分词规则对初始样本集的古文诗句进行子句对齐和分词操作,得到古文诗词分词语料库:以古文诗词中的标点为分割并辅以人工审核,将古文诗词分为多段,每一段占一行;对古文诗句的每一段进行分词,每个词占一行;根据对古文诗词的分词结果,获取古文诗词分词语料库,所述古文诗词分词语料库的结构为[诗词序号,中文标题,中文诗句,中文词,中文行数,中文列数]。
可理解的是,根据分词规则对初始样本集中的古文诗词进行子句对齐和分词操作,获取古文诗词分词语料库。具体的,将古文诗词以标点隔开,分为一段一段的,以四句古文诗词为例,即分为四句,一句作为一段。
以上述初始样本为例,分段结果为:(水光潋滟晴方好,/山色空濛雨亦奇。/欲把西湖比西子,/淡妆浓抹总相宜。)
然后对每一段诗词进行分词,尽量满足古文阅读理解习惯,每个词占一行。
以上述样本为例,“水光潋滟晴方好,”的分词结果为:(水光/潋滟/晴方好/,)
对每一段诗词进行分词后,根据分词结果,以一定的结构形式得到古文诗词分词语料库。古文诗词分词语料库样本结构为(诗词序号,中文标题,中文诗句,中文词,中文行数,中文列数)。
以上述样本为例,语料库样本为:(22,“饮湖上初晴后雨”,“水光潋滟晴方好,”,“水光”,1,1_2)。
其中,所述S1中获取古文翻译分词语料库包括根据分词规则对初始样本集的英文翻译诗词进行子句对齐和分词操作,得到古文翻译分词语料库:以英文翻译诗词中的标点为分割并辅以人工审核,将英文翻译诗词分为多段,每一段占一行;对每一段英文翻译诗词进行分词,词与词之间用空格间隔;根据对英文翻译诗词的分词结果,获取得到古文翻译分词语料库,所述古文翻译分词语料库的结构为[诗词序号,英文标题,英文诗句,英文词,英文行数,英文列数]。
可理解的是,根据分词规则对初始样本集中的英文翻译诗词进行子句对齐和分词操作,获取古文翻译分词语料库。具体的,对初始样本集中的英文翻译诗词标点为分割并辅以人工审核,将诗词分为多段,尽量满足古文释义,每一段占一行。
以上述初始样本为例,分段结果为:(The brimming waves delight the eye onsunny days;/The dimming hills give a rare view in rainy haze./The West Lakelooks like the fair lady at her best;/Whether she is richly adorned orplainly dressed.)。
对每一段英文翻译诗句进行分词,尽量满足古文释义,词与词之间用空格间隔。
以上述样本为例,“The brimming waves delight the eye on sunny days;”的分词结果为:(The brimming waves/delight the eye/on sunny days/;)。
根据英文翻译诗词的分词结果,以一定的结构形式构成古文翻译分词语料库,古文翻译分词语料库样本结构为(诗词序号,英文标题,英文诗句,英文词,英文行数,英文列数)。
以上述样本为例,语料库样本为:(22,“Drinking at the Lake First in Sunnyand then in Rainy Weather”,“The brimming waves delight the eye on sunny days;The dimming hills give a rare view in rainy haze. The West Lake looks likethe fair lady at her best; Whether she is richly adorned or plainlydressed.”,“delight the eye”,1,4_6)。
得到古文诗词分词语料库和英文翻译分词语料库之后,将古文翻译分词语料库中的英文分词结果与古文诗词分词语料库中的古文分词结果对齐得到古文诗词翻译风格语料库。
首先,使用脚本删除古文和英文分词结果中的标点。
以上述初始样本为例,“水光潋滟晴方好,”最后的分词结果为:(水光/潋滟/晴方好)。
“The brimming waves delight the eye on sunny days;”最后的分词结果为:(The brimming waves/delight the eye/on sunny days)。
然后,将处理后的英文分词结果与古文分词结果进行匹配,每个分词占一行,形成结构为(中文词,英文词,中文标题,英文标题,中文行数,英文行数,中文列数,英文列数,跳跃标志)的样本。
其中,中文行数和英文行数表示分词在分词语料库对应诗歌中所在诗句的行数,中文列数和英文列数表示分词在分词语料库对应诗歌中所在诗句中的对应字序。
以上述样本为例,语料库样本为:(“水光”,“delight the eye”,“饮湖上初晴后雨”,“Drinking at the Lake First in Sunny and then in Rainy Weather”,1,1,“1_2”,“4_6”,“0”)。
需要说明的是,在将英文分词结果和古文分词结果对齐匹配的过程中,若有英文翻译,无对应古文,则在其对应中文标题、中文词和行列数处置空;若有古文原文,无对应翻译,则在其对应英文标题、英文词和行列数处置空。
如《和子由渑池怀旧》中,“泥上偶然留指爪”分词分为四个部分:(泥上/偶然/留/指爪),其对应的翻译分词分为六个部分:(See/the claw and nail prints/by chance/mud/and snow/bear)。其中,“and snow”和“See”由于翻译上下文需要而添加,导致没有对应古文原文,则语料库对应样本表示为(None,“and snow”,None,“Recalling the oldDays at Mianchi in the Same Rhymes as Ziyou’s Poem”,None,3,None,“9_10”,“0”)。
若中/英文匹配存在跳跃翻译,则中/英文列数用逗号分隔,且将跳跃标志位标1,反之标0。
如《腊日游孤山访惠勤惠思二僧》中,“整驾催归及未晡”中“归”对应翻译为“to go… to my abode”,则则语料库对应样本表示为(“归”,“to go … to my abode”,“腊日游孤山访惠勤惠思二僧”,“Visiting in Winter the Two Learned Monks in the LonelyHill”,15,15,4,“4_5,8_10”,“1”)。
对古文分词结果和英文分词结果进行了对齐匹配后,得到古文诗词翻译风格语料库。
S2,基于所述古文诗词分词语料库、古文翻译分词语料库和sighan2005 PKU语料库训练分词模型,获取训练后的分词模型。
作为实施例,所述S2中基于所述古文诗词分词语料库、古文翻译分词语料库和sighan2005 PKU语料库训练分词模型,获取训练后的分词模型,包括:将所述古文诗词分词语料库、古文翻译分词语料库和sighan2005 PKU语料库中的每一个分词结果编码为向量,基于编码后的向量对分词模型进行训练,获取训练后的分词模型。
可理解的是,将古文诗词分词语料库、古文翻译分词语料库与sighan2005 PKU语料库结合作为分词模型的训练数据库,混合训练得到分词模型。
其中,第二届国际中文分词评测(Second International Chinese WordSegmentation Bakeoff,简称 SIGHAN05)提供AS、CITYU、MSR和PKU四个语料库,提供不同规范标注(句子+分词标注)的训练集、验证集以及测试集。为了得到适合古文诗词的分词模型,需要大规模的语料库,所以本发明将sighan2005 PKU与自定义语料库结合进行混合训练。
其中,对训练样本数据进行预处理,将其编码为向量输入分词模型对分词模型进行训练,具体的预处理操作步骤包括:
首先指定输入分词模型的句子的最大长度,若句子过长则截断后面过长的部分,反之则补齐。在句子开头添加[CLS]标志,句子结尾或两个句子之间添加[SEP]标志,若需要有补齐操作,则补上相应长度的[PAD]标志,形成样本格式为:[CLS] + 句子 + [SEP] +[PAD] * N,N为需要补上的[PAD]标志的数量。
此处,需要说明的是,因为规定了句子的最大长度,所以存在三种可能,且处理流程图可参见图3:
①输入句子长度=最大长度:在句子开头结尾添加相应标识符即可;
②输入句子长度<最大长度:在句子开头结尾添加相应标识符,并添加[PAD]标志将句子长度填充到与最大长度相等(若最大长度为x,句子长度为y,则需要添加x-y个[PAD]标志,即221中的N=x-y);
③输入句子长度>最大长度:将句子在最大长度处裁剪分开成两句,即一句为第①种情况,另一句为第②种情况,进行对应操作。
以“水光潋滟晴方好,”为例,句子变为:[CLS]水光潋滟晴方好,[SEP]。
利用BMES标注方式,将样本中的每个字标记成BMES四种。其中,B表示词语的开始位置,M表示词语的中间位置,E表示词语的结束位置,S表示单个字。
以上述样本为例,“水光潋滟晴方好,”标记为:['B', 'E', 'B', 'E', 'B', 'M','E', 'S'],对应标记id为:[0, 1, 0, 1, 0, 2, 1, 3]。
将样本通过标记器tokenizer与字典对应,将输入的词映射到模型当中的字典ID,编码为向量。
以上述样本为例,“水光潋滟晴方好,”的编码token向量为:[ 101, 3717, 1045,4046, 4006, 3252, 3175, 1962, 8024, 102]。
设置句子识别界限,第一个句子对应全为0,第二个句子对应全为1,[PAD]处全置为0。
以上述样本为例,“水光潋滟晴方好,”的句子识别界限segments向量为:[ 0, 0,0, 0, 0, 0, 0, 0, 0, 0]。
设置注意力机制范围,[PAD]处全置为0,其余位置置为1。
以上述样本为例,“水光潋滟晴方好,”的mask向量为:[ 1, 1, 1, 1, 1, 1, 1,1, 1, 1]。
将编码后的向量特征输入分词模型,对其进行训练,具体的训练过程包括:
训练数据经过分词模型的Encode层,输出向量特征;
以上述样本为例,各个训练样本的输入特征向量为:
向量特征经过池化层,将[CLS]标记对应的表示取出来,并做一定的变换,作为整个序列的表示并返回,以及原封不动地返回所有的标记表示,输出分类结果。
以上述样本为例,向量特征格式为(1,10,4),如下x所示。去除首位标记后,输出标签为[0, 1, 0, 1, 0, 2, 1, 3],与标记id一致。
按照上述步骤训练得到分词模型。
S3,基于训练后的所述分词模型对所述古文诗词翻译风格语料库进行预处理和分词,并将预处理后的数据编码为向量作为训练数据集训练得到古文诗词翻译风格模型。
其中,所述S3中基于训练后的所述分词模型对所述古文诗词翻译风格语料库进行预处理和分词,并将预处理后的数据编码为向量作为训练数据集训练得到古文诗词翻译风格模型,包括:根据所述古文诗词分词语料库和古文翻译分词语料库,通过“诗词序号”、“中文行数”和“英文行数”属性进行诗句对齐,取出一行英文翻译诗句;对所述英文翻译诗句进行字符串规范化预处理,且为所述英文翻译诗句加上开始和结束标记;对预处理后的古文诗句和英文翻译诗句,基于分词模型分别进行分词,得到每句诗句的字符列表,通过one-hot编码将字符列表中的字符用向量表示,每句诗句用一个向量矩阵表示;基于编码后的向量矩阵训练古文诗词翻译风格模型,得到训练后的古文诗词翻译风格模型。
可理解的是,参见图4,步骤S2训练得到分词模型后,基于分词模型古文诗词翻译风格语料库进行预处理和分词。具体的预处理和分词步骤包括:
从古文诗词翻译风格语料库中按行取出诗句对齐数据,结合上述的古文翻译分词语料库和古文诗词分词语料库,通过“诗词序号”、“中文行数”和“英文行数”属性进行诗句对齐,取出一行诗词翻译数据为:“The brimming waves delight the eye on sunnydays; 水光潋滟晴方好,”。
对取出的数据进行规范化字符串,过滤不需要的字符,在标点符号前添加空格等预处理操作。
以上述样本为例,数据预处理输出:“the brimming waves delight the eye onsunny days . 水光潋滟晴方好 。”。
给句子加上开始和结束标记,以便模型知道何时开始和结束预测。
以上述样本为例,数据处理为:“<start> the brimming waves delight the eyeon sunny days ; <end> 水光潋滟晴方好 ,”。
对预处理后的古文数据和英文数据,通过S2中的分词模型分别进行分词,得到每句诗句的字符列表,通过one-hot编码将字符用向量表示,则每句诗句用一个向量矩阵表示,具体步骤包括:
根据S2中得到的分词模型分别对古文数据和英文数据进行分词;
以上述样本为例,古文分词结果为:[‘水光’, ‘潋滟’, ‘晴方好’, ‘。’],英文分词结果为:[‘<start>’, ‘the brimming waves’, ‘delight the eye’, ‘on sunnydays’, ‘.’, ‘<end>’]。
根据分词结果创建古文诗词翻译风格字符列表;
以上述样本为例,古文和英文的字符列表为:{‘.’: 1, ‘the brimming waves’:2, ‘delight the eye’: 3, ‘on sunny days’: 4, ‘<start>’: 5, ‘<end>’: 6}和{‘。’:1, ‘水光’: 2, ‘潋滟’: 3, ‘晴方好’: 4}。
根据字符列表进行one-hot编码得到字符型向量,将每一句诗句用一个向量矩阵表示。
以“the brimming waves”为例,字符向量表示为:,则整句话可编码为一个向量矩阵:
将编码后的向量矩阵作为训练数据输入网络模型中,训练得到古文诗词翻译风格模型,其中,训练过程包括:
输入向量矩阵,m为输入向量矩阵中的列向量个数,目标翻译句子表示为,n为目标翻译向量中的列向量个数,通过注意力层前向读取输入序列X得到前向隐藏状态序列,通过网络反向读取输入序列X得到反向隐藏状态序列,结合前向隐藏状态和反向隐藏状态得到每个x的注意力表示第j个x的注意力。
目标词的概率为,其中位置i对应的网络隐藏状态为,上下文向量ci为aj的加权和为,权重αij计算公式为,其中sij是对位置j周围的输入和位置i处的输出匹配程度的评分,计算公式为。sij是基于网络隐藏状态di−1和输入句子的第j个注意力aj计算而来。
通过上述训练过程训练得到古文诗词翻译风格模型。
S4,基于所述古文诗词翻译风格模型对古文诗词进行预测,输出对应的英文翻译,基于所述古文诗词和对应的英文翻译,分析翻译风格,得到翻译风格分析结果。
其中,用训练好的古文诗词翻译风格模型预测古文诗句,输出英文翻译。
统计固定词汇翻译,分析古文诗词翻译风格模型的翻译风格。
以上述样本为例,普通翻译器将“潋滟”翻译为“rippling”,而古文诗词翻译风格模型预测输出为“the brimming waves”,使用词汇更复杂。
根据上述中英文对齐匹配过程中制定的0/1跳跃规则进行翻译风格分析。
以上述样本为例,普通翻译器将“整驾催归及未晡”翻译为“The whole drive hasbeen urged back and not late”,而古文诗词翻译风格模型预测输出为“They hurry meto go before dusk to my abode”。其中,古文诗词翻译风格模型将“归”翻译为“to go... to my abode”,使用了更复杂的词组进行翻译。
根据修辞手法进行翻译风格分析;
以“断霞半空鱼尾赤”为例,普通翻译器直译为“Broken clouds in mid-air fishtail red”,而古文诗词翻译风格模型预测输出为“Rosy clouds in mid-air like fish-tails undulate”,使用了比喻的修辞手法,与翻译器直译相比更生动。
根据固定词汇翻译、跳跃翻译规则以及修饰手法综合以上分析,得出古文诗词翻译风格模型的翻译风格分析结果。
参见图5,为本发明实施例的一种古文到英文的固定风格翻译***,该***包括获取模块501、第一训练模块502、第二训练模块503和分析模块504,其中:
获取模块501,用于获取古文诗词及其对应特定翻译风格的英文翻译诗词作为初始样本集,对所述初始样本集中的古文诗词和英文翻译诗词进行子句对齐和分词操作,获取古文诗词分词语料库、古文翻译分词语料库和古文诗词翻译风格语料库;
第一训练模块502,用于基于所述古文诗词分词语料库、古文翻译分词语料库和sighan2005 PKU语料库训练分词模型,获取训练后的分词模型;
第二训练模块503,用于基于训练后的所述分词模型对所述古文诗词翻译风格语料库进行预处理和分词,并将预处理后的数据编码为向量作为训练数据集训练得到古文诗词翻译风格模型;
分析模块504,用于基于所述古文诗词翻译风格模型对古文诗词进行预测,输出对应的英文翻译,基于所述古文诗词和对应的英文翻译,分析翻译风格,得到翻译风格分析结果。
可以理解的是,本发明提供的一种古文到英文的固定风格翻译***与前述各实施例提供的古文到英文的固定风格翻译方法相对应,古文到英文的固定风格翻译***的相关技术特征可参考古文到英文的固定风格翻译方法的相关技术特征,在此不再赘述。
请参阅图6,图6为本发明实施例提供的电子设备的实施例示意图。如图6所示,本发明实施例提了一种电子设备600,包括存储器610、处理器620及存储在存储器610上并可在处理器620上运行的计算机程序611,处理器620执行计算机程序611时实现古文到英文的固定风格翻译方法的步骤。
请参阅图7,图7为本发明提供的一种计算机可读存储介质的实施例示意图。如图7所示,本实施例提供了一种计算机可读存储介质700,其上存储有计算机程序711,该计算机程序711被处理器执行时实现古文到英文的固定风格翻译方法的步骤。
本发明实施例提供的一种古文到英文的固定风格翻译方法及***,构建了一种古文诗词翻译风格语料库,将古文诗词与固定翻译风格的英文翻译进行对齐,使其能直接将古文翻译为英文,构建了固定翻译风格的古文诗词分词语料库以及其对应的古文翻译分词语料库,解决了固定风格的翻译问题,提出了一种基于深度学习的古文到英文的自动固定风格翻译方法能够利用所建语料库训练得到固定翻译风格的分词模型及翻译模型,实现从古文直接到英文的固定翻译风格的自动翻译。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种古文到英文的固定风格翻译方法,其特征在于,包括:
S1,获取古文诗词及其对应特定翻译风格的英文翻译诗词作为初始样本集,对所述初始样本集中的古文诗词和英文翻译诗词进行子句对齐和分词操作,获取古文诗词分词语料库、古文翻译分词语料库和古文诗词翻译风格语料库;
S2,基于所述古文诗词分词语料库、古文翻译分词语料库和sighan2005 PKU语料库训练分词模型,获取训练后的分词模型;
S3,基于训练后的所述分词模型对所述古文诗词翻译风格语料库进行预处理和分词,并将预处理后的数据编码为向量作为训练数据集训练得到古文诗词翻译风格模型;
S4,基于所述古文诗词翻译风格模型对古文诗词进行预测,输出对应的英文翻译,基于所述古文诗词和对应的英文翻译,分析翻译风格,得到翻译风格分析结果。
2.根据权利要求1所述的固定风格翻译方法,其特征在于,所述S1中获取古文诗词及其对应特定翻译风格的翻译数据作为初始样本集,包括:
获取古文诗词的原文样本,以及获取古文诗词的特定翻译风格的英文翻译样本;
基于古文诗词的原文样本和对应的特定翻译风格的英文翻译样本,形成结构为[诗词序号,中文标题,中文诗句,英文标题,英文诗句]的初始样本集。
3.根据权利要求2所述的固定风格翻译方法,其特征在于,所述S1中获取古文诗词分词语料库包括根据分词规则对初始样本集的古文诗句进行子句对齐和分词操作,得到古文诗词分词语料库:
以古文诗词中的标点为分割并辅以人工审核,将古文诗词分为多段,每一段占一行;
对古文诗句的每一段进行分词,每个词占一行;
根据对古文诗词的分词结果,获取古文诗词分词语料库,所述古文诗词分词语料库的结构为[诗词序号,中文标题,中文诗句,中文词,中文行数,中文列数];
所述S1中获取古文翻译分词语料库包括根据分词规则对初始样本集的英文翻译诗词进行子句对齐和分词操作,得到古文翻译分词语料库:
以英文翻译诗词中的标点为分割并辅以人工审核,将英文翻译诗词分为多段,每一段占一行;
对每一段英文翻译诗词进行分词,词与词之间用空格间隔;
根据对英文翻译诗词的分词结果,获取得到古文翻译分词语料库,所述古文翻译分词语料库的结构为[诗词序号,英文标题,英文诗句,英文词,英文行数,英文列数]。
4.根据权利要求3所述的固定风格翻译方法,其特征在于,所述S1中古文诗词翻译风格语料库包括基于所述古文诗词分词语料库和所述古文翻译分词语料库获取古文诗词翻译风格语料库:
使用脚本删除所述古文诗词分词语料库中古文诗词分词结果和所述古文翻译分词语料库中英文诗词分词结果中的标点;
将处理后的英文分词结果与古文分词结果进行匹配,每个分词占一行,形成结构为[中文词,英文词,中文标题,英文标题,中文行数,英文行数,中文列数,英文列数,跳跃标志]的样本,得到古文诗词翻译风格语料库。
5.根据权利要求4所述的固定风格翻译方法,其特征在于,在将英文分词结果与古文分词结果进行匹配的过程中,若有英文翻译,无对应古文,则在其对应中文标题、中文词和行列数处置空;
若有古文原文,无对应翻译,则在其对应英文标题、英文词和行列数处置空;
若中/英文匹配存在跳跃翻译,则中/英文列数用逗号分隔,且将跳跃标志位标1,反之标0。
6.根据权利要求1所述的固定风格翻译方法,其特征在于,所述S2中基于所述古文诗词分词语料库、古文翻译分词语料库和sighan2005 PKU语料库训练分词模型,获取训练后的分词模型,包括:
将所述古文诗词分词语料库、古文翻译分词语料库和sighan2005 PKU语料库中的每一个分词结果编码为向量,基于编码后的向量对分词模型进行训练,获取训练后的分词模型。
7.根据权利要求1所述的固定风格翻译方法,其特征在于,所述S3中基于训练后的所述分词模型对所述古文诗词翻译风格语料库进行预处理和分词,并将预处理后的数据编码为向量作为训练数据集训练得到古文诗词翻译风格模型,包括:
根据所述古文诗词分词语料库和古文翻译分词语料库,通过“诗词序号”、“中文行数”和“英文行数”属性进行诗句对齐,取出一行英文翻译诗句;
对所述英文翻译诗句进行字符串规范化预处理,且为所述英文翻译诗句加上开始和结束标记;
对预处理后的古文诗句和英文翻译诗句,基于分词模型分别进行分词,得到每句诗句的字符列表,通过one-hot编码将字符列表中的字符用向量表示,每句诗句用一个向量矩阵表示;
基于编码后的向量矩阵训练古文诗词翻译风格模型,得到训练后的古文诗词翻译风格模型。
8.根据权利要求4所述的固定风格翻译方法,其特征在于,所述S4中基于所述古文诗词和对应的英文翻译,分析翻译风格,得到翻译风格分析结果,包括:
统计对同一个古文诗词的固定英文翻译的频率分析所述古文诗词翻译风格模型的翻译风格;
根据跳跃标志位分析所述古文诗词翻译风格模型的翻译风格;
以及,根据英文翻译的修饰手法分析所述古文诗词翻译风格模型的翻译风格。
9.一种古文到英文的固定风格翻译***,其特征在于,包括:
获取模块,用于获取古文诗词及其对应特定翻译风格的英文翻译诗词作为初始样本集,对所述初始样本集中的古文诗词和英文翻译诗词进行子句对齐和分词操作,获取古文诗词分词语料库、古文翻译分词语料库和古文诗词翻译风格语料库;
第一训练模块,用于基于所述古文诗词分词语料库、古文翻译分词语料库和sighan2005 PKU语料库训练分词模型,获取训练后的分词模型;
第二训练模块,用于基于训练后的所述分词模型对所述古文诗词翻译风格语料库进行预处理和分词,并将预处理后的数据编码为向量作为训练数据集训练得到古文诗词翻译风格模型;
分析模块,用于基于所述古文诗词翻译风格模型对古文诗词进行预测,输出对应的英文翻译,基于所述古文诗词和对应的英文翻译,分析翻译风格,得到翻译风格分析结果。
10.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的古文到英文的固定风格翻译方法的步骤。
CN202310343986.1A 2023-04-03 2023-04-03 一种古文到英文的固定风格翻译方法及*** Active CN116070643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310343986.1A CN116070643B (zh) 2023-04-03 2023-04-03 一种古文到英文的固定风格翻译方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310343986.1A CN116070643B (zh) 2023-04-03 2023-04-03 一种古文到英文的固定风格翻译方法及***

Publications (2)

Publication Number Publication Date
CN116070643A true CN116070643A (zh) 2023-05-05
CN116070643B CN116070643B (zh) 2023-08-15

Family

ID=86171797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310343986.1A Active CN116070643B (zh) 2023-04-03 2023-04-03 一种古文到英文的固定风格翻译方法及***

Country Status (1)

Country Link
CN (1) CN116070643B (zh)

Citations (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455358A (zh) * 2002-04-06 2003-11-12 龚学胜 华语拼音统一方案及单拼输入与智能转换翻译
JP2005250525A (ja) * 2004-03-01 2005-09-15 Mitsubishi Electric Corp 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム
CN101216819A (zh) * 2007-12-28 2008-07-09 北京邮电大学 基于领域本体的名片信息中译英自动翻译方法
CN102117270A (zh) * 2011-03-29 2011-07-06 中国科学院自动化研究所 一种基于模糊树到精确树的统计机器翻译方法
CN102193915A (zh) * 2011-06-03 2011-09-21 南京大学 一种计算机中译英翻译中基于分词网的词对齐融合方法
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN106569995A (zh) * 2016-09-26 2017-04-19 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法
CN107220243A (zh) * 2017-05-31 2017-09-29 陈振 一种数据库交互式翻译***
CN107229611A (zh) * 2017-05-18 2017-10-03 大连大学 一种基于词对齐的历史典籍分词方法
CN107357783A (zh) * 2017-07-04 2017-11-17 桂林电子科技大学 一种中文翻译成英文的英语译文质量分析方法
CN108509420A (zh) * 2018-03-29 2018-09-07 赵维平 古谱及古文化知识图谱自然语言处理方法
CN108681539A (zh) * 2018-05-07 2018-10-19 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN108874785A (zh) * 2018-06-01 2018-11-23 清华大学 一种翻译处理方法及***
CN109086270A (zh) * 2018-07-24 2018-12-25 重庆大学 基于古诗词语料向量化的自动作诗***及其方法
CN109101498A (zh) * 2018-07-23 2018-12-28 Oppo广东移动通信有限公司 翻译方法、装置及移动终端
CN109271647A (zh) * 2018-09-06 2019-01-25 练敏 基于TParse的中英文互译方法和装置
CN109359294A (zh) * 2018-09-18 2019-02-19 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109508462A (zh) * 2018-10-25 2019-03-22 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109783825A (zh) * 2019-01-07 2019-05-21 四川大学 一种基于神经网络的古文翻译方法
CN110287496A (zh) * 2019-07-02 2019-09-27 吕海港 一种基于神经网络的英译汉词义消歧方法
CN110765785A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于神经网络的中英翻译方法、及其相关设备
CN110852086A (zh) * 2019-09-18 2020-02-28 平安科技(深圳)有限公司 基于人工智能的古诗词生成方法、装置、设备及存储介质
CN112101040A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法
CN112163410A (zh) * 2020-10-14 2021-01-01 四川大学 一种基于深度学习的古文预训练***及其训练方法
CN112183058A (zh) * 2020-09-22 2021-01-05 甘肃农业大学 基于bert句子向量输入的诗词生成方法及装置
US20210019479A1 (en) * 2018-09-05 2021-01-21 Tencent Technology (Shenzhen) Company Limited Text translation method and apparatus, storage medium, and computer device
CN112417902A (zh) * 2020-12-04 2021-02-26 北京有竹居网络技术有限公司 文本翻译方法、装置、设备及存储介质
CN112434165A (zh) * 2020-12-17 2021-03-02 广州视源电子科技股份有限公司 一种古诗词分类方法、装置、终端设备及存储介质
CN112528680A (zh) * 2019-08-29 2021-03-19 上海卓繁信息技术股份有限公司 语料扩充方法及***
CN113887251A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法
CN113934814A (zh) * 2021-08-01 2022-01-14 北京工业大学 古诗文主观题自动评分方法
CN114896305A (zh) * 2022-05-24 2022-08-12 内蒙古自治区公安厅 一种基于大数据技术的智慧互联网安全平台

Patent Citations (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455358A (zh) * 2002-04-06 2003-11-12 龚学胜 华语拼音统一方案及单拼输入与智能转换翻译
JP2005250525A (ja) * 2004-03-01 2005-09-15 Mitsubishi Electric Corp 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム
CN101216819A (zh) * 2007-12-28 2008-07-09 北京邮电大学 基于领域本体的名片信息中译英自动翻译方法
CN102117270A (zh) * 2011-03-29 2011-07-06 中国科学院自动化研究所 一种基于模糊树到精确树的统计机器翻译方法
CN102193915A (zh) * 2011-06-03 2011-09-21 南京大学 一种计算机中译英翻译中基于分词网的词对齐融合方法
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN106569995A (zh) * 2016-09-26 2017-04-19 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法
CN107229611A (zh) * 2017-05-18 2017-10-03 大连大学 一种基于词对齐的历史典籍分词方法
CN107220243A (zh) * 2017-05-31 2017-09-29 陈振 一种数据库交互式翻译***
CN107357783A (zh) * 2017-07-04 2017-11-17 桂林电子科技大学 一种中文翻译成英文的英语译文质量分析方法
CN108509420A (zh) * 2018-03-29 2018-09-07 赵维平 古谱及古文化知识图谱自然语言处理方法
CN108681539A (zh) * 2018-05-07 2018-10-19 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN108874785A (zh) * 2018-06-01 2018-11-23 清华大学 一种翻译处理方法及***
CN109101498A (zh) * 2018-07-23 2018-12-28 Oppo广东移动通信有限公司 翻译方法、装置及移动终端
CN109086270A (zh) * 2018-07-24 2018-12-25 重庆大学 基于古诗词语料向量化的自动作诗***及其方法
US20210019479A1 (en) * 2018-09-05 2021-01-21 Tencent Technology (Shenzhen) Company Limited Text translation method and apparatus, storage medium, and computer device
CN109271647A (zh) * 2018-09-06 2019-01-25 练敏 基于TParse的中英文互译方法和装置
CN109359294A (zh) * 2018-09-18 2019-02-19 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109508462A (zh) * 2018-10-25 2019-03-22 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN109783825A (zh) * 2019-01-07 2019-05-21 四川大学 一种基于神经网络的古文翻译方法
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN110287496A (zh) * 2019-07-02 2019-09-27 吕海港 一种基于神经网络的英译汉词义消歧方法
CN112528680A (zh) * 2019-08-29 2021-03-19 上海卓繁信息技术股份有限公司 语料扩充方法及***
CN110852086A (zh) * 2019-09-18 2020-02-28 平安科技(深圳)有限公司 基于人工智能的古诗词生成方法、装置、设备及存储介质
CN110765785A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于神经网络的中英翻译方法、及其相关设备
CN112101040A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法
CN112183058A (zh) * 2020-09-22 2021-01-05 甘肃农业大学 基于bert句子向量输入的诗词生成方法及装置
CN112163410A (zh) * 2020-10-14 2021-01-01 四川大学 一种基于深度学习的古文预训练***及其训练方法
CN112417902A (zh) * 2020-12-04 2021-02-26 北京有竹居网络技术有限公司 文本翻译方法、装置、设备及存储介质
CN112434165A (zh) * 2020-12-17 2021-03-02 广州视源电子科技股份有限公司 一种古诗词分类方法、装置、终端设备及存储介质
CN113934814A (zh) * 2021-08-01 2022-01-14 北京工业大学 古诗文主观题自动评分方法
CN113887251A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法
CN114896305A (zh) * 2022-05-24 2022-08-12 内蒙古自治区公安厅 一种基于大数据技术的智慧互联网安全平台

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
QIANG (JASON) LI, YOUNG NG, RUIXUE (RACHEL) WU: "Strategies and problems in geotourism interpretation: A comprehensive literature review of an interdisciplinary chinese to english translation", 《INTERNATIONAL JOURNAL OF GEOHERITAGE AND PARKS》, vol. 10, no. 1, pages 27 - 46 *
刘芳;谢春林;: "近代"鲁梁翻译之争"及其历史影响", 兰台世界, no. 10 *
姚振军;郑旭红;徐鹏涛;王继升;: "面向《道德经》英译的基于短语的机器翻译探析", 山东外语教学, no. 03 *
张莹;: "翻译初学者语言知识向翻译能力的转化分析", 农家参谋, no. 12 *
梁继文;江川;王东波;: "基于多特征融合的先秦典籍汉英句子对齐研究", 数据分析与知识发现, no. 09 *
王爽;熊德兰;王晓霞;: "基于实例的古文机器翻译设计与实现", 许昌学院学报, no. 05 *
王超;韩丽娜;王子健;: "古茶诗歌的英语翻译方式和技巧研究", 福建茶叶, no. 12 *
覃骄燕;: "外事翻译中的时代性问题――以中越外事翻译为例", 视听, no. 08 *
陈晨;陈小莹;李永宏;于洪志;: "《仓央嘉措情歌》的用词风格统计研究", 西北民族大学学报(自然科学版), no. 01 *

Also Published As

Publication number Publication date
CN116070643B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和***
CN111488726B (zh) 基于指针网络的非结构文本抽取多任务联合训练方法
CN111563383A (zh) 一种基于BERT与SemiCRF的中文命名实体识别方法
CN109933801A (zh) 基于预测位置注意力的双向lstm命名实体识别方法
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN111612103A (zh) 结合抽象语义表示的图像描述生成方法、***及介质
CN112883732A (zh) 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN113011202A (zh) 基于多任务训练的端到端图像文本翻译方法、***、装置
CN112633431B (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及***
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN110837736B (zh) 一种基于字结构的中文医疗记录的命名实体识别方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN114169312A (zh) 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN114861600A (zh) 一种面向ner的中文临床文本数据增强方法及装置
CN114091450B (zh) 一种基于图卷积网络的司法领域关系抽取方法和***
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110046356A (zh) 标签嵌入在微博文本情绪多标签分类中的应用研究
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN114328934A (zh) 一种基于注意力机制的多标签文本分类方法及***
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN113609857A (zh) 基于级联模型和数据增强的法律命名实体识别方法及***
CN112651241A (zh) 一种基于半监督学习的汉语并列结构自动识别方法
CN116070643B (zh) 一种古文到英文的固定风格翻译方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant