CN109783825B

CN109783825B - 一种基于神经网络的古文翻译方法

Info

Publication number: CN109783825B
Application number: CN201910012805.0A
Authority: CN
Inventors: 吕建成; 杨可心; 屈茜; 刘大一恒
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2020-04-28
Anticipated expiration: 2039-01-07
Also published as: CN109783825A

Abstract

本发明公开了一种基于神经网络的古文翻译方法，其包括以下步骤：S1、获取古文篇章及对应的翻译数据作为初始样本，S2、对初始样本依次进行子句对齐、数据分词和数据增广操作，得到古文翻译语料库；S3、将古文翻译语料库作为神经机器翻译模型的数据库，对序列到序列模型进行训练，得到训练好的神经网络；S4、将待翻译的古文作为训练好的神经网络的输入，完成对古文的翻译。本发明通过引入多种词典进行分词，能够给翻译模型提供准确的人名地名以及俗语信息，改善专有名词翻译效果，且本发明可以自动进行子句对齐，能够通过注意力机制完成字、词之间的隐式对齐，并通过神经网络对待翻译的古文子句进行翻译，有效提高翻译效率和准确度。

Description

一种基于神经网络的古文翻译方法

技术领域

本发明涉及古文翻译领域，具体涉及一种基于神经网络的古文翻译方法。

背景技术

古人在思想、科学、文艺上所达到的高度和取得的成就是中华民族智慧和血汗的结晶，作为民族瑰宝，是不可丢弃的。这些文化遗产大多以文献的形式所承载，然而古人所用的语言和现代所用的语言有很大的区别，是现代人很难理解的，无形中为古文化研究设立了很高的门槛。过去只能通过古文化学者逐字逐句进行翻译，耗时耗力，成本较高。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于神经网络的古文翻译方法解决了逐字逐句翻译效率低的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于神经网络的古文翻译方法，其包括以下步骤：

S1、获取古文篇章及对应的翻译数据作为初始样本，

S2、对初始样本依次进行子句对齐、数据分词和数据增广操作，得到古文翻译语料库；

S3、将古文翻译语料库作为神经机器翻译模型的数据库，对序列到序列模型进行训练，得到训练好的神经网络；

S4、将待翻译的古文作为训练好的神经网络的输入，完成对古文的翻译。

进一步地，步骤S1的具体方法为：

从互联网上爬取古文篇章及对应的翻译数据，并对爬取的数据进行数据清洗，将清洗后的数据作为初始样本。

进一步地，步骤S2中对初始样本进行子句对齐的方法包括以下子步骤：

S2-1-1、对初始样本中的现代汉语进行分词，并按照从左至右的顺序将古文与现代汉语进行匹配；

S2-1-2、将已经匹配的词语从原句中删除，对于没有与现代汉语相对应的古文，引进古文字典建立逆文档频率词典，并获取每个未匹配古文字符的逆文档频率分数；

S2-1-3、检索古文字典定义的每个不匹配的古文字符，并使用它与剩余的现代汉语词汇进行匹配；

S2-1-4、根据公式

获取词法匹配的匹配度L(s,t)；其中t表示现代汉语子句；s表示古文子句；|s|表示古文子句的长度；

为指示函数，若s中的字符c能直接匹配上现代汉语子句t中的词语则

为1，否则

为0；

和

分别为s和t中剩余的尚未匹配的字符所组成的字符串；

为指示函数，若古文字符c的现代语解释中能有某个字符k匹配上现代汉语中剩余的现代文词汇，则从IDF词典中取出它的分数，记为idf_k，否则为0；β为逆文档频率的标准化参数；

S2-1-5、建立古文子句与现代汉语子句的翻译对应模型；其中翻译对应模型的翻译对应方式包括1→0方式、0→1方式、1→1方式、1→2方式、2→1方式和2→2方式；→表示翻译对应，→的前端为古文子句对应数目，→的后端为现代汉语子句对应数目；

S2-1-6、对于每个古文子句，获取其翻译对应模型中每种翻译对应方式的概率Pr(a→b)；0≤a,b≤2；

S2-1-7、获取每个古文自然段与对应的现代汉语自然段的长度比例，并获取所有长度比例的均值u和标准差σ；

S2-1-8、根据公式

获取统计信息S(s,t)；其中

是正态分布概率密度函数；

S2-1-9、根据公式

获取编辑距离数值E(s,t)；其中EditDis(s,t)为一句古文转译为现代汉语时的操作数，操作数包括***、删除和替换的总次数；

S2-1-10、根据公式

d(s,t)＝L(s,t)+γS(s,t)+λE(s,t)

得到任一古文子句对应到每个现代汉语子句的分值D(i,j)；其中D(i,j)具体为第i个古文子句对应到第j个现代汉语子句所得的分数；γ和λ均为权重参数；s_i为第i个古文子句；s_i-1为第i-1个古文子句；s_i-2为第i-2个古文子句；t_j为第j个现代汉语子句；t_j-1为第j-1个现代汉语子句；t_j-2为第j-2个现代汉语子句；NULL表示句子为空，即无对应的子句。

S2-1-11、对于任一古文子句，选取其对应分值最大的现代汉语子句作为其对齐子句，完成子句对齐。

进一步地，步骤S2中数据分词的具体方法为：

分别构建人名词典、地名词典和俗语词典，并根据构建的人名词典、地名词典和俗语词典对古文子句中的人名、地名和俗语进行分词。

进一步地，步骤S2中数据增广的具体方法包括以下子步骤：

S2-2-1、采用word2vec构建近义词词典，对近义词词典中每一个词只选取和它相似度超过0.8的近义词，得到每一条数据由一个词以及和它最相近的两至三个词构成的清洗后近义词词典，完成近义词增广；

S2-2-2、将每条数据和其后面的数据进行拼接，直至句末标点为感叹号、问号或句号，或者拼接的子句数据达到四条，将拼接的子句作为新的子句数据，完成基于子句的增广；

S2-2-3、采用统计机器翻译模型的giza++对齐工具，得到每一句古文的所有词语和其对应现代汉语的所有词语的对位信息，并根据对位信息调整古文语序，得到古文翻译语料库。

进一步地，步骤S3的具体方法包括以下子步骤：

S3-1、将古文翻译语料库中的古文子句转换为向量形式得到古文向量，并将每一个古文子句对应的古文向量作为一个训练基础单元输入序列到序列模型；

S3-2、根据公式

forget_m＝sigmoid(W₁·[hidden_m-1，m]+b₁)

input_m＝sigmoid(W₂·[hidden_m-1，m]+b₂)

output_m＝sigmoid(W₄·[hidden_m-₁，m]+b₄)

hidden_m＝output_m*tanh(C_m)

获取序列到序列模型的编码器中任一个神经元在输入训练基础单元中第m个古文向量元素后的隐藏层状态hidden_m；其中hidden_m-₁为编码器中该神经元在输入第m-1个古文向量元素后的隐藏层状态；sigmoid(·)为sigmoid函数；tanh(·)为双曲正切函数；forget_m、input_m、

C_m和output_m均为输入第m个古文向量元素后的中间参数；C_m-1为输入第m-1个古文向量元素后的中间参数；b₁、b₂、b₃和b₄均表示偏置；W₁、W₂、W₃和W₄均表示权重；编码器中的隐藏层初始状态采用随机初始化进行设置；

S3-3、将序列到序列模型的编码器中每个神经元在输入最后一个古文向量元素后的隐藏层状态组合成向量，得到序列到序列模型的编码器与当前训练基础单元相对应的隐藏层状态向量hidden_M；

S3-4、将与编码器中输入的古文子句相对应的现代汉语子句作为基础校验单元输入解码器，并根据公式

forget_n＝sigmoid(W₅·[state_n-1，n]+b₅)

input_n＝sigmoid(W₆·[state_n-1，n]+b₆)

output_n＝sigmoid(W₈·[state_n-1，n]+b₈)

state_n＝output_n*tanh(C_n)

获取序列到序列模型的解码器中任一个神经元在输入第n个现代汉语词后相对应的隐藏层状态state_n；state_n-1为编码器中该神经元在输入第n-1个现代汉语后的隐藏层状态；sigmoid(·)为sigmoid函数；tanh(·)为双曲正切函数；forget_n、input_n、

C_n和output_n均为输入第n个现代汉语后的中间参数；C_n-1为输入第n-1个现代汉语后的中间参数；b₅、b₆、b₇和b₈均表示偏置；W₅、W₆、W₇和W₈均表示权重；解码器中的隐藏层初始状态采用编码器的隐藏层状态的值进行设置；

S3-5、将序列到序列模型的解码器中每个神经元再输入第n个现代汉语词后相对应的隐藏层状态组合成向量，得到序列到序列模型的解码器中与第n个现代汉语词相对应的隐藏层状态向量state_Y；

S3-6、根据公式

e_nM＝bmm(state_Y，hidden_M)

e_nx＝bmm(state_Y，hidden_x)

获取最后一个古文向量元素与第n个现代汉语词共同对应的序列到序列模型的注意力a_nM；exp(·)为以自然常数e为底的指数函数；e_nM和e_nx为中间参数；bmm(·)表示点乘；M为古文向量中的元素个数；hidden_x为编码器输入第m个古文向量元素后的隐藏层状态，hidden_x∈(hidden₁，hidden₂，...，hidden_M)；

S3-7、根据公式

获取输入古文子句对应至第n个现代汉语词的编码器输出的隐藏层状态的加权平均context_n，即对应至第n个现代汉语词的上下文向量；

S3-8、根据公式

将对应至第n个现代汉语词的上下文向量和解码器的隐藏层状态进行级联并送入全连接网络W_context，得到级联状态

S3-9、根据公式

获取序列到序列模型对应于第n个现代汉语词的输出

进而得到序列到序列模型对应于该句现代汉语的输出

其中

softmax(·)为softmax函数；W_s为网络权重；

S3-10、根据公式

获取序列到序列模型对应于该句现代汉语的输出

与真实答案y之间的差距

若差距

大于阈值，则更新序列到序列模型的参数，直至差距

小于等于阈值，得到训练好的神经网络；其中N为该句现代汉语中词的总数量；y_n为第n个现代汉语词，y_n∈y，真实答案y即为输入解码器的现代汉语。

本发明的有益效果为：本发明通过引入多种词典进行分词，能够给翻译模型提供准确的人名地名以及俗语信息，改善专有名词翻译效果，且本发明可以自动进行子句对齐，能够通过注意力机制完成字、词之间的隐式对齐，并通过神经网络对待翻译的古文子句进行翻译，有效提高翻译效率和准确度。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该基于神经网络的古文翻译方法包括以下步骤：

S1、获取古文篇章及对应的翻译数据作为初始样本，

步骤S1的具体方法为：

步骤S2中对初始样本进行子句对齐的方法包括以下子步骤：

S2-1-4、根据公式

为1，否则

为0；

和

分别为s和t中剩余的尚未匹配的字符所组成的字符串；

为指示函数，若古文字符c的现代语解释中能有某个字符k匹配上现代汉语中剩余的现代文词汇，则从逆文档频率词典中取出它的频率分数，记为idf_k，否则为0；β为逆文档频率的标准化参数；

S2-1-8、根据公式

获取统计信息S(s,t)；其中

是正态分布概率密度函数；

S2-1-9、根据公式

S2-1-10、根据公式

d(s,t)＝L(s,t)+γS(s,t)+λE(s,t)

步骤S2中数据分词的具体方法为：

步骤S2中数据增广的具体方法包括以下子步骤：

S2-2-1、采用word2vec构建近义词词典，对近义词词典中每一个词只选取和它相似度超过0.8的近义词，得到每一条数据由一个词以及和它最相近的两至三个词构成的清洗后近义词词典，完成近义词增广；在相似度计算的时候，计算两个词的word2vec向量的两个向量的夹角的余弦值作为相似度的值；

步骤S3的具体方法包括以下子步骤：

S3-2、根据公式

forget_m＝sigmoid(W₁·[hidden_m-1，m]+b₁)

input_m＝sigmoid(W₂·[hidden_m-1，m]+b₂)

output_m＝sigmoid(W₄·[hidden_m-1，m]+b₄)

hidden_m＝output_m*tanh(C_m)

获取序列到序列模型的编码器中任一个神经元在输入训练基础单元中第m个古文向量元素后的隐藏层状态hidden_m；其中hidden_m-1为编码器中该神经元在输入第m-1个古文向量元素后的隐藏层状态；sigmoid(·)为sigmoid函数；tanh(·)为双曲正切函数；forget_m、input_m、

forget_n＝sigmoid(W₅·[state_n-1，n]+b₅)

input_n＝sigmoid(W₆·[state_n-1，n]+b₆)

output_n＝sigmoid(W₈·[state_n-1，n]+b₈)

state_n＝output_n*tanh(C_n)

S3-6、根据公式

e_nM＝bmm(state_Y，hidden_M)

e_nx＝bmm(state_Y，hidden_x)

获取最后一个古文向量元素与第n个现代汉语词共同对应的序列到序列模型的注意力a_nM；exp(·)为以自然常数e为底的指数函数；e_nM和e_nx为中间参数；bmm(·)表示点乘；M为古文向量中的元素个数；hidden_x为编码器输入第m个古文向量元素后的隐藏层状态，hfdden_x∈(hfdden₁，hfdden₂，...，hfdden_M)；

S3-7、根据公式

S3-8、根据公式

S3-9、根据公式

获取序列到序列模型对应于第n个现代汉语词的输出

进而得到序列到序列模型对应于该句现代汉语的输出

其中

softmax(·)为softmax函数；W_s为网络权重；

S3-10、根据公式

获取序列到序列模型对应于该句现代汉语的输出

与真实答案y之间的差距

若差距

大于阈值，则更新序列到序列模型的参数，直至差距

综上所述，本发明通过引入多种词典进行分词，能够给翻译模型提供准确的人名地名以及俗语信息，改善专有名词翻译效果，且本发明可以自动进行子句对齐，能够通过注意力机制完成字、词之间的隐式对齐，并通过神经网络对待翻译的古文子句进行翻译，有效提高翻译效率和准确度。

Claims

1.一种基于神经网络的古文翻译方法，其特征在于，包括以下步骤：

S1、获取古文篇章及对应的翻译数据作为初始样本，

S4、将待翻译的古文作为训练好的神经网络的输入，完成对古文的翻译；

所述步骤S2中对初始样本进行子句对齐的方法包括以下子步骤：

S2-1-4、根据公式

为1，否则

为0；

和

分别为s和t中剩余的尚未匹配的字符所组成的字符串；

S2-1-7、获取每个古文自然段与对应的现代汉语自然段的长度比例，并获取所有长度比例的均值μ和标准差σ；

S2-1-8、根据公式

获取统计信息S(s,t)；其中

是正态分布概率密度函数；

S2-1-9、根据公式

S2-1-10、根据公式

d(s,t)＝L(s,t)+γS(s,t)+λE(s,t)

得到任一古文子句对应到每个现代汉语子句的分值D(i,j)；其中D(i,j)具体为第i个古文子句对应到第j个现代汉语子句所得的分数；γ和λ均为权重参数；s_i为第i个古文子句；s_i-1为第i-1个古文子句；s_i-2为第i-2个古文子句；t_j为第j个现代汉语子句；t_j-1为第j-1个现代汉语子句；t_j-2为第j-2个现代汉语子句；NULL表示句子为空，即无对应的子句；

2.根据权利要求1所述的基于神经网络的古文翻译方法，其特征在于，所述步骤S1的具体方法为：

3.根据权利要求1所述的基于神经网络的古文翻译方法，其特征在于，所述步骤S2中数据分词的具体方法为：

4.根据权利要求3所述的基于神经网络的古文翻译方法，其特征在于，所述步骤S2中数据增广的具体方法包括以下子步骤：

5.根据权利要求4所述的基于神经网络的古文翻译方法，其特征在于，所述步骤S3的具体方法包括以下子步骤：

S3-2、根据公式

forget_m＝sigmoid(W₁·[hidden_m-1,m]+b₁)

input_m＝sigmoid(W₂·[hidden_m-1,m]+b₂)

output_m＝sigmoid(W₄·[hidden_m-1,m]+b₄)

hidden_m＝output_m*tanh(C_m)

forget_n＝sigmoid(W₅·[state_n-1,n]+b₅)

input_n＝sigmoid(W₆·[state_n-1,n]+b₆)

output_n＝sigmoid(W₈·[state_n-1,n]+b₈)

state_n＝output_n*tanh(C_n)

S3-6、根据公式

e_nM＝bmm(state_Y,hidden_M)

e_nx＝bmm(state_Y,hidden_x)

获取最后一个古文向量元素与第n个现代汉语词共同对应的序列到序列模型的注意力a_nM；exp(·)为以自然常数e为底的指数函数；e_nM和e_nx为中间参数；bmm(·)表示点乘；M为古文向量中的元素个数；hidden_x为编码器输入第m个古文向量元素后的隐藏层状态，hidden_x∈(hidden₁，hidden₂，…，hidden_M)；

S3-7、根据公式