CN110765766B

CN110765766B - 一种面向神经网络机器翻译的德文词法分析方法及***

Info

Publication number: CN110765766B
Application number: CN201911029182.4A
Authority: CN
Inventors: 张孝飞; 周聪; 刘煜; 范婷婷; 葛昱晖
Original assignee: Beijing Zhong Xian Electronic Technology Development Co ltd
Current assignee: Beijing Zhong Xian Electronic Technology Development Co ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2022-05-17
Anticipated expiration: 2039-10-25
Also published as: CN110765766A

Abstract

本发明涉及机器翻译技术领域，尤其涉及一种面向神经网络机器翻译的德文词法分析方法及***；方法包括以下步骤：将德语单词一一进行词典查询；将不规则变形的变形词进行还原；将缩写词还原成单词原形；将规则变形的变形词进行还原；将复合词拆分为独立的构成词组合。本发明所公开的面向神经网络机器翻译的德文词法分析方法及***，利用神经网络机器翻译技术，将德文变形词、缩写词、复合词的词法分析信息进行深度学习，该方法有助于降低维度，解决数据稀疏问题，克服了机器翻译中德语变形词、缩写词、复合词因词典未收录而不识别、不翻译的现象，同时大大提高了句对齐语料的准确度、利用率以及机器翻译的可读性，改善了机器翻译译文的质量。

Description

一种面向神经网络机器翻译的德文词法分析方法及***

技术领域

本发明涉及机器翻译技术领域，尤其涉及一种面向神经网络机器翻译的德文词法分析方法及***。

背景技术

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。随着人工智能的快速发展，循环神经网络等深度学习网络结构已被广泛应用于自然语言处理领域，神经网络机器翻译便是其产物之一。作为近年来兴起的一种全新的机器翻译技术，神经网络机器翻译与过去的基于规则的机器翻译和基于统计的机器翻译相比在翻译质量上取得了巨大的突破，使机器翻译的商业应用变得触手可及。

中国专利CN201810845896.1提供了一种神经网络机器翻译模型的训练方法和装置，包括：获取多种高资源语言对和低资源语言对；对高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作；将操作后的每种高资源语言对作为对应的父模型的训练集，将操作后的低资源语言对作为孩子模型的训练集，根据预设顺序对各父模型按照迁移学习的方法进行训练，以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型；根据最后一个训练好的父模型训练所述孩子模型，获得用于翻译低资源语言的神经网络机器翻译模型；使得在低资源的语言对上训练出来的孩子模型的性能得到明显提升。

然而，在现有的德文翻译***中，存在机器翻译中词典未收录的德文变形词、缩写词、复合词的不识别、不翻译的问题。因此，为了解决上述问题，急需发明一种新的面向神经网络机器翻译的德文词法分析方法及***。

发明内容

本发明的目的在于：提供一种面向神经网络机器翻译的德文词法分析方法及***，用于解决机器翻译中词典未收录的德文变形词、缩写词、复合词的不识别、不翻译的问题。

本发明提供了下述方案：

一种面向神经网络机器翻译的德文词法分析方法，包括以下步骤：

将德语单词一一进行词典查询；

将不规则变形的变形词进行还原；

将缩写词还原成单词原形；

将规则变形的变形词进行还原；

将复合词拆分为独立的构成词组合，得到处理后德语单词，输入到神经网络中进行深度学习。

优选地，所述的面向神经网络机器翻译的德文词法分析方法还包括：

将还原成功的变形词、缩写词、复合词的词法分析信息进行标注；

将标注的变形词、缩写词、复合词的词法分析信息进行神经网络机器翻译的深度学习。

优选地，将德语单词一一进行词典查询的步骤，具体为：

在接收德语文本之后，对其中每一个德语单词进行词典查询，若反馈结果为“true”，则直接输出原形词；若反馈结果为“false”，则执行下一步骤。

优选地，将不规则变形的变形词进行还原的步骤，具体为：

查询特殊词汇表，若反馈结果为“true”，则直接根据特殊词汇表将该变形词还原为原形，若反馈结果为“false”，则执行下一步骤。

优选地，将缩写词还原成单词原形的步骤，具体为：

查询缩写词表，若反馈结果为“true”，则直接根据缩写词表将该变形词还原为原形，若反馈结果为“false”，则执行下一步骤。

优选地，将规则变形的变形词进行还原的步骤，具体为：

通过词尾查询，确定适合该变形词的词形还原规则，并通过该词形还原规则进行还原；

将还原结果进行词典查询，若反馈结果为“true”，则还原成功；若反馈结果为“false”，则通过该条还原规则还原失败，通过下一条还原规则进行还原；

以此类推，若通过某条还原规则的还原结果的词典查询反馈结果为“true”，则还原成功；若所有还原规则进行完毕，词典查询反馈结果均为“false”，则执行下一步骤。

优选地，将复合词拆分为独立的构成词组合的步骤，具体为：

对待处理复合词进行正向最大匹配，并对得到的各构成词字段一一进行词典查询，若反馈为“true”，则该构成词字段进入记忆库，若反馈结果为“false”，则执行下一步骤；

对前项构成词字段和/或后项剩余字段和/或整个字段进行标志判定及标志处理；

对经过标志处理之后的后项剩余字段和/或整个字段重新进行正向最大匹配，并对得到的各构成词字段一一进行词典查询，若反馈为“true”，则该构成词字段进入记忆库，若反馈为“false”，则直接输出该复合词，不再进行拆分；

对记忆库里的构成词字段进行后处理。

优选地，每一次正向最大匹配的结果均保留两种形式，优先为首字母大写，其次为首字母小写；正向最大匹配时，构成词字段应不少于三个字母。

优选地，机器深度学习训练基本公式为h＝g(W^Tx+b)，其中，x为输入值，W值和b值根据由反向传播算法计算出的差值进行调整。

进一步地，本发明还提供了一种面向神经网络机器翻译的德文词法分析***，包括：

词典查询模块，用于将单词或者处理后的单词一一进行词典查询；

特殊词汇还原模块，用于通过查询特殊词汇表将不规则变形的变形词进行还原；

缩写词还原模块，用于通过查询缩写词表将缩写词还原成单词原形；

规则还原模块，用于通过词形还原规则表将规则变形的变形词进行还原；

复合词拆分模块，用于将复合词拆分为独立的构成词组合；

标注模块，用于将还原成功的变形词、缩写词、复合词的词法分析信息进行标注；

深度学习模块，用于将标注的变形词、缩写词、复合词的词法分析信息进行神经网络机器翻译的深度学习。

本发明产生的有益效果：

本发明所公开的面向神经网络机器翻译的德文词法分析方法及***，方法包括以下步骤：将德语单词一一进行词典查询；将不规则变形的变形词进行还原；将缩写词还原成单词原形；将规则变形的变形词进行还原；将复合词拆分为独立的构成词组合；利用神经网络机器翻译技术，将德文变形词、缩写词、复合词的词法分析信息进行深度学习，该方法有助于降低维度，解决数据稀疏问题，克服了机器翻译中德语变形词、缩写词、复合词因词典未收录而不识别、不翻译的现象，同时大大提高了句对齐语料的准确度、利用率以及机器翻译的可读性，改善了机器翻译译文的质量。

附图说明

图1为本发明的面向神经网络机器翻译的德文词法分析方法的流程框图。

图2为本发明的面向神经网络机器翻译的德文词法分析***的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整地传达给本领域的技术人员。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

参见图1所示，一种面向神经网络机器翻译的德文词法分析方法，包括以下步骤：

1将德语单词一一进行词典查询；

2将不规则变形的变形词进行还原；

3将缩写词还原成单词原形；

4将规则变形的变形词进行还原；

5将复合词拆分为独立的构成词组合。

所述的面向神经网络机器翻译的德文词法分析方法还包括：

6将还原成功的变形词、缩写词、复合词的词法分析信息进行标注；

7将标注的变形词、缩写词、复合词的词法分析信息进行神经网络机器翻译的深度学习。

将德语单词一一进行词典查询的步骤1，具体为：

在接收德语文本之后，对其中每一个德语单词进行词典查询，若反馈结果为“true”，则直接输出原形词；若反馈结果为“false”，则执行下一步骤2。

将不规则变形的变形词进行还原的步骤2，具体为：

查询特殊词汇表，若反馈结果为“true”，则直接根据特殊词汇表将该变形词还原为原形，若反馈结果为“false”，则执行下一步骤3。

将缩写词还原成单词原形的步骤3，具体为：

查询缩写词表，若反馈结果为“true”，则直接根据缩写词表将该变形词还原为原形，若反馈结果为“false”，则执行下一步骤4。

将规则变形的变形词进行还原的步骤4，具体为：

以此类推，若通过某条还原规则的还原结果的词典查询反馈结果为“true”，则还原成功；若所有还原规则进行完毕，词典查询反馈结果均为“false”，则执行下一步骤5。

将复合词拆分为独立的构成词组合的步骤5，具体为：

对记忆库里的构成词字段进行后处理。

每一次正向最大匹配的结果均保留两种形式，优先为首字母大写，其次为首字母小写；正向最大匹配时，构成词字段应不少于三个字母。

机器深度学习训练基本公式为h＝g(W^Tx+b)，其中，x为输入值，W值和b值根据由反向传播算法计算出的差值进行调整。

本实施例中所述面向神经网络机器翻译的德文词法分析方法，包括如下步骤：

1.接收德语文本之后，对其中每一个德语单词首先进行词典查询，若反馈结果为“true”，则直接输出原形词；若反馈结果为“false”，则执行下一步骤；

2.查询特殊词汇表，若反馈结果为“true”，则直接根据特殊词汇表将该变形词还原为原形，如变形词aβ还原为essen，若反馈结果为“false”，则执行下一步骤；

3.查询缩写词表，若反馈结果为“true”，则直接根据缩写词表将该变形词还原为原形，如缩写词Abb.还原为Abbildung，若反馈结果为“false”，则执行下一步骤；

4.通过词尾查询，确定适合该变形词的词形还原规则，并通过该词形还原规则进行还原，将还原结果进行词典查询，若反馈结果为“true”，则还原成功；若反馈结果为“false”，则通过该条还原规则还原失败，通过下一条还原规则进行还原(还原规则自上往下具有优先级顺序)，以此类推，若通过某条还原规则的还原结果的词典查询反馈结果为“true”，则还原成功；若所有还原规则进行完毕，词典查询反馈结果均为“false”，则执行下一步骤。具体还原规则实例如下：

*estens-＞FIND(IL，(HEAD，1)，LOWERCASE)，INFLEX(-，|

a)

其中esten表示某个单词以该后缀结尾；FIND(IL，(HEAD，1)，LOWERCASE)表示搜索条件为：在该单词内部从左侧起开头第一个字母为小写；INFLEX(-，|

a)表示：若满足该搜索条件，则把该单词的后缀去掉，同时把单词内含有的字母

还原为字母a。如变形词

还原为alt。

*t-＞FIND(IL，(HEAD，1)，LOWERCASE)，INFLEX(-，en)

其中t表示某个单词以该后缀结尾；FIND(IL，(HEAD，1)，LOWERCASE)表示搜索条件为：在该单词内部从左侧起开头第一个字母为小写；INFLEX(-，en)表示：若满足该搜索条件，则把该单词的后缀t还原为en。如变形词kommt还原为kommen。

5.对该单词进行复合词拆分处理，具体包括：

1)对待处理复合词进行正向最大匹配，每一次正向最大匹配的结果均保留两种形式，优先为首字母大写，其次为首字母小写。正向最大匹配时，构成词字段应不少于三个字母；正向最大匹配结束时，若后项剩余字段仅为“en”、“er”、“n”、“e”、“s”、“es”、“ern”、“se”、“ses”、“sen”、“d”、“de”或“den”，则将其删除即可。由此得到的各构成词字段需一一经过词典查询，若反馈为“true”，则该构成词字段进入记忆库，若反馈结果为“false”，则执行下一步骤；

2)对前项构成词字段和/或后项剩余字段和/或整个字段进行标志判定及标志处理，具体包括：若该前项构成词字段以“ung”或者

或者“ion”结尾，同时后项剩余字段以“s”开头，则将后项剩余字段的开头字母“s”删除，然后进行下一步骤；若后项剩余字段和/或整个字段中含有“n”、“e”、“er”或“s”，则将后项剩余字段和/或整个字段的第一个字母到以该字母结尾的字段进行词形还原，若字段中同时含有“n”、“e”、“er”、“s”中的至少两个字母，则按照“n”、“e”、“er”、“s”顺序依次截取字段并依次还原，若单词结尾为“ern”、“se”、“ses”、“sen”，则通过词形还原规则进行还原，然后进行下一步骤；若通过以上两种标志处理方法均未成功拆分该复合词，则在后项剩余字段后面依次添加字母“e”、“en”、“n”，然后进行下一步骤；若后项剩余字段首字母为“s”、“n”或“e”或者后项剩余字段前两个字母“en”、“er”或“es”，则将该首字母或者前两个字母去掉，然后进行下一步骤。

3)对经过标志处理之后的后项剩余字段和/或整个字段重新进行正向最大匹配，由此得到的各构成词字段需一一经过词典查询，若反馈为“true”，则该构成词字段进入记忆库，若反馈为“false”，则直接输出该复合词，不再进行拆分；

4)对记忆库里的构成词字段进行后处理，具体包括：如果记忆库里的构成词字段以“en”结尾并且首字母小写，则将其首字母转换为大写并删除构成词字段结尾的字母“n”，然后进行词典查询，若反馈为“true”，则该处理后的构成词字段即接下来要输出的构成词。若反馈为“false”，则将其首字母转换为大写并删除构成词字段结尾的字母“en”，然后进行词典查询，若反馈为“true”，则该处理后的构成词字段即接下来要输出的构成词；若反馈仍为“false”，则保留记忆库里以“en”结尾的构成词字段形式，接下来输出为构成词，复合词最终输出形式为构成词+构成词+...，如德语复合词Waschmaschinentür拆分后的结果为Waschmaschine+Tür；

6.将通过特殊词汇表、缩写词表、词形还原规则表及复合词拆分还原的单词的词法分析信息进行标注；

标注后的输出结果示例如下：5zeigen zxst eine Schnittansicht des Draht zxsesin 4 entlang der Linie V；(原文5zeigt eine Schnittansicht des Drahtes in4 entlang der Linie V；)。

7.神经网络机器翻译将标注的该单词的词法分析信息进行深度学习。

具体地，所述机器深度学习训练基本公式为h＝g(W^Tx+b)，其中，x为输入值(即如例句5zeigen zxst eine Schnittansicht des Draht zxses in4 entlang der LinieV；)，w值和b值根据由反向传播算法计算出的差值进行调整。深度学习主要包括编码(encode)和解码(decode)两个过程，在编码过程中，其中，多层神经网络的第一层由下式给出：h(1)＝g(1)(W(1)^Tx+b(1))；第二层由下式给出h(2)＝g(2)(W(2)^Th(1)+b(2))；第三层由下式给出h(3)＝g(3)(W(3)^Th(2)+b(3))......，第n层由下式给出h(n)＝g(n)(W(n)^Th(n-1)+b(n))......，将编码得到的结果h(n)作为解码层输入值按照基本公式进行多层计算得出中文结果，利用反向传播算法进行计算从而实现更好地学习效果。

参见图2所示，一种面向神经网络机器翻译的德文词法分析***，包括：

词典查询模块210，用于将单词或者处理后的单词一一进行词典查询；

特殊词汇还原模块220，用于通过查询特殊词汇表将不规则变形的变形词进行还原；

缩写词还原模块230，用于通过查询缩写词表将缩写词还原成单词原形；

规则还原模块240，用于通过词形还原规则表将规则变形的变形词进行还原；

复合词拆分模块250，用于将复合词拆分为独立的构成词组合；

标注模块250，用于将还原成功的变形词、缩写词、复合词的词法分析信息进行标注；

深度学习模块270，用于将标注的变形词、缩写词、复合词的词法分析信息进行神经网络机器翻译的深度学习。

本实施例还提供一种适于实现上文描述的面向神经网络机器翻译的德文词法分析方法的计算机***。计算机***包括处理器和计算机可读存储介质。该计算机***可以执行根据本发明实施例的方法。

具体地，处理器例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器还可以包括用于缓存用途的板载存储器。处理器可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质可以包括计算机程序，该计算机程序可以包括代码/计算机可执行指令，其在由处理器执行时使得处理器执行根据本发明实施例的方法或其任何变形。

计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序中的代码可以包括一个或多个程序模块，例如包括词典查询模块、特殊词汇还原模块、缩写词还原模块、规则还原模块等。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器执行时，使得处理器可以执行根据本发明实施例的方法或其任何变形。

根据本发明的实施例，上述模块中的至少一个可以实现为计算机程序模块，其在被处理器执行时，可以实现上面描述的相应操作。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本实施例中所述面向神经网络机器翻译的德文词法分析方法及***，方法包括以下步骤：1将德语单词一一进行词典查询；2将不规则变形的变形词进行还原；3将缩写词还原成单词原形；4将规则变形的变形词进行还原；5将复合词拆分为独立的构成词组合；6将还原成功的变形词、缩写词、复合词的词法分析信息进行标注；7利用神经网络机器翻译技术，将德文变形词、缩写词、复合词的词法分析信息进行深度学习，该方法有助于降低维度，解决数据稀疏问题，克服了机器翻译中德语变形词、缩写词、复合词因词典未收录而不识别、不翻译的现象，同时大大提高了句对齐语料的准确度、利用率以及机器翻译的可读性，改善了机器翻译译文的质量。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向神经网络机器翻译的德文词法分析方法，其特征在于：包括以下步骤：

将德语单词还原成原形词而得到处理后德语单词，输入到神经网络中进行深度学习；

其中，所述将德语单词还原成原形词包括：

依次执行以下步骤，直至得到原形词：

将德语单词一一进行词典查询；

将不规则变形的变形词进行还原；

将缩写词还原成单词原形；

将规则变形的变形词进行还原；以及

将复合词拆分为独立的构成词组合；

其中，所述将复合词拆分为独立的构成词组合的步骤，具体为：

对待处理复合词进行正向最大匹配，每一次正向最大匹配的结果均保留两种形式，优先为首字母大写，其次为首字母小写，正向最大匹配时，构成词字段应不少于三个字母，并对得到的各构成词字段一一进行词典查询，若反馈为“true”，则该构成词字段进入记忆库，若反馈结果为“false”，则执行下一步骤；

对记忆库里的构成词字段进行后处理。

2.根据权利要求1所述的面向神经网络机器翻译的德文词法分析方法，其特征在于：还包括：

3.根据权利要求2所述的面向神经网络机器翻译的德文词法分析方法，其特征在于：将德语单词一一进行词典查询的步骤，具体为：

4.根据权利要求3所述的面向神经网络机器翻译的德文词法分析方法，其特征在于：将不规则变形的变形词进行还原的步骤，具体为：

5.根据权利要求4所述的面向神经网络机器翻译的德文词法分析方法，其特征在于：将缩写词还原成单词原形的步骤，具体为：

6.根据权利要求5所述的面向神经网络机器翻译的德文词法分析方法，其特征在于：将规则变形的变形词进行还原的步骤，具体为：

7.根据权利要求1所述的面向神经网络机器翻译的德文词法分析方法，其特征在于：

8.一种面向神经网络机器翻译的德文词法分析***，其特征在于：包括：

复合词拆分模块，用于将复合词拆分为独立的构成词组合；

深度学习模块，用于将标注的变形词、缩写词、复合词的词法分析信息进行神经网络机器翻译的深度学习；

其中，所述复合词拆分模块用于执行以下操作将复合词拆分为独立的构成词组合：

对待处理复合词进行正向最大匹配，每一次正向最大匹配的结果均保留两种形式，优先为首字母大写，其次为首字母小写；正向最大匹配时，构成词字段应不少于三个字母，并对得到的各构成词字段一一进行词典查询，若反馈为“true”，则该构成词字段进入记忆库，若反馈结果为“false”，则执行下一步骤；

对记忆库里的构成词字段进行后处理。