CN110427484A

CN110427484A - 一种基于深度学习的中文自然语言处理方法

Info

Publication number: CN110427484A
Application number: CN201810387340.2A
Authority: CN
Inventors: 姜龙
Original assignee: Shanghai Yi Teng Teng Education Technology Co Ltd
Current assignee: Shanghai Yi Teng Teng Education Technology Co Ltd
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2019-11-08

Abstract

本发明涉及一种基于深度学习的中文自然语言处理方法，服务器包括模型调配模块、数据切片模块、数据清洗模块、模型训练模块、模型数据库，模型调配模块包括人机交互界面、操作调配模块，模型训练模块包括通用数学算法模块、解码算法模块、混合协调算法模块、深度分类模块，包括配置参数、输入训练数据、训练数据、生成定制模型、预测原始文本等过程。本发明采用机器学习训练生成的中文深度神经网络模型完成中文自然语言处理任务，具有智能化机器学习的特点。

Description

一种基于深度学习的中文自然语言处理方法

技术领域

本发明涉及一种中文自然语言处理方法，特别涉及一种基于深度学习的NLP分词的中文自然语言处理方法，属于中文自然语言处理领域。

背景技术

机器学习是指计算机模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。机器学习广泛应用在数据挖掘、自然语言处理、生物特征识别、搜索引擎、医学诊断等领域，具体到自然语言处理领域，就是要实现基于深度学习的自然语言处理过程，利用学习训练生成的神经网络模型完成数据的处理并输出分析结果。

发明内容

本发明基于深度学习的中文自然语言处理方法公开了新的方案，采用机器学习训练生成的中文深度神经网络模型完成中文自然语言处理任务，解决了现有同类方案无智能化深度学习***的问题。

本发明基于深度学习的中文自然语言处理方法，中文自然语言处理方法通过服务器实现，服务器包括模型调配模块、数据切片模块、数据清洗模块、模型训练模块、模型数据库，模型调配模块包括人机交互界面、操作调配模块，模型训练模块包括通用数学算法模块、解码算法模块、混合协调算法模块、深度分类模块，包括过程：用户通过人机交互界面调用操作调配模块配置模型的参数、训练数据集，服务器根据用户配置的模型参数、训练数据集调用数据切片模块、数据清洗模块、模型训练模块处理、训练数据生成定制模型存入模型数据库，数据切片模块将数据切分成不同的维度，数据清洗模块筛选出有效数据，模型训练模块将数据调入深度学习网络来调配设定的算法进行计算训练，混合协调算法模块调用、协调通用数学算法模块、解码算法模块、深度分类模块对数据进行计算训练生成定制模型，服务器读取定制模型对原始文本数据进行预测后输出文本序列标记结果。

进一步，本方案的方法的模型训练的过程包括无监督预训练、有监督调优训练，无监督预训练、有监督调优训练采用反向传播算法，反向传播算法包括过程：对于每个训练样例，计算在当前模型参数取值以及训练样例上的损失函数对于模型参数的偏导数，并根据该偏导数对模型参数向梯度下降方向进行迭代，通过误差在神经网络中逐层反向传播的方式计算梯度。

进一步，本方案的方法的混合协调算法模块采用多任务并行处理的方式完成模型训练过程，多任务并行训练过程共享各任务的共同特征来提高训练效果。

本发明基于深度学习的中文自然语言处理方法采用机器学习训练生成的中文深度神经网络模型完成中文自然语言处理任务，具有智能化机器学习的特点。

附图说明

图1是本发明基于深度学习的中文自然语言处理方法的模块原理图。

图2是基于深度学习的中文自然语言处理方法的流程简图。

具体实施方式

本发明基于深度学习的中文自然语言处理方法，中文自然语言处理方法通过服务器实现，服务器包括模型调配模块、数据切片模块、数据清洗模块、模型训练模块、模型数据库，模型调配模块包括人机交互界面、操作调配模块，模型训练模块包括通用数学算法模块、解码算法模块、混合协调算法模块、深度分类模块，包括过程：用户通过人机交互界面调用操作调配模块配置模型的参数、训练数据集，服务器根据用户配置的模型参数、训练数据集调用数据切片模块、数据清洗模块、模型训练模块处理、训练数据生成定制模型存入模型数据库，数据切片模块将数据切分成不同的维度，数据清洗模块筛选出有效数据，模型训练模块将数据调入深度学习网络来调配设定的算法进行计算训练，混合协调算法模块调用、协调通用数学算法模块、解码算法模块、深度分类模块对数据进行计算训练生成定制模型，服务器读取定制模型对原始文本数据进行预测后输出文本序列标记结果。本方案的方法的模型训练的过程包括无监督预训练、有监督调优训练，无监督预训练、有监督调优训练采用反向传播算法，反向传播算法包括过程：对于每个训练样例，计算在当前模型参数取值以及训练样例上的损失函数对于模型参数的偏导数，并根据该偏导数对模型参数向梯度下降方向进行迭代，通过误差在神经网络中逐层反向传播的方式计算梯度。进一步，本方案的方法的混合协调算法模块采用多任务并行处理的方式完成模型训练过程，多任务并行训练过程共享各任务的共同特征来提高训练效果。

本方案公开了一种基于深度学习的中文自然语言处理***，通过良好的分词技术使得计算机可以读懂语义，并且很好的区分语法的双重语义，属于NLP分词领域。本方案包括完整的模型配置，并行无监督预训练以及有监督调优训练模块，对多任务训练的支持，以及标记预测与解码等功能，可以用于训练(多任务)中文NLP深度神经网络模型，并完成中文分词、词性标注以及命名实体识别任务。如图1所示，模型调配模块是整个***的入口，负责通过命令行与用户进行交互以及协调***功能，是对中文NLP深度神经网络模型及其配置信息的综合调配过程。数据切片模块是把数据切分成不同的维度。数据清洗模块是筛选有效数据。深度网络模型模块是对序列标注问题的抽象建模以及训练数据输入输出处理的实现，是把数据调入深度学习网络，进而调配不同的算法进行计算训练。通用数学模块是通用的数学计算实现，例如矩阵操作，对函数的抽象等实现过程。解码模块实现了序列标记解码算法。通用数学模块和解码算法模块是基于Akka(一种底层架构)的并行随机梯度下降训练算法的实现。混合协调算法模块通过调用以及协调通用数学模块以及其他相关模块实现了中文NLP深度神经网络模型的训练算法，并提供对多任务学习的支持，通过调用以及协调深度网络模型以及三种算法模型模块以及其他相关模块实现了中文NLP深度神经网络模型的训练算法。深度分类模块把计算结果和细分数据深度分类。

如图2所示，用户在使用本方案实现中文自然语言处理***时，首先配置中文NLP深度神经网络模型的参数，包括字嵌入层的维度、隐藏层的大小、隐藏层的数量、训练数据集以及是否多任务学习等。***将根据用户的具体配置生成中文NLP深度神经网络模型，并使用***中的中文NLP深度神经网络并行训练模块对模型首先进行无监督预训练，再进行有监督调优训练。由于整个训练过程都进行了并行化，因此可以有效的利用多CPU核的硬件环境，提升训练效率。训练完成后的模型将被保存在用户指定的文件中，用户可以使用该模型进行预测。在预测时，解码器(服务器)将读取模型文件与原始数据，并首先使用经过训练的中文NLP深度神经网络模型对原始数据进行预测，再执行解码算法并输出最终的标记结果。因此，本方案基于机器学习中的深度学习技术搭建模型实现中文自然语言处理中的分词、词性标签、命名实体等处理。

中文字符的定量计算由文本序列标记过程完成。文本序列标记指将文本看成一个由文字组成的线性序列，并给定一个由所有可能标记组成的标记集合，然后通过一个分类器给该序列中的每一个文字指定标记集合中的一个标记。中文分词、词性标注以及命名实体识别都可看作文本序列标记任务，也就意味着通过训练一个能够给句子中的每一个汉字分配一个标记的分类器的方式即可完成这些任务。例如，对句子“你好吗世界”进行分词，可通过分类器给该句子中的每一个汉字分别指定一个标记，从而得到“你(B)好(L)吗(U)世(B)界(L)”，再根据标记即可得到分词结果：“你好／吗／世界”。本专利中提出的中文NLP深度神经网络(模型)就是一个文本序列标记任务的分类器。

中文NLP深度神经网络的模型框架如图2所示，它的输入是一个固定大小的文本窗口，输出是该文本窗口中心位置汉字的标记的概率分布。该深度神经网络共分为三个模块：嵌入层(Embedding Layer)、隐藏层(Hidden Layer)、输出层(Output Layer)。汉字字典为一个列表，其中包含***可以处理的所有汉字，以及用于表示除这些汉字以外其他字符(例如数字、标点、未登陆汉字)的替代符号。字典中的每一项以其在字典列表中的位置作为序号，输入中文NLP深度神经网络的每一个字符都可对应于字典中的某项。汉字嵌入由一个实值矩阵表示，字典中每一项对应于汉字嵌入矩阵中的一个列向量。嵌入层直接处理输入中文NLP深度神经网络的文本窗口，对文本窗口中的每一个字符，首先在字典中查找到该字符以及它对应的序号，然后构造一个维度等于字典大小的一维向量，并将该向量中与当前字符在字典中的序号对应的维度置为l，其他维度置为0，这个向量称为字符的one-hot表示。使用该字符的one-hot表示在汉字嵌入矩阵中进行矩阵查询，找到输入文本窗口中的每一个字符在汉字嵌入矩阵中对应的实值向量。最后将所有这些实值向量首尾相接构成一个长向量，并输入隐藏层中。深度神经网络的隐藏层可以看成是一个高层特征抽取器，用于构建数据中高层特征的表示。因此对于基于中文NLP深度神经网络的中文分词、词性标注以及命名实体识别任务而言，嵌入层与隐藏层部分都是完全相同的，不同的部分仅仅在于输出层。

以下阐述本***的训练方法。本方案的中文NLP深度神经网络通过反向传播算法进行训练。神经网络模型作为一个参数化模型，其训练过程可以被描述为寻找一组参数使得某个包含该模型的损失函数在某个给定的数据集上取得最小值的过程，另一种完全等价的描述方式是寻找一组参数使得某个包含该模型的目标函数在某个给定的数据集上取得最大值的过程，这里目标函数可以简单的认为是对应的损失函数取负值。本方案的中文NLP深度神经网络模型训练过程中，无论是无监督预训练还是有监督调优训练均采用反向传播算法。无监督预训练和有监督调优训练的区别在于输出层结构、训练数据以及目标函数的不同。本方案采用的反向传播算法其实质上是一种基于梯度的优化算法。反向传播算法由两个部分组成，首先是随机梯度下降算法，即对于每个训练样例，计算在当前模型参数取值以及训练样例上的损失函数对于模型参数的偏导数，并根据该偏导数对模型参数向梯度下降方向进行迭代。神经网络训练中常用的损失函数为最小平方误差(Least Square Error)及对数似然误差(Log-likelihood Error)等，训练数据以及该神经网络所表示的函数都是损失函数的组成部分。神经网络的训练过程即为寻找该损失函数的极小值点，但是由于神经网络模型所表示的函数通常是高度非线性函数，难以找到全局极小值点，因此训练过程通常终止于稳定点上，这些稳定点是损失函数的局部极小值点。随机梯度下降算法的基本步骤如表l所示。

表1：神经网络的反向传播训练算法

在梯度下降算法中，具体计算梯度的过程是反向传播算法的第二个部分，即通过误差在神经网络中逐层“反向传播”的方式计算梯度。在神经网络的神经元激活函数是可导的情况下，损失函数的误差可以按照导数的链式法则在神经网络中逐层“反向传播”，同时在此过程中可以非常快速的计算出神经网络训练损失函数对所有模型参数的一阶偏导数，因此使得使用基于一阶导数的迭代方法(随机梯度下降算法)快速搜索神经网络训练目标函数的稳定点成为可能。

本方案采用多任务学习的模式建立中文分词、词性标注以及命名实体识别多任务学习模型。中文分词、词性标注以及命名实体识别这三个任务是相互关联，相互影响的。例如，命名实体的边界显然也是分词的边界，命名实体的类别和词性之间往往有很强的关联性等等。在传统的中文自然语言处理方法中，往往将这三个任务完全分割开进行，从而忽略它们之间的关系。或者采用先分词，后词性标注，最后命名实体识别这样的“管道”流程，从而导致前一个任务的错误传播到后一个任务。“管道”流程的另一个缺点是，即使在后面的任务中能够获取有用的信息，也无法影响前面任务的结果。

在机器学习领域，多任务学习是指将多个互相关联的任务通过在一定程度上共享特征表示的方法，放在一个模型中同时进行学习。这样往往比使用多个模型独立学习不同的任务有更好的效果，因为在多任务学习中，学习器可以将多个任务之间的共同特性作为一种正则化的手段有效利用。因此，多任务学习的本质是一种归纳迁移(InductiveTransfer)，这种类型的机器学习方法通过使用相关任务中的训练信号作为一种归纳偏置来提升模型的泛化能力。达成这一目标的手段是在多个相关任务分类器的学习过程中使用共享的特征表示单元。这样在一个任务中所学到的也将帮助其他任务学习得更好。

中文NLP深度神经网络非常适合用于多任务学习。深度神经网络的隐藏层可以看成是一个高层特征抽取器，用于构建数据中高层特征的表示。因此对于基于中文NLP深度神经网络的中文分词、词性标注以及命名实体识别任务而言，嵌入层与隐藏层部分都是完全相同的，不同的部分仅仅在于输出层。因此可以通过共享嵌入层与隐藏层的方式实现基于深度神经网络的中文分词、词性标注以及命名实体识别多任务学习。由于不涉及到任务相关的输出层，中文分词、词性标注以及命名实体识别多任务学习模型的预训练与单任务模型的预训练过程完全相同。在有监督训练时，每一轮训练之前首先以相等的概率随机选择当前训练任务，然后根据选择结果进行一轮该任务的有监督随机梯度下降训练，并更新嵌入层、隐藏层以及该任务的输出层，其他任务的输出层则保持不变。这样即可做到多个任务交替进行训练，并且保证训练过程中每个任务的权重相等。

中文分词、词性标注以及命名实体识别多任务学习模型的另一个好处是可以在预测时加快计算速度，由于在多任务学习模型中共享了嵌入层与隐藏层，因此对于一个文本窗口而言，只需要计算一次嵌入层和隐藏层，再分别计算不同任务的输出层即可同时完成多个任务的标记预测。另外，在该多任务学习模型中，预测时，实际上不需要计算分词任务的输出层，因为词性标记任务已经隐含了分词任务，根据词性标记任务的输出层输出的标记可以同时完成分词以及词性标记。这里分词输出层的存在仅仅是为了在训练过程中能够使用分词数据中包含的信息调节深度神经网络中隐藏层以及嵌入层的参数。

基于以上内容，本方案的基于深度学习的中文自然语言处理方法相比现有同类方案具有突出的实质性特点和显著的进步。

本方案的基于深度学习的中文自然语言处理方法并不限于具体实施方式中公开的内容，实施例中出现的技术方案可以基于本领域技术人员的理解而延伸，本领域技术人员根据本方案结合公知常识作出的简单替换方案也属于本方案的范围。

Claims

1.一种基于深度学习的中文自然语言处理方法，所述中文自然语言处理方法通过服务器实现，所述服务器包括模型调配模块、数据切片模块、数据清洗模块、模型训练模块、模型数据库，所述模型调配模块包括人机交互界面、操作调配模块，所述模型训练模块包括通用数学算法模块、解码算法模块、混合协调算法模块、深度分类模块，其特征是包括过程：

用户通过人机交互界面调用操作调配模块配置模型的参数、训练数据集，服务器根据用户配置的模型参数、训练数据集调用数据切片模块、数据清洗模块、模型训练模块处理、训练数据生成定制模型存入模型数据库，数据切片模块将数据切分成不同的维度，数据清洗模块筛选出有效数据，模型训练模块将数据调入深度学习网络来调配设定的算法进行计算训练，混合协调算法模块调用、协调通用数学算法模块、解码算法模块、深度分类模块对数据进行计算训练生成定制模型，服务器读取定制模型对原始文本数据进行预测后输出文本序列标记结果。

2.根据权利要求1所述的基于深度学习的中文自然语言处理方法，其特征在于，模型训练的过程包括无监督预训练、有监督调优训练，无监督预训练、有监督调优训练采用反向传播算法，反向传播算法包括过程：对于每个训练样例，计算在当前模型参数取值以及训练样例上的损失函数对于模型参数的偏导数，并根据该偏导数对模型参数向梯度下降方向进行迭代，通过误差在神经网络中逐层反向传播的方式计算梯度。

3.根据权利要求2所述的基于深度学习的中文自然语言处理方法，其特征在于，混合协调算法模块采用多任务并行处理的方式完成模型训练过程，多任务并行训练过程共享各任务的共同特征来提高训练效果。