CN112256840A

CN112256840A - 改进迁移学习模型进行工业互联网发现并提取信息的装置

Info

Publication number: CN112256840A
Application number: CN202011256306.5A
Authority: CN
Inventors: 林飞; 汪致伦; 王丹; 易永波; 古元
Original assignee: Beijing Act Technology Development Co ltd
Current assignee: Beijing Act Technology Development Co ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-01-22

Abstract

改进迁移学***台网站的关键业务信息提取。

Description

改进迁移学习模型进行工业互联网发现并提取信息的装置

技术领域

本发明涉及信息技术领域，特别是信息安全技术领域。

背景技术

随着制造业从数字化阶段向网络化阶段加速迈进，我国工业互联网平台迅速兴起，平台信息的及时发现与管理成为当前急需解决的一个问题。互联网中网站类别众多，如何从海量的网站中自动找到工业互联网平台网站是目前面临的第一个问题，如何从平台网站内容中提取关键的平台信息是第二个问题。

当前，工业互联网平台信息主要由人工收集，十分浪费人力和时间成本，因此一种自动发现、提取平台信息的方法极为迫切。

近年来，人工智能技术的迅猛发展在自然语言处理领域有了不小进展，其中文本分类用于将不同特征的文本，命名实体识别技术主要用于信息抽取、文本数据结构化。

目前的网站分类方法主要是基于传统机器学习算法和基于深度学习的方式，传统机器学习算法，如发明专利CN106168968A，通过计算匹配到词典的数据的权重来确定网站类别。由于构建词典难度大，且网站类别众多，传统算法很难根据词典将网站进行准确分类。基于深度学习的方法，如发明专利CN110442823A，需要大量的训练样本来训练神经网络的参数，搜集大量样本的过程较长，耗费大量的人力资源。

现有技术中命名实体识别方法主要是基于传统机器学习的实体识别方法以及基于深度学习的实体识别方法。基于传统机器学习的实体识别方法，如发明专利CN111274804A，通过统计学对标注的数据进行模型学习，将待预测的数据送至模型预测，模型利用维特比算法计算最大可能性的实体，该方法最大缺点是无法理解语义，无法胜任复杂实体识别的任务。基于深度学习的命名实体识别方法，如发明专利CN111126068A，构建神经网络模型学习语义特征，并且能学习到较为复杂的语义，但需要大量的标注数据进行学习，数据标注工作极为费时费力。

基于现有技术的复杂度高实现成本高，耗费人工量大的特点，本发明的改进迁移学习模型进行工业互联网发现并提取信息的装置，对迁移学习模型进行了改进，通过共享迁移学习模型的分层计算参数使得迁移学习模型提高了计算效率，可以针对已分类工业互联网样本数据进行快速分类建模得到工业互联网分类模型，再通过网络信息抓取和数据清洗得到实时数据，将实时数据输入工业互联网分类模型进行分类，得到实时数据的工业互联网分类，再对实时数据进行关键信息抓取得到更新的工业互联网的样本数据，并将更新的工业互联网的样本数据更新到已分类工业互联网样本数据中，本发明可以全程自动完成工业互联网的分类和信息抓取，并且可以逐渐修正和丰富已分类工业互联网样本数据，从而达到工业互联网分类模型的不断进化和改进。本发明具有高效性和实时性的特点。

用到的共有技术说明

迁移学习模型：本专利申请用到的迁移学习模型指StructBERT，StructBERT是阿里巴巴达摩院提出的NLP预训练模型，在传统BERT的基础上作出了相关改进。作者认为Bert的预训练任务忽略了语言结构language structure信息，因此StructBert在Bert原有的MaskLM的训练目标上，增加了两个基于语言结构的训练目标：词序和句序任务。

命名实体识别：命名实体识别是指在文本中识别出特殊对象，这些对象的语义类别通常在识别前被预定义好，预定义类别如人、地址、组织等。命名实体识别不仅仅是独立的信息抽取任务，它在许多大型NLP应用***如信息检索、自动文本摘要、问答***、机器翻译以及知识建库中也扮演了关键的角色。

发明内容

鉴于现有技术的不足，本发明提供的改进迁移学习模型进行工业互联网发现并提取信息的装置由网络爬虫、文本清洗模块、内容分类执行模块、改进的迁移学习模型和实体识别模块组成；

网络爬虫负责爬取网页内容并将网页内容和网页地址发送给文本清洗模块；

文本清洗模块负责将网页内容和网页地址所形成的文本中的噪声字符去除生成干净的网页信息，文本清洗模块将干净的网页信息发送给内容分类执行模块；噪声字符包括：html标签、停用词、转发符、url、标记信息；

内容分类执行模块包含了工业互联网分类模型，工业互联网分类模型由已分类互联网样本数据经过改进的迁移学习模型进行语言训练得到；工业互联网分类模型是由已分类互联网样本数据的分类标签和已分类互联网样本数据的内容属于每种分类标签的概率组成；

改进的迁移学习模型的算法表示为：1）使用StructBERT对文本中的每句话的每个字进行表示，然后使用双向Transformer学习被表示后的文本，Transformer是StructBERT中的标准程序，传统Transformer的每一层参数独立，当层数增加时，参数量也会明显上升，本模型将所有层的参数进行共享，学习一层的参数量；2）改进StructBERT的词表示为由词向量、段向量和位置向量共同表示；词向量的第一个单词用于之后的分类任务，段向量用来区别两种句子，位置向量用于表示词位置信息；3）通过四个训练任务来学习语义特征：i）遮掩语言模型，ii）预测下一句任务，iii）词序任务，iv）句子结构任务；遮掩语言模型任务是指模型在训练过程中预测随机遮掩15%的字，而在随机遮掩15%的字中80%的字替换成mask符号，10%的字不替换，10%的字替换成其他字；模型通过此任务学习文本的语义信息；预测下一句任务为了使模型学习到句子之间的关系，假设训练的输入是句子S1和S2，S2有一半的几率是S1的下一句，输入这两个句子，模型预测S2是否为S1的下一句；词序任务是从未被遮掩的序列中以5%的几率选择部分长度为3子序列，将子序列中的词序打乱，让模型重建原来的词序，从而使模型学习到句子中的词序关系；句子结构任务，给定句子对(S1,S2)，判断S2跟S1的上下关系和无关性；在采样时，对于一个句子S，1/3的概率采样S的下一句组成句对，1/3的概率采样S的上一句组成句对，1/3的概率随机采样一个其他文档的句子组成句对；

内容分类执行模块对照干净的网页信息和工业互联网分类模型，内容分类执行模块丢弃非工业互联网分类的干净的网页信息并将属于工业互联网分类的干净的网页信息发送给实体识别模块；

实体识别模块包含了实体类别模型，实体类别模型由带实体类别标签的已分类工业互联网样本数据经过改进的迁移学习模型进行语言训练得到，实体类别模型是带实体类别标签的已分类工业互联网样本数据的分类标签和带实体类别标签的已分类工业互联网样本数据的内容属于每种分类标签的概率组成；

实体识别模块对照干净的网页信息和实体类别模型，输出干净的网页信息中的内容及干净的网页信息中的内容对应的实体类别标签，生成更新的带实体类别标签的已分类工业互联网数据；

实体识别模块将更新的带实体类别标签的已分类工业互联网数据合并入带实体类别标签的已分类工业互联网样本数据。

有益效果

与传统的文本分类及信息提取的技术相比，本发明不需要海量带有标签的文本进行训练，节省了大量的人力成本；其次不受分词的影响，可以得到更多、更相关的文本特征用于网站分类及工业互联网平台网站的关键业务信息提取。

附图说明

图1是本发明的***结构图。

具体实施方式

参看图1实现本发明提供的改进迁移学习模型进行工业互联网发现并提取信息的装置由网络爬虫1、文本清洗模块2、内容分类执行模块3、改进的迁移学习模型4和实体识别模块5组成；

网络爬虫1负责爬取网页内容并将网页内容和网页地址10发送给文本清洗模块2；

文本清洗模块2负责将网页内容和网页地址10所形成的文本中的噪声字符去除生成干净的网页信息，文本清洗模2块将干净的网页信息发送给内容分类执行模块3；噪声字符包括：html标签、停用词、转发符、url、标记信息；

内容分类执行模块3包含了工业互联网分类模型41，工业互联网分类模型41由已分类互联网样本数据40经过改进的迁移学习模型4进行语言训练得到；工业互联网分类模型41是由已分类互联网样本数据40的分类标签和已分类互联网样本数据40的内容属于每种分类标签的概率组成；

改进的迁移学习模型4的算法表示为：1）使用StructBERT对文本中的每句话的每个字进行表示，然后使用双向Transformer学习被表示后的文本，Transformer是StructBERT中的标准程序，传统Transformer的每一层参数独立，当层数增加时，参数量也会明显上升，本模型将所有层的参数进行共享，学习一层的参数量；2）改进StructBERT的词表示为由词向量、段向量和位置向量共同表示；词向量的第一个单词用于之后的分类任务，段向量用来区别两种句子，位置向量用于表示词位置信息；3）通过四个训练任务来学习语义特征：i）遮掩语言模型，ii）预测下一句任务，iii）词序任务，iv）句子结构任务；遮掩语言模型任务是指模型在训练过程中预测随机遮掩15%的字，而在随机遮掩15%的字中80%的字替换成mask符号，10%的字不替换，10%的字替换成其他字；模型通过此任务学习文本的语义信息；预测下一句任务为了使模型学习到句子之间的关系，假设训练的输入是句子S1和S2，S2有一半的几率是S1的下一句，输入这两个句子，模型预测S2是否为S1的下一句；词序任务是从未被遮掩的序列中以5%的几率选择部分长度为3子序列，将子序列中的词序打乱，让模型重建原来的词序，从而使模型学习到句子中的词序关系；句子结构任务，给定句子对(S1,S2)，判断S2跟S1的上下关系和无关性；在采样时，对于一个句子S，1/3的概率采样S的下一句组成句对，1/3的概率采样S的上一句组成句对，1/3的概率随机采样一个其他文档的句子组成句对；

内容分类执行模块3对照干净的网页信息和工业互联网分类模型41，内容分类执行模块丢弃非工业互联网分类的干净的网页信息并将属于工业互联网分类的干净的网页信息发送给实体识别模块5；

实体识别模块5包含了实体类别模型51，实体类别模型51由带实体类别标签的已分类工业互联网样本数据50经过改进的迁移学习模型4进行语言训练得到，实体类别模型51是带实体类别标签的已分类工业互联网样本数据50的分类标签和带实体类别标签的已分类工业互联网样本数据50的内容属于每种分类标签的概率组成；

实体识别模块5对照干净的网页信息和实体类别模型51，输出干净的网页信息中的内容及干净的网页信息中的内容对应的实体类别标签，生成更新的带实体类别标签的已分类工业互联网数据52；

实体识别模块5将更新的带实体类别标签的已分类工业互联网数据52合并入带实体类别标签的已分类工业互联网样本数据50。

Claims

1.改进迁移学习模型进行工业互联网发现并提取信息的装置，其特征在于由网络爬虫、文本清洗模块、内容分类执行模块、改进的迁移学习模型和实体识别模块组成；