CN110413725A

CN110413725A - 一种基于深度学习技术的行业数据信息抽取方法

Info

Publication number: CN110413725A
Application number: CN201910666115.7A
Authority: CN
Inventors: 肖清林
Original assignee: Fujian Qidian Space Time Digital Technology Co ltd
Current assignee: Fujian Qidian Space Time Digital Technology Co ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-05

Abstract

一种基于深度学习技术的行业数据信息抽取方法，包括以下具体步骤：S1、根据行业数据关键词A从网页上获取数据信息B；S2、去除数据信息B中的干扰信息C，得到数据信息D；S3、对数据信息D进行分词，得到关键信息E；S4、将得到的关键信息E和行业数据关键词A融合，得到对应行业数据关键词A的行业信息F；S5、对得到的行业信息F存储，并对得到的行业信息F建立基于深度学习的行业词库G；S6、输入所要获取的行业数据片段信息H；S7、从行业数据片段信息H中提取关键词I；S8、根据关键词I从行业词库G中抽取数据信息J。本发明方便快速的对特定领域的行业数据信息进行获取，且能节省人力。

Description

一种基于深度学习技术的行业数据信息抽取方法

技术领域

本发明涉及互联网信息技术领域，尤其涉及一种基于深度学习技术的行业数据信息抽取方法。

背景技术

随着经济的发展，各行各业都面临着巨大的发展压力；为了保证自身发展往往需要对行业数据进行分析，从而根据公司内部的实际情况制定出符合公司发展的战略路线。伴随着互联网及应用和服务的普及，网上信息量以指数级增长，但是从海量的互联网信息中提取对自身有价值的信息是非常困难的；在行业数据采集的过程中需要花费大量的时间，需要多名工作人员共同完成，才能从海量的互联网信息中提取到相关的行业信息；为解决上述问题，本申请中提出一种基于深度学习技术的行业数据信息抽取方法。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于深度学习技术的行业数据信息抽取方法，本发明方便快速的对特定领域的行业数据信息进行获取，且能节省人力。

(二)技术方案

为解决上述问题，本发明提供了一种基于深度学习技术的行业数据信息抽取方法，包括以下具体步骤：

S1、根据行业数据关键词A从网页上获取数据信息B；

S2、去除数据信息B中的干扰信息C，得到数据信息D；

S3、对数据信息D进行分词，得到关键信息E；

S4、将得到的关键信息E和行业数据关键词A融合，得到对应行业数据关键词A的行业信息F；

S5、对得到的行业信息F存储，并对得到的行业信息F建立基于深度学习的行业词库G；

S6、输入所要获取的行业数据片段信息H；

S7、从行业数据片段信息H中提取关键词I；

S8、根据关键词I从行业词库G中抽取数据信息J。

优选的，S1中从网页上获取数据信息B的方式为：对网页Web的页面数据建立文档对象模型DOM树，以抽取网页Web的页面信息，得到数据信息B。

优选的，干扰信息C包括重复信息、不正常显示信息和编码乱码信息。

优选的，S7中对行业数据片段信息H中提取关键词I前，该方法还包括：对行业数据片段信息H进行预处理，用于去除行业数据片段信息H中的重复信息。

优选的，本发明还提出了上述基于深度学习技术的行业数据信息抽取方法的工作***，工作***包括第一输入模块、第二输入模块、数据信息获取模块、数据信息处理模块、分词模块、中央处理***、数据融合模块、检索抽取模块、提取模块、存储模块和行业词典模块；

第一输入模块与数据信息获取模块通讯连接，第一输入模块用于输入行业数据关键词A，且第一输入模块将行业数据关键词A发送给数据信息获取模块；

数据信息获取模块与信息数据处理模块通讯连接，数据信息获取模块用于根据行业数据关键词A从网页上获取数据信息B，并将数据信息B发送给信息数据处理模块；

信息数据处理模块与中央处理***通讯连接，信息数据处理模块用于将数据信息B中的干扰信息C去除得到数据信息D，且信息数据处理模块用于将数据信息D发送给中央处理***；

分词模块与中央处理***通讯连接，分词模块用于对数据信息D进行分词，得到关键信息E；

数据融合模块与中央处理***通讯连接，数据融合模块用于将关键信息E和行业数据关键词A融合，得到对应行业数据关键词A的行业信息F；

存储模块与中央处理***通讯连接，存储模块用于存储行业信息F；

行业词典模块与中央处理***通讯连接，且行业词典模块与存储模块通讯连接，行业词典模块用于根据存储模块中存储行业信息F建立基于深度学习的行业词库G；

第二输入模块与提取模块通讯连接，第二输入模块用于输入所要获取的行业数据片段信息H；

提取模块与中央处理***通讯连接，提取模块用于行业数据片段信息H中提取关键词I；

检索抽取模块与中央处理***通讯连接，且检索抽取模块与存储模块通讯连接，检索抽取模块用于从行业词库G中抽取对应行业数据片段信息H的数据信息J。

优选的，工作***还包括信息过滤模块；信息过滤模块与第二输入模块通讯连接，信息过滤模块与中央处理***通讯连接，信息过滤模块用于去除行业数据片段信息H中的重复信息。

本发明的上述技术方案具有如下有益的技术效果：

在对特定领域的行业数据信息进行收集时，根据特定领域的行业数据信息列出相关的行业数据关键词A；根据行业数据关键词A在互联网上获取数据信息B，对获取数据信息B处理后与行业数据关键词A进行融合，并建立基于深度学习的行业词库G；再根据需要获取的相关行业数据片段信息H从行业词库G中直接提取出对应行业数据关键词A的行业信息F；从而大大节省了工作人员的行业数据采集时间，大大提高了工作效率，且避免投入过多的人力。

附图说明

图1为本发明提出的一种基于深度学习技术的行业数据信息抽取方法的流程图。

图2为本发明提出的一种基于深度学习技术的行业数据信息抽取方法的工作***的原理框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于深度学习技术的行业数据信息抽取方法，包括以下具体步骤：

步骤1、根据行业数据关键词A从网页上获取数据信息B；

需要说明的是，行业数据关键词A是对于特定领域而已，如汽车领域或者通信领域等；

步骤2、去除数据信息B中的干扰信息C，得到数据信息D；

步骤3、对数据信息D进行分词，得到关键信息E；

步骤4、将得到的关键信息E和行业数据关键词A融合，得到对应行业数据关键词A的行业信息F；

步骤5、对得到的行业信息F存储，并对得到的行业信息F建立基于深度学习的行业词库G；

需要说明的是，深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据。

步骤6、输入所要获取的行业数据片段信息H；

步骤7、从行业数据片段信息H中提取关键词I；

步骤8、根据关键词I从行业词库G中抽取数据信息J。

本发明中，在对特定领域的行业数据信息进行收集时，根据特定领域的行业数据信息列出相关的行业数据关键词A；根据行业数据关键词A在互联网上获取数据信息B，对获取数据信息B处理后与行业数据关键词A进行融合，并建立基于深度学习的行业词库G；再根据需要获取的相关行业数据片段信息H从行业词库G中直接提取出对应行业数据关键词A的行业信息F；从而大大节省了工作人员的行业数据采集时间，大大提高了工作效率，且避免投入过多的人力。

在一个可选的实施例中，步骤1中从网页上获取数据信息B的方式为：对网页Web的页面数据建立文档对象模型DOM树，以抽取网页Web的页面信息，得到数据信息B。

在一个可选的实施例中，干扰信息C包括重复信息、不正常显示信息和编码乱码信息。

在一个可选的实施例中，步骤7中对行业数据片段信息H中提取关键词I前，该方法还包括：对行业数据片段信息H进行预处理，用于去除行业数据片段信息H中的重复信息。

如图2所示，本发明还提出的一种基于深度学习技术的行业数据信息抽取方法的工作***，工作***包括第一输入模块、第二输入模块、数据信息获取模块、数据信息处理模块、分词模块、中央处理***、数据融合模块、检索抽取模块、提取模块、存储模块和行业词典模块；

在一个可选的实施例中，工作***还包括信息过滤模块；信息过滤模块与第二输入模块通讯连接，信息过滤模块与中央处理***通讯连接，信息过滤模块用于去除行业数据片段信息H中的重复信息。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于深度学习技术的行业数据信息抽取方法，其特征在于，包括以下具体步骤：

S1、根据行业数据关键词A从网页上获取数据信息B；

S2、去除数据信息B中的干扰信息C，得到数据信息D；

S3、对数据信息D进行分词，得到关键信息E；

S6、输入所要获取的行业数据片段信息H；

S7、从行业数据片段信息H中提取关键词I；

S8、根据关键词I从行业词库G中抽取数据信息J。

2.根据权利要求1所述的一种基于深度学习技术的行业数据信息抽取方法，其特征在于，S1中从网页上获取数据信息B的方式为：对网页Web的页面数据建立文档对象模型DOM树，以抽取网页Web的页面信息，得到数据信息B。

3.根据权利要求1所述的一种基于深度学习技术的行业数据信息抽取方法，其特征在于，干扰信息C包括重复信息、不正常显示信息和编码乱码信息。

4.根据权利要求1所述的一种基于深度学习技术的行业数据信息抽取方法，其特征在于，S7中对行业数据片段信息H中提取关键词I前，该方法还包括：对行业数据片段信息H进行预处理，用于去除行业数据片段信息H中的重复信息。

5.根据权利要求1所述的一种基于深度学习技术的行业数据信息抽取方法，其特征在于，还包括基于上述方法的工作***，工作***包括第一输入模块、第二输入模块、数据信息获取模块、数据信息处理模块、分词模块、中央处理***、数据融合模块、检索抽取模块、提取模块、存储模块和行业词典模块；

6.根据权利要求5所述的一种基于深度学习技术的行业数据信息抽取方法，其特征在于，工作***还包括信息过滤模块；信息过滤模块与第二输入模块通讯连接，信息过滤模块与中央处理***通讯连接，信息过滤模块用于去除行业数据片段信息H中的重复信息。