CN110413725A - 一种基于深度学习技术的行业数据信息抽取方法 - Google Patents
一种基于深度学习技术的行业数据信息抽取方法 Download PDFInfo
- Publication number
- CN110413725A CN110413725A CN201910666115.7A CN201910666115A CN110413725A CN 110413725 A CN110413725 A CN 110413725A CN 201910666115 A CN201910666115 A CN 201910666115A CN 110413725 A CN110413725 A CN 110413725A
- Authority
- CN
- China
- Prior art keywords
- information
- module
- data
- industry
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
一种基于深度学习技术的行业数据信息抽取方法,包括以下具体步骤:S1、根据行业数据关键词A从网页上获取数据信息B;S2、去除数据信息B中的干扰信息C,得到数据信息D;S3、对数据信息D进行分词,得到关键信息E;S4、将得到的关键信息E和行业数据关键词A融合,得到对应行业数据关键词A的行业信息F;S5、对得到的行业信息F存储,并对得到的行业信息F建立基于深度学习的行业词库G;S6、输入所要获取的行业数据片段信息H;S7、从行业数据片段信息H中提取关键词I;S8、根据关键词I从行业词库G中抽取数据信息J。本发明方便快速的对特定领域的行业数据信息进行获取,且能节省人力。
Description
技术领域
本发明涉及互联网信息技术领域,尤其涉及一种基于深度学习技术的行业数据信息抽取方法。
背景技术
随着经济的发展,各行各业都面临着巨大的发展压力;为了保证自身发展往往需要对行业数据进行分析,从而根据公司内部的实际情况制定出符合公司发展的战略路线。伴随着互联网及应用和服务的普及,网上信息量以指数级增长,但是从海量的互联网信息中提取对自身有价值的信息是非常困难的;在行业数据采集的过程中需要花费大量的时间,需要多名工作人员共同完成,才能从海量的互联网信息中提取到相关的行业信息;为解决上述问题,本申请中提出一种基于深度学习技术的行业数据信息抽取方法。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于深度学习技术的行业数据信息抽取方法,本发明方便快速的对特定领域的行业数据信息进行获取,且能节省人力。
(二)技术方案
为解决上述问题,本发明提供了一种基于深度学习技术的行业数据信息抽取方法,包括以下具体步骤:
S1、根据行业数据关键词A从网页上获取数据信息B;
S2、去除数据信息B中的干扰信息C,得到数据信息D;
S3、对数据信息D进行分词,得到关键信息E;
S4、将得到的关键信息E和行业数据关键词A融合,得到对应行业数据关键词A的行业信息F;
S5、对得到的行业信息F存储,并对得到的行业信息F建立基于深度学习的行业词库G;
S6、输入所要获取的行业数据片段信息H;
S7、从行业数据片段信息H中提取关键词I;
S8、根据关键词I从行业词库G中抽取数据信息J。
优选的,S1中从网页上获取数据信息B的方式为:对网页Web的页面数据建立文档对象模型DOM树,以抽取网页Web的页面信息,得到数据信息B。
优选的,干扰信息C包括重复信息、不正常显示信息和编码乱码信息。
优选的,S7中对行业数据片段信息H中提取关键词I前,该方法还包括:对行业数据片段信息H进行预处理,用于去除行业数据片段信息H中的重复信息。
优选的,本发明还提出了上述基于深度学习技术的行业数据信息抽取方法的工作***,工作***包括第一输入模块、第二输入模块、数据信息获取模块、数据信息处理模块、分词模块、中央处理***、数据融合模块、检索抽取模块、提取模块、存储模块和行业词典模块;
第一输入模块与数据信息获取模块通讯连接,第一输入模块用于输入行业数据关键词A,且第一输入模块将行业数据关键词A发送给数据信息获取模块;
数据信息获取模块与信息数据处理模块通讯连接,数据信息获取模块用于根据行业数据关键词A从网页上获取数据信息B,并将数据信息B发送给信息数据处理模块;
信息数据处理模块与中央处理***通讯连接,信息数据处理模块用于将数据信息B中的干扰信息C去除得到数据信息D,且信息数据处理模块用于将数据信息D发送给中央处理***;
分词模块与中央处理***通讯连接,分词模块用于对数据信息D进行分词,得到关键信息E;
数据融合模块与中央处理***通讯连接,数据融合模块用于将关键信息E和行业数据关键词A融合,得到对应行业数据关键词A的行业信息F;
存储模块与中央处理***通讯连接,存储模块用于存储行业信息F;
行业词典模块与中央处理***通讯连接,且行业词典模块与存储模块通讯连接,行业词典模块用于根据存储模块中存储行业信息F建立基于深度学习的行业词库G;
第二输入模块与提取模块通讯连接,第二输入模块用于输入所要获取的行业数据片段信息H;
提取模块与中央处理***通讯连接,提取模块用于行业数据片段信息H中提取关键词I;
检索抽取模块与中央处理***通讯连接,且检索抽取模块与存储模块通讯连接,检索抽取模块用于从行业词库G中抽取对应行业数据片段信息H的数据信息J。
优选的,工作***还包括信息过滤模块;信息过滤模块与第二输入模块通讯连接,信息过滤模块与中央处理***通讯连接,信息过滤模块用于去除行业数据片段信息H中的重复信息。
本发明的上述技术方案具有如下有益的技术效果:
在对特定领域的行业数据信息进行收集时,根据特定领域的行业数据信息列出相关的行业数据关键词A;根据行业数据关键词A在互联网上获取数据信息B,对获取数据信息B处理后与行业数据关键词A进行融合,并建立基于深度学习的行业词库G;再根据需要获取的相关行业数据片段信息H从行业词库G中直接提取出对应行业数据关键词A的行业信息F;从而大大节省了工作人员的行业数据采集时间,大大提高了工作效率,且避免投入过多的人力。
附图说明
图1为本发明提出的一种基于深度学习技术的行业数据信息抽取方法的流程图。
图2为本发明提出的一种基于深度学习技术的行业数据信息抽取方法的工作***的原理框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1为本发明提出的一种基于深度学习技术的行业数据信息抽取方法的流程图。
图2为本发明提出的一种基于深度学习技术的行业数据信息抽取方法的工作***的原理框图。
如图1所示,本发明提出的一种基于深度学习技术的行业数据信息抽取方法,包括以下具体步骤:
步骤1、根据行业数据关键词A从网页上获取数据信息B;
需要说明的是,行业数据关键词A是对于特定领域而已,如汽车领域或者通信领域等;
步骤2、去除数据信息B中的干扰信息C,得到数据信息D;
步骤3、对数据信息D进行分词,得到关键信息E;
步骤4、将得到的关键信息E和行业数据关键词A融合,得到对应行业数据关键词A的行业信息F;
步骤5、对得到的行业信息F存储,并对得到的行业信息F建立基于深度学习的行业词库G;
需要说明的是,深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。
步骤6、输入所要获取的行业数据片段信息H;
步骤7、从行业数据片段信息H中提取关键词I;
步骤8、根据关键词I从行业词库G中抽取数据信息J。
本发明中,在对特定领域的行业数据信息进行收集时,根据特定领域的行业数据信息列出相关的行业数据关键词A;根据行业数据关键词A在互联网上获取数据信息B,对获取数据信息B处理后与行业数据关键词A进行融合,并建立基于深度学习的行业词库G;再根据需要获取的相关行业数据片段信息H从行业词库G中直接提取出对应行业数据关键词A的行业信息F;从而大大节省了工作人员的行业数据采集时间,大大提高了工作效率,且避免投入过多的人力。
在一个可选的实施例中,步骤1中从网页上获取数据信息B的方式为:对网页Web的页面数据建立文档对象模型DOM树,以抽取网页Web的页面信息,得到数据信息B。
在一个可选的实施例中,干扰信息C包括重复信息、不正常显示信息和编码乱码信息。
在一个可选的实施例中,步骤7中对行业数据片段信息H中提取关键词I前,该方法还包括:对行业数据片段信息H进行预处理,用于去除行业数据片段信息H中的重复信息。
如图2所示,本发明还提出的一种基于深度学习技术的行业数据信息抽取方法的工作***,工作***包括第一输入模块、第二输入模块、数据信息获取模块、数据信息处理模块、分词模块、中央处理***、数据融合模块、检索抽取模块、提取模块、存储模块和行业词典模块;
第一输入模块与数据信息获取模块通讯连接,第一输入模块用于输入行业数据关键词A,且第一输入模块将行业数据关键词A发送给数据信息获取模块;
数据信息获取模块与信息数据处理模块通讯连接,数据信息获取模块用于根据行业数据关键词A从网页上获取数据信息B,并将数据信息B发送给信息数据处理模块;
信息数据处理模块与中央处理***通讯连接,信息数据处理模块用于将数据信息B中的干扰信息C去除得到数据信息D,且信息数据处理模块用于将数据信息D发送给中央处理***;
分词模块与中央处理***通讯连接,分词模块用于对数据信息D进行分词,得到关键信息E;
数据融合模块与中央处理***通讯连接,数据融合模块用于将关键信息E和行业数据关键词A融合,得到对应行业数据关键词A的行业信息F;
存储模块与中央处理***通讯连接,存储模块用于存储行业信息F;
行业词典模块与中央处理***通讯连接,且行业词典模块与存储模块通讯连接,行业词典模块用于根据存储模块中存储行业信息F建立基于深度学习的行业词库G;
第二输入模块与提取模块通讯连接,第二输入模块用于输入所要获取的行业数据片段信息H;
提取模块与中央处理***通讯连接,提取模块用于行业数据片段信息H中提取关键词I;
检索抽取模块与中央处理***通讯连接,且检索抽取模块与存储模块通讯连接,检索抽取模块用于从行业词库G中抽取对应行业数据片段信息H的数据信息J。
在一个可选的实施例中,工作***还包括信息过滤模块;信息过滤模块与第二输入模块通讯连接,信息过滤模块与中央处理***通讯连接,信息过滤模块用于去除行业数据片段信息H中的重复信息。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (6)
1.一种基于深度学习技术的行业数据信息抽取方法,其特征在于,包括以下具体步骤:
S1、根据行业数据关键词A从网页上获取数据信息B;
S2、去除数据信息B中的干扰信息C,得到数据信息D;
S3、对数据信息D进行分词,得到关键信息E;
S4、将得到的关键信息E和行业数据关键词A融合,得到对应行业数据关键词A的行业信息F;
S5、对得到的行业信息F存储,并对得到的行业信息F建立基于深度学习的行业词库G;
S6、输入所要获取的行业数据片段信息H;
S7、从行业数据片段信息H中提取关键词I;
S8、根据关键词I从行业词库G中抽取数据信息J。
2.根据权利要求1所述的一种基于深度学习技术的行业数据信息抽取方法,其特征在于,S1中从网页上获取数据信息B的方式为:对网页Web的页面数据建立文档对象模型DOM树,以抽取网页Web的页面信息,得到数据信息B。
3.根据权利要求1所述的一种基于深度学习技术的行业数据信息抽取方法,其特征在于,干扰信息C包括重复信息、不正常显示信息和编码乱码信息。
4.根据权利要求1所述的一种基于深度学习技术的行业数据信息抽取方法,其特征在于,S7中对行业数据片段信息H中提取关键词I前,该方法还包括:对行业数据片段信息H进行预处理,用于去除行业数据片段信息H中的重复信息。
5.根据权利要求1所述的一种基于深度学习技术的行业数据信息抽取方法,其特征在于,还包括基于上述方法的工作***,工作***包括第一输入模块、第二输入模块、数据信息获取模块、数据信息处理模块、分词模块、中央处理***、数据融合模块、检索抽取模块、提取模块、存储模块和行业词典模块;
第一输入模块与数据信息获取模块通讯连接,第一输入模块用于输入行业数据关键词A,且第一输入模块将行业数据关键词A发送给数据信息获取模块;
数据信息获取模块与信息数据处理模块通讯连接,数据信息获取模块用于根据行业数据关键词A从网页上获取数据信息B,并将数据信息B发送给信息数据处理模块;
信息数据处理模块与中央处理***通讯连接,信息数据处理模块用于将数据信息B中的干扰信息C去除得到数据信息D,且信息数据处理模块用于将数据信息D发送给中央处理***;
分词模块与中央处理***通讯连接,分词模块用于对数据信息D进行分词,得到关键信息E;
数据融合模块与中央处理***通讯连接,数据融合模块用于将关键信息E和行业数据关键词A融合,得到对应行业数据关键词A的行业信息F;
存储模块与中央处理***通讯连接,存储模块用于存储行业信息F;
行业词典模块与中央处理***通讯连接,且行业词典模块与存储模块通讯连接,行业词典模块用于根据存储模块中存储行业信息F建立基于深度学习的行业词库G;
第二输入模块与提取模块通讯连接,第二输入模块用于输入所要获取的行业数据片段信息H;
提取模块与中央处理***通讯连接,提取模块用于行业数据片段信息H中提取关键词I;
检索抽取模块与中央处理***通讯连接,且检索抽取模块与存储模块通讯连接,检索抽取模块用于从行业词库G中抽取对应行业数据片段信息H的数据信息J。
6.根据权利要求5所述的一种基于深度学习技术的行业数据信息抽取方法,其特征在于,工作***还包括信息过滤模块;信息过滤模块与第二输入模块通讯连接,信息过滤模块与中央处理***通讯连接,信息过滤模块用于去除行业数据片段信息H中的重复信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910666115.7A CN110413725A (zh) | 2019-07-23 | 2019-07-23 | 一种基于深度学习技术的行业数据信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910666115.7A CN110413725A (zh) | 2019-07-23 | 2019-07-23 | 一种基于深度学习技术的行业数据信息抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110413725A true CN110413725A (zh) | 2019-11-05 |
Family
ID=68362701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910666115.7A Pending CN110413725A (zh) | 2019-07-23 | 2019-07-23 | 一种基于深度学习技术的行业数据信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413725A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411579A (zh) * | 2010-09-20 | 2012-04-11 | 腾讯科技(深圳)有限公司 | 一种搜索行业相关信息的方法及装置 |
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
WO2017114019A1 (zh) * | 2015-12-29 | 2017-07-06 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和*** |
-
2019
- 2019-07-23 CN CN201910666115.7A patent/CN110413725A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411579A (zh) * | 2010-09-20 | 2012-04-11 | 腾讯科技(深圳)有限公司 | 一种搜索行业相关信息的方法及装置 |
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
WO2017114019A1 (zh) * | 2015-12-29 | 2017-07-06 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861942A (zh) | 一种基于深度学习的电力疑似投诉工单识别方法 | |
CN110096570A (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN106599160A (zh) | 一种内容规则库管理***及其编码方法 | |
CN109992769A (zh) | 基于语义解析的语句合理性判断方法、装置、计算机设备 | |
CN104951807B (zh) | 股市情绪的确定方法和装置 | |
CN109657058A (zh) | 一种公告信息的抽取方法 | |
CN107291949A (zh) | 信息搜索方法及装置 | |
CN106777336A (zh) | 一种基于深度学习的公司名成分抽取***和方法 | |
CN109766891A (zh) | 获取设备设施信息的方法及计算机可读存储介质 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN111639185B (zh) | 关系信息抽取方法、装置、电子设备和可读存储介质 | |
CN107436931B (zh) | 网页正文抽取方法及装置 | |
CN112328792A (zh) | 一种基于dbscan聚类算法识别信用事件的优化方法 | |
CN111143571A (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN112667815A (zh) | 文本处理方法、装置、计算机可读存储介质及处理器 | |
CN112381840A (zh) | 一种用于定损视频中车辆外观部件标注的方法及*** | |
CN103714120A (zh) | 一种从用户url访问记录中提取用户兴趣话题的*** | |
CN113312924A (zh) | 一种基于nlp高精解析标签的风险规则分类方法及装置 | |
CN110413725A (zh) | 一种基于深度学习技术的行业数据信息抽取方法 | |
CN111815358A (zh) | 一种基于跨境电商平台的大数据用户挖掘方法及*** | |
CN110782221A (zh) | 一种面试智能评测***及方法 | |
CN109558580B (zh) | 一种文本分析方法及装置 | |
CN107451215B (zh) | 特征文本抽取方法及装置 | |
CN113657279A (zh) | 一种票据类图像版面解析方法及装置 | |
CN114926842A (zh) | 东巴象形文字识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |