CN114003790A - 一种数据处理方法 - Google Patents
一种数据处理方法 Download PDFInfo
- Publication number
- CN114003790A CN114003790A CN202111640990.1A CN202111640990A CN114003790A CN 114003790 A CN114003790 A CN 114003790A CN 202111640990 A CN202111640990 A CN 202111640990A CN 114003790 A CN114003790 A CN 114003790A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- neural network
- database
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法,基于卷积神经网络,提取多尺度卷积神经网络特征,并通过基于三元组损失函数对多尺度卷积神经网络特征进行优化训练,进一步建模了企业信息的语义信息,并发布。本发明考虑了多种维度特征之间包含着大量互补信息,基于多尺度卷积神经网络特征、多方向聚类,充分利用并挖掘不同维度特征间的关联互补性,因此能取得更好的数据处理准确率。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种数据处理方法。
背景技术
数据网站通常保存有大量的文件、公文、通告等文档类数据,由于数量庞大,需要花费大量的时间和精力分类,并存在着查找信息不便、信息搜索不准确、信息分类不合理、分类不细致、信息录入板块不准确等各类问题,不利于提供有效的信息服务。
现需一种处理方式可以将信息充分分类。
发明内容
本发明是为了解决现有技术中的问题,提供了一种数据处理方法,基于卷积神经网络,提取多尺度卷积神经网络特征,并通过基于三元组损失函数对多尺度卷积神经网络特征进行优化训练,进一步建模了企业信息的语义信息,提供更具语义信息和辨识力,解决了上述问题。
本发明提供了一种数据处理方法,包括以下步骤:
S1、从各信息发布端收集信息,将收集到的数据统一格式,对统一文件格式后的数据进行分析、清洗预处理,并按收集来源形成第一数据库;
S2、导入待处理数据至数据处理***;
S3、根据待处理数据,神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块;时间序列特征模块将第一数据库的合作事件信息进行时间聚类,并提取待处理数据内的时间序列特征并传输至数据发布模块;属性网络特征模块根据第一数据库中企业基本信息进行聚类,提取属性网络特征并传输至数据发布模块;
S4、基于神经网络特征、时间序列特征和属性网络特征,将待处理数据与第一数据库中信息进行相似度匹配,得到三个维度特征的融合结果,数据发布模块发布融合结果。
本发明所述的一种数据处理方法,作为优选方式,步骤S1具体包括:
S11、选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息;
S12、对爬取到的原始数据进行汇总,清洗数据,包括重复值处理、缺失值处理、异常值处理;
S13、以数据来源为主键ID建立第一数据库。
本发明所述的一种数据处理方法,作为优选方式,企业信息包括企业基本信息和企业合作信息,企业基本信息包括企业的名称、成立的时间、所属行业;企业合作信息包括投融资事件、项目合作事件、买卖关系。
本发明所述的一种数据处理方法,作为优选方式,步骤S4中融合检索结果的具体计算公式为:
本发明所述的一种数据处理方法,作为优选方式,数据处理***包括第一数据库、数据发布模块、特征提取模块,第一数据库连接特征提取模块,特征提取模块连接数据发布模块;
特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块,神经网络特征模块连接第一数据库、数据发布模块,时间序列特征模块连接第一数据库和数据发布模块,属性网络特征模块连接第一数据库,神经网络特征模块用于通过第一数据库提取神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出神经网络特征至数据发布模块,时间序列特征模块用于通过第一数据库根据提取的时间序列特征,构建时间序列并输出基于时间序列聚类的时间序列特征至数据发布模块,属性网络特征模块用于通过基于密度的聚类算法对企业基本信息进行聚类并属性网络特征至数据发布模块。
本发明所述的一种数据处理方法,作为优选方式,神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层,残差网络、第一卷积层和第二卷积层均连接第一数据库,残差网络数据连接第一全连接层,第一卷积层数据连接第一池化层,第二卷积层数据连接第二池化层,第一全连接层、第一池化层和第二池化层均连接第二全连接层,第二全连接层将神经网络特征传递至数据发布模块。
本发明所述的一种数据处理方法,作为优选方式,步骤S3中神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块具体方式为:
S311、企业样本分别输入残差网络、第一卷积层和第二卷积层,第一数据库预训练参数初始化的所述残差网络,并提取残差网络中的第一特征输入到第一全连接层中;
S312、第一卷积层和第二卷积层采用不同的Padding值和Stride值,分别通过第一池化层和第二池化层得到第二特征和第三特征;
S314、正则化后的第一特征、第二特征和第三特征拼接输入第二全连接层;
S315、第二全连接层通过线性映射得到神经网络特征。
本发明有益效果如下:
本发明考虑了多种维度特征之间包含着大量互补信息,基于多尺度卷积神经网络特征、多方向聚类,充分利用并挖掘不同维度特征间的关联互补性,因此能取得更好的数据处理准确率。
附图说明
图1为一种数据处理方法示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
如图1所示,一种数据处理方法,包括以下步骤:
S1、从各信息发布端收集信息,将收集到的数据统一格式,对统一文件格式后的数据进行分析、清洗预处理,并按收集来源形成第一数据库;
S2、导入待处理数据至数据处理***;
S3、根据待处理数据,神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块;时间序列特征模块将第一数据库的合作事件信息进行时间聚类,并提取待处理数据内的时间序列特征并传输至数据发布模块;属性网络特征模块根据第一数据库中企业基本信息进行聚类,提取属性网络特征并传输至数据发布模块;
S4、基于神经网络特征、时间序列特征和属性网络特征,将待处理数据与第一数据库中信息进行相似度匹配,得到三个维度特征的融合结果,数据发布模块发布融合结果。
步骤S1具体包括:
S11、选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息;
S12、对爬取到的原始数据进行汇总,清洗数据,包括重复值处理、缺失值处理、异常值处理;
S13、以数据来源为主键ID建立第一数据库。
企业信息包括企业基本信息和企业合作信息,企业基本信息包括企业的名称、成立的时间、所属行业;企业合作信息包括投融资事件、项目合作事件、买卖关系。
步骤S4中融合检索结果的具体计算公式为:
数据处理***包括第一数据库、数据发布模块、特征提取模块,第一数据库连接特征提取模块,特征提取模块连接数据发布模块;
特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块,神经网络特征模块连接第一数据库、数据发布模块,时间序列特征模块连接第一数据库和数据发布模块,属性网络特征模块连接第一数据库,神经网络特征模块用于通过第一数据库提取神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出神经网络特征至数据发布模块,时间序列特征模块用于通过第一数据库根据提取的时间序列特征,构建时间序列并输出基于时间序列聚类的时间序列特征至数据发布模块,属性网络特征模块用于通过基于密度的聚类算法对企业基本信息进行聚类并属性网络特征至数据发布模块。
神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层,残差网络、第一卷积层和第二卷积层均连接第一数据库,残差网络数据连接第一全连接层,第一卷积层数据连接第一池化层,第二卷积层数据连接第二池化层,第一全连接层、第一池化层和第二池化层均连接第二全连接层,第二全连接层将神经网络特征传递至数据发布模块。
步骤S3中神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块具体方式为:
S311、企业样本分别输入残差网络、第一卷积层和第二卷积层,第一数据库预训练参数初始化的所述残差网络,并提取残差网络中的第一特征输入到第一全连接层中;
S312、第一卷积层和第二卷积层采用不同的Padding值和Stride值,分别通过第一池化层和第二池化层得到第二特征和第三特征;
S314、正则化后的第一特征、第二特征和第三特征拼接输入第二全连接层;
S315、第二全连接层通过线性映射得到神经网络特征。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种数据处理方法,其特征在于:包括以下步骤:
S1、从各信息发布端收集信息,将收集到的数据统一格式,对统一文件格式后的数据进行分析、清洗预处理,并按收集来源形成第一数据库;
S2、导入待处理数据至数据处理***;
S3、根据待处理数据,神经网络特征模块通过所述第一数据库提取所述待处理数据内企业样本之间的神经网络特征并传输至数据发布模块;时间序列特征模块将所述第一数据库的合作事件信息进行时间聚类,并提取所述待处理数据内的时间序列特征并传输至数据发布模块;属性网络特征模块根据所述第一数据库中企业基本信息进行聚类,提取属性网络特征并传输至数据发布模块;
S4、基于所述神经网络特征、所述时间序列特征和所述属性网络特征,将待处理数据与所述第一数据库中信息进行相似度匹配,得到三个维度特征的融合结果,所述数据发布模块发布所述融合结果。
2.根据权利要求1所述的一种数据处理方法,其特征在于:所述步骤S1具体包括:
S11、选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息;
S12、对爬取到的原始数据进行汇总,清洗数据,包括重复值处理、缺失值处理、异常值处理;
S13、以数据来源为主键ID建立第一数据库。
3.根据权利要求2所述的一种数据处理方法,其特征在于:所述企业信息包括企业基本信息和企业合作信息,所述企业基本信息包括企业的名称、成立的时间、所属行业;所述企业合作信息包括投融资事件、项目合作事件、买卖关系。
5.根据权利要求1所述的一种数据处理方法,其特征在于:所述数据处理***包括第一数据库、数据发布模块、特征提取模块,所述第一数据库连接所述特征提取模块,所述特征提取模块连接所述数据发布模块;
所述特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块,所述神经网络特征模块连接所述第一数据库、所述数据发布模块,所述时间序列特征模块连接所述第一数据库和所述数据发布模块,所述属性网络特征模块连接所述第一数据库,所述神经网络特征模块用于通过所述第一数据库提取神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出神经网络特征至所述数据发布模块,所述时间序列特征模块用于通过所述第一数据库根据提取的时间序列特征,构建时间序列并输出基于时间序列聚类的所述时间序列特征至所述数据发布模块,所述属性网络特征模块用于通过基于密度的聚类算法对企业基本信息进行聚类并属性网络特征至所述数据发布模块。
6.根据权利要求5所述的一种数据处理方法,其特征在于:所述神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层,所述残差网络、所述第一卷积层和所述第二卷积层均连接所述第一数据库,所述残差网络数据连接所述第一全连接层,所述第一卷积层数据连接所述第一池化层,所述第二卷积层数据连接所述第二池化层,所述第一全连接层、所述第一池化层和所述第二池化层均连接所述第二全连接层,所述第二全连接层将神经网络特征传递至所述数据发布模块。
7.根据权利要求6所述的一种数据处理方法,其特征在于:步骤S3中神经网络特征模块通过所述第一数据库提取所述待处理数据内企业样本之间的神经网络特征并传输至数据发布模块具体方式为:
S311、企业样本分别输入所述残差网络、所述第一卷积层和所述第二卷积层,所述第一数据库预训练参数初始化的所述残差网络,并提取所述残差网络中的第一特征输入到所述第一全连接层中;
S312、所述第一卷积层和所述第二卷积层采用不同的Padding值和Stride值,分别通过第一池化层和所述第二池化层得到第二特征和第三特征;
S314、正则化后的所述第一特征、所述第二特征和所述第三特征拼接输入所述第二全连接层;
S315、所述第二全连接层通过线性映射得到所述神经网络特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111640990.1A CN114003790A (zh) | 2021-12-30 | 2021-12-30 | 一种数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111640990.1A CN114003790A (zh) | 2021-12-30 | 2021-12-30 | 一种数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114003790A true CN114003790A (zh) | 2022-02-01 |
Family
ID=79932274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111640990.1A Pending CN114003790A (zh) | 2021-12-30 | 2021-12-30 | 一种数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114003790A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014187233A1 (en) * | 2013-05-20 | 2014-11-27 | Tencent Technology (Shenzhen) Company Limited | Method,device and storing medium for searching |
CN109919189A (zh) * | 2019-01-29 | 2019-06-21 | 华南理工大学 | 一种面向时间序列数据的深度k均值聚类方法 |
CN112182275A (zh) * | 2020-09-29 | 2021-01-05 | 神州数码信息***有限公司 | 一种基于多维度特征融合的商标近似检索***和方法 |
CN112712866A (zh) * | 2020-12-25 | 2021-04-27 | 医渡云(北京)技术有限公司 | 一种确定文本信息相似度的方法及装置 |
CN112785156A (zh) * | 2021-01-23 | 2021-05-11 | 罗家德 | 一种基于聚类与综合评价的产业领袖识别方法 |
-
2021
- 2021-12-30 CN CN202111640990.1A patent/CN114003790A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014187233A1 (en) * | 2013-05-20 | 2014-11-27 | Tencent Technology (Shenzhen) Company Limited | Method,device and storing medium for searching |
CN109919189A (zh) * | 2019-01-29 | 2019-06-21 | 华南理工大学 | 一种面向时间序列数据的深度k均值聚类方法 |
CN112182275A (zh) * | 2020-09-29 | 2021-01-05 | 神州数码信息***有限公司 | 一种基于多维度特征融合的商标近似检索***和方法 |
CN112712866A (zh) * | 2020-12-25 | 2021-04-27 | 医渡云(北京)技术有限公司 | 一种确定文本信息相似度的方法及装置 |
CN112785156A (zh) * | 2021-01-23 | 2021-05-11 | 罗家德 | 一种基于聚类与综合评价的产业领袖识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543084B (zh) | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 | |
CN102693299B (zh) | 一种并行视频拷贝检测***和方法 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及*** | |
CN111899089A (zh) | 基于知识图谱的企业风险预警方法及*** | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN110674970A (zh) | 企业法务风险预警方法、装置、设备及可读存储介质 | |
CN111680225B (zh) | 基于机器学习的微信金融消息分析方法及*** | |
CN107292744A (zh) | 基于机器学习的投资趋势分析方法及其*** | |
CN111639970A (zh) | 基于图像识别的物品价格确定方法及相关设备 | |
CN114647741A (zh) | 工艺自动决策和推理方法、装置、计算机设备及存储介质 | |
CN111444793A (zh) | 基于ocr的票据识别方法、设备、存储介质及装置 | |
CN110990498A (zh) | 一种基于fcm算法的数据融合方法 | |
CN111581193A (zh) | 数据处理方法、设备、计算机***及存储介质 | |
CN111460803B (zh) | 基于工业物联网设备Web管理页面的设备识别方法 | |
CN112347254A (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
CN114491084A (zh) | 基于自编码器的关系网络信息挖掘方法、装置及设备 | |
CN110196849A (zh) | 基于大数据治理技术实现用户画像构建处理的***及其方法 | |
AlSheikh et al. | Dental X-ray identification system based on association rules extracted by k-Symbol fractional haar functions | |
CN111476030B (zh) | 一种基于深度学习的前瞻因子筛选方法 | |
CN114003790A (zh) | 一种数据处理方法 | |
CN117194742A (zh) | 一种工业软件组件推荐方法及*** | |
CN114168751B (zh) | 一种基于医学知识概念图的医学文本标签识别方法及*** | |
CN112559862B (zh) | 一种基于邻近词相似度的产品特征聚类方法 | |
CN115438265A (zh) | 一种信息推荐方法及装置 | |
CN113627997A (zh) | 数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220201 |
|
RJ01 | Rejection of invention patent application after publication |