CN114003790A - 一种数据处理方法 - Google Patents

一种数据处理方法 Download PDF

Info

Publication number
CN114003790A
CN114003790A CN202111640990.1A CN202111640990A CN114003790A CN 114003790 A CN114003790 A CN 114003790A CN 202111640990 A CN202111640990 A CN 202111640990A CN 114003790 A CN114003790 A CN 114003790A
Authority
CN
China
Prior art keywords
data
module
neural network
database
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111640990.1A
Other languages
English (en)
Inventor
高献辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Enterprise Card Technology Co ltd
Original Assignee
Beijing Enterprise Card Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Enterprise Card Technology Co ltd filed Critical Beijing Enterprise Card Technology Co ltd
Priority to CN202111640990.1A priority Critical patent/CN114003790A/zh
Publication of CN114003790A publication Critical patent/CN114003790A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法,基于卷积神经网络,提取多尺度卷积神经网络特征,并通过基于三元组损失函数对多尺度卷积神经网络特征进行优化训练,进一步建模了企业信息的语义信息,并发布。本发明考虑了多种维度特征之间包含着大量互补信息,基于多尺度卷积神经网络特征、多方向聚类,充分利用并挖掘不同维度特征间的关联互补性,因此能取得更好的数据处理准确率。

Description

一种数据处理方法
技术领域
本发明涉及互联网技术领域,特别是涉及一种数据处理方法。
背景技术
数据网站通常保存有大量的文件、公文、通告等文档类数据,由于数量庞大,需要花费大量的时间和精力分类,并存在着查找信息不便、信息搜索不准确、信息分类不合理、分类不细致、信息录入板块不准确等各类问题,不利于提供有效的信息服务。
现需一种处理方式可以将信息充分分类。
发明内容
本发明是为了解决现有技术中的问题,提供了一种数据处理方法,基于卷积神经网络,提取多尺度卷积神经网络特征,并通过基于三元组损失函数对多尺度卷积神经网络特征进行优化训练,进一步建模了企业信息的语义信息,提供更具语义信息和辨识力,解决了上述问题。
本发明提供了一种数据处理方法,包括以下步骤:
S1、从各信息发布端收集信息,将收集到的数据统一格式,对统一文件格式后的数据进行分析、清洗预处理,并按收集来源形成第一数据库;
S2、导入待处理数据至数据处理***;
S3、根据待处理数据,神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块;时间序列特征模块将第一数据库的合作事件信息进行时间聚类,并提取待处理数据内的时间序列特征并传输至数据发布模块;属性网络特征模块根据第一数据库中企业基本信息进行聚类,提取属性网络特征并传输至数据发布模块;
S4、基于神经网络特征、时间序列特征和属性网络特征,将待处理数据与第一数据库中信息进行相似度匹配,得到三个维度特征的融合结果,数据发布模块发布融合结果。
本发明所述的一种数据处理方法,作为优选方式,步骤S1具体包括:
S11、选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息;
S12、对爬取到的原始数据进行汇总,清洗数据,包括重复值处理、缺失值处理、异常值处理;
S13、以数据来源为主键ID建立第一数据库。
本发明所述的一种数据处理方法,作为优选方式,企业信息包括企业基本信息和企业合作信息,企业基本信息包括企业的名称、成立的时间、所属行业;企业合作信息包括投融资事件、项目合作事件、买卖关系。
本发明所述的一种数据处理方法,作为优选方式,步骤S4中融合检索结果的具体计算公式为:
Figure DEST_PATH_IMAGE001
其中
Figure 776748DEST_PATH_IMAGE002
为待处理数据
Figure 335905DEST_PATH_IMAGE003
和第一数据库中第
Figure 297914DEST_PATH_IMAGE004
个企业合作信息
Figure 18745DEST_PATH_IMAGE005
的总相似度,
Figure 449727DEST_PATH_IMAGE006
为神经网络特征的相似度、
Figure 546996DEST_PATH_IMAGE007
为时间序列特征的相似度、
Figure 130555DEST_PATH_IMAGE008
为属性网络特征的相似度,
Figure 22287DEST_PATH_IMAGE009
Figure 206144DEST_PATH_IMAGE010
为权重参数。
本发明所述的一种数据处理方法,作为优选方式,数据处理***包括第一数据库、数据发布模块、特征提取模块,第一数据库连接特征提取模块,特征提取模块连接数据发布模块;
特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块,神经网络特征模块连接第一数据库、数据发布模块,时间序列特征模块连接第一数据库和数据发布模块,属性网络特征模块连接第一数据库,神经网络特征模块用于通过第一数据库提取神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出神经网络特征至数据发布模块,时间序列特征模块用于通过第一数据库根据提取的时间序列特征,构建时间序列并输出基于时间序列聚类的时间序列特征至数据发布模块,属性网络特征模块用于通过基于密度的聚类算法对企业基本信息进行聚类并属性网络特征至数据发布模块。
本发明所述的一种数据处理方法,作为优选方式,神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层,残差网络、第一卷积层和第二卷积层均连接第一数据库,残差网络数据连接第一全连接层,第一卷积层数据连接第一池化层,第二卷积层数据连接第二池化层,第一全连接层、第一池化层和第二池化层均连接第二全连接层,第二全连接层将神经网络特征传递至数据发布模块。
本发明所述的一种数据处理方法,作为优选方式,步骤S3中神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块具体方式为:
S311、企业样本分别输入残差网络、第一卷积层和第二卷积层,第一数据库预训练参数初始化的所述残差网络,并提取残差网络中的第一特征输入到第一全连接层中;
S312、第一卷积层和第二卷积层采用不同的Padding值和Stride值,分别通过第一池化层和第二池化层得到第二特征和第三特征;
S313、第一特征、第二特征和第三特征均经过
Figure 107104DEST_PATH_IMAGE011
2正则化;
S314、正则化后的第一特征、第二特征和第三特征拼接输入第二全连接层;
S315、第二全连接层通过线性映射得到神经网络特征。
本发明有益效果如下:
本发明考虑了多种维度特征之间包含着大量互补信息,基于多尺度卷积神经网络特征、多方向聚类,充分利用并挖掘不同维度特征间的关联互补性,因此能取得更好的数据处理准确率。
附图说明
图1为一种数据处理方法示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
如图1所示,一种数据处理方法,包括以下步骤:
S1、从各信息发布端收集信息,将收集到的数据统一格式,对统一文件格式后的数据进行分析、清洗预处理,并按收集来源形成第一数据库;
S2、导入待处理数据至数据处理***;
S3、根据待处理数据,神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块;时间序列特征模块将第一数据库的合作事件信息进行时间聚类,并提取待处理数据内的时间序列特征并传输至数据发布模块;属性网络特征模块根据第一数据库中企业基本信息进行聚类,提取属性网络特征并传输至数据发布模块;
S4、基于神经网络特征、时间序列特征和属性网络特征,将待处理数据与第一数据库中信息进行相似度匹配,得到三个维度特征的融合结果,数据发布模块发布融合结果。
步骤S1具体包括:
S11、选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息;
S12、对爬取到的原始数据进行汇总,清洗数据,包括重复值处理、缺失值处理、异常值处理;
S13、以数据来源为主键ID建立第一数据库。
企业信息包括企业基本信息和企业合作信息,企业基本信息包括企业的名称、成立的时间、所属行业;企业合作信息包括投融资事件、项目合作事件、买卖关系。
步骤S4中融合检索结果的具体计算公式为:
Figure 732120DEST_PATH_IMAGE001
其中
Figure 315461DEST_PATH_IMAGE002
为待处理数据
Figure 721034DEST_PATH_IMAGE003
和第一数据库中第
Figure 425685DEST_PATH_IMAGE004
个企业合作信息
Figure 170787DEST_PATH_IMAGE005
的总相似度,
Figure 669901DEST_PATH_IMAGE006
为神经网络特征的相似度、
Figure 313504DEST_PATH_IMAGE007
为时间序列特征的相似度、
Figure 556266DEST_PATH_IMAGE008
为属性网络特征的相似度,
Figure 952612DEST_PATH_IMAGE009
Figure 825890DEST_PATH_IMAGE010
为权重参数。
数据处理***包括第一数据库、数据发布模块、特征提取模块,第一数据库连接特征提取模块,特征提取模块连接数据发布模块;
特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块,神经网络特征模块连接第一数据库、数据发布模块,时间序列特征模块连接第一数据库和数据发布模块,属性网络特征模块连接第一数据库,神经网络特征模块用于通过第一数据库提取神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出神经网络特征至数据发布模块,时间序列特征模块用于通过第一数据库根据提取的时间序列特征,构建时间序列并输出基于时间序列聚类的时间序列特征至数据发布模块,属性网络特征模块用于通过基于密度的聚类算法对企业基本信息进行聚类并属性网络特征至数据发布模块。
神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层,残差网络、第一卷积层和第二卷积层均连接第一数据库,残差网络数据连接第一全连接层,第一卷积层数据连接第一池化层,第二卷积层数据连接第二池化层,第一全连接层、第一池化层和第二池化层均连接第二全连接层,第二全连接层将神经网络特征传递至数据发布模块。
步骤S3中神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块具体方式为:
S311、企业样本分别输入残差网络、第一卷积层和第二卷积层,第一数据库预训练参数初始化的所述残差网络,并提取残差网络中的第一特征输入到第一全连接层中;
S312、第一卷积层和第二卷积层采用不同的Padding值和Stride值,分别通过第一池化层和第二池化层得到第二特征和第三特征;
S313、第一特征、第二特征和第三特征均经过
Figure 940477DEST_PATH_IMAGE011
2正则化;
S314、正则化后的第一特征、第二特征和第三特征拼接输入第二全连接层;
S315、第二全连接层通过线性映射得到神经网络特征。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种数据处理方法,其特征在于:包括以下步骤:
S1、从各信息发布端收集信息,将收集到的数据统一格式,对统一文件格式后的数据进行分析、清洗预处理,并按收集来源形成第一数据库;
S2、导入待处理数据至数据处理***;
S3、根据待处理数据,神经网络特征模块通过所述第一数据库提取所述待处理数据内企业样本之间的神经网络特征并传输至数据发布模块;时间序列特征模块将所述第一数据库的合作事件信息进行时间聚类,并提取所述待处理数据内的时间序列特征并传输至数据发布模块;属性网络特征模块根据所述第一数据库中企业基本信息进行聚类,提取属性网络特征并传输至数据发布模块;
S4、基于所述神经网络特征、所述时间序列特征和所述属性网络特征,将待处理数据与所述第一数据库中信息进行相似度匹配,得到三个维度特征的融合结果,所述数据发布模块发布所述融合结果。
2.根据权利要求1所述的一种数据处理方法,其特征在于:所述步骤S1具体包括:
S11、选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息;
S12、对爬取到的原始数据进行汇总,清洗数据,包括重复值处理、缺失值处理、异常值处理;
S13、以数据来源为主键ID建立第一数据库。
3.根据权利要求2所述的一种数据处理方法,其特征在于:所述企业信息包括企业基本信息和企业合作信息,所述企业基本信息包括企业的名称、成立的时间、所属行业;所述企业合作信息包括投融资事件、项目合作事件、买卖关系。
4.根据权利要求1所述的一种数据处理方法,其特征在于:
步骤S4中融合检索结果的具体计算公式为:
Figure 959589DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE003
为待处理数据
Figure 494475DEST_PATH_IMAGE004
和所述第一数据库中第
Figure DEST_PATH_IMAGE005
个企业合作信息
Figure 873504DEST_PATH_IMAGE006
的总相似度,
Figure DEST_PATH_IMAGE007
为神经网络特征的相似度、
Figure 877363DEST_PATH_IMAGE008
为时间序列特征的相似度、
Figure DEST_PATH_IMAGE009
为属性网络特征的相似度,
Figure 367250DEST_PATH_IMAGE010
Figure 225485DEST_PATH_IMAGE012
为权重参数。
5.根据权利要求1所述的一种数据处理方法,其特征在于:所述数据处理***包括第一数据库、数据发布模块、特征提取模块,所述第一数据库连接所述特征提取模块,所述特征提取模块连接所述数据发布模块;
所述特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块,所述神经网络特征模块连接所述第一数据库、所述数据发布模块,所述时间序列特征模块连接所述第一数据库和所述数据发布模块,所述属性网络特征模块连接所述第一数据库,所述神经网络特征模块用于通过所述第一数据库提取神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出神经网络特征至所述数据发布模块,所述时间序列特征模块用于通过所述第一数据库根据提取的时间序列特征,构建时间序列并输出基于时间序列聚类的所述时间序列特征至所述数据发布模块,所述属性网络特征模块用于通过基于密度的聚类算法对企业基本信息进行聚类并属性网络特征至所述数据发布模块。
6.根据权利要求5所述的一种数据处理方法,其特征在于:所述神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层,所述残差网络、所述第一卷积层和所述第二卷积层均连接所述第一数据库,所述残差网络数据连接所述第一全连接层,所述第一卷积层数据连接所述第一池化层,所述第二卷积层数据连接所述第二池化层,所述第一全连接层、所述第一池化层和所述第二池化层均连接所述第二全连接层,所述第二全连接层将神经网络特征传递至所述数据发布模块。
7.根据权利要求6所述的一种数据处理方法,其特征在于:步骤S3中神经网络特征模块通过所述第一数据库提取所述待处理数据内企业样本之间的神经网络特征并传输至数据发布模块具体方式为:
S311、企业样本分别输入所述残差网络、所述第一卷积层和所述第二卷积层,所述第一数据库预训练参数初始化的所述残差网络,并提取所述残差网络中的第一特征输入到所述第一全连接层中;
S312、所述第一卷积层和所述第二卷积层采用不同的Padding值和Stride值,分别通过第一池化层和所述第二池化层得到第二特征和第三特征;
S313、所述第一特征、所述第二特征和所述第三特征均经过
Figure 296121DEST_PATH_IMAGE014
2正则化;
S314、正则化后的所述第一特征、所述第二特征和所述第三特征拼接输入所述第二全连接层;
S315、所述第二全连接层通过线性映射得到所述神经网络特征。
CN202111640990.1A 2021-12-30 2021-12-30 一种数据处理方法 Pending CN114003790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111640990.1A CN114003790A (zh) 2021-12-30 2021-12-30 一种数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111640990.1A CN114003790A (zh) 2021-12-30 2021-12-30 一种数据处理方法

Publications (1)

Publication Number Publication Date
CN114003790A true CN114003790A (zh) 2022-02-01

Family

ID=79932274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111640990.1A Pending CN114003790A (zh) 2021-12-30 2021-12-30 一种数据处理方法

Country Status (1)

Country Link
CN (1) CN114003790A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014187233A1 (en) * 2013-05-20 2014-11-27 Tencent Technology (Shenzhen) Company Limited Method,device and storing medium for searching
CN109919189A (zh) * 2019-01-29 2019-06-21 华南理工大学 一种面向时间序列数据的深度k均值聚类方法
CN112182275A (zh) * 2020-09-29 2021-01-05 神州数码信息***有限公司 一种基于多维度特征融合的商标近似检索***和方法
CN112712866A (zh) * 2020-12-25 2021-04-27 医渡云(北京)技术有限公司 一种确定文本信息相似度的方法及装置
CN112785156A (zh) * 2021-01-23 2021-05-11 罗家德 一种基于聚类与综合评价的产业领袖识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014187233A1 (en) * 2013-05-20 2014-11-27 Tencent Technology (Shenzhen) Company Limited Method,device and storing medium for searching
CN109919189A (zh) * 2019-01-29 2019-06-21 华南理工大学 一种面向时间序列数据的深度k均值聚类方法
CN112182275A (zh) * 2020-09-29 2021-01-05 神州数码信息***有限公司 一种基于多维度特征融合的商标近似检索***和方法
CN112712866A (zh) * 2020-12-25 2021-04-27 医渡云(北京)技术有限公司 一种确定文本信息相似度的方法及装置
CN112785156A (zh) * 2021-01-23 2021-05-11 罗家德 一种基于聚类与综合评价的产业领袖识别方法

Similar Documents

Publication Publication Date Title
CN109543084B (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN102693299B (zh) 一种并行视频拷贝检测***和方法
CN107885793A (zh) 一种微博热点话题分析预测方法及***
CN111899089A (zh) 基于知识图谱的企业风险预警方法及***
CN112632405B (zh) 一种推荐方法、装置、设备及存储介质
CN110674970A (zh) 企业法务风险预警方法、装置、设备及可读存储介质
CN111680225B (zh) 基于机器学习的微信金融消息分析方法及***
CN107292744A (zh) 基于机器学习的投资趋势分析方法及其***
CN111639970A (zh) 基于图像识别的物品价格确定方法及相关设备
CN114647741A (zh) 工艺自动决策和推理方法、装置、计算机设备及存储介质
CN111444793A (zh) 基于ocr的票据识别方法、设备、存储介质及装置
CN110990498A (zh) 一种基于fcm算法的数据融合方法
CN111581193A (zh) 数据处理方法、设备、计算机***及存储介质
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN112347254A (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
CN114491084A (zh) 基于自编码器的关系网络信息挖掘方法、装置及设备
CN110196849A (zh) 基于大数据治理技术实现用户画像构建处理的***及其方法
AlSheikh et al. Dental X-ray identification system based on association rules extracted by k-Symbol fractional haar functions
CN111476030B (zh) 一种基于深度学习的前瞻因子筛选方法
CN114003790A (zh) 一种数据处理方法
CN117194742A (zh) 一种工业软件组件推荐方法及***
CN114168751B (zh) 一种基于医学知识概念图的医学文本标签识别方法及***
CN112559862B (zh) 一种基于邻近词相似度的产品特征聚类方法
CN115438265A (zh) 一种信息推荐方法及装置
CN113627997A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220201

RJ01 Rejection of invention patent application after publication