CN114003790A

CN114003790A - 一种数据处理方法

Info

Publication number: CN114003790A
Application number: CN202111640990.1A
Authority: CN
Inventors: 高献辰
Original assignee: Beijing Enterprise Card Technology Co ltd
Current assignee: Beijing Enterprise Card Technology Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-02-01

Abstract

本发明公开了一种数据处理方法，基于卷积神经网络，提取多尺度卷积神经网络特征，并通过基于三元组损失函数对多尺度卷积神经网络特征进行优化训练，进一步建模了企业信息的语义信息，并发布。本发明考虑了多种维度特征之间包含着大量互补信息，基于多尺度卷积神经网络特征、多方向聚类，充分利用并挖掘不同维度特征间的关联互补性，因此能取得更好的数据处理准确率。

Description

一种数据处理方法

技术领域

本发明涉及互联网技术领域，特别是涉及一种数据处理方法。

背景技术

数据网站通常保存有大量的文件、公文、通告等文档类数据，由于数量庞大，需要花费大量的时间和精力分类，并存在着查找信息不便、信息搜索不准确、信息分类不合理、分类不细致、信息录入板块不准确等各类问题，不利于提供有效的信息服务。

现需一种处理方式可以将信息充分分类。

发明内容

本发明是为了解决现有技术中的问题，提供了一种数据处理方法，基于卷积神经网络，提取多尺度卷积神经网络特征，并通过基于三元组损失函数对多尺度卷积神经网络特征进行优化训练，进一步建模了企业信息的语义信息，提供更具语义信息和辨识力，解决了上述问题。

本发明提供了一种数据处理方法，包括以下步骤：

S1、从各信息发布端收集信息，将收集到的数据统一格式，对统一文件格式后的数据进行分析、清洗预处理，并按收集来源形成第一数据库；

S2、导入待处理数据至数据处理***；

S3、根据待处理数据，神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块；时间序列特征模块将第一数据库的合作事件信息进行时间聚类，并提取待处理数据内的时间序列特征并传输至数据发布模块；属性网络特征模块根据第一数据库中企业基本信息进行聚类，提取属性网络特征并传输至数据发布模块；

S4、基于神经网络特征、时间序列特征和属性网络特征，将待处理数据与第一数据库中信息进行相似度匹配，得到三个维度特征的融合结果，数据发布模块发布融合结果。

本发明所述的一种数据处理方法，作为优选方式，步骤S1具体包括：

S11、选取待评价的行业，确定信息来源，从信息来源网页中爬取企业信息；

S12、对爬取到的原始数据进行汇总，清洗数据，包括重复值处理、缺失值处理、异常值处理；

S13、以数据来源为主键ID建立第一数据库。

本发明所述的一种数据处理方法，作为优选方式，企业信息包括企业基本信息和企业合作信息，企业基本信息包括企业的名称、成立的时间、所属行业；企业合作信息包括投融资事件、项目合作事件、买卖关系。

本发明所述的一种数据处理方法，作为优选方式，步骤S4中融合检索结果的具体计算公式为：

其中

为待处理数据

和第一数据库中第

个企业合作信息

的总相似度，

为神经网络特征的相似度、

为时间序列特征的相似度、

为属性网络特征的相似度，

和

为权重参数。

本发明所述的一种数据处理方法，作为优选方式，数据处理***包括第一数据库、数据发布模块、特征提取模块，第一数据库连接特征提取模块，特征提取模块连接数据发布模块；

特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块，神经网络特征模块连接第一数据库、数据发布模块，时间序列特征模块连接第一数据库和数据发布模块，属性网络特征模块连接第一数据库，神经网络特征模块用于通过第一数据库提取神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出神经网络特征至数据发布模块，时间序列特征模块用于通过第一数据库根据提取的时间序列特征，构建时间序列并输出基于时间序列聚类的时间序列特征至数据发布模块，属性网络特征模块用于通过基于密度的聚类算法对企业基本信息进行聚类并属性网络特征至数据发布模块。

本发明所述的一种数据处理方法，作为优选方式，神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层，残差网络、第一卷积层和第二卷积层均连接第一数据库，残差网络数据连接第一全连接层，第一卷积层数据连接第一池化层，第二卷积层数据连接第二池化层，第一全连接层、第一池化层和第二池化层均连接第二全连接层，第二全连接层将神经网络特征传递至数据发布模块。

本发明所述的一种数据处理方法，作为优选方式，步骤S3中神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块具体方式为：

S311、企业样本分别输入残差网络、第一卷积层和第二卷积层，第一数据库预训练参数初始化的所述残差网络，并提取残差网络中的第一特征输入到第一全连接层中；

S312、第一卷积层和第二卷积层采用不同的Padding值和Stride值，分别通过第一池化层和第二池化层得到第二特征和第三特征；

S313、第一特征、第二特征和第三特征均经过

2正则化；

S314、正则化后的第一特征、第二特征和第三特征拼接输入第二全连接层；

S315、第二全连接层通过线性映射得到神经网络特征。

本发明有益效果如下：

本发明考虑了多种维度特征之间包含着大量互补信息，基于多尺度卷积神经网络特征、多方向聚类，充分利用并挖掘不同维度特征间的关联互补性，因此能取得更好的数据处理准确率。

附图说明

图1为一种数据处理方法示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

如图1所示，一种数据处理方法，包括以下步骤：

S2、导入待处理数据至数据处理***；

步骤S1具体包括：

S13、以数据来源为主键ID建立第一数据库。

企业信息包括企业基本信息和企业合作信息，企业基本信息包括企业的名称、成立的时间、所属行业；企业合作信息包括投融资事件、项目合作事件、买卖关系。

步骤S4中融合检索结果的具体计算公式为：

其中

为待处理数据

和第一数据库中第

个企业合作信息

的总相似度，

为神经网络特征的相似度、

为时间序列特征的相似度、

为属性网络特征的相似度，

和

为权重参数。

数据处理***包括第一数据库、数据发布模块、特征提取模块，第一数据库连接特征提取模块，特征提取模块连接数据发布模块；

神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层，残差网络、第一卷积层和第二卷积层均连接第一数据库，残差网络数据连接第一全连接层，第一卷积层数据连接第一池化层，第二卷积层数据连接第二池化层，第一全连接层、第一池化层和第二池化层均连接第二全连接层，第二全连接层将神经网络特征传递至数据发布模块。

步骤S3中神经网络特征模块通过第一数据库提取待处理数据内企业样本之间的神经网络特征并传输至数据发布模块具体方式为：

S313、第一特征、第二特征和第三特征均经过

2正则化；

S315、第二全连接层通过线性映射得到神经网络特征。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于：包括以下步骤：

S2、导入待处理数据至数据处理***；

S3、根据待处理数据，神经网络特征模块通过所述第一数据库提取所述待处理数据内企业样本之间的神经网络特征并传输至数据发布模块；时间序列特征模块将所述第一数据库的合作事件信息进行时间聚类，并提取所述待处理数据内的时间序列特征并传输至数据发布模块；属性网络特征模块根据所述第一数据库中企业基本信息进行聚类，提取属性网络特征并传输至数据发布模块；

S4、基于所述神经网络特征、所述时间序列特征和所述属性网络特征，将待处理数据与所述第一数据库中信息进行相似度匹配，得到三个维度特征的融合结果，所述数据发布模块发布所述融合结果。

2.根据权利要求1所述的一种数据处理方法，其特征在于：所述步骤S1具体包括：

S13、以数据来源为主键ID建立第一数据库。

3.根据权利要求2所述的一种数据处理方法，其特征在于：所述企业信息包括企业基本信息和企业合作信息，所述企业基本信息包括企业的名称、成立的时间、所属行业；所述企业合作信息包括投融资事件、项目合作事件、买卖关系。

4.根据权利要求1所述的一种数据处理方法，其特征在于：

步骤S4中融合检索结果的具体计算公式为：

其中

为待处理数据

和所述第一数据库中第

个企业合作信息

的总相似度，

为神经网络特征的相似度、

为时间序列特征的相似度、

为属性网络特征的相似度，

和

为权重参数。

5.根据权利要求1所述的一种数据处理方法，其特征在于：所述数据处理***包括第一数据库、数据发布模块、特征提取模块，所述第一数据库连接所述特征提取模块，所述特征提取模块连接所述数据发布模块；

所述特征提取模块包括神经网络特征模块、时间序列特征模块和属性网络特征模块，所述神经网络特征模块连接所述第一数据库、所述数据发布模块，所述时间序列特征模块连接所述第一数据库和所述数据发布模块，所述属性网络特征模块连接所述第一数据库，所述神经网络特征模块用于通过所述第一数据库提取神经网络特征并基于三元组度量损失函数对神经网络进行优化训练并输出神经网络特征至所述数据发布模块，所述时间序列特征模块用于通过所述第一数据库根据提取的时间序列特征，构建时间序列并输出基于时间序列聚类的所述时间序列特征至所述数据发布模块，所述属性网络特征模块用于通过基于密度的聚类算法对企业基本信息进行聚类并属性网络特征至所述数据发布模块。

6.根据权利要求5所述的一种数据处理方法，其特征在于：所述神经网络特征模块包括残差网络、第一全连接层、第二全连接层、第一卷积层、第二卷积层、第一池化层和第二池化层，所述残差网络、所述第一卷积层和所述第二卷积层均连接所述第一数据库，所述残差网络数据连接所述第一全连接层，所述第一卷积层数据连接所述第一池化层，所述第二卷积层数据连接所述第二池化层，所述第一全连接层、所述第一池化层和所述第二池化层均连接所述第二全连接层，所述第二全连接层将神经网络特征传递至所述数据发布模块。

7.根据权利要求6所述的一种数据处理方法，其特征在于：步骤S3中神经网络特征模块通过所述第一数据库提取所述待处理数据内企业样本之间的神经网络特征并传输至数据发布模块具体方式为：

S311、企业样本分别输入所述残差网络、所述第一卷积层和所述第二卷积层，所述第一数据库预训练参数初始化的所述残差网络，并提取所述残差网络中的第一特征输入到所述第一全连接层中；

S312、所述第一卷积层和所述第二卷积层采用不同的Padding值和Stride值，分别通过第一池化层和所述第二池化层得到第二特征和第三特征；

S313、所述第一特征、所述第二特征和所述第三特征均经过

2正则化；

S314、正则化后的所述第一特征、所述第二特征和所述第三特征拼接输入所述第二全连接层；

S315、所述第二全连接层通过线性映射得到所述神经网络特征。