CN116431711B

CN116431711B - 基于数据特征实现的数据智能采集方法及***

Info

Publication number: CN116431711B
Application number: CN202310691498.XA
Authority: CN
Inventors: 张煇; 刘俊龙; 崔红凯
Original assignee: Changhe Information Co ltd; Beijing Changhe Digital Intelligence Technology Co ltd
Current assignee: Changhe Information Co ltd; Beijing Changhe Digital Intelligence Technology Co ltd
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2024-03-15
Anticipated expiration: 2043-06-13
Also published as: CN116431711A

Abstract

本发明涉及数据采集领域，揭露一种基于数据特征实现的数据智能采集方法及***，该方法包括：根据数据需求检索源数据，计算源数据的数据关联度，根据数据关联度对源数据分类，得到分类数据；分析分类数据的数据属性，根据数据属性，采集分类数据的数据特征；计算数据特征的特征权重，根据特征权重，对数据特征进行特征融合，得到融合特征；对数据需求进行特征表述，得到需求特征，根据需求特征创建数据需求的特征分析模型，利用特征分析模型对融合特征和需求特征进行特征拟合运算，得到拟合值；在拟合值不大于预设值，将融合特征作为数据需求的目标特征；根据目标特征，从源数据中采集数据需求对应的需求数据。本发明可以提高数据采集的准确率。

Description

基于数据特征实现的数据智能采集方法及***

技术领域

本发明涉及数据采集领域，尤其涉及一种基于数据特征实现的数据智能采集方法及***。

背景技术

数据采集是现代社会不可缺少的一部分，其可以帮助用户分析各种现象和趋势，随着数字化时代的到来以及互联网使用频率的攀升，在海量数据中进行数据特征采集提取，能够有效的促进数据的快速识别以及高效利用。

目前，对于数据的采集一般通过数据采集器采集，按照数据需求设置采集条件，并获取大量的相关数据，然而在使用这种方法采集数据的过程中，由于采集条件的设置，往往会出现设置范围大采集的数据量过大处理起来较为浪费时间，设置范围小获取的数据量较少可能无法获得较多有价值的数据，从而使得采集到的数据不够准确。

发明内容

为了解决上述技术问题，本发明提供了一种基于数据特征实现的数据智能采集方法及***，能够提高提高数据采集的准确率。

第一方面，本发明提供了一种基于数据特征实现的数据智能采集方法，包括：

获取数据需求，根据所述数据需求检索源数据，计算所述源数据的数据关联度，根据所述数据关联度对所述源数据进行数据分类，得到分类数据；

分析所述分类数据的数据属性，根据所述数据属性，采集所述分类数据的数据特征；

计算所述数据特征的特征权重，根据所述特征权重，对所述数据特征进行特征融合，得到融合特征；

对所述数据需求进行特征表述，得到需求特征，并根据所述需求特征创建所述数据需求的特征分析模型，利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值；

判断所述拟合值是否大于预设阈值；

在所述拟合值大于预设值时，返回对所述数据需求进行特征表述的步骤；

在所述拟合值不大于所述预设值，将所述融合特征作为所述数据需求的目标特征；

根据所述目标特征，从所述源数据中采集所述数据需求对应的需求数据。

在第一方面的一种可能实现方式中，所述根据所述数据需求检索源数据，包括：

根据所述数据需求，创建所述数据需求对应的需求文本；

在所述需求文本中构建所述数据需求对应的需求目录；

在所述需求目录中添加检索代码，以根据所述检索代码检索所述数据需求对应的源数据。

在第一方面的一种可能实现方式中，所述根据所述数据关联度对所述源数据进行数据分类，得到分类数据，包括：

根据所述数据关联度为所述源数据添加分类标签；

创建所述源数据的分类集，根据所述分类标签将所述源数据加载入所述分类集中，得到分类数据。

在第一方面的一种可能实现方式中，所述根据所述数据属性，采集所述分类数据的数据特征，包括：

根据所述数据属性将所述分类数据转换为线性数据；

将所述线性数据进行降维处理，得到降维数据；

将所述降维数据数据映射到预构建的空间矩阵中，并在所述空间矩阵中利用预设的矩阵算法采集所述分类数据的数据特征。

在第一方面的一种可能实现方式中，所述根据所述数据属性将所述分类数据转换为线性数据，包括：

通过所述数据属性查询所述分类数据的数据结构；

根据所述数据结构查询相对应的线性结构算法；

根据所述线性结构算法，以通过所述线性结构算法将所述分类数据转换为线性数据。

在第一方面的一种可能实现方式中，所述计算所述数据特征的特征权重，包括：

利用下述公式计算所述数据特征的特征权重：

其中，表示特征权重，/>表示数据特征的熵熄函数，/>表示数据特征的熵熄值，m表示数据特征的特征数量，/>表示权重矩阵，/>表示第A类数据的第j个数据特征。

在第一方面的一种可能实现方式中，所述根据所述特征权重，对所述数据特征进行特征融合，得到融合特征，包括：

利用下述公式对所述数据特征进行特征融合：

其中，表示融合特征，m表示数据特征的特征数量，/>表示权重均值，/>表示第x个数据特征的权重值，/>表示第y个数据特征的权重值，e表示权重误差值。

在第一方面的一种可能实现方式中，所述根据所述目标特征，从所述源数据中采集所述数据需求对应的需求数据，包括：

查询所述源数据的数据库结构；

根据所述数据库结构，创建所述源数据的索引方式，为所述目标特征添加检索标签；

根据所述索引方式和所述检索标签，从所述源数据中采集所述数据需求对应的需求数据。

在第一方面的一种可能实现方式中，所述利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值，包括：

利用下述公式对所述融合特征和所述需求特征进行特征拟合运算：

其中，表示拟合值，m表示拟合计算的次数，/>表示拟合残差，/>表示余弦函数，f表示拟合曲线，/>表示融合特征的第i个特征，/>表示需求特征的第j个特征。

第二方面，本发明提供了一种基于数据特征实现的数据智能采集***，所述***包括：

数据分类模块，用于获取数据需求，根据所述数据需求检索源数据，计算所述源数据的数据关联度，根据所述数据关联度对所述源数据进行数据分类，得到分类数据；

特征采集模块，用于分析所述分类数据的数据属性，根据所述数据属性，采集所述分类数据的数据特征；

特征融合模块，用于计算所述数据特征的特征权重，根据所述特征权重，对所述数据特征进行特征融合，得到融合特征；

拟合计算模块，用于对所述数据需求进行特征表述，得到需求特征，并根据所述需求特征创建所述数据需求的特征分析模型，利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值；

拟合判断模块，用于判断所述拟合值是否大于预设阈值；

步骤返回模块，用于在所述拟合值大于预设值时，返回对所述数据需求进行特征表述的步骤；

特征获取模块，用于在所述拟合值不大于所述预设值，将所述融合特征作为所述数据需求的目标特征；

数据采集模块，用于根据所述目标特征，从所述源数据中采集所述数据需求对应的需求数据。

与现有技术相比，本方案的技术原理及有益效果在于：

本方案首先通过所述获取数据需求，根据所述数据需求检索源数据可以获取大量的与需求相关的数据，从而能够从这些大量的数据中的获取所需要的数据如风景类的数据，所述数据需求如某地区的人文历史、风景介绍、科技建设等信息数据，并通过所述根据所述数据关联度对所述源数据进行数据分类，得到分类数据可以将同类型或功能相似的数据如描述某地区人文历史信息或介绍某地区发展的视频放在相同数据集中，能够对大量数据进行集中处理，提升数据处理的效率；其次，本发明实施例通过根据所述数据关联度为所述源数据添加分类标签可通过数据关联度将所述源数据分为不同功能的数据，并根据所述不同功能添加相对应的功能标签；以及通过所述根据所述数据属性，采集所述分类数据的数据特征可以获得不同数据的数据定义或标识，从而可以用简便的形式来代表复杂的数据也便于计算机语言的识别以及检索查询；进一步的，本发明实施例通过所述计算所述数据特征的特征权重能够识别数据特征中较为明显的特征；并通过所述根据所述特征权重，对所述数据特征进行特征融合，得到融合特征可以将较为明显的特征作为主特征，特征不明显的特征弱化融合，使得在后续进特征检索的时候检索到的数据目标更加明确；并通过所述对所述数据需求进行特征表述，得到需求特征可以将所述数据需求用数据特征形式表达，进行能够通过后续的特征分析模型对数据特征的分析使得计算机更加容易理解，从而有利于数据的采集；及通过所述利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值可以得到关于数据特征的计算参数，进而利用所计算参数对所述数据特征进行计算；以及通过根据所述目标特征，从所述源数据中采集所述数据需求对应的需求数据可以实现基于数据特征采集数据，数据目标明确，采集到的数据都为用户所需求的数据，避免了常规数据采集的验证、筛选等繁琐步骤节约了大量时间，提升了数据采集的效率与精确性。因此，本发明实施例提出的一种基于数据特征实现的数据智能采集方法及***，能够提高数据采集的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于数据特征实现的数据智能采集方法的流程示意图；

图2为本发明一实施例提供的一种基于数据特征实现的数据智能采集***的模块示意图；

图3为本发明一实施例提供的实现基于数据特征实现的数据智能采集方法的电子设备的内部结构示意图。

具体实施方式

应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供一种基于数据特征实现的数据智能采集方法，所述基于数据特征实现的数据智能采集方法的执行主体包括但不限于服务端、终端等能够被配置为执行本发明实施例提供的该方法的电子设备中的至少一种。换言之，所述基于数据特征实现的数据智能采集方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参阅图1所示，是本发明一实施例提供的基于数据特征实现的数据智能采集方法的流程示意图。其中，图1中描述的基于数据特征实现的数据智能采集方法包括以下步骤S1-S8：

S1、获取数据需求，根据所述数据需求检索源数据，计算所述源数据的数据关联度，根据所述数据关联度对所述源数据进行数据分类，得到分类数据。

本发明实施例通过所述获取数据需求，根据所述数据需求检索源数据可以获取大量的与需求相关的数据，从而能够从这些大量的数据中的获取所需要的数据如风景类的数据，所述数据需求如某地区的人文历史、风景介绍、科技建设等信息数据。

作为本法明的一个实施例，所述根据所述数据需求检索源数据，包括：根据所述数据需求，创建所述数据需求对应的需求文本，在所述需求文本中构建所述数据需求对应的需求目录，在所述需求目录中添加检索代码，以根据所述检索代码检索所述数据需求对应的源数据。

其中，所述文本是指一种文件用以存放数据，所述目录是指列表将数据按照设定的形式存放在目录中，所述检索代码是指通过二进制代码生成的特殊字符具有标识指示作用具备唯一性。

可选的，所述需求文本通过java语言创建，所述需求目录通过sql语言创建。

进一步的，本发明实施例通过所述计算所述源数据的数据关联度可以了解所述源数据之间的数据关联性，进而可以将相关联数据进行分类，提高数据处理效率。

作为本发明的一个实施例，所述计算所述源数据的数据关联度，包括：

利用下述公式计算所述源数据的数据关联度：

其中，表示数据关联度，/>表示在源数据b被检索时源数据a的出现概率，表示在源数据a被检索时，源数据b的出现概率，/>表示源数据a的数据标签，/>表示源数据b的数据标签，n表示源数据a被检索的次数，m表示源数据b被检索的次数，/>表示标签函数；

进一步的，本发明实施例通过所述根据所述数据关联度对所述源数据进行数据分类，得到分类数据可以将同类型或功能相似的数据如描述某地区人文历史信息或介绍某地区发展的视频放在相同数据集中，能够对大量数据进行集中处理，提升数据处理的效率。

作为本发明的一个实施例，所述根据所述数据关联度对所述源数据进行数据分类，得到分类数据，包括：根据所述数据关联度为所述源数据添加分类标签，并创建所述源数据的分类集，根据所述分类标签将所述源数据加载入所述分类集中，得到分类数据。其中，所述分类标签表示指示符，具有身份标识作用能够被计算机语言识别，所述分类集是指数据的集合能够保存相同类型的数据。

可选的，所述分类标签由二进制代码生成，所述源数据的分类集的可由sql语言的数据库功能创建。

进一步的，本发明又一可选实施例中，所述根据所述数据关联度为所述源数据添加分类标签可通过数据关联度将所述源数据分为不同功能的数据，并根据所述不同功能添加相对应的功能标签。

S2、分析所述分类数据的数据属性，根据所述数据属性，采集所述分类数据的数据特征。

本发明实施例通过所述分析所述分类数据的数据属性可以得到数据最原始特征，如图像的像素点处理后可用来描述图像特征，未处理的像素点可表示为数据的属性，属性有标称的、二元的、序数的、数值的可以用来描述事物的符号名称、编码参数、数据序列等。

作为本发明的一个可选实施例，所述分析所述分类数据的数据属性可通过查询所述分类数据的源代码，并识别所述源代码的代码结构来分析所述分类数据的数据属性。

进一步的，本发明实施例通过所述根据所述数据属性，采集所述分类数据的数据特征可以获得不同数据的数据定义或标识，从而可以用简便的形式来代表复杂的数据也便于计算机语言的识别以及检索查询。

作为本发明的一个实施例，所述根据所述数据属性，采集所述分类数据的数据特征，包括：根据所述数据属性将所述分类数据转换为线性数据，将所述线性数据进行降维处理，得到降维数据，将所述降维数据数据映射到预构建的空间矩阵中，并在所述空间矩阵中利用预设的矩阵算法采集所述分类数据的数据特征。其中，所述线性数据是指将数据转换数字数据，将不同数据用同一个维度表示，所述降维是指将高维数据降为低维数据，如将三维数据转换为二维数据从而降低数据的计算量，所述空间矩阵是指一个数字矩阵，将所述数据用数字的形式表达，并且矩阵拥有多种算法。

进一步的，本发明又一可选实施例中，所述根据所述数据属性将所述分类数据转换为线性数据，包括：通过所述数据属性查询所述分类数据的数据结构，根据所述数据结构查询相对应的线性结构算法，根据所述线性结构算法，以通过所述线性结构算法将所述分类数据转换为线性数据。

可选的，所述将所述线性数据进行降维处理通过线性代数实现，所述将所述降维数据数据映射到预构建的空间矩阵中通过空间映射算法实现，所述空间映射算通过深度学习模型训练生成。

作为本发明的又一可选实施例，所述利用预设的矩阵算法采集所述分类数据的数据特征，包括：采集所述分类数据的历史特征，利用特征工程的训练模型对所述历史特征进行训练，得到特征算法，利用所述特征算法对所述分类数据进行特征计算，得到目标数据特征。

S3、计算所述数据特征的特征权重，根据所述特征权重，对所述数据特征进行特征融合，得到融合特征。

本发明实施例通过所述计算所述数据特征的特征权重能够识别数据特征中较为明显的特征，如一条篮球比赛视频，其特征可描述为篮球、运动、锻炼，然而篮球这条特征更为明显，将篮球标签作为检索标签被检索到的概率更大。

作为本发明的一个实施例，所述计算所述数据特征的特征权重，包括：

利用下述公式计算所述数据特征的特征权重：

进一步的，本发明实施例通过所述根据所述特征权重，对所述数据特征进行特征融合，得到融合特征可以将较为明显的特征作为主特征，特征不明显的特征弱化融合，使得在后续进特征检索的时候检索到的数据目标更加明确。

作为本发明的一个实施例，所述根据所述特征权重，对所述数据特征进行特征融合，得到融合特征，包括：

利用下述公式对所述数据特征进行特征融合：

S4、对所述数据需求进行特征表述，得到需求特征，并根据所述需求特征创建所述数据需求的特征分析模型，利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值。

本发明实施例通过所述对所述数据需求进行特征表述，得到需求特征可以将所述数据需求用数据特征形式表达，进行能够通过后续的特征分析模型对数据特征的分析使得计算机更加容易理解，从而有利于数据的采集。

可选的，所述对所述数据需求进行特征表述，得到需求特征通过根据所述数据需求生成需求参数，并将所述需求参数映射到特征矩阵中实现。

进一步的，本发明实施例通过所述根据所述需求特征创建所述数据需求的特征分析模型能过利用模型对数据需求进行模拟运算，从而得到关于数据需求的计算算法，进而根据所述计算算法计算出所述源数据中符合要求的数据特征。所述特征分析模型可由深度学习算法创建。

本发明实施例通过所述利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值可以得到关于数据特征的计算参数，进而利用所计算参数对所述数据特征进行计算，所述拟合值可为1，也可根据实际应用场景进行设置。

作为本发明的一个实施例，所述利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值，包括：

S5、判断所述拟合值是否大于预设阈值。

本发明实施例通过所述判断所述拟合值是否大于预设阈值可以了解最终拟合的结果，并根据所述拟合值大小进行下个步骤的操作。

S6、在所述拟合值大于预设值时，返回对所述数据需求进行特征表述的步骤。

应当了解，所述在所述拟合值大于预设值时，表示在所述特征分析模型中对于所述融合特征和所述需求特征的训练测试结果误差较大，则最终得到的运算结果无法用来参考，因而通过所述返回对所述数据需求进行特征表述的步骤来进行参数的调整，以保证能够得到理想的模型分析结果。

S7、在所述拟合值不大于所述预设值，将所述融合特征作为所述数据需求的目标特征。

应当了解，所述在所述拟合值不大于所述预设值时，表示在所述特征分析模型中对于所述融合特征和所述需求特征的训练测试结果误差在合理范围内，则最终得到的分析结果较为可靠，可作为最终的参考依据。

S8，根据所述目标特征，从所述源数据中采集所述数据需求对应的需求数据。

本发明实施例通过所述根据所述目标特征，从所述源数据中采集所述数据需求对应的需求数据可以实现基于数据特征采集数据，数据目标明确，采集到的数据都为用户所需求的数据，避免了常规数据采集的验证、筛选等繁琐步骤节约了大量时间，提升了数据采集的效率与精确性。

作为本发明的一个实施例，所述根据所述目标特征，从所述源数据中采集所述数据需求对应的需求数据，包括：查询所述源数据的数据库结构，根据所述数据库结构，创建所述源数据的索引方式，为所述目标特征添加检索标签，根据所述索引方式和所述检索标签执行从所述源数据中采集需求数据。其中，所述数据库结构是指数据库表的组织方式如表的名称、数据类型、约束条件等。

可选的，所述源数据的数据库结构通过查询所述源数据对应的数据库原始架构识别，所述源数据的索引方式根据所述源数据的数据库表组织方式创建，所述为所述目标特征添加检索标签java语言添加。

可以看出，本方案首先通过所述获取数据需求，根据所述数据需求检索源数据可以获取大量的与需求相关的数据，从而能够从这些大量的数据中的获取所需要的数据如风景类的数据，所述数据需求如某地区的人文历史、风景介绍、科技建设等信息数据，并通过所述根据所述数据关联度对所述源数据进行数据分类，得到分类数据可以将同类型或功能相似的数据如描述某地区人文历史信息或介绍某地区发展的视频放在相同数据集中，能够对大量数据进行集中处理，提升数据处理的效率；其次，本发明实施例通过根据所述数据关联度为所述源数据添加分类标签可通过数据关联度将所述源数据分为不同功能的数据，并根据所述不同功能添加相对应的功能标签；以及通过所述根据所述数据属性，采集所述分类数据的数据特征可以获得不同数据的数据定义或标识，从而可以用简便的形式来代表复杂的数据也便于计算机语言的识别以及检索查询；进一步的，本发明实施例通过所述计算所述数据特征的特征权重能够识别数据特征中较为明显的特征；并通过所述根据所述特征权重，对所述数据特征进行特征融合，得到融合特征可以将较为明显的特征作为主特征，特征不明显的特征弱化融合，使得在后续进特征检索的时候检索到的数据目标更加明确；并通过所述对所述数据需求进行特征表述，得到需求特征可以将所述数据需求用数据特征形式表达，进行能够通过后续的特征分析模型对数据特征的分析使得计算机更加容易理解，从而有利于数据的采集；及通过所述利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值可以得到关于数据特征的计算参数，进而利用所计算参数对所述数据特征进行计算；以及通过根据所述目标特征，从所述源数据中采集所述数据需求对应的需求数据可以实现基于数据特征采集数据，数据目标明确，采集到的数据都为用户所需求的数据，避免了常规数据采集的验证、筛选等繁琐步骤节约了大量时间，提升了数据采集的效率与精确性。因此，本发明实施例提出的一种基于数据特征实现的数据智能采集方法，能够提高数据采集的准确率。

如图2所示，是本发明基于数据特征实现的数据智能采集***的功能模块图。

本发明所述基于数据特征实现的数据智能采集***200可以安装于电子设备中。根据实现的功能，所述基于数据特征实现的数据智能采集***可以包括数据分类模块201、特征采集模块202、特征融合模块203、拟合计算模块204、拟合判断模块205、步骤返回模块206、特征获取模块207以及数据采集模块208。

本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本发明实施例中，关于各模块/单元的功能如下：

所述数据分类模块201，用于获取数据需求，根据所述数据需求检索源数据，计算所述源数据的数据关联度，根据所述数据关联度对所述源数据进行数据分类，得到分类数据；

所述特征采集模块202，用于分析所述分类数据的数据属性，根据所述数据属性，采集所述分类数据的数据特征；

所述特征融合模块203，用于计算所述数据特征的特征权重，根据所述特征权重，对所述数据特征进行特征融合，得到融合特征；

所述拟合计算模块204，用于对所述数据需求进行特征表述，得到需求特征，并根据所述需求特征创建所述数据需求的特征分析模型，利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值；

所述拟合判断模块205，用于判断所述拟合值是否大于预设阈值

所述步骤返回模块206，用于在所述拟合值大于预设值时，返回对所述数据需求进行特征表述的步骤；

所述特征获取模块207，用于在所述拟合值不大于所述预设值，将所述融合特征作为所述数据需求的目标特征；

所述数据采集模块208，用于根据所述目标特征，从所述源数据中采集所述数据需求对应的需求数据。

详细地，本发明实施例中所述基于数据特征实现的数据智能采集***200中的所述各模块在使用时采用与上述的图1中所述的基于数据特征实现的数据智能采集方法及***一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图3所示，是本发明实现基于数据特征实现的数据智能采集方法的电子设备的结构示意图。

所述电子设备可以包括处理器30、存储器31、通信总线32以及通信接口33，还可以包括存储在所述存储器31中并可在所述处理器30上运行的计算机程序，如焙烧锂渣锻造程序。

其中，所述处理器30在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing Unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器30是所述电子设备的控制核心（ControlUnit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块（例如执行焙烧锂渣锻造程序等），以及调用存储在所述存储器31内的数据，以执行电子设备的各种功能和处理数据。

所述存储器31至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器31在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器31在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡（Smart Media Card，SMC）、安全数字（Secure Digital，SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器31还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器31不仅可以用于存储安装于电子设备的应用软件及各类数据，例如焙烧锂渣锻造程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述通信总线32可以是外设部件互连标准（Peripheral ComponentInterconnect，简称PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器31以及至少一个处理器30等之间的连接通信。

所述通信接口33用于上述电子设备与其他设备之间的通信，包括网络接口和用户接口。可选地，所述网络接口可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，所述用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管图中未示出，所述电子设备还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理***与所述至少一个处理器30逻辑相连，从而通过电源管理***实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利发明范围上并不受此结构的限制。

所述电子设备中的所述存储器31存储的基于数据特征实现的数据智能采集程序是多个计算机程序的组合，在所述处理器30中运行时，可以实现以下方法：

判断所述拟合值是否大于预设阈值；

具体地，所述处理器30对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或***、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现以下方法：

判断所述拟合值是否大于预设阈值；

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，***和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于数据特征实现的数据智能采集方法，其特征在于，所述方法包括：

获取数据需求，根据所述数据需求检索源数据，计算所述源数据的数据关联度，根据所述数据关联度对所述源数据进行数据分类，得到分类数据，其中，所述计算所述源数据的数据关联度，包括：

利用下述公式计算所述源数据的数据关联度：

其中，S表示数据关联度，a∈b表示在源数据b被检索时源数据a的出现概率，b∈a表示在源数据a被检索时，源数据b的出现概率，δ_a表示源数据a的数据标签，δ_b表示源数据b的数据标签，n表示源数据a被检索的次数，m表示源数据b被检索的次数，α表示标签函数；

对所述数据需求进行特征表述，得到需求特征，并根据所述需求特征创建所述数据需求的特征分析模型，利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值，包括：

其中，γ表示拟合值，m表示拟合计算的次数，ε表示拟合残差，cos表示余弦函数，f表示拟合曲线，k_i表示融合特征的第i个特征，p_j表示需求特征的第j个特征；

判断所述拟合值是否大于预设值；

2.根据权利要求1所述的方法，其特征在于，所述获取数据需求，根据所述数据需求检索源数据，包括：

根据所述数据需求，创建所述数据需求对应的需求文本；

在所述需求文本中构建所述数据需求对应的需求目录；

3.根据权利要求1所述的方法，其特征在于，所述根据所述数据关联度对所述源数据进行数据分类，得到分类数据，包括：

根据所述数据关联度为所述源数据添加分类标签；

4.根据权利要求1所述的方法，其特征在于，所述根据所述数据属性，采集所述分类数据的数据特征，包括：

根据所述数据属性将所述分类数据转换为线性数据；

将所述线性数据进行降维处理，得到降维数据；

将所述降维数据映射到预构建的空间矩阵中，并在所述空间矩阵中利用预设的矩阵算法采集所述分类数据的数据特征。

5.根据权利要求4所述的方法，其特征在于，所述根据所述数据属性将所述分类数据转换为线性数据，包括：

通过所述数据属性查询所述分类数据的数据结构；

根据所述数据结构查询相对应的线性结构算法；

6.根据权利要求1所述的方法，其特征在于，所述计算所述数据特征的特征权重，包括：

利用下述公式计算所述数据特征的特征权重：

其中，X表示特征权重，ω表示数据特征的熵熄函数，β表示数据特征的熵熄值，m表示数据特征的特征数量，σ表示权重矩阵，A_j表示第A类数据的第j个数据特征。

7.根据权利要求1所述的方法，其特征在于，所述根据所述特征权重，对所述数据特征进行特征融合，得到融合特征，包括：

利用下述公式对所述数据特征进行特征融合：

其中，R表示融合特征，m表示数据特征的特征数量，θ表示权重均值，p_x表示第x个数据特征的权重值，p_y表示第y个数据特征的权重值，e表示权重误差值。

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标特征，从所述源数据中采集所述数据需求对应的需求数据，包括：

查询所述源数据的数据库结构；

9.一种基于数据特征实现的数据智能采集***，其特征在于，所述***包括：

数据分类模块，用于获取数据需求，根据所述数据需求检索源数据，计算所述源数据的数据关联度，根据所述数据关联度对所述源数据进行数据分类，得到分类数据，其中，所述计算所述源数据的数据关联度，包括：

利用下述公式计算所述源数据的数据关联度：

拟合计算模块，用于对所述数据需求进行特征表述，得到需求特征，并根据所述需求特征创建所述数据需求的特征分析模型，利用所述特征分析模型对所述融合特征和所述需求特征进行特征拟合运算，得到拟合值，包括：

拟合判断模块，用于判断所述拟合值是否大于预设阈值；