CN115859159A - 基于数据整合的数据评估处理方法 - Google Patents

基于数据整合的数据评估处理方法 Download PDF

Info

Publication number
CN115859159A
CN115859159A CN202310123800.1A CN202310123800A CN115859159A CN 115859159 A CN115859159 A CN 115859159A CN 202310123800 A CN202310123800 A CN 202310123800A CN 115859159 A CN115859159 A CN 115859159A
Authority
CN
China
Prior art keywords
data
dimension
label
rule
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310123800.1A
Other languages
English (en)
Other versions
CN115859159B (zh
Inventor
董勤杨
马璇
刘石磊
曹猛
陈丽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aiqibang Technology Service Co ltd
Original Assignee
Beijing Aiqibang Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aiqibang Technology Service Co ltd filed Critical Beijing Aiqibang Technology Service Co ltd
Priority to CN202310123800.1A priority Critical patent/CN115859159B/zh
Publication of CN115859159A publication Critical patent/CN115859159A/zh
Application granted granted Critical
Publication of CN115859159B publication Critical patent/CN115859159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,尤其涉及一种基于数据整合的数据评估处理方法,包括获取第一数据以及与第一数据形成对应关系的第二数据;以第二数据的类别为分类指标标记对应的第一数据,形成第一标签数据;按第一规则将第一标签数据进行处理形成若干数据组;确定单个数据组是否满足映射标准;根据第二算法计算单个数据组中各第一标签数据对应的计算值,确定针对第一规则的调整方式,并对应形成调整后的第一规则;采用调整后的第一规则对应的运算方式对第一数据的对应维度的优先度级别以及维度数量进行调整,以生成调整后的第一训练数据。本发明通过降低数据维度,从而降低用于训练的样本数据的训练复杂度以及训练时长。

Description

基于数据整合的数据评估处理方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于数据整合的数据评估处理方法。
背景技术
计算机不能直接处理现实世界中的客观事物,而数据库***正是使用计算机技术对客观事物进行管理,因此就需要对客观事物进行抽象、模拟,以建立适合于计算机进行处理的运算方式,其中,数值数据由于能够与计算机的处理方式更为匹配,因而通过数值进行计算得到的结果也更为精确。
中国专利公开号CN115391403A公开了一种基于规则引擎的数据整合方法及数据整合装置,包括:获取每个数据源在当前数据采集周期内产生的增量数据表;根据规则引擎中配置的数据表信息,确定每个数据源产生的每张增量数据表的数据表类型;针对属于多值数据表类型的每个多值增量数据表,将该多值增量数据表中的增量数据叠加到目标***的数据库中;针对属于单值数据表类型的每个单值增量数据表,根据规则引擎中配置的规则信息和每个单值增量数据表中的增量数据,对目标***的数据库中的数据进行覆盖。这样,能够根据规则引擎的配置信息,基于各数据源产生的增量数据表中的增量数据自动进行数据整合,配置信息灵活易变更,从而减少编程开发的工作量;中国专利公开号CN113946616A公开了一种异构数据整合的方法和***,属于计算机技术领域,所述方法包括:预设异构数据的数据源和连接方式,以及异构数据中数据源类型和字段的映射关系;根据所述连接方式,从所述数据源中读取异构数据;根据所述映射关系,将所读取的异构数据进行标准化,获得标准数据;以覆盖的方式,将所述标准数据写入非关系型数据库。根据映射关系,对异构数据的标准化后,与目标非关系型数据库的字段相同,起到异构数据整合的作用;覆盖新增的方式可以高效写入数据,提高数据质量,避免由于数据修改而产生的写入错误或遗漏。
由此可见,现有技术中针对具有多维度特征的数据进行处理学习其与结果的映射关系时,若数据维度较多,则无法有效对其映射关系进行学习和训练,增加了样本数据的训练复杂度高以及训练时长过长或训练不成功。
发明内容
为此,本发明提供一种基于数据整合的数据评估处理方法,用以克服现有技术中对于数据维度较多的样本数据而言,无法针对性的对映射关系进行学习导致的样本数据的训练复杂度高的问题。
为实现上述目的,本发明提供一种基于数据整合的数据评估处理方法,包括:
获取第一数据以及与第一数据形成对应关系的第二数据,且,第一数据为数值数据,第二数据为类别数据;
响应于第一预设条件,以所述第二数据的类别为分类指标标记对应的第一数据,形成第一标签数据;
按第一规则将所述第一标签数据进行处理以对各第一标签数据进行分组形成若干数据组;
将单个所述数据组中各第一标签数据以对应的所述第二数据的类别进行分类并提取其中占比最大分类的占比与预设标准进行比对,以确定单个数据组是否满足映射标准;
响应于第二预设条件,根据第二算法计算单个数据组中各第一标签数据对应的计算值,并与预设映射标准进行比较以确定针对所述第一规则的调整方式,并对应形成调整后的第一规则;
响应于第三预设条件,采用所述调整后的第一规则对应的运算方式对第一数据的对应维度的优先度级别以及维度数量进行调整,以生成调整后的第一训练数据;
其中,所述第一预设条件为所述第一数据的数据量大于等于预设数据量,所述第二预设条件为单个数据组不满足映射标准,所述第三预设条件为采用所述调整后的第一规则对各第一标签数据进行分组且分组形成的单个数据组满足映射标准;
所述第一规则为采用第一算法运算后根据运算结果对所述第一标签数据进行排序,第一算法对数据的至少两个数据维度的数值按预设方法运算,所述第二算法为根据数据的至少三个数据维度数值按预设方法运算;
所述第一数据的数据维度至少为三维,各数据维度对应的维度特征不同。
进一步地,根据所述第二数据的类别形成第一标签数据的步骤包括:
步骤11,根据类别为所述第二数据进行赋值,且,单个类别对应的赋值相同;
步骤12,将各所述第一数据的数据维度增加一个维度并将新增维度的数值记为对应的所述赋值,以形成对应的各所述第一标签数据。
进一步地,各所述第一数据为三维数据并设置有数据维度优先级,且第一数据的第一维度、第二维度以及第三维度的优先级依次递减;
各所述第一标签数据为四维数据,且第一标签数据的数据维度包括所述第一维度、所述第二维度、所述第三维度以及由所述赋值对应的类别赋值维度。
进一步地,采用所述第一规则将所述第一标签数据分为若干数据组,其中第一规则采用式(1)对所述第一标签数据进行处理以生成对应的第一特征指数G,并根据第一特征指数G确定所述第一标签数据的排序方式以对第一标签数据进行分组,
Figure SMS_1
其中,A1为所述第一标签数据的第一维度的数值,A2为所述第一标签数据的第二维度的数值,A4为所述第一标签数据的类别赋值维度的数值,a1为所述第一标签数据的第一维度的特征初值,a2为所述第一标签数据的第二维度的特征初值。
进一步地,根据类别赋值维度的最大距离L确定对所述第一标签数据进行排序分组的分组跨度S以对第一标签数据按照分组规则进行分组,设定
Figure SMS_2
,其中,L为所述赋值中最大值与最小值的差值,N为分类的类别总数量,/>
Figure SMS_3
为步长系数,/>
Figure SMS_4
;且,所述分组规则为根据所述第一特征指数G的计算值对各所述第一标签数据进行升序或降序排序,并以设定的所述分组跨度S为步长对排序的序列进行切割以形成若干数据组,设定,单个数据组中的对应的特征指数的最大值与最小值之差小于等于分组跨度S。
进一步地,根据单个数据组中按所述第二数据的类别分类中占比最大分类的占比B与预设精度标准进行比对以确定单个数据组是否满足映射标准,
若B≥K1,判定单个数据组满足映射标准;
若B<K1,判定单个数据组不满足映射标准;
其中,K1为预设映***度标准,且,0.9<K1<1。
进一步地,根据所述第二算法计算单个数据组中各第一标签数据的第二特征指数M并将M与预设映射标准m0进行比较以确定针对所述第一规则的调整方式,
Figure SMS_5
,判定第二特征指数符合容许范围并采用第一调整方式对所述第一规则的步长系数进行调整,将调整后的步长系数记为γ’,设定/>
Figure SMS_6
,/>
Figure SMS_7
为步长调整系数,/>
Figure SMS_8
Figure SMS_9
或/>
Figure SMS_10
,判定第二特征指数超出容许范围并采用第二调整方式对所述第一规则的第一特征指数G的计算式进行调整,将采用第二调整方式调整后的第一特征指数记为G’,G’由式(2)确定,
Figure SMS_11
其中,α为第一维度权重调整系数,β为第二维度权重调整系数,α>1,β>1;
其中,所述第二特征指数M由式(3)确定,
Figure SMS_12
其中,A3为所述第一标签数据的第三维度的数值,a3为所述第一标签数据的第三维度的特征初值。
进一步地,在第四预设条件下,采用第三调整方式对所述第一规则进行调整,设定采用第三调整方式调整后的第一特征指数记为G”,G”由式(4)确定,
Figure SMS_13
其中,ρ为第三维度权重调整系数,
Figure SMS_14
所述第四预设条件为采用所述调整后的第一规则对各第一标签数据进行分组且分组形成的单个数据组不满足映射标准。
进一步地,所述预设映***度标准K1根据所述第一数据的数据量Na进行确定,预先设有第一数据量达标标准NA1和第二数据量达标标准NA2,
若NA1≤Na<NA2,判定所述第一数据的数据量处于标准处理区间,将所述预设映***度标准K1的值调整为第一精度值;
若NA2≤Na,判定所述第一数据的数据量处于超量处理区间,将所述预设映***度标准K1的值调整为第二精度值;
且,第一精度值>0.9,第一精度值<第二精度值,第二精度值<1;
其中,0<NA1<NA2,所述第一预设条件为所述第一数据的数据量大于等于第一数据量达标标准NA1。
进一步地,在所述第三预设条件下,根据调整后的第一规则对应的运算方式对第一数据的对应维度的优先度级别以及维度数量进行调整,包括:
步骤21,根据所述运算方式中对应的所述第一维度权重调整系数、所述第二维度权重调整系数以及所述第三维度权重调整系数的数值大小,对第一数据的对应数据维度的优先级进行调整,且数值大的权重系数对应的数据维度的优先级高;
步骤22,将所述第一维度权重调整系数、所述第二维度权重调整系数以及所述第三维度权重调整系数的数值与预设权重基值进行比较,若存在至少一个及权重调整系数小于预设权重基值,则将该权重调整系数对应的第一数据的数据维度进行删除以降低第一数据维度;
步骤23,将调整优先级和/或调整数据维度后的第一数据记为所述第一训练数据;
其中,若所述运算方式中不存在对应单个数据维度的运算,则将该单个数据维度的权重调整系数记为零。
与现有技术相比,本发明的有益效果在于,本发明基于数据整合的数据评估处理方法用于处理应用于训练数据模型的样本数据,并且样本数据的数据特征维度为三维及以上,通过为各特征维度赋予数值以及数据维度优先级,并通过分析优先级较高的数据维度与对应映射结果的对应程度,判断样本数据能否压缩降维,通过样本数据的主要特征维度与其对应映射结果的对应情况进行评价,一方面,能够实现精简样本数据的数据维度,有效降低用于训练的样本数据的训练复杂度,并且能够降低训练时长;另一方面,能够调整主要特征维度的数量使得降维后的样本数据的数据精度能够保留,以使采用降维后的样本数据进行训练后的数据模型的映射结果更为准确。
进一步地,本发明通过将第二数据的类别进行赋值并用于增加第一数据的数据维度,能够使第一数据带有第二数据的特征,保证了后续根据第一特征指数对第一标签数据进行分组时,尽量使对应相同类别的第一标签数据划分至相同数据组内,保证了分组的准确度,提升后续根据分组中的类别占比确定是否满足映射标准的准确度基础。
进一步地,本发明在第二预设条件下,通过所述第二算法计算单个数据组中各第一标签数据的第二特征指数M并将M与预设映射标准m0进行比较以确定针对所述第一规则的调整方式,通过增加维度特征,使得第二特征指数受第三维度数据的影响,能够判断处于第三优先度级别的数据特征的在第二特征指数与第一特征指数之间的权重影响程度,改善了第一标签数据的分组状态,使得调整后的单个数据组能够更好满足映射标准。
进一步地,本发明通过对第一数据增加类别赋值维度形成第一标签数据进行分组后进行是否满足映射标准的判断,用以确定针对第一标签数据的各维度的权重系数的调整方式,能够使第一数据的数据量降低和/或映射特征更为明显的维度的优先级进行提高,保证了本发明处理后的第一训练数据能够代表第一数据的主要特征,且使得使用第一训练数据进行数据训练能够在提高效率的同时避免产生过多的数据准确度降低。
附图说明
图1为本发明基于数据整合的数据评估处理方法的流程示意图;
图2为本发明形成第一标签数据的步骤示意图;
图3为本发明分组示意图;
图中:1-单个第一特征指数;2-步长。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1至图3所示,图1为本发明基于数据整合的数据评估处理方法的流程示意图,图2为本发明形成第一标签数据的步骤示意图,图3为本发明分组示意图。
本发明的数据处理适用于处理含有多维特征的数据,在其作为训练数据模型的样本数据前,通过本发明所述方法的处理,形成训练用的样本数据。具体而言,本发明提供一种基于数据整合的数据评估处理方法,包括:
获取第一数据以及与第一数据形成对应关系的第二数据,且,第一数据为数值数据,第二数据为类别数据,在实施中,第一数据的原始数据需要具有三个以上的不同维度特征,若原始数据其原始状态不是数值数据,通过转化为数值数据能够体现原始数据的对应维度的特征,均可在本发明的第一数据范围内;
响应于第一预设条件,以所述第二数据的类别为分类指标标记对应的第一数据,形成第一标签数据;
按第一规则将所述第一标签数据进行处理以对各第一标签数据进行分组形成若干数据组;
将单个所述数据组中各第一标签数据以对应的所述第二数据的类别进行分类并提取其中占比最大分类的占比与预设标准进行比对,以确定单个数据组是否满足映射标准;
响应于第二预设条件,根据第二算法计算单个数据组中各第一标签数据对应的计算值,并与预设映射标准进行比较以确定针对所述第一规则的调整方式,并对应形成调整后的第一规则;
响应于第三预设条件,采用所述调整后的第一规则对应的运算方式对第一数据的对应维度的优先度级别以及维度数量进行调整,以生成调整后的第一训练数据;
其中,所述第一预设条件为所述第一数据的数据量大于等于预设数据量,所述第二预设条件为单个数据组不满足映射标准,所述第三预设条件为采用所述调整后的第一规则对各第一标签数据进行分组且分组形成的单个数据组满足映射标准;
所述第一规则为采用第一算法运算后根据运算结果对所述第一标签数据进行排序,第一算法对数据的至少两个数据维度的数值按预设方法运算,所述第二算法为根据数据的至少三个数据维度数值按预设方法运算;
所述第一数据的数据维度至少为三维,各数据维度对应的维度特征不同。
具体而言,根据所述第二数据的类别形成第一标签数据的步骤包括:
步骤11,根据类别为所述第二数据进行赋值,且,单个类别对应的赋值相同;
步骤12,将各所述第一数据的数据维度增加一个维度并将新增维度的数值记为对应的所述赋值,以形成对应的各所述第一标签数据。
本发明通过将第二数据的类别进行赋值并用于增加第一数据的数据维度,能够使第一数据带有第二数据的特征,保证了后续根据第一特征指数对第一标签数据进行分组时,尽量使对应相同类别的第一标签数据划分至相同数据组内,保证了分组的准确度,提升后续根据分组中的类别占比确定是否满足映射标准的准确度基础。
具体而言,各所述第一数据为三维数据并设置有数据维度优先级,且第一数据的第一维度、第二维度以及第三维度的优先级依次递减,在实施中,初始的优先级能够自由设定或由历史经验得到;
各所述第一标签数据为四维数据,且第一标签数据的数据维度包括所述第一维度、所述第二维度、所述第三维度以及由所述赋值对应的类别赋值维度。
本发明基于数据整合的数据评估处理方法用于处理应用于训练数据模型的样本数据,并且样本数据的数据特征维度为三维及以上,通过为各特征维度赋予数值以及数据维度优先级,并通过分析优先级较高的数据维度与对应映射结果的对应程度,判断样本数据能否压缩降维,通过样本数据的主要特征维度与其对应映射结果的对应情况进行评价,一方面,能够实现精简样本数据的数据维度,有效降低用于训练的样本数据的训练复杂度,并且能够降低训练时长;另一方面,能够调整主要特征维度的数量使得降维后的样本数据的数据精度能够保留,以使采用降维后的样本数据进行训练后的数据模型的映射结果更为准确。
具体而言,采用所述第一规则将所述第一标签数据分为若干数据组,其中第一规则采用式(1)对所述第一标签数据进行处理以生成对应的第一特征指数G,并根据第一特征指数G确定所述第一标签数据的排序方式,以对第一标签数据进行分组,
Figure SMS_15
其中,A1为所述第一标签数据的第一维度的数值,A2为所述第一标签数据的第二维度的数值,A4为所述第一标签数据的类别赋值维度的数值,a1为所述第一标签数据的第一维度的特征初值,a2为所述第一标签数据的第二维度的特征初值。
具体而言,根据类别赋值维度的最大距离L确定对所述第一标签数据进行排序分组的分组跨度S以对第一标签数据按照分组规则进行分组,设定
Figure SMS_16
,其中,L为所述赋值中最大值与最小值的差值,N为分类的类别总数量,/>
Figure SMS_17
为步长系数,/>
Figure SMS_18
且,所述分组规则为根据所述第一特征指数G的计算值对各所述第一标签数据进行升序或降序排序,并以设定的所述分组跨度S为步长对排序的序列进行切割以形成若干数据组,设定,单个数据组中的对应的特征指数的最大值与最小值之差小于等于分组跨度S。
本发明通过识别优先级较高的前两个维度与类别赋值维度形成三个维度对第一标签数据的第一特征指数G的数值的影响,进而影响第一标签数据的分组状态,从而对单个分组是否满足映射标准产生影响,若第一数据的优先级较高的前两个维度的数据特征足够明显,则第一特征指数G以及数据组的分组由该前两个维度的数据特征主导,则分组后的单个特征组中的各数据第一特征指数G在一定范围内由该前两个维度的数据特征主导,因而该单个数据组中占比最大分类的占比能够指征单个数据组映射关系是否单一,若第一数据的优先级较高的前两个维度的数据特征相对较不明显,则第一特征指数G以及数据组的分组由赋值的数据特征主导,则分组后的单个特征组中的各数据第一特征指数G在一定范围内由该赋值特征主导,因而该单个数据组的分组步长决定了第一标签数据的分组状态,从而占比最大分类的占比能够指征单个数据组映射关系是否单一。
具体而言,根据单个数据组中按所述第二数据的类别分类中占比最大分类的占比B与预设精度标准进行比对以确定单个数据组是否满足映射标准,
若B≥K1,判定单个数据组满足映射标准;
若B<K1,判定单个数据组不满足映射标准;
其中,K1为预设映***度标准,且,0.9<K1<1。
具体而言,根据所述第二算法计算单个数据组中各第一标签数据的第二特征指数M并将M与预设映射标准m0进行比较以确定针对所述第一规则的调整方式,
Figure SMS_19
,判定第二特征指数符合容许范围并采用第一调整方式对所述第一规则的步长系数/>
Figure SMS_20
进行调整,将调整后的步长系数记为γ’,设定/>
Figure SMS_21
,/>
Figure SMS_22
为步长调整系数,/>
Figure SMS_23
Figure SMS_24
或/>
Figure SMS_25
,判定第二特征指数超出容许范围并采用第二调整方式对所述第一规则的第一特征指数G的计算式进行调整,将采用第二调整方式调整后的第一特征指数记为G’,G’由式(2)确定,
Figure SMS_26
其中,α为第一维度权重调整系数,β为第二维度权重调整系数,α>1,β>1;
其中,所述第二特征指数M由式(3)确定,
Figure SMS_27
其中,A3为所述第一标签数据的第三维度的数值,a3为所述第一标签数据的第三维度的特征初值。
在实施中,各第一标签数据对应的预设映射标准m0的取值与其对应的第一特征指数G有关,一般的,设定m0=G×μ,其中,μ为目标系数,1≤μ≤1.1,能够保证预设映射标准的合理性。
本发明在第二预设条件下,通过所述第二算法计算单个数据组中各第一标签数据的第二特征指数M并将M与预设映射标准m0进行比较以确定针对所述第一规则的调整方式,通过增加维度特征,使得第二特征指数受第三维度数据的影响,能够判断处于第三优先度级别的数据特征的在第二特征指数与第一特征指数之间的权重影响程度,当权重处于对应的容许范围时,表征第三维度数据的权重影响低,通过调整步长系数从而改善分组数量各但数据组中数据个数调整单个数据组是否满足映射标准;当权重超出对应的容许范围时,表征第三维度数据的权重影响高,通过增加第三维度作为第一标签数据的第一特征指数的计算项,从而改善第一标签数据的分组状态使得调整后的单个数据组满足映射标准。
具体而言,在第四预设条件下,采用第三调整方式对所述第一规则进行调整,设定采用第三调整方式调整后的第一特征指数记为G”,G”由式(4)确定,
Figure SMS_28
其中,ρ为第三维度权重调整系数,
Figure SMS_29
所述第四预设条件为采用所述调整后的第一规则对各第一标签数据进行分组且分组形成的单个数据组不满足映射标准。
本发明通过对第一数据增加类别赋值维度形成第一标签数据进行分组后进行是否满足映射标准的判断,用以确定针对第一标签数据的各维度的权重系数的调整方式,进而,由于第一标签数据与第一数据为一一对应关系,则第一标签数据的权重系数能够代表第一数据的各维度的权重,因此,在第三预设条件下,使用调整后的第一规则的运算方式对应的各维度的权重系数指导第一数据的优先级调整以及降维,能够使第一数据的数据量降低,并且映射特征更为明显的维度的优先级进行提高,保证了本发明处理后的第一训练数据能够代表第一数据的主要特征,且使得使用第一训练数据进行数据训练能够在提高效率的同时避免产生过多的数据准确度降低。
具体而言,所述预设映***度标准K1根据所述第一数据的数据量Na进行确定,预先设有第一数据量达标标准NA1和第二数据量达标标准NA2,
若NA1≤Na<NA2,判定所述第一数据的数据量处于标准处理区间,将所述预设映***度标准K1的值调整为第一精度值;
若NA2≤Na,判定所述第一数据的数据量处于超量处理区间,将所述预设映***度标准K1的值调整为第二精度值;
且,第一精度值>0.9,第一精度值<第二精度值,第二精度值<1;
其中,0<NA1<NA2,所述第一预设条件为所述第一数据的数据量大于等于第一数据量达标标准NA1。
在实施中,由于响应于第一预设条件,因而Na≥NA1;对于Na<NA1,由于其不满足响应第一预设条件,因此,其不响应预设映***度标准K1的调整。
第一精度值设置为大于0.9能够保证首次判断具有较高正确性,避免取值宽泛造成的准确度降低,根据数据量进行精度标准的调整,随着数据量的增大,将精度标准提高,有助于更好的保证数据的准确度。
具体而言,在所述第三预设条件下,根据调整后的第一规则对应的运算方式对第一数据的对应维度的优先度级别以及维度数量进行调整,包括:
步骤21,根据所述运算方式中对应的所述第一维度权重调整系数、所述第二维度权重调整系数以及所述第三维度权重调整系数的数值大小,对第一数据的对应数据维度的优先级进行调整,且数值大的权重系数对应的数据维度的优先级高;
步骤22,将所述第一维度权重调整系数、所述第二维度权重调整系数以及所述第三维度权重调整系数的数值与预设权重基值进行比较,若存在至少一个及权重调整系数小于预设权重基值,则将该权重调整系数对应的第一数据的数据维度进行删除以降低第一数据维度;
步骤23,将调整优先级和/或调整数据维度后的第一数据记为所述第一训练数据;
其中,若所述运算方式中不存在对应单个数据维度的运算,则将该单个数据维度的权重调整系数记为零。
实施例1
本实施例中的第一数据为三维数值数据,其初始设定第一维度为高度,第二维度为重量,第三维度为体积;对应的第二数据为第一形状分类、第二形状分类、第三形状分类,其中,第一数据的各维度均为数值数据。
其中,设定:
第一形状分类赋值为10、第二形状分类赋值为20、第三形状分类为30,N=3,L=20;
第一标签数据的第一维度的特征初值a1=0.5米,第一标签数据的第二维度的特征初值a2=5千克;
步长系数
Figure SMS_30
,/>
Figure SMS_31
,可进行取整或保留设定位数的有效数字以便于划分区间;
预设映***度标准K1=0.95;
步长调整系数
Figure SMS_32
第一维度权重调整系数α=1.1,第二维度权重调整系数β=1.05,第三维度权重调整系数
Figure SMS_33
第一数据量达标标准NA1=10000,第二数据量达标标准NA2=100000;
第一精度值为0.91,第二精度值为0.98;
按本发明所述方法处理后的第一训练数据,保留三个维度,并且各维度的优先级为高度、体积、重量的优先级依次降低。
实施例2
本实施例中的第一数据为四维数据,其初始设定第一维度为年龄,第二维度为性别,第三维度为受教育水平,第四维度为姓氏;对应的第二数据为第一爱好分类、第二爱好分类、第三爱好分类,将第一数据的各维度均为转化为数值数据,其中,姓氏维度依据其对应范围内的人群占比进行赋值,年龄维度根据实际年龄取整赋值,性别维度赋值为男性赋值为0,女性赋值为100,受教育水平维度中初中及以下赋值为10,高中赋值为50,本科赋值为80,硕士研究生及以上赋值为150。
按本发明所述方法处理后的第一训练数据,去掉姓氏维度,保留其他三个维度,并且各维度的优先级为年龄、受教育水平、性别的优先级依次降低。
经降维和/或优先级调整后的多维数据,由于其特征维度的优先级调高并且对权重低的维度进行降维压缩,使得处理后的第一训练数据在作为训练映射关系的样本数据时,能够更明确其与第二数据的映射关系,便于进行数据训练,提高训练效率。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于数据整合的数据评估处理方法,其特征在于,包括:
获取第一数据以及与第一数据形成对应关系的第二数据,且,第一数据为数值数据,第二数据为类别数据;
响应于第一预设条件,以所述第二数据的类别为分类指标标记对应的第一数据,形成第一标签数据;
按第一规则将所述第一标签数据进行处理以对各第一标签数据进行分组形成若干数据组;
将单个所述数据组中各第一标签数据以对应的所述第二数据的类别进行分类并提取其中占比最大分类的占比与预设标准进行比对,以确定单个数据组是否满足映射标准;
响应于第二预设条件,根据第二算法计算单个数据组中各第一标签数据对应的计算值,并与预设映射标准进行比较以确定针对所述第一规则的调整方式,并对应形成调整后的第一规则;
响应于第三预设条件,采用所述调整后的第一规则对应的运算方式对第一数据的对应维度的优先度级别以及维度数量进行调整,以生成调整后的第一训练数据;
其中,所述第一预设条件为所述第一数据的数据量大于等于预设数据量,所述第二预设条件为单个数据组不满足映射标准,所述第三预设条件为采用所述调整后的第一规则对各第一标签数据进行分组且分组形成的单个数据组满足映射标准;
所述第一规则为采用第一算法运算后根据运算结果对所述第一标签数据进行排序,第一算法对数据的至少两个数据维度的数值按预设方法运算,所述第二算法为根据数据的至少三个数据维度数值按预设方法运算;
所述第一数据的数据维度至少为三维,各数据维度对应的维度特征不同。
2.根据权利要求1所述的基于数据整合的数据评估处理方法,其特征在于,根据所述第二数据的类别形成第一标签数据的步骤包括:
步骤11,根据类别为所述第二数据进行赋值,且,单个类别对应的赋值相同;
步骤12,将各所述第一数据的数据维度增加一个维度并将新增维度的数值记为对应的所述赋值,以形成对应的各所述第一标签数据。
3.根据权利要求2所述的基于数据整合的数据评估处理方法,其特征在于,各所述第一数据为三维数据并设置有数据维度优先级,且第一数据的第一维度、第二维度以及第三维度的优先级依次递减;
各所述第一标签数据为四维数据,且第一标签数据的数据维度包括所述第一维度、所述第二维度、所述第三维度以及由所述赋值对应的类别赋值维度。
4.根据权利要求3所述的基于数据整合的数据评估处理方法,其特征在于,采用所述第一规则将所述第一标签数据分为若干数据组,其中第一规则采用式(1)对所述第一标签数据进行处理以生成对应的第一特征指数G,并根据第一特征指数G确定所述第一标签数据的排序方式,以对第一标签数据进行分组,
Figure QLYQS_1
其中,A1为所述第一标签数据的第一维度的数值,A2为所述第一标签数据的第二维度的数值,A4为所述第一标签数据的类别赋值维度的数值,a1为所述第一标签数据的第一维度的特征初值,a2为所述第一标签数据的第二维度的特征初值。
5.根据权利要求4所述的基于数据整合的数据评估处理方法,其特征在于,根据类别赋值维度的最大距离L确定对所述第一标签数据进行排序分组的分组跨度S以对第一标签数据按照分组规则进行分组,设定
Figure QLYQS_2
,其中,L为所述赋值中最大值与最小值的差值,N为分类的类别总数量,/>
Figure QLYQS_3
为步长系数,/>
Figure QLYQS_4
且,所述分组规则为根据所述第一特征指数G的计算值对各所述第一标签数据进行升序或降序排序,并以设定的所述分组跨度S为步长对排序的序列进行切割以形成若干数据组,设定,单个数据组中的对应的特征指数的最大值与最小值之差小于等于分组跨度S。
6.根据权利要求5所述的基于数据整合的数据评估处理方法,其特征在于,根据单个数据组中按所述第二数据的类别分类中占比最大分类的占比B与预设精度标准进行比对以确定单个数据组是否满足映射标准,
若B≥K1,判定单个数据组满足映射标准;
若B<K1,判定单个数据组不满足映射标准;
其中,K1为所述预设映***度标准,且,0.9<K1<1。
7.根据权利要求6所述的基于数据整合的数据评估处理方法,其特征在于,根据所述第二算法计算单个数据组中各第一标签数据的第二特征指数M并将M与预设映射标准m0进行比较以确定针对所述第一规则的调整方式,
Figure QLYQS_5
,判定第二特征指数符合容许范围并采用第一调整方式对所述第一规则的步长系数/>
Figure QLYQS_6
进行调整,将调整后的步长系数记为γ’,设定/>
Figure QLYQS_7
,/>
Figure QLYQS_8
为步长调整系数,/>
Figure QLYQS_9
Figure QLYQS_10
或/>
Figure QLYQS_11
,判定第二特征指数超出容许范围并采用第二调整方式对所述第一规则的第一特征指数G的计算式进行调整,将采用第二调整方式调整后的第一特征指数记为G’,G’由式(2)确定,
Figure QLYQS_12
其中,α为第一维度权重调整系数,β为第二维度权重调整系数,α>1,β>1;
其中,所述第二特征指数M由式(3)确定,
Figure QLYQS_13
其中,A3为所述第一标签数据的第三维度的数值,a3为所述第一标签数据的第三维度的特征初值。
8.根据权利要求7所述的基于数据整合的数据评估处理方法,其特征在于,在第四预设条件下,采用第三调整方式对所述第一规则进行调整,设定采用第三调整方式调整后的第一特征指数记为G”,G”由式(4)确定,
Figure QLYQS_14
其中,ρ为第三维度权重调整系数,
Figure QLYQS_15
;/>
所述第四预设条件为采用所述调整后的第一规则对各第一标签数据进行分组且分组形成的单个数据组不满足映射标准。
9.根据权利要求8所述的基于数据整合的数据评估处理方法,其特征在于,所述预设映***度标准K1根据所述第一数据的数据量Na进行确定,预先设有第一数据量达标标准NA1和第二数据量达标标准NA2,
若NA1≤Na<NA2,判定所述第一数据的数据量处于标准处理区间,将所述预设映***度标准K1的值调整为第一精度值;
若NA2≤Na,判定所述第一数据的数据量处于超量处理区间,将所述预设映***度标准K1的值调整为第二精度值;
且,第一精度值>0.9,第一精度值<第二精度值,第二精度值<1;
其中,0<NA1<NA2,所述第一预设条件为所述第一数据的数据量大于等于第一数据量达标标准NA1。
10.根据权利要求8所述的基于数据整合的数据评估处理方法,其特征在于,在所述第三预设条件下,根据调整后的第一规则对应的运算方式对第一数据的对应维度的优先度级别以及维度数量进行调整,包括:
步骤21,根据所述运算方式中对应的所述第一维度权重调整系数、所述第二维度权重调整系数以及所述第三维度权重调整系数的数值大小,对第一数据的对应数据维度的优先级进行调整,且数值大的权重系数对应的数据维度的优先级高;
步骤22,将所述第一维度权重调整系数、所述第二维度权重调整系数以及所述第三维度权重调整系数的数值与预设权重基值进行比较,若存在至少一个及权重调整系数小于预设权重基值,则将该权重调整系数对应的第一数据的数据维度进行删除以降低第一数据维度;
步骤23,将调整优先级和/或调整数据维度后的第一数据记为所述第一训练数据;
其中,若所述运算方式中不存在对应单个数据维度的运算,则将该单个数据维度的权重调整系数记为零。
CN202310123800.1A 2023-02-16 2023-02-16 基于数据整合的数据评估处理方法 Active CN115859159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310123800.1A CN115859159B (zh) 2023-02-16 2023-02-16 基于数据整合的数据评估处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310123800.1A CN115859159B (zh) 2023-02-16 2023-02-16 基于数据整合的数据评估处理方法

Publications (2)

Publication Number Publication Date
CN115859159A true CN115859159A (zh) 2023-03-28
CN115859159B CN115859159B (zh) 2023-05-05

Family

ID=85658228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310123800.1A Active CN115859159B (zh) 2023-02-16 2023-02-16 基于数据整合的数据评估处理方法

Country Status (1)

Country Link
CN (1) CN115859159B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050265607A1 (en) * 2004-05-13 2005-12-01 Proximex Multimodal high-dimensional data fusion for classification and identification
US20170032276A1 (en) * 2015-07-29 2017-02-02 Agt International Gmbh Data fusion and classification with imbalanced datasets
CN111597399A (zh) * 2020-05-19 2020-08-28 莱芜职业技术学院 基于数据融合的计算机数据处理***及方法
CN113515367A (zh) * 2020-08-23 2021-10-19 陈顺发 基于大数据和边缘计算的数据整合方法及存储介质
CN115391403A (zh) * 2022-08-29 2022-11-25 中电金信软件有限公司 一种基于规则引擎的数据整合方法及数据整合装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050265607A1 (en) * 2004-05-13 2005-12-01 Proximex Multimodal high-dimensional data fusion for classification and identification
US20170032276A1 (en) * 2015-07-29 2017-02-02 Agt International Gmbh Data fusion and classification with imbalanced datasets
CN111597399A (zh) * 2020-05-19 2020-08-28 莱芜职业技术学院 基于数据融合的计算机数据处理***及方法
CN113515367A (zh) * 2020-08-23 2021-10-19 陈顺发 基于大数据和边缘计算的数据整合方法及存储介质
CN115391403A (zh) * 2022-08-29 2022-11-25 中电金信软件有限公司 一种基于规则引擎的数据整合方法及数据整合装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LONG CHEN等: "Deep integration: A Multi-Label Architecture for Road Scene Recognition", 《IEEE TRANSACTIONS ON IMAGE PRECESSING》 *
佘俊;陈黎;钟保强;钟建栩;朱珠;: "多区域发电数据信息化整合方法研究", 自动化与仪器仪表 *
武法提;黄石华;: "基于多源数据融合的共享教育数据模型研究", 电化教育研究 *

Also Published As

Publication number Publication date
CN115859159B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
US6871201B2 (en) Method for building space-splitting decision tree
CN106919957B (zh) 处理数据的方法及装置
CN109783879B (zh) 一种雷达辐射源信号识别效能评估方法及***
CN109993225B (zh) 一种基于无监督学习的空域复杂度分类方法及装置
CN108681742B (zh) 用于分析司机驾驶行为对车辆能耗敏感性的分析方法
CN110569982A (zh) 一种基于元学习的主动采样方法
CN113526282B (zh) 一种电梯中长期老化故障诊断方法、装置、介质和设备
US20060206443A1 (en) Method of, and system for, classification count adjustment
CN117173913B (zh) 基于不同时段车流量分析的交通控制方法及***
CN114676749A (zh) 一种基于数据挖掘的配电网运行数据异常判定方法
KR20180066705A (ko) 학습자 취약점 분석 방법 및 장치
AU2015204339B2 (en) Information processing apparatus and information processing program
CN115859159B (zh) 基于数据整合的数据评估处理方法
CN113177644A (zh) 一种基于词嵌入和深度时序模型的自动建模***
CN110955804B (zh) 一种针对用户时空数据行为检测的Adaboost方法
JP2002202984A (ja) ルールベースモデルに基づくテキスト情報自動分類装置
CN112149922A (zh) 高速公路隧道下行线出入口区域事故严重程度预测方法
JP2016091139A (ja) 故障原因分類装置
Waegeman et al. A comparison of different ROC measures for ordinal regression
KR102532197B1 (ko) 객체탐지모형을 적용한 주가등락 예측장치
CN115392375A (zh) 一种多源数据融合度智能评估方法及其***
CN111539576A (zh) 一种风险识别模型的优化方法及装置
CN112699908A (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN115018760B (zh) 一种基于人机混合增强智能的血细胞形态学辅助检验***及方法
KR20200113397A (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant