CN117114142B - 基于ai的数据规则表达式生成方法、装置、设备及介质 - Google Patents
基于ai的数据规则表达式生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117114142B CN117114142B CN202311373854.XA CN202311373854A CN117114142B CN 117114142 B CN117114142 B CN 117114142B CN 202311373854 A CN202311373854 A CN 202311373854A CN 117114142 B CN117114142 B CN 117114142B
- Authority
- CN
- China
- Prior art keywords
- clustering
- data
- metadata
- rule expression
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 200
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 94
- 238000005516 engineering process Methods 0.000 claims abstract description 31
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于AI的数据规则表达式生成方法、装置、设备及介质。该方法包括:获取训练数据集,并通过AI人工智能技术对训练数据集中元数据和元数据的数值进行分析,以生成初始规则表达式;通过初始规则表达式对第一待检测数据集进行检测生成问题数据清单;将打标签后的问题数据清单输入AI人工智能技术进行回归训练以生成训练规则表达式;将训练规则表达式和第二待检测数据集分别作为初始规则表达式和第一待检测数据集,返回执行生成问题数据清单这一步骤,直至训练规则表达式满足预设条件为止,以生成最终规则表达式。本申请不仅省事省力,而且还提高了数据规则表达式生成准确性,进而提高了数据分析的准确性。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于AI的数据规则表达式生成方法、装置、设备及介质。
背景技术
当前现有技术中进行数据分析理解的常用方法为通过人工分析理解数据与逻辑,由人工判断数据的规律、数据与数据之间的逻辑依赖关系,从而生成相应的数据规则表达式。但因存在如下三个方面的问题:第一、数据碎片化情况非常严重,进而导致数据的规范性非常差,并且数据与数据之间的相关性复杂;第二、老旧***的存在,普遍存在着数据格式混乱且文档缺失的情况;第三、进行数据模型设计、多源数据整合的时候,需要花费巨大的精力,梳理字段与字段之间的关系;使得现有数据规则表达式的生成不仅费时费力且准确性不高的,进而使得数据分析的准确度也较低。
发明内容
本发明实施例提供了一种基于AI的数据规则表达式生成方法、装置、设备及介质,旨在解决现有数据规则表达式生成费时费力且准确性不高的问题。
第一方面,本发明实施例提供了一种基于AI的数据规则表达式生成方法,其包括:
获取训练数据集,并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析,以生成初始规则表达式;
通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单;
将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式;
将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集,返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤,直至所述训练规则表达式满足预设条件为止,以得到最终规则表达式,其中,所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集。
第二方面,本发明实施例还提供了一种基于AI的数据规则表达式生成方法装置,其包括:
获取分析单元,用于获取训练数据集,并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析,以生成初始规则表达式;
检测单元,用于通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单;
生成单元,用于将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式;
返回执行单元,用于将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集,返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤,直至所述训练规则表达式满足预设条件为止,以得到最终规则表达式,其中,所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种基于AI的数据规则表达式生成方法、装置、设备及介质。其中,所述方法包括:获取训练数据集,并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析,以生成初始规则表达式;通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单;将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式;将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集,返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤,直至所述训练规则表达式满足预设条件为止,以得到最终规则表达式,其中,所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集。本发明实施例的技术方案,先通过AI人工智能技术对训练数据集中元数据和所述元数据的数值进行分析生成初始规则表达式;再通过初始规则表达式对第一待检测数据集进行检测生成问题数据清单,将打标签后的问题数据清单输入AI人工智能技术进行回归训练以生成训练规则表达式,循环上述问题数据清单和训练规则表达式生成过程,直至训练规则表达式满足预设条件为止,以生成最终规则表达式,整个数据规则表达式的生成过程只需人工参与打标签这一步骤,其余步骤均自动线上完成,不仅省事省力,而且还提高了数据基于AI的数据规则表达式生成准确性,进而提高了数据分析的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术用户员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于AI的数据规则表达式生成方法的流程示意图;
图2为本发明实施例提供的一种基于AI的数据规则表达式生成方法的子流程示意图;
图3为本发明实施例提供的一种基于AI的数据规则表达式生成方法的子流程示意图;
图4为本发明另一实施例提供的一种基于AI的数据规则表达式生成方法的流程示意图;
图5为本发明实施例提供的一种基于AI的数据规则表达式生成方法装置的示意性框图;
图6为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术用户员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为 “当... 时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1,图1是本发明实施例提供的一种基于AI的数据规则表达式生成方法的流程示意图。本发明实施例的基于AI的数据规则表达式生成方法可应用于终端中,例如可通过配置于终端上的软件程序来实现该基于AI的数据规则表达式生成方法。如图1所示,该方法包括以下步骤S100-S130。
S100、获取训练数据集,并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析,以生成初始规则表达式。
本发明实施例中,获取训练数据集,并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析,以生成初始规则表达式,其中,所述AI人工智能技术包括NLP(Natural Language Processing,自然语言处理)技术和聚类算法。需要说明的是,在本实施例中的元数据是用来描述数据的数据,它可理解为比一般意义的数据范畴更加广泛的数据,不再仅仅表示数据的类型、名称、值等信息,它可以进一步提供数据的上下描述信息、比如数据的所属域、取值范围、数据间的关系、业务规则,甚至数据的来源。按照不同的领域和功能,元数据可分为技术元数据、业务元数据、操作元数据以及管理元数据,其中,技术元数据是用于开发和日常管理数据仓库时用的数据,其数据类型可为数据库类型、数据库名、主键等,相对应的数据内容可为MySQL、xxx、ID等;业务元数据描述的对象是数据的业务含义、业务规则等,其数据类型可为数据值、单位以及指标等,相对应的数据内容可为40、摄氏度、体温等;操作元数据描述了数据的操作属性,比如管理部门、管理责任人等,其数据类型可为创建人、创建时间等,相对应的数据内容可为张三、xxxx年xx月xx日等;管理元数据包含了数据管理的信息在其中,例如:表的业务属主、表的技术负责人,其数据类型可为数据权限、安全等级等,其相对应的安全等级可为公开、安全等。需要说明的是,在本实施例中,所述训练数据集中的元数据是通过元数据识别模型对待分析的数据集中的数据进行特征化处理和识别后得到的。
进一步地,如图2所示,步骤S100包括步骤S101-S102:S101、通过NLP技术对所述训练数据集中的所述元数据和所述元数据的数值进行语义分析,以生成元数据序列和数值序列;S102、通过聚类算法对所述元数据序列和所述数值序列进行聚类以得到聚类结果,并根据所述聚类结果通过数据规则表达式生成模型生成初始规则表达式,其中,所述数据规则表达式生成模型是自定义构建的生成模型,可基于输入的数据序列生成表征所述数据序列规则的表达式。需要说明的是,在本实施例中,在聚类之前,通过NLP技术对所述元数据和所述元数据的数值进行语义分析,可提高聚类的准确度,进而提高生成初始规则表达式的准确度。
更进一步地,如图3所示,步骤S102还可包括步骤S1021-S1024:S1021、对所述元数据序列和所述数值序列进行数据标准化处理得到元数据标准序列和数值标准序列;S1022、通过K-means聚类算法对所述元数据标准序列进行聚类以得到多个聚类元数据;S1023、针对每一所述聚类元数据,通过层次聚类算法对与所述聚类元数据相对应的所述数值标准序列进行聚类以得到多个聚类数值;S1024、将多个所述聚类元数据和多个所述聚类数值作为所述聚类结果。需要说明的是,在本实施例中,数据标准化处理为Z-score标准化。
步骤S1022具体为:将所有的所述元数据标准序列作为一个数据集,其中,每个所述元数据标准序列作为所述数据集的一个样本数据; 从所述数据集中随机选择N个样本数据作为聚类中心,其中,N为所需划分的元数据聚类的数量;
计算所述数据集中每个样本数据与所有所述聚类中心的距离值并将所述样本数据划分至其中距离值最小的聚类中心所对应的类,其中,所述距离值为所述样本数据相比所述聚类中心所具有的不同属性值的个数; 重新确定聚类中心并计算所述数据集中每个样本数据与所有重新确定的聚类中心的距离值并将所述样本数据划分至其中距离值最小的聚类中心所对应的类,直至得到的所有距离值的总值小于预设值,以获得多个所述聚类元数据。
步骤S1023具体为:将所有与所述聚类元数据相对应的所述数值标准序列作为一个数据集,并将每个所述数值标准序列作为一个聚类中心; 计算所述数据集中每两个所述聚类中心之间的距离值,并将距离值最小的两个所述聚类中心进行聚类合并生成新的聚类中心; 返回执行步骤计算所述数据集中每两个所述聚类中心之间的距离值,并将距离值最小的两个所述聚类中心进行聚类合并生成新的聚类中心的步骤,直至聚类合并后所述聚类中心的个数与聚类合并前所述聚类中心的个数相等,以生成多个所述聚类数值。
需要说明的是,在本实施例中,先通过K-means聚类算法和层次聚类算法对所述元数据标准序列和所述数值标准序进行聚类生成多个所述聚类元数据和多个所述聚类数值,再将多个所述聚类元数据和多个所述聚类数值输入自定义构建的数据规则表达式生成模型生成初始规则表达式,而不是直接将所述元数据和所述元数据的数值输入自定义构建的数据规则表达式生成模型生成初始规则表达式,可提高生成初始规则表达式的精准度。
S110、通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单。
本发明实施例中,生成初始规则表达式之后,通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单,可理解地,问题数据清单就是不满足上述初始规则表达式中规则的数据。例如,身份证号码18位,初始规则表达式中的数据规则为:1、第一位和第二位不为0;2、第三位至第六位为10以内任意正整数;3、第七位至第十四位日期区分平年和闰年大小月;4、第十五至第十七位为10以内任意正整数;5、第十八位为10以内任意正整数。
S120、将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式。
本发明实施例中,针对上述生成的所述问题数据清单,进行人工检查,并对所述问题数据清单中数据标注标签,该标签可识别问题数据清单中的数据是否对错,例如,直接标注对或者错,也可标注是或者否,是代表正确,否代表错误,也可标注1或者2,1代表正确,2代表错误,即根据需求对所述问题数据清单进行打标签,并打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式,其中,所述训练规则表达式是对所述初始规则表达式进行完善调节后输出的表达式,例如训练规则表达式中的数据规则为:1、第一位和第二位不为0;2、第三位至第六位为10以内任意正整数;3、第七位至第十四位日期区分平年和闰年大小月;4、第十五至第十七位为10以内任意正整数;5、第十八位为10以内任意正整数和X。需要说明的是,在本实施例中,将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练过程中,可设置一定的训练截止条件,例如设置训练次数。
S130、将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集,返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤,直至所述训练规则表达式满足预设条件为止,以得到最终规则表达式,其中,所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集。
本发明实施例中,将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集,以对所述初始规则表达式和所述第一待检测数据集进行替换,返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤,此时执行的步骤为通过所述训练规则表达对所述第二待检测数据集进行检测以生成所述问题数据清单,循环反复直至所述训练规则表达式满足预设条件为止,以得到最终规则表达式,其中,所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集。需要说明的是,在本实施例中,之所以采用不同场景下的数据集对初始规则表达式进行多次反复测试,可提高生成最终规则表达式的适用性,进而提高最终规则表达式的准确性。
进一步地,所述训练规则表达式满足预设条件以得到最终规则表达式,包括:计算当前所述训练规则表达式与前一所述训练规则表达式的相似度;若所述相似度大于预设相似度阈值,则判定所述训练规则表达式满足所述预设条件,并将所述训练规则表达式作为所述最终规则表达式。可理解地,若所述相似度不大于所述预设相似度阈值,则判定所述训练规则表达式不满足所述预设条件,继续返回执行步骤S110。需要说明的是,在本实施例中,采用相似度算法计算当前所述训练规则表达式与前一所述训练规则表达式的相似度。
图4为本发明另一实施例提供的基于AI的数据规则表达式生成方法的流程示意图,如图4所示,在本实施例中,所述方法包括步骤S110-S150。也即,在本实施例中,所述方法在上述实施例的步骤S130之后,还包括步骤S140和S150。
S140、通过所述最终规则表达式对待检测数据集进行检测,以生成检测问题数据清单;
S150、将所述检测问题数据清单进行展示以供用户进行数据分析。
本发明实施例中,生成所述最终规则表达式之后,通过所述最终规则表达式对待检测数据集进行检测,以生成检测问题数据清单,将所述检测问题数据清单进行展示以供用户进行数据分析。需要说明的是,在本实施例中,生成的所述最终规则表达式可为多种类别的表达式,例如,SQL规则表达式、正则规则表达式等,而不同类别的表达式又包括多种子类别的表达式,例如,SQL规则表达式因数据库不同,生成的SQL规则表达式也不同,MySQL数据库生成第一SQL规则表达式,GreenPlum数据库生成第二SQL规则表达式。
需要说明的是,在本实施例中,先通过NLP技术以及聚类算法对训练数据集中元数据和所述元数据的数值进行分析生成初始规则表达式;再通过初始规则表达式对第一待检测数据集进行检测生成问题数据清单,将打标签后的问题数据清单输入NLP技术以及聚类算法进行回归训练以生成训练规则表达式,循环执行上述问题数据清单和训练规则表达式生成过程,直至训练规则表达式满足预设条件为止,以生成最终规则表达式,整个数据规则表达式的生成过程只需人工参与打标签这一步骤,其余步骤均自动线上完成,不仅省事省力,而且还提高了数据数据规则表达式生成准确性,进而提高了数据分析的准确性。
图5是本发明实施例提供的一种基于AI的数据规则表达式生成方法装置200的示意性框图。如图5所示,对应于以上基于AI的数据规则表达式生成方法,本发明还提供一种基于AI的数据规则表达式生成方法装置200。该基于AI的数据规则表达式生成方法装置200包括用于执行上述基于AI的数据规则表达式生成方法的单元。具体地,请参阅图5,该基于AI的数据规则表达式生成方法装置200包括获取分析单元201、检测单元202、生成单元203以及返回执行单元204。
其中,所述获取分析单元201用于获取训练数据集,并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析,以生成初始规则表达式;所述检测单元202用于通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单;所述生成单元203用于将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式;所述返回执行单元204用于将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集,返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤,直至所述训练规则表达式满足预设条件为止,以得到最终规则表达式,其中,所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集。
在某些实施例,例如本实施例中,所述获取分析单元201包括分析单元及聚类生成单元。
其中,所述分析单元用于通过NLP技术对所述训练数据集中的所述元数据和所述元数据的数值进行语义分析,以生成元数据序列和数值序列;所述聚类生成单元用于通过聚类算法对所述元数据序列和所述数值序列进行聚类以得到聚类结果,并根据所述聚类结果通过数据规则表达式生成模型生成初始规则表达式,其中,所述数据规则表达式生成模型是自定义构建的生成模型,可基于输入的数据序列生成表征所述数据序列规则的表达式。
在某些实施例,例如本实施例中,所述聚类生成单元包括标准化处理单元、第一聚类单元、第二聚类单元以及作为单元。
其中,所述标准化处理单元用于对所述元数据序列和所述数值序列进行数据标准化处理得到元数据标准序列和数值标准序列;所述第一聚类单元用于通过K-means聚类算法对所述元数据标准序列进行聚类以得到多个聚类元数据,具体地,将所有的所述元数据标准序列作为一个数据集,其中,每个所述元数据标准序列作为所述数据集的一个样本数据;从所述数据集中随机选择N个样本数据作为聚类中心,其中,N为所需划分的元数据聚类的数量;计算所述数据集中每个样本数据与所有所述聚类中心的距离值并将所述样本数据划分至其中距离值最小的聚类中心所对应的类,其中,所述距离值为所述样本数据相比所述聚类中心所具有的不同属性值的个数;重新确定聚类中心并计算所述数据集中每个样本数据与所有重新确定的聚类中心的距离值并将所述样本数据划分至其中距离值最小的聚类中心所对应的类,直至得到的所有距离值的总值小于预设值,以获得多个所述聚类元数据;所述第二聚类单元用于针对每一所述聚类元数据,通过层次聚类算法对与所述聚类元数据相对应的所述数值标准序列进行聚类以得到多个聚类数值,具体地,将所有与所述聚类元数据相对应的所述数值标准序列作为一个数据集,并将每个所述数值标准序列作为一个聚类中心;计算所述数据集中每两个所述聚类中心之间的距离值,并将距离值最小的两个所述聚类中心进行聚类合并生成新的聚类中心;返回执行步骤计算所述数据集中每两个所述聚类中心之间的距离值,并将距离值最小的两个所述聚类中心进行聚类合并生成新的聚类中心的步骤,直至聚类合并后所述聚类中心的个数与聚类合并前所述聚类中心的个数相等,以生成多个所述聚类数值;所述作为单元用于将多个所述聚类元数据和多个所述聚类数值作为所述聚类结果。
在某些实施例,例如本实施例中,所述训练规则表达式满足预设条件以得到最终规则表达式包括计算单元和判定单元。
其中,所述计算单元用于计算当前所述训练规则表达式与前一所述训练规则表达式的相似度;所述判定单元用于若所述相似度大于预设相似度阈值,则判定所述训练规则表达式满足所述预设条件,并将所述训练规则表达式作为所述最终规则表达式。
在某些实施例,例如本实施例中,所述基于AI的数据规则表达式生成方法装置200还包括检测生成单元和展示单元。
其中,所述检测生成单元用于通过所述最终规则表达式对待检测数据集进行检测,以生成检测问题数据清单;所述展示单元用于将所述检测问题数据清单进行展示以供用户进行数据分析。
需要说明的是,所属领域的技术用户员可以清楚地了解到,上述基于AI的数据规则表达式生成方法装置200和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述基于AI的数据规则表达式生成方法装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备900为具有基于AI的数据规则表达式生成功能的设备。
参阅图6,该计算机设备900包括通过***总线901连接的处理器902、存储器和接口907,其中,存储器可以包括存储介质903和内存储器904。
该存储介质903可存储操作***9031和计算机程序9032。该计算机程序9032被执行时,可使得处理器902执行上述基于AI的数据规则表达式生成方法。
该处理器902用于提供计算和控制能力,以支撑整个计算机设备900的运行。
该内存储器904为存储介质903中的计算机程序9032的运行提供环境,该计算机程序9032被处理器902执行时,可使得处理器902执行一种基于AI的数据规则表达式生成方法。
该接口905用于与其它设备进行通信。本领域技术用户员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备900的限定,具体的计算机设备900可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器902用于运行存储在存储器中的计算机程序9032,以实现上述基于AI的数据规则表达式生成方法的任意实施例。
应当理解,在本申请实施例中,处理器902可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器902还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术用户员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该无线通信***中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行上述基于AI的数据规则表达式生成方法的任意实施例。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术用户员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、无线通信软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术用户员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该无线通信软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个用户无线通信,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术用户员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术用户员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种基于AI的数据规则表达式生成方法,其特征在于,包括:
获取训练数据集,并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析,以生成初始规则表达式;
通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单,其中,所述问题数据清单是不满足所述初始规则表达式中规则的数据;
将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式,其中,所述标签表示所述问题数据清单中的数据是否对错;
将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集,返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤,直至所述训练规则表达式满足预设条件为止,以得到最终规则表达式,其中,所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集;
其中,所述通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析,以生成初始规则表达式,包括:
通过NLP技术对所述训练数据集中的所述元数据和所述元数据的数值进行语义分析,以生成元数据序列和数值序列;
通过聚类算法对所述元数据序列和所述数值序列进行聚类以得到聚类结果,并根据所述聚类结果通过数据规则表达式生成模型生成初始规则表达式,其中,所述数据规则表达式生成模型是自定义构建的生成模型,可基于输入的数据序列生成表征数据序列规则的表达式;
所述通过聚类算法对所述元数据序列和所述数值序列进行聚类以得到聚类结果,包括:
对所述元数据序列和所述数值序列进行数据标准化处理得到元数据标准序列和数值标准序列;
通过K-means聚类算法对所述元数据标准序列进行聚类以得到多个聚类元数据;
针对每一所述聚类元数据,通过层次聚类算法对与所述聚类元数据相对应的所述数值标准序列进行聚类以得到多个聚类数值;
将多个所述聚类元数据和多个所述聚类数值作为所述聚类结果。
2.根据权利要求1所述的基于AI的数据规则表达式生成方法,其特征在于,所述通过K-means聚类算法对所述元数据标准序列进行聚类以得到多个聚类元数据,包括:
将所有的所述元数据标准序列作为一个数据集,其中,每个所述元数据标准序列作为所述数据集的一个样本数据;
从所述数据集中随机选择N个样本数据作为聚类中心,其中,N为所需划分的元数据聚类的数量;
计算所述数据集中每个样本数据与所有所述聚类中心的距离值并将所述样本数据划分至其中距离值最小的聚类中心所对应的类,其中,所述距离值为所述样本数据相比所述聚类中心所具有的不同属性值的个数;
重新确定聚类中心并计算所述数据集中每个样本数据与所有重新确定的聚类中心的距离值并将所述样本数据划分至其中距离值最小的聚类中心所对应的类,直至得到的所有距离值的总值小于预设值,以获得多个所述聚类元数据。
3.根据权利要求1所述的基于AI的数据规则表达式生成方法,其特征在于,所述通过层次聚类算法对与所述聚类元数据相对应的所述数值标准序列进行聚类以得到多个聚类数值,包括:
将所有与所述聚类元数据相对应的所述数值标准序列作为一个数据集,并将每个所述数值标准序列作为一个聚类中心;
计算所述数据集中每两个所述聚类中心之间的距离值,并将距离值最小的两个所述聚类中心进行聚类合并生成新的聚类中心;
返回执行步骤计算所述数据集中每两个所述聚类中心之间的距离值,并将距离值最小的两个所述聚类中心进行聚类合并生成新的聚类中心的步骤,直至聚类合并后所述聚类中心的个数与聚类合并前所述聚类中心的个数相等,以生成多个所述聚类数值。
4.根据权利要求1所述的基于AI的数据规则表达式生成方法,其特征在于,所述训练规则表达式满足预设条件以得到最终规则表达式,包括:
计算当前所述训练规则表达式与前一所述训练规则表达式的相似度;
若所述相似度大于预设相似度阈值,则判定所述训练规则表达式满足所述预设条件,并将所述训练规则表达式作为所述最终规则表达式。
5.根据权利要求1所述的基于AI的数据规则表达式生成方法,其特征在于,所述方法还包括:
通过所述最终规则表达式对待检测数据集进行检测,以生成检测问题数据清单;
将所述检测问题数据清单进行展示以供用户进行数据分析。
6.一种基于AI的数据规则表达式生成方法装置,其特征在于,包括:
获取分析单元,用于获取训练数据集,并通过AI人工智能技术对所述训练数据集中元数据和所述元数据的数值进行分析,以生成初始规则表达式;
检测单元,用于通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单,其中,所述问题数据清单是不满足所述初始规则表达式中规则的数据;
生成单元,用于将打标签后的所述问题数据清单输入所述AI人工智能技术进行回归训练以生成训练规则表达式,其中,所述标签表示所述问题数据清单中的数据是否对错;
返回执行单元,用于将所述训练规则表达式和第二待检测数据集分别作为所述初始规则表达式和所述第一待检测数据集,返回执行所述通过所述初始规则表达式对第一待检测数据集进行检测生成问题数据清单的步骤,直至所述训练规则表达式满足预设条件为止,以得到最终规则表达式,其中,所述第一待检测数据集和所述第二待检测数据是不同场景下的数据集;
其中,所述获取分析单元包括:
分析单元,用于通过NLP技术对所述训练数据集中的所述元数据和所述元数据的数值进行语义分析,以生成元数据序列和数值序列;
聚类生成单元,用于通过聚类算法对所述元数据序列和所述数值序列进行聚类以得到聚类结果,并根据所述聚类结果通过数据规则表达式生成模型生成初始规则表达式,其中,所述数据规则表达式生成模型是自定义构建的生成模型,可基于输入的数据序列生成表征数据序列规则的表达式;
所述聚类生成单元包括:
标准化处理单元,用于对所述元数据序列和所述数值序列进行数据标准化处理得到元数据标准序列和数值标准序列;
第一聚类单元,用于通过K-means聚类算法对所述元数据标准序列进行聚类以得到多个聚类元数据;
第二聚类单元,用于针对每一所述聚类元数据,通过层次聚类算法对与所述聚类元数据相对应的所述数值标准序列进行聚类以得到多个聚类数值;
作为单元,用于将多个所述聚类元数据和多个所述聚类数值作为所述聚类结果。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311373854.XA CN117114142B (zh) | 2023-10-23 | 2023-10-23 | 基于ai的数据规则表达式生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311373854.XA CN117114142B (zh) | 2023-10-23 | 2023-10-23 | 基于ai的数据规则表达式生成方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117114142A CN117114142A (zh) | 2023-11-24 |
CN117114142B true CN117114142B (zh) | 2024-05-03 |
Family
ID=88795079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311373854.XA Active CN117114142B (zh) | 2023-10-23 | 2023-10-23 | 基于ai的数据规则表达式生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117114142B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473375A (zh) * | 2023-12-28 | 2024-01-30 | 思创数码科技股份有限公司 | 基于ai的数据自动标记方法及***、存储介质和终端 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977009A (zh) * | 2019-02-27 | 2019-07-05 | 深圳云步互娱网络科技有限公司 | 一种基于规则引擎的开关状态控制方法及*** |
CN115659232A (zh) * | 2022-08-29 | 2023-01-31 | 浙江网商银行股份有限公司 | 一种挖掘异常规则的方法及装置 |
CN116089663A (zh) * | 2022-11-29 | 2023-05-09 | ***股份有限公司 | 一种规则表达式匹配方法、装置及计算机可读存储介质 |
CN116302079A (zh) * | 2023-05-22 | 2023-06-23 | 北京拓普丰联信息科技股份有限公司 | 一种业务数据处理方法、装置、电子设备及存储介质 |
CN116701866A (zh) * | 2023-06-02 | 2023-09-05 | 武汉虹信技术服务有限责任公司 | 一种基于物联网设备的园区事件联动处理方法 |
-
2023
- 2023-10-23 CN CN202311373854.XA patent/CN117114142B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977009A (zh) * | 2019-02-27 | 2019-07-05 | 深圳云步互娱网络科技有限公司 | 一种基于规则引擎的开关状态控制方法及*** |
CN115659232A (zh) * | 2022-08-29 | 2023-01-31 | 浙江网商银行股份有限公司 | 一种挖掘异常规则的方法及装置 |
CN116089663A (zh) * | 2022-11-29 | 2023-05-09 | ***股份有限公司 | 一种规则表达式匹配方法、装置及计算机可读存储介质 |
CN116302079A (zh) * | 2023-05-22 | 2023-06-23 | 北京拓普丰联信息科技股份有限公司 | 一种业务数据处理方法、装置、电子设备及存储介质 |
CN116701866A (zh) * | 2023-06-02 | 2023-09-05 | 武汉虹信技术服务有限责任公司 | 一种基于物联网设备的园区事件联动处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117114142A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3584728B1 (en) | Method and device for analyzing open-source license | |
De Jonge et al. | An introduction to data cleaning with R | |
CN108491388B (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
EP3591539A1 (en) | Parsing unstructured information for conversion into structured data | |
CN117114142B (zh) | 基于ai的数据规则表达式生成方法、装置、设备及介质 | |
CN110162754B (zh) | 一种岗位描述文档的生成方法及设备 | |
US20170140309A1 (en) | Database analysis device and database analysis method | |
CN111191275A (zh) | 敏感数据识别方法、***及其装置 | |
CN116541752B (zh) | 元数据管理方法、装置、计算机设备及存储介质 | |
CN114153962A (zh) | 一种数据匹配方法、装置及电子设备 | |
CN113728321A (zh) | 利用训练表的集合来准确预测各种表内的错误 | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN110134721B (zh) | 基于位图的数据统计方法、装置及电子设备 | |
CN115186650A (zh) | 数据检测方法及相关装置 | |
CN113434672B (zh) | 文本类型智能识别方法、装置、设备及介质 | |
CN111723182B (zh) | 一种用于漏洞文本的关键信息抽取方法及装置 | |
CN113032524A (zh) | 商标侵权识别方法、终端设备及存储介质 | |
CN113515593A (zh) | 基于聚类模型的话题检测方法、装置和计算机设备 | |
CN107577760B (zh) | 一种基于约束规范的文本分类方法及装置 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN111104422A (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN112328779B (zh) | 训练样本构建方法、装置、终端设备及存储介质 | |
CN114741494A (zh) | 问答方法、装置、设备及介质 | |
CN114911936A (zh) | 一种模型训练、评论识别方法、装置、电子设备及介质 | |
CN113688206A (zh) | 基于文本识别的趋势分析方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |