CN111125116B - 定位业务表中代码字段及对应代码表的方法及*** - Google Patents

定位业务表中代码字段及对应代码表的方法及*** Download PDF

Info

Publication number
CN111125116B
CN111125116B CN201911373213.8A CN201911373213A CN111125116B CN 111125116 B CN111125116 B CN 111125116B CN 201911373213 A CN201911373213 A CN 201911373213A CN 111125116 B CN111125116 B CN 111125116B
Authority
CN
China
Prior art keywords
code
field
decoded
fields
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911373213.8A
Other languages
English (en)
Other versions
CN111125116A (zh
Inventor
魏博文
谢赟
吴新野
黄海清
葛兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Datatom Information Technology Co ltd
Original Assignee
Shanghai Datatom Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Datatom Information Technology Co ltd filed Critical Shanghai Datatom Information Technology Co ltd
Priority to CN201911373213.8A priority Critical patent/CN111125116B/zh
Publication of CN111125116A publication Critical patent/CN111125116A/zh
Application granted granted Critical
Publication of CN111125116B publication Critical patent/CN111125116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种定位业务表中代码字段及对应代码表的方法,包括:将业务表写入配置文件或者数据库;根据预设的判断规则判断业务表中需要解码的代码字段,并将判断结果存入数据库;针对判断结果进一步筛选,对注释已经解码的代码字段进行打标,获得打标结果,然后根据预设的匹配规则,将剩余的需要解码的代码字段进行代码表的匹配,并将打标结果和匹配结果存入数据库;将判断结果、打标结果和匹配结果生成报表。本发明还公开了一种定位业务表中代码字段及对应代码表的***。本发明能够快速定位出业务表中需要解码的代码字段和对应的代码表,大幅提高工作效率。

Description

定位业务表中代码字段及对应代码表的方法及***
技术领域
本发明涉及数据治理技术领域,尤其涉及定位业务表中代码字段及对应代码表的方法及***。
背景技术
近几年来,计算机行业已经从IT(信息技术)时代进入大数据时候,在DT(数据处理技术)时代,人们比以往任何时候更能收集到更丰富的数据。数据正在呈“***式”增长的数据,其潜在的巨大价值有待发掘。数据作为一种新的能源,正在发生聚变,变革着我们的生产和生活,催生了当下大数据行业发展热火朝天的盛景。
但是如果不能对这些数据进行有序、有结构地分类组织和存储,如果不能有效利用并发掘它,继而产生价值,那么它同时也成为一场“灾难”。无序、无结构的数据犹如堆积如山的垃圾,给企业带来的是令人咋舌的高额成本,所以数据治理应运而生,如何建设高效的数据模型和体系,使数据易用,避免重复建设和数据不一致性,保证数据的规范性;如何做好数据质量保障;如何有效管理和控制日益增长的存储和计算消耗,如何设计有效的数据产品高效赋能于后续应用……这些都给大数据***的建设提出了更多复杂的要求。
由于在数据治理中数据来源的复杂性,源***数据的规范性参差不齐,当前在进行基础数据治理时会面临的问题,汇集到平台大量的业务表和代码表,但是由于数据源可能已经不知道业务表和代码表相互之间的映射关系,需要数据治理开发人员一张一张的做比对,这是一个非常耗时的过程,所以,能够快速定位业务表中代码字段和代码字段对应代码表的技术是必要的。
发明内容
本发明的目的在于提供一种定位业务表中代码字段及对应代码表的方法和***,能够快速定位出业务表中需要解码的代码字段和对应的代码表,大幅提高工作效率。
实现上述目的的技术方案是:
一种定位业务表中代码字段及对应代码表的方法,包括:
步骤S1,将业务表写入配置文件或者数据库;
步骤S2,根据预设的判断规则判断业务表中需要解码的代码字段,并将判断结果存入数据库;
步骤S3,针对判断结果进一步筛选,对注释已经解码的代码字段进行打标,获得打标结果,然后根据预设的匹配规则,将剩余的需要解码的代码字段进行代码表的匹配,并将打标结果和匹配结果存入数据库;
步骤S4,将判断结果、打标结果和匹配结果生成报表。
优选的,所述步骤S2,包括:
通过过滤指定的不需解码字段,第一次筛选代码字段;
针对第一次筛选后的代码字段,检查代码字段的字段注释中是否已经给出代码对应的代码值,若是则进行过滤,第二次筛选代码字段;
针对第二次筛选后的代码字段,通过设定代码内容特征值的方法来第三次筛选代码字段;
将经过第三次筛选后的代码字段作为判断结果,存入数据库。
优选的,所述的代码内容特征值包括:字段内容唯一率、空值率、字段平均长度和字段内容中文特征。
优选的,所述步骤S3,包括:
设定第一特征:字段注释中包含两个数字及以上并且数字呈现连续关系,或者两个英文字母及以上并且字母呈现连续关系;
然后对于满足第一特征的代码字段,判断为注释已经解码的代码字段,并打标为注释已经解码字段,得到部分的打标结果;
设定第二特征:代码字段的英文名称相似度大于等于0.6,或者对于代码值字段内容为中文,或者代码字段和疑似代码值字段的空值率和唯一率在预定范围内波动;
然后对于剩余的、满足第二特征的代码字段,判断为注释已经解码的代码字段,并打标为注释已经解码字段,得到剩余的打标结果;
设定第三特征:同一部门或者同一***的代码表优先匹配,如果代码英文名称和代码表英文名称存在相似性或者代码字段注释和代码表表名注释存在相同的中文,则优先探查,如果同一部门或同一***下未能匹配到则在全局代码库内进行匹配;
在满足第三特征的情况下如果匹配到代码值,匹配的代码表字段值域需要大于等于字段值域,得到部分的匹配结果;
在不满足第三特征的情况下,进行全局匹配,要求匹配的代码表字段值域需要大于等于字段值域,得到剩余的匹配结果;
将打标结果和匹配结果存入数据库。
优选的,所述的设定第一特征还包括:字段注释中还包含逗号或者分号。
一种定位业务表中代码字段及对应代码表的***,包括:
用于将业务表写入配置文件或者数据库的数据预处理模块;
根据预设的判断规则判断业务表中需要解码的代码字段,并将判断结果存入数据库的探查需解码字段模块;
针对判断结果进一步筛选,对注释已经解码的代码字段进行打标,获得打标结果,然后根据预设的匹配规则,将剩余的需要解码的代码字段进行代码表的匹配,并将打标结果和匹配结果存入数据库的探查需解码字段对应代码表模块;以及
用于将判断结果、打标结果和匹配结果生成报表的探查结果报表生成模块。
优选的,所述探查需解码字段模块通过过滤指定的不需解码字段,第一次筛选代码字段;
所述探查需解码字段模块针对第一次筛选后的代码字段,检查代码字段的字段注释中是否已经给出代码对应的代码值,若是则进行过滤,第二次筛选代码字段;
所述探查需解码字段模块针对第二次筛选后的代码字段,通过设定代码内容特征值的方法来第三次筛选代码字段;
所述探查需解码字段模块将经过第三次筛选后的代码字段作为判断结果,存入数据库。
优选的,所述探查需解码字段对应代码表模块设定第一特征:字段注释中包含两个数字及以上并且数字呈现连续关系,或者两个英文字母及以上并且字母呈现连续关系;
所述探查需解码字段对应代码表模块然后对于满足第一特征的代码字段,判断为注释已经解码的代码字段,并打标为注释已经解码字段,得到部分的打标结果;
所述探查需解码字段对应代码表模块设定第二特征:代码字段的英文名称相似度大于等于0.6,或者对于代码值字段内容为中文,或者代码字段和疑似代码值字段的空值率和唯一率在预定范围内波动;
所述探查需解码字段对应代码表模块然后对于剩余的、满足第二特征的代码字段,判断为注释已经解码的代码字段,并打标为注释已经解码字段,得到剩余的打标结果;
所述探查需解码字段对应代码表模块设定第三特征:同一部门或者同一***的代码表优先匹配,如果代码英文名称和代码表英文名称存在相似性或者代码字段注释和代码表表名注释存在相同的中文,则优先探查,如果同一部门或同一***下未能匹配到则在全局代码库内进行匹配;
在满足第三特征的情况下如果匹配到代码值,匹配的代码表字段值域需要大于等于字段值域,所述探查需解码字段对应代码表模块得到部分的匹配结果;
在不满足第三特征的情况下,进行全局匹配,要求匹配的代码表字段值域需要大于等于字段值域,所述探查需解码字段对应代码表模块得到剩余的匹配结果;
所述探查需解码字段对应代码表模块将打标结果和匹配结果存入数据库。
本发明的有益效果是:本发明通过数据预处理、探查需解码字段、探查需解码字段对应代码表、生成探查结果报表,能够快速定位出业务表中需要解码的代码字段和对应的代码表,从而大幅度缩减解码耗费的时间,提升解码效率。
附图说明
图1是本发明的定位业务表中代码字段及对应代码表的方法的流程图;
图2是本发明的定位业务表中代码字段及对应代码表的***的结构图。
具体实施方式
下面将结合附图对本发明作进一步说明。
请参阅图1,本发明的定位业务表中代码字段及对应代码表的方法,包括下列步骤:
步骤S1,将业务表写入配置文件或者数据库。
首先简述下代码表和代码字段的含义,如下:
代码表:一般,某个字段可以抽象出有限个数的取值,都可以建立代码表。常见的代码有性别,地点,职业等等。
代码字段:在业务表中与代码表中代码具有映射关系的字段。
步骤S2,读取配置文件信息或者数据库表信息,获取需要进行探查的业务表,根据预设的判断规则判断业务表中需要解码的代码字段,并将判断结果存入数据库。具体地,所述步骤S2包括:
1)通过过滤指定的不需解码字段,第一次筛选代码字段。即:通过字段名称来筛选代码。首先,我们设定字段名称关键字,例如设定包含dm和code字段初步判定为代码地段,包含sj、time、rq、xm等等关键字的字段为不需解码字段,进行第一步的筛选。
2)针对第一次筛选后的代码字段,检查代码字段的字段注释中是否已经给出代码对应的代码值,若是则进行过滤,第二次筛选代码字段。如果代码字段在字段注释中已经给出相关的代码对应的代码值,那么这种代码字段标记为注释已经解码字段,不需要在下面的步骤中去匹配代码表。
3)针对第二次筛选后的代码字段,如果还是存在字段并未探查出是否为代码字段,通过设定代码内容特征值的方法来第三次筛选代码字段。代码内容特征值包括:字段内容唯一率、空值率、字段平均长度和字段内容中文特征。
4)将经过第三次筛选后的代码字段作为判断结果,存入数据库。
步骤S3,针对判断结果进一步筛选,对注释已经解码的代码字段进行打标,获得打标结果,然后根据预设的匹配规则,将剩余的需要解码的代码字段进行代码表的匹配,并将打标结果和匹配结果存入数据库。具体地,步骤S3包括:
1)设定第一特征:字段注释中包含两个数字及以上并且数字呈现连续关系,或者两个英文字母及以上并且字母呈现连续关系。满足以上条件之一即可作为满足第一特征。另外,还可以字段注释中包含逗号或者分号(非必要条件),另外可以根据实际情况自行添加特征值。
2)然后对于满足第一特征的代码字段,判断为注释已经解码的代码字段,并打标为注释已经解码字段,得到部分的打标结果。注释已经解码的字段通过字段唯一性继续验证,会进一步提高判定的准确性。
3)设定第二特征:代码字段的英文名称相似度大于等于0.6,或者对于代码值字段内容为中文,或者代码字段和疑似代码值字段的空值率和唯一率在预定范围内波动。满足以上条件之一即可作为满足第二特征。
4)然后对于剩余的、满足第二特征的代码字段,判断为注释已经解码的代码字段,并打标为注释已经解码字段,得到剩余的打标结果。
5)设定第三特征:同一部门或者同一***的代码表优先匹配,如果代码英文名称和代码表英文名称存在相似性或者代码字段注释和代码表表名注释存在相同的中文,则优先探查,如果同一部门或同一***下未能匹配到则在全局代码库内进行匹配。
6)在满足第三特征的情况下如果匹配到代码值,匹配的代码表字段值域需要大于等于字段值域,得到部分的匹配结果。
7)在不满足第三特征的情况下,进行全局匹配,要求匹配的代码表字段值域需要大于等于字段值域,得到剩余的匹配结果。
8)将打标结果和匹配结果存入数据库。
步骤S4,将判断结果、打标结果和匹配结果生成报表,供开发人员参考使用。
请参阅图2,本发明的定位业务表中代码字段及对应代码表的***,包括:数据预处理模块1、探查需解码字段模块2、探查需解码字段对应代码表模块3和探查结果报表生成模块4。
数据预处理模块1用于将业务表写入配置文件或者数据库。
探查需解码字段模块2根据预设的判断规则判断业务表中需要解码的代码字段,并将判断结果存入数据库。探查需解码字段模块2具体的处理过程如上述步骤S2描述。
探查需解码字段对应代码表模块3针对判断结果进一步筛选,对注释已经解码的代码字段进行打标,获得打标结果,然后根据预设的匹配规则,将剩余的需要解码的代码字段进行代码表的匹配,并将打标结果和匹配结果存入数据库。探查需解码字段对应代码表模块3具体的处理过程如上述步骤S3描述。
探查结果报表生成模块4用于将判断结果、打标结果和匹配结果生成报表。用于人机交互,用于探查目标的添加和探查结果的使用。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。

Claims (7)

1.一种定位业务表中代码字段及对应代码表的方法,其特征在于,包括:
步骤S1,将业务表写入配置文件或者数据库;
步骤S2,根据预设的判断规则判断业务表中需要解码的代码字段,并将判断结果存入数据库;
步骤S3,针对判断结果进一步筛选,对注释已经解码的代码字段进行打标,获得打标结果,然后根据预设的匹配规则,将剩余的需要解码的代码字段进行代码表的匹配,并将打标结果和匹配结果存入数据库;
步骤S4,将判断结果、打标结果和匹配结果生成报表。
2.根据权利要求1所述的定位业务表中代码字段及对应代码表的方法,其特征在于,所述步骤S2,包括:
通过过滤指定的不需解码字段,第一次筛选代码字段;
针对第一次筛选后的代码字段,检查代码字段的字段注释中是否已经给出代码对应的代码值,若是则进行过滤,第二次筛选代码字段;
针对第二次筛选后的代码字段,通过设定代码内容特征值的方法来第三次筛选代码字段;
将经过第三次筛选后的代码字段作为判断结果,存入数据库。
3.根据权利要求1所述的定位业务表中代码字段及对应代码表的方法,其特征在于,所述步骤S3,包括:
设定第一特征:字段注释中包含两个数字及以上并且数字呈现连续关系,或者两个英文字母及以上并且字母呈现连续关系;
然后对于满足第一特征的代码字段,判断为注释已经解码的代码字段,并打标为注释已经解码字段,得到部分的打标结果;
设定第二特征:代码字段的英文名称相似度大于等于0.6,或者对于代码值字段内容为中文,或者代码字段和疑似代码值字段的空值率和唯一率在预定范围内波动;
然后对于剩余的、满足第二特征的代码字段,判断为注释已经解码的代码字段,并打标为注释已经解码字段,得到剩余的打标结果;
设定第三特征:同一部门或者同一***的代码表优先匹配,如果代码英文名称和代码表英文名称存在相似性或者代码字段注释和代码表表名注释存在相同的中文,则优先探查,如果同一部门或同一***下未能匹配到则在全局代码库内进行匹配;
在满足第三特征的情况下如果匹配到代码值,匹配的代码表字段值域需要大于等于字段值域,得到部分的匹配结果;
在不满足第三特征的情况下,进行全局匹配,要求匹配的代码表字段值域需要大于等于字段值域,得到剩余的匹配结果;
将打标结果和匹配结果存入数据库。
4.根据权利要求3所述的定位业务表中代码字段及对应代码表的方法,其特征在于,所述的设定第一特征还包括:字段注释中还包含逗号或者分号。
5.一种定位业务表中代码字段及对应代码表的***,其特征在于,包括:
用于将业务表写入配置文件或者数据库的数据预处理模块;
根据预设的判断规则判断业务表中需要解码的代码字段,并将判断结果存入数据库的探查需解码字段模块;
针对判断结果进一步筛选,对注释已经解码的代码字段进行打标,获得打标结果,然后根据预设的匹配规则,将剩余的需要解码的代码字段进行代码表的匹配,并将打标结果和匹配结果存入数据库的探查需解码字段对应代码表模块;以及
用于将判断结果、打标结果和匹配结果生成报表的探查结果报表生成模块。
6.根据权利要求5所述的定位业务表中代码字段及对应代码表的***,其特征在于,所述探查需解码字段模块通过过滤指定的不需解码字段,第一次筛选代码字段;
所述探查需解码字段模块针对第一次筛选后的代码字段,检查代码字段的字段注释中是否已经给出代码对应的代码值,若是则进行过滤,第二次筛选代码字段;
所述探查需解码字段模块针对第二次筛选后的代码字段,通过设定代码内容特征值的方法来第三次筛选代码字段;
所述探查需解码字段模块将经过第三次筛选后的代码字段作为判断结果,存入数据库。
7.根据权利要求5所述的定位业务表中代码字段及对应代码表的***,其特征在于,所述探查需解码字段对应代码表模块设定第一特征:字段注释中包含两个数字及以上并且数字呈现连续关系,或者两个英文字母及以上并且字母呈现连续关系;
所述探查需解码字段对应代码表模块然后对于满足第一特征的代码字段,判断为注释已经解码的代码字段,并打标为注释已经解码字段,得到部分的打标结果;
所述探查需解码字段对应代码表模块设定第二特征:代码字段的英文名称相似度大于等于0.6,或者对于代码值字段内容为中文,或者代码字段和疑似代码值字段的空值率和唯一率在预定范围内波动;
所述探查需解码字段对应代码表模块然后对于剩余的、满足第二特征的代码字段,判断为注释已经解码的代码字段,并打标为注释已经解码字段,得到剩余的打标结果;
所述探查需解码字段对应代码表模块设定第三特征:同一部门或者同一***的代码表优先匹配,如果代码英文名称和代码表英文名称存在相似性或者代码字段注释和代码表表名注释存在相同的中文,则优先探查,如果同一部门或同一***下未能匹配到则在全局代码库内进行匹配;
在满足第三特征的情况下如果匹配到代码值,匹配的代码表字段值域需要大于等于字段值域,所述探查需解码字段对应代码表模块得到部分的匹配结果;
在不满足第三特征的情况下,进行全局匹配,要求匹配的代码表字段值域需要大于等于字段值域,所述探查需解码字段对应代码表模块得到剩余的匹配结果;
所述探查需解码字段对应代码表模块将打标结果和匹配结果存入数据库。
CN201911373213.8A 2019-12-27 2019-12-27 定位业务表中代码字段及对应代码表的方法及*** Active CN111125116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911373213.8A CN111125116B (zh) 2019-12-27 2019-12-27 定位业务表中代码字段及对应代码表的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911373213.8A CN111125116B (zh) 2019-12-27 2019-12-27 定位业务表中代码字段及对应代码表的方法及***

Publications (2)

Publication Number Publication Date
CN111125116A CN111125116A (zh) 2020-05-08
CN111125116B true CN111125116B (zh) 2020-10-13

Family

ID=70503755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911373213.8A Active CN111125116B (zh) 2019-12-27 2019-12-27 定位业务表中代码字段及对应代码表的方法及***

Country Status (1)

Country Link
CN (1) CN111125116B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860580A (zh) * 2021-03-17 2021-05-28 厦门极致互动网络技术股份有限公司 一种基于Erlang的数据探测方法
CN113095064A (zh) * 2021-03-18 2021-07-09 杭州数梦工场科技有限公司 代码字段识别方法、装置、电子设备及存储介质
CN113535707B (zh) * 2021-08-05 2022-04-15 南京华飞数据技术有限公司 一种基于大数据进行人员信息数据治理的方法
CN115827645B (zh) * 2023-02-15 2023-04-18 畅捷通信息技术股份有限公司 一种跨业务领域的字段匹配方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924538A (zh) * 2015-08-13 2018-04-17 克罗诺斯咨询集团企业有限公司 财务信息报告***
EP3570576A1 (en) * 2018-05-18 2019-11-20 STMicroelectronics Srl Method for the generation of personalized profile package data in integrated circuit cards, corresponding system and computer program product

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160283473A1 (en) * 2015-03-26 2016-09-29 Gnoetics, Inc. Method and Computer Program Product for Implementing an Identity Control System
CN107357942A (zh) * 2017-09-04 2017-11-17 山东达创网络科技股份有限公司 一种源代码辅助生成工具及其生成方法
US10264215B1 (en) * 2017-12-18 2019-04-16 Mastercard International Incorporated Server and method enabling augmented reality (AR) object sharing
CN110110067A (zh) * 2018-01-08 2019-08-09 深圳市明源软件股份有限公司 一种数据库注释方法、装置及终端设备
CN110069252B (zh) * 2019-04-11 2023-04-07 浙江网新恒天软件有限公司 一种源代码文件多业务标签自动化分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924538A (zh) * 2015-08-13 2018-04-17 克罗诺斯咨询集团企业有限公司 财务信息报告***
EP3570576A1 (en) * 2018-05-18 2019-11-20 STMicroelectronics Srl Method for the generation of personalized profile package data in integrated circuit cards, corresponding system and computer program product

Also Published As

Publication number Publication date
CN111125116A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111125116B (zh) 定位业务表中代码字段及对应代码表的方法及***
Ilyas et al. Data cleaning
US9646077B2 (en) Time-series analysis based on world event derived from unstructured content
CN107111625B (zh) 实现数据的高效分类和探索的方法和***
CN112579155B (zh) 代码相似性检测方法、装置以及存储介质
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN102999524B (zh) 一种文档关联检索方法及***
CN110795524B (zh) 主数据映射处理方法、装置、计算机设备及存储介质
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN113342976B (zh) 一种自动采集处理数据的方法、装置、存储介质及设备
CN105159971B (zh) 一种云平台数据检索方法
Feng et al. Practical duplicate bug reports detection in a large web-based development community
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN114398069B (zh) 一种基于交叉指纹分析的公共组件库精确版本识别方法及***
CN111522950A (zh) 一种针对非结构化海量文本敏感数据的快速识别***
CN117873839A (zh) 复杂算力***的故障检测方法、装置、设备和存储介质
CN112416992B (zh) 基于大数据和关键词的行业类型识别方法、***及设备
CN115952160B (zh) 一种数据盘点方法
CN110807082B (zh) 质量抽检项目确定方法、***、电子设备及可读存储介质
CN116578612A (zh) 锂电池成品检测数据资产构建方法
CN112527813A (zh) 业务***的数据处理方法及装置、电子设备、存储介质
CN111159230A (zh) 数据资源地图的构建方法及装置、存储介质、终端
CN115729935A (zh) 一种基于orm框架的数据交互处理方法及***
CN115114297A (zh) 数据轻量存储及查找方法、装置、电子设备及存储介质
Bartoli et al. Semisupervised wrapper choice and generation for print-oriented documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant