CN112800755A - 一种数据治理方法及*** - Google Patents

一种数据治理方法及*** Download PDF

Info

Publication number
CN112800755A
CN112800755A CN202110159526.4A CN202110159526A CN112800755A CN 112800755 A CN112800755 A CN 112800755A CN 202110159526 A CN202110159526 A CN 202110159526A CN 112800755 A CN112800755 A CN 112800755A
Authority
CN
China
Prior art keywords
field information
data
structured
rule
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110159526.4A
Other languages
English (en)
Inventor
石慧江
王道广
于政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Mingyue Software Technology Development Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202110159526.4A priority Critical patent/CN112800755A/zh
Publication of CN112800755A publication Critical patent/CN112800755A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据治理方法及***。数据治理方法包括:创建步骤:创建非结构化的字段信息以及所述字段信息的规则;识别步骤:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;存储步骤:对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。本发明提供一种数据治理方法及***,本发明通过算法进行实体识别并配合规则筛选结果的数据治理方案,将原本的非结构化维修案例数据转化为结构化数据,能够显著提高非结构化维修案例数据转化为结构化数据的转化效率,能显著降低人工处理成本。

Description

一种数据治理方法及***
技术领域
本申请涉及数据治理技术领域,尤其涉及一种数据治理方法及***。
背景技术
维修案例数据通常是以文本的形式存在,文本中详细描述了维修人员的检修过程,例如对于故障原因的定位、检查相关的零部件,定位到故障原因之后会记录维修信息,例如是否更换了相关的零部件,以及记录最终的维修结果。这种文档型的记录方式优点是可阅读性好;缺点在于当企业想将维修案例数据转化为结构化数据进行分类存储时会耗时耗力,尤其是日积月累的数据量非常大时,这种人工处理非结构化文本数据的成本会非常大。人工方式进行非结构化维修案例的处理,且需要具有专业维修知识的维修工程师才能处理,因为维修案例本就是由维修人员记录的,且涉及到领域相关的专业用词,非专业维修人员无法从中精准的进行数据的转化。人工方式的缺点是成本高,分为两个方面,一个是需要专业的维修人员或进行过专业培训的从业人员进行处理,人力成本高;另一个是当维修案例数据多时,所需时间成本也很高,因为人工处理效率不高。在以上背景下,尽可能降低人工成本。
因此,针对以上现状,本发明提供一种数据治理方法及***,本发明通过算法进行实体识别并配合规则筛选结果的数据治理方案,将原本的非结构化维修案例数据转化为结构化数据,能够显著提高非结构化维修案例数据转化为结构化数据的转化效率,能显著降低人工处理成本。
发明内容
本申请实施例提供了一种数据治理方法及***,以至少解决相关技术中主观因素影响的问题。
本发明提供了一种数据治理方法,包括:
创建步骤:创建非结构化的字段信息以及所述字段信息的规则;
识别步骤:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
存储步骤:对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
上述的数据治理方法,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
上述的数据治理方法,所述创建步骤包括,创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
上述的数据治理方法,所述识别步骤包括,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,通过所述字段信息对应的所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
上述的数据治理方法,所述存储步骤包括,对所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
本发明还提供一种数据治理***,其中,适用于上述所述的数据治理方法,所述数据治理***包括:
创建单元:创建非结构化的字段信息以及所述字段信息的规则;
识别单元:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
存储单元:输出符合所述规则的所述结构化字段信息,并对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
上述的数据治理***,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
上述的数据治理***,所述创建单元创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
上述的数据治理***,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,所述识别单元通过所述字段信息对应的所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
上述的数据治理***,所述存储单元对所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
相比于相关技术,本发明提供一种数据治理方法及***,本发明通过算法进行实体识别并配合规则筛选结果的数据治理方案,将原本的非结构化维修案例数据转化为结构化数据,能够显著提高非结构化维修案例数据转化为结构化数据的转化效率,能显著降低人工处理成本。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的数据治理方法流程图;
图2是根据本申请实施例的框架图;
图3为本发明的数据治理***的结构示意图;
图4是根据本申请实施例的电子设备的框架图。
其中,附图标记为:
创建单元:51;
识别单元:52;
存储单元:53;
总线:80;
处理器:81;
存储器:82;
通信接口:83。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本发明基于维修案例数据治理,下面进行简要的介绍。
数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。数据治理是一种数据管理概念,涉及使组织能够确保在数据的整个生命周期中存在高数据质量的能力。一个数据管家是确保数据治理流程遵循,指导执行,并建议改进数据治理流程的作用。企业高层必须制定一个基于价值的数据治理计划,确保董事会和股东可以方便、安全、快速、可靠地利用数据进行决策支持和业务运行。数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。数据治理是一种数据管理概念,涉及使组织能够确保在数据的整个生命周期中存在高数据质量的能力。一个数据管家是确保数据治理流程遵循,指导执行,并建议改进数据治理流程的作用。企业高层必须制定一个基于价值的数据治理计划,确保董事会和股东可以方便、安全、快速、可靠地利用数据进行决策支持和业务运行。数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。独立企业数据集成软件提供商Informatica公司(纳斯达克代码:INFA)认为:数据治理成功的关键在于元数据管理,即赋予数据上下文和含义的参考框架。经过有效治理的元数据可提供数据流视图、影响分析的执行能力、通用业务词汇表以及其术语和定义的可问责性,最终提供用于满足合规性的审计跟踪。元数据管理成为一项重要功能,让IT部门得以监视复杂数据集成环境中的变化,同时交付可信、安全的数据。因此,良好的元数据管理工具在全局数据治理中起到了核心作用。Informatica将数据治理定义为“在组织范围内,对流程、政策、标准、技术和人员进行职能协调和定义来将数据作为公司资产管理,从而实现对准确、一致、安全且及时的数据的可用性管理和可控增长,以此制定更好的业务决策,降低风险并改善业务流程”。数据治理着重于交付可信、安全的信息,为制定明智的业务决策、有效的业务流程并优化利益相关方交互提供支持。因此,数据治理本身并非是结果,而仅仅是方法:即通过数据治理来支持最关键的业务目标。元数据为数据提供了一个参考框架。Forrester Research将元数据定义为“用于描述数据、内容、业务流程、服务、业务规则以及组织信息***的支持政策或为其提供上下文的信息”。譬如,苹果公司旗下的App Store在网上销售软件应用程序。在此情况下的数据是应用程序。元数据则是关于这些应用程序的信息,包括应用程序描述、价格、用户评级、评论和开发公司。正如某家大型银行的高管所言:“如果没有数据治理,任何元数据管理方案注定会失败。”元数据管理可作为一项重要功能,让IT部门得以管理复杂数据集成环境中的变化,同时交付可信、安全的数据。当业务利益相关方参与这一进程并接受对数据参考框架的责任,其优势将变得更有说服力。此时,企业就能将业务元数据与基层的技术元数据进行关联,为全公司范围内的协作提供词汇表和背景资料。
相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。数据模型:结构化数据:二维表(关系型);半结构化数据:树、图。RMDBS的数据模型有:如网状数据模型、层次数据模型、关系型。其他:结构化数据:先有结构、再有数据;半结构化数据:先有数据,再有结构。随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的IBase数据库为代表。IBase数据库是一种面向最终用户的非结构化数据库,在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平,在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点:通过从上面的分析后我们可以预言,随着网络技术和网络应用技术的飞快发展,完全基于Internet应用的非结构化数据库将成为继层次数据库、网状数据库和关系数据库之后的又一重点、热点技术。
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记,便能使网站在搜索结果中良好地展示丰富网页摘要。搜索引擎都支持标准的结构化数据标记,以便为用户提供更好的上网体验。网页内微数据标记可以帮助搜索引擎理解网页上的信息,能更方便搜索引擎识别分类,判断相关性。同时结构化微数据可以让搜索引擎提供更丰富的搜索结果摘要展现,也就是为用户的具体查询提供帮助的详细信息,让用户直接在搜索结果中看见你商品的重要信息。例如:商品的价格、名称、库存状况(商品是否有货)、评论者评分和评论等都可以在搜索结果摘要直接看到。这些丰富网页摘要可帮助用户了解网站与他们的搜索内容是否相关,可以让网页获得更多点击。如在搜索结果中,部分展示了更多的星级评分、评论条数以及价格等因素,这样无疑增加了网站的专业程度,且提高了客户对网站的信任度,网站良好的曝光度无形中就提高了网站的点击率与转化率。
本发明提供一种数据治理方法及***,本发明通过算法进行实体识别并配合规则筛选结果的数据治理方案,将原本的非结构化维修案例数据转化为结构化数据,能够显著提高非结构化维修案例数据转化为结构化数据的转化效率,能显著降低人工处理成本。
下面将数据治理为例对本申请实施例进行说明。
实施例一
本实施例提供了数据治理方法。请参照图1-图2,图1是根据本申请实施例的数据治理方法流程图;图2是根据本申请实施例的框架图,如图所示,数据治理方法包括如下步骤:
创建步骤S1:创建非结构化的字段信息以及所述字段信息的规则;
识别步骤S2:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
存储步骤S3:对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
实施例中,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
实施例中,所述创建步骤S1包括,创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
具体实施中,由人工确定需结构化的信息类别,如需要将故障原因、故障零部件、工况信息、维修零部件、维修结果等字段信息转成结构化数据,则由人工确定结构化字段范围,并对每个自定义的结构化字段设定规则,该规则描述对应字段在文本中的匹配规则。
实施例中,所述识别步骤S2包括,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,通过所述字段信息对应的所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
具体实施中,通过标注一些维修案例,标注出故障原因、涉及到的零部件、维修结果等,训练得到实体识别模型,并将该模型用于实体识别。
实施例中,所述存储步骤S3包括,对所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
由此,本发明提供一种数据治理方法及***,本发明通过算法进行实体识别并配合规则筛选结果的数据治理方案,将原本的非结构化维修案例数据转化为结构化数据,能够显著提高非结构化维修案例数据转化为结构化数据的转化效率,能显著降低人工处理成本。
实施例二
请参照图3,图3为本发明的数据治理***的结构示意图。如图3所示,发明的数据治理***,适用于上述的数据治理方法,数据治理***包括:
创建单元51:创建非结构化的字段信息以及所述字段信息的规则;
识别单元52:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
存储单元53:输出符合所述规则的所述结构化字段信息,并对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
在本实施例中,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
在本实施例中,所述创建单元51创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
在本实施例中,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,所述识别单元52通过所述字段信息对应的所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
本实施例中,所述存储单元53对所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
实施例三
结合4所示,本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为FPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EFPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意数据治理方法。
在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图4所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据治理设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、***组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
电子设备可连接数据治理***,从而实现结合图1-图2描述的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据治理方法,其特征在于,包括:
创建步骤:创建非结构化的字段信息以及所述字段信息的规则;
识别步骤:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
存储步骤:对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
2.根据权利要求1所述的数据治理方法,其特征在于,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
3.根据权利要求1所述的数据治理方法,其特征在于,所述创建步骤包括,创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
4.根据权利要求3所述的数据治理方法,其特征在于,所述识别步骤包括,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,通过所述字段信息对应的所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
5.根据权利要求4所述的数据治理方法,其特征在于,所述存储步骤包括,将所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
6.一种数据治理***,其特征在于,适用于上述权利要求1-5所述的数据治理方法,所述数据治理***包括:
创建单元:创建非结构化的字段信息以及所述字段信息的规则;
识别单元:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
存储单元:输出符合所述规则的所述结构化字段信息,并对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
7.根据权利要求6所述的数据治理***,其特征在于,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
8.根据权利要7所述的数据治理***,其特征在于,所述创建单元创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
9.根据权利要求8所述的数据治理***,其特征在于,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,所述识别单元通过所述字段信息对应的所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
10.根据权利要求9所述的数据治理***,其特征在于,所述存储单元对所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
CN202110159526.4A 2021-02-05 2021-02-05 一种数据治理方法及*** Pending CN112800755A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110159526.4A CN112800755A (zh) 2021-02-05 2021-02-05 一种数据治理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110159526.4A CN112800755A (zh) 2021-02-05 2021-02-05 一种数据治理方法及***

Publications (1)

Publication Number Publication Date
CN112800755A true CN112800755A (zh) 2021-05-14

Family

ID=75814379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110159526.4A Pending CN112800755A (zh) 2021-02-05 2021-02-05 一种数据治理方法及***

Country Status (1)

Country Link
CN (1) CN112800755A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240396A (zh) * 2021-05-20 2021-08-10 北京明略昭辉科技有限公司 分析员工工作状态的方法、装置、设备及存储介质
CN113836126A (zh) * 2021-09-22 2021-12-24 上海妙一生物科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN114897516A (zh) * 2022-07-12 2022-08-12 山东乐习信息科技有限公司 一种特种设备全过程数据治理的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344298A (zh) * 2018-10-31 2019-02-15 南方电网科学研究院有限责任公司 一种将非结构化数据转化为结构化数据的方法及装置
CN109492115A (zh) * 2018-11-23 2019-03-19 深圳市元征科技股份有限公司 一种汽修知识实体网络构建方法、装置及设备
CN111241177A (zh) * 2019-12-31 2020-06-05 中国联合网络通信集团有限公司 数据采集方法、***及网络设备
CN111709527A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 运维知识图谱库的建立方法、装置、设备及存储介质
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344298A (zh) * 2018-10-31 2019-02-15 南方电网科学研究院有限责任公司 一种将非结构化数据转化为结构化数据的方法及装置
CN109492115A (zh) * 2018-11-23 2019-03-19 深圳市元征科技股份有限公司 一种汽修知识实体网络构建方法、装置及设备
CN111241177A (zh) * 2019-12-31 2020-06-05 中国联合网络通信集团有限公司 数据采集方法、***及网络设备
CN111709527A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 运维知识图谱库的建立方法、装置、设备及存储介质
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240396A (zh) * 2021-05-20 2021-08-10 北京明略昭辉科技有限公司 分析员工工作状态的方法、装置、设备及存储介质
CN113836126A (zh) * 2021-09-22 2021-12-24 上海妙一生物科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN113836126B (zh) * 2021-09-22 2024-01-30 上海妙一生物科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN114897516A (zh) * 2022-07-12 2022-08-12 山东乐习信息科技有限公司 一种特种设备全过程数据治理的方法

Similar Documents

Publication Publication Date Title
US10896392B2 (en) Methods and systems for generating supply chain representations
US8719308B2 (en) Method and system to process unstructured data
US9606970B2 (en) Web browser device for structured data extraction and sharing via a social network
US8566903B2 (en) Enterprise evidence repository providing access control to collected artifacts
CN112800755A (zh) 一种数据治理方法及***
US9171072B2 (en) System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
US20170235820A1 (en) System and engine for seeded clustering of news events
US20140379764A1 (en) Enterprise evidence repository
US20130311875A1 (en) Web browser embedded button for structured data extraction and sharing via a social network
US20140244524A1 (en) System and method for identifying potential legal liability and providing early warning in an enterprise
US20050182736A1 (en) Method and apparatus for determining contract attributes based on language patterns
US8601367B1 (en) Systems and methods for generating filing documents in a visual presentation context with XBRL barcode authentication
US20150254350A1 (en) Method for entity enrichment of digital content to enable advanced search functionality in content management systems
Kubler et al. Open data portal quality comparison using AHP
JP2022552421A (ja) 規制のための表現を動的に作成するための技術
CN112163072A (zh) 基于多数据源的数据处理方法以及装置
Kim et al. Comparative analysis of manuscript management systems for scholarly publishing
US10146881B2 (en) Scalable processing of heterogeneous user-generated content
US11861321B1 (en) Systems and methods for structure discovery and structure-based analysis in natural language processing models
US8799256B2 (en) Incorporated web page content
JP5683749B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
CN113535966A (zh) 知识图谱的创建方法、信息获取的方法、装置和设备
Sumner et al. RipetaScore: Measuring the quality, transparency, and trustworthiness of a scientific work
US20130185315A1 (en) Identification of Events of Interest
Suzuki Effects of implicit positive ratings for quality assessment of Wikipedia articles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220810

Address after: 100023 03, floors 1-2, building 4, yard 1, Huangchang Nanli, Chaoyang District, Beijing

Applicant after: Beijing Mingyuan Electronics Technology Co.,Ltd.

Address before: 100089 a1002, 10th floor, building 1, yard 1, Zhongguancun East Road, Haidian District, Beijing

Applicant before: MININGLAMP SOFTWARE SYSTEMS Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230424

Address after: 266399 No.3 Changjiang Road, Jiaozhou Economic and Technological Development Zone, Jiaozhou City, Qingdao City, Shandong Province

Applicant after: Qingdao Mingyue Software Technology Development Co.,Ltd.

Address before: 100023 03, floors 1-2, building 4, yard 1, Huangchang Nanli, Chaoyang District, Beijing

Applicant before: Beijing Mingyuan Electronics Technology Co.,Ltd.

TA01 Transfer of patent application right