CN115438199A - 一种基于智慧城市场景数据中台技术的知识平台*** - Google Patents
一种基于智慧城市场景数据中台技术的知识平台*** Download PDFInfo
- Publication number
- CN115438199A CN115438199A CN202211391048.0A CN202211391048A CN115438199A CN 115438199 A CN115438199 A CN 115438199A CN 202211391048 A CN202211391048 A CN 202211391048A CN 115438199 A CN115438199 A CN 115438199A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- data
- platform
- service
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 22
- 238000004519 manufacturing process Methods 0.000 claims description 20
- 238000007726 management method Methods 0.000 claims description 18
- 238000013441 quality evaluation Methods 0.000 claims description 15
- 238000005538 encapsulation Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 29
- 201000010099 disease Diseases 0.000 description 13
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 13
- 241000607479 Yersinia pestis Species 0.000 description 11
- 241000209094 Oryza Species 0.000 description 10
- 235000007164 Oryza sativa Nutrition 0.000 description 9
- 235000009566 rice Nutrition 0.000 description 9
- 241000238631 Hexapoda Species 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009960 carding Methods 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000003208 petroleum Substances 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 208000035143 Bacterial infection Diseases 0.000 description 1
- 241000255925 Diptera Species 0.000 description 1
- 241000255777 Lepidoptera Species 0.000 description 1
- 208000031888 Mycoses Diseases 0.000 description 1
- 241000244206 Nematoda Species 0.000 description 1
- 241000238814 Orthoptera Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000010391 action planning Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于智慧城市场景数据中台技术的知识平台***,包括知识管理中心、知识生成平台、知识融合平台、知识加工平台和知识服务平台,知识生成平台主要用于通过从数据中台获取到结构化数据、半结构化数据、非结构化数据,并通过自动化的技术抽取出可用的知识单元;知识融合平台主要将来自不同数据源的多个知识图谱;本发明通过NLP技术,知识抽取技术,知识推理,知识融合,多模态信息等大数据技术的综合应用,让知识深度关联,挖掘出隐含的关系,从而构建属于智慧城市特有的可持续挖掘构建知识管理的知识中台***,能够有效的为智慧城市提供智慧化支撑。
Description
技术领域
本发明涉及一种数据信息处理领域,具体涉及一种基于智慧城市场景数据中台技术的知识平台***。
背景技术
随着近两年国家和各地政府部门相继发布新型智慧城市行动规划,智慧城市的建设已进入了深化发展阶段,要进一步强化城市智能设施统筹布局和共性平台建设,破除数据孤岛,加强城乡统筹,并致力于构建智慧城市一体化运行的格局。但是伴随智慧城市城市大脑等基础设施的建设以及城市运营逐步完善,基于数据中台等体系汇聚治理的全域的海量数据,只是进行数据共享,通过传统数据分析方式,提升数据的使用能力,并没有真正的发掘出城市数据的巨大能量,无法让城市变得“聪明”起来。
因此,我们怎样去深挖数据价值,将海量的数据转化为海量的知识,构建统一的城市知识中台,为智慧城市赋能,让城市真正的“智慧”起来,就成为了这个领域亟需解决的问题。
申请号为:CN202110986567.0,公开号为:CN113807663A的发明专利公开了一种智慧电站中台***,该***包括:横向数据中台模块、横向模型中台模块、横向知识中台模块、横向业务中台模块和纵向服务中台模块,通过纵向服务调用模块各横向中台模块。通过本发明的技术方案,能够实现横向数据中台模块、横向业务中台模块、横向模型中台模块、横向知识中台模块之间纵向共享,且通过纵向服务中台模块向各横向中台模块提供服务,实现各模块之间融合与互通,消除信息孤岛,提升智能运营水平。在该申请中,涉及到的知识中台更倾向于经验知识,以及已知知识维护的功能,数据情况较单一,且只是简单的结合测点、设备部件、故障模式的知识库形式构成,没有具体说明通过什么方式和流程去构建出知识中台,也不是智慧城市领域的。
申请号为:CN202111389852.0公开号为:CN113902147A的发明专利公开了一种石油业务定制***及方法,主要解决现有油田业务***建设依然存在较多的如专业难协同、功能重复做、业务复用难、功能选择多等问题;本发明包括规划设计模块、能力沉淀分层模块、关系建立模块、资源对应模块,所述规划设计模块包括业务坐标梳理***、坐标关系建立***、业务节点分析***、资源梳理分析***,所述能力沉淀分层模块包括数据中台、业务中台、知识中台和AI中台,所述资源对应模块包括全局业务资源知识图谱,所述资源对应模块包括资源推送模式和智能搜索模式,通过上述架构实现向下以IT为核心为信息化建设项目提供资源能力的积累和复用,向上以用户业务为核心为业务工作提供个性化的资源服务。在该申请中,只是简单的将知识中台描述为提供通用的知识管理服务工具,实现各类业务知识的生成、管理与服务功能,并未对具体功能模块实现进行详细说明
申请号为:CN202011058114.3,公开号为:CN112148840A的发明专利公开了一种基于自然语言理解的税务知识中台及其构建方法,所述税务知识中台包括知识对齐模块、知识理解模块和知识交互模块;构建该中台时,综合利用知识图谱、搜索与推荐等自然语言处理技术,分别构建上述三个模块。该申请中主要是基于税务特定领域的定制化的知识构建方法,但数据模态是基于非结构化数据的即税务知识相关的文档,虽然详细说明了其中的构建方法和步骤,但是无法覆盖到智慧城市复杂多模态数据场景,不能直接引用到智慧城市场景进行使用。
现有的技术和方案主要是针对金融、医疗、公安、税务、电力、石油等行业垂直领域的知识平台的构建,并且能较好的应用到实际生产环境中;但是却无法有效的运用于城市运行中生产的密度高、丰富度高的海量数据,形成智慧城市所特有的知识库,不能有效的为智慧城市提供智慧化支撑。
发明内容
本发明主要提供一种基于智慧城市场景数据中台技术的知识平台***,其基于智慧城市场景下数据中台汇聚的城市全域的海量多模态数据,构建属于智慧城市特有的可持续挖掘构建知识管理的知识中台***,能够有效的为智慧城市提供智慧化支撑。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于智慧城市场景数据中台技术的知识平台***,包括知识管理中心、知识生成平台、知识融合平台、知识加工平台和知识服务平台,
其中,知识生成平台主要用于通过从数据中台获取到结构化数据、半结构化数据、非结构化数据,并通过自动化的技术抽取出可用的知识单元;
知识融合平台主要将来自不同数据源的多个知识图谱,通过概念融合,实体消歧对齐、属性对齐、属性值融合四个步骤进行对齐、关联和合并,使其融合为一个更加全面质量更高的知识图谱;
知识加工平台主要基于知识融合平台融合后的数据,进行质量评估,过滤掉质量评估不合格的知识,然后基于合格的知识数据做知识存入知识库,以及根据对比已有知识进行知识更新;
知识服务平台主要是为上层应用知识的构建、使用等技术能力通过服务化的封装,为上层产品使用和其他平台的使用提供统一的服务能力。
其中,知识生成平台包括数据获取引擎和知识生产引擎,数据获取引擎主要用于连接到数据中台下的数据源,并获取原始数据,知识生产引擎主要用于将数据获取引擎获取到的数据集进行知识抽取,知识生产引擎具体为:结构化数据知识生产引擎、半结构化数据知识生产引擎和非结构化数据知识生产引擎。
进一步优化,知识融合平台将多个知识图谱的数据集合进行整合,形成更加全面准确的图谱信息,以增强现有知识图谱。
其中,知识加工平台基于知识融合平台融合后的数据,进行质量评估,过滤掉质量评估不合格的知识,然后基于合格的知识数据做知识存入知识库,以及根据对比已有知识进行知识更新。
其中,合格的知识数据做知识存入知识库具体为知识库存储,知识库存储以图数据库为主,搜索引擎elasticsearch为辅进行知识存储。
其中,图数据库主要存储图结构的知识本体,以图数据库的节点表示知识实体,以图数据库带标签的边表示知识关系;搜索引擎主要保存知识检索时的搜索关键信息。
进一步限定,知识服务平台主要功能为服务申请,服务构建,服务发布,服务监管;
其中,服务申请提供对已有且发布在线的服务的申请入口,申请通过后可以获取接口访问的令牌,然后进行接口调用;
服务构建用于将已有的高质量的知识体系进行服务化的封装,封装完成后再将构建好的服务进行发布上线或者将已有成熟的技术能力,通过服务化封装和发布上线,然后对外提供服务;
服务发布功能则针对服务构建功能构建好的服务接口进行有效期管理,以及上线下线动作的管理;
服务监控功能主要对发布上线的服务,在被调用时进行管控措施,以及提供可视化的监控页面,展现服务部分统计分析信息。
与现有技术相比,本发明具有以下有益效果:
本发明在基于数据中台已经汇聚产生了高质量的各类数据的情况下,通过大数据计算,自然语言处理,知识图谱构建等相关技术进行知识化的构建,汇集的大量各行各业的数据,运用本专利中的所述的技术方案,能获取到具有智慧城市场景下的独特的多维的知识库,打破知识图谱技术在少数行业的单一垂直领域下的应用场景。本发明能够构建属于智慧城市特有的可持续挖掘构建知识管理的知识中台***,能够有效的为智慧城市提供智慧化支撑。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明整体功能结构图。
图2为本发明整体功能流程图。
图3为本发明图2中A部放大图。
图4为本发明图2中B部放大图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明实施例的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。下面结合附图对本发明的实施例进行详细说明。
实施例一
本实施例公开了一种基于智慧城市场景数据中台技术的知识平台***,包括知识管理中心,本实施例还包括知识生成平台、知识融合平台、知识加工平台和知识服务平台,
其中,知识生成平台主要用于通过从数据中台获取到结构化数据、半结构化数据、非结构化数据,并通过自动化的技术抽取出可用的知识单元;
知识融合平台主要将来自不同数据源的多个知识图谱,通过概念融合,实体消歧对齐、属性对齐、属性值融合四个步骤进行对齐、关联和合并,使其融合为一个更加全面质量更高的知识图谱;
知识加工平台主要基于知识融合平台融合后的数据,进行质量评估,过滤掉质量评估不合格的知识,然后基于合格的知识数据做知识存入知识库,以及根据对比已有知识进行知识更新;
知识服务平台主要是为上层应用知识的构建、使用等技术能力通过服务化的封装,为上层产品使用和其他平台的使用提供统一的服务能力。
其中,知识生成平台包括数据获取引擎和知识生产引擎,数据获取引擎主要用于连接到数据中台下的数据源,并获取原始数据,知识生产引擎主要用于将数据获取引擎获取到的数据集进行知识抽取,知识生产引擎具体为:结构化数据知识生产引擎、半结构化数据知识生产引擎和非结构化数据知识生产引擎。
进一步优化,知识融合平台将多个知识图谱的数据集合进行整合,形成更加全面准确的图谱信息,以增强现有知识图谱。需要说明的是,在本实施例中,数据进行整合不是单纯的合并两个知识图谱,其实说的还是知识图谱的融合,即是将来自多个知识图谱的等价实例、等价或为包含关系等概念或属性进行链接(实体链接);类似于等价实体之前建立相等的逻辑关系(比如科比的各种称呼,<科比>:黑曼巴,小飞侠,就可以建立实体链接)。
其中,知识加工平台基于知识融合平台融合后的数据,进行质量评估,过滤掉质量评估不合格的知识,然后基于合格的知识数据做知识存入知识库,以及根据对比已有知识进行知识更新。
其中,合格的知识数据做知识存入知识库具体为知识库存储,知识库存储以图数据库为主,搜索引擎elasticsearch为辅进行知识存储。
进一步优化,图数据库主要存储图结构的知识本体,以图数据库的节点表示知识实体,以图数据库带标签的边表示知识关系;搜索引擎主要保存知识检索时的搜索关键信息。
其中,知识服务平台主要功能为服务申请,服务构建,服务发布,服务监管;
其中,服务申请提供对已有且发布在线的服务的申请入口,申请通过后可以获取接口访问的令牌,然后进行接口调用;
服务构建用于将已有的高质量的知识体系进行服务化的封装,封装完成后再将构建好的服务进行发布上线或者将已有成熟的技术能力,通过服务化封装和发布上线,然后对外提供服务;
服务发布功能则针对服务构建功能构建好的服务接口进行有效期管理,以及上线下线动作的管理;服务监控功能主要对发布上线的服务,在被调用时进行管控措施,以及提供可视化的监控页面,展现服务部分统计分析信息。
为了便于本领土技术人员进一步理解本发明,下面结合具体的实施案例进一步阐述本发明。
参看图1至图4,一种基于智慧城市数据中台的知识中台***包括知识管理中心、知识生成平台、知识融合平台、知识加工平台和知识服务平台,
所述知识管理中心,主要用于知识建模,对知识体系分类管理、知识体系管理并提供手工录入已知知识体系数据的功能,以及体系下知识主体的管理;
其中,知识建模即构建知识图谱的本体模型,包括实体,关系以及属性,侧重于概念层次的定义(类比与数据库表结构定义);现在通常是自顶向下,自底向上两种方式相结合一起进行的。
建模步骤分为明确目标领域本体和范围、考虑模型复用、罗列本体中涉及到的领域元素(重要术语)、明确分类体系、定义相关属性与关系及定义约束条件6个主要步骤;
可以采用开源本地构建工具 protege ,此处不再赘述。
对质量评估体系不同领域的质量评估模型进行管理;并提供已有知识组成的知识图谱的可视化展示,知识体系主要包含智慧城市下各涉及领域内的类别以及类别所包含的属性及其约束、类别间的关系信息。
所述知识生成平台,主要是通过从数据中台获取到结构化数据、半结构化数据、非结构化数据,并通过自动化的技术抽取出可用的知识单元,抽取出可用的知识单元目的是为下一步进行知识抽取准备数据。
其中,知识生成平台下包括:
1)数据获取引擎,主要是连接到数据中台下的数据源,获取原始数据;
数据中台本身即是数据汇集的平台,可以理解为所有数据都存在数据中台这个平台上的,并且数据中台本身会对数据质量进行管控,可以消除知识抽取过程中低质量数据的影响,极大的提升知识的质量。
2)知识生产引擎,对数据获取引擎获取到的数据集进行知识抽取,本步骤目的是将数据转化为知识的步骤,是知识中台核心步骤之一,将从数据中台的获取的数据,通过此步骤中说明的方法从数据中台抽取出对应的知识信息;
针对数据结构化数据,通常为关系型数据库的数据,这类数据结构清晰数据;采用spark或者flink等分布式计算平台结合R2RML映射语言为抽取标准进行知识抽取,抽取步骤为抽取类,抽取属性,抽取实例,再建立类之间的关系。
基于数据中台的元数据管理平台,能快速理解结构化数据的含义信息,以此结构化数据可以按照表对应知识类,列对应知识属性,行对应知识资源实例,单个单元的值即对应知识属性值,外键对应指代关系可用以消除实体指代。
对于半结构化数据,主要是指具有一定的数据结构,但是不像结构化数据具有很清晰的数据结构的数据,这类数据需要进一步进行提取整理;因此可以基于包装器技术进行数据处理,包装器的生成主要方法有手工方法、包装器归纳、自动抽取三种。
基于手工方法即依靠专业人员使用正则表达式结合XPATH、CSS选择器来进行手工提取;
基于包装器归纳方法,即借助基于有监督学习的方法,自动从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或者相同网页模板抽取目标数据
自动抽取方式,即结余监督学习的方法,从多个已获得的数据记录中获取模板来进行自动抽取。
针对非结构化的数据主要通过实体抽取、关系抽取、属性抽取、事件抽取等技术完成知识的抽取。
实体抽取主要是通过命名实体识别技术自动识别文本中的原子信息元素(通常包含但不仅限于人名、组织/机构名称、地理位置、字符值等标签);
关系抽取主要是获得语义信息,以此获取实体之间的关联关系。然后使用面向开放域和面向封闭领域的抽取方法来进行一个整体的结合,通过关系将实体之间联系起来,进而形成结构化的网状知识结构
属性抽取主要是针对实体而言的,通过属性可形成对实体的完整勾画。由于实体的属性可以看成是实体与属性值之间的一种名称性关系;
事件抽取则是从自然语言中抽取出我们关注的事件信息,然后以结构化的形式呈现;
事件抽取主要通过事件识别任务判断语句中的单词归属的事件类型,通过论元角色分类任务判断句子中任意一堆触发词和实体之间的角色关系;
所述知识融合平台,主要将来自不同数据源的多个知识图谱,通过概念融合,实体消歧对齐、属性对齐、属性值融合四个步骤进行对齐、关联和合并,使其融合为一个更加全面质量更高的知识图谱;在本实施例中,更全面是表示: 知识图谱中包含的知识内容更完整更丰富;质量更高是指: 其中的知识表达的含义更精准,没有或更少歧义,实体间的关系逻辑更符合客观事实。
知识的融合首先要从概念层进行体系上的融合,主要采用人工的方法找到知识间的等价概念,在不同的知识图谱上的概念建立等价关系;然后实体消歧利用聚类方法对实体进行消歧,接着进行实体对齐,通过表示学习的方法将多个知识库进行联合表示学习,利用知识图谱中存在的大量属性三元组生成属性字符嵌入,通过基于实体的属性计算实体间的相似性,再将实体嵌入移位到同一个空间,通过向量相似度获得实体对齐。
实体对齐后针对与实体下的通过属性相似算法实现属性对齐,即将不同知识图谱下的等价属性合并为同一属性;对齐属性后则根据属性对齐的数据结合阈值进行判断是否需要将来自不同知识源的同一实体的同一属性的属性值进行合并。
所述知识加工平台,主要是基于知识融合平台融合后的数据,进行质量评估,过滤掉质量评估不合格的知识,然后基于合格的知识数据做知识存入知识库,以及根据对比已有知识进行知识更新存储;
在实际的使用中,知识图谱质量评估的一般是从以下四个维度来进行的:
1、准确性,即知识图谱中各类知识的准确程度;
2、一致性,主要考察知识图谱中的知识表达是否一致,即知识图谱中是否存在互相矛盾的知识;
3、完整性,主要考察知识图谱对某领域知识的覆盖程度;
4、时效性,时效性可以看作准确性的一个子维度,但它侧重于考察知识图谱中的知识是否为最新知识;
常见的知识图谱质量评估的方法有以下三种:
1、人工抽样检测法:由领域专家进行抽样质量检测与评估;
2、一致性检测法:通过领域专家预先制定的一致性检测规则检测知识图谱中的知识冲突,以发现知识质量问题;
3、基于外部知识的对比评估法: 使用与目标知识图谱有较高重合度的高质量外部知识源作为基准数据,对目标知识图谱进行质量检测。
知识融合的目的,即是通过技术手段将多个知识图谱的数据集进行整合,形成更加全面准确的图谱信息,增强现有知识图谱;
其中知识库存储以图数据库为主,搜索引擎elasticsearch为辅进行知识存储。
图数据库主要存储图结构的知识本体,以图数据库的节点表示知识实体,以图数据库带标签的边表示知识关系,搜索引擎主要保存知识检索时的搜索关键信息。
此外知识推理模块对基于图神经网络模型的深度学习算法对于已有的但有缺失的知识图谱进行补全,以及通过现有知识图谱进行推理得出新的知识,即知识推理;再结合众包方式确认推理出的知识质量。
所述知识服务平台,主要是为上层应用知识的构建、使用等技术能力通过服务化的封装,为上层产品使用和其他平台的使用提供统一的服务能力。其主要功能为服务申请,服务构建,服务发布,服务监管。
在本实施例中,服务化封装主要是指通过软件开发的技术手段,将知识数据的查询获取操作在***内部实现,只对外部提供api接口调用的方式来获取数据;外部用户只需根据接口使用说明进行接口调用即可。
服务申请提供对已有且发布在线的服务的申请入口,申请通过后可以获取接口访问的令牌,然后进行接口调用;
服务构建用于将已有的高质量的知识体系进行服务化的封装,封装完成后再将构建好的服务进行发布上线;也可以将已有成熟的技术能力,通过服务化封装和发布上线,然后对外提供服务。
服务发布功能则针对服务构建功能构建好的服务接口进行有效期管理,以及上线下线动作的管理。
服务监控功能主要对发布上线的服务,在被调用时进行必要的管控措施,以及提供可视化的监控页面,展现服务部分统计分析信息。
下面结合一具体案例进一步阐述本发明,具体以农业水稻病虫害举例说明。
前提:所用数据皆已由数据中台进行必要的数据清洗,处理,融合后的高质量数据;
第一步:针对水稻病虫害领域知识进行模型构建,目前建模途径通常是结合自顶向下和自底向上两种方式,通过构建水稻病虫害领域本体模型;
即根据已有的病虫害数据对水稻的病虫害进行分类,结合专家指导得到本体类别以及概念间的关系。例如:病害类别可分线虫性病害、细菌性病害、病毒性病害、真菌性病害;虫害类别又可细分 双翅目,直翅目,鳞翅目等。
建模步骤分为明确目标领域本体和范围、考虑模型复用、罗列本体中涉及到的领域元素(重要术语)、明确分类体系、定义相关属性与关系及定义约束条件6个主要步骤;
第二步:从数据中台将农业水稻病虫害相关的数据通过数据获取引擎 取后进行知识抽取,主要是实体,关系,属性,事件等;
针对结构化的数据利用结构化数据知识抽取引擎进行知识抽取,通常各项之间存在明确的关系名称和对应关系,通过spark或者flink等大数据计算平台能很容易的将结构化数据转换为RDF形式的知识数据;
在本发明中,大数据计算主要是指运用spark,flink大数据计算平台执行运算,主要场景针对结构化数据的自然语言处理只要是针对非结构化的数据(主要是文本数据)提取实体,属性等关键信息知识图谱构建是整个知识中台基础技术,知识建模,知识提取,知识融合,知识存储都是知识图谱构建的内容。
针对半结构化的数据则采用半结构数据知识抽取引擎进行知识抽取,半结构化数据通常包装器技术进行实例、关系、属性等知识信息抽取;
针对非结构化数据采用非结构化知识抽取引擎进行数据抽取,非结构化的数据通常是整段的文本,文本中就包含了很多未挖掘到的隐藏信息,例如如水稻云形病的症状属性值中,还隐藏着别名、分布区域、为害部位等实体关系信息,而抽取这些关系时属于基于非结构化数据的知识抽取。文本的解析就需要使用自然语言技术将文本中的这部分关键信息提取出来。
第三步:将第二步抽取完成的知识数据形成了一个类似新的知识图谱,要结合已有的知识图谱数据进行知识融合,这里的概念融合,实体消歧对齐、属性对齐、属性值融合步骤,分别作用为:
1)概念融合:由于本体模型是知识的概念模型,类似于知识的概念模板;所以在知识融合上先将概念找出等价概念的本体模型,建立等价关系,对于下一步进行知识数据的融合,才能更准确。
2)实体消歧对齐: 实体消歧主要是根据上下文信息消除一次多以的歧义现象,例如“苹果”可能是指水果,也可以指“苹果公司”,但是通过上下文包含“乔布斯”信息就可以认为它是指”苹果(公司)“;实体对齐是判断多个不同的信息实体是否指向真是世界的同一对象。
3) 属性对齐: 旨在判断两个或多个属性是否可以表示同一个属性,把不同来源或名字相同但表征相同的属性进行信息融合,从而或者更丰富、更准确的信息,例如 稻瘟、稻瘟病、水稻瘟病都表示同一含义,故可以属性对齐。
4)属性值融合:即是将属性对齐的属性值根据一定的阈值进行判断是否将属性值进行合并。
第四步:将融合后的知识进行质量评估,将质量合格的知识数据存入图数据库,数据入库时有更新则更新知识。
第五步:将构建好的水稻病虫害的知识图谱,通过技术手段开发发布为数据服务,对外提供数据服务的能力。例如,将其发布为一个知识查询接口,根据用户输入的病虫害名称,查询到病虫害的特征,对应的治疗方案等知识信息返回给用户。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于智慧城市场景数据中台技术的知识平台***,包括知识管理中心,其特征在于:还包括知识生成平台、知识融合平台、知识加工平台和知识服务平台,
其中,知识生成平台主要用于通过从数据中台获取到结构化数据、半结构化数据、非结构化数据,并通过自动化的技术抽取出可用的知识单元;
知识融合平台主要将来自不同数据源的多个知识图谱,通过概念融合,实体消歧对齐、属性对齐、属性值融合四个步骤进行对齐、关联和合并,使其融合为一个更加全面质量更高的知识图谱;
知识加工平台主要基于知识融合平台融合后的数据,进行质量评估,过滤掉质量评估不合格的知识,然后基于合格的知识数据做知识存入知识库,以及根据对比已有知识进行知识更新;
知识服务平台主要是为上层应用知识的构建、使用,通过服务化的封装,为上层产品使用和其他平台的使用提供统一的服务能力。
2.根据权利要求1所述的一种基于智慧城市场景数据中台技术的知识平台***,其特征在于:知识生成平台包括数据获取引擎和知识生产引擎,数据获取引擎主要用于连接到数据中台下的数据源,并获取原始数据,知识生产引擎主要用于将数据获取引擎获取到的数据集进行知识抽取,知识生产引擎具体为:结构化数据知识生产引擎、半结构化数据知识生产引擎和非结构化数据知识生产引擎。
3.根据权利要求1所述的一种基于智慧城市场景数据中台技术的知识平台***,其特征在于:知识融合平台将多个知识图谱的数据集合进行整合,形成更加全面准确的图谱信息,以增强现有知识图谱。
4.根据权利要求1所述的一种基于智慧城市场景数据中台技术的知识平台***,其特征在于:合格的知识数据做知识存入知识库,具体为知识库存储,知识库存储以图数据库为主,搜索引擎elasticsearch为辅进行知识存储。
5.根据权利要求4所述的一种基于智慧城市场景数据中台技术的知识平台***,其特征在于:图数据库主要存储图结构的知识本体,以图数据库的节点表示知识实体,以图数据库带标签的边表示知识关系;搜索引擎主要保存知识检索时的搜索关键信息。
6.根据权利要求1-5中任意一项所述的一种基于智慧城市场景数据中台技术的知识平台***,其特征在于:知识服务平台主要功能为服务申请,服务构建,服务发布,服务监管;
其中,服务申请提供对已有且发布在线的服务的申请入口,申请通过后可以获取接口访问的令牌,然后进行接口调用;
服务构建用于将已有的高质量的知识体系进行服务化的封装,封装完成后再将构建好的服务进行发布上线或者将已有成熟的技术能力,通过服务化封装和发布上线,然后对外提供服务;
服务发布功能则针对服务构建功能构建好的服务接口进行有效期管理,以及上线下线动作的管理;
服务监控功能主要对发布上线的服务,在被调用时进行管控措施,以及提供可视化的监控页面,展现服务部分统计分析信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211391048.0A CN115438199A (zh) | 2022-11-08 | 2022-11-08 | 一种基于智慧城市场景数据中台技术的知识平台*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211391048.0A CN115438199A (zh) | 2022-11-08 | 2022-11-08 | 一种基于智慧城市场景数据中台技术的知识平台*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115438199A true CN115438199A (zh) | 2022-12-06 |
Family
ID=84253180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211391048.0A Pending CN115438199A (zh) | 2022-11-08 | 2022-11-08 | 一种基于智慧城市场景数据中台技术的知识平台*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438199A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952301A (zh) * | 2023-03-16 | 2023-04-11 | 浪潮软件科技有限公司 | 一种知识图谱管理平台的构建方法及*** |
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
CN116932612A (zh) * | 2023-07-31 | 2023-10-24 | 杭州元声象素科技有限公司 | 一种基层社会治理智能数据处理*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732845A (zh) * | 2021-01-26 | 2021-04-30 | 长威信息科技发展股份有限公司 | 一种基于端到端的大型知识图谱构建和存储方法和*** |
CN114706990A (zh) * | 2021-12-29 | 2022-07-05 | 北京航天自动控制研究所 | 一种智慧法律大数据信息融合生态***及方法 |
CN114817573A (zh) * | 2022-05-07 | 2022-07-29 | 上海外高桥造船有限公司 | 知识图谱的知识管理平台 |
-
2022
- 2022-11-08 CN CN202211391048.0A patent/CN115438199A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732845A (zh) * | 2021-01-26 | 2021-04-30 | 长威信息科技发展股份有限公司 | 一种基于端到端的大型知识图谱构建和存储方法和*** |
CN114706990A (zh) * | 2021-12-29 | 2022-07-05 | 北京航天自动控制研究所 | 一种智慧法律大数据信息融合生态***及方法 |
CN114817573A (zh) * | 2022-05-07 | 2022-07-29 | 上海外高桥造船有限公司 | 知识图谱的知识管理平台 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952301A (zh) * | 2023-03-16 | 2023-04-11 | 浪潮软件科技有限公司 | 一种知识图谱管理平台的构建方法及*** |
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
CN116628172B (zh) * | 2023-07-24 | 2023-09-19 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
CN116932612A (zh) * | 2023-07-31 | 2023-10-24 | 杭州元声象素科技有限公司 | 一种基层社会治理智能数据处理*** |
CN116932612B (zh) * | 2023-07-31 | 2024-05-10 | 杭州元声象素科技有限公司 | 一种基层社会治理智能数据处理*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112612902B (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
CN110941612B (zh) | 基于关联数据的自治数据湖构建***及方法 | |
CN103631882B (zh) | 基于图挖掘技术的语义化业务生成***和方法 | |
CN104318340B (zh) | 基于文本履历信息的信息可视化方法及智能可视分析*** | |
CN111428054A (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
Hor et al. | A semantic graph database for BIM-GIS integrated information model for an intelligent urban mobility web application | |
CN115438199A (zh) | 一种基于智慧城市场景数据中台技术的知识平台*** | |
CN112860872A (zh) | 基于自学习的配电网操作票语义合规性的校验方法及*** | |
CN111444348A (zh) | 知识图谱架构的构建与应用方法、***及介质 | |
Wątróbski | Ontology learning methods from text-an extensive knowledge-based approach | |
Liu et al. | Behavior2vector: Embedding users’ personalized travel behavior to vector | |
CN114610898A (zh) | 一种供应链运营知识图谱构建方法和*** | |
CN113191497A (zh) | 一种面向变电站踏勘选址的知识图谱构建方法和*** | |
CN112613611A (zh) | 一种基于知识图谱的税务知识库*** | |
CN117151659B (zh) | 一种基于大语言模型的生态修复工程全生命周期追溯方法 | |
Yang et al. | User story clustering in agile development: a framework and an empirical study | |
CN111353085A (zh) | 一种基于特征模型的云挖掘分析网络舆情方法 | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
Cao | Design and optimization of a decision support system for sports training based on data mining technology | |
Chen et al. | The technology of military knowledge graph construction based on multiple open data sources | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
CN115759253A (zh) | 电网运维知识图谱构建方法及*** | |
Meng et al. | Design and Implementation of Knowledge Graph Platform of Power Marketing | |
Liu et al. | Construction of intelligent query system for metro electromechanical equipment faults based on the knowledge graph | |
Bounif et al. | Schema repository for database schema evolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221206 |
|
RJ01 | Rejection of invention patent application after publication |