CN112949745A - 多源数据的融合处理方法、装置、电子设备及存储介质 - Google Patents

多源数据的融合处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112949745A
CN112949745A CN202110308736.5A CN202110308736A CN112949745A CN 112949745 A CN112949745 A CN 112949745A CN 202110308736 A CN202110308736 A CN 202110308736A CN 112949745 A CN112949745 A CN 112949745A
Authority
CN
China
Prior art keywords
data
fusion
source
main data
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110308736.5A
Other languages
English (en)
Other versions
CN112949745B (zh
Inventor
于艳雪
陈克
翟俊峰
李新实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Inspection and Quarantine CAIQ
Original Assignee
Chinese Academy of Inspection and Quarantine CAIQ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Inspection and Quarantine CAIQ filed Critical Chinese Academy of Inspection and Quarantine CAIQ
Priority to CN202110308736.5A priority Critical patent/CN112949745B/zh
Publication of CN112949745A publication Critical patent/CN112949745A/zh
Application granted granted Critical
Publication of CN112949745B publication Critical patent/CN112949745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的一种多源数据的融合处理方法、装置、电子设备及存储介质,通过识别出多源数据中每个源中的主数据;提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;根据所述比对结果,将不同源中的主数据进行融合,以实现对所述多源数据的融合处理;通过提取多源数据的主数据,消除了多源数据中无用数据对多源数据融合结果的影响,提高了融合精准度;通过提取主数据的特征对数据进行融合,可以减少多源数据融合过程中不同领域人员在沟通思维上的限制,最终为数据融合减少人为影响因素,提高数据融合处理结果的可信度。

Description

多源数据的融合处理方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种多源数据的融合处理方法、装置、电子设备及存储介质。
背景技术
随着数据处理业务的快速发展,研究人员对不同来源数据的融合处理的需求愈发迫切。将不同来源的数据进行融合,可以使得研究人员对数据的分析更加深入,得到的结果符合当前行业的发展方向,提高了后续针对数据融合结果做出的发展决策的准确性。
目前的数据融合方法,为实现多源数据融合分析,通常研究人员会采用连接所需多源数据库并获取相关数据、研究和理解所获得的数据、梳理和清理数据、数据转换和建立结构、数据组合、建立分析数据集。由于数据的多源及融合方法的发展初期性,因此人的思维在数据融合过程中发挥了极大的作用,数据融合技术还处于人为思维模式控制之下,通过人工不断试验相关技术,以获取效果作为评判标准,分析数据融合技术的适用性。
由此可见,现有技术中对于多源数据的融合,仍处于人为思维模式控制之下,通过人工判断数据是否可以融合,并通过人工对融合效果进行判断,具有人为因素影响较强、融合精准度低,导致后续的数据分析结果可信度、精准度、普适性低的缺陷。
发明内容
本发明提供一种多源数据的融合处理方法、装置、电子设备及存储介质,用以解决现有技术中对于多源数据的融合,仍处于人为思维模式控制之下,通过人工判断数据是否可以融合,并通过人工对融合效果进行判断,具有人为因素影响较强、融合精准度低,导致后续的数据分析结果可信度低的缺陷。本发明实现了通过提取多源数据的主数据,消除了多源数据中无用数据对多源数据融合结果的影响,提高了融合精准度;通过提取主数据的特征对数据进行融合,可以减少多源数据融合过程中不同领域人员在沟通思维上的限制,最终为数据融合减少人为影响因素,提高数据融合处理结果的可信度。
本发明提供的一种多源数据的融合处理方法,包括:
识别出多源数据中每个源中的主数据;
提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;
根据所述比对结果,将不同源中的主数据进行融合,以实现对所述多源数据的融合处理。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述对不同源中的主数据的特征进行比对,生成比对结果,包括:
在所述多源数据中每个源的知识图谱中,获取所述特征的语义;其中,所述知识图谱中包含了所述多源数据中每个源中特征与语义的对应关系;
对所述特征的语义进行比对,生成所述比对结果。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述对所述特征的语义进行比对,包括:
根据获取到所述特征的语义,比对不同源中主数据的特征的语义中是否存在相同内容,以实现对不同源中主数据的特征进行比对;
其中,若不同源中主数据的特征的语义中存在相同内容,确定不同源中所述主数据具有相同的特征。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述识别出多源数据中每个源中的主数据,包括:
通过主数据识别模型,对所述每个源中的数据进行评分;
若所述评分满足预设评分要求,确定所述数据为主数据。
进一步的,根据本发明提供的一种多源数据的融合处理方法,在通过主数据识别模型,对所述每个源中的数据进行评分之前,还包括:
确定用于识别主数据的识别指标;
构建主数据的评分体系,确定任一所述识别指标在所述评分体系中的权重;
根据所述识别指标与所述评分体系,建立所述主数据识别模型。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述提取所述主数据的特征,包括:
根据所述主数据的业务特征,通过特征提取算法,提取所述主数据的特征。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述根据所述比对结果,将不同源中的主数据进行融合,包括:
获取所述特征的比对结果;
将不同源中特征相同的主数据通过至少一种数据融合模型和/或数据融合算法进行融合,获取任一数据融合模型和/或数据融合算法的融合效果;
若存在所述融合效果超过预设效果指标的数据融合模型和/或数据融合算法,确定通过所述数据融合模型和/或数据融合算法对所述多源数据进行融合。
本发明还提供一种多源数据的融合处理装置,包括:
识别单元,用于识别出多源数据中每个源中的主数据;
比对单元,用于提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;
融合单元,用于根据所述比对结果,将不同源中的主数据进行融合,以实现对所述多源数据的融合处理。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述多源数据的融合处理方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述多源数据的融合处理方法的步骤。
本发明提供的一种多源数据的融合处理方法、装置、电子设备及存储介质,通过识别出多源数据中每个源中的主数据;提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;根据所述比对结果,将不同源中的主数据进行融合,以实现对所述多源数据的融合处理;通过提取多源数据的主数据,消除了多源数据中无用数据对多源数据融合结果的影响,提高了融合精准度;通过提取主数据的特征对数据进行融合,可以减少多源数据融合过程中不同领域人员在沟通思维上的限制,最终为数据融合减少人为影响因素,提高数据融合处理结果的可信度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多源数据的融合处理方法的流程示意图;
图2是本发明另一实施例提供的多源数据的融合处理方法的整体流程示意图;
图3是本发明另一实施例提供的多源数据的融合处理装置的结构示意图;
图4是本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先以公共安全与检验检疫安全事件数据融合为例,对现有的数据融合技术进行说明。
公共安全与检验检疫安全事件数据协同使用的主要技术是多源数据融合。通常情况下,两类不同业务数据在同一***(数据库)中,则多通过物理模型类、基于参数类和基于认知模型类等算法实现数据融合使用。当遇到多来源数据时,融合技术主要是矩估计、模糊关系与加权最小二乘法等算法的分步使用。
为实现多源数据融合分析,通常研究人员会采用连接所需多源数据库并获取相关数据、研究和理解所获得的数据、梳理和清理数据、数据转换和建立结构、数据组合、建立分析数据集。由于数据的多源及***算法的发展初期性,因此人的思维在其中发挥了极大的作用。这样就使得数据融合分析的结果较大程度贴合行业发展走向,提高了决策的准确性。大量人为干预的数据融合实现了分析数据集质量高,分析效果好。截至当前,数据融合技术还处于人为思维模式控制之下,通过人工不断试验相关技术,以获取效果作为评判,分析数据融合技术的适用性。
因为数据融合技术早期主要使用在作战部队指挥控制上,使用场景相对专注,且人为干涉因素占据主导,因此整体上数据融合技术发展还处于初级阶段。公共安全与检验检疫安全事件数据来源于两个领域,属于多源数据,融合分析能提高检验检疫相关公共安全事件应急处理能力。但公共安全与检验检疫安全事件数据存在于两套***中,是不同源、不同领域的两类数据,实现业务上相关度不高的复杂数据融合,沿用传统融合技术,难以适用这两类数据的融合。在这种情况下,就需要针对公共安全与检验检疫安全两类监管业务,建立一套数据融合***,实现统一分析,精准决策。
现有的一种融合方法中提供了一种具有多源算法的数据融合处理方法。此方法将多种环境监测设备获取多地的环境监测指标数据和环境监测设备对应的地理位置数据,通过多源算法进行计算,得到 AQI指数、风力等级和舒适度指数等多种指数,进而采用多源融合化算法对上述指数进行融合化处理,得到环境友好指数,之后结合地理位置数据通过网络传输给用户终端,使用插值法将环境友好指数渲染至GIS地图,进行可视化展示。
上述方法所述的方案在实施数据融合时,主要将来源于不同监测设备的环境数据进行操作,如果加入监测环境范围内企业生产、居民等不同业务的数据,则融合模型必须对不同业务数据进行融合,如果融合模型针对性强,则要增加新的模型,如果融合模型具有普遍适用性,则可能出现运算结果与实际差异较大等问题。因此,需要一种新的方法对来源于不同业务的多源数据进行融合。
其中,本发明实施例中所述多源数据,可以是来源于不同业务的数据,也可以是来源于同一个业务中不同类别的数据,本实施例对此不作具体限制。
本发明实施例中,以来源于公共安全数据与检验检疫安全事件两个不同业务的数据作为多源数据为例,对多源数据融合方法进行介绍。
下面结合图1描述本发明提供的一种多源数据的融合处理方法。
图1为本发明实施例提供的一种多源数据的融合处理方法的流程示意图。参见图1,该多源数据的融合处理方法包括:
步骤101:识别出多源数据中每个源中的主数据。
在多源数据的融合过程中,任一不同源的数据中都会存在主数据,以及一些对于数据融合处理过程无作用的冗余数据;其中,主数据为每个源的数据中重要的、关键的业务数据,任一源的数据中,都至少存在着一组主数据,通过对主数据的识别处理,可以减少融合时的数据量,更快速地完成融合,且不影响多源数据融合后的内容。
主数据的识别,会分别通过主数据识别模型,与人工进行识别,也会根据知识积累状况将两者结合,本实施例对此不作具体限制。
步骤102:提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果。
识别出主数据后,需要判断不同源中的主数据是否可以融合,即需要判断主数据是否有着相同或相似的业务特征。
进一步地,可以通过特征提取算法,获取到各组主数据的特征,其中,主数据的特征为根据主数据的内容提取出的关键词,或其他能代表主数据内容的词语或句子。通过比对提取出的特征,根据比对的结果,可以确定不同源的主数据是否存在相关联的内容,从而判断不同源的主数据能否进行融合。
步骤103:根据所述比对结果,将不同源中的主数据进行融合,以实现对多源数据的融合处理。
在主数据的特征的比对结果中,特征相同或相近的不同源的主数据可以进行融合。
本发明提供的一种多源数据的融合处理方法,通过识别出多源数据中每个源中的主数据;提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;根据所述比对结果,将不同源中的所述主数据进行融合,以实现对所述多源数据的融合处理;通过提取多源数据的主数据,消除了多源数据中无用数据对多源数据融合结果的影响,提高了融合精准度;通过提取主数据的特征对数据进行融合,可以减少多源数据融合过程中不同领域人员在沟通思维上的限制,最终为数据融合减少人为影响因素,提高数据融合处理结果的可信度。
在上述实施例的基础上,根据本发明提供的一种多源数据的融合处理方法,所述对不同源中的主数据的特征进行比对,生成比对结果,包括:
在所述多源数据中每个源的知识图谱中,获取所述特征的语义;其中,所述知识图谱中包含了所述多源数据中每个源中特征与语义的对应关系;
对所述特征的语义进行比对,生成所述比对结果。
在对多源数据进行融合处理之前,可以生成多源数据中各个源中数据的知识图谱,具体的,在公共安全和检验检疫安全中,检验检疫安全本属公共安全一类,但是由于***隔断,导致成为两个领域信息,***通过融入关联算法、语义推理、业务积累等语义识别方法形成公共安全与检验检疫安全知识图谱。例如,在公共安全业务的知识图谱中,将公共安全中的特征与该特征的语义进行对应,当确定了一组主数据的特征之后,通过该知识图谱可以确定该特征对应的语义,即获取到主数据的特征的语义。
另外,还可以基于多源多类业务的专家及定量定性知识图谱进行主数据相关特征语义的识别,当从某项业务中获取到的源数据中生成了新的特征,现有的知识图谱中没有对该特征进行语义的说明,则通过与多源多类业务的专家进行沟通,确定该特征在该业务中的具体语义,并将该特征和语义添加到知识图谱中,对知识图谱的内容进行完善。随着对越来越多的多源数据的融合处理,知识图谱中的内容会更加丰富与完整,在对主数据的特征进行语义识别时越准确,得到的数据融合的结果越精确。
本实施例中,通过知识图谱中特征与语义的对应关系,直接快速的识别出主数据的特征的语义,加快数据融合的进程;通过不断完善知识图谱的内容,可以进一步提高主数据特征的语义识别准确度及数据融合结果的精确度。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述对所述特征的语义进行比对,包括:
根据获取到所述特征的语义,比对不同源中主数据的特征的语义中是否存在相同内容,以实现对不同源中主数据的特征进行比对;
其中,若不同源中主数据的特征的语义中存在相同内容,确定不同源中所述主数据具有相同的特征。
进一步地,若不同源中所述主数据的特征的语义中存在相关联的内容,也可以确定不同源中所述主数据具有相同的特征;其中相关联的内容表示不同源中主数据的特征的语义相同或相近。
根据主数据的特征,在知识图谱中识别出该特征的语义,对于不同源的主数据,在识别出所有主数据的特征的语义后,对不同源的主数据的特征的语义进行比对,确定语义是否相同或相关联。
具体的,对于公共安全数据和检验检疫安全数据,若公共安全数据中的一组主数据的特征的语义,与检验检疫安全数据中的一组主数据特征的语义相同,则这两组主数据的特征相同,即可以将这两组不同业务中的主数据进行融合。
本实施例中,通过判断不同源中主数据的特征的语义是否相同或相关联,对主数据的特征进行比对,从而判断出特征相同的不同源中的主数据,实现对数据的融合处理。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述识别出多源数据中每个源中的主数据,包括:
通过主数据识别模型,对所述每个源中的数据进行评分;
若所述评分满足预设评分要求,确定所述数据为主数据。
本实施例中通过使用主数据识别模型,识别出多源数据中的主数据,通过主数据识别模型,对多源数据中每个源中的数据都进行评分;获取评分结果,若一组数据的评分满足了预设评分要求,则确定该数据为主数据。
具体的,预设评分要求可以通过人为设定,并且可以根据不同数据的业务类型、数据量等对预设评分要求进行调整。
本实施例中,通过主数据识别模型对数据进行评分,判断多源数据中的主数据,实现了主数据的自动化识别,减少了对主数据判定中人为因素的影响。
进一步的,根据本发明提供的一种多源数据的融合处理方法,在通过主数据识别模型,对所述每个源中的数据进行评分之前,还包括:
确定用于识别主数据的识别指标;
构建主数据的评分体系,确定任一所述识别指标在所述评分体系中的权重;
根据所述识别指标与所述评分体系,建立所述主数据识别模型。
在多源数据的融合处理之前,需要识别出多源数据中的主数据。首先对采集到的多源数据进行摸底及统计分析,确定出用于识别主数据的识别指标;具体的,识别指标可以是任一源的数据中的数据类别,例如检验检疫安全数据中的“货物夹带高危有害生物”数据包括一下类别:CIQ码、业务类别、来源地、检疫重要性等,可以将这些类别作为识别检验检疫安全数据中的识别指标。
进一步地,构建主数据的评分体系,确定识别指标在评分体系中的权重;例如,在公共安全和检验检疫安全数据方面,可以评判数据在业务优先级、长期有效、变化频率唯一性、独立数据实体等方面重要级别。
进一步地,还需要确定主数据的参评范围,具体的,在公共安全和检验检疫安全数据方面,将两类具有多源异构、动态、信息破缺、语义模糊等特征和问题的安全事件数据,根据业务调研和数据普查结果,最终确定公共安全与检验检疫安全数据参评范围。
最后,根据识别指标和评分体系,建立主数据识别模型,在确定出的主数据的参评范围内,识别出多源数据中的主数据;具体的,可以通过充分的VER和VAL(即识别模型),得出评分结果,识别出两类安全事件主数据。
本实施例中,通过确定识别指标和评分体系,建立主数据识别模型,筛选出多源数据中的关键数据、核心数据,去除了无用数据的影响,在融合对象上进行选择,提高了融合结果的精准度,为后续的分析结果的质量提供了保障。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述提取所述主数据的特征,包括:
根据所述主数据的业务特征,通过特征提取算法,提取所述主数据的特征。
对多源数据进行融合,说明多源数据中的任一源与其他源存在着关联关系,具有相类似的业务内容,但是每一源中识别出的主数据,与其他源中的主数据具有不同的业务特征;因此在对多源数据中主数据的特征提取过程中,根据主数据的业务特征,对主数据的特征进行提取;其中,业务特征为任一源中的主数据所对应的特有及共有业务内容。例如,在检验检疫安全方面中的“旅客中发生群体异常”类安全事件数据中,当该类安全事件数据作为主数据时,通过特征提取算法提取出的特征即为“群体异常”。
在公共安全和检验检疫安全数据方面,对于识别出的主数据,分别通过SIFT特征提取算法,捕获支撑公共安全和检验检疫安全数据融合的初始依据。具体的,公共安全方面主要提取公安、边检边防、海警、舆情等相关数据特征提取;检验检疫安全方面主要提取危化品燃烧***、包装破损泄露、固体废物或货物核辐射超标、货物夹带高危有害生物、旅客携带违禁特殊物品、旅客中发生群体异常六类安全事件共有及特有特征;其中,根据主数据的业务特性进行特征提取,因此在公共安全方面确定的主数据的特征,与检验检疫方面提取出的特征在内容上具有相关性,由此更容易在后续对主数据的特征进行语义识别。
进一步地,在对主数据的特征进行提取时,若一组主数据中数据的内容不够全面,或特征提取的过程中出现异常,会导致提取出的特征不完整,通过知识图谱仍能实现主数据特征的语义的正确识别。例如在检验检疫安全方面中的“旅客中发生群体异常”类安全事件数据中,正常情况下提取出的特征为“群体异常”,但是实际情况中提取出的特征可能为“群体异”;虽然提取出的该特征并不完整,将该特征导入知识图谱中,仍可以通过知识图谱中确定出“旅客中发生群体异常”类安全事件数据的特征为“群体异常”,从而获取到正确的语义内容。
本申请中,根据不同的业务特性,提取主数据的特征,可以更准确地确定出主数据的特征,增加多源数据融合结果的精准性。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述根据所述比对结果,将不同源中的主数据进行融合,包括:
获取所述特征的比对结果;
将不同源中特征相同的主数据通过至少一种数据融合模型和/或数据融合算法进行融合,获取任一数据融合模型和/或数据融合算法的融合效果;
若存在所述融合效果超过预设效果指标的数据融合模型和/或数据融合算法,确定通过所述数据融合模型和/或数据融合算法对所述多源数据进行融合。
在对不同源中的主数据的特征进行比对后,获得特征的比对结果。确定是否存在与任一主数据的特征相同的主数据,若存在,将该两组主数据通过数据融合模型和/或数据融合算法进行融合;其中,通过多种数据融合模型和/或数据融合算法对主数据进行融合,并判断融合效果;若融合效果超过预设效果指标,则通过所述数据融合模型和 /或数据融合算法对所述多源数据进行融合。
其中,通过多种数据融合模型和/或数据融合算法对主数据进行融合,得到的融合效果超过预设效果指标的数据融合模型和/或数据融合算法也可以存在多种,此时将多种数据融合模型和/或数据融合算法均作为该多源数据融合的数据融合模型和/或数据融合算法。
具体的,针对做过公共安全与检验检疫安全主数据识别、特征提取及语义识别预处理的数据,经过加权平均、选举决策、卡尔曼滤波、数理统计、模糊推理、神经网络、产生式规则、贝叶斯概率推理、 Dempster-Shafer(D-S)证据推理、Fuzzy、态势分析、威胁估计等数据融合模型,以及模拟、最大似然估计、最小二乘法、句法分析、经典推理、熵理论法、聚类分析、表决法、逻辑理论、模糊集理论、遗传算法、知识***等数据融合算法进行试错,确定出最合理合适的融合算法,实现混沌的数据关系清晰化、有序化,为后续分析决策提供基础。
其中,预设效果指标可以由人工设定,具体的指标内容可以根据多源数据的业务内容不同、数据量的不同进行调整,本实施例对此不作具体限制。
本申请中,通过使用多种模型和算法对多源数据进行融合,确定出多种模型和算法作为多源数据的融合算法,使得人员可以对确定出的多种模型和算法进行选择,确定出最适合人员分析业务的融合算法,避免因模型算法不当,而需进行***调整,从而耗费大量时间研究算法以及更改、测试***的缺陷。
下面结合图2,以来源于公共安全数据与检验检疫安全事件两个不同业务的数据作为多源数据为例,描述本发明提供的一种多源数据的融合处理方法。
图2为本发明实施例提供的一种多源数据的融合处理方法的整体流程示意图。参见图2,本发明提出混沌有序的方法,来自不同业务***的数据,公共安全及检验检疫安全事件数据之间关系是混沌的,但为了决策分析,需要将混沌的数据变的有序,包括下列步骤:
(1)主数据识别分别将公共安全和检验检疫安全数据进行初步提炼。本发明的主数据识别过程如下:
确定主数据识别指标:将已采集到的公共安全和检验检疫安全数据进行摸底;
构建评分体系,确定指标权重:评判数据在业务优先级、长期有效、变化频率唯一性、独立数据实体等方面重要级别;
确定主数据参评范围:将两类具有多源异构、动态、信息破缺、语义模糊等特征和问题的安全事件数据,根据业务调研和数据普查结果,最终确定公共安全与检验检疫安全数据参评范围;
识别出主数据:使用充分的VER和VAL,得出评分结果,识别出两类安全事件主数据。
(2)将提炼的两类安全事件主数据,分别通过SIFT特征提取算法,捕获支撑公共安全和检验检疫安全数据融合的初始依据。
公共安全方面主要提取公安、边检边防、海警、舆情等相关数据特征提取;
检验检疫安全方面主要提取危化品燃烧***、包装破损泄露、固体废物或货物核辐射超标、货物夹带高危有害生物、旅客携带违禁特殊物品、旅客中发生群体异常六类安全事件共有及特有特征。
(3)语义识别:检验检疫安全本属公共安全一类,但是由于***隔断,导致成为两个领域信息,***通过融入关联算法、语义推理、业务积累等语义识别方法形成公共安全与检验检疫安全知识图谱。
(4)针对做过公共安全与检验检疫安全主数据识别、特征提取及语义识别预处理的数据,经过加权平均、选举决策、卡尔曼滤波、数理统计、模糊推理、神经网络、产生式规则、贝叶斯概率推理、 Dempster-Shafer(D-S)证据推理、Fuzzy、态势分析、威胁估计等数据融合模型,以及模拟、最大似然估计、最小二乘法、句法分析、经典推理、熵理论法、聚类分析、表决法、逻辑理论、模糊集理论、遗传算法、知识***等数据融合算法进行试错,实现混沌的数据关系清晰化、有序化,为后续分析决策提供基础。
本实施例中,还可以对来源于同一个业务中不同类别的数据进行融合。
针对检验检疫安全业务的数据,通过使用混沌有序方法,首先实现检验检疫安全自身的小融合,然后实现与公共安全数据的大融合。其中,货物夹带高危有害生物包括:CIQ码、业务类别、来源地、检疫重要性;固体废物核辐射超标中产品名称(中)、HS编码、一级产品类别、二级产品类别、产品描述、贸易国别、判断依据条款、具体不合格描述等;危化品燃烧***:HS编码、产品一级类别、产品二级类别、产品描述、贸易国、判定依据条款、具体产品描述;旅客群体异常事件:保健中心、病例来源、治疗情况、外伤史说明、手术史说明、口腔治疗史说明、治疗情况、其他说明、家族病史说明、父母健康情况说明、***说明、有无吸毒史、吸毒类型、吸食方式、吸毒年限、吸毒史说明、有无预防接种史、有无其他暴露史、其他暴露史方式、其他暴露史说明、临床症状、体征、实验室调查结果、实验室阳性说明、处理结果;旅客携带违禁特殊用品:CIQ码、货物、输出图、来源国、上报机构、检疫业务、处理措施;包装破损泄露: HS编码、一级产品类别、二级产品类别、产品描述、强制性措施、判断依据条款、具体不合格描述。这些不同类别的数据中描述项、说明项、CIQ/HS编码是核心数据,是在数据融合中主要考虑的对象,需要进行主数据识别、特征提取、语义识别,进而进行小融合和大融合,作为分析决策的助力。
本发明从技术上来看,整个过程减少了人为因素的影响,使得技术更具稳定性,通用性;从业务上来看,最终数据融合实现了公共安全与检验检疫安全能够良好融合分析,为安全事件处理提供决策依据。
数据融合***通过采用主数据识别方法,在数据融合前,优先筛选出关键数据、核心数据,去除无用数据的影响,在融合对象上提高精准度,为后续分析质量提供保障。
主数据识别后进行特征提取,减少技术人员和公共安全、检验检疫安全相关专业在人员沟通思维上的限制,最终为融合模型减少人为影响因素。
主数据识别结合特征提取方法使用,将公共安全和检验检疫安全两类安全事件数据的特征显现,从语义识别上进行相似相近结合,形成数据融合雏形。
由于做多源、多业务数据融合分析的人工思维主导,耗时长,精准度有限,因此从主数据识别、特征提取到语义识别,以及多种融合模型、算法集成、提供自助试错分析建设***,有助于实现了对多源的、多业务的数据融合,为分析决策提供依据。
与其他数据融合方法相比,本发明实施例提出的技术方案中建立了以主数据识别为切入点的数据融合技术,优先识别两个领域的主数据,分别提取出两个领域的核心数据作为数据融合的基础数据,同时在***中嵌入多套数据融合模型及算法,且***为分析人员提供自助式操作,避免因模型算法不当,而需进行***调整、耗费大量时间研究算法以及更改、测试***。
下面对本发明提供的多源数据的融合处理装置进行描述,下文描述的多源数据的融合处理装置与上文描述的多源数据的融合处理方法可相互对应参照。
图3为本发明实施例提供的多源数据的融合处理装置的结构示意图,参见图3,该多源数据的融合处理装置包括:
识别单元301,用于识别出多源数据中每个源中的主数据;
比对单元302,用于提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;
融合单元303,用于根据所述比对结果,将不同源中的主数据进行融合,以实现对所述多源数据的融合处理。
本实施例提供的多源数据的融合处理装置适用于上述各实施例提供的多源数据的融合处理方法,在此不再赘述。
本发明提供的一种多源数据的融合处理装置,通过识别出多源数据中每个源中的主数据;提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;根据所述比对结果,将不同源中的所述主数据进行融合,以实现对所述多源数据的融合处理;通过提取多源数据的主数据,消除了多源数据中无用数据对多源数据融合结果的影响,提高了融合精准度;通过提取主数据的特征对数据进行融合,可以减少多源数据融合过程中不同领域人员在沟通思维上的限制,最终为数据融合减少人为影响因素,提高数据融合处理结果的可信度。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述对不同源中的主数据的特征进行比对,生成比对结果,包括:
在所述多源数据中每个源的知识图谱中,获取所述特征的语义;其中,所述知识图谱中包含了所述多源数据中每个源中特征与语义的对应关系;
对所述特征的语义进行比对,生成所述比对结果。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述对所述特征的语义进行比对,包括:
根据获取到所述特征的语义,比对不同源中主数据的特征的语义中是否存在相同内容,以实现对不同源中主数据的特征进行比对;
其中,若不同源中主数据的特征的语义中存在相同内容,确定不同源中所述主数据具有相同的特征。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述识别出多源数据中每个源中的主数据,包括:
通过主数据识别模型,对所述每个源中的数据进行评分;
若所述评分满足预设评分要求,确定所述数据为主数据。
进一步的,根据本发明提供的一种多源数据的融合处理方法,在通过主数据识别模型,对所述每个源中的数据进行评分之前,还包括:
确定用于识别主数据的识别指标;
构建主数据的评分体系,确定任一所述识别指标在所述评分体系中的权重;
根据所述识别指标与所述评分体系,建立所述主数据识别模型。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述提取所述主数据的特征,包括:
根据所述主数据的业务特征,通过特征提取算法,提取所述主数据的特征。
进一步的,根据本发明提供的一种多源数据的融合处理方法,所述根据所述比对结果,将不同源中的主数据进行融合,包括:
获取所述特征的比对结果;
将不同源中特征相同的主数据通过至少一种数据融合模型和/或数据融合算法进行融合,获取任一数据融合模型和/或数据融合算法的融合效果;
若存在所述融合效果超过预设效果指标的数据融合模型和/或数据融合算法,确定通过所述数据融合模型和/或数据融合算法对所述多源数据进行融合。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行多源数据的融合处理方法,该方法包括:识别出多源数据中每个源中的主数据;提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;根据所述比对结果,将不同源中的主数据进行融合,以实现对所述多源数据的融合处理。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的多源数据的融合处理方法,该方法包括:识别出多源数据中每个源中的主数据;提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;根据所述比对结果,将不同源中的主数据进行融合,以实现对所述多源数据的融合处理。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的多源数据的融合处理方法,该方法包括:识别出多源数据中每个源中的主数据;提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;根据所述比对结果,将不同源中的主数据进行融合,以实现对所述多源数据的融合处理。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种多源数据的融合处理方法,其特征在于,包括:
识别出多源数据中每个源中的主数据;
提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;
根据所述比对结果,将不同源中的主数据进行融合,以实现对所述多源数据的融合处理。
2.根据权利要求1所述的多源数据的融合处理方法,其特征在于,所述对不同源中的主数据的特征进行比对,生成比对结果,包括:
在所述多源数据中每个源的知识图谱中,获取所述特征的语义;其中,所述知识图谱中包含了所述多源数据中每个源中特征与语义的对应关系;
对所述特征的语义进行比对,生成所述比对结果。
3.根据权利要求2所述的多源数据的融合处理方法,其特征在于,所述对所述特征的语义进行比对,包括:
根据获取到所述特征的语义,比对不同源中主数据的特征的语义中是否存在相同内容,以实现对不同源中主数据的特征进行比对;
其中,若不同源中主数据的特征的语义中存在相同内容,确定不同源中所述主数据具有相同的特征。
4.根据权利要求1所述的多源数据的融合处理方法,其特征在于,所述识别出多源数据中每个源中的主数据,包括:
通过主数据识别模型,对所述每个源中的数据进行评分;
若所述评分满足预设评分要求,确定所述数据为主数据。
5.根据权利要求4所述的多源数据的融合处理方法,其特征在于,在通过主数据识别模型,对所述每个源中的数据进行评分之前,还包括:
确定用于识别主数据的识别指标;
构建主数据的评分体系,确定任一所述识别指标在所述评分体系中的权重;
根据所述识别指标与所述评分体系,建立所述主数据识别模型。
6.根据权利要求1所述的多源数据的融合处理方法,其特征在于,所述提取所述主数据的特征,包括:
根据所述主数据的业务特征,通过特征提取算法,提取所述主数据的特征。
7.根据权利要求1所述的多源数据的融合处理方法,其特征在于,所述根据所述比对结果,将不同源中的主数据进行融合,包括:
获取所述特征的比对结果;
将不同源中特征相同的主数据通过至少一种数据融合模型和/或数据融合算法进行融合,获取任一数据融合模型和/或数据融合算法的融合效果;
若存在所述融合效果超过预设效果指标的数据融合模型和/或数据融合算法,确定通过所述数据融合模型和/或数据融合算法对所述多源数据进行融合。
8.一种多源数据的融合处理装置,其特征在于,包括:
识别单元,用于识别出多源数据中每个源中的主数据;
比对单元,用于提取所述主数据的特征,对不同源中的主数据的特征进行比对,生成比对结果;
融合单元,用于根据所述比对结果,将不同源中的主数据进行融合,以实现对所述多源数据的融合处理。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述多源数据的融合处理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多源数据的融合处理方法的步骤。
CN202110308736.5A 2021-03-23 2021-03-23 多源数据的融合处理方法、装置、电子设备及存储介质 Active CN112949745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110308736.5A CN112949745B (zh) 2021-03-23 2021-03-23 多源数据的融合处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110308736.5A CN112949745B (zh) 2021-03-23 2021-03-23 多源数据的融合处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112949745A true CN112949745A (zh) 2021-06-11
CN112949745B CN112949745B (zh) 2024-04-19

Family

ID=76227612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110308736.5A Active CN112949745B (zh) 2021-03-23 2021-03-23 多源数据的融合处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112949745B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741577A (zh) * 2022-04-27 2022-07-12 广域铭岛数字科技有限公司 业务数据管理方法、***、电子设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8369622B1 (en) * 2009-10-29 2013-02-05 Hsu Shin-Yi Multi-figure system for object feature extraction tracking and recognition
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
WO2020056984A1 (zh) * 2018-09-19 2020-03-26 平安科技(深圳)有限公司 最短路径查询方法、***、计算机设备和存储介质
CN111061883A (zh) * 2019-10-25 2020-04-24 珠海格力电器股份有限公司 更新知识图谱的方法、装置、设备及存储介质
WO2020143184A1 (zh) * 2019-01-11 2020-07-16 平安科技(深圳)有限公司 知识融合方法、装置、计算机设备和存储介质
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置
CN111708773A (zh) * 2020-08-13 2020-09-25 江苏宝和数据股份有限公司 一种多源科创资源数据融合方法
CN112287020A (zh) * 2020-12-31 2021-01-29 太极计算机股份有限公司 一种基于图分析的大数据挖掘方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8369622B1 (en) * 2009-10-29 2013-02-05 Hsu Shin-Yi Multi-figure system for object feature extraction tracking and recognition
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
WO2020056984A1 (zh) * 2018-09-19 2020-03-26 平安科技(深圳)有限公司 最短路径查询方法、***、计算机设备和存储介质
WO2020143184A1 (zh) * 2019-01-11 2020-07-16 平安科技(深圳)有限公司 知识融合方法、装置、计算机设备和存储介质
CN111061883A (zh) * 2019-10-25 2020-04-24 珠海格力电器股份有限公司 更新知识图谱的方法、装置、设备及存储介质
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置
CN111708773A (zh) * 2020-08-13 2020-09-25 江苏宝和数据股份有限公司 一种多源科创资源数据融合方法
CN112287020A (zh) * 2020-12-31 2021-01-29 太极计算机股份有限公司 一种基于图分析的大数据挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘航;崔涛;: "基于加权决策的无人飞行器多源数据融合算法", 计算机仿真, no. 10 *
祁友杰;王琦;: "多源数据融合算法综述", 航天电子对抗, no. 06 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741577A (zh) * 2022-04-27 2022-07-12 广域铭岛数字科技有限公司 业务数据管理方法、***、电子设备及可读存储介质
CN114741577B (zh) * 2022-04-27 2023-08-11 广域铭岛数字科技有限公司 业务数据管理方法、***、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN112949745B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
Taroni et al. Dismissal of the illusion of uncertainty in the assessment of a likelihood ratio
CN104820629B (zh) 一种智能的舆情突发事件应急处理***及方法
US20190279111A1 (en) Systems and methods for providing machine learning model evaluation by using decomposition
CN113011973B (zh) 基于智能合约数据湖的金融交易监管模型的方法及设备
CN105376193B (zh) 安全事件的智能关联分析方法与装置
US8825578B2 (en) System and method for determining an entity's identity and assessing risks related thereto
Fedushko et al. Medical card data imputation and patient psychological and behavioral profile construction
CN112216402A (zh) 基于人工智能的疫情预测方法、装置、计算机设备及介质
CN114118507A (zh) 一种基于多维信息融合的风险评估预警方法和装置
JP2000339351A (ja) 選択的に関連させられたデータベースレコードの識別のためのシステム
CN113139705A (zh) 业务项目的风险识别方法及装置
CN114266455A (zh) 一种基于知识图谱的可视化企业风险评估方法
CN116865994A (zh) 一种基于大数据的网络数据安全预测方法
CN116340586A (zh) 基于云平台的汽车故障管理方法、***及存储介质
CN116340793A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN112949745B (zh) 多源数据的融合处理方法、装置、电子设备及存储介质
Martire et al. How well do lay people comprehend statistical statements from forensic scientists?
CN110472048A (zh) 一种辅助判决方法、装置及终端设备
Gerrits Soul of a new machine: Self-learning algorithms in public administration
Wheadon Classification accuracy and consistency under item response theory models using the package classify
CN115277159B (zh) 一种基于改进随机森林的工业互联网安全态势评估方法
CN116545679A (zh) 一种工业情境安全基础框架及网络攻击行为特征分析方法
CN112288117A (zh) 目标客户的成交概率预测方法、装置与电子设备
Wu et al. Study on the Construction of a Structured scenario system for Conventional Emergencies based on random forest
Fonseca et al. An application for risk of crime prediction using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant