CN110109908A - 基于社会基础信息挖掘人物潜在关系的分析***及方法 - Google Patents

基于社会基础信息挖掘人物潜在关系的分析***及方法 Download PDF

Info

Publication number
CN110109908A
CN110109908A CN201711470003.1A CN201711470003A CN110109908A CN 110109908 A CN110109908 A CN 110109908A CN 201711470003 A CN201711470003 A CN 201711470003A CN 110109908 A CN110109908 A CN 110109908A
Authority
CN
China
Prior art keywords
data
information
tables
access
personage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711470003.1A
Other languages
English (en)
Other versions
CN110109908B (zh
Inventor
徐福利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chen Rui Corp
Original Assignee
Chengdu Shu Letter Credit Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shu Letter Credit Service Co Ltd filed Critical Chengdu Shu Letter Credit Service Co Ltd
Priority to CN201711470003.1A priority Critical patent/CN110109908B/zh
Publication of CN110109908A publication Critical patent/CN110109908A/zh
Application granted granted Critical
Publication of CN110109908B publication Critical patent/CN110109908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社会基础信息挖掘人物潜在关系的分析***。该***中社会基础信息主要涉及人员旅店住宿信息、人员出入境信息、人员民航订票信息、人员铁路运输信息,上述信息通过本发明中的数据源配置管理模块、数据表接入映射模块、数据整合模块被整合、集中到了***中,再利用数据统计分析模块的分析计算,得到了数据中每个已存在人物间的关系亲密度分值来体现每个人物间的关系亲密程度;人物关系展示模块以人物的证件信息为检索入口,以列表或图形化的形式展现给用户。本发明***将零散、杂乱、无关的人物社会信息,通过数据再造、集中处理、统计运算得出人与人之间的潜在联系,对特殊领域有较高的应用效果,提高了数据的价值。

Description

基于社会基础信息挖掘人物潜在关系的分析***及方法
技术领域
本发明涉及数据库、数据仓库、统计计算、数据图形化, 尤其涉及一种基于社会基础信息挖掘人物潜在关系的分析系 统。
背景技术
数据改变了、改变着并将更加深刻地改变人们的生活,它 是整个信息技术革命的一个部分和一个角度。随着人类社会科 学技术的不断进步,互联网技术、计算机技术的快速发展,在 各个行业、政府部门都积累了大量的人物数据,数据也从简单 的处理对象开始转变为一种基础性资源,如何更好地管理和利 用数据已经成为普遍关注的话题。
当前的社会治安形势日益复杂和严峻,公安机关侦查破案 工作面临极大的压力。数据挖掘技术应用于刑侦工作,对于公 安机关提高执法效率具有十分重要的意义。在公安机关侦查破 案时,经常需要通过案件关系人查找与之密切相关的人员,或 者通过某嫌疑人查找相关嫌疑人,或者通过确定的犯罪者查找 犯罪同伙。然而,公安机关在查找上述相关人员时,各个行业、 政府部门积累的数据资源,既可提供信息线索,但由于信息数 量繁且杂而为线索识别也带来了难度。
由于上述问题的存在,本发明人对数据库、数据整合、统 计计算等相关技术进行研究和分析,以期待研制出一种基于社 会基础信息来挖掘人物潜在关系的分析***及方法,通过筛选 有效数据,以有效数据为基础,对数据进行等级划分,整合形 成相关度数据,为公安机关侦查或其他行业提供信息明确的人 物潜在关系数据信息。
发明内容
为了克服上述问题,本发明人经过长年工作积累,通过项 目实践,以四类可有效挖掘潜在关系的社会基础数据(人员旅 店住宿信息、人员民航订票信息、人员出入境信息和人员铁路 运输信息)作为出发点,进行了研究和分析,将零散、杂乱、 无关的人物社会信息,通过数据再造、集中处理、统计运算得 出人与人之间的潜在联系,对特殊(如警务刑侦)领域有较高 的应用效果,提高了数据的价值,从而完成本发明。
本发明的目的在于提供以下技术方案:
(1)一种基于社会基础信息挖掘人物潜在关系的分析系 统,其特征在于,该***包括展现体系100、应用体系200和数 据体系300;
其中,应用体系200包括:
数据源配置管理模块210:其用于配置接收与社会基础信息 相关的业务数据库310的数据表信息,包括建立访问远程数据库 的数据库连接,形成数据源表,以及配置接入数据表的信息, 形成接入数据表;
数据表接入映射模块220:用于将业务数据库310中数据表 与预先定义的数据模型进行属性字段映射;
数据整合模块230:其用于接收抽取业务数据库310中数据 表数据,根据数据表接入映射情况,将属性字段数据值抽取传 送至动态行踪库330,通过设定的数据处理程序,将数据再造存 储,获取同行人详细资料;
数据统计分析模块240,用于根据数据整合模块230对数据 整合的结果,进行分类统计,依据关系亲密等级计算两个人物 间的关系亲密度分值,生成同行人报表;
展现体系100包括:
人物关系展示模块110,用于以人物的固有属性信息为检索 入口,通过检索***分析结果,以表格或图形的形式对人物关 系进行展现。
(2)一种基于社会基础信息挖掘人物潜在关系的分析方 法,该方法包括以下步骤:
步骤1),配置接收与社会基础信息相关的业务数据库的数 据表信息,包括建立访问远程数据库的数据库连接,形成数据 源表,以及配置接入数据表的信息,形成接入数据表;
步骤2),数据表接入映射,将业务数据库中数据表与预先 定义的数据模型进行属性字段映射;
步骤3),根据数据表接入映射的信息,在配置库自动建立 将接入的数据表转化为指定结构的转化视图,并将转化视图名 称保存至接入数据表;
步骤4),接收抽取业务数据库中数据表数据,根据数据表 接入映射情况,将属性字段数据值抽取传送至动态行踪库,通 过设定的数据处理程序,将数据再造存储,获取同行人详细信 息;
步骤5),根据***数据整合的结果,进行分类统计,依据 关系亲密等级计算两个人物间的关系亲密度分值,生成同行人 报表;
步骤6),以固有属性信息为检索入口,通过检索***分析 结果,以表格或图形的形式对人物关系进行展现。
根据本发明提供的一种基于社会基础信息挖掘人物潜在关系的 分析***及方法,具有以下有益效果:
第一、本发明根据以四类可有效挖掘潜在关系的社会基础 数据(人员旅店住宿信息、人员民航订票信息、人员出入境信 息和人员铁路运输信息)作为出发点,为人物间潜在关系的获 得提供了有力的数据基础。
第二、本发明通过属性字段映射将业务数据库数据表中的 字段经属性字段映射与预先定义的数据模型中的模型字段进行 关联,使得业务库数据表中字段可被本***识别,且通过以预 先定义的数据模型为模板,保留与模型字段相对应的字段信息, 排除与模型字段不相关的信息,对数据进行了筛选,提高了数 据利用率,并且降低了数据操作繁琐程度。
第三、本发明将抽取的数据根据设定的同行人验正规则, 对两个人物在相同事件中的关系亲密程度做等级标识,基于与 各事件类型相关的同行人详细资料中各类亲密等级的出现次 数,通过关系亲密度分值公式,计算两个人物间关系亲密度分 值;以定量的方式展示人物间的潜在关系,信息价值更高,展 示效果更直接。
第四、本发明中各模块之间的配合连接,将零散、杂乱、 无关的人物社会信息,通过数据再造、集中处理、统计运算得 出人与人之间的潜在联系,对特殊领域(如警务刑侦)有较高 的应用效果(如通过确定与某嫌疑人在某时间段共同出入某宾 馆获得同伙人信息),提高了现有数据的价值。
附图说明
图1示出根据本发明中基于社会基础信息挖掘人物潜在关 系的分析***的结构示意图;
图2示出根据本发明中四种事件类型的转化视图;
图3示出根据本发明中迭代循环数据的实施方式结构示意 图;
图4示出根据本发明一种优选实施方式中数据统计分析模 块的业务流程图;
图5示出根据本发明一种优选实施方式中存储于数据体系 中的各数据表的信息示意图;
图6示出根据本发明一种优选实施方式中基于社会基础信 息挖掘人物潜在关系的分析方法流程示意图。
附图标号说明:
100-展现体系
110-人物关系展示模块
200-应用体系
210-数据源配置管理模块
211-数据源子模块
212-数据表子模块
220-数据表接入映射模块
221-表字段映射配置子模块
222-表字段映射关联子模块
223-数据类型核查子模块
230-数据整合模块
231-数据抽取子模块
232-数据加载子模块
233-数据转换子模块
234-日志记录子模块
235-数据管理子模块
236-作业监控子模块
240-数据统计分析模块
241-汇总统计子模块
242-积分运算子模块
243-分析作业监控子模块
300-数据体系
310-业务数据库
320-***配置库
330-动态行踪库
具体实施方式
下面通过附图和实施例对本发明进一步详细说明。通过这 些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明 性”。这里作为“示例性”所说明的任何实施例不必解释为优于或 好于其它实施例。
为将大规模效应的数据,从数据存储、管理以及数据分析 的角度进行有效的开发,以获取人物间的潜在关系,以清晰、 量化的方式展现出来,本发明提供了一种基于社会基础信息挖 掘人物潜在关系的分析***,如图1所示,该分析***包括展现 体系100、应用体系200和数据体系300;
其中,应用体系200包括:
数据源配置管理模块210:其用于配置接收与社会基础信息 相关的业务数据库310的数据表信息,包括建立访问远程数据库 的数据库连接,形成数据源表,以及配置接入数据表的信息, 形成接入数据表。
具体地,数据源配置管理模块210包括数据源子模块211和 数据表子模块212,数据源子模块211,用于建立和维护抽取数 据表的数据源信息;数据表子模块212,用于建立和维护抽取数 据表的相关信息,即接入数据表信息。
如表1所示,数据源表中存储有数据源信息,数据源信息包 括数据源描述、数据库连接信息和创建时间等。数据源配置管 理模块210通过添加、删除或修改方式完成对各条数据源信息的 配置。
表1数据源表
字段名称 数据类型 属性 说明
唯一标识码 数值型 主键
数据源描述 字符型
数据库连接信息 字符型
创建时间 日期型 默认SYS日期型
如表2所示,接入数据表中包括表名称、表注释、表唯一标 识码字段、事件类型、视图名称、增量字段、已处理的数据最 大值、状态标识和创建时间等。
表2接入数据表
字段名称 数据类型 属性 说明
唯一标识码 数值型 主键
数据源唯一标识码 数值型 外键 数据源表的主键
表名称 字符型
表注释 字符型
表唯一标识码字段 字符型
事件类型 字符型
视图名称 字符型
增量字段 字符型
已处理的数据最大值 数值型 已被处理过的数据最大主键值,初始化为0
状态标识 字符型 0无效;1有效
创建时间 日期型 默认SYS日期型
具体地,数据源配置管理模块210通过数据表子模块212:
(i)指定已存在的数据源,记录数据源唯一标识码;
(ii)选择数据源下的数据表名称;
(iii)对选择的数据表添加数据表注释;
(iv)指定数据表唯一标识码字段;
(v)指定数据表所属事件类型(本发明中事件类型包括旅 客住宿、出入境、民航订票和铁路运输);
(vi)指定数据增量字段。
数据表接入映射模块220:用于将业务数据库310中数据表 与预先定义的数据模型进行属性字段映射,即将业务数据库310 数据表中的字段经属性字段映射与预先定义的数据模型中的模 型字段进行关联,该预先定义的数据模型中的模型字段可被本 ***识别。
数据表接入映射模块220包括表字段映射配置子模块221和 表字段映射关联子模块222:
表字段映射配置子模块221:建立并维护业务数据库310中 数据表与预先定义的数据模型的属性字段映射关系,形成接入 表字段模型映射表,如表3所示;
表字段映射关联子模块222:依据接入表字段模型映射表来 接入映射的信息,在配置库中自动建立将接入的数据表转化为 指定结构的转化视图(图2),并将转化视图名称保存至接入数 据表(表2)。转化视图中显示的与事件类型信息相关的字段即 为预先定义的数据模型中的模型字段。
转化视图将作为整合数据的实际数据源(业务数据库310 中数据表为原始数据源),以可被本***识别的统一属性字段命 名,为后续数据操作提供便利。
需要说明的是,针对不同的事件类型,接入表字段模型映 射表的属性字段映射信息必然不同,即针对不同的事件类型, 需要独立设置相对的预先定义的数据模型,产生相应的接入表 字段模型映射表,从而获得具有不同视图名称的转化视图。举 例说明,当事件类型为“旅客住宿”时,预先定义的数据模型中 的模型字段包括旅客姓名、旅客证件号码、旅客性别、旅客出 生日期、旅客国家地区、入住酒店、入住酒店行政区划、入住 酒店流水号、入住房号、入住时间、退房时间等。事件类型“出 入境”、“民航订票”和“铁路运输”在各自预先定义的数据模型下 的模型字段同样如图2中相应的转化视图所示。
表3接入表字段模型映射表
字段名称 数据类型 属性 说明
唯一标识码 数值型 主键
接入数据表唯一标识码 数值型 外键
字段名称 字符型 业务数据库310中数据表
字段描述 字符型
字段类型 字符型
模型字段 字符型 映射后字段名称
创建时间 日期型 默认SYS日期型
我们知道,即使经营相同业务的企业对该业务的数据信息 的表现也不同,体现在数据表字段命名和字段数目。
针对字段名称,数据表接入映射模块220通过属性字段映 射,得到可被本***识别的模型字段。
针对字段数目,数据表接入映射模块220以预先定义的数据 模型中的模型字段为依据,获取原数据表中部分价值更高、与 事件类型相关性较高的字段,而不映射与事件类型相关性不密 切的字段,即实现了数据的筛选,这为后续的数据整合提供了 有效的数据基础。
在一种优选的实施方式中,数据表接入映射模块220还包括 数据类型核查子模块223,其根据业务数据库310中数据表中属 性字段的定义情况,进行数据类型核查,将不符合定义情况的 字段信息进行标注或其他处理,在后续整合处理时不予采用。
数据整合模块230:其用于接收抽取业务数据库310中数据 表数据,根据数据表接入映射情况,将属性字段数据值抽取传 送至动态行踪库330,通过设定的数据处理程序,将数据再造存 储,获取同行人详细资料。
其中,设定的数据处理程序是指根据设定的同行人规则, 对同一事件类型数据表中任意两个人物的对应字段信息进行亲 密程度验证,并对两个人物在相同事件(如入住同一家宾馆) 中的关系亲密程度做等级标识。同行人规则如表4所示,其中的 亲密等级划分标准示例如表5所示。
表4同行人规则
表5亲密等级划分标准
标识码 事件类型 同行人规则描述 亲密等级 细类标识码
1 住宿 同一天入住同一宾馆且流水号相同 A 1
2 住宿 同一天入住同一宾馆且房间号相同 A 2
3 住宿 同一天入住同一宾馆且团体标识相同 A 3
4 住宿 同入住且同退房(入住退房时间相差10分钟) B 4
5 出入境 同一天出入同一口岸且团体标识相同 A 1
6 出入境 同一天出入同一口岸且出入时间相差10分钟 B 2
7 民航 同一天乘坐同一航班且订票号相同 A 1
8 民航 同一天乘坐同一航班且团体标识相同 A 2
9 铁路 同一天同一车次且团体标识相同 A 1
10 铁路 同一天同一车次且始发站与到达站相同 B 2
11 铁路 同一天同一车次且始发站或到达站相同 C 3
12 铁路 同一天同一车次 D 4
…… …… …… …… ……
具体地,本发明中,数据整合模块230包括:
数据抽取子模块231,其启动对业务数据库310中数据表的 抽取程序;其中,数据抽取子模块231可以通过***内定数据抽 取时间自动运行,***自动运行参数如表6***字典所示;
数据加载子模块232,根据接入表字段模型映射表的映射规 则,将经过映射后的业务库的数据值传送至动态行踪库330,产 生同行人详细资料,如表7所示;
数据转换子模块233,通过设定的数据处理程序,将数据再 造存储。所述设定的数据处理程序是指根据设定的同行人规则, 对同一事件类型数据表中任意两个人物的对应字段信息进行亲 密程度验证,对两个人物在相同事件中的关系亲密程度做等级 标识;
日志记录子模块234,用于记录每次数据抽取、加载、转换 过程中产生的操作情况,形成日志记录,如表8所示;
数据管理子模块235,通过数据整合中产生的日志记录,用 于展示***每天数据的更新情况;
作业监控子模块236,通过数据整合中产生的日志记录,跟 踪数据整合模块230的运行情况,当出现异常时,通过消息框的 方式告警。
表6***字典
字段名称 数据类型 属性 说明
唯一标识码 数值型 主键
区段 字符型
ID 字符型
字符型
状态标识 字符型 0无效;1有效
表7同行人详细资料表
表8日志记录
字段名称 数据类型 属性 说明
唯一标识码 数值型 主键
产生的时间 日期型
日志类别 字符型
接口程序的名称 字符型
日志内容 字符型
状态 字符型 默认SYS日期型
在本发明中,由于同一类型下数据表中信息量巨大,或者 数据表中数据有更新,或者由于其他情况,可能导致***在数 据整合时不可能一次全部整合完毕。
本发明中***针对上述情况,允许进行多次整合。此时数 据整合模块230还包括以下操作:
数据抽取子模块231,获取接入数据表中有效状态的数据信 息,重要信息有视图名称(即转化视图名称)、增量字段和已处 理的数据最大值;
数据加载子模块232,根据接入数据表设定的增量字段以及 已处理的数据最大值,确定接入数据的加载范围,起点为已处 理的数据最大值,终点为当前视图中增量字段的最大值,加载 完成后,记录此次处理数据的最大值,将已处理的数据最大值 保存至接入数据表中,作为下次数据加载的启始值。
在一种优选的实施方式中,数据转换子模块233运行时,设 定的数据处理程序通过迭代循环数据的实施方式,对任意两个 人物的对应字段信息进行亲密程度验证。迭代循环数据的实施 方式如图3所示。
其中,主体人员信息按主键顺序依次分析,方便为下次启 动设置标签,与主体人员进行亲密程度验证的客体由小于主体 人员主键的数据产生。
如表7所示,两个同行人信息在存入动态行踪库330时,A、 B位置的原则是证件号码排序大的在A,小的在B;目的是排出 两人交叉错位,产生重复数据。
数据统计分析模块240,用于根据***数据整合的结果,进 行分类统计,依据关系亲密等级计算两个人物间的关系亲密度 分值,生成同行人报表。同行人报表结构如9所示,包括:唯一 标识码、人物A姓名、人物A证件号码、人物A性别、人物A出 生日期、人物B姓名、人物B证件号码、人物B性别、人物B出 生日期、亲密等级A、亲密等级B、亲密等级C、亲密等级D、 关系亲密度分值、创建时间。
表9同行人报表
字段名称 数据类型 属性 说明
唯一标识码 数值型 主键
人物A姓名 字符型
人物A证件号码 字符型
人物A性别 字符型
人物A出生日期 日期型
人物B姓名 字符型
人物B证件号码 字符型
人物B性别 字符型
人物B出生日期 日期型
亲密等级A 数值型 亲密等级A的次数
亲密等级B 数值型 亲密等级B的次数
亲密等级C 数值型 亲密等级C的次数
亲密等级D 数值型 亲密等级D的次数
关系亲密度分值 数值型
创建时间 日期型 默认SYS日期型
在一种优选的实施方式中,数据统计分析模块240包括:
汇总统计子模块241,增量统计,产生同行人报表;
积分运算子模块242,基于各事件类型相关的同行人详细资 料中各类亲密等级的出现次数,通过关系亲密度分值公式,计 算两个人物的关系亲密度分值;
关系亲密度分值公式:
A:N+Trunc(B:N/3,1)+Trunc(C:N/5,1)+Trunc(D:N/10,1),其 中,N代表次数,A:N表示亲密等级A类的出现次数。
分析作业监控子模块243,用于跟踪数据统计分析模块240 中各子部分的运行情况。
在一种优选的实施方式中,数据抽取子模块231可以通过系 统内定数据抽取时间自动运行,相应的,汇总统计子模块241 也可以通过***内定数据抽取时间自动运行。
在一种优选的实施方式中,积分运算子模块242运行时,通 过迭代循环数据的实施方式,对任意两个人物的亲密等级信息 进行计算,得到关系亲密度分值。
数据统计分析模块240业务流程图如图4所示:
汇总统计子模块241依据***字典中信息和同行人详细资 料表中信息进行自动运行,增量统计,产生同行人报表;积分 运算子模块242计算并于同行人报表中记录两个人物的关系亲 密度分值,保存同行人报表;
若同行人报表中存在两个同行人的数据,则进行更新数据, 若同行人报表中不存在两个同行人的数据,则进行数据增加;
每批次运行完毕后记录被处理数据的最大主键值,即已处 理的数据最大值,并存入***字典中。
其中,如图1和图5所示,数据体系300包括:
业务数据库310,用于存储社会基础信息。本发明中业务数 据库310用于存储人员旅店住宿信息、人员民航订票信息、人员 出入境信息和人员铁路运输信息;
***配置库320,用于存储***内部产生的数据信息,包括 数据源表、接入数据表和接入表字段模型映射表;
动态行踪库330,用于存储数据整合过程中产生的同行人详 细资料表、数据统计分析模块240统计产生的同行人报表,以及 同行人规则、***日志和***字典。
其中,如图1所示,展现体系100包括:
人物关系展示模块110,其用于以人物的固有属性信息为检 索入口,通过检索***分析结果,以表格或图形的形式对人物 关系进行展现。其中,所述固有属性信息如人物的证件信息、 姓名等可用于唯一标识人物的信息。
本发明的另一方面在于提供一种基于社会基础信息挖掘人 物潜在关系的分析方法,如图6所示,该方法包括以下步骤:
步骤1),配置接收与社会基础信息相关的业务数据库的数 据表信息,包括建立访问远程数据库的数据库连接,形成数据 源表,以及配置接入数据表的信息,形成接入数据表;
需要配置接入数据表的信息包括:
(i)指定已存在的数据源;
(ii)选择数据源下的数据表名称;
(iii)对选择的数据表添加数据表注释;
(iv)指定数据表唯一标识码字段;
(v)指定数据表所属事件类型(本发明中事件类型包括旅 客住宿、出入境、民航订票和铁路运输);
(vi)指定数据增量字段。
步骤2),数据表接入映射,将业务数据库中数据表与预先 定义的数据模型进行属性字段映射;即将业务数据库中数据表 中的字段经属性字段映射与预先定义的数据模型中的模型字段 进行关联;
步骤3),根据数据表接入映射的信息,在配置库自动建立 将接入的数据表转化为指定结构的转化视图,并将转化视图名 称保存至接入数据表;
步骤4),接收抽取业务数据库中数据表数据,根据数据表 接入映射情况,将属性字段数据值抽取传送至动态行踪库330, 通过设定的数据处理程序,将数据再造存储,获取同行人详细 信息。
具体地,步骤4)包括以下子步骤:
步骤4.1),启动对业务数据库中数据表的抽取程序;其中, 数据抽取子模块可以通过***内定数据抽取时间自动运行;
步骤4.2),根据接入表字段模型映射表的映射规则,将经 过映射后的业务库的数据值传送至动态行踪库,产生同行人详 细资料;
步骤4.3),通过设定的数据处理程序,将数据再造存储; 所述设定的数据处理程序是指根据设定的同行人规则,对同一 事件类型数据表中任意两个人物的对应字段信息进行亲密程度 验证,对两个人物在相同事件中的关系亲密程度做等级标识;
步骤4.4),记录每次数据抽取、加载、转换过程中产生的 操作情况,形成日志记录;
步骤4.5),通过数据整合中产生的日志记录,用于展示系 统每天数据的更新情况;
步骤4.6),通过数据整合中产生的日志记录,跟踪数据整 合模块的运行情况,当出现异常时,通过消息框的方式告警。
步骤5),根据***数据整合的结果,进行分类统计,依据 关系亲密等级计算两个人物间的关系亲密度分值,生成同行人 报表。
具体地,步骤5)包括以下子步骤:
步骤5.1),增量统计,产生同行人报表;
步骤5.2),基于各类亲密等级的出现次数,通过关系亲密 值公式,计算两个人物的关系亲密度分值;
关系亲密度分析值公式:
A:N+Trunc(B:N/3,1)+Trunc(C:N/5,1)+Trunc(D:N/10,1),其 中,N代表次数,A:N表示亲密等级A类的出现次数。
步骤5.3),跟踪数据统计分析模块中各子部分的运行情况。
步骤6),以固有属性信息为检索入口,通过检索***分析 结果,以表格或图形的形式对人物关系进行展现。
实施例
实施例1
在某案件中,确定尚小海为嫌疑人,通过分析2017-08-31 至2017-12-20日旅客住宿信息,希望确定在此时间段内是否存 在与尚小海行为关系亲密的人,以确定是否存在其他可能的同 伙人员。
在IP为172.168.10.10的Oracle数据库服器(业务数据库)上, 有一张旅客住宿信息表,接入***进行分析。数据结构如下表 10:
表10旅客住宿信息表
数据源配置管理模块,建立访问远程数据库的数据库连接, 形成数据源表,见表11;
表11配置数据源
唯一标识码 数据源描述 数据库连接信息 创建时间
1 121服务器 172.168.10.10:1521/orcl 2017-12-19
数据源配置管理模块,配置接入数据表的信息,形成接入 数据表,见表12;
表12接入数据表
数据表接入映射模块建立并维护业务数据库中数据表与预 先定义的数据模型的属性字段映射关系,形成接入表字段模型 映射表,见表13;
表13接入表字段模型映射表
数据表接入映射模块依据接入表字段模型映射表来接入映 射的信息,在配置库中自动建立将接入的数据表转化为指定结 构的转化视图,并将转化视图名称保存至接入数据表;转化视 图内容见表14;
表14转化视图VM_LKZS_171219121512
数据整合模块,接收抽取业务数据库中数据表数据,根据 数据表接入映射情况,将属性字段数据值抽取传送至动态行踪 库,通过设定的数据处理程序,将数据再造存储,获取同行人 详细资料,见表15;
表15同行人详细资料表
数据统计分析模块240,用于根据***数据整合的结果,进 行分类统计,依据关系亲密等级计算两个人物间的关系亲密度 分值,生成同行人报表,见表16;
表16同行人报表
以尚小海的身份证为检索入口,获得与尚小海相关的信息, 由于尚小海和尚大海的关系亲密度分值为2,相关性较高,确定 尚大海为与尚小海为亲密关系,尚大海可能为相关嫌疑人。
以上结合了优选的实施方式对本发明进行了说明,不过这 些实施方式仅是范例性的,仅起到说明性的作用。在此基础上, 可以对本发明进行多种替换和改进,这些均落入本发明的保护 范围内。

Claims (10)

1.一种基于社会基础信息挖掘人物潜在关系的分析***,其特征在于,该***包括展现体系(100)、应用体系(200)和数据体系(300);
其中,应用体系(200)包括:
数据源配置管理模块(210):其用于配置接收与社会基础信息相关的业务数据库(310)的数据表信息;
数据表接入映射模块(220):用于将业务数据库(310)中数据表与预先定义的数据模型进行属性字段映射;
数据整合模块(230):其用于接收抽取业务数据库(310)中数据表数据,根据数据表接入映射情况,将属性字段数据值抽取传送至动态行踪库(330),通过设定的数据处理程序,将数据再造存储,获取同行人详细资料;
数据统计分析模块(240),用于根据数据整合模块(230)对数据整合的结果,进行分类统计,依据关系亲密等级计算两个人物间的关系亲密度分值,生成同行人报表;
展现体系(100)包括:
人物关系展示模块(110),其用于以人物的固有属性信息为检索入口,通过检索***分析结果,以表格或图形的形式对人物关系进行展现。
2.根据权利要求1所述的分析***,其特征在于,数据源配置管理模块(210)包括以下子模块,
数据源子模块(211),用于建立和维护抽取数据表的数据源信息,即数据源表中信息;
数据表子模块(212),用于建立和维护抽取数据表的相关信息,即接入数据表信息;
优选地,接入数据表中信息包括表名称、表注释、表唯一标识码字段、事件类型、视图名称、增量字段、已处理的数据最大值、状态标识和创建时间。
3.根据权利要求1所述的分析***,其特征在于,数据表接入映射模块(220)包括以下子模块,
表字段映射配置子模块(221):建立并维护业务数据库(310)中数据表与预先定义的数据模型的属性字段映射关系,形成接入表字段模型映射表;
表字段映射关联子模块(222):依据接入表字段模型映射表来接入映射的信息,在配置库中自动建立将接入的数据表转化为指定结构的转化视图,并将转化视图名称保存至接入数据表。
4.根据权利要求1所述的分析***,其特征在于,数据整合模块(230)包括以下子模块:
数据抽取子模块(231),其启动对业务数据库(310)中数据表的抽取程序;
数据加载子模块(232),根据接入表字段模型映射表的映射规则,将经过映射后的业务库的数据值传送至动态行踪库(330),产生同行人详细资料;
数据转换子模块(233),通过设定的数据处理程序,将数据再造存储;所述设定的数据处理程序是指根据设定的同行人规则,对同一事件类型数据表中任意两个人物的对应字段信息进行亲密程度验证,并对两个人物在相同事件中的关系亲密程度做等级标识。
5.根据权利要求1所述的分析***,其特征在于,据整合模块(230)能够根据业务数据库(310)中数据表信息的更新,进行多次整合,此时,
数据抽取子模块(231),还用于获取接入数据表中有效状态的数据信息,该数据信息包括视图名称、增量字段和已处理的数据最大值;
数据加载子模块(232),还用于根据接入数据表设定的增量字段以及已处理的数据最大值,确定接入数据的加载范围,起点为已处理的数据最大值,终点为当前视图中增量字段的最大值,加载完成后,记录此次处理数据的最大值并保存至接入数据表中,作为下次数据加载的启始值。
6.根据权利要求1所述的分析***,其特征在于,同行人详细资料包括:唯一标识码、事件类型、事件时间、人物A姓名、人物A证件号码、人物A性别、人物A出生日期、人物B姓名、人物B证件号码、人物B性别、人物B出生日期、亲密等级、亲密等级细类标识、数据溯源信息、创建时间;其中,
事件类型为:旅客住宿、出入境、民航订票、以及铁路运输;
亲密等级包括:A级:同行人;B级:一级疑似同行人;C级:二级疑似同行人;D级:三级疑似同行人;
数据溯源信息为:表名、唯一标识字段、人物A唯一标识值、人物B唯一标识值。
7.根据权利要求1所述的分析***,其特征在于,数据统计分析模块(240)包括以下子模块:
汇总统计子模块(241),增量统计,产生同行人报表;
积分运算子模块(242),基于各事件类型相关的同行人详细资料中各类亲密等级的出现次数,通过关系亲密度分值公式,计算两个人物的关系亲密度分值;
关系亲密度分值公式:
A:N+Trunc(B:N/3,1)+Trunc(C:N/5,1)+Trunc(D:N/10,1),其中,N代表次数,A:N表示亲密等级A类的出现次数。
8.根据权利要求1所述的分析***,其特征在于,数据体系(300)包括:
业务数据库(310),用于存储社会基础信息,社会基础信息包括人员旅店住宿信息、人员民航订票信息、人员出入境信息和人员铁路运输信息;
***配置库(320),用于存储***内部产生的数据信息,包括数据源表、接入数据表和接入表字段模型映射表;
动态行踪库(330),用于存储数据整合和统计分析过程中产生的数据,包括同行人详细资料表和同行人报表;
展现体系(100)包括:
人物关系展示模块(110),其用于以人物的固有属性信息为检索入口,通过检索***分析结果,以表格或图形的形式对人物关系进行展现;其中,所述固有属性信息为唯一标识人物的信息。
9.一种基于社会基础信息挖掘人物潜在关系的分析方法,该方法包括以下步骤:
步骤1),配置接收与社会基础信息相关的业务数据库的数据表信息,包括建立访问远程数据库的数据库连接,形成数据源表,以及配置接入数据表的信息,形成接入数据表;
步骤2),数据表接入映射,将业务数据库中数据表与预先定义的数据模型进行属性字段映射;
步骤3),根据数据表接入映射的信息,在配置库自动建立将接入的数据表转化为指定结构的转化视图,并将转化视图名称保存至接入数据表;
步骤4),接收抽取业务数据库中数据表数据,根据数据表接入映射情况,将属性字段数据值抽取传送至动态行踪库,通过设定的数据处理程序,将数据再造存储,获取同行人详细信息;
步骤5),根据***数据整合的结果,进行分类统计,依据关系亲密等级计算两个人物间的关系亲密度分值,生成同行人报表;
步骤6),以固有属性信息为检索入口,通过检索***分析结果,以表格或图形的形式对人物关系进行展现。
10.根据权利要求9所述的分析方法,其特征在于,步骤1)中,需要配置接入数据表的信息包括:
(i)指定已存在的数据源;
(ii)选择数据源下的数据表名称;
(iii)对选择的数据表添加数据表注释;
(iv)指定数据表唯一标识码字段;
(v)指定数据表所属事件类型;
(vi)指定数据增量字段。
CN201711470003.1A 2017-12-29 2017-12-29 基于社会基础信息挖掘人物潜在关系的分析***及方法 Active CN110109908B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711470003.1A CN110109908B (zh) 2017-12-29 2017-12-29 基于社会基础信息挖掘人物潜在关系的分析***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711470003.1A CN110109908B (zh) 2017-12-29 2017-12-29 基于社会基础信息挖掘人物潜在关系的分析***及方法

Publications (2)

Publication Number Publication Date
CN110109908A true CN110109908A (zh) 2019-08-09
CN110109908B CN110109908B (zh) 2023-06-06

Family

ID=67482980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711470003.1A Active CN110109908B (zh) 2017-12-29 2017-12-29 基于社会基础信息挖掘人物潜在关系的分析***及方法

Country Status (1)

Country Link
CN (1) CN110109908B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825805A (zh) * 2019-11-12 2020-02-21 北京东软望海科技有限公司 一种数据的可视化方法及装置
CN111680077A (zh) * 2020-06-17 2020-09-18 郑州市中之易科技有限公司 一种通过关联度评分和模型比对确定相互关系的方法
CN112231304A (zh) * 2020-12-16 2021-01-15 城云科技(中国)有限公司 一种引入数据仓库构建技术的数据处理***及方法
CN112711591A (zh) * 2020-12-31 2021-04-27 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN113806450A (zh) * 2021-05-21 2021-12-17 西南交通大学 一种基于综合交通大数据的融合型旅客关系网络构建方法
WO2023019452A1 (zh) * 2021-08-17 2023-02-23 益家宝体育科技(深圳)有限公司 社会人物活动永续记录重现互动的方法和***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814076A (zh) * 2009-07-29 2010-08-25 北京航天理想科技有限公司 可视化信息及信息关联分析***及建立的方法
CN103390244A (zh) * 2013-07-24 2013-11-13 南京欣网视讯信息技术有限公司 一种具有运营商特色的用户好友关系聚合方法及聚合平台
KR20140146528A (ko) * 2013-06-14 2014-12-26 고려대학교 산학협력단 Sns를 이용한 상품 추천 서비스 제공 서버 및 그 방법
CN104408149A (zh) * 2014-12-04 2015-03-11 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及***
CN104731814A (zh) * 2013-12-23 2015-06-24 北京宸瑞科技有限公司 数据灵活比对分析***及方法
CN104820905A (zh) * 2015-05-19 2015-08-05 威海北洋电气集团股份有限公司 基于空间轨迹大数据分析的人员管控方法及***
CN106326438A (zh) * 2016-08-26 2017-01-11 南威软件股份有限公司 一种人员信息的关联方法
CN106445948A (zh) * 2015-08-06 2017-02-22 中兴通讯股份有限公司 一种人员潜在关系分析方法和装置
CN106844673A (zh) * 2017-01-24 2017-06-13 山东亿海兰特通信科技有限公司 一种基于公安数据获取多维人员关系亲密度的方法及***
CN106897285A (zh) * 2015-12-17 2017-06-27 北京宸瑞国新科技有限公司 数据要素抽取分析***及数据要素抽取分析方法
CN107257419A (zh) * 2017-05-16 2017-10-17 武汉赛可锐信息技术有限公司 一种基于贝叶斯分析人际关系量化估值方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814076A (zh) * 2009-07-29 2010-08-25 北京航天理想科技有限公司 可视化信息及信息关联分析***及建立的方法
KR20140146528A (ko) * 2013-06-14 2014-12-26 고려대학교 산학협력단 Sns를 이용한 상품 추천 서비스 제공 서버 및 그 방법
CN103390244A (zh) * 2013-07-24 2013-11-13 南京欣网视讯信息技术有限公司 一种具有运营商特色的用户好友关系聚合方法及聚合平台
CN104731814A (zh) * 2013-12-23 2015-06-24 北京宸瑞科技有限公司 数据灵活比对分析***及方法
CN104408149A (zh) * 2014-12-04 2015-03-11 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及***
CN104820905A (zh) * 2015-05-19 2015-08-05 威海北洋电气集团股份有限公司 基于空间轨迹大数据分析的人员管控方法及***
CN106445948A (zh) * 2015-08-06 2017-02-22 中兴通讯股份有限公司 一种人员潜在关系分析方法和装置
CN106897285A (zh) * 2015-12-17 2017-06-27 北京宸瑞国新科技有限公司 数据要素抽取分析***及数据要素抽取分析方法
CN106326438A (zh) * 2016-08-26 2017-01-11 南威软件股份有限公司 一种人员信息的关联方法
CN106844673A (zh) * 2017-01-24 2017-06-13 山东亿海兰特通信科技有限公司 一种基于公安数据获取多维人员关系亲密度的方法及***
CN107257419A (zh) * 2017-05-16 2017-10-17 武汉赛可锐信息技术有限公司 一种基于贝叶斯分析人际关系量化估值方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825805A (zh) * 2019-11-12 2020-02-21 北京东软望海科技有限公司 一种数据的可视化方法及装置
CN111680077A (zh) * 2020-06-17 2020-09-18 郑州市中之易科技有限公司 一种通过关联度评分和模型比对确定相互关系的方法
CN111680077B (zh) * 2020-06-17 2023-10-27 郑州市中之易科技有限公司 一种通过关联度评分和模型比对确定相互关系的方法
CN112231304A (zh) * 2020-12-16 2021-01-15 城云科技(中国)有限公司 一种引入数据仓库构建技术的数据处理***及方法
CN112711591A (zh) * 2020-12-31 2021-04-27 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN112711591B (zh) * 2020-12-31 2021-10-08 天云融创数据科技(北京)有限公司 基于知识图谱的字段级的数据血缘确定方法及装置
CN113806450A (zh) * 2021-05-21 2021-12-17 西南交通大学 一种基于综合交通大数据的融合型旅客关系网络构建方法
WO2023019452A1 (zh) * 2021-08-17 2023-02-23 益家宝体育科技(深圳)有限公司 社会人物活动永续记录重现互动的方法和***

Also Published As

Publication number Publication date
CN110109908B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN110109908A (zh) 基于社会基础信息挖掘人物潜在关系的分析***及方法
US7693767B2 (en) Method for generating predictive models for a business problem via supervised learning
US8160982B2 (en) Method for detecting people of interest from information sources
Hutchins et al. Hiding in plain sight: criminal network analysis
Chen et al. [Retracted] Audit Data Analysis and Application Based on Correlation Analysis Algorithm
CN111538741A (zh) 一种面向警情大数据的深度学习分析方法及***
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
CN111259167B (zh) 用户请求风险识别方法及装置
CN114911908A (zh) 管网数据安全管理的方法及装置
Yang et al. Towards fairness-aware disaster informatics: an interdisciplinary perspective
CN109284978B (zh) 一种精准识别贫困户的***及识别方法
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及***和介质
CN111460139B (zh) 一种基于智慧管理的工程监理知识服务***及方法
CN115168848B (zh) 基于大数据分析拦截的拦截反馈处理方法
CN110019237B (zh) 一种基于地图分析罪犯行踪的***及方法
CN116881395A (zh) 一种舆情信息检测方法和装置
Toivonen Big data quality challenges in the context of business analytics
CN112699245A (zh) 预算管理知识图谱的构建方法、装置及应用方法、装置
CN115934693A (zh) 一种区域实有人口动态计算方法
Domashova et al. Detection of non-typical users of the electronic marketplace" Freight transportation" to prevent the competitive intelligence
CN113971213A (zh) 智慧城市管理公共信息共享***
Yang Human resource big data analysis and decision making of group enterprises based on cloud platform
CN112612778B (zh) 一种企业数据架构方法
CN116562785B (zh) 审计迎审***
Kalashnikov et al. SAT: Spatial awareness from textual input

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240522

Address after: 100192, 2nd Floor, Building 7, No. 51 Longgang Road, Haidian District, Beijing 2001-2002

Patentee after: CHEN RUI Corp.

Country or region after: China

Address before: Room 516, IPC Hub Building, No. 495 Feiyun East Road, Economic Development Zone, Chongyang Town, Chongzhou City, Chengdu City, Sichuan Province, 611230

Patentee before: Chengdu Shuxin Credit Service Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right