CN112559639A - 一种基于图谱结构的跨境组织分析方法 - Google Patents

一种基于图谱结构的跨境组织分析方法 Download PDF

Info

Publication number
CN112559639A
CN112559639A CN202011371106.4A CN202011371106A CN112559639A CN 112559639 A CN112559639 A CN 112559639A CN 202011371106 A CN202011371106 A CN 202011371106A CN 112559639 A CN112559639 A CN 112559639A
Authority
CN
China
Prior art keywords
border
personnel
cross
behavior
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011371106.4A
Other languages
English (en)
Other versions
CN112559639B (zh
Inventor
陈雯颖
贺珊
杨光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fiberhome Digtal Technology Co Ltd
Original Assignee
Wuhan Fiberhome Digtal Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Fiberhome Digtal Technology Co Ltd filed Critical Wuhan Fiberhome Digtal Technology Co Ltd
Priority to CN202011371106.4A priority Critical patent/CN112559639B/zh
Publication of CN112559639A publication Critical patent/CN112559639A/zh
Application granted granted Critical
Publication of CN112559639B publication Critical patent/CN112559639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于图谱结构的跨境组织分析方法,通过预设条件,分别提取跨境人员和疑似跨境人员实体信息;获取人员行为关系数据,其中,行为关系数据包括多个行为人员和每个行为人员的行为关系;利用跨境人员和疑似跨境人员实体信息和人员行为关系数据,通过图谱工具建立跨境人员分析图谱;使用基于图谱结构的AP聚类算法识别跨境组织。本发明自动找寻跨境组织,具有智能性,可以极大地提高相关人员的办案效率,大大降低了人力成本,提高了定位效果。本发明基于图谱结构的AP聚类算法,与传统关系型数据聚类算法相比,运行速率优势明显,算法无需指定聚类数量,使用已有的数据点作为最终的聚类中心,误差较小。

Description

一种基于图谱结构的跨境组织分析方法
技术领域
本发明涉及的是大数据分析、数据挖掘领域,特别涉及一种基于图谱结构的跨境组织分析方法。
背景技术
针对我国公民出境犯罪行为,当下国内外人员来往频繁,跨境人员及组织者隐藏在人群中,难以发现;而支付手段的线上化、数字化导致跨境非法转移资金愈发隐匿,难以溯源。因此,需要提供一种有效的跨境人员识别方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于图谱结构的跨境组织分析方法。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种基于图谱结构的跨境组织分析方法,包括:
S100.通过预设条件,分别提取跨境人员和疑似跨境人员实体信息;
S200.获取人员行为关系数据,其中,行为关系数据包括多个行为人员和每个行为人员的行为关系;
S300.利用跨境人员和疑似跨境人员实体信息和人员行为关系数据,通过图谱工具建立跨境人员分析图谱;
S400.使用基于图谱结构的AP聚类算法识别跨境组织。
进一步地,S100中,通过获取跨境犯罪案件数据,提取犯罪案件数据中的犯罪人员信息作为跨境人员信息。
进一步地,S100中,通过出入境记录,获取预设频率内出入高发地区的人员信息,将此类人员信息作为疑似跨境人员信息。
进一步地,S200中,获取人员行为关系数据的方法为:从乘车记录中提取乘车信息,至少包括:人员身份、信息购票时间、购票次数、始发地、目的地、购买车次、购买座位号;从酒店住宿记录中提取住宿信息,至少包括:人员身份、入住时间、入住时长、住宿人员个数、入住房间号;从通话记录中提取通话信息,至少包括:呼叫号码、呼叫人身份证号、被呼叫号码、被呼叫人身份证号、通话开始时间、通话结束时间;分析以上个人行为数据获得行为人员间的行为关系,人员间的行为关系至少包括同行、同宿和通话;将人员行为关系以及对应的频率作为后续计算图谱中边权重的基础。
进一步地,S300中,S300的具体方法为:根据S200中获取的行为关系数据建立图谱,并使用S100获取的跨境人员疑似跨境人员作为筛选条件,以上述人员为出发点筛选跳数10以内的对象和关系,生成跨境人员分析图谱,其中,图谱中的节点表示实体人,图谱中的边代表两端实体的行为关系。
进一步地,S400中,基于图谱结构的AP聚类算法识别跨境组织的具体方法为:
S401.根据图谱中行为关系类别和频率,计算S300图谱中各边权重;
S402.计算图谱中任意两个对象间的相似度S(i,j),生成相似度矩阵S;
S403.计算各对象相似度的中位数,设为S的对角线元素S(i,i),即对象i 作为簇中心参考度;设置衰减系数;
S404.将吸引度矩阵R和归属度矩阵A初始化为0矩阵;
S405.更新吸引度矩阵R,并根据衰减公式进行衰减;
S406.更新归属度矩阵A,并根据衰减公式进行衰减;
S407.更新簇中心,将R(k,k)+A(k,k)大于0的数据对象k作为簇中心,重复S404-S406,至聚类中心k不在变化或达到最大迭代次数;
S408.根据簇中心划分数据对象,根据数据对象i与各簇中心k的相似度s(i,k),将数据对象i划分到max(s(i,k))对应的k簇中;
S409.将各簇中心及从簇中心2跳内的对象构成跨境组织。
进一步地,S401中,计算S300图谱中各边权重的方法为:对图谱中所有的边,根据边两端对象的行为关系,计算两边权重W(i,j)=通话次数*10+ 同行次数*20+同宿次数*30;使用所有边权重均值Wμ和标准差Wσ归一化处理,处理后边的权重为
Figure RE-GDA0002947289390000031
其值域为[0,1]。
进一步地,S402中,计算任意两个对象间的相似度S(i,j)的方法为:利用 S501步骤中各边的权重计算任意两个对象之间的相似度,其值为从节点i到节点j某条路径上所有边的权重之积的对数,即S(i,j)=ln(∏Wn(k,l)),其中 Wn(k,l)为从i到j某条路径上边的权重;若是从i到j存在多条路径,则取其中最大值最为最终相似度,S(i,j)值越大表示点i与j的联系越紧密。
进一步地,S405中,吸引度迭代公式如下:
Figure RE-GDA0002947289390000032
根据衰减系数λ对Rt+1(i,k)进行衰减,衰减公式如下:
Rt+1(i,k)=λ*Rt(i,k)+(1-λ)*Rt+1(i,k)。
进一步地,归属度迭代公式如下:
Figure RE-GDA0002947289390000033
根据衰减系数λ对At+1(i,k)进行衰减,衰减公式如下:
At+1(i,k)=λ*At(i,k)+(1-λ)*At+1(i,k)
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明公开的一种基于图谱结构的跨境组织分析方法,通过预设条件,分别提取跨境人员和疑似跨境人员实体信息;获取人员行为关系数据,其中,行为关系数据包括多个行为人员和每个行为人员的行为关系;利用跨境人员和疑似跨境人员实体信息和人员行为关系数据,通过图谱工具建立跨境人员分析图谱;使用基于图谱结构的AP聚类算法识别跨境组织。
本发明对已有的人员行为数据进行分析,提供一种基于图谱结构的跨境组织分析方法。该方法自动找寻跨境组织,具有智能性,可以极大地提高相关人员的办案效率,大大降低了人力成本,提高了定位效果。本发明基于图谱结构的AP聚类算法,与传统关系型数据聚类算法相比,运行速率优势明显,算法无需指定聚类数量,使用已有的数据点作为最终的聚类中心,而不是新生成一个簇中心,误差较小。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例1中,一种基于图谱结构的跨境组织分析方法的流程图;
图2为本发明实施例1中,S400具体流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术对存在对跨境组织难以识别的问题,本发明实施例提供一种基于图谱结构的跨境组织分析方法。
实施例1
本实施例公开了一种基于图谱结构的跨境组织分析方法,包括:
S100.通过预设条件,分别提取跨境人员和疑似跨境人员实体信息;在本实施例中,通过获取跨境犯罪案件数据,提取犯罪案件数据中的犯罪人员信息作为跨境人员信息。
可以理解的是,从相关部门记录的犯罪案件数据中,获取已确认参与跨境人员信息,主要是其身份信息,如身份证号,姓名等。可以理解的是,已确认的跨境人员数量有限,以其为基础展开的图谱覆盖面较小,因此需要扩大人员覆盖面挖掘可疑人员,从而保证图谱的完整性,为后续的分析做好数据铺垫。示例性的,根据出入境记录中,查询近5年内3次以上出入缅甸、老挝、越南、韩国、俄罗斯、朝鲜、塞班、蒙古等高发地区的人员,此类人员频繁来往于境外高发地区,可初步判定其为疑似跨境人员。提取此类人员身份信息,如身份证号,姓名等。
S200.获取人员行为关系数据,其中,行为关系数据包括多个行为人员和每个行为人员的行为关系。
在本实施例中,可以从飞机、火车乘车记录中提取乘客身份信息(如身份证号、姓名)、购票时间、购票次数、始发地、目的地、购买车次、购买座位号等;从酒店住宿记录中提取住宿人员身份信息(如身份证号、姓名)、入住时间、入住时长、住宿人员个数、入住房间号;从通话记录中提取呼叫号码、呼叫人身份证号、被呼叫号码、被呼叫人身份证号、通话开始时间、通话结束时间等。
分析以上个人行为数据获得行为人员间的行为关系,包括同行,同宿,通话等。示例性的,如存在行为人员A和B,A和B乘坐同一火车且去往同一目的地一次,即A和B同行1次;A和B在24小时内入住同一家酒店一次,即 A和B同住宿1次;A和B之间电话或网络通话8次,即A和B通话8次。由上述例子可知,行为关系包括关系类别,同行,同宿,通话,以及对应的频率,作为后续计算图谱中边权重的基础。
S300.利用跨境人员和疑似跨境人员实体信息和人员行为关系数据,通过图谱工具建立跨境人员分析图谱;在本实施例中,根据S200中获取的行为关系数据建立图谱,并使用S100获取的跨境人员疑似跨境人员作为筛选条件,以上述人员为出发点筛选跳数10以内的对象和关系,生成跨境人员分析图谱,其中,图谱中的节点表示实体人,图谱中的边代表两端实体的行为关系。
S400.使用基于图谱结构的AP聚类算法识别跨境组织。
根据实体间行为关系紧密度为图谱中的边标注权重,计算任意实体间的亲密度,使用AP聚类算法对网络中的对象进行聚类,得到聚类中心和各对象的类标签。各个簇中作为聚类中心的实体及从聚类中心出发2跳的实体构成跨境组织。
在本实施例中,S400中,基于图谱结构的AP聚类算法识别跨境组织的具体方法为:
S401.根据图谱中行为关系类别和频率,计算S300图谱中各边权重。
可以理解的是,不同行为关系类别表示的对象关系亲密度不同,通话最低,同行次之,同宿最高。对图谱中所有的边,根据边两端对象的行为关系,计算权重W(i,j)=通话次数*10+同行次数*20+同宿次数*30。由于行为关系次数不受限制,W(i,j)的值可能比较分散,为方便后续计算,现使用所有边权重均值Wμ和标准差Wσ归一化处理,处理后边的权重为
Figure RE-GDA0002947289390000061
其值域为[0,1]。权重越大,边两端节点对象联系越紧密。
S402.计算图谱中任意两个对象间的相似度S(i,j),生成相似度矩阵S;具体的,利用S401步骤中各边的权重计算任意两个对象之间的相似度,其值为从节点i到节点j某条路径上所有边的权重之积的对数,即S(i,j)= ln(∏Wn(k,l)),其中Wn(k,l)为从i到j某条路径上边的权重。若是从i到j存在多条路径,则取其中最大值最为最终相似度。S(i,j)值越大表示点i与j的联系越紧密。
S403.计算各对象相似度的中位数,设为S的对角线元素S(i,i),即对象i 作为簇中心参考度;设置衰减系数;可以理解的是,参考度与衰减系数为AP 算法的输入,此步骤为后续步骤准备条件,根据经验公式衰减系数为0.5。
S404.将吸引度矩阵R和归属度矩阵A初始化为0矩阵;吸引度指对象k 适合作为对象i的聚类中心的程度,记为R(i,k),表示对象i给对象k发送信息,是一个对象i选对象k的过程。
归属度指对象i选择对象k作为其聚类中心的适合程度,记为A(i,k)。表示对象k给对象i发送信息,是一个对象k选对象i的过程。
可以理解的是,在算法初始,将吸引度矩阵R和归属度矩阵A都初始化为0矩阵。
S405.更新吸引度矩阵R,并根据衰减公式进行衰减;具体的,根据吸引度迭代公式和衰减公式对吸引度矩阵中各元素进行更新。其中,吸引度迭代公式如下:
Figure RE-GDA0002947289390000071
根据衰减系数λ对Rt+1(i,k)进行衰减,衰减公式如下:
Rt+1(i,k)=λ*Rt(i,k)+(1-λ)*Rt+1(i,k)
S406.更新归属度矩阵A,并根据衰减公式进行衰减;根据归属度迭代公式和衰减公式对归属度矩阵中各元素进行更新。其中,归属度迭代公式如下:
Figure RE-GDA0002947289390000072
根据衰减系数λ对At+1(i,k)进行衰减,衰减公式如下:
At+1(i,k)=λ*At(i,k)+(1-λ)*At+1(i,k)
S407.更新簇中心,将R(k,k)+A(k,k)大于0的数据对象k作为簇中心,重复S405-S407,至聚类中心k不在变化或达到最大迭代次数;
S408.根据簇中心划分数据对象,根据数据对象i与各簇中心k的相似度 s(i,k),将数据对象i划分到max(s(i,k))对应的k簇中;可理解的是,根据数据对象i与各聚类中心k的相似度s(i,k),将i划分到与其相似度最高的簇中,即对象i与簇中心对象k的相似度最高,将数据对象i划分到max(S(i,k))对应的k簇中。
S409.将各簇中心及从簇中心2跳内的对象构成跨境组织。可理解的是,各簇中心为跨境人员关系中网的核心对象,其作为跨境组织成员的可能性较高;从簇中心出发,2跳内查询到的数据对象是与簇中心联系较为密切、关系紧密的对象,若簇中心对象为跨境组织成员,上述对象也可被判定为同组织成员。
本实施例公开的一种基于图谱结构的跨境组织分析方法,通过预设条件,分别提取跨境人员和疑似跨境人员实体信息;获取人员行为关系数据,其中,行为关系数据包括多个行为人员和每个行为人员的行为关系;利用跨境人员和疑似跨境人员实体信息和人员行为关系数据,通过图谱工具建立跨境人员分析图谱;使用基于图谱结构的AP聚类算法识别跨境组织。
本发明对已有的人员行为数据进行分析,提供一种基于图谱结构的跨境组织分析方法。该方法自动找寻跨境组织,具有智能性,可以极大地提高相关人员的办案效率,大大降低了人力成本,提高了定位效果。本发明基于图谱结构的AP聚类算法,与传统关系型数据聚类算法相比,运行速率优势明显,算法无需指定聚类数量,使用已有的数据点作为最终的聚类中心,而不是新生成一个簇中心,误差较小。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个***所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC 中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims (10)

1.一种基于图谱结构的跨境组织分析方法,其特征在于,包括:
S100.通过预设条件,分别提取跨境人员和疑似跨境人员实体信息;
S200.获取人员行为关系数据,其中,行为关系数据包括多个行为人员和每个行为人员的行为关系;
S300.利用跨境人员和疑似跨境人员实体信息和人员行为关系数据,通过图谱工具建立跨境人员分析图谱;
S400.使用基于图谱结构的AP聚类算法识别跨境组织。
2.如权利要求1的一种基于图谱结构的跨境组织分析方法,其特征在于,S100中,通过获取跨境犯罪案件数据,提取犯罪案件数据中的犯罪人员信息作为跨境人员信息。
3.如权利要求1的一种基于图谱结构的跨境组织分析方法,其特征在于,S100中,通过出入境记录,获取预设频率内出入高发地区的人员信息,将此类人员信息作为疑似跨境人员信息。
4.如权利要求1的一种基于图谱结构的跨境组织分析方法,其特征在于,S200中,获取人员行为关系数据的方法为:从乘车记录中提取乘车信息,至少包括:人员身份、信息购票时间、购票次数、始发地、目的地、购买车次、购买座位号;从酒店住宿记录中提取住宿信息,至少包括:人员身份、入住时间、入住时长、住宿人员个数、入住房间号;从通话记录中提取通话信息,至少包括:呼叫号码、呼叫人身份证号、被呼叫号码、被呼叫人身份证号、通话开始时间、通话结束时间;分析以上个人行为数据获得行为人员间的行为关系,人员间的行为关系至少包括同行、同宿和通话;将人员行为关系以及对应的频率作为后续计算图谱中边权重的基础。
5.如权利要求1的一种基于图谱结构的跨境组织分析方法,其特征在于,S300中,S300的具体方法为:根据S200中获取的行为关系数据建立图谱,并使用S100获取的跨境人员疑似跨境人员作为筛选条件,以上述人员为出发点筛选跳数10以内的对象和关系,生成跨境人员分析图谱,其中,图谱中的节点表示实体人,图谱中的边代表两端实体的行为关系。
6.如权利要求1的一种基于图谱结构的跨境组织分析方法,其特征在于,S400中,基于图谱结构的AP聚类算法识别跨境组织的具体方法为:
S401.根据图谱中行为关系类别和频率,计算S300图谱中各边权重;
S402.计算图谱中任意两个对象间的相似度S(i,j),生成相似度矩阵S;
S403.计算各对象相似度的中位数,设为S的对角线元素S(i,i),即对象i作为簇中心参考度;设置衰减系数;
S404.将吸引度矩阵R和归属度矩阵A初始化为0矩阵;
S405.更新吸引度矩阵R,并根据衰减公式进行衰减;
S406.更新归属度矩阵A,并根据衰减公式进行衰减;
S407.更新簇中心,将R(k,k)+A(k,k)大于0的数据对象k作为簇中心,重复S405-S407,至聚类中心k不在变化或达到最大迭代次数;
S408.根据簇中心划分数据对象,根据数据对象i与各簇中心k的相似度s(i,k),将数据对象i划分到max(s(i,k))对应的k簇中;
S409.将各簇中心及从簇中心2跳内的对象构成跨境组织。
7.如权利要求6的一种基于图谱结构的跨境组织分析方法,其特征在于,S401中,计算S300图谱中各边权重的方法为:对图谱中所有的边,根据边两端对象的行为关系,计算两边权重W(i,j)=通话次数*10+同行次数*20+同宿次数*30;使用所有边权重均值Wμ和标准差Wσ归一化处理,处理后边的权重为
Figure RE-FDA0002947289380000021
其值域为[0,1]。
8.如权利要求6的一种基于图谱结构的跨境组织分析方法,其特征在于,S402中,计算任意两个对象间的相似度S(i,j)的方法为:利用S501步骤中各边的权重计算任意两个对象之间的相似度,其值为从节点i到节点j某条路径上所有边的权重之积的对数,即S(i,j)=ln(∏Wn(k,l)),其中Wn(k,l)为从i到j 某条路径上边的权重;若是从i到j存在多条路径,则取其中最大值最为最终相似度,S(i,j)值越大表示点i与j的联系越紧密。
9.如权利要求6的一种基于图谱结构的跨境组织分析方法,其特征在于,S405中,吸引度迭代公式如下:
Figure RE-FDA0002947289380000031
根据衰减系数λ对Rt+1(i,k)进行衰减,衰减公式如下:
Rt+1(i,k)=λ*Rt(i,k)+(1-λ)*Rt+1(i,k)。
10.如权利要求6的一种基于图谱结构的跨境组织分析方法,其特征在于,
归属度迭代公式如下:
Figure RE-FDA0002947289380000032
根据衰减系数λ对At+1(i,k)进行衰减,衰减公式如下:
At+1(i,k)=λ*At(i,k)+(1-λ)*At+1(i,k)。
CN202011371106.4A 2020-11-30 2020-11-30 一种基于图谱结构的跨境组织分析方法 Active CN112559639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011371106.4A CN112559639B (zh) 2020-11-30 2020-11-30 一种基于图谱结构的跨境组织分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011371106.4A CN112559639B (zh) 2020-11-30 2020-11-30 一种基于图谱结构的跨境组织分析方法

Publications (2)

Publication Number Publication Date
CN112559639A true CN112559639A (zh) 2021-03-26
CN112559639B CN112559639B (zh) 2022-08-19

Family

ID=75046641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011371106.4A Active CN112559639B (zh) 2020-11-30 2020-11-30 一种基于图谱结构的跨境组织分析方法

Country Status (1)

Country Link
CN (1) CN112559639B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492027A (zh) * 2018-11-05 2019-03-19 南京邮电大学 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN110413707A (zh) * 2019-07-22 2019-11-05 百融云创科技股份有限公司 互联网中欺诈团伙关系的挖掘与排查方法及其***
CN110716925A (zh) * 2019-09-05 2020-01-21 中电科大数据研究院有限公司 一种基于轨迹分析的跨境行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492027A (zh) * 2018-11-05 2019-03-19 南京邮电大学 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN110413707A (zh) * 2019-07-22 2019-11-05 百融云创科技股份有限公司 互联网中欺诈团伙关系的挖掘与排查方法及其***
CN110716925A (zh) * 2019-09-05 2020-01-21 中电科大数据研究院有限公司 一种基于轨迹分析的跨境行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
任智伟等: "基于AP聚类的高光谱波段选择", 《激光与光电子学进展》 *
王高飞等: "内容相似度微博社区发现方法研究", 《太原理工大学学报》 *

Also Published As

Publication number Publication date
CN112559639B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN109784636A (zh) 欺诈用户识别方法、装置、计算机设备及存储介质
Wasser et al. Assigning African elephant DNA to geographic region of origin: applications to the ivory trade
CN110363387A (zh) 基于大数据的画像分析方法、装置、计算机设备及存储介质
KR101758055B1 (ko) 환자 개인 특성에 대한 분석 방법 및 그 장치
CN110503566B (zh) 风控模型建立方法、装置、计算机设备及存储介质
CN110503564B (zh) 基于大数据的保全案件处理方法、***、设备及存储介质
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN110020866B (zh) 一种识别模型的训练方法、装置及电子设备
CN110728301A (zh) 一种个人用户的信用评分方法、装置、终端及存储介质
CN112132624A (zh) 医疗理赔数据预测***
CN113159922A (zh) 一种数据的流向识别方法、装置、设备及介质
CN117591953A (zh) 基于多组学数据的癌症分类方法、***及电子设备
CN114782161A (zh) 识别风险用户的方法、装置、存储介质及电子装置
CN112559639B (zh) 一种基于图谱结构的跨境组织分析方法
CN112035775A (zh) 基于随机森林模型的用户识别方法、装置和计算机设备
Tung Measurement of on-farm diversification in Vietnam
CN112241820A (zh) 资金流动中关键节点的风险识别方法、装置及计算设备
CN115936841A (zh) 一种构建信贷风险评估模型的方法及装置
CN115422471A (zh) 一种基于知识图谱的人员亲密度分析的方法
CN109670976B (zh) 特征因子确定方法及设备
Hakimifar et al. A lexicographic maximin approach to the selective assessment routing problem
CN114757534A (zh) 一种智能考勤排班与考评方法、考勤排班装置和***
CN116438604A (zh) 对基因组数据进行匿名化的方法
CN111091472A (zh) 数据处理方法、装置及设备
CN115881304B (zh) 基于智能检测的风险评估方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant