CN105184075B - 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 - Google Patents
适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 Download PDFInfo
- Publication number
- CN105184075B CN105184075B CN201510553048.XA CN201510553048A CN105184075B CN 105184075 B CN105184075 B CN 105184075B CN 201510553048 A CN201510553048 A CN 201510553048A CN 105184075 B CN105184075 B CN 105184075B
- Authority
- CN
- China
- Prior art keywords
- corporations
- node
- degrees
- initial
- tcmf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法,包括如下步骤:1)寻找初始社团阶段:a寻找中心点,并初始化社团;b搜索多三角形群组,加入到初始社团;c重复上述步骤直到中心点的度数小于阈值;d将未分派的结点加入到初始社团;e结束;2)合并初始社团阶段:a计算每两个社团之间的相似度;b选择最相似的两个社团合并;c重复以上步骤直到结束。基于多三角形群组相似性凝聚的重叠社团发现方法适用于TCMF网络,利用多三角形的技术大大提高了社团划分的准确度,可以从TCMF网络当中准确地发现药群社区结构信息。
Description
技术领域
本发明涉及一种中药方剂挖掘的方法,尤其涉及适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法。
背景技术
在复杂网络分析中对网络社团结构的研究已经有很长的历史,其涉及到计算机科学、社会学、生命科学等各个领域。分析网络中的社团结构,对于分析网络结构与了解网络特性都是非常重要的。现实世界中有很多的真实复杂网络,如社会网络、互联网页面间互相链接网络、文献引用网络、生物学网络(如蛋白质相互作用网络)、论文合著网络等等。不同的真实网络结构代表其研究方向的现实意义,中药方剂(Traditional Chinese MedicineFormula,简写TCMF)网络也属于真实复杂网络当中的一种,如图1所示为TCMF网络。
中医药方剂(TCMF)网络具有明显社区结构,它不仅具有重叠结点,还具有重叠边,另外TCMF网络还具有一定的层次性,但通过实验表明,一些传统的重叠社区发现方法(如LFM方法、CPM方法等)并不适用于TCMF网络。
利用数据挖掘技术对中药复方数据进行药群社区挖掘最常用的方法是以聚类为主的数据挖掘研究模式,其对相似的药物进行聚合来发现药群社区。本发明尝试在已经构建好的TCMF药物网络中利用基于多三角形群组相似性凝聚的重叠社区发现方法来挖掘药性相似的药物组。
CN201210110861.6提供一种适用中药方剂(TraditionalChineseMedicineHerbs,以下简称TCMF)网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,包括如下步骤:1)共近邻相似三元组凝聚阶段a寻找所有三元组;b对任意两个三元组计算相似度;c给定三元组的相似度阈值,合并相似度高于相似度阈值的三元组对作为初始社区;d结束;2)簇合并阶段a计算任意两个初始社区的距离;b定初始社区距离阈值,合并距离小于距离阈值的两个初始社区;c结束。通过三个参数α,β,γ的设定能挖掘TCMF网络的高重叠及层次药群社区结构,为方剂配伍中核心药群发现提供了解决方案。其中该方法当中寻找初始社团阶段的复杂度高,TCMF网络当中药群社团发现的准确性亦有待提高。
发明内容
本发明所要解决的技术问题是,提供一种适用TCMF网络的基于多三角形群组相似性凝聚的重叠社团发现方法,为TCMF网络提供了中药方剂挖掘的解决方案。
为解决上述问题,本发明技术方案是:适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法,包括如下步骤:
1)寻找初始社团:
a寻找中心点,并初始化社团;
b搜索多三角形群组,加入到初始社团;
c重复上述步骤直到中心点的度数小于阈值;
d将未分派的结点加入到初始社团;
e结束;
2)合并初始社团:
a计算每两个社团之间的相似度;
b选择最相似的两个社团合并;
c重复以上步骤直到结束。
步骤1)-a中所述的中心点是利用结点的度数服从幂率分布,根据度数从大到小寻找中心点。
其中步骤1)-b中所述的多三角形群组是指搜索能够与中心点构成三角形的所有它的邻接结点,并将这些邻接结点加入到社团当中,构成多三角形群组。
其中步骤1)-c中所述的阈值一般情况为所有结点的平均度数。
其中步骤1)-d中所述的将未分派的结点加入到初始社团的规则是,若该结点的度数为0时,该结点作为单独社团;若该结点的度数为1时,该结点加入其邻接结点的社团当中;若该结点的度数大于1时,统计其邻接结点属于各个社团的个数,将其加入到个数最多的社团当中。
其中步骤2)-a中所述的两个社团之间的相似度公式如下:
其中Na∩Nb表示社团a和b中共有的结点个数,MIN{Na,Nb}表示a和b中最小的结点个数。
本发明的有益效果:本发明的适用TCMF网络的基于多三角形群组相似性凝聚的重叠社团发现方法为中医药复方数据挖掘提供了一种新的方法,该方法通过多三角形群组技术提高了社团发现的准确性,提供了准确的药群社区信息。
寻找初始社团阶段中,本发明使用种子扩散的方法,根据节点度数大小寻找中心点,根据多三角形技术将周围节点加入的以该中心点形成的社团当中;而现有技术基于搜索的过程,首先寻找所有单独的三元组,然后根据三元组的相似度,将高于相似度阈值的三元组合并后作为初始社团。
初始社团合并阶段(基于社团相似性公式有所不同):本发明采用效率更高的公式。现有三元组相似性凝聚:以三元组的相似度公式定义。
本发明关键技术是:采用多三角形技术,即搜索能够与中心点构成三角形的所有它的邻接结点,并将这些邻接结点加入到社团当中,构成多三角形群组。
本发明的优势在于:中心点根据节点的度数由高到低选取,再根据多三角形技术依次扩散,省去繁琐的公式计算过程,减少了寻找初始社团的时间复杂度,通过实验证明该方法提高了TCMF网络当中药群社团发现的准确性。
附图说明
图1为适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法的流程图。
图2为形成多三角形群组流程图。
图3为社团相似性凝聚流程图。
图4为社团相似性凝聚流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
如图1所示,中医药方剂(TCMF)网络具有明显社区结构,TCMF网络的构建过程为:遍历中医药方剂数据库,根据每味药两两之间的贡献度值来构建得到TCMF网络。
如图2所示,本发明实施例的适用TCMF网络的基于多三角形群组相似性凝聚的重叠社团发现方法的流程图。适用TCMF网络的基于多三角形群组相似性凝聚的重叠社团发现方法包括两个阶段:寻找初始社团阶段和合并初始社团阶段。其具体步骤如下:
1)寻找初始社团:
a寻找中心点,并初始化社团;
b搜索多三角形群组,加入到初始社团;
c重复上述步骤直到中心点的度数小于阈值;
d将未分派的结点加入到初始社团;
e结束;
2)合并初始社团:
a计算每两个社团之间的相似度;
b选择最相似的两个社团合并;
c重复以上步骤直到结束。
如图3所示给出了形成一个多三角形的流程图。本发明定义了多三角形群组作为初始社团结构,其中考虑了中心点不能太多,否则会增加计算的复杂性,由阈值参数β控制所有中心点的个数,β代表所有结点的平均度数。β是指当前网络当中所有结点的平均度数,若选取的结点度数大于该参数,就将该结点作为中心点进行接下来的判断,否则舍弃。
形成多三角形的具体步骤如下:
步骤3-1为寻找中心点p,根据结点度数由大到小寻找,并且初始化社团c;
步骤3-2为判断中心点p的度数是否大于阈值参数β,若大于阈值参数β,执行步骤3-3,否则执行步骤3-9;阈值参数β指上面提及的当前网络当中所有结点的平均度数
步骤3-3为寻找p点的邻接结点a;
步骤3-4为判断是否遍历结束,若遍历结束,返回执行步骤3-1继续寻找中心点p,否知执行步骤3-5;
步骤3-5为寻找结点a的邻接结点b;
步骤3-6为判断是否遍历结束,若遍历结束,返回执行步骤3-3继续寻找中心点p的邻接结点,否知执行步骤3-7;
步骤3-7为判断结点a、b与p是否能构成三角形,若不能构成三角形,返回执行步骤3-5继续寻找结点a的邻接结点,否知执行步骤3-8;
步骤3-8为将结点a、b加入到初始社团c中,并返回执行步骤3-5;
步骤3-9为图3的结束。
如图4所示为社团相似性凝聚流程图,具体步骤如下:
步骤4-1为判断是否有两个以上的社团,若有两个以上社团,则执行步骤4-2,否则执行步骤4-4;
步骤4-2为计算每两个社团之间相似度,其中两个社团之间的相似度公式如下:
其中Na∩Nb表示a和b中共有的结点个数,MIN{Na,Nb}表示a和b中最小的结点个数。
步骤4-3为比较每两个社团相似度,合并最相似的两个社团,并且返回执行步骤4-1;
步骤4-4为图4的结束。
综上所述,本发明的适用TCMF网络的基于多三角形群组相似性层次凝聚的重叠社团发现方法利用多三角形的技术大大提高了社团划分的准确度,可以从TCMF网络当中准确地发现药群社区结构信息。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (1)
1.适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法,其特征在于,包括如下步骤:
1)寻找初始社团:
a寻找中心点,并初始化社团;
b搜索多三角形群组,加入到初始社团;
c重复上述步骤直到中心点的度数小于阈值;
d将未分派的结点加入到初始社团;
e结束;
2)合并初始社团:
a计算每两个社团之间的相似度;
b选择最相似的两个社团合并;
c重复以上步骤直到结束;
其中步骤1)-a中所述的中心点是利用结点的度数服从幂率分布,根据度数从大到小寻找中心点;
其中步骤1)-b中所述的多三角形群组是指搜索能够与中心点构成三角形的所有它的邻接结点,并将这些邻接结点加入到社团当中,构成多三角形群组;
其中步骤1)-c中所述的阈值为所有结点的平均度数;
其中步骤1)-d中所述的将未分派的结点加入到初始社团的规则是,若该结点的度数为0时,该结点作为单独社团;若该结点的度数为1时,该结点加入其邻接结点的社团当中;若该结点的度数大于1时,统计其邻接结点属于各个社团的个数,将其加入到个数最多的社团当中;
其中步骤2)-a中所述的两个社团之间的相似度公式如下:
其中Na∩Nb表示社团a和b中共有的结点个数,MIN{Na,Nb}表示a和b中最小的结点个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510553048.XA CN105184075B (zh) | 2015-09-01 | 2015-09-01 | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510553048.XA CN105184075B (zh) | 2015-09-01 | 2015-09-01 | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105184075A CN105184075A (zh) | 2015-12-23 |
CN105184075B true CN105184075B (zh) | 2018-07-06 |
Family
ID=54906153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510553048.XA Active CN105184075B (zh) | 2015-09-01 | 2015-09-01 | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105184075B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022936B (zh) * | 2016-05-25 | 2020-03-20 | 南京大学 | 适用论文合作网络的基于社团结构的影响最大化算法 |
CN107222334A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 适用于社交网络的基于核心三角的局部社团发现方法 |
CN107133877B (zh) * | 2017-06-06 | 2021-02-09 | 安徽师范大学 | 网络中重叠社团的挖掘方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646168A (zh) * | 2012-04-16 | 2012-08-22 | 南京大学 | 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 |
CN102682162A (zh) * | 2012-04-24 | 2012-09-19 | 河海大学 | 基于复杂网络社区发现的层次重叠核心药群发现方法 |
CN103577592A (zh) * | 2013-11-13 | 2014-02-12 | 西安工程大学 | 基于性格相似度匹配计算的网络社区用户好友推荐方法 |
CN104268271A (zh) * | 2014-10-13 | 2015-01-07 | 北京建筑大学 | 一种兴趣和网络结构双内聚的社交网络社区发现方法 |
CN104537126A (zh) * | 2015-01-29 | 2015-04-22 | 中南大学 | 一种基于边图随机游走的重叠社区发现方法 |
-
2015
- 2015-09-01 CN CN201510553048.XA patent/CN105184075B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646168A (zh) * | 2012-04-16 | 2012-08-22 | 南京大学 | 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 |
CN102682162A (zh) * | 2012-04-24 | 2012-09-19 | 河海大学 | 基于复杂网络社区发现的层次重叠核心药群发现方法 |
CN103577592A (zh) * | 2013-11-13 | 2014-02-12 | 西安工程大学 | 基于性格相似度匹配计算的网络社区用户好友推荐方法 |
CN104268271A (zh) * | 2014-10-13 | 2015-01-07 | 北京建筑大学 | 一种兴趣和网络结构双内聚的社交网络社区发现方法 |
CN104537126A (zh) * | 2015-01-29 | 2015-04-22 | 中南大学 | 一种基于边图随机游走的重叠社区发现方法 |
Non-Patent Citations (5)
Title |
---|
Detecting the overlapping and hierarchical community structure in complex networks;Andrea Lancichinetti等;《New Journal of Physics》;20090310;第11卷(第3期);第1-18页 * |
基于复杂网络的重叠社团发现算法;马菲;《中国优秀硕士学位论文全文数据库 基础科学辑》;20150415(第4期);正文第21-22页,第24-27页,图3-2 * |
基于用户节点相似度的局部社团挖掘;范超翔等;《信息安全与通信保密》;20140510(第5期);第72-75页 * |
复杂网络中重叠社区检测;张振宇等;《计算机工程与科学》;20131215;第35卷(第12期);第76-83页 * |
面向大规模社交网络的潜在好友推荐方法;贺超波等;《合肥工业大学学报(自然科学版)》;20130428;第36卷(第4期);第420-424页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105184075A (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105184075B (zh) | 适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法 | |
EP1700421B1 (en) | A method for managing networks by analyzing connectivity | |
Huang et al. | Shrink: a structural clustering algorithm for detecting hierarchical communities in networks | |
Schuffenhauer et al. | The scaffold tree− visualization of the scaffold universe by hierarchical scaffold classification | |
CN106709037B (zh) | 一种基于异构信息网络的电影推荐方法 | |
CN104268271A (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
CN103034687B (zh) | 一种基于2‑类异质网络的关联模块识别方法 | |
CN110309303A (zh) | 一种基于加权tf-idf的司法纠纷数据可视分析方法 | |
Li et al. | Structural requirements of 3-carboxyl-4 (1H)-quinolones as potential antimalarials from 2D and 3D QSAR analysis | |
CN103729467A (zh) | 一种社交网络中的社区结构发现方法 | |
WO2019036927A1 (zh) | 基于步频的足部计步数方法、装置及设备 | |
CN103559318B (zh) | 对异质信息网络包含的对象进行排序的方法 | |
CN102646168B (zh) | 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法 | |
Baek et al. | Clustering-based label estimation for network anomaly detection | |
Zhang et al. | KGANSynergy: knowledge graph attention network for drug synergy prediction | |
CN108171538A (zh) | 用户数据处理方法及*** | |
CN104462480B (zh) | 基于典型性的评论大数据挖掘方法 | |
Moosavi et al. | Annotation of car trajectories based on driving patterns | |
Zhu et al. | Top-k structure holes detection algorithm in social network | |
Xiao et al. | Computer aided compound identification based on a highly selective topological index | |
CN108717551A (zh) | 一种基于最大隶属度的模糊层次聚类方法 | |
Karegowda et al. | Combining Akaike’s information criterion (AIC) and the golden-section search technique to find optimal numbers of k-nearest neighbors | |
CN108108168A (zh) | 结合代码演化信息构造代码坏味训练数据集的方法 | |
Weissenberg et al. | Navigation using special buildings as signposts | |
Kobayashi et al. | Estimation of Sidewalk Surface Type with a Smartphone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |