CN105096101B

CN105096101B - 基于lda模型及中心度算法的邮件网络取证分析方法

Info

Publication number: CN105096101B
Application number: CN201510390803.7A
Authority: CN
Inventors: 刘延华; 郭文忠; 陈国龙; 谢莉莉
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2015-07-06
Filing date: 2015-07-06
Publication date: 2018-08-17
Anticipated expiration: 2035-07-06
Also published as: CN105096101A

Abstract

本发明涉及一种基于LDA模型及中心度算法的邮件网络取证分析方法，包括以下步骤：读取邮件数据，对邮件数据进行基于一犯罪主题的查询，得到查询结果；根据查询结果，构造以邮件用户为节点，以用户通信关系为边的邮件网络图；对查询结果中的每一封邮件，基于LDA模型计算其主题分布；计算查询结果中的每一封邮件基于犯罪主题的关联值；计算每条边基于犯罪主题的关联值；根据邮件网络图中每条边的关联值，计算每个节点的中心值；根据上一步得到的所有节点的中心值求节点的影响因子，影响因子大于设定阈值的即为基于所述犯罪主题的可疑对象。本发明协助调查取证人员查找可疑人群及分析核心成员角色，为计算机犯罪案件取证提供辅助和支持。

Description

基于LDA模型及中心度算法的邮件网络取证分析方法

技术领域

本发明涉及一种基于LDA模型及中心度算法的邮件网络取证分析方法。

背景技术

如今，电子邮件的应用已遍及社会各行各业，它使得人们之间的沟通变得更加方便快捷，但同时也为犯罪分子提供了犯罪的新途径。一些违法犯罪分子利用电子邮件组织并策划一系列犯罪活动，甚至是利用电子邮件的形式进行走私货物的贩卖。电子邮件犯罪已经对人们的财产安全造成严重的影响，作为数字取证的一个重要分支，电子邮件取证的技术应用问题已成为当前研究和讨论的热点。电子邮件数据不但记录了通讯双方的联系,还包含了通信的时间、频率和内容等信息，这些为数字取证调查提供了重要的数据来源。

目前，关于邮件网络结构的分析，一些学者从社交网络角度对邮件网络开展了广泛的研究，如社团划分、重要节点的发现、社会关系与地位的推断等.但是大部分社交网络层面的研究工作重点在于构建社交网络层面的普适性算法，考虑的因素较少，挖掘的结果比较宏观.

如Zhang Lixiao等采用基于多级贪婪策略的重叠社区发现算法MSG-OCD来检测初始社区结构,并分析重叠社区结构。胡天天等将社会网络分析方法应用于邮件网络分析，提出了基于CN-M(CoreNode－Module)的邮件网络核心社团挖掘算法。Henderson等提出了结构角色的概念，用于对复杂网络的节点进行划分及节点行为的分析预测。随后，Rossir等通过考察节点结构角色的变化构建了一种分析网络及节点结构变化模式的方法。

综上，关于电子邮件的网络结构分析研究已经出现了较完善的技术和方法，但这些方法大多只考虑了网络的逻辑结构，并没有进一步考虑邮件的特有属性。邮件网络除去社交网络中共有的结构特征之外，还有许多特有的属性，如时间、抄送关系、主题内容等，这些特征在邮件通信网络的分析中同样具有重要的价值。

本发明基于LDA模型和中心度算法，提出了一种基于邮件内容的邮件网络取证分析方法。在邮件内容相似度计算中，文中采用LDA模型对每条通信边上邮件基于某一犯罪主题的内容关联性进行计算。再结合中心度算法，对邮件通信网络进行基于内容和结构的综合分析，从而协助取证人员查找可疑人群，为计算机犯罪案件取证提供一定辅助和支持。

发明内容

本发明的目的在于提供一种基于LDA模型及中心度算法的邮件网络取证分析方法，协助调查取证人员查找可疑人群及分析核心成员角色，为计算机犯罪案件取证提供辅助和支持。

为实现上述目的，本发明采用如下技术方案：一种基于LDA模型及中心度算法的邮件网络取证分析方法，其特征在于包括以下步骤：

步骤S1：读取邮件数据，利用Lucene全文检索技术，通过一查询语句Q对所述邮件数据进行基于一犯罪主题的查询，得到查询结果；

步骤S2：根据所述查询结果，构造以邮件用户为节点，以用户通信关系为边的邮件网络图；

步骤S3：对所述查询结果中的每一封邮件，基于LDA模型计算其主题分布；

步骤S4：根据所述查询结果，计算所述查询结果中的每一封邮件基于所述犯罪主题的关联值；

步骤S5：根据所述邮件网络图，计算每条边基于所述犯罪主题的关联值；

步骤S6：根据所述邮件网络图中每条边的关联值，计算每个节点的中心值；

步骤S7：根据步骤S6得到的所有节点的中心值求节点的影响因子，所述影响因子大于一阈值a的即为基于所述犯罪主题的可疑对象。

进一步的，所述步骤S3的具体内容如下:

步骤S31：对邮件m的正文内容进行分词，得到邮件m对应的词集合{w₁,w₂,…,w_i,…,w_n}，其中，词w_i属于第k个主题的概率计算如下：

其中，变量z_i表示词w_i的主题，K表示主题的个数，Z_m,-i表示在邮件m中除了词w_i的主题外的其他所有词的主题集合；n(m,k)表示邮件m中属于第k个主题的词的数量；变量α_k表示邮件m中主题k先验分布的参数，表示第k个主题中词w_i的分布概率；

步骤S32：归一化所述步骤S31中所述的词w_i属于第k个主题的概率，得到wt_k，wt_k为词w_i的主题分布WT_i中的分量：

WT_i＝(wt₁,wt₂,…,wt_K)

步骤S33：词w_i的主题从WT_i中抽样得到，从而得出邮件m中属于第k个主题的词的数量n(m,k)，则邮件m的主题分布计算如下：

进一步的，所述步骤S4的具体内容如下：

步骤S41：给定一主题概率阈值p_T，将邮件m中的主题分布概率大于等于p_T的所有主题筛选出作为邮件m的高概率主题；

步骤S42：给定一词概率阈值p_W，将所述犯罪主题中词概率大于等于p_W的所有词作为所述犯罪主题的高频词；

步骤S43：将所述邮件m中的所有高概率主题中的高频词的集合作为所述邮件m的特征关键词集Key_m；

步骤S44：根据所述查询语句Q和邮件m的特征关键词集Key_m，计算所述邮件m基于Q的关联值：

其中，表示对所述查询语句Q进行分词后的词集合，集合长度为n_q，n(Q∩Key_m)为集合Q和集合Key_m的交集的元素个数。

进一步的，所述步骤S5的具体内容如下：

其中，e_AB表示邮件用户A到邮件用户B的一条有向通信边，通信方向指向用户B，n_AB表示查询结果中用户A发送给用户B的所有邮件的个数。

进一步的，所述步骤S6的具体内容如下：

步骤S61：根据所述邮件网络图中每条边的关联值，计算每个节点的亲近值：

其中，V_j表示邮件网络图中节点V_i的可达节点，g表示邮件网络图中节点V_i的可达节点个数，d(V_i,V_j)表示节点V_i到节点V_j的距离，A_m(m+1)表示节点V_m到节点V_m+1的有向边上基于所述犯罪主题的关联值，节点V_m和节点V_m+1表示节点V_i到节点V_j的最短路径上的两个相邻节点；

步骤S62：根据所述邮件网络图中每条边的关联值，计算每个节点的中介值：

其中，n_jk表示节点j到节点k的最短路径个数，n_jk(V_i)表示节点j到节点k的最短路径上经过节点V_i的个数，计算上述节点j到节点k之间的最短路径时，采用d(V_j,V_k)作为它们之间的距离；

步骤S63：根据所述邮件网络图中每条边的关联值，计算每个节点的程度值：

其中，A_ij表示节点V_i到节点V_j的有向边上基于所述犯罪主题的关联值。

进一步的，所述步骤S7的具体内容如下：

步骤S711：找出所述邮件网络图的所有节点中亲近值最大的节点V_top1和亲近值第二大的节点V_top2；

步骤S712：计算节点V_top1的影响因子I(V_top1)：

其中，Value_top1、Value_top2分别表示节点V_top1和V_top2对应的亲近值；

步骤S713：对于一给定的影响因子阈值a，若I(V_top1)＞a，则将节点V_top1输出并删除，更新邮件网络图，并返回步骤S71；否则进行步骤S74；

步骤S714：将输出的全部节点按输出顺序排列成一节点序列，所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象，所述节点对应的邮件用户为邮件网络中基于所述犯罪主题通信关系最密切子网的核心用户。

进一步的，所述步骤S7的具体内容如下：

步骤S721：找出所述邮件网络图的所有节点中中介值最大的节点V_top1和中介值第二大的节点V_top2；

步骤S722：计算节点V_top1的影响因子I(V_top1)：

其中，Value_top1、Value_top2分别表示节点V_top1和V_top2对应的中介值；

步骤S723：对于一给定的影响因子阈值a，若I(V_top1)＞a，则将节点V_top1输出并删除，更新邮件网络图，并返回步骤S71；否则进行步骤S74；

步骤S724：将输出的全部节点按输出顺序排列成一节点序列，所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象，所述节点对应的邮件用户为邮件网络中基于所述犯罪主题具备通信中介的角色。

进一步的，所述步骤S7的具体内容如下：

步骤S731：找出所述邮件网络图的所有节点中程度值最大的节点V_top1和程度值第二大的节点V_top2；

步骤S732：计算节点V_top1的影响因子I(V_top1)：

其中，Value_top1、Value_top2分别表示节点V_top1和V_top2对应的程度值；

步骤S733：对于一给定的影响因子阈值a，若I(V_top1)＞a，则将节点V_top1输出并删除，更新邮件网络图，并返回步骤S71；否则进行步骤S74；

步骤S734：将输出的全部节点按输出顺序排列成一节点序列，所述节点序列中的所有节点即为基于所述犯罪主题的重要可疑对象，所述节点对应的邮件用户为邮件网络中基于所述犯罪主题通信最频繁的用户。

本发明与现有技术相比具有以下有益效果：本发明在邮件内容相似度计算中，文中采用LDA模型对每条通信边上邮件基于某一犯罪主题的内容关联性进行计算，再结合中心度算法，对邮件通信网络进行基于内容和结构的综合分析，从而协助取证人员查找可疑人群，为计算机犯罪案件取证提供一定辅助和支持。

附图说明

图1是本发明的方法实现流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于LDA模型及中心度算法的邮件网络取证分析方法，其特征在于包括以下步骤：

步骤S3：对所述查询结果中的每一封邮件，基于LDA模型计算其主题分布，具体内容如下:

WT_i＝(wt₁,wt₂,…,wt_K)

步骤S4：根据所述查询结果，计算所述查询结果中的每一封邮件基于所述犯罪主题的关联值，具体内容如下：

步骤S5：根据所述邮件网络图，计算每条边基于所述犯罪主题的关联值，具体内容如下：

步骤S6：根据所述邮件网络图中每条边的关联值，计算每个节点的中心值，具体内容如下：

步骤S7：根据步骤S6得到的所有节点的中心值求节点的影响因子，所述中心值包括步骤S6中求得的亲近值、中介值和程度值，该三个值各自求得一影响因子，所述影响因子大于一阈值a的即为基于所述犯罪主题的重要可疑对象，其中三个值各自对应的阈值a可不同，具体内容如下：

一、根据亲近值求基于所述犯罪主题通信关系最密切子网的核心用户：

步骤S712：计算节点V_top1的影响因子I(V_top1)：

二、根据中介值求基于所述犯罪主题具备通信中介的角色：

步骤S722：计算节点V_top1的影响因子I(V_top1)：

三、根据程度值求基于所述犯罪主题通信最频繁的用户：

步骤S732：计算节点V_top1的影响因子I(V_top1)：

为了让一般技术人员更好的理解本发明的技术方案，以下结合本发明所述的方法对应的***个模块功能进行进一步说明。

所述***包括邮件的采集模块、邮件数据预处理模块、建立索引模块、邮件检索模块、邮件网络图的构造模块和邮件网络分析模块：

所述邮件的采集模块，用于从各邮件客户端的邮件存储文件中提取邮件信息；

所述邮件数据预处理模块，用于提取并解析邮件的关键要素，如收发账户地址、发送时间、主题、邮件内容等信息，并过滤干扰邮件；

所述建立索引模块，用于对预处理后的邮件数据进行分词，并建立相应的索引表；

所述邮件检索模块，用于对邮件进行基于关键要素及关键词的查询，得到与某一犯罪主题相关的邮件；

所述邮件网络图的构造模块，用于构造以邮件网络用户为节点、用户关系为边的邮件网络图；

所述邮件网络分析模块，用于对邮件网络进行分析，基于LDA模型及中心度算法，计算邮件网络各边的关联值，并依次输出网络影响因子大的节点，得到节点序列，即邮件网络基于某一犯罪主题的可疑对象。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于LDA模型及中心度算法的邮件网络取证分析方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于LDA模型及中心度算法的邮件网络取证分析方法，其特征在于：所述步骤S3的具体内容如下:

其中，变量z_i表示词w_i的主题，K表示主题的个数，表示在邮件m中除了词w_i的主题外的其他所有词的主题集合；n(m,k)表示邮件m中属于第k个主题的词的数量；变量α_k表示邮件m中主题k先验分布的参数，表示第k个主题中词w_i的分布概率；

WT_i＝(wt₁,wt₂,…,wt_K)

其中为邮件m中属于第k个主题的概率，所述邮件m的主题分布为

3.根据权利要求2所述的基于LDA模型及中心度算法的邮件网络取证分析方法，其特征在于：所述步骤S4的具体内容如下：

4.根据权利要求3所述的基于LDA模型及中心度算法的邮件网络取证分析方法，其特征在于：所述步骤S5的具体内容如下：

5.根据权利要求4所述的基于LDA模型及中心度算法的邮件网络取证分析方法，其特征在于：所述步骤S6的具体内容如下：

6.根据权利要求5所述的基于LDA模型及中心度算法的邮件网络取证分析方法，其特征在于：所述步骤S7的具体内容如下：

步骤S712：计算节点V_top1的影响因子I(V_top1)：

7.根据权利要求5所述的基于LDA模型及中心度算法的邮件网络取证分析方法，其特征在于：所述步骤S7的具体内容如下：

步骤S722：计算节点V_top1的影响因子I(V_top1)：

8.根据权利要求5所述的基于LDA模型及中心度算法的邮件网络取证分析方法，其特征在于：所述步骤S7的具体内容如下：

步骤S732：计算节点V_top1的影响因子I(V_top1)：