CN102360435A

CN102360435A - 基于隐含主题分析的不良图像检测方法

Info

Publication number: CN102360435A
Application number: CN2011103298752A
Authority: CN
Inventors: 田春娜; 高新波; 王华青; 李东阳; 袁博; 赵林; 李洁; 蒲倩; 王代富; 季秀云
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2011-10-26
Filing date: 2011-10-26
Publication date: 2012-02-22
Anticipated expiration: 2031-10-26
Also published as: CN102360435B

Abstract

本发明公开了一种基于隐含主题分析的不良图像检测方法，主要解决现有的不良信息检测方法不考虑图像的语义信息，导致正常图像误判的问题。其方案是：采用双混合高斯模型来提取图像的皮肤区域；通过词袋模型生成肤色区域中所包含显著特征的码本库，用词频-逆鉴别性文档频率法将每幅训练图像表示成一组有权重的单词共现向量；所有共现向量组成一个共现矩阵，对共现矩阵进行LDA建模，得到图像的主题；将训练图像的混合主题输入BP神经网络，进行不良图像分类器的训练；得到待测图像的主题并输入到不良图像分类器，判断其是否为不良图像，完成不良图像检测。实验表明，本发明能更好的分辨出不良图像和正常图像，可用于过滤图像中的色情信息。

Description

基于隐含主题分析的不良图像检测方法

技术领域

本发明属于计算机视觉与模式识别的交叉领域，特别涉及基于隐含主题分析的不良图像语义分类方法，可用于过滤图像中的色情信息。

背景技术

随着20世纪90年代互联网的蓬勃兴起，网络上的各种信息飞速增长和传播。特别是随着3G时代的来临以及融合网络概念的提出，图像以彩信、手机视频流等为载体在即时通信领域中高速传播，其中包含大量的淫秽色情等不良信息。大量不良信息的传播对人们身心健康产生不利影响，因此，提出一种先进的不良信息过滤方法具有深远意义。对于不良信息过滤，如何正确完成不良信息的检测成为关键，不良信息检测任务包含如下两步：图像鉴别性信息提取与描述；图像隐含语义主题分析与分类。下面分别从这两个方面的研究现状、发展动态及其在不良图像信息检测中的应用进行综述与分析。

(1)图像鉴别性信息提取与描述

不良图像中通常裸露大量的皮肤区域和人体隐私器官，因此，首先需要检测皮肤区域，然后提取皮肤区域内的有鉴别性能的特征点。早期的不良图像信息检测忽略了人体肤色区域内特征的代表性，而仅用肤色作为判别的线索，如Fleck等提出的“Finding Naked People.Proceedings of the European Conference of Computer Vision.1996，2：593-602.”方法。肤色描述需要合适的色彩空间。研究表明在YC_bC_r色彩空间中的C_bC_r色度分量上，人类皮肤区域具有良好的聚类特性。考虑到人种、光照色偏等因素对肤色范围的影响，研究人员常采用高斯混合模型GMM统计出肤色的分布情况。

(2)图像隐含语义主题分析与分类

目前，大部分不良信息检测方法不考虑图像所隐含的语义信息，导致包含大量类肤色区域的自然图像或者裸露的人体正常区域被判断成不良信息。因此，如何根据图像的语义特征来有效区分图像性质是提高不良信息检测技术的关键。为分析图像的语义内容，受基于文本隐含主题分析方法的启发，以隐含狄利克雷分配LDA模型为代表的主题模型被计算机视觉研究人员用来表征图像的语义。LDA模型以词袋模型为基础，即将图像看作一组视觉单词的组合，视觉单词之间无顺序关系。词袋模型包括三个步骤：特征检测、特征描述和码本生成。特征通常用高斯差分算子来检测；由于SIFT(Scale invariant feature transformation)描述子具有尺度、旋转和仿射等不变性，通常用于描述特征；最后，对训练图像的描述进行K-均值聚类得到图像的码本。对图像首先用高斯差分算子提取显著特征点，然后对特征进行SIFT描述，将SIFT描述子通过向量量化的方法映射为码本中某一个确定的视觉单词。这样，一幅图像就可以被看作由若干视觉单词组成，根据码本中视觉单词在一幅图像中发生的频次，即可将图像表示成单词的共现向量。多幅图像的共现向量可组成一个共现矩阵，对共现矩阵进行LDA建模，LDA模型是一个图像-主题-视觉单词的三层贝叶斯网络，即将图像视为由若干隐含的主题组成，而主题由若干视觉单词组成，由LDA模型可推断出每幅中隐含主题的混合概率，这样可以将图像从高维单词发生频次的组合降为低维主题的混合概率。

基于主题模型的不良图像检测才刚刚起步，Sheng Tang等人在“PornProbe：AnLDA-SVM based Pornography Detection System.Proceedings of the 17^th ACMInternational Conference on Multimedia.2009，2：593-602.”一文中采用LDA方法以图像的色度信息为特征，结合SVM方法判别图像的不良程度。基于主题分析的图像语义描述是解决不良信息检测极具潜力的发展方向之一。

上述已有的不良信息分类方法主要存在以下三个主要问题：

(1)提取的人体肤色区域中往往包含头发等干扰信息，这些都不利于后续的不良特征提取。

(2)图像的肤色区域纹理比较相似，有鉴别性的不良图像特征往往被淹没在大量的正常肤色纹理特征中，使得鉴别性的特征不能有效的运用到不良图像分类任务中。

(3)特征与图像语义的联系脱节，图像语义信息描述的缺失导致正确检测率较低。

发明内容

本发明目的在于针对上述已有技术的不足，提出一种基于隐含主题分析的不良图像检测方法，以剔除人体肤色区域中的头发区域等干扰信息，增加图像特征鉴别性，分析图像的语义内容，提高不良图像的检测率。

实现本发明的技术思路是：首先提取图像的皮肤区域，对肤色区域用cosine距离测度下的词袋模型来描述，采用词频-逆鉴别性文档频率法tf-iddf给图像中的单词赋予一定的权值，用单词的权值组成向量来表示图像中视觉单词的共现特性，用LDA模型分析图像隐含的主题，根据主题的相似性实现不良图像检测。其实现过程包括：

(1)在颜色空间YCbCr中，构建双高斯混合模型：

(1a)手动切割包含皮肤区域的图像I；

(1b)将图像I从RGB颜色空间转换到颜色空间YC_bC_r，其中Y表示亮度分量，C_b是蓝色色度分量，C_r是红色色度分量；

(1c)去除亮度分量Y后，在C_bC_r色度空间中采用高斯混合模型建立肤色模型，其高斯混合模型的概率密度函数为：

G (x | K, ω, μ, Σ) = Σ_{n = 1}^{K} ω_{n} N^{D} (x | μ_{n}, Σ_{n})

其中K为高斯分量的个数，ω＝(ω₁，ω₂，…，ω_K)是K个独立高斯分量在混合模型中的权重，∑_Kω_n＝1，∑＝(∑₁，∑₂，…，∑_K)和μ＝(μ₁，μ₂，…，μ_K)分别是各个高斯分量的协方差矩阵和均值向量，

N^{D} (x | μ_{n}, Σ_{n}) = {(2 π)}^{- \frac{D}{2}} {| Σ_{n} |}^{- \frac{1}{2}} \exp {- \frac{1}{2} {(x - μ_{n})}^{T} Σ_{n}^{- 1} (x - μ_{n})}

是第n个高斯分量的D维正态密度函数；

利用期望最大化EM算法及最小描述长度准则MDL估计高斯混合模型的各个参数ω，μ，∑，K，建立肤色模型；

(1d)手动切割包含头发区域的图像I，重复上述步骤(1b)-(1c)，建立头发区域模型；

(1e)将肤色模型与头发区域模型级联，建立双高斯混合模型；

(2)利用贝叶斯模型，剔除肤色区域中的头发区域；

(3)在肤色区域中用高斯差分算子检测图像I中的显著特征点，去除特征点集中在肤色区域边缘部分的特征点，得到有效的特征点集合V′；

(4)对特征点集合V′中的有效特征点用尺度不变特征转换SIFT描述子进行描述，将每个特征点表示成128维的特征向量f；

(5)对训练集中正常和不良图像，通过步骤(1)-(4)得到所有图像的有效特征点的SIFT描述子，对所有SIFT描述子进行cosine距离测度下的K均值聚类，得到C个聚类中心，定义每个聚类中心为一个视觉单词，得到图像的码本集合W＝{w₁，w₂，L，w_C}，其中，w表示视觉单词，C表示码本中视觉单词的数目；

(6)对训练集中每一幅图像有效特征点的SIFT描述子，通过向量量化的方法计算每个SIFT描述子与码本中每个视觉单词的距离，将SIFT描述子量化为与其最近的那个码本单词；

(7)根据步骤(5)得到的码本单词，统计第j幅图像中所有单词的词频-逆鉴别性文档频率tf-iddf值，将这些值按照单词在码本中出现的顺序排列成一个有权重的共现向量d_j来表示第j幅图像；

(8)所有训练图像共现向量组成共现矩阵，采用基于Gibbs取样算法的LDA模型对共现向量进行LDA建模，得到训练图像的混合主题分布θ；

(9)将训练图像的混合主题分布θ及其类别标记输入BP神经网络，训练基于BP神经网络的不良图像分类器；

(10)对待测图像，根据步骤(1)-(4)得到其有效特征点的SIFT描述子，再利用步骤(6)-(7)的向量量化法及tf-iddf法，待测图像被表示成码本单词的共现向量，将共现向量输入到LDA模型得到待测图像的主题分布θ′；

(11)将待测图像的主题分布θ′输入到基于BP神经网络的不良图像分类器中，判断待测图像是否为不良图像，最终完成不良图像的检测。

本发明与已有的不良信息图像检测方法相比，具有以下优点：

1)本发明由于使用双高斯混合模型，即Bi-GMM肤色模型，使肤色检测更鲁棒，提高了皮肤区域提取的准确率。

2)本发明由于利用词频-逆鉴别性文档频率法来描述单词的共现频率，提高了图像显著视觉特征的鉴别性，从而提高图像的分类率。

3)本发明由于使用隐含狄利克雷分配LDA主题模型表示图像的语义，降低了类肤色区域对识别结果的影响。

实验结果表明，本发明的不良信息图像检测方法与现有方法相比，肤色区域提取的准确率更高，图像特征的鉴别性更强，不良图像的检测率有了显著提高。

附图说明

本发明的技术过程可结合以下附图详细说明。

图1是本发明对不良信息图像检测的总体流程图；

图2是本发明基于双高斯混合模型Bi-GMM肤色模型子流程图；

图3是现有隐含狄利克雷分配LDA模型示意图。

具体实施方式

参照图1，本发明基于主题分析的不良图像检测方法主要包括以下两个阶段：

一.码本训练阶段

步骤1，构建双高斯混合Bi-GMM模型。

参照图2，本步骤的具体实现如下：

1a)手动切割包含皮肤区域的图像I；

1b)将图像I从RGB颜色空间转换到颜色空间YC_bC_r，其中Y表示亮度分量，C_b是蓝色色度分量，C_r是红色色度分量；

1c)去除亮度分量Y后，在C_bC_r色度空间中采用高斯混合模型建立肤色模型，其高斯混合模型的概率密度函数为：

G (x | ω, μ, Σ) = Σ_{n = 1}^{K} ω_{n} N^{D} (x | μ_{n}, Σ_{n})

其中K为高斯分量的个数，ω＝(ω₁，ω₂，…，ω_K)是K个独立高斯分量在高斯混合模型中的权重，0＜ωn＜1，∑_Kω_n＝1，∑＝(∑₁，∑₂，…，∑_K)和μ＝(μ₁，μ₂，…，μ_K)分别是各个高斯分量的协方差矩阵和均值向量，其中

N^{D} (x | μ_{n}, Σ_{n}) = {(2 π)}^{- \frac{D}{2}} {| Σ_{n} |}^{- \frac{1}{2}} \exp {- \frac{1}{2} {(x - μ_{n})}^{T} Σ_{n}^{- 1} (x - μ_{n})}

是第n个高斯分量的D维正态密度函数；

1d)确定高斯混合模型概率密度函数的高斯分量个数K、权重ω、均值向量μ及协方差矩阵∑各参数的值：

1d1)随机初始化高斯分量的个数K；

1d2)使用期望最大化算法EM估计初始化的K值下的高斯混合模型权重ω，均值向量μ和协方差矩阵∑的参数值；

1d3)利用距离公式d(l，m)计算高斯混合模型中每两个高斯分量的距离，选出距离最近的两个高斯分量，并将其合并为一个高斯分量，以使高斯分量的个数K减1，d(l，m)公式如下：

d (l, m) = \frac{N {\overset{&OverBar;}{ω}}_{l}}{2} \log (\frac{| Σ_{(l, m)} |}{| {\overset{&OverBar;}{Σ}}_{l} |}) + \frac{N {\overset{&OverBar;}{ω}}_{m}}{2} \log (\frac{| Σ_{(l, m)} |}{| {\overset{&OverBar;}{Σ}}_{m} |})

其中l，m分别表示模型中第l个和第m个高斯分量，其中l，m分别表示模型中第l个和第m个高斯分量，N代表数据样本的个数，

分别表示第l个和第m个高斯分量的权值，

分别表示第l个和第m个高斯分量的协方差矩阵，∑_(l，m)表示第l个和第m个高斯分量的协方差矩阵；

不断合并距离最近的两个高斯分量，得到新的K值并计算相应的最小描述长度准则MDL(K，θ)，当K＝1时迭代终止，挑选迭代过程中最小的MDL(K，θ)值所对应的K值作为最优值，MDL(K，θ)公式如下：

MDL (K, θ) = - \log G_{x} (x | K, θ) + \frac{1}{2} L \log (NM)

其中K表示高斯分量个数，θ＝(ω，μ，∑)表示估计的参数，M表示样本中数据的维数，N代表数据样本的个数，

1d4)利用期望最大化算法EM估计最优K值下的参数ω，μ，∑的最优值，建立肤色模型。

1e)手动切割包含头发区域的图像I，重复上述步骤1b)-1d)，建立头发区域模型；

1f)将肤色模型与头发区域模型级联，建立双高斯混合模型。

步骤2，利用贝叶斯模型，剔除肤色区域中的头发区域。

得到双高斯混合模型后，对图像I的肤色区域的每一个像素点，利用贝叶斯公式分别计算其属于肤色区域模型的概率P₁以及属于头发区域模型的概率P₂，当属于肤色区域模型的概率P₁较大时，保留该像素点，否则擦除该像素点，最终，剔除肤色区域中的头发区域，该贝叶斯公式为：

p (V_{i} | θ, K) = \frac{p (θ, K | V_{i}) p (V_{i})}{p (θ, K)}

其中，V_i的i＝1，2分别表示属于肤色区域和头发区域，θ＝(ω，μ，∑)，ω，μ，∑分别表示高斯混合模型的权重、均值向量及协方差矩阵，K表示高斯分量个数。

步骤3，用高斯差分DoG算子检测图像肤色区域中的角点、斑点等显著特征点。

3a)定义高斯差分DoG算子：D(x，y，σ)＝L(x，y，k_iσ)-L(x，y，k_jσ)，其中L(x，y，kσ)为图像I(x，y)与尺度可变高斯函数

的卷积；

3b)去除非鉴别性特征点：

由于步骤2a)中定义的DoG图像的极值在横跨边缘的地方有较大的主曲率，而在垂直边缘的方向有较小的主曲率，故要找到并去除满足这些主曲率的特征点，从而去除边缘对提取特征点的影响，从而检测到斑点、角点等显著性视觉特征点的集合{F₁(x，y，σ)，F₂(x，y，σ)L，F_N(x，y，σ)}，其中(x，y)表示特征点F的坐标，s表示特征点F的尺度；

步骤4，进一步去除步骤3中检测到的特征点中的位于肤色区域边缘的特征点：由于图像通过步骤3处理后，在皮肤与背景相交处的边缘区域仍存在大量的显著特征点，对于不良信息分类来说，这些点不具有鉴别性，为此，要进一步去除这些特征点，保留有鉴别性的局部特征点F(x，y，σ)。

步骤5，对于通过步骤4保留下来的局部特征点F(x，y，σ)，采用尺度不变特征转换SIFT特征进行描述，每个特征点被表示成128维的特征向量f。

步骤6，训练码本：

6a)对包含M幅正常图像和不良图像的训练集合中的每幅图像，进行上述步骤1-5，得到M幅图像的特征向量组成的特征矩阵；

6b)对特征矩阵中的特征向量进行cosine距离测度下的K均值聚类，得到这些特征的C个聚类中心，定义每个聚类中心为一个视觉单词，用C个视觉单词组成该类图像的码本集合W＝{w₁，w₂，L，w_C}，其中，w表示视觉单词，C表示码本中视觉单词的数目；

6c)对训练集中每一幅图像有效特征点的SIFT描述子，通过向量量化的方法计算每个SIFT描述子与码本中每个视觉单词的距离，将SIFT描述子量化为与其最近的那个码本单词；

6d)统计第i个单词w_i在第j幅图像中发生的频次为n_ij，统计第j幅图像中所有单词发生的频次为

根据下式计算第j幅图像中第i个单词发生的词频Tf_i，j：

{Tf}_{i, j} = \frac{n_{i, j}}{Σ_{c = 1}^{c} n_{c, j}};

6e)统计包含单词w_i的正常图像的数目m_1，i，统计包含单词w_i的不良图像的数目m_2，i，用下式计算二者的比值，以此作为逆鉴别性文档词频iddf：

{iddf}_{i} = \log \frac{m_{1, i}}{m_{2, i}};

6f)计算第j幅图像中第i个单词t_i的(tf-iddf)_i，j值：

(tf-iddf)_i，j＝tf_i，j×iddf_i，

6g)统计第j幅图像中所有单词的词频-逆鉴别性文档频率tf-iddf值，将这些值按照单词在码本中出现的顺序排列成一个有权重的共现向量d_j来表示第j幅图像，所有训练图像的共现向量组成共现矩阵；

步骤7，建立隐含狄利克雷分配LDA模型：

7a)用z_i＝j表示将单词w_i分配给主题j，分别将z₁，z₂，...，z_C随机初始化为1到T之间的某个整数，即将单词w₁，w₂，...，w_C随机分配给T个主题；

7b)对从1到T的每一个主题j，都利用共现向量计算其后验概率P(z_i＝j|z_-i，w_i)值，在各主题中选择使P(z_i＝j|z_-i，w_i)值最大的主题j*为z_i的值，其中P(z_i＝j|z_-i，w_i)公式如下：

P (z_{i} = j | z_{- i}, w_{i}) = \frac{\frac{n_{- i, j}^{(w_{i})} + β}{n_{- i, j}^{(g)} + Cβ} \cdot \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i, \cdot}^{(d_{i})} + Tα}}{Σ_{j = 1}^{T} \frac{n_{- i, j}^{(w_{i})} + β}{n_{- i, j}^{(g)} + Cβ} \cdot \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i, \cdot}^{(d_{i})} + Tα}}

式中，z_-i表示所有z_k(k≠i)的分配，

表示分配给主题j与w_i相同的单词的词频-逆鉴别性文档频率tf-iddf值，

是分配给主题j所有单词的tf-iddf值之和，β根据经验赋值为0.01，C表示单词个数，

是图像d_i中分配给主题j的单词的tf-iddf值之和，

是d_i中所有被分配了主题的单词的tf-iddf值之和，T表示主题个数，α根据经验赋值为

7c)将单词w_i分配记号z_i的i值从1循环到C，通过步骤7b)得到各单词分配记号z₁，z₂，...，z_C的值，完成每个单词w₁，w₂，...w_C的主题的重新分配；

7d)重复步骤7b)-7c)，当后验概率P(z_i＝j|z_-i，w_i)的值变化不大时，迭代终止，得到z₁，z₂，...z_C最优值，从而确定单词与主题的分配关系；

7e)单词与主题的分配关系确定后，对训练集中每个图像d的主题进行参数估计，参数估计公式如下：

{\hat{θ}}_{j}^{(d)} = \frac{n_{j}^{(d)} + α}{n_{\cdot}^{(d)} + Tα}

其中，

表示对于图像d，T个主题上的多项分布，表示图像d中分配给主题j的单词个数，表示图像d中所有被分配了主题的单词个数，α根据经验赋值为

7f)通过步骤7e)得到每幅训练图像d的主题分布θ^(d)，统计每幅训练图像的混合主题分布

其中

为图像d中主题i发生的概率，T为主题的数目。

通过以上步骤7a)-7f)建立的LDA模型如图3所示。

步骤8，基于BP神经网络的分类器设计，将每幅训练图像的混合主题分布

及其类别标记输入BP神经网络得到分类器D。

二.图像测试阶段

步骤A，将测试图像输入双高斯混合模型，根据贝叶斯判别检测出皮肤区域。

步骤B，对步骤A处理后的皮肤区域，采用训练阶段步骤3和4中的高斯差分DoG算子检测图像皮肤区域中的显著特征点，并进一步去除非鉴别性的特征点。

步骤C，对步骤B得到的特征点进行尺度不变特征转换SIFT描述，每个特征点被表示成128维的特征向量。

步骤D，通过向量量化的方法将图像中的SIFT描述子量化为码本中的一个单词，将测试图像用词频-逆鉴别性文档频率法tf-iddf表示成单词的共现向量。

步骤E，将测试图像的共现向量输入到隐含狄利克雷分配LDA模型中，确定该图像的主题分布θ′＝{θ′₁，θ′₂，...θ′_T}。

步骤F，将待测图像的主题分布θ′输入到码本训练阶段步骤8得到的BP神经网络分类器D，统计出属于待测图像的概率最大的5个主题，并结合阈值法判别该图像是否属于不良图像。

Claims

1.一种基于隐含主题分析的不良图像检测方法，包括如下过程：

(1)在颜色空间YCbCr中，构建双高斯混合模型：

(1a)手动切割包含皮肤区域的图像I；

G (x | K, ω, μ, Σ) = Σ_{n = 1}^{K} ω_{n} N^{D} (x | μ_{n}, Σ_{n})

N^{D} (x | μ_{n}, Σ_{n}) = {(2 π)}^{- \frac{D}{2}} {| Σ_{n} |}^{- \frac{1}{2}} \exp {- \frac{1}{2} {(x - μ_{n})}^{T} Σ_{n}^{- 1} (x - μ_{n})}

是第n个高斯分量的D维正态密度函数；

(1e)将肤色模型与头发区域模型级联，建立双高斯混合模型；

(2)利用贝叶斯模型，剔除肤色区域中的头发区域；

2.根据权利要求1所述的不良图像检测方法，其特征在于步骤(1c)所述的利用期望最大化EM算法及最小描述长度准则MDL估计高斯混合模型的各个参数ω，μ，∑，K，其步骤如下：

(1c1)随机初始化高斯分量的个数K；

(1c2)使用期望最大化算法EM估计初始化的K值下的高斯混合模型权重ω，均值向量μ和协方差矩阵∑的参数值；

(1c3)利用距离公式d(l，m)计算高斯混合模型中每两个高斯分量的距离，选出距离最近的两个高斯分量，并将其合并为一个高斯分量，以使高斯分量的个数K减1，d(l，m)公式如下：

d (l, m) = \frac{N {\overset{&OverBar;}{ω}}_{l}}{2} \log (\frac{| Σ_{(l, m)} |}{| {\overset{&OverBar;}{Σ}}_{l} |}) + \frac{N {\overset{&OverBar;}{ω}}_{m}}{2} \log (\frac{| Σ_{(l, m)} |}{| {\overset{&OverBar;}{Σ}}_{m} |})

其中l，m分别表示模型中第l个和第m个高斯分量，N代表数据样本的个数，

分别表示第l个和第m个高斯分量的权值，

MDL (K, θ) = - \log G_{x} (x | K, θ) + \frac{1}{2} L \log (NM)

(1c4)利用最大期望算法EM估计最优K值下的参数ω，μ，∑的最优值。

3.根据权利要求1所述的不良图像检测方法，其特征在于步骤(8)所述的统计第j幅图像中所有视觉单词的词频-逆鉴别性文档频率tf-iddf值，按如下步骤进行：

(8a)统计第i个单词w_i在第j幅图像中发生的频次为n_ij，统计第j幅图像中所有单词发生的频次为

根据下式计算第j幅图像中第i个单词发生的词频tf_i，j：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{c = 1}^{C} n_{c, j}};

(8b)统计包含单词w_i的正常图像的数目m_1，i，统计包含单词w_i的不良图像的数目m_2，i，用下式计算二者的比值，以此作为逆鉴别性文档词频iddf：

{iddf}_{i} = \log \frac{m_{1, i}}{m_{2, i}};

(8c)计算第j幅图像中第i个单词t_i的(tf-iddf)_i，j值：

(tf-iddf)_i，j＝tf_i，j×iddf_i。

4.根据权利要求1所述的不良图像检测方法，其特征在于步骤(9)所述的采用基于Gibbs取样算法的LDA模型对共现向量进行LDA建模，其步骤如下：

(9a)用z_i＝j表示将单词w_i分配给主题j，分别将z₁，z₂，...，z_C随机初始化为1到T之间的某个整数，即将单词w₁，w₂，...，w_C随机分配给T个主题；

(9b)对从1到T的每一个主题j，都利用共现向量计算其后验概率P(z_i＝j|z_-i，w_i)值，在各主题中选择使P(z_i＝j|z_-i，w_i)值最大的主题j*为z_i的值，其中P(z_i＝j|z_-i，w_i)公式如下：

P (z_{i} = j | z_{- i}, w_{i}) = \frac{\frac{n_{- i, j}^{(w_{i})} + β}{n_{- i, j}^{(g)} + Cβ} \cdot \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i, \cdot}^{(d_{i})} + Tα}}{Σ_{j = 1}^{T} \frac{n_{- i, j}^{(w_{i})} + β}{n_{- i, j}^{(g)} + Cβ} \cdot \frac{n_{- i, j}^{(d_{i})} + α}{n_{- i, \cdot}^{(d_{i})} + Tα}}

式中，z_-i表示所有z_k(k≠i)的分配，

表示分配给主题j与w_i相同的单词的tf-iddf值，

是图像d_i中分配给主题j的单词的tf-iddf值之和，是d_i中所有被分配了主题的单词的tf-iddf值之和，T表示主题个数，α根据经验赋值为

(9c)将单词w_i分配记号z_i的i值从1循环到C，通过步骤(9b)得到各单词分配记号z₁，z₂，...，z_C的值，完成每个单词w₁，w₂，...w_C的主题的重新分配；

(9d)重复步骤(9b)-(9c)，当后验概率P(z_i＝j|z_-i，w_i)的值变化不大时，迭代终止，得到z₁，z₂，...z_C最优值，从而确定单词与主题的分配关系；

(9e)单词与主题的分配关系确定后，对每个图像d的主题进行参数估计，参数估计公式如下：

{\hat{θ}}_{j}^{(d)} = \frac{n_{j}^{(d)} + α}{n_{\cdot}^{(d)} + Tα}

其中，

表示对于图像d，T个主题上的多项分布，

表示图像d中分配给主题j的单词个数，

表示图像d中所有被分配了主题的单词个数，α根据经验赋值为

(9f)通过步骤(9d)得到图像的主题分布θ，统计每幅训练图像的混合主题分布

其中为主题i发生的概率，T为主题的数目。