CN104361059A - 一种基于多示例学习的有害信息识别和网页分类方法 - Google Patents

一种基于多示例学习的有害信息识别和网页分类方法 Download PDF

Info

Publication number
CN104361059A
CN104361059A CN201410609728.4A CN201410609728A CN104361059A CN 104361059 A CN104361059 A CN 104361059A CN 201410609728 A CN201410609728 A CN 201410609728A CN 104361059 A CN104361059 A CN 104361059A
Authority
CN
China
Prior art keywords
webpage
effective image
bag
text
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410609728.4A
Other languages
English (en)
Other versions
CN104361059B (zh
Inventor
胡卫明
胡瑞光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin Zhongke Beijing Intelligent Technology Co ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410609728.4A priority Critical patent/CN104361059B/zh
Publication of CN104361059A publication Critical patent/CN104361059A/zh
Application granted granted Critical
Publication of CN104361059B publication Critical patent/CN104361059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多示例学习的网页分类方法,该方法包括:设计了相对大小排序前向比较法来提取网页内有效图像,并根据网页树状结构提取有效图像的相关文本;将一幅有效图像及其相关文本作为网页包中的一个示例,分别采用图像词包模型和文本词包模型生成有效图像及其相关文本的描述,并将二者合并起来作为示例的描述;采用多示例核对毒品网页进行分类。本发明的方法,通过将网页中内含的图像及其相关文本作为网页包中的示例,使算法更符合网页内容的实际分布,并能够充分利用网页的有效信息,深入挖掘图像信息与文本信息的互补性,最终取得比只利用单模态信息进行分类更好的效果。

Description

一种基于多示例学习的有害信息识别和网页分类方法
技术领域
本发明涉及网络内容安全领域,更具体地涉及一种基于多示例学习的有害信息识别和网页分类方法。
背景技术
互联网在促进社会进步与发展的同时,也为各种有害信息的传播提供了极大的便利。这些有害信息日益危害着正常的社会活动和健康的价值体系,对青少年的健康成长尤为不利。最大限度地发挥互联网的积极作用,抑制或消除它的消极作用,将有利于净化互联网环境,促进社会进步,呵护青少年的健康成长。互联网有害信息包括色情、毒品、暴力、恐怖、反动等,其中毒品信息的危害与其他有害信息的危害相比,有过之而无不及。
在互联网中,网页以超文本标记语言(Hyper Text Mark-up Language,HTML)文件的形式存在,HTML文件本质上是文本文件,因此,通常的网页分类方法主要利用文本信息,其中最主要的就是词包模型。词包模型的原理是:首先选择一些关键词(key),组成文本词典;然后统计每一个关键词在文档或网页中的频数,并组成一个向量;采用合适的分类器对该向量进行分类。
随着各种数字设备的广泛普及,网页中的图像数量越来越多,文本数量越来越少,只利用文本信息对网页进行分类已经不能很好地符合网页的实际形态。因此,非常有必要综合利用图像信息与文本信息来提高实际网页分类性能。
作为一个示例,图1为两个毒品网页,左图为贩卖吸毒工具的网页,右图为贩卖***的网页。可以看出,两个网页中均包含了大量的图像和少量的文本,而且图像与文本排列得非常整齐。对于这种情况,只利用文本信息已经不能很好地对其进行分类。另外,目前针对互联网上的毒品信息进行处理的相关专利或文献还非常少,迫切需要一种对毒品等有害信息进行识别处理的方法,来方便各国政府加强对互联网的监管,保护人们免受相关信息的诱惑。
发明内容
有鉴于此,本发明的目的在于提出一种符合网页内图像与本文数量实际分布情况的网页分类方法和有害信息识别方法,解决网页中有害信息的识别和自动分类的技术问题。
为实现上述目的,作为本发明的一个方面,本发明提出了一种网页分类方法,包括以下步骤:
步骤1:提取选定网页内的有效图像,并提取所述有效图像的相关文本;
步骤2:将一幅有效图像及其相关文本作为网页包中的一个示例,生成所述有效图像及其相关文本的描述,并将二者合并起来作为示例的描述;
步骤3:采用多示例核对得到的所述示例进行计算,根据计算的结果对所述选定网页进行分类。
其中,所述步骤1中采用相对大小排序前向比较法来提取所述网页内的有效图像,以及
根据网页树状结构来提取所述有效图像的相关文本。
其中,所述步骤2包括以下步骤:
步骤2a:构建网页训练集,提取所述网页训练集中有效图像的RGB-SIFT特征,聚类生成视觉词典,并采用硬编码结合和聚合的方式通过图像词包模型生成所述有效图像的特征向量;
步骤2b:利用文本词典,采用文本词包模型生成相关文本的特征向量;
步骤2c:将所述有效图像的特征向量与所述相关文本的特征向量合并起来,作为示例描述。
其中,步骤2a中所述的聚类生成视觉词典的步骤采用K-means聚类方法,得到包含1500个视觉单词的视觉词典。
其中,步骤2b中所述的文本词典包含100个对所需分类主题有代表性的关键词和100个与所需分类主题完全不相关的关键词;
所述采用文本词包模型生成相关文本的特征向量的步骤包括:
对于所述相关文本,根据所述文本词典统计生成其100维的特征向量;
步骤2c中所述将有效图像的特征向量与相关文本的特征向量合并起来的步骤包括:
将所述有效图像的1500维的特征向量与所述相关文本的100维的特征向量直接串起来,得到1600维的特征向量;以及
如果一个网页没有有效图像,则将一个1500维的零向量与所述相关文本的特征向量合并起来。
其中,所述步骤3包括:
步骤3a:采用多示例核对得到的所述示例进行计算;
步骤3b:将上述步骤得到的多示例核与支持向量机结合,对所述选定网页进行分类。
其中,所述步骤3a包括:
将步骤2中生成的一幅有效图像的示例作为一个包中的一个示例,一个网页作为一个包,对于步骤2中生成的包和包其中x为相应的示例表述,采用如下方式度量包Bi和包Bj之间的相似性:
K MI ( B i , B j ) = Σ a = 1 n i Σ b = 1 n j K p ( x ia , x jb )
其中,KMI(.,.)是多示例核,K(.,.)是传统核,p是一个正整数。
其中,所述步骤3a还包括以下步骤:
对所述的多示例核按照下式进行归一化处理:
K NMI ( B i , B j ) = K MI ( B i , B j ) K MI ( B i , B i ) K MI ( B j , B j ) ,
其中,KNMI(.,.)是归一化后的多示例核。
其中,所述步骤3b进一步包括:
将KNMI(Bi,Bj)与支持向量机结合,对所述选定网页进行分类,其中所述支持向量机的判别式如下:
f ( x ) = Σ i ∈ SV α i y i K ( x i , x ) + b
其中,SV为支持向量索引集,yi(+1或-1)是特征向量xi的类别标签,αi是相应的权重,b是偏置,αi的值和b的值皆通过训练得到;K(.,.)是传统核;以及
用KNMI(.,.)代替K(.,.)后,得到:
f ( B ) = Σ i ∈ SV α i y i K ( B i , B ) + b
作为本发明的另一个方面,本发明提出了一种网页有害信息识别方法,包括以下步骤:
步骤1:提取一个网页内的有效图像,并提取所述有效图像的相关文本;
步骤2:将一幅有效图像及其相关文本作为网页包中的一个示例,生成所述有效图像及其相关文本的描述,并将二者合并起来作为示例的描述;
步骤3:
将步骤2中生成的一幅有效图像的示例作为一个包中的一个示例,一个网页作为一个包,对于步骤2中生成的包和包其中x为相应的示例表述,采用如下方式度量包Bi和包Bj之间的相似性:
K MI ( B i , B j ) = Σ a = 1 n i Σ b = 1 n j K p ( x ia , x jb )
其中,KMI(.,.)是多示例核,K(.,.)是传统核,p是一个正整数;
将KNMI(Bi,Bj)与支持向量机结合,对所述选定网页中的有害信息进行识别,其中所述支持向量机的判别式如下:
f ( x ) = Σ i ∈ SV α i y i K ( x i , x ) + b
其中,SV为支持向量索引集,yi(+1或-1)是特征向量xi的类别标签,αi是相应的权重,b是偏置,αi的值和b的值皆通过训练得到;以及
用KNMI(.,.)代替K(.,.)后,得到:
f ( B ) = Σ i ∈ SV α i y i K ( B i , B ) + b
本发明所提出的基于多示例学习的网页分类方法,通过将网页中内含的图像及其相关文本作为网页包中的示例,使算法更符合网页内容的实际分布,并能够充分利用网页的有效信息,深入挖掘图像信息与文本信息的互补性,最终取得比只利用单模态信息进行分类更好的效果。
附图说明
图1为作为示范的两个毒品网页的截图;
图2为本发明的FOCARSS算法的Matlab风格的伪代码示意图;
图3为一幅有效图像截图及其相关文本的示意图;
图4为本发明的一个示例的描述的生成方式的流程图;
图5为作为本发明一个具体实施例的本发明的文本词典的全部关键词列表。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明的方法并不受具体硬件和编程语言的限制,用任何语言编写都可以实现本发明的方法。作为举例,本发明采用了一台具有2.83GHz中央处理器和2GB内存的计算机,并用Matlab语言实现了本发明的方法。
本发明的基于多示例学习的网页分类方法的基本流程为:
步骤1:首先进行有效信息提取,采用相对大小排序前向比较法来提取网页内有效图像,并根据网页树状结构提取有效图像的相关文本;
步骤2:根据网页内有效图像及相关文本的排列形式,将一幅有效图像及其相关文本作为网页包中的一个示例,分别采用图像词包模型和文本词包模型生成有效图像及其相关文本的描述,并将二者合并起来作为示例的描述;
步骤3:采用多示例核对网页进行分类。
下面结合附图对本发明的各个步骤进行详细的描述,其中以毒品网页作为示范进行说明。
对于步骤1,包括如下步骤:
步骤1a:采用相对大小排序前向比较法(FOrwardCompArison ofRelative Sizes Sorting,FOCARSS)来提取网页内有效图像。FOCARSS算法的Matlab风格的伪代码如图2所示。FOCARSS算法是本发明独创的算法,采用图像的相对大小,而不是绝对大小来进行排序。FOCARSS算法首先将图像大小按照由大到小的顺序排序,并计算比值矩阵;接着使用阈值β确定有效图像候选集;然后采用阈值γ对候选集进行精细分析,最终确定网页内的有效图像。阈值β和阈值γ是两个经验性阈值;通过对大量网页进行分析可以发现,阈值β取0.5、阈值γ取0.95即可达到比较满意的提取效果。
步骤1b:根据网页树状结构提取有效图像的相关文本。对于一个网页的HTML文件,通过标签提取和标签匹配,并根据标签之间的父子关系生成对应的树状结构。对于一幅有效图像,根据其名字查找其在树状结构中的对应节点,并采用局部遍历的方式查找其周围文本,以200个单词作为局部遍历的收敛条件。将有效图像的周围文本及其标签文本合并在一起作为该有效图像的相关文本。图3为一幅有效图像的截图及其相关文本的示意图。
步骤2如图4所示,包括如下步骤:
步骤2a:采用图像词包模型生成一幅有效图像的特征向量。构建训练网页集,在一个优选实施例中,共包含2243个网页,这些网页均匀地取自一些大型购物网站和新闻网站;训练网页集中所有训练网页中的共6219幅有效图像,都被用来生成视觉词典:提取每一幅有效图像的RGB-SIFT(密集采样,采样间隔为16),并对所有RGB-SIFT进行K-means聚类,得到1500个聚类中心;将每一个聚类中心作为一个视觉单词,从而可以得到包含1500个视觉单词的视觉词典。对于每幅有效图像(不管是来自训练网页还是测试网页),我们首先提取该图像的RGB-SIFT(密集采样,采样间隔为16),并根据上述视觉词典,采用硬编码结合和聚合方式生成其特征向量;具体地,硬编码指的是一个RGB-SIFT只在与其距离最近的视觉单词上有响应,且响应值为1,其余视觉单词上的响应为0;和聚合指的是对一幅有效图像的所有RGB-SIFT进行编码以后,将每一个视觉单词上的所有响应加起来,作为该单词上的最终响应;经过硬编码以及和聚合,就可以得到一幅有效图像的1500维的特征向量。特殊情况下,如果一个网页没有有效图像,我们将一个1500维的零向量作为该网页的图像特征向量。
步骤2b:采用文本词包模型来生成每幅有效图像的相关文本的特征向量。从有害信息网页和非有害信息网页,例如毒品网页和非毒品网页中精心挑选了100个有代表性的关键词,组成文本词典,如图5所示;挑选的原则是某个关键词在毒品网页中出现的次数很多,而在非毒品网页中出现的次数很少,甚至为零;这样做可以使该文本词典具有很好的代表性。对于每幅有效图像的相关文本,根据上述文本词典统计生成其100维的特征向量。特殊情况下,如果一个网页没有有效图像,则提取其正文文本,然后根据上述文本词典统计生成其特征向量。
步骤2c:对于网页中的一个示例,将其1500维的图像特征向量与100维的文本特征向量直接串起来,得到该示例的1600维的特征向量;如果一个网页中有N(N>0)个示例,就可以得到N(N>0)个1600维的特征向量。特殊情况下,如果一个网页没有有效图像,则将一个1500维的零向量与正文文本的特征向量合并起来,也可以得到一个1600维的特征向量。将其作为该网页的示例,并且该网页只有这么一个示例。
步骤3将步骤2计算所得示例作为输入,计算多示例核并进行最终的分类任务,具体包括如下步骤:
步骤3a:计算多示例核(Multi-Instance Kernel,MIK)。
多示例核用来度量包之间的相似性。设有包和包其中x为相应的示例表述。MIK采用如下方式度量包Bi和包Bj之间的相似性:
K MI ( B i , B j ) = Σ a = 1 n i Σ b = 1 n j K p ( x ia , x jb )
其中,KMI(.,.)是多示例核,K(.,.)是某种传统核,p是一个正整数。因为RBF核的p次方依然是RBF核,所以本方法选择径向基函数核(RBF核)作为K(.,.),RBF核是一种被广泛应用的核,性能良好。类似于一般的核方法,MIK也需要被归一化:
K NMI ( B i , B j ) = K MI ( B i , B j ) K MI ( B i , B i ) K MI ( B j , B j ) ,
将一个网页作为一个包,并将该网页中的有效图像的特征向量作为包中的示例,即可直接使用上述公式。
步骤3b:将KNMI(Bi,Bj)与支持向量机结合,对毒品网页进行分类。支持向量机是一种性能很好的分类器,应用场合非常广泛,其判别式如下:
f ( x ) = Σ i ∈ SV α i y i K ( x i , x ) + b
其中,SV为支持向量索引集,yi(+1或-1)是特征向量xi的类别标签,αi是相应的权重,K(.,.)是某种传统核,b是偏置;根据支持向量机的基本原理,αi的值和b的值皆通过训练得到。用KNMI(.,.)代替K(.,.),得到:
f ( B ) = Σ i ∈ SV α i y i K ( B i , B ) + b
这样就可以很自然地利用支持向量机对网页进行分类:在分类时,若某个包的输出标签为+1,则该包代表的网页即为毒品网页;否则为正常网页。
作为本发明的另一个方面,本发明还提供了一种基于多示例学习的网页有害信息识别方法,基于与上面分类方法相同的原理,对含有有害信息的网页进行识别并标记,具体步骤包括:
步骤1:提取一个网页内的有效图像,并提取所述有效图像的相关文本;
步骤2:将一幅有效图像及其相关文本作为网页包中的一个示例,生成所述有效图像及其相关文本的描述,并将二者合并起来作为示例的描述;
步骤3:
将步骤2中生成的一幅有效图像的示例作为一个包中的一个示例,一个网页作为一个包,对于步骤2中生成的包和包其中x为相应的示例表述,采用如下方式度量包Bi和包Bj之间的相似性:
K MI ( B i , B j ) = Σ a = 1 n i Σ b = 1 n j K p ( x ia , x jb )
其中,KMI(.,.)是多示例核,K(.,.)是传统核,p是一个正整数;
将KNMI(Bi,Bj)与支持向量机结合,对所述选定网页中的有害信息进行识别,其中所述支持向量机的判别式如下:
f ( x ) = Σ i ∈ SV α i y i K ( x i , x ) + b
其中,SV为支持向量索引集,yi(+1或-1)是特征向量xi的类别标签,αi是相应的权重,b是偏置,αi的值和b的值皆通过训练得到;以及
用KNMI(.,.)代替K(.,.)后,得到:
f ( B ) = Σ i ∈ SV α i y i K ( B i , B ) + b .
通过对本发明方法的技术方案的描述可知,本发明的方法能够充分利用网页的有效信息,取得比只利用单模态信息进行识别和分类更好的效果,经过对实际网站中一定数量网页的实际测试检验,本发明的方法准确度高,识别速度快,达到了很好的实用效果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页分类方法,包括以下步骤:
步骤1:提取选定网页内的有效图像,并提取所述有效图像的相关文本;
步骤2:将一幅有效图像及其相关文本作为网页包中的一个示例,生成所述有效图像及其相关文本的描述,并将二者合并起来作为示例的描述;
步骤3:采用多示例核对得到的所述示例进行计算,根据计算的结果对所述选定网页进行分类。
2.根据权利要求1所述的网页分类方法,其中所述步骤1中采用相对大小排序前向比较法来提取所述网页内的有效图像,以及
根据网页树状结构来提取所述有效图像的相关文本。
3.根据权利要求1所述的网页分类方法,其中所述步骤2包括以下步骤:
步骤2a:构建网页训练集,提取所述网页训练集中有效图像的RGB-SIFT特征,聚类生成视觉词典,并采用硬编码结合和聚合的方式通过图像词包模型生成所述有效图像的特征向量;
步骤2b:利用文本词典,采用文本词包模型生成相关文本的特征向量;
步骤2c:将所述有效图像的特征向量与所述相关文本的特征向量合并起来,作为示例描述。
4.根据权利要求3所述的网页分类方法,其中步骤2a中所述的聚类生成视觉词典的步骤采用K-means聚类方法,得到包含1500个视觉单词的视觉词典。
5.根据权利要求3所述的网页分类方法,其中步骤2b中所述的文本词典包含100个对所需分类主题有代表性的关键词和100个与所需分类主题完全不相关的关键词;
所述采用文本词包模型生成相关文本的特征向量的步骤包括:
对于所述相关文本,根据所述文本词典统计生成其100维的特征向量;
步骤2c中所述将有效图像的特征向量与相关文本的特征向量合并起来的步骤包括:
将所述有效图像的1500维的特征向量与所述相关文本的100维的特征向量直接串起来,得到1600维的特征向量;以及
如果一个网页没有有效图像,则将一个1500维的零向量与所述相关文本的特征向量合并起来。
6.根据权利要求1所述的网页分类方法,其中所述步骤3包括:
步骤3a:采用多示例核对得到的所述示例进行计算;
步骤3b:将上述步骤得到的多示例核与支持向量机结合,对所述选定网页进行分类。
7.根据权利要求6所述的网页分类方法,其中所述步骤3a包括:
将步骤2中生成的一幅有效图像的示例作为一个包中的一个示例,一个网页作为一个包,对于步骤2中生成的包和包其中x为相应的示例表述,采用如下方式度量包Bi和包Bj之间的相似性:
K MI ( B i , B j ) = Σ a = 1 n i Σ b = 1 n j K p ( x ia , x jb )
其中,KMI(.,.)是多示例核,K(.,.)是传统核,p是一个正整数。
8.根据权利要求7所述的网页分类方法,其中所述步骤3a还包括以下步骤:
对所述的多示例核按照下式进行归一化处理:
K NMI ( B i , B j ) = K MI ( B i , B j ) K MI ( B i , B i ) K MI ( B j , B j ) ,
其中,KNMI(.,.)是归一化后的多示例核。
9.根据权利要求6所述的网页分类方法,其中所述步骤3b进一步包括:
将KNMI(Bi,Bj)与支持向量机结合,对所述选定网页进行分类,其中所述支持向量机的判别式如下:
f ( x ) = Σ i ∈ SV α i y i K ( x i , x ) + b
其中,SV为支持向量索引集,yi(+1或-1)是特征向量xi的类别标签,αi是相应的权重,b是偏置,αi的值和b的值皆通过训练得到;K(.,.)是传统核;以及
用KNMI(.,.)代替K(.,.)后,得到:
f ( B ) = Σ i ∈ SV α i y i K ( B i , B ) + b
10.一种网页有害信息识别方法,包括以下步骤:
步骤1:提取一个网页内的有效图像,并提取所述有效图像的相关文本;
步骤2:将一幅有效图像及其相关文本作为网页包中的一个示例,生成所述有效图像及其相关文本的描述,并将二者合并起来作为示例的描述;
步骤3:
将步骤2中生成的一幅有效图像的示例作为一个包中的一个示例,一个网页作为一个包,对于步骤2中生成的包和包其中x为相应的示例表述,采用如下方式度量包Bi和包Bj之间的相似性:
K MI ( B i , B j ) = Σ a = 1 n i Σ b = 1 n j K p ( x ia , x jb )
其中,KMI(.,.)是多示例核,K(.,.)是传统核,p是一个正整数;
将KNMI(Bi,Bj)与支持向量机结合,对所述选定网页中的有害信息进行识别,其中所述支持向量机的判别式如下:
f ( x ) = Σ i ∈ SV α i y i K ( x i , x ) + b
其中,SV为支持向量索引集,yi(+1或-1)是特征向量xi的类别标签,αi是相应的权重,b是偏置,αi的值和b的值皆通过训练得到;以及
用KNMI(.,.)代替K(.,.)后,得到:
f ( B ) = Σ i ∈ SV α i y i K ( B i , B ) + b
CN201410609728.4A 2014-11-03 2014-11-03 一种基于多示例学习的有害信息识别和网页分类方法 Active CN104361059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410609728.4A CN104361059B (zh) 2014-11-03 2014-11-03 一种基于多示例学习的有害信息识别和网页分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410609728.4A CN104361059B (zh) 2014-11-03 2014-11-03 一种基于多示例学习的有害信息识别和网页分类方法

Publications (2)

Publication Number Publication Date
CN104361059A true CN104361059A (zh) 2015-02-18
CN104361059B CN104361059B (zh) 2018-03-27

Family

ID=52528320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410609728.4A Active CN104361059B (zh) 2014-11-03 2014-11-03 一种基于多示例学习的有害信息识别和网页分类方法

Country Status (1)

Country Link
CN (1) CN104361059B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021442A (zh) * 2016-05-16 2016-10-12 江苏大学 一种网络新闻概要提取方法
CN106055705A (zh) * 2016-06-21 2016-10-26 广东工业大学 基于最大间距多任务多示例学习的网页分类方法
CN106250924A (zh) * 2016-07-27 2016-12-21 南京大学 一种基于多示例学习的新增类别检测方法
CN107480289A (zh) * 2017-08-24 2017-12-15 成都澳海川科技有限公司 用户属性获取方法及装置
CN109241379A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种跨模态检测网络水军的方法
CN111259237A (zh) * 2020-01-13 2020-06-09 中国搜索信息科技股份有限公司 一种用于公众有害信息的识别方法
CN113254636A (zh) * 2021-04-27 2021-08-13 上海大学 一种基于示例权重离散度的远程监督实体关系分类方法
CN116992035A (zh) * 2023-09-27 2023-11-03 湖南正宇软件技术开发有限公司 一种提案智能分类的方法、装置、计算机设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及***
JP2013004093A (ja) * 2011-06-16 2013-01-07 Fujitsu Ltd マルチインスタンス学習による検索方法及びシステム
CN103218608A (zh) * 2013-04-19 2013-07-24 中国科学院自动化研究所 一种网络暴力视频的识别方法
CN103605794A (zh) * 2013-12-05 2014-02-26 国家计算机网络与信息安全管理中心 一种网站分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及***
JP2013004093A (ja) * 2011-06-16 2013-01-07 Fujitsu Ltd マルチインスタンス学習による検索方法及びシステム
CN103218608A (zh) * 2013-04-19 2013-07-24 中国科学院自动化研究所 一种网络暴力视频的识别方法
CN103605794A (zh) * 2013-12-05 2014-02-26 国家计算机网络与信息安全管理中心 一种网站分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RUIGUANG HU等: "DRUG-TAKING INSTRUMENTS RECOGNITION", 《THE FIRST ASIAN CONFERENCE ON PATTERN RECOGNITION》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021442B (zh) * 2016-05-16 2019-10-01 江苏大学 一种网络新闻概要提取方法
CN106021442A (zh) * 2016-05-16 2016-10-12 江苏大学 一种网络新闻概要提取方法
CN106055705A (zh) * 2016-06-21 2016-10-26 广东工业大学 基于最大间距多任务多示例学习的网页分类方法
CN106055705B (zh) * 2016-06-21 2019-07-05 广东工业大学 基于最大间距多任务多示例学习的网页分类方法
CN106250924A (zh) * 2016-07-27 2016-12-21 南京大学 一种基于多示例学习的新增类别检测方法
CN106250924B (zh) * 2016-07-27 2019-07-16 南京大学 一种基于多示例学习的新增类别检测方法
CN109241379A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种跨模态检测网络水军的方法
CN107480289A (zh) * 2017-08-24 2017-12-15 成都澳海川科技有限公司 用户属性获取方法及装置
CN107480289B (zh) * 2017-08-24 2020-06-30 成都澳海川科技有限公司 用户属性获取方法及装置
CN111259237A (zh) * 2020-01-13 2020-06-09 中国搜索信息科技股份有限公司 一种用于公众有害信息的识别方法
CN113254636A (zh) * 2021-04-27 2021-08-13 上海大学 一种基于示例权重离散度的远程监督实体关系分类方法
CN116992035A (zh) * 2023-09-27 2023-11-03 湖南正宇软件技术开发有限公司 一种提案智能分类的方法、装置、计算机设备和介质
CN116992035B (zh) * 2023-09-27 2023-12-08 湖南正宇软件技术开发有限公司 一种提案智能分类的方法、装置、计算机设备和介质

Also Published As

Publication number Publication date
CN104361059B (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
CN104361059A (zh) 一种基于多示例学习的有害信息识别和网页分类方法
CN103218444B (zh) 基于语义的藏文网页文本分类方法
CN101430695B (zh) 用于计算单词之间的差相关度的***和方法
CN107133213A (zh) 一种基于算法的文本摘要自动提取方法与***
US20070294223A1 (en) Text Categorization Using External Knowledge
CN104951548A (zh) 一种负面舆情指数的计算方法及***
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN107291723A (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN103559199B (zh) 网页信息抽取方法和装置
CN105653668A (zh) 云环境中基于DOMTree的网页内容分析提取优化方法
CN104615593A (zh) 微博热点话题自动检测方法及装置
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
EP2041669A2 (en) Text categorization using external knowledge
CN102945244A (zh) 基于句号特征字串的中文网页重复文档检测和过滤方法
CN104239485A (zh) 一种基于统计机器学习的互联网暗链检测方法
CN106126502A (zh) 一种基于支持向量机的情感分类***及方法
Chen et al. Learning to predict charges for judgment with legal graph
CN103530316A (zh) 一种基于多视图学习的科学主题提取方法
CN104537280B (zh) 基于文本关系相似性的蛋白质交互关系识别方法
Hassan et al. Automatic document topic identification using wikipedia hierarchical ontology
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法
Croce et al. Semantic convolution kernels over dependency trees: smoothed partial tree kernel
de Silva SAFS3 algorithm: Frequency statistic and semantic similarity based semantic classification use case

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191204

Address after: 250101 2F, Hanyu Jingu new media building, high tech Zone, Jinan City, Shandong Province

Patentee after: Renmin Zhongke (Shandong) Intelligent Technology Co.,Ltd.

Address before: 100190 Zhongguancun East Road, Beijing, No. 95, No.

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200311

Address after: Room 201, 2 / F, Hanyu Jingu new media building, no.7000, Jingshi Road, Jinan City, Shandong Province, 250000

Patentee after: Renmin Zhongke (Jinan) Intelligent Technology Co.,Ltd.

Address before: 250101 2F, Hanyu Jingu new media building, high tech Zone, Jinan City, Shandong Province

Patentee before: Renmin Zhongke (Shandong) Intelligent Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100176 1401, 14th floor, building 8, No. 8 courtyard, No. 1 KEGU street, Beijing Economic and Technological Development Zone, Daxing District, Beijing (Yizhuang group, high-end industrial area, Beijing Pilot Free Trade Zone)

Patentee after: Renmin Zhongke (Beijing) Intelligent Technology Co.,Ltd.

Address before: Room 201, 2 / F, Hangu Jinggu new media building, 7000 Jingshi Road, Jinan City, Shandong Province

Patentee before: Renmin Zhongke (Jinan) Intelligent Technology Co.,Ltd.