CN101751438A - 自适应语义驱动的主题网页过滤*** - Google Patents

自适应语义驱动的主题网页过滤*** Download PDF

Info

Publication number
CN101751438A
CN101751438A CN200810240359A CN200810240359A CN101751438A CN 101751438 A CN101751438 A CN 101751438A CN 200810240359 A CN200810240359 A CN 200810240359A CN 200810240359 A CN200810240359 A CN 200810240359A CN 101751438 A CN101751438 A CN 101751438A
Authority
CN
China
Prior art keywords
webpage
module
semantic
theme
drives
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810240359A
Other languages
English (en)
Other versions
CN101751438B (zh
Inventor
张文生
杨彦武
刘琰琼
李益群
肖宪
梁玉旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2008102403590A priority Critical patent/CN101751438B/zh
Publication of CN101751438A publication Critical patent/CN101751438A/zh
Application granted granted Critical
Publication of CN101751438B publication Critical patent/CN101751438B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自适应语义驱动的主题网页过滤***,该***能针对不同的网页集自适应的选用不同的处理方法得到一棵分类语义树,包括爬虫、文本分类以及文本层次聚类;然后采用一种新的网页评估算法——语义驱动的主题网页算法来计算网页的STP值,即对主题相关度及其本身网页重要性两方面的综合评估。对于不同应用,经过多次测试选择一个过滤效果最好的阈值,对STP值低于该阈值的网页进行舍弃。本方法提出了对不同网页集分别对待的思想,对***资源利用率和网页主题相关度准确率有很大改进,并提出一种语义驱动的STP算法,改善了原来PageRank的不足,能够很好的过滤不相关网页。

Description

自适应语义驱动的主题网页过滤***
技术领域
本发明涉及垂直搜索引擎技术领域以及网络信息过滤技术领域,尤其涉及一种自适应语义驱动的网页主题信息过滤***,用于在网页集群中过滤掉与主题不相关的网页,为垂直搜索引擎提供搜索源集合或者过滤掉不良信息,使网络不受恶意信息的侵扰。
背景技术
随着Intemet的日益普及和迅猛发展,人们对网络的依赖程度越来越高,但Intemet的开放性、平等性、无界性等特征又导致了网络的无限制滥用,大量的垃圾及敏感信息充斥于网络,如何滤除这些垃圾及敏感信息,消除网络带来的消极及负面影响已成为Intenet信息服务须解决的关键问题之一,而解决这一问题的最有效技术手段就是进行信息过滤。
信息过滤是根据用户的信息需求,运用一定的技术方法从大量的动态网络信息流中选取相关信息或剔除不相关信息的过程。通过网络信息过滤,可以减少不必要的信息传递,节约宝贵的信道资源;还可以对网络信息的流量、流向和流速进行合理的配置,使网络更加顺畅。对于用户来说,信息过滤由于剔除了大量的不相关信息的流入,可以避免塞车现象。目前,信息过滤的作用主要体现在阻挡敏感信息进入、保护内部信息安全、改善搜索引擎过滤效率等三个方面。
面向主题的网页过滤在垂直搜索中的作用重大,其中用到了多种技术来实现过滤主题不相关网页,首先用到了爬虫技术来对网页进行下载并提取一些网页集的基本特征。网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足***的一定停止条件。
同时利用了数据挖掘技术中的分类和聚类对网页集进行分析和挖掘,来提取网页的类别信息。分类技术是数据挖掘中很重要的一个方面,在很多领域都有应用,如银行贷款风险评估、入侵检测、搜索引擎等领域都有发挥着重要作用。分类首先需要对一个样本集进行特征提取,训练,后得到训练模型也就是分类器,然后针对新的样本,提取其特征用训练好的分类器进行判别类别。聚类技术也是数据挖掘所研究的一个重要课题,聚类分析就是按照一定的规律和要求对事物进行区分和分类的过程,在这一过程中没有任何关于类分的先验知识,没有指导,仅靠事物间的相似性作为类属划分的准则。
在对网页主题相关度的评估中,利用了语义网技术来设计一种相关度算法。语义网(Semantic Web)是一种能理解人类语言的智能网络,它不但能够理解人类的语言,而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。语义需要理解文本的意思和结构,而与显示方式无关。语义网和人工智能(AI)所用的工具有一些相同(比如本体、推理、逻辑等),但它们的目标是完全不同的。实际上,语义网的目标是更为适度的:语义网并不是要构建一个通用的、综合性的、基于Internet的智能***,而是要实现Web上数据集间的互操作(无论数据是结构化、非结构化还是半结构化的)——这一目标更具实践性,更为适度。
在对网页重要性的评估中,利用网页排名(PageRank)技术,PageRank技术是Google用于评测一个网页“重要性”的一种方法。PageRank能够对网页的重要性做出客观的评价。PageRank并不计算直接链接的数量,而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样,PageRank会根据网页B所收到的投票数量来评估该页的重要性。此外,PageRank还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的PageRank较高,从而显示在搜索结果的顶部。
发明内容
(一)要解决的技术问题
本发明的主要目的是提供一种能最大化利用***资源、主题相关检测准确、对不同类型、规模的网页集过滤效果鲁棒、耗时少的自适应语义驱动的主题网页过滤***,以实现对网页重要性以及和给定主题相关度的评测,并过滤掉不重要及相关度低的网页。
(二)技术方案
为达到上述目的,本发明提供了一种自适应语义驱动的主题网页过滤***,该方法主要技术内容手段包括:
1)爬虫模块,用于得到原始网页集合,抽取网页分类语义树,并得到Web链接的一些知识;包括智能判断模块、语义树抽取模块、链接知识抽取模块。智能判断模块根据网页源的入口种子网页及其最近几层子孙网页,同时利用URL归属关系进行智能的判断是否网页具有类别信息;语义树抽取模块主要的工作是根据各个网页的链接嵌套关系,通过锚文本以及网页本身内容上的分类信息来抽取得到语义树;链接知识抽取模块主要工作是根据网页之间链接接关系,抽取网页之间的链接矩阵以及URL归属关系。
2)分类模块,用于对已有语义树框架的网页集,根据网页内容进行文本分类,并将网页挂靠到语义树上;
3)聚类模块,用于对没有分类信息的网页集,根据网页内容进行文本层次聚类,并将聚类得到的结果形成语义树;
4)网页分析处理模块,用于对网页进行模块划分、信息抽取、分词并提取特征;包括内容结构划分模块、分词模块、特征向量构建模块。内容结构划分模块采用VIPS算法,将网页分成了标题、正文、广告、外部链接和图片视频等各个部分;分词模块针对中文和英文分别采取了ICTCLAS算法和自主设计的英文分词算法将网页的文字内容分成了单独的词语,并用TFIDF方案对词频进行加权。特征向量构建模块考量不同内容块的重要性并在词频权值基础上赋予不同的权值,选取归一化后大于测试所得阈值的权值所对应的词语为特征向量。
5)STP值计算模块,STP值计算模块采用PageRank算法,同时利用语义网技术进行主题相关度加强。
6)网页过滤模块,对于不同应用,经过多次测试选择一个过滤效果最好的阈值,对STP值低于该阈值的网页进行舍弃,从而过滤主题不相关的网页。
(三)有益效果
从上述技术方案可以看出,本发明具有以下有益效果:
1、本发明提供的这种自适应语义驱动的主题网页过滤***,是一种能最大利用***资源、主题相关检测准确、对不同类型、规模的网页集过滤效果鲁棒、耗时少的***,可以实现对网页重要性以及和给定主题相关度的评测,并过滤掉不重要及相关度低的网页。
2、本发明采用的爬虫模块包含了智能判别模块,对有类别信息的网页和没有类别信息的网页分别以适合各自的方法进行处理,构建语义树,而不都是按最复杂情形来对待,这样可以为***的运行节省很多时间和资源。
3、本发明在处理没有类别信息的网页时,采用了BIRCH层次聚类方法来构建语义树,为杂乱无章的网页构建有语义归属及上下级的结构,方便了STP值的计算及主题网页的过滤。
4、本发明在处理部分网页有完整语义树信息,而网页集中其他网页无类别信息的网页集时,采用了SVM分类算法来对那些杂乱无章的网页进行分类挂靠到语义树下,方便了STP值的计算及主题网页的过滤。
5、本发明在网页分析处理模块中,构建网页特征向量时,首先采用VIPS算法对网页分内容模块加不同的权,使的得出的特征向量更能准确的代表网页。
6、本发明提出了一种全新的语义树相关度计算方法来计算网页之间的以及网页和主题的相关度,相对于信息检索领域的向量模型、概率模型等计算相关度的经典算法更加快速,更加准确。
7、本发明提出了STP值计算方法,加强了传统PageRank技术对网页重要性的评测,使得网页的主题相关度也成为过滤网页的一个重要指标。
附图说明
图1是本发明提供的自适应语义驱动的主题网页过滤***的总体结构示意图;
图2是本发明提供的自适应语义驱动的主题网页过滤***中爬虫模块的结构示意图;
图3是本发明提供的自适应语义驱动的主题网页过滤***中网页分析处理模块的结构示意图;
图4是本发明提供的自适应语义驱动的主题网页过滤***中STP值计算模块的工作原理意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1所示,图1是本发明提供的自适应语义驱动的主题网页过滤***的总体结构示意图。该***包括:爬虫模块、网页分析处理模块、分类模块、聚类模块、STP值计算模块以及网页过滤模块。其中,爬虫模块直接对网页源集合进行爬取,其主要目的是为后面的模块提供源数据和语义树结构以及在计算中用到的链接知识如链接矩阵等,同时其中设立的智能判别模块能对下载的网页集判断其是否有分类信息,以便挑选合适的后续模块及算法进行处理;分类模块是对有分类树信息同时仍有大量未知类别信息的网页的这个分支进行处理,利用SVM算法对未知类别的信息分类确定其类别,挂靠到语义树上;聚类模块是对没有类别信息的网页这个分支进行处理,利用Birch层次聚类算法将网页聚类成为语义树;网页分析处理模块的主要工作是对在语义树下挂靠的网页进行特征提取,构建特征向量用于分类模块、聚类模块和语义树相似度计算中,首先根据VIPS算法将内容分块,然后对各块内容分词处理,并用TFIDF方案对词频进行加权。依不同内容块的重要性并在词频权值基础上赋予不同的权值,选取归一化后大于测试所得阈值的权值所对应的词语为特征向量;STP值计算模块是利用网页分析处理模块得到的特征向量,同时利用爬虫所建立的语义树结构和链接矩阵,按照自主提出的STP算法来最终得到网页的STP值;过滤模块是依据网页的STP值,与设定的阈值进行比较对网页进行取舍。
如图2所示,图2是本发明提供的自适应语义驱动的主题网页过滤***中爬虫模块的结构示意图,该模块包括:智能判别模块、语义树抽取模块、网页下载模块及链接知识抽取模块。其中,网页下载模块先下载种子网页的源文件,从中查找其下一层的链接URL利用多线程技术迭代的下载这些网页的源码。语义树抽取模块利用锚文本的分布以及网页本身所具备的分类统计信息来根据超链接嵌套关系抽取分类语义树;链接知识抽取模块对网页之间URL的超链接的层次关系进行抽取处理,计算得到链接矩阵,同时通过URL聚类算法,识别父子URL类别归属信息。智能判别模块能对下载的网页集判断其是否有分类信息,以便挑选合适的后续模块及算法进行处理。智能判别信息通过上述模块得到的信息智能的判别爬虫爬取的网页是否具有语义分类树信息,以进入下面的分支。
如图3所示,图3是本发明提供的自适应语义驱动的主题网页过滤***中网页分析处理模块的结构示意图,该模块包括内容结构划分模块、分词模块和特征向量构建模块。其中,内容结构划分模块利用VIPS算法将网页原文分为标题、正文、广告、外部链接和图片视频等各个语义块。分词模块利用ICTCLAS算法和自主设计的英文分词算法将上一模块所分的各个部分分词成为单独的词语,并用TFIDF方案对词频进行加权;特征向量构建模块对内容结构划分模块划分出来的不同语义块的单词赋予不同的权值,标题的单词权重较大,而广告、外部链接等的权重设置为0,同时排除停用词,对单词词频和权重的乘积进行归一化后通过测试选取一个阈值以选择最能代表网页的内容的单词序列以及其权重值作为网页的特征向量。
如图4所示,图4是本发明提供的自适应语义驱动的主题网页过滤***中STP值计算模块的工作原理图。在这个模块中,我们提出了STP算法,是根据语义树即语义分类树来进行计算主题相关度,得到语义矩阵,同时利用语义矩阵加强PageRank网页重要性算法而提出的网页综合评估算法。其中,分类树是一个由类别节点组成的层次结构,我们所采用的基于层次的相似度衡量方法,在考虑两个节点之间的关系时,既考虑了他们之间的不同和相同之处,还考虑了它们的上下位关系。这棵分类树由N个类别和L个连接边组成。类别之间有不同的连接关系,比如继承关系和部分-整体关系。比如,H是一棵分类树,一个类别的深度就是指从树的根部到这个类别的连接的边的数量。两个类别之间的关系,既跟在分类树中连接两个类别的连接的边的数量有联系,也跟他们共同和不同的父类别组成的集合的数量有联系。在类层次结构中,基于类别的深度和密度,类别之间的连接和类别都被赋予了不同的权值来表示他们的重要性。两个类别之间的主题相关度计算公式为:
Sim ( C 1 , C 2 ) = β | sup ( C 1 ) ∩ sup ( C 2 ) | | sup ( C 1 ) ∪ sup ( C 2 ) | + α | sup ( C 1 / C 2 ) | - ( 1 - α ) | sup ( C 2 / C 1 ) |
其中,sup(C1)表示C1的超类,sup(C1/C2)表示属于C1的超类但不属于C2的超类的集合。
式中θ是一个在[0,1]之间的参数,其权值由类别C1和C2之间的距离和他们的最近共同祖先,以及C1和C2的兄弟数目决定。
α ( C 1 , C 2 )
= dis ( C 1 , LCA ( C 1 , C 2 ) ) × sib ( C 1 ) dis ( C 1 , LCA ( C 1 , C 2 ) ) × sib ( C 1 ) + dis ( C 2 , LCA ( C 1 , C 2 ) ) × sib ( C 2 )
其中,LCA(C1,C2)表示C1和C2的最近共同祖先,dis(C1,C2)表示类别C1和C2之间连接的边的数量,sib(C1)表示C1的最近祖先的兄弟的数量。式中β为一个深度参数,
Figure G2008102403590D0000074
相似度函数产生的值在[0,1],当两个类别是同类时,其值为最大值1,即是C1=C2。
如图4所示,在计算得到网页的主题相关度后,可以得到一个所有网页之间的语义相关度矩阵,在PageRank算法中,对链接矩阵加权相关度矩阵,最终得到所有网页的STP值。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种自适应语义驱动的主题网页过滤***,其特征在于,该***包括:
一爬虫模块,用于得到原始网页集合,抽取网页分类语义树,并得到Web链接的一些知识;
一分类模块,用于根据内容对网页进行分类,并将网页挂靠到语义树上;
一聚类模块,用于根据内容对网页进行聚类,并将聚类得到的结果形成语义树;
一网页分析处理模块,用于对网页进行模块划分、信息抽取、分词并提取特征;
一语义驱动的主题网页STP值计算模块,用于通过语义树和链接知识计算STP值;
一网页过滤模块,用于根据设定的阈值过滤掉与主题不相关的网页。
2.根据权利要求1所述的自适应语义驱动的主题网页过滤***,其特征在于,该爬虫模块包含:
一智能判断模块,用于判断网页是否具有分类信息;
一语义树抽取模块,用于对拥有分类信息的网页集进行语义树抽取;
一链接知识抽取模块,用于抽取得到链接矩阵及URL归属信息。
3.根据权利要求2所述的自适应语义驱动的主题网页过滤***,其特征在于,该智能判断模块根据网页源的入口种子网页以及其最近几层子孙网页,同时利用URL归属关系判断网页是否具有类别信息。
4.根据权利要求2所述的自适应语义驱动的主题网页过滤***,其特征在于,该语义树抽取模块用于根据网页本身的分类信息来提取网页集合的分类语义树。
5.根据权利要求2所述的自适应语义驱动的主题网页过滤***,其特征在于,该链接知识抽取模块用于根据网页之间链接接关系,抽取网页之间的链接矩阵以及URL归属关系。
6.根据权利要求1所述的自适应语义驱动的主题网页过滤***,其特征在于,该分类模块通过已有语义树的框架,分类网页并将其挂靠到语义树上。
7.根据权利要求1所述的自适应语义驱动的主题网页过滤***,其特征在于,该聚类模块对没有类别信息的网页进行聚类而得到语义树。
8.根据权利要求1所述的自适应语义驱动的主题网页过滤***,其特征在于,该网页分析处理模块包括:
一内容结构划分模块,用于将网页根据内容划分为各个功能块;
一分词模块,用于将网页的内容分词;
一特征向量构建模块,用于提取网页一系列特征,构建特征向量。
9.根据权利要求8所述的自适应语义驱动的主题网页过滤***,其特征在于,该内容结构划分模块采用VIPS算法,将网页分成了标题、正文、广告、外部链接和图片视频。
10.根据权利要求8所述的自适应语义驱动的主题网页过滤***,其特征在于,该分词模块针对中文和英文分别采取了ICTCLAS算法和自主设计的英文分词算法,将网页的文字内容分成了单独的词语,同时利用TFIDF方案对语频进行加权。
11.根据权利要求8所述的自适应语义驱动的主题网页过滤***,其特征在于,该特征向量构建模块考量不同内容块的重要性,并在词频权值基础上赋予不同的权值,选取归一化后权值大于测试得到阈值的词语为特征向量。
12.根据权利要求1所述的自适应语义驱动的主题网页过滤***,其特征在于,该STP值计算模块采用传统PageRank算法,同时利用语义网技术进行主题相关度加强。
13.根据权利要求1所述的自适应语义驱动的主题网页过滤***,其特征在于,该网页过滤模块,通过测试所得阈值过滤主题不相关的网页。
CN2008102403590A 2008-12-17 2008-12-17 自适应语义驱动的主题网页过滤*** Expired - Fee Related CN101751438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102403590A CN101751438B (zh) 2008-12-17 2008-12-17 自适应语义驱动的主题网页过滤***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102403590A CN101751438B (zh) 2008-12-17 2008-12-17 自适应语义驱动的主题网页过滤***

Publications (2)

Publication Number Publication Date
CN101751438A true CN101751438A (zh) 2010-06-23
CN101751438B CN101751438B (zh) 2012-08-22

Family

ID=42478429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102403590A Expired - Fee Related CN101751438B (zh) 2008-12-17 2008-12-17 自适应语义驱动的主题网页过滤***

Country Status (1)

Country Link
CN (1) CN101751438B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫***及其实现方法
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN102662954A (zh) * 2012-03-02 2012-09-12 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫***的实现方法
CN102663022A (zh) * 2012-03-21 2012-09-12 浙江盘石信息技术有限公司 一种基于url的分类识别方法
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析***及方法
CN103034922A (zh) * 2011-09-30 2013-04-10 国际商业机器公司 用于改进信息资产的分类的细分和校准方法和***
CN103218400A (zh) * 2013-03-15 2013-07-24 北京工业大学 基于链接与文本内容的网络社区用户群划分方法
CN103646078A (zh) * 2013-12-11 2014-03-19 北京启明星辰信息安全技术有限公司 一种实现互联网宣传监测目标评估的方法及装置
CN103853654A (zh) * 2012-11-30 2014-06-11 国际商业机器公司 网页测试路径的选择方法和装置
CN103885977A (zh) * 2012-12-21 2014-06-25 腾讯科技(深圳)有限公司 一种网页数据的分类方法、装置和***
CN105740460A (zh) * 2016-02-24 2016-07-06 中国科学技术信息研究所 网页搜集推荐方法和装置
CN106168977A (zh) * 2016-07-15 2016-11-30 河南山谷网安科技股份有限公司 一种用于网站安全监测的栏目识别方法
CN106202206A (zh) * 2016-06-28 2016-12-07 哈尔滨工程大学 一种基于软件聚类的源码功能搜索方法
CN108090098A (zh) * 2016-11-22 2018-05-29 科大讯飞股份有限公司 一种文本处理方法及装置
CN108133027A (zh) * 2017-12-28 2018-06-08 中译语通科技(青岛)有限公司 一种基于网络爬虫的机器自动分类方法
CN109086359A (zh) * 2018-07-19 2018-12-25 河海大学 一种基于大数据的防浪林树种评估方法
CN109388768A (zh) * 2018-08-31 2019-02-26 中国科学院计算技术研究所 一种基于附加分支处理服务的采集方法和***
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN111914201A (zh) * 2020-08-07 2020-11-10 腾讯科技(深圳)有限公司 网络页面的处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1402156A (zh) * 2001-08-22 2003-03-12 威瑟科技股份有限公司 网站信息提取***与方法
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及***
CN101236563A (zh) * 2008-02-01 2008-08-06 刘峰 智能个性化服务网站构造方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054028A (zh) * 2010-12-10 2011-05-11 黄斌 具备页面渲染功能的网络爬虫***及其实现方法
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN103034922B (zh) * 2011-09-30 2017-05-03 国际商业机器公司 用于改进信息资产的分类的细分和校准方法和***
CN103034922A (zh) * 2011-09-30 2013-04-10 国际商业机器公司 用于改进信息资产的分类的细分和校准方法和***
CN102662954B (zh) * 2012-03-02 2014-08-13 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫***的实现方法
CN102662954A (zh) * 2012-03-02 2012-09-12 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫***的实现方法
CN102663022A (zh) * 2012-03-21 2012-09-12 浙江盘石信息技术有限公司 一种基于url的分类识别方法
CN102663022B (zh) * 2012-03-21 2015-02-11 浙江盘石信息技术有限公司 一种基于url的分类识别方法
CN103023714B (zh) * 2012-11-21 2015-12-23 上海交通大学 基于网络话题的活跃度与集群结构分析***及方法
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析***及方法
CN103853654A (zh) * 2012-11-30 2014-06-11 国际商业机器公司 网页测试路径的选择方法和装置
CN103853654B (zh) * 2012-11-30 2017-03-01 国际商业机器公司 网页测试路径的选择方法和装置
CN103885977A (zh) * 2012-12-21 2014-06-25 腾讯科技(深圳)有限公司 一种网页数据的分类方法、装置和***
CN103885977B (zh) * 2012-12-21 2019-02-05 腾讯科技(深圳)有限公司 一种网页数据的分类方法、装置和***
CN103218400A (zh) * 2013-03-15 2013-07-24 北京工业大学 基于链接与文本内容的网络社区用户群划分方法
CN103218400B (zh) * 2013-03-15 2017-04-05 北京工业大学 基于链接与文本内容的网络社区用户群划分方法
CN103646078B (zh) * 2013-12-11 2017-01-25 北京启明星辰信息安全技术有限公司 一种实现互联网宣传监测目标评估的方法及装置
CN103646078A (zh) * 2013-12-11 2014-03-19 北京启明星辰信息安全技术有限公司 一种实现互联网宣传监测目标评估的方法及装置
CN105740460B (zh) * 2016-02-24 2019-07-19 中国科学技术信息研究所 网页搜集推荐方法和装置
CN105740460A (zh) * 2016-02-24 2016-07-06 中国科学技术信息研究所 网页搜集推荐方法和装置
CN106202206B (zh) * 2016-06-28 2020-02-14 哈尔滨工程大学 一种基于软件聚类的源码功能搜索方法
CN106202206A (zh) * 2016-06-28 2016-12-07 哈尔滨工程大学 一种基于软件聚类的源码功能搜索方法
CN106168977A (zh) * 2016-07-15 2016-11-30 河南山谷网安科技股份有限公司 一种用于网站安全监测的栏目识别方法
CN106168977B (zh) * 2016-07-15 2019-07-02 山谷网安科技股份有限公司 一种用于网站安全监测的栏目识别方法
CN108090098A (zh) * 2016-11-22 2018-05-29 科大讯飞股份有限公司 一种文本处理方法及装置
CN108090098B (zh) * 2016-11-22 2022-02-25 科大讯飞股份有限公司 一种文本处理方法及装置
CN108133027A (zh) * 2017-12-28 2018-06-08 中译语通科技(青岛)有限公司 一种基于网络爬虫的机器自动分类方法
CN109086359A (zh) * 2018-07-19 2018-12-25 河海大学 一种基于大数据的防浪林树种评估方法
CN109388768A (zh) * 2018-08-31 2019-02-26 中国科学院计算技术研究所 一种基于附加分支处理服务的采集方法和***
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN111914201A (zh) * 2020-08-07 2020-11-10 腾讯科技(深圳)有限公司 网络页面的处理方法及装置
CN111914201B (zh) * 2020-08-07 2023-11-07 腾讯科技(深圳)有限公司 网络页面的处理方法及装置

Also Published As

Publication number Publication date
CN101751438B (zh) 2012-08-22

Similar Documents

Publication Publication Date Title
CN101751438B (zh) 自适应语义驱动的主题网页过滤***
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN104063472B (zh) 一种优化训练样本集的knn文本分类方法
CN108629633A (zh) 一种基于大数据建立用户画像的方法及***
CN103345528B (zh) 一种基于关联分析和knn的文本分类方法
CN103226948B (zh) 一种基于声学事件的音频场景识别方法
CN106022300A (zh) 基于级联深度学习的交通标志识别方法和***
CN105654144B (zh) 一种基于机器学习的社交网络本体构建方法
CN109948668A (zh) 一种多模型融合方法
CN104965867A (zh) 基于chi特征选取的文本事件分类方法
CN105447504A (zh) 一种交通模式行为识别方法及相应的识别模型构建方法
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN108491859A (zh) 基于自动编码机的驾驶行为异质性特征的识别方法
CN103886108A (zh) 一种不均衡文本集的特征选择和权重计算方法
CN102129568A (zh) 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法
CN104361059A (zh) 一种基于多示例学习的有害信息识别和网页分类方法
CN103914538B (zh) 基于锚文本上下文和链接分析的主题抓取方法
CN108021715A (zh) 基于语义结构特征分析的异构标签融合***
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
Nag Chowdhury et al. Towards leveraging commonsense knowledge for autonomous driving
CN103294811A (zh) 考虑特征可靠性的视频分类器构造方法
CN110334180A (zh) 一种基于评论数据的移动应用安全性评估方法
CN104537392B (zh) 一种基于判别性语义部件学习的对象检测方法
Song et al. A method of the feature selection in hierarchical text classification based on the category discrimination and position information
CN103294828B (zh) 数据挖掘模型维度的验证方法和验证装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120822

Termination date: 20211217

CF01 Termination of patent right due to non-payment of annual fee