CN102819595A - 网页分类方法、装置及网络设备 - Google Patents
网页分类方法、装置及网络设备 Download PDFInfo
- Publication number
- CN102819595A CN102819595A CN2012102851019A CN201210285101A CN102819595A CN 102819595 A CN102819595 A CN 102819595A CN 2012102851019 A CN2012102851019 A CN 2012102851019A CN 201210285101 A CN201210285101 A CN 201210285101A CN 102819595 A CN102819595 A CN 102819595A
- Authority
- CN
- China
- Prior art keywords
- information
- participle
- word segmentation
- level
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种网页分类方法、装置及网络设备。方法包括:从网页的源文件中提取不同分类权重级别的信息;对每个分类权重级别的信息进行分词处理,获取每个分类权重级别的分词;按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对所述网页进行分类处理。本发明技术方案通过利用网页中越重要的信息对网页分类结果的影响越大的特点,优先使用分类权重级别较高的信息对网页进行分类处理,有利于降低网页中的无效信息对网页分类的影响,进而有利于提高网页分类的准确度。
Description
技术领域
本发明涉及网络通信技术,尤其涉及一种网页分类方法、装置及网络设备。
背景技术
互联网飞速发展,网页数据量急剧增长,人们已经步入一个信息丰富的时代。面对杂乱的网页信息资源,人们需要对海量的网页信息进行分类整理,从而可以快速搜索到期望的有用信息。网页自动分类提供了处理和组织大规模网页的关键技术,是使信息资源得以合理有效组织的重要方法,网页分类的准确性很大程度上依赖于网页信息的提取。
现有网页分类过程包括:对网页源文件进行网页信息提取(也可称为对网页源文件进行去噪处理),对提取的网页信息进行中文分词,根据得到的分词进行网页分类。目前,常用的网页信息提取方法,例如基于文档对象模型(Document Object Model,简称为DOM)树的方法,都存在信息提取准确率较低的缺陷,而常用的分词方法,例如字符串匹配分词、理解分词、统计分词等方法,也都存在分词不准确的缺陷,这就使得网页分类准确度较低。
发明内容
本发明提供一种网页分类方法、装置及网络设备,用以提高网页分类的准确度。
本发明一方面提供一种网页分类方法,包括:
从网页的源文件中提取不同分类权重分类权重级别的信息;
对每个分类权重级别的信息进行分词处理,获取每个分类权重级别的分词;
按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对所述网页进行分类处理。
本发明另一方面提供一种网页分类装置,包括:
信息提取模块,用于从网页的源文件中提取不同分类权重级别的信息;
分词获取模块,用于对每个分类权重级别的信息进行分词处理,获取每个分类权重级别的分词;
分类处理模块,用于按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对所述网页进行分类处理。
本发明又一方面提供一种网络设备,包括本发明提供的任一网页分类装置。
本发明提供的网页分类方法、装置及网络设备,从网页的源文件中提取不同分类权重级别的信息,然后对每个分类权重级别的信息进行分词处理,获取不同分类权重级别的分词,然后按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对网页进行分类处理,由此可见,本发明技术方案不像现有技术那样同时使用提取的全部信息对网页进行分类处理,而是通过利用网页中越重要的信息对网页分类结果的影响越大的特点,优先使用分类权重级别较高的信息对网页进行分类处理,有利于降低网页中的无效信息对网页分类的影响,进而有利于提高网页分类的准确度。
附图说明
图1为本发明一实施例提供的网页分类方法的流程图;
图2为本发明一实施例提供的各分词之间的前后关系存放的形式的示意图;
图3为本发明一实施例提供的网页分类装置的结构示意图。
具体实施方式
图1为本发明一实施例提供的网页分类方法的流程图。本实施例的执行主体为网页分类装置。如图1所示,本实施例的方法包括:
步骤101、从网页的源文件中提取不同分类权重级别的信息。
网页(英文为Web page)是一个文件,它存放在世界上某个角落的某一台计算机中,而这台计算机与互联网连接。不同网页可以通过网址,例如统一资源定位符(Uniform/Universal Resource Locator,简称为URL)进行识别与存取。例如,当用户在其使用的终端设备的浏览器中输入一网址后,该网址对应的网页就被传送到用户的终端设备,用户通过终端设备上的浏览器就可以浏览该网页。网页通常使用超文本标记语言(HyperText Mark-upLanguage,简称为HTML)格式,则网页的扩展名为.html或htm。HTML是目前网络上应用最为广泛的语言,也是构成网页文档的主要语言。HTML文件是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML文件的结构包括头部(Head)、主体(Body)两大部分,其中头部主要描述浏览器所需的信息,而主体则包含该网页所要说明的具体内容。如果网页使用HTML格式,则网页的源文件是指构成网页的HTML文件。如果网页使用其他格式,则网页的源文件是指构成网页的其他格式的文件。
在本实施例中,网页分类装置在从网页的源文件中提取信息时,对各信息进行分类权重级别划分,从而提取出不同分类权重级别的信息。其中,不同分类权重级别的信息在网页中的重要性不同,对网页分类结果的影响程度也不同,分类权重级别越高的信息,在网页中的重要性越高,对网页分类结果的影响程度也就越大。也就是说,网页中重要性较高的信息主要影响该网页所属的类别。在此说明,本实施例对网页分类装置从网页的源文件中提取多少个分类权重级别的信息不做限定。但本领域技术人员容易理解的是:从网页的源文件中提取的信息的分类权重级别越多,对信息重要性的划分就越细,如果能够使用最高或较高分类权重级别的信息确定出网页所属的类别,意味着网页分类结果越准确;另外,从网页的源文件中提取的信息的分类权重级别越多,每个分类权重级别的信息量就越少,越有利于根据这些分类权重级别的信息对网页进行分类处理,例如如果最高分类权重级别的信息即可确定网页所属的类别,则在网页分类过程中可以不用使用其他分类权重级别的信息,越有利于提高网页分类的效率,但是网页分类装置前期提取这些分类权重级别的信息的负担就会较重。
另外,网页中除了具有对网页的分类有用的信息之外,还具有大量与对网页分类无关的信息,例如一些广告信息、脚本信息、标点符号信息等,如果同时使用这些信息对网页进行分类不仅会增加对网页分类过程中的信息量而造成分类效率的降低,而且会对网页的分类造成干扰,影响对网页分类的准确性。而在本实施例中,网页分类装置在提取不同分类权重级别的信息的过程中,一方面可以将能够识别出的无用信息去除,另一方面对于无法识别出的无用信息可以将其作为分类权重级别较低的信息,而在后续优先使用分类权重级别较高的信息用于对网页的分类,有利于减少对网页分类过程中使用的信息量,提高网页分类的效率,另一方面还可以减少无用信息对网页分类的影响,提高网页分类的精确度。
在本实施例的一可选实施方式中,网页分类装置通过对网页本身的特性进行分析,将网页中的信息可分为三级,分别为:一级信息、二级信息和三级信息。其中,一级信息、二级信息和三级信息的分类权重级别依次降低。网页分类装置从网页的源文件中提取不同分类权重级别的信息的一种实施方式具体包括:
在网页的源文件中,头部信息主要包括该网页的主题名称(英文为title)、该网页使用的关键字(英文为keyword)和该网页的概述(英文为description)等信息,而这三部分信息基本上是对整个网页的概括总结,在很大程度上可以体现该网页所属的类别。本实施例的网页分类装置从网页的源文件中提取头部信息作为一级信息。
在本实施例的一可选实施方式中,如果网页的源文件中不存在头部信息,则网页分类装置可以设置一级信息为空,但不限于此。例如,网页分类装置还可以设置一级信息为预设信息。
在网页的源文件中,去除一级信息后,剩下的就是主体部分了。主体部分主要是由正文、一系列段标题或块标题、脚本信息、版权信息、标点符号信息等构成。主体部分中的不同信息对网页分类结果的影响程度也不相同。在本实施例中,网页分类装置首先从主体部分中提取二级信息,这里的二级信息主要是指正文、段标题或块标题等信息。
最后,网页分类装置从源文件中除去一级信息和二级信息之外的其他信息中,提取三级信息。这里的三级信息对分类基本没有影响,也就是说在对网页的分类过程中,基本不会使用到这部分信息。
在本实施例的一可选实施方式中,网页分类装置从主体部分中提取二级信息可以是:网页的源文件通常会使用信息表(英文为table)来存储不同位置的信息,而在网页中正文的内容通常是最长的(对应的信息量是最大的),因此,网页分类装置可以从源文件中获取信息量最大的信息表,将信息量最大的信息表中的信息认为是正文对应的信息。进一步可选的,网页分类装置为了尽可能提高获取正文的准确性,网页分类装置将信息量最大的两个信息表进行比较,判断其中一个信息表的信息量是否是另一个信息表的信息量的两倍或两倍以上,如果判断结果为是,则获取信息量是另一个信息表的信息量的两倍或两倍以上的信息表中的内容作为二级信息。另外,网页分类装置还会获取主体部分中的段标题作为二级信息。可选的,由于段标题出现的先后顺序在一定程度上意味着其在网页中的重要性,故网页分类装置优选获取在网页的源文件中第一个出现和第二个出现的段标题作为二级信息。
在本实施例的一可选实施方式中,网页分类装置从源文件中除去一级信息和二级信息之外的其他信息中提取三级信息的过程可以是:网页分类装置将其他信息中的无效信息去除,将其他信息中去除无效信息后剩余的信息作为三级信息。
这里所说的无效信息包括以下任一信息或其组合:
脚本信息,其在源文件中的形式可以是<script……</script>部分、<noscript……</noscript>部分或<style……</style>。
注释信息,其在源文件中的形式可以是<!--……-->部分、//后的一行或/*……*/。
页面底部信息,其在源文件中的形式可以是<div id="footer、<divclass="footer、©、<p class="copyright">、<div class="copyright">、版权所有或所有权利保留(英文为All Rights Reserved)。页面底部信息主要包括版权信息、网站信息反馈等,不同网页这部分包括的内容不尽相同。
隐藏内容信息,其在源文件中的形式可以是style="display:none"或者visibility:hidden。
标点符号信息,其在源文件中的形式可以是>、»、 、&、&ldquo或&rdquo。
步骤102、对每个分类权重级别的信息进行分词处理,获取每个分类权重级别的分词。
当按照以上操作从网页的源文件中提取出不同分类权重级别的信息后,就完成了对网页的去噪,接下来将是对提取到的不同分类权重级别的信息进行分词处理。
在本实施例中,网页分类装置可以使用各种分词方法,对提取到的各分类权重级别的信息进行分词处理。
在本实施例的一可选实施方式中,网页分类状态同时字符匹配分词和统计分词相结合的方式对各分类权重级别的信息进行分词,这样可以提高分词准确性,进而有利于提高基于分词处理得到的不同分类权重级别的分词进行网页分类的准确度。具体的,网页分类装置对每个分类权重级别的信息中的每个信息片段,分别进行正向分词处理和逆向分词处理,如果对所述信息片段的正向分词结果和逆向分词结果相同,则将该相同的分词结果作为该信息片段对应的分词,如果对该信息片段的正向分词结果和逆向分词结果不相同,对正向分词结果和逆向分词结果分别进行统计分词处理,获取分词组合概率较大的分词结果作为该信息片段对应的分词。其中,每个分类权重级别中所有信息片段对应的分词构成每个分类权重级别的分词。这里的分词组合概率是指分词结果中各分词组合出现的概率。在此说明,经分词处理得到的每个信息片段对应的分词的分类权重级别,与每个信息片段所属信息的分类权重级别相同。例如,由一级信息中的每个信息片段经分词处理得到的分词构成一级分词,由二级信息中的每个信息片段经分词处理得到的分词构成二级分词,等等。上述,信息片段可以是一个词、一个字、若干词的组合或者完整的句子(即一句话)。
对一个信息片段进行正向分词处理和逆向分词处理,存在两种结果。一种结果是正向分词结果和逆向分词结果一致,在这种情况下认为该正向分词结果(或是逆向分词结果)是最终分词结果,可靠性比较高。另一种结果则是正向分词结果和逆向分词结果不一致,例如:对“他说的确实在理”这句话进行正向分词处理和逆向分词处理,逆向分词结果为:他、说、的、确实、在理,而正向分词结果为:他、说、的确、实在、理,可见,正向分词结果和逆向分词结果不一致,在这种情况下引入统计分词方法,用它来判断是选择正向分词结果还是逆向分词结果作为最终结果,有利于提高分词的准确性,进而有利于提高基于得到的各级分词对网页进行分类处理的准确性。在正向分词结果和逆向分词结果不一致的情况下,除了引入统计分词方法确定最终分词结果之外,还可以直接确定逆向分词结果或正向分词结果作为最终分词结果。
上述统计分词主要依赖于统计分词关系词库,该词库用来记录词与词之间组合出现的次数。统计分词的过程主要包括:
首先是网页分词装置获取统计分词关系词库。该统计分词关系词库的获取方式包括:收集大量的文章作为训练集,这些文章要尽可能涵盖各个行业及年龄段,这样才能做到尽可能多的照顾到各个方面;这里的文章可以是语文课本,综合性报纸等等,其中通过提高文章的数量和分布的广度,可以使训练出来的统计分词关系词库更有代表性。然后,对这些文章进行逆向分词处理(原因是逆向分词正确率高于正向分词),然后记录各分词之间组合出现的次数。各分词之间组合出现的次数记录在统计分词关系词库中。例如有一个句子分词后为:ABCCBDEDADBDBEC,则各分词之间组合出现的次数如表1所示。
表1
A | B | C | D | E | |
A | - | 1 | - | 1 | - |
B | - | - | 1 | 2 | 1 |
C | - | - | 1 | - | - |
D | 1 | 2 | - | - | 1 |
E | - | - | 1 | 1 | - |
上述ABCCBDEDADBDBEC中的每个字母都代表根据逆向分词处理被切分出来的一个词,则以字母A为例,跟在字母A后面的有字母B和字母D,因此在表1中字母A所在那一行对应于字母B和字母D所在列的位置分别填充为1,再以字母B为例,跟在字母B后面的字母D出现了两次,即BD的组合出现两次,因此表1中字母B所在那一行对应于字母D所在列的位置填充为2。通过表1可以看出,某一个词向后结合一个词,则他们就添加到上述统计分词关系词库中,并将对应的出现次数加1。当然表1只是为了查看的方便,实际在内存中表1所表达的统计分词关系词库是采用链表的形式存放的,存放的形式如图2所示,这样能节省很大的内存。而A->E存放顺序采用hash值的大小排列,这样能提高查找的效率。在此说明,图2中各字母后面括号中的数字表示其与该链表中该条链头结点处的字母进行组合出现的次数。
如果有新添加的分词,则网页分类装置对上述所有的训练集进行检索,查找出包含该分词的句子并切分,查看前后关系,然后更新统计分词关系词库中各分词之间组合出现的次数。
在此说明,上述网页分类装置获取统计分词关系词库的过程可以预先执行,并不断进行更新。
其次,网页分类装置获取到统计分词关系词库之后,计算“确实、在理”和“的确、实在”这两个分词组合出现的概率,选出分词出现概率较大的作为最终分词结果。例如,表1中记录的ABD组合,AB组合出现的概率为1,而BD组合出现的概率为2,说明BD组合的出现概率较大。
由上述可见,如果对信息片段的正向分词结果和逆向分词结果不相同,网页分类装置可以对正向分词结果和逆向分词结果分别进行统计分词处理,获取分词组合概率较大的分词结果作为该信息片段对应的分词。具体的,网页分类装置将正向分词结果在预先获取的统计分词关系词库中进行查找,获取正向分词结果对应的分词组合概率,该统计分词关系词库包括各分词之间组合出现的次数。网页分类装置将逆向分词结果在统计分词关系词库中进行查找,获取逆向分词结果对应的分词组合概率。然后,网页分类装置将正向分词结果对应的分词组合概率和逆向分词结果对应的分词组合概率进行比较,如果正向分词结果对应的分词组合概率大于逆向分词结果对应的分词组合概率,将正向分词结果作为该信息片段对应的分词;如果正向分词结果对应的分词组合概率小于或等于逆向分词结果对应的分词组合概率,将逆向分词结果作为该信息片段对应的分词。
在上述一可选实施方式中,上述统计分词方法很可能出现分词组合概率为0的情况,例如表1中AC、AE组合出现的概率为0。对于这种情况,网页分类装置可以分别统计两分词被结合的次数,例如在AB组合中,A和B以及A和D均结合了一次,所以A一共被结合了2次,而B和C结合了一次、B和D结合了两次以及B和E结合了一次,所以B一共被结合了4次,而在BD组合中,B一共被结合了4次,D一共也被结合了4次。因此优先选择BD组合。如果采用结合次数两者还是一样,则采用逆向分词处理结果,因为通常逆向分词结果的准确率高于正向分词结果。
在上述一可选实施方式中,在分词过程中对于未在分词词库出现的词就无法被切分,因此对于分词词库要及时添加和更新。在本实施例的分词处理过程中,如果出现两个字及以上字的组合未被识别,且这个组合中不包含无效字词的,网页分类装置将其添加到准词组队列中,如果这个两个字及以上字的组合出现的次数大于预设次数门限,则将这个两个字及以上字的组合作为一个新分词添加到统计分词关系词库中,并重新更新各分词之间组合出现的次数。这里的准词组队列记录有各个未被识别的由两个字及以上字构成的组合,以及每个组合到目前为止出现的次数。
步骤103、按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对上述网页进行分类处理。
当网页分类装置通过上述操作,完成对网页的去噪和分词处理后,网页分类装置接下来根据获取的分词对网页进行分类处理。在本实施例中,网页分类装置不再直接同时使用所有获取到的分词进行分类处理,而是按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对网页进行分类处理,这样当使用部分较高分类权重级别的分词(例如使用最高分类权重级别的分词)能够确定网页所属的类别时,就不需要使用后续分类权重级别的分词。
以提取到三个分类权重级别的信息并获取到三个分类权重级别的分词为例,网页分类装置具体按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对网页进行分类处理的一种可选过程为:网页分类装置使用一级分词对网页进行分类处理,如果使用一级分词确定出网页所属的类别,则结束操作;如果使用一级分词未确定出网页所属的类别,同时使用一级分词和二级分词对网页进行分类处理,如果同时使用一级分词和二级分词确定出网页所属的类别,则结束操作;如果同时使用一级分词和二级分词未确定出网页所属的类别,同时使用一级分词、二级分词和三级分词对网页进行分类处理。其中,网页分类装置根据至少一个分类权重级别的分词对网页进行分类处理的过程可以按照某种规则,如果确定该网页分到某类的概率大于该类对应的预设概率门限,则认为该网页属于该类,反之,认为该网页不属于该类,继续后续操作。网页分类装置在使用两个分类权重级别或两个分类权重级别以上的分词时,可以直接使用之前分类权重级别的分词,也可以将之前分类权重级别的分词进行处理后再使用,例如将之前分类权重级别的分词的个数进行倍数放大。
由上述可见,在本实施例提供的网页分类方法中,网页分类装置从网页的源文件中提取不同分类权重级别的信息,然后对每个分类权重级别的信息进行分词处理,获取不同分类权重级别的分词,然后按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对网页进行分类处理,网页分类装置不再直接同时使用所有获取到的分词进行分类处理,而是按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对网页进行分类处理,这样当使用部分较高分类权重级别的分词能够确定网页所属的类别时,就不需要使用后续分类权重级别的分词,通过利用网页中越重要的信息对网页分类结果的影响越大的特点,优先使用分类权重级别较高的信息对网页进行分类处理,减少了无效信息对网页分类准确性的影响,提高了网页分类的准确性。另外,本实施例的方法优先使用分类权重级别较高的信息对网页进行分类处理,有利于减少对网页进行分类处理使用的信息量,提高了对网页进行分类处理的效率。
本发明技术方案的发明人通过采用上述实施例提供的方法对一批网页进行预处理然后分类,经统计获得分类结果与现有技术相比提高了四点多个百分点,表面上看提升的点并不高,但对于一个分类正确率八成五以上的分类***,能有四点几个百分点的提高,已经是非常可观的了,另外使分类速度提高12%左右。
图3为本发明一实施例提供的网页分类装置的结构示意图。如图3所示,本实施例的网页分类装置包括:信息提取模块31、分词获取模块32和分类处理模块33。
其中,信息提取模块31,用于从网页的源文件中提取不同分类权重级别的信息。分词获取模块32,与信息提取模块31连接,用于对信息提取模块31提取的每个分类权重级别的信息进行分词处理,获取每个分类权重级别的分词。分类处理模块33,与分词获取模块32连接,用于按照分类权重级别由高到低的顺序,使用分词获取模块32获取的各分类权重级别的分词对上述网页进行分类处理。
在本实施例的一可选实施方式中,信息提取模块31包括:第一信息提取单元311、第二信息提取单元312和第三信息提取单元313。
第一信息提取单元311,用于提取源文件中的头部信息作为一级信息。第二信息提取单元312,用于从源文件中的主体部分提取二级信息。第三信息提取单元313,与第一信息提取单元311和第二信息提取单元312连接,用于从源文件中除第一信息提取单元311提取的一级信息和第二信息提取单元312提取的二级信息之外的其他信息中提取三级信息。这里的一级信息、二级信息和三级信息的分类权重级别依次降低。
基于上述,分词获取模块32具体用于分别对一级信息、二级信息和三级信息进行分词处理,获取一级分词、二级分词和三级分词。分词获取模块32分别与第一信息提取单元311、第二信息提取单元312和第三信息提取单元313连接。
在本实施例的一可选实施方式中,第二信息提取单元312具体用于如果源文件的主体部分中信息量最大的两个信息表中,一个信息表的信息量是其中另一个信息表的信息量的两倍或两倍以上,从源文件的主体部分中提取信息量是另一个信息表的信息量的两倍或两倍以上的信息表,以及从源文件的主体部分中提取第一个出现和第二个出现的段标题,将所提取的信息表和段标题作为二级信息。
在本实施例的一可选实施方式中,第三信息提取单元313具体用于从源文件中除第一信息提取单元311提取的一级信息和第二信息提取单元312提取的二级信息之外的其他信息中去除无效信息,将其他信息中剩余的信息作为三级信息。这里的无效信息包括以下任一信息或其组合:脚本信息、注释信息、页面底部信息、隐藏内容信息和标点符号信息。
在本实施例的一可选实施方式中,分词获取模块32具体用于对每个分类权重级别的信息中的每个信息片段分别进行正向分词处理和逆向分词处理,如果对该信息片段的正向分词结果和逆向分词结果相同,将该相同的分词结果(即正向分词结果或逆向分词结果)作为该信息片段对应的分词。其中,每个分类权重级别中所有信息片段对应的分词构成每个分类权重级别的分词。
在本实施例的一可选实施方式中,分词获取模块32还用于如果对该信息片段的正向分词结果和逆向分词结果不相同,对正向分词结果和逆向分词结果分别进行统计分词处理,获取分词组合概率较大的分词结果作为该信息片段对应的分词。优选的,分词获取模块32更为具体的用于根据正向分词结果在预先获取的统计分词关系词库中进行查找,获取正向分词结果对应的分词组合概率,根据逆向分词结果在统计分词关系词库中进行查找,获取逆向分词结果对应的分词组合概率,如果正向分词结果对应的分词组合概率大于逆向分词结果对应的分词组合概率,将正向分词结果作为该信息片段对应的分词,如果正向分词结果对应的分词组合概率小于或等于逆向分词结果对应的分词组合概率,将逆向分词结果作为该信息片段对应的分词。这里的统计分词关系词库包括各分词之间组合出现的次数。
在本实施例的一可选实施方式中,分类处理模块33具体用于使用一级分词对网页进行分类处理,如果使用一级分词未确定出网页所属的类别,同时使用一级分词和二级分词对网页进行分类处理,如果同时使用一级分词和二级分词未确定出网页所属的类别,同时使用一级分词、二级分词和三级分词对网页进行分类处理。
本实施例的网页分类装置可以是各种具有计算能力的设备,例如计算机、路由器、服务器等。
本实施例提供的网页分类装置的上述功能模块或单元可用于执行上述方法实施例中相应流程,其具体工作原理不再赘述,详见方法实施例的描述。
本发明提供的网页分类装置,从网页的源文件中提取不同分类权重级别的信息,然后对每个分类权重级别的信息进行分词处理,获取不同分类权重级别的分词,然后按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对网页进行分类处理,不再像现有技术那样同时使用提取的全部信息对网页进行分类处理,而是通过利用网页中越重要的信息对网页分类结果的影响越大的特点,优先使用分类权重级别较高的信息对网页进行分类处理,有利于降低网页中的无效信息对网页分类的影响,提高了网页分类的准确度。另外,本实施例的网页分类装置优先使用分类权重级别较高的信息对网页进行分类处理,有利于减少对网页进行分类处理使用的信息量,提高了对网页进行分类处理的效率。
本发明一实施例提供一种网络设备,包括网页分类装置。本实施例的网页分类装置可以是图3所示实施例提供的网页分类装置,其具体工作原理和实现结构可参见上述实施例的描述。
本实施例的网络设备包括本发明实施例提供的网页分类装置,同样可以执行本发明实施例提供的网页分类方法,因此同样可以提高网页分类的准确度和效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (15)
1.一种网页分类方法,其特征在于,包括:
从网页的源文件中提取不同分类权重级别的信息;
对每个分类权重级别的信息进行分词处理,获取每个分类权重级别的分词;
按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对所述网页进行分类处理。
2.根据权利要求1所述的网页分类方法,其特征在于,所述从网页的源文件中提取不同分类权重级别的信息包括:
提取所述源文件中的头部信息作为一级信息;
从所述源文件中的主体部分提取二级信息;
从所述源文件中除所述一级信息和所述二级信息之外的其他信息中提取三级信息;
其中,所述一级信息、所述二级信息和所述三级信息的分类权重级别依次降低;
所述对每个分类权重级别的信息进行分词处理,获取每个分类权重级别的分词包括:
分别对所述一级信息、所述二级信息和所述三级信息进行分词处理,获取一级分词、二级分词和三级分词。
3.根据权利要求2所述的网页分类方法,其特征在于,所述从所述源文件中的主体部分提取二级信息包括:
如果所述源文件的主体部分中信息量最大的两个信息表中,一个信息表的信息量是其中另一个信息表的信息量的两倍或两倍以上,从所述源文件的主体部分中提取信息量是另一个信息表的信息量的两倍或两倍以上的信息表,以及从所述源文件的主体部分中提取第一个出现和第二个出现的段标题,将所述提取的信息表和段标题作为所述二级信息。
4.根据权利要求2或3所述的网页分类方法,其特征在于,所述从所述源文件中除所述一级信息和所述二级信息之外的其他信息中提取三级信息包括:
从所述其他信息中去除无效信息,将所述其他信息中剩余的信息作为所述三级信息;所述无效信息包括以下任一信息或其组合:
脚本信息、注释信息、页面底部信息、隐藏内容信息和标点符号信息。
5.根据权利要求1或2或3所述的网页分类方法,其特征在于,对每个分类权重级别的信息进行分词处理,获取每个分类权重级别的分词包括:
对每个分类权重级别的信息中的每信息片段分别进行正向分词处理和逆向分词处理,如果对所述信息片段的正向分词结果和逆向分词结果相同,将所述相同的分词结果作为所述信息片段对应的分词,其中,每个分类权重级别中所有信息片段对应的分词构成每个分类权重级别的分词;
所述的网页分类方法还包括:
如果对所述信息片段的正向分词结果和逆向分词结果不相同,对所述正向分词结果和所述逆向分词结果分别进行统计分词处理,获取分词组合概率较大的分词结果作为所述信息片段对应的分词。
6.根据权利要求5所述的网页分类方法,其特征在于,对所述正向分词结果和所述逆向分词结果分别进行统计分词处理,获取分词组合概率较大的分词结果作为所述信息片段对应的分词包括:
根据所述正向分词结果在预先获取的统计分词关系词库中进行查找,获取所述正向分词结果对应的分词组合概率;所述统计分词关系词库包括各分词之间组合出现的次数;
根据所述逆向分词结果在所述统计分词关系词库中进行查找,获取所述逆向分词结果对应的分词组合概率;
如果所述正向分词结果对应的分词组合概率大于所述逆向分词结果对应的分词组合概率,将所述正向分词结果作为所述信息片段对应的分词;
如果所述正向分词结果对应的分词组合概率小于或等于所述逆向分词结果对应的分词组合概率,将所述逆向分词结果作为所述信息片段对应的分词。
7.根据权利要求2或3所述的网页分类方法,其特征在于,所述按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对所述网页进行分类处理包括:
使用一级分词对所述网页进行分类处理;
如果使用所述一级分词未确定出所述网页所属的类别,同时使用所述一级分词和所述二级分词对所述网页进行分类处理;
如果同时使用所述一级分词和所述二级分词未确定出所述网页所属的类别,同时使用所述一级分词、所述二级分词和所述三级分词对所述网页进行分类处理。
8.一种网页分类装置,其特征在于,包括:
信息提取模块,用于从网页的源文件中提取不同分类权重级别的信息;
分词获取模块,用于对每个分类权重级别的信息进行分词处理,获取每个分类权重级别的分词;
分类处理模块,用于按照分类权重级别由高到低的顺序,使用各分类权重级别的分词对所述网页进行分类处理。
9.根据权利要求8所述的网页分类装置,其特征在于,所述信息提取模块包括:
第一信息提取单元,用于提取所述源文件中的头部信息作为一级信息;
第二信息提取单元,用于从所述源文件中的主体部分提取二级信息;
第三信息提取单元,用于从所述源文件中除所述一级信息和所述二级信息之外的其他信息中提取三级信息;
其中,所述一级信息、所述二级信息和所述三级信息的分类权重级别依次降低;
所述分词获取模块具体用于分别对所述一级信息、所述二级信息和所述三级信息进行分词处理,获取一级分词、二级分词和三级分词。
10.根据权利要求9所述的网页分类装置,其特征在于,所述第二信息提取单元具体用于如果所述源文件的主体部分中信息量最大的两个信息表中,一个信息表的信息量是其中另一个信息表的信息量的两倍或两倍以上,从所述源文件的主体部分中提取信息量是另一个信息表的信息量的两倍或两倍以上的信息表,以及从所述源文件的主体部分中提取第一个出现和第二个出现的段标题,将所述提取的信息表和段标题作为所述二级信息。
11.根据权利要求9或10所述的网页分类装置,其特征在于,所述第三信息提取单元具体用于从所述其他信息中去除无效信息,将所述其他信息中剩余的信息作为所述三级信息;所述无效信息包括以下任一信息或其组合:
脚本信息、注释信息、页面底部信息、隐藏内容信息和标点符号信息。
12.根据权利要求8或9或10所述的网页分类装置,其特征在于,所述分词获取模块具体用于对每个分类权重级别的信息中的每个信息片段分别进行正向分词处理和逆向分词处理,如果对所述信息片段的正向分词结果和逆向分词结果相同,将所述相同的分词结果作为所述信息片段对应的分词;其中,每个分类权重级别中所有信息片段对应的分词构成每个分类权重级别的分词;所述分词获取模块还用于如果对所述信息片段的正向分词结果和逆向分词结果不相同,对所述正向分词结果和所述逆向分词结果分别进行统计分词处理,获取分词组合概率较大的分词结果作为所述信息片段对应的分词。
13.根据权利要求12所述的网页分类装置,其特征在于,所述分词获取模块更为具体的用于根据所述正向分词结果在预先获取的统计分词关系词库中进行查找,获取所述正向分词结果对应的分词组合概率,根据所述逆向分词结果在所述统计分词关系词库中进行查找,获取所述逆向分词结果对应的分词组合概率,如果所述正向分词结果对应的分词组合概率大于所述逆向分词结果对应的分词组合概率,将所述正向分词结果作为所述信息片段对应的分词,如果所述正向分词结果对应的分词组合概率小于或等于所述逆向分词结果对应的分词组合概率,将所述逆向分词结果作为所述信息片段对应的分词;所述统计分词关系词库包括各分词之间组合出现的次数。
14.根据权利要求9或10所述的网页分类装置,其特征在于,所述分类处理模块具体用于使用一级分词对所述网页进行分类处理,如果使用所述一级分词未确定出所述网页所属的类别,同时使用所述一级分词和所述二级分词对所述网页进行分类处理,如果同时使用所述一级分词和所述二级分词未确定出所述网页所属的类别,同时使用所述一级分词、所述二级分词和所述三级分词对所述网页进行分类处理。
15.一种网络设备,其特征在于,包括权利要求8-14任一项所述的网页分类装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102851019A CN102819595A (zh) | 2012-08-10 | 2012-08-10 | 网页分类方法、装置及网络设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102851019A CN102819595A (zh) | 2012-08-10 | 2012-08-10 | 网页分类方法、装置及网络设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102819595A true CN102819595A (zh) | 2012-12-12 |
Family
ID=47303706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102851019A Pending CN102819595A (zh) | 2012-08-10 | 2012-08-10 | 网页分类方法、装置及网络设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102819595A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544310A (zh) * | 2013-11-04 | 2014-01-29 | 北京中搜网络技术股份有限公司 | 一种基于分类器实现的导购类网页的信息分类方法 |
CN103984685A (zh) * | 2013-02-07 | 2014-08-13 | 百度国际科技(深圳)有限公司 | 一种用于对待分类词条进行分类的方法、装置与设备 |
CN104462347A (zh) * | 2014-12-04 | 2015-03-25 | 北京国双科技有限公司 | 关键词的分类方法及装置 |
CN105723367A (zh) * | 2016-01-07 | 2016-06-29 | 马岩 | 网络信息的分类方法及*** |
CN106778862A (zh) * | 2016-12-12 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115024A (zh) * | 2006-07-28 | 2008-01-30 | 阿里巴巴公司 | 一种显示网页内容相关信息的方法及*** |
CN101246502A (zh) * | 2008-03-27 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 一种在网络上搜索图片的方法及*** |
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN101794311A (zh) * | 2010-03-05 | 2010-08-04 | 南京邮电大学 | 基于模糊数据挖掘的中文网页自动分类方法 |
CN102253943A (zh) * | 2010-05-21 | 2011-11-23 | 卓望数码技术(深圳)有限公司 | 一种网页评级方法和网页评级*** |
CN102629282A (zh) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | 一种网址分类方法、装置及*** |
-
2012
- 2012-08-10 CN CN2012102851019A patent/CN102819595A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101115024A (zh) * | 2006-07-28 | 2008-01-30 | 阿里巴巴公司 | 一种显示网页内容相关信息的方法及*** |
CN101246502A (zh) * | 2008-03-27 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 一种在网络上搜索图片的方法及*** |
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN101794311A (zh) * | 2010-03-05 | 2010-08-04 | 南京邮电大学 | 基于模糊数据挖掘的中文网页自动分类方法 |
CN102253943A (zh) * | 2010-05-21 | 2011-11-23 | 卓望数码技术(深圳)有限公司 | 一种网页评级方法和网页评级*** |
CN102629282A (zh) * | 2012-05-03 | 2012-08-08 | 湖南神州祥网科技有限公司 | 一种网址分类方法、装置及*** |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984685A (zh) * | 2013-02-07 | 2014-08-13 | 百度国际科技(深圳)有限公司 | 一种用于对待分类词条进行分类的方法、装置与设备 |
CN103544310A (zh) * | 2013-11-04 | 2014-01-29 | 北京中搜网络技术股份有限公司 | 一种基于分类器实现的导购类网页的信息分类方法 |
CN103544310B (zh) * | 2013-11-04 | 2017-08-08 | 北京中搜云商网络技术有限公司 | 一种基于分类器实现的导购类网页的信息分类方法 |
CN104462347A (zh) * | 2014-12-04 | 2015-03-25 | 北京国双科技有限公司 | 关键词的分类方法及装置 |
CN104462347B (zh) * | 2014-12-04 | 2018-05-18 | 北京国双科技有限公司 | 关键词的分类方法及装置 |
CN105723367A (zh) * | 2016-01-07 | 2016-06-29 | 马岩 | 网络信息的分类方法及*** |
WO2017117781A1 (zh) * | 2016-01-07 | 2017-07-13 | 马岩 | 网络信息的分类方法及*** |
CN106778862A (zh) * | 2016-12-12 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6653334B2 (ja) | 情報抽出方法及び装置 | |
CN101727461B (zh) | 一种网页的正文抽取方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN102135967B (zh) | 网页关键词提取方法、装置及*** | |
Sun et al. | Dom based content extraction via text density | |
CN101251855B (zh) | 一种互联网网页清洗方法、***及设备 | |
CN103874994B (zh) | 用于自动概括电子文档的内容的方法和装置 | |
CN104598577B (zh) | 一种网页正文的提取方法 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN102663023A (zh) | 一种提取网页内容的实现方法 | |
CN101404036B (zh) | PowerPoint电子演示文稿的关键词抽取方法 | |
CN102262625A (zh) | 网页关键词提取方法及装置 | |
CN102819595A (zh) | 网页分类方法、装置及网络设备 | |
CN102591475A (zh) | 一种在线编辑器的内容输入方法及*** | |
CN102043808A (zh) | 利用网页结构抽取双语词条的方法及设备 | |
CN100432996C (zh) | 基于网页页面布局提取网页核心内容的***、方法 | |
WO2014000130A1 (en) | Method or system for automated extraction of hyper-local events from one or more web pages | |
CN101630315B (zh) | 一种快速检索方法及*** | |
CN107862051A (zh) | 一种文件分类方法、***及一种文件分类设备 | |
CN105224624A (zh) | 一种实现倒排链快速归并的方法和装置 | |
CN106372038A (zh) | 关键词的抽取方法及装置 | |
US8037403B2 (en) | Apparatus, method, and computer program product for extracting structured document | |
CN101673263B (zh) | 视频内容的搜索方法 | |
CN101021851A (zh) | 文本检索装置、检索方法、记录文本检索程序的记录介质 | |
CN108874870A (zh) | 一种数据抽取方法、设备及计算机可存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121212 |