CN103823824B - 一种借助互联网自动构建文本分类语料库的方法及*** - Google Patents

一种借助互联网自动构建文本分类语料库的方法及*** Download PDF

Info

Publication number
CN103823824B
CN103823824B CN201310314269.2A CN201310314269A CN103823824B CN 103823824 B CN103823824 B CN 103823824B CN 201310314269 A CN201310314269 A CN 201310314269A CN 103823824 B CN103823824 B CN 103823824B
Authority
CN
China
Prior art keywords
text
classification
corpus
webpage
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310314269.2A
Other languages
English (en)
Other versions
CN103823824A (zh
Inventor
陈清财
张亮
王丹丹
王晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201310314269.2A priority Critical patent/CN103823824B/zh
Publication of CN103823824A publication Critical patent/CN103823824A/zh
Application granted granted Critical
Publication of CN103823824B publication Critical patent/CN103823824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种借助互联网自动构建文本分类语料库的方法及***,该方法包括如下步骤:用户提供所需的文本类别体系,网站结构与内容的采集整理,用户输入类别与网站结构的匹配,语料库去噪,输出语料库。本发明的技术效果是:利用互联网上各类网站上存在的类别标注信息,无需专业的人员手工标注,自适应不同用户的分类体系需求。它改变了传统的语料库构建***需要大量的具有一定专业知识的人员加入标注的方式,采用对互联网上的丰富信息进行自动的抽取和挖掘的方式,可快速的构建出大容量的精准的文本分类语料库。

Description

一种借助互联网自动构建文本分类语料库的方法及***
技术领域
本发明涉及一种自动构建文本分类语料库的方法及***。
背景技术
随着互联网信息的高速增长,搜索引擎已成为人们浏览网络信息必不可少的工具。2012年7月发布的《中国互联网络发展状况统计报告》显示:在网民日常使用中,搜索引擎虽然排名有所下滑,但依然超越了网络音乐和新闻,成为规模第二大的应用。
目前,基于人工编撰目录并对其进行索引和维护的第一代搜索引擎技术基本退出历史舞台,取代它的是基于向量空间模型、概率语言模型等模型的第二代信息检索技术,在其中由于引入了PageRank和LinkAnalysis等技术,利用机群对大量互联网网页进行索引和检索,满足了用户对于检索***的基本要求。不过,现有***最大的问题是用户的需求是通过关键词来进行描述的,很多情况下很难找到准确描述检索目标的关键词,因此严重影响了返回结果的准确率。同时,由于需要索引的网页数目过于庞大,为了兼顾准确率与召回率,传统的通用搜索引擎往往返回属于不同主题的搜索结果,这种策略很难满足单个用户的检索需求。为了缓解这个问题,出现了专注于某一领域的垂直搜索引擎,如学术搜索、金融搜索、音乐搜索等。这类搜索引擎通过限定爬取和索引的网页范围来达到较高的检索精度,通过用户指定的分类来进行搜索,可以更好的满足用户的不同需求。
然而,对于某个概念进行分类的方法往往是多样的,比如计算机学科,可以分为软件和硬件,也可以按照涉及的不同子学科分为体系结构,操作***,计算机网络等等。现有的垂直搜索引擎,一般是根据领域专家事先定义好的分类方式,通过人工的方法标注出训练语料来训练分类器。这个过程费时费力,结果容易受到标注人个人倾向的影响,而且一旦分类方式发生变化,这一切又得从头再来。所以,这样的分类方式难以满足人们对不同领域的分类需求,更无法随用户需求的改变进行灵活调整。同时,网络上有一些网页是具有某些标注信息的或者是已经经过初步分类的,比如门户网站的导航栏一般都分为新闻、军事、博客等等很多子版块,关注于某个特定领域的网站一般都会按照相关领域的某种分类方式来构造。如何构造一种方法,使其能够自动利用这些已有的网页分类信息来自动构建分类语料库,是本发明要重点研究和探讨的问题。
发明内容
为了解决现有技术中的问题,本发明提供了一种借助互联网自动构建文本分类语料库的方法。
本发明提供了一种借助互联网自动构建文本分类语料库的方法,包括如下步骤:
用户提供所需的文本类别体系:即包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;
网站结构与内容的采集整理:从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;
用户输入类别与网站结构的匹配:将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;
语料库去噪:将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;
输出语料库:输出去噪后的类别标准文本语料。
本发明的进一步技术方案是:在网站结构与内容的采集整理中,包括如下步骤:
初始种子链接获取:使用门户网站和领域内的网站作为初始种子链接,或者由用户指定;
网页数据爬取和存储:设置参数,参数包括并行通信数,每个站点的访问时间间隔,递归爬取深度,对上述初始种子链接进行递归抓取,同时记录页面间的跳转信息,将爬取得到的网页的源码文件存储在本地,用于后续对网页的离线分析和处理;
导航栏提取:识别提取体现网站内部组织结构的导航栏;
有效链接提取:统计各链接被赋予类别的次数,设置阈值,被赋予类别次数多于阈值的作为无效链接过滤掉,其余作为和页面主题相关的链接即有效链接;
网页内容提取:根据非标签字符和标签数的比值来提取网页的正文。
本发明的进一步技术方案是:在导航栏提取步骤中,包括如下步骤:
网页的页面分割:根据网页的DOM树将其分割成若干个块;
基于规则过滤的导航栏抽取:通过制定规则对网页的各个分块进行过滤和排序来提取导航栏;
基于图结构的导航栏抽取:将网页之间的链接关系组织成图结构,寻找极大连通子图,根据子图信息对页面的块结构进行过滤来提取导航栏。
本发明的进一步技术方案是:在网页的页面分割步骤中,包括如下步骤:
网页DOM树构造:利用DOM解析器将网页解析成DOM树;
网页DOM树化简:利用三个规则对网页DOM树进行化简。
本发明的进一步技术方案是:在基于规则过滤的导航栏抽取步骤中,包括如下步骤:
网页块过滤:根据链接类型、链接唯一性、样式表、锚文本在源码中的距离、每个锚文本包含的最大词数特征对网页块进行过滤;
网页剩余块排序:通过制定公式对网页中过滤后剩余的块进行打分并排序;
输出候选导航栏:根据网页剩余各块的排名和各个块的得分置信度来输出候选导航栏。
本发明的进一步技术方案是:在基于图结构的导航栏抽取步骤中,包括如下步骤:
构造页面的链接关系图:将网页之间的链接指向关系表示成图;
获取极大完全子图:从页面的链接关系图中找出所有的极大完全子图,即:子图中任意两个节点直接相邻,并且此子图不被其他具有上述属性的子图包含;
识别候选导航栏:根据极大完全子图对页面的块结构进行过滤来得到候选导航栏。
本发明的进一步技术方案是:在网页内容提取步骤中,包括如下步骤:
网页源码行特征抽取:对网页源码中的每一行抽取二维特征,即:标签比和标签比导数;
网页源码行聚类获取正文:利用抽取出的二维特征和k-Means方法对网页源码中的所有行进行聚类,保证对非正文的去除效果。
本发明的进一步技术方案是:在网页源码行特征抽取步骤中,包括如下步骤:
计算行标签比,即:行包含的非HTML标签字符数和同一行标签数目的比值;
行标签比平滑:采用高斯过滤器对标签比的数据进行过滤归一,用这个过滤器与标签比进行卷积运算来平滑行标签比;
行标签比求导:计算行标签比的近似导数。
本发明的进一步技术方案是:在用户输入类别与网站结构的匹配步骤中,包括如下步骤:
相似度计算:向量化每个导航项和每个类别,计算它们之间的余弦相似度;
获取导航项所属类别:根据导航项和类别之间的相似度,结合导航项的链接URL决定导航项所属的类别。
本发明还提供了一种借助互联网自动构建文本分类语料库的***,包括:
用户文本分类体系获取单元,用于提供所需的文本类别体系,包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;
网站结构与内容的采集整理单元,用于从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;
用户输入类别与网站结构的匹配单元,用于将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;
语料库去噪单元,用于将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;
输出语料库单元,用于输出去噪后的类别标准文本语料。
本发明的技术效果是:本发明提出一种借助互联网自动构建文本分类语料库的方法及***,利用互联网上各类网站上存在的类别标注信息,无需专业的人员手工标注,自适应不同用户的分类体系需求。它改变了传统的语料库构建***需要大量的具有一定专业知识的人员加入标注的方式,采用对互联网上的丰富信息进行自动的抽取和挖掘的方式,可快速的构建出大容量的精准的文本分类语料库。
附图说明
图1为本发明流程图。
图2为本发明网站结构与内容的采集整理的流程图。
图3为本发明导航栏提取的流程图。
图4为本发明网页页面分割的流程图。
图5为本发明经过简化后的百度首页源码实例图。
图6为本发明使用DOM解析器解析后的DOM树的实例图。
图7为本发明网页DOM树化简规则的示意图。
图8为本发明基于规则过滤的导航栏提取的流程图。
图9为本发明基于图结构的导航栏提取的流程图。
图10为本发明极大完全子图的实例图。
图11为本发明网页内容提取的流程图。
图12为本发明网页源码行特征抽取的流程图。
图13为本发明用户输入类别与网站结构的匹配的流程图。
图14为本发明的***原理图。
具体实施方式
下面结合具体实施例,对本发明技术方案进一步说明。
如图1所示,本发明的具体实施方式是:提供一种自动构建文本分类语料库的方法,包括如下步骤:
步骤1000:用户提供所需的文本类别体系,即:包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域。
步骤2000:网站结构与内容的采集整理,即:从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。
如图2所示,在网站结构与内容的采集整理步骤中,包括如下步骤:
步骤2100:初始种子链接获取:使用门户网站和领域内的网站作为初始种子链接,或者由用户指定;
步骤2200:网页数据爬取和存储:设置参数,参数包括并行通信数,每个站点的访问时间间隔,递归爬取深度,对初始种子链接进行递归抓取,同时记录页面间的跳转信息,将爬取得到的网页的源码文件存储在本地,用于后续对网页的离线分析和处理。
步骤2300:导航栏提取,即:识别提取体现网站内部组织结构的导航栏。如图3所示,具体在导航栏提取步骤中,包括如下步骤:
步骤2310:网页的页面分割,即:根据网页的DOM树将其分割成若干个块。如图4所示,具体在网页的页面分割步骤中,包括如下步骤:
步骤2311:网页DOM树构造,即:利用DOM解析器将网页解析成DOM树。DOM是一种独立于使用平台和语言的接口标准,它由W3C组织提出,目的是为程序提供一种在运行过程中动态访问并改变其中的内容、结构或样式的方法。一个网页文件经过DOM解析器后形成的DOM呈树形结构,因此也有文献将其称为DOM树(DOM tree)。图5采用缩进形式显示了经过简化后的百度首页源码。
使用DOM解析器解析后的DOM树将会具有如图6所示的树形结构。树中的每个内部节点都有具有指定名称(在网页源码的标签中定义)和属性。这些节点也可以通过一条从根节点到该节点的路径进行访问。
将网页解析成DOM树以后,可以很方便的利用XPath来查找具有指定属性的节点,比如链接节点和文本节点。也可以直接通过遍历树中节点,对其进行操作(增、删、改等)。
步骤2312:网页DOM树化简,即:利用三个规则对网页DOM树进行化简。涉及如下三个规则:
(1)删掉叶子节点中非链接节点的部分。
(2)如果某节点是其父节点唯一的孩子节点,则将其父节点删除,直接将该节点与其祖先节点连接起来。
(3)如果某节点有两个孩子节点,并且第一个孩子节点是链接节点,而另一个不是,则将该节点删除,并将两个孩子节点与其祖先节点连接起来。
图7形象化的阐释了上面三条规则,其中左上角表示规则(1),右上角表示规则(2),下部表示规则(3)。
网页的DOM树经过上述化简以后,将具有相同父节点的叶子节点合并为一个块,就完成了将整个页面进行分割的任务。
步骤2320:基于规则过滤的导航栏抽取,即:通过制定规则对网页的各个分块进行过滤和排序来提取导航栏。如图8所示,具体在基于规则过滤的导航栏提取步骤中,包括以下步骤:
步骤2321:网页块过滤:根据链接类型、链接唯一性、样式表、锚文本在源码中的距离、每个锚文本包含的最大词数、块内最少项目数等特征对网页块进行过滤;
步骤2322:网页剩余块排序:通过制定公式对网页中过滤后剩余的块进行打分并排序。
二、块内锚文本所含词数的一致性:导航栏中的每个项目所含的单词数一般是一致的,外观越整齐的项目,越有可能属于同一导航栏.
三、块内剩余的锚文本所占比例:从前面的过滤过程可以发现,如果属于一个页面块的某些项被去掉了,那么这个块是导航栏的可能性应该会降低,而且该块中被过滤掉的项目越多,该块是导航栏的可能性就应该越低。
步骤2323:输出候选导航栏:根据网页剩余各块的排名和各个块的得分置信度来输出候选导航栏;
步骤2330:基于图结构的导航栏抽取,即:将网页之间的链接关系组织成图结构,寻找极大连通子图,根据子图信息对页面的块结构进行过滤来提取导航栏。
步骤2331:构造页面的链接关系图,即:将网页之间的链接指向关系表示成图。每个页面用一个节点表示,如果页面A中存在一条指向页面B的链接,则用一条由A指向B的有向边表示。将所有相关的页面都处理完以后可以生成整个网站的页面链接关系图。具有公共导航栏的页面将会是双向链接的方式呈现在图中,那么删掉图中的单向边,保留双向边,为了简化计算可以把具有双向边的有向图简化成无向图的方式进行处理。
步骤2332:获取极大完全子图,即:从页面的链接关系图中找出所有的极大完全子图,即:子图中任意两个节点直接相邻,并且此子图不被其他具有上述属性的子图包含。如图10所示,极大完全子图有{1,2,3},{2,3,4}和{4,5}。
步骤2333:识别候选导航栏,即:根据极大完全子图对页面的块结构进行过滤来得到候选导航栏。由于寻找最大完全子图的算法本质上是NP问题,当页面的链接关系图中双向链接的顶点超过一定数量,算法运行时间将变得不可接受,所以从复杂度的角度考虑,链接关系图中双向连接的顶点数少于100个时,该发明具体实施例中此部分采用但不限于如下的导航栏识别提取方法:
输入:子图队列MCQueuePage,首页的块集合PageSec;
输出:候选导航栏集合CandNav;
Step1:将MCQueuePage中的所有元素标识为未处理。
Step2:从MCQueuePage中选取一个未处理的子图SubGraph,如果全部处理完,则转步骤4。
Step3:对PageSec中的所有元素进行过滤,将不在SubGraph的元素去掉,结果存入CandNav,转步骤2。
Step4:将CandNav中的各个块,按照包含的元素从多到少排序。
Step5:从头到尾查看CandNav中的各个块,如果当前块包含当前位置以后的某个块Sec的所有元素,则将Sec删除。
Step6:结束。
双向连接的顶点数多于100个的时候,导航栏识别提取的方法为先投票再聚类的近似方法,该方法具体实施例中此部分过程如下但并不限于如下方法:
输入:首页指向的所有页面集合SetPages,每个页面有URL和入度两个属性。
输出:形成导航栏的顶点集合SetNav。
Step1:将SetPages中所有页面的入度置为1,并将集合SetPages中的所有元素读入队列QueuePages中。
Step2:若队列为空,转到Step4;否则转到Step3。
Step3:从队列中取出一个页面,分析该页面包含的所有链接,如果当前页面包含的某个链接URLi在SetPages中,则SetPages中URLi对应的入度加1。转到Step2。
Step4:将SetPages中每个页面的入度进行聚类,方法为k-Means,聚类中心数为3。将所有属于中间簇的页面读入到SetNav中。
Step5:结束。
步骤2400:有效链接提取,即:提取和页面主题相关的链接。一般情况下导航栏中的每个锚文本都是指向另一个链接型页面(页面本身没有明显正文,而是某一主题下的链接的集合)。这样一个页面的类别实际上代表了内部包含的有效链接的类别。所谓有效链接是指跟页面本身主题相关的链接,像Login、About Us、Sitemap等链接就不属于有效链接,下文称之为无效链接。一般地,指向站外的链接不会是有效链接,可以把它们过滤掉。将剩余的链接与链入本页的导航栏锚文本赋予相同的类别。在网站内部,指向Login、Sitemap等无效链接的锚文本非常多,因此,无效链接被赋予的类别的次数也将明显多于有效链接。基于此,我们可以统计各链接被赋予类别的次数,设置一定的阈值,将被赋予类别次数多于阈值的作为无效链接过滤掉,其余的作为有效链接。
步骤2500:网页内容提取:根据非标签字符和标签数的比值来提取网页的正文。如图11所示,具体在网页内容提取步骤中,包括如下步骤:
步骤2510:网页源码行特征抽取:对网页源码中的每一行抽取二维特征,即:标签比和标签比导数。如图12所示,具体在网页源码行特征抽取步骤中,包括如下步骤:
步骤2511:计算行标签比,即:行包含的非HTML标签字符数和同一行标签数目的比值。
步骤2512:行标签比平滑,即:采用高斯过滤器对标签比的数据进行过滤归一。
步骤2513:行标签比求导:计算行标签比的近似导数。
步骤2520:网页源码行聚类获取正文:利用抽取出的二维特征和k-Means方法对网页源码中的所有行进行聚类,保证对非正文的去除效果。将一个聚类中心始终固定在原点(坐标0,0)处,迭代的终止条件是达到最大迭代次数或者两次迭代间的簇中心变化幅度小于阈值。最后将属于中心的原点的簇的行去掉,将其他行中的正文信息保存下来,作为正文提取的结果。
步骤3000:用户输入类别与网站结构的匹配,即:计算每个导航项和各个类别之间的相似度,根据相似度以及导航项链接URL决定导航项所属的类别。如图13所示,具体在用户输入类别与网站结构的匹配步骤中,包括如下步骤:
步骤3100:相似度计算:向量化每个导航项和每个类别,计算它们之间的相似度。
步骤3200:获取导航项所属类别:根据导航项和类别之间的相似度,结合导航项的链接URL决定导航项所属的类别。首先将导航项与各个类别的相似度进行计算,并对相似度进行排序。如果最大相似度唯一,则将对应类别作为锚文本类别,并将锚文本和分类信息存储起来;否则,需要将该锚文本对应的链接输入到一个URL类别判定模块。如果该模块输出非空,则将该锚文本及其对应的分类信息存储起来。
步骤4000:语料库去噪:将候选语料库中的各个类别下的文本进行聚类,去除类别内部的噪音,提高语料库的质量。理想情况下,候选语料库中的所有网页文本应该都是属于相关类别的。而由于网站本身权威程度和网站管理人员员水平的差异,一些原本不属于某个主题的页面也可能被划分到该类别下。另外,某些与指定主题不相关的信息也可能被引入,有些登录或者网站协议等界面由于锚文本的表述与过滤条件不同,从而可能被保留下来。这些噪声网页的存在令候选语料库的质量大大下降,因此需要对候选语料库进行去噪。
由于噪声文本与所在主题并无太大关联,因此它们在文本的特征向量空间中会以离群点的形式出现。而聚类能够去除集合中的离群点,所以本文采用文本聚类算法对每个类别下剩余的网页文本进行聚类,保留聚类结果中的较大的簇,将较小的簇作为噪声去掉。在本发明的实施例中使用了k-means算法聚类,但具体实践中并不限于k-means聚类方法。
步骤5000:输出语料库:输出最终的各个类别下的标准文本语料。
如图14所示,本发明还公开了一种借助互联网自动构建文本分类语料库的***,包括:
用户文本分类体系获取单元11,用于提供所需的文本类别体系,包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;
网站结构与内容的采集整理单元21,用于从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;
用户输入类别与网站结构的匹配单元22,用于将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;
语料库去噪单元23,用于将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;
输出语料库单元12,用于输出去噪后的类别标准文本语料。
本发明提出一种借助互联网自动构建文本分类语料库的方法及***,利用互联网上各类网站上存在的类别标注信息,无需专业的人员手工标注,自适应不同用户的分类体系需求。它改变了传统的语料库构建***需要大量的具有一定专业知识的人员加入标注的方式,采用对互联网上的丰富信息进行自动的抽取和挖掘的方式,可快速的构建出大容量的精准的文本分类语料库。
本发明解决的技术问题是:传统的通过人工标注来对文档进行分类的方式需要不同程度的专业知识,耗费大量的人力物力,并且缺乏灵活性,不能很好的适应用户需求的变化。本发明提供了一种借助互联网中包含的形式各样的网站结构和内容信息、丰富的链接关系,自动寻找到高质量的网站信息源作为候选,从中获得相关网页,并利用导航栏识别、内容抽取、文本聚类等过程构建满足用户分类需求的语料库。用户只需提供确定的分类体系,自动构建文本分类语料库***将会帮助用户搜集到大量精准的各个类别的语料。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种借助互联网自动构建文本分类语料库的方法,其特征在于,包括如下步骤:
用户提供所需的文本类别体系:即包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;
网站结构与内容的采集整理:从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;
用户输入类别与网站结构的匹配:将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;
语料库去噪:将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;
输出语料库:输出去噪后的类别标准文本语料;
在网站结构与内容的采集整理步骤中,对网站结构与内容的采集整理包括如下步骤:
初始种子链接获取:使用门户网站和领域内的网站作为初始种子链接,或者由用户指定;
网页数据爬取和存储:设置参数,参数包括并行通信数,每个站点的访问时间间隔,递归爬取深度;对上述初始种子链接进行递归抓取,同时记录页面间的跳转信息,将爬取得到的网页的源码文件存储在本地,用于后续对网页的离线分析和处理;
导航栏提取:识别提取体现网站内部组织结构的导航栏;
有效链接提取:统计各链接被赋予类别的次数,设置阈值,被赋予类别次数多于阈值的作为无效链接过滤掉,其余作为和页面主题相关的链接即有效链接;
网页内容提取:根据非标签字符和标签数的比值来提取网页的正文。
2.根据权利要求1所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在导航栏提取步骤中,包括如下步骤:
网页的页面分割:根据网页的DOM树将其分割成若干个块;
基于规则过滤的导航栏抽取:通过制定规则对网页的各个分块进行过滤和排序来提取导航栏;
基于图结构的导航栏抽取:将网页之间的链接关系组织成图结构,寻找极大连通子图,根据子图信息对页面的块结构进行过滤来提取导航栏。
3.根据权利要求2所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在网页的页面分割步骤中,包括如下步骤:
网页DOM树构造:利用DOM解析器将网页解析成DOM树;
网页DOM树化简:利用三个规则对网页DOM树进行化简。
4.根据权利要求2所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在基于规则过滤的导航栏抽取步骤中,包括如下步骤:
网页块过滤:根据链接类型、链接唯一性、样式表、锚文本在源码中的距离、每个锚文本包含的最大词数特征对网页块进行过滤;
网页剩余块排序:通过制定公式对网页中过滤后剩余的块进行打分并排序;
输出候选导航栏:根据网页剩余各块的排名和各个块的得分置信度来输出候选导航栏。
5.根据权利要求2所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在基于图结构的导航栏抽取步骤中,包括如下步骤:
构造页面的链接关系图:将网页之间的链接指向关系表示成图;
获取极大完全子图:从页面的链接关系图中找出所有的极大完全子图,即:子图中任意两个节点直接相邻,并且此子图不被其他具有上述属性的子图包含;
输出候选导航栏:根据极大完全子图对页面的块结构进行过滤来得到候选导航栏。
6.根据权利要求1所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在网页内容提取步骤中,包括如下步骤:
网页源码行特征抽取:对网页源码中的每一行抽取二维特征,即:标签比和标签比导数;
网页源码行聚类获取正文:利用抽取出的二维特征和k-Means方法对网页源码中的所有行进行聚类,保证对非正文的去除效果。
7.根据权利要求6所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在网页源码行特征抽取步骤中,包括如下步骤:
计算初始行标签比,即:行包含的非HTML标签字符数和同一行标签数目的比值;
行标签比平滑:采用高斯过滤器对标签比的数据进行过滤归一,用这个过滤器与标签比进行卷积运算来平滑行标签比;
行标签比求导:计算行标签比的近似导数。
8.根据权利要求1所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在用户输入类别与网站结构的匹配步骤中,包括如下步骤:
相似度计算:向量化每个导航项和每个类别,计算它们之间的余弦相似度;
获取导航项所属类别:根据导航项和类别之间的相似度,结合导航项的链接URL决定导航项所属的类别。
9.一种借助互联网自动构建文本分类语料库的***,其特征在于,包括:
用户文本分类体系获取单元,用于提供所需的文本类别体系,包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;
网站结构与内容的采集整理单元,用于从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;
用户输入类别与网站结构的匹配单元,用于将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;
语料库去噪单元,用于将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;
输出语料库单元,用于输出去噪后的类别标准文本语料。
CN201310314269.2A 2013-11-12 2013-11-12 一种借助互联网自动构建文本分类语料库的方法及*** Active CN103823824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310314269.2A CN103823824B (zh) 2013-11-12 2013-11-12 一种借助互联网自动构建文本分类语料库的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310314269.2A CN103823824B (zh) 2013-11-12 2013-11-12 一种借助互联网自动构建文本分类语料库的方法及***

Publications (2)

Publication Number Publication Date
CN103823824A CN103823824A (zh) 2014-05-28
CN103823824B true CN103823824B (zh) 2017-04-05

Family

ID=50758892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310314269.2A Active CN103823824B (zh) 2013-11-12 2013-11-12 一种借助互联网自动构建文本分类语料库的方法及***

Country Status (1)

Country Link
CN (1) CN103823824B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182210A (zh) * 2017-12-18 2018-06-19 上海交通大学 基于页面信息解析的服务语义获取方法及***

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317891B (zh) * 2014-10-23 2017-11-28 华为软件技术有限公司 一种对页面标注标签的方法及装置
CN106649337A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 识别网页栏目的方法及装置
CN106202380B (zh) * 2016-07-08 2019-12-24 中国科学院上海高等研究院 一种分类语料库的构建方法、***及具有该***的服务器
CN107610693B (zh) * 2016-07-11 2021-01-29 科大讯飞股份有限公司 文本语料库的构建方法和装置
CN106933944A (zh) * 2017-01-20 2017-07-07 深圳前海勇艺达机器人有限公司 能自动抓取和播报新闻的方法及其机器人装置
CN110019827B (zh) * 2017-08-24 2023-03-14 腾讯科技(北京)有限公司 一种语料库生成方法、装置、设备和计算机存储介质
CN107644094B (zh) * 2017-09-27 2020-07-14 广州大学 构建精品资源库的方法、装置、服务器及存储介质
CN108038108B (zh) * 2017-12-27 2021-12-10 东软集团股份有限公司 分词模型训练方法和装置、及存储介质
CN108647263B (zh) * 2018-04-28 2022-04-12 淮阴工学院 一种基于网页切分爬取的网络地址置信度评估方法
CN110165657A (zh) * 2018-08-30 2019-08-23 中国南方电网有限责任公司 考虑用户行业属性的变电站负荷聚类分析方法
CN109271477B (zh) * 2018-09-05 2020-07-24 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及***
US11874864B2 (en) * 2018-11-29 2024-01-16 Koninklijke Philips N.V. Method and system for creating a domain-specific training corpus from generic domain corpora
CN111339457B (zh) * 2018-12-18 2023-09-08 富士通株式会社 用于从网页抽取信息的方法和设备及存储介质
CN110083836B (zh) * 2019-04-24 2021-07-06 哈尔滨工业大学 一种文本预测结果的关键证据抽取方法
CN110188092B (zh) * 2019-04-28 2021-08-03 浙江工业大学 一种挖掘人民调解中新型矛盾纠纷的***及方法
CN110543634B (zh) * 2019-09-02 2021-03-02 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN111625748B (zh) * 2020-06-01 2024-01-09 深圳市小满科技有限公司 网站的导航栏信息提取方法、装置、电子设备及存储介质
CN112329455A (zh) * 2020-11-06 2021-02-05 渤海大学 一种基于语料库的近义词辨析方法
CN112230989B (zh) * 2020-12-14 2021-03-12 北京智慧星光信息技术有限公司 网页频道导航栏提取方法、***、电子设备及存储介质
CN116306581A (zh) * 2023-05-08 2023-06-23 中新宽维传媒科技有限公司 一种事件抽取方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建***及方法
CN103365924A (zh) * 2012-04-09 2013-10-23 北京大学 一种搜索信息的方法、装置和终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建***及方法
CN103365924A (zh) * 2012-04-09 2013-10-23 北京大学 一种搜索信息的方法、装置和终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Automatic Corpora Construction for Text Classification;Dandan Wang et al.;《International Joint Conference on Natural Language Processing》;20131018;726-732 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182210A (zh) * 2017-12-18 2018-06-19 上海交通大学 基于页面信息解析的服务语义获取方法及***
CN108182210B (zh) * 2017-12-18 2020-11-17 上海交通大学 基于页面信息解析的服务语义获取方法及***

Also Published As

Publication number Publication date
CN103823824A (zh) 2014-05-28

Similar Documents

Publication Publication Date Title
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及***
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
Gulhane et al. Web-scale information extraction with vertex
CN101957816B (zh) 基于多页面比较的网页元数据自动抽取方法和***
Velardi et al. Ontolearn reloaded: A graph-based algorithm for taxonomy induction
Sleiman et al. A survey on region extractors from web documents
US7882099B2 (en) System and method for focused re-crawling of web sites
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN102306204B (zh) 基于文本结构权重的主题区域识别方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
CN109726274A (zh) 问题生成方法、装置及存储介质
CN105045875A (zh) 个性化信息检索方法及装置
CN103049542A (zh) 一种面向领域的网络信息搜索方法
CN104268148A (zh) 一种基于时间串的论坛页面信息自动抽取方法及***
KR100800460B1 (ko) 웹 온톨로지 검색/분류 시스템 및 방법
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
Tekli An overview of cluster-based image search result organization: background, techniques, and ongoing challenges
CN112732995A (zh) 一种畜牧业新闻资讯推荐***
CN116775972A (zh) 基于信息技术的远端资源整理服务方法和***
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选***
CN110083760B (zh) 一种基于可视块的多记录型动态网页信息提取方法
CN114238735B (zh) 一种互联网数据智能采集方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant