CN116701812A

CN116701812A - 基于区块单元的地理信息网页文本主题分类方法

Info

Publication number: CN116701812A
Application number: CN202310969070.7A
Authority: CN
Inventors: 罗安; 王勇; 徐胜华; 车向红; 甄杰
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-09-05
Anticipated expiration: 2043-08-03
Also published as: CN116701812B

Abstract

基于区块单元的地理信息网页文本主题分类方法，该方法包括：网页结构特征分析与区块单元划分，网页区块单元权重训练与分配，基于区块单元的LDA文本主题分布表示，基于LDA2Vec的主题特征向量生成，基于SVM支持向量机分类器的地理信息主题分类。本发明通过分析网页文本的结构特征，顾及网页结构特征构建地理信息网页文本内容主题模型，解决了传统文本分类方法在网页文本分类任务中表现欠佳的问题；基于区块单元LDA2Vec模型获取地理信息网页文本特征向量解决了网页文本分类中无法同时挖掘文档全局和单词局部语义关系的问题。

Description

基于区块单元的地理信息网页文本主题分类方法

技术领域

本发明属于地理信息技术领域，具体属于地理数据处理领域，尤其涉及一种基于区块单元的地理信息网页文本主题分类方法。

背景技术

随着移动互联网的普及和大数据时代的兴起，信息资源呈现出***式的增长，海量的信息资源充斥在互联网和人们的日常生活中。根据中国互联网络信息中心发布的第50次《中国互联网络发展状况统计报告》我国的网民总数已经达到10.51亿，互联网普及率达到74.4%，互联网已经成为人们日常生活中的主要信息来源。网络信息丰富多样，主要以视频、音频、图片和文本等形式呈现，但是目前绝大多数的人们依然是通过互联网文本获取信息。地理信息作为网络信息中必不可少的一部分广泛的散落在互联网的各个角落，绝大部分也是以文本的形式存在。

对互联网上多源、海量、高动态的地理信息文本数据进行有效分类，是发挥地理大数据价值应用的最重要的技术手段之一，也是全新时代背景下测绘地理信息管理和应用所面临的巨大挑战和重大机遇，有助于更好的支撑大数据时代下的地理数据治理，促进产业的繁荣发展。因此，如何根据网页文本特有的结构特征对网络地理信息文本进行分类具有十分重要的应用价值。

目前，对于网页文本主题分类，常见的方法包含以下三类：基于专家规则、基于机器学习以及基于深度学习的网页文本主题分类方法。这些方法通常会基于文本分类基础和相关流程，将网页文本转化为非结构化文本进行特征提取，然后基于纯文本之间的语义关系进行分类。第一类方法完全基于人工的经验制定分类的规则，具有很大的主观性和滞后性，后两类方法则是使文本向量化，利用向量之间存在的空间关系进行聚类判断。根据专家规则的分类方法在数据量小，特殊的领域内可以取得不错的效果，但在如今文本数据***的网络上表现出时效性差，成本高，费时费力等问题。因此，结合文本语义特征和网页结构特性的网页文本主题分类方法就成了解决网页分类的常用方法。

尽管目前基于文本向量表示的网页文本主题分类方法在一些数据集上取得了不错了效果，但是，他们还存在着以下问题：（1）网页文本不同于纯文本，其带有独特的结构特性，如果忽略了网页的结构特征，将网页文本与纯文本进行类似处理，那么将不能有效的挖掘语义信息。（2）以往的研究更多关注文档整体的语义特征，而少量关注局部的语义信息，没有很好的兼顾整体和局部的潜在语义关联。

因此，如何克服现有技术中网页结构特征表达不明显，整体与局部语义关系难以兼顾成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于提出一种基于区块单元的地理信息网页文本主题分类方法，以缓解了现有地理信息网页文本分类方法的准确率和效率较低的技术问题。

为达此目的，本发明采用以下技术方案：

基于区块单元的地理信息网页文本主题分类方法，包括如下步骤：

网页结构特征分析与区块单元划分步骤S110：

针对不同信息网页结构与页面布局，对网页结构与布局进行栏目划分，并根据不同语义信息的原有的HTML标签进行标识，通过分析不同栏目及HTML标签对于主题分类的作用，对整个网页进行分割和重组，完成区块单元划分；

网页区块单元权重训练与分配步骤S120：

根据S110步骤对不同网页划分的不同区块单元，将大量网页区

块单元作为语料进行分析与训练，从而实现对不同区块单元的权重分配，并进行归一化处理，对权重值进行统一赋值；

基于区块单元的LDA文本主题分布表示步骤S130：

以区块单元为文本主题建模单元，结合不同区块单元的权重情况，引入LDA主题模型，实现基于区块单元的LDA主题模型构建，并通过对潜在主题困惑度和主题一致性进行分析，对主题数量进行优化，确定最佳潜在主题类目和特征词语维度；

基于LDA2Vec的主题特征向量生成步骤S140：

优化LDA2Vec主题模型向量化流程，以区块单元LDA代替原始的经典LDA模型，构建基于区块单元的LDA2Vec主题模型向量化方法，将区块单元LDA生成的网页主题分布和经Word2vec向量化模型训练的词向量融合构成文档特征向量，实现地理信息网页文本的主题特征向量生成；

基于SVM支持向量机分类器的地理信息主题分类步骤S150：

将步骤S140提取出的网页文本的主题特征向量输入到SVM支持向量机分类器中，利用径向基函数RBF将非线性问题转化为线性可分，采用“一对一”分类策略实现地理信息网页主题分类，并根据准确率、召回率和F1值对分类结果进行评估。

可选的，所述网页结构特征分析与区块单元划分步骤S110具体包括：

S111：分析不同地理信息网页结构与页面布局，将网页结构与布局划分为菜单选项的导航栏、构成主体内容的正文栏、用于宣传展示的广告栏、申明网页版权信息栏以及与页面内容相关的链接的不同的网页栏目；

S112：根据原有的网页HTML标签，选取标题、正文、链接、表格、内联、其他的六种HTML标签类型，对网页文本内容进行标识设置；

S113：依据不同网页栏目和HTML标签的功能特性以及标签中文本的主题语义相关度，对地理信息网页文本进行区块单元划分，将其分为正文区块、文本性质区块、语义强调区块、标题区块的四种区块类型；

S114：重复执行S111-S113的步骤，直到所有网页都执行完毕，最终将网页文本内容都划分成包含不同类别和数量的区块单元。

可选的，网页区块单元权重训练与分配步骤S120具体包括：

S121: 根据网页的组织结构和经验分析，对于不同类型的区块单元的贡献度进行设置，将贡献度大小顺序定义为：标题区块＞语义强调区块＞文本性质区块＞正文区块；

S122：将贡献度最低的正文区块设置为1，其他类型区块可相对正文区块的贡献度关系进行权重大小设置；

S123：结合步骤S110划分得到的区块单元类型与数量，计算每个网页区块单元的语义权重值，作为区块单元合并的权重因子，具体计算公式如下：

其中表示第/>个网页文档的区块/>的权重值，/>网页中区块数量，/>为该区块内所含的网页标签，/>为该区块当前标签的分配权重。

S124：利用归一化处理函数，对整个网页的区块单元权重进行归一化处理，得到区块单元的归一化权重因子，确保每个网页所有区块单元的权重总和为1。

可选的，所述基于区块单元的LDA文本主题分布表示步骤S130具体包括：

S131：根据S110步骤划分形成的区块单元，将每个原始网页转换为一个由多个区块单元子文档组成的集合，为网页分类训练提供语料；

S132：基于上述语料，利用经典LAD主题分类模型进行网页文档的主题建模，获得子文档-主题分布和主题-主题词分布。

S133：结合S124步骤得到的区块单元的归一化权重因子，对整个网页的区块单元子文档的主题分布进行权重相加合并，构建形成基于区块单元的网页主题分布；

S134：利用潜在主题困惑度与主题一致性对上述构建的网页主题分布进行分析与评价，优化并确定最佳潜在主题类目数量和主题词语特征维度，生成最终的网页主题分布。

可选的，基于LDA2Vec的主题特征向量生成步骤S140具体包括：

S141：基于S130步骤生成的最终的网页主题分布，汇总构建全部的网页主题分布；

S142：计算全部网页主题分布的欧式距离，通过设定目标函数参数并不断训练，实现网页主题和特征词合并和剔除，确保每个网页的主题分布数量基本平衡；

S143：基于Word2vec向量化模型中的Skip-gram模式，对每个网页主题分布进行词向量表示，构建网页文本的主题特征向量。

可选的，所述基于SVM支持向量机分类器的地理信息主题分类步骤S150具体包括：

S151：引入SVM支持向量机分类模型，通过将S143步骤生成的网页文本的主题特征向量输入到SVM支持向量机分类模型中，并将核函数设置为高斯径向基核函数RBF，对惩罚系数λ进行赋值，完成单一类型的分类器构建；

S152：选定高精地图、数字城市、实景三维、卫星遥感大数据、测绘法规、行业动态以及海外资源的七个类别作为地理信息主题类别，分别两两配对共构建21个分类器，实现地理信息网页文本的自动分类；

S153：根据计算每个分类器分类结果的准确率（P）、召回率（R）和F1值等参数，实现对分类结果的自评估，对于分类结果未达到预期阈值，重新调整惩罚系数λ，并重复S151-S153步骤，直到分类结果达到预期阈值。

本发明进一步公开了基于区块单元的地理信息网页文本主题分类***，包括如下模块：

网页结构特征分析与区块单元划分单元210：

网页区块单元权重训练与分配单元220：

根据S110步骤对不同网页划分的不同区块单元，将大量网页区块单元作为语料进行分析与训练，从而实现对不同区块单元的权重分配，并进行归一化处理，对权重值进行统一赋值；

基于区块单元的LDA文本主题分布表示单元230：

以区块单元为文本主题建模单元，结合不同区块单元的权重分配情况，引入LDA主题模型，实现基于区块单元的LDA主题模型构建，并通过对潜在主题困惑度和主题一致性进行分析，对主题数量进行优化，确定最佳潜在主题类目和特征词语维度；

基于LDA2Vec的主题特征向量生成单元240：

基于SVM支持向量机分类器的地理信息主题分类单元250：

将所提取的网页文本的主题特征向量输入到SVM支持向量机分类器中，利用径向基函数RBF将非线性问题转化为线性可分，采用“一对一”分类策略实现地理信息网页主题分类，并根据准确率、召回率和F1值对分类结果进行评估。

本发明进一步公开了一种存储介质，用于存储计算机可执行指令，

所述计算机可执行指令在被处理器执行时执行上述的基于区块单元的地理信息网页文本主题分类方法。

本发明具有如下优点：

1、通过分析网页的结构特性和各标签的作用以及在语义层面上的关系，将地理信息网页按照标签的语义特性分为四种类型的区块，在更细粒度上进行建模，有效的提取主题信息；

2、为不同类型的区块设计合适的权重分配方法，能够有效区分不同位置的文本内容对整个主题的贡献度；

3、基于区块单元LDA2Vec的地理信息网页文本特征提取方法。在传统LDA2Vec主题模型向量化的主题嵌入层上，以顾及网页结构特征的区块单元LAD主题模型代替原始的LDA主题模型，在网页区块的基础上完成地理信息文本内容主题建模，增强主题聚类能力。

附图说明

图1是根据本发明的具体实施的基于区块单元的地理信息网页文本主题分类方法的流程图；

图2是根据本发明的具体实施的网页结构特征分析与区块单元划分步骤的具体流程图；

图3是根据本发明的具体实施的网页区块单元权重训练与分配步骤的具体流程图；

图4是根据本发明的具体实施的基于区块单元的LDA文本主题分布表示步骤的具体流程图；

图5是根据本发明的具体实施的基于LDA2Vec的主题特征向量生成步骤的具体流程图；

图6是根据本发明的具体实施的基于SVM支持向量机分类器的地理信息主题分类步骤的具体流程图；

图7是根据本发明的具体实施的基于区块单元的地理信息网页文本主题分类装置的模块图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

参见图1，公开了根据本发明的具体实施的基于区块单元的地理信息网页文本主题分类方法的流程图，其包括如下步骤：

网页结构特征分析与区块单元划分步骤S110：

具体的，参加图2，所述步骤S110包括如下子步骤：

该步骤中根据分析的网页结构特征，将整个网页整体划分为四种类型的区块单元，以便后续步骤能够基于划分的区块单元进行主题建模和特征获取等相关操作。

网页区块单元权重训练与分配步骤S120：

具体的，参见图3，步骤S120包括如下子步骤：

例如将正文区块设置为1，如果想要强调网页的标题，可以将标题区块设置为一个相对大的数值，如设置为3或者4，语义强调区块和文本性质区块则可以设置为1-3之间的数值；如果不需要太过强调标题，可以相对设置比较小的数值，如设置为2，根据这种原则从而完成对不同区块类型权重的设置；

其中表示第/>个网页文档的区块/>的权重值，/>为网页中区块数量，/>为该区块内所含的网页标签，/>为该区块当前标签的分配权重。

基于区块单元的LDA文本主题分布表示步骤S130：

该步骤中以划分好的区块单元为文本主题建模单元，结合不同区块单元的权重情况，引入LDA主题模型，将原本LDA模型的文档-主题-主题词三层结构扩展为文档-区块单元-主题-主题词四层结构模型，实现基于区块单元的LDA主题模型构建，并通过对潜在主题困惑度和主题一致性进行分析，对主题数量进行优化，确定最佳潜在主题类目和特征词语维度；

具体的，参见图4，步骤S130包含以下子步骤：

基于LDA2Vec的主题特征向量生成步骤S140：

该步骤中，通过优化LDA2Vec主题模型向量化流程，以区块单元LDA代替原始的经典LDA模型，构建基于区块单元的LDA2Vec主题模型向量化方法，将区块单元LDA生成的网页主题分布和经Word2vec向量化模型训练的词向量融合构成文档特征向量，实现地理信息网页文本的主题特征向量生成。

具体的，参见图5，步骤S140包括如下子步骤：

S142：计算全部网页主题分布的欧式距离，通过设定目标函数参数并不断训练，实现网页主题和特征词合并和剔除，确保每个网页的主题特征词分布数量基本平衡。

例如所有网页主题特征词分布数量的中位数为X，一般网页主题特征词分布数量在[0.8X,1.2X]之间占比应该超过80%。例如网页主题特征词数量中位数为30维，网页主题特征词分布数量在[24,36]之间的占比应该超过80%。

基于SVM支持向量机分类器的地理信息主题分类步骤S150：

将步骤S140提取出的网页文本的主题特征向量输入到SVM支持向量机分类器中，利用径向基函数RBF将非线性问题转化为线性可分，采用“一对一”分类策略实现地理信息网页主题分类，并对分类结果进行评估，例如根据准确率（P）、召回率（R）和F1值对分类结果进行评估。

在该步骤中，基于选取训练集数据，利用SVM支持向量机分类模型，对网页文本的特征向量进行分类训练，，并通过参数调优设置好惩罚系数来优化训练模型参数，最终获得对地理信息网页文本分类最优解。

具体的，参见图6，包含如下子步骤：

例如，惩罚系数λ可以设置为（0,1]之间，通过调整惩罚系数λ

提高了分类准确率，本发明测试发现调整惩罚系数λ为0.05作为最优解。

S153：对分类结果进行自评估，例如根据计算每个分类器分类结果的准确率（P）、召回率（R）和F1值等参数，实现对分类结果的自评估。对于分类结果未达到预期阈值，重新调整惩罚系数λ，并重复S151-S153步骤，直到分类结果达到预期阈值。

例如，可以根据需要可以预先设置分类准确率的预期阈值（如85%），一般分类精度要求不低于70%，如果未达到预期阈值，重新调整惩罚系数λ，并重复S151-S153步骤，直到分类结果达到预期阈值。

进一步的，参见图7，公开了一种基于区块单元LDA2Vec的地理信息网页文本主题分类***，用于运行本发明的基于区块单元LDA2Vec的地理信息网页文本主题分类方法，包括如下模块：

网页结构特征分析与区块单元划分单元210：

网页区块单元权重训练与分配单元220：

基于区块单元的LDA文本主题分布表示单元230：

基于LDA2Vec的主题特征向量生成单元240：

基于SVM支持向量机分类器的地理信息主题分类单元250：

将所提取的网页文本的主题特征向量输入到SVM支持向量机分类器中，利用径向基函数RBF将非线性问题转化为线性可分，采用“一对一”分类策略实现地理信息网页主题分类，并对分类结果进行评估，例如根据准确率（P）、召回率（R）和F1值对分类结果进行评估。

进一步的，本发明还公开了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时执行上述的基于区块单元LDA2Vec的地理信息网页文本主题分类方法。

实施例：

通过实验发现，本发明可以很好的克服传统文本分类方法不能很好的利用网页文本在结构特征中蕴含的语义信息的问题。

例如：在一篇网页文本中，若“遥感”这个词语出现在标题中，则根据大量的经验这篇文章很大概率是与遥感相关的，其可以作为主题特征词，代表文章的主题信息；若“遥感”出现在正文中，就无法判断该网页文章是否属于遥感类别。在传统文本分类方法中并未考虑网页文本中特征词的位置关系，但本发明可以很好的根据网页的结构特征将语义相关度不同的文本赋予不同的权重，可以更加有效的识别出地理信息网页文本的主题信息。

综上，本发明有效克服了传统文本分类方法在网页文本分类任务中难以顾及整体和局部的语义信息以及有效识别主题信息等问题，通过对网页结构特征进行分析，将整篇文档划分为四种类型的区块单元，在比整篇文本更细粒度的层次上进行主题建模，获得全局性的主题分布，并结合LDA2Vec主题模型向量生成的训练具有上下文语义的词向量，生成地理信息网页文本的主题特征向量，采用SVM分类器完成分类。

本发明具有如下优点：

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.基于区块单元的地理信息网页文本主题分类方法，其特征在于，包括如下步骤：

网页结构特征分析与区块单元划分步骤S110：

网页区块单元权重训练与分配步骤S120：

基于区块单元的LDA文本主题分布表示步骤S130：

基于LDA2Vec的主题特征向量生成步骤S140：

基于SVM支持向量机分类器的地理信息主题分类步骤S150：

2.根据权利要求1所述的地理信息网页文本主题分类方法，其特征在于，

所述网页结构特征分析与区块单元划分步骤S110具体包括：

3.根据权利要求1所述的地理信息网页文本主题分类方法，其特征在于，

网页区块单元权重训练与分配步骤S120具体包括：

其中表示第/>个网页文档的区块/>的权重值，/>为网页中区块数量，/>为该区块内所含的网页标签，/>为该区块当前标签的分配权重；

4.根据权利要求1所述的地理信息网页文本主题分类方法，其特征在于，

所述基于区块单元的LDA文本主题分布表示步骤S130具体包括：

S132：基于上述语料，利用经典LAD主题分类模型进行网页文档的主题建模，获得子文档-主题分布和主题-主题词分布；

5.根据权利要求1所述的地理信息网页文本主题分类方法，其特征在于，

基于LDA2Vec的主题特征向量生成步骤S140具体包括：

6.根据权利要求1所述的地理信息网页文本主题分类方法，其特征在于，

所述基于SVM支持向量机分类器的地理信息主题分类步骤S150具体包括：

7.基于区块单元的地理信息网页文本主题分类***，包括如下模块：

网页结构特征分析与区块单元划分单元：

网页区块单元权重训练与分配单元：

基于区块单元的LDA文本主题分布表示单元：

基于LDA2Vec的主题特征向量生成单元：

基于SVM支持向量机分类器的地理信息主题分类单元：

8.一种存储介质，用于存储计算机可执行指令，

所述计算机可执行指令在被处理器执行时执行权利要求1-6中任意一项所述的基于区块单元的地理信息网页文本主题分类方法。