CN113886587A

CN113886587A - 一种基于深度学习的数据分类方法以及图谱的建立方法

Info

Publication number: CN113886587A
Application number: CN202111176377.9A
Authority: CN
Inventors: 姚洲鹏
Original assignee: Hangzhou Fanews Technology Co ltd
Current assignee: Hangzhou Fanews Technology Co ltd
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-01-04

Abstract

本发明提供一种基于深度学习的数据分类方法以及图谱的建立方法，其中数据分类的方法包括：提取基础文章中的核心关键词，计算核心关键词的权重值，建立第一权重对应表，提取每篇基础文章的关键词，根据第一权重对应表计算每篇文章的行业匹配度，得出第一匹配度阈值，根据第一匹配度对基础文章进行迭代；根据迭代的文章重复上述步骤，获得第二权重对应和第二匹配度阈值；利用第二匹配度阈值判断新文章是否属于目标行业。本发明利用基础文章提取关键词并将关键词分为标题关键词和正文关键词，赋予不同的调节因子，可以更有效地计算出行业匹配度，再利用匹配度更高的文章进行更精准地替换迭代，释放了存储历史数据的空间，更快速地获得最优的模型。

Description

一种基于深度学习的数据分类方法以及图谱的建立方法

技术领域

本申请涉及一种基于深度学习的数据分类方法和基于前述数据分类方法的行业知识图谱的建立方法，具体涉及一种自学习的深度学习的文章数据分类方法。

背景技术

文本聚类技术可应用于行业数据分析，***每日通过网络爬虫可收集来自各个领域的海量文章数据，利用算法有效的将这些文章进行归纳分类，可以帮助用户快速了解当前的行业信息，并高效的进行进一步的分析处理。

目前对于特定行业的数据汇聚及数据模型的建立，一般采用聚类算法进行数据的聚类，然后对聚类的数据再进行人工统计分类。但聚类算法需要保存全部历史文档信息，这会造成存储负担；并且，各行各业每日都存在大量的新增文本，而当文章越来越多时，历史文档信息就会越多，导致聚类算法的分析和运算效率降低，因此聚类算法只适用数据量小的场景，当数据量大时效率就会变低，同时也增加了人工分类成本。

发明内容

为了解决聚类算法聚类同行业文章时效率低下的问题，本申请提供一种文章分类方法，利用关键词权重以及文章和模型的匹配度进行分类。

一种基于深度学习的数据分类方法，包括以下步骤：

获取若干基础文章，从若干所述基础文章中提取若干个核心关键词，计算所述核心关键词的权重值，根据核心关键词以及权重值建立第一权重对应表；

提取每篇基础文章中的标题关键词和正文关键词，根据第一权重对应表查询标题关键词的权重值与正文关键词的权重值，根据所述标题关键词的权重值与正文关键词的权重值计算每篇基础文章的行业匹配度；

根据所述每篇基础文章的行业匹配度获得第一匹配度阈值；

提取待匹配文章的标题关键词和正文关键词，计算待匹配文章的行业匹配度，当所述待匹配文章的行业匹配度大于所述第一匹配度阈值时，所述待匹配文章替换所述基础文章中行业匹配度最低的一篇基础文章，当所有基础文章的行业匹配度均大于所述第一匹配度阈值时，停止迭代，获得文章分类模型；

利用文章分类模型中的文章重复上述步骤，获得第二权重对应表，并根据第二权重对应表获得第二匹配度阈值；

利用所述文章分类模型计算待计算文章的行业匹配度，当待计算文章的行业匹配度大于所述第二匹配度阈值时，则判定所述待计算文章属于目标行业。

进一步地，计算所述核心关键词的权重值的计算方法具体为：

wordw[i]指第i个关键词在模型中的权重，fq[i]指第i个关键词在本篇基础文章中出现的频次，fqm[i]指第i个关键词在所有基础文章中出现的频次，k指基础文章的数量。

进一步地，计算每篇基础文章的行业匹配度的计算方法具体为：

Titlew为标题调节因子，contentw正文调节因子，title[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值，content[i]指在正文中出现的第i个关键词在所述第一权重对应表中对应的权重值。

进一步地，从若干所述基础文章中提取若干个核心关键词所用的算法为TextRank算法。

进一步地，获取若干基础文章的方法包括：利用爬虫技术采集数据，利用ElasTicSearch集群存储，利用Hanlp分词器进行全文检索。

进一步地，计算待计算文章的行业匹配度，具体为：

Titlew为标题调节因子，contentw正文调节因子，title[i]指在标题中出现的第i个关键词在所述第二权重对应表中对应的权重值，content[i]指在标题中出现的第i个关键词在所述第二权重对应表中对应的权重值。

本发明还提供了一种图谱的建立方法，运用上面所述的基于深度学习的数据分类方法，得到目标行业的文章数据，根据所述文章数据建立目标行业知识图谱。

进一步地，根据所述文章数据建立目标行业知识图谱的方法，具体为：根据关键词相关度进行文章采样，获得采样文章，提取所述采样文章中的若干关键词，并通过互信息熵计算得出关键词的派生词，根据所述关键词和派生词建立行业知识图谱。

进一步地，还包括计算所述关键词和派生词的权重值，并将所述关键词和派生词根据权重值进行排序。

本发明还提供一种文章分类装置，包括存储器和处理器，其中，所述存储器用于存储数据处理程序，所述数据处理程序在被所述处理器读取执行时，执行权利上面所述的基于深度学习的数据分类方法。

本发明的有益效果为：

本发明利用基础文章提取关键词并将关键词分为标题关键词和正文关键词，赋予不同的调节因子，可以更有效地计算出某一文章的行业匹配度，并形成文章分类模型。再对此文章分类模型利用匹配度更高的文章进行更精准地替换迭代，不需要对所有历史数据进行存储，释放了***的存储空间，并且更少的文章可以减少计算量，在对模型进行优化的过程中，可以更快速地获得最优的模型。再通过匹配度阈值快速识别目标行业文章。快速得到某一行业的最新的文章后，根据新鲜的文章建立知识图谱，快速、高效地对海量数据进行检索，有助于各行各业在海量数据中可以快速浓缩主题，获取有价值的信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是文章分类方法的流程图；

图2是行业知识图谱的建立方法的示意图。

具体实施方式

为使得本申请的申请目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面结合附图和具体实施例，进一步阐明本发明。

在本申请的描述中，需要理解的是，术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

实施例1

本申请提供一种基于深度学习的数据分类方法，首先随机选取文章进行模型建立，再利用其他的文章使该模型进行自我学习，通过迭代获得最终的文章分类模型，并用最终的文章分类模型进行行业文章的判断。具体包括以下步骤：

利用爬虫技术采集数据，利用ElasTic Search集群存储，利用Hanlp分词器进行全文检索，可以从行业网站的数据，获取同一行业的若干基础文章，利用TextRank算法从若干所述基础文章中提取若干个核心关键词，计算所述核心关键词的权重值，根据核心关键词以及权重值建立第一权重对应表。

以林业行业为例子进行举例，我们挑选中国林业信息网的5000篇文章作为基础文章。从所有这些基础文章中总共提取500个核心关键词，并计算这些核心关键词的权重值，利用序号、核心关键词本身以及权重值建立第一权重对应表。

提取每篇基础文章中的标题关键词和正文关键词，根据第一权重对应表查询标题关键词的权重值与正文关键词的权重值，根据标题关键词的权重值与正文关键词的权重值计算每篇基础文章的行业匹配度。

根据所述每篇基础文章的行业匹配度获得第一匹配度阈值；

提取待匹配文章的标题关键词和正文关键词，计算待匹配文章的行业匹配度，当待匹配文章的行业匹配度大于所述第一匹配度阈值时，待匹配文章替换所述基础文章中行业匹配度最低的一篇基础文章，当所有基础文章的行业匹配度均大于所述第一匹配度阈值时，停止迭代，获得文章分类模型。这是模型的自我更新学习的过程，目的是查找更相近的，匹配度更高的文章形成模型，用于后续的待检测文章的检测，使文章分类更准确。

利用文章分类模型中的文章重复上述步骤，获得第二权重对应表，并根据第二权重对应表获得第二匹配度阈值。

计算核心关键词的权重值的计算方法具体为：

通过以上公式计算得到500个核心关键词的第一权重对应表，其中，fq[i]对应wordw[i]，例如：

序号	核心关键词	权重
			1	森林	985
2	林地	658
			3	草原	780
4	……	……

如上述图表所示，wordw[1]对应的核心管检测是森林，森林的权重值为985。

计算每篇基础文章的行业匹配度的计算方法具体为：

Titlew为标题调节因子，用于控制标题在计算中的重要性比例，一般设置为1；

Contentw正文调节因子，用于控制正文内容在计算中的重要性比例，一般设置为3；

title[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值。比如，文章标题为“我国植被中占据主体的是森林还是草原”，那么标题中的核心关键词包括森林和草原，在第一权重表查找到对应关系，那么title[1]是森林的权重值，为wordw[1]的权重值985；

content[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值。

通过上述方法，计算得到这5000篇基础文章的行业匹配度为8000～20000，那么第一匹配度阈值可以设为8000和20000之间的一个数值，本实施例中取第一匹配度阈值为12000。

再获得一批待匹配文章，提取待匹配文章的标题关键词和正文关键词，利用上述行业匹配度计算公式进行行业匹配度的计算，当这篇文章的行业匹配度大于第一匹配度阈值12000的话，将这篇文章替换掉基础文章中行业匹配度最低的一篇，也就是说替换掉行业匹配度为8000的基础文章。利用其他的待匹配文章进行上述方式的迭代，最终当模型中的文章的行业匹配度全都大于第一匹配度阈值12000时，停止迭代，获得最终的文章分类模型。

将目前的文章分类模型中的文章当成“基础文章”，重复上述计算权重值以及计算匹配度的步骤，最终得出第二权重对应表和第二匹配度阈值，用于后续判断新文章是否属于目标行业的文章。需要说明的时，第二匹配度阈值可以是更新后的文章分类模型中的所有文章中的最低行业匹配度，也可以是最低匹配度和最高匹配度之间的一个数值，可根据需求制定第二匹配度阈值。

当出现新的文章时，计算新文章的行业匹配度，用第二匹配度阈值进行判断，具体为：

title[i]指在标题中出现的第i个关键词在所述第二权重对应表中对应的权重值。比如，文章标题为“我国植被中占据主体的是森林还是草原”，那么标题中的核心关键词包括森林和草原，在第二权重表查找到对应关系，那么title[1]是森林的权重值，为wordw[1]的权重值985；

content[i]指在正文中出现的第i个关键词在所述第二权重对应表中对应的权重值。

当新文章的行业匹配度大于第二匹配阈值，那么该新文章属于目标行业，可以作为后续的行业知识图谱建立的数据库。

实施例2

本实施例提供一种图谱的建立方法，具体为目标行业知识图谱的建立方法，运用实施例1中的文章分类方法，得到某一行业的文章数据，根据文章数据建立目标行业的知识图谱。具体包括以下步骤：

根据关键词相关度进行文章采样，获得采样文章，提取所述采样文章中的若干关键词，并通过互信息熵计算得出关键词的派生词，计算所有关键词和派生词的权重值，将关键词和派生词按照权重值排序，并在关键词和派生词之间建立一个拓扑关系，形成网状结构图，从而得到行业知识图谱。

计算权重值的方法具体为：

其中，Weight用于表示权重；

subsetFreq用于表示该词在相关度高的结果集中的词频；

subsetSize用于表示结果集的大小；

superFreq用于表示整个数据库的词频；

superSize用于表示整个数据库的大小；

natureBoost用于表示词性权重，其中，名词和动词的权重大于比其他词性的权重；

fieldBoost用于表示字段权重，其中，标题的权重大于比内容的权重。

如图2所示，当关键词的权重越大，词所代表的圈就越大，派生词的圈比关键词的圈要小。具体的建立方法可以参考公开号“CN112100399A”和“CN112100330A”的专利申请中说明书部分。

通过各个创建关键词和与对应的派生词组创建知识图谱模型，并且所有关键词和派生词按照自身的权重顺序由上至下进行排序，从而使得用户可以直观地查询与相关关键词的派生词组，并且在派生词组中对各个派生词的权重进行查阅，进而采用知识图谱模型进行对应的搜索。从而可实现采用知识图谱模型获取节点集，并根据节点集进行搜索，进而快速、高效地对海量数据中进行对应于节点集的图谱搜索发现，并且有助于各行各业在海量数据中可以快速浓缩主题，获取有价值的信息。

实施例3

本实施例提供一种文章分类装置，包括存储器和处理器，其中，存储器用于存储数据处理程序，数据处理程序在被所述处理器读取执行时，执行权利实施例1中的基于深度学习的数据分类方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。

所述单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的***、装置或器件，或者任意以上的组合。

计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线段、电线段、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种基于深度学习的数据分类方法，其特征在于，包括以下步骤：

根据所述每篇基础文章的行业匹配度获得第一匹配度阈值；

2.根据权利要求1所述的基于深度学习的数据分类方法，计算所述核心关键词的权重值的计算方法具体为：

3.根据权利要求2所述的基于深度学习的数据分类方法，计算每篇基础文章的行业匹配度的计算方法具体为：

Titlew为标题调节因子，contentw正文调节因子，title[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值，content[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值。

4.根据权利要求1所述的基于深度学习的数据分类方法，从若干所述基础文章中提取若干个核心关键词所用的算法为TextRank算法。

5.根据权利要求1所述的基于深度学习的数据分类方法，获取若干基础文章的方法包括：利用爬虫技术采集数据，利用ElasTic Search集群存储，利用Hanlp分词器进行全文检索。

6.根据权利要求2所述的基于深度学习的数据分类方法，计算待计算文章的行业匹配度，具体为：

Titlew为标题调节因子，contentw正文调节因子，title[i]指在标题中出现的第i个关键词在所述第二权重对应表中对应的权重值，content[i]指在正文中出现的第i个关键词在所述第二权重对应表中对应的权重值。

7.一种图谱的建立方法，其特征在于，运用权利要求1-6任意一项所述的基于深度学习的数据分类方法，得到目标行业的文章数据，根据所述文章数据建立目标行业知识图谱。

8.根据权利要求7所述的图谱的建立方法，根据所述文章数据建立目标行业知识图谱的方法，具体为：根据关键词相关度进行文章采样，获得采样文章，提取所述采样文章中的若干关键词，并通过互信息熵计算得出关键词的派生词，根据所述关键词和派生词建立行业知识图谱。

9.根据权利要求8所述的图谱的建立方法，还包括计算所述关键词和派生词的权重值，并将所述关键词和派生词根据权重值进行排序。

10.一种文章分类装置，其特征在于，包括存储器和处理器，其中，所述存储器用于存储数据处理程序，所述数据处理程序在被所述处理器读取执行时，执行权利要求1-6任意一项所述的基于深度学习的数据分类方法。