CN113886587A - 一种基于深度学习的数据分类方法以及图谱的建立方法 - Google Patents

一种基于深度学习的数据分类方法以及图谱的建立方法 Download PDF

Info

Publication number
CN113886587A
CN113886587A CN202111176377.9A CN202111176377A CN113886587A CN 113886587 A CN113886587 A CN 113886587A CN 202111176377 A CN202111176377 A CN 202111176377A CN 113886587 A CN113886587 A CN 113886587A
Authority
CN
China
Prior art keywords
article
keywords
matching degree
articles
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111176377.9A
Other languages
English (en)
Inventor
姚洲鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Fanews Technology Co ltd
Original Assignee
Hangzhou Fanews Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Fanews Technology Co ltd filed Critical Hangzhou Fanews Technology Co ltd
Priority to CN202111176377.9A priority Critical patent/CN113886587A/zh
Publication of CN113886587A publication Critical patent/CN113886587A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于深度学习的数据分类方法以及图谱的建立方法,其中数据分类的方法包括:提取基础文章中的核心关键词,计算核心关键词的权重值,建立第一权重对应表,提取每篇基础文章的关键词,根据第一权重对应表计算每篇文章的行业匹配度,得出第一匹配度阈值,根据第一匹配度对基础文章进行迭代;根据迭代的文章重复上述步骤,获得第二权重对应和第二匹配度阈值;利用第二匹配度阈值判断新文章是否属于目标行业。本发明利用基础文章提取关键词并将关键词分为标题关键词和正文关键词,赋予不同的调节因子,可以更有效地计算出行业匹配度,再利用匹配度更高的文章进行更精准地替换迭代,释放了存储历史数据的空间,更快速地获得最优的模型。

Description

一种基于深度学习的数据分类方法以及图谱的建立方法
技术领域
本申请涉及一种基于深度学习的数据分类方法和基于前述数据分类方法的行业知识图谱的建立方法,具体涉及一种自学习的深度学习的文章数据分类方法。
背景技术
文本聚类技术可应用于行业数据分析,***每日通过网络爬虫可收集来自各个领域的海量文章数据,利用算法有效的将这些文章进行归纳分类,可以帮助用户快速了解当前的行业信息,并高效的进行进一步的分析处理。
目前对于特定行业的数据汇聚及数据模型的建立,一般采用聚类算法进行数据的聚类,然后对聚类的数据再进行人工统计分类。但聚类算法需要保存全部历史文档信息,这会造成存储负担;并且,各行各业每日都存在大量的新增文本,而当文章越来越多时,历史文档信息就会越多,导致聚类算法的分析和运算效率降低,因此聚类算法只适用数据量小的场景,当数据量大时效率就会变低,同时也增加了人工分类成本。
发明内容
为了解决聚类算法聚类同行业文章时效率低下的问题,本申请提供一种文章分类方法,利用关键词权重以及文章和模型的匹配度进行分类。
一种基于深度学习的数据分类方法,包括以下步骤:
获取若干基础文章,从若干所述基础文章中提取若干个核心关键词,计算所述核心关键词的权重值,根据核心关键词以及权重值建立第一权重对应表;
提取每篇基础文章中的标题关键词和正文关键词,根据第一权重对应表查询标题关键词的权重值与正文关键词的权重值,根据所述标题关键词的权重值与正文关键词的权重值计算每篇基础文章的行业匹配度;
根据所述每篇基础文章的行业匹配度获得第一匹配度阈值;
提取待匹配文章的标题关键词和正文关键词,计算待匹配文章的行业匹配度,当所述待匹配文章的行业匹配度大于所述第一匹配度阈值时,所述待匹配文章替换所述基础文章中行业匹配度最低的一篇基础文章,当所有基础文章的行业匹配度均大于所述第一匹配度阈值时,停止迭代,获得文章分类模型;
利用文章分类模型中的文章重复上述步骤,获得第二权重对应表,并根据第二权重对应表获得第二匹配度阈值;
利用所述文章分类模型计算待计算文章的行业匹配度,当待计算文章的行业匹配度大于所述第二匹配度阈值时,则判定所述待计算文章属于目标行业。
进一步地,计算所述核心关键词的权重值的计算方法具体为:
Figure BDA0003295241200000021
wordw[i]指第i个关键词在模型中的权重,fq[i]指第i个关键词在本篇基础文章中出现的频次,fqm[i]指第i个关键词在所有基础文章中出现的频次,k指基础文章的数量。
进一步地,计算每篇基础文章的行业匹配度的计算方法具体为:
Figure BDA0003295241200000022
Titlew为标题调节因子,contentw正文调节因子,title[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值,content[i]指在正文中出现的第i个关键词在所述第一权重对应表中对应的权重值。
进一步地,从若干所述基础文章中提取若干个核心关键词所用的算法为TextRank算法。
进一步地,获取若干基础文章的方法包括:利用爬虫技术采集数据,利用ElasTicSearch集群存储,利用Hanlp分词器进行全文检索。
进一步地,计算待计算文章的行业匹配度,具体为:
Figure BDA0003295241200000023
Titlew为标题调节因子,contentw正文调节因子,title[i]指在标题中出现的第i个关键词在所述第二权重对应表中对应的权重值,content[i]指在标题中出现的第i个关键词在所述第二权重对应表中对应的权重值。
本发明还提供了一种图谱的建立方法,运用上面所述的基于深度学习的数据分类方法,得到目标行业的文章数据,根据所述文章数据建立目标行业知识图谱。
进一步地,根据所述文章数据建立目标行业知识图谱的方法,具体为:根据关键词相关度进行文章采样,获得采样文章,提取所述采样文章中的若干关键词,并通过互信息熵计算得出关键词的派生词,根据所述关键词和派生词建立行业知识图谱。
进一步地,还包括计算所述关键词和派生词的权重值,并将所述关键词和派生词根据权重值进行排序。
本发明还提供一种文章分类装置,包括存储器和处理器,其中,所述存储器用于存储数据处理程序,所述数据处理程序在被所述处理器读取执行时,执行权利上面所述的基于深度学习的数据分类方法。
本发明的有益效果为:
本发明利用基础文章提取关键词并将关键词分为标题关键词和正文关键词,赋予不同的调节因子,可以更有效地计算出某一文章的行业匹配度,并形成文章分类模型。再对此文章分类模型利用匹配度更高的文章进行更精准地替换迭代,不需要对所有历史数据进行存储,释放了***的存储空间,并且更少的文章可以减少计算量,在对模型进行优化的过程中,可以更快速地获得最优的模型。再通过匹配度阈值快速识别目标行业文章。快速得到某一行业的最新的文章后,根据新鲜的文章建立知识图谱,快速、高效地对海量数据进行检索,有助于各行各业在海量数据中可以快速浓缩主题,获取有价值的信息。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是文章分类方法的流程图;
图2是行业知识图谱的建立方法的示意图。
具体实施方式
为使得本申请的申请目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下面结合附图和具体实施例,进一步阐明本发明。
在本申请的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
实施例1
本申请提供一种基于深度学习的数据分类方法,首先随机选取文章进行模型建立,再利用其他的文章使该模型进行自我学习,通过迭代获得最终的文章分类模型,并用最终的文章分类模型进行行业文章的判断。具体包括以下步骤:
利用爬虫技术采集数据,利用ElasTic Search集群存储,利用Hanlp分词器进行全文检索,可以从行业网站的数据,获取同一行业的若干基础文章,利用TextRank算法从若干所述基础文章中提取若干个核心关键词,计算所述核心关键词的权重值,根据核心关键词以及权重值建立第一权重对应表。
以林业行业为例子进行举例,我们挑选中国林业信息网的5000篇文章作为基础文章。从所有这些基础文章中总共提取500个核心关键词,并计算这些核心关键词的权重值,利用序号、核心关键词本身以及权重值建立第一权重对应表。
提取每篇基础文章中的标题关键词和正文关键词,根据第一权重对应表查询标题关键词的权重值与正文关键词的权重值,根据标题关键词的权重值与正文关键词的权重值计算每篇基础文章的行业匹配度。
根据所述每篇基础文章的行业匹配度获得第一匹配度阈值;
提取待匹配文章的标题关键词和正文关键词,计算待匹配文章的行业匹配度,当待匹配文章的行业匹配度大于所述第一匹配度阈值时,待匹配文章替换所述基础文章中行业匹配度最低的一篇基础文章,当所有基础文章的行业匹配度均大于所述第一匹配度阈值时,停止迭代,获得文章分类模型。这是模型的自我更新学习的过程,目的是查找更相近的,匹配度更高的文章形成模型,用于后续的待检测文章的检测,使文章分类更准确。
利用文章分类模型中的文章重复上述步骤,获得第二权重对应表,并根据第二权重对应表获得第二匹配度阈值。
利用所述文章分类模型计算待计算文章的行业匹配度,当待计算文章的行业匹配度大于所述第二匹配度阈值时,则判定所述待计算文章属于目标行业。
计算核心关键词的权重值的计算方法具体为:
Figure BDA0003295241200000051
wordw[i]指第i个关键词在模型中的权重,fq[i]指第i个关键词在本篇基础文章中出现的频次,fqm[i]指第i个关键词在所有基础文章中出现的频次,k指基础文章的数量。
通过以上公式计算得到500个核心关键词的第一权重对应表,其中,fq[i]对应wordw[i],例如:
序号 核心关键词 权重
1 森林 985
2 林地 658
3 草原 780
4 …… ……
如上述图表所示,wordw[1]对应的核心管检测是森林,森林的权重值为985。
计算每篇基础文章的行业匹配度的计算方法具体为:
Figure BDA0003295241200000052
Titlew为标题调节因子,用于控制标题在计算中的重要性比例,一般设置为1;
Contentw正文调节因子,用于控制正文内容在计算中的重要性比例,一般设置为3;
title[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值。比如,文章标题为“我国植被中占据主体的是森林还是草原”,那么标题中的核心关键词包括森林和草原,在第一权重表查找到对应关系,那么title[1]是森林的权重值,为wordw[1]的权重值985;
content[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值。
通过上述方法,计算得到这5000篇基础文章的行业匹配度为8000~20000,那么第一匹配度阈值可以设为8000和20000之间的一个数值,本实施例中取第一匹配度阈值为12000。
再获得一批待匹配文章,提取待匹配文章的标题关键词和正文关键词,利用上述行业匹配度计算公式进行行业匹配度的计算,当这篇文章的行业匹配度大于第一匹配度阈值12000的话,将这篇文章替换掉基础文章中行业匹配度最低的一篇,也就是说替换掉行业匹配度为8000的基础文章。利用其他的待匹配文章进行上述方式的迭代,最终当模型中的文章的行业匹配度全都大于第一匹配度阈值12000时,停止迭代,获得最终的文章分类模型。
将目前的文章分类模型中的文章当成“基础文章”,重复上述计算权重值以及计算匹配度的步骤,最终得出第二权重对应表和第二匹配度阈值,用于后续判断新文章是否属于目标行业的文章。需要说明的时,第二匹配度阈值可以是更新后的文章分类模型中的所有文章中的最低行业匹配度,也可以是最低匹配度和最高匹配度之间的一个数值,可根据需求制定第二匹配度阈值。
当出现新的文章时,计算新文章的行业匹配度,用第二匹配度阈值进行判断,具体为:
Figure BDA0003295241200000061
Titlew为标题调节因子,用于控制标题在计算中的重要性比例,一般设置为1;
Contentw正文调节因子,用于控制正文内容在计算中的重要性比例,一般设置为3;
title[i]指在标题中出现的第i个关键词在所述第二权重对应表中对应的权重值。比如,文章标题为“我国植被中占据主体的是森林还是草原”,那么标题中的核心关键词包括森林和草原,在第二权重表查找到对应关系,那么title[1]是森林的权重值,为wordw[1]的权重值985;
content[i]指在正文中出现的第i个关键词在所述第二权重对应表中对应的权重值。
当新文章的行业匹配度大于第二匹配阈值,那么该新文章属于目标行业,可以作为后续的行业知识图谱建立的数据库。
实施例2
本实施例提供一种图谱的建立方法,具体为目标行业知识图谱的建立方法,运用实施例1中的文章分类方法,得到某一行业的文章数据,根据文章数据建立目标行业的知识图谱。具体包括以下步骤:
根据关键词相关度进行文章采样,获得采样文章,提取所述采样文章中的若干关键词,并通过互信息熵计算得出关键词的派生词,计算所有关键词和派生词的权重值,将关键词和派生词按照权重值排序,并在关键词和派生词之间建立一个拓扑关系,形成网状结构图,从而得到行业知识图谱。
计算权重值的方法具体为:
Figure BDA0003295241200000071
其中,Weight用于表示权重;
subsetFreq用于表示该词在相关度高的结果集中的词频;
subsetSize用于表示结果集的大小;
superFreq用于表示整个数据库的词频;
superSize用于表示整个数据库的大小;
natureBoost用于表示词性权重,其中,名词和动词的权重大于比其他词性的权重;
fieldBoost用于表示字段权重,其中,标题的权重大于比内容的权重。
如图2所示,当关键词的权重越大,词所代表的圈就越大,派生词的圈比关键词的圈要小。具体的建立方法可以参考公开号“CN112100399A”和“CN112100330A”的专利申请中说明书部分。
通过各个创建关键词和与对应的派生词组创建知识图谱模型,并且所有关键词和派生词按照自身的权重顺序由上至下进行排序,从而使得用户可以直观地查询与相关关键词的派生词组,并且在派生词组中对各个派生词的权重进行查阅,进而采用知识图谱模型进行对应的搜索。从而可实现采用知识图谱模型获取节点集,并根据节点集进行搜索,进而快速、高效地对海量数据中进行对应于节点集的图谱搜索发现,并且有助于各行各业在海量数据中可以快速浓缩主题,获取有价值的信息。
实施例3
本实施例提供一种文章分类装置,包括存储器和处理器,其中,存储器用于存储数据处理程序,数据处理程序在被所述处理器读取执行时,执行权利实施例1中的基于深度学习的数据分类方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
所述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的***、装置或器件,或者任意以上的组合。
计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线段、电线段、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (10)

1.一种基于深度学习的数据分类方法,其特征在于,包括以下步骤:
获取若干基础文章,从若干所述基础文章中提取若干个核心关键词,计算所述核心关键词的权重值,根据核心关键词以及权重值建立第一权重对应表;
提取每篇基础文章中的标题关键词和正文关键词,根据第一权重对应表查询标题关键词的权重值与正文关键词的权重值,根据所述标题关键词的权重值与正文关键词的权重值计算每篇基础文章的行业匹配度;
根据所述每篇基础文章的行业匹配度获得第一匹配度阈值;
提取待匹配文章的标题关键词和正文关键词,计算待匹配文章的行业匹配度,当所述待匹配文章的行业匹配度大于所述第一匹配度阈值时,所述待匹配文章替换所述基础文章中行业匹配度最低的一篇基础文章,当所有基础文章的行业匹配度均大于所述第一匹配度阈值时,停止迭代,获得文章分类模型;
利用文章分类模型中的文章重复上述步骤,获得第二权重对应表,并根据第二权重对应表获得第二匹配度阈值;
利用所述文章分类模型计算待计算文章的行业匹配度,当待计算文章的行业匹配度大于所述第二匹配度阈值时,则判定所述待计算文章属于目标行业。
2.根据权利要求1所述的基于深度学习的数据分类方法,计算所述核心关键词的权重值的计算方法具体为:
Figure FDA0003295241190000011
wordw[i]指第i个关键词在模型中的权重,fq[i]指第i个关键词在本篇基础文章中出现的频次,fqm[i]指第i个关键词在所有基础文章中出现的频次,k指基础文章的数量。
3.根据权利要求2所述的基于深度学习的数据分类方法,计算每篇基础文章的行业匹配度的计算方法具体为:
Figure FDA0003295241190000012
Titlew为标题调节因子,contentw正文调节因子,title[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值,content[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值。
4.根据权利要求1所述的基于深度学习的数据分类方法,从若干所述基础文章中提取若干个核心关键词所用的算法为TextRank算法。
5.根据权利要求1所述的基于深度学习的数据分类方法,获取若干基础文章的方法包括:利用爬虫技术采集数据,利用ElasTic Search集群存储,利用Hanlp分词器进行全文检索。
6.根据权利要求2所述的基于深度学习的数据分类方法,计算待计算文章的行业匹配度,具体为:
Figure FDA0003295241190000021
Titlew为标题调节因子,contentw正文调节因子,title[i]指在标题中出现的第i个关键词在所述第二权重对应表中对应的权重值,content[i]指在正文中出现的第i个关键词在所述第二权重对应表中对应的权重值。
7.一种图谱的建立方法,其特征在于,运用权利要求1-6任意一项所述的基于深度学习的数据分类方法,得到目标行业的文章数据,根据所述文章数据建立目标行业知识图谱。
8.根据权利要求7所述的图谱的建立方法,根据所述文章数据建立目标行业知识图谱的方法,具体为:根据关键词相关度进行文章采样,获得采样文章,提取所述采样文章中的若干关键词,并通过互信息熵计算得出关键词的派生词,根据所述关键词和派生词建立行业知识图谱。
9.根据权利要求8所述的图谱的建立方法,还包括计算所述关键词和派生词的权重值,并将所述关键词和派生词根据权重值进行排序。
10.一种文章分类装置,其特征在于,包括存储器和处理器,其中,所述存储器用于存储数据处理程序,所述数据处理程序在被所述处理器读取执行时,执行权利要求1-6任意一项所述的基于深度学习的数据分类方法。
CN202111176377.9A 2021-10-09 2021-10-09 一种基于深度学习的数据分类方法以及图谱的建立方法 Pending CN113886587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111176377.9A CN113886587A (zh) 2021-10-09 2021-10-09 一种基于深度学习的数据分类方法以及图谱的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111176377.9A CN113886587A (zh) 2021-10-09 2021-10-09 一种基于深度学习的数据分类方法以及图谱的建立方法

Publications (1)

Publication Number Publication Date
CN113886587A true CN113886587A (zh) 2022-01-04

Family

ID=79005894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111176377.9A Pending CN113886587A (zh) 2021-10-09 2021-10-09 一种基于深度学习的数据分类方法以及图谱的建立方法

Country Status (1)

Country Link
CN (1) CN113886587A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817425A (zh) * 2022-06-28 2022-07-29 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质
CN115641149A (zh) * 2022-08-27 2023-01-24 北京华宜信科技有限公司 一种定制化数据资产估值方法
CN116484027A (zh) * 2023-06-20 2023-07-25 北京中科智易科技股份有限公司 基于知识图谱技术建立的军用设备图谱***
CN116910277A (zh) * 2023-09-13 2023-10-20 之江实验室 知识图谱构建方法、资源查找方法、计算机设备和介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817425A (zh) * 2022-06-28 2022-07-29 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质
CN114817425B (zh) * 2022-06-28 2022-09-02 成都交大大数据科技有限公司 一种冷热数据分类的方法、装置、设备及可读存储介质
CN115641149A (zh) * 2022-08-27 2023-01-24 北京华宜信科技有限公司 一种定制化数据资产估值方法
CN115641149B (zh) * 2022-08-27 2023-06-27 北京华宜信科技有限公司 一种定制化数据资产估值方法
CN116484027A (zh) * 2023-06-20 2023-07-25 北京中科智易科技股份有限公司 基于知识图谱技术建立的军用设备图谱***
CN116484027B (zh) * 2023-06-20 2023-08-22 北京中科智易科技股份有限公司 基于知识图谱技术建立的军用设备图谱***
CN116910277A (zh) * 2023-09-13 2023-10-20 之江实验室 知识图谱构建方法、资源查找方法、计算机设备和介质
CN116910277B (zh) * 2023-09-13 2024-02-27 之江实验室 知识图谱构建方法、资源查找方法、计算机设备和介质

Similar Documents

Publication Publication Date Title
CN113886587A (zh) 一种基于深度学习的数据分类方法以及图谱的建立方法
US8560531B2 (en) Search tool that utilizes scientific metadata matched against user-entered parameters
CN110457405B (zh) 一种基于血缘关系的数据库审计方法
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN113420190A (zh) 一种商户风险识别方法、装置、设备及存储介质
CN112035598A (zh) 一种智能语义检索方法、***和电子设备
CN103514381B (zh) 整合拓扑属性和功能的蛋白质生物网络模体识别方法
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN111914159B (zh) 一种信息推荐方法及终端
CN110046889B (zh) 一种异常行为主体的检测方法、装置及服务器
CN111326236A (zh) 一种医疗图像自动处理***
CN110688593A (zh) 一种社交媒体账号识别方法及***
CN110609952A (zh) 数据采集方法、***和计算机设备
CN114327964A (zh) 业务***的故障原因处理方法、装置、设备及存储介质
CN108228787B (zh) 按照多级类目处理信息的方法和装置
CN114265927A (zh) 数据查询方法及装置、存储介质及电子装置
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN113127464B (zh) 农业大数据环境特征处理方法、装置及电子设备
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测***、电子设备
CN108664548B (zh) 一种退化条件下的网络访问行为特征群体动态挖掘方法及***
CN116401338A (zh) 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法
CN114691875A (zh) 一种数据分类分级处理方法及装置
CN112612870A (zh) 一种非结构化数据管理方法
CN106339369B (zh) 一种资料集的同义词识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination