CN110413782B - 一种表自动主题分类方法、装置、计算机设备及存储介质 - Google Patents

一种表自动主题分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110413782B
CN110413782B CN201910664697.5A CN201910664697A CN110413782B CN 110413782 B CN110413782 B CN 110413782B CN 201910664697 A CN201910664697 A CN 201910664697A CN 110413782 B CN110413782 B CN 110413782B
Authority
CN
China
Prior art keywords
theme
metadata
category
preset
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910664697.5A
Other languages
English (en)
Other versions
CN110413782A (zh
Inventor
刘飞燕
李敏
林健
金建良
吴林强
许琮浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhongyun Data Technology Co ltd
Huzhou Big Data Operation Co ltd
Hangzhou City Big Data Operation Co ltd
Original Assignee
Hangzhou Zhongyun Data Technology Co ltd
Huzhou Big Data Operation Co ltd
Hangzhou City Big Data Operation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhongyun Data Technology Co ltd, Huzhou Big Data Operation Co ltd, Hangzhou City Big Data Operation Co ltd filed Critical Hangzhou Zhongyun Data Technology Co ltd
Priority to CN201910664697.5A priority Critical patent/CN110413782B/zh
Publication of CN110413782A publication Critical patent/CN110413782A/zh
Application granted granted Critical
Publication of CN110413782B publication Critical patent/CN110413782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于人工智能的自然语言处理技术领域,尤其涉及一种表自动主题分类方法、装置、计算机设备及存储介质。所述方法包括以下步骤:获取与表对应的元数据并对所述元数据进行预处理;提取预处理后的所述元数据的特征向量;使用预训练的文档主题生成模型对所述特征向量进行处理,输出所述表所属的类别及类别对应的权重;根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题。本发明通过预训练的文档主题生成模型对表的元数据进行处理得到表的类别并与预设主题匹配确定表的最终主题,解决了现有技术利用文档主题生成模型识别得到的主题可读性差,不便于理解业务的问题。

Description

一种表自动主题分类方法、装置、计算机设备及存储介质
技术领域
本发明属于人工智能的自然语言处理技术领域,尤其涉及一种表自动主题分类方法、装置、计算机设备及存储介质。
背景技术
聚类分析又称群分析,它是研究分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类分析的算法可以分为基于划分的算法(Partitioning Methods)、基于层次的算法(Hierarchical Methods)、基于密度的算法(density-based methods)、基于网格的算法(grid-based methods)、基于模型的算法(Model-Based Methods)。
传统的聚类算法,如基于划分的算法(如K-means算法)、基于层次的算法(如自顶向下和自底向上算法)、基于密度的算法等,可以用于实现文本数据聚类。但是,这类算法普遍依赖于文本之间距离的计算,而这种距离在海量文本中是很难定义的;此外,聚类结果也只是起到区分类别的作用,并没有给出语义上的信息,不利于人们的理解。基于上述缺陷,LDA(Latent Dirichlet Allocation,文档主题生成模型)引入了超参数,形成了一个文档-主题-单词三层的贝叶斯模型,通过运用概率方法对模型进行推导,来寻找文本集的语义结构,挖掘文本的主题。目前,LDA模型已经成为了主题建模中的一个标准方法,在众多领域中均有应用。
然而,LDA方法是一种无监督方法,其给出的不同主题均是一组按权重排序的关键词,这些关键词量往往很大,如果对业务不是特别熟悉,基于这些关键词很难推断出主题的具体含义,这对理解业务造成很大的不便。
发明内容
本发明实施例的目的在于提供一种表自动主题分类方法,旨在解决现有文档主题生成模型给出的不同主题均是一组按权重排序的关键词,这些关键词量往往很大,对业务不是特别熟悉的情况下,基于这些关键词很难推断出主题的具体含义,对理解业务造成不便的问题。
本发明实施例是这样实现的,一种表自动主题分类方法,所述方法包括以下步骤:
获取与表对应的元数据并对所述元数据进行预处理使之满足向量化要求;
提取预处理后的所述元数据的特征向量;
使用预训练的文档主题生成模型对所述特征向量进行处理,输出所述表所属的类别及类别对应的权重;
根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题。
本发明实施例的另一目的在于提供一种表自动主题分类装置,所述装置包括:
数据获取以及预处理模块,用于获取与表对应的元数据并对所述元数据进行预处理使之满足向量化要求;
特征向量提取模块,用于提取预处理后的所述元数据的特征向量;
分类模块,用于使用预训练的文档主题生成模型对所述特征向量进行处理,输出所述表所属的类别及类别对应的权重;
匹配模块,用于根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题。
本发明实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述任一个实施例所述的一种表自动主题分类方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述任一个实施例所述的一种表自动主题分类方法的步骤。
本发明实施例提供的一种表自动主题分类方法,通过将文档主题生成模型的输出结果与预设的主题分类进行匹配从而确定表的最终主题,解决了现有技术利用文档主题生成模型识别得到的主题可读性差,不便于理解业务的问题;并且,本发明仅仅利用表的元数据即可确定表的主题分类,无需读取整张表的数据,数据量小,处理速度快。
附图说明
图1为本发明实施例提供的表自动主题分类方法的流程图;
图2为本发明实施例提供的文档主题生成模型的训练方法流程图;
图3为本发明另一个实施例提供的表自动主题分类方法的流程图;
图4为本发明另一个实施例提供的文档主题生成模型的训练方法流程图;
图5为图1中步骤根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题的具体流程图;
图6为本发明实施例提供的表主题分灯装置的结构框图;
图7为本发明实施例提供的文档主题生成模型训练装置的结构框图;
图8为本发明另一个实施例提供的表主题分灯装置的结构框图;
图9为本发明另一个实施例提供的文档主题生成模型训练装置的结构框图;
图10为图6中匹配模块604的具体结构框图;
图11为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
图1示出了本发明实施例提供的一种表自动主题分类方法的流程图,具体包括步骤S102~步骤S108。
步骤S102,获取与表对应的元数据并对所述元数据进行预处理使之满足向量化要求。
在本发明实施例中,表的元数据是指对表的数据进行描述的数据,主要用于描述数据的属性,例如存储位置、历史数据、资源查找、文件记录等。在本发明中,表的元数据可以是表名、表名注释、列名以及列名注释中的一种或者多种。由于元数据不涉及表的具体内容,数据量小,运算处理速度快。
在本发明实施例中,元数据以文本数据的形式表示,一张表对应一个元数据。对于元数据的预处理,其主要目的是使元数据能够进行向量化,包括但不限于分词处理、去停用词处理、去标点符号处理以及将词转换为词根等处理过程,需要说明的是,上述处理过程是否为必要根据元数据向量化的要求判断,根据采用的向量化的不同方法,其预处理的过程可以存在一些步骤上的差异,本发明实施例对此不作具体限定。
步骤S104,提取预处理后的所述元数据的特征向量。
在本发明实施例中,提取特征向量的目的在于得到可以输入处理模块的向量,根据所用的处理模块不同,提取特征向量的算法也可以不同,常用的算法包括利用通用词向量计算、利用TFIDF(term frequency inverse document frequency,一种用于信息检索与数据挖掘的加权技术)算法计算,此为可选的特征向量计算方法,本发明实施例对此不作具体限定。
步骤S106,使用预训练的文档主题生成模型对所述特征向量进行处理,输出所述表所属的类别及类别对应的权重。
在本发明实施例中,文档主题生成模型可以对上一步骤得到的特征向量进行处理并输出对应表的所属分类以及相应分类的权重,在本发明实施例中,相应分类的权重表征表属于该分类的概率的大小;文档主题生成模型中包含的分类的数量由其训练过程确定。
步骤S108,根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题。
在本发明实施例中,经过文档主题生成模型的处理,可以得到表所属的分类,但是,该分类由一系列具有各自权重的关键词组成,而各个关键词之间并不一定具有明显的逻辑关系,不便于人的理解。为了解决该问题,本发明通过将文档主题生成模型处理后输出的分类与预设的主题进行匹配,从而确定表最终所属的主题,由于预设的主题其对应的业务类型是已知的,因此确定出的表所属的主题是可理解的,使用后期有业务处理。
本发明实施例提供的一种表自动主题分类方法,通过将文档主题生成模型的输出结果与预设的主题分类进行匹配从而确定表的最终主题,解决了现有技术利用文档主题生成模型识别得到的主题可读性差,不便于理解业务的问题;并且,本发明仅仅利用表的元数据即可确定表的主题分类,无需读取整张表的数据,数据量小,处理速度快。
图2示出了上一个实施例中文档主题生成模型的训练方法的流程,具体可以包括以下步骤:
步骤S202,获取与训练用表对应的元数据集并对所述元数据集进行预处理使之满足向量化要求。
在本发明实施例中,元数据集中包括多个元数据,元数据与训练用表一一对应,元数据可以从数据库中直接获取,例如Oracle、MySQL和ODPS等数据库都提供了大量可用的表及与其对应的元数据。对于元数据的预处理,其主要目的是使元数据能够进行向量化,包括但不限于分词处理、去停用词处理、去标点符号处理以及将词转换为词根等处理过程,需要说明的是,上述处理过程是否为必要根据元数据向量化的要求判断,根据采用的向量化的不同方法,其预处理的过程可以存在一些步骤上的差异,本发明实施例对此不作具体限定。
步骤S204,提取预处理后的所述元数据集中每个元数据的特征向量得到特征向量集。
在本发明实施例中,提取特征向量的目的在于得到可以输入处理模块的向量,根据所用的处理模块不同,提取特征向量的算法也可以不同,常用的算法包括利用通用词向量计算、利用TFIDF(term frequency inverse document frequency,一种用于信息检索与数据挖掘的加权技术)算法计算,此为可选的特征向量计算方法,本发明实施例对此不作具体限定。
步骤S206,将所述特征向量集输入所述文档主题生成模型,对预设的若干个主题个数进行循环迭代处理并输出每个主题个数下的评价指标。
在本发明实施例中,通过预设若干个主题个数并进行循环迭代的方式确定最优主题个数。主题个数是文档主题生成模型的一个关键参数,主题个数的多少直接影响到分类的准确程度。现有技术在训练文档主题生成模型时需要输入主题个数,之后对于训练用元数据集按输入的主题个数进行分类。但是对于大量的元数据,需要预先确定其分类并不现实。本发明通过预设多个主题个数,使文档主题生成模型依次对预设的若干个主题个数进行迭代处理,根据每一次迭代处理输出的相关参数判断主题个数是为最优。通过这种方式,不需要直接确定主题个数,避免了人为确定主题个数导致的分类不准确,可以提高文档主题生成模型分类的准确性,使之分出的类更符合实际需要。可以理解,在本发明实施例中,预设的主题个数为多个整数,优选为多个按大小排列的整数,其范围可以根据经验设定,当然,也可以设置一个较大的范围,在该较大的范围内依次将每个整数作为主题个数对特征向量集进行分类,根据输出的相关参数选取最优主题个数。
步骤S208,根据所述评价指标选取最优主题个数,将最优主题个数下的所述文档主题生成模型作为训练好的所述文档主题生成模型。
在本发明实施例中,根据所述评价指标选取最优主题个数,具体方法可以是:比较数值评价指标的数值大小,选取数值最优的评价指标对应的主题个数作为最优主题个数;或者比较图表评价指标的图表分布,选取图表分布最优的评价指标对应的主题个数作为最优主题个数。对于文档主题生成模型,可用于评价分类优劣的数值评价指标包括但不限于参数perplexity以及参数coherence;可以用于评价分类优劣的图表评价指标包括但不限于pyLDAvis图表指标。两者各有偏重,在实际使用时,可以综合两类参数进行考虑,从而最终确定最优主题个数。
本发明实施例提供的表自动主题分类方法给出了文档主题生成模型的训练方法,通过设置若干个主题个数,依次对每个主题个数进行迭代处理由轮迭代处理输出的相关参数判断分类的优劣,避免了人为设定唯一主题个数对分类优劣的影响,可以提高模型的分类效果,并且,通过循环迭代确定的主题个数依赖于训练用的特征向量集,能够更好反映训练用的特征向量集的类别。
图3示出了本发明另一个实施例提供的一种表自动主题分类方法的流程图,其与图1所示的方法相比,区别在于在步骤S102之后还包括步骤S302。
步骤S302,根据预设规则调整表名在所述元数据中出现的频率以增加表名在所述元数据中的权重。
在本发明实施例中,由于元数据可能包含了表名、列名等内容,而在这些内容中,作为对表的分类具有重要影响的表名其重要程度与其预处理得出的其它关键词地位等同,这不利于准确地对表进行主题分类。在本发明实施例中,通过调整表名在元数据中的频率从而增加表名在元数据中的权重,可以使得表的最终主题与其表名更为贴近,从而提高主题分类的准确性。在本发明实施例中,预设的规则可以是限定表名在元数据中的占比,例如:表名由一个词构成,非表名的内容由两个词构成,当限定表名在元数据中的占比不小于0.5时,可以使表名对应的词重复一次,使元数据变为四个词,其中表名占两个。可以理解,此仅仅为一种可实现的具体方式,并不用于限定本发明的具体实施。
本发明实施例提供的表自动主题分类方法可以通过调整表名在元数据中的占比从而增加表名权重,使得表主题的确定更多地依据表名,从而提高主题分类的准确性。
图4示出了本发明另一个实施例提供的一种表自动主题分类方法的流程图,其与图2所示的方法相比,区别在于在步骤S202之后还包括步骤S402,还包括步骤S502。
步骤S402,根据预设规则调整表名在所述元数据中出现的频率以增加表名在所述元数据中的权重。
在本发明实施例中,由于元数据可能包含了表名、列名等内容,而在这些内容中,作为对表的分类具有重要影响的表名其重要程度与其预处理得出的其它关键词地位等同,这不利于准确地对表进行分类。在本发明实施例中,通过调整表名在元数据中的频率从而增加表名在元数据中的权重,可以使得表的最终主题与其表名更为贴近,从而提高主题分类的准确性。在本发明实施例中,预设的规则可以是限定表名在元数据中的占比,例如:表名由一个词构成,非表名的内容由两个词构成,当限定表名在元数据中的占比不小于0.5时,可以使表名对应的词重复一次,使元数据变为四个词,其中表名占两个。可以理解,此仅仅为一种可实现的具体方式,并不用于限定本发明的具体实施。
本发明实施例提供的表自动主题分类方法可以通过调整表名在元数据中的占比从而增加表名权重,使得表主题的确定更多地依据表名,从而提高主题分类的准确性。
图5示出了本发明实施例提供的一种表自动主题分类方法的流程,与图1所示的方法相比,其区别在于,步骤S104的具体包括步骤S502~步骤S506。
步骤S502,判断所述类别对应的权重是否满足预设条件,若满足则选取所述类别作为待匹配类别,所述类别包含若干个第一关键词以及与各个所述第一关键词对应的权重。
在本发明实施例中,预设条件可以是一个数值范围,也可以是一个权重排名。例如,当选用数值范围时,权重落入该数值范围内的分类都作为待确定的分类;当选用权重排名的方式时,可以选择排名的前N个分类作为待确定的分类。本发明实施例对此不作具体限定。
步骤S504,将所述待匹配类别包含的所述第一关键词分别与每一个预设主题包含的第二关键词进行匹配,若所述预设主题包含与所述第一关键词匹配的所述第二关键词,则所述预设主题的匹配度为:所有存在配对的所述第一关键词对应的权重之和。
步骤S506,选取所述匹配度最高的所述预设主题作为所述表的最终主题。
在本发明实施例中,通过将分类中包含的第一关键词与任一预设主题中包含的第二关键词进行匹配,当存在配对的第二关键词时,将对应第一关键词的权重相加,得到相应分类与该主题的匹配度。可以理解,根据预设条件的不同,选取的分类数量可以不为一,当存在多个分类时,每一分类需要依次与所有预设主题进行匹配。在本发明实施例中,由于文档主题生成模型输出的分类由若干第一关键词组成,而各个第一关键词之间并不一定存在明显的业务联系,由第一关键词并不能准确地确定表所属的主题。而通过本发明提供的方法,由于预设的主题所对应的业务是已知的,通过将分类与预设的主题匹配,可以最终确定表所属的主题,并且最终确定出的主题便于理解,与业务存在对应关系。
本发明实施例提供的表自动主题分类方法通过将文档主题生成模型的输出分类与预设的主题进行匹配从而确定表的最终主题,通过这种方式,使得表的最终主题直接与业务类型对应,便于表的所属主题的理解,便于业务人员的对表进行相应的操作。
图6示出了本发明实施例提供的一种表自动主题分类装置的结构框图,具体包括:
数据获取以及预处理模块601,用于获取与表对应的元数据并对所述元数据进行预处理使之满足向量化要求。
特征向量提取模块602,用于提取预处理后的所述元数据的特征向量。
分类模块603,用于使用预训练的文档主题生成模型对所述特征向量进行处理,输出所述表所属的类别及类别对应的权重。
匹配模块604,用于根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题。
在本发明实施例中,表的元数据是指对表的数据进行描述的数据,主要用于描述数据的属性,例如存储位置、历史数据、资源查找、文件记录等。在本发明中,表的元数据可以是表名、表名注释、列名以及列名注释中的一种或者多种。由于元数据不涉及表的具体内容,数据量小,运算处理速度快。
在本发明实施例中,元数据以文本数据的形式表示,一张表对应一个元数据。对于元数据的预处理,其主要目的是使元数据能够进行向量化,包括但不限于分词处理、去停用词处理、去标点符号处理以及将词转换为词根等处理过程,需要说明的是,上述处理过程是否为必要根据元数据向量化的要求判断,根据采用的向量化的不同方法,其预处理的过程可以存在一些步骤上的差异,本发明实施例对此不作具体限定。
在本发明实施例中,提取特征向量的目的在于得到可以输入处理模块的向量,根据所用的处理模块不同,提取特征向量的算法也可以不同,常用的算法包括利用通用词向量计算、利用TFIDF(term frequency inverse document frequency,一种用于信息检索与数据挖掘的加权技术)算法计算,此为可选的特征向量计算方法,本发明实施例对此不作具体限定。
在本发明实施例中,文档主题生成模型可以对上一步骤得到的特征向量进行处理并输出对应表的所属分类以及相应分类的权重,在本发明实施例中,相应分类的权重表征表属于该分类的概率的大小;文档主题生成模型中包含的分类的数量由其训练过程确定。
在本发明实施例中,经过文档主题生成模型的处理,可以得到表所属的分类,但是,该分类由一系列具有各自权重的关键词组成,而各个关键词之间并不一定具有明显的逻辑关系,不便于人的理解。为了解决该问题,本发明通过将文档主题生成模型处理后输出的分类与预设的主题进行匹配,从而确定表最终所属的主题,由于预设的主题其对应的业务类型是已知的,因此确定出的表所属的主题是可理解的,使用后期有业务处理。
本发明实施例提供的一种表自动主题分类装置,通过将文档主题生成模型的输出结果与预设的主题分类进行匹配从而确定表的最终主题,解决了现有技术利用文档主题生成模型识别得到的主题可读性差,不便于理解业务的问题;并且,本发明仅仅利用表的元数据即可确定表的主题分类,无需读取整张表的数据,数据量小,处理速度快。
图7示出了上一个实施例中文档主题生成模型的训练装置的结构框图,具体可以:
数据集获取以及预处理模块701,用于获取与训练用表对应的元数据集并对所述元数据集进行预处理使之满足向量化要求。
特征向量集提取模块702,用于提取预处理后的所述元数据集中每个元数据的特征向量得到特征向量集。
训练模块703,用于将所述特征向量集输入所述文档主题生成模型,对预设的若干个主题个数进行循环迭代处理并输出每个主题个数下的评价指标。
主题个数确定模块704,用于根据所述评价指标选取最优主题个数,将最优主题个数下的所述文档主题生成模型作为训练好的所述文档主题生成模型。
在本发明实施例中,元数据集中包括多个元数据,元数据与训练用表一一对应,元数据可以从数据库中直接获取,例如Oracle、MySQL和ODPS等数据库都提供了大量可用的表及与其对应的元数据。对于元数据的预处理,其主要目的是使元数据能够进行向量化,包括但不限于分词处理、去停用词处理、去标点符号处理以及将词转换为词根等处理过程,需要说明的是,上述处理过程是否为必要根据元数据向量化的要求判断,根据采用的向量化的不同方法,其预处理的过程可以存在一些步骤上的差异,本发明实施例对此不作具体限定。
在本发明实施例中,提取特征向量的目的在于得到可以输入处理模块的向量,根据所用的处理模块不同,提取特征向量的算法也可以不同,常用的算法包括利用通用词向量计算、利用TFIDF算法计算,此为可选的特征向量计算方法,本发明实施例对此不作具体限定。
在本发明实施例中,通过预设若干个主题个数并进行循环迭代的方式确定最优主题个数。主题个数是文档主题生成模型的一个关键参数,主题个数的多少直接影响到分类的准确程度。现有技术在训练文档主题生成模型时需要输入主题个数,之后对于训练用元数据集按输入的主题个数进行分类。但是对于大量的元数据,需要预先确定其分类并不现实。本发明通过预设多个主题个数,使文档主题生成模型依次对预设的若干个主题个数进行迭代处理,根据每一次迭代处理输出的相关参数判断主题个数是为最优。通过这种方式,不需要直接确定主题个数,避免了人为确定主题个数导致的分类不准确,可以提高文档主题生成模型分类的准确性,使之分出的类更符合实际需要。可以理解,在本发明实施例中,预设的主题个数为多个整数,优选为多个按大小排列的整数,其范围可以根据经验设定,当然,也可以设置一个较大的范围,在该较大的范围内依次将每个整数作为主题个数对特征向量集进行分类,根据输出的相关参数选取最优主题个数。
在本发明实施例中,根据所述评价指标选取最优主题个数,具体方法可以是:比较数值评价指标的数值大小,选取数值最优的评价指标对应的主题个数作为最优主题个数;或者比较图表评价指标的图表分布,选取图表分布最优的评价指标对应的主题个数作为最优主题个数。对于文档主题生成模型,可用于评价分类优劣的数值评价指标包括但不限于参数perplexity以及参数coherence;可以用于评价分类优劣的图表评价指标包括但不限于pyLDAvis图表指标。两者各有偏重,在实际使用时,可以综合两类参数进行考虑,从而最终确定最优主题个数。
本发明实施例提供的表自动主题分类装置给出了文档主题生成模型训练装置,通过设置若干个主题个数,依次对每个主题个数进行迭代处理由轮迭代处理输出的相关参数判断分类的优劣,避免了人为设定唯一主题个数对分类优劣的影响,可以提高模型的分类效果,并且,通过循环迭代确定的主题个数依赖于训练用的特征向量集,能够更好反映训练用的特征向量集的类别。
图8示出了本发明另一个实施例提供的一种表自动主题分类装置的结构框图,其与图6所示的装置相比,区别在于在数据获取以及预处理模块601之后还包括表名权重调整模块801。
表名权重调整模块801,用于根据预设规则调整表名在所述元数据中出现的频率以增加表名在所述元数据中的权重。
在本发明实施例中,由于元数据可能包含了表名、列名等内容,而在这些内容中,作为对表的分类具有重要影响的表名其重要程度与其预处理得出的其它关键词地位等同,这不利于准确地对表进行主题分类。在本发明实施例中,通过调整表名在元数据中的频率从而增加表名在元数据中的权重,可以使得表的最终主题与其表名更为贴近,从而提高主题分类的准确性。在本发明实施例中,预设的规则可以是限定表名在元数据中的占比,例如:表名由一个词构成,非表名的内容由两个词构成,当限定表名在元数据中的占比不小于0.5时,可以使表名对应的词重复一次,使元数据变为四个词,其中表名占两个。可以理解,此仅仅为一种可实现的具体方式,并不用于限定本发明的具体实施。
本发明实施例提供的表自动主题分类装置可以通过调整表名在元数据中的占比从而增加表名权重,使得表主题的确定更多地依据表名,从而提高主题分类的准确性。
图9示出了本发明另一个实施例提供的一种表自动主题分类装置中文档主题生成模型的训练装置的结构框图,其与图7所示的装置相比,区别在于在数据集获取以及预处理模块701之后还包括数据集表名权重调整模块901。
数据集表名权重调整模块901,用于根据预设规则调整表名在所述元数据中出现的频率以增加表名在所述元数据中的权重。
在本发明实施例中,由于元数据可能包含了表名、列名等内容,而在这些内容中,作为对表的分类具有重要影响的表名其重要程度与其预处理得出的其它关键词地位等同,这不利于准确地对表进行分类。在本发明实施例中,通过调整表名在元数据中的频率从而增加表名在元数据中的权重,可以使得表的最终主题与其表名更为贴近,从而提高主题分类的准确性。在本发明实施例中,预设的规则可以是限定表名在元数据中的占比,例如:表名由一个词构成,非表名的内容由两个词构成,当限定表名在元数据中的占比不小于0.5时,可以使表名对应的词重复一次,使元数据变为四个词,其中表名占两个。可以理解,此仅仅为一种可实现的具体方式,并不用于限定本发明的具体实施。
本发明实施例提供的表自动主题分类装置可以通过调整表名在元数据中的占比从而增加表名权重,使得表主题的确定更多地依据表名,从而提高主题分类的准确性。
图10示出了本发明实施例提供的一种表自动主题分类装置的结构框图,与图6所示的装置相比,其区别在于,匹配模块604具体包括单元1001~1003。
类别选取单元1101,用于判断所述类别对应的权重是否满足预设条件,若满足则选取所述类别作为待匹配类别,所述类别包含若干个第一关键词以及与各个所述第一关键词对应的权重。
匹配单元1102,用于将所述待匹配类别包含的所述第一关键词分别与每一个预设主题包含的第二关键词进行匹配,若所述预设主题包含与所述第一关键词匹配的所述第二关键词,则所述预设主题的匹配度为:所有存在配对的所述第一关键词对应的权重之和。
主题确定单元1103,用于选取所述匹配度最高的所述预设主题作为所述表的最终主题。
在本发明实施例中,预设条件可以是一个数值范围,也可以是一个权重排名。例如,当选用数值范围时,权重落入该数值范围内的分类都作为待确定的分类;当选用权重排名的方式时,可以选择排名的前N个分类作为待确定的分类。本发明实施例对此不作具体限定。
在本发明实施例中,通过将分类中包含的第一关键词与任一预设主题中包含的第二关键词进行匹配,当存在配对的第二关键词时,将对应第一关键词的权重相加,得到相应分类与该主题的匹配度。可以理解,根据预设条件的不同,选取的分类数量可以不为一,当存在多个分类时,每一分类需要依次与所有预设主题进行匹配。在本发明实施例中,由于文档主题生成模型输出的分类由若干第一关键词组成,而各个第一关键词之间并不一定存在明显的业务联系,由第一关键词并不能准确地确定表所属的主题。而通过本发明提供的方法,由于预设的主题所对应的业务是已知的,通过将分类与预设的主题匹配,可以最终确定表所属的主题,并且最终确定出的主题便于理解,与业务存在对应关系。
本发明实施例提供的表自动主题分类装置通过将文档主题生成模型的输出分类与预设的主题进行匹配从而确定表的最终主题,通过这种方式,使得表的最终主题直接与业务类型对应,便于表的所属主题的理解,便于业务人员的对表进行相应的操作。
图11示出了一个实施例中计算机设备的内部结构图。如图11所示,该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现本发明实施例提供的表自动主题分类方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行本发明实施例提供的表自动主题分类方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的表自动主题分类装置可以实现为一种计算机程序的形式,计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该表自动主题分类装置的各个程序模块,比如,图6所示的数据获取以及预处理模块601、特征向量提取模块602、分类模块603和匹配模块604。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的表自动主题分类方法中的步骤。
例如,图11所示的计算机设备可以通过如图6所示的表自动主题分类装置中的数据获取以及预处理模块601执行步骤S102;计算机设备可通过特征向量提取模块602执行步骤S104;计算机设备可通过分类模块603执行步骤S106;计算机设备可通过匹配模块604执行步骤S108。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取与表对应的元数据并对所述元数据进行预处理使之满足向量化要求;
提取预处理后的所述元数据的特征向量;
使用预训练的文档主题生成模型对所述特征向量进行处理,输出所述表所属的类别及类别对应的权重;
根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取与表对应的元数据并对所述元数据进行预处理使之满足向量化要求;
提取预处理后的所述元数据的特征向量;
使用预训练的文档主题生成模型对所述特征向量进行处理,输出所述表所属的类别及类别对应的权重;
根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种表自动主题分类方法,其特征在于,所述方法包括以下步骤:
获取与表对应的元数据并对所述元数据进行预处理使之满足向量化要求;
提取预处理后的所述元数据的特征向量;
使用预训练的文档主题生成模型对所述特征向量进行处理,输出所述表所属的类别及类别对应的权重;
根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题;具体包括以下步骤:
判断所述类别对应的权重是否满足预设条件,若满足则选取所述类别作为待匹配类别,所述类别包含若干个第一关键词以及与各个所述第一关键词对应的权重;
将所述待匹配类别包含的所述第一关键词分别与每一个预设主题包含的第二关键词进行匹配,若所述预设主题包含与所述第一关键词匹配的所述第二关键词,则所述预设主题的匹配度为:所有存在配对的所述第一关键词对应的权重之和;
选取所述匹配度最高的所述预设主题作为所述表的最终主题;
所述文档主题生成模型的训练方法包括以下步骤:
获取与训练用表对应的元数据集并对所述元数据集进行预处理使之满足向量化要求;
提取预处理后的所述元数据集中每个元数据的特征向量得到特征向量集;
将所述特征向量集输入所述文档主题生成模型,对预设的若干个主题个数进行循环迭代处理并输出每个主题个数下的评价指标;
根据所述评价指标选取最优主题个数,将最优主题个数下的所述文档主题生成模型作为训练好的所述文档主题生成模型;所述根据所述评价指标选取最优主题个数,具体包括以下步骤:
比较数值评价指标的数值大小,选取数值最优的评价指标对应的主题个数作为最优主题个数;或者
比较图表评价指标的图表分布,选取图表分布最优的评价指标对应的主题个数作为最优主题个数。
2.根据权利要求1所述的一种表自动主题分类方法,其特征在于,对所述元数据或者所述元数据集进行预处理使之满足向量化要求,具体包括:
对所述元数据或者所述元数据集进行分词处理、去停用词处理。
3.根据权利要求1所述的一种表自动主题分类方法,其特征在于,所述对所述元数据或者所述元数据集进行预处理使之满足向量化要求之后,还包括以下步骤:
根据预设规则调整表名在所述元数据中的出现的频率以增加表名在所述元数据中的权重。
4.根据权利要求1所述的一种表自动主题分类方法,其特征在于,所述元数据包括表名、表名注释、列名以及列名注释中的一种或者多种。
5.一种表自动主题分类装置,其特征在于,所述装置包括:
数据获取以及预处理模块,用于获取与表对应的元数据并对所述元数据进行预处理使之满足向量化要求;
特征向量提取模块,用于提取预处理后的所述元数据的特征向量;
分类模块,用于使用预训练的文档主题生成模型对所述特征向量进行处理,输出所述表所属的类别及类别对应的权重;
匹配模块,用于根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题;
获取与表对应的元数据并对所述元数据进行预处理使之满足向量化要求;
提取预处理后的所述元数据的特征向量;
使用预训练的文档主题生成模型对所述特征向量进行处理,输出所述表所属的类别及类别对应的权重;
根据所述权重大小确定待匹配的类别,并将确定的所述类别与预设的主题进行匹配,选取匹配度最高的预设主题作为所述表的最终主题;具体包括以下步骤:
判断所述类别对应的权重是否满足预设条件,若满足则选取所述类别作为待匹配类别,所述类别包含若干个第一关键词以及与各个所述第一关键词对应的权重;
将所述待匹配类别包含的所述第一关键词分别与每一个预设主题包含的第二关键词进行匹配,若所述预设主题包含与所述第一关键词匹配的所述第二关键词,则所述预设主题的匹配度为:所有存在配对的所述第一关键词对应的权重之和;
选取所述匹配度最高的所述预设主题作为所述表的最终主题;
所述文档主题生成模型的训练方法包括以下步骤:
获取与训练用表对应的元数据集并对所述元数据集进行预处理使之满足向量化要求;
提取预处理后的所述元数据集中每个元数据的特征向量得到特征向量集;
将所述特征向量集输入所述文档主题生成模型,对预设的若干个主题个数进行循环迭代处理并输出每个主题个数下的评价指标;
根据所述评价指标选取最优主题个数,将最优主题个数下的所述文档主题生成模型作为训练好的所述文档主题生成模型;所述根据所述评价指标选取最优主题个数,具体包括以下步骤:
比较数值评价指标的数值大小,选取数值最优的评价指标对应的主题个数作为最优主题个数;或者
比较图表评价指标的图表分布,选取图表分布最优的评价指标对应的主题个数作为最优主题个数。
6.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至4中任一项权利要求所述的一种表自动主题分类方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至4中任一项权利要求所述的一种表自动主题分类方法的步骤。
CN201910664697.5A 2019-07-23 2019-07-23 一种表自动主题分类方法、装置、计算机设备及存储介质 Active CN110413782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910664697.5A CN110413782B (zh) 2019-07-23 2019-07-23 一种表自动主题分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910664697.5A CN110413782B (zh) 2019-07-23 2019-07-23 一种表自动主题分类方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110413782A CN110413782A (zh) 2019-11-05
CN110413782B true CN110413782B (zh) 2022-08-26

Family

ID=68362494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910664697.5A Active CN110413782B (zh) 2019-07-23 2019-07-23 一种表自动主题分类方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110413782B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913954B (zh) * 2020-06-20 2023-08-04 杭州城市大数据运营有限公司 智能数据标准目录生成方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991891A (zh) * 2015-07-28 2015-10-21 北京大学 一种短文本特征提取方法
CN107368506A (zh) * 2015-05-11 2017-11-21 斯图飞腾公司 非结构化数据分析***和方法
CN107832418A (zh) * 2017-11-08 2018-03-23 郑州云海信息技术有限公司 一种热点话题发现方法、***及一种热点话题发现设备
CN108875067A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 文本数据分类方法、装置、设备及存储介质
CN109299286A (zh) * 2018-09-28 2019-02-01 北京赛博贝斯数据科技有限责任公司 非结构化数据的知识挖掘方法及***
CN109460420A (zh) * 2018-09-28 2019-03-12 北京赛博贝斯数据科技有限责任公司 结构化数据的知识挖掘方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106657A1 (en) * 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368506A (zh) * 2015-05-11 2017-11-21 斯图飞腾公司 非结构化数据分析***和方法
CN104991891A (zh) * 2015-07-28 2015-10-21 北京大学 一种短文本特征提取方法
CN107832418A (zh) * 2017-11-08 2018-03-23 郑州云海信息技术有限公司 一种热点话题发现方法、***及一种热点话题发现设备
CN108875067A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 文本数据分类方法、装置、设备及存储介质
CN109299286A (zh) * 2018-09-28 2019-02-01 北京赛博贝斯数据科技有限责任公司 非结构化数据的知识挖掘方法及***
CN109460420A (zh) * 2018-09-28 2019-03-12 北京赛博贝斯数据科技有限责任公司 结构化数据的知识挖掘方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于LDA主题模型的短文本分类;杨萌萌,等;《计算机工程与设计》;20161231;第37卷(第12期);第3371-3376页 *

Also Published As

Publication number Publication date
CN110413782A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
JP7090936B2 (ja) Esg基盤の企業評価遂行装置及びその作動方法
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
US11373424B1 (en) Document analysis architecture
CN112163419B (zh) 文本的情绪识别方法、装置、计算机设备和存储介质
US11379665B1 (en) Document analysis architecture
CN106708929B (zh) 视频节目的搜索方法和装置
US11928879B2 (en) Document analysis using model intersections
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN112836509A (zh) 一种专家***知识库构建方法及***
EP4165487A1 (en) Document analysis architecture
CN114997288A (zh) 一种设计资源关联方法
CN113486670B (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及***
CN113032573A (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及***
CN116933130A (zh) 一种基于大数据的企业行业分类方法、***、设备及介质
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
US11776291B1 (en) Document analysis architecture
CN115310606A (zh) 基于数据集敏感属性重构的深度学习模型去偏方法及装置
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant