CN113032575A - 一种基于主题模型的文档血缘关系挖掘的方法及装置 - Google Patents

一种基于主题模型的文档血缘关系挖掘的方法及装置 Download PDF

Info

Publication number
CN113032575A
CN113032575A CN202110588632.4A CN202110588632A CN113032575A CN 113032575 A CN113032575 A CN 113032575A CN 202110588632 A CN202110588632 A CN 202110588632A CN 113032575 A CN113032575 A CN 113032575A
Authority
CN
China
Prior art keywords
document
target
candidate
documents
lda
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110588632.4A
Other languages
English (en)
Other versions
CN113032575B (zh
Inventor
孙孟奇
尤旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202110588632.4A priority Critical patent/CN113032575B/zh
Publication of CN113032575A publication Critical patent/CN113032575A/zh
Application granted granted Critical
Publication of CN113032575B publication Critical patent/CN113032575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于主题模型的文档血缘关系挖掘的方法及装置,其中,该方法包括:基于文档集中的文档内容生成主题模型;基于主题模型从文档集中筛选出目标文档的候选文档,并将目标文档和候选文档加入第一文档血缘关系聚类集合中;目标文档与候选文档的文档内容之间的相似度大于第一预设阈值;将目标候选文档从第一文档血缘关系聚类集合中删除得到第二文档血缘关系聚类集合;目标文档与目标候选文档的文档标题之间的编辑距离不小于第二预设阈值;将第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。本申请可简化每一篇文档的计算过程,减少计算量,提高处理的效率,更加适合大规模文档的处理,而且可提升文档血缘关系挖掘的准确性。

Description

一种基于主题模型的文档血缘关系挖掘的方法及装置
技术领域
本申请涉及深度学习技术/自然语言处理技术领域,尤其是涉及一种基于主题模型的文档血缘关系挖掘的方法及装置。
背景技术
随着社会与科技的发展,现在已经进入到了信息时代,几乎所有的企业都有着大量的文档资料,甚至每天都会有很多新的文档产出。对于任何一个企业来说,其积累的文档数据都是十分珍贵的。这些企业积累的文档数据中,很多文档都有着版本的迭代关系,比如某一产品说明文档的不同版本,这些版本的迭代关系又可以称为文档之间的血缘关系。文档之间的血缘关系代表着文档之间的隐含联系,文档血缘关系挖掘对于文档数据的日常管理和检索有着极大的帮助,会给工作人员在使用这些文档数据的过程中带来很大的便利。
但是,由于文档的数量较多,在大量的文档中,带有同一血缘关系的文档一般只有很少的一部分,并且会在文档集中出现多种不同的文档血缘关系,特别是在实际情况中很少有带有人工标记的数据,这些为文档血缘关系挖掘带来了较大的难度。
除了人为设定文档版本信息的管理方式以外,现有的文档血缘关系挖掘方案一般包括以下两种方案。
方案一:计算文档集中文档内容字符串之间的编辑距离,通过对编辑距离的比较来分析文档内容之间的异同。
在方案一中,对于短的、较为简单的文本有着比较好的效果,但是文档血缘关系是一种较为复杂的情况,很多时候并不能做出准确的判断,例如,带有文档血缘关系的两个文档可能在文档长度以及文档内容上具有较大的差异。另外,对于大量文档数据的情况下,进行文档内容的两两比较会有效率过低,耗费时间较长等问题。
方案二:通过文档内容所对应的simhash值来进行文档内容的相似度度量,计算simhash值的海明距离,得出文档内容之间的异同。
在方案二中,根据文档内容所对应的simhash值进行文档内容相似度判别,仅仅是从文本的字符串结构信息来进行文本的相似度判别。文本本身是带有语义信息的,脱离语义信息的文本相似度判断会带来较大的误差,对结果的影响较大。
发明内容
有鉴于此,本申请的目的在于提供一种基于主题模型的文档血缘关系挖掘的方法及装置,以简化每一篇文档的计算过程,减少计算量,提高处理的效率,更加适合大规模文档的处理,而且可提升文档血缘关系挖掘的准确性。
第一方面,本申请实施例提供了一种基于主题模型的文档血缘关系挖掘的方法,包括:
对文档集中的文档内容进行模型训练,生成主题模型;
针对所述文档集中的目标文档,基于所述主题模型从所述文档集中筛选出所述目标文档的候选文档,并将所述目标文档和所述候选文档加入第一文档血缘关系聚类集合中;其中,所述目标文档的文档内容与所述候选文档的文档内容之间的相似度大于第一预设阈值;
将目标候选文档从所述第一文档血缘关系聚类集合中删除,得到第二文档血缘关系聚类集合;其中,所述目标文档的文档标题与所述目标候选文档的文档标题之间的编辑距离不小于第二预设阈值;
将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。
在一种可能的实施方式中,所述对文档集中的文档内容进行模型训练,生成主题模型,包括:
获取ES索引中存储的文档集中所有文档的文档内容;
依据预设的主题个数和训练迭代次数,通过LDA算法对所述文档集中所有文档的文档内容进行模型训练,生成LDA主题模型。
在一种可能的实施方式中,所述针对所述文档集中的目标文档,基于所述主题模型从所述文档集中筛选出所述目标文档的候选文档,并将所述目标文档和所述候选文档加入第一文档血缘关系聚类集合中,包括:
针对所述文档集中的目标文档,根据所述目标文档的文档内容提取所述目标文档的关键词;
基于所述目标文档的关键词对所述文档集进行检索,得到候选文档列表;
基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档对应的LDA向量;
将所述目标文档加入初始的第一文档血缘关系聚类集合中,若第一LDA向量与第二LDA向量之间的相似度大于第一预设阈值,则将所述第二LDA向量对应的候选文档加入所述第一文档血缘关系聚类集合中;其中,所述第一LDA向量为所述目标文档的文档内容对应的LDA向量,所述第二LDA向量为所述候选文档列表中候选文档的文档内容对应的LDA向量。
在一种可能的实施方式中,所述基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档对应的LDA向量,包括:
基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档的文档内容对应的LDA向量。
在一种可能的实施方式中,所述基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档对应的LDA向量,包括:
分别对所述目标文档和所述候选文档列表中各文档的文档内容进行文档摘要生成;
基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档的文档摘要对应的LDA向量。
在一种可能的实施方式中,所述相似度通过海灵格距离或JS散度计算得到。
在一种可能的实施方式中,所述将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档,包括:
为所述第二文档血缘关系聚类集合中的所有文档标记相同的血缘关系标签,从而将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。
第二方面,本申请实施例还提供一种基于主题模型的文档血缘关系挖掘的装置,包括:
生成模块,用于对文档集中的文档内容进行模型训练,生成主题模型;
筛选模块,用于针对所述文档集中的目标文档,基于所述主题模型从所述文档集中筛选出所述目标文档的候选文档,并将所述目标文档和所述候选文档加入第一文档血缘关系聚类集合中;其中,所述目标文档的文档内容与所述候选文档的文档内容之间的相似度大于第一预设阈值;
删除模块,用于将目标候选文档从所述第一文档血缘关系聚类集合中删除,得到第二文档血缘关系聚类集合;其中,所述目标文档的文档标题与所述目标候选文档的文档标题之间的编辑距离不小于第二预设阈值;
确定模块,用于将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种基于主题模型的文档血缘关系挖掘的方法,首先,在数据准备阶段,对文档集中的文档内容进行模型训练,生成主题模型,为后续相似度计算做准备。其次,通过文档内容初次筛选目标文档的候选文档,即基于所述主题模型计算文档集中的目标文档的文档内容与其他文档的文档内容之间的相似度,若相似度大于第一预设阈值,则将该文档作为候选文档加入第一文档血缘关系聚类集合中,使用语义信息进行文档内容相似性的判断,准确性有着明显的提升。再次,通过文档标题二次筛选目标文档的候选文档,即计算目标文档的文档标题与候选文档的文档标题之间的编辑距离,若编辑距离不小于第二预设阈值,则将该候选文档作为目标候选文档从所述第一文档血缘关系聚类集合中删除,得到第二文档血缘关系聚类集合。通过文档内容和文档标题的双重筛选,能够避免出现“文不对题”的特殊情况,得到较为准确的结果。最后,将经过双重筛选后的第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。本申请实施例可简化每一篇文档的计算过程,减少计算量,提高处理的效率,更加适合大规模文档的处理,而且可提升文档血缘关系挖掘的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种基于主题模型的文档血缘关系挖掘的方法的流程图;
图2示出了本申请实施例所提供的一种针对整个文档集的文档血缘关系挖掘的方法的具体实施流程图;
图3示出了本申请实施例所提供的一种基于主题模型的文档血缘关系挖掘的装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到除了人为设定文档版本信息的管理方式以外,现有的文档血缘关系挖掘方案一般包括以下两种方案:方案一:计算文档集中文档内容字符串之间的编辑距离,通过对编辑距离的比较来分析文档内容之间的异同。在方案一中,对于短的、较为简单的文本有着比较好的效果,但是文档血缘关系是一种较为复杂的情况,很多时候并不能做出准确的判断,例如,带有文档血缘关系的两个文档可能在文档长度以及文档内容上具有较大的差异。另外,对于大量文档数据的情况下,进行文档内容的两两比较会有效率过低,耗费时间较长等问题。方案二:通过文档内容所对应的simhash值来进行文档内容的相似度度量,计算simhash值的海明距离,得出文档内容之间的异同。在方案二中,根据文档内容所对应的simhash值进行文档内容相似度判别,仅仅是从文本的字符串结构信息来进行文本的相似度判别。文本本身是带有语义信息的,脱离语义信息的文本相似度判断会带来较大的误差,对结果的影响较大。基于此,本申请实施例提供了一种基于主题模型的文档血缘关系挖掘的方法及装置,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种基于主题模型的文档血缘关系挖掘的方法进行详细介绍。
请参照图1,图1为本申请实施例所提供的一种基于主题模型的文档血缘关系挖掘的方法的流程图。如图1所示,所述方法可以包括以下步骤:
S101、对文档集中的文档内容进行模型训练,生成主题模型;
S102、针对所述文档集中的目标文档,基于所述主题模型从所述文档集中筛选出所述目标文档的候选文档,并将所述目标文档和所述候选文档加入第一文档血缘关系聚类集合中;其中,所述目标文档的文档内容与所述候选文档的文档内容之间的相似度大于第一预设阈值;
S103、将目标候选文档从所述第一文档血缘关系聚类集合中删除,得到第二文档血缘关系聚类集合;其中,所述目标文档的文档标题与所述目标候选文档的文档标题之间的编辑距离不小于第二预设阈值;
S104、将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。
步骤S101中,在数据准备阶段,对文档集中的文档内容进行模型训练,生成主题模型,为后续相似度计算做准备。
具体地,步骤S101可以包括如下子步骤:
S1011、获取ES索引中存储的文档集中所有文档的文档内容;
S1012、依据预设的主题个数和训练迭代次数,通过LDA算法对所述文档集中所有文档的文档内容进行模型训练,生成LDA主题模型;
S1013、将生成的LDA主题模型保存为LDA模型文件。
步骤S1011中,本实施例默认文档集中所有文档均存储于ES索引中,将ES索引中存储的文档集中所有文档的文档内容全部导出,为后续模型训练做准备。
步骤S1012中,在进行模型训练之前,可以人为设定主题个数,本实施例预设的主题个数为300,本实施例不限于此。LDA(Latent Dirichlet Allocation)主题模型用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行文档的聚类。
步骤S1013中,将步骤S1012中生成的LDA主题模型保存为LDA模型文件,方便之后加载。
步骤S102中,通过文档内容初次筛选目标文档的候选文档。在本实施例中,首先基于主题模型计算文档集中的目标文档的文档内容与其他文档的文档内容之间的相似度,然后判断相似度是否大于第一预设阈值,若相似度大于第一预设阈值,则将相应的其他文档作为候选文档加入第一文档血缘关系聚类集合中。
具体地,步骤S102可以包括以下子步骤:
S1021、针对所述文档集中的目标文档,根据所述目标文档的文档内容提取所述目标文档的关键词;
S1022、基于所述目标文档的关键词对所述文档集进行检索,得到候选文档列表;
S1023、基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档对应的LDA向量;
S1024、将所述目标文档加入初始的第一文档血缘关系聚类集合中,若第一LDA向量与第二LDA向量之间的相似度大于第一预设阈值,则将所述第二LDA向量对应的候选文档加入所述第一文档血缘关系聚类集合中;其中,所述第一LDA向量为所述目标文档的文档内容对应的LDA向量,所述第二LDA向量为所述候选文档列表中候选文档的文档内容对应的LDA向量。
步骤S1021中,依据目标文档的文档内容提取目标文档的关键词。在提取关键词的过程中,首先将目标文档的文档内容去除停用词,之后根据词频提取目标文档所对应的n个关键词,在实际应用中n一般取5。
步骤S1022中,根据目标文档的关键词,使用ES对文档集进行检索,召回与之相近的候选文档列表。候选文档列表中可以包括候选文档的标题、候选文档内容所对应的hash值以及候选文档的groupId字段值等。
步骤S1023中,不同于语义表征向量,LDA向量是一种概率分布。LDA向量通过不同主题的概率分布,在一定程度上可表征文档内容的语义信息。在本实施例中,LDA向量的维度为300维,本实施例不限于此。
在一种优选的实施方式中,基于LDA主题模型,分别计算目标文档和候选文档列表中各文档的文档内容对应的LDA向量。
为了简化计算量,在另一种优选的实施方式中,分别对目标文档和候选文档列表中各文档的文档内容进行文档摘要生成;基于LDA主题模型,分别计算目标文档和候选文档列表中各文档的文档摘要对应的LDA向量。
步骤S1024中,设定初始的第一文档血缘关系聚类集合,将目标文档加入初始的第一文档血缘关系聚类集合中。然后将第一文档血缘关系聚类集合中的目标文档与候选文档列表中的每一篇候选文档进行两两逐一比较,比较目标文档的文档内容对应的第一LDA向量与候选文档列表中候选文档的文档内容对应的第二LDA向量之间的相似度,若第一LDA向量与第二LDA向量之间的相似度大于第一预设阈值,则将所述第二LDA向量对应的候选文档加入所述第一文档血缘关系聚类集合中,使用语义信息进行文档内容相似性的判断,准确性有着明显的提升。
其中,可以通过计算第一LDA向量与第二LDA向量之间的海灵格距离或JS散度,来计算第一LDA向量与第二LDA向量之间的相似度。
海灵格距离用于衡量两个概率分布之间的相似度。在具体实践中,文档内容相似的阈值(即第一预设阈值)需要人为设定,通常设定海灵格距离大于0.75证明两个文档的内容相似,否则说明内容内容不相似。具体地,海灵格距离可以通过如下表达式计算:
Figure F_210528094450905_905228001
其中,概率分布
Figure F_210528094450983_983353002
JS散度用于度量两个概率分布的相似度,一般地,JS散度是对称的,其取值是0到1之间。具体地,JS散度可以通过如下表达式计算:
Figure F_210528094451061_061478003
步骤S103中,通过文档标题二次筛选目标文档的候选文档。在本实施例中,首先对目标文档的文档标题与候选文档的文档标题进行预处理,去除有误导性的停用词,并且去除表明版本的“V”、“v”以及数字等等,仅保留标题中的主干部分。然后计算目标文档的文档标题与候选文档的文档标题之间的编辑距离,需要注意的是,在计算编辑距离时不将标题进行分词,直接判断编辑距离小于等于2的为相似标题,符合文档血缘关系的限制。将第一文档血缘关系聚类集合中编辑距离不小于第二预设阈值的候选文档作为目标候选文档从第一文档血缘关系聚类集合中删除,将第一文档血缘关系聚类集合中编辑距离小于第二预设阈值的候选文档保留,得到第二文档血缘关系聚类集合。
步骤S104中,同血缘关系文档指的是满足以下特性的带有历史版本迭代的多个文档:文档内容高度近似、文档标题能够体现出历史版本的迭代。将经过双重筛选后的第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。在本实施例中,为所述第二文档血缘关系聚类集合中的所有文档标记相同的血缘关系标签,从而将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。
通过上述步骤S101-S104描述了针对文档集中的单个目标文档的文档血缘关系挖掘的方法,通过文档内容和文档标题的双重筛选,能够避免出现“文不对题”的特殊情况,得到较为准确的结果。
为了更清楚地理解本发明,通过以下具体实施例对整个文档集的文档血缘关系挖掘的方法进行具体说明。
请参照图2,图2为本申请实施例所提供的一种针对整个文档集的文档血缘关系挖掘的方法的具体实施流程图。如图2所示,所述方法可以包括以下步骤:
S201、获取ES索引中存储的文档集中所有文档的文档内容;
S202、依据预设的主题个数和训练迭代次数,通过LDA算法对所述文档集中所有文档的文档内容进行模型训练,生成LDA主题模型;
S203、判断文档集中是否存在未处理文档,若是,则转入步骤S204,若否,则转入步骤S212;
S204、获取一批次数量的未处理文档,作为当前批次的未处理文档;
S205、针对当前批次的未处理文档中的任意一个目标文档,根据所述目标文档的文档内容提取所述目标文档的关键词;
S206、基于所述目标文档的关键词对所述当前批次的未处理文档进行检索,得到候选文档列表;
S207、基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档的文档内容对应的LDA向量;
S208、将所述目标文档加入初始的第一文档血缘关系聚类集合中,若目标文档的文档内容对应的第一LDA向量和候选文档列表中的每一文档的文档内容对应的第二LDA向量之间的海灵格距离大于第一预设阈值,则将所述第二LDA向量对应的文档作为候选文档加入第一文档血缘关系聚类集合中;
S209、若目标文档的文档标题与第一文档血缘关系聚类集合中每一候选文档的文档标题之间的编辑距离不小于第二预设阈值,则将所述候选文档作为目标候选文档从第一文档血缘关系聚类集合中删除,得到第二文档血缘关系聚类集合;
S210、为所述第二文档血缘关系聚类集合中的各文档标记相同的血缘关系标签,将所标记的血缘关系标签更新进ES索引中;
S211、判断当前批次的未处理文档中是否存在未标记血缘关系标签的目标文档,若是,则转入步骤S205,若否,则转入步骤S203;
S212、暂停既定时长,转入步骤S203。
步骤S203中,在判断出文档集中不存在未处理文档时,按照预先设定的时间间隔暂停既定时长T。在本实施例中,既定时长T为20分钟,可以防止本方法流程持续占用CPU、内存等资源。在暂停的既定时长T内,文档集中可能会加入新的文档。因此,当暂停的既定时长T结束时返回步骤S203,可以重新进行判断。
步骤S204中,新上传的文档在ES索引中没有血缘关系标签字段,即groupId字段,因此在本实施例中仅获取ES索引中不存在血缘关系标签字段的文档,作为全部待处理文档。当文档集中的未处理文档的数量多于既定的一批次数量限制时,仅取一批次数量的文档作为当前批次的未处理文档。当文档集中的未处理文档的数量少于既定的一批次数量限制时,将待处理文档全部获取。
步骤S206中,根据目标文档的关键词,使用ES对当前批次的未处理文档进行检索,获得与之相近的候选文档列表。该候选列表中包括候选文档的标题、候选文档的内容所对应的hash值以及候选文档的groupId字段值。如果候选列表中的文档没有groupId字段值,即其属于新增文档,则将其groupId字段值标记为“new_doc”。
步骤S210中,将第二文档血缘关系聚类集合中的各文档进行统计,将出现数量最多的文档血缘标签赋予第二文档血缘关系聚类集合中所有血缘关系标签标记为“new_doc”的文档,并且将这些文档从待处理文档列表中删去,之后不再进行处理。如果第二文档血缘关系聚类集合中的文档的血缘关系标签标记均为“new_doc”,则从第二文档血缘关系聚类集合中任取一个文档,取该文档的id值作为第二文档血缘关系聚类集合的血缘关系标签,将该血缘关系标签标记给第二文档血缘关系聚类集合中的每一篇文档。
将所标记的血缘关系标签更新进ES索引中。在更新血缘关系标签(即文档数据的groupId字段的值)之前,根据目标文档的groupId字段的值在ES中进行检索,找出所有与目标文档具有相同groupId字段值的文档。更新目标文档以及与之具有相同groupId字段值的文档的同血缘关系文档列表。这里涉及到新文档和旧文档,针对新文档,需要在ES中更新其对应的groupId字段值以及同血缘关系文档列表;针对旧文当,仅仅更新其同血缘关系文档列表。
文档血缘关系挖掘的过程是针对未分配文档血缘关系标签的新文档,以增量的形式为新文档分配血缘标签,并且在文档血缘关系标签的基础上,为每一篇文档维护一个同血缘关系文档的列表,方便查询和检索。
本申请实施例提供的一种基于主题模型的文档血缘关系挖掘的方法,首先,在数据准备阶段,对文档集中的文档内容进行模型训练,生成主题模型,为后续相似度计算做准备。其次,通过文档内容初次筛选目标文档的候选文档,即基于所述主题模型计算文档集中的目标文档的文档内容与其他文档的文档内容之间的相似度,若相似度大于第一预设阈值,则将该文档作为候选文档加入第一文档血缘关系聚类集合中,使用语义信息进行文档内容相似性的判断,准确性有着明显的提升。再次,通过文档标题二次筛选目标文档的候选文档,即计算目标文档的文档标题与候选文档的文档标题之间的编辑距离,若编辑距离不小于第二预设阈值,则将该候选文档作为目标候选文档从所述第一文档血缘关系聚类集合中删除,得到第二文档血缘关系聚类集合。通过文档内容和文档标题的双重筛选,能够避免出现“文不对题”的特殊情况,得到较为准确的结果。最后,将经过双重筛选后的第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。本申请实施例可简化每一篇文档的计算过程,减少计算量,提高处理的效率,更加适合大规模文档的处理,而且可提升文档血缘关系挖掘的准确性。
基于相同的技术构思,本申请实施例还提供一种基于主题模型的文档血缘关系挖掘的装置、电子设备、以及计算机存储介质等,具体可参见以下实施例。
请参照图3,图3为本申请实施例所提供的一种基于主题模型的文档血缘关系挖掘的装置的结构示意图。如图3所示,所述装置可以包括:
生成模块10,用于对文档集中的文档内容进行模型训练,生成主题模型;
筛选模块20,用于针对所述文档集中的目标文档,基于所述主题模型从所述文档集中筛选出所述目标文档的候选文档,并将所述目标文档和所述候选文档加入第一文档血缘关系聚类集合中;其中,所述目标文档的文档内容与所述候选文档的文档内容之间的相似度大于第一预设阈值;
删除模块30,用于将目标候选文档从所述第一文档血缘关系聚类集合中删除,得到第二文档血缘关系聚类集合;其中,所述目标文档的文档标题与所述目标候选文档的文档标题之间的编辑距离不小于第二预设阈值;
确定模块40,用于将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。
在一种可能的实施方式中,生成模块10包括:
获取单元,用于获取ES索引中存储的文档集中所有文档的文档内容;
生成单元,用于依据预设的主题个数和训练迭代次数,通过LDA算法对所述文档集中所有文档的文档内容进行模型训练,生成LDA主题模型。
在一种可能的实施方式中,筛选模块20包括:
提取单元,用于针对所述文档集中的目标文档,根据所述目标文档的文档内容提取所述目标文档的关键词;
检索单元,用于基于所述目标文档的关键词对所述文档集进行检索,得到候选文档列表;
计算单元,用于基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档对应的LDA向量;
筛选单元,用于将所述目标文档加入初始的第一文档血缘关系聚类集合中,若第一LDA向量与第二LDA向量之间的相似度大于第一预设阈值,则将所述第二LDA向量对应的候选文档加入所述第一文档血缘关系聚类集合中;其中,所述第一LDA向量为所述目标文档的文档内容对应的LDA向量,所述第二LDA向量为所述候选文档列表中候选文档的文档内容对应的LDA向量。
在一种可能的实施方式中,计算单元具体用于:基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档的文档内容对应的LDA向量。
在一种可能的实施方式中,计算单元具体用于:
分别对所述目标文档和所述候选文档列表中各文档的文档内容进行文档摘要生成;
基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档的文档摘要对应的LDA向量。
在一种可能的实施方式中,所述相似度通过海灵格距离或JS散度计算得到。
在一种可能的实施方式中,确定模块40具体用于:为所述第二文档血缘关系聚类集合中的所有文档标记相同的血缘关系标签,从而将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。
本申请实施例公开了一种电子设备,如图4所示,包括:处理器401、存储器402和总线403,所述存储器402存储有所述处理器401可执行的机器可读指令,当电子设备运行时,所述处理器401与所述存储器402之间通过总线403通信。所述机器可读指令被所述处理器401执行时执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
本申请实施例所提供的一种基于主题模型的文档血缘关系挖掘的方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于主题模型的文档血缘关系挖掘的方法,其特征在于,包括:
对文档集中的文档内容进行模型训练,生成主题模型;
针对所述文档集中的目标文档,基于所述主题模型从所述文档集中筛选出所述目标文档的候选文档,并将所述目标文档和所述候选文档加入第一文档血缘关系聚类集合中;其中,所述目标文档的文档内容与所述候选文档的文档内容之间的相似度大于第一预设阈值;
将目标候选文档从所述第一文档血缘关系聚类集合中删除,得到第二文档血缘关系聚类集合;其中,所述目标文档的文档标题与所述目标候选文档的文档标题之间的编辑距离不小于第二预设阈值;
将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。
2.根据权利要求1所述的方法,其特征在于,所述对文档集中的文档内容进行模型训练,生成主题模型,包括:
获取ES索引中存储的文档集中所有文档的文档内容;
依据预设的主题个数和训练迭代次数,通过LDA算法对所述文档集中所有文档的文档内容进行模型训练,生成LDA主题模型。
3.根据权利要求1所述的方法,其特征在于,所述针对所述文档集中的目标文档,基于所述主题模型从所述文档集中筛选出所述目标文档的候选文档,并将所述目标文档和所述候选文档加入第一文档血缘关系聚类集合中,包括:
针对所述文档集中的目标文档,根据所述目标文档的文档内容提取所述目标文档的关键词;
基于所述目标文档的关键词对所述文档集进行检索,得到候选文档列表;
基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档对应的LDA向量;
将所述目标文档加入初始的第一文档血缘关系聚类集合中,若第一LDA向量与第二LDA向量之间的相似度大于第一预设阈值,则将所述第二LDA向量对应的候选文档加入所述第一文档血缘关系聚类集合中;其中,所述第一LDA向量为所述目标文档的文档内容对应的LDA向量,所述第二LDA向量为所述候选文档列表中候选文档的文档内容对应的LDA向量。
4.根据权利要求3所述的方法,其特征在于,所述基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档对应的LDA向量,包括:
基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档的文档内容对应的LDA向量。
5.根据权利要求3所述的方法,其特征在于,所述基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档对应的LDA向量,包括:
分别对所述目标文档和所述候选文档列表中各文档的文档内容进行文档摘要生成;
基于LDA主题模型,分别计算所述目标文档和所述候选文档列表中各文档的文档摘要对应的LDA向量。
6.根据权利要求3所述的方法,其特征在于,所述相似度通过海灵格距离或JS散度计算得到。
7.根据权利要求1所述的方法,其特征在于,所述将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档,包括:
为所述第二文档血缘关系聚类集合中的所有文档标记相同的血缘关系标签,从而将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。
8.一种基于主题模型的文档血缘关系挖掘的装置,其特征在于,包括:
生成模块,用于对文档集中的文档内容进行模型训练,生成主题模型;
筛选模块,用于针对所述文档集中的目标文档,基于所述主题模型从所述文档集中筛选出所述目标文档的候选文档,并将所述目标文档和所述候选文档加入第一文档血缘关系聚类集合中;其中,所述目标文档的文档内容与所述候选文档的文档内容之间的相似度大于第一预设阈值;
删除模块,用于将目标候选文档从所述第一文档血缘关系聚类集合中删除,得到第二文档血缘关系聚类集合;其中,所述目标文档的文档标题与所述目标候选文档的文档标题之间的编辑距离不小于第二预设阈值;
确定模块,用于将所述第二文档血缘关系聚类集合中的各文档确定为同血缘关系文档。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。
CN202110588632.4A 2021-05-28 2021-05-28 一种基于主题模型的文档血缘关系挖掘的方法及装置 Active CN113032575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110588632.4A CN113032575B (zh) 2021-05-28 2021-05-28 一种基于主题模型的文档血缘关系挖掘的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110588632.4A CN113032575B (zh) 2021-05-28 2021-05-28 一种基于主题模型的文档血缘关系挖掘的方法及装置

Publications (2)

Publication Number Publication Date
CN113032575A true CN113032575A (zh) 2021-06-25
CN113032575B CN113032575B (zh) 2022-05-17

Family

ID=76456158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110588632.4A Active CN113032575B (zh) 2021-05-28 2021-05-28 一种基于主题模型的文档血缘关系挖掘的方法及装置

Country Status (1)

Country Link
CN (1) CN113032575B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553825A (zh) * 2021-07-23 2021-10-26 安徽商信政通信息技术股份有限公司 一种电子公文脉络关系分析方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631769A (zh) * 2012-08-23 2014-03-12 北京百度网讯科技有限公司 一种判断文件内容与标题间一致性的方法及装置
CN104298776A (zh) * 2014-11-04 2015-01-21 苏州大学 基于lda模型的搜索引擎结果优化***
US20160306873A1 (en) * 2013-12-24 2016-10-20 Huawei Technologies Co., Ltd. Method and Apparatus for Computing Similarity Between Cross-Field Documents
CN107844493A (zh) * 2016-09-19 2018-03-27 上海泓智信息科技有限公司 一种文件关联方法及***
CN108829819A (zh) * 2018-06-12 2018-11-16 上海智臻智能网络科技股份有限公司 个性化文本推荐方法及***、服务器、可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631769A (zh) * 2012-08-23 2014-03-12 北京百度网讯科技有限公司 一种判断文件内容与标题间一致性的方法及装置
US20160306873A1 (en) * 2013-12-24 2016-10-20 Huawei Technologies Co., Ltd. Method and Apparatus for Computing Similarity Between Cross-Field Documents
CN104298776A (zh) * 2014-11-04 2015-01-21 苏州大学 基于lda模型的搜索引擎结果优化***
CN107844493A (zh) * 2016-09-19 2018-03-27 上海泓智信息科技有限公司 一种文件关联方法及***
CN108829819A (zh) * 2018-06-12 2018-11-16 上海智臻智能网络科技股份有限公司 个性化文本推荐方法及***、服务器、可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553825A (zh) * 2021-07-23 2021-10-26 安徽商信政通信息技术股份有限公司 一种电子公文脉络关系分析方法及***

Also Published As

Publication number Publication date
CN113032575B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
US11853334B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
US9836541B2 (en) System and method of managing capacity of search index partitions
US7797265B2 (en) Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters
US11580119B2 (en) System and method for automatic persona generation using small text components
US10824686B2 (en) System and method for searching based on text blocks and associated search operators
US9298757B1 (en) Determining similarity of linguistic objects
CN105302807B (zh) 一种获取信息类别的方法和装置
US10416993B2 (en) Mobile application update manager
US20230074771A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN113626443B (zh) 索引的数据处理方法、装置、计算机设备和存储介质
CN113032575B (zh) 一种基于主题模型的文档血缘关系挖掘的方法及装置
CN111651675A (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
CN110609952A (zh) 数据采集方法、***和计算机设备
CN114090769A (zh) 实体挖掘方法、装置、计算机设备和存储介质
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
CN108475265A (zh) 获取未登录词的方法与装置
CN114969349A (zh) 文本处理方法、装置、电子设备和介质
US11373230B1 (en) Probabilistic determination of compatible content
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
Lee et al. Automatic stop word generation for mining software artifact using topic model with pointwise mutual information
CN112632981A (zh) 一种新词发现方法和装置
US11836176B2 (en) System and method for automatic profile segmentation using small text variations
CN117725555B (zh) 多源知识树的关联融合方法、装置、电子设备及存储介质
US20240220528A1 (en) System and method for generating ontologies for enhanced search
US20240168999A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant