CN114741522A - 一种文本分析方法、装置、存储介质及电子设备 - Google Patents

一种文本分析方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114741522A
CN114741522A CN202210244264.6A CN202210244264A CN114741522A CN 114741522 A CN114741522 A CN 114741522A CN 202210244264 A CN202210244264 A CN 202210244264A CN 114741522 A CN114741522 A CN 114741522A
Authority
CN
China
Prior art keywords
knowledge
text
analyzed
core
population
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210244264.6A
Other languages
English (en)
Inventor
王怀波
陈丽
郑勤华
杜君磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Normal University
Original Assignee
Beijing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Normal University filed Critical Beijing Normal University
Priority to CN202210244264.6A priority Critical patent/CN114741522A/zh
Publication of CN114741522A publication Critical patent/CN114741522A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分析方法、装置、存储介质及电子设备,获取待分析文本数据集以及待分析文本数据集中每一个待分析文本的发表时间;在每一个待分析文本中抽取对应的知识实体;根据知识实体以及知识实体之间的关系构建目标实体网络;以知识实体隶属的待分析文本的发表时间为基础,按照预设聚类算法对目标实体网络中包含的知识实体进行聚类;根据聚类结果确定文本分析的时间窗口及对应的核心知识种群;对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析。该方法基于生态学视角以核心知识种群为分析单位进行演化分析,将生物演化理论应用于知识抽取算法中,实现了在短时间内高效率地获取文本发展变化信息。

Description

一种文本分析方法、装置、存储介质及电子设备
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种文本分析方法、装置、存储介质及电子设备。
背景技术
一段文本中可能蕴涵着大量的知识和信息,是重要且常见的数据格式。借助计算机算法对文本数据进行要点的提取和挖掘有助于帮助我们在短时间内获得大量精炼的知识实体数据,以时间维度对知识实体的演化分析可以帮助我们迅速捕捉关键信息,提升文本阅读效率和质量,把握知识发展的动向和进展。但是,随着信息技术不断发展,大量的信息资源不断涌现,从科技文献、书籍到新闻、博客、网页等。面对海量信息,亟需提出一种在短时间内高效率地获得文本发展变化信息的方法。
发明内容
有鉴于此,本发明实施例提供了涉及一种文本分析方法、装置、存储介质及电子设备,以解决现有技术中面对海量信息,缺少在短时间内高效率地获得文本发展变化信息的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供一种文本分析方法,该文本分析方法包括:获取待分析文本数据集以及所述待分析文本数据集中每一个待分析文本的发表时间;在所述每一个待分析文本中抽取对应的知识实体;根据所述待分析文本数据集中包含的知识实体以及知识实体之间的关系构建目标实体网络,所述目标实体网络中知识实体的属性信息包括知识实体隶属的待分析文本的发表时间;以所述知识实体隶属的待分析文本的发表时间为基础,按照预设聚类算法对所述目标实体网络中包含的知识实体进行聚类;根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的核心知识种群,所述核心知识种群由多个知识实体构成;对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析。
可选地,在所述每一个待分析文本中抽取对应的知识实体,包括:在每个待分析文本中根据预设窗口大小构建滑动窗口并计算任一滑动窗口中的知识实体在对应的待分析文本中的重要性;根据所述待分析文本数据集和包含所述知识实体的待分析文本计算所述知识实体的区分度;根据所述重要性和所述区分度在所述每一个待分析文本中抽取对应的知识实体。
可选地,根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的核心知识种群,包括:根据GN算法确定每一个时间窗口对应的核心知识种群
可选地,对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析,包括:根据下式计算对相邻时间窗口之间核心知识种群进行演化分析的影响值:
Figure BDA0003543715740000021
Figure BDA0003543715740000022
式中,E表征知识实体本身对相邻时间窗口之间核心知识种群进行演化分析的影响;M表征相邻时间窗口之间核心知识种群变化及知识实体之间的关系对相邻时间窗口之间核心知识种群进行演化分析的影响;ΔS表示相邻时间窗口之间核心知识种群中包含的知识实体的变化总数;ΔWS表示相邻时间窗口之间核心知识种群中包含的知识实体的重要性变化数;Δidfi表示相邻时间窗口之间核心知识种群中包含的知识实体的区分度变化数;ΔC表示相邻时间窗口之间核心知识种群的集聚系数变化值;ΔL表示相邻时间窗口之间知识实体之间关系的变化;
当ΔS>0且ΔL>0且E>0且ΔM′>0,确定相邻时间窗口之间核心知识种群为遗传性知识种群;当ΔS>0且ΔL>0且E<0且ΔM′<0,确定相邻时间窗口之间核心知识种群处于转型初期;当ΔS>0且ΔL>0且E<0且ΔM′>0,确定相邻时间窗口之间核心知识种群存在知识突变簇,处于突变挑战期;当ΔS<0且ΔL<0且E<0且ΔM′>0,确定相邻时间窗口之间核心知识种群处于消亡期。
可选地,所述方法还包括:根据所述知识实体的重要性和区分度在所述每一个时间窗口中确定满足条件的核心知识实体;计算所述核心知识实体的核心性;计算与所述核心知识实体相邻的知识实体的平均重要性和平均区分度;对所述核心知识实体对应的核心性、所述重要性和区分度及所述平均重要性和平均区分度进行可视化处理。
本发明实施例第二方面提供一种文本分析装置,该文本分析装置包括:获取模块,用于获取待分析文本数据集以及所述待分析文本数据集中每一个待分析文本的发表时间;抽取模块,用于在所述每一个待分析文本中抽取对应的知识实体;构建模块,用于根据所述待分析文本数据集中包含的知识实体以及知识实体之间的关系构建目标实体网络,所述目标实体网络中知识实体的属性信息包括知识实体隶属的待分析文本的发表时间;聚类模块,用于以所述知识实体隶属的待分析文本的发表时间为基础,按照预设聚类算法对所述目标实体网络中包含的知识实体进行聚类;确定模块,用于根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的核心知识种群,所述核心知识种群由多个知识实体构成;分析模块,用于对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析。
可选地,所述装置还包括:第一计算模块,用于在每个待分析文本中根据预设窗口大小构建滑动窗口并计算任一滑动窗口中的知识实体在对应的待分析文本中的重要性;第二计算模块,用于根据所述待分析文本数据集和包含所述知识实体的待分析文本计算所述知识实体的区分度;第一抽取模块,用于根据所述重要性和所述区分度在所述每一个待分析文本中抽取对应的知识实体。
可选地,所述装置还包括:第一确定模块,用于根据GN算法确定每一个时间窗口对应的核心知识种群。
本发明实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的文本分析方法。
本发明实施例第四方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面及第一方面任一项所述的文本分析方法。
本发明提供的技术方案,具有如下效果:
本发明实施例提供的文本分析方法,获取待分析文本数据集以及所述待分析文本数据集中每一个待分析文本的发表时间;在所述每一个待分析文本中抽取对应的知识实体;根据所述待分析文本数据集中包含的知识实体以及知识实体之间的关系构建目标实体网络,所述目标实体网络中知识实体的属性信息包括知识实体隶属的待分析文本的发表时间;以所述知识实体隶属的待分析文本的发表时间为基础,按照预设聚类算法对所述目标实体网络中包含的知识实体进行聚类;根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的核心知识种群,所述核心知识种群由多个知识实体构成;对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析。该方法建立基于文本结构的目标实体网络,并基于生态学视角以核心知识种群为分析单位进行演化分析,将生物演化理论应用于知识抽取算法中,实现了在短时间内高效率地获取文本发展变化信息。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的文本分析方法的流程图;
图2是根据本发明实施例提供的文本分析的结果示意图;
图3是根据本发明实施例的文本分析装置的结构框图;
图4是根据本发明实施例提供的计算机可读存储介质的结构示意图;
图5是根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本分析方法,如图1所示,该方法包括如下步骤:
步骤S101:获取待分析文本数据集以及所述待分析文本数据集中每一个待分析文本的发表时间。具体地,一段文本中可能蕴涵着大量的知识和信息,是重要且常见的数据格式,根据获取的该文本的发表时间使得用户可以在大量的知识和信息中快速的捕捉到该文本中的关键信息,更快地把握文本中知识信息的发展动向。
在一实施例中,获取互联网文本数据,通常是针对某些话题的论坛贴,某个主题或某节课的发言稿或者针对某主题的博客内容等。其中,每篇文档可以对应“年-月-日”等形式和内容的发表日期。
步骤S102:在所述每一个待分析文本中抽取对应的知识实体。具体地,在该每一个待分析文本中捕捉关键信息即知识实体,该关键信息可以通过用户预先指定。
步骤S103:根据所述待分析文本数据集中包含的知识实体以及知识实体之间的关系构建目标实体网络,所述目标实体网络中知识实体的属性信息包括知识实体隶属的待分析文本的发表时间。具体地,知识实体之间的关系可以分为两种:上下位关系和共现关系。在本发明提供的方法中,为基于知识实体以及知识实体之间的关系建立有向图(目标实体网络),可以仅考虑知识实体之间的上下位关系。
首先计算下式:
Figure BDA0003543715740000061
其中,P(V1|V2)表示在知识实体V2出现的文本中,知识实体V1出现的概率;N(V1V2)表示知识实体V1和知识实体V2同时出现的文本数;N(V2)表示知识实体V2出现的文本数。
当P(V1|V2)≥0.8时,表示该知识实体V1和知识实体V2具有上下位关系。
然后根据下式计算知识实体V的细化度:
Figure BDA0003543715740000071
式中,N(V)表示细化值;N表示实体库中的实体总数;
其中,当知识实体V与实体库中任意一个实体满足P(V0|V)≥0.8时,N(V)加1;实体库根据待分析文本数据集中包含的知识实体构建。
当Rv1<Rv2,则表示知识实体V1是知识实体V2的上位实体;当Rv1>Rv2,则表示知识实体V1是知识实体V2的下位实体;其他情况则表示知识实体V1和知识实体V2具有平级关系。
最后,根据知识实体之间的上下位关系,以知识实体为节点(该知识实体的属性信息包括知识实体隶属的待分析文本的发表时间),以知识实体之间的关系为连边建立知识实体有向图(目标实体网络),箭头从上位实体指向下位实体。具体地,可以使用Gephi软件构建该目标实体网络。
步骤S104:以所述知识实体隶属的待分析文本的发表时间为基础,按照预设聚类算法对所述目标实体网络中包含的知识实体进行聚类。具体地,利用基于时间维度的K-means聚类实现。
首先,以天为单位,对目标天数内的待分析文本中包含的知识实体进行聚类分析。具体地,使用SVD降维技术提取每日实体网络图中的特征向量,记为Uk,然后,计算目标实体网络中知识实体之间,最后使用K-means聚类对该目标实体网络中包含的知识实体进行聚类。其中,每日实体网络图表示以天为单位,根据目标天数内的待分析文本数据集中包含的知识实体以及知识实体之间的关系构建的目标实体网络;使用SVD降维技术用于解决在高维数据情形下会出现的数据样本稀疏及距离计算等困难,可以去除目标实体网络中冗余存在的特征。
在一实施例中,以“天”为单位,根据获取的互联网文本数据构建每日实体网络图Nx,并计算第N天和第N+1天的欧式距离,然后基于K-means聚类方法对该每日实体网络图Nx包含的知识实体进行聚类,聚类后可以得到包含同一话题或相似话题的论坛贴、包含同一主题或相似主题的发言稿或博客内容等等。
步骤S105:根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的核心知识种群,所述核心知识种群由多个知识实体构成。具体地,根据聚类结果进行计算分析可以得到时间窗口T1、T2、……、TK,每一个时间窗口中包含的多个知识实体即为经过聚类后的知识实体,该多个知识实体构成了每一个时间窗口对应的核心知识种群。
在一实施例中,聚类后可以得到连续5天内的同一话题或相似话题的论坛贴,即可将该5天作为一个时间窗口;或者将不同时间内(比如第2天和第5天)相似的文本数据划分在一个时间窗口内。
步骤S106:对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析。具体地,基于目标计算方法,通过对任意两个相邻时间窗口对应的核心知识种进行计算可以对相邻时间窗口之间核心知识种群进行演化分析。其中,该目标计算方法可以为任意可以识别出相邻时间窗口之间核心知识种群的差异性或相似度的算法中的一种,如机器学习模型等,通过识别出的相邻时间窗口中核心知识种群的差异来确定演化分析结果,差异性越大,知识种群处于转型或突变期的可能性越大。
本发明实施例提供的文本分析方法,该方法建立基于文本结构的目标实体网络,并基于生态学视角以核心知识种群为分析单位进行演化分析,将生物演化理论应用于知识抽取算法中,实现了在短时间内高效率地获取文本发展变化信息。
作为本发明实施例一种可选的实施方式,步骤S102,包括:在每个待分析文本中根据预设窗口大小构建滑动窗口并计算任一滑动窗口中的知识实体在对应的待分析文本中的重要性;根据所述待分析文本数据集和包含所述知识实体的待分析文本计算所述知识实体的区分度;根据所述重要性和所述区分度在所述每一个待分析文本中抽取对应的知识实体。
首先,在待分析文本中选择窗口大小为20(根据实际计算需求进行设置)的窗格构建滑动窗口WK,然后计算知识实体权重赋值其重要性。具体地,首先使用自然语言处理中Word2Vec计算每个关键词(知识实体)的词向量,然后计算窗口WK中知识实体V的前驱实体(目标实体网络中知识实体V的前驱节点)个数和后继实体(目标实体网络中知识实体V的后继节点)个数,以及知识实体之间词向量间的距离,最后带入下列公式迭代计算目标实体网络中各个节点(知识实体)的权重直至收敛:
Figure BDA0003543715740000091
其中,WS(Vi)表示知识实体的权重即重要性;In(Vi)表示前驱实体个数;Out(Vj)表示后继实体个数;D表示词向量间的距离;d表示阻尼系数,取值范围为0到1,代表从某一特定节点指向其他任意节点的概率,一般取值为0.85。
然后计算对应知识实体的区分度。具体地,通过下式进行计算:
Figure BDA0003543715740000092
其中,idfi表示知识实体i的普遍重要性的度量,用于表征知识实体的区分能力即区分度;|D|表示待分析文本数据集中待分析文本的总数;|{j:ti∈dj}|表示包含知识实体i的待分析文本数。
最后,利用计算得到的知识实体的重要性和区分度在每一个待分析文本中抽取对应的知识实体。具体地,可以在每一个待分析文本中抽取知识实体的重要性和区分度指标均处于前80%(根据实际需求设置)的知识实体。
作为本发明实施例一种可选的实施方式,步骤S105,包括:根据GN算法确定每一个时间窗口对应的核心知识种群。具体地,在复杂网络中,边的介数即为通过该边的最短路的条数。直观上,网络之间的边有较高的介数,而网络内部的边介数相对较小。使用GN算法计算每一个时间窗口对应的核心知识种群时,首先计算每条边的介数,然后根据计算结果去掉具有最高介数的边,最后判断是否出现了大于1的划分结果,如果出现,则结束提取并获取该时间窗口对应的核心知识种群;如果未出现,则重新计算每条边的介数并根据计算结果去掉具有最高介数的边直至出现大于1的划分结果。将大于1的划分结果作为核心知识种群。
作为本发明实施例一种可选的实施方式,对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析时,首先根据下式计算对相邻时间窗口之间核心知识种群进行演化分析的影响值:
Figure BDA0003543715740000101
Figure BDA0003543715740000102
式中,E表征知识实体本身对相邻时间窗口之间核心知识种群进行演化分析的影响;M表征相邻时间窗口之间核心知识种群变化及知识实体之间的关系对相邻时间窗口之间核心知识种群进行演化分析的影响;ΔS表示相邻时间窗口之间核心知识种群中包含的知识实体的变化总数;ΔWS表示相邻时间窗口之间核心知识种群中包含的知识实体的重要性变化数;Δidfi表示相邻时间窗口之间核心知识种群中包含的知识实体的区分度变化数;ΔC表示相邻时间窗口之间核心知识种群的集聚系数变化值;ΔL表示相邻时间窗口之间知识实体之间关系的变化;
具体地,在不同时间窗口所体现出的知识实体演化中,通过知识实体(节点)和边的变化可以界定一系列的关系,基本情况如下表1所示。
表1
序号 实体 情况解释
1 不变 新建 知识种群发展期
2 不变 消失 知识种群衰退期
3 不变 改变方向 -
4 增加 新建 知识种群发展期
5 增加 消失 知识种群转型期
6 增加 改变方向 -
7 减少 新建 知识种群升级期
8 减少 消失 知识种群衰退期
9 减少 改变方向 -
其中当有较多的边发生了“改变方向”时,意味着此知识种群并不是稳定的,而是在处于一种变化的、较为混乱的阶段,特征不限制,因此不予考虑。
然后对相邻窗口Tk和Tk+1的核心种群,计算:
Step1:计算实体的变化总数ΔS;
Step2:计算边的变化ΔL;
Step3:计算实体重要性变化数ΔWS和区分度变化数Δidfi
Step4:计算核心种群集聚系数变化值ΔC;
Step4:带入下列方程式进行计算对相邻时间窗口之间核心知识种群进行演化分析的影响值:
Figure BDA0003543715740000111
Figure BDA0003543715740000112
其中,影响值E根据实体重要性变化数、区分度变化数以及实体的变化总数计算得到,通过实体重要性变化数、区分度变化数可以判断该知识种群内部是否稳定,通过实体的变化总数可以判定该知识种群中包含的知识实体的增加或减少,通过两种判定结果可以更准确地对该知识种群进行演化分析;
影响值M根据边的变化和种群集聚系数变化计算得到,通过这两个指标的变化可以判定该时间窗口中知识种群的集聚程度,程度越高,知识种群越多,发展越好,反之则发展越差,可能会迅速消亡。
因此,根据该分析结果,利用计算结果对相邻时间窗口之间核心知识种群进行演化分析。
具体地,当ΔS>0且ΔL>0时:
若E>0且ΔM′>0,表示该知识种群处于良好的发展期:核心主题在凸显,核心主题相关知识实体增加,为遗传型知识种群;
若E<0且ΔM′<0,表示该知识种群处于转型期,知识实体增加但区分度降低,或区分度增加但知识实体重要性降低,均意味着此知识种群有内部不稳定因素存在,处于知识种群转型初期;
若E<0且ΔM′>0,表示该知识种群可能存在知识突变簇,新的突变挑战了核心知识种群的位置并有取代其的可能,因此该知识种群处于突变挑战期。
当ΔS<0且ΔL<0时:
若E<0且ΔM′>0,表示该知识种群内部实体活性不足,处于迅速的消亡期。
作为本发明实施例一种可选的实施方式,所述方法还包括:根据所述知识实体的重要性和区分度在所述每一个时间窗口中确定满足条件的核心知识实体;计算所述核心知识实体的核心性;计算与所述核心知识实体相邻的知识实体的平均重要性和平均区分度;对所述核心知识实体对应的核心性、所述重要性和区分度及所述平均重要性和平均区分度进行可视化处理。
核心知识实体表示具有高知识实体重要性和高知识实体区分度的知识实体,这些核心知识实体代表了文本的核心,对知识实体的演变趋势研究能够迅速把握核心走向。因此,在对相邻时间窗口之间核心知识种群进行演化分析之后,可以根据该核心知识实体进一步对待分析文本进行演化分析。
具体地,首先筛选每一个时间窗口对应的核心知识种群中WS和idfi指标均处于前10%的1个知识实体作为核心知识实体。
然后计算该核心知识实体在该核心知识种群中的核心性。具体地,计算该核心知识实体在该核心知识种群中的出度O和入度I,该出度O和入度I的比值R=I/O即为该核心知识实体在该核心知识种群中的核心性。其中,出度O表示该目标实体网络图中指向该核心知识实体的边的条数,即该核心知识实体对应的上位知识实体的个数;入度I表示该目标实体网络图中从该核心知识实体发出的边的条数,即该核心知识实体对应的下位知识实体的个数。
当所在核心知识种群处于消亡或与其他种群合并时,重新筛选新种群的核心知识实体并根据上述过程计算对应的核心性。
其次,计算该核心知识实体相邻节点(相邻知识实体)的知识实体平均重要性WSk和平均区分度idfk
最后对所述核心知识实体对应的核心性、所述重要性和区分度及所述平均重要性和平均区分度进行可视化处理。具体地,计算得到该核心知识种群不同发展时期时对应核心知识实体的核心性、重要性和区分度以及平均重要性和平均区分度,然后将这些指标直接输入图形数据库(比如neo4j)可以得到对应的可视化结果示意图,如图2所示。
本发明实施例还提供一种文本分析装置,如图3所示,该装置包括:
获取模块301,用于获取待分析文本数据集以及所述待分析文本数据集中每一个待分析文本的发表时间;详细内容参见上述方法实施例中步骤S101的相关描述。
抽取模块302,用于在所述每一个待分析文本中抽取对应的知识实体;详细内容参见上述方法实施例中步骤S102的相关描述。
构建模块303,用于根据所述待分析文本数据集中包含的知识实体以及知识实体之间的关系构建目标实体网络,所述目标实体网络中知识实体的属性信息包括知识实体隶属的待分析文本的发表时间;详细内容参见上述方法实施例中步骤S103的相关描述。
聚类模块304,用于以所述知识实体隶属的待分析文本的发表时间为基础,按照预设聚类算法对所述目标实体网络中包含的知识实体进行聚类;详细内容参见上述方法实施例中步骤S104的相关描述。
确定模块305,用于根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的核心知识种群,所述核心知识种群由多个知识实体构成;详细内容参见上述方法实施例中步骤S105的相关描述。
分析模块306,用于对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析;详细内容参见上述方法实施例中步骤S106的相关描述。
本发明实施例提供的文本分析装置,建立基于文本结构的目标实体网络,并基于生态学视角以核心知识种群为分析单位进行演化分析,将生物演化理论应用于知识抽取算法中,实现了在短时间内高效率地获取文本发展变化信息。
作为本发明实施例一种可选的实施方式,所述装置还包括:第一计算模块,用于在每个待分析文本中根据预设窗口大小构建滑动窗口并计算任一滑动窗口中的知识实体在对应的待分析文本中的重要性;第二计算模块,用于根据所述待分析文本数据集和包含所述知识实体的待分析文本计算所述知识实体的区分度;第一抽取模块,用于根据所述重要性和所述区分度在所述每一个待分析文本中抽取对应的知识实体。
作为本发明实施例一种可选的实施方式,所述装置还包括:第一确定模块,用于根据GN算法确定每一个时间窗口对应的核心知识种群。
作为本发明实施例一种可选的实施方式,所述装置还包括:第三计算模块,用于根据下式计算对相邻时间窗口之间核心知识种群进行演化分析的影响值:
Figure BDA0003543715740000151
Figure BDA0003543715740000152
式中,E表征知识实体本身对相邻时间窗口之间核心知识种群进行演化分析的影响;M表征相邻时间窗口之间核心知识种群变化及知识实体之间的关系对相邻时间窗口之间核心知识种群进行演化分析的影响;ΔS表示相邻时间窗口之间核心知识种群中包含的知识实体的变化总数;ΔWS表示相邻时间窗口之间核心知识种群中包含的知识实体的重要性变化数;Δidfi表示相邻时间窗口之间核心知识种群中包含的知识实体的区分度变化数;ΔC表示相邻时间窗口之间核心知识种群的集聚系数变化值;ΔL表示相邻时间窗口之间知识实体之间关系的变化;
第二确定模块,用于当ΔS>0且ΔL>0且E>0且ΔM′>0,确定相邻时间窗口之间核心知识种群为遗传性知识种群;第三确定模块,用于当ΔS>0且ΔL>0且E<0且ΔM′<0,确定相邻时间窗口之间核心知识种群处于转型初期;第四确定模块,用于当ΔS>0且ΔL>0且E<0且ΔM′>0,确定相邻时间窗口之间核心知识种群存在知识突变簇,处于突变挑战期;第五确定模块,用于当ΔS<0且ΔL<0且E<0且ΔM′>0,确定相邻时间窗口之间核心知识种群处于消亡期。
作为本发明实施例一种可选的实施方式,所述装置还包括:第六确定模块,用于根据所述知识实体的重要性和区分度在所述每一个时间窗口中确定满足条件的核心知识实体;第四计算模块,用于计算所述核心知识实体的核心性;第五计算模块,用于计算与所述核心知识实体相邻的知识实体的平均重要性和平均区分度;可视化处理模块,用于对所述核心知识实体对应的核心性、所述重要性和区分度及所述平均重要性和平均区分度进行可视化处理。
本发明实施例提供的文本分析装置的功能描述详细参见上述实施例中文本分析方法描述。
本发明实施例还提供一种存储介质,如图4所示,其上存储有计算机程序401,该指令被处理器执行时实现上述实施例中文本分析方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本发明实施例还提供了一种电子设备,如图5所示,该电子设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的文本分析方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1-2所示实施例中的文本分析方法。
上述电子设备具体细节可以对应参阅图1至图2所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种文本分析方法,其特征在于,包括如下步骤:
获取待分析文本数据集以及所述待分析文本数据集中每一个待分析文本的发表时间;
在所述每一个待分析文本中抽取对应的知识实体;
根据所述待分析文本数据集中包含的知识实体以及知识实体之间的关系构建目标实体网络,所述目标实体网络中知识实体的属性信息包括知识实体隶属的待分析文本的发表时间;
以所述知识实体隶属的待分析文本的发表时间为基础,按照预设聚类算法对所述目标实体网络中包含的知识实体进行聚类;
根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的核心知识种群,所述核心知识种群由多个知识实体构成;
对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析。
2.根据权利要求1所述的方法,其特征在于,在所述每一个待分析文本中抽取对应的知识实体,包括:
在每个待分析文本中根据预设窗口大小构建滑动窗口并计算任一滑动窗口中的知识实体在对应的待分析文本中的重要性;
根据所述待分析文本数据集和包含所述知识实体的待分析文本计算所述知识实体的区分度;
根据所述重要性和所述区分度在所述每一个待分析文本中抽取对应的知识实体。
3.根据权利要求1所述的方法,其特征在于,根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的核心知识种群,包括:
根据GN算法确定每一个时间窗口对应的核心知识种群。
4.根据权利要求2所述的方法,其特征在于,对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析,包括:
根据下式计算对相邻时间窗口之间核心知识种群进行演化分析的影响值:
Figure FDA0003543715730000021
Figure FDA0003543715730000022
式中,E表征知识实体本身对相邻时间窗口之间核心知识种群进行演化分析的影响;M表征相邻时间窗口之间核心知识种群变化及知识实体之间的关系对相邻时间窗口之间核心知识种群进行演化分析的影响;ΔS表示相邻时间窗口之间核心知识种群中包含的知识实体的变化总数;ΔWS表示相邻时间窗口之间核心知识种群中包含的知识实体的重要性变化数;Δidfi表示相邻时间窗口之间核心知识种群中包含的知识实体的区分度变化数;ΔC表示相邻时间窗口之间核心知识种群的集聚系数变化值;ΔL表示相邻时间窗口之间知识实体之间关系的变化;
当ΔS>0且ΔL>0且E>0且ΔM′>0,确定相邻时间窗口之间核心知识种群为遗传性知识种群;
当ΔS>0且ΔL>0且E<0且ΔM′<0,确定相邻时间窗口之间核心知识种群处于转型初期;
当ΔS>0且ΔL>0且E<0且ΔM′>0,确定相邻时间窗口之间核心知识种群存在知识突变簇,处于突变挑战期;
当ΔS<0且ΔL<0且E<0且ΔM′>0,确定相邻时间窗口之间核心知识种群处于消亡期。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述知识实体的重要性和区分度在所述每一个时间窗口中确定满足条件的核心知识实体;
计算所述核心知识实体的核心性;
计算与所述核心知识实体相邻的知识实体的平均重要性和平均区分度;
对所述核心知识实体对应的核心性、所述重要性和区分度及所述平均重要性和平均区分度进行可视化处理。
6.一种文本分析装置,其特征在于,包括:
获取模块,用于获取待分析文本数据集以及所述待分析文本数据集中每一个待分析文本的发表时间;
抽取模块,用于在所述每一个待分析文本中抽取对应的知识实体;
构建模块,用于根据所述待分析文本数据集中包含的知识实体以及知识实体之间的关系构建目标实体网络,所述目标实体网络中知识实体的属性信息包括知识实体隶属的待分析文本的发表时间;
聚类模块,用于以所述知识实体隶属的待分析文本的发表时间为基础,按照预设聚类算法对所述目标实体网络中包含的知识实体进行聚类;
确定模块,用于根据聚类结果确定文本分析的时间窗口并确定每一个时间窗口对应的核心知识种群,所述核心知识种群由多个知识实体构成;
分析模块,用于对任意两个相邻时间窗口对应的核心知识种群按照目标计算方法进行演化分析。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一计算模块,用于在每个待分析文本中根据预设窗口大小构建滑动窗口并计算任一滑动窗口中的知识实体在对应的待分析文本中的重要性;
第二计算模块,用于根据所述待分析文本数据集和包含所述知识实体的待分析文本计算所述知识实体的区分度;
第一抽取模块,用于根据所述重要性和所述区分度在所述每一个待分析文本中抽取对应的知识实体。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一确定模块,用于根据GN算法确定每一个时间窗口对应的核心知识种群。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-5任一项所述的文本分析方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-5任一项所述的文本分析方法。
CN202210244264.6A 2022-03-11 2022-03-11 一种文本分析方法、装置、存储介质及电子设备 Pending CN114741522A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210244264.6A CN114741522A (zh) 2022-03-11 2022-03-11 一种文本分析方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210244264.6A CN114741522A (zh) 2022-03-11 2022-03-11 一种文本分析方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114741522A true CN114741522A (zh) 2022-07-12

Family

ID=82275365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210244264.6A Pending CN114741522A (zh) 2022-03-11 2022-03-11 一种文本分析方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114741522A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020302A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
WO2022022045A1 (zh) * 2020-07-27 2022-02-03 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020302A (zh) * 2012-12-31 2013-04-03 中国科学院自动化研究所 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和***
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
WO2022022045A1 (zh) * 2020-07-27 2022-02-03 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高俊平; 张晖; 赵旭剑; 杨春明; 李波: "面向***的领域知识演化关系抽取", 计算机学报, 8 March 2016 (2016-03-08) *

Similar Documents

Publication Publication Date Title
Chen et al. A practical guide to big data research in psychology.
WO2017206936A1 (zh) 基于机器学习的网络模型构造方法及装置
WO2017097231A1 (zh) 话题处理方法及装置
CN113610239A (zh) 针对机器学习的特征处理方法及特征处理***
WO2020147409A1 (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN110929145A (zh) 舆情分析方法、装置、计算机装置及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN113836131A (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN105701182A (zh) 信息推送方法和装置
Zubiaga et al. Content-based clustering for tag cloud visualization
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN111190967A (zh) 用户多维度数据处理方法、装置及电子设备
WO2022073341A1 (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN111581162B (zh) 一种基于本体的海量文献数据的聚类方法
CN112667791A (zh) 潜在事件预测方法、装置、设备及存储介质
CN116450827A (zh) 一种基于大规模语言模型的事件模板归纳方法和***
CN111581960A (zh) 一种获取医学文本语义相似度的方法
CN114741522A (zh) 一种文本分析方法、装置、存储介质及电子设备
US20240028917A1 (en) Generating a knowledge base from mathematical formulae in technical documents
CN115544214A (zh) 一种事件处理方法、设备及计算机可读存储介质
Kamel et al. Robust sentiment fusion on distribution of news
WO2018100700A1 (ja) データ変換装置とデータ変換方法
Zarzour et al. An efficient recommender system based on collaborative filtering recommendation and cluster ensemble
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination