CN117933244A - 企业用户的新闻分析处理方法、装置、设备及介质 - Google Patents

企业用户的新闻分析处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN117933244A
CN117933244A CN202410269653.3A CN202410269653A CN117933244A CN 117933244 A CN117933244 A CN 117933244A CN 202410269653 A CN202410269653 A CN 202410269653A CN 117933244 A CN117933244 A CN 117933244A
Authority
CN
China
Prior art keywords
node
entity
entities
terminal
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410269653.3A
Other languages
English (en)
Inventor
王新杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Time New Wei Information Technology Co ltd
Original Assignee
Beijing Time New Wei Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Time New Wei Information Technology Co ltd filed Critical Beijing Time New Wei Information Technology Co ltd
Priority to CN202410269653.3A priority Critical patent/CN117933244A/zh
Publication of CN117933244A publication Critical patent/CN117933244A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供企业用户的新闻分析处理方法、装置、设备及介质,涉及数据处理的技术领域,方法包括:分别对针对目标对象的各个目标媒体数据进行分词处理,得到多个第一实体,第一实体为目标媒体数据包括的与目标对象相关的新闻事件;从多个第一实体中筛选出第二实体,第二实体的出现频次大于预设频次阈值,出现频次为第二实体在多个目标媒体数据中出现的频次之和;根据多个第二实体构建节点树;基于节点树中查询各个第二实体的逆向节点链路,并且确定逆向节点链路中实体数量大于预设频次阈值的节点实体;对多个节点实体进行组合得到实体组,以便于通过实体组分析目标对象的新闻。本申请能够提高新闻数据处理的效率,以用于新闻分析。

Description

企业用户的新闻分析处理方法、装置、设备及介质
技术领域
本申请涉及数据处理的技术领域,具体涉及企业用户的新闻分析处理方法、装置、设备及介质。
背景技术
企业中,管理人员(特别是企业高管)的行为对公司的声誉、财务健康和市场地位具有重大影响。当企业管理人员突然出现意料之外的新闻事件,可能会对公司产生负面影响。例如企业管理人员的负面新闻通常会导致投资者信心下降,进而引起股价急剧下跌,影响到公司的市值和投资吸引力。
但是,随着互联网技术的飞速发展和数字化媒体平台的日益增多,数字化媒体的快速增长导致了海量信息的生成,尤其是新闻内容的剧增。每天有成千上万的新闻报道、博客文章、社交媒体帖子和其他形式的数字内容被发布。通过人工阅读大量的数字新闻,从中查询关键信息,以用于分析企业管理人员的新闻。对大量新闻数据进行处理需要耗费大量时间,效率低下,因此需要一种方法提高新闻数据处理的效率,以用于新闻分析。
发明内容
本申请提供企业用户的新闻分析处理方法、装置、设备及介质,能够提高新闻数据处理的效率,以用于新闻分析。
在本申请的第一方面提供了企业用户的新闻分析处理方法,所述方法包括:
分别对针对目标对象的各个目标媒体数据进行分词处理,得到多个第一实体,所述第一实体为所述目标媒体数据包括的与所述目标对象相关的新闻事件;
从多个所述第一实体中筛选出第二实体,所述第二实体的出现频次大于预设频次阈值,所述出现频次为所述第二实体在多个所述目标媒体数据中出现的频次之和;
根据多个所述第二实体构建节点树,其中,所述节点树的根节点为空节点,所述第二实体为所述节点树的子节点,且出现于同一个所述目标媒体数据的多个所述第二实体处于所述节点树的同一节点链路上;
基于所述节点树中查询各个所述第二实体的逆向节点链路,并且确定所述逆向节点链路中实体数量大于所述预设频次阈值的节点实体,所述逆向节点链路的首端子节点的内容为所述第二实体,末端子节点为所述根节点,其中,将任意一个第二实体的多个所述逆向节点链路拆分成多个节点实体后,得到拆分结果,任意一个所述节点实体的实体数量为所述拆分结果中的出现数量之和;
对多个所述节点实体进行组合得到实体组,以便于通过所述实体组分析所述目标对象的新闻。
通过采用上述技术方案,对目标媒体数据进行分词处理和频次分析,这个首先从大量目标媒体数据中快速筛选出与目标对象相关的新闻事件(第一实体)。而根据出现频次筛选出第二实体,能够得到新闻报道较为频繁的事件。接着,通过构建节点树并探索逆向节点链路并筛选节点实体,能***地组织和关联这些第二实体,进一步揭示不同新闻事件之间的联系。这种组织数据的方式不仅减少了需要人工分析的数据量,还提供了一种直观的方法来理解和解释复杂的数据关系。最终,将节点实体组合成实体组,并对这些组进行分析,能够生成关于目标对象新闻的深入洞察。总的来说,通过自动化的数据处理和智能的信息组织,大幅提升了处理效率和分析深度,使其非常适合用于大规模的新闻数据分析。
可选的,在所述根据多个所述第二实体构建节点树之前,所述方法还包括:
对第一媒体数据的多个第一子实体按照出现频次由多到少的第一排列顺序进行排序,所述第一媒体数据为多个所述目标媒体数据中的任意一个目标媒体数据,所述第一子实体为多个所述第二实体中所述第一媒体数据对应的第二实体,其中,若多个所述第一子实体中存在出现频次相同的多个第二子实体,则定义一个第二排列顺序,以使各个所述目标媒体数据中的所述多个第二子实体的先后排列顺序相同。
通过采用上述技术方案,在构建节点树之前对第一媒体数据中的第二实体进行排序,为后续的节点树构建提供了一个标准化和一致的数据结构。通过按照出现频次由多到少的顺序排列第一子实体,可以确保节点树的构建基于数据中的主要趋势和模式,从而提高了分析的准确性和相关性。此外,当存在出现频次相同的第二子实体时,定义一个第二排列顺序可以保证在不同目标媒体数据中这些实体的相对顺序一致,从而增加了分析过程中数据的一致性和可比性。这种方法在处理大量复杂数据时尤其有效,因为它减少了由于数据排列不一致而引入的潜在混乱和误解,使得从不同媒体数据中提取的信息更加标准化和可靠,从而提高整体的数据处理效率和新闻分析的质量。
可选的,所述根据多个所述第二实体构建节点树,具体包括:
对多个所述第一子实体按照所述第一排列顺序和/或所述第二排列顺序依次添加至所述子节点,检索第一节点链路中是否存在包含首端子实体的首端子节点,其中,所述第一节点链路为多个所述节点链路中的任意一个节点链路,所述首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,排列位置在首位的第一子实体,所述首端子节点为所述节点链路中连接所述空节点的子节点;
若检索出所述第一节点链路中存在所述首端子节点,则添加所述首端子实体至所述首端子节点,对所述首端子节点的节点计数加一;
若检索出所述第一节点链路中不存在所述首端子节点,则在所述节点树中创建第二节点链路,并添加所述首端子实体至所述第二节点链路的首端子节点。
通过采用上述技术方案,通过共享首端子节点,即当第一节点链路中已存在首端子节点时,将新的首端子实体添加到该节点并增加计数,这种方法显著减少了节点树中的节点数量。这在处理包含重复首端子实体的大量目标媒体数据时尤其有效,因为它减少了为每个重复实体创建新节点链路的需求。由于共享首端子节点的策略减少了节点树中的节点总数,搜索和更新特定第二实体变得更加高效。在大型数据集中,这种优化可以显著减少计算时间和资源消耗。
可选的,若检索出所述第一节点链路中存在所述首端子节点,存在包含次首端子实体的次首端子节点,则添加所述次首端子实体至所述次首端子节点,对所述次首端子节点的节点计数加一,所述次首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,位于所述首端子实体之后的第一子实体,所述次首端子节点为所述节点链路中连接所述首端子节点的子节点;
若检索出所述第一节点链路中存在所述首端子节点,不存在所述次首端子节点,则添加所述首端子实体至所述第二节点链路的首端子节点,创建第一子节点,并添加所述次首端子实体至所述第一子节点,所述第一子节点连接所述首端子节点。
通过采用上述技术方案,共享次首端节点(第一节点链路中包含次首端子实体的次首端子节点时,添加次首端子实体至次首端子节点并对次首端子节点的节点计数加一)能够进一步减少节点树中的节点数量,提高数据处理效率。创建节点分支(第一节点链路中不存在次首端子节点,创建第一子节点,并添加次首端子实体至第一子节点)使节点树具有更好的拓展性。
可选的,所述基于所述节点树中查询各个所述第二实体的逆向节点链路,并确定所述逆向节点链路中实体数量大于所述预设频次阈值的节点实体,具体包括:
从所述节点树中查询目标实体的多个目标逆向节点链路,所述目标实体为多个所述第二实体中的任意一个第二实体,所述目标逆向节点链路的首端子节点的内容为所述目标实体,末端子节点为所述根节点;
判断各个所述目标逆向节点链路是否包含所述目标对象对应的节点实体;
对多个所述目标逆向节点链路进行节点拆分,得到多个目标节点实体;
从各个包含所述目标对象对应的节点实体的目标节点实体中,筛选出所述实体数量大于所述预设频次阈值的第一节点实体,所述实体数量为多个所述目标节点实体中所述第一节点实体的出现数量之和。
通过采用上述技术方案,查询节点树以找到与目标实体相关的目标逆向节点链路,并对这些链路进行节点拆分和筛选,可以准确地追踪和识别与目标实体(第二实体)相关联的所有其他实体。这使得能够明确地理解目标实体在不同媒体数据中的上下文和关联关系,有助于揭示目标实体与其他实体之间的复杂关系和相互作用。
可选的,在所述从多个所述第一实体中筛选出第二实体之前,所述方法还包括:
计算任意一个所述第一实体的第一哈希值;
在预设哈希表中,查询是否包含所述第一哈希值;
若确定所述预设哈希表中不包含所述第一哈希值,则写入所述第一哈希值至所述预设哈希表,并对所述第一哈希值的频率计数加一;
若确定所述预设哈希表中包含所述第一哈希值,则对第二哈希值的频率计数加一,所述第二哈希值为所述预设哈希表中包含的多个哈希值中与所述第一哈希值相同的哈希值。
通过采用上述技术方案,使用哈希表来管理第一实体的哈希值能够快速检查和更新实体的存在与频率,这对于处理大量数据来说是非常高效的。哈希表提供了快速的数据访问和更新能力,这意味着即使在数据量非常大的情况下,实体的检索和频率更新也能高效进行。
可选的,所述对多个所述节点实体进行组合得到实体组,以便于通过所述实体组分析所述目标对象的新闻,具体包括:
基于各个所述第二实体,确定多个实体组,所述实体组为多个所述第一节点实体的组合;
确定多个所述实体组中,第一实体组的第一数量,所述第一实体组包括所述目标对象对应的目标节点实体;
确定多个所述实体组中,多个所述实体组的第二数量;
若确定所述第一实体组的出现概率大于预设概率阈值,则根据第二节点实体的语义分析所述目标对象的新闻,所述出现概率为所述第一数量和所述第二数量的商值,所述第二节点实体为所述第一实体组中除所述目标节点实体外的第一节点实体。
通过采用上述技术方案,通过将相关的第二实体(即重要的新闻事件或话题)组合成实体组,当与目标对象相关的第一实体组出现概率超过预设阈值时,可以发现目标对象与其他实体潜在的关联关系,有助于深入理解目标对象与新闻事件之间的联系,从而有助于后续更准确地理解新闻趋势。
在本申请的第二方面提供了企业用户的新闻分析处理装置,包括识别模块、筛选模块、构建模块、查询模块以及处理模块,其中:
所述识别模块,用于分别对针对目标对象的各个目标媒体数据进行分词处理,得到多个第一实体,所述第一实体为所述目标媒体数据包括的与所述目标对象相关的新闻事件;
所述筛选模块,用于从多个所述第一实体中筛选出第二实体,所述第二实体的出现频次大于预设频次阈值,所述出现频次为所述第二实体在多个所述目标媒体数据中出现的频次之和;
所述构建模块,用于根据多个所述第二实体构建节点树,其中,所述节点树的根节点为空节点,所述第二实体为所述节点树的子节点,且出现于同一个所述目标媒体数据的多个所述第二实体处于所述节点树的同一节点链路上;
所述查询模块,用于基于所述节点树中查询各个所述第二实体的逆向节点链路,并且确定所述逆向节点链路中实体数量大于所述预设频次阈值的节点实体,所述逆向节点链路的首端子节点的内容为所述第二实体,末端子节点为所述根节点,其中,将任意一个第二实体的多个所述逆向节点链路拆分成多个节点实体后,得到拆分结果,任意一个所述节点实体的实体数量为所述拆分结果中的出现数量之和;
所述处理模块,用于对多个所述节点实体进行组合得到实体组,以便于通过所述实体组分析所述目标对象的新闻。
可选的,所述筛选模块,用于对第一媒体数据的多个第一子实体按照出现频次由多到少的第一排列顺序进行排序,所述第一媒体数据为多个所述目标媒体数据中的任意一个目标媒体数据,所述第一子实体为多个所述第二实体中所述第一媒体数据对应的第二实体,其中,若多个所述第一子实体中存在出现频次相同的多个第二子实体,则定义一个第二排列顺序,以使各个所述目标媒体数据中的所述多个第二子实体的先后排列顺序相同。
可选的,所述筛选模块,用于对多个所述第一子实体按照所述第一排列顺序和/或所述第二排列顺序依次添加至所述子节点,检索第一节点链路中是否存在包含首端子实体的首端子节点,其中,所述第一节点链路为多个所述节点链路中的任意一个节点链路,所述首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,排列位置在首位的第一子实体,所述首端子节点为所述节点链路中连接所述空节点的子节点;
所述查询模块,用于若检索出所述第一节点链路中存在所述首端子节点,则添加所述首端子实体至所述首端子节点,对所述首端子节点的节点计数加一;
所述查询模块,用于若检索出所述第一节点链路中不存在所述首端子节点,则在所述节点树中创建第二节点链路,并添加所述首端子实体至所述第二节点链路的首端子节点。
可选的,所述查询模块,用于若检索出所述第一节点链路中存在所述首端子节点,存在包含次首端子实体的次首端子节点,则添加所述次首端子实体至所述次首端子节点,对所述次首端子节点的节点计数加一,所述次首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,位于所述首端子实体之后的第一子实体,所述次首端子节点为所述节点链路中连接所述首端子节点的子节点;
所述查询模块,用于若检索出所述第一节点链路中存在所述首端子节点,不存在所述次首端子节点,则添加所述首端子实体至所述第二节点链路的首端子节点,创建第一子节点,并添加所述次首端子实体至所述第一子节点,所述第一子节点连接所述首端子节点。
可选的,所述处理模块,用于从所述节点树中查询目标实体的多个目标逆向节点链路,所述目标实体为多个所述第二实体中的任意一个第二实体,所述目标逆向节点链路的首端子节点的内容为所述目标实体,末端子节点为所述根节点;
所述处理模块,用于判断各个所述目标逆向节点链路是否包含所述目标对象对应的节点实体;
所述处理模块,用于对各个包含所述目标对象对应的节点实体的目标逆向节点链路进行节点拆分,得到多个目标节点实体;
所述查询模块,用于从多个所述目标节点实体中,筛选出实体数量大于所述预设频次阈值的第一节点实体,所述实体数量为多个所述目标节点实体中所述第一节点实体的出现数量之和。
可选的,所述处理模块,用于计算任意一个所述第一实体的第一哈希值;
所述查询模块,用于在预设哈希表中,查询是否包含所述第一哈希值;
所述处理模块,用于若确定所述预设哈希表中不包含所述第一哈希值,则写入所述第一哈希值至所述预设哈希表,并对所述第一哈希值的频率计数加一;
所述识别模块,用于若确定所述预设哈希表中包含所述第一哈希值,则对第二哈希值的频率计数加一,所述第二哈希值为所述预设哈希表中包含的多个哈希值中与所述第一哈希值相同的哈希值。
可选的,所述识别模块,用于基于各个所述第二实体,确定多个实体组,所述实体组为多个所述第一节点实体的组合;
所述处理模块,用于确定多个所述实体组中,第一实体组的第一数量,所述第一实体组包括所述目标对象对应的目标节点实体;
所述识别模块,用于确定多个所述实体组中,多个所述实体组的第二数量;
所述处理模块,用于若确定所述第一实体组的出现概率大于预设概率阈值,则根据第二节点实体的语义分析所述目标对象的新闻,所述出现概率为所述第一数量和所述第二数量的商值,所述第二节点实体为所述第一实体组中除所述目标节点实体外的第一节点实体。
在本申请的第三方面提供了一种电子设备,包括处理器、存储器、用户接口以及网络接口,所述存储器用于存储指令,所述用户接口和所述网络接口均用于与其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如上述任意一项所述的方法。
在本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如上述任意一项所述的方法。
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
对目标媒体数据进行分词处理和频次分析,这个首先从大量目标媒体数据中快速筛选出与目标对象相关的新闻事件(第一实体)。而根据出现频次筛选出第二实体,能够得到新闻报道较为频繁的事件。接着,通过构建节点树并探索逆向节点链路并筛选节点实体,能***地组织和关联这些第二实体,进一步揭示不同新闻事件之间的联系。这种组织数据的方式不仅减少了需要人工分析的数据量,还提供了一种直观的方法来理解和解释复杂的数据关系。最终,将节点实体组合成实体组,并对这些组进行分析,能够生成关于目标对象新闻的深入洞察。总的来说,通过自动化的数据处理和智能的信息组织,大幅提升了处理效率和分析深度,使其非常适合用于大规模的新闻数据分析。
附图说明
图1是本申请实施例公开的企业用户的新闻分析处理方法的流程示意图;
图2是本申请实施例公开的一种预设哈希表的示意图;
图3是本申请实施例公开的一种节点树构建过程的示意图;
图4是本申请实施例公开的一种节点树的示意图;
图5是本申请实施例公开的一种逆向节点链路的记录表的示意图;
图6是本申请实施例公开的企业用户的新闻分析处理装置的模块示意图;
图7是本申请实施例公开的一种电子设备的结构示意图。
附图标记说明:601、识别模块;602、筛选模块;603、构建模块;604、查询模块;605、处理模块;701、处理器;702、通信总线;703、用户接口;704、网络接口;705、存储器。
具体实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个***是指两个或两个以上的***,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
企业中,管理人员(特别是企业高管)的行为对公司的声誉、财务健康和市场地位具有重大影响。当企业管理人员突然出现意料之外的新闻事件,可能会对公司产生负面影响。例如企业管理人员的负面新闻通常会导致投资者信心下降,进而引起股价急剧下跌,影响到公司的市值和投资吸引力。
但是,随着互联网技术的飞速发展和数字化媒体平台的日益增多,数字化媒体的快速增长导致了海量信息的生成,尤其是新闻内容的剧增。每天有成千上万的新闻报道、博客文章、社交媒体帖子和其他形式的数字内容被发布。通过人工阅读大量的数字新闻,并分析企业管理人员的新闻需要耗费大量时间,效率低下,因此需要一种方法提高通过新闻分析的效率。
本实施例公开了企业用户的新闻分析处理方法,参照图1,包括如下步骤S110-S150:
S110,分别对针对目标对象的各个目标媒体数据进行分词处理,得到多个第一实体。
本申请实施例公开的企业用户的新闻分析处理方法针对的用户优选为企业高层管理人员(高管),即企业管理层中的高级职位的人员。包括CEO、COO、CFO、总裁以及董事会成员等。主要由于这些职位构成了公司的最高决策层,对公司的战略方向、文化、政策和业绩负有最终责任。并且企业高管的行为对公司的声誉、财务健康和市场地位具有重大影响。高管作为公司的关键决策者和公众形象的代表,他们的行为和决策直接关系到公司的多个方面,包括声誉、市场地位以及财务等等。
对以下来源的媒体数据进行日常采集入库,包括通用数据源、垂直数据源:通用数据源包括社交媒体、监管机构官网等在其官方网站上发布的内容。垂直数据源包括公司内部数据、管理人员公开发表的演讲和采访、管理人员社交媒体活动、行业专家、分析师和媒体经常发布关于管理人员的行为的分析报告和评论。
对于数据库中的多个媒体数据,可能存在与目标对象无关的媒体数据,因此首先需要从中筛选出与目标对象相关的媒体数据。具体可以通过对媒体数据进行关键词提取,提取出各个媒体数据的名词性关键词。如果媒体数据提取的多个名词性关键词中存在与目标对象相关的名词性关键词,则初步确定该媒体数据与目标对象相关,为针对目标对象的目标媒体数据。与目标对象相关的信息可以是目标对象的名字,或者目标对象所在企业的职位,例如目标对象为A公司的CEO,当媒体数据中有提到“A公司的CEO”,则认定该媒体数据与目标对象相关。需要说明的是,通过提取关键词筛选目标媒体数据仅为相关技术领域的常规技术手段,在此不再做进一步赘述。
本申请实施例公开一种实体,实体为媒体数据中揭示的事件或者活动,例如,企业投资、公司裁员等等,而第一实体则是目标媒体数据包括的与目标对象相关的新闻事件。前面提到,目标媒体数据均为与目标对象相关的媒体数据,因而,基于目标媒体数据进行分词处理,提取出的第一实体主要为与目标对象相关的事件,例如目标对象离职、目标对象发表不当言论等。第一实体作为目标媒体数据中包括的新闻事件,需要包含事件的主体,包括人名、地名、组织机构名或者其它名词性主体。同时,可能还包含主体与主体之间的关系,领导关系、同事关系、合作伙伴关系、子公司关系、同业竞争关系等,例如目标对象与某组织签下订单,则目标对象与该组织可能存在合作关系。
本申请中的对目标媒体数据进行的分词处理,可以看作常规技术手段中的采用自然语言处理(NLP)模型对文本内容进行关键特征提取的过程,仅对提取规则进行调整,以使提取的结果满足本申请的需求,即提取出新闻事件的动名词组合的实体。因此,由于该步骤属于常规技术手段,在此不再做进一步赘述。
S120,从多个第一实体中筛选出第二实体。
对各个目标媒体数据进行分词处理得到多个第一实体后,对于不同的目标媒体数据,可能存在相同的第一实体,也有可能存在不同的第一时间。例如两个目标媒体数据都报道有目标对象,因而通过这两个目标媒体数据进行分词处理均会得到内容为目标对象的第一实体。进一步的需要对多个第一实体进行筛选,过滤掉其中出现次数不是很频繁的第一实体,保留出现次数比较频繁的第一实体。但是将各个目标媒体数据进行分词处理得到多个第一实体后,多个第一实体的存储较为混乱,难以在短时间内快速确定每个第一实体的出现次数,因此本申请公开一种基于哈希表的实体出现次数记录方法。
具体地,创建一个预设哈希表用于存储实体的哈希值及其对应的频率计数,表格的形式参照图2,图2中预设哈希表仅为一种具体的示例,在其他实施例中还可以是其他的形式。哈希表提供了快速的数据访问能力。对于大量数据的处理,尤其是在需要频繁查询和更新数据的场景中,哈希表能够提供接近常数时间的性能。因为第一实体通常为多个汉字字符,在计算机中存储的二进制代码会非常长,特别是第一实体的字符较多的情况下,通过二进制代码进行比对然后判断第一尸体的出现次数显得比较复杂。因此可以通过哈希函数来间接进行实体比对,如果两个哈希值不同,那么对应的两个第一实体也不同。
具体地,选择一个适合的哈希函数,本申请中对于哈希函数的主要要求是输出的结果较短,例如FNV-1,能够生成32位的哈希值,并且不同的两个实体生成的哈希值也会完全不同。通过哈希函数依次计算各个第一实体的第一哈希值,当计算出一个第一实体的第一哈希之后,在预设哈希表中查询预设哈希表中是否包含第一哈希值。如果在预设哈希表中查询到不包含第一哈希值,则写入第一哈希值至预设哈希表,并且对该第一哈希值的频率计数加一。如果确定预设哈希表中包含第一哈希值,即在预设哈希表中存在一个第二哈希值与第一还是值的数值相同。这是由于在之前的某个目标媒体中包含某个第一实体,与第一哈希值对应的第一实体相同,则导致预设哈希表中有该第一实体的哈希值。进而对第二哈希值的频率计数加一,例如第二哈希值的频率计数一开始为二,则加一之后为三。
依次计算各个第一实体的哈希值并填入预设哈希表中,哈希值的频率计数即为该第一实体的出现频次。然后提前设定一个预设频次阈值,用于确定第一实体的出现频次是否满足预设条件。当第一实体的出现频次大于预设频次阈值时,可以认定该第一实体的出现次数较为频繁,则筛选出该第一实体用于后续的处理。反之如果某个第一实体的出现频次小于或等于预测频次阈值,则过滤掉该第一实体。需要说明的是,所有目标媒体数据的第一实体的计数,均放入同一个预设哈希表中,而不是一个目标媒体数据对应一个预设哈希表。将所有目标媒体数据的第一实体计数均放入同一个预测哈希表中,这样可以记录同一个第一实体在所有目标媒体数据中的出现频次。
使用哈希表来管理第一实体的哈希值能够快速检查和更新实体的存在与频率,这对于处理大量数据来说是非常高效的。哈希表提供了快速的数据访问和更新能力,这意味着即使在数据量非常大的情况下,实体的检索和频率更新也能高效进行。
S130,根据多个第二实体构建节点树。
本申请实施例公开一种基于实体构件的节点树,在构建节点树之前,首先需要对每个媒体数据包含的多个第二实体进行排序,并且需要按照出现频次从多到少的顺序进行降序排列。举例来说,第一媒体数据包含多个第一子实体分别为甲、乙、丙以及丁(此处为了便于理解,用单个字符指代复杂的实体内容),其中第一媒体数据为多个目标媒体数据中的任意一个目标媒体数据,第一子实体为多个第二实体中第一媒体数据对应的第二实体。根据预设哈希表中的记录,甲的出现频次为5,乙的出现频次为3,丙的出现频次为6,丁的出现频次为7,则出现频次由多到少的第一排列顺序进行排序后的结果应该为丁丙甲乙。
进一步地,若第一媒体数据中存在出现频次相同的两个或者多个第一子实体,举例来说,第一媒体数据包含多个第一子实体分别为甲、乙、丙以及丁,其中第一媒体数据为多个目标媒体数据中的任意一个目标媒体数据,第一子实体为多个第二实体中第一媒体数据对应的第二实体。根据预设哈希表中的记录,甲的出现频次为7,乙的出现频次为5,丙的出现频次为5,丁的出现频次为4。根据第一排列顺序,甲应该位于第一位,但是乙和丙由于出现频次相同,无法根据第一排列顺序进行排列,因此本申请定义一个第二排列顺序。
根据第二排列顺序,对于同一个目标媒体数据中出现频次相同的任意多个第二实体,对这多个第二实体固定一种排列顺序。从而在其他目标媒体数据中,这多个第二实体的排列顺序也相同。在上述示例中,甲的出现频次为7,乙的出现频次为5,丙的出现频次为5,丁的出现频次为4。如果定义乙排在丙之前,那么对于所有包含乙和丙的目标媒体数据,在进行实体排序时,乙都应该排在丙之前。而不能存在一个目标媒体数据中乙排在丙之前,另外一个目标媒体数据中丙排在乙之前。
在构建节点树之前对第一媒体数据中的第二实体进行排序,为后续的节点树构建提供了一个标准化和一致的数据结构。通过按照出现频次由多到少的顺序排列第一子实体,可以确保节点树的构建基于数据中的主要趋势和模式,从而提高了分析的准确性和相关性。此外,当存在出现频次相同的第二子实体时,定义一个第二排列顺序可以保证在不同目标媒体数据中这些实体的相对顺序一致,从而增加了分析过程中数据的一致性和可比性。这种方法在处理大量复杂数据时尤其有效,因为它减少了由于数据排列不一致而引入的潜在混乱和误解,使得从不同媒体数据中提取的信息更加标准化和可靠,从而提高整体的数据处理效率和新闻分析的质量。
在对各个目标媒体数据中的第二实体进行排序后,然后按照第一排列顺序和/或所述第二排列顺序依次添加各个第一子实体至节点树的子节点中,其中第一媒体数据为多个目标媒体数据中的任意一个目标媒体数据,第一子实体为多个第二实体中第一媒体数据对应的第二实体。在节点树中,根节点为空节点,即根节点中不添加任何第二实体。再按照第一排列顺序和/或所述第二排列顺序添加第一子实体至节点过程中,先添加出现频次最多的第一子实体,再添加出现频次第二多的第一子实体,以此类推依次添加完第一媒体数据中的所有第一子实体。举例来说,按照第一排列顺序,第一媒体数据中各个第二实体的排列顺序为甲乙丙丁,那么添加的顺序为先添加甲再添加乙然后添加丙最后添加丁至节点树。如果其中存在按照第二排列顺序排列的多个第二实体,那么这多个第二实体的添加顺序需要按照第二排列顺序进行添加。
对于第一媒体数据的第一子实体添加到节点树的子节点过程中,首先执行共享首端子节点的规则。具体检索节点树中的任意一个所述节点链路中是否存在包含的内容是否为首端子实体的首端子节点,首端子节点为节点树中任意一个节点链路中的连接空节点的子节点,首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,排列位置在首位的第一子实体。对于任意一个目标媒体数据(第一媒体数据)中进行排序后的多个第二实体,当位于首位的首端子实体被添加至第一节点链路后,原本位于第二位的第二实体则成为首端子实体,第一节点链路为节点树中多个节点链路中的任意一个节点链路。
如果检索出第一节点链路中存在包含首端子实体的首端子节点,则添加首端子实体至首端子节点,以使首端子节点的节点计数加一。如果检索出任意一个节点链路中不存在包含首端子实体的首端子节点,则在节点树中创建新的节点链路,即第二节点链路,并添加首端子实体至第二节点链路的首端子节点。
举例来说,对于如下已经进行排序后的四个目标媒体数据,这四个目标媒体数据包含的第二实体分别为“A-D-C-F”、“A-D-F-J”、“A-X-J”以及“V-A-L”(此处以及下文为了便于理解,用单个字符指代复杂的实体内容)。如图3中a所示,将“A-D-C-F”添加至节点树,由于节点树中不存在包含首端子实体“A”的节点链路,则创建新的第一节点链路,并在第一节点链路中创建4个新的子节点。或者如图3中d所示,将“V-A-L”添加至节点树,由于节点树中不存在包含首端子实体“V”的节点链路,则创建新的节点链路。如图3中b所示,将“A-D-F-J”,添加至节点树,由于节点树已有的第一节点链路中存在包含首端子实体“A”的首端子节点,则添加首端子实体“A”至第一节点链路的首端子节点,对该首端子节点的节点计数加一。
通过共享首端子节点,即当第一节点链路中已存在首端子节点时,将新的首端子实体添加到该节点并增加计数,这种方法显著减少了节点树中的节点数量。这在处理包含重复首端子实体的大量目标媒体数据时尤其有效,因为它减少了为每个重复实体创建新节点链路的需求。由于共享首端子节点的策略减少了节点树中的节点总数,搜索和更新特定第二实体变得更加高效。在大型数据集中,这种优化可以显著减少计算时间和资源消耗。
接着执行次首端节点共享的规则,次首端节点为节点链路中连接首端子节点的子节点。若第一节点链路的首端子节点包含第一媒体数据的首端子实体,并且第一节点链路的次首端子节点包含第一媒体数据的次首端子实体,则直接添加在添加首端子实体至首端子节点后,添加次首端子实体至次首端子节点,对次首端子节点的节点计数加一,次首端子实体为多个第一子实体根据第一排列顺序和/或第二排列顺序,位于首端子实体之后的第一子实体。
如图3中b所示,将“A-D-F-J”添加至节点树,由于节点树已有的第一节点链路中存在包含首端子实体“A”的首端子节点,则添加首端子实体“A”至第一节点链路的首端子节点。对于次首端子实体“D”,第一节点链路中存在包含次首端子实体“D”的次首端子节点,则添加次首端子实体至第一节点链路的次首端子节点,对这两个子节点的节点计数分别加一。
再执行链路分支的规则,即第一节点链路的首端子节点包括第一媒体数据的首端子实体,但是对于第一媒体数据的次首端子实体,第一节点链路的次首端子节点不包括第一媒体数据的次首端子实体,则需要根据第一节点链路创建新的链路分支。具体创建第一子节点,并添加次首端子实体至第一子节点,第一子节点连接首端子节点。
如图3中c所示,将“A-X-J”添加至节点树,由于节点树已有的第一节点链路中存在包含首端子实体“A”的首端子节点,则添加首端子实体“A”至第一节点链路的首端子节点。但是第一节点链路的次首端节点不包含次首端子实体“X”,则需要创建新的链路分支。
在上述步骤中提到,如果存在多个第二子实体的出现频次相同,需要定义一个第二排列顺序,以使各个目标媒体数据中,该多个出现频次相同的第二子实体的先后排列顺序相同。而定义第二排列顺序,则是为了能够结合链路分支以及共享次首端子节点的规则来减少节点树中链路分支的数量。如果两个及以上的目标媒体数据中,同时存在多个出现频次相同的多个第二子实体,对于这多个第二子实体,如果不定义第二排列顺序。那么在第一个目标媒体数据的多个第二子实体添加至节点数后,可能会创建一个新的链路分支。而如果第二个目标媒体数据中的多个出现频次相同的第二子实体的先后排列顺序与第一个目标媒体数据中的不同,则第二个目标媒体数据中的多个出现频次相同的第二子实体添加至媒体数据时可能会创建一个新的链路分支。
举例来说,第一个目标媒体包含的多个子实体仅根据第一排列顺序可能为“A、X、D、C、N”,第二个目标媒体数据包含的多个子实体仅根据第一排列顺序可能为“A,D,X、K、L”。其中,子实体“X”的出现频次和子实体“D”的出现频次一致,那么需要定义一个第二排列顺序,子实体“X”排在子实体“D”之前。假如第一个目标媒体数据添加至节点树得到的节点链路为“A-X-D-C-N”,根据第一排列顺序,第二个目标媒体数据的子实体“A”会执行共享首端子节点的规则,而根据第二排列顺序先添加第二个目标媒体数据的子实体“X”后添加子实体“D”,子实体“X”因为存在相同内容的次首端子节点,则不会创建新的链路分支。如果没有定义第二排列顺序,在第二个目标媒体数据中子实体“X”排在子实体“D”之后。在子实体“A”添加后,接着添加的子实体“D”会执行链路分支的规则,而不是执行共享次首端子节点的规则。从而导致创建了新的链路分支,造成节点树的冗杂。
共享次首端节点(第一节点链路中包含次首端子实体的次首端子节点时,添加次首端子实体至次首端子节点并对次首端子节点的节点计数加一)能够进一步减少节点树中的节点数量,提高数据处理效率。创建节点分支(第一节点链路中不存在次首端子节点,创建第一子节点,并添加次首端子实体至第一子节点)使节点树具有更好的拓展性。
若检索出第一节点链路中存在首端子节点,不存在包含次末端子实体的次末端子节点,且存在包含末端子实体的末端子节点,则在第一节点链路中创建第二子节点以及第三子节点,添加次末端子实体至第二子节点,添加末端子实体至第二子节点,第二子节点位于首端子节点之后,第三子节点连接第二子节点,末端子实体为多个第一子实体根据第一排列顺序和/或第二排列顺序,排列位置在后的第一子实体,次末端子实体为多个第一子实体根据第一排列顺序和/或第二排列顺序,位于首端子实体与末端子实体之间的第一子实体。如图3中c所示,虽然对于节点链路“A-D-F-J”,虽然其子节点中包含“J”,并且“A-X-J”也包含“J”,但由于次末端子节点不同,则无法将第一媒体数据“A-X-J”的末端子实体添加到节点链路“A-D-F-J”的末端子节点。
S140,基于节点树中查询各个第二实体的逆向节点链路,并确定逆向节点链路中实体数量大于预设频次阈值的节点实体。
再基于节点树查询更多第二实体之间的关联性,本申请实施例公开一种逆向挖掘的方法,具体如下:
首先从节点树据中查询各个第二实体的多个逆向节点链路,并通过节点计数记录逆向节点链路的数量,逆向节点链路的首端子节点的内容为第二实体,末端子节点为根节点。例如,参照图4,对于第二实体“J”来说,其包含的逆向节点链路包括“J-F-D-A-0”、“J-X-A-0”以及“J-X-A-0”。其中0指代末端子节点的空节点。或者对于第二实体“A”来说,其包含的逆向节点链路包括“A-V-0”以及4个“A-0”。
为了方便记录以及说明,将每个第二实体的逆向节点链路进行收录整理,具体参照图5,图中所示为第二实体的逆向节点链路表,表中逆向节点链路部分中括号内所示为该逆向节点链路的数量。例如,“L-A-0”(3)表示第二实体“L”的逆向节点链路“L-A-0”有3个。
进一步地,由于本申请在后续需要分析与目标对象相关的新闻,因此需要多个逆向节点链路中,过滤掉不包含目标对象对应的节点实体的逆向节点链路。正向节点链路的本质来源是通过提取某一个目标媒体数据的实体得到的,假如某个媒体数据主要报道的是企业其它管理人员的内容,仅因为其它管理人员与目标对象的关联性提到了一次目标对象,但在初步筛选中仍会被判定为与目标对象相关的目标媒体数据。基于该目标媒体数据得到的正向节点链路可能会包含目标对象对应的实体节点,但是来自于该目标媒体数据的逆向节点链路中的多个第二实体(新闻事件)本质上均与企业其它管理人员有关,并非针对目标对象,并且逆向节点链路不一定包含目标对象对应的实体节点。因此需要过滤掉这种不包含目标对象对应的节点实体的逆向节点链路,仅将各个包含目标对象对应的节点实体的逆向节点链路进行拆分,以保留与目标对象相关的新闻事件。
然后对各个第二实体的多个逆向节点链路进行拆分,以多个第二实体中的任意一个第二实体,目标实体进行举例说明。对目标实体的多个目标逆向节点链路(包含目标对象对应的节点实体)进行节点拆分,得到多个目标节点实体。参照图5,如果目标实体为“K”,则目标逆向节点链路为2个“K-A-F-P-0”以及2个“K-A-F-V-0”,节点拆分后将得到多个目标节点实体为“K、K、K、K、A、A、A、A、F、F、F、F、P、P、V、V”。
接着从多个目标节点实体中筛选出数量较为频繁的目标节点实体,通过统计各个目标节点实体的出现数量之和,具体可以参照步骤S120中的预设哈希表进行统计。每个目标节点实体的出现数量之和为实体数量,此处统计实体数量时,仅针对目标实体的多个目标逆向节点链路拆分后的多个目标节点实体进行统计,而不是针对除目标实体外其它第二实体的逆向节点链路进行统计。参照图5,如果统计第二实体“K”中各个节点实体的出现数量,则不会引入第二实体“A”或者“L”的节点实体进行统计。
然后从中筛选出数量较多的第一节点实体,对于每个节点实体,将其实体数量与预设频次阈值进行比对。如果实体数量小于或等于预设频次阈值,则过滤掉该实体数量对应的节点实体,如果实体数量大于预设频次阈值,则保留该实体数量对应的节点实体,得到第一节点实体。
此处虽然表面上筛选的是节点实体,但本质上是筛选的节点实体之间的组合。参照图5,当目标实体为“K”,节点拆分后将得到多个节点实体为“K、K、K、K、A、A、A、A、F、F、F、F、P、P、V、V”。如果预设频次阈值为3,那么筛选后得到的第一节点实体为“K”、“A”以及“F”。其中对于节点实体“V”来说,虽然本身已经大于预设频次阈值,但是在同一个节点链路中“V”与“K”的组合出现次数小于预设频次阈值。节点实体“V”只有两个,仅能进行两次组合。
需要说明的是,上述步骤S110-S140中,处理的数据均为媒体数据,实体也是媒体数据中的新闻事件,但是实施例中为了便于理解技术方案,用简单的字符替代了复杂的实体。也就是说,在上述步骤最后得到的第一节点实体“K”实际应该为一个新闻事件,例如第一节点实体为“K”、“A”以及“F”可能为“张三辞职”、“张三出国”以及“张三携带***”。
查询节点树以找到与目标实体相关的逆向节点链路,并对这些链路进行节点拆分和筛选,可以准确地追踪和识别与目标实体(第二实体)相关联的所有其他实体。这使得能够明确地理解目标实体在不同媒体数据中的上下文和关联关系,有助于揭示目标实体与其他实体之间的复杂关系和相互作用。
S150,对目标链路包含的多个第二实体进行组合得到实体组。
对于每个第二实体,通过查询逆向节点链路,然后进行拆分再进行筛选,会得到多个实体数量大于预设频次阈值的第一节点实体。对于每一个第二实体,通过穷举的办法对得到的多个第一节点实体进进行组合,进而得到多个实体组。举例来说,当第二实体为“K”,筛选后得到的第一节点实体为“K”、“A”以及“F”,则得到的多个实体组包括“KA”、“KF”、“AF”、“KAF”。
通过多个第二实体得到多个实体组后,查询其中与目标对象相关的第一实体组,第一实体组即包括目标对象对应的目标节点实体的实体组,第一实体组中必须包括目标节点实体,可以包括其他一个或者多个第一节点实体。然后采用多个第一实体组的第一数量,除去多个实体组的第二数量,得到第一实体组的出现概率。设定一个预设概率阈值,当确定第一实体组的出现概率大于预设概率阈值时,可以认定为第一实体组中,目标节点实体与其他第一节点实体的出现概率较高,也就是目标节点实体与第二节点实体一起出现的概率较高,第二节点实体为第一实体组中目标节点实体外的第一节点实体。举例来说,当第二节点实体为“离职”时,那么表明在多个媒体数据中目标对象与离职一起出现的概率较高。最后,根据第二节点实体的语义进行分析,可以通过自然语言分析工具进行自动分析,也可以由相关专业人员进行分析,从而确定出目标对象的新闻。
通过将相关的第二实体(即重要的新闻事件或话题)组合成实体组,当与目标对象相关的第一实体组出现概率超过预设阈值时,可以发现目标对象与其他实体潜在的关联关系,有助于深入理解目标对象与新闻事件之间的联系,从而有助于后续更准确地理解新闻趋势。
通过采用上述技术方案,对目标媒体数据进行分词处理和频次分析,这个首先从大量目标媒体数据中快速筛选出与目标对象相关的新闻事件(第一实体)。而根据出现频次筛选出第二实体,能够得到新闻报道较为频繁的事件。接着,通过构建节点树并探索逆向节点链路并筛选节点实体,能***地组织和关联这些第二实体,进一步揭示不同新闻事件之间的联系。这种组织数据的方式不仅减少了需要人工分析的数据量,还提供了一种直观的方法来理解和解释复杂的数据关系。最终,将节点实体组合成实体组,并对这些组进行分析,能够生成关于目标对象新闻的深入洞察。总的来说,通过自动化的数据处理和智能的信息组织,大幅提升了处理效率和分析深度,使其非常适合用于大规模的新闻数据分析。
本实施例还公开了企业用户的新闻分析处理装置,参照图6,包括识别模块601、筛选模块602、构建模块603、查询模块604以及处理模块605,其中:
识别模块601,用于分别对针对目标对象的各个目标媒体数据进行分词处理,得到多个第一实体,第一实体为目标媒体数据包括的与目标对象相关的新闻事件。
筛选模块602,用于从多个第一实体中筛选出第二实体,第二实体的出现频次大于预设频次阈值,出现频次为第二实体在多个目标媒体数据中出现的频次之和。
构建模块603,用于根据多个第二实体构建节点树,其中,节点树的根节点为空节点,第二实体为节点树的子节点,且出现于同一个目标媒体数据的多个第二实体处于节点树的同一节点链路上。
查询模块604,用于基于节点树中查询各个第二实体的逆向节点链路,并且确定逆向节点链路中实体数量大于预设频次阈值的节点实体,逆向节点链路的首端子节点的内容为第二实体,末端子节点为根节点,其中,将任意一个第二实体的多个逆向节点链路拆分成多个节点实体后,得到拆分结果,任意一个节点实体的实体数量为拆分结果中的出现数量之和。
处理模块605,用于对多个节点实体进行组合得到实体组,以便于通过实体组分析目标对象的新闻。
在一种可能的实施方式中,筛选模块602,用于对第一媒体数据的多个第一子实体按照出现频次由多到少的第一排列顺序进行排序,第一媒体数据为多个目标媒体数据中的任意一个目标媒体数据,第一子实体为多个第二实体中第一媒体数据对应的第二实体,其中,若多个第一子实体中存在出现频次相同的多个第二子实体,则定义一个第二排列顺序,以使各个目标媒体数据中的多个第二子实体的先后排列顺序相同。
在一种可能的实施方式中,筛选模块602,用于对多个第一子实体按照第一排列顺序和/或第二排列顺序依次添加至子节点,检索第一节点链路中是否存在包含首端子实体的首端子节点,其中,第一节点链路为多个节点链路中的任意一个节点链路,首端子实体为多个第一子实体根据第一排列顺序和/或第二排列顺序,排列位置在首位的第一子实体,首端子节点为节点链路中连接空节点的子节点。
查询模块604,用于若检索出第一节点链路中存在首端子节点,则添加首端子实体至首端子节点,对首端子节点的节点计数加一。
查询模块604,用于若检索出第一节点链路中不存在首端子节点,则在节点树中创建第二节点链路,并添加首端子实体至第二节点链路的首端子节点。
在一种可能的实施方式中,查询模块604,用于若检索出第一节点链路中存在首端子节点,存在包含次首端子实体的次首端子节点,则添加次首端子实体至次首端子节点,对次首端子节点的节点计数加一,次首端子实体为多个第一子实体根据第一排列顺序和/或第二排列顺序,位于首端子实体之后的第一子实体,次首端子节点为节点链路中连接首端子节点的子节点。
查询模块604,用于若检索出第一节点链路中存在首端子节点,不存在次首端子节点,则添加首端子实体至第二节点链路的首端子节点,创建第一子节点,并添加次首端子实体至第一子节点,第一子节点连接首端子节点。
在一种可能的实施方式中,处理模块605,用于从节点树中查询目标实体的多个目标逆向节点链路,目标实体为多个第二实体中的任意一个第二实体,目标逆向节点链路的首端子节点的内容为目标实体,末端子节点为根节点。
处理模块605,用于对多个目标逆向节点链路进行节点拆分,得到多个目标节点实体。
查询模块604,用于从多个目标节点实体中,筛选出实体数量大于预设频次阈值的第一节点实体,实体数量为多个所述目标节点实体中第一节点实体的出现数量之和。
在一种可能的实施方式中,处理模块605,用于计算任意一个第一实体的第一哈希值。
查询模块604,用于在预设哈希表中,查询是否包含第一哈希值。
处理模块605,用于若确定预设哈希表中不包含第一哈希值,则写入第一哈希值至预设哈希表,并对第一哈希值的频率计数加一。
识别模块601,用于若确定预设哈希表中包含第一哈希值,则对第二哈希值的频率计数加一,第二哈希值为预设哈希表中包含的多个哈希值中与第一哈希值相同的哈希值。
在一种可能的实施方式中,识别模块601,用于基于各个第二实体,确定多个实体组,实体组为多个第一节点实体的组合。
处理模块605,用于确定多个实体组中,第一实体组的第一数量,第一实体组包括目标对象对应的目标节点实体。
识别模块601,用于确定多个实体组中,多个实体组的第二数量。
处理模块605,用于若确定第一实体组的出现概率大于预设概率阈值,则根据第二节点实体的语义分析目标对象的新闻,出现概率为第一数量和第二数量的商值,第二节点实体为第一实体组中除目标节点实体外的第一节点实体。
需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置和方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本实施例还公开了一种电子设备,参照图7,电子设备可以包括:至少一个处理器701,至少一个通信总线702,用户接口703,网络接口704,至少一个存储器705。
其中,通信总线702用于实现这些组件之间的连接通信。
其中,用户接口703可以包括显示屏(Display)、摄像头(Camera),可选用户接口703还可以包括标准的有线接口、无线接口。
其中,网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器701可以包括一个或者多个处理核心。处理器701利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器705内的指令、程序、代码集或指令集,以及调用存储在存储器705内的数据,执行服务器的各种功能和处理数据。可选的,处理器701可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器701可集成中央处理器701(CentralProcessing Unit,CPU)、图像处理器701(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器701中,单独通过一块芯片进行实现。
其中,存储器705可以包括随机存储器705(Random Access Memory,RAM),也可以包括只读存储器705(Read-Only Memory)。可选的,该存储器705包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器705可用于存储指令、程序、代码、代码集或指令集。存储器705可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。如图所示,作为一种计算机存储介质的存储器705中可以包括操作***、网络通信模块、用户接口703模块以及企业用户的新闻分析处理方法的应用程序。
在图7所示的电子设备中,用户接口703主要用于为用户提供输入的接口,获取用户输入的数据;而处理器701可以用于调用存储器705中存储企业用户的新闻分析处理方法的应用程序,当由一个或多个处理器701执行时,使得电子设备执行如上述实施例中一个或多个的方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器705中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器705中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器705包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

Claims (10)

1.企业用户的新闻分析处理方法,其特征在于,所述方法包括:
分别对针对目标对象的各个目标媒体数据进行分词处理,得到多个第一实体,所述第一实体为所述目标媒体数据包括的与所述目标对象相关的新闻事件;
从多个所述第一实体中筛选出第二实体,所述第二实体的出现频次大于预设频次阈值,所述出现频次为所述第二实体在多个所述目标媒体数据中出现的频次之和;
根据多个所述第二实体构建节点树,其中,所述节点树的根节点为空节点,所述第二实体为所述节点树的子节点,且出现于同一个所述目标媒体数据的多个所述第二实体处于所述节点树的同一节点链路上;
基于所述节点树中查询各个所述第二实体的逆向节点链路,并且确定所述逆向节点链路中实体数量大于所述预设频次阈值的节点实体,所述逆向节点链路的首端子节点的内容为所述第二实体,末端子节点为所述根节点,其中,将任意一个第二实体的多个所述逆向节点链路拆分成多个节点实体后,得到拆分结果,任意一个所述节点实体的实体数量为所述拆分结果中的出现数量之和;
对多个所述节点实体进行组合得到实体组,以便于通过所述实体组分析所述目标对象的新闻。
2.根据权利要求1所述的企业用户的新闻分析处理方法,其特征在于,在所述根据多个所述第二实体构建节点树之前,所述方法还包括:
对第一媒体数据的多个第一子实体按照出现频次由多到少的第一排列顺序进行排序,所述第一媒体数据为多个所述目标媒体数据中的任意一个目标媒体数据,所述第一子实体为多个所述第二实体中所述第一媒体数据对应的第二实体,其中,若多个所述第一子实体中存在出现频次相同的多个第二子实体,则定义一个第二排列顺序,以使各个所述目标媒体数据中的所述多个第二子实体的先后排列顺序相同。
3.根据权利要求2所述的企业用户的新闻分析处理方法,其特征在于,所述根据多个所述第二实体构建节点树,具体包括:
对多个所述第一子实体按照所述第一排列顺序和/或所述第二排列顺序依次添加至所述子节点,检索第一节点链路中是否存在包含首端子实体的首端子节点,其中,所述第一节点链路为多个所述节点链路中的任意一个节点链路,所述首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,排列位置在首位的第一子实体,所述首端子节点为所述节点链路中连接所述空节点的子节点;
若检索出所述第一节点链路中存在所述首端子节点,则添加所述首端子实体至所述首端子节点,对所述首端子节点的节点计数加一;
若检索出所述第一节点链路中不存在所述首端子节点,则在所述节点树中创建第二节点链路,并添加所述首端子实体至所述第二节点链路的首端子节点。
4.根据权利要求3所述的企业用户的新闻分析处理方法,其特征在于,所述方法还包括:
若检索出所述第一节点链路中存在所述首端子节点,存在包含次首端子实体的次首端子节点,则添加所述次首端子实体至所述次首端子节点,对所述次首端子节点的节点计数加一,所述次首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,位于所述首端子实体之后的第一子实体,所述次首端子节点为所述节点链路中连接所述首端子节点的子节点;
若检索出所述第一节点链路中存在所述首端子节点,不存在所述次首端子节点,则添加所述首端子实体至所述第二节点链路的首端子节点,创建第一子节点,并添加所述次首端子实体至所述第一子节点,所述第一子节点连接所述首端子节点。
5.根据权利要求1所述的企业用户的新闻分析处理方法,其特征在于,所述基于所述节点树中查询各个所述第二实体的逆向节点链路,并确定所述逆向节点链路中实体数量大于所述预设频次阈值的节点实体,具体包括:
从所述节点树中查询目标实体的多个目标逆向节点链路,所述目标实体为多个所述第二实体中的任意一个第二实体,所述目标逆向节点链路的首端子节点的内容为所述目标实体,末端子节点为所述根节点;
判断各个所述目标逆向节点链路是否包含所述目标对象对应的节点实体;
对各个包含所述目标对象对应的节点实体的目标逆向节点链路进行节点拆分,得到多个目标节点实体;
从多个所述目标节点实体中,筛选出所述实体数量大于所述预设频次阈值的第一节点实体,所述实体数量为多个所述目标节点实体中所述第一节点实体的出现数量之和。
6.根据权利要求1所述的企业用户的新闻分析处理方法,其特征在于,在所述从多个所述第一实体中筛选出第二实体之前,所述方法还包括:
计算任意一个所述第一实体的第一哈希值;
在预设哈希表中,查询是否包含所述第一哈希值;
若确定所述预设哈希表中不包含所述第一哈希值,则写入所述第一哈希值至所述预设哈希表,并对所述第一哈希值的频率计数加一;
若确定所述预设哈希表中包含所述第一哈希值,则对第二哈希值的频率计数加一,所述第二哈希值为所述预设哈希表中包含的多个哈希值中与所述第一哈希值相同的哈希值。
7.根据权利要求5所述的企业用户的新闻分析处理方法,其特征在于,所述对多个所述节点实体进行组合得到实体组,以便于通过所述实体组分析所述目标对象的新闻,具体包括:
基于各个所述第二实体,确定多个实体组,所述实体组为多个所述第一节点实体的组合;
确定多个所述实体组中,第一实体组的第一数量,所述第一实体组包括所述目标对象对应的目标节点实体;
确定多个所述实体组中,多个所述实体组的第二数量;
若确定所述第一实体组的出现概率大于预设概率阈值,则根据第二节点实体的语义分析所述目标对象的新闻,所述出现概率为所述第一数量和所述第二数量的商值,所述第二节点实体为所述第一实体组中除所述目标节点实体外的第一节点实体。
8.企业用户的新闻分析处理装置,其特征在于,包括识别模块(601)、筛选模块(602)、构建模块(603)、查询模块(604)以及处理模块(605),其中:
所述识别模块(601),用于分别对针对目标对象的各个目标媒体数据进行实体识别,得到多个第一实体,所述第一实体为所述目标媒体数据包括的与所述目标对象相关的新闻事件;
所述筛选模块(602),用于从多个所述第一实体中筛选出第二实体,所述第二实体的出现频次大于预设频次阈值,所述出现频次为所述第二实体在多个所述目标媒体数据中出现的频次之和;
所述构建模块(603),用于根据多个所述第二实体构建节点树,其中,所述节点树的根节点为空节点,所述第二实体为所述节点树的子节点,且出现于同一个所述目标媒体数据的多个所述第二实体处于所述节点树的同一节点链路上;
所述查询模块(604),用于基于所述节点树中查询各个所述第二实体的逆向节点链路,并且确定所述逆向节点链路中实体数量大于所述预设频次阈值的节点实体,所述逆向节点链路的首端子节点的内容为所述第二实体,末端子节点为所述根节点,其中,将任意一个第二实体的多个所述逆向节点链路拆分成多个节点实体后,得到拆分结果,任意一个所述节点实体的实体数量为所述拆分结果中的出现数量之和;
所述处理模块(605),用于对多个所述节点实体进行组合得到实体组,以便于通过所述实体组分析所述目标对象的新闻。
9.一种电子设备,其特征在于,包括处理器(701)、存储器(705)、用户接口(703)以及网络接口(704),所述存储器(705)用于存储指令,所述用户接口(703)和所述网络接口(704)均用于与其他设备通信,所述处理器(701)用于执行所述存储器(705)中存储的指令,以使所述电子设备执行如权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1-7任意一项所述的方法。
CN202410269653.3A 2024-03-11 2024-03-11 企业用户的新闻分析处理方法、装置、设备及介质 Pending CN117933244A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410269653.3A CN117933244A (zh) 2024-03-11 2024-03-11 企业用户的新闻分析处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410269653.3A CN117933244A (zh) 2024-03-11 2024-03-11 企业用户的新闻分析处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117933244A true CN117933244A (zh) 2024-04-26

Family

ID=90759608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410269653.3A Pending CN117933244A (zh) 2024-03-11 2024-03-11 企业用户的新闻分析处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117933244A (zh)

Similar Documents

Publication Publication Date Title
US7912816B2 (en) Adaptive archive data management
US8825581B2 (en) Simplifying a graph of correlation rules while preserving semantic coverage
US9870382B2 (en) Data encoding and corresponding data structure
CN106682097A (zh) 一种处理日志数据的方法和装置
US8037057B2 (en) Multi-column statistics usage within index selection tools
US20130006996A1 (en) Clustering E-Mails Using Collaborative Information
US8732194B2 (en) Systems and methods for generating issue libraries within a document corpus
US20200320153A1 (en) Method for accessing data records of a master data management system
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
US9268844B1 (en) Adding document filters to an existing cluster hierarchy
Azeroual et al. Combining data lake and data wrangling for ensuring data quality in CRIS
CN117093556A (zh) 日志分类方法、装置、计算机设备及计算机可读存储介质
CN116186116A (zh) 一种基于等保测评的资产问题分析方法
US20060101045A1 (en) Methods and apparatus for interval query indexing
CN117933244A (zh) 企业用户的新闻分析处理方法、装置、设备及介质
CN115329078A (zh) 文本数据处理方法、装置、设备以及存储介质
CN111026705B (zh) 建筑工程文件管理方法、***及终端设备
US20220156285A1 (en) Data Tagging And Synchronisation System
Jalali Exploring different aspects of users behaviours in the Dutch autonomous administrative authority through process cubes
CN112435151A (zh) 一种基于关联分析的政务信息数据处理方法及***
CN117493978B (zh) 一种素材分类管理方法、装置、设备和介质
CN113760891B (zh) 一种数据表的生成方法、装置、设备和存储介质
CN117033346A (zh) 一种基于企业数据的数仓建模方法、***、设备及介质
Kumar Graph data modeling for political communication on Twitter
CN114238318A (zh) 数据存储结构的处理方法、处理装置与数据存储***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination