CN117273139A

CN117273139A - 基于开放数据的知识图谱动态风险识别方法及装置

Info

Publication number: CN117273139A
Application number: CN202311548752.7A
Authority: CN
Inventors: 贾承斌; 莫倩; 蔡锦森; 艾青; 靳许; 石雨; 智德
Original assignee: Wiseweb Technology Group Co ltd; Beijing Wiseweb Big Data Technology Co ltd
Current assignee: Wiseweb Technology Group Co ltd; Beijing Wiseweb Big Data Technology Co ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2023-12-22
Anticipated expiration: 2043-11-21
Also published as: CN117273139B

Abstract

本发明涉及一种基于开放数据的知识图谱动态风险识别方法及装置，包括获取文本数据得到待处理数据，抽取得到多个抽取结果，合并构建第一联通子图；确定核心事件，向量化核心事件得到事件向量和实体向量并合并，基于合并向量从向量索引库中检索出超过预设第一相似度阈值的历史事件向量；合并核心事件向量和历史事件向量构建第二联通子图；从预设图数据库中查询与核心事件具有关联的实体历史事件数据，得到完整联通子图；判断完整联通子图中与核心事件具有共同实体的事件是否存在预警事件类型。本发明提供了丰富且多维度的数据输入，为后续的分析打下了坚实的基础，更准确地从大量数据中自动抽取关键事件信息，能够捕捉到更加全面的风险信息。

Description

基于开放数据的知识图谱动态风险识别方法及装置

技术领域

本发明属于知识图谱技术领域，具体涉及一种基于开放数据的知识图谱动态风险识别方法及装置。

背景技术

相关技术中，在企业声誉风险的预警的时候，需要通过互联网数据快速发现企业出现的风险。动态风险识别一般是利用采集时间案例信息，对信息的事件内容数据进行提取处理，构建基础知识库，根据内容进行打标签，标签包括行业分类、时间分类和风控属性等，通过标签与对应企业进行关联，根据预先构建的知识图谱检索与此时间有关联的其他信息，从而将事件与其他内容联系起来，并获取企业所关注的行业信息，形成关系图谱，针对时间的舆论影响程度、敏感要素和舆论发展阶段等既定模块的维度进行评分，根据评分与标签构建内容风险预警规则，在***新增或更新事件案例时，利用内容风险预警规则对客户***进行风险预警。而一般基于知识图谱的企业风险传导分析一般是舆情爬虫，关注标的，舆情语义分析，然后企业知识图谱、风险传导计算然后风险预警推送。

综上，传统的做法一般需要对新闻等数据先做数据清洗和抽取，然后构建图谱，当图谱构建完成后，再通过事件分类、图谱规则或者查询其他数据的风险信息号去判断风险。但其存在以下问题：

时效性问题：预警需要快速高效，传统做法处理过程长过长，首先都需要经过复杂的抽取抽取步骤，每个步骤出现问题都影响后续的处理，例如分词、实体识别、在实体对齐；然后根据抽取的结果再构建图谱或者更新图谱，然后再进行风险的识别。

准确度低：以往方法中使用的分词、标签分类、实体识别和对齐（一般用词典、正则表表达式的方法）的方法本身存在准确率问题，由于是串行执行，会使误差进行累加，最后影响图谱的构建和预警判断的的准确度。

依赖专家知识：现有的预警识别，大多采用内容分类标签的方法，或者专家直接规定方法。无论哪种方法，分类的规则或者标签体系都是通过专家制定好的，或者其他***（也是专家设计的）的。所以当遇到未曾发现的事件，或者描述不清的情况，或者模型无法识别、或者根本不在***中，造成是识别错误。

构建成本：以往的图谱或者模型的训练样本，都需要大量的前期标注，成本巨大。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于开放数据的知识图谱动态风险识别方法及装置，以解决现有技术中风险判断方法存在时效性低、准确度低的问题。

为实现以上目的，本发明采用如下技术方案：一种基于开放数据的知识图谱动态风险识别方法，包括：

获取文本数据，并处理后得到待处理数据；

利用大型语言模型对所述待处理数据进行数据抽取，得到多个抽取结果，对多个所述抽取结果进行合并构建第一联通子图；

确定所述第一联通子图中的核心事件，向量化所述核心事件得到事件向量和实体向量并合并，得到合并向量，基于所述合并向量从预设的向量索引库中检索出超过预设第一相似度阈值的历史事件向量；

合并所述核心事件向量和历史事件向量构建第二联通子图；

从预设图数据库中查询与所述核心事件具有关联的实体历史事件数据；

利用所述实体历史事件数据对所述第二联通子图进行补充，得到完整联通子图；

基于预设的数据事件类型库判断所述完整联通子图中与核心事件具有共同实体的事件是否存在预警事件类型，并在存在时进行优先级预警。

进一步的，还包括：

对历史事件进行聚类，得到聚类簇；所述聚类簇包括实体聚类簇和无实体聚类簇；

计算聚类簇的相似度，得到第二相似度阈值；

从向量索引库中检索出与所述事件向量超过第二相似度阈值的同类事件；

从图数据库中检索与所述同类事件关联的历史关联事件；

对所述同类事件、历史关联事件进行过滤，得到相关历史事件；

基于预设的数据事件类型库判断所述相关历史事件是否存在预警事件类型，并在存在时进行次优先级预警。

进一步的，所述获取文本数据，并处理后得到待处理数据，包括：

获取文字信息、图片信息及语音信息，通过所述文字信息、图片信息及语音信息提取文本数据；

对所述文本数据进行清洗，并将清洗后的文本数据进行向量化处理，得到文本向量；

基于预设的第三相似度阈值对所述文本向量进行去重操作，得到待处理数据。

进一步的，利用大型语言模型对所述待处理数据进行数据抽取，包括：

基于关联的实体、时间描述和时间属性利用大型语言模型对所述待处理数据进行数据抽取；

其中，所述大型语言模型中预设事件类型；

所述预设事件类型包括监管处罚、司法诉讼、公司倒闭、股价暴跌、高层离职、客户/合作伙伴流失、声誉损害、业务收缩或转型、资产出售、资金链断裂、减员或裁员、收到政府救助以及被收购或合并。

进一步的，所述从预设图数据库中查询与所述核心事件具有关联的实体历史事件数据，包括：

利用预设的向量索引库和实体向量查询得到相似实体，基于所述相似实体从图数据库中获取实体历史事件数据；

其中，所述向量索引库通过对抽取去重后的实体的名称为基础，采用预训练模型形成的实体向量，将所述实体向量保存至向量FAISS数据库形成。

进一步的，利用所述实体历史事件数据对所述第二联通子图进行补充，得到完整联通子图，包括：

将检索得到的事件向量、实体向量、实体历史事件数据进行整合去重；

通过时间属性对去重后的数据进行事件窗口过滤，对过滤后得到的数据进行整合，得到完整联通子图。

进一步的，整合所述优先级预警和次优先级预警，得到最终预警。

进一步的，采用预训练模型对所述核心事件的事件描述进行向量化，得到事件向量；

采用预训练模型对所述核心事件的实体进行名称的向量化，并叠加得到实体向量。

进一步的，还包括：

当抽取的事件、相关实体、关系更新时，更新第一联通子图；

当事件向量、实体向量更新时，更新向量索引库；

当预警事件类型更新时，更新数据事件类型库。

本申请实施例提供一种基于开放数据的知识图谱动态风险识别装置，包括：

获取模块，用于获取文本数据，并处理后得到待处理数据；

抽取模块，用于利用大型语言模型对所述待处理数据进行数据抽取，得到多个抽取结果，对多个所述抽取结果进行合并构建第一联通子图；

检索模块，用于确定所述第一联通子图中的核心事件，向量化所述核心事件得到事件向量和实体向量并合并，得到合并向量，基于所述合并向量从预设的向量索引库中检索出超过预设第一相似度阈值的历史事件向量；

构建模块，用于合并所述核心事件向量和历史事件向量构建第二联通子图；

查询模块，用于从预设图数据库中查询与所述核心事件具有关联的实体历史事件数据；

整合模块，用于利用所述实体历史事件数据对所述第二联通子图进行补充，得到完整联通子图；

预警模块，用于基于预设的数据事件类型库判断所述完整联通子图中与核心事件具有共同实体的事件是否存在预警事件类型，并在存在时进行优先级预警。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种基于开放数据的知识图谱动态风险识别方法及装置，本申请首先通过丰富且多维度的数据输入，为后续的分析打下了坚实的基础，更准确地从大量数据中自动抽取关键事件信息，能够捕捉到更加全面的风险信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于开放数据的知识图谱动态风险识别方法的步骤示意图；

图2为本发明基于开放数据的知识图谱动态风险识别装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的基于开放数据的知识图谱动态风险识别方法及装置。

如图1所示，本申请实施例中提供的基于开放数据的知识图谱动态风险识别方法，包括：

S101，获取文本数据，并处理后得到待处理数据；

一些实施例中，所述获取文本数据，并处理后得到待处理数据，包括：

具体的，本申请中的文字信息获取方式包括：

金融新闻：采集主流财经新闻网站和新闻聚合平台；

监管信息：从官方监管机构网站或合作数据提供商处获取；

法律诉讼：从数据服务商处获取法律诉讼数据；

企业变更：从数据服务商处获取企业信息基础和变更数据。

图片信息获取方式包括：使用多模态大模型，文生图功能，为图片生成描述。

使用ocr模型生成，识别图片、视频中的文本信息。

语音信息获取方式包括：使用语音识别模型，识别语音内容。

然后，在数据预处理阶段，对文本进行清洗，例如去除停用词、特殊字符和标点，以提高后续处理的效率和准确性。使用预训练模型（如m3e、DALL·E或CLIP），对每个文本进行篇章级的向量化。对于每个文本，得到一个固定长度的向量表示。

本申请中对文本向量进行去重操作的主要方式为，

对所有得到的向量使用余弦相似度或欧几里得距离进行比较。

基于预定的相似度阈值进行整体去重操作，去重相似度阈值也就是第三相似度阈值为0.95。

S102，利用大型语言模型对所述待处理数据进行数据抽取，得到多个抽取结果，对多个所述抽取结果进行合并构建第一联通子图；

一些实施例中，利用大型语言模型对所述待处理数据进行数据抽取，包括：

其中，所述大型语言模型中预设事件类型；

具体的，本步骤中为了确保从文本中有效地抽取事件关联的实体、事件描述和时间属性对文本进行抽取，之后根据提取的结果进行去重和合并，确保信息的完整性和准确性。

本申请中采用预定义的事件类型对文本进行抽取，让模型在进行抽取时更加准确。

抽取数据字段包括：

事件描述：使用模型抽取关于事件的主要描述。

相关实体：识别与事件相关的公司和人名。

时间：识别事件发生的具体时间或时间段。

事件分类：匹配事件描述到预先定义的事件类别，不匹配的标为“其他”。

此分类最初是基于出现的风险相关事件进行聚类获取的，它们都是与确认存在风险的企业相关的事件类型，并已保存在事件类型库中。

最后将抽取出来的结果按照名称去重，构建成一个完整的子图，得到第一联通子图。

S103，确定所述第一联通子图中的核心事件，向量化所述核心事件得到事件向量和实体向量并合并，得到合并向量，基于所述合并向量从预设的向量索引库中检索出超过预设第一相似度阈值的历史事件向量；

一些实施例中，采用预训练模型对所述核心事件的事件描述进行向量化，得到事件向量；

具体的，预训练模型可以是m3e、DALL·E或CLIP，实体包括公司或人。

步骤S103确定抽取事件子图中的核心事件，也就是一片内容主要报道的部分。如果只有一个事件，则此事件为核心事件。

将事件向量和实体向量进行拼接，形成一个单独向量。拼接的目的是识别事件语义特征和实体特征，并在计算相似度时减少互相影响。

使用拼接的向量从预设的向量索引库中进行检索，过滤出高于第一相似度阈值的事件数据。

对于第一相似度阈值是通过对事件数据用相同的方法进行向量化和拼接，使用聚类算法进行聚类，将聚类簇中的内容进行相似计算取取均值得来。

对于本申请中的向量索引库是将上面步骤汇总向量拼接的结果进行存储保存的向量FAISS数据库，作用是为了将报道同一个事件的不同内容中提及的事件及关联实体进行整合。

S104，合并所述核心事件向量和历史事件向量构建第二联通子图；

通过步骤S103找出核心事件关联实体历史数据，并完善核心事件历史发展的前置信息，合并核心事件向量和历史事件向量构建第二联通子图。

S105，从预设图数据库中查询与所述核心事件具有关联的实体历史事件数据；

一些实施例中，所述从预设图数据库中查询与所述核心事件具有关联的实体历史事件数据，包括：

本申请对抽取去重后的实体，以其抽取的名称为基础，通过使用预训练模型（如m3e、DALL·E或CLIP）形成的向量。保存至向量FAISS数据库形成。此步骤是伴随***服务不断增加完善而成。使用实体向量查询出相近的实体。当查询的文字少于4字时，进行完全匹配；当文字多于4字时，若相似度大于0.95则匹配。然后通过相似度查询出的实体，从图数据重查询出此实体相关的事件。

S106，利用所述实体历史事件数据对所述第二联通子图进行补充，得到完整联通子图；

一些实施例中，利用所述实体历史事件数据对所述第二联通子图进行补充，得到完整联通子图，包括：

具体的，合并事件信息将事件检索步骤检索出的事件和实体、实体历史数据检索到的事件和实体进行整合去重。通过事件本身携带的时间属性，对数据进行时间窗口过滤。事件窗口为两个年报周期。超出此事件窗口的事件实体将被过滤掉。此步骤的作用是为了整合所有信息，从而完善一个事件子图的信息。

S107，基于预设的数据事件类型库判断所述完整联通子图中与核心事件具有共同实体的事件是否存在预警事件类型，并在存在时进行优先级预警。

检查检索形成的完整联通子图内，与核心事件具有共同实体的事件是否有预警事件类型，如果有则触发预警。

本申请提供的基于开放数据的知识图谱动态风险识别方法，还包括：对历史事件进行聚类，得到聚类簇；所述聚类簇包括实体聚类簇和无实体聚类簇；

计算聚类簇的相似度，得到第二相似度阈值；

从图数据库中检索与所述同类事件关联的历史关联事件；

最后，整合所述优先级预警和次优先级预警，得到最终预警。

具体的，使用事件向量，检索近似事件，并从图谱中检索出这些事件相关的实体和其他事件。判断检索出的事件和实体及关联事件，如果有预警事件类型，并且在此预警事件时间点前出现与核心事件形似事件，并且有大于一个共现近似事件则认为触发辅助预警事件也就是次优先级预警。

一些实施例中，基于开放数据的知识图谱动态风险识别方法，还包括：

当事件向量、实体向量更新时，更新向量索引库；

当预警事件类型更新时，更新数据事件类型库。

具体的，更新图谱将抽取的新事件、相关实体、关系更新到图谱中。

更新事件+实体向量将事件与实体拼接向量更新到向量索引库。

更新事件向量将事件向量更新到向向量索引库。

更新实体向量将实体向量更新到向向量索引库。

更新预警事件类型当预警被处理完成，将适合更新的预警事件类型更新至事件类型库。

本申请提供的技术方案在数据采集与预处理方面，使用了多元数据源如金融新闻、监管信息、法律诉讼、企业变更以及多模态数据。这种多源数据获取确保了信息的全面性。从而对企业的风险评估更为精确和全面。特别是通过多模态数据的利用，对于非文本的风险信息（如视频、音频、图片）也能够进行有效的分析，增强了风险预警的即时性和准确性。

本申请提供的技术方案事件信息抽取方面，优点：通过预定义的prompt设计，可以准确抽取关键事件信息，特别是将事件按预定义类别进行分类，能够快速定位风险类型，本申请提供的技术方案能够高效的从大量文本中定位和抽取关键的风险事件，大大缩短了风险发现的时间，并为后续的分析打下坚实的基础。通过事件embedding，方案能够更精确地识别与核心事件相关的内容，从而提高分析的相关性和准确性。风险评估的准确性大幅提高，确保了核心事件和其相关实体得到重点关注，提高了风险预警的精准度。通过实体历史事件数据补充，该方案提供了对实体历史事件的完整视图，使得分析不仅仅局限于当前的风险事件，而是结合历史背景进行，本申请风险预测更具前瞻性，能够预见基于历史数据可能出现的风险，从而提前采取预防措施。本申请中的事件全图构建，通过事件图谱构建，方案为企业提供了一个整体、关联性强的事件视图。决策者能够更直观地看到风险事件之间的关联，更有利于风险评估和决策制定。本申请中的预警是通过直接预警和辅助预警策略的双重机制，大大提高了风险预警的准确性。从而减少了因为缺乏预警或预警不准确导致的损失，确保企业能够及时响应各种风险。

除此之外，本申请中的数据更新持续的数据更新机制确保了风险预警***的实时性和准确性。企业可以持续地、实时地获取风险预警，随时掌握风险态势，做出相应的策略调整。

本申请提供了一个全面、实时、准确的风险预警***。通过多源数据采集、事件信息抽取、核心事件定位、实体历史数据补充、事件图谱构建、双重预警策略以及持续数据更新，确保了企业能够及时、准确地掌握风险信息，做出有效的策略调整，从而减少风险带来的损失。

如图2所示，本申请实施例提供一种基于开放数据的知识图谱动态风险识别装置，包括：

获取模块201，用于获取文本数据，并处理后得到待处理数据；

抽取模块202，用于利用大型语言模型对所述待处理数据进行数据抽取，得到多个抽取结果，对多个所述抽取结果进行合并构建第一联通子图；

检索模块203，用于确定所述第一联通子图中的核心事件，向量化所述核心事件得到事件向量和实体向量并合并，得到合并向量，基于所述合并向量从预设的向量索引库中检索出超过预设第一相似度阈值的历史事件向量；

构建模块204，用于合并所述核心事件向量和历史事件向量构建第二联通子图；

查询模块205，用于从预设图数据库中查询与所述核心事件具有关联的实体历史事件数据；

整合模块206，用于利用所述实体历史事件数据对所述第二联通子图进行补充，得到完整联通子图；

预警模块207，用于基于预设的数据事件类型库判断所述完整联通子图中与核心事件具有共同实体的事件是否存在预警事件类型，并在存在时进行优先级预警。

本申请提供的基于开放数据的知识图谱动态风险识别装置的工作原理为，获取模块201获取文本数据，并处理后得到待处理数据；抽取模块202利用大型语言模型对所述待处理数据进行数据抽取，得到多个抽取结果，对多个所述抽取结果进行合并构建第一联通子图；检索模块203确定所述第一联通子图中的核心事件，向量化所述核心事件得到事件向量和实体向量并合并，得到合并向量，基于所述合并向量从预设的向量索引库中检索出超过预设第一相似度阈值的历史事件向量；构建模块204合并所述核心事件向量和历史事件向量构建第二联通子图；查询模块205从预设图数据库中查询与所述核心事件具有关联的实体历史事件数据；整合模块206利用所述实体历史事件数据对所述第二联通子图进行补充，得到完整联通子图；预警模块207基于预设的数据事件类型库判断所述完整联通子图中与核心事件具有共同实体的事件是否存在预警事件类型，并在存在时进行优先级预警。

综上所述，本发明提供一种基于开放数据的知识图谱动态风险识别方法及装置，本申请提供了丰富且多维度的数据输入，为后续的分析打下了坚实的基础，更准确地从大量数据中自动抽取关键事件信息，能够捕捉到更加全面的风险信息。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于开放数据的知识图谱动态风险识别方法，其特征在于，包括：

获取文本数据，并处理后得到待处理数据；

合并所述核心事件向量和历史事件向量构建第二联通子图；

2.根据权利要求1所述的方法，其特征在于，还包括：

计算聚类簇的相似度，得到第二相似度阈值；

从图数据库中检索与所述同类事件关联的历史关联事件；

3.根据权利要求1或2所述的方法，其特征在于，所述获取文本数据，并处理后得到待处理数据，包括：

4.根据权利要求3所述的方法，其特征在于，利用大型语言模型对所述待处理数据进行数据抽取，包括：

其中，所述大型语言模型中预设事件类型；

5.根据权利要求3所述的方法，其特征在于，所述从预设图数据库中查询与所述核心事件具有关联的实体历史事件数据，包括：

6.根据权利要求3所述的方法，其特征在于，利用所述实体历史事件数据对所述第二联通子图进行补充，得到完整联通子图，包括：

7.根据权利要求2所述的方法，其特征在于，

整合所述优先级预警和次优先级预警，得到最终预警。

8.根据权利要求1所述的方法，其特征在于，

采用预训练模型对所述核心事件的事件描述进行向量化，得到事件向量；

9.根据权利要求1所述的方法，其特征在于，还包括：

当事件向量、实体向量更新时，更新向量索引库；

当预警事件类型更新时，更新数据事件类型库。

10.一种基于开放数据的知识图谱动态风险识别装置，其特征在于，包括：

获取模块，用于获取文本数据，并处理后得到待处理数据；