CN115952298A - 供应商履约风险分析方法及相关设备 - Google Patents

供应商履约风险分析方法及相关设备 Download PDF

Info

Publication number
CN115952298A
CN115952298A CN202211634589.1A CN202211634589A CN115952298A CN 115952298 A CN115952298 A CN 115952298A CN 202211634589 A CN202211634589 A CN 202211634589A CN 115952298 A CN115952298 A CN 115952298A
Authority
CN
China
Prior art keywords
supplier
knowledge
entity
event
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211634589.1A
Other languages
English (en)
Inventor
毕艳冰
李向阳
姜凯华
田青
师择鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sgitg Accenture Information Technology Co ltd
Original Assignee
Beijing Sgitg Accenture Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sgitg Accenture Information Technology Co ltd filed Critical Beijing Sgitg Accenture Information Technology Co ltd
Priority to CN202211634589.1A priority Critical patent/CN115952298A/zh
Publication of CN115952298A publication Critical patent/CN115952298A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种供应商履约风险分析方法及相关设备。所述方法包括:根据获取的供应商参数,构建本体;基于预训练的实体抽取模型,对获取的供应商数据进行抽取,得到实体知识;利用关系抽取框架对文本数据集进行提取,得到实体关系;利用事件抽取模型对语句集进行抽取,得到事件知识;基于所述本体、所述实体知识、所述实体关系和所述事件知识,进行知识融合,得到知识图谱;基于知识图谱,与所述供应商的实时重大事件进行融合,以对所述供应商无法履约的风险进行分析,并得到存在履约风险的供应商。本申请实施例通过供应商履约风险知识图谱与重大时序和因果事件进行知识融合,实现实时对供应商进行全息评价,预测供应商的履约风险。

Description

供应商履约风险分析方法及相关设备
技术领域
本申请涉及知识图谱技术领域,尤其涉及一种供应商履约风险分析方法及相关设备。
背景技术
工程、物资等专业审计过程中,需要重点关注供应商服务情况,包括供应商资质、业务范围、经营业绩、股权关系、行业动态等相关信息,对供应商无法履行合同的风险进行预警。然而,随着大数据信息时代的到来,审计人员需要花费大量时间从海量冗杂的供应商企业活动数据中挖掘有价值的数据。如何利用大数据技术,智能化辅助审计人员决策,降低人力成本,是迫切需要解决的研究内容。
其中,供应商企业实际生产经营状况难以准确掌握是物资履约工作中的“老大难”问题。目前没有基于供应商为基点的全量数据统一归集和服务,如果以人工手段进行归集,很难避免缺漏项,而且对于多层关联的数据梳理效率较低。迫切需要大数据技术实现对供应商进行全息多维实时评估,为招标采购、保质履约能力的业务场景提供辅助支撑。
发明内容
有鉴于此,本申请的目的在于提出一种供应商履约风险分析方法及相关设备。
基于上述目的,本申请提供了一种供应商履约风险分析方法,包括:
根据获取的供应商参数,构建供应商知识图谱中的本体;
基于预训练的实体抽取模型,对获取的供应商数据进行抽取,得到供应商实体知识;
利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系;
利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识;
基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱;
基于所述供应商知识图谱,与所述供应商的实时重大事件进行融合,以对所述供应商无法履约的风险进行分析,并得到存在履约风险的供应商。
在一种可能的实现方式中,所述根据获取的供应商参数,构建供应商知识图谱中的本体,包括:
明确所述本体的应用领域和知识范围;
对所述应用领域和知识范围中的概念和实体进行抽象描述;
对所述本体中的实体的属性和属性值进行定义;
对所述本体添加规则约束,以构建所述供应商知识图谱中的本体。
在一种可能的实现方式中,所述预训练的实体抽取模型的训练过程包括:
获取原始供应商数据集;
基于预先编写的正则表达式,对所述原始供应商数据集中的数据进行抽取,得到命中规则的数据集;
所述命中规则的数据集包括训练数据集和预测数据集;利用所述训练数据集对待训练的所述实体抽取模型进行训练;
响应于将所述预测数据集输入所述待训练的实体抽取模型得到的正确率高于预设的第一阈值,停止训练,得到所述预训练的实体抽取模型。
在一种可能的实现方式中,所述利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系,包括:
基于预设的第一种子实体,对获取得到的原始文本数据集进行匹配,得到第一实体关系实例集;
提取所述第一实体关系实例集所对应的模板,得到模板库;
利用单次聚类算法从所述模板库中抽取模板,得到提取关系模板;
基于所述提取关系模板,对所述原始文本数据集进行提取,得到第二实体关系实例集;
响应于所述第二实体关系实例集的规模达到预设的第二阈值,将所述第二实体关系实例集作为所述供应商实体关系。
在一种可能的实现方式中,所述利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识,包括:
将所述供应商的语句集输入所述预训练的事件抽取模型;
在所述预训练的事件抽取模型中,将所述供应商的语句集中的每一个句子扩展至固定的预设长度,得到预设长度语句集;将所述预设长度语句集中的每个句子中的每个词语进行编码,得到固定维度的词向量集;基于所述固定维度的词向量集,捕捉所述供应商的语句集中语句的上下文信息,并利用固定速率系数层对所述上下文信息进行全局优化,得到所述供应商事件知识。
在一种可能的实现方式中,所述知识融合包括:实体知识融合和事件知识融合;
所述基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱,包括:
基于所述本体、所述供应商实体知识和所述供应商实体关系,利用框架匹配技术、实体对齐技术、和/或冲突检测与消解技术进行所述实体知识融合;
基于所述实体、所述供应商实体关系和所述供应商事件知识进行命名实体提取,得到所述供应商事件知识实体,以进行所述事件知识融合;
基于所述实体知识融合和所述事件知识融合,构建得到所述供应商知识图谱。
在一种可能的实现方式中,所述方法,还包括:
获取与所述供应商知识图谱异构的异构供应商知识图谱;
将所述异构供应商知识图谱中的实体和关系进行编码,得到低维语义微量空间;
基于预设的对齐实体种子集,根据所述供应商知识图谱、所述异构供应商知识图谱的内部结构和所述低维语义微量空间中的实体间的语义距离,对所述供应商知识图谱和所述异构供应商知识图谱间的实体进行实体对齐。
基于同一发明构思,本申请实施例还提供了一种供应商履约风险分析装置,包括:
构建模块,被配置为根据获取的供应商参数,构建供应商知识图谱中的本体;
抽取模块,被配置为基于预训练的实体抽取模型,对获取的供应商数据进行抽取,得到供应商实体知识;
提取模块,被配置为利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系;
提取模块,还被配置为利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识;
融合模块,被配置为基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱;
融合模块,还被配置为基于所述供应商知识图谱,与所述供应商的实时重大事件进行融合,以对所述供应商无法履约的风险进行分析,并得到存在履约风险的供应商。
基于同一发明构思,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的供应商履约风险分析方法。
基于同一发明构思,本申请实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一所述的供应商履约风险分析方法。
从上面所述可以看出,本申请提供的供应商履约风险分析方法及相关设备,根据获取的供应商参数,构建供应商知识图谱中的本体;基于预训练的实体抽取模型,对获取的供应商数据进行抽取,得到供应商实体知识;利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系;利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识;基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱;基于所述供应商知识图谱,与所述供应商的实时重大事件进行融合,以对所述供应商无法履约的风险进行分析,并得到存在履约风险的供应商。利用自然语言处理的实体提取、关系提取、事件抽取、知识融合等多种技术,采集供应商单位的工商营业执照信息、股东信息、企业主要人员、对外投资、司法案件、专利、合同履约等内外部数据,并建立供应商履约风险分析库,形成面向供应商履约风险审计的知识图谱。抽取出供应商的重大时序、因果事件,并同审计供应商知识图谱进行知识融合,形成清晰的供应商评价分析数据,实现实时对供应商进行全息评价,预测供应商的履约风险。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的供应商履约风险分析方法流程图;
图2为本申请实施例的实体抽取模型的技术路线示意图;
图3为本申请实施例的关系抽取框架示意图;
图4为本申请实施例的事件抽取模型示意图;
图5为本申请实施例的实体关联的融合示例示意图;
图6为本申请实施例的供应商履约风险分析装置结构示意图;
图7为本申请实施例的电子设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,相关技术中,在工程、物资等专业审计过程中,需要重点关注供应商服务情况,包括供应商资质、业务范围、经营业绩、股权关系、行业动态等相关信息,对供应商无法履行合同的风险进行预警。然而,随着大数据信息时代的到来,审计人员需要花费大量时间从海量冗杂的供应商企业活动数据中挖掘有价值的数据。如何利用大数据技术,智能化辅助审计人员决策,降低人力成本,是迫切需要解决的研究内容。
其中,供应商企业实际生产经营状况难以准确掌握是物资履约工作中的“老大难”问题。目前没有基于供应商为基点的全量数据统一归集和服务,如果以人工手段进行归集,很难避免缺漏项,而且对于多层关联的数据梳理效率较低。迫切需要大数据技术实现对供应商进行全息多维实时评估,为招标采购、保质履约能力的业务场景提供辅助支撑。
综合上述考虑,本申请实施例提出一种供应商履约风险分析方法,根据获取的供应商参数,构建供应商知识图谱中的本体;基于预训练的实体抽取模型,对获取的供应商数据进行抽取,得到供应商实体知识;利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系;利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识;基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱;基于所述供应商知识图谱,与所述供应商的实时重大事件进行融合,以对所述供应商无法履约的风险进行分析,并得到存在履约风险的供应商。利用自然语言处理的实体提取、关系提取、事件抽取、知识融合等多种技术,采集供应商单位的工商营业执照信息、股东信息、企业主要人员、对外投资、司法案件、专利、合同履约等内外部数据,并建立供应商履约风险分析库,形成面向供应商履约风险审计的知识图谱。抽取出供应商的重大时序、因果事件,并同审计供应商知识图谱进行知识融合,形成清晰的供应商评价分析数据,实现实时对供应商进行全息评价,预测供应商的履约风险。
以下,通过具体的实施例来详细说明本申请实施例的技术方案。
参考图1,本申请实施例的供应商履约风险分析方法,包括以下步骤:
步骤S101,根据获取的供应商参数,构建供应商知识图谱中的本体;
步骤S102,基于预训练的实体抽取模型,对获取的供应商数据进行抽取,得到供应商实体知识;
步骤S103,利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系;
步骤S104,利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识;
步骤S105,基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱;
步骤S106,基于所述供应商知识图谱,与所述供应商的实时重大事件进行融合,以对所述供应商无法履约的风险进行分析,并得到存在履约风险的供应商。
针对步骤S101,本体是用来描述特定领域中的概念和相关知识的,本体中存储的是经过高度概括和提炼的知识,一般具有很高的质量,通常利用概念本体库来管理,本体库的定义是否完善和准确直接影响到知识图谱构建的质量,通过本体库,可以实现对知识图谱中的实体、实体间关系以及实体属性统一的规范和管理,有助于提高知识图谱的质量。由于本课题研究的是面向供应商履约风险领域的知识图谱,概念相对明确,范围也比较固定,因此采取自顶向下的方式来构建概念本体库。以下主要介绍了供应商履约风险分析领域本体库的构建方法和流程。
在知识图谱中,本体属于概念层,本体是对真实世界中的各种概念和知识进行抽象化的描述。通过构建本体能够对知识图谱中的实体及其关系进行约束和规范,方便我们在统一的本体库的基础下进行管理,有利于提高知识库中知识的质量。
在构建本体的过程中,应尽可能的把领域中的所有概念和知识都包括进来,有利于扩大本体的应用范围,但是在资源有限的情况下,过分追求本体的覆盖范围是不合实际也是有风险的。因此,在构建本体之前,需要明确本体的应用范围,详细地调研和分析领域中的概念和知识。另外,一套规范化的流程能够在本体构建的过程中作为参考,保证本体构建的质量,符合实际要求,通过调研分析,本实施例可以采用以下流程来完成审计领域本体的构建:明确本体的应用领域和知识范围;通过调研与分析,对领域范围内的概念和实体进行抽象描述;定义本体中的实体所拥有的属性和属性值;为本体添加一些额外的规则约束;完成本体实例的构建。
针对步骤S102,获取的供应商数据中包括结构化数据和非结构化数据。
结构化数据指的是数据库或是表格数据等,一般多是企业整理好的带有先验经验的关系数据,一般来说这种数据质量可靠,这些数据可以直接通过采用模板匹配、正则化规则抽取方法来抽取知识。
针对审计专有实体提取问题,传统的技术方案是利用规则提取方法,即由专家针对特定内容在网页中的上下文信息,编写正则表达式等规则,从中提取出精确的关键信息。然而这种方式需要针对所有站点开展规则编制、维护和测试,工作量较大且容易出错,难以适应跨业务域审计领域实体提取的需求。
因此本申请实施例拟采用结合序列标注与规则提取方法的复合技术路线。经典的基于序列标注算法的实体抽取方法具有适应性强的优点,能够自动化地通过算法对模式进行归纳(形成“抽取模型”),对于没有明显模式、人工很难观察到特定规则的关键信息的抽取具有较强的抽取能力。然而,该方法也有其固有缺点,包括:需要一定数量的、已经标注好的语料作为导入,这部分语料的标注工作需要人工编写。待抽取的关键信息越缺乏模式、要求抽的结果越精确,需要导入的语料就越多;另外,作为一种机器学习类的算法,序列标注的缺点是不够稳定,其执行过程是“黑盒”(不像规则判断能够回溯),准确率不由算法决定,而主要取决于用以训练的标注语料是否和目标测试语料比较一致,所以该方法构建出的“抽取模型”常常难以判断是否能够满足业务对于抽取准确性的要求。
因此,结合实际需求和数据特点,在采用序列标注算法的同时,本申请技术路线引入了“规则方法”,为序列标注算法模型构建提供初始的驱动语料,并将整个过程进行标准化工程定义,以避免事先准备较多的人工标注语料、抽取效果不稳定、准确性难以预估的问题,提升技术的通用性和效果稳定性。
参考图2,为本申请实施例的实体抽取模型的技术路线示意图。
具体的,首先利用“正则表达式抽取”准确性高、匹配范围小的特点,编写少量的规则,实现从大量的语料中匹配出少量但准确的抽取结果,并作为后续过程的导入。
进一步的,将上述过程中获得的抽取结果,切割出一定比例(80%),作为导入到“自动序列标注”方法的训练语料,替代“人工标注”过程。
进一步的,利用训练语料,结合开源的“自动序列标注”类算法,构建“抽取模型”。
进一步的,利用步骤3的结果,对步骤2切割出的、剩余的语料(20%)进行自动化抽取,并对抽取结果进行自动判断;如果模型自动判断的准确性尚未达到业务要求,则前往重新编写更多的正则表达式,形成更多的“标注语料”,作为模型训练导入;如果模型自动判断的准确性已经达到业务要求,则停止该过程,并将该模型作为文本抽取最终模型部署应用。
相对于现有技术方案,本技术路线用基于少量规则的“规则判断”,替代“人工标注”获得初始标准语料,大大降低了初期人工投入;对序列标注模型的抽取结果进行自动化回测,确保模型的准确性符合业务需求;用序列标注作为最终文本抽取的执行器,确保模型的适用性得到保障(不限制于待抽取信息是否具有严格的模版,所以抽取范围远高于纯粹基于“正则表达式”的方法)。整个过程是可增量迭代的。如果序列标注训练得到的模型的抽取效果不理想(准确性达不到要求),仅需要进行增加编写少量正则表达式,执行同样的过程循环,即可有效提升模型抽取效果,且前期编写的规则不会被废弃。
针对步骤S103,在供应商实体关系抽取中,为了避免在实体关系提取上耗费大量的人力物力进行人工标注,可采用半监督学习方法开展实体抽取,半监督学习是其中一种比较常用的方法。本申请采用Bootstrapping方法开展半监督的供应商实体关系抽取。
Bootstrapping也被称为自扩展技术,是一种被广泛应用在各领域的机器学习技术。它以少量的标注信息作为初始化信息,迭代添加和标注信息具有共同特征的未标注信息,直到达到需要的信息规模。因此,半监督学习是其中一种比较常用的方法方法需要从文本中抽取出一部分种子集作为自助扩展的基础,最常用的选取种子集的方法是随机选择的方法,然后人工标注出其中符合条件的实体对作为种子集,这种方法可以选取出语料集中具有一定的代表性的实体对作为种子,根据种子集合中的实体对匹配文本并抽取文本的模板,计算剩余语料中的文本对应的模板和模板库中模板的相似度,根据一定的策略选择可靠性最高的N个模板加入到模板库中,然后基于模板库匹配实体对,扩大当前的种子集合,继续进行下一步的迭代,直到结束。
半监督学习的主要缺陷是存在语义漂移现象,即随着迭代的进行,新抽取的语义关系己经和原始种子数据集中表述的语义关系出现了偏差。出现语义漂移的主要原因是扩展的文本实例不能正确的表示关系语义。这些错误的文本实例会提取出错误的模式表示方法,从而导致抽取效果的下降。传统的半监督学习采用TF-IDF作为计算模版的基础,很容易导致语义漂移。因此本申请实施例采用基于预训练语言模型的词向量作为Bootstrapping过程中模版的技术路线,能够更准确地找出文本中的关系实例,从而提升文本关系提取的准确性。
参考图3,为本申请实施例的关系抽取框架示意图。
首先扫描文本集,根据种子实体对找出对应的文本实例。具体地,对所有文本实例进行扫描,如果种子实体对中的两个实体同时出现在一个句子中,将该文本抽取出来并且表示为五元组的形式:<BEF,e1,BET,e2,AFT>。其中BEF为第一个实体出现前的内容,BET为两个实体之间的内容,AFT为第二个实体之后的内容,e1为第一个实体,e2为第二个实体。在BET这一段,采用一个基于浅启发的关系模式。这种方法将BET这一段的内容限定为动词性质的词,如动词、动词短语等。如果两个实体之间没有动词性质的词,抽取两个实体之间的所有单词构成BET。接下来,每个内容段(BEF,BET,AFT)通过预训练语言模型(如BERT)将其转换为独立的向量,通过组合每个词的词向量来获取整个内容段的向量表示。
进一步的,对提取上一步匹配到的文本实例对应的模板,生成模板库。然后使用一个单次的聚类算法抽取模板。和文本的表示方法相对应,聚类结果同样由三段向量构成,具体过程为:首先,输入一个文本实例列表,将第一个文本实例分配至一个空聚类中;然后,遍历列表中所有的文本实例,对每一个文本实例,计算文本实例的表示向量和每个簇的相似性,将该文本实例划分到置信度大于某个阂值的第一个类簇.如果某个文本实例与己有类簇的相似性都低于这个阂值,那么以这个向量为中心创建一个新的类簇。
进一步的,在生成提取模板之后,下一步的任务就是结合模板提取更多的文本实例。首先需要重新扫描所有文档,将文本表示为(BEF,BET,AFT)的形式;然后计算和现有的所有模板之间的相似度。当文本和类别之间的相似度等于或高于门限值时,文本就可以认为是一个候选文本实例。
针对步骤S104,传统的循环神经网络无法学习到长时间的上下文依赖关系,导致在序列标注任务中表现不好。LSTM网络通过引入了记忆单元和门的机制来对网络中的信息传递过程进行干预,能够更好的记住上下文的特征,具有不错的效果,被广泛应用到各种序列标注任务中,如分词,词性标注和命名实体识别等。Bi-LSTM模型则是由两个LSTM网络结构组成,一个正向LSTM,一个反向LSTM,能够同时捕获文本序列从前到后和从后到前的上下文依赖关系,在序列标注任务上被证明比单层的LSTM网络拥有更好的效果。
因此,本申请采用Bi-LSTM+CRF网络结构图,模型结构与Bi-LSTM类似,但是将最后一层Softmax输出层换成了条件随机场,模型主要由输入层、词嵌入层、Bi-LSTM层和CRF层组成。
参考图4,为本申请实施例的事件抽取模型示意图。
在本实施例中,在输入层中,由于神经网络的输入层通常为固定的维度,而文本通常长度不一,因此首先需要将输入中的每个句子扩展到一个固定的长度,将长度小于固定长度的句子用“UNKNOW”补齐。
在Embedding层中,将句子中的每个词语利用one-hot编码成一个固定维度的词向量,通常为200维。因此,一个词语序列可以表示为:
w={w1,…wt,wt+1…wn}
其中,wt表示一个d维的词向量代表句子中的第t个词语,n表示句子的长度。
在Bi-LSTM编码层中,Bi-LSTM模型是由两个LSTM网络结构组成,一个正向LSTM,一个反向LSTM,借助LSTM的门控结构,能够捕捉到句子的上下文信息,抽取句子中的高维特征。
在CRF输出层中,本实施例将原模型的最后一层的Softmax层改为CRF层。这样,可以利用Bi-LSTM层来抽取数据中的高维特征,同时结合CRF全局优化的特点,让模型学习到很多句子级别的强约束条件,提高事件抽取的准确性,弥补Bi-LSTM局部最优的不足。
进一步的,针对步骤S105,基于向量化模型的实体知识融合技术,重点包括框架匹配技术、实体对齐技术、冲突检测与消解技术等。通过对抽取后的审计知识进行知识融合,提升知识的准确性与一致性,为构建高质量的审计领域知识图谱奠定基础。
随着现代智慧供应链的建设深入推进,已经形成了供应商履约风险分析领域相关知识体系的较好基础,在认知和语义层次上对领域知识进行了建模和表达,确定了领域内共同认可的词汇,通过概念之间的关系来描述实体,提供对领域知识的共同理解。但是由于知识体系自身的分散性导致了知识体系的异构性,即不同的知识体系难以联合使用。框架匹配可以解决这个问题,是知识融合的重要组成部分。
按照使用技术的不同,框架匹配可以分为元素级匹配和结构级匹配。元素级匹配独立判断两个体系中的元素是否应该匹配,不考虑其他元素的匹配情况。结构级匹配不把各个元素作为孤立的资源,而利用资源图谱的结构,在元素匹配过程中考虑其他相关元素匹配情况的影响。
元素级匹配最基本的方法是基于字符串匹配的技术,采用前缀距离、后缀距离、编辑距离和n元语法距离等匹配方法。结构级匹配的基本思想是:相似的概念具有相似的结构,主要技术包括:基于图的技术、基于分类体系的技术和基于统计分析的技术。
实体对齐也称为实体匹配,是判断相同或不同知识库中的两个实体是否表示同一物理对象的过程。实体对齐可分为成对实体对齐和协同实体对齐两类不同的算法。成对实体对齐表示独立地判断两实体是否对应同一物理对象,通过匹配实体属性等特征判断它们的对齐程度。协同实体对齐认为不同实体间的对齐是相互影响的,通过协调不用对象间的匹配情况得以达到一个全局最优的对齐结果。
知识融合的最后阶段,就是解决不同实例之间的冲突。冲突识别最简单的方法就是发现对于同样的属性和关系又不同的实例。对于冲突的处理,常见的策略分为以下三类:冲突忽略、冲突避免和冲突消解。冲突忽略不自动进行处理,而是交给用户解决。冲突避免不解决冲突,而是使用规则或约束对数据来进行过滤。冲突消解关注于利用知识图谱本身的特征来消解冲突。
参考图5,为本申请实施例的实体关联的融合示例示意图。
事件知识融合采用基于实体关联的融合方法,时序、因果事件中经常会提及很多实体,如公司名称、行业、人物实体等,这些实体可以和知识图谱中的实体或实体的属性建立关联,从而实现知识图谱与时序、因果事件知识的融合,让知识图谱借助事件的逻辑事理进行推理和分析。本节先通过构建一个实体词典来实现命名实体识别,然后通过实体的关联,将知识图谱与时序、因果事件知识融合起来。
通过命名实体提取,提取出了事件中出现的实体,下一步我们就可以将其与知识图谱中的实体进行关联匹配,从而构造出一个<事件实体,关联关系,知识图谱实体>的三元组,来表示实体和事件之间的关联关系。例如,因果事件中的“华谊兄弟暴跌”事件和知识图谱中的股票实体“华谊兄弟”可以构成<华谊兄弟暴跌,关联关系,华谊兄弟>这样的三元组。因本课题是使用Neo4j图数据库来存储知识图谱,因此只需要将事件和与其相关联的实体建立一条边就可以完成事件到实体的关联。
在本申请实施例中,本课题选用Neo4j图数据库技术来存储知识图谱。Neo4j中有两种主要的数据类型,节点(Node)和边(Edges),节点可以对应知识图谱中的实体,边对应了知识图谱中的实体之间的关系,而且在节点和边上都可以存储属性。
在另一可行的实施例中,供应商履约风险分析领域内,利用不同的信息源构建了不同的知识图谱,如何对多知识图谱进行融合表示,对于建立统一的大规模知识图谱意义重大。由于不同知识图谱的信息来源不同,其知识描述体系也是不同的,语义上相同的实体在不同的知识图谱中会有不同的表达,具有相同名称的实体也可能代表不同的事物。多源知识图谱融合不是简单的把知识图谱合并,而是要发现知识图谱之间的等价实例、等价属性或等价类等等,实现多源知识图谱的实体对齐。
根据异构供应商知识图谱的内部结构信息(实体和关系),提出了一种联合知识嵌入的新方法来实现供应商履约风险分析领域多源知识图谱的实体对齐,并基于迭代训练的方式来提高对齐的性能。该方法首先用PTransE单独学习不同知识图谱知识的分布式表示,将异构供应商知识图谱中的实体和关系共同编码成一个统一的连续的低维语义微量空间,然后根据在该联合空间中实体间的语义距离进行实体对齐。通过研究知识图谱丰富的内部信息对实体对齐的有效性,在给定一个对齐实体的种子集的情况下,仅根据知识图谱的内部结构,对不同知识图谱间的实体进行对齐。
通过上述实施例可以看出,本申请实施例所述的供应商履约风险分析方法,根据获取的供应商参数,构建供应商知识图谱中的本体;基于预训练的实体抽取模型,对获取的供应商数据进行抽取,得到供应商实体知识;利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系;利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识;基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱;基于所述供应商知识图谱,与所述供应商的实时重大事件进行融合,以对所述供应商无法履约的风险进行分析,并得到存在履约风险的供应商。利用自然语言处理的实体提取、关系提取、事件抽取、知识融合等多种技术,采集供应商单位的工商营业执照信息、股东信息、企业主要人员、对外投资、司法案件、专利、合同履约等内外部数据,并建立供应商履约风险分析库,形成面向供应商履约风险审计的知识图谱。抽取出供应商的重大时序、因果事件,并同审计供应商知识图谱进行知识融合,形成清晰的供应商评价分析数据,实现实时对供应商进行全息评价,预测供应商的履约风险。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种供应商履约风险分析装置。
参考图6,所述供应商履约风险分析装置,包括:
构建模块61,被配置为根据获取的供应商参数,构建供应商知识图谱中的本体;
抽取模块62,被配置为基于预训练的实体抽取模型,对获取的供应商数据进行抽取,得到供应商实体知识;
提取模块63,被配置为利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系;
提取模块63,还被配置为利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识;
融合模块64,被配置为基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱;
融合模块64,还被配置为基于所述供应商知识图谱,与所述供应商的实时重大事件进行融合,以对所述供应商无法履约的风险进行分析,并得到存在履约风险的供应商。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的供应商履约风险分析方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的供应商履约风险分析方法。
图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的供应商履约风险分析方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的供应商履约风险分析方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的供应商履约风险分析方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种供应商履约风险分析方法,其特征在于,包括:
根据获取的供应商参数,构建供应商知识图谱中的本体;
基于预训练的实体抽取模型,对获取的供应商数据进行抽取,得到供应商实体知识;
利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系;
利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识;
基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱;
基于所述供应商知识图谱,与所述供应商的实时重大事件进行融合,以对所述供应商无法履约的风险进行分析,并得到存在履约风险的供应商。
2.根据权利要求1所述的方法,其特征在于,所述根据获取的供应商参数,构建供应商知识图谱中的本体,包括:
明确所述本体的应用领域和知识范围;
对所述应用领域和知识范围中的概念和实体进行抽象描述;
对所述本体中的实体的属性和属性值进行定义;
对所述本体添加规则约束,以构建所述供应商知识图谱中的本体。
3.根据权利要求1所述的方法,其特征在于,所述预训练的实体抽取模型的训练过程包括:
获取原始供应商数据集;
基于预先编写的正则表达式,对所述原始供应商数据集中的数据进行抽取,得到命中规则的数据集;
所述命中规则的数据集包括训练数据集和预测数据集;利用所述训练数据集对待训练的所述实体抽取模型进行训练;
响应于将所述预测数据集输入所述待训练的实体抽取模型得到的正确率高于预设的第一阈值,停止训练,得到所述预训练的实体抽取模型。
4.根据权利要求1所述的方法,其特征在于,所述利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系,包括:
基于预设的第一种子实体,对获取得到的原始文本数据集进行匹配,得到第一实体关系实例集;
提取所述第一实体关系实例集所对应的模板,得到模板库;
利用单次聚类算法从所述模板库中抽取模板,得到提取关系模板;
基于所述提取关系模板,对所述原始文本数据集进行提取,得到第二实体关系实例集;
响应于所述第二实体关系实例集的规模达到预设的第二阈值,将所述第二实体关系实例集作为所述供应商实体关系。
5.根据权利要求1所述的方法,其特征在于,所述利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识,包括:
将所述供应商的语句集输入所述预训练的事件抽取模型;
在所述预训练的事件抽取模型中,将所述供应商的语句集中的每一个句子扩展至固定的预设长度,得到预设长度语句集;将所述预设长度语句集中的每个句子中的每个词语进行编码,得到固定维度的词向量集;基于所述固定维度的词向量集,捕捉所述供应商的语句集中语句的上下文信息,并利用固定速率系数层对所述上下文信息进行全局优化,得到所述供应商事件知识。
6.根据权利要求1所述的方法,其特征在于,所述知识融合包括:实体知识融合和事件知识融合;
所述基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱,包括:
基于所述本体、所述供应商实体知识和所述供应商实体关系,利用框架匹配技术、实体对齐技术、和/或冲突检测与消解技术进行所述实体知识融合;
基于所述实体、所述供应商实体关系和所述供应商事件知识进行命名实体提取,得到所述供应商事件知识实体,以进行所述事件知识融合;
基于所述实体知识融合和所述事件知识融合,构建得到所述供应商知识图谱。
7.根据权利要求6所述的方法,其特征在于,所述方法,还包括:
获取与所述供应商知识图谱异构的异构供应商知识图谱;
将所述异构供应商知识图谱中的实体和关系进行编码,得到低维语义微量空间;
基于预设的对齐实体种子集,根据所述供应商知识图谱、所述异构供应商知识图谱的内部结构和所述低维语义微量空间中的实体间的语义距离,对所述供应商知识图谱和所述异构供应商知识图谱间的实体进行实体对齐。
8.一种供应商履约风险分析装置,其特征在于,包括:
构建模块,被配置为根据获取的供应商参数,构建供应商知识图谱中的本体;
抽取模块,被配置为基于预训练的实体抽取模型,对获取的供应商数据进行抽取,得到供应商实体知识;
提取模块,被配置为利用预设的关系抽取框架对供应商的文本数据集进行提取,得到供应商实体关系;
提取模块,还被配置为利用预训练的事件抽取模型对所述供应商的语句集进行抽取,得到供应商事件知识;
融合模块,被配置为基于所述本体、所述供应商实体知识、所述供应商实体关系和所述供应商事件知识,进行知识融合,得到所述供应商知识图谱;
融合模块,还被配置为基于所述供应商知识图谱,与所述供应商的实时重大事件进行融合,以对所述供应商无法履约的风险进行分析,并得到存在履约风险的供应商。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
CN202211634589.1A 2022-12-19 2022-12-19 供应商履约风险分析方法及相关设备 Pending CN115952298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211634589.1A CN115952298A (zh) 2022-12-19 2022-12-19 供应商履约风险分析方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211634589.1A CN115952298A (zh) 2022-12-19 2022-12-19 供应商履约风险分析方法及相关设备

Publications (1)

Publication Number Publication Date
CN115952298A true CN115952298A (zh) 2023-04-11

Family

ID=87282032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211634589.1A Pending CN115952298A (zh) 2022-12-19 2022-12-19 供应商履约风险分析方法及相关设备

Country Status (1)

Country Link
CN (1) CN115952298A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332282A (zh) * 2023-11-29 2024-01-02 之江实验室 一种基于知识图谱的事件匹配的方法及装置
CN117592561A (zh) * 2024-01-18 2024-02-23 国网江苏省电力工程咨询有限公司 企业数字化运营多维数据分析方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332282A (zh) * 2023-11-29 2024-01-02 之江实验室 一种基于知识图谱的事件匹配的方法及装置
CN117332282B (zh) * 2023-11-29 2024-03-08 之江实验室 一种基于知识图谱的事件匹配的方法及装置
CN117592561A (zh) * 2024-01-18 2024-02-23 国网江苏省电力工程咨询有限公司 企业数字化运营多维数据分析方法及***
CN117592561B (zh) * 2024-01-18 2024-04-19 国网江苏省电力工程咨询有限公司 企业数字化运营多维数据分析方法及***

Similar Documents

Publication Publication Date Title
CN110889556B (zh) 一种企业经营风险特征数据信息提取方法和提取***
US10846341B2 (en) System and method for analysis of structured and unstructured data
CN112528034B (zh) 一种基于知识蒸馏的实体关系抽取方法
CN115952298A (zh) 供应商履约风险分析方法及相关设备
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
US20220414463A1 (en) Automated troubleshooter
Sabriye et al. A framework for detecting ambiguity in software requirement specification
CN113987199B (zh) 一种规范自动解译的bim智能审图方法、***和介质
CN113254507B (zh) 一种数据资产目录智能构建盘点方法
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
Wang et al. Understanding geological reports based on knowledge graphs using a deep learning approach
CN114331122A (zh) 重点人员风险等级评估方法及相关设备
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN113220901A (zh) 基于增强智能的写作构思辅助***、网路***
CN117648093A (zh) 基于大模型和自定制需求模板的rpa流程自动化生成方法
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
US20220076109A1 (en) System for contextual and positional parameterized record building
CN112632223B (zh) 案事件知识图谱构建方法及相关设备
Yang et al. User story clustering in agile development: a framework and an empirical study
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
CA3104292C (en) Systems and methods for identifying and linking events in structured proceedings
Qiu et al. NeuroSPE: A neuro‐net spatial relation extractor for natural language text fusing gazetteers and pretrained models
CN114780403A (zh) 基于增强代码属性图的软件缺陷预测方法及预测装置
Sonje et al. draw2code: Ai based auto web page generation from hand-drawn page mock-up
CN117874261B (zh) 基于课程学习的问答式事件抽取方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination