CN113742495A - 基于预测模型的评级特征权重确定方法及装置、电子设备 - Google Patents
基于预测模型的评级特征权重确定方法及装置、电子设备 Download PDFInfo
- Publication number
- CN113742495A CN113742495A CN202111043898.7A CN202111043898A CN113742495A CN 113742495 A CN113742495 A CN 113742495A CN 202111043898 A CN202111043898 A CN 202111043898A CN 113742495 A CN113742495 A CN 113742495A
- Authority
- CN
- China
- Prior art keywords
- entities
- feature
- entity
- target
- rating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 87
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000005295 random walk Methods 0.000 claims description 3
- 239000007983 Tris buffer Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 12
- 238000005065 mining Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 5
- 235000008694 Humulus lupulus Nutrition 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开一种基于预测模型的评级特征权重确定方法及装置、电子设备,属于人工智能技术领域。该方法包括:获取知识图谱,知识图谱根据采集到的评级特征数据所构建,知识图谱包括多个特征实体及多个特征实体之间的关联关系,且多个特征实体中包括多个目标实体。根据知识图谱,生成各个目标实体的关联向量特征,关联向量特征是对与目标实体存在关联关系的特征实体的向量表示。再利用各个目标实体的关联向量特征对预先确定的预测模型进行训练,得到训练完成的预测模型,并根据训练完成的预测模型确定评级特征的权重矩阵,从而基于评级特征知识体系实现了客观的特征权重分配,无需人为因素的干预,有利于ESG评级的公正性。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于预测模型的评级特征权重确定方法及装置、电子设备。
背景技术
ESG评级,即环境(Environmental)、社会(Social)和治理(Governance)评级,用于为企业ESG风控、模型构建、投资组合管理的整合应用提供智慧化工具和数据支持。现有方式中,对企业的ESG评级体系包含定性、定量和负面行为与风险三方面,每一方面都依赖于人工经验总结的特征指标和相应权重,再交由模型进行量化。因此,ESG评级特征指标的权重分配存在较多主观判断,难以做到客观,进而影响到ESG评级的公正性。
发明内容
本申请提供一种基于预测模型的评级特征权重确定方法及装置、电子设备,其主要目的在于提高ESG评级的公正性。
为实现上述目的,本申请实施例提供了一种基于预测模型的评级特征权重确定方法,所述方法包括以下步骤:
获取知识图谱,所述知识图谱根据采集到的评级特征数据所构建,所述知识图谱包括多个特征实体及多个特征实体之间的关联关系,所述多个特征实体中包括多个目标实体;根据所述知识图谱,生成各个所述目标实体的关联向量特征,所述关联向量特征是对与所述目标实体存在关联关系的特征实体的向量表示;利用各个所述目标实体的关联向量特征对预先确定的预测模型进行训练,得到训练完成的预测模型;根据所述训练完成的预测模型,确定评级特征的权重矩阵。
为实现上述目的,本申请实施例还提出了一种基于预测模型的评级特征权重确定装置,所述装置包括:
获取模块,用于获取知识图谱,所述知识图谱根据采集到的评级特征数据所构建,所述知识图谱包括多个特征实体及多个特征实体之间的关联关系,所述多个特征实体中包括多个目标实体;
生成模块,用于根据所述知识图谱,生成各个所述目标实体的关联向量特征,所述关联向量特征是对与所述目标实体存在关联关系的特征实体的向量表示;
训练模块,用于利用各个所述目标实体的关联向量特征对预先确定的预测模型进行训练,得到训练完成的预测模型;
确定模块,用于根据所述训练完成的预测模型,确定评级特征的权重矩阵。
为实现上述目的,本申请实施例还提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现前述方法的步骤。
为实现上述目的,本申请提供了一种存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述方法的步骤。
本申请提出的基于预测模型的评级特征权重确定方法及装置、电子设备,根据对采集到的评级特征数据构建有知识图谱,能够有效地结构化各个用于评级的特征实体及其关联关系,形成客观透明的知识体系。其中,多个特征实体中包括多个目标实体。基于此,通过获取知识图谱,可以确定与各个目标实体相关联的特征实体并生成相应的关联向量特征,再利用各个目标实体的关联向量特征对预先确定的预测模型进行训练,从而结合各目标实体与不同特征实体的特征关联性实现预测模型的参数学习,最终得到训练完成的预测模型,可用于确定评级特征的权重矩阵。可见,整个过程没有人为因素的干预,而是基于评级特征知识体系实现了客观的特征权重分配,有利于ESG评级的公正性。
附图说明
图1是本申请实施例所应用的一种电子设备的结构框图。
图2是本申请实施例一提供的基于预测模型的评级特征权重确定方法的流程图。
图3是本申请实施例中一种本体描述模型的数据结构示意图。
图4是本申请实施例二提供的基于预测模型的评级特征权重确定方法的流程图。
图5是本申请实施例所应用的一种基于预测模型的评级特征权重确定装置的结构框图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本申请提供一种基于预测模型的评级特征权重确定方法,应用于一种电子设备。参照图1所示,图1是本申请实施例所应用的一种电子设备的结构框图。
在本实施例中,电子设备可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
该电子设备包括:存储器11、处理器12、网络接口13及数据总线14。
存储器11包括至少一种类型的可读存储介质,至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备的内部存储单元,例如该电子设备的硬盘。在另一些实施例中,可读存储介质也可以是电子设备的外部存储器,例如电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备的评级特征权重确定程序10、多种样本集及预测模型等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行评级特征权重确定程序等。
网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子设备与其他电子设备之间建立通信连接。
数据总线14用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-14的电子设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
下面对本申请实施例公开的一种基于预测模型的评级特征权重确定方法进行具体说明。
实施例一
如图2所示,图2是本申请实施例一提供的基于预测模型的评级特征权重确定方法的流程图。基于图1所示的电子设备,处理器12执行存储器11中存储的评级特征权重确定程序10时实现如下步骤:
步骤S210:获取知识图谱。
在本申请实施例中,知识图谱根据采集到的评级特征数据所构建。评级特征数据可以包括对多种评级特征分别获得的采集数据,而评级特征表示用于ESG评级的特征类型,这些特征类型可以如表1所示,对特征类型的数目及分类不构成具体限定。
表1特征类型的分类及关联关系表
可以理解的是,还可以进一步划分属于第二子类的评级特征,并记录有各第一子类与第二子类的关联关系,以及不同第二子类之间的关联关系,对进一步划分的层级数目不做具体限定。举例来说,可以将“经营管理事件”细分为并购收购和高管辞职事件等从属于“经营管理事件”的第二子类的评级特征;或者,将“污染事件”细分为污染泄露和违规排放事件等从属于“污染事件”的第二子类的评级特征。
一些可选的实现方式中,步骤S210之前,可以根据指定的多种评级特征,确定挖掘要素。其中,挖掘要素可以表示针对多种评级特征进行数据采集所涉及的关键词,具体可包括评级特征本身的关键词以及评级特征相关的关键词(比如时间、地点、排放量、处罚金额、投资额和投资标的等)。之后,再根据挖掘要素进行数据采集,得到用于构建知识图谱的评级特征数据。可选的,数据采集方式可以包括但不限于:利用搜索引擎或者爬虫技术,从公司公告、财经新闻、环保部门的处罚通知以及其他多种互联网信源采集数据;通过数据仓库技术(extract transform load,ETL)从指定的本体数据库和云端数据库进行数据查询及挖掘。
在本申请实施例中,知识图谱包括多个特征实体及多个特征实体之间的关联关系,多个特征实体中包括多个目标实体。其中,每个特征实体均对应于一种评级特征,且特征实体具体为相应评级特征的一个采集数据,比如,针对“高管”这一评级特征,可以采集到管理人A、管理人B和管理人C这三个特征实体。目标实体可以是对目标特征的采集数据,目标特征是多种评级特征中指定的特征类型,与ESG评级目的及其对象有关。示例性的,若应用于对各企业的ESG评级,则目标特征可以是企业。
一些可选的实现方式中,在确定挖掘要素之前,还可以获取定义的本体描述模型,本体描述模型可以是表示多种评级特征以及不同评级特征之间关联关系的数据模型,形成了结构化的评级特征体系。本体描述模型的类型可采用网络本体语言(web ontologylanguage,OWL)、资源描述框架(resource description framework,RDF)或者RDF Schema等,不做具体限定。以图3为例进行说明,图3是本申请实施例中一种本体描述模型的数据结构示意图。如图3所示,基于OWL的本体描述模型中,存在关联关系的评级特征之间通过连接边相互连接,且连接边还可以具体表示相应关联关系的类型,关联关系的类型可以包括从属关系、相反关系、对称关系、传递关系和其他语义标注的关联关系等,亦不做限定。比如,第一子类11(或第一子类12)与大类1的关联关系类型为从属关系类型,而第一子类31与第二子类32的关联关系类型可以是相反关系类型。故,采用该本体描述模型,能够提供快速灵活的数据建模能力,并实现高效的自动推理。
实际应用中,可以先由人为定义本体描述模型,再基于本体描述模型包含的评级特征及不同评级特征之间的关联关系确定挖掘要素以进行数据采集,从而对本体描述模型实例化,构建出知识图谱。一种实现方式中,各个大类可以用于对第一子类的分类参考,对大类进行数据挖掘,可以得到与大类存在从属关系的各第一子类所对应的特征实体,比如对大类3进行数据挖掘,得到第一子类32对应的特征实体E1。进而,示例性的,结合第一子类32对应的关联关系对特征实体E1进行挖掘,可以得到第二子类321对应的特征实体E2以及第一子类31对应的特征实体E3。结合第二子类321对应的关联关系对特征实体E2进行挖掘,可以得到第一子类21对应的特征实体E4和第二子类121对应的特征实体E5。而结合第二子类121对应的关联关系对特征实体E5进行挖掘,还可以得到第一子类12对应的特征实体E6。
可以理解的是,知识图谱中任意两个特征实体之间的关联关系可以与这两个特征实体各自对应的评级特征之间的关联关系一致。比如,第一子类31和第二子类321均与第一子类32直接连接,则上述特征实体E2和特征实体E3均与特征实体E1直接关联。第一子类21和第二子类121均通过第二子类321与第一子类32连接,则上述特征实体E4和特征实体E5均通过特征实体E2与特征实体E1存在关联关系。第一子类12依次通过第二子类121和第二子类321与第一子类32连接,则上述特征实体E6依次通过特征实体E5和特征实体E2与特征实体E1存在关联关系。
进一步,还可通过多次数据采集不断更新与补充知识图谱,进而不断完善本体描述模型的结构体系。比如,当知识图谱中存在新增特征实体,且新增特征实体对应的评级特征不存在于本体描述模型中,则可以将新增特征实体对应的评级特征加入本体描述模型。当知识图谱中任意两个特征实体存在关联关系,但其中一个特征实体对应的评级特征与另一个特征实体对应的评级特征之间的关联关系不存在于本体描述模型中,则还可以在本体描述模型中对这两个特征实体各自对应的评级特征建立关联关系。
步骤S220:根据知识图谱,生成各个目标实体的关联向量特征。
在本申请实施例中,关联向量特征是对与目标实体存在关联关系的特征实体的向量表示。可选的,可以利用预先确定的编码器对与目标实体存在关联关系的特征实体进行编码,得到关联向量特征,便于分析目标实体在知识图谱中的关联信息。其中,编码器可以是word2vec模型等,对此不做限定。
步骤S230:利用各个目标实体的关联向量特征对预先确定的预测模型进行训练,得到训练完成的预测模型。
在本申请实施例中,预测模型可以采用神经网络模型(比如卷积神经网络模型和循环神经网络模型等)、贝叶斯模型或注意力模型等,对此不做限定。具体的,针对各个目标实体,关联向量特征可以包括至少一个关联向量,每个关联向量分别对应于不同类型的评级特征,故将关联向量特征输入预测模型后,预测模型可以实现对各个关联向量的权重分配。
一些实现方式中,可以将各个目标实体的关联向量特征分别输入预先确定的预测模型中进行训练,则预测模型的训练步骤可以为:获取各个目标实体的训练权重,以作为验证集,并将各个目标实体的关联向量特征作为训练集,利用训练集对预设确定的预测模型进行训练,得到预测模型对各个关联向量特征的输出,再利用验证集验证相应输出的准确率,若准确率大于或等于预设准确率,则训练结束,若准确率小于预设准确率,则继续执行训练步骤。其中,预设准确率是需要预先设置的参数,可根据用户需求进行相应调整。
可选的,获取各个目标实体的训练权重可以为:确定排序指标,并根据排序指标获取各个目标实体对应的排序数据。其中,排序指标可以是收益率和上述任意评级特征等,不做限定。之后,结合各个目标实体对应的排序数据,为各个目标实体分配训练权重。具体的训练权重分配方式可以包括但不限于:对各个目标实体对应的排序数据进行归一化处理(比如线性函数归一化或0均值标准化等),得到各个目标实体的训练权重。
另一些实现方式中,还可以对知识图谱中的所有目标实体进行两两对比处理,得到对比结果。针对每一次对比处理,根据对比结果确定训练结束条件,将进行对比处理的两个目标实体各自对应的关联向量特征对预先确定的预测模型进行训练,直到预测模型的输出满足训练结束条件。可见,这样能够结合两个目标实体的对比结果指导预测模型的训练,使得预测模型以满足对比结果的输出为标准不断学习与优化模型参数的配置,从而融合不同目标实体的实际对比排序进行评级特征的权重分配。
具体的,对比处理可以指对所有目标实体各自的对比数据进行两两对比,对比数据可以是根据指定指标对目标实体采集的数据,指定指标具体可参照上述排序指标,不做限定。
步骤S240:根据训练完成的预测模型,确定评级特征的权重矩阵。
在本申请实施例中,预测模型的模型参数可以表示针对多种类型的评级特征的权重分配结果,故通过获取训练完成的预测模型的模型参数,即可确定最终的权重矩阵,且权重矩阵所包含的所有元素的总和为1。
实际应用中,针对各个目标实体,还可以获得目标实体相关的至少一个目标评级特征的评分情况。在确定评级特征的权重矩阵之后,利用该权重矩阵对各目标评级特征对应的评分情况进行加权计算,即可得到目标实体的总评分值,实现了完整的评级过程。
可见,实施上述方法实施例,有效地结构化各个用于企业评级的特征实体及其关联关系,形成客观透明的知识体系,并以此结合各目标实体与不同特征实体的特征关联性实现预测模型的参数学习,最终得到训练完成的预测模型,用于确定评级特征的权重矩阵。可见,整个过程没有人为因素的干预,而是基于评级特征知识体系实现了客观的特征权重分配,有利于ESG评级的公正性。
实施例二
如图4所示,图4是本申请实施例二提供的基于预测模型的评级特征权重确定方法的流程图。基于图1所示的电子设备,处理器12执行存储器11中存储的评级特征权重确定程序10时实现如下步骤:
步骤S410:获取知识图谱。
步骤S420:获取知识图谱中各个特征实体的特征向量。
在一些可选的实施方式中,步骤S420具体可以为:
基于知识图谱进行随机游走,得到多个三元组,三元组包括直接关联的两个特征实体以及直接关联的两个特征实体之间的关联关系。针对各个三元组,将三元组代入预先确定的目标函数进行训练,得到目标函数最小时三元组包括的两个特征实体各自的特征向量,从而实现对知识图谱中特征实体及其直接关联关系的向量化。其中,目标函数满足:
其中,fr(h,t)为目标函数,h和t为三元组包括的两个特征实体,hr为h的特征向量,tr为t的特征向量,r为h和t之间的关联关系的特征向量。而hr=hMr,tr=tMr,r=roMr,Mr为训练矩阵,ro为h和t之间的关联关系。
具体的,随机游走的算法可以采用node2vec、深度优先游走或者广度优先游走等。可见,最小化上述目标函数,可以使得直接关联的两个特征实体的向量表示在投影后的空间中彼此靠近。
在另一些可选的实施方式中,步骤S420具体还可以采用TransH模型、TransR模型或者TransD模型等基于翻译的模型获取知识图谱中各个特征实体的特征向量。
步骤S430:针对各个目标实体,从知识图谱中获取目标实体对应的m个实体组。
在本申请实施例中,m为正整数。目标实体对应的m个实体组均与目标实体存在关联关系,其中,第j个实体组包括通过j-1个特征实体与目标实体存在关联关系的特征实体,j为正整数且j∈[1,m]。例如,第1个实体组包括直接与目标实体存在关联关系的特征实体,第2实体组包括相隔1个特征实体与目标实体存在关联关系的特征实体。可以理解的是,j取值越大,则第j个实体组与目标实体之间的关联关系越弱。
仍结合上述以图3为例的描述进行说明。基于图3所示的本体描述模型构建知识图谱后,假设第一子类32对应的特征实体E1为目标实体,则可以将上述特征实体E2和E3加入目标实体的第1个实体组,将上述特征实体E4和E5加入目标实体的第2个实体组,以及将上述特征实体E6加入目标实体的第3个实体组。
步骤S440:针对各个目标实体,根据目标实体对应的各个实体组,对实体组中所有特征实体的特征向量进行融合处理,得到融合向量。
基于步骤S440,实现了同一跳数下特征实体的特征向量融合。具体的,融合处理的方式可以包括但不限于:对实体组中所有特征实体的特征向量进行求和计算;或者,对实体组中所有特征实体的特征向量进行融合处理进行求和及平均计算。
步骤S450:针对各个目标实体,将目标实体对应的m个融合向量分别输入预先确定的图注意力神经网络中进行训练,得到目标实体对应的m个关联向量,以作为目标实体对应的关联向量特征。
在本申请实施例中,图注意力神经网络具体可以采用transformer神经网络模型,但不构成限定。而基于transformer神经网络模型,能够结合不同跳数下与目标实体关联的统计和语义信息,对不同跳数的融合向量进行编码,使得经图注意力神经网络输出的关联向量更加准确地反映出与目标实体的关联程度。
步骤S460:对知识图谱中的所有目标实体进行两两对比处理,得到对比结果。
在本申请实施例中,进行对比处理的两个目标实体可以包括第一目标实体和第二目标实体。一种可选的实施方式中,步骤S460具体可以为:对知识图谱中的所有目标实体进行基于收益率的两两对比处理,得到对比结果。相应的,训练结束条件包括:若对比结果指示第一目标实体的收益率大于第二目标实体的收益率,神经网络模型的输出大于预设输出值;或者,若对比结果指示第一目标实体的收益率小于第二目标实体的收益率,神经网络模型的输出小于预设输出值。其中,预设输出值可以由人为设定与调整,比如预设输出值为0.5,对此不做具体限定。可见,本申请还能够基于各个目标实体的收益率,对各个目标实体进行动态的收益价值对比及排序,进而结合目标实体的收益价值排序指导评级特征的权重分配,因此,此时得到的权重分配结果更加符合投资者对投资组合配置和策略更新的评级需求。
另一种可选的实施方式中,可以确定指定时间,则步骤S460具体也可以为:对知识图谱中的所有目标实体进行基于指定时间内对比数据的两两对比处理,得到对比结果。还可选的,步骤S440之前,还可以针对各个目标实体,从目标实体对应的m个实体组中去除不属于指定时间内的特征实体,得到m个更新的实体组。相应的,步骤S440具体为:针对各个目标实体,根据目标实体对应的各个更新的实体组,对更新的实体组中所有特征实体的特征向量进行融合处理,得到融合向量。
其中,每个特征实体均记录有相应的采集时间,指定时间可以是一个指定的时间段,利用每个特征实体对应的采集时间与指定时间进行比对,即可确定各特征实体是否属于指定时间内。可见,通过指定时间范围进行特征筛选,能够在构建、完善和更新知识图谱的同时,实现动态化的特征选择及权重更新,既便于改善权重分配的时效性特点,也能灵活融合重要时间段的采集数据来满足更加多样化的权重分配需求。
步骤S470:针对每一次对比处理,根据对比结果确定训练结束条件,将进行对比处理的两个目标实体各自对应的关联向量特征对预先确定的预测模型进行训练,直到预测模型的输出满足训练结束条件。
在本申请实施例中,具体的,预先确定的预测模型可以满足:
步骤S480:根据训练完成的预测模型,确定评级特征的权重矩阵。
可以理解的是,本实施例中步骤S410、S470和S480的具体实现方式还可以参照上述实施例一中对步骤S210、S230和S240的描述,在此不再赘述。
在本申请实施例中,权重矩阵中第i个元素可以表示第i跳评级特征的权重值,第i跳评级特征满足:第i跳评级特征对应的特征实体可在知识图谱中通过i-1个特征实体与目标实体存在关联关系。则,利用权重矩阵对各目标评级特征对应的评分情况进行加权计算,具体可以为:针对各个目标评级特征,确定目标评级特征相对于目标实体的跳数w。根据跳数w,获取权重矩阵中第w个元素,再利用该第w个元素与目标评级特征对应的评分情况进行加权计算,得到加权分数。最后,对各个目标评级特征的加权分数进行求和计算,得到目标实体的总评分值。
以表1和表2为例进行说明,假设权重矩阵W=[W1W2W3]=[0.5 0.3 0.2],且表1所示的评级特征中,投资基金、高管、上游产业链和经营管理事件对应的跳数为1,污染事件和政府部门对应的跳数为2,法人、基金经理、政府官员和下游产业链对应的跳数为3,某企业相关的各个评级特征的评分情况如表2所示:
表2某企业评分情况表
评级特征(第一子类) | 评分情况 |
企业 | —— |
投资基金 | 22 |
政府部门 | 19 |
法人 | 15 |
基金经理 | 20 |
高管 | 8 |
政府官员 | 20 |
上游产业链 | 14 |
下游产业链 | 15 |
经营管理事件 | 12 |
污染事件 | 29 |
则,该企业的总评分值Score=0.5×(22+8+14+12)+0.3×(29+19)+0.2×(15+20+20+15)=56.4。
可见,实施上述方法实施例,有效地结构化各个用于企业评级的特征实体及其关联关系,形成客观透明的知识体系,并以此结合各目标实体与不同特征实体的特征关联性实现预测模型的参数学习,最终得到训练完成的预测模型,用于确定评级特征的权重矩阵。故,整个过程没有人为因素的干预,而是基于评级特征知识体系实现了客观的特征权重分配,有利于ESG评级的公正性。此外,还能够结合两个目标实体的对比结果指导预测模型的训练,使得预测模型以满足对比结果的输出为标准不断学习与优化模型参数的配置,从而融合不同目标实体的实际对比排序进行评级特征的权重分配。
本申请实施例还提供一种基于预测模型的评级特征权重确定装置。请参阅图5,图5是本申请实施例所应用的一种基于预测模型的评级特征权重确定装置的结构框图。如图5所示,该基于预测模型的评级特征权重确定装置500包括:
获取模块510,用于获取知识图谱,知识图谱根据采集到的评级特征数据所构建,知识图谱包括多个特征实体及多个特征实体之间的关联关系,多个特征实体中包括多个目标实体。
生成模块520,用于根据知识图谱,生成各个目标实体的关联向量特征,关联向量特征是对与目标实体存在关联关系的特征实体的向量表示。
训练模块530,用于利用各个目标实体的关联向量特征对预先确定的预测模型进行训练,得到训练完成的预测模型。
确定模块540,用于根据训练完成的预测模型,确定评级特征的权重矩阵。
需要说明的是,本实施例的具体实现过程可参见上述方法实施例所述的具体实现过程,亦不再赘述。
此外,本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上参照附图说明了本申请的优选实施例,并非因此局限本申请的权利范围。本领域技术人员不脱离本申请的范围和实质内所作的任何修改、等同替换和改进,均应在本申请的权利范围之内。
Claims (10)
1.一种基于预测模型的评级特征权重确定方法,其特征在于,所述方法包括:
获取知识图谱,所述知识图谱根据采集到的评级特征数据所构建,所述知识图谱包括多个特征实体及多个特征实体之间的关联关系,所述多个特征实体中包括多个目标实体;
根据所述知识图谱,生成各个所述目标实体的关联向量特征,所述关联向量特征是对与所述目标实体存在关联关系的特征实体的向量表示;
利用各个所述目标实体的关联向量特征对预先确定的预测模型进行训练,得到训练完成的预测模型;
根据所述训练完成的预测模型,确定评级特征的权重矩阵。
2.根据权利要求1所述的方法,其特征在于,所述利用各个所述目标实体的关联向量特征对预先确定的预测模型进行训练,得到训练完成的预测模型,包括:
对所述知识图谱中的所有所述目标实体进行两两对比处理,得到对比结果;
针对每一次对比处理,根据所述对比结果确定训练结束条件,将进行所述对比处理的两个所述目标实体各自对应的关联向量特征对预先确定的预测模型进行训练,直到所述预测模型的输出满足所述训练结束条件。
4.根据权利要求3所述的方法,其特征在于,所述对所述知识图谱中的所有所述目标实体进行两两对比处理,得到对比结果,包括:
对所述知识图谱中的所有所述目标实体进行基于收益率的两两对比处理,得到对比结果;
所述训练结束条件包括:
若所述对比结果指示所述第一目标实体的收益率大于所述第二目标实体的收益率,所述预测模型的输出大于预设输出值;
或者,
若所述对比结果指示所述第一目标实体的收益率小于所述第二目标实体的收益率,所述预测模型的输出小于预设输出值。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述关联向量特征包括m个关联向量,m为正整数,所述方法还包括:
获取所述知识图谱中各个特征实体的特征向量;
所述根据所述知识图谱,生成各个所述目标实体的关联向量特征,包括:
针对各个所述目标实体,从所述知识图谱中获取所述目标实体对应的m个实体组,其中,第j个实体组包括通过j-1个特征实体与所述目标实体存在关联关系的特征实体,j为正整数且j∈[1,m];
针对各个所述目标实体,根据所述目标实体对应的各个实体组,对所述实体组中所有特征实体的特征向量进行融合处理,得到融合向量;
针对各个所述目标实体,将所述目标实体对应的m个融合向量分别输入预先确定的图注意力神经网络中进行训练,得到所述目标实体对应的m个关联向量。
6.根据权利要求5所述的方法,其特征在于,所述针对各个所述目标实体,根据所述目标实体对应的各个实体组,对所述实体组中所有特征实体的特征向量进行融合处理之前,所述方法还包括:
确定指定时间,并针对各个所述目标实体,从所述目标实体对应的m个实体组中去除不属于所述指定时间内的特征实体,得到m个更新的实体组;
所述针对各个所述目标实体,根据所述目标实体对应的各个实体组,对所述实体组中所有特征实体的特征向量进行融合处理,得到融合向量,包括:
针对各个所述目标实体,根据所述目标实体对应的各个更新的实体组,对所述更新的实体组中所有特征实体的特征向量进行融合处理,得到融合向量。
8.一种基于预测模型的评级特征权重确定装置,其特征在于,所述装置包括:
获取模块,用于获取知识图谱,所述知识图谱根据采集到的评级特征数据所构建,所述知识图谱包括多个特征实体及多个特征实体之间的关联关系,所述多个特征实体中包括多个目标实体;
生成模块,用于根据所述知识图谱,生成各个所述目标实体的关联向量特征,所述关联向量特征是对与所述目标实体存在关联关系的特征实体的向量表示;
训练模块,用于利用各个所述目标实体的关联向量特征对预先确定的预测模型进行训练,得到训练完成的预测模型;
确定模块,用于根据所述训练完成的预测模型,确定评级特征的权重矩阵。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7任一项所述的基于预测模型的评级特征权重确定方法的步骤。
10.一种存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的基于预测模型的评级特征权重确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111043898.7A CN113742495B (zh) | 2021-09-07 | 2021-09-07 | 基于预测模型的评级特征权重确定方法及装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111043898.7A CN113742495B (zh) | 2021-09-07 | 2021-09-07 | 基于预测模型的评级特征权重确定方法及装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742495A true CN113742495A (zh) | 2021-12-03 |
CN113742495B CN113742495B (zh) | 2024-02-23 |
Family
ID=78736543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111043898.7A Active CN113742495B (zh) | 2021-09-07 | 2021-09-07 | 基于预测模型的评级特征权重确定方法及装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742495B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387062A (zh) * | 2022-01-13 | 2022-04-22 | 北京自如信息科技有限公司 | 管家推荐模型的训练、管家推荐方法及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279623A1 (en) * | 2013-03-13 | 2014-09-18 | Northeastern University | Systems and methods for securing online content ratings |
US20160357738A1 (en) * | 2015-06-07 | 2016-12-08 | Apple Inc. | Apparatus, system and method for string disambiguation and entity ranking |
CN110309234A (zh) * | 2019-06-14 | 2019-10-08 | 广发证券股份有限公司 | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 |
CN111143672A (zh) * | 2019-12-16 | 2020-05-12 | 华南理工大学 | 基于知识图谱的专业特长学者推荐方法 |
CN111797406A (zh) * | 2020-07-15 | 2020-10-20 | 智博云信息科技(广州)有限公司 | 一种医疗基金数据分析处理方法、装置及可读存储介质 |
CN111897970A (zh) * | 2020-07-27 | 2020-11-06 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
WO2020232879A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 风险传导关联图谱优化方法、装置、计算机设备和存储介质 |
CN112613762A (zh) * | 2020-12-25 | 2021-04-06 | 北京知因智慧科技有限公司 | 基于知识图谱的集团评级方法、装置和电子设备 |
CN113095697A (zh) * | 2021-04-20 | 2021-07-09 | 华南师范大学 | 城市边缘区三生空间评价分析方法、***、设备及介质 |
WO2021139283A1 (zh) * | 2020-06-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
-
2021
- 2021-09-07 CN CN202111043898.7A patent/CN113742495B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279623A1 (en) * | 2013-03-13 | 2014-09-18 | Northeastern University | Systems and methods for securing online content ratings |
US20160357738A1 (en) * | 2015-06-07 | 2016-12-08 | Apple Inc. | Apparatus, system and method for string disambiguation and entity ranking |
WO2020232879A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 风险传导关联图谱优化方法、装置、计算机设备和存储介质 |
CN110309234A (zh) * | 2019-06-14 | 2019-10-08 | 广发证券股份有限公司 | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 |
CN111143672A (zh) * | 2019-12-16 | 2020-05-12 | 华南理工大学 | 基于知识图谱的专业特长学者推荐方法 |
WO2021139283A1 (zh) * | 2020-06-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
CN111797406A (zh) * | 2020-07-15 | 2020-10-20 | 智博云信息科技(广州)有限公司 | 一种医疗基金数据分析处理方法、装置及可读存储介质 |
CN111897970A (zh) * | 2020-07-27 | 2020-11-06 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
CN112613762A (zh) * | 2020-12-25 | 2021-04-06 | 北京知因智慧科技有限公司 | 基于知识图谱的集团评级方法、装置和电子设备 |
CN113095697A (zh) * | 2021-04-20 | 2021-07-09 | 华南师范大学 | 城市边缘区三生空间评价分析方法、***、设备及介质 |
Non-Patent Citations (1)
Title |
---|
蔡玉宝;左春;张正;: "信用评级***的设计与开发", 计算机工程与设计, no. 07, 16 April 2008 (2008-04-16) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387062A (zh) * | 2022-01-13 | 2022-04-22 | 北京自如信息科技有限公司 | 管家推荐模型的训练、管家推荐方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113742495B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、***、介质及应用 | |
CN110751355A (zh) | 一种科技成果评估方法和装置 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN110727852A (zh) | 一种推送招聘推荐服务的方法、装置及终端 | |
CN112905868A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN112449700A (zh) | 语义模型实例化方法、***和装置 | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护***及方法 | |
CN117112776A (zh) | 一种基于大语言模型的企业知识库管理和检索平台与方法 | |
CN110544023A (zh) | 一种企业区域性贡献力的数据化评估***及其评估方法 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN115099310A (zh) | 训练模型、对企业进行行业分类的方法和装置 | |
CN114067308A (zh) | 智能匹配方法、装置、电子设备及存储介质 | |
CN113742495B (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
CN114282875A (zh) | 流程审批确定性规则和语义自学习结合判定方法及装置 | |
CN113571198B (zh) | 转化率预测方法、装置、设备及存储介质 | |
CN113222471B (zh) | 一种基于新媒体数据的资产风控方法及设备 | |
CN113034316B (zh) | 一种专利价值转换的分析方法及*** | |
CN114862006A (zh) | 一种基于人工智能的社会工作服务方案自动化生成方法和装置 | |
CN114417010A (zh) | 面向实时工作流的知识图谱构建方法、装置和存储介质 | |
CN115034762A (zh) | 一种岗位推荐方法、装置、存储介质、电子设备及产品 | |
CN114092057A (zh) | 一种项目模型的构建方法、装置、终端设备和存储介质 | |
TWI419071B (zh) | Active knowledge management system, method and computer program product for problem solving |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |