CN113902569A

CN113902569A - 数字资产中的绿色资产的占比的识别方法及相关产品

Info

Publication number: CN113902569A
Application number: CN202111280770.2A
Authority: CN
Inventors: 诸世卓; 崔伟旗; 刘琛
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-10-30
Filing date: 2021-10-30
Publication date: 2022-01-07
Also published as: WO2023071120A1

Abstract

本申请涉及人工智能技术领域，具体涉及一种数字资产中的绿色资产的占比的识别方法及相关产品，该方法包括：对获取到的待识别数字资产的持仓数据进行文本识别，得到多个第一数字资产和第二数字资产；根据各第一数字资产的资产信息，得到至少一个第一文本段；确定各第一文本段分别与多个第二文本段之间的相似度；根据各第一文本段分别与多个第二文本段之间的相似度，确定目标第一文本段；根据目标第一文本段所描述的资产分布，确定各第一数字资产中的绿色资产的占比；根据各第一数字资产中的绿色资产的占比以及第二数字资产中的绿色资产的占比，确定待识别数字资产中的绿色资产的占比。

Description

数字资产中的绿色资产的占比的识别方法及相关产品

技术领域

本申请涉及人工智能技术领域，具体涉及一种数字资产中的绿色资产的占比的识别方法及相关产品。

背景技术

在全球气候变化合作的大背景下，各个管理部门需要厘清在自己管辖范围内的绿色和非绿色资产规模，以便更加科学的部署碳达峰和碳中和的实现路径。

投资机构在实现碳达峰和碳中和的过程中扮演着非常重要的角色，其投资标的的选择实际上将引导企业向绿色产业和碳中和达标的方向发展。

投资机构在统计其绿色投资比例时，由于监管和保密的需要，不能进行跨部门共享，都是由各个部门进行人工统计，主观性较强，精度低。

发明内容

本申请实施例提供了一种数字资产中的绿色资产的占比的识别方法及相关产品，提高对数字资产中的绿色资产的占比的识别精度。

第一方面，本申请实施例提供一种基于文本识别的数字资产中的绿色资产的占比的识别方法，包括：对获取到的待识别数字资产的持仓数据进行文本识别，得到多个第一数字资产和第二数字资产，其中，所述持仓数据中披露了各所述第一数字资产的资产信息，所述持仓数据中未披露所述第二数字资产的资产信息；根据各所述第一数字资产的资产信息，获取各所述第一数字资产的披露数据，并将各所述第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段，其中，所述至少一个第一文本段用于描述各所述第一数字资产的资产分布；根据相似度模型，确定各所述第一文本段分别与多个第二文本段之间的相似度，其中，所述多个第二文本段用于描述多个具有绿色属性的资金分布；根据各所述第一文本段分别与所述多个第二文本段之间的相似度，确定所述至少一个第一文本段中的目标第一文本段；根据所述目标第一文本段所描述的资产分布，以及各所述第一数字资产的总金额，确定各所述第一数字资产中的绿色资产的占比；根据所述待识别数字资产的管理者的画像，获取所述管理者管理的所有数字资产，并获取所述所有数字资产中披露了资产信息的数字资产中的绿色资产的平均占比，并将所述平均占比作为所述第二数字资产中的绿色资产的占比；根据各所述第一数字资产中的绿色资产的占比以及所述第二数字资产中的绿色资产的占比，确定所述待识别数字资产中的绿色资产的占比。

第二方面，本申请实施例提供一种绿色资产的占比的识别装置，包括：获取单元和处理单元；所述获取单元，用于获取待识别数字资产的持仓数据；所述处理单元，用于对获取到的待识别数字资产的持仓数据进行文本识别，得到多个第一数字资产和第二数字资产，其中，所述持仓数据中披露了各所述第一数字资产的资产信息，所述持仓数据中未披露所述第二数字资产的资产信息；所述获取单元，还用于根据各所述第一数字资产的资产信息，获取各所述第一数字资产的披露数据；所述处理单元，还用于将各所述第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段，其中，所述至少一个第一文本段用于描述各所述第一数字资产的资产分布；根据相似度模型，确定各所述第一文本段分别与多个第二文本段之间的相似度，其中，所述多个第二文本段用于描述多个具有绿色属性的资金分布；根据各所述第一文本段分别与所述多个第二文本段之间的相似度，确定所述至少一个第一文本段中的目标第一文本段；根据所述目标第一文本段所描述的资产分布，以及各所述第一数字资产的总金额，确定各所述第一数字资产中的绿色资产的占比；根据所述待识别数字资产的管理者的画像，获取所述管理者管理的所有数字资产，并获取所述所有数字资产中披露了资产信息的数字资产中的绿色资产的平均占比，并将所述平均占比作为所述第二数字资产中的绿色资产的占比；根据各所述第一数字资产中的绿色资产的占比以及所述第二数字资产中的绿色资产的占比，确定所述待识别数字资产中的绿色资产的占比。

第三方面，本申请实施例提供一种电子设备，包括：处理器，所述处理器与存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得计算机执行如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例，具有如下有益效果：

可以看出，在本申请实施方式中，通过获取待识别数字资产的持仓数据，并基于持仓数据拆分出第一数字资产和第二数字资产，然后基于文本识别技术以及机器模型，可以自动识别出第一数字资产和第二数字资产中的绿色资产的占比，最后基于第一数字资产和第二数字资产中的绿色资产的占比可自动识别出待识别数字资产中的绿色资产的占比，无需人工去待识别数字资产(基金)中的绿色资产的占比，从而节约了人工成本，并且避免了人工统计过程所带来的主观性，提高了对基金中的绿色资产的占比的识别精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于文本识别的数字资产中绿色资产的占比的识别方法的流程示意图；

图2为本申请实施例提供的一种基金的持仓数据的示意图；

图3为本申请实施例提供的一种股票中绿色资产的占比的识别方法流程示意图；

图4为本申请实施例提供的一种相似度模型训练方法的流程示意图；

图5为本申请实施例提供的一种债券中绿色资产的占比的识别方法流程示意图；

图6为本申请实施例提供的一种绿色资产的占比的识别装置的功能单元组成框图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

首先说明，本申请的应用场景为识别出基金中的绿色资产。因此，本申请所涉及的待识别数字资产为待识别股票。基金一般由多只股票、多只债券以及其他固收组成，而且，在进行持仓披露时，每只股票的资产信息都是完全披露的，比如，股票的名称，股票的占比，股票的净值都是完全披露的，等等；然而，对于债券来说，并不是所有的资产信息都公开，比如，有些债券公开了债券的名称、占比、净值，等等，本申请中将这样的债券称为已披露债券；有些债券没有公开任何信息，比如，未公开占比、净值，等等，将这些未公开的债券统一称为其他债券，等等，本申请中将这样债券统称为未披露债券，并且将这样的债券作为一个整体考虑，不再进行细分。对于其他固收通常是由银行存款等不具备或者无法判断绿色成分的固收资产组成，因为该部分不做统计。所以，本申请主要统计从基金中的股票和债券出发，去识别股票中的绿色比例。

为了便于描述，本申请中将待识别数字资产中披露了资产信息的多个数字资产(包括多只股票和多只已披露债券)称为多个第一数字资产，未披露资产信息的数字资产，即未披露债券称为第二数字资产。

下面将结合附图分别介绍如何获取每个第一数字资产中的绿色资产的占比以及第二数字资产中的绿色资产的占比。

参阅图1，图1为本申请实施例提供的一种基于文本识别的数字资产中的绿色资产的占比的识别方法。该方法应用于绿色资产的占比的识别装置。该方法包括以下步骤内容：

101：获取待识别数字资产的持仓数据。

示例性的，通过爬虫技术从该待识别数字资产的发行公司的平台或者从该待识别数字资产的第三方管理平台中获取该待识别数字资产的持仓数据。

102：对持仓数据进行文本识别，得到多个第一数字资产和第二数字资产。

示例性的，如图2所示，对持仓数据进行文本识别，得到关键词“股票名称”，然后对股票名称下的各个元素进行文本识别，得到多个第一数字资产中的部分第一数字资产，如图2示出的股票“中国中免”、“五粮液”，等等；同样，对持仓数据进行识别，得到关键词“债券名称”，然后对债券名称下的各个元素进行文本识别，得到多个第一数字资产中的另外一部分第一数字资产，如图2示出的债券“20农发09”、“21国开01”，等等。额外说明，对于第二数字资产来说，由于持仓数据中未披露该数字资产的资产信息，所以，从持仓数据中无法知道这些数字资产具体是什么，本申请中将这些未披露债券统一称为第二数字资产，也就是默认待识别数字资产中包含有第二数字资产，因此不用对持仓数据进行文本识别，默认待识别数字资产中包含有第二数字资产。

103：根据各第一数字资产的资产信息，获取各第一数字资产的披露数据，并将各第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段，其中，至少一个第一文本段用于描述各第一数字资产的资产分布。

示例性的，根据该持仓数据得到每个第一数字资产的资产名称，然后基于该资产名称通过爬虫技术获取每个第一数字资产的披露数据。

可选的，当第一数字资产为股票时，第一数字资产的披露数据为该股票的披露文档，即该股票所属企业发布的年报，则第一文本段所描述的资金分布是该股票所属企业的子产品的占比；基于机器阅读理解模型对该所属企业的年报进行文本分割，得到该至少一个第一文本段。后面详细介绍如何对年报进行文本分割，以及如何得到股票中的绿色资产的占比，在此不做过多描述。

可选的，当第一数字资产为债券(已披露债券)时，则第一数字资产的披露数据就是该债券的披露数据，也就是该债券的发行公司募集债券时的披露数据，则第一文本段所描述的资金分布就是该债券的资金用途。因此，通过机器阅读理解模型对该债券的披露数据进行文本分割，得到该至少一个第一文本段。后面详细介绍如何对该披露数据进行文本分割，以及如何得到已披露债券中的绿色资产的占比，在此不做过多描述。

104：根据相似度模型，确定各第一文本段分别与多个第二文本段之间的相似度，其中，多个第二文本段用于描述多个具有绿色属性的资金分布。

示例性的，当计算股票中的绿色资产的占比时，则该多个第二文本段所描述的多个资金分布为多个具有绿色属性的产业，简称多个第一产业。

示例性的，当计算已披露债券的绿色资产的占比时，则该多个文本段所描述的多个资金分布为多个具有绿色属性的资金用途。

105：根据各第一文本段分别与多个第二文本段之间的相似度，确定至少一个第一文本段中的目标第一文本段。

示例性的，确定各第一文本段与多个第二文本段之间的相似度中的最大相似度，若该最大相似度大于预设阈值，则将第一文本段作为目标第一文本段。

106：根据目标第一文本段所描述的资产分布，以及各第一数字资产的总金额，确定各第一数字资产中的绿色资产的占比。

示例性的，当第一数字资产为股票时，则将该目标第一文本段所描述的子产品的占比作为各第一数字资产中的绿色资产的占比。当第一数字资产为债券时，则将目标第一文本段所描述的资金用途中所规划的资金占该第一数字资产的总金额的比例，作为该第一数字资产中的绿色资产的占比。

107：根据待识别数字资产的管理者的画像，获取管理者管理的所有数字资产，并获取所有数字资产中披露了资产信息的数字资产中的绿色资产的平均占比，并将平均占比作为第二数字资产中的绿色资产的占比。

示例性的，根据该待识别数字资产的管理者的画像(本申请中可以理解为基金经理)，获取该管理者所管理的所有数字资产；获取所有数字资产存在披露信息的数字资产中的绿色资产的平均占比，并将平均占比作为第二数字资产中的绿色资产的占比。

具体的，获取该基金经理管理的所有基金；然后，对该基金经理管理的任意一个基金中的任意一个已披露债券，按照上述获取绿色资产的占比的方式，获取该任意一个基金中的任意一个已披露债券中绿色资产的占比，然后将该任意一个基金中的所有已披露债券中绿色资产的占比求和，得到该任意一个基金中与债券相关的占比；最后，将所有管理的基金中与债券相关的占比求平均值，得到该平均占比。

108：根据各第一数字资产中的绿色资产的占比以及第二数字资产中的绿色资产的占比，确定待识别数字资产中的绿色资产的占比。

示例性的，获取每个第一数字资产的净值相对于待识别数字资产的净值的第一比例，如图2所示，可以对持仓数据进行文本识别，得到该第一比例；然后，根据每个第一数字资产的第一比例和绿色资产的占比，确定每个第一数字资产中的绿色资产相对于待识别数字资产的净值的第一占比。

示例性的，每个第一数字资产的第一占比可以通过公式(1)表示：

为多个第一数字资产中的第i个第一数字资产的第一占比，

为第i个第一数字资产的第一比例，

为第i个第一数字资产中绿色资产的占比。

示例性的，由于第二数字资产的资产信息未披露，所以无法从持仓数据中直接获取第二数字资产的净值相对于待识别数字资产的净值的第二比例。但是，持仓数据会披露每个第一数字资产相对于待识别数字资产的净值的总比例。因此可根据持仓数据以及每个第一数字资产的第一比例，确定第二数字资产的净值相对于待识别数字资产的净值的第二比例。

示例性的，第二数字资产的第二比例可以通过公式(2)表示：

其中，HP^b2为第二数字资产的净值相对于待识别数字资产的净值的第二比例，

为第i个第一数字资产相对于待识别数字资产的净值的比例，m为多个第一数字资产的数量。

进一步地，根据第二数字资产的第二比例以及绿色资产的占比，确定第二数字资产中的绿色资产相对于待识别数字资产的净值的第二占比。

示例性的，第二数字资产的第二占比可以通过公式(3)表示：

其中，FG^b2为第二数字资产的第二占比，

为第二数字资产中绿色资产的占比。

示例性的，对每个第一数字资产的第一占比以及第二数字资产的第二占比进行求和，得到待识别数字资产中的绿色资产的占比。

示例性的，待识别数字资产中的绿色资产的占比可以通过公式(4)表示：

其中，FG为待识别数字资产中的绿色资产的占比。

在本申请的一个实施方式中，在确定待识别数字资产中的绿色资产的占比之前，还可以对持仓数据进行文本识别，得到多个第一数字资产中的部分第一数字资产的总金额、第二数字资产的总金额，以及待识别数字资产的总金额，其中，该部分第一数字资产即为该多个第一数字资产中的已披露债券；对持仓数据进行文本识别，得到部分第一数字资产的总净值、第二数字资产的总净值，以及待识别数字资产的总净值；确定部分第一数字资产的总金额和第二数字资产的总金额之和，相对于待识别数字资产的总金额的第三比例，即Pb^v；确定部分第一数字资产的总净值和第二数字资产的总净值之和，相对于待识别数字资产的总净值的第四比例，即Pb^npv；根据第三比例和第四比例，确定杠杆比例，即确定出债券(包括已披露债券和未披露债券)的杠杆比例；示例性的，杠杆比例为Pb^v/Pb^npv。

之所以要计算杠杆比例，是因为在统计债券中的绿色资产的占比时，所利用的债券资产是加了杠杆之后的债券资产，导致统计出的占比例偏高，因此，需要去除加杠杆的影响。因此，根据杠杆比例，分别对部分第一数字资产的第一占比和第二数字资产的第二占比进行去杠杆，得到部分第一数字资产的第一目标占比和第二数字资产的第二目标占比；最后，对多个第一数字资产中的另外一部分第一数字资产(也就是多个第一数字资产中的股票)的第一占比、部分第一数字资产的第一目标占比以及第二数字资产的第二目标占比进行求和，得到待识别数字资产中的绿色资产的占比。

示例性的，待识别数字资产的绿色比例可以通过公式(5)表示：

其中，m₁为另外一部分第一数字资产的数量，m₂为一部分第一数字资产的数量，m₁+m₂＝m。

在本申请的一个实施方式中，该待识别数字资产为投资机构在t时刻持有的多个待识别数字资产中的任意一个，也就是该投资机构持有的多个基金中的任意一个基金。可选的，可基于图1示出的方法，确定该多个待识别数字资产中的每个待识别数字资产中的绿色资产的占比。

示例性的，获取t时刻下每个待识别数字资产的净值，以及投资机构持有每个待识别数字资产的份额；根据t时刻下每个待识别数字资产的净值以及投资机构持有每个待识别数字资产的份额，以及每个待识别数字资产中的绿色资产的占比，确定投资机构持有每个待识别数字资产的绿色规模。

示例性的，投资机构持有每个待识别数字资产的绿色规模可以通过公式(6)表示：

S_i＝FG_i*V_i*R_i 公式(6)；

其中，S_i为投资机构持有该多个待识别数字资产中的第i个待识别数字资产的绿色规模，FG_i为第i个待识别数字资产中的绿色资产的占比，V_i述t时刻下第i个待识别数字资产的净值，R_i为t时刻下投资机构持有第i个待识别数字资产的份额。

参阅图3，图3为本申请实施例提供的一种股票中的绿色资产的占比的识别方法流程示意图。该实施例中与图1所示的实施例相同的内容，此处不再重复描述。本实施例的方法包括以下步骤：

301：对各第一数字资产的披露文档进行文本识别，得到披露文档中的目标章节，其中，目标章节用于描述每个第一数字资产的所属企业的主营产品，且目标章节包括目标表格和目标文本段。

其中，该披露文档为该第一数字资产的发行公司针对该第一数字资产的年报。一般来说，公司年报中的“第四节经营情况讨论与分析”章节中的“一、概述”章节用来描述公司的主营产品。因此，对披露文档进行文本识别，定位出“第四节经营情况讨论与分析”章节；然后，再对该章节进行文本识别，得到该章节下的细分章节，即“一、概述”章节，并将该细分章节作为目标章节。

示例性的，目标章节包含第一目标表格和目标文本段，其中，该目标文本段用于描述该所属企业的主营产品；目标表格用于描述主营产品以及主营产品的营业额相对于所属企业的总营业额的占比，即主营产品的占比。

应说明，对于一个企业来说，主营产品可以有一个或多个，本申请中以一个主营产品为例进行说明，针对多个主营产品的情况与此类似，不再叙述。

302：对目标文本段和目标表格均进行实体识别，得到主营产品以及主营产品的占比，其中，主营产品的占比为主营产品的营业额与所属企业的总营业额的比值。

示例性的，对目标文本段进行实体识别，获取与产品相关的实体，并将该实体对应的产品作为所属企业的主营产品。

举例来说，目标文本段描述了所属企业的主营产品为“新能源电池”，则通过实体识别，可得到该所属企业的主营产品为“新能源电池”。

进一步地，对目标表格进行实体识别，确定出该目标表格中“新能源电池”所在的位置，并基于该新能源电池”在该目标表格中位置，从该表格中读取出该“新能源电池”营业额相对于该所属企业的总营业额的占比。

303：将目标文本段输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段，至少一个第一文本段用于描述主营产品下的至少一子产品。

示例性的，机器阅读理解(Machine Reading Comprehension，MRC)模型是预先训练好的，本申请不再叙述对该MRC模型进行训练的过程。针对本申请的文本分割过程，首先设置该MRC模型的问题为：“哪些产品是主营产品的子产品(即细分产品)”，该主营产品即为上述对目标文本段进行实体识别出的主营产品，并设置该MRC模型输入的文章为该目标文本段；然后，通过MRC模型的编码层对问题进行编码，得到第一向量；对目标文本段中的各个子文本段进行编码，得到与各个子文本段对应的第二向量；然后，将第一向量和各个子文本段的第二向量输入到MRC模型的交互层进行交互，得到问题和各个子文本段之间的相似度，将相似度大于预设阈值的子文本段作为该至少一个第一文本段。

进一步的，分别对至少一个第一文本段进行实体识别，可得到该主营产品下的至少一个子产品。

举例来说，目标文本段可以描述了多个主营产品，以及每个主营产品下的子产品。比如，描述的主营产品包括“新能源电池”、“风力发电”，则针对主营产品“新能源电池”来说，则将目标文本段输入到MRC模型之后，输出的第一文本段是用来描述电池的文本段，比如，识别出的至少一个第一文本段分别用来描述“锂电池”、“核电池”，等其他新能源电池。

304：根据主营产品的占比，确定主营产品中的各子产品的占比。

示例性的，可以根据至少一个子产品的数量，将该主营产品的占比平均拆分给该至少一个子产品，得到该至少一个子产品中的每个子产品的占比。

应说明，若某个子产品还可以继续进行拆分，则可以将该子产品继续进行拆分，以及将该子产品的占比拆分给更细粒度的产品。本申请中主要以对主营产品进行一次拆分为例进行说明，不进行多次拆分。

举例来说，主营产品A的占比为50％，该主营产品A包括子产品b和子产品c，那么子产品b和子产品c的占比均为25％。进一步的，若子产品b包括子产品d和子产品e，则可以将子产品b的比例等分拆分，则子产品d和子产品e的占比分别12.5％和12.5％。

305：根据相似度模型，确定各第一文本段分别与多个第二文本段之间的相似度，其中，多个第二文本段描述多个的产品为具有绿色属性的产品。

示例性的，获取第一预设文档，比如，该第一预设文档可以为《绿色产业指导目录的解释说明》，该第一预设文档中记载的产品均具有绿色属性；对该第一预设文档进行实体识别，得到该预设文档中记载的产业(即产品)；将读取到的产品作为具有绿色属性的产品。

在本申请的一个实施方式中，第一预设文档在记载产品时，可能不会直接记载具有绿色属性的产品，而是通过文档引用的方式，通过其他文档来记载具有绿色属性的产品。因此，首先对第一预设文档进行文本识别，得到多个第三文本段，其中，多个第三文本段用于描述第一预设文档中记载的产品，但是，某个第三文本段在描述产品时，并不会直接描述该产品，而是引用其他文档来描述产品。因此若多个第三文本段中的任意一个第三文本段引用其他文档，则对其他文档进行文本识别，得到与第三文本段对应的第四文本段，其中，第四文本段是其他文档中用于描述具有绿色属性的产品的文本，并对第四文本段进行实体识别，得到第四文本段描述的产品；因此，可以将多个第三文本段和引用的第四文本段作为该多个第二文本段，并将多个第三文本段描述的产品，以及第四文本段描述的产品均作为该具有绿色属性的产品。

示例性的，该相似度模型为通过预先构造的多对目标训练样本进行训练得到的，后面详细描述构造多对目标训练样本的过程以及模型训练过程，在此不做过多描述。在本申请的一个实施方式中，该相似度模型可以为RoFormer模型。

因此，将每个第一文本段以及每个第二文本段输入到该RoFormer模型中，得到每个子第一本段和每个第二文本段之间的相似度。

306：根据各第一文本段分别与多个第二文本段之间的相似度，确定至少一个第一文本段中的目标第一文本段。

示例性的，根据每个第一文本段分别与多个第二文本段之间的相似度，确定每个第一文本段对应的最大相似度，若该最大相似度大于相似度阈值，则将该第一文本段作为目标第一文本段，也就是确定该目标第一文本段描述的子产品为与该最大相似度对应的第二文本段所描述的具有绿色属性的产品。

307：根据目标第一文本段所描述的资产分布，以及各第一数字资产的总金额，确定各第一数字资产中的绿色资产的占比。

示例性的，将目标第一文本段所描述的子产品的占比，作为每个第一数字资产中的绿色资产的占比。应说明，目标第一文本段的数量可以为一个或多个，也就说，该至少一个子产品中存在一个或多个子产品具有绿色属性。

示例性的，当目标子文本段的数量为多个时，则多个目标子文本段所描述的子产品的占比进行求和，将求和结果作为每个第一数字资产中的绿色资产的占比。

参阅图4，图4为本申请实施例提供的一种相似度模型训练方法的流程示意图。该实施例中与图3所示的实施例相同的内容，此处不再重复描述。本实施例的方法包括以下步骤：

401：获取第二预设文档，第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品。

示例性的，通过爬虫技术获取第二预设文档，例如，第二预设文档可以为《2017国民经济行业分类目录2021修订第一版》。该第二预设文档中记载了市场上目前所有的产品。因此，该第二预设文档中记载的产品有绿色属性的产品，也有非绿色属性的产品。

402：对第二预设文档进行文本识别，得到多个第五文本段，其中，多个第五文本段用于描述第二预设文档中记载的产品。

示例性的，对第二预设文档进行实体识别，得到第二预设文档中记载的各个产品；通过文本识别从第二预设文档中提取出描述各个产品的文本段，得到多个第五文本段。

403：根据多个第五文本段以及多个第二文本段构造多对目标训练样本。

示例性的，对多个第二文本段中的每个第二文本段中的实体进行同义词替换，得到与每个第二文本段对应的第六文本段；然后，将每个第二文本段，以及与该第二文本段对应的第六文本段作为一对训练样本，得到多对第一训练样本。本申请中也可以将多对第一训练样本称为多对相似样本。

应说明，构造了多对第一训练样本之后在训练的过程中，使一对第一训练样本中的两个训练样本之间的距离比较近，这样构造出多对第一训练样本之后，可以让模型能够识别出一些从文字表面上看似不同的产业，其实是相同的绿色产业，从而可以精确的识别出多元化文字表达的绿色产业。

示例性的，将多个第五文本段中的多个目标第五文本段剔除，得到多个第七文本段，其中，多个目标第五文本段描述的产品与多个第二文本段描述产品相同，且多个目标第五文本段与多个第二文本段一一对应。

具体的，将多个第五文本段与多个第二文本段做差集，得到该多个第七文本段。其中，本申请所指的差集本质上是将文本段描述的产业做差集，即从多个第五文本段中剔除目标第五文本段，得到该多个第七文本段。

应理解，将多个第五文本段与多个第二文本段做差集，得到的多个第七文本段所描述的产品均是具有非绿色属性的产品。

进一步地，确定每个第七文本段对应的第二文本段，其中，该第七文本段所描述的产品与该第二文本段描述的产品相同，但第七文本段描述的产品具有非绿色属性，而第二文本段描述的产品具有绿色属性。例如，第二文本段描述的产品为“节能型工业锅炉”，而第七文本段描述的产品为“工业锅炉”。可以看出，这两个文本段描述的产品均是锅炉，但是“节能型工业锅炉”具有绿色属性，而“工业锅炉”具有非绿色属性。因此，可以将这两个文本段作为一对训练样本。因此，将该第七文本段以及与该第七文本段对应的第二文本段作为一对训练样本，得到多对第二训练样本。本申请中可以将多对第二训练样本称为多对不相似样本。

应说明，之所以构造不相似样本，是因为需要让模型识别虽然看起来表达很近的产品名称，实质上是具有不同属性的产品，学习到这些表达相近的产品名称中哪些关键字词是真正与绿色属性相关的，比如，上述的“节能型工业锅炉”和“工业锅炉”，在训练的过程中，可以让模型记住只有带上“节能型”的锅炉才是具有绿色属性的产品，这样就识别出在这种类似的表达中，“节能型”才是与绿色属性密切相关的关键词。

最后，将多对第一训练样本和多对第二训练样本作为该多对目标训练样本。

404：根据多对目标训练样本对初始模型训练，得到相似度模型。

示例性的，将多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型，得到每个训练样本的特征向量，其中，该特征向量用于确定每个训练样本所描述的产品具有绿色属性的概率；然后，根据每个训练样本的特征向量以及每个训练样本的标签，确定每个训练样本对应的第一损失，其中，每个训练样本的标签用于标识每个训练样本所描述的产品是否具有绿色属性的真实情况。应理解，对于相似样本来说，每对相似样本中的两个训练样本的标签是相同的，对于不相似样本来说，每对不相似样本中的两个训练样本的标签是不同的。

具体的，根据每个训练样本的特征向量，通过该初始模型的分类器确定每个训练样本所描述的产品具有绿色属性的概率；根据每个训练样本所描述的产品具有绿色属性的概率以及每个训练样本的标签，确定每个训练样本对应的第一损失。

进一步的，根据每个训练样本的特征向量，确定每对目标训练样本的第二损失，即根据每对目标训练样本中的两个训练样本的特征向量，确定该两个训练样本之间的相似度，将该相似度作为每对目标样本的第二损失。

最后，根据每对目标训练样本中的每个训练样本的第一损失，以及每对目标训练样本对应的第二损失，对初始模型进行训练，得到该相似度模型。

具体的，首先根据每对目标训练样本中的每个训练样本的第一损失，确定初始模型在进行绿色属性分类的过程中的第一目标损失。示例性的，对多对目标训练样本中的所有训练样本的第一损失进行加权求和，得到该第一目标损失。

示例性的，第一目标损失可以通过公式(7)表示：

L₁为第一目标损失，avg为求平均操作，n为多对第一训练样本的数量，m为多对第二训练样本的数量，W为初始模型的分类器的权重，f_t′为多对目标训练样本中的所有训练样本(即2(n+m))个训练样本中的第t个训练样本，l_t为第t个训练样本的标签。

具体的，根据每对目标训练样本的第二损失，确定初始模型在对每对第一训练样本进行特征提取过程中的损失，得到第二目标损失。示例性的，获取每对第一训练样本的第二损失，并对多对第一训练样本的第二损失求平均，得到该第二目标损失。示例性的，该第二目标损失可以通过公式(8)表示：

其中，L_sim为第二目标损失，avg为求平均操作，n为多对第一训练样本的数量，S_i为n对第一训练样本中的第i对第一训练样本，

为第i对第一训练样本中的一个训练样本的特征向量，

为该第i对第一训练样本中的另一个训练样本的特征向量，||||₂为求向量之间的相似度(距离)的操作。

具体的，根据每对目标训练样本的第二损失，确定初始模型在对每对第二训练样本进行特征提取过程中的损失，得到第三目标损失。示例性的，获取每对第二训练样本的第二损失，并对多对第二训练样本的第二损失求平均，得到该第三目标损失。示例性的，第三目标损失可以通过公式(9)表示：

其中，L_dissim为第三目标损失，avg为求平均操作，m为多对第二训练样本的数量，S_j为m对第二训练样本中的第j对第一训练样本，

为第j对第二训练样本中的一个训练样本的特征向量，

为该第j对第二训练样本中的另一个训练样本的特征向量，||||₂为求向量之间的相似度(距离)的操作。

最后，根据第二目标损失和第三目标损失，确定第四目标损失。示例性的，第四目标损失通过公式(10)表示：

其中，L₄为第四损失，k为预设的稳定性参数，用于在L_sim为0的情况下，避免第四目标损失L₄为零，进而防止模型退化。

之所以设置公式(10)的损失函数，是因为在构造训练样本对的过程中，就决定了第二目标损失L_sim需要向着比较小的方向去优化，第三目标损失L_dissim需要向着比较大的方向去优化，所以单纯的加权求和无法将两者统一。设置了公式(10)的损失函数之后，则只向着第四目标损失L₄比较小的方向去优化，即可满足第二目标损失L_sim和第三目标损失L_dissim的优化需求，从而满足整个反向传播过程的优化需求。

最后，将第四目标损失和第一目标损失进行加权，得到最终的目标损失；基于目标损失以及梯度下降法对初始模型进行反向更新，直至初始模型收敛时，得到该相似度模型。

在本申请第一个实施方式中，在构造相似训练样时，除了同义词替换，还可以进行句式的替换。示例性的，对多个第二文本段进行实体识别，得到多个目标实体，其中，多个目标实体与多个第二文本段一一对应，也就是从多个第二文本段中提取出用来描述该多个第一产品的多个目标实体。然后，将每个第二文本段以及与从每个第二文本段中提取出的目标实体作为一对训练样本，得到多对相似样本，这样就构造出了包含不同句式的相似样本。例如“本债券将用于偿还前期水电站建设项目贷款”，则将该第二文本段和“水电站”作为一对相似样本，之所以构造这样的相似样本，是让模型在学习的过程中将“本债券将用于偿还前期水电站建设项目贷款”和“水电站”均识别为绿色产品，因此构造出这种相似样本，可以让模型在学习的过程中可以不受句式的影响，只关心真正与绿色属性相关的字词，从而提高模型的识别精度。

在本申请的一个实施方式中，在构造不相似样本时，针对每个第二文本段，从剩余的目标实体中随机选择一个目标实体，与该第二文本段作为一对不相似样本，可构造出多对不相似样本，其中，该剩余的目标实体为该多个目标实体中除该第二文本段的目标实体之外的所有实体。例如，将上述的“水电站”随机替换为一个目标实体，比如，“风电站”，“其他项目建设”，等等，可以构造出多对不相似样本。构造出这样的不相似样本，可以让模型学习到需要关注的是句式中的实体，对于这种不相似的数据实体不同，需要分类为不同的产品。从而使该模型对于“本债券将用于偿还前期水电站建设项目贷款”以及“风电站”，“其他项目建设”识别为不同属性的产品，从而使如此相近的情况下也能准确匹配到最相似的行业是水电站，即能准确的进行实体匹配，从而提高模型的识别精度。

参阅图5，图5为本申请实施例提供的一种债券中的绿色资产的占比的识别方法流程示意图。该实施例中与图1、图3、图4所示的实施例相同的内容，此处不再重复描述。本实施例的方法包括以下步骤：

501：将各第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到多个第一文本段，其中，多个第一文本段用于描述各第一数字资产的多项资金用途。

应说明，此处的第一数字资产为该多个第一数字资产的一部分第一数字资产，也就是多个第一数字资产中的已披露债券。

首先在确定每个第一数字资产中的绿色资产的占比之前，可以先整体确定第一数字资产是否具有绿色属性，如果确定该第一数字资产没有绿色属性，则可以直接确定该第一数字资产中的绿色资产的占比为0，如果确定该第二数字资产具有绿色属性，则再确定该第一数字资产中的绿色资产的占比。

下面详细介绍如何确定第一数字资产是否具有绿色属性的过程。

示例性的，根据上述的持仓数据，确定每个第一数字资产的资产名称，即债券名称；然后对每个第一数字资产的资产名称进行关键词识别，得到第一关键词，其中，该第一关键词的数量为一个或多个；最后，若该第一关键词为预设关键词集合中的关键词，则确定该第一数字资产具有绿色属性。该预设关键词集合是由各个具有绿色属性且与债券相关的关键词构成的集合，即对各个绿色债券的债券名称进行关键词提取所得到的关键词构成的集合，比如，该预设关键词集合可以包括：“绿色债券”、“碳中和”，“节能”，等等。即从债券名称确定每个债券是否具有绿色属性，也就是确定每个债券是否为绿色债券。

示例性的，根据上述的持仓数据，确定每个第一数字资产的所属企业，即从持仓数据中识别出每个债券的发行企业；然后，确定该所属企业的所属行业，比如，可以将该所属企业的主营业务产品所属的行业，作为该所属企业的所属行业。最后，确定该所属行业是否为预设行业集合中的行业，若是，则确定该第一数字资产具有绿色属性，其中，该预设行业集合是由各个具有绿色属性的行业组成的集合。具体的，可获取预设文档，比如，《绿色债券支持项目目录》，然后对该预设文档进行实体提取，可得到一个或多个与绿色相关的绿色行业，例如，公共交通、污水处理等；然后，将这些绿色行业组成集合得到该预设行业集合。即从债券的所属行业确定出债券是否为绿色债券。

举例来说，若第一数字资产的披露数据为：债券的类型为“广州地铁集团有限公司2020年度第二期超短期融资券”，则从该披露数据中确定该债券的发行公司为广州地铁集团有限公司，且该发行公司的所属行业为公共交通。由于公共交通为预设行业集合中的行业，则确定第一数字资产具有绿色属性。

示例性的，对每个第一数字资产的披露数据进行文本识别，从该披露数据中识别出第六文本段，其中，第六文本段为第一数字资产的披露数据中描述该第一数字资产的多项资金用途的文本段。即通过文本定位找到披露数据中描述该债券的各项资金用途的文本段，然后将各项资金用途的文本段从披露数据中提取出来，得到第六文本段；进一步的，对第六文本段进行语义信息提取，得到第六文本段的第三特征向量；然后，根据该第三特征向量预测该第二数字资产具有绿色属性的概率；若该概率大于第二阈值，则确定该第二数字资产具有绿色属性。

在本申请的一个实施方式中，上述确定第二数字资产是否具有绿色属性的方式可以通过训练好的模型实现，该模型可以为fasttext，textCNN，BERT模型，等等，本申请对此不做限定。具体的，从债券样本中提取出用于描述资金用途的文本，将提取出的文本作为样本，并为该样本添加标签，该标签用于标识该债券样本是否具有绿色属性。应理解，在选择债券样本时，应该分别选择具有绿色属性和非绿色属性的债券样本，以保证构造出的样本中包含有正样本和负样本；然后，基于提取出的样本以及该样本的标签进行模型训练，得到一个用于预测债券是否有绿色属性的预测模型；最后，通过该预测模型对第六文本段进行语义信息提取，得到该第六文本段的第三特征向量，并通过该预测模型对该第三特征向量进行处理，预测出该第二数字资产具有绿色属性的概率。

应说明，在实际应用中，可以优先选择债券名称或者债券的所属行业确定债券是否具有绿色属性，当这两种方式都无法确定时，则再通过模型预测的方式，去预测债券是否具有绿色属性。

应理解，在确定出每个第一数字资产具有绿色属性之后，则可以去识别每个第二数字资产中的绿色资产的比例。示例性的，预先训练好机器阅读理解(Machine ReadingComprehension，MRC)模型，然后将每个第一数字资产的披露数据输入MRC模型中进行文本分割，得到至少一个第一文本段。

具体的，首先设定MRC所要解决的问题为“哪些文本是用来描述资金的用途的”，输入的文章为每个第一数字资产的披露数据；然后，通过MRC模型的编码层对问题进行编码，得到第一向量；通过MRC模型的编码层对披露数据中的各个文本段进行编码，得到与各个文本段对应的第二向量；然后，将第一向量和各个文本段的第二向量输入到MRC模型的交互层进行交互，得到问题和各个文本段之间的相似度，将相似度大于预设阈值的文本段作为该至少一个第一文本段。

举例来说，通过MRC模型对每个第一数字资产的披露数据进行文本分割，可得到如表1所示的至少一个第一文本段。

表1：

502：将各第一文本段输入到语义信息提取模型进行语义信息提取，得到各第一文本段的第一特征向量。

其中，该语义信息提取模型是预先训练好的。下面描述对该语义信息提取模型得训练过程。

示例性的，首先构建训练样本。例如，从多个债券的披露数据中提取出与资金用途相关的文本段，并为每个文本段打上标签，其中，该标签用于标识该文本段所描述的资金用途具有绿色属性的实际情况，其中，该资金用途可以为用于绿色产业或者为非绿色产业。例如，表1中示出的资金用途：“用于雅砻江卡拉水电站项目建设”用于的产业项目为“雅砻江卡拉水电站项目建设”，则该资金用途具有绿色属性，即该资金用途为绿色产业；然后，将打上有标签的各个文本段作为训练样本。进一步的，构建初始模型，其中，该初始模型可以为Bert模型，其包括语义信息提取模型和多层感知器(Multilayer Perceptron，MLP)，其中，该语义信息提取模型和多层感知器的模型参数都是随机初始化得到；然后将训练样本输入到该语义信息提取模型进行语义信息提取，得到训练样本的第四特征向量；将该第四特征向量输入到多层感知器，得到该训练样本属于具有绿色属性的产业的概率；最后，根据该训练样本属于具有绿色属性的产业的概率，以及该训练样本的标签，对该初始模型进行训练，即对语义信息提取模型以及多层感知器的模型参数进行调整，得到目标模型，将该目标模型中的多层感知器删除，得到语义信息提取模型。

示例性的，可以将每个第一文本段输入到语义信息提取模型进行语义信息提取，得到每个第一文本段的第一特征向量。

在实际应用中，在得到目标模型之后，也可以不对目标模型进行删除，直接保留整个目标模型；然后，将每个第五文本段输入到目标模型中进行概率预测，得到每个第五文本段描述的资金用途属于绿色产业的概率，若该概率大于概率阈值，则确定该第五文本段为目标第五文本段，不需要进行相似度的计算，即可直接确定出目标第一文本段，提高绿色资产的占比的识别效率。

503：将各第二文本段输入到语义信息提取模型进行语义信息提取，得到各第二文本段的第二特征向量，其中，多个第二文本段用于描述多个第一产业，多个第一产业为具有绿色属性的产业。

示例性的，获取多个具有绿色属性的产业，即绿色产业。具体的，对《绿色债券支持项目目录》PDF文档进行实体(该实体为产业)识别，得到多个产业，将该多个产业作为该多个第一产业，并从该PDF文档中提取出用于描述该多个第一产业的多个第二文本段，其中，多个第二文本段用于描述该多个第一产业；同样的，将每个第二文本段输入到上述的语义信息提取模型进行语义信息提取，得到每个第二文本段的第二特征向量。

504：根据各第一文本段的第一特征向量以及各第二文本段的第二特征向量，确定各第一文本段分别与多个第二文本段的相似度。

示例性的，可以确定每个第一文本段的第一特征向量与每个第二文本段的第二特征向量之间的相似度，比如，该相似度可以通过两个特征向量之间的欧式距离表征，并将两个特征向量之间的相似度作为每个第一文本段与每个第二文本段之间的相似度。

505：根据每个第一文本段与每个第二文本段的相似度，确定多个第一文本段中的目标第一文本段。

示例性的，根据每个第一文本段与每个第二文本段的相似度，确定出与每个第一文本段对应的最大相似度，若该最大相似度大于阈值，则将该第一文本段作为目标第一文本段。具体的，若该最大相似度大于阈值，则说明该第一文本段所描述的资金用途所属的产业为该最大相似度对应的第二文本段描述的第一产业，即该资金用途所支持的产业是一个绿色产业，因此，可以确定出该资金用途具有绿色属性。

506：将目标第一文本段所描述的资金用途中规划的资金金额与各第一数字资产的总金额的比例，作为各第一数字资产中的绿色资产的占比。

示例性的，获取该目标第一文本段所描述的资金用途中所规划的资金金额，并获取该每个第一数字资产的总金额，即获取该第一数字资产的总规模；然后，将该目标第一文本段所描述的资金用途中所规划的资金金额与总金额的比例，作为该每个第一数字资产中的绿色资产的占比。

应说明，该目标第一文本段的数量为一个或多个，也就是说，该每个第一数字资产的多个资金用途中有多项资金用途所应用的产业具有绿色属性。则可以对每个目标第一文本段所描述的资金用途中规划的资金金额与每个第一数字资产的总金额的比例，作为每个目标第一文本段对应的绿色比例；然后，对每个目标第一文本段的绿色比例求和，得到第一数字资产中的绿色资产的占比。

参阅图6，图6为本申请实施例提供的一种绿色资产的占比的识别装置的功能单元组成框图。绿色资产的占比的识别装置600包括：获取单元601和处理单元602；

获取单元601，用于获取待识别数字资产的持仓数据；

处理单元602，用于对获取到的待识别数字资产的持仓数据进行文本识别，得到多个第一数字资产和第二数字资产，其中，所述持仓数据中披露了各所述第一数字资产的资产信息，所述持仓数据中未披露所述第二数字资产的资产信息；

获取单元601，还用于根据各所述第一数字资产的资产信息，获取各所述第一数字资产的披露数据；

处理单元602，还用于将各所述第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段，其中，所述至少一个第一文本段用于描述各所述第一数字资产的资产分布；

根据相似度模型，确定各所述第一文本段分别与多个第二文本段之间的相似度，其中，所述多个第二文本段用于描述多个具有绿色属性的资金分布；

根据各所述第一文本段分别与所述多个第二文本段之间的相似度，确定所述至少一个第一文本段中的目标第一文本段；

根据所述目标第一文本段所描述的资产分布，以及各所述第一数字资产的总金额，确定各所述第一数字资产中的绿色资产的占比；

根据所述待识别数字资产的管理者的画像，获取所述管理者管理的所有数字资产，并获取所述所有数字资产中披露了资产信息的数字资产中的绿色资产的平均占比，并将所述平均占比作为所述第二数字资产中的绿色资产的占比；

根据各所述第一数字资产中的绿色资产的占比以及所述第二数字资产中的绿色资产的占比，确定所述待识别数字资产中的绿色资产的占比。

在一些可能的实施方式中，当各所述第一数字资产的披露数据为各所述第一数字资产的所属企业的年报时，各所述第一数字资产的资产分布为各所述第一数字资产所属企业的子产品的占比，各所述第二文本段所描述的资金分布为具有绿色属性的产品；在将各所述第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段方面，处理单元602，具体用于：

对所述年报进行文本识别，得到所述年报中的目标章节，其中，所述目标章节用于描述各所述第一数字资产的所属企业的主营产品，且所述目标章节包括目标表格和目标文本段；

将所述目标文本段输入到机器阅读理解模型进行文本分割，得到所述至少一个第一文本段，各所述第一文本段用于描述所述主营产品的一个子产品；

在根据所述目标第一文本段所描述的资产分布，以及各所述第一数字资产的总金额，确定各所述第一数字资产中的绿色资产的占比方面，处理单元602，具体用于：

对所述目标文本段和所述目标表格均进行实体识别，得到所述主营产品的占比，其中，所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值；

根据所述主营产品的占比，确定所述主营产品中的各子产品的占比；

根据各所述子产品的占比，确定所述目标第一文本段描述的子产品的占比；

根据所述目标第一文本段描述的子产品的占比，确定各所述第一数字资产中的绿色资产的占比。

在一些可能的实施方式中，根据相似度模型，确定各所述第一文本段分别与多个第二文本段之间的相似度之前，获取单元601，还用于获取第一预设文档，所述第一预设文档中记载的产品均具有绿色属性；

处理单元602，还用于对所述第一预设文档进行文本识别，得到多个第三文本段，其中，所述多个第三文本段用于描述所述第一预设文档中记载的产品；

若所述多个第三文本段中的任意一个第三文本段引用其他文档，则对所述其他文档进行文本识别，得到与所述任意一个第三文本段对应的第四文本段，其中，所述第四文本段是所述其他文档中用于描述具有绿色属性的产品的文本；

将所述多个第三文本段和所述所述任意一个第三文本段对应的第四文本段作为所述多个第二文本段；

分别对所述多个第二文本段中的每个第二文本段进行实体提取，得到多个目标实体；

将所述多个第二文本段中的任意一个第二文本段以及从所述任意一个第二文本段中提取出的目标实体作为一对训练样本，得到多对第一训练样本；

从所述多个目标实体中除所述任意一个第二文本段对应的目标实体之外的其他目标实体中随机选择一个目标实体，并将随机选择的目标实体与所述任意一个第二文本段作为一对训练样本，得到多对第二训练样本；

将所述多对第一训练样本和所述多对第二训练样本作为多对目标训练样本；

根据所述多对目标训练样本对初始模型进行训练，得到所述相似度模型。

在一些可能的实施方式中，当各所述第一数字资产的资产分布为各所述第一数字资产的资金用途时，各所述第二文本段描述的资金分布为具有绿色属性的资金用途；在根据相似度模型，确定各所述第一文本段分别与多个第二文本段之间的相似度方面，处理单元602，具体用于：

将各所述第一文本段输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量；

将各所述第二文本段输入到所述语义信息提取模型进行语义信息提取，得到所述各所述第二文本段的第二特征向量；

根据各所述第一文本段的第一特征向量以及各所述第二文本段的第二特征向量，确定各所述第一文本段分别与多个第二文本段的相似度；

将所述目标第一文本段所描述的资金用途中规划的资金金额与各所述第一数字资产的总金额的比例，作为各所述第一数字资产中的绿色资产的占比。

在一些可能的实施方式中，在根据各所述第一数字资产中的绿色资产的占比、以及所述第二数字资产中的绿色资产的占比，确定所述待识别数字资产中的绿色资产的占比方面，处理单元602，具体用于：

获取各所述第一数字资产的净值相对于所述待识别数字资产的净值的第一比例；

根据各所述第一数字资产的第一比例以及绿色资产的占比，确定各所述第一数字资产的绿色资产相对于所述待识别数字资产的净值的第一占比；

根据所述持仓数据以及各所述第一字资产的第二比例，确定所述第二数字资产的净值相对于所述待识别数字资产的净值的第二比例；

根据所述第二数字资产的第二比例以及绿色资产的占比，确定所述第二数字资产的绿色资产相对于所述待识别数字资产的净值的第二占比；

对各所述第一数字资产的第一占比和所述第二数字资产的第二占比进行求和，得到所述待识别数字资产中的绿色资产的占比。

在一些可能的实施方式中，对各所述第一数字资产的第一占比和所述第二数字资产的第二占比进行求和之前，处理单元602，还用于对所述持仓数据进行文本识别，得到所述多个第一数字资产中的部分第一数字资产的总金额、所述第二数字资产的总金额，以及所述待识别数字资产的总金额；

对所述持仓数据进行文本识别，得到所述部分第一数字资产的总净值、所述第二数字资产的总净值，以及所述待识别数字资产的总净值；

确定所述部分第一数字资产的总金额和所述第二数字资产的总金额之和，相对于所述待识别数字资产的总金额的第三比例；

确定所述部分第一数字资产的总净值和所述第二数字资产的总净值之和，相对于所述待识别数字资产的总净值的第四比例；

根据所述第三比例和所述第四比例，确定杠杆比例；

根据所述杠杆比例，分别对所述部分第一数字资产的第一占比和所述第二数字资产的第二占比进行去杠杆，得到所述部分第一数字资产的第一目标占比和所述第二数字资产的第二目标占比；

在对各所述第一数字资产的第一占比和所述第二数字资产的第二占比进行求和，得到所述待识别数字资产中的绿色资产的占比方面，处理单元602，具体用于：

对所述多个第一数字资产中的另外一部分第一数字资产的第一占比、所述部分第一数字资产的第一目标占比以及所述第二数字资产的第二目标占比进行求和，得到所述待识别数字资产中的绿色资产的占比。

参阅图7，图7为本申请实施例提供的一种电子设备的结构示意图。如图7所示，电子设备700包括收发器701、处理器702和存储器703。它们之间通过总线704连接。存储器703用于存储计算机程序和数据，并可以将存储器703存储的数据传输给处理器702。

处理器702用于读取存储器703中的计算机程序执行以下操作：

控制收发器701获取待识别数字资产的持仓数据；

对获取到的待识别数字资产的持仓数据进行文本识别，得到多个第一数字资产和第二数字资产，其中，所述持仓数据中披露了各所述第一数字资产的资产信息，所述持仓数据中未披露所述第二数字资产的资产信息；

控制收发器701根据各所述第一数字资产的资产信息，获取各所述第一数字资产的披露数据；

将各所述第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段，其中，所述至少一个第一文本段用于描述各所述第一数字资产的资产分布；

在一些可能的实施方式中，当各所述第一数字资产的披露数据为各所述第一数字资产的所属企业的年报时，各所述第一数字资产的资产分布为各所述第一数字资产所属企业的子产品的占比，各所述第二文本段所描述的资金分布为具有绿色属性的产品；在将各所述第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段方面，处理器702具体用于执行以下操作：

在根据所述目标第一文本段所描述的资产分布，以及各所述第一数字资产的总金额，确定各所述第一数字资产中的绿色资产的占比，处理器702具体用于执行以下操作：

在一些可能的实施方式中，根据相似度模型，确定各所述第一文本段分别与多个第二文本段之间的相似度之前，处理器702还用于执行以下操作：

控制收发器701获取第一预设文档，所述第一预设文档中记载的产品均具有绿色属性；

对所述第一预设文档进行文本识别，得到多个第三文本段，其中，所述多个第三文本段用于描述所述第一预设文档中记载的产品；

在一些可能的实施方式中，当各所述第一数字资产的资产分布为各所述第一数字资产的资金用途时，各所述第二文本段描述的资金分布为具有绿色属性的资金用途；在根据相似度模型，确定各所述第一文本段分别与多个第二文本段之间的相似度方面，处理器702具体用于执行以下操作：

在根据所述目标第一文本段所描述的资产分布，以及各所述第一数字资产的总金额，确定各所述第一数字资产中的绿色资产的占比方面，处理器702，具体用于执行以下操作：

在一些可能的实施方式中，在根据各所述第一数字资产中的绿色资产的占比、以及所述第二数字资产中的绿色资产的占比，确定所述待识别数字资产中的绿色资产的占比方面，处理器702具体用于执行以下操作：

在一些可能的实施方式中，对各所述第一数字资产的第一占比和所述第二数字资产的第二占比进行求和之前，处理器702还用于执行以下操作：

对所述持仓数据进行文本识别，得到所述多个第一数字资产中的部分第一数字资产的总金额、所述第二数字资产的总金额，以及所述待识别数字资产的总金额；

根据所述第三比例和所述第四比例，确定杠杆比例；

在对各所述第一数字资产的第一占比和所述第二数字资产的第二占比进行求和，得到所述待识别数字资产中的绿色资产的占比方面，处理器702具体用于执行以下操作：

具体地，上述收发器701可为图6所述的实施例的绿色比例识别装置600的获取单元601，上述处理器702可以为图6所述的实施例的绿色比例识别装置600的处理单元602。

应理解，本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices，简称：MID)或穿戴式设备等。上述电子设备仅是举例，而非穷举，包含但不限于上述电子设备。在实际应用中，上述电子设备还可以包括：智能车载终端、计算机设备等等。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种基于文本识别的数字资产中的绿色资产的占比的识别方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于文本识别的数字资产中的绿色资产的占比的识别方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于文本识别的数字资产中的绿色资产的占比的识别方法，其特征在于，包括：

根据各所述第一数字资产的资产信息，获取各所述第一数字资产的披露数据，并将各所述第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段，其中，所述至少一个第一文本段用于描述各所述第一数字资产的资产分布；

2.根据权利要求1所述的方法，其特征在于，

当各所述第一数字资产的披露数据为各所述第一数字资产的所属企业的年报时，各所述第一数字资产的资产分布为各所述第一数字资产所属企业的子产品的占比，各所述第二文本段所描述的资金分布为具有绿色属性的产品；

所述将各所述第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段，包括：

所述根据所述目标第一文本段所描述的资产分布，以及各所述第一数字资产的总金额，确定各所述第一数字资产中的绿色资产的占比，包括：

3.根据权利要求1或2所述的方法，其特征在于，根据相似度模型，确定各所述第一文本段分别与多个第二文本段之间的相似度之前，所述方法还包括：

获取第一预设文档，所述第一预设文档中记载的产品均具有绿色属性；

4.根据权利要求1所述的方法，其特征在于，

当各所述第一数字资产的资产分布为各所述第一数字资产的资金用途时，各所述第二文本段描述的资金分布为具有绿色属性的资金用途；

所述根据相似度模型，确定各所述第一文本段分别与多个第二文本段之间的相似度，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述根据各所述第一数字资产中的绿色资产的占比、以及所述第二数字资产中的绿色资产的占比，确定所述待识别数字资产中的绿色资产的占比，包括：

6.根据权利要求5所述的方法，其特征在于，对各所述第一数字资产的第一占比和所述第二数字资产的第二占比进行求和之前，所述方法还包括：

根据所述第三比例和所述第四比例，确定杠杆比例；

所述对各所述第一数字资产的第一占比和所述第二数字资产的第二占比进行求和，得到所述待识别数字资产中的绿色资产的占比，包括：

7.一种绿色资产的占比的识别装置，其特征在于，包括：获取单元和处理单元；

所述获取单元，用于获取待识别数字资产的持仓数据；

所述处理单元，用于对获取到的待识别数字资产的持仓数据进行文本识别，得到多个第一数字资产和第二数字资产，其中，所述持仓数据中披露了各所述第一数字资产的资产信息，所述持仓数据中未披露所述第二数字资产的资产信息；

所述获取单元，还用于根据各所述第一数字资产的资产信息，获取各所述第一数字资产的披露数据；

所述处理单元，还用于将各所述第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段，其中，所述至少一个第一文本段用于描述各所述第一数字资产的资产分布；

8.根据权利要求7所述的装置，其特征在于，

在将各所述第一数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到至少一个第一文本段方面，处理单元，具体用于：

在根据所述目标第一文本段所描述的资产分布，以及各所述第一数字资产的总金额，确定各所述第一数字资产中的绿色资产的占比方面，处理单元，具体用于：

9.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-6中任一项所述的方法。