WO2023071129A1

WO2023071129A1 - 绿色资产的占比的识别方法及相关产品

Info

Publication number: WO2023071129A1
Application number: PCT/CN2022/090484
Authority: WO
Inventors: 诸世卓; 崔伟旗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-10-30
Filing date: 2022-04-29
Publication date: 2023-05-04
Also published as: CN113902568A

Abstract

本申请涉及人工智能技术领域，具体涉及一种绿色资产的占比的识别方法及相关产品。该方法包括：获取针对数字资产的披露文档；对披露文档进行文本识别，得到披露文档中的目标章节；对第一文本段和第一表格均进行实体识别，得到主营产品以及主营产品的占比；将第一文本段输入到机器阅读理解模型进行文本分割，得到至少一个子文本段；根据主营产品的占比，确定各子产品的占比；根据相似度模型，确定各子文本段分别与多个第二文本段之间的相似度；根据各子文本段分别与多个第二文本段之间的相似度，确定目标子文本段；根据目标子文本段描述的子产品的占比，确定数字资产中的绿色资产的占比。

Description

绿色资产的占比的识别方法及相关产品

优先权申明

本申请要求于2021年10月30日提交中国专利局、申请号为202111280433.3，发明名称为“绿色资产的占比的识别方法及相关产品”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，具体涉及一种绿色资产的占比的识别方法及相关产品。

背景技术

在全球气候变化合作的大背景下，各个管理部门需要厘清在自己管辖范围内的绿色和非绿色资产规模，以便更加科学的部署碳达峰和碳中和的实现路径。

投资机构在实现碳达峰和碳中和的过程中扮演着非常重要的角色，其投资标的的选择实际上将引导企业向绿色产业和碳中和达标的方向发展。

发明人意识到投资机构在统计其绿色投资比例时，由于监管和保密的需要，不能进行跨部门共享，都是由各个部门进行人工统计，主观性较强，精度低。

发明内容

本申请实施例提供了一种绿色资产的占比的识别方法及相关产品，提高数字资产中的绿色资产的占比的识别精度。

第一方面，本申请实施例提供一种基于模型的数字资产中的绿色资产的占比的识别方法，包括：

获取数字资产的所属企业针对所述数字资产的披露文档；

对所述披露文档进行文本识别，得到所述披露文档中的目标章节，其中，所述目标章节用于描述所述所属企业的主营产品，且所述目标章节包括第一表格和第一文本段；

对所述第一文本段和所述第一表格均进行实体识别，得到所述主营产品以及所述主营产品的占比，其中，所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值；

将所述第一文本段输入到机器阅读理解模型进行文本分割，得到至少一个子文本段，所述至少一个文本段用于描述所述主营产品的至少一子产品；

根据所述主营产品的占比，确定各所述子产品的占比；

根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度，其中，所述多个第二文本段用于描述多个具有绿色属性的第一产品；

根据各所述子文本段分别与所述多个第二文本段之间的相似度，确定所述至少一个子文本段中的目标子文本段；

根据所述目标子文本段描述的子产品的占比，确定所述数字资产中的绿色资产的占比。

第二方面，本申请实施例提供一种绿色资产的占比的识别装置，包括：获取单元和处理单元；

所述获取单元，用于获取数字资产的所属企业针对所述数字资产的披露文档；

所述处理单元，用于对所述披露文档进行文本识别，得到所述披露文档中的目标章节，其中，所述目标章节用于描述所述所属企业的主营产品，且所述目标章节包括第一表格和第一文本段；

将所述第一文本段输入到机器阅读理解模型进行文本分割，得到所述主营产品的至少一个子产品以及至少一个子文本段，所述至少一个文本段用于描述所述至少一子产品；

根据所述主营产品的占比，确定各所述子产品的占比；

第三方面，本申请实施例提供一种电子设备，其中，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，所述计算机程序包括用于执行以下步骤的指令：

获取数字资产的所属企业针对所述数字资产的披露文档；

根据所述主营产品的占比，确定各所述子产品的占比；

第四方面，本申请实施例提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以使得计算机执行以下步骤的指令：

获取数字资产的所属企业针对所述数字资产的披露文档；

根据所述主营产品的占比，确定各所述子产品的占比；

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例，具有如下有益效果：

可以看出，在本申请实施方式中，通过获取股票的发行公司针对股票的披露数据，以及机器模型，可以自动识别出每只股票中的绿色资产的占比，无需人工去统计股票中的绿色资产的占比(即股票的绿色比例)，从而节约了人工成本，并且避免了人工统计过程所带来的主观性，提高了对股票的绿色资产的占比的识别精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于模型的数字资产中的绿色资产的占比识别方法的流程示意图；

图2为本申请实施例提供的另一种基于模型的数字资产中的绿色资产的占比识别方法的流程示意图；

图3为本申请实施例提供的一种相似度模型训练方法的流程示意图；

图4为本申请实施例提供的一种绿色资产的占比的识别装置的功能单元组成框图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

首先说明，本申请的应用场景为识别股票中的绿色资产的占比，相适应的，本申请所涉及的数字资产本质上是股票，因此数字资产的所属企业实质上就是股票的发行公司，数字资产的披露文档，即该发行公司的年报。后面的解释均与此类似，不再叙述。

参阅图1，图1为本申请实施例提供的一种基于模型的数字资产中的绿色资产的占比的识别方法。该方法应用于绿色资产的占比的识别装置。该方法包括以下步骤内容：

101：获取数字资产的所属企业针对所述数字资产的披露文档。

示例性的，绿色资产的占比的识别装置通过爬虫技术从该数字资产的所属企业的官方平台中获取针对该数字资产的披露文档，即获取该所属企业针对该数字资产的年报。

102：对所述披露文档进行文本识别，得到所述披露文档中的目标章节，其中，所述目标章节用于描述所述所属企业的主营产品，且所述目标章节包括第一表格和第一文本段。

一般来说，公司年报中的“第四节经营情况讨论与分析”章节中的“一、概述”章节用来描述公司的主营产品。因此，对披露文档进行文本识别，定位出“第四节经营情况讨论与分析”章节；然后，再对该章节进行文本识别，得到该章节下的细分章节，即“一、概述”章节，并将该细分章节作为目标章节。

示例性的，目标章节包含第一表格和第一文本段，其中，该第一文本段用于描述该所属企业的主营产品；第一表格用于描述主营产品以及主营产品的营业额相对于所属企业的总营业额的占比，即主营产品的占比。

应说明，对于一个企业来说，主营产品可以有一个或多个，本申请中以一个主营产品为例进行说明，针对多个主营产品的情况与此类似，不再叙述。

103：对所述第一文本段和所述第一表格均进行实体识别，得到所述主营产品以及所述主营产品的占比，其中，所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值。

示例性的，对第一文本段进行实体识别，获取与产品相关的实体，并将该实体对应的产品作为所属企业的主营产品。

举例来说，第一文本段描述了所属企业的主营产品为“新能源电池”，则通过实体识别，可得到该所属企业的主营产品为“新能源电池”。

进一步地，对第一表格进行实体识别，确定出该第一表格中“新能源电池”所在的位置，并基于该新能源电池”在该第一表格中位置，从该表格中读取出该“新能源电池”营业额相对于该所属企业的总营业额的占比。

104：将所述第一文本段输入到机器阅读理解模型进行文本分割，得到至少一个子文本段，所述至少一个文本段用于描述所述主营产品的至少一子产品。

示例性的，机器阅读理解(Machine Reading Comprehension，MRC)模型是预先训练好的，本申请不再叙述对该MRC模型进行训练的过程。针对本申请的文本分割过程，首先设置该MRC模型的问题为：“哪些产品是主营产品的子产品(即细分产品)”，该主营产品即为上述对第一文本段进行实体识别出的主营产品，并设置该MRC模型输入的文章为该第一文本段；然后，通过MRC模型的编码层对问题进行编码，得到第一向量；对第一文本段中的各个子文本段进行编码，得到与各个子文本段对应的第二向量；然后，将第一向量和各个子文本段的第二向量输入到MRC模型的交互层进行交互，得到问题和各个子文本段之间的相似度，将相似度大于预设阈值的子文本段作为该至少一个子文本段。

进一步的，对每个子文本段进行实体识别，可得到该主营产品对应的至少一个子产品。

举例来说，第一文本段描述了多个主营产品，以及每个主营产品下的子产品。比如，描述的主营产品包括“新能源电池”、“风力发电”，则针对主营产品“新能源电池”来说，则将第一文本段输入到MRC模型之后，输出的子文本段是用来描述电池的文本段，比如，识别出的至少一个子文本段分别用来描述“锂电池”、“核电池”，等其他新能源电池。

105：根据所述主营产品的占比，确定各所述子产品的占比。

示例性的，可以根据至少一个子产品的数量，将该主营产品的占比平均拆分给该至少一个子产品，得到各子产品的占比。

应说明，若某个子产品还可以继续进行拆分，则可以将该子产品继续进行拆分，以及将该子产品的占比拆分给更细粒度的产品。本申请中主要以对主营产品进行一次拆分为例进行说明，不进行多次拆分。

举例来说，主营产品A的占比为50％，该主营产品A包括子产品b和子产品c，那么子产品b和子产品c的占比均为25％。进一步的，若子产品b包括子产品d和子产品e，则可以将子产品b的比例等分拆分，则子产品d和子产品e的占比分别12.5％和12.5％。

106：根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度，其中，所述多个第二文本段用于描述多个具有绿色属性的第一产品。

其中，所述多个第二文本段用于描述多个第一产品，所述多个第一产品为具有绿色属性的产品。

示例性的，获取第一预设文档，比如，该第一预设文档可以为《绿色产业指导目录的解释说明》，该第一预设文档中记载的产品均具有绿色属性；对该第一预设文档进行实体识别，得到该预设文档中记载的产品；将读取到的产品作为该多个第一产品。

在本申请的一个实施方式中，第一预设文档在记载产品时，可能不会直接记载具有绿色属性的产品，而是通过文档引用的方式，通过其他文档来记载具有绿色属性的产品。因此，首先对第一预设文档进行文本识别，得到多个第三文本段，其中，多个第三文本段用于描述第一预设文档中记载的产品，但是，某个第三文本段在描述产品时，并不会直接描述该产品，而是引用其他文档来描述产品。因此若多个第三文本段中的任意一个第三文本段引用其他文档，则对其他文档进行文本识别，得到与第三文本段对应的第四文本段，其中，所述第四文本段是其他文档中用于描述具有绿色属性的产品的文本，并对第四文本段进行实体识别，得到第四文本段描述的产品；因此，可以将多个第三文本段和引用的第四文本段作为该多个第二文本段，并将多个第三文本段描述的产品，以及第四文本段描述的产品均作为该第一产品，得到该多个第一产品。

示例性的，该相似度模型为通过预先构造的多对目标训练样本进行训练得到的，后面详细描述构造多对目标训练样本的过程以及模型训练过程，在此不做过多描述。在本申请的一个实施方式中，该相似度模型可以为RoFormer模型。

因此，将每个子文本段以及每个第二文本段输入到该RoFormer模型中，得到每个子文本段和每个第二文本段之间的相似度。

107：根据各所述子文本段分别与所述多个第二文本段之间的相似度，确定所述至少一个子文本段中的目标子文本段。

示例性的，根据每个子文本段分别与多个第二文本段之间的相似度，确定每个子文本段对应的最大相似度，若该最大相似度大于相似度阈值，则将该子文本段作为目标子文本段，也就是确定该目标子文本段描述的子产品为与该最大相似度对应的第二文本段所描述的第一产品。

108：根据所述目标子文本段描述的子产品的占比，确定所述数字资产中的绿色资产的占比。

示例性的，将目标子文本段所描述的子产品的占比，作为该数字资产中的绿色资产的占比。应说明，目标子文本段的数量可以为一个或多个，也就说，该至少一个子产品中存在一个或多个子产品具有绿色属性。

示例性的，当目标子文本段的数量为多个时，则多个目标子文本段所描述的子产品的占比进行求和，将求和结果作为该数字资产中的绿色资产的占比。

在本申请的一个实施方式中，获取多个预先设定好的ESG指标，以及多个上市企业的披露数据，其中，上述的所属企业为该多个上市企业中的一个；然后，根据每个上市企业的披露数据，以及预设的ESG评分体系，确定每个上市企业在各个ESG指标下的评分；基于每个ESG指标的权重，对每个上市企业在各个ESG指标下的评分进行加权处理，得到每个上市企业的ESG评分；最后，对多个上市企业的ESG评分进行标准化处理，得到每个上市企业的标准化ESG评分。

进一步地，对该数字资产的绿色资产的占比以及该数字资产的所属企业的标准化ESG评分进行加权，将加权结果作为该数字资产的绿色资产的目标占比。并将该目标占比作为该数字资产中绿色资产的最终的占比。

示例性的，目标占比通过公式(1)表示：

T _i＝α*ps _i+β*s _i 公式(1)；

其中，T _i为目标占比，ps _i为数字资产的绿色资产的占比，s _i为数字资产的所属企业的标准化ESG评分，α和β为预设的权重系数

可以看出，在本实施方式中，在识别每只股票的绿色资产的占比时，除了从股票的本身性质出发外，还考虑了股票发行公司的ESG评分，由于ESG评分也是反映企业的绿色管理状态，最后结合ESG评分，综合识别股票的绿色资产的占比，从而进一步提高对股票的绿色资产的占比的识别精度。

参阅图2，图2为本申请实施例提供的另一种基于模型的数字资产的绿色资产的占比识别方法的流程示意图。该实施例中与图1所示的实施例相同的内容，此处不再重复描述。本实施例的方法包括以下步骤：

201：获取数字资产的所属企业针对所述数字资产的披露文档，所述数字资产为t时刻下投资机构所投资的多个数字资产中的任意一个，所述t时刻为任意时刻。

202：对所述披露文档进行文本识别，得到所述披露文档中的目标章节，其中，所述目标章节用于描述所述所属企业的主营产品，且所述目标章节包括第一表格和第一文本段。

203：对所述第一文本段和所述第一表格均进行实体识别，得到所述主营产品以及所述主营产品的占比，其中，所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值。

204：将所述第一文本段输入到机器阅读理解模型进行文本分割，得到至少一个子文本段，所述至少一个文本段用于描述所述主营产品的至少一子产品。

205：根据所述主营产品的占比，确定各所述子产品的占比。

206：根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度，其中，所述多个第二文本段用于描述多个具有绿色属性的第一产品。

207：根据各所述子文本段分别与所述多个第二文本段之间的相似度，确定所述至少一个子文本段中的目标子文本段。

208：根据所述目标子文本段描述的子产品的占比，确定所述数字资产中的绿色资产的占比。

应说明，若实际应用中还考虑ESG评分，则此处确定出的绿色资产的占比实质上为上述的目标占比。

209：获取所述t时刻下各所述数字资产的净值。

210：获取所述t时刻下所述投资机构持有各所述数字资产的份额。

211：根据各所述数字资产的净值、所述份额以及绿色资产的占比，确定所述t时刻下所述投资机构持有各所述数字资产的绿色规模。

示例性的，根据识别上述任意一个数字资产中的绿色资产的占比的方式，可得到每个数字资产中的绿色资产的占比；然后，根据t时刻下每个数字资产的净值、份额和绿色资产的占比，确定出投资机构持有每个数字资产的绿色规模。

示例性的，投资机构持有每个数字资产的绿色规模可以通过公式(2)表示：

S _i＝s _i*V _i*R _i 公式(2)；

其中，S _i为投资机构持有该多个数字资产中的第i个数字资产的绿色规模，s _i为第i个数字资产中的绿色资产的占比，V _i为所述t时刻下所述第i个数字资产的净值，R _i为所述t时刻下所述投资机构持有所述第i个数字资产的份额。

应说明，若使用ESG评分综合确定数字资产的绿色资产的占比，则上述公式(2)中的绿色资产的占比可以替换为每个数字资产的目标占比。

212：根据所述t时刻下所述投资机构持有各所述数字资产的绿色规模，确定所述投资机构持有所述多个数字资产的目标绿色规模。

示例性的，对该投资机构持有每个数字资产的绿色规模进行求和，将求和结果作为该投资机构持有多个数字资产的目标绿色规模。

示例性的，目标绿色规模可以通过公式(3)表示：

其中，S _total为目标绿色规模，n为所述多个数字资产的数量。

可以看出，在本申请实施例中，通过获取股票的发行公司针对股票的披露数据，以及机器模型，可以自动识别出每只股票中的绿色资产的占比，无需人工去统计股票中的绿色资产的占比，从而节约了人工成本，并且避免了人工统计过程所带来的主观性，提高了对股票中的绿色资产的占比的识别精度。进一步的，由于识别出的股票中的绿色资产的占比的精度较高，因此统计出的投资机构投资的股票的绿色规模更加精确，进而可以精确的引导企业向绿色产业和碳中和达标的方向发展。

参阅图3，图3为本申请实施例提供的一种相似度模型训练方法的流程示意图。该实施例中与图1、图2所示的实施例相同的内容，此处不再重复描述。本实施例的方法包括以下步骤：

301：获取第二预设文档，所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品。

示例性的，通过爬虫技术获取第二预设文档，例如，第二预设文档可以为《2017国民经济行业分类目录2021修订第一版》。该第二预设文档中记载了市场上目前所有的产品。因此，该第二预设文档中记载的产品有绿色属性的产品，也有非绿色属性的产品。

302：对所述第二预设文档进行文本识别，得到多个第五文本段，其中，所述多个第五文本段用于描述所述第二预设文档中记载的产品。

示例性的，对第二预设文档进行实体识别，得到第二预设文档中记载的各个产品；通过文本识别从第二预设文档中提取出描述各个产品的文本段，得到多个第五文本段。

303：根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本。

示例性的，对多个第二文本段中的每个第二文本段中的实体进行同义词替换，得到与每个第二文本段对应的第六文本段；然后，将每个第二文本段，以及与该第二文本段对应的第六文本段作为一对训练样本，得到多对第一训练样本。本申请中也可以将多对第一训练样本称为多对相似样本。

应说明，构造了多对第一训练样本之后在训练的过程中，使一对第一训练样本中的两个训练样本之间的距离比较近，这样构造出多对第一训练样本之后，可以让模型能够识别出一些从文字表面上看似不同的产业，其实是相同的绿色产业，从而可以精确的识别出多元化文字表达的绿色产业。

示例性的，将多个第五文本段中的多个目标第五文本段剔除，得到多个第七文本段，其中，多个目标第五文本段描述的产品与多个第二文本段描述产品相同，且多个目标第五文本段与多个第二文本段一一对应。

具体的，将多个第五文本段与多个第二文本段做差集，得到该多个第七文本段。其中，本申请所指的差集本质上是将文本段描述的产业做差集，即从多个第五文本段中剔除目标第五文本段，得到该多个第七文本段。

应理解，将多个第五文本段与多个第二文本段做差集，则得到的多个第七文本段所描述的产品均是具有非绿色属性的产品。

进一步地，确定该多个第七文本段中与每个第七文本段对应的第二文本段，其中，该第七文本段所描述的产品与该第二文本段描述的产品相同，但第七文本段描述的产品具有非绿色属性，而第二文本段描述的产品具有绿色属性。例如，第二文本段描述的产品为“节能型工业锅炉”，而第七文本描述的产品为“工业锅炉”。可以看出，这两个文本段描述的产品均是锅炉，但是“节能型工业锅炉”具有绿色属性，而“工业锅炉”具有非绿色属性。因此，可以将这两个文本段作为一对训练样本。因此，将该第七文本段以及与该第七文本段对应的第二文本段作为一对训练样本，得到多对第二训练样本。本申请中可以将多对第二训练样本称为多对不相似样本。

应说明，之所以构造不相似样本，是因为需要让模型识别虽然看起来表达很近的产品名称，实质上是具有不同属性的产品，学习到这些表达相近的产品名称中哪些关键字词是真正与绿色属性相关的，比如，上述的“节能型工业锅炉”和“工业锅炉”，在训练的过程中，可以让模型记住只有带上“节能型”的锅炉才是具有绿色属性的产品，这样就识别出在这种类似的表达中，“节能型”才是与绿色属性密切相关的关键词。

最后，将多对第一训练样本和多对第二训练样本作为该多对目标训练样本。

304：根据所述多对目标训练样本对初始模型训练，得到所述相似度模型。

示例性的，将多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型，得到每个训练样本的特征向量，其中，该特征向量用于确定每个训练样本所描述的产品具有绿色属性的概率；然后，根据每个训练样本的特征向量以及每个训练样本的标签，确定每个训练样本对应的第一损失，其中，每个训练样本的标签用于标识每个训练样本所描述的产品是否具有绿色属性的真实情况。应理解，对于相似样本来说，每对相似样本中的两个训练样本的标签是相同的，对于不相似样本来说，每对不相似样本中的两个训练样本的标签是不同的。

具体的，根据每个训练样本的特征向量，通过该初始模型的分类器确定每个训练样本所描述的产品具有绿色属性的概率；根据每个训练样本所描述的产品具有绿色属性的概率以及每个训练样本的标签，确定每个训练样本对应的第一损失。

进一步的，根据每个训练样本的特征向量，确定每对目标训练样本的第二损失，即根据每对目标训练样本中的两个训练样本的特征向量，确定该两个训练样本之间的相似度，将该相似度作为每对目标样本的第二损失。

最后，根据每对目标训练样本中的每个训练样本的第一损失，以及每对目标训练样本对应的第二损失，对初始模型进行训练，得到该相似度模型。

具体的，首先根据每对目标训练样本中的每个训练样本的第一损失，确定初始模型在进行绿色属性分类的过程中的第一目标损失。示例性的，对多对目标训练样本中的所有训练样本的第一损失进行加权求和，得到该第一目标损失。

示例性的，第一目标损失可以通过公式(4)表示：

L ₁为第一目标损失，avg为求平均操作，n为多对第一训练样本的数量，m为多对第二训练样本的数量，W为初始模型的分类器的权重，f _t′为多对目标训练样本中的所有训练样本(即2(n+m))个训练样本中的第t个训练样本，l _t为第t个训练样本的标签。

具体的，根据每对目标训练样本的第二损失，确定初始模型在对每对第一训练样本进行特征提取过程中的损失，得到第二目标损失。示例性的，获取每对第一训练样本的第二损失，并对多对第一训练样本的第二损失求平均，得到该第二目标损失。示例性的，该第二目标损失可以通过公式(5)表示：

其中，L _sim为第二目标损失，avg为求平均操作，n为多对第一训练样本的数量，s _i为n对第一训练样本中的第i对第一训练样本，

为第i对第一训练样本中的一个训练样本的特征向量，

为该第i对第一训练样本中的另一个训练样本的特征向量，|||| ₂为求向量之间的相似度(距离)的操作。

具体的，根据每对目标训练样本的第二损失，确定初始模型在对每对第二训练样本进行特征提取过程中的损失，得到第三目标损失。示例性的，获取每对第二训练样本的第二损失，并对多对第二训练样本的第二损失求平均，得到该第三目标损失。示例性的，第三目标损失可以通过公式(6)表示：

其中，L _dissim为第三目标损失，avg为求平均操作，m为多对第二训练样本的数量，s _j为 m对第二训练样本中的第j对第一训练样本，

为第j对第二训练样本中的一个训练样本的特征向量，

为该第j对第二训练样本中的另一个训练样本的特征向量，|||| ₂为求向量之间的相似度(距离)的操作。

最后，根据第二目标损失和第三目标损失，确定第四目标损失。示例性的，第四目标损失通过公式(7)表示：

其中，L ₄为第四损失，κ为预设的稳定性参数，用于在L _sim为0的情况下，避免第四目标损失L ₄为零，进而防止模型退化。

之所以设置公式(7)的损失函数，是因为在构造训练样本对的过程中，就决定了第二目标损失L _sim需要向着比较小的方向去优化，第三目标损失L _dissim需要向着比较大的方向去优化，所以单纯的加权求和无法将两者统一。设置了公式(7)的损失函数之后，则只向着第四目标损失L ₄比较小的方向去优化，即可满足第二目标损失L _sim和第三目标损失L _dissim的优化需求，从而满足整个反向传播过程的优化需求。

最后，将第四目标损失和第一目标损失进行加权，得到最终的目标损失；基于目标损失以及梯度下降法对初始模型进行反向更新，直至初始模型收敛时，得到该相似度模型。

在本申请的一个实施方式中，在构造相似训练样时，除了同义词替换，还可以进行句式的替换。示例性的，对多个第二文本段进行实体识别，得到多个目标实体，其中，多个目标实体与多个第二文本段一一对应，也就是从多个第二文本段中提取出用来描述该多个第一产品的多个目标实体。然后，将每个第二文本段以及与从每个第二文本段中提取出的目标实体作为一对训练样本，得到多对相似样本，这样就构造出了包含不同句式的相似样本。例如“本债券将用于偿还前期水电站建设项目贷款”，则将该第二文本段和“水电站”作为一对相似样本，之所以构造这样的相似样本，是让模型在学习的过程中将“本债券将用于偿还前期水电站建设项目贷款”和“水电站”均识别为绿色产品，因此构造出这种相似样本，可以让模型在学习的过程中可以不受句式的影响，只关心真正与绿色属性相关的字词，从而提高模型的识别精度。

在本申请的一个实施方式中，在构造不相似样本时，针对每个第二文本段，从剩余的目标实体中随机选择一个目标实体，与该第二文本段作为一对不相似样本，可构造出多对不相似样本，其中，该剩余的目标实体为该多个目标实体中除该第二文本段的目标实体之外的所有实体。例如，将上述的“水电站”随机替换为一个目标实体，比如，“风电站”，“其他项目建设”，等等，可以构造出多对不相似样本。构造出这样的不相似样本，可以让模型学习到需要关注的是句式中的实体，对于这种不相似的数据实体不同，需要分类为不同的产品。从而使该模型对于“本债券将用于偿还前期水电站建设项目贷款”以及“风电站”，“其他项目建设”识别为不同属性的产品，从而使如此相近的情况下也能准确匹配到最相似的行业是水电站，即能准确的进行实体匹配，从而提高模型的识别精度。

参阅图4，图4为本申请实施例提供的一种绿色资产的占比的识别装置的功能单元组成框图。绿色资产的占比的识别装置400包括：获取单元401和处理单元402；

获取单元401，用于获取数字资产的所属企业针对所述数字资产的披露文档；

处理单元402，用于对所述披露文档进行文本识别，得到所述披露文档中的目标章节，其中，所述目标章节用于描述所述所属企业的主营产品，且所述目标章节包括第一表格和第一文本段；

根据所述主营产品的占比，确定各所述子产品的占比；

在一些可能的实施方式中，根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度之前，获取单元401，还用于获取第一预设文档，所述第一预设文档中记载的产品均为具有绿色属性的产品；

处理单元402，还用于对所述第一预设文档进行文本识别，得到多个第三文本段，其中，所述多个第三文本段用于描述所述第一预设文档中记载的产品；

若所述多个第三文本段中的任意一个第三文本段引用其他文档，则对所述其他文档进行文本识别，得到与所述任意一个第三文本段对应的第四文本段，其中，所述第四文本段是所述其他文档中用于描述具有绿色属性的产品的文本段；

将所述多个第三文本段和所述任意一个第三文本段对应的第四文本段作为所述多个第二文本段。

在一些可能的实施方式中，根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度之前，获取单元401，还用于获取第二预设文档，所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品；

处理单元402，还用于对所述第二预设文档进行文本识别，得到多个第五文本段，其中，所述多个第五文本段用于描述所述第二预设文档中记载的产品；

根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本；

根据所述多对目标训练样本对初始模型训练，得到所述相似度模型。

在一些可能的实施方式中，在根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本方面，处理单元402，具体用于：

对所述多个第二文本段中的每个第二文本段中的实体进行同义词替换，得到与所述第二文本段对应的第六文本段；

将所述每个第二文本段以及与所述每个第二文本段对应的第六文本段作为一对训练样本，得到多对第一训练样本；

将所述多个第五文本段中的多个目标第五文本段剔除，得到多个第七文本段，其中，所述多个目标第五文本段描述的产品与所述多个第二文本段描述的产品相同，且均具有绿色属性；

确定所述多个第七文本段中的每个第七文本段对应的第二文本段，并将所述每个第七文本段，以及与所述每个第七文本段对应的第二文本段作为一对训练样本，得到多对第二训练样本，其中，所述每个第七文本段以及与所述每个第七文本段对应的第二文本段所描述的产品相同，且所述每个第七文本段所描述的产品具有非绿色属性；

将所述多对第一训练样本和所述多对第二训练样本，作为所述多对目标训练样本。

在一些可能的实施方式中，在根据所述多对目标训练样本对初始模型训练，得到所述相似度模型方面，处理单元402，具体用于：

将所述多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型，得到所述每个训练样本对应的特征向量；

根据所述每个训练样本对应的特征向量，以及所述每个训练样本的标签，得到所述每个训练样本对应的第一损失；

根据所述每个训练样本对应的特征向量，确定所述每对目标训练样本对应的第二损失；

根据所述每对目标训练样本中的每个训练样本的第一损失，以及所述每对目标训练样本对应的第二损失，对所述初始模型进行训练，得到所述相似度模型。

在一些可能的实施方式中，在根据所述主营产品的占比，确定各所述子产品的占比方面，处理单元402，具体用于：

根据所述至少一个子产品的数量，将所述主营产品的占比平均拆分给所述至少一个子产品，得到各所述子产品的占比。

在一些可能的实施方式中，所述数字资产为t时刻下投资机构所投资的多个数字资产中的任意一个，所述t时刻为任意时刻；

处理单元402，还用于根据所述t时刻下所述任意一个数字资产中的绿色资产的占比，得到各所述数字资产中的绿色资产的占比；

获取单元401，还用于获取所述t时刻下各所述数字资产的净值；

获取所述t时刻下所述投资机构持有各所述数字资产的份额；

处理单元402，还用于根据各所述数字资产的净值、所述份额以及绿色资产的占比，确定所述t时刻下所述投资机构持有各所述数字资产的绿色规模；

根据所述t时刻下所述投资机构持有各所述数字资产的绿色规模，确定所述投资机构持有所述多个数字资产的目标绿色规模；

所述目标绿色规模满足以下公式：

S _total为所述目标绿色规模，n为所述多个数字资产的数量，s _i为所述t时刻下所述多个数字资产中的第i个数字资产的绿色资产的占比，V _i为所述t时刻下所述第i个数字资产的净值，R _i为所述t时刻下所述投资机构持有所述第i个数字资产的份额。

参阅图5，图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示，电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据，并可以将存储器503存储的数据传输给处理器502。

处理器502用于读取存储器503中的计算机程序执行以下操作：

控制收发器501获取数字资产的所属企业针对所述数字资产的披露文档；

根据所述主营产品的占比，确定各所述子产品的占比；

在一些可能的实施方式中，根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度之前，处理器502还用于执行以下操作：

控制收发器501获取第一预设文档，所述第一预设文档中记载的产品均为具有绿色属性的产品；

对所述第一预设文档进行文本识别，得到多个第三文本段，其中，所述多个第三文本段用于描述所述第一预设文档中记载的产品；

控制收发器501获取第二预设文档，所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品；

对所述第二预设文档进行文本识别，得到多个第五文本段，其中，所述多个第五文本段用于描述所述第二预设文档中记载的产品；

在一些可能的实施方式中，在根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本方面，处理器502具体用于执行以下操作：

在一些可能的实施方式中，在根据所述多对目标训练样本对初始模型训练，得到所述相似度模型方面，处理器502具体用于执行以下操作：

在一些可能的实施方式中，在根据所述主营产品的占比，确定各所述子产品的占比方面，处理器502具体用于执行以下操作：

在一些可能的实施方式中，所述数字资产为t时刻下投资机构所投资的多个数字资产中的任意一个，所述t时刻为任意时刻；处理器502还用于执行以下操作：

根据所述t时刻下所述任意一个数字资产中的绿色资产的占比，得到各所述数字资产中的绿色资产的占比；

控制收发器501获取所述t时刻下各所述数字资产的净值；以及获取所述t时刻下所述投资机构持有各所述数字资产的份额；

根据各所述数字资产的净值、份额以及绿色资产的占比，确定所述t时刻下所述投资机构持有各所述数字资产的绿色规模；

所述目标绿色规模满足以下公式：

具体地，上述收发器501可为图4所述的实施例的绿色资产的占比的识别装置400的获取单元401，上述处理器502可以为图4所述的实施例的绿色资产的占比的识别装置400的处理单元402。

应理解，本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices，简称：MID)或穿戴式设备等。上述电子设备仅是举例，而非穷举，包含但不限于上述电子设备。在实际应用中，上述电子设备还可以包括：智能车载终端、计算机设备等等。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种基于模型的数字资产中的绿色资产的占比的识别方法的部分或全部步骤。所述计算机可读存储介质可以是非易失性，也可以是易失性。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于模型的数字资产中的绿色资产的占比的识别方法的部分或全部步骤。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种基于模型的数字资产中的绿色资产的占比识别方法，其中，包括：

获取数字资产的所属企业针对所述数字资产的披露文档；

对所述披露文档进行文本识别，得到所述披露文档中的目标章节，其中，所述目标章节用于描述所述所属企业的主营产品，且所述目标章节包括第一表格和第一文本段；

对所述第一文本段和所述第一表格均进行实体识别，得到所述主营产品以及所述主营产品的占比，其中，所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值；

将所述第一文本段输入到机器阅读理解模型进行文本分割，得到至少一个子文本段，所述至少一个文本段用于描述所述主营产品的至少一子产品；

根据所述主营产品的占比，确定各所述子产品的占比；

根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度，其中，所述多个第二文本段用于描述多个具有绿色属性的第一产品；

根据各所述子文本段分别与所述多个第二文本段之间的相似度，确定所述至少一个子文本段中的目标子文本段；

根据所述目标子文本段描述的子产品的占比，确定所述数字资产中的绿色资产的占比。
根据权利要求1所述的方法，其中，根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度之前，所述方法还包括：

获取第一预设文档，所述第一预设文档中记载的产品均为具有绿色属性的产品；

对所述第一预设文档进行文本识别，得到多个第三文本段，其中，所述多个第三文本段用于描述所述第一预设文档中记载的产品；

若所述多个第三文本段中的任意一个第三文本段引用其他文档，则对所述其他文档进行文本识别，得到与所述任意一个第三文本段对应的第四文本段，其中，所述第四文本段是所述其他文档中用于描述具有绿色属性的产品的文本段；

将所述多个第三文本段和所述任意一个第三文本段对应的第四文本段作为所述多个第二文本段。
根据权利要求2所述的方法，其中，根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度之前，所述方法还包括：

获取第二预设文档，所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品；

对所述第二预设文档进行文本识别，得到多个第五文本段，其中，所述多个第五文本段用于描述所述第二预设文档中记载的产品；

根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本；

根据所述多对目标训练样本对初始模型训练，得到所述相似度模型。
根据权利要求3所述的方法，其中，所述根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本，包括：

对所述多个第二文本段中的每个第二文本段中的实体进行同义词替换，得到与所述第二文本段对应的第六文本段；

将所述每个第二文本段以及与所述每个第二文本段对应的第六文本段作为一对训练样本，得到多对第一训练样本；

将所述多个第五文本段中的多个目标第五文本段剔除，得到多个第七文本段，其中，所述多个目标第五文本段描述的产品与所述多个第二文本段描述的产品相同，且均具有绿色属性；

确定所述多个第七文本段中的每个第七文本段对应的第二文本段，并将所述每个第七文本段，以及与所述每个第七文本段对应的第二文本段作为一对训练样本，得到多对第二训练样本，其中，所述每个第七文本段以及与所述每个第七文本段对应的第二文本段所描述的产品相同，且所述每个第七文本段所描述的产品具有非绿色属性；

将所述多对第一训练样本和所述多对第二训练样本，作为所述多对目标训练样本。
根据权利要求4所述的方法，其中，所述根据所述多对目标训练样本对初始模型训练，得到所述相似度模型，包括：

将所述多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型，得到所述每个训练样本对应的特征向量；

根据所述每个训练样本对应的特征向量，以及所述每个训练样本的标签，得到所述每个训练样本对应的第一损失；

根据所述每个训练样本对应的特征向量，确定所述每对目标训练样本对应的第二损失；

根据所述每对目标训练样本中的每个训练样本的第一损失，以及所述每对目标训练样本对应的第二损失，对所述初始模型进行训练，得到所述相似度模型。
根据权利要求5所述的方法，其中，所述根据所述主营产品的占比，确定各所述子产品的占比，包括：

根据所述至少一个子产品的数量，将所述主营产品的占比平均拆分给所述至少一个子产品，得到各所述子产品的占比。
根据权利要求6所述的方法，其中，所述数字资产为t时刻下投资机构所投资的多个数字资产中的任意一个，所述t时刻为任意时刻；所述方法还包括：

根据所述t时刻下所述任意一个数字资产中的绿色资产的占比，得到各所述数字资产中的绿色资产的占比；

获取所述t时刻下各所述数字资产的净值；

获取所述t时刻下所述投资机构持有各所述数字资产的份额；

根据各所述数字资产的净值、份额以及绿色资产的占比，确定所述t时刻下所述投资机构持有各所述数字资产的绿色规模；

根据所述t时刻下所述投资机构持有各所述数字资产的绿色规模，确定所述投资机构持有所述多个数字资产的目标绿色规模；

所述目标绿色规模满足以下公式：

S _total为所述目标绿色规模，n为所述多个数字资产的数量，s _i为所述t时刻下所述多个数字资产中的第i个数字资产的绿色资产的占比，V _i为所述t时刻下所述第i个数字资产的净值，R _i为所述t时刻下所述投资机构持有所述第i个数字资产的份额。
一种绿色资产的占比的识别装置，其中，包括：获取单元和处理单元；

所述获取单元，用于获取数字资产的所属企业针对所述数字资产的披露文档；

所述处理单元，用于对所述披露文档进行文本识别，得到所述披露文档中的目标章节，其中，所述目标章节用于描述所述所属企业的主营产品，且所述目标章节包括第一表格和第一文本段；

对所述第一文本段和所述第一表格均进行实体识别，得到所述主营产品以及所述主营产品的占比，其中，所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值；

将所述第一文本段输入到机器阅读理解模型进行文本分割，得到所述主营产品的至少一个子产品以及至少一个子文本段，所述至少一个文本段用于描述所述至少一子产品；

根据所述主营产品的占比，确定各所述子产品的占比；

根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度，其中，所述多个第二文本段用于描述多个具有绿色属性的第一产品；

根据各所述子文本段分别与所述多个第二文本段之间的相似度，确定所述至少一个子文本段中的目标子文本段；

根据所述目标子文本段描述的子产品的占比，确定所述数字资产中的绿色资产的占比。
一种电子设备，其中，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，所述计算机程序包括用于执行以下步骤的指令：

获取数字资产的所属企业针对所述数字资产的披露文档；

对所述披露文档进行文本识别，得到所述披露文档中的目标章节，其中，所述目标章节用于描述所述所属企业的主营产品，且所述目标章节包括第一表格和第一文本段；

对所述第一文本段和所述第一表格均进行实体识别，得到所述主营产品以及所述主营产品的占比，其中，所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值；

将所述第一文本段输入到机器阅读理解模型进行文本分割，得到至少一个子文本段，所述至少一个文本段用于描述所述主营产品的至少一子产品；

根据所述主营产品的占比，确定各所述子产品的占比；

根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度，其中，所述多个第二文本段用于描述多个具有绿色属性的第一产品；

根据各所述子文本段分别与所述多个第二文本段之间的相似度，确定所述至少一个子文本段中的目标子文本段；

根据所述目标子文本段描述的子产品的占比，确定所述数字资产中的绿色资产的占比。
根据权利要求9所述的电子设备，其中，根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度之前，所述步骤还包括：

获取第一预设文档，所述第一预设文档中记载的产品均为具有绿色属性的产品；

对所述第一预设文档进行文本识别，得到多个第三文本段，其中，所述多个第三文本段用于描述所述第一预设文档中记载的产品；

若所述多个第三文本段中的任意一个第三文本段引用其他文档，则对所述其他文档进行文本识别，得到与所述任意一个第三文本段对应的第四文本段，其中，所述第四文本段是所述其他文档中用于描述具有绿色属性的产品的文本段；

将所述多个第三文本段和所述任意一个第三文本段对应的第四文本段作为所述多个第二文本段。
根据权利要求10所述的电子设备，其中，根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度之前，所述步骤还包括：

获取第二预设文档，所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品；

对所述第二预设文档进行文本识别，得到多个第五文本段，其中，所述多个第五文本段用于描述所述第二预设文档中记载的产品；

根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本；

根据所述多对目标训练样本对初始模型训练，得到所述相似度模型。
根据权利要求11所述的电子设备，其中，所述根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本，包括：

对所述多个第二文本段中的每个第二文本段中的实体进行同义词替换，得到与所述第二文本段对应的第六文本段；

将所述每个第二文本段以及与所述每个第二文本段对应的第六文本段作为一对训练样本，得到多对第一训练样本；

将所述多个第五文本段中的多个目标第五文本段剔除，得到多个第七文本段，其中，所述多个目标第五文本段描述的产品与所述多个第二文本段描述的产品相同，且均具有绿色属性；

确定所述多个第七文本段中的每个第七文本段对应的第二文本段，并将所述每个第七文本段，以及与所述每个第七文本段对应的第二文本段作为一对训练样本，得到多对第二训练样本，其中，所述每个第七文本段以及与所述每个第七文本段对应的第二文本段所描述的产品相同，且所述每个第七文本段所描述的产品具有非绿色属性；

将所述多对第一训练样本和所述多对第二训练样本，作为所述多对目标训练样本。
根据权利要求12所述的电子设备，其中，所述根据所述多对目标训练样本对初始模型训练，得到所述相似度模型，包括：

将所述多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型，得到所述每个训练样本对应的特征向量；

根据所述每个训练样本对应的特征向量，以及所述每个训练样本的标签，得到所述每个训练样本对应的第一损失；

根据所述每个训练样本对应的特征向量，确定所述每对目标训练样本对应的第二损失；

根据所述每对目标训练样本中的每个训练样本的第一损失，以及所述每对目标训练样本对应的第二损失，对所述初始模型进行训练，得到所述相似度模型。
根据权利要求13所述的电子设备，其中，所述根据所述主营产品的占比，确定各所述子产品的占比，包括：

根据所述至少一个子产品的数量，将所述主营产品的占比平均拆分给所述至少一个子产品，得到各所述子产品的占比。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以使得计算机执行以下步骤的指令：

获取数字资产的所属企业针对所述数字资产的披露文档；

对所述披露文档进行文本识别，得到所述披露文档中的目标章节，其中，所述目标章节用于描述所述所属企业的主营产品，且所述目标章节包括第一表格和第一文本段；

对所述第一文本段和所述第一表格均进行实体识别，得到所述主营产品以及所述主营产品的占比，其中，所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值；

将所述第一文本段输入到机器阅读理解模型进行文本分割，得到至少一个子文本段，所述至少一个文本段用于描述所述主营产品的至少一子产品；

根据所述主营产品的占比，确定各所述子产品的占比；

根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度，其中，所述多个第二文本段用于描述多个具有绿色属性的第一产品；

根据各所述子文本段分别与所述多个第二文本段之间的相似度，确定所述至少一个子文本段中的目标子文本段；

根据所述目标子文本段描述的子产品的占比，确定所述数字资产中的绿色资产的占比。
根据权利要求15所述的计算机可读存储介质，其中，根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度之前，所述步骤还包括：

获取第一预设文档，所述第一预设文档中记载的产品均为具有绿色属性的产品；

对所述第一预设文档进行文本识别，得到多个第三文本段，其中，所述多个第三文本段用于描述所述第一预设文档中记载的产品；

若所述多个第三文本段中的任意一个第三文本段引用其他文档，则对所述其他文档进行文本识别，得到与所述任意一个第三文本段对应的第四文本段，其中，所述第四文本段是所述其他文档中用于描述具有绿色属性的产品的文本段；

将所述多个第三文本段和所述任意一个第三文本段对应的第四文本段作为所述多个第二文本段。
根据权利要求16所述的计算机可读存储介质，其中，根据相似度模型，确定各所述子文本段分别与多个第二文本段之间的相似度之前，所述步骤还包括：

获取第二预设文档，所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品；

对所述第二预设文档进行文本识别，得到多个第五文本段，其中，所述多个第五文本段用于描述所述第二预设文档中记载的产品；

根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本；

根据所述多对目标训练样本对初始模型训练，得到所述相似度模型。
根据权利要求17所述的计算机可读存储介质，其中，所述根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本，包括：

对所述多个第二文本段中的每个第二文本段中的实体进行同义词替换，得到与所述第二文本段对应的第六文本段；

将所述每个第二文本段以及与所述每个第二文本段对应的第六文本段作为一对训练样本，得到多对第一训练样本；

将所述多个第五文本段中的多个目标第五文本段剔除，得到多个第七文本段，其中，所述多个目标第五文本段描述的产品与所述多个第二文本段描述的产品相同，且均具有绿色属性；

确定所述多个第七文本段中的每个第七文本段对应的第二文本段，并将所述每个第七文本段，以及与所述每个第七文本段对应的第二文本段作为一对训练样本，得到多对第二训练样本，其中，所述每个第七文本段以及与所述每个第七文本段对应的第二文本段所描述的产品相同，且所述每个第七文本段所描述的产品具有非绿色属性；

将所述多对第一训练样本和所述多对第二训练样本，作为所述多对目标训练样本。
根据权利要求18所述的计算机可读存储介质，其中，所述根据所述多对目标训练样本对初始模型训练，得到所述相似度模型，包括：

将所述多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型，得到所述每个训练样本对应的特征向量；

根据所述每个训练样本对应的特征向量，以及所述每个训练样本的标签，得到所述每个训练样本对应的第一损失；

根据所述每个训练样本对应的特征向量，确定所述每对目标训练样本对应的第二损失；

根据所述每对目标训练样本中的每个训练样本的第一损失，以及所述每对目标训练样本对应的第二损失，对所述初始模型进行训练，得到所述相似度模型。
根据权利要求19所述的计算机可读存储介质，其中，所述根据所述主营产品的占比，确定各所述子产品的占比，包括：

根据所述至少一个子产品的数量，将所述主营产品的占比平均拆分给所述至少一个子产品，得到各所述子产品的占比。