WO2023071129A1 - 绿色资产的占比的识别方法及相关产品 - Google Patents

绿色资产的占比的识别方法及相关产品 Download PDF

Info

Publication number
WO2023071129A1
WO2023071129A1 PCT/CN2022/090484 CN2022090484W WO2023071129A1 WO 2023071129 A1 WO2023071129 A1 WO 2023071129A1 CN 2022090484 W CN2022090484 W CN 2022090484W WO 2023071129 A1 WO2023071129 A1 WO 2023071129A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
sub
target
proportion
segments
Prior art date
Application number
PCT/CN2022/090484
Other languages
English (en)
French (fr)
Inventor
诸世卓
崔伟旗
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2023071129A1 publication Critical patent/WO2023071129A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Definitions

  • This application relates to the field of artificial intelligence technology, and specifically relates to a method for identifying the proportion of green assets and related products.
  • the embodiments of the present application provide a method for identifying the proportion of green assets and related products, which improve the identification accuracy of the proportion of green assets in digital assets.
  • the embodiment of the present application provides a method for identifying the proportion of green assets in model-based digital assets, including:
  • the target chapter is used to describe the main products of the affiliated enterprise, and the target chapter includes a first table and a first text part;
  • Entity recognition is performed on both the first text segment and the first form to obtain the main product and the proportion of the main product, wherein the proportion of the main product is the main product
  • the at least one text segment is used to describe at least one sub-product of the main product
  • the similarity model determine the similarity between each of the sub-text segments and a plurality of second text segments, wherein the plurality of second text segments are used to describe a plurality of first products with green attributes;
  • the embodiment of the present application provides an identification device for the proportion of green assets, including: an acquisition unit and a processing unit;
  • the acquiring unit is configured to acquire the disclosure documents of the digital asset's enterprise for the digital asset;
  • the processing unit is configured to perform text recognition on the disclosure document to obtain a target chapter in the disclosure document, wherein the target chapter is used to describe the main products of the affiliated enterprise, and the target chapter includes the first form and the first text paragraph;
  • Entity recognition is performed on both the first text segment and the first form to obtain the main product and the proportion of the main product, wherein the proportion of the main product is the main product
  • the at least one text segment is used to describe the at least one sub-product ;
  • the similarity model determine the similarity between each of the sub-text segments and a plurality of second text segments, wherein the plurality of second text segments are used to describe a plurality of first products with green attributes;
  • an embodiment of the present application provides an electronic device, which includes: a processor and a memory, the processor is connected to the memory, the memory is used to store computer programs, and the processor is used to execute the A computer program stored in memory, said computer program comprising instructions for performing the steps of:
  • the target chapter is used to describe the main products of the affiliated enterprise, and the target chapter includes a first table and a first text part;
  • Entity recognition is performed on both the first text segment and the first form to obtain the main product and the proportion of the main product, wherein the proportion of the main product is the main product
  • the at least one text segment is used to describe at least one sub-product of the main product
  • the similarity model determine the similarity between each of the sub-text segments and a plurality of second text segments, wherein the plurality of second text segments are used to describe a plurality of first products with green attributes;
  • an embodiment of the present application provides a computer-readable storage medium, wherein the computer-readable storage medium stores a computer program, and the computer program is executed by a processor so that the computer performs the following steps:
  • the target chapter is used to describe the main products of the affiliated enterprise, and the target chapter includes a first table and a first text part;
  • Entity recognition is performed on both the first text segment and the first form to obtain the main product and the proportion of the main product, wherein the proportion of the main product is the main product
  • the at least one text segment is used to describe at least one sub-product of the main product
  • the similarity model determine the similarity between each of the sub-text segments and a plurality of second text segments, wherein the plurality of second text segments are used to describe a plurality of first products with green attributes;
  • an embodiment of the present application provides a computer program product, the computer program product includes a non-transitory computer-readable storage medium storing a computer program, and the computer is operable to enable the computer to execute the computer program described in the first aspect.
  • the proportion of green assets in each stock can be automatically identified by obtaining the disclosure data of the stock issuing company and the machine model, and there is no need to manually count the green assets in the stock.
  • the proportion of assets that is, the proportion of green assets in stocks
  • saving labor costs avoiding the subjectivity brought about by the manual statistical process, and improving the recognition accuracy of the proportion of green assets in stocks.
  • FIG. 1 is a schematic flowchart of a method for identifying the proportion of green assets in a model-based digital asset provided by an embodiment of the present application
  • FIG. 2 is a schematic flowchart of another model-based method for identifying the proportion of green assets in digital assets provided by the embodiment of the present application;
  • Fig. 3 is a schematic flow chart of a similarity model training method provided by the embodiment of the present application.
  • FIG. 4 is a block diagram of functional units of an identification device for the proportion of green assets provided by the embodiment of the present application.
  • FIG. 5 is a schematic structural diagram of an electronic device provided by an embodiment of the present application.
  • AI artificial intelligence
  • digital computers or machines controlled by digital computers to simulate, extend and expand human intelligence, perceive the environment, acquire knowledge and use knowledge to obtain the best results.
  • Artificial intelligence basic technologies generally include technologies such as sensors, dedicated artificial intelligence chips, cloud computing, distributed storage, big data processing technology, operation/interaction systems, and mechatronics.
  • Artificial intelligence software technology mainly includes computer vision technology, robotics technology, biometrics technology, speech processing technology, natural language processing technology, and machine learning/deep learning.
  • the application scenario of this application is to identify the proportion of green assets in stocks.
  • the digital assets involved in this application are essentially stocks, so the company to which the digital assets belong is essentially the issuing company of the stock.
  • FIG. 1 is a method for identifying the proportion of green assets in model-based digital assets provided by an embodiment of the present application.
  • the method is applied to the identification device of the proportion of green assets.
  • the method includes the following steps:
  • the device for identifying the proportion of green assets obtains the disclosure document for the digital asset from the official platform of the company to which the digital asset belongs, that is, obtains the annual report of the company for the digital asset through crawler technology.
  • the target section is used to describe the main products of the affiliated enterprise, and the target section includes the first table and the first table A text segment.
  • the target section includes a first table and a first text segment, wherein the first text segment is used to describe the main product of the enterprise; the first table is used to describe the main product and the turnover of the main product The proportion relative to the total turnover of the affiliated enterprise, that is, the proportion of the main product.
  • the entity recognition is performed on the first text segment, the entity related to the product is acquired, and the product corresponding to the entity is used as the main product of the enterprise to which it belongs.
  • the machine reading comprehension (Machine Reading Comprehension, MRC) model is pre-trained, and this application does not describe the process of training the MRC model.
  • the main product is the above-mentioned entity recognition of the first text segment and set the article input by the MRC model as the first text segment; then, encode the question through the encoding layer of the MRC model to obtain the first vector; each sub-text segment in the first text segment Encoding is performed to obtain the second vector corresponding to each sub-text segment; then, the first vector and the second vector of each sub-text segment are input to the interactive layer of the MRC model for interaction to obtain the relationship between the question and each sub-text segment The similarity, using a sub-text segment whose similarity is greater than a preset threshold as the at least one sub-text segment.
  • At least one sub-product corresponding to the main product can be obtained.
  • the first text paragraph describes multiple main products, and sub-products under each main product.
  • the main product described includes “new energy battery” and “wind power generation”, then for the main product "new energy battery”, after the first text segment is input into the MRC model, the output sub-text segment is A text segment used to describe the battery, for example, at least one identified sub-text segment is used to describe "lithium battery”, “nuclear battery”, and other new energy batteries.
  • the proportion of the main product can be evenly split to the at least one sub-product to obtain the proportion of each sub-product.
  • the sub-product can be further split, and the proportion of the sub-product can be split to finer-grained products.
  • the main product is split once as an example, and multiple splits are not performed.
  • the proportion of main product A is 50%, and the main product A includes sub-product b and sub-product c, then the proportion of sub-product b and sub-product c are both 25%. Further, if sub-product b includes sub-product d and sub-product e, the proportion of sub-product b can be divided equally, and the proportions of sub-product d and sub-product e are 12.5% and 12.5% respectively.
  • the similarity model determine the similarity between each of the sub-text segments and a plurality of second text segments, wherein the plurality of second text segments are used to describe a plurality of first products with green attributes .
  • the plurality of second text segments are used to describe a plurality of first products, and the plurality of first products are products with green attributes.
  • the first preset document is obtained, for example, the first preset document may be "Explanation of the Green Industry Guidance Catalog", and the products recorded in the first preset document all have green attributes; Perform entity recognition on the preset file to obtain the products recorded in the preset file; use the read products as the plurality of first products.
  • the first preset document when the first preset document records products, it may not directly record products with green attributes, but record products with green attributes through document references through other documents. Therefore, firstly, text recognition is performed on the first preset document to obtain a plurality of third text segments, wherein the plurality of third text segments are used to describe the products described in the first preset document, but a certain third text segment When describing a product, it does not directly describe the product, but refers to other documents describing the product.
  • any third text segment in multiple third text segments refers to other documents
  • text recognition is performed on other documents to obtain a fourth text segment corresponding to the third text segment
  • the fourth text segment is Text used to describe products with green attributes in other documents, and entity recognition is performed on the fourth text segment to obtain the product described by the fourth text segment; therefore, multiple third text segments and the referenced fourth text segment can be combined
  • the plurality of second text paragraphs are used as the first product, and the products described in the third text paragraph and the product described in the fourth text paragraph are both used as the first product to obtain the plurality of first products.
  • the similarity model is obtained by training multiple pairs of target training samples constructed in advance.
  • the process of constructing multiple pairs of target training samples and the model training process will be described in detail later, and no further description will be given here.
  • the similarity model may be a RoFormer model.
  • each sub-text segment determines the maximum similarity corresponding to each sub-text segment, and if the maximum similarity is greater than the similarity threshold, the sub-text segment As the target sub-text segment, it is determined that the sub-product described by the target sub-text segment is the first product described by the second text segment corresponding to the maximum similarity.
  • the proportion of the sub-product described in the target sub-text segment is used as the proportion of green assets in the digital asset.
  • the number of target sub-text segments may be one or more, that is, one or more sub-products in the at least one sub-product have a green attribute.
  • the proportions of the sub-products described by the multiple target sub-text segments are summed, and the summation result is taken as the proportion of green assets in the digital asset .
  • the proportion of green assets in each stock can be automatically identified by obtaining the disclosure data of the stock issuing company and the machine model, and there is no need to manually count the green assets in the stock.
  • the proportion of assets that is, the proportion of green assets in stocks
  • saving labor costs avoiding the subjectivity brought about by the manual statistical process, and improving the recognition accuracy of the proportion of green assets in stocks.
  • a plurality of pre-set ESG indicators and disclosure data of a plurality of listed companies are obtained, wherein the above-mentioned affiliated company is one of the plurality of listed companies; then, according to each The disclosed data of listed companies, as well as the preset ESG scoring system, determine the score of each listed company under each ESG indicator; based on the weight of each ESG indicator, weight the score of each listed company under each ESG indicator , to obtain the ESG score of each listed company; finally, standardize the ESG scores of multiple listed companies to obtain the standardized ESG score of each listed company.
  • the proportion of green assets of the digital asset and the standardized ESG score of the enterprise to which the digital asset belongs are weighted, and the weighted result is used as the target proportion of green assets of the digital asset. And take this target proportion as the final proportion of green assets in the digital assets.
  • the target ratio is expressed by formula (1):
  • T i ⁇ *ps i + ⁇ *s i formula (1)
  • T i is the target proportion
  • ps i is the proportion of green assets of digital assets
  • s i is the standardized ESG score of the company to which digital assets belong
  • ⁇ and ⁇ are the preset weight coefficients
  • the ESG score of the stock issuing company is also considered, because the ESG score also reflects the greenness of the company. Management status, combined with ESG scores, comprehensively identify the proportion of green assets in stocks, so as to further improve the recognition accuracy of the proportion of green assets in stocks.
  • FIG. 2 is a schematic flowchart of another model-based method for identifying the proportion of green assets of digital assets provided by an embodiment of the present application.
  • the content in this embodiment is the same as that in the embodiment shown in FIG. 1 , and will not be described again here.
  • the method of the present embodiment comprises the following steps:
  • the target section is used to describe the main products of the affiliated enterprise, and the target section includes the first table and the first table A text segment.
  • the similarity model determine the similarity between each sub-text segment and a plurality of second text segments, wherein the plurality of second text segments are used to describe a plurality of first products with green attributes .
  • the proportion of green assets in each digital asset can be obtained; then, according to the net value, share and The proportion of green assets determines the green scale of each digital asset held by investment institutions.
  • the green scale of each digital asset held by an investment institution can be expressed by formula (2):
  • S i is the green scale of the i-th digital asset held by the investment institution
  • s i is the proportion of the green asset in the i-th digital asset
  • V i is the green scale of the i-th digital asset at the time t.
  • the net value of the i-th digital asset, R i is the share of the i-th digital asset held by the investment institution at the time t.
  • the green scale of each digital asset held by the investment institution is summed, and the summation result is used as the target green scale of multiple digital assets held by the investment institution.
  • the target green scale can be expressed by formula (3):
  • S total is the target green scale
  • n is the number of the multiple digital assets.
  • the proportion of green assets in each stock can be automatically identified by obtaining the disclosure data of the stock issuing company and the machine model, and there is no need to manually count the green assets in the stock.
  • the proportion of assets thereby saving labor costs, avoiding the subjectivity brought about by the manual statistical process, and improving the recognition accuracy of the proportion of green assets in stocks.
  • the statistics of the green scale of the stocks invested by investment institutions are more accurate, which can accurately guide enterprises to green industries and carbon-neutral standards. direction development.
  • FIG. 3 is a schematic flowchart of a similarity model training method provided by an embodiment of the present application.
  • the content in this embodiment is the same as the embodiment shown in FIG. 1 and FIG. 2 , and will not be described again here.
  • the method of the present embodiment comprises the following steps:
  • the second preset document is acquired through crawler technology, for example, the second preset document may be "2017 National Economic Industry Classification Catalog 2021 Revised First Edition". All current products on the market are recorded in the second preset document. Therefore, the products recorded in the second default document include products with green attributes and products with non-green attributes.
  • 302 Perform text recognition on the second preset document to obtain multiple fifth text segments, where the multiple fifth text segments are used to describe products recorded in the second preset document.
  • entity recognition is performed on the second preset document to obtain each product recorded in the second preset document; text segments describing each product are extracted from the second preset document through text recognition to obtain multiple fifth text segment.
  • synonym replacement is performed on entities in each second text segment in multiple second text segments to obtain a sixth text segment corresponding to each second text segment; then, each second text segment , and the sixth text segment corresponding to the second text segment is used as a pair of training samples to obtain multiple pairs of first training samples.
  • multiple pairs of first training samples may also be referred to as multiple pairs of similar samples.
  • a plurality of target fifth text segments in the plurality of fifth text segments are eliminated to obtain a plurality of seventh text segments, wherein, the products described in the plurality of target fifth text segments are the same as those described in the plurality of second text segments The products are the same, and the multiple target fifth text segments are in one-to-one correspondence with the multiple second text segments.
  • the multiple fifth text segments are subtracted from the multiple second text segments to obtain the multiple seventh text segments.
  • the difference set referred to in this application is essentially the difference set of the industry described by the text paragraphs, that is, the target fifth text paragraphs are removed from multiple fifth text paragraphs to obtain the multiple seventh text paragraphs.
  • the obtained products described in the plurality of seventh text segments are all products with non-green attributes.
  • a second text segment corresponding to each seventh text segment among the plurality of seventh text segments is determined, wherein the product described in the seventh text segment is the same as the product described in the second text segment, but Seven text segments describe products with non-green attributes, while products described in the second text segment have green attributes.
  • the product described in the second text paragraph is "energy-saving industrial boiler”, while the product described in the seventh text paragraph is "industrial boiler”. It can be seen that the products described in these two text paragraphs are both boilers, but "energy-saving industrial boilers” have green attributes, while “industrial boilers” have non-green attributes. Therefore, these two text segments can be used as a pair of training samples. Therefore, the seventh text segment and the second text segment corresponding to the seventh text segment are used as a pair of training samples to obtain multiple pairs of second training samples. In this application, multiple pairs of second training samples may be referred to as multiple pairs of dissimilar samples.
  • multiple pairs of first training samples and multiple pairs of second training samples are used as the multiple pairs of target training samples.
  • each training sample in each pair of target training samples among multiple pairs of target training samples is respectively input into the initial model to obtain a feature vector of each training sample, wherein the feature vector is used to determine the The probability that the described product has a green attribute; then, according to the feature vector of each training sample and the label of each training sample, the first loss corresponding to each training sample is determined, wherein the label of each training sample is used to identify The truth about whether the product described by each training sample has the green attribute.
  • the labels of the two training samples in each pair of similar samples are the same, and for dissimilar samples, the labels of the two training samples in each pair of dissimilar samples are different.
  • the classifier of the initial model determines the probability that the product described by each training sample has the green attribute; according to the probability of the product described by each training sample having the green attribute and each labels of training samples, and determine the first loss corresponding to each training sample.
  • the second loss of each pair of target training samples that is, according to the feature vectors of the two training samples in each pair of target training samples, determine the similarity between the two training samples degree, and use this similarity degree as the second loss for each pair of target samples.
  • the initial model is trained to obtain the similarity model.
  • the first target loss of the initial model in the process of classifying the green attributes is determined.
  • weighted summation is performed on the first losses of all training samples in multiple pairs of target training samples to obtain the first target loss.
  • the first target loss can be expressed by formula (4):
  • L 1 is the first target loss
  • avg is the averaging operation
  • n is the number of pairs of first training samples
  • m is the number of pairs of second training samples
  • W is the weight of the classifier of the initial model
  • f t ' is The t-th training sample among all the training samples in the multi-pair target training samples (ie 2(n+m)) training samples
  • l t is the label of the t-th training sample.
  • the loss of the initial model in the process of feature extraction for each pair of first training samples is determined to obtain the second target loss.
  • the second loss of each pair of first training samples is obtained, and the second loss of multiple pairs of first training samples is averaged to obtain the second target loss.
  • the second target loss can be expressed by formula (5):
  • L sim is the second target loss
  • avg is the averaging operation
  • n is the number of pairs of first training samples
  • si is the i- th pair of first training samples in n pairs of first training samples
  • 2 is an operation for calculating the similarity (distance) between the vectors.
  • the loss of the initial model in the process of feature extraction for each pair of second training samples is determined to obtain the third target loss.
  • the second loss of each pair of second training samples is obtained, and the second loss of multiple pairs of second training samples is averaged to obtain the third target loss.
  • the third target loss can be expressed by formula (6):
  • L dissim is the third target loss
  • avg is the averaging operation
  • m is the number of pairs of second training samples
  • s j is the jth pair of first training samples in m pairs of second training samples
  • 2 is an operation for calculating the similarity (distance) between the vectors.
  • a fourth target loss is determined according to the second target loss and the third target loss.
  • the fourth target loss is expressed by formula (7):
  • L 4 is the fourth loss
  • is a preset stability parameter, which is used to prevent the fourth target loss L 4 from being zero when L sim is 0, thereby preventing model degradation.
  • the reason why the loss function of formula (7) is set is because in the process of constructing training sample pairs, it is determined that the second target loss L sim needs to be optimized towards a relatively small direction, and the third target loss L dissim needs to be optimized towards a relatively large direction to optimize, so the simple weighted summation cannot unify the two.
  • After the loss function of formula (7) is set only optimize toward the direction of the fourth target loss L 4 is relatively small, which can meet the optimization requirements of the second target loss L sim and the third target loss L dissim , thereby satisfying the entire Optimization requirements for the backpropagation process.
  • the fourth target loss and the first target loss are weighted to obtain the final target loss; the initial model is reversely updated based on the target loss and the gradient descent method until the initial model converges to obtain the similarity model.
  • sentence pattern replacement when constructing similar training samples, in addition to synonym replacement, sentence pattern replacement can also be performed.
  • entity recognition is performed on multiple second text segments to obtain multiple target entities, wherein the multiple target entities are in one-to-one correspondence with multiple second text segments, that is, extracted from multiple second text segments A plurality of target entities used to describe the plurality of first products.
  • each second text segment and the target entity extracted from each second text segment are used as a pair of training samples to obtain multiple pairs of similar samples, thus constructing similar samples containing different sentence patterns. For example, "this bond will be used to repay the loan of the previous hydropower station construction project", then the second text segment and "hydropower station" will be used as a pair of similar samples.
  • a target entity is randomly selected from the remaining target entities, and the second text segment is used as a pair of dissimilar samples, which can be Multiple pairs of dissimilar samples are constructed, wherein the remaining target entities are all entities in the multiple target entities except the target entity of the second text segment. For example, by randomly replacing the above-mentioned "hydropower station” with a target entity, such as "wind station", “other project construction”, etc., multiple pairs of dissimilar samples can be constructed. Constructing such dissimilar samples allows the model to learn that what needs to be paid attention to is the entity in the sentence pattern. For this dissimilar data entity, it needs to be classified into different products.
  • the model recognizes "this bond will be used to repay the previous hydropower station construction project loan” and "wind power station” and “other project construction” as products with different attributes, so that the most similar situation can be accurately matched in such a similar situation
  • the most popular industry is hydropower stations, which can accurately match entities, thereby improving the recognition accuracy of the model.
  • FIG. 4 is a block diagram of functional units of a device for identifying the proportion of green assets provided by an embodiment of the present application.
  • the device 400 for identifying the proportion of green assets includes: an acquisition unit 401 and a processing unit 402;
  • An acquisition unit 401 configured to acquire a disclosure document of the digital asset's enterprise for the digital asset
  • the processing unit 402 is configured to perform text recognition on the disclosure document to obtain a target chapter in the disclosure document, wherein the target chapter is used to describe the main products of the affiliated enterprise, and the target chapter includes the first a table and a first text paragraph;
  • Entity recognition is performed on both the first text segment and the first form to obtain the main product and the proportion of the main product, wherein the proportion of the main product is the main product
  • the at least one text segment is used to describe at least one sub-product of the main product
  • the similarity model determine the similarity between each of the sub-text segments and a plurality of second text segments, wherein the plurality of second text segments are used to describe a plurality of first products with green attributes;
  • the acquiring unit 401 before determining the similarity between each of the sub-text segments and multiple second text segments, is further configured to acquire the first preset document, so The products recorded in the above-mentioned first preset document are all products with green attributes;
  • the processing unit 402 is further configured to perform text recognition on the first preset document to obtain multiple third text segments, wherein the multiple third text segments are used to describe the product;
  • any third text segment in the plurality of third text segments refers to other documents, perform text recognition on the other documents to obtain a fourth text segment corresponding to any one of the third text segments, wherein,
  • the fourth text segment is a text segment used to describe products with green attributes in the other documents;
  • the plurality of third text segments and a fourth text segment corresponding to any one of the third text segments are used as the plurality of second text segments.
  • the obtaining unit 401 before determining the similarity between each sub-text segment and multiple second text segments, is further configured to obtain a second preset document, so The products recorded in the second default document include products with green attributes and products with non-green attributes;
  • the processing unit 402 is further configured to perform text recognition on the second preset document to obtain a plurality of fifth text segments, wherein the plurality of fifth text segments are used to describe the product;
  • the initial model is trained according to the multiple pairs of target training samples to obtain the similarity model.
  • the processing unit 402 is specifically configured to:
  • each second text segment and the sixth text segment corresponding to each second text segment as a pair of training samples to obtain multiple pairs of first training samples
  • the multiple pairs of first training samples and the multiple pairs of second training samples are used as the multiple pairs of target training samples.
  • the processing unit 402 is specifically configured to:
  • the initial model is trained to obtain the similarity model.
  • the processing unit 402 is specifically configured to:
  • the proportion of the main product is evenly divided into the at least one sub-product to obtain the proportion of each of the sub-products.
  • the digital asset is any one of multiple digital assets invested by the investment institution at time t, and the time t is any time;
  • the processing unit 402 is further configured to obtain the proportion of green assets in each of the digital assets according to the proportion of green assets in any one of the digital assets at the time t;
  • the obtaining unit 401 is also used to obtain the net value of each digital asset at the time t;
  • the processing unit 402 is further configured to determine the green scale of each of the digital assets held by the investment institution at the time t according to the net value of each of the digital assets, the share, and the proportion of green assets;
  • the target green scale satisfies the following formula:
  • S total is the target green scale
  • n is the number of the multiple digital assets
  • s i is the green asset ratio of the i-th digital asset among the multiple digital assets at the time t
  • V i is the net value of the i-th digital asset at the time t
  • R i is the share of the i-th digital asset held by the investment institution at the time t.
  • FIG. 5 is a schematic structural diagram of an electronic device provided in an embodiment of the present application.
  • an electronic device 500 includes a transceiver 501 , a processor 502 and a memory 503 . They are connected through a bus 504 .
  • the memory 503 is used to store computer programs and data, and can transmit the data stored in the memory 503 to the processor 502 .
  • the processor 502 is used to read the computer program in the memory 503 to perform the following operations:
  • the target chapter is used to describe the main products of the affiliated enterprise, and the target chapter includes a first table and a first text part;
  • Entity recognition is performed on both the first text segment and the first form to obtain the main product and the proportion of the main product, wherein the proportion of the main product is the main product
  • the at least one text segment is used to describe at least one sub-product of the main product
  • the similarity model determine the similarity between each of the sub-text segments and a plurality of second text segments, wherein the plurality of second text segments are used to describe a plurality of first products with green attributes;
  • the processor 502 before determining the similarity between each sub-text segment and multiple second text segments, the processor 502 is further configured to perform the following operations:
  • any third text segment in the plurality of third text segments refers to other documents, perform text recognition on the other documents to obtain a fourth text segment corresponding to any one of the third text segments, wherein,
  • the fourth text segment is a text segment used to describe products with green attributes in the other documents;
  • the plurality of third text segments and a fourth text segment corresponding to any one of the third text segments are used as the plurality of second text segments.
  • the processor 502 before determining the similarity between each sub-text segment and multiple second text segments, the processor 502 is further configured to perform the following operations:
  • the initial model is trained according to the multiple pairs of target training samples to obtain the similarity model.
  • the processor 502 is specifically configured to perform the following operations:
  • each second text segment and the sixth text segment corresponding to each second text segment as a pair of training samples to obtain multiple pairs of first training samples
  • the multiple pairs of first training samples and the multiple pairs of second training samples are used as the multiple pairs of target training samples.
  • the processor 502 is specifically configured to perform the following operations:
  • the initial model is trained to obtain the similarity model.
  • the processor 502 is specifically configured to perform the following operations:
  • the proportion of the main product is evenly divided into the at least one sub-product to obtain the proportion of each of the sub-products.
  • the digital asset is any one of multiple digital assets invested by the investment institution at time t, and the time t is any time; the processor 502 is also configured to perform the following operations:
  • the proportion of green assets in any one of the digital assets at the time t is obtained;
  • the target green scale satisfies the following formula:
  • S total is the target green scale
  • n is the number of the multiple digital assets
  • s i is the green asset ratio of the i-th digital asset among the multiple digital assets at the time t
  • V i is the net value of the i-th digital asset at the time t
  • R i is the share of the i-th digital asset held by the investment institution at the time t.
  • the above-mentioned transceiver 501 can be the acquisition unit 401 of the identification device 400 of the proportion of green assets in the embodiment shown in FIG.
  • the processing unit 402 of the identification device 400 can be the acquisition unit 401 of the identification device 400 of the proportion of green assets in the embodiment shown in FIG.
  • the electronic devices in this application may include smart phones (such as Android phones, iOS phones, Windows Phone phones, etc.), tablet computers, palmtop computers, notebook computers, mobile Internet devices MID (Mobile Internet Devices, referred to as: MID) or wearable devices, etc.
  • smart phones such as Android phones, iOS phones, Windows Phone phones, etc.
  • tablet computers palmtop computers
  • notebook computers mobile Internet devices MID (Mobile Internet Devices, referred to as: MID) or wearable devices, etc.
  • MID Mobile Internet Devices
  • wearable devices etc.
  • the above-mentioned electronic devices are only examples, not exhaustive, including but not limited to the above-mentioned electronic devices. In practical applications, the above-mentioned electronic devices may also include: smart vehicle-mounted terminals, computer equipment, and the like.
  • the embodiment of the present application also provides a computer-readable storage medium, the computer-readable storage medium stores a computer program, and the computer program is executed by a processor to implement any model-based Part or all of the steps in the identification method for the proportion of green assets in digital assets.
  • the computer-readable storage medium may be non-volatile or volatile.
  • the embodiment of the present application also provides a computer program product, the computer program product includes a non-transitory computer-readable storage medium storing a computer program, and the computer program is operable to enable the computer to execute the method described in the above method embodiments Some or all of the steps of any model-based method for identifying the proportion of green assets in digital assets.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能技术领域,具体涉及一种绿色资产的占比的识别方法及相关产品。该方法包括:获取针对数字资产的披露文档;对披露文档进行文本识别,得到披露文档中的目标章节;对第一文本段和第一表格均进行实体识别,得到主营产品以及主营产品的占比;将第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段;根据主营产品的占比,确定各子产品的占比;根据相似度模型,确定各子文本段分别与多个第二文本段之间的相似度;根据各子文本段分别与多个第二文本段之间的相似度,确定目标子文本段;根据目标子文本段描述的子产品的占比,确定数字资产中的绿色资产的占比。

Description

绿色资产的占比的识别方法及相关产品
优先权申明
本申请要求于2021年10月30日提交中国专利局、申请号为202111280433.3,发明名称为“绿色资产的占比的识别方法及相关产品”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,具体涉及一种绿色资产的占比的识别方法及相关产品。
背景技术
在全球气候变化合作的大背景下,各个管理部门需要厘清在自己管辖范围内的绿色和非绿色资产规模,以便更加科学的部署碳达峰和碳中和的实现路径。
投资机构在实现碳达峰和碳中和的过程中扮演着非常重要的角色,其投资标的的选择实际上将引导企业向绿色产业和碳中和达标的方向发展。
发明人意识到投资机构在统计其绿色投资比例时,由于监管和保密的需要,不能进行跨部门共享,都是由各个部门进行人工统计,主观性较强,精度低。
发明内容
本申请实施例提供了一种绿色资产的占比的识别方法及相关产品,提高数字资产中的绿色资产的占比的识别精度。
第一方面,本申请实施例提供一种基于模型的数字资产中的绿色资产的占比的识别方法,包括:
获取数字资产的所属企业针对所述数字资产的披露文档;
对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段;
对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值;
将所述第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段,所述至少一个文本段用于描述所述主营产品的至少一子产品;
根据所述主营产品的占比,确定各所述子产品的占比;
根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品;
根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段;
根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
第二方面,本申请实施例提供一种绿色资产的占比的识别装置,包括:获取单元和处理单元;
所述获取单元,用于获取数字资产的所属企业针对所述数字资产的披露文档;
所述处理单元,用于对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段;
对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值;
将所述第一文本段输入到机器阅读理解模型进行文本分割,得到所述主营产品的至少一个子产品以及至少一个子文本段,所述至少一个文本段用于描述所述至少一子产品;
根据所述主营产品的占比,确定各所述子产品的占比;
根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品;
根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段;
根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
第三方面,本申请实施例提供一种电子设备,其中,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,所述计算机程序包括用于执行以下步骤的指令:
获取数字资产的所属企业针对所述数字资产的披露文档;
对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段;
对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值;
将所述第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段,所述至少一个文本段用于描述所述主营产品的至少一子产品;
根据所述主营产品的占比,确定各所述子产品的占比;
根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品;
根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段;
根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
第四方面,本申请实施例提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以使得计算机执行以下步骤的指令:
获取数字资产的所属企业针对所述数字资产的披露文档;
对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段;
对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值;
将所述第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段,所述至少一个文本段用于描述所述主营产品的至少一子产品;
根据所述主营产品的占比,确定各所述子产品的占比;
根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品;
根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段;
根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所 述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施方式中,通过获取股票的发行公司针对股票的披露数据,以及机器模型,可以自动识别出每只股票中的绿色资产的占比,无需人工去统计股票中的绿色资产的占比(即股票的绿色比例),从而节约了人工成本,并且避免了人工统计过程所带来的主观性,提高了对股票的绿色资产的占比的识别精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于模型的数字资产中的绿色资产的占比识别方法的流程示意图;
图2为本申请实施例提供的另一种基于模型的数字资产中的绿色资产的占比识别方法的流程示意图;
图3为本申请实施例提供的一种相似度模型训练方法的流程示意图;
图4为本申请实施例提供的一种绿色资产的占比的识别装置的功能单元组成框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
首先说明,本申请的应用场景为识别股票中的绿色资产的占比,相适应的,本申请所涉及的数字资产本质上是股票,因此数字资产的所属企业实质上就是股票的发行公司,数字资产的披露文档,即该发行公司的年报。后面的解释均与此类似,不再叙述。
参阅图1,图1为本申请实施例提供的一种基于模型的数字资产中的绿色资产的占比的识别方法。该方法应用于绿色资产的占比的识别装置。该方法包括以下步骤内容:
101:获取数字资产的所属企业针对所述数字资产的披露文档。
示例性的,绿色资产的占比的识别装置通过爬虫技术从该数字资产的所属企业的官方平台中获取针对该数字资产的披露文档,即获取该所属企业针对该数字资产的年报。
102:对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段。
一般来说,公司年报中的“第四节经营情况讨论与分析”章节中的“一、概述”章节用来描述公司的主营产品。因此,对披露文档进行文本识别,定位出“第四节经营情况讨论与分析”章节;然后,再对该章节进行文本识别,得到该章节下的细分章节,即“一、概述”章节,并将该细分章节作为目标章节。
示例性的,目标章节包含第一表格和第一文本段,其中,该第一文本段用于描述该所属企业的主营产品;第一表格用于描述主营产品以及主营产品的营业额相对于所属企业的总营 业额的占比,即主营产品的占比。
应说明,对于一个企业来说,主营产品可以有一个或多个,本申请中以一个主营产品为例进行说明,针对多个主营产品的情况与此类似,不再叙述。
103:对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值。
示例性的,对第一文本段进行实体识别,获取与产品相关的实体,并将该实体对应的产品作为所属企业的主营产品。
举例来说,第一文本段描述了所属企业的主营产品为“新能源电池”,则通过实体识别,可得到该所属企业的主营产品为“新能源电池”。
进一步地,对第一表格进行实体识别,确定出该第一表格中“新能源电池”所在的位置,并基于该新能源电池”在该第一表格中位置,从该表格中读取出该“新能源电池”营业额相对于该所属企业的总营业额的占比。
104:将所述第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段,所述至少一个文本段用于描述所述主营产品的至少一子产品。
示例性的,机器阅读理解(Machine Reading Comprehension,MRC)模型是预先训练好的,本申请不再叙述对该MRC模型进行训练的过程。针对本申请的文本分割过程,首先设置该MRC模型的问题为:“哪些产品是主营产品的子产品(即细分产品)”,该主营产品即为上述对第一文本段进行实体识别出的主营产品,并设置该MRC模型输入的文章为该第一文本段;然后,通过MRC模型的编码层对问题进行编码,得到第一向量;对第一文本段中的各个子文本段进行编码,得到与各个子文本段对应的第二向量;然后,将第一向量和各个子文本段的第二向量输入到MRC模型的交互层进行交互,得到问题和各个子文本段之间的相似度,将相似度大于预设阈值的子文本段作为该至少一个子文本段。
进一步的,对每个子文本段进行实体识别,可得到该主营产品对应的至少一个子产品。
举例来说,第一文本段描述了多个主营产品,以及每个主营产品下的子产品。比如,描述的主营产品包括“新能源电池”、“风力发电”,则针对主营产品“新能源电池”来说,则将第一文本段输入到MRC模型之后,输出的子文本段是用来描述电池的文本段,比如,识别出的至少一个子文本段分别用来描述“锂电池”、“核电池”,等其他新能源电池。
105:根据所述主营产品的占比,确定各所述子产品的占比。
示例性的,可以根据至少一个子产品的数量,将该主营产品的占比平均拆分给该至少一个子产品,得到各子产品的占比。
应说明,若某个子产品还可以继续进行拆分,则可以将该子产品继续进行拆分,以及将该子产品的占比拆分给更细粒度的产品。本申请中主要以对主营产品进行一次拆分为例进行说明,不进行多次拆分。
举例来说,主营产品A的占比为50%,该主营产品A包括子产品b和子产品c,那么子产品b和子产品c的占比均为25%。进一步的,若子产品b包括子产品d和子产品e,则可以将子产品b的比例等分拆分,则子产品d和子产品e的占比分别12.5%和12.5%。
106:根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品。
其中,所述多个第二文本段用于描述多个第一产品,所述多个第一产品为具有绿色属性的产品。
示例性的,获取第一预设文档,比如,该第一预设文档可以为《绿色产业指导目录的解释说明》,该第一预设文档中记载的产品均具有绿色属性;对该第一预设文档进行实体识别,得到该预设文档中记载的产品;将读取到的产品作为该多个第一产品。
在本申请的一个实施方式中,第一预设文档在记载产品时,可能不会直接记载具有绿色属性的产品,而是通过文档引用的方式,通过其他文档来记载具有绿色属性的产品。因此, 首先对第一预设文档进行文本识别,得到多个第三文本段,其中,多个第三文本段用于描述第一预设文档中记载的产品,但是,某个第三文本段在描述产品时,并不会直接描述该产品,而是引用其他文档来描述产品。因此若多个第三文本段中的任意一个第三文本段引用其他文档,则对其他文档进行文本识别,得到与第三文本段对应的第四文本段,其中,所述第四文本段是其他文档中用于描述具有绿色属性的产品的文本,并对第四文本段进行实体识别,得到第四文本段描述的产品;因此,可以将多个第三文本段和引用的第四文本段作为该多个第二文本段,并将多个第三文本段描述的产品,以及第四文本段描述的产品均作为该第一产品,得到该多个第一产品。
示例性的,该相似度模型为通过预先构造的多对目标训练样本进行训练得到的,后面详细描述构造多对目标训练样本的过程以及模型训练过程,在此不做过多描述。在本申请的一个实施方式中,该相似度模型可以为RoFormer模型。
因此,将每个子文本段以及每个第二文本段输入到该RoFormer模型中,得到每个子文本段和每个第二文本段之间的相似度。
107:根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段。
示例性的,根据每个子文本段分别与多个第二文本段之间的相似度,确定每个子文本段对应的最大相似度,若该最大相似度大于相似度阈值,则将该子文本段作为目标子文本段,也就是确定该目标子文本段描述的子产品为与该最大相似度对应的第二文本段所描述的第一产品。
108:根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
示例性的,将目标子文本段所描述的子产品的占比,作为该数字资产中的绿色资产的占比。应说明,目标子文本段的数量可以为一个或多个,也就说,该至少一个子产品中存在一个或多个子产品具有绿色属性。
示例性的,当目标子文本段的数量为多个时,则多个目标子文本段所描述的子产品的占比进行求和,将求和结果作为该数字资产中的绿色资产的占比。
可以看出,在本申请实施方式中,通过获取股票的发行公司针对股票的披露数据,以及机器模型,可以自动识别出每只股票中的绿色资产的占比,无需人工去统计股票中的绿色资产的占比(即股票的绿色比例),从而节约了人工成本,并且避免了人工统计过程所带来的主观性,提高了对股票的绿色资产的占比的识别精度。
在本申请的一个实施方式中,获取多个预先设定好的ESG指标,以及多个上市企业的披露数据,其中,上述的所属企业为该多个上市企业中的一个;然后,根据每个上市企业的披露数据,以及预设的ESG评分体系,确定每个上市企业在各个ESG指标下的评分;基于每个ESG指标的权重,对每个上市企业在各个ESG指标下的评分进行加权处理,得到每个上市企业的ESG评分;最后,对多个上市企业的ESG评分进行标准化处理,得到每个上市企业的标准化ESG评分。
进一步地,对该数字资产的绿色资产的占比以及该数字资产的所属企业的标准化ESG评分进行加权,将加权结果作为该数字资产的绿色资产的目标占比。并将该目标占比作为该数字资产中绿色资产的最终的占比。
示例性的,目标占比通过公式(1)表示:
T i=α*ps i+β*s i   公式(1);
其中,T i为目标占比,ps i为数字资产的绿色资产的占比,s i为数字资产的所属企业的标准化ESG评分,α和β为预设的权重系数
可以看出,在本实施方式中,在识别每只股票的绿色资产的占比时,除了从股票的本身性质出发外,还考虑了股票发行公司的ESG评分,由于ESG评分也是反映企业的绿色管理状态,最后结合ESG评分,综合识别股票的绿色资产的占比,从而进一步提高对股票的绿色 资产的占比的识别精度。
参阅图2,图2为本申请实施例提供的另一种基于模型的数字资产的绿色资产的占比识别方法的流程示意图。该实施例中与图1所示的实施例相同的内容,此处不再重复描述。本实施例的方法包括以下步骤:
201:获取数字资产的所属企业针对所述数字资产的披露文档,所述数字资产为t时刻下投资机构所投资的多个数字资产中的任意一个,所述t时刻为任意时刻。
202:对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段。
203:对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值。
204:将所述第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段,所述至少一个文本段用于描述所述主营产品的至少一子产品。
205:根据所述主营产品的占比,确定各所述子产品的占比。
206:根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品。
207:根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段。
208:根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
应说明,若实际应用中还考虑ESG评分,则此处确定出的绿色资产的占比实质上为上述的目标占比。
209:获取所述t时刻下各所述数字资产的净值。
210:获取所述t时刻下所述投资机构持有各所述数字资产的份额。
211:根据各所述数字资产的净值、所述份额以及绿色资产的占比,确定所述t时刻下所述投资机构持有各所述数字资产的绿色规模。
示例性的,根据识别上述任意一个数字资产中的绿色资产的占比的方式,可得到每个数字资产中的绿色资产的占比;然后,根据t时刻下每个数字资产的净值、份额和绿色资产的占比,确定出投资机构持有每个数字资产的绿色规模。
示例性的,投资机构持有每个数字资产的绿色规模可以通过公式(2)表示:
S i=s i*V i*R i    公式(2);
其中,S i为投资机构持有该多个数字资产中的第i个数字资产的绿色规模,s i为第i个数字资产中的绿色资产的占比,V i为所述t时刻下所述第i个数字资产的净值,R i为所述t时刻下所述投资机构持有所述第i个数字资产的份额。
应说明,若使用ESG评分综合确定数字资产的绿色资产的占比,则上述公式(2)中的绿色资产的占比可以替换为每个数字资产的目标占比。
212:根据所述t时刻下所述投资机构持有各所述数字资产的绿色规模,确定所述投资机构持有所述多个数字资产的目标绿色规模。
示例性的,对该投资机构持有每个数字资产的绿色规模进行求和,将求和结果作为该投资机构持有多个数字资产的目标绿色规模。
示例性的,目标绿色规模可以通过公式(3)表示:
Figure PCTCN2022090484-appb-000001
其中,S total为目标绿色规模,n为所述多个数字资产的数量。
可以看出,在本申请实施例中,通过获取股票的发行公司针对股票的披露数据,以及机器模型,可以自动识别出每只股票中的绿色资产的占比,无需人工去统计股票中的绿色资产 的占比,从而节约了人工成本,并且避免了人工统计过程所带来的主观性,提高了对股票中的绿色资产的占比的识别精度。进一步的,由于识别出的股票中的绿色资产的占比的精度较高,因此统计出的投资机构投资的股票的绿色规模更加精确,进而可以精确的引导企业向绿色产业和碳中和达标的方向发展。
参阅图3,图3为本申请实施例提供的一种相似度模型训练方法的流程示意图。该实施例中与图1、图2所示的实施例相同的内容,此处不再重复描述。本实施例的方法包括以下步骤:
301:获取第二预设文档,所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品。
示例性的,通过爬虫技术获取第二预设文档,例如,第二预设文档可以为《2017国民经济行业分类目录2021修订第一版》。该第二预设文档中记载了市场上目前所有的产品。因此,该第二预设文档中记载的产品有绿色属性的产品,也有非绿色属性的产品。
302:对所述第二预设文档进行文本识别,得到多个第五文本段,其中,所述多个第五文本段用于描述所述第二预设文档中记载的产品。
示例性的,对第二预设文档进行实体识别,得到第二预设文档中记载的各个产品;通过文本识别从第二预设文档中提取出描述各个产品的文本段,得到多个第五文本段。
303:根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本。
示例性的,对多个第二文本段中的每个第二文本段中的实体进行同义词替换,得到与每个第二文本段对应的第六文本段;然后,将每个第二文本段,以及与该第二文本段对应的第六文本段作为一对训练样本,得到多对第一训练样本。本申请中也可以将多对第一训练样本称为多对相似样本。
应说明,构造了多对第一训练样本之后在训练的过程中,使一对第一训练样本中的两个训练样本之间的距离比较近,这样构造出多对第一训练样本之后,可以让模型能够识别出一些从文字表面上看似不同的产业,其实是相同的绿色产业,从而可以精确的识别出多元化文字表达的绿色产业。
示例性的,将多个第五文本段中的多个目标第五文本段剔除,得到多个第七文本段,其中,多个目标第五文本段描述的产品与多个第二文本段描述产品相同,且多个目标第五文本段与多个第二文本段一一对应。
具体的,将多个第五文本段与多个第二文本段做差集,得到该多个第七文本段。其中,本申请所指的差集本质上是将文本段描述的产业做差集,即从多个第五文本段中剔除目标第五文本段,得到该多个第七文本段。
应理解,将多个第五文本段与多个第二文本段做差集,则得到的多个第七文本段所描述的产品均是具有非绿色属性的产品。
进一步地,确定该多个第七文本段中与每个第七文本段对应的第二文本段,其中,该第七文本段所描述的产品与该第二文本段描述的产品相同,但第七文本段描述的产品具有非绿色属性,而第二文本段描述的产品具有绿色属性。例如,第二文本段描述的产品为“节能型工业锅炉”,而第七文本描述的产品为“工业锅炉”。可以看出,这两个文本段描述的产品均是锅炉,但是“节能型工业锅炉”具有绿色属性,而“工业锅炉”具有非绿色属性。因此,可以将这两个文本段作为一对训练样本。因此,将该第七文本段以及与该第七文本段对应的第二文本段作为一对训练样本,得到多对第二训练样本。本申请中可以将多对第二训练样本称为多对不相似样本。
应说明,之所以构造不相似样本,是因为需要让模型识别虽然看起来表达很近的产品名称,实质上是具有不同属性的产品,学习到这些表达相近的产品名称中哪些关键字词是真正与绿色属性相关的,比如,上述的“节能型工业锅炉”和“工业锅炉”,在训练的过程中,可以让模型记住只有带上“节能型”的锅炉才是具有绿色属性的产品,这样就识别出在这种 类似的表达中,“节能型”才是与绿色属性密切相关的关键词。
最后,将多对第一训练样本和多对第二训练样本作为该多对目标训练样本。
304:根据所述多对目标训练样本对初始模型训练,得到所述相似度模型。
示例性的,将多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型,得到每个训练样本的特征向量,其中,该特征向量用于确定每个训练样本所描述的产品具有绿色属性的概率;然后,根据每个训练样本的特征向量以及每个训练样本的标签,确定每个训练样本对应的第一损失,其中,每个训练样本的标签用于标识每个训练样本所描述的产品是否具有绿色属性的真实情况。应理解,对于相似样本来说,每对相似样本中的两个训练样本的标签是相同的,对于不相似样本来说,每对不相似样本中的两个训练样本的标签是不同的。
具体的,根据每个训练样本的特征向量,通过该初始模型的分类器确定每个训练样本所描述的产品具有绿色属性的概率;根据每个训练样本所描述的产品具有绿色属性的概率以及每个训练样本的标签,确定每个训练样本对应的第一损失。
进一步的,根据每个训练样本的特征向量,确定每对目标训练样本的第二损失,即根据每对目标训练样本中的两个训练样本的特征向量,确定该两个训练样本之间的相似度,将该相似度作为每对目标样本的第二损失。
最后,根据每对目标训练样本中的每个训练样本的第一损失,以及每对目标训练样本对应的第二损失,对初始模型进行训练,得到该相似度模型。
具体的,首先根据每对目标训练样本中的每个训练样本的第一损失,确定初始模型在进行绿色属性分类的过程中的第一目标损失。示例性的,对多对目标训练样本中的所有训练样本的第一损失进行加权求和,得到该第一目标损失。
示例性的,第一目标损失可以通过公式(4)表示:
Figure PCTCN2022090484-appb-000002
L 1为第一目标损失,avg为求平均操作,n为多对第一训练样本的数量,m为多对第二训练样本的数量,W为初始模型的分类器的权重,f t′为多对目标训练样本中的所有训练样本(即2(n+m))个训练样本中的第t个训练样本,l t为第t个训练样本的标签。
具体的,根据每对目标训练样本的第二损失,确定初始模型在对每对第一训练样本进行特征提取过程中的损失,得到第二目标损失。示例性的,获取每对第一训练样本的第二损失,并对多对第一训练样本的第二损失求平均,得到该第二目标损失。示例性的,该第二目标损失可以通过公式(5)表示:
Figure PCTCN2022090484-appb-000003
其中,L sim为第二目标损失,avg为求平均操作,n为多对第一训练样本的数量,s i为n对第一训练样本中的第i对第一训练样本,
Figure PCTCN2022090484-appb-000004
为第i对第一训练样本中的一个训练样本的特征向量,
Figure PCTCN2022090484-appb-000005
为该第i对第一训练样本中的另一个训练样本的特征向量,|||| 2为求向量之间的相似度(距离)的操作。
具体的,根据每对目标训练样本的第二损失,确定初始模型在对每对第二训练样本进行特征提取过程中的损失,得到第三目标损失。示例性的,获取每对第二训练样本的第二损失,并对多对第二训练样本的第二损失求平均,得到该第三目标损失。示例性的,第三目标损失可以通过公式(6)表示:
Figure PCTCN2022090484-appb-000006
其中,L dissim为第三目标损失,avg为求平均操作,m为多对第二训练样本的数量,s j为 m对第二训练样本中的第j对第一训练样本,
Figure PCTCN2022090484-appb-000007
为第j对第二训练样本中的一个训练样本的特征向量,
Figure PCTCN2022090484-appb-000008
为该第j对第二训练样本中的另一个训练样本的特征向量,|||| 2为求向量之间的相似度(距离)的操作。
最后,根据第二目标损失和第三目标损失,确定第四目标损失。示例性的,第四目标损失通过公式(7)表示:
Figure PCTCN2022090484-appb-000009
其中,L 4为第四损失,κ为预设的稳定性参数,用于在L sim为0的情况下,避免第四目标损失L 4为零,进而防止模型退化。
之所以设置公式(7)的损失函数,是因为在构造训练样本对的过程中,就决定了第二目标损失L sim需要向着比较小的方向去优化,第三目标损失L dissim需要向着比较大的方向去优化,所以单纯的加权求和无法将两者统一。设置了公式(7)的损失函数之后,则只向着第四目标损失L 4比较小的方向去优化,即可满足第二目标损失L sim和第三目标损失L dissim的优化需求,从而满足整个反向传播过程的优化需求。
最后,将第四目标损失和第一目标损失进行加权,得到最终的目标损失;基于目标损失以及梯度下降法对初始模型进行反向更新,直至初始模型收敛时,得到该相似度模型。
在本申请的一个实施方式中,在构造相似训练样时,除了同义词替换,还可以进行句式的替换。示例性的,对多个第二文本段进行实体识别,得到多个目标实体,其中,多个目标实体与多个第二文本段一一对应,也就是从多个第二文本段中提取出用来描述该多个第一产品的多个目标实体。然后,将每个第二文本段以及与从每个第二文本段中提取出的目标实体作为一对训练样本,得到多对相似样本,这样就构造出了包含不同句式的相似样本。例如“本债券将用于偿还前期水电站建设项目贷款”,则将该第二文本段和“水电站”作为一对相似样本,之所以构造这样的相似样本,是让模型在学习的过程中将“本债券将用于偿还前期水电站建设项目贷款”和“水电站”均识别为绿色产品,因此构造出这种相似样本,可以让模型在学习的过程中可以不受句式的影响,只关心真正与绿色属性相关的字词,从而提高模型的识别精度。
在本申请的一个实施方式中,在构造不相似样本时,针对每个第二文本段,从剩余的目标实体中随机选择一个目标实体,与该第二文本段作为一对不相似样本,可构造出多对不相似样本,其中,该剩余的目标实体为该多个目标实体中除该第二文本段的目标实体之外的所有实体。例如,将上述的“水电站”随机替换为一个目标实体,比如,“风电站”,“其他项目建设”,等等,可以构造出多对不相似样本。构造出这样的不相似样本,可以让模型学习到需要关注的是句式中的实体,对于这种不相似的数据实体不同,需要分类为不同的产品。从而使该模型对于“本债券将用于偿还前期水电站建设项目贷款”以及“风电站”,“其他项目建设”识别为不同属性的产品,从而使如此相近的情况下也能准确匹配到最相似的行业是水电站,即能准确的进行实体匹配,从而提高模型的识别精度。
参阅图4,图4为本申请实施例提供的一种绿色资产的占比的识别装置的功能单元组成框图。绿色资产的占比的识别装置400包括:获取单元401和处理单元402;
获取单元401,用于获取数字资产的所属企业针对所述数字资产的披露文档;
处理单元402,用于对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段;
对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值;
将所述第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段,所述至少一个文本段用于描述所述主营产品的至少一子产品;
根据所述主营产品的占比,确定各所述子产品的占比;
根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品;
根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段;
根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
在一些可能的实施方式中,根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度之前,获取单元401,还用于获取第一预设文档,所述第一预设文档中记载的产品均为具有绿色属性的产品;
处理单元402,还用于对所述第一预设文档进行文本识别,得到多个第三文本段,其中,所述多个第三文本段用于描述所述第一预设文档中记载的产品;
若所述多个第三文本段中的任意一个第三文本段引用其他文档,则对所述其他文档进行文本识别,得到与所述任意一个第三文本段对应的第四文本段,其中,所述第四文本段是所述其他文档中用于描述具有绿色属性的产品的文本段;
将所述多个第三文本段和所述任意一个第三文本段对应的第四文本段作为所述多个第二文本段。
在一些可能的实施方式中,根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度之前,获取单元401,还用于获取第二预设文档,所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品;
处理单元402,还用于对所述第二预设文档进行文本识别,得到多个第五文本段,其中,所述多个第五文本段用于描述所述第二预设文档中记载的产品;
根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本;
根据所述多对目标训练样本对初始模型训练,得到所述相似度模型。
在一些可能的实施方式中,在根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本方面,处理单元402,具体用于:
对所述多个第二文本段中的每个第二文本段中的实体进行同义词替换,得到与所述第二文本段对应的第六文本段;
将所述每个第二文本段以及与所述每个第二文本段对应的第六文本段作为一对训练样本,得到多对第一训练样本;
将所述多个第五文本段中的多个目标第五文本段剔除,得到多个第七文本段,其中,所述多个目标第五文本段描述的产品与所述多个第二文本段描述的产品相同,且均具有绿色属性;
确定所述多个第七文本段中的每个第七文本段对应的第二文本段,并将所述每个第七文本段,以及与所述每个第七文本段对应的第二文本段作为一对训练样本,得到多对第二训练样本,其中,所述每个第七文本段以及与所述每个第七文本段对应的第二文本段所描述的产品相同,且所述每个第七文本段所描述的产品具有非绿色属性;
将所述多对第一训练样本和所述多对第二训练样本,作为所述多对目标训练样本。
在一些可能的实施方式中,在根据所述多对目标训练样本对初始模型训练,得到所述相似度模型方面,处理单元402,具体用于:
将所述多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型,得到所述每个训练样本对应的特征向量;
根据所述每个训练样本对应的特征向量,以及所述每个训练样本的标签,得到所述每个训练样本对应的第一损失;
根据所述每个训练样本对应的特征向量,确定所述每对目标训练样本对应的第二损失;
根据所述每对目标训练样本中的每个训练样本的第一损失,以及所述每对目标训练样本对应的第二损失,对所述初始模型进行训练,得到所述相似度模型。
在一些可能的实施方式中,在根据所述主营产品的占比,确定各所述子产品的占比方面,处理单元402,具体用于:
根据所述至少一个子产品的数量,将所述主营产品的占比平均拆分给所述至少一个子产品,得到各所述子产品的占比。
在一些可能的实施方式中,所述数字资产为t时刻下投资机构所投资的多个数字资产中的任意一个,所述t时刻为任意时刻;
处理单元402,还用于根据所述t时刻下所述任意一个数字资产中的绿色资产的占比,得到各所述数字资产中的绿色资产的占比;
获取单元401,还用于获取所述t时刻下各所述数字资产的净值;
获取所述t时刻下所述投资机构持有各所述数字资产的份额;
处理单元402,还用于根据各所述数字资产的净值、所述份额以及绿色资产的占比,确定所述t时刻下所述投资机构持有各所述数字资产的绿色规模;
根据所述t时刻下所述投资机构持有各所述数字资产的绿色规模,确定所述投资机构持有所述多个数字资产的目标绿色规模;
所述目标绿色规模满足以下公式:
Figure PCTCN2022090484-appb-000010
S total为所述目标绿色规模,n为所述多个数字资产的数量,s i为所述t时刻下所述多个数字资产中的第i个数字资产的绿色资产的占比,V i为所述t时刻下所述第i个数字资产的净值,R i为所述t时刻下所述投资机构持有所述第i个数字资产的份额。
参阅图5,图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示,电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据,并可以将存储器503存储的数据传输给处理器502。
处理器502用于读取存储器503中的计算机程序执行以下操作:
控制收发器501获取数字资产的所属企业针对所述数字资产的披露文档;
对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段;
对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值;
将所述第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段,所述至少一个文本段用于描述所述主营产品的至少一子产品;
根据所述主营产品的占比,确定各所述子产品的占比;
根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品;
根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段;
根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
在一些可能的实施方式中,根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度之前,处理器502还用于执行以下操作:
控制收发器501获取第一预设文档,所述第一预设文档中记载的产品均为具有绿色属性的产品;
对所述第一预设文档进行文本识别,得到多个第三文本段,其中,所述多个第三文本段 用于描述所述第一预设文档中记载的产品;
若所述多个第三文本段中的任意一个第三文本段引用其他文档,则对所述其他文档进行文本识别,得到与所述任意一个第三文本段对应的第四文本段,其中,所述第四文本段是所述其他文档中用于描述具有绿色属性的产品的文本段;
将所述多个第三文本段和所述任意一个第三文本段对应的第四文本段作为所述多个第二文本段。
在一些可能的实施方式中,根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度之前,处理器502还用于执行以下操作:
控制收发器501获取第二预设文档,所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品;
对所述第二预设文档进行文本识别,得到多个第五文本段,其中,所述多个第五文本段用于描述所述第二预设文档中记载的产品;
根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本;
根据所述多对目标训练样本对初始模型训练,得到所述相似度模型。
在一些可能的实施方式中,在根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本方面,处理器502具体用于执行以下操作:
对所述多个第二文本段中的每个第二文本段中的实体进行同义词替换,得到与所述第二文本段对应的第六文本段;
将所述每个第二文本段以及与所述每个第二文本段对应的第六文本段作为一对训练样本,得到多对第一训练样本;
将所述多个第五文本段中的多个目标第五文本段剔除,得到多个第七文本段,其中,所述多个目标第五文本段描述的产品与所述多个第二文本段描述的产品相同,且均具有绿色属性;
确定所述多个第七文本段中的每个第七文本段对应的第二文本段,并将所述每个第七文本段,以及与所述每个第七文本段对应的第二文本段作为一对训练样本,得到多对第二训练样本,其中,所述每个第七文本段以及与所述每个第七文本段对应的第二文本段所描述的产品相同,且所述每个第七文本段所描述的产品具有非绿色属性;
将所述多对第一训练样本和所述多对第二训练样本,作为所述多对目标训练样本。
在一些可能的实施方式中,在根据所述多对目标训练样本对初始模型训练,得到所述相似度模型方面,处理器502具体用于执行以下操作:
将所述多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型,得到所述每个训练样本对应的特征向量;
根据所述每个训练样本对应的特征向量,以及所述每个训练样本的标签,得到所述每个训练样本对应的第一损失;
根据所述每个训练样本对应的特征向量,确定所述每对目标训练样本对应的第二损失;
根据所述每对目标训练样本中的每个训练样本的第一损失,以及所述每对目标训练样本对应的第二损失,对所述初始模型进行训练,得到所述相似度模型。
在一些可能的实施方式中,在根据所述主营产品的占比,确定各所述子产品的占比方面,处理器502具体用于执行以下操作:
根据所述至少一个子产品的数量,将所述主营产品的占比平均拆分给所述至少一个子产品,得到各所述子产品的占比。
在一些可能的实施方式中,所述数字资产为t时刻下投资机构所投资的多个数字资产中的任意一个,所述t时刻为任意时刻;处理器502还用于执行以下操作:
根据所述t时刻下所述任意一个数字资产中的绿色资产的占比,得到各所述数字资产中的绿色资产的占比;
控制收发器501获取所述t时刻下各所述数字资产的净值;以及获取所述t时刻下所述投 资机构持有各所述数字资产的份额;
根据各所述数字资产的净值、份额以及绿色资产的占比,确定所述t时刻下所述投资机构持有各所述数字资产的绿色规模;
根据所述t时刻下所述投资机构持有各所述数字资产的绿色规模,确定所述投资机构持有所述多个数字资产的目标绿色规模;
所述目标绿色规模满足以下公式:
Figure PCTCN2022090484-appb-000011
S total为所述目标绿色规模,n为所述多个数字资产的数量,s i为所述t时刻下所述多个数字资产中的第i个数字资产的绿色资产的占比,V i为所述t时刻下所述第i个数字资产的净值,R i为所述t时刻下所述投资机构持有所述第i个数字资产的份额。
具体地,上述收发器501可为图4所述的实施例的绿色资产的占比的识别装置400的获取单元401,上述处理器502可以为图4所述的实施例的绿色资产的占比的识别装置400的处理单元402。
应理解,本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices,简称:MID)或穿戴式设备等。上述电子设备仅是举例,而非穷举,包含但不限于上述电子设备。在实际应用中,上述电子设备还可以包括:智能车载终端、计算机设备等等。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种基于模型的数字资产中的绿色资产的占比的识别方法的部分或全部步骤。所述计算机可读存储介质可以是非易失性,也可以是易失性。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于模型的数字资产中的绿色资产的占比的识别方法的部分或全部步骤。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

  1. 一种基于模型的数字资产中的绿色资产的占比识别方法,其中,包括:
    获取数字资产的所属企业针对所述数字资产的披露文档;
    对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段;
    对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值;
    将所述第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段,所述至少一个文本段用于描述所述主营产品的至少一子产品;
    根据所述主营产品的占比,确定各所述子产品的占比;
    根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品;
    根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段;
    根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
  2. 根据权利要求1所述的方法,其中,根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度之前,所述方法还包括:
    获取第一预设文档,所述第一预设文档中记载的产品均为具有绿色属性的产品;
    对所述第一预设文档进行文本识别,得到多个第三文本段,其中,所述多个第三文本段用于描述所述第一预设文档中记载的产品;
    若所述多个第三文本段中的任意一个第三文本段引用其他文档,则对所述其他文档进行文本识别,得到与所述任意一个第三文本段对应的第四文本段,其中,所述第四文本段是所述其他文档中用于描述具有绿色属性的产品的文本段;
    将所述多个第三文本段和所述任意一个第三文本段对应的第四文本段作为所述多个第二文本段。
  3. 根据权利要求2所述的方法,其中,根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度之前,所述方法还包括:
    获取第二预设文档,所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品;
    对所述第二预设文档进行文本识别,得到多个第五文本段,其中,所述多个第五文本段用于描述所述第二预设文档中记载的产品;
    根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本;
    根据所述多对目标训练样本对初始模型训练,得到所述相似度模型。
  4. 根据权利要求3所述的方法,其中,所述根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本,包括:
    对所述多个第二文本段中的每个第二文本段中的实体进行同义词替换,得到与所述第二文本段对应的第六文本段;
    将所述每个第二文本段以及与所述每个第二文本段对应的第六文本段作为一对训练样本,得到多对第一训练样本;
    将所述多个第五文本段中的多个目标第五文本段剔除,得到多个第七文本段,其中,所述多个目标第五文本段描述的产品与所述多个第二文本段描述的产品相同,且均具有绿色属性;
    确定所述多个第七文本段中的每个第七文本段对应的第二文本段,并将所述每个第七文本段,以及与所述每个第七文本段对应的第二文本段作为一对训练样本,得到多对第二训练样本,其中,所述每个第七文本段以及与所述每个第七文本段对应的第二文本段所描述的产 品相同,且所述每个第七文本段所描述的产品具有非绿色属性;
    将所述多对第一训练样本和所述多对第二训练样本,作为所述多对目标训练样本。
  5. 根据权利要求4所述的方法,其中,所述根据所述多对目标训练样本对初始模型训练,得到所述相似度模型,包括:
    将所述多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型,得到所述每个训练样本对应的特征向量;
    根据所述每个训练样本对应的特征向量,以及所述每个训练样本的标签,得到所述每个训练样本对应的第一损失;
    根据所述每个训练样本对应的特征向量,确定所述每对目标训练样本对应的第二损失;
    根据所述每对目标训练样本中的每个训练样本的第一损失,以及所述每对目标训练样本对应的第二损失,对所述初始模型进行训练,得到所述相似度模型。
  6. 根据权利要求5所述的方法,其中,所述根据所述主营产品的占比,确定各所述子产品的占比,包括:
    根据所述至少一个子产品的数量,将所述主营产品的占比平均拆分给所述至少一个子产品,得到各所述子产品的占比。
  7. 根据权利要求6所述的方法,其中,所述数字资产为t时刻下投资机构所投资的多个数字资产中的任意一个,所述t时刻为任意时刻;所述方法还包括:
    根据所述t时刻下所述任意一个数字资产中的绿色资产的占比,得到各所述数字资产中的绿色资产的占比;
    获取所述t时刻下各所述数字资产的净值;
    获取所述t时刻下所述投资机构持有各所述数字资产的份额;
    根据各所述数字资产的净值、份额以及绿色资产的占比,确定所述t时刻下所述投资机构持有各所述数字资产的绿色规模;
    根据所述t时刻下所述投资机构持有各所述数字资产的绿色规模,确定所述投资机构持有所述多个数字资产的目标绿色规模;
    所述目标绿色规模满足以下公式:
    Figure PCTCN2022090484-appb-100001
    S total为所述目标绿色规模,n为所述多个数字资产的数量,s i为所述t时刻下所述多个数字资产中的第i个数字资产的绿色资产的占比,V i为所述t时刻下所述第i个数字资产的净值,R i为所述t时刻下所述投资机构持有所述第i个数字资产的份额。
  8. 一种绿色资产的占比的识别装置,其中,包括:获取单元和处理单元;
    所述获取单元,用于获取数字资产的所属企业针对所述数字资产的披露文档;
    所述处理单元,用于对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段;
    对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值;
    将所述第一文本段输入到机器阅读理解模型进行文本分割,得到所述主营产品的至少一个子产品以及至少一个子文本段,所述至少一个文本段用于描述所述至少一子产品;
    根据所述主营产品的占比,确定各所述子产品的占比;
    根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品;
    根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段;
    根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
  9. 一种电子设备,其中,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,所述计算机程序包括用于执行以下步骤的指令:
    获取数字资产的所属企业针对所述数字资产的披露文档;
    对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段;
    对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值;
    将所述第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段,所述至少一个文本段用于描述所述主营产品的至少一子产品;
    根据所述主营产品的占比,确定各所述子产品的占比;
    根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品;
    根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段;
    根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
  10. 根据权利要求9所述的电子设备,其中,根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度之前,所述步骤还包括:
    获取第一预设文档,所述第一预设文档中记载的产品均为具有绿色属性的产品;
    对所述第一预设文档进行文本识别,得到多个第三文本段,其中,所述多个第三文本段用于描述所述第一预设文档中记载的产品;
    若所述多个第三文本段中的任意一个第三文本段引用其他文档,则对所述其他文档进行文本识别,得到与所述任意一个第三文本段对应的第四文本段,其中,所述第四文本段是所述其他文档中用于描述具有绿色属性的产品的文本段;
    将所述多个第三文本段和所述任意一个第三文本段对应的第四文本段作为所述多个第二文本段。
  11. 根据权利要求10所述的电子设备,其中,根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度之前,所述步骤还包括:
    获取第二预设文档,所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的产品;
    对所述第二预设文档进行文本识别,得到多个第五文本段,其中,所述多个第五文本段用于描述所述第二预设文档中记载的产品;
    根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本;
    根据所述多对目标训练样本对初始模型训练,得到所述相似度模型。
  12. 根据权利要求11所述的电子设备,其中,所述根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本,包括:
    对所述多个第二文本段中的每个第二文本段中的实体进行同义词替换,得到与所述第二文本段对应的第六文本段;
    将所述每个第二文本段以及与所述每个第二文本段对应的第六文本段作为一对训练样本,得到多对第一训练样本;
    将所述多个第五文本段中的多个目标第五文本段剔除,得到多个第七文本段,其中,所述多个目标第五文本段描述的产品与所述多个第二文本段描述的产品相同,且均具有绿色属性;
    确定所述多个第七文本段中的每个第七文本段对应的第二文本段,并将所述每个第七文 本段,以及与所述每个第七文本段对应的第二文本段作为一对训练样本,得到多对第二训练样本,其中,所述每个第七文本段以及与所述每个第七文本段对应的第二文本段所描述的产品相同,且所述每个第七文本段所描述的产品具有非绿色属性;
    将所述多对第一训练样本和所述多对第二训练样本,作为所述多对目标训练样本。
  13. 根据权利要求12所述的电子设备,其中,所述根据所述多对目标训练样本对初始模型训练,得到所述相似度模型,包括:
    将所述多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型,得到所述每个训练样本对应的特征向量;
    根据所述每个训练样本对应的特征向量,以及所述每个训练样本的标签,得到所述每个训练样本对应的第一损失;
    根据所述每个训练样本对应的特征向量,确定所述每对目标训练样本对应的第二损失;
    根据所述每对目标训练样本中的每个训练样本的第一损失,以及所述每对目标训练样本对应的第二损失,对所述初始模型进行训练,得到所述相似度模型。
  14. 根据权利要求13所述的电子设备,其中,所述根据所述主营产品的占比,确定各所述子产品的占比,包括:
    根据所述至少一个子产品的数量,将所述主营产品的占比平均拆分给所述至少一个子产品,得到各所述子产品的占比。
  15. 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以使得计算机执行以下步骤的指令:
    获取数字资产的所属企业针对所述数字资产的披露文档;
    对所述披露文档进行文本识别,得到所述披露文档中的目标章节,其中,所述目标章节用于描述所述所属企业的主营产品,且所述目标章节包括第一表格和第一文本段;
    对所述第一文本段和所述第一表格均进行实体识别,得到所述主营产品以及所述主营产品的占比,其中,所述主营产品的占比为所述主营产品的营业额与所述所属企业的总营业额的比值;
    将所述第一文本段输入到机器阅读理解模型进行文本分割,得到至少一个子文本段,所述至少一个文本段用于描述所述主营产品的至少一子产品;
    根据所述主营产品的占比,确定各所述子产品的占比;
    根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度,其中,所述多个第二文本段用于描述多个具有绿色属性的第一产品;
    根据各所述子文本段分别与所述多个第二文本段之间的相似度,确定所述至少一个子文本段中的目标子文本段;
    根据所述目标子文本段描述的子产品的占比,确定所述数字资产中的绿色资产的占比。
  16. 根据权利要求15所述的计算机可读存储介质,其中,根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度之前,所述步骤还包括:
    获取第一预设文档,所述第一预设文档中记载的产品均为具有绿色属性的产品;
    对所述第一预设文档进行文本识别,得到多个第三文本段,其中,所述多个第三文本段用于描述所述第一预设文档中记载的产品;
    若所述多个第三文本段中的任意一个第三文本段引用其他文档,则对所述其他文档进行文本识别,得到与所述任意一个第三文本段对应的第四文本段,其中,所述第四文本段是所述其他文档中用于描述具有绿色属性的产品的文本段;
    将所述多个第三文本段和所述任意一个第三文本段对应的第四文本段作为所述多个第二文本段。
  17. 根据权利要求16所述的计算机可读存储介质,其中,根据相似度模型,确定各所述子文本段分别与多个第二文本段之间的相似度之前,所述步骤还包括:
    获取第二预设文档,所述第二预设文档中记载的产品有绿色属性的产品和非绿色属性的 产品;
    对所述第二预设文档进行文本识别,得到多个第五文本段,其中,所述多个第五文本段用于描述所述第二预设文档中记载的产品;
    根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本;
    根据所述多对目标训练样本对初始模型训练,得到所述相似度模型。
  18. 根据权利要求17所述的计算机可读存储介质,其中,所述根据所述多个第五文本段以及所述多个第二文本段构造多对目标训练样本,包括:
    对所述多个第二文本段中的每个第二文本段中的实体进行同义词替换,得到与所述第二文本段对应的第六文本段;
    将所述每个第二文本段以及与所述每个第二文本段对应的第六文本段作为一对训练样本,得到多对第一训练样本;
    将所述多个第五文本段中的多个目标第五文本段剔除,得到多个第七文本段,其中,所述多个目标第五文本段描述的产品与所述多个第二文本段描述的产品相同,且均具有绿色属性;
    确定所述多个第七文本段中的每个第七文本段对应的第二文本段,并将所述每个第七文本段,以及与所述每个第七文本段对应的第二文本段作为一对训练样本,得到多对第二训练样本,其中,所述每个第七文本段以及与所述每个第七文本段对应的第二文本段所描述的产品相同,且所述每个第七文本段所描述的产品具有非绿色属性;
    将所述多对第一训练样本和所述多对第二训练样本,作为所述多对目标训练样本。
  19. 根据权利要求18所述的计算机可读存储介质,其中,所述根据所述多对目标训练样本对初始模型训练,得到所述相似度模型,包括:
    将所述多对目标训练样本中的每对目标训练样本中的每个训练样本分别输入到初始模型,得到所述每个训练样本对应的特征向量;
    根据所述每个训练样本对应的特征向量,以及所述每个训练样本的标签,得到所述每个训练样本对应的第一损失;
    根据所述每个训练样本对应的特征向量,确定所述每对目标训练样本对应的第二损失;
    根据所述每对目标训练样本中的每个训练样本的第一损失,以及所述每对目标训练样本对应的第二损失,对所述初始模型进行训练,得到所述相似度模型。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述根据所述主营产品的占比,确定各所述子产品的占比,包括:
    根据所述至少一个子产品的数量,将所述主营产品的占比平均拆分给所述至少一个子产品,得到各所述子产品的占比。
PCT/CN2022/090484 2021-10-30 2022-04-29 绿色资产的占比的识别方法及相关产品 WO2023071129A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111280433.3A CN113902568A (zh) 2021-10-30 2021-10-30 绿色资产的占比的识别方法及相关产品
CN202111280433.3 2021-10-30

Publications (1)

Publication Number Publication Date
WO2023071129A1 true WO2023071129A1 (zh) 2023-05-04

Family

ID=79027211

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/090484 WO2023071129A1 (zh) 2021-10-30 2022-04-29 绿色资产的占比的识别方法及相关产品

Country Status (2)

Country Link
CN (1) CN113902568A (zh)
WO (1) WO2023071129A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113902568A (zh) * 2021-10-30 2022-01-07 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288268A1 (en) * 2005-05-27 2006-12-21 Rage Frameworks, Inc. Method for extracting, interpreting and standardizing tabular data from unstructured documents
CN110188340A (zh) * 2019-04-09 2019-08-30 国金涌富资产管理有限公司 一种研报文本实体名词自动识别方法
CN110781299A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 资产信息识别方法、装置、计算机设备及存储介质
CN113065966A (zh) * 2021-05-06 2021-07-02 腾讯科技(深圳)有限公司 业务产品的类型确定方法及装置
CN113240322A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 气候风险披露质量方法、装置、电子设备及存储介质
CN113421165A (zh) * 2021-05-19 2021-09-21 绿融(广州)信息科技有限公司 一种绿色金融产品评估与管理的方法及***
CN113902568A (zh) * 2021-10-30 2022-01-07 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品
CN113902569A (zh) * 2021-10-30 2022-01-07 平安科技(深圳)有限公司 数字资产中的绿色资产的占比的识别方法及相关产品
CN114240672A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160048922A1 (en) * 2014-08-18 2016-02-18 Bank Of America Corporation Etf research platform
US10740560B2 (en) * 2017-06-30 2020-08-11 Elsevier, Inc. Systems and methods for extracting funder information from text
CN111444718A (zh) * 2020-03-12 2020-07-24 泰康保险集团股份有限公司 一种保险产品需求文档处理方法、装置及电子设备
CN112214987B (zh) * 2020-09-08 2023-02-03 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质
CN113505601A (zh) * 2021-07-08 2021-10-15 平安科技(深圳)有限公司 一种正负样本对构造方法、装置、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288268A1 (en) * 2005-05-27 2006-12-21 Rage Frameworks, Inc. Method for extracting, interpreting and standardizing tabular data from unstructured documents
CN110188340A (zh) * 2019-04-09 2019-08-30 国金涌富资产管理有限公司 一种研报文本实体名词自动识别方法
CN110781299A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 资产信息识别方法、装置、计算机设备及存储介质
CN113065966A (zh) * 2021-05-06 2021-07-02 腾讯科技(深圳)有限公司 业务产品的类型确定方法及装置
CN113421165A (zh) * 2021-05-19 2021-09-21 绿融(广州)信息科技有限公司 一种绿色金融产品评估与管理的方法及***
CN113240322A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 气候风险披露质量方法、装置、电子设备及存储介质
CN113902568A (zh) * 2021-10-30 2022-01-07 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品
CN113902569A (zh) * 2021-10-30 2022-01-07 平安科技(深圳)有限公司 数字资产中的绿色资产的占比的识别方法及相关产品
CN114240672A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Also Published As

Publication number Publication date
CN113902568A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN109582949B (zh) 事件元素抽取方法、装置、计算设备及存储介质
CN110163478B (zh) 一种合同条款的风险审查方法及装置
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
JP2021504789A (ja) Esg基盤の企業評価遂行装置及びその作動方法
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN109214407B (zh) 事件检测模型、方法、装置、计算设备及存储介质
WO2023071120A1 (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
WO2023108985A1 (zh) 绿色资产的占比的识别方法及相关产品
CN109101489A (zh) 一种文本自动摘要方法、装置及一种电子设备
CN109558541A (zh) 一种信息处理的方法、装置及计算机存储介质
CN111414746A (zh) 一种匹配语句确定方法、装置、设备及存储介质
CN112784591B (zh) 数据的处理方法、装置、电子设备和存储介质
CN110222192A (zh) 语料库建立方法及装置
CN110826315B (zh) 使用神经网络***识别短文本时效性的方法
WO2023071129A1 (zh) 绿色资产的占比的识别方法及相关产品
WO2023050652A1 (zh) 基于文本识别的区域内esg指数确定方法及相关产品
CN109471927A (zh) 一种知识库及其建立、问答方法及应用装置
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN113051396B (zh) 文档的分类识别方法、装置和电子设备
CN114580398A (zh) 文本信息提取模型生成方法、文本信息提取方法和装置
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
CN113177121A (zh) 文本主题分类方法、装置、电子设备以及存储介质
CN112925913A (zh) 用于匹配数据的方法、装置、设备和计算机可读存储介质
Zhou et al. U-CORE: A Unified Deep Cluster-wise Contrastive Framework for Open Relation Extraction
CN114169966B (zh) 一种用张量提取货物订单元数据的方法及***

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22885043

Country of ref document: EP

Kind code of ref document: A1