CN112784585A - 金融公告的摘要提取方法与摘要提取终端 - Google Patents

金融公告的摘要提取方法与摘要提取终端 Download PDF

Info

Publication number
CN112784585A
CN112784585A CN202110169301.7A CN202110169301A CN112784585A CN 112784585 A CN112784585 A CN 112784585A CN 202110169301 A CN202110169301 A CN 202110169301A CN 112784585 A CN112784585 A CN 112784585A
Authority
CN
China
Prior art keywords
bulletin
text
core
layer module
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110169301.7A
Other languages
English (en)
Inventor
李明玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN202110169301.7A priority Critical patent/CN112784585A/zh
Publication of CN112784585A publication Critical patent/CN112784585A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种金融公告的摘要提取方法与摘要提取终端,通过对原始金融公告的公告文本进行核心元素标注,标注量小且可以实现自动化标注,无需人工标注。通过对公告文本进行粗召回处理,实现了压缩文本的目的,满足了中文预训练模型对输入字符数量的限制。通过对中文预训练模型进行预训练,输出的每个句子的语义向量进行提取,不但可以建立该核心公告文本中每一个句子和其他句子的关联逻辑,从而通过训练后的中文预训练模型实现句子间的高层语义表示的获取,而且可以使得训练后的中文预训练模型可以判断句子是否应该被抽取到最终的摘要文本中,实现了对高优先级文本内容的自动提取。

Description

金融公告的摘要提取方法与摘要提取终端
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种金融公告的摘要提取方法与摘要提取终端。
背景技术
上市公司每天发布大量的金融公告,这些公告一般金融篇幅冗长,内容繁多。从这些公告中自动提取摘要,可以得到精准度较高,且可读性较高的公告摘要文档,为金融市场投资者节约大量的公告阅读时间,从而辅助投资者做出更快、更好的投资判断。
通常自然语言处理中的文本摘要任务是指对长文本通过抽取、生成或者压缩的方式,形成一段较小篇幅的语句段落来概括原始文本的主题大意。与通常的自然语言处理文本摘要任务不同,金融公告的摘要需要根据公告的类型返回包含不同侧重点的信息形成摘要。由于公告摘要任务相比于普通文本摘要任务的特殊性以及金融领域算法任务的高准召率的要求,目前,传统金融公告的摘要提取方法有很多种,但实质上均为从原始金融公告中提取重要段落或重要句子的方法。最常见的方法之一,就是运用基于深度学习模型的句子分类算法的摘要提取方法。
然而,这种传统的摘要提取方法具有一个很大的问题,标注成本较高且准召率不高。基于深度学习模型的句子分类算法为了达到较高的准召率往往需要很深的复杂网络。神经网络结构的设计对模型的准招率表现会起到决定性的作用,但模型越复杂,所需参数就越多,网络达到收敛状态时需要的训练数据也会越多,这大大提高了标注成本。标注是依靠高素质人员人工进行标注的,在金融领域,标注人员需要很强的业务、专业知识背景,大批量的公告数据标注实施尤为困难。且标注数量虽然很大,但是这种提取方法的准召率却往往不高,不是很理想。
发明内容
基于此,有必要针对传统金融公告的摘要提取方法标注成本较高且准召率不高的问题,提供一种金融公告的摘要提取方法与摘要提取终端。
本申请提供一种金融公告的摘要提取方法,所述方法包括:
获取多个原始金融公告;对每一个原始金融公告进行预处理,将每一个原始金融公告转化为公告文本;
对每一个公告文本进行核心元素的标注,生成多个核心元素标签;
对每一个公告文本进行粗召回处理,以压缩公告文本的内容,生成核心公告文本;
对每一个核心公告文本进行分句处理,在每一个句子中***特殊标识符;
将每一个核心公告文本,以及核心公告文本对应的核心元素标签作为模型训练的输入数据,对中文预训练模型进行预训练,以建立该核心公告文本中每一个句子和其他句子的关联逻辑,以及建立核心元素所在句子的识别逻辑,并将关联逻辑和识别逻辑赋予所述特殊标识符;
获取待提取公告,将待提取公告进行所述预处理,生成待提取公告的公告文本,对所述待提取公告的公告文本进行所述核心元素的标注和粗召回处理,生成待提取公告的核心公告文本,对待提取公告的核心公告文本进行分句处理,并在每一个句子中***特殊标识符;
将待提取公告的核心公告文本输入至中文预训练模型,驱动中文预训练模型将核心公告文本输入至中文预训练模型,获取中文预训练模型输出的每一个字符的语义向量;
从语义向量中筛选出与特征字符对应的语义向量,将每一个特殊字符的语义向量输入至中文预训练模型,驱动中文预训练模型基于二分类算法计算每一个语义向量的分类得分,提取分类得分大于或分类得分阈值的语义向量对应的句子组成摘要文本;
输出所述摘要文本。
本申请还提供一种摘要提取终端,包括:
处理器,用于执行前述内容提及的金融公告的摘要提取方法;
中文预训练模型,与所述处理器连接,所述中文预训练模型包括编码层模块、摘要层模块和分类层模块;
摘要包装模块,与所述处理器连接。
本申请涉及一种金融公告的摘要提取方法与摘要提取终端,通过对原始金融公告的公告文本进行核心元素标注,标注量小且可以实现自动化标注,无需人工标注。通过对公告文本进行粗召回处理,实现了压缩文本的目的,满足了中文预训练模型对输入字符数量的限制。通过对中文预训练模型进行预训练,输出的每个句子的语义向量进行提取,不但可以建立该核心公告文本中每一个句子和其他句子的关联逻辑,从而通过训练后的中文预训练模型实现句子间的高层语义表示的获取,而且可以使得训练后的中文预训练模型可以判断句子是否应该被抽取到最终的摘要文本中,实现了对高优先级文本内容的自动提取。
附图说明
图1为本申请一实施例提供的金融公告的摘要提取方法的流程示意图;
图2为本申请一实施例提供的摘要提取终端的结构示意图;
图3为本申请一实施例提供的金融公告的摘要提取方法中,对中文预训练模型的编码层模块的训练内容示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种金融公告的摘要提取方法。需要说明的是,本申请提供的金融公告的摘要提取方法的应用于金融类的公告。例如,上市公司发布的金融类公告。
此外,本申请提供的金融公告的摘要提取方法不限制其执行主体。可选地,本申请提供的金融公告的摘要提取方法的执行主体的可以为一种摘要提取终端。具体地,本申请提供的金融公告的摘要提取方法的执行主体的可以为所述摘要提取终端中的一个或多个处理器。
如图1所示,在本申请的一实施例中,所述金融公告的摘要提取方法包括如下步骤:
S100,获取多个原始金融公告。对每一个原始金融公告进行预处理,将每一个原始金融公告转化为公告文本。
具体地,本申请可以运行一个BERT类模型实现摘要提取。所述原始金融公告作为模型的原始训练数据,数量越多,模型训练后的摘要提取的准召率越高。
可选地,由于原始金融公告多为PDF格式,因此本步骤可以将PDF格式的原始金融公告转化为纯文本格式,生成公告文本。
S200,对每一个公告文本进行核心元素的标注,生成多个核心元素标签。
具体地,核心元素为每一个公告文本所包含的重要信息。
S300,对每一个公告文本进行粗召回处理,以压缩公告文本的内容,生成核心公告文本。
具体地,BERT类模型输入的字符限制字数为512个,如果公告文本包含的字符量多大,公告文本将无法输入至模型中。因此,本步骤可以过滤掉无关紧要的字符、词语、句子或段落,实现公告文本内容的压缩。
S400,对每一个核心公告文本进行分句处理,在每一个句子中***特殊标识符。
具体地,可以先通过核心公告文本中已有的标点符号对核心公告文本中的句子进行识别。例如,可以通过逗号识别句子,也可以通过句号识别句子,这两种不同的方式对句子的定义不同。
可选地,可以在每一个句子的句首***一个特殊标识符,用于区别不同的句子。
S500,将每一个核心公告文本,以及核心公告文本对应的核心元素标签作为模型训练的输入数据,对中文预训练模型进行预训练,以建立该核心公告文本中每一个句子和其他句子的关联逻辑,以及建立核心元素所在句子的识别逻辑,并将关联逻辑和识别逻辑赋予所述特殊标识符。
具体地,本申请选用的BERT类模型未中文预训练模型。中文预训练模型可以对训练数据中的中文词法结构,中文语法结构,中文语义信息进行统一建模,相比于原生的BERT模型,可以实现中文文本的识别与摘要提取。
可选地,所述中文预训练模型可以为RoBerta-wwm模型。
S600,获取待提取公告,将待提取公告进行所述预处理,生成待提取公告的公告文本,对所述待提取公告的公告文本进行所述核心元素的标注和粗召回处理,生成待提取公告的核心公告文本,对待提取公告的核心公告文本进行分句处理,并在每一个句子中***特殊标识符。
具体地,本实施例中的S600至S800是训练后的中文预训练模型的使用过程。和训练过程类似,待提取公告也需要进行预处理,核心元素标注,粗召回处理,生成核心公告文本。进一步地,也需要对核心公告文本进行分句处理,并在每一个句子中***特殊标识符。
S700,将待提取公告的核心公告文本输入至中文预训练模型,驱动中文预训练模型将核心公告文本输入至中文预训练模型,获取中文预训练模型输出的每一个字符的语义向量。
具体地,语义向量代表了该字符归属的句子和其他句子的关系,即句子的上下文关系。本步骤的过程也和训练时候的步骤类似。
S800,从语义向量中筛选出与特征字符对应的语义向量,将每一个特殊字符的语义向量输入至中文预训练模型,驱动中文预训练模型基于二分类算法计算每一个语义向量的分类得分,提取分类得分大于或等于分类得分阈值的语义向量对应的句子组成摘要文本。
具体地,由于模型已经经过训练,中文预训练模型可以通过计算特殊字符的语义向量对应的分类得分,并将分类得分与分类得分阈值比较,从而判断该特殊字符所归属的句子是否要提取,或是删除。
S900,输出所述摘要文本。
具体地,输出的摘要文本可以直接输出,也可以转化为其他格式输出,比如PDF格式,便于用户查看。
本实施例中,本申请涉及一种金融公告的摘要提取方法与摘要提取终端,通过对原始金融公告的公告文本进行核心元素标注,标注量小且可以实现自动化标注,无需人工标注。通过对公告文本进行粗召回处理,实现了压缩文本的目的,满足了中文预训练模型对输入字符数量的限制。通过对中文预训练模型进行预训练,输出的每个句子的语义向量进行提取,不但可以建立该核心公告文本中每一个句子和其他句子的关联逻辑,从而通过训练后的中文预训练模型实现句子间的高层语义表示的获取,而且可以使得训练后的中文预训练模型可以判断句子是否应该被抽取到最终的摘要文本中,实现了对高优先级文本内容的自动提取。
在本申请的一实施例中,所述S100包括如下S110至S150:
S110,选取一个原始金融公告。
S120,识别并去除原始金融公告中的多余字符。所述多余字符包括多余换行符、空格、乱码字符和不可见字符中的一种或多种。
S130,识别并去除原始金融公告中的表格。
S140,对原始金融公告进行文本转换,将原始金融公告转换为文本格式,生成公告文本。
S150,返回S110,直至所有的原始金融公告均转换为公告文本。
具体地,所述多余换行符为因格式规定和限制,由原始文本引入的不必要的换行而产生的换行符。例如,公告标题过长,有40个字,那么PDF格式会自动被换行符拆开为几行。
可选地,在步骤S130之后,还包括将公告内容进行段落拆分,以便于后续的核心元素标注。金融公告有较强的格式规范性,金融公告可以拆解为公告头、标题、引言、提示框、有层级结构的公告正文、以及公告尾这几个部分。将原始金融公告拆分成上述几个部分,便于后续核心元素标注过程中对公告进行信息提取。
本实施例中,通过识别并去除原始金融公告中的多余制度和表格,保证原始金融公告在转化为文本格式后,公告内容不存在异常字符。
在本申请的一实施例中,在S200之前,所述金融公告的摘要提取方法还包括如下步骤:
S160,读取预设分类规则,基于预设分类规则,对多个公告文本进行分类。
具体地,不同类型的公告文本需摘取不同类型的信息,即不同类型的公告,所需标注的核心元素的类型不同。
本实施例可以读取数据库中的预设分类规则文件,基于预设分类规则,对多个公告文本进行分类。
公告文本的种类可以包括权益分派、中标通知、协议签订、累计退税及补贴、理财计划、投资意向、股份增减持计划、人士非选举变动和违法违规中的一种。
可选地,可以将每一个公告文本输入至分类模型,通过细粒度分类标签训练分类模型。通过这种方式,当识别待提取公告的公告类型时,就可以通过细粒度分类标签识别待提取公告的公告类型。
本实施例中,通过对多个公告文本进行分类,便于后续对不同类型的公告文本进行核心元素的标注,大大节省标注量。
在本申请的一实施例中,所述S200包括如下S210至S240:
S210,选取一个公告文本。
S220,读取所述公告文本的公告类型,并从数据库中读取与公告类型对应的多个核心元素。
S230,搜寻所述公告文本中出现的与公告类型对应的核心元素,并标注核心元素所在的句子,生成多个核心元素标签。
S240,返回S210,直至所有的公告文本均被标注完毕。
具体地,例如,对于投资意向类公告文本,所需标注的核心元素的种类包括:1.投资主体。2.拟投资/增资事项描述。3.拟投资/增资金额及股权比例描述。4.是否关联交易,是否重大资产重组。5.拟投资/增资事项性质。可以搜寻这五类核心元素在公告文本中出现的位置,从而标注这五类核心元素所在的句子,生成核心元素标签。
本实施例中,通过搜寻所述公告文本中出现的与公告类型对应的核心元素,并标注核心元素所在的句子,生成多个核心元素标签,实现对每一个公告文本的重要信息的自动提取。
在本申请的一实施例中,所述S300包括如下S310至S330:
S310,选取一个公告文本。
S320,遍历无关字段库中的所有无关字段,去除所述公告文本中出现的无关字段所归属的句子,将剩余内容作为核心公告文本。
S330,返回S310,直至所有的公告文本均进行过粗召回处理。
具体地,无关字段库预先存放于数据库中。公告文本由核心元素所归属的句子,无关字段所归属的句子,以及既非核心元素所归属的句子又非无关字段所归属的句子的中间句子。本实施例可以做到去除无关字段所归属的句子,保留其他核心元素所归属的句子,以及中间句子。
本实施例中,通过去除所述公告文本中出现的无关字段所归属的句子,实现了公告文本的字符量的压缩,实现了压缩文本的目的,满足了中文预训练模型对输入字符数量的限制。
在本申请的一实施例中,所述S400包括如下S410至S430:
S410,选取一个核心公告文本。
S420,对所述核心公告文本进行分句处理,得到多个句子。在每一个句子的句首添加一个第一特殊字符。在每一个句子的句尾添加一个第二特殊字符。
S430,返回S410,直至所有核心公告文本均进行过分句处理。
具体地,可以在每一个句子的句首***第一特殊字符[CLS],可以再每一个句子的句尾***第二特殊字符[SEP]。
本实施例中,通过在每一个句子的句首添加一个第一特殊字符,在每一个句子的句尾添加一个第二特殊字符,实现了对核心公告文本的快速分句。
在本申请的一实施例中,所述S500包括如下S510至S550:
S510,选取一个核心公告文本。
S520,将所述核心公告文本输入至中文预训练模型,将所述核心公告文本对应的多个核心元素标签输入至中文预训练模型。
S530,对中文预训练模型的编码层模块、摘要层模块、分类层模块依次进行训练。
S540,返回S510,直至中文预训练模型基于每一个核心公告文本均训练过一次。
S550,对每一个核心公告文本重复多次训练过程,即对每一个核心公告文本反复执行S510至步骤S530,优化训练结果,最终生成中文预训练模型的模型参数。
具体地,重复训练是为了优化训练结果,重复训练次数越多,模型的准召率越高。
本实施例中,通过对中文预训练模型的编码层模块、摘要层模块、分类层模块依次进行训练,使得训练后的中文预训练模型实现句子间的高层语义表示的获取,且可以对高优先级文本内容的自动提取。
在本申请的一实施例中,所述步骤S530包括S531至S535:
S531,将所述核心公告文本中输入至中文预训练模型的编码层模块。所述核心公告文本包括文本字符、第一特殊字符和第二特殊字符。
具体地,编码层模块可以将核心公告文本的内容转化为模型可以识别的形式,即向量形式。
S532,驱动编码层模块对每一个字符进行字符编码的获取,生成每一个字符对应的第一向量。
具体地,字符编码又称为Token Embeddings。第一向量可以为一个512位的向量。第一向量可以随模型的下游模块的参数一起进行微调。
S533,驱动编码层模块对核心公告文本中的句子用第一段落编码和第二段落编码交替的方式进行标记。处于同一个句子中的不同字符具有相同的段落编码。进一步地,对每一个字符进行段落编码的获取,生成每一个字符对应的第二向量。
具体地,段落编码又称为Segment Embeddings。如图3所示,采用EA和EB交替的方式对所有句子进行标记。我的狗很可爱采用EA标记,它喜欢玩球采用EB标记,我喜欢和它一起玩采用EA标记。
S534,驱动编码层模块对核心公告文本中的每一个字符用不同的位置编码进行标记,对每一个字符进行位置编码的获取,生成每一个字符对应的第三向量。
具体地,位置编码又称为Position Embeddings。如果只用段落编码,模型在实际过程中只能识别一,三,五等单数序号句子和二,四,六双数序号句子的区别。本实施例在段落编码的基础上,还加入了位置编码,这样训练模型后,模型就可以输入多个句子形成的核心公告文本,并可以识别不同的句子。而原生的BERT模型只能一次输入单个句子进行识别。
S535,求取每一个字符对应的第一向量、第二向量和第三向量的向量和,生成每一个字符对应的编码向量和。
具体地,第一向量、第二向量和第三向量的维度相等。例如,第一向量是512位向量,那么第二向量和第三向量也是512位向量。
本实施例中,通过对中文预训练模型的编码层模块进行训练,使得模型可以一次性输入多个句子组成的核心公告文本,并且可以输出赋予了句子信息和位置信息的字符的以向量表示的形式。
在本申请的一实施例中,所述步骤S530还包括如下S536至S537:
S536,将所述核心公告文本中每一个字符对应的编码向量和输入至摘要层模块。将所述核心公告文本对应的核心元素标签输入至摘要层模块。
S537,对摘要层模块进行训练,获取摘要层模块输出的每一个字符对应的语义向量。
具体地,语义向量包含了每一个句子和其他句子的关联逻辑。
本实施例中,通过对模型中摘要层模块的训练,实现建立该核心公告文本中每一个句子和其他句子的关联逻辑,并通过语义向量表示。
在本申请的一实施例中,所述S530还包括如下S539a至S539f:
S539a,从多个语义向量中筛选出与第一特殊字符对应的语义向量。
S539b,选取一个与第一特殊字符对应的语义向量。
S539c,将所述与第一特殊字符对应的语义向量输入至中文预训练模型的分类层模块,驱动分类层模块基于公式1计算所述与第一特殊字符对应的语义向量的分类得分。
Figure BDA0002938423070000121
其中,f(X)为所述与第一特殊字符对应的语义向量的分类得分。X为所述与第一特殊字符对应的语义向量。
S539d,获取分类得分阈值。判断所述与第一特殊字符对应的语义向量的分类得分是否小于分类得分阈值。
S539e,若所述与第一特殊字符对应的语义向量的分类得分小于分类得分阈值,则将所述第一特殊字符归属的句子附加可删除标记。
S539f,返回选取一个与第一特殊字符对应的语义向量的步骤,直至所有与第一特殊字符对应的语义向量的分类得分均被计算完毕。
具体地,公式1是基于sigmoid函数生的公式。sigmoid函数是一个有着优美S形曲线的函数,在逻辑回归,人工神经网络领域中有着广泛的应用。经过公式1计算的分类得分在大于等于0且小于等于1的数值范围内。分类得分阈值可以设置为0.5。
举例说明,“[CLS]我的狗很可爱[SEP]”这个句子中,第一特殊字符CLS的义向量的分类得分为0.8,大于0.5,那么这个句子不会被附加可删除标记,代表在后续的摘要提取过程中会被保留并提取出来。反之,如果分类得分为0.3,小于0.5,那么这个句子会被附加可删除标记,代表在后续的摘要提取过程中这个句子会被删除。
本实施例中,通过二分类算法对每一个第一特殊字符对应的语义向量的分类得分进行计算,并将其与分类得分阈值进行比较,使得模型的分类层模块了得到训练,从而使得模型可以自动判断句子是否应该被抽取到最终的摘要文本中,实现了对高优先级文本内容的自动提取。
在本申请的一实施例中,在步骤S600中,将待提取公告进行所述预处理,生成待提取公告的公告文本与步骤S110至S150的原理一致。对所述待提取公告的公告文本进行所述核心元素的标注与步骤S220至S230的原理一致。粗召回处理与步骤S320的原理一致。对待提取公告的核心公告文本进行分句处理,并在每一个句子中***特殊标识符,与步骤S420的原理一致。
在本申请的一实施例中,在步骤S700中,将待提取公告的核心公告文本输入至中文预训练模型,驱动中文预训练模型将核心公告文本输入至中文预训练模型,获取中文预训练模型输出的每一个字符的语义向量,和步骤S531至S537的原理一致。
在本申请的一实施例中,在步骤S800中,从语义向量中筛选出与特征字符对应的语义向量,将每一个特殊字符的语义向量输入至中文预训练模型,驱动中文预训练模型基于二分类算法计算每一个语义向量的分类得分,和S539a至S539f的原理的原理一致。最终,,提取分类得分大于或等于分类得分阈值的语义向量对应的句子组成摘要文本,具体是通过删除具有可删除标记的句子来实现所需提取的句子的自动且快速的提取的。最终没有被删除的句子即保留下来,组成摘要文本,并执行后续步骤S900输出。
在本申请的一实施例中,在S900之前,所述金融公告的摘要提取方法还包括如下S851至S853:
S851,将摘要文本输入至中文预训练模型的摘要包装模块。
S852,驱动摘要包装模块对摘要文本进行遍历检索,对出现括号的文本位置和括号包含的文本内容使用括号标记进行标记。
S853,将具有括号标记的文本内容删除。
具体地,为了保证由抽取的句子构成的摘要文本内容的连贯性与可读性,需要对通过抽取句子组成的摘要文本做进一步的包装。本实施例介绍了一种包装方式,即去除具有括号的内容。
本实施例中,通过对出现括号的文本位置和括号包含的文本内容使用括号标记进行标记,并将具有括号标记的文本内容删除,提高了由抽取的句子构成的摘要文本内容的连贯性与可读性。
在本申请的一实施例中,在S853之后,所述金融公告的摘要提取方法还包括如下S861至S862:
S861,驱动摘要包装模块对摘要文本进行遍历检索,对出现金额单位的文本内容使用金额标记进行标记。
S862,将具有金额标记的文本内容中出现的所有金额单位统一为相同的金额单位。
具体地,本实施例介绍了另一种包装方式,即统一金额单位。例如,有些金融公告中提到的金额以“元”为单位,有些公告中提到的金额以“万元”或“亿元”为单位。本发明会根据金额数值大小自动适配成合理的金额单位,并保留数字到小数点后两位,更加便于摘要文本的阅读。
本实施例中,通过将摘要文本内容中出现的所有金额单位统一为相同的金额单位,提高了由抽取的句子构成的摘要文本内容的连贯性与可读性。
在本申请的一实施例中,在S862之后,所述金融公告的摘要提取方法还包括如下步骤:
S871,在所述摘要文本中添加预设电头,例如中证报讯。
本申请还提供一种摘要提取终端。
如图2所示,在本申请的一实施例中,所述摘要提取终端包括处理器10、中文预训练模型20和摘要包装模块30。所述中文预训练模型20与处理器10通信连接。所述摘要包装模块30与所述处理器10连接。所述中文预训练模型20包括编码层模块210、摘要层模块220和分类层模块230。所述处理器10用于执行前述内容提及的金融公告的的摘要提取方法。
为了行文简洁,前述提及的金融公告的的摘要提取方法中,凡是提及出现与本实施例中相同名称的装置和模块没有进行标号,仅在本实施例进行了标号。
本实施例中提供的摘要提取终端,采用大规模中文预训练模型中摘要层模块后接分类层模块的框架构建基于中文预训练模型的深度学习算法,在难以获取大量标注数据的情况下,利用少量标注数据保证了模型的准召率,同时避免了以往传统摘要提取算法中的大量的特征工程与规则设置工作,大大节约了人工成本。
以上所述实施例的各技术特征可以进行任意的组合,各方法步骤也并不做执行顺序的限制,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (13)

1.一种金融公告的摘要提取方法,其特征在于,所述方法包括:
获取多个原始金融公告;对每一个原始金融公告进行预处理,将每一个原始金融公告转化为公告文本;
对每一个公告文本进行核心元素的标注,生成多个核心元素标签;
对每一个公告文本进行粗召回处理,以压缩公告文本的内容,生成核心公告文本;
对每一个核心公告文本进行分句处理,在每一个句子中***特殊标识符;
将每一个核心公告文本,以及核心公告文本对应的核心元素标签作为模型训练的输入数据,对中文预训练模型进行预训练,以建立该核心公告文本中每一个句子和其他句子的关联逻辑,以及建立核心元素所在句子的识别逻辑,并将关联逻辑和识别逻辑赋予所述特殊标识符;
获取待提取公告,将待提取公告进行所述预处理,生成待提取公告的公告文本,对所述待提取公告的公告文本进行所述核心元素的标注和粗召回处理,生成待提取公告的核心公告文本,对待提取公告的核心公告文本进行分句处理,并在每一个句子中***特殊标识符;
将待提取公告的核心公告文本输入至中文预训练模型,驱动中文预训练模型将核心公告文本输入至中文预训练模型,获取中文预训练模型输出的每一个字符的语义向量;
从语义向量中筛选出与特征字符对应的语义向量,将每一个特殊字符的语义向量输入至中文预训练模型,驱动中文预训练模型基于二分类算法计算每一个语义向量的分类得分,提取分类得分大于或等于分类得分阈值的语义向量对应的句子组成摘要文本;
输出所述摘要文本。
2.根据权利要求1所述的金融公告的摘要提取方法,其特征在于,所述对每一个原始金融公告进行预处理,包括:
选取一个原始金融公告;
识别并去除原始金融公告中的多余字符;所述多余字符包括多余换行符、空格、乱码字符和不可见字符中的一种或多种;
识别并去除原始金融公告中的表格;
对原始金融公告进行文本转换,将原始金融公告转换为文本格式,生成公告文本;
返回选取一个原始金融公告的步骤,直至所有的原始金融公告均转换为公告文本。
3.根据权利要求2所述的金融公告的摘要提取方法,其特征在于,在对每一个公告文本进行核心元素的标注之前,所述方法还包括:
读取预设分类规则,基于预设分类规则,对多个公告文本进行分类。
4.根据权利要求3所述的金融公告的摘要提取方法,其特征在于,所述对每一个公告文本进行核心元素的标注,生成多个核心元素标签,包括:
选取一个公告文本;
读取所述公告文本的公告类型,并从数据库中读取与公告类型对应的多个核心元素;
搜寻所述公告文本中出现的与公告类型对应的核心元素,并标注核心元素所在的句子,生成多个核心元素标签;
返回选取一个公告文本的步骤,直至所有的公告文本均被标注完毕。
5.根据权利要求4所述的金融公告的摘要提取方法,其特征在于,所述对每一个公告文本进行粗召回处理,包括:
选取一个公告文本,
遍历无关字段库中的所有无关字段,去除所述公告文本中出现的无关字段所归属的句子,将剩余内容作为核心公告文本;
返回选取一个公告文本的步骤,直至所有的公告文本均进行过粗召回处理。
6.根据权利要求5所述的金融公告的摘要提取方法,其特征在于,所述对每一个核心公告文本进行分句处理,在每一个句子中***特殊标识符,包括:
选取一个核心公告文本;
对所述核心公告文本进行分句处理,得到多个句子,在每一个句子的句首添加一个第一特殊字符,在每一个句子的句尾添加一个第二特殊字符;
返回选取一个核心公告文本的步骤,直至所有核心公告文本均进行过分句处理。
7.根据权利要求6所述的金融公告的摘要提取方法,其特征在于,所述将每一个核心公告文本,以及核心公告文本对应的核心元素标签作为模型训练的输入数据,对中文预训练模型进行预训练,包括:
选取一个核心公告文本;
将所述核心公告文本输入至中文预训练模型,将所述核心公告文本对应的多个核心元素标签输入至中文预训练模型;
对中文预训练模型的编码层模块、摘要层模块、分类层模块依次进行训练;
返回所述选取一个核心公告文本的步骤,直至中文预训练模型基于每一个核心公告文本均训练过一次;
对每一个核心公告文本重复多次训练过程,优化训练结果,最终生成中文预训练模型的模型参数。
8.根据权利要求7所述的金融公告的摘要提取方法,其特征在于,对中文预训练模型的编码层模块、摘要层模块、分类层模块依次进行训练,包括:
将所述核心公告文本中输入至中文预训练模型的编码层模块;所述核心公告文本包括文本字符、第一特殊字符和第二特殊字符;
驱动编码层模块对每一个字符进行字符编码的获取,生成每一个字符对应的第一向量;
驱动编码层模块对核心公告文本中的句子用第一段落编码和第二段落编码交替的方式进行标记,处于同一个句子中的不同字符具有相同的段落编码,对每一个字符进行段落编码的获取,生成每一个字符对应的第二向量;
驱动编码层模块对核心公告文本中的每一个字符用不同的位置编码进行标记,对每一个字符进行位置编码的获取,生成每一个字符对应的第三向量;
求取每一个字符对应的第一向量、第二向量和第三向量的向量和,生成每一个字符对应的编码向量和。
9.根据权利要求8所述的金融公告的摘要提取方法,其特征在于,所述对中文预训练模型的编码层模块、摘要层模块、分类层模块依次进行训练,还包括:
将所述核心公告文本中每一个字符对应的编码向量和输入至摘要层模块,将所述核心公告文本对应的核心元素标签输入至摘要层模块;
对摘要层模块进行训练,获取摘要层模块输出的每一个字符对应的语义向量。
10.根据权利要求9所述的金融公告的摘要提取方法,其特征在于所述,对中文预训练模型的编码层模块、摘要层模块、分类层模块依次进行训练,还包括:
从多个语义向量中筛选出与第一特殊字符对应的语义向量;
选取一个与第一特殊字符对应的语义向量;
将所述与第一特殊字符对应的语义向量输入至中文预训练模型的分类层模块,驱动分类层模块基于公式1计算所述与第一特殊字符对应的语义向量的分类得分;
Figure FDA0002938423060000051
其中,f(X)为所述与第一特殊字符对应的语义向量的分类得分,X为所述与第一特殊字符对应的语义向量;
获取分类得分阈值,判断所述与第一特殊字符对应的语义向量的分类得分是否小于分类得分阈值;
若所述与第一特殊字符对应的语义向量的分类得分小于分类得分阈值,则将所述第一特殊字符归属的句子附加可删除标记;
返回选取一个与第一特殊字符对应的语义向量的步骤,直至所有与第一特殊字符对应的语义向量的分类得分均被计算完毕。
11.根据权利要求10所述的金融公告的摘要提取方法,其特征在于,在所述输出所述摘要文本之前,所述方法还包括:
将摘要文本输入至中文预训练模型的摘要包装模块;
驱动摘要包装模块对摘要文本进行遍历检索,对出现括号的文本位置和括号包含的文本内容使用括号标记进行标记;
将具有括号标记的文本内容删除。
12.根据权利要求11所述的金融公告的摘要提取方法,其特征在于,在所述将具有括号标记的文本内容删除之后,所述方法还包括:
驱动摘要包装模块对摘要文本进行遍历检索,对出现金额单位的文本内容使用金额标记进行标记;
将具有金额标记的文本内容中出现的所有金额单位统一为相同的金额单位。
13.一种摘要提取终端,其特征在于,包括:
处理器,用于执行权利要求1-12中任意一项的金融公告的摘要提取方法;
中文预训练模型,与所述处理器连接,所述中文预训练模型包括编码层模块、摘要层模块分类层模块;
摘要包装模块,与所述处理器连接。
CN202110169301.7A 2021-02-07 2021-02-07 金融公告的摘要提取方法与摘要提取终端 Pending CN112784585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110169301.7A CN112784585A (zh) 2021-02-07 2021-02-07 金融公告的摘要提取方法与摘要提取终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110169301.7A CN112784585A (zh) 2021-02-07 2021-02-07 金融公告的摘要提取方法与摘要提取终端

Publications (1)

Publication Number Publication Date
CN112784585A true CN112784585A (zh) 2021-05-11

Family

ID=75761182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110169301.7A Pending CN112784585A (zh) 2021-02-07 2021-02-07 金融公告的摘要提取方法与摘要提取终端

Country Status (1)

Country Link
CN (1) CN112784585A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186043A (zh) * 2021-12-10 2022-03-15 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质
CN115329756A (zh) * 2021-10-21 2022-11-11 盐城金堤科技有限公司 执行主体的提取方法、装置、存储介质和电子设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189089A (ja) * 2015-03-30 2016-11-04 日本電気株式会社 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
JP2019016181A (ja) * 2017-07-07 2019-01-31 株式会社野村総合研究所 テキスト要約システム
CN109657053A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及***
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN110134781A (zh) * 2019-04-09 2019-08-16 国金涌富资产管理有限公司 一种金融文本摘要自动抽取方法
CN110674296A (zh) * 2019-09-17 2020-01-10 上海仪电(集团)有限公司中央研究院 一种基于关键词的资讯摘要提取方法及***
CN110956041A (zh) * 2019-11-27 2020-04-03 重庆邮电大学 一种基于深度学习的并购重组公告摘要方法
CN111177366A (zh) * 2019-12-30 2020-05-19 北京航空航天大学 一种基于查询机制的抽取式文档摘要自动生成方法、装置及***
CN111552800A (zh) * 2020-03-31 2020-08-18 深圳壹账通智能科技有限公司 摘要生成方法、装置、电子设备及介质
CN111651589A (zh) * 2020-08-10 2020-09-11 中南民族大学 一种针对长文档的两阶段文本摘要生成方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189089A (ja) * 2015-03-30 2016-11-04 日本電気株式会社 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
JP2019016181A (ja) * 2017-07-07 2019-01-31 株式会社野村総合研究所 テキスト要約システム
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN109657053A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 多文本摘要生成方法、装置、服务器及存储介质
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及***
CN110134781A (zh) * 2019-04-09 2019-08-16 国金涌富资产管理有限公司 一种金融文本摘要自动抽取方法
CN110674296A (zh) * 2019-09-17 2020-01-10 上海仪电(集团)有限公司中央研究院 一种基于关键词的资讯摘要提取方法及***
CN110956041A (zh) * 2019-11-27 2020-04-03 重庆邮电大学 一种基于深度学习的并购重组公告摘要方法
CN111177366A (zh) * 2019-12-30 2020-05-19 北京航空航天大学 一种基于查询机制的抽取式文档摘要自动生成方法、装置及***
CN111552800A (zh) * 2020-03-31 2020-08-18 深圳壹账通智能科技有限公司 摘要生成方法、装置、电子设备及介质
CN111651589A (zh) * 2020-08-10 2020-09-11 中南民族大学 一种针对长文档的两阶段文本摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG LIU, MIRELLA LAPATA: "Text Summarization with Pretrained Encoders", PROCEEDINGS OF THE 2019 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND THE 9TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING, pages 3730 *
YANG LIU: "Fine-tune BERT for Extractive Summarization", ARXIV, pages 1 - 2 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329756A (zh) * 2021-10-21 2022-11-11 盐城金堤科技有限公司 执行主体的提取方法、装置、存储介质和电子设备
CN114186043A (zh) * 2021-12-10 2022-03-15 北京三快在线科技有限公司 预训练方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN109685056B (zh) 获取文档信息的方法及装置
CN111222305A (zh) 一种信息结构化方法和装置
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN112417891B (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN112784585A (zh) 金融公告的摘要提取方法与摘要提取终端
CN115759119B (zh) 一种金融文本情感分析方法、***、介质和设备
CN111143505A (zh) 文档处理方法、装置、介质及电子设备
CN116304023A (zh) 一种基于nlp技术的招投标要素抽取方法、***及存储介质
CN112818117A (zh) 标签映射方法、***、计算机可读存储介质
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN113051380A (zh) 信息生成方法、装置、电子设备和存储介质
CN115953788A (zh) 基于ocr和nlp技术的绿色金融属性智能认定方法及***
CN115687621A (zh) 一种短文本标签标注方法及装置
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及***
CN114528418A (zh) 一种文本处理方法、***和存储介质
CN114547232A (zh) 一种低标注成本的嵌套实体识别方法及***
US11880394B2 (en) System and method for machine learning architecture for interdependence detection
CN113515587A (zh) 一种标的物信息提取方法、装置、计算机设备及存储介质
WO2020111074A1 (ja) メール分類装置、メール分類方法、およびコンピュータプログラム
CN117077682A (zh) 基于语义识别的公文分析方法及***
CN115496830A (zh) 产品需求流程图的生成方法及装置
CN115759078A (zh) 文本信息的处理方法、***、设备及存储介质
CN114419645A (zh) 一种基于ai的合同智能解析方法
CN114036953A (zh) 一种基于先验知识的金融领域实体及意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination