CN117591666B

CN117591666B - 针对桥梁管养文档的摘要抽取方法

Info

Publication number: CN117591666B
Application number: CN202410073751.XA
Authority: CN
Inventors: 杨雷; 韦韩; 张劲泉; 程寿山; 刘立权; 郝朝伟
Original assignee: Research Institute of Highway Ministry of Transport
Current assignee: Research Institute of Highway Ministry of Transport
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-05-10
Anticipated expiration: 2044-01-18
Also published as: CN117591666A

Abstract

本申请提供一种针对桥梁管养文档的摘要抽取方法，其包括：对桥梁管养文档样本进行分句得到若干个桥梁管养样本分句；从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签；基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成；基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本，从而提高了生成的摘要的准确度。

Description

针对桥梁管养文档的摘要抽取方法

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种针对桥梁管养文档的摘要抽取方法。

背景技术

近几年来，桥梁管养行业经历了快速发展，在管养理论和实践应用方面取得了重大突破，在此过程中积累了大量的桥梁管养文档，包括管养项目建设和管养规章制度等方面的内容。然而，这些文档往往篇幅较长，缺乏摘要等核心要素，导致相关人员在阅读、理解、学习和利用文档时效率较低，无法快速获取文档的核心内容。同时，由于缺乏简明的可以准确概括文档核心内容的摘要，相关人员只能以项目方式分类管理文档，难以通过摘要等核心要素实现跨项目的文档汇总管理，从而导致具有共性的项目经验无法有效共享。

为此，现有技术中出现了基于桥梁管养文档进行摘要抽取的技术，便于管养从业人员高效理解和掌握文档的核心内容以及实现跨项目的文档汇总管理，其技术实现思路是直接利用传统的BERT（Bidirectional Encoder Representations from Transformers）架构对文档进行抽取，没有针对桥梁管养文档的单句和整个文档的针对性优化措施，且对于抽取出的句子主要依赖于模型得分，没有探索机制，使得生成的摘要准确性和丰富性较差。

发明内容

本申请的目的在于提出一种针对桥梁管养文档的摘要抽取方法，用于解决或者克服现有技术中存在的上述技术问题。

一种针对桥梁管养文档的摘要抽取方法，其包括：

对桥梁管养文档样本进行分句得到若干个桥梁管养样本分句；

从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签；

基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成；

基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本。

可选地，所述从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签，包括：

根据所述若干条备选语句在所述桥梁管养文档样本的顺序，对所述若干条备选语句进行组合，以生成样本摘要；

确定所述样本摘要中表征所述桥梁管养文档样本中重要内容的程度的若干条备选语句，并分别计算其重要性概率，以作为摘要抽取模型训练用的标签。

可选地，所述计算其重要性概率，以作为摘要抽取模型训练用的标签，包括：

根据代表所述桥梁管养文档样本中重要内容的程度，重新对所述若干条备选语句进行排序，并分配重要性排序值；

根据每条备选语句的重要性排序值，计算其重要性概率，以作为摘要抽取模型训练用的标签。

可选地，基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成，包括如下步骤：

摘要抽取模型对所述桥梁管养文档样本进行向量处理分别得到样本文档语义向量以及每个桥梁管养样本分句对应的样本单句语义向量；

摘要抽取模型训练过程中基于所述样本文档语义向量和所述样本单句语义向量，计算所述每个桥梁管养样本分句的重要性概率值；

根据所述重要性概率值和所述标签，对所述摘要抽取模型训练，直至训练完成。

可选地，所述摘要抽取模型训练过程中基于所述样本文档语义向量和所述样本单句语义向量，计算所述每个桥梁管养样本分句的重要性概率值，包括：

所述摘要抽取模型训练过程中对所述样本文档语义向量和所述样本单句语义向量进行特征融合得到融合特征向量样本；

基于所述融合特征向量样本计算所述每个桥梁管养样本分句的重要性概率值。

可选地，所述摘要抽取模型训练过程中对所述样本文档语义向量和所述样本单句语义向量进行特征融合得到融合特征向量样本，包括: 所述摘要抽取模型训练过程中对所述样本文档语义向量和所述样本单句语义向量进行拼接处理以进行特征融合并得到融合特征向量样本。

可选地，所述根据所述重要性概率值和所述标签，对所述摘要抽取模型训练，直至训练完成，包括：

根据所述每个桥梁管养样本分句的重要性概率值以及所述标签，计算交叉熵损失值，以对所述摘要抽取模型训练，直至训练完成。

可选地，所述摘要抽取模型包括第一向量化模型、第二向量化模型、特征融合模型，所述第一向量化模型已冻结，所述第二向量化模型、所述特征融合模型具有可调的网络参数；

基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成，包括：

基于所述第一向量化模型对所述桥梁管养文档样本进行第一向量化处理得到样本文档语义向量；

基于所述第二向量化模型对所述桥梁管养文档样本进行第二向量化处理得到每个桥梁管养样本分句对应的样本单句语义向量；

基于所述特征融合模型对所述样本文档语义向量和所述样本单句语义向量进行融合得到融合特征向量样本，并基于所述融合特征向量样本预测所述每个桥梁管养样本分句的重要性概率值；

根据所述每个桥梁管养样本分句的重要性概率值以及所述标签，计算交叉熵损失值，以调整所述第二向量化模型、特征融合模型中至少其一中的参数，直至完成所述第二向量化模型、特征融合模型的训练。

可选地，所述基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本，包括：

将待处理桥梁管养文档输入到训练完成的第一向量化模型进行向量化得到样本文档语义向量；

基于训练完成的第二向量化模型对所述待处理桥梁管养文档进行向量化处理得到所述待处理桥梁管养文档中每条桥梁管养分句对应的样本单句语义向量；

基于训练完成的特征融合模型对所述样本文档语义向量和所述样本单句语义向量进行融合得到融合特征向量，以确定每条桥梁管养分句能作为摘要语句的得分；

根据所述得分的大小，从所有的桥梁管养分句中筛选出部分以形成所述待处理桥梁管养文档的摘要文本。

可选地，所述的方法还包括：针对所述若干个桥梁管养样本分句中未被筛选出的语句，计算其重要性概率，以作为摘要抽取模型训练用的标签。

本申请中提供的技术方案中，通过对桥梁管养文档样本进行分句得到若干个桥梁管养样本分句；从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签；基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成；基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本，从而提高了生成的摘要的准确度。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为本申请实施例一种针对桥梁管养文档的摘要抽取方法流程示意图。

图2为本申请实施例步骤S102的流程示意图。

图3为本申请实施例步骤S103的流程示意图。

图4为本申请实施例步骤S104的流程示意图。

图5为本申请实施例一种针对桥梁管养文档的摘要抽取装置的结构示意图。

图6为本申请实施例一种电子设备的结构示意图。

实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

本申请中提供的技术方案中，通过对桥梁管养文档样本进行分句得到若干个桥梁管养样本分句；从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签；基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成；基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本，从而提高了生成的摘要的准确性。

图1为本申请实施例一种针对桥梁管养文档的摘要抽取方法流程示意图。如图1所示，其包括如下步骤S101-S104：

S101、对桥梁管养文档样本进行分句得到若干个桥梁管养样本分句；

S102、从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签；

S103、基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成；

S104、基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本。

本实施例中，通过从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签，从而使得摘要抽取模型能够学习到整体文档的特征和文档中单个语句的特征，从而在针对待处理桥梁管养文档进行摘要抽取时，可以兼并考虑整体文档的特征和文档中单个语句的特征，从而提高了语句抽取的准确率，保证了抽取出的语句是最能体现文档内容的重要信息，由此保证了基于抽取出的语句形成的摘要能准确的反应待处理桥梁管养文档的核心内容。

可选地，上述步骤S101中，可以基于训练好的分句模型进行分句，再通过专家校验进行复核，从而保证桥梁管养样本分句的准确度。

可选地，桥梁管养文档样本的来源和类型不做唯一性限定。比如可以是管养项目建设和管养规章制度中至少其一。桥梁管养文档样本比如存储在一数据库中。

可选地，在上述图1实施例中，图2为本申请实施例步骤S102的流程示意图。如图2所示，所述步骤S102中，从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签，包括：

S112、根据所述若干条备选语句在所述桥梁管养文档样本的顺序，对所述若干条备选语句进行组合，以生成样本摘要；

S122、确定所述样本摘要中表征所述桥梁管养文档样本中重要内容的程度的若干条备选语句，并分别计算其重要性概率，以作为摘要抽取模型训练用的标签。

S1221、根据代表所述桥梁管养文档样本中重要内容的程度，重新对所述若干条备选语句进行排序，并分配重要性排序值；

S1222、根据每条备选语句的重要性排序值，计算其重要性概率，以作为摘要抽取模型训练用的标签。

比如所述备选语句的数量记为k，则，基于如下公式（1），根据每条备选语句的重要性排序值，计算其重要性概率。

表示第i个备选语句的重要性概率，/>表示第i个备选语句，/>表示所有桥梁管养样本分句的数量，/>表示第i个备选语句的重要性排序值，0<=i<=k。

比如，在一具体应用场景中，基于上述公式（1）计算重要性概率如下：

针对某桥梁管养文档样本，其经过分句后得到100个桥梁管养样本分句，即=100。假如指定要选取其中的10个桥梁管养样本分句作为备选语句以形成样本摘要，即k=10。根据能表征所述桥梁管养文档样本中重要内容的程度，从中筛选出10个最重要的桥梁管养样本分句作为备选语句，依据这10个备选语句在所述桥梁管养文档样本中的顺序组成样本摘要。再通过执行S1221重新对所述若干条备选语句进行排序，并分配重要性排序值，比如排序第一的备选语句的重要性计算为例，通过公式（1），1-1/100得到重要性概率为0.99。

此外，所述的方法还可以包括：针对所述若干个桥梁管养样本分句中未被筛选出的语句，计算其重要性概率，以作为摘要抽取模型训练用的标签。

针对未被筛选出的语句，计算其重要性概率的原理类似上述针对备选语句的情形，在此不再赘述。

在一具体场景中，比如直接用的值作为对应的重要性概率。此处，针对未被筛选出的语句，计算其重要性概率的具体方法仅仅是示例。

应用到上述针对备选语句重要性概率的场景中，直接用的值即为0.01，该0.01作为每个未被筛选出的语句对应的重要性概率。

可选地，在步骤S103中，图3为本申请实施例步骤S103的流程示意图。如图3所示，基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成，包括如下步骤：

S113、摘要抽取模型对所述桥梁管养文档样本进行向量处理分别得到样本文档语义向量以及每个桥梁管养样本分句对应的样本单句语义向量；

S123、摘要抽取模型训练过程中基于所述样本文档语义向量和所述样本单句语义向量，计算所述每个桥梁管养样本分句的重要性概率值；

S133、根据所述重要性概率值和所述标签，对所述摘要抽取模型训练，直至训练完成。

可选地，所述S123中，摘要抽取模型训练过程中基于所述样本文档语义向量和所述样本单句语义向量，计算所述每个桥梁管养样本分句的重要性概率值，包括：

S1231、所述摘要抽取模型训练过程中对所述样本文档语义向量和所述样本单句语义向量进行特征融合得到融合特征向量样本；

S1232、基于所述融合特征向量样本计算所述每个桥梁管养样本分句的重要性概率值。

可选地，所述步骤S1231中，摘要抽取模型训练过程中对所述样本文档语义向量和所述样本单句语义向量进行特征融合得到融合特征向量样本，包括: 所述摘要抽取模型训练过程中对所述样本文档语义向量和所述样本单句语义向量进行拼接处理以进行特征融合并得到融合特征向量样本。

可选地，所述步骤S133，根据所述重要性概率值和所述标签，对所述摘要抽取模型训练，直至训练完成，包括：根据所述每个桥梁管养样本分句的重要性概率值以及所述标签，计算交叉熵损失值，以对所述摘要抽取模型训练，直至训练完成。

可选地，所述摘要抽取模型包括第一向量化模型、第二向量化模型、特征融合模型，所述第一向量化模型已冻结，所述第二向量化模型、所述特征融合模型具有可调的网络参数。

为此，基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成，包括：

基于所述特征融合模型对所述样本文档语义向量和所述样本单句语义向量进行融合得到融合特征向量样本，并基于所述融合特征向量样本计算所述每个桥梁管养样本分句的重要性概率值；

上述对所述桥梁管养文档样本进行向量处理得到样本文档语义向量，在向量处理时进行稠密处理，使得该样本文档语义向量的维度较小，从而减少数据量，节省存储空间。比如，第一向量化模型比如可以为Text2Vec模型（具体可为shibing624/text2vec-base-chinese模型），从而使得样本文档语义向量的维度为768维。

上述实施例中，对所述桥梁管养文档样本进行第二向量化处理得到每个桥梁管养样本分句对应的样本单句语义向量，比如可以包括：

对每条桥梁管养样本分句进行分字，并在该桥梁管养样本分句的开头加上前缀比如记为[CLS]，在该桥梁管养样本分句的结尾加上后缀比如记为[SEP]，从而将每条桥梁管养样本分句转换成所述第二向量化模型的输入，以实现以分句的形式输入到所述第二向量化模型中，使其对所述桥梁管养文档样本进行第二向量化处理得到每个桥梁管养样本分句对应的样本单句语义向量，比如该样本单句语义向量的维度也为768维。

示例性地，第二向量化模型可以选用BERT模型，将所述第二向量化模型的输入传入BERT后得到前缀[CLS]对应位置的BERT输出，即每个桥梁管养样本分句对应的样本单句语义向量。

示例性地，比如对所述样本文档语义向量和所述样本单句语义向量进行融合得到融合特征向量样本，比如可以对每个样本单句语义向量中的每维数值与设定的对应维度的第一权重参数进行相乘得到待融合样本单句语义向量，以及对样本文档语义向量中的每维数值与设定的对应维度的第二权重参数进行相乘，得到待融合样本文档语义向量；将每个待融合样本单句语义向量与所述待融合样本文档语义向量进行拼接，以得到融合特征向量样本。

上述实施例中，第一权重参数和第二权重参数的大小可以反映对单句语义和文档语义在融合过程中的重要程度，以及对不同维度语义信息的关注程度。较大的权重参数会使得对应的语义信息在融合后的特征向量中占据更大的比重，而较小的权重参数则会使得对应的语义信息在融合后的特征向量中占据更小的比重。

为此，通过对样本文档语义向量和样本单句语义向量进行融合，可以将文档整体语义信息和单句语义信息相结合，从而得到更加全面和准确的特征表示。这有助于提高对文档语义的理解和表达能力。再通过设定对应维度的第一权重参数和第二权重参数，可以对样本单句语义向量和样本文档语义向量进行加权处理，从而在融合过程中对不同维度的语义信息进行灵活控制。这有助于根据实际需求调整不同维度的语义信息对融合特征的影响程度。最后，将每个待融合样本单句语义向量与待融合样本文档语义向量进行拼接，可以将单句语义信息和文档语义信息有机地结合在一起，形成融合特征向量样本。这有助于保留原始语义信息的丰富性，并且能够更好地反映文档的整体语义特征，从而可以更好地表达文档的语义信息，包括单句语义和文档整体语义的综合特征，提高了文档表示的能力，提供了更加准确和全面的特征表示。

上述实施例中，比如，在对所述样本文档语义向量和所述样本单句语义向量利用注意力模块进行融合得到融合特征向量样本时，对所述样本文档语义向量和所述样本单句语义向量进行拼接处理以进行特征融合并得到融合特征向量样本。比如，样本文档语义向量的维度为768维，样本单句语义向量也为768维，则注意力模块分别对每个样本单句语义向量与样本文档语义向量中的每维数值与对应维度的权重参数相乘后，将每个样本单句语义向量与样本文档语义向量拼接后得到的融合特征向量样本为1536维，其中包括了3072（1536*2）个注意力模块引入的权重参数，这些参数在后续模型训练时通过反向传播训练得到。

在具体实施时，特征融合模型比如包括四层全连接神经网络，第一层全连接神经网络包含1536个神经元，用于接收1536维的融合特征向量样本；第二层包含500个神经元，激活函数为ReLu，用于增加神经网络的非线性程度以提升模型效果；第三层包含100个神经元，激活函数为ReLu，用于增加神经网络的非线性程度以提升模型效果；第四层为输出层，包含1个神经元，激活函数为Sigmoid，用于将神经元的值映射成0-1之间的概率值；第二和第三层中均包含dropout rate为0.1的Dropout层，用于缓解模型的过拟合问题。

该融合特征向量样本输入到第一层中，每个维度输入到对应的一个神经元中；然后进入第二层以从1536维映射到500维，以对融合特征向量样本进行降维，并在此层中加入dropout层随机丢去10%的神经元；然后经过第三层以从500为映射到100维，以对融合特征向量样本进行再次降维，并在此层中加入dropout层随机丢去10%的神经元；之后对100维向量利用ReLu进行激活；最后输入到输出层以从100维映射到1维，并利用Sigmoid函数将该1维数据变换成0到1之间的概率值，以表示其重要性概率。另外再设置一个重要性概率阈值，比如为0.5，如果重要性概率大于等于0.5则表示融合特征向量样本对应的备选语句可以构成样本摘要，如果小于0.5则表示融合特征向量样本对应的备选语句不能参与样本摘要的构建。

可选地，图4为本申请实施例步骤S104的流程示意图。如图4所示，所述步骤S104中基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本，包括：

S114、将待处理桥梁管养文档输入到训练完成的第一向量化模型进行向量化得到样本文档语义向量；

S124、基于训练完成的第二向量化模型对所述待处理桥梁管养文档进行向量化处理得到所述待处理桥梁管养文档中每条桥梁管养分句对应的样本单句语义向量；

S134、基于训练完成的特征融合模型对所述样本文档语义向量和所述样本单句语义向量进行融合得到融合特征向量，以确定每条桥梁管养分句能作为摘要语句的得分；

S144、根据所述得分的大小，从所有的桥梁管养分句中筛选出部分分句以形成所述待处理桥梁管养文档的摘要文本。

可选地，基于筛选出的桥梁管养分句，以在形成所述待处理桥梁管养文档的摘要文本时，根据筛选出的桥梁管养分句在所述待处理桥梁管养文档的顺序，对筛选出的桥梁管养分句进行组合，从而形成摘要文本。

可选地，本实施例中，步骤S144中，根据所述得分的大小，从所有的桥梁管养分句中筛选出部分分句以形成所述待处理桥梁管养文档的摘要文本，包括：

根据所述得分，从所有的桥梁管养分句从筛选出前m个桥梁管养分句；

固定所述前m个桥梁管养分句中的前m/2个桥梁管养分句，并基于设定的探索分句数n，确定后m/2个桥梁管养分句加上其后的n个桥梁管养分句；

计算所述后m/2个桥梁管养分句加上其后的n个桥梁管养分句的探索性得分；

根据所述探索性得分，从所述后m/2个桥梁管养分句加上其后的n个桥梁管养分句中筛选出探索性得分排序较大的m/2个桥梁管养分句，以与所述前m/2个桥梁管养分句组成筛选出的桥梁管养分句，以形成所述待处理桥梁管养文档的摘要文本。

可选地，根据所述得分，从所有的桥梁管养分句从筛选出前m个桥梁管养分句，包括：

计算每个桥梁管养分句与所述待处理桥梁管养文档的相似度；

根据所述相似度与该每个桥梁管养分句的得分，得到综合排序得分；

根据所述综合排序得分从大到小，从所有的桥梁管养分句从筛选出前m个桥梁管养分句。

可选地，所述相似度比如为余弦相似度。此处仅仅是相似度的示例，并非唯一性限定。

可选地，计算所述后m/2个桥梁管养分句加上其后的n个桥梁管养分句的探索性得分，包括：

所述后m/2个桥梁管养分句加上其后的n个桥梁管养分句中每个分句对应的所述得分与设定的随机概率序列进行乘积，得到所述后m/2个桥梁管养分句加上其后的n个桥梁管养分句的探索性得分。

可选地，随机概率序列比如可以为m/2+n个0-1之间的概率序列，从而增加了随机的扰动，从而实现了所述得分较小的桥梁管养分句也可以参与到摘要文本的生成，增加了选取摘要句子的丰富性。

上述实施例中，m，n为正整数。

比如，在一具体场景中，m=10, n=6，选取得分排名前16位的桥梁管养分句，首先分别计算这16个桥梁管养分句分别与待处理桥梁管养文档的余弦相似度，然后将16个余弦相似度分别与对应桥梁管养分句的得分相乘得到16个综合排序评分，组成16维向量。再根据16维向量中综合排序评分由高到低排序，固定其中前5个（10/2）桥梁管养分句，取出后11（(10/2)+6）个桥梁管养分句的得分形成11维得分向量。另外通过随机初始化一个11维、且每个元素取值为0-1之间的11维随机概率向量作为随机概率序列，将这11维随机概率向量与11维得分向量相乘，得到11个加入了探索机制的探索性得分组成的11维探索得分向量。再将这个探索性向量中的元素由高到低排序，取出前5个探索性得分高的元素，找到他们对应的5个桥梁管养分句，该5个桥梁管养分句和所述前5个（10/2）桥梁管养分句共计10个桥梁管养分句组成筛选出的桥梁管养分句以构成摘要分句集合，在待处理桥梁管养文档中找到这10个桥梁管养分句的顺序，按照该顺序对该10个桥梁管养分句进行组合，从而得到摘要文本。

图5为本申请实施例一种针对桥梁管养文档的摘要抽取装置的结构示意图。本实施例中，在对桥梁管养文档样本进行分句得到若干个桥梁管养样本分句以及从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签的情形下，如图5所示，所述针对桥梁管养文档的摘要抽取装置包括：

第一单元501，用于基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成；

第二单元502，用于基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本。

第一单元和第二单元的实现不做限定，具体根据应用场景来实现。

可选地，第一单元在基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成时，可以具体包括如下步骤：

摘要抽取模型训练过程中基于所述样本文档语义向量和所述样本单句语义向量，预测所述每个桥梁管养样本分句的重要性概率值；

可选地，所述第一单元在摘要抽取模型训练过程中基于所述样本文档语义向量和所述样本单句语义向量，计算所述每个桥梁管养样本分句的重要性概率值时，执行如下步骤：

可选地，所述第一单元在摘要抽取模型训练过程中对所述样本文档语义向量和所述样本单句语义向量进行特征融合得到融合特征向量样本时，可以执行如下步骤: 所述摘要抽取模型训练过程中对所述样本文档语义向量和所述样本单句语义向量进行拼接处理以进行特征融合并得到融合特征向量样本。

可选地，所述第一单元在根据所述重要性概率值和所述标签，对所述摘要抽取模型训练，直至训练完成时，可以执行如下步骤：

可选地，所述第一单元在基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成时，执行如下步骤：

可选地，所述第二单元在基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本时，执行如下步骤：

根据所述每个桥梁管养样本分句的重要性概率值以及所述标签，计算交叉熵损失值的方式不做限定。

在调整所述第二向量化模型、特征融合模型时，比如可以基于反向传播求梯度来优化迭代模型的参数。

图6为本申请实施例一种电子设备的结构示意图。如图6所示，其存储器601以及处理器602，所述存储器上存储有计算机可执行程序，在对桥梁管养文档样本进行分句得到若干个桥梁管养样本分句以及从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签之后，所述计算机可执行程序被所述处理器运行时，执行本申请上述任一实施例的方法。

上述实施例中的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是，但不限于，随机存取存储介质（Random Access Memory，RAM），只读存储介质（Read Only Memory，ROM），可编程只读存储介质（Programmable Read-OnlyMemory，PROM），可擦除只读存储介质（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储介质（Electric Erasable Programmable Read-Only Memory，EEPROM）等。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元（CPU）执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质（RAM）、只读存储介质（ROM）、可擦式可编程只读存储介质（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储介质（CD-ROM）、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行***、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如，第一用户设备和第二用户设备表示不同的用户设备，虽然两者均是用户设备。例如，在不背离本公开的范围的前提下，第一元件可称作第二元件，类似地，第二元件可称作第一元件。

当一个元件(例如，第一元件)称为与另一元件(例如，第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如，第二元件)或“连接至”另一元件(例如，第二元件)时，应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如，第三元件)间接连接至该另一个元件。相反，可理解，当元件(例如，第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时，则没有元件(例如，第三元件)***在这两者之间。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种针对桥梁管养文档的摘要抽取方法，其特征在于，包括：

基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本；

其中，所述基于训练完成的摘要抽取模型对待处理桥梁管养文档进行语句抽取，以生成对应的摘要文本，包括：

根据所述得分的大小，从所有的桥梁管养分句中筛选出部分以形成所述待处理桥梁管养文档的摘要文本；

其中，根据所述得分的大小，从所有的桥梁管养分句中筛选出部分分句以形成所述待处理桥梁管养文档的摘要文本，包括：

固定所述前m个桥梁管养分句中的前m/2个桥梁管养分句，并基于设定的探索分句数，确定后m/2个桥梁管养分句加上其后的n个桥梁管养分句；

根据所述探索性得分，从所述后m/2个桥梁管养分句加上其后的n个桥梁管养分句中筛选出探索性得分排序前m/2个桥梁管养分句，以与所述前m/2个桥梁管养分句组成筛选出的桥梁管养分句，以形成所述待处理桥梁管养文档的摘要文本；

其中，计算所述后m/2个桥梁管养分句加上其后的n个桥梁管养分句的探索性得分，包括：所述后m/2个桥梁管养分句加上其后的n个桥梁管养分句中每个分句对应的所述得分与设定的随机概率序列进行乘积，得到所述后m/2个桥梁管养分句加上其后的n个桥梁管养分句的探索性得分，随机概率序列为m/2+n个0-1之间的概率序列。

2.根据权利要求1所述的方法，其特征在于，所述从所述若干个桥梁管养样本分句筛选出能构成样本摘要的若干条备选语句，并计算其重要性概率，以作为摘要抽取模型训练用的标签，包括：

3.根据权利要求2所述的方法，其特征在于，所述计算其重要性概率，以作为摘要抽取模型训练用的标签，包括：

4.根据权利要求1所述的方法，其特征在于，基于所述桥梁管养文档样本和所述标签，对所述摘要抽取模型训练，直至训练完成，包括如下步骤：

5.根据权利要求4所述的方法，其特征在于，所述摘要抽取模型训练过程中基于所述样本文档语义向量和所述样本单句语义向量，计算所述每个桥梁管养样本分句的重要性概率值，包括：

6.根据权利要求5所述的方法，其特征在于，所述摘要抽取模型训练过程中对所述样本文档语义向量和所述样本单句语义向量进行特征融合得到融合特征向量样本，包括: 所述摘要抽取模型训练过程中对所述样本文档语义向量和所述样本单句语义向量进行拼接处理以进行特征融合并得到融合特征向量样本。

7.根据权利要求6所述的方法，其特征在于，所述根据所述重要性概率值和所述标签，对所述摘要抽取模型训练，直至训练完成，包括：

8.根据权利要求1所述的方法，其特征在于，所述摘要抽取模型包括第一向量化模型、第二向量化模型、特征融合模型，所述第一向量化模型已冻结，所述第二向量化模型、所述特征融合模型具有可调的网络参数；

9.根据权利要求1所述的方法，其特征在于，所述的方法还包括：针对所述若干个桥梁管养样本分句中未被筛选出的语句，计算其重要性概率，以作为摘要抽取模型训练用的标签。