CN113935328A - 文本摘要生成方法、装置、电子设备及存储介质 - Google Patents

文本摘要生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113935328A
CN113935328A CN202111222471.3A CN202111222471A CN113935328A CN 113935328 A CN113935328 A CN 113935328A CN 202111222471 A CN202111222471 A CN 202111222471A CN 113935328 A CN113935328 A CN 113935328A
Authority
CN
China
Prior art keywords
text
named entity
corpus
training
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111222471.3A
Other languages
English (en)
Inventor
莫智文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202111222471.3A priority Critical patent/CN113935328A/zh
Publication of CN113935328A publication Critical patent/CN113935328A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种文本摘要生成方法、装置、电子设备及存储介质,提取语料文本中的第一命名实体,从而基于语料文本及第一命名实体生成训练文本并基于多个训练文本训练BERT模型,通过训练得到的BERT模型输出预测文本摘要,在获取预测文本摘要中的第二命名实体之后,根据第一命名实体、预测文本摘要及第二命名实体生成整体风险损失值,从而基于整体风险损失值优化所述BERT模型,得到文本摘要生成模型,最后使用文本摘要生成模型生成目标文本的文本摘要。本发明通过引入命名实体训练BERT模型,再通过BERT模型预测文本摘要,提高了文本摘要中命名实体的准确度,从而减少了文本摘要中命名实体错误的情况,提高了生成文本摘要的准确度。

Description

文本摘要生成方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种文本摘要生成方法、装置、电子设备及存储介质。
背景技术
文本摘要是指从一段长文本中选出重要信息,重新组成一段新的短文本,两段文本的语义相同,用更少的字表达类似的内容。在信息***的环境中可以帮助人们迅速了解整篇文章的内容,而不必阅读大量的文字。
发明人在实现本发明的过程中发现,现有的文本摘要生成方法主要是利用预训练的语言模型,如RoBerta2RoBerta、BART、Pegasus等,但此类预训练语言模型使用公开的语料训练得到,公开的语料包含专有领域信息较少(如医疗),导致其难以正确生成专有领域内的专有名词(命名实体),从而使得生成的文本摘要中的命名实体常常出现错误,生成的文本摘要的准确度较低。
发明内容
鉴于以上内容,有必要提出一种文本摘要生成方法、装置、电子设备及存储介质,通过引入命名实体,以减少生成的文本摘要中命名实体错误的情况,提高了生成文本摘要的准确度。
本发明的第一方面提供一种文本摘要生成方法,所述方法包括:
获取多个语料文本,并提取每个所述语料文本中的第一命名实体;
基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型;
获取所述BERT模型输出的预测文本摘要,及获取所述预测文本摘要中的第二命名实体;
根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值;
基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型;
使用所述文本摘要生成模型生成目标文本的文本摘要。
根据本发明的一个可选的实施方式,所述提取每个所述语料文本中的第一命名实体包括:
将所述语料文本中被选定的语料文本确定为训练集;
对所述训练集中的每个语料文本进行预处理;
对预处理后的语料文本进行命名实体标注,获得标注语料集;
构建基于BiLSTM-CRF和注意力机制的神经网络模型;
基于所述标注语料集对所述神经网络模型进行训练,得到命名实体识别模型;
使用所述命名实体识别模型识别所述语料文本中未被用户选定的语料文本的命名实体,得到所述第一命名实体。
根据本发明的一个可选的实施方式,所述对所述训练集中的每个语料文本进行预处理包括:
对所述语料文本进行分词处理,得到多个关键词;利用预设词嵌入模型获取所述语料文本中每一个关键词的词向量;
所述对所述语料文本进行分词处理,得到多个关键词包括:根据预设词典对所述语料文本进行切分,得到多个切分路径及每个切分路径对应的多个切割分词;根据每个所述切割分词在所述预设词典中的分词权值计算得到每个所述切分路径的路径得分;根据所述路径得分,确定所述语料文本的多个关键词。
根据本发明的一个可选的实施方式,在所述根据预设词典对所述语料文本进行切分之前,所述方法还包括:
获取领域文本集,所述领域文本集包括多个领域文本及多个领域关键词;
计算每个所述领域关键词在所述多个领域文本中的关键词数量;
根据所述关键词数量及所述多个领域文本的文本数量计算每个所述领域关键词的重要度;
根据所述领域关键词的重要度计算每个所述领域关键词的分词权值。
根据本发明的一个可选的实施方式,所述基于所述标注语料集对所述神经网络模型进行训练,得到命名实体识别模型包括:
构建实体边界特征向量,所述实体边界特征向量包括实体起始位置标记向量和实体长度标记向量;
将所述语料文本的字向量、所述命名实体标签向量、所述实体起始位置标记向量和所述实体长度标记向量拼接后输入至所述神经网络模型的输入层;
将所述输入层得到的字向量输入至所述神经网络模型的BiLSTM层和注意力机制层;
在所述BiLSTM层获取所述字向量的双向特征向量;
在所述注意力机制层将表示所述字向量顺序的位置向量和所述双向特征向量进行拼接并分配权重系数,得到特征向量;
在所述神经网络模型的CRF层获取所述特征向量计算出的标注序列;
在所述神经网络模型的输出层输出所述标注序列;
基于所述标注序列迭代训练所述神经网络模型,直至达到预设迭代次数或者模型损失值满足预设条件,得到所述命名实体识别模型。
根据本发明的一个可选的实施方式,所述基于所述语料文本及对应的第一命名实体生成训练文本包括:
确定每个所述命名实体中的每个字符在对应的所述语料文本中的第一位置;
根据所述第一位置确定所述命名实体在对应的所述语料文本中的第二位置;
根据预设标识符,将所述语料文本及对应的命名实体和所述第二位置对应的位置字符进行拼接,得到训练文本。
根据本发明的一个可选的实施方式,所述根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值包括:
根据所述预测文本摘要及对应的真实文本摘要计算第一风险损失值;
根据所述第一命名实体及对应的所述第二命名实体计算第二风险损失值;
根据所述第一风险损失值及所述第二风险损失值计算得到整体风险损失值。
本发明的第二方面提供一种文本摘要生成装置,所述装置包括:
提取模块,用于获取多个语料文本,并提取每个所述语料文本中的第一命名实体;
训练模块,用于基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型;
获取模块,用于获取所述BERT模型输出的预测文本摘要,及获取所述预测文本摘要中的第二命名实体;
第一生成模块,用于根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值;
优化模块,用于基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型;
第二生成模块,用于使用所述文本摘要生成模型生成目标文本的文本摘要。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述文本摘要生成方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述文本摘要生成方法。
综上所述,本发明所述的文本摘要生成方法、装置、电子设备及存储介质,提取获取的每个语料文本中的第一命名实体,从而基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型,通过训练得到的BERT模型输出预测文本摘要,在获取预测文本摘要中的第二命名实体之后,根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值,从而基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型,最后使用所述文本摘要生成模型生成目标文本的文本摘要。本发明通过引入命名实体训练BERT模型,再通过训练得到的BERT模型预测文本摘要,能够提高预测得到的文本摘要中的命名实体的准确度,从而减少生成的文本摘要中命名实体错误的情况,提高了生成文本摘要的准确度。
附图说明
图1是本发明实施例一提供的文本摘要生成方法的流程图。
图2是本发明实施例二提供的文本摘要生成装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。
本发明实施例提供的文本摘要生成方法由电子设备执行,相应地,文本摘要生成装置运行于电子设备中。
实施例一
图1是本发明实施例一提供的文本摘要生成方法的流程图。所述文本摘要生成方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取多个语料文本,并提取每个所述语料文本中的第一命名实体。
电子设备可以预先在本地数据库中存储语料集,所述语料集中包括多个语料文本,所述多个语料文本可以是公开的语料文本。
响应于目标触发指令时,电子设备从存储的语料集中获取多个语料文本。其中,触发指令可以是预定时间点或者预定时间段内自动触发的获取指令,还可以是由用户触发的获取指令。
在获取到多个语料文本后,电子设备可以基于规则和字典的方法、基于统计的方法、基于深度学习的方法等提取每个语料文本中的命名实体,为便于描述,将从语料文本中提取的命名实体称之为第一命名实体。
在一个可选的实施方式中,所述提取每个所述语料文本中的第一命名实体包括:
将所述语料文本中被选定的语料文本确定为训练集;
对所述训练集中的每个语料文本进行预处理;
对预处理后的语料文本进行命名实体标注,获得标注语料集;
构建基于BiLSTM-CRF和注意力机制的神经网络模型;
基于所述标注语料集对所述神经网络模型进行训练,得到命名实体识别模型;
使用所述命名实体识别模型识别所述语料文本中未被用户选定的语料文本的命名实体,得到所述第一命名实体。
该可选的实施方式中,构建基于双向长短期记忆网络-条件随机场BiLSTM-CRF和注意力机制的命名实体识别模型,用于识别语料文本的命名实体。
可以随机选定预设数量的语料文本,作为训练集,然后利用现有的标注方法比如BIO方法对选定的语料文本进行命名实体的标注,得到命名实体标签向量,从而将选定的语料文本及对应的命名实体标签向量作为标注语料集,来训练命名实体识别模型,进而基于训练得到的命名实体识别模型识别语料文本中除了训练集之外的语料文本的命名实体,得到第一命令实体。
虽然可以通过人工的方式对获取的所有语料文本均进行人工标注,人工标注准确度更高,但是人工标注成本较大,且效率较低,该可选的实施例,只需要人工标注少量的语料文本,基于人工标注的少量的语料文本训练命名实体识别模型,使用命名实体识别模型对剩余的语料文本进行自动标注,在减小语料文本中的命名实体的标注工作量的同时得到准确度较高的命名实体。
对语料文本进行预处理可以包括:对所述语料文本进行分词处理,得到多个关键词;利用预设词嵌入模型获取所述语料文本中每一个关键词的词向量。
在一些实施方式中,在对语料文本进行预处理之前,还可以先去除语料文本中的非文本数据和乱码数据,从而提高对语料文本进行分词处理的效率。
在一个可选的实施方式中,所述对所述语料文本进行分词处理,得到多个关键词包括:
根据预设词典对所述语料文本进行切分,得到多个切分路径及每个切分路径对应的多个切割分词;
根据每个所述切割分词在所述预设词典中的分词权值计算得到每个所述切分路径的路径得分;
根据所述路径得分,确定所述语料文本的多个关键词。
其中,所述预设词典中存储有多个自定义词,及每个自定义词对应的分词权值,分词权值用以表明对应的分词被使用的几率。分词权值越大,表明对应的分词被使用的几率越大,分词权值越小,表明对应的分词被使用的几率越小。
根据不同的自定义词对语料文本进行切分,可以得到不同的切割分词。电子设备在得到多个切分路径之后,可以将每个切分路径中的所有切割分词对应的分词权值进行加和计算,得到该切分路径的路径得分。例如,某个切分路径包括切割分词W1,切分分词W2,切分分词W3,切分分词W4,切分分词W5,其中,切割分词W1的分词权值为Z1,切割分词W2的分词权值为Z2,切割分词W3的分词权值为Z3,切割分词W4的分词权值为Z4,切割分词W5的分词权值为Z5,则该切分路径的路径得分为Z1、Z2、Z3、Z4、Z5之和。
路径得分越高,表明对语料文本进行切分的准确度越高。路径得到越低,表明对语料文本进行切分的准确度越低。将最大的切分路径确定为目标路径,并将与所述目标路径对应的所述多个切割分词确定为多个关键词。
该可选的实施方式,通过预设词典对所述语料文本进行切分,并计算每个切分路径的路径得分,根据路径得分能够快速且准确的确定语料文本中的多个关键词。
在一个可选的实施方式中,在所述根据预设词典对所述语料文本进行切分之前,所述方法还包括:
获取领域文本集,所述领域文本集包括多个领域文本及多个领域关键词;
计算每个所述领域关键词在所述多个领域文本中的关键词数量;
根据所述关键词数量及所述多个领域文本的文本数量计算每个所述领域关键词的重要度;
根据所述领域关键词的重要度计算每个所述领域关键词的分词权值。
其中,领域文本可以是指某个具体的技术领域中的文本,本发明不做具体限制。
电子设备可以计算领域文本集中多个领域文本的第一文本数量,并计算包含有某个领域关键词的领域文本的第二文本数量,然后计算第二文本数量与所述第一文本数量的比值的对数值,从而得到这个领域关键词的重要度。
电子设备在计算得到每个领域关键词的重要度之后,计算每个领域关键词的关键词数量与对应的重要度的乘积,得到该领域关键词的分词权值,并将所述领域关键词与所述分词权值的映射关系存储至所述预设词典中,从而在对所述语料文本进行分词处理时,基于所述预设词典对所述语料文本进行切分,得到多个切分路径及每个切分路径对应的多个切割分词,进而根据每个所述切割分词在所述预设词典中的分词权值计算得到每个所述切分路径的路径得分,最后根据路径得分,确定所述语料文本的多个关键词。
该可选的实施方式,通过领域关键词的关键词数量与对应的重要度生成分词权值,能够提高所述具体领域中领域关键词的词频对所述分词权值的影响度,从而能够提高所述分词权值的准确性。通过将领域关键词与分词权值的映射关系存储至所述预设词典中,有利于根据预设词典对语料文本进行快速分词,提高所述语料文本的分词效率;此外,由于语料文本中的分词都是与预设词典中领域关键词对应,因而对语料文本进行分词得到的关键词都是领域关键词,提高了分词的准确率。
在一个可选的实施方式中,所述基于所述标注语料集对所述神经网络模型进行训练,得到命名实体识别模型包括:
构建实体边界特征向量;
将所述语料文本的字向量、所述命名实体标签向量、所述实体起始位置标记向量和所述实体长度标记向量拼接后输入至所述神经网络模型的输入层;
将所述输入层得到的字向量输入至所述神经网络模型的BiLSTM层和注意力机制层;
在所述BiLSTM层获取所述字向量的双向特征向量;
在所述注意力机制层将表示所述字向量顺序的位置向量和所述双向特征向量进行拼接并分配权重系数,得到特征向量;
在所述神经网络模型的CRF层获取所述特征向量计算出的标注序列;
在所述神经网络模型的输出层输出所述标注序列;
基于所述标注序列迭代训练所述神经网络模型,直至达到预设迭代次数或者模型损失值满足预设条件,得到所述命名实体识别模型。
所述实体边界特征向量包括实体起始位置标记向量和实体长度标记向量。
在提取训练数据的特征时,将同一命名实体的多个分词特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。在对同一命名实体的多个字符特征进行归一处理时,可采用加权平均的方法,即将同一命名实体的多个字符特征通过一个权重矩阵加权构成相应命名实体的特征,该权重矩阵作为模型参数可在模型训练中训练得到。
该可选的实施方式中,由于所述命名实体识别模型的训练特征向量包括实体边界特征向量,而所述实体边界特征向量表示对应命名实体在上下文中的位置关系,因而,能够解决现有基于字的命名实体识别模型因存在实体边界问题造成的命名实体识别时的准确率低的问题,提高命名实体识别模型的性能,从而提高命名实体识别的准确率,而命名实体识别的准确率的提高,能够提高训练BERT模型的性能,提高BERT模型输出的预测文本摘要;此外,命名实体识别模型的训练特征向量除包括训练数据的实体边界特征向量外,还可以包括训练数据的字符向量和命名实体标签向量,从而使得训练得到的命名实体识别模型能够基于输入的待识别数据的字符向量,进一步提高命名实体的识别准确率。
S12,基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型。
电子设备在获取多个语料文本并提取每个语料文本中的第一命名实体后,基于每个语料文本及语料文本中的第一命名实体生成一个训练文本,多个训练文本构成训练集,基于训练集训练BERT模型。
在一个可选的实施方式中,所述基于所述语料文本及对应的第一命名实体生成训练文本包括:
确定每个所述命名实体中的每个字符在对应的所述语料文本中的第一位置;
根据所述第一位置确定所述命名实体在对应的所述语料文本中的第二位置;
根据预设标识符,将所述语料文本及对应的命名实体和所述第二位置对应的位置字符进行拼接,得到训练文本。
将命名实体对应的字符及其位置对应的位置字符拼接到语料文本的后面,在命名实体对应的字符及其位置对应的位置字符的两边加上预设标识符SEP,以表示这是一个命名实体。示例性的,假设位置为(2,4),则位置对应的位置字符为“24”。现有技术中,直接基于语料文本作为BERT模型的输入,即,基于语料文本训练BERT模型,但是忽视了语料文本中缺少领域信息,因此传统的方法训练得到的BERT模型预测准确度较差。本实施例将语料文本及命名实体同时作为BERT模型的输入,不仅可以保留语料文本中的文本信息,还可以加入命名实体,以辅助BERT模型识别语料文本中的命名实体,从而提高BERT模型的预测准确度。
S13,获取所述BERT模型输出的预测文本摘要,及获取所述预测文本摘要中的第二命名实体。
BERT模型的输出是生成式摘要文本。
在训练BERT模型时,需要对BERT模型进行微调,从而使得BERT模型更加适合下游任务,本发明中下游任务指特定领域内的文本摘要生成任务。
S14,根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值。
通常在对BERT模型进行微调时,采用交叉熵来衡量预测的文本摘要和真实的文本摘要之间的差距,并通过降低交叉熵损失函数来提高模型的生成质量。
该实施方式,不仅通过预测文本摘要与真实文本摘要之间的损失,还通过语料文本中的第一命名实体与对应的预测文本摘要中的第二命名实体之间的损失来确定整体风险损失。
在一个可选的实施方式中,所述根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值包括:
根据所述预测文本摘要及对应的真实文本摘要计算第一风险损失值;
根据所述第一命名实体及对应的所述第二命名实体计算第二风险损失值;
根据所述第一风险损失值及所述第二风险损失值计算得到整体风险损失值。
其中,真实文本摘要为通过人工提取的语料文本的文本摘要。根据每个语料文本的预测文本摘要及真实文本摘要计算得到一个第一风险损失值,用于评估预测文本摘要与真实文本摘要之间的接近程度。
该可选的实施方式中,为了提高预测的文本摘要中命名实体的质量,降低命名实体的错误率,在整体损失函数中加入了命名实体的错误率,如下所示:
Loss=CE(ypred,ylabel)+λ*Lossner
Lossner=CE(ner(ypred),ner(ylabel))。
loss=CE(ypred,ylabel)+λ*lossnerlossner=CE(ner(ypred),ner(ylabel))其中,CE是交叉熵(Cross Entropy),ypred表示预测的文本摘要,ylabel表示真实的文本摘要,Lossner表示文本摘要中命名实体的错误率,用来衡量预测的文本摘要和真实的文本摘要中命名实体有多不相同。λ是Lossner的权重,是一个超参数,表示该文本摘要任务中识别错命名实体要予以多大的惩罚,该超参数越大,表示应给予的惩罚越大。ner(.)表示命名实体识别模型。
S15,基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型。
可使用梯度下降法来优化BERT模型,从而得到文本摘要生成模型。
S16,使用所述文本摘要生成模型生成目标文本的文本摘要。
所述目标文本是指需要进行文本摘要提取的文本。
将所述目标文本输入至文本摘要生成模型中,通过文本摘要生成模型输出目标文本的文本摘要。
采用本发明提供的文本摘要生成方法,提取获取的每个语料文本中的第一命名实体,从而基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型,通过训练得到的BERT模型输出预测文本摘要,在获取预测文本摘要中的第二命名实体之后,根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值,从而基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型,最后使用所述文本摘要生成模型生成目标文本的文本摘要。本发明能自动从电子文本中提取出能够涵盖原始文本核心思想的重要内容,用浓缩的文本摘要表示原始冗长的文本而不丢失源文档任何重要的含义和信息,为人们快速浏览信息、锁定自己的兴趣点提供了有效、快捷的方式,且通过引入命名实体,有效的减少了生成的文本摘要中命名实体错误的情况,提高了生成文本摘要的准确度。
实施例二
图2是本发明实施例二提供的文本摘要生成装置的结构图。
在一些实施例中,所述文本摘要生成装置20可以包括多个由计算机程序段所组成的功能模块。所述文本摘要生成装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)文本摘要生成的功能。
本实施例中,所述文本摘要生成装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:提取模块201、训练模块202、获取模块203、第一生成模块204、优化模块205及第二生成模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述提取模块201,用于获取多个语料文本,并提取每个所述语料文本中的第一命名实体。
电子设备可以预先在本地数据库中存储语料集,所述语料集中包括多个语料文本,所述多个语料文本可以是公开的语料文本。
响应于目标触发指令时,电子设备从存储的语料集中获取多个语料文本。其中,触发指令可以是预定时间点或者预定时间段内自动触发的获取指令,还可以是由用户触发的获取指令。
在获取到多个语料文本后,电子设备可以基于规则和字典的方法、基于统计的方法、基于深度学习的方法等提取每个语料文本中的命名实体,为便于描述,将从语料文本中提取的命名实体称之为第一命名实体。
在一个可选的实施方式中,所述提取模块201提取每个所述语料文本中的第一命名实体包括:
将所述语料文本中被选定的语料文本确定为训练集;
对所述训练集中的每个语料文本进行预处理;
对预处理后的语料文本进行命名实体标注,获得标注语料集;
构建基于BiLSTM-CRF和注意力机制的神经网络模型;
基于所述标注语料集对所述神经网络模型进行训练,得到命名实体识别模型;
使用所述命名实体识别模型识别所述语料文本中未被用户选定的语料文本的命名实体,得到所述第一命名实体。
该可选的实施方式中,构建基于双向长短期记忆网络-条件随机场BiLSTM-CRF和注意力机制的命名实体识别模型,用于识别语料文本的命名实体。
可以随机选定预设数量的语料文本,作为训练集,然后利用现有的标注方法比如BIO方法对选定的语料文本进行命名实体的标注,得到命名实体标签向量,从而将选定的语料文本及对应的命名实体标签向量作为标注语料集,来训练命名实体识别模型,进而基于训练得到的命名实体识别模型识别语料文本中除了训练集之外的语料文本的命名实体,得到第一命令实体。
虽然可以通过人工的方式对获取的所有语料文本均进行人工标注,人工标注准确度更高,但是人工标注成本较大,且效率较低,该可选的实施例,只需要人工标注少量的语料文本,基于人工标注的少量的语料文本训练命名实体识别模型,使用命名实体识别模型对剩余的语料文本进行自动标注,在减小语料文本中的命名实体的标注工作量的同时得到准确度较高的命名实体。
对语料文本进行预处理可以包括:对所述语料文本进行分词处理,得到多个关键词;利用预设词嵌入模型获取所述语料文本中每一个关键词的词向量。
在一些实施方式中,在对语料文本进行预处理之前,还可以先去除语料文本中的非文本数据和乱码数据,从而提高对语料文本进行分词处理的效率。
在一个可选的实施方式中,所述对所述语料文本进行分词处理,得到多个关键词包括:
根据预设词典对所述语料文本进行切分,得到多个切分路径及每个切分路径对应的多个切割分词;
根据每个所述切割分词在所述预设词典中的分词权值计算得到每个所述切分路径的路径得分;
根据所述路径得分,确定所述语料文本的多个关键词。
其中,所述预设词典中存储有多个自定义词,及每个自定义词对应的分词权值,分词权值用以表明对应的分词被使用的几率。分词权值越大,表明对应的分词被使用的几率越大,分词权值越小,表明对应的分词被使用的几率越小。
根据不同的自定义词对语料文本进行切分,可以得到不同的切割分词。电子设备在得到多个切分路径之后,可以将每个切分路径中的所有切割分词对应的分词权值进行加和计算,得到该切分路径的路径得分。例如,某个切分路径包括切割分词W1,切分分词W2,切分分词W3,切分分词W4,切分分词W5,其中,切割分词W1的分词权值为Z1,切割分词W2的分词权值为Z2,切割分词W3的分词权值为Z3,切割分词W4的分词权值为Z4,切割分词W5的分词权值为Z5,则该切分路径的路径得分为Z1、Z2、Z3、Z4、Z5之和。
路径得分越高,表明对语料文本进行切分的准确度越高。路径得到越低,表明对语料文本进行切分的准确度越低。将最大的切分路径确定为目标路径,并将与所述目标路径对应的所述多个切割分词确定为多个关键词。
该可选的实施方式,通过预设词典对所述语料文本进行切分,并计算每个切分路径的路径得分,根据路径得分能够快速且准确的确定语料文本中的多个关键词。
在一个可选的实施方式中,在所述根据预设词典对所述语料文本进行切分之前,所述电子设备还包括:
获取领域文本集,所述领域文本集包括多个领域文本及多个领域关键词;
计算每个所述领域关键词在所述多个领域文本中的关键词数量;
根据所述关键词数量及所述多个领域文本的文本数量计算每个所述领域关键词的重要度;
根据所述领域关键词的重要度计算每个所述领域关键词的分词权值。
其中,领域文本可以是指某个具体的技术领域中的文本,本发明不做具体限制。
电子设备可以计算领域文本集中多个领域文本的第一文本数量,并计算包含有某个领域关键词的领域文本的第二文本数量,然后计算第二文本数量与所述第一文本数量的比值的对数值,从而得到这个领域关键词的重要度。
电子设备在计算得到每个领域关键词的重要度之后,计算每个领域关键词的关键词数量与对应的重要度的乘积,得到该领域关键词的分词权值,并将所述领域关键词与所述分词权值的映射关系存储至所述预设词典中,从而在对所述语料文本进行分词处理时,基于所述预设词典对所述语料文本进行切分,得到多个切分路径及每个切分路径对应的多个切割分词,进而根据每个所述切割分词在所述预设词典中的分词权值计算得到每个所述切分路径的路径得分,最后根据路径得分,确定所述语料文本的多个关键词。
该可选的实施方式,通过领域关键词的关键词数量与对应的重要度生成分词权值,能够提高所述具体领域中领域关键词的词频对所述分词权值的影响度,从而能够提高所述分词权值的准确性。通过将领域关键词与分词权值的映射关系存储至所述预设词典中,有利于根据预设词典对语料文本进行快速分词,提高所述语料文本的分词效率;此外,由于语料文本中的分词都是与预设词典中领域关键词对应,因而对语料文本进行分词得到的关键词都是领域关键词,提高了分词的准确率。
在一个可选的实施方式中,所述基于所述标注语料集对所述神经网络模型进行训练,得到命名实体识别模型包括:
构建实体边界特征向量;
将所述语料文本的字向量、所述命名实体标签向量、所述实体起始位置标记向量和所述实体长度标记向量拼接后输入至所述神经网络模型的输入层;
将所述输入层得到的字向量输入至所述神经网络模型的BiLSTM层和注意力机制层;
在所述BiLSTM层获取所述字向量的双向特征向量;
在所述注意力机制层将表示所述字向量顺序的位置向量和所述双向特征向量进行拼接并分配权重系数,得到特征向量;
在所述神经网络模型的CRF层获取所述特征向量计算出的标注序列;
在所述神经网络模型的输出层输出所述标注序列;
基于所述标注序列迭代训练所述神经网络模型,直至达到预设迭代次数或者模型损失值满足预设条件,得到所述命名实体识别模型。
所述实体边界特征向量包括实体起始位置标记向量和实体长度标记向量。
在提取训练数据的特征时,将同一命名实体的多个分词特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。在对同一命名实体的多个字符特征进行归一处理时,可采用加权平均的方法,即将同一命名实体的多个字符特征通过一个权重矩阵加权构成相应命名实体的特征,该权重矩阵作为模型参数可在模型训练中训练得到。
该可选的实施方式中,由于所述命名实体识别模型的训练特征向量包括实体边界特征向量,而所述实体边界特征向量表示对应命名实体在上下文中的位置关系,因而,能够解决现有基于字的命名实体识别模型因存在实体边界问题造成的命名实体识别时的准确率低的问题,提高命名实体识别模型的性能,从而提高命名实体识别的准确率,而命名实体识别的准确率的提高,能够提高训练BERT模型的性能,提高BERT模型输出的预测文本摘要;此外,命名实体识别模型的训练特征向量除包括训练数据的实体边界特征向量外,还可以包括训练数据的字符向量和命名实体标签向量,从而使得训练得到的命名实体识别模型能够基于输入的待识别数据的字符向量,进一步提高命名实体的识别准确率。
所述训练模块202,用于基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型。
电子设备在获取多个语料文本并提取每个语料文本中的第一命名实体后,基于每个语料文本及语料文本中的第一命名实体生成一个训练文本,多个训练文本构成训练集,基于训练集训练BERT模型。
在一个可选的实施方式中,所述训练模块202基于所述语料文本及对应的第一命名实体生成训练文本包括:
确定每个所述命名实体中的每个字符在对应的所述语料文本中的第一位置;
根据所述第一位置确定所述命名实体在对应的所述语料文本中的第二位置;
根据预设标识符,将所述语料文本及对应的命名实体和所述第二位置对应的位置字符进行拼接,得到训练文本。
将命名实体对应的字符及其位置对应的位置字符拼接到语料文本的后面,在命名实体对应的字符及其位置对应的位置字符的两边加上预设标识符SEP,以表示这是一个命名实体。示例性的,假设位置为(2,4),则位置对应的位置字符为“24”。
现有技术中,直接基于语料文本作为BERT模型的输入,即,基于语料文本训练BERT模型,但是忽视了语料文本中缺少领域信息,因此传统的方法训练得到的BERT模型预测准确度较差。本实施例将语料文本及命名实体同时作为BERT模型的输入,不仅可以保留语料文本中的文本信息,还可以加入命名实体,以辅助BERT模型识别语料文本中的命名实体,从而提高BERT模型的预测准确度。
所述获取模块203,用于获取所述BERT模型输出的预测文本摘要,及获取所述预测文本摘要中的第二命名实体。
BERT模型的输出是生成式摘要文本。
在训练BERT模型时,需要对BERT模型进行微调,从而使得BERT模型更加适合下游任务,本发明中下游任务指特定领域内的文本摘要生成任务。
所述第一生成模块204,用于根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值。
通常在对BERT模型进行微调时,采用交叉熵来衡量预测的文本摘要和真实的文本摘要之间的差距,并通过降低交叉熵损失函数来提高模型的生成质量。
该实施方式,不仅通过预测文本摘要与真实文本摘要之间的损失,还通过语料文本中的第一命名实体与对应的预测文本摘要中的第二命名实体之间的损失来确定整体风险损失。
在一个可选的实施方式中,所述第一生成模块204根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值包括:
根据所述预测文本摘要及对应的真实文本摘要计算第一风险损失值;
根据所述第一命名实体及对应的所述第二命名实体计算第二风险损失值;
根据所述第一风险损失值及所述第二风险损失值计算得到整体风险损失值。
其中,真实文本摘要为通过人工提取的语料文本的文本摘要。根据每个语料文本的预测文本摘要及真实文本摘要计算得到一个第一风险损失值,用于评估预测文本摘要与真实文本摘要之间的接近程度。
该可选的实施方式中,为了提高预测的文本摘要中命名实体的质量,降低命名实体的错误率,在整体损失函数中加入了命名实体的错误率,如下所示:
Loss=CE(ypred,ylabel)+λ*Lossner
Lossner=CE(ner(ypred),ner(ylabel))。
loss=CE(ypred,ylabel)+λ*lossnerlossner=CE(ner(ypred),ner(ylabel))其中,CE是交叉熵(Cross Entropy),ypred表示预测的文本摘要,ylabel表示真实的文本摘要,Lossner表示文本摘要中命名实体的错误率,用来衡量预测的文本摘要和真实的文本摘要中命名实体有多不相同。λ是Lossner的权重,是一个超参数,表示该文本摘要任务中识别错命名实体要予以多大的惩罚,该超参数越大,表示应给予的惩罚越大。ner(.)表示命名实体识别模型。
所述优化模块205,用于基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型。
可使用梯度下降法来优化BERT模型,从而得到文本摘要生成模型。
所述第二生成模块206,用于使用所述文本摘要生成模型生成目标文本的文本摘要。
所述目标文本是指需要进行文本摘要提取的文本。
将所述目标文本输入至文本摘要生成模型中,通过文本摘要生成模型输出目标文本的文本摘要。
采用本发明提供的文本摘要生成装置,提取获取的每个语料文本中的第一命名实体,从而基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型,通过训练得到的BERT模型输出预测文本摘要,在获取预测文本摘要中的第二命名实体之后,根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值,从而基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型,最后使用所述文本摘要生成模型生成目标文本的文本摘要。本发明能自动从电子文本中提取出能够涵盖原始文本核心思想的重要内容,用浓缩的文本摘要表示原始冗长的文本而不丢失源文档任何重要的含义和信息,为人们快速浏览信息、锁定自己的兴趣点提供了有效、快捷的方式,且通过引入命名实体,有效的减少了生成的文本摘要中命名实体错误的情况,提高了生成文本摘要的准确度。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述文本摘要生成方法实施例中的步骤,例如图1所示的S11-S15:
S11,获取多个语料文本,并提取每个所述语料文本中的第一命名实体;
S12,基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型;
S13,获取所述BERT模型输出的预测文本摘要,及获取所述预测文本摘要中的第二命名实体;
S14,根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值;
S15,基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型;
S16,使用所述文本摘要生成模型生成目标文本的文本摘要。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的模块201-206:
所述提取模块201,用于获取多个语料文本,并提取每个所述语料文本中的第一命名实体;
所述训练模块202,用于基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型;
所述获取模块203,用于获取所述BERT模型输出的预测文本摘要,及获取所述预测文本摘要中的第二命名实体;
所述第一生成模块204,用于根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值;
所述优化模块205,用于基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型;
所述第二生成模块206,用于使用所述文本摘要生成模型生成目标文本的文本摘要。
实施例四
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的文本摘要生成方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的文本摘要生成方法的全部或者部分步骤;或者实现文本摘要生成装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种文本摘要生成方法,其特征在于,所述方法包括:
获取多个语料文本,并提取每个所述语料文本中的第一命名实体;
基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型;
获取所述BERT模型输出的预测文本摘要,及获取所述预测文本摘要中的第二命名实体;
根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值;
基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型;
使用所述文本摘要生成模型生成目标文本的文本摘要。
2.如权利要求1所述的文本摘要生成方法,其特征在于,所述提取每个所述语料文本中的第一命名实体包括:
将所述语料文本中被选定的语料文本确定为训练集;
对所述训练集中的每个语料文本进行预处理;
对预处理后的语料文本进行命名实体标注,获得标注语料集;
构建基于BiLSTM-CRF和注意力机制的神经网络模型;
基于所述标注语料集对所述神经网络模型进行训练,得到命名实体识别模型;
使用所述命名实体识别模型识别所述语料文本中未被用户选定的语料文本的命名实体,得到所述第一命名实体。
3.如权利要求2所述的文本摘要生成方法,其特征在于,所述对所述训练集中的每个语料文本进行预处理包括:
对所述语料文本进行分词处理,得到多个关键词;利用预设词嵌入模型获取所述语料文本中每一个关键词的词向量;
所述对所述语料文本进行分词处理,得到多个关键词包括:根据预设词典对所述语料文本进行切分,得到多个切分路径及每个切分路径对应的多个切割分词;根据每个所述切割分词在所述预设词典中的分词权值计算得到每个所述切分路径的路径得分;根据所述路径得分,确定所述语料文本的多个关键词。
4.如权利要求3所述的文本摘要生成方法,其特征在于,在所述根据预设词典对所述语料文本进行切分之前,所述方法还包括:
获取领域文本集,所述领域文本集包括多个领域文本及多个领域关键词;
计算每个所述领域关键词在所述多个领域文本中的关键词数量;
根据所述关键词数量及所述多个领域文本的文本数量计算每个所述领域关键词的重要度;
根据所述领域关键词的重要度计算每个所述领域关键词的分词权值。
5.如权利要求2所述的文本摘要生成方法,其特征在于,所述基于所述标注语料集对所述神经网络模型进行训练,得到命名实体识别模型包括:
构建实体边界特征向量,所述实体边界特征向量包括实体起始位置标记向量和实体长度标记向量;
将所述语料文本的字向量、所述命名实体标签向量、所述实体起始位置标记向量和所述实体长度标记向量拼接后输入至所述神经网络模型的输入层;
将所述输入层得到的字向量输入至所述神经网络模型的BiLSTM层和注意力机制层;
在所述BiLSTM层获取所述字向量的双向特征向量;
在所述注意力机制层将表示所述字向量顺序的位置向量和所述双向特征向量进行拼接并分配权重系数,得到特征向量;
在所述神经网络模型的CRF层获取所述特征向量计算出的标注序列;
在所述神经网络模型的输出层输出所述标注序列;
基于所述标注序列迭代训练所述神经网络模型,直至达到预设迭代次数或者模型损失值满足预设条件,得到所述命名实体识别模型。
6.如权利要求1至5中任意一项所述的文本摘要生成方法,其特征在于,所述基于所述语料文本及对应的第一命名实体生成训练文本包括:
确定每个所述命名实体中的每个字符在对应的所述语料文本中的第一位置;
根据所述第一位置确定所述命名实体在对应的所述语料文本中的第二位置;
根据预设标识符,将所述语料文本及对应的命名实体和所述第二位置对应的位置字符进行拼接,得到训练文本。
7.如权利要求1至5中任意一项所述的文本摘要生成方法,其特征在于,所述根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值包括:
根据所述预测文本摘要及对应的真实文本摘要计算第一风险损失值;
根据所述第一命名实体及对应的所述第二命名实体计算第二风险损失值;
根据所述第一风险损失值及所述第二风险损失值计算得到整体风险损失值。
8.一种文本摘要生成装置,其特征在于,所述装置包括:
提取模块,用于获取多个语料文本,并提取每个所述语料文本中的第一命名实体;
训练模块,用于基于所述语料文本及对应的第一命名实体生成训练文本,并基于多个所述训练文本训练BERT模型;
获取模块,用于获取所述BERT模型输出的预测文本摘要,及获取所述预测文本摘要中的第二命名实体;
第一生成模块,用于根据所述第一命名实体、所述预测文本摘要及所述第二命名实体生成整体风险损失值;
优化模块,用于基于所述整体风险损失值优化所述BERT模型,得到文本摘要生成模型;
第二生成模块,用于使用所述文本摘要生成模型生成目标文本的文本摘要。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述文本摘要生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述文本摘要生成方法。
CN202111222471.3A 2021-10-20 2021-10-20 文本摘要生成方法、装置、电子设备及存储介质 Pending CN113935328A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111222471.3A CN113935328A (zh) 2021-10-20 2021-10-20 文本摘要生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111222471.3A CN113935328A (zh) 2021-10-20 2021-10-20 文本摘要生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113935328A true CN113935328A (zh) 2022-01-14

Family

ID=79280976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111222471.3A Pending CN113935328A (zh) 2021-10-20 2021-10-20 文本摘要生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113935328A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757177A (zh) * 2022-03-11 2022-07-15 重庆邮电大学 一种基于bart融合指针生成网络的文本摘要方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757177A (zh) * 2022-03-11 2022-07-15 重庆邮电大学 一种基于bart融合指针生成网络的文本摘要方法

Similar Documents

Publication Publication Date Title
CN111428488A (zh) 简历数据信息解析及匹配方法、装置、电子设备及介质
CN111984793A (zh) 文本情感分类模型训练方法、装置、计算机设备及介质
CN111639486A (zh) 段落搜索方法、装置、电子设备及存储介质
CN112906385A (zh) 文本摘要生成方法、计算机设备及存储介质
CN112149409A (zh) 医疗词云生成方法、装置、计算机设备及存储介质
CN113435582B (zh) 基于句向量预训练模型的文本处理方法及相关设备
CN111858834B (zh) 基于ai的案件争议焦点确定方法、装置、设备及介质
CN113706322A (zh) 基于数据分析的服务分发方法、装置、设备及存储介质
CN114077841A (zh) 基于人工智能的语义提取方法、装置、电子设备及介质
CN113704410A (zh) 情绪波动检测方法、装置、电子设备及存储介质
CN113887941A (zh) 业务流程生成方法、装置、电子设备及介质
CN114461777A (zh) 智能问答方法、装置、设备及存储介质
CN116956896A (zh) 基于人工智能的文本分析方法、***、电子设备及介质
CN114372082B (zh) 基于人工智能的数据查询方法、装置、电子设备及介质
CN114840684A (zh) 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN114398902A (zh) 基于人工智能的中文语义提取方法及相关设备
CN113344125B (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN112597748B (zh) 语料生成方法、装置、设备及计算机可读存储介质
CN114020892A (zh) 基于人工智能的答案选取方法、装置、电子设备及介质
CN112395432B (zh) 课程推送方法、装置、计算机设备及存储介质
CN113808616A (zh) 语音合规检测方法、装置、设备及存储介质
CN113342940A (zh) 文本匹配分析方法、装置、电子设备及存储介质
CN113420542A (zh) 对话生成方法、装置、电子设备及存储介质
CN113935328A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN111651452A (zh) 数据存储方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination