CN115129843A - 一种对话文本摘要抽取方法和装置 - Google Patents

一种对话文本摘要抽取方法和装置 Download PDF

Info

Publication number
CN115129843A
CN115129843A CN202210752704.9A CN202210752704A CN115129843A CN 115129843 A CN115129843 A CN 115129843A CN 202210752704 A CN202210752704 A CN 202210752704A CN 115129843 A CN115129843 A CN 115129843A
Authority
CN
China
Prior art keywords
abstract
sentence
text data
dialogue
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210752704.9A
Other languages
English (en)
Inventor
周梦
邢启洲
李健
陈明
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202210752704.9A priority Critical patent/CN115129843A/zh
Publication of CN115129843A publication Critical patent/CN115129843A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种对话文本摘要抽取方法和装置,通过获取包含角色标识的对话文本数据,所述对话文本数据按照对话顺序排列,根据所述对话文本数据生成多个句向量,在所述句向量满足预设条件时确定所述句向量为摘要句,按照所述角色标识和所述对话顺序拼接所述摘要句,得到候选摘要文本。本发明将对话角色信息加入到对话文本数据中,按照对话角色来分句,使获得的对话文本摘要中包括对话角色信息,更适用于对话文本领域,采用二分类的分类方式,判断提取的句向量是否为摘要句,便于模型按照更准确的分类进行预测,进一步地,在拼接摘要句时,按照对话角色的对话顺序进行拼接,使对话文本摘要的顺序具有时序性。

Description

一种对话文本摘要抽取方法和装置
技术领域
本发明涉及互联网文本数据领域,尤其涉及一种对话文本摘要抽取方法和装置。
背景技术
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行“降维”处理显得非常必要,文本摘要便是其中一个重要的手段。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。
抽取式摘要即从原文中选取关键词、关键句组成摘要。采用这种方法能降低在语法、句法上的错误率,保证了一定的效果。目前主流的基于神经网络的抽取式Bertsum模型(Fine-tune BERT for Extractive Summarization,微调Bert的抽取摘要),已经在开源的数据集,类似于新闻、文献等专业的叙事类文章中取得了非常不错的效果。抽取的句子具有较好的流畅度和重要度。在对话文本领域中,抽取式摘要也有一些应用。但是在处理对话文本的过程中,对话文本由于具有多角色性、多主题性的特点,因而,若直接进行句子级别的摘要抽取,会出现角色的观点混乱、事实前后顺序颠倒等问题,继而抽取的摘要虽然在指标上有提升,而在可读性和易理解性方面却比较差。
在已公开的专利名称《基于全局性特征提取的文本摘要自动生成方法及***》,专利号CN112559730A中,修改了提取特征的结构,在Bertsum模型的基础上,继续增加了CNN(Convolutional Neural Network,卷积神经网络)以及LSTM(Long Short-Term Memory,长短期记忆网络)和attention(注意机制)等结构去提取句子间的关系,使模型结构变得更加复杂,而且对于对话文本而言,仍然会出现抽取的摘要角色混乱、观点混乱、事实顺序颠倒等问题。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种对话文本摘要抽取方法和相应的一种摘要文本装置。
为了解决上述问题,本发明实施例公开了一种对话文本摘要抽取方法,所述方法包括:
获取包含角色标识的对话文本数据;所述对话文本数据按照对话顺序排列;
根据所述对话文本数据生成多个句向量;
在所述句向量满足预设条件时确定所述句向量为摘要句;
按照所述角色标识和所述对话顺序拼接所述摘要句,得到候选摘要文本。
可选地,所述方法还包括:
计算所述句向量的二分类概率分布,所述二分类索引值为0或1;
当所述二分类概率最大值的索引值为1且所述二分类概率最大值大于第一预设值时,确定所述句向量满足预设条件。
可选地,所述句向量包括与所述对话顺序对应的位置信息,所述方法还包括:
提取所述摘要句的位置信息;
根据所述位置信息检索所述摘要句对应的对话文本数据;
按照所述位置信息和所述角色标识对所述对话文本数据进行拼接,得到候选摘要文本。
可选地,所述方法还包括:
对所述候选摘要文本进行优化,根据优化后的候选摘要文本生成最终摘要文本;
所述优化方法包括:对重复次数超过第二预设值的摘要句保留其中一句。
可选地,所述根据所述对话文本数据生成多个句向量的步骤包括:
将所述对话文本数据输入预训练的摘要抽取模型,所述摘要抽取模型设置有特征提取标识和分段标识;
接收所述摘要抽取模型根据所述特征提取标识和分段标识从所述对话文本数据提取的多个句向量。
可选地,所述分段标识数量为2,所述方法还包括:
确定对话角色的角色数量;所述对话角色具有对应的角色标识;
若所述角色数量为2,则按照所述角色标识分配所述分段标识;
若所述角色数量大于2,则按照所述角色的对话顺序分配所述分段标识。
可选地,所述摘要抽取模型通过如下方法生成:
获取与交互业务相关的第一文本数据,以及初始摘要抽取模型;
采用所述第一文本数据训练所述初始摘要抽取模型,生成所述摘要抽取模型。
本发明实施例还公开了一种对话文本摘要抽取装置,所述装置包括:
获取模块,用于获取包含角色标识的对话文本数据;所述对话文本数据按照对话顺序排列;
句向量生成模块,用于根据所述对话文本数据生成多个句向量;
判断模块,在所述句向量满足预设条件时确定所述句向量为摘要句;
候选摘要文本生成模块,按照所述角色标识和所述对话顺序拼接所述摘要句,得到候选摘要文本。
可选地,所述装置还包括:
计算模块,计算所述句向量的二分类概率分布,所述二分类索引值为0或1;
句向量确定模块,用于当所述二分类概率最大值的索引值为1且所述二分类概率最大值大于第一预设值时,确定所述句向量满足预设条件。
可选地,所述句向量包括与所述对话顺序对应的位置信息,所述候选摘要文本生成模块包括:
提取子模块,用于提取所述摘要句的位置信息;
检索子模块,用于根据所述位置信息检索所述摘要句对应的对话文本数据;
拼接子模块,用于按照所述位置信息和所述角色标识对所述对话文本数据进行拼接,得到候选摘要文本。
可选地,所述装置还包括:
优化模块,用于对所述候选摘要文本进行优化,根据优化后的候选摘要文本生成最终摘要文本;
所述优化方法包括:对重复次数超过第二预设值的摘要句保留其中一句。
可选地,所述句向量生成模块包括:
输入子模块,用于将所述对话文本数据输入预训练的摘要抽取模型,所述摘要抽取模型设置有特征提取标识和分段标识;
接收子模块,用于接收所述摘要抽取模型根据所述特征提取标识和分段标识从所述对话文本数据提取的多个句向量。
可选地,所述分段标识数量为2,所述装置还包括:
角色数量确定模块,用于确定对话角色的角色数量;所述对话角色具有对应的角色标识;
分段标识分配模块,用于若所述角色数量为2,则按照所述角色标识分配所述分段标识;若所述角色数量大于2,则按照所述角色的对话顺序分配所述分段标识。
可选地,所述装置还包括:
第一文本数据获取模块,用于获取与交互业务相关的第一文本数据,以及初始摘要抽取模型;
摘要抽取模型生成模块,用于采用所述第一文本数据训练所述初始摘要抽取模型,生成所述摘要抽取模型。
本发明实施例还公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的对话文本摘要抽取方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的的对话文本摘要抽取方法的步骤。
本发明实施例包括以下优点:通过获取包含角色标识的对话文本数据,所述对话文本数据按照对话顺序排列,根据所述对话文本数据生成多个句向量,在所述句向量满足预设条件时确定所述句向量为摘要句,按照所述角色标识和所述对话顺序拼接所述摘要句,得到候选摘要文本。本发明将对话角色信息加入到对话文本数据中,按照对话角色来分句,使获得的对话文本摘要中包括对话角色信息,更适用于对话文本领域,采用二分类的分类方式,判断提取的句向量是否为摘要句,便于模型按照更准确的分类进行预测,进一步地,在拼接摘要句时,按照对话角色的对话顺序进行拼接,使对话文本摘要的顺序具有时序性。
附图说明
图1是本发明的一种对话文本摘要抽取方法实施例的步骤流程图;
图2是本发明的另一种对话文本摘要抽取方法实施例的步骤流程图;
图3是本发明的另一种对话文本摘要抽取方法实施例的步骤流程图;
图4是本发明用于一种对话文本摘要抽取方法的模型图;
图5是本发明的一种对话文本摘要抽取装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,不同于原模型的分句方式,本发明的分句方式为按照对话角色来分句,并且将对话角色信息输入模型中,进行特征提取。不同于原模型的直接提取句子信息高的几句作为摘要句,本发明采用的是二分类的分类方式,判断分句后的句子是否为摘要句,便于模型按照更准确的分类进行预测。不同于原模型的将摘要得分较高的句子按照得分高低进行拼接,本发明采用的是按照对话顺序对摘要句拼接,使对话文本摘要的顺序具有时序性。
参照图1,示出了本发明的一种对话文本摘要抽取方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,获取包括角色标识的对话文本数据;所述对话文本数据按照对话顺序排列;
在对话文本领域中,对话文本具有多角色性、多主题性的特点。在本发明中,文本数据中加入了角色标识,使每句对话都有对应的角色,并且,按照角色之间的对话顺序生成对话文本数据。
步骤102,根据所述对话文本数据生成多个句向量;
对话文本中包括多个对话角色和多个对话角色的对话分句,可以按照对话顺序,根据多个对话角色的对话分句生成多个句向量。
步骤103,在所述句向量满足预设条件时确定所述句向量为摘要句;
二分类表示分类任务中有两个类别,简单来说就是判断“是否”的问题。例如,判断一个句向量是否为摘要句,输入一个句向量,输出是或不是摘要句,输出结果用索引值1或0表示,一般1代表是,0代表否。
获得多个句向量之后,可采用二分类的方法,判断所述句向量是否为摘要句,如果满足预设条件,则判断所述句向量为摘要句,输出结果为1,若不满足,则判断所述句向量不是摘要句,输出结果为0。
步骤104,按照所述角色标识和所述对话顺序拼接所述摘要句,得到候选摘要文本。
在获得摘要句之后,即可按照对话顺序拼接所述摘要句,同时所述摘要句中还包括角色标识,因此,拼接所得的候选摘要文本按照对话角色的对话顺序排列。
本发明实施例中,通过获取包含角色标识的对话文本数据,所述对话文本数据按照对话顺序排列,根据所述对话文本数据生成多个句向量,在所述句向量满足预设条件时确定所述句向量为摘要句,按照所述角色标识和所述对话顺序拼接所述摘要句,得到候选摘要文本。本发明将对话角色信息加入到对话文本数据中,按照对话角色来分句,使获得的对话文本摘要中包括对话角色信息,更适用于对话文本领域,采用二分类的分类方式,判断提取的句向量是否为摘要句,便于模型按照更准确的分类进行预测,进一步地,在拼接摘要句时,按照对话角色的对话顺序进行拼接,使对话文本摘要的顺序具有时序性。
参照图2,示出了本发明的另一种对话文本摘要抽取方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201,获取包含角色标识的对话文本数据;所述对话文本数据按照对话顺序排列;
步骤202,根据所述对话文本数据生成多个句向量;
步骤201至步骤202过程与步骤101至步骤102过程相似,在此不再赘述。
步骤203,计算所述句向量的二分类概率分布,所述二分类索引值为0或1;
在生成句向量后,将句向量的所有信息压缩为一个二分类概率分布,在二分类概率分布中,确定其最大值的索引值为1,确定其最小值的索引值为0。
步骤204,当所述二分类概率最大值的索引值为1且所述二分类概率最大值大于第一预设值时,确定所述句向量满足预设条件。
在本发明中,可以设置第一预设值为0.7(本发明对第一预设值大小不做限制,可根据实际情况设置),当所述二分类概率最大值的索引值为1且所述二分类概率最大值大于第一预设值0.7时,判断所述句向量满足预设条件。举例而言,若有一句向量的二分类概率分布为[0.2,0.8],那么二分类概率分布最大值是0.8,且确定其最大值的索引值是1,且其最大值大于第一预设值0.7,则确定该句向量满足预设条件。
步骤205,在所述句向量满足预设条件时确定所述句向量为摘要句;
当所述句向量的二分类概率最大值的索引值为1且二分类概率最大值大于第一预设值0.7时,则判断所述句向量满足预设条件,确定所述句向量为摘要句。
步骤206,按照所述角色标识和所述对话顺序拼接所述摘要句,得到候选摘要文本;
在本发明一可选实施例中,所述句向量包括与所述对话顺序对应的位置信息,步骤206可以包括以下子步骤:
子步骤S11,提取所述摘要句的位置信息;
通常采用位置信息(Position embeddings)来对句向量的位置进行编码,由于对话文本数据按照对话顺序排列,因此,句向量的位置信息也是按照对话顺序进行排列。在确定摘要句之后,可以提取所述摘要句的位置信息。
子步骤S12,根据所述位置信息检索所述摘要句对应的对话文本数据;
提取所述摘要句的位置信息之后,可以根据所述位置信息检索与所述摘要句对应的对话文本数据。
子步骤S13,按照所述位置信息和所述角色标识对所述对话文本数据进行拼接,得到候选摘要文本。
将检索后的对话文本数据按照对话顺序进行拼接,同时所述摘要句中还包括角色标识,拼接所得的候选摘要文本按照对话角色的对话顺序排列。
步骤207,对所述候选摘要文本进行优化,根据优化后的候选摘要文本生成最终摘要文本;所述优化方法包括:对重复次数超过第二预设值的摘要句保留其中一句。
生成候选摘要文本之后,可利用Tri_block模块(Trigram_Block,三元语言模块)对候选摘要文本进行优化,Tri_block模块的工作原理是:对当前已组成摘要S和候选句子c,如果c和S之间存在Tri-gram重叠,则跳过c。优化具体过程如下:设置一个第二预设值,例如,设置预设值为5(本发明对第二预设值大小不做限制,可根据实际情况设置),当候选摘要文本中的摘要句出现的重复次数超过5时,则只保留其中一个摘要句,可选择保留第一次出现的摘要句,根据优化后的候选摘要文本生成最终摘要文本,优化了候选摘要文本的冗余问题。
本发明将对话角色信息加入到对话文本数据中,按照对话角色来分句,使获得的对话文本摘要中包括对话角色信息,更适用于对话文本领域,采用二分类的分类方式,当二分类概率最大值的索引值为1且二分类概率最大值大于第一预设值时确定提取的句向量为摘要句,在拼接摘要句时,按照对话角色的对话顺序进行拼接,使对话文本摘要的顺序具有时序性。对候选摘要文本中出现次数较多的句向量进行处理,优化了候选摘要文本的冗余问题。
参照图3,示出了本发明的另一种对话文本摘要抽取方法实施例的步骤流程图,具体可以包括如下步骤:
步骤301,获取包含角色标识的对话文本数据;所述对话文本数据按照对话顺序排列;
步骤301与步骤101过程相似,在此不再赘述。
步骤302,将所述对话文本数据输入预训练的摘要抽取模型,所述摘要抽取模型设置有特征提取标识和分段标识;
在本发明中,摘要抽取模型为Bert模型(Bidirectional EncoderRepresentations from Transformer,基于Transformer的双向编码器表示),输入模型的对话文本数据,通过标记嵌入(Token embedding)将各个词转换成固定维度的向量。Bert模型设置有特征提取标识,通常将[CLS]作为特征提取标识,将所述对话文本数据输入到摘要抽取模型时,在每句对话的句首***所述特征提取标识[CLS],还可以在每句对话的句尾***标记[SEP],作为对话句结束的标志。
在本发明一可选实施例中,所述分段标识数量为2,还可以包括以下步骤:
确定对话角色的角色数量;所述对话角色具有对应的角色标识;
若所述角色数量为2,则按照所述角色标识分配所述分段标识;
若所述角色数量大于2,则按照所述角色的对话顺序分配所述分段标识。
基于Bert模型生成句向量后,在BertSum模型中采用分段标识(SegmentEmbeddings)区分句子的向量,但是有且仅有两个分段标识:EA以及EB,并且按照EA、EB、EA、EB、EA……的顺序进行排列。在本发明中,分配分段标识之前,还需判断对话角色的数量,对话角色具有对应的角色标识,可用token进行标识,如果角色数量为2,则将所述分段标识直接分配给对话角色,即token_1对应EA、token_2对应EB;如果角色数量大于2,则按照不同对话角色的对话顺序,对分段标识进行分配,例如,角色数量为4,即有4个角色标识:token_1、token_2、token_3、token_4,而此时的对话顺序为token_1、token_3、token_4、token_1、token_2,那么可以按照对话角色的对话顺序分配分段标识。
步骤303,接收所述摘要抽取模型根据所述特征提取标识和分段标识从所述对话文本数据提取的多个句向量。
将对话文本数据输入摘要抽取模型后,所述摘要抽取模型进行句子级的特征提取,根据特征提取标识和分段标识提取多个句向量,完成按照对话角色进行分句。
在本发明另一可选实施例中,所述摘要抽取模型通过如下方法生成:
获取与交互业务相关的第一文本数据,以及初始摘要抽取模型;
采用所述第一文本数据训练所述初始摘要抽取模型,生成所述摘要抽取模型。
其中第一文本数据可以为大规模文本数据,Bert模型构建了两个预训练任务,分别为Masked Language Model(掩码语言模型)和Next Sentence Prediction(下句预测任务)。
在Masked Language Model中,为了训练双向特征,随机mask(掩码)句子中的部分token,然后训练模型来预测被去掉的token。具体过程如下:
随机mask文本数据中15%的token,然后用Bert模型预测mask的token。在随机mask的时候可以选择80%的概率替换成mask,10%的概率保持不变。同时为了防止模型偷懒记住这些mask词本身的信息,引入10%的概率随机替换,这样模型就必须通过双向语义信息去推断预测词。
在Next Sentence Prediction中,为了使Bert模型具备理解长序列上下文的联系的能力,给出两个句子A和B,B有一半的可能性是A的下一句,训练模型来预测B是不是A的下一句话。具体过程如下:
在第一文本数据中选择句子A和句子B输入Bert模型,其中50%的句子B是句子A的下一句,50%的句子B是文本数据中的随机句子,对输出结果进行二分类的预测。
在对模型训练的过程中,将损失函数修改为交叉熵损失。交叉熵刻画的是两个概率分布之间的距离。交叉熵越小,两个概率分布越接近。在二分类的情况下,模型最后需要预测的结果只有两种情况,对于每个类别预测得到的概率为p和1-p,此时交叉熵损失Loss表达式为(log的底数是e):
Loss=1/N*ΣLi=1/N*Σ-[yilog(pi)+(1-yi)log(1-pi)]
其中:yi表示样本i的标签值,正类为1,负类为0;pi表示样本i预测为正类的概率。
当预测值接近标签值时损失很小,当预测值远离标签值时损失很大,这一特性是有利于模型的学习的,通过计算交叉熵损失并且减少交叉熵损失的方法进行模型调整。
本发明实施例中,将对话角色信息加入到对话文本数据中,按照对话角色来分句,使获得的对话文本摘要中包括对话角色信息,更适用于对话文本领域,通过确定分段标识和对话角色之间的对应关系,根据特征提取标识和分段标识提取多个句向量,完成按照对话角色进行分句,在对模型训练的过程中,将损失函数修改为交叉熵损失,使二分类任务具有更明显的区分。
相比其他分句方法的对话文本摘要抽取方法,以Rogue(Recall-OrientedUnderstudy for Gisting Evaluation,自动文摘评测方法标准指标)中Rogue_1、Rogue_2和Rogue_L为评价指标,评价摘要文本生成质量。基本原理是统计候选摘要句和标准摘要句重叠的基本语义单元(如n-gram),来评价摘要的“相似度”。得出下表:
Figure BDA0003721523360000121
Rouge-N:是以n-gram为基本单元,计算两个句子之间的n-gram重合率;Rouge-L:则是统计最长公共子序列的单词数占人工摘要的比例,反映了句子级词序的顺序匹配。
参照图4,示出了本发明用于一种对话文本摘要抽取方法的模型图。
将对话文本数据输入模型时,在对话文本数据中加入角色标识,通过Bert模型获取对话文本数据中每个句子的句向量,其中Token embeddings为标记嵌入,将对话文本数据中的每个句子前后均***[CLS]和[SEP]标记,并将每个句子前的[CLS]标记进入模型后的输出向量,作为该句子的句向量表征。采用Segment Embeddings区分对话文本数据中的多个句子,分别设置为EA和EB。采用Position Embedding用来对句向量的位置进行编码。获取对话文本数据中每个句子的句向量之后,对句向量进行二分类,计算每个句向量的交叉熵损失,判断是否为摘要句。确定摘要句之后,根据摘要句的位置信息,对摘要句进行拼接。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明的一种对话文本摘要抽取装置实施例的结构框图,具体可以包括如下模块:
获取模块501,用于获取包含角色标识的对话文本数据;所述对话文本数据按照对话顺序排列;
句向量生成模块502,用于根据所述对话文本数据生成多个句向量;
判断模块503,在所述句向量满足预设条件时确定所述句向量为摘要句;
候选摘要文本生成模块504,按照所述角色标识和所述对话顺序拼接所述摘要句,得到候选摘要文本。
在本发明的一种可选实施例中,所述装置还包括:
计算模块,计算所述句向量的二分类概率分布,所述二分类索引值为0或1;
句向量确定模块,用于当所述二分类概率最大值的索引值为1且所述二分类概率最大值大于第一预设值时,确定所述句向量满足预设条件。
在本发明的一种可选实施例中,所述句向量包括与所述对话顺序对应的位置信息,所述候选摘要文本生成模块504包括:
提取子模块5041,用于提取所述摘要句的位置信息;
检索子模块5042,用于根据所述位置信息检索所述摘要句对应的对话文本数据;
拼接子模块5043,用于按照所述位置信息和所述角色标识对所述对话文本数据进行拼接,得到候选摘要文本。
在本发明的一种可选实施例中,所述装置还包括:
优化模块,用于对所述候选摘要文本进行优化,根据优化后的候选摘要文本生成最终摘要文本;
所述优化方法包括:对重复次数超过第二预设值的摘要句保留其中一句。
在本发明的一种可选实施例中,所述句向量生成模块包括502:
输入子模块5021,用于将所述对话文本数据输入预训练的摘要抽取模型,所述摘要抽取模型设置有特征提取标识和分段标识;
接收子模块5022,用于接收所述摘要抽取模型根据所述特征提取标识和分段标识从所述对话文本数据提取的多个句向量。
在本发明的一种可选实施例中,所述分段标识数量为2,所述装置还包括:
角色数量确定模块,用于确定对话角色的角色数量;所述对话角色具有对应的角色标识;
分段标识分配模块,用于若所述角色数量为2,则按照所述角色标识分配所述分段标识;若所述角色数量大于2,则按照所述角色的对话顺序分配所述分段标识。
在本发明的一种可选实施例中,所述装置还包括:
第一文本数据获取模块,用于获取与交互业务相关的第一文本数据,以及初始摘要抽取模型;
摘要抽取模型生成模块,用于采用所述第一文本数据训练所述初始摘要抽取模型,生成所述摘要抽取模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,包括:包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述一种对话文本摘要抽取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述一种对话文本摘要抽取方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种对话文本摘要抽取方法和一种对话文本摘要抽取装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种对话文本摘要抽取方法,其特征在于,包括:
获取包含角色标识的对话文本数据;所述对话文本数据按照对话顺序排列;
根据所述对话文本数据生成多个句向量;
在所述句向量满足预设条件时确定所述句向量为摘要句;
按照所述角色标识和所述对话顺序拼接所述摘要句,得到候选摘要文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算所述句向量的二分类概率分布,所述二分类索引值为0或1;
当所述二分类概率最大值的索引值为1且所述二分类概率最大值大于第一预设值时,确定所述句向量满足预设条件。
3.根据权利要求1或2所述的方法,其特征在于,所述句向量包括与所述对话顺序对应的位置信息,所述方法还包括:
提取所述摘要句的位置信息;
根据所述位置信息检索所述摘要句对应的对话文本数据;
按照所述位置信息和所述角色标识对所述对话文本数据进行拼接,得到候选摘要文本。
4.据权利要求1或3所述的方法,其特征在于,所述方法还包括:
对所述候选摘要文本进行优化,根据优化后的候选摘要文本生成最终摘要文本;
所述优化方法包括:对重复次数超过第二预设值的摘要句保留其中一句。
5.根据权利要求1所述的方法,其特征在于,所述根据所述对话文本数据生成多个句向量的步骤包括:
将所述对话文本数据输入预训练的摘要抽取模型,所述摘要抽取模型设置有特征提取标识和分段标识;
接收所述摘要抽取模型根据所述特征提取标识和分段标识从所述对话文本数据提取的多个句向量。
6.根据权利要求5所述的方法,其特征在于,所述分段标识数量为2,所述方法还包括:
确定对话角色的角色数量;所述对话角色具有对应的角色标识;
若所述角色数量为2,则按照所述角色标识分配所述分段标识;
若所述角色数量大于2,则按照所述角色的对话顺序分配所述分段标识。
7.根据权利要求5所述的方法,其特征在于,所述摘要抽取模型通过如下方法生成:
获取与交互业务相关的第一文本数据,以及初始摘要抽取模型;
采用所述第一文本数据训练所述初始摘要抽取模型,生成所述摘要抽取模型。
8.一种对话文本摘要抽取装置,其特征在于,包括:
获取模块,用于获取包含角色标识的对话文本数据;所述对话文本数据按照对话顺序排列;
句向量生成模块,用于根据所述对话文本数据生成多个句向量;
判断模块,在所述句向量满足预设条件时确定所述句向量为摘要句;
候选摘要文本生成模块,按照所述角色标识和所述对话顺序拼接所述摘要句,得到候选摘要文本。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的对话文本摘要抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的对话文本摘要抽取方法的步骤。
CN202210752704.9A 2022-06-29 2022-06-29 一种对话文本摘要抽取方法和装置 Pending CN115129843A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210752704.9A CN115129843A (zh) 2022-06-29 2022-06-29 一种对话文本摘要抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210752704.9A CN115129843A (zh) 2022-06-29 2022-06-29 一种对话文本摘要抽取方法和装置

Publications (1)

Publication Number Publication Date
CN115129843A true CN115129843A (zh) 2022-09-30

Family

ID=83379746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210752704.9A Pending CN115129843A (zh) 2022-06-29 2022-06-29 一种对话文本摘要抽取方法和装置

Country Status (1)

Country Link
CN (1) CN115129843A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009501A (zh) * 2023-10-07 2023-11-07 腾讯科技(深圳)有限公司 一种摘要信息生成方法及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009501A (zh) * 2023-10-07 2023-11-07 腾讯科技(深圳)有限公司 一种摘要信息生成方法及相关装置
CN117009501B (zh) * 2023-10-07 2024-01-30 腾讯科技(深圳)有限公司 一种摘要信息生成方法及相关装置

Similar Documents

Publication Publication Date Title
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
EP3614378A1 (en) Method and apparatus for identifying key phrase in audio, device and medium
CN114580382A (zh) 文本纠错方法以及装置
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN109410949B (zh) 基于加权有限状态转换器的文本内容添加标点方法
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN111666764A (zh) 一种基于XLNet的自动摘要方法与装置
CN111160026B (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
CN111916063A (zh) 基于bpe编码的序列化方法、训练方法、***及存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN115017870A (zh) 一种闭环的话术扩写方法、装置、计算机设备及存储介质
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN115129843A (zh) 一种对话文本摘要抽取方法和装置
CN114757184A (zh) 实现航空领域知识问答的方法和***
CN112633007A (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN111581341A (zh) 一种获取文本摘要的方法及语言模型生成方法
CN116483314A (zh) 一种自动化智能活动图生成方法
CN112434518B (zh) 一种文本报告打分方法及***
CN115221284A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
CN115132182A (zh) 一种数据识别方法、装置、设备及可读存储介质
CN114896396A (zh) 文本分类及模型训练方法、***、设备及存储介质
CN110955768B (zh) 一种基于句法分析的问答***答案生成方法
CN113111646A (zh) 一种文本摘要模型生成及文本摘要识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination