CN111639175B - 一种自监督的对话文本摘要方法及*** - Google Patents

一种自监督的对话文本摘要方法及*** Download PDF

Info

Publication number
CN111639175B
CN111639175B CN202010475376.3A CN202010475376A CN111639175B CN 111639175 B CN111639175 B CN 111639175B CN 202010475376 A CN202010475376 A CN 202010475376A CN 111639175 B CN111639175 B CN 111639175B
Authority
CN
China
Prior art keywords
text
self
dialogue
supervision
paragraphs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010475376.3A
Other languages
English (en)
Other versions
CN111639175A (zh
Inventor
林劼
党元
徐佳俊
马俊
李继演
伍双楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010475376.3A priority Critical patent/CN111639175B/zh
Publication of CN111639175A publication Critical patent/CN111639175A/zh
Application granted granted Critical
Publication of CN111639175B publication Critical patent/CN111639175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自监督的对话文本摘要方法及***,方法包括:文本预处理,将文本字符序列转化为单词序列,并通过词嵌入模型将文本单词转化成语义向量编码;时序自监督编码,训练出将对话句子编码为语义向量的自监督编码模型;自监督分段,训练出将对话文本分割为若干段落的自监督分段模型;无监督主题聚类,将相同主题的段落聚到同一类别集合中;编解码生成式摘要,将主题段落编解码生成文本摘要。本发明还提供一种自监督的对话文本摘要***。本方案利用自监督和无监督模型进行建模,结合了生成式模型的优点,经过分段和主题聚类处理后进行生成式摘要,对完备对话集进行编解码,获得了质量较好的摘要,克服了人工标注样本短缺的问题。

Description

一种自监督的对话文本摘要方法及***
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种自监督的对话文本摘要方法及***。
背景技术
随着信息技术的发展,即时信息迅速膨胀,短信、微博、商品评论、客服对话等单句长度较小的文本成为自然语言处理的研究热点,此类段落长度不超过140个字符的文本被称为短文本,短文本处理技术在自动问答、AI客服等领域有广阔应用前景。对话文本属于典型的短文本,如电商平台客服对话、论坛交流贴、社交软件聊天记录等。相比较于来自文章的文本,对话文本的处理复杂性更高。对话文本摘要任务属于自动文本摘要任务的一种,自动文本摘要目前的方法集中在以下几个方面:
(1)基于统计学的抽取式摘要方法
基于统计学的方法,对文章进行抽取式摘要,统计学方法通过文本的统计特征,计算文本中词句的重要性程度,对源文档的重要句子和词组进行抽取组合成摘要。常见的文本统计特征有:词频率、词句的位置信息和词句的关联信息。
统计学的方法依赖于文本的统计特征,优点是计算简单,且不需要额外自然语言学知识,适用于格式相对规范的文档抽取式摘要。基于统计学的方法最先在自动文本摘要领域取得了重要进展,但该类方法只是基于词语和句子的表层特征进行统计计算,未能利用词句之间的语义信息与联系,抽取的摘要往往包含过多冗余信息,仍然存在很大的局限性。
(2)基于机器学习的抽取式摘要方法
基于传统机器学习的方法以监督学习为主,一般是通过对原文中的句子进行标注,将句子分为摘要句或非摘要句,然后利用机器学习模型对原文中的句子进行分类。这类方法有朴素贝叶斯分类模型、隐马尔可夫模型,线性回归模型、决策树模型等等,最终将分类后的摘要句组合成为摘要。
与无监督的方法相比,基于机器学习的方法可以学习人工标注信息,挖掘文本特征与目标标签间的关联,准确性和效率更高。但是对大量训练集进行人工标注需要消耗巨大的人力成本,在实际的自动文本摘要任务中,往往无法获取足够的标注数据对模型进行训练,因此基于机器学习的方法未能得到广泛应用。
(3)基于深度学习的生成式摘要方法
随着计算机性能的不断增长,深度学习逐渐登上了舞台。目前深度学习方法在自然语言处理领域有一个基本方向:首先寻求文本在指定维数空间内的语义表示,然后再应用到不同的任务中。深度学习应用于文本摘要的生成,可以基于Sequence-to-Sequence模型,利用CNN网络或RNN网络对原文档进行编码,然后利用RNN网络进行解码生成摘要。深度学习的方法更接近于人工的摘要方式:理解内容之后生成概括,目前效果最好,但是需要大量人工标注的样本,训练成本很高。
发明内容
本发明的目的在于实现一种自监督的对话文本摘要方法,主要通过自监督和无监督的技术进行处理,克服了对话文本摘要任务没有大规模标注训练集的问题,生成摘要的效果良好。
本发明的目的是通过以下技术方案来实现的:
一种自监督的对话文本摘要方法,包括以下步骤:文本预处理,将文本字符序列转化为单词序列,并通过词嵌入模型将文本单词转化成语义向量编码;时序自监督编码,训练出能将对话句子编码为语义向量的自监督编码模型;自监督分段,训练出能将对话文本分割为若干段落的自监督分段模型;无监督主题聚类,将相同主题的段落聚到同一类别集合中;编解码生成式摘要,将主题段落编解码生成文本摘要。
具体的,所述文本预处理步骤还包括以下子步骤:
S101,获取对话文本集合,若对话文本为中文,则进行中文分词处理,将对话文本句子转化为单词序列;
S102,利用在大规模语料库上预训练的词嵌入模型,将单词映射为固定维度的语义向量编码。
具体的,所述时序自监督编码步骤还包括以下子步骤:
S201,通过对话的角色转换把对话全文分成N次对话{(A1,B1),...,(AN,BN)},从前文对话中采样出的三次对话{(Ai,Bi),(Aj,Bj),(Ak,Bk)}简称为三元组;
S202,采样三个三元组,第一个三元组{(Ai,Bi),(Aj,Bj),(Ak,Bk)}有序排列,第二个三元组{(Ai,Bi),(Ak,Bk),(Aj,Bj)}乱序排列,其中i<j<k≤t,第三个三元组是待预测部分,有序则标注真实标签0,乱序则标注真实标签1;
S203,将三个三元组分别通过递归自动编码器编码和双向长短期记忆网络进行嵌入后,将得到的三个嵌入拼接后输入多层感知机对待预测三元组的顺序进行分类预测;
S204,重复S202和S203直至训练完成,从递归自动编码器的输出层取出句子的编码向量。
具体的,所述自监督分段步骤还包括以下子步骤:
S301,对于没有类型标签的对话文本,将对话文本随机划分成若干个段落后对句子进行标注,打乱顺序重新排列,以此构造标注训练集;对于带有类型标签的对话文本,从不同类型的对话抽取段落,拼接排列后构造标注训练集;
S302,将段落的开始句标注开始标签<B>,段落的中间句标注中部标签<M>,段落的结尾句标注结束标签<E>;
S303,利用上述时序自监督编码模型将对话句子转化为编码向量,则段落转化为句子编码向量序列,采用双向长短期记忆网络提取序列的特征,然后将双向长短期记忆网络的输出输入到条件随机场层进行分类;
S304,通过分类结果将对话文本划分为若干段落。
具体的,所述无监督主题聚类步骤中还包括以下子步骤:
S401,顺序处理对话文本,将对话段落作为最小聚类单位,首先以第一个对话段落为聚类种子,建立一个新主题,利用时序自监督编码获得段落内对话句子的编码向量后,将与段落内其他对话句子向量距离最小的向量作为主题聚类中心向量,假设段落向量序列为V=(v1,v2,...,vz),vi∈Rn,则序列元素与其它元素的距离计算如下式所示:
Figure BDA0002515668860000031
S402,后续的段落按相同方式获取中心向量,计算与已有主题中心的相似度,将其加入到与它相似度最大且大于设定阈值的主题里,并更新该主题的中心向量,若段落与所有已有主题中心的相似度都小于阈值,则以该段落为聚类种子,建立新的主题类;
S403,重复S402直至遍历全部对话文本段落。
具体的,所述编解码生成式摘要步骤还包括以下子步骤:
S501,在大规模公开摘要数据集上训练编解码器,中文可选择LCSTS数据集,英文可选择CNN/DailyMail等数据集;
S502,假设由上一步获得了K个主题,将主题分别输入训练好的编解码器,生成K个摘要;
S503,每个主题包含一个或多个段落,每个段落包含多个对话句,假设主题中共包含n 个对话句子,linei表示句子(Ai,Bi)在原文中的行号,||D||表示原文总行数,则计算出整个主题的相对位置,计算如下式所示:
Figure BDA0002515668860000041
S504,对K个生成的摘要根据对应主题的相对位置从小到大进行排列,组成最后的摘要。
一种自监督的对话文本摘要***,包括中文分词模块,词嵌入模块,自监督编码模块,自监督分段模块,聚类模块,摘要生成模块,
所述中文分词模块,集成开源分词工具,用于将中文字符序列转化为单词序列;
所述词嵌入模块,集成开源预训练词嵌入模型,用于将文本单词转化成语义向量编码;
所述自监督编码模块,集成时序自监督编码模型,用于将对话句子编码为语义向量;
所述自监督分段模块,集成自监督分段模型,用于将对话文本分割为若干段落;
所述聚类模块,集成无监督聚类算法,用于将相同主题的段落聚到同一类别集合中;
所述摘要生成模块,集成编解码摘要模型及主题段落排列算法,用于将主题段落编解码生成文本摘要。
本发明的有益效果:
1、方法利用自监督和无监督模型进行建模,克服了人工标注样本短缺的问题;
2、方法结合了生成式模型的优点,经过分段和主题聚类处理后进行生成式摘要,可以对完备对话集进行编解码,获得较好质量的摘要。
附图说明
图1是本发明的方法流程图。
图2是本发明涉及的时序自监督编码器示意图。
图3是本发明涉及的分段标注训练集构造示意图。
图4是本发明的***模块图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式,但本发明的保护范围不局限于以下所述。
本实施例中,如图1所示,一种自监督的对话文本摘要方法,方法步骤包括:文本预处理,时序自监督编码,自监督分段,无监督主题聚类,编解码生成式摘要。
其中,文本预处理步骤用于将文本字符序列转化为单词序列,并通过词嵌入模型将文本单词转化成语义向量编码,具体包括以下子步骤:
S101,获取对话文本集合,若对话文本为中文,则进行中文分词处理,将对话文本句子转化为单词序列;
S102,利用在大规模语料库上预训练的词嵌入模型,例如word2vec模型或Glove模型,将单词映射为固定维度的语义向量编码。
其中,时序自监督编码步骤用于训练出能将对话句子编码为语义向量的自监督编码模型,具体包括以下子步骤:
S201,通过对话的角色转换把对话全文分成N次对话{(A1,B1),...,(AN,BN)},从前文对话中采样出的三次对话{(Ai,Bi),(Aj,Bj),(Ak,Bk)}简称为三元组;
S202,采样三个三元组,第一个三元组{(Ai,Bi),(Aj,Bj),(Ak,Bk)}有序排列,第二个三元组{(Ai,Bi),(Ak,Bk),(Aj,Bj)}乱序排列,其中i<j<k≤t,第三个三元组是待预测部分,有序则标注真实标签0,乱序则标注真实标签1;
S203,如图2所示,将三个三元组分别通过递归自动编码器(RAE)编码和双向长短期记忆网络(BiLSTM)进行嵌入后,将得到的三个嵌入拼接后输入多层感知机(MLP)对待预测三元组的顺序进行分类预测;
S204,重复子步骤S202和S203直至训练完成,从递归自动编码器(RAE)的输出层取出句子的编码向量。
其中,自监督分段步骤用于训练出能将对话文本分割为若干段落的自监督分段模型,具体包括以下子步骤:
S301,如图3中(a)部分所示,对于没有类型标签的对话文本,将对话文本随机划分成若干个段落后对句子进行标注,打乱顺序重新排列,以此构造标注训练集;如图3中(b)部分所示,对于带有类型标签的对话文本,从不同类型的对话抽取段落,拼接排列后构造标注训练集;
S302,将段落的开始句标注开始标签<B>,段落的中间句标注中部标签<M>,段落的结尾句标注结束标签<E>;
S303,利用上述时序自监督编码模型将对话句子转化为编码向量,则段落转化为句子编码向量序列,采用双向长短期记忆网络提取序列的特征,然后将双向长短期记忆网络 (BiLSTM)的输出输入到条件随机场层(CRF)进行分类;
S304,通过分类结果将对话文本划分为若干段落。
其中,无监督主题聚类步骤用于将相同主题的段落聚到同一类别集合中,具体包括以下子步骤:
S401,顺序处理对话文本,将对话段落作为最小聚类单位,首先以第一个对话段落为聚类种子,建立一个新主题,利用时序自监督编码获得段落内对话句子的编码向量后,将与段落内其他对话句子向量距离最小的向量作为主题聚类中心向量,假设段落向量序列为V=(v1,v2,...,vz),vi∈Rn,则序列元素与其它元素的距离计算如下式所示:
Figure BDA0002515668860000061
S402,后续的段落按相同方式获取中心向量,计算与已有主题中心的相似度,将其加入到与它相似度最大且大于设定阈值的主题里,并更新该主题的中心向量,若段落与所有已有主题中心的相似度都小于阈值,则以该段落为聚类种子,建立新的主题类;
S403,重复S402直至遍历全部对话文本段落。
其中,编解码生成式摘要步骤用于主题段落编解码生成文本摘要,具体包括以下子步骤:
S501,在大规模公开摘要数据集上训练编解码器,中文可选择LCSTS数据集,英文可选择CNN/DailyMail等数据集;
S502,假设由上一步获得了K个主题,将主题分别输入训练好的编解码器,生成K个摘要;
S503,每个主题包含一个或多个段落,每个段落包含多个对话句,假设主题中共包含n 个对话句子,linei表示句子(Ai,Bi)在原文中的行号,||D||表示原文总行数,则计算出整个主题的相对位置,计算如下式所示:
Figure BDA0002515668860000062
S504,对K个生成的摘要根据对应主题的相对位置从小到大进行排列,组成最后的摘要。
本实施例中,如图4所示,还提供一种自监督的对话文本摘要***,用于实施上述的自监督的对话文本摘要方法,***包括中文分词模块,词嵌入模块,自监督编码模块,自监督分段模块,聚类模块,摘要生成模块。
其中,中文分词模块集成有开源分词工具,用于将中文字符序列转化为单词序列。词嵌入模块集成有开源预训练词嵌入模型,用于将文本单词转化成语义向量编码。自监督编码模块集成有时序自监督编码模型,用于将对话句子编码为语义向量。自监督分段模块集成有自监督分段模型,用于将对话文本分割为若干段落。聚类模块集成有无监督聚类算法,用于将相同主题的段落聚到同一类别集合中。摘要生成模块集成有编解码摘要模型及主题段落排列算法,用于将主题段落编解码生成文本摘要。
本实施例中,一种自监督的对话文本摘要***的运行流程包括:首先获取对话文本集合,通过中文分词模块将中文字符序列转化为单词序列,运行词嵌入模块将文本单词转化成语义向量编码,并通过通过自监督编码模块将对话句子编码为语义向量,将编码向量传入自监督分段模块,将对话文本分割为若干段落,再利用聚类模块将相同主题的段落聚到同一类别集合中,最后通过摘要生成模块将主题段落编解码生成文本摘要。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims (4)

1.一种自监督的对话文本摘要方法,其特征在于,包括以下步骤:
文本预处理,将文本字符序列转化为单词序列,并通过词嵌入模型将文本单词转化成语义向量编码;
时序自监督编码,训练出能将对话句子编码为语义向量的自监督编码模型;
自监督分段,训练出能将对话文本分割为若干段落的自监督分段模型;
无监督主题聚类,将相同主题的段落聚到同一类别集合中;
编解码生成式摘要,将主题段落编解码生成文本摘要;
其中,所述时序自监督编码步骤还包括以下子步骤:
S201,通过对话的角色转换把对话全文分成N次对话{(A1,B1),...,(AN,BN)},从前文对话中采样出的三次对话{(Ai,Bi),(Aj,Bj),(Ak,Bk)}简称为三元组;
S202,采样三个三元组,第一个三元组{(Ai,Bi),(Aj,Bj),(Ak,Bk)}有序排列,第二个三元组{(Ai,Bi),(Ak,Bk),(Aj,Bj)}乱序排列,其中i<j<k≤t,第三个三元组是待预测部分,有序则标注真实标签0,乱序则标注真实标签1;
S203,将三个三元组分别通过递归自动编码器编码和双向长短期记忆网络进行嵌入后,将得到的三个嵌入拼接后输入多层感知机对待预测三元组的顺序进行分类预测;
S204,重复S202和S203直至训练完成,从递归自动编码器的输出层取出句子的编码向量;
所述自监督分段步骤还包括以下子步骤:
S301,对于没有类型标签的对话文本,将对话文本随机划分成若干个段落后对句子进行标注,打乱顺序重新排列,以此构造标注训练集;对于带有类型标签的对话文本,从不同类型的对话抽取段落,拼接排列后构造标注训练集;
S302,将段落的开始句标注开始标签<B>,段落的中间句标注中部标签<M>,段落的结尾句标注结束标签<E>;
S303,利用上述时序自监督编码模型将对话句子转化为编码向量,则段落转化为句子编码向量序列,采用双向长短期记忆网络提取序列的特征,然后将双向长短期记忆网络的输出输入到条件随机场层进行分类;
S304,通过分类结果将对话文本划分为若干段落;
所述编解码生成式摘要步骤还包括以下子步骤:
S501,在大规模公开摘要数据集上训练编解码器,中文可选择LCSTS数据集,英文可选择CNN/DailyMail等数据集;
S502,假设由上一步获得了K个主题,将主题分别输入训练好的编解码器,生成K个摘要;
S503,每个主题包含一个或多个段落,每个段落包含多个对话句,假设主题中共包含n个对话句子,linei表示句子(Ai,Bi)在原文中的行号,||D||表示原文总行数,则计算出整个主题的相对位置,计算如下式所示:
Figure FDA0004108203980000021
S504,对K个生成的摘要根据对应主题的相对位置从小到大进行排列,组成最后的摘要。
2.根据权利要求1所述的一种自监督的对话文本摘要方法,其特征在于,所述文本预处理步骤还包括以下子步骤:
S101,获取对话文本集合,若对话文本为中文,则进行中文分词处理,将对话文本句子转化为单词序列;
S102,利用在大规模语料库上预训练的词嵌入模型,将单词映射为固定维度的语义向量编码。
3.根据权利要求1所述的一种自监督的对话文本摘要方法,其特征在于,所述无监督主题聚类步骤中还包括以下子步骤:
S401,顺序处理对话文本,将对话段落作为最小聚类单位,首先以第一个对话段落为聚类种子,建立一个新主题,利用时序自监督编码获得段落内对话句子的编码向量后,将与段落内其他对话句子向量距离最小的向量作为主题聚类中心向量,假设段落向量序列为V=(v1,v2,...,vz),vi∈Rn,则序列元素与其它元素的距离计算如下式所示:
Figure FDA0004108203980000022
S402,后续的段落按相同方式获取中心向量,计算与已有主题中心的相似度,将其加入到与它相似度最大且大于设定阈值的主题里,并更新该主题的中心向量,若段落与所有已有主题中心的相似度都小于阈值,则以该段落为聚类种子,建立新的主题类;
S403,重复S402直至遍历全部对话文本段落。
4.一种自监督的对话文本摘要***,基于权利要求1-3任意一项所述的一种自监督的对话文本摘要方法,其特征在于,包括:
中文分词模块,集成开源分词工具,用于将中文字符序列转化为单词序列;
词嵌入模块,集成开源预训练词嵌入模型,用于将文本单词转化成语义向量编码;自监督编码模块,集成时序自监督编码模型,用于将对话句子编码为语义向量;自监督分段模块,集成自监督分段模型,用于将对话文本分割为若干段落;
聚类模块,集成无监督聚类算法,用于将相同主题的段落聚到同一类别集合中;摘要生成模块,集成编解码摘要模型及主题段落排列算法,用于将主题段落编解码生成文本摘要。
CN202010475376.3A 2020-05-29 2020-05-29 一种自监督的对话文本摘要方法及*** Active CN111639175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010475376.3A CN111639175B (zh) 2020-05-29 2020-05-29 一种自监督的对话文本摘要方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010475376.3A CN111639175B (zh) 2020-05-29 2020-05-29 一种自监督的对话文本摘要方法及***

Publications (2)

Publication Number Publication Date
CN111639175A CN111639175A (zh) 2020-09-08
CN111639175B true CN111639175B (zh) 2023-05-02

Family

ID=72330292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010475376.3A Active CN111639175B (zh) 2020-05-29 2020-05-29 一种自监督的对话文本摘要方法及***

Country Status (1)

Country Link
CN (1) CN111639175B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070076B (zh) * 2020-11-13 2021-04-06 深圳壹账通智能科技有限公司 文本段落结构还原方法、装置、设备及计算机存储介质
CN112541343B (zh) * 2020-12-03 2022-06-14 昆明理工大学 基于词对齐的半监督对抗学习跨语言摘要生成方法
CN112883722B (zh) * 2021-03-04 2023-04-21 中山大学 一种基于云数据中心分布式文本摘要方法
CN113138773B (zh) * 2021-04-19 2024-04-16 杭州科技职业技术学院 云计算分布式服务集群方法
US11630958B2 (en) 2021-06-02 2023-04-18 Microsoft Technology Licensing, Llc Determining topic labels for communication transcripts based on a trained generative summarization model
CN113822038B (zh) * 2021-06-03 2024-06-25 腾讯科技(深圳)有限公司 一种摘要生成方法和相关装置
CN113268579B (zh) * 2021-06-24 2023-12-08 中国平安人寿保险股份有限公司 对话内容类别识别方法、装置、计算机设备及存储介质
CN113255319B (zh) * 2021-07-02 2021-10-26 深圳市北科瑞声科技股份有限公司 模型训练方法、文本分段方法、摘要抽取方法及装置
CN114254084A (zh) * 2021-08-12 2022-03-29 北京好欣晴移动医疗科技有限公司 心理疾病专业术语无监督聚类方法、装置和***
CN113836941B (zh) * 2021-09-27 2023-11-14 上海合合信息科技股份有限公司 一种合同导航方法及装置
CN114357987A (zh) * 2021-12-28 2022-04-15 讯飞智元信息科技有限公司 摘要生成方法及相关装置、设备和存储介质
CN114492429B (zh) * 2022-01-12 2023-07-18 平安科技(深圳)有限公司 文本主题的生成方法、装置、设备及存储介质
CN114492384A (zh) * 2022-01-17 2022-05-13 海南车智易通信息技术有限公司 训练生成文本生成模型的方法及文本生成方法
CN116933801A (zh) * 2022-04-01 2023-10-24 北京沃东天骏信息技术有限公司 对话摘要生成方法和装置、模型训练方法和设备
CN114841171B (zh) * 2022-04-29 2023-04-28 北京思源智通科技有限责任公司 一种文本分段主题提取方法、***、可读介质及设备
CN115062139B (zh) * 2022-05-10 2024-06-11 电子科技大学 一种对话文本摘要模型自动搜索方法
CN115982600A (zh) * 2022-12-28 2023-04-18 中国电信股份有限公司 匹配模型训练方法、设备及介质
CN116541505B (zh) * 2023-07-05 2023-09-19 华东交通大学 一种基于自适应对话分割的对话摘要生成方法
CN116775497B (zh) * 2023-08-17 2023-11-14 北京遥感设备研究所 数据库测试用例生成需求描述编码方法
CN117556025B (zh) * 2024-01-10 2024-04-02 川投信息产业集团有限公司 基于ai和可视化的平台化项目服务信息优化方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963830B1 (en) * 1999-07-19 2005-11-08 Fujitsu Limited Apparatus and method for generating a summary according to hierarchical structure of topic
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN109800390A (zh) * 2018-12-21 2019-05-24 北京石油化工学院 一种个性化情感摘要的计算方法与装置
CN109885683A (zh) * 2019-01-29 2019-06-14 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及***
CN110929024A (zh) * 2019-12-10 2020-03-27 哈尔滨工业大学 一种基于多模型融合的抽取式文本摘要生成方法
CN111177365A (zh) * 2019-12-20 2020-05-19 山东科技大学 一种基于图模型的无监督自动文摘提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127323A1 (en) * 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
US9317498B2 (en) * 2014-05-23 2016-04-19 Codeq Llc Systems and methods for generating summaries of documents

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963830B1 (en) * 1999-07-19 2005-11-08 Fujitsu Limited Apparatus and method for generating a summary according to hierarchical structure of topic
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN109800390A (zh) * 2018-12-21 2019-05-24 北京石油化工学院 一种个性化情感摘要的计算方法与装置
CN109885683A (zh) * 2019-01-29 2019-06-14 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及***
CN110929024A (zh) * 2019-12-10 2020-03-27 哈尔滨工业大学 一种基于多模型融合的抽取式文本摘要生成方法
CN111177365A (zh) * 2019-12-20 2020-05-19 山东科技大学 一种基于图模型的无监督自动文摘提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Generating titles for paragraphs using statistically extracted keywords and phrases";D. Gokcay等;《1995 IEEE International Conference on Systems, Man and Cybernetics. Intelligent Systems for the 21st Century》;全文 *
"面向对话文本的主题分割技术研究";王炳浩;《中国优秀硕士学位论文全文数据库》;全文 *

Also Published As

Publication number Publication date
CN111639175A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN111639175B (zh) 一种自监督的对话文本摘要方法及***
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其***
CN113128229B (zh) 一种中文实体关系联合抽取方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及***
CN110569505B (zh) 一种文本输入方法及装置
CN112800768A (zh) 一种嵌套命名实体识别模型的训练方法及装置
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN112507190B (zh) 一种财经快讯的关键词提取方法和***
CN115759119B (zh) 一种金融文本情感分析方法、***、介质和设备
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN110717316B (zh) 字幕对话流的主题分割方法及装置
CN116861021A (zh) 基于去噪和动量蒸馏的跨模态检索模型构建方法
CN116484852A (zh) 一种基于关系图注意力网络的中文专利实体关系联合抽取方法
US11709989B1 (en) Method and system for generating conversation summary
WO2023159759A1 (zh) 模型的训练方法、情感消息生成方法和装置、设备、介质
CN115587184A (zh) 一种关键信息抽取模型的训练方法、装置及其存储介质
CN115759102A (zh) 一种中国诗酒文化命名实体识别方法
CN112800186B (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant