CN110750637B - 文本摘要提取方法、装置、计算机设备及存储介质 - Google Patents

文本摘要提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110750637B
CN110750637B CN201910753710.4A CN201910753710A CN110750637B CN 110750637 B CN110750637 B CN 110750637B CN 201910753710 A CN201910753710 A CN 201910753710A CN 110750637 B CN110750637 B CN 110750637B
Authority
CN
China
Prior art keywords
text
processed
training
category
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910753710.4A
Other languages
English (en)
Other versions
CN110750637A (zh
Inventor
张思亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN201910753710.4A priority Critical patent/CN110750637B/zh
Publication of CN110750637A publication Critical patent/CN110750637A/zh
Application granted granted Critical
Publication of CN110750637B publication Critical patent/CN110750637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种文本摘要提取方法、装置、计算机设备及存储介质,该方法包括以下步骤:利用预先训练得到的目标文本分类模型对待处理文本进行处理,得到所述待处理文本的类别;针对所述待处理文本执行如下循环处理,直至所述待处理文本中的所有句子均经过删除:从所述待处理文本中随机删除某一未被删除过的句子,得到剩余文本;利用所述目标文本分类模型对所述剩余文本进行处理,得到所述剩余文本的类别;判断所述剩余文本的类别是否与所述待处理文本的类别相同,若否,将删除的句子恢复至所述待处理文本中;将循环处理结束后得到的剩余文本作为目标文本摘要。本发明是结合文本整体语义得到的摘要,提高了文本摘要提取的准确性。

Description

文本摘要提取方法、装置、计算机设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种文本摘要提取方法、装 置、计算机设备及存储介质。
背景技术
摘要是能够反映某一文本的中心内容的简单连贯的短文,能够帮助人们在 阅读海量文本时缩短阅读时间。自动文本摘要技术是指通过计算机利用一系列 文本处理技术对冗长的文本进行分析处理,提取文本主要中心思想,生成一段 简洁概括性的摘要,帮助用户定位到自己想要的内容。
自动文本摘要技术是自然语言处理领域的研究热点,根据摘要内容的生成 方式,分为抽取式摘要和生成式摘要。目前,生成式技术还不成熟,业内普遍 使用的是抽取式方法生成摘要,通常先将文本进行分词,去除停用词等预处理 步骤,利用TF-IDF算法构建文本矩阵,计算句子得分,再根据得分挑选作为摘要的句子。但是这样的方法停留在字面上,没有利用上下文的语义关系,提 取的摘要缺乏关联性,不能根据语境抽取关键内容,不能满足用户需求。
发明内容
针对上述现有技术的不足,本发明提供一种文本摘要提取方法、装置、计 算机设备及存储介质,以解决现有技术没有利用上下文的语义关系对摘要进行 抽取的问题。
为了实现上述目的,本发明提供一种文本摘要提取方法,包括以下步骤:
利用预先训练得到的目标文本分类模型对待处理文本进行处理,得到所述 待处理文本的类别;
针对所述待处理文本执行如下循环处理,直至所述待处理文本中的所有句 子均经过删除:
从所述待处理文本中随机删除某一未被删除过的句子,得到剩余文本;
利用所述目标文本分类模型对所述剩余文本进行处理,得到所述剩余文本 的类别;
判断所述剩余文本的类别是否与所述待处理文本的类别相同,若否,将删 除的句子恢复至所述待处理文本中;
将循环处理结束后得到的剩余文本作为目标文本摘要。
进一步地,所述目标文本分类模型通过如下步骤训练得到:
采集样本数据集,所述样本数据集包含若干训练文本,各所述训练文本标 注有对应的类别;
按预定比例将所述样本数据集划分为训练集和验证集;
基于所述训练集,训练得到所述目标文本分类模型;
基于所述验证集对所述目标文本分类模型进行验证,若验证通过,训练结 束。
进一步地,所述待处理文本和训练文本为投诉文本。
进一步地,所述待处理文本和训练文本的类别包括时效不达、价格异议和 服务态度等。
进一步地,所述目标文本分类模型为TEXTCNN模型,所述TEXTCNN模 型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。
进一步地,所述利用预先训练得到的目标文本分类模型对待处理文本进行 处理的步骤如下:
通过所述嵌入层对所述待处理文本进行向量化处理,得到所述待处理文本 的词向量;
通过所述卷积层对所述待处理文本的词向量进行卷积处理,以提取所述待 处理文本的特征;
通过所述池化层对所述待处理文本的特征进行池化处理,得到所述待处理 文本的降维特征;
通过所述全连接层将所述待处理文本的降维特征传输至所述Softmax分类 层;
通过所述Softmax分类层对所述待处理文本的降维特征进行处理,得到所 述待处理文本的类别。
进一步地,所述文本摘要提取方法提取方法还包括:在利用预先训练得到 的目标文本分类模型对待处理文本进行处理之前,对所述待处理文本进行预处 理。
为了实现上述目的,本发明还提供一种文本摘要提取装置,包括:
类别获取模块,用于利用预先训练得到的目标文本分类模型对待处理文本 进行处理,得到所述待处理文本的类别;
循环删减处理模块,用于针对所述待处理文本执行如下循环处理,直至所 述待处理文本中的所有句子均经过删除:
从所述待处理文本中随机删除某一未经过删除的句子,得到剩余文本;
利用所述目标文本分类模型对所述剩余文本进行处理,得到所述剩余文本 的类别;
判断所述剩余文本的类别是否与所述待处理文本的类别相同,若否,将删 除的句子恢复至所述待处理文本中;
摘要获取模块,用于获取循环处理结束后得到的剩余文本作为目标文本摘 要。
进一步地,所述文本摘要提取装置还包括:模型训练模块,用于对所述目 标文本分类模型进行训练,所述模型训练模块包括:
样本数据集采集单元,用于采集样本数据集,所述样本数据集包含若干训 练文本,各所述训练文本标注有对应的类别标签;
样本数据集划分单元,用于按预定比例将所述样本数据集划分为训练集和 验证集;
训练单元,用于基于所述训练集,训练得到所述目标文本分类模型;
验证单元,用于基于所述验证集对所述目标文本分类模型进行验证,若验 证通过,训练结束。
进一步地,所述待处理文本和训练文本为投诉文本。
进一步地,所述待处理文本和训练文本的类别包括时效不达、价格异议和 服务态度等。
进一步地,所述目标文本分类模型为TEXTCNN模型,所述TEXTCNN模 型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。
进一步地,所述类别获取模块具体用于:
通过所述嵌入层对所述待处理文本进行向量化处理,得到所述待处理文本 的词向量;
通过所述卷积层对所述待处理文本的词向量进行卷积处理,以提取所述待 处理文本的特征;
通过所述池化层对所述待处理文本的特征进行池化处理,得到所述待处理 文本的降维特征;
通过所述全连接层将所述待处理文本的降维特征传输至所述Softmax分类 层;
通过所述Softmax分类层对所述剩余文本的降维特征进行处理,得到所述 剩余文本的类别。
进一步地,所述文本摘要提取装置还包括:预处理模块,用于在利用预先 训练得到的目标文本分类模型对待处理文本进行处理之前,对所述待处理文本进行预处理。
为了实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器 以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述 计算机程序时实现前述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有 计算机程序,所述计算机程序被处理器执行时实现前述方法的步骤。
通过采用上述技术方案,本发明具有如下有益效果:
本发明通过随机循环删减待处理文本中的句子,并计算句子删除之后的文 本类别是否与删除之前相同,若相同,说明删除的句子对文本的语义贡献小, 该句子应被删除,否则,说明删除的句子对文本的语义贡献大,该句子不应删 除,则在文本中将该删除的句子恢复,当文本中的所有句子均被删除过时,将 得到文本的摘要。由于上述过程是基于分类模型实现的,而分类模型是基于语 义训练的,因而基于本发明得到的摘要是结合文本整体语义的摘要,即,该摘要能够真正从语义方面去概况文本的整体信息。此外,本发明删减句子时随机 删除的,保证了关键语义不受顺序的影响,在兼顾文本处理速度性能的同时,提高了文本摘要生成的准确性。
附图说明
图1为本发明一种文本摘要提取方法的一个实施例的流程图;
图2为本发明一种文本摘要提取装置的一个实施例的框图;
图3为本发明计算机设备的一个实施例的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通 技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发 明保护的范围。
实施例一
如图1所示,本发明提供一种文本摘要提取方法,具体包括以下步骤:
S0,根据采集的样本数据集训练得到目标文本分类模型,具体训练过程包 含以下步骤:
S01,采集样本数据集,该样本数据集包含若干训练文本,各训练文本标注 有对应的类别。在本实施例中,训练文本可以是投诉文本。例如,假设车险公 司需要从客户的投诉文本中快速获取投诉摘要,则采集的样本数据集应包含标 注有不同类别的投诉文本,投诉文本的类别在此包括但不限于时效不达、价格异议、服务态度。应该理解,除投诉文本外,针对其它不同的应用场景,可以 根据不同需要采集相应的样本数据集。
S02,按预定比例将采集到的样本数据集划分为训练集和验证集,如训练集 占80%,验证集占20%。
S03,基于前述训练集,采用梯度下降算法训练得到目标文本分类模型。在 本发明中,目标文本分类模型优选为常用的文本分类模型——TEXTCNN模型,TextCNN是利用卷积神经网络对文本进行分类的模型,其包含嵌入层、卷积层、 池化层、全连接层和Softmax分类层。
S04,基于前述验证集,验证训练得到的目标文本分类模型的准确率 (Accuracy)、精确率(Precision)、召回率(Recall)和F1_score(F1分数)等性能 是否满足预设条件,若满足,表示目标文本分类模型验证通过,则训练结束, 否则,增加训练集中训练文本的数量并对目标分类模型进行重新训练。
S1,获取待处理文本,该待处理文本可以是投诉文本,例如,车险客户的 投诉文本。
S2,利用训练得到的目标文本分类模型(TEXTCNN模型)对待处理文本 进行处理,得到待处理文本的类别,具体通过如下步骤实现:
S21,通过TEXTCNN模型的嵌入层对待处理文本进行向量化处理,得到 待处理文本的词向量;
S22,通过TEXTCNN模型的卷积层对待处理文本的词向量进行卷积处理, 以提取待处理文本的特征;
S23,通过TEXTCNN模型的池化层对待处理文本的特征进行池化处理, 得到待处理文本的降维特征;
S24,通过TEXTCNN模型的全连接层将待处理文本的降维特征传输至 Softmax分类层;
S25,通过TEXTCNN模型的Softmax分类层根据待处理文本的降维特征 计算得到待处理文本对应各种分类标签的概率,并将概率最大的分类标签作为 待处理文本的类别。
S3,对待处理文本进行分句处理。具体地,本发明可以按照句子级标点符 号,如句号“。”、感叹号“!”、问号“?”等,对待处理文本进行分句。例如, 假设待处理文本为以下投诉内容“申请的非事故救援,中间只有一个电话联系 告知需要等两个小时过去,结果等了4个多小时还是没过去,对此不满投诉。 客户称现在不需要我司救援了,自己找人救援。多次联系安联救援028-65200801 无人接听,客户要求我司给予个说法。烦请机构尽快处理回复,谢谢!”,则分句处理后得到以下四个句子:第1句为“申请的非事故救援,中间只有一个电话联系告知需要等两个小时过去,结果等了4个多小时还是没过去,对此不满 投诉。”、第2句为“客户称现在不需要我司救援了,自己找人救援。”、第3句 为“多次联系安联救援028-65200801无人接听,客户要求我司给予个说法。”、 第4句为“烦请机构尽快处理回复,谢谢!”。
分句处理完成后,对每一句子分别设置对应的删除标志位,并将该删除标 志位的初始值设为0,删除标志位为0时表示对应句子未被删除过。
S4,从待处理文本中随机选择某一未被删除过的句子进行删除,得到剩余 文本。在前述某一句子被选中删除后,则将前述某一句子标注为已删除过,从 而后续重复执行本步骤时,不会再对该句子进行删除。在本实施例中,将前述 某一句子标注为已删除过是指:将该句子的删除标志位置为1,删除标位为1 时表示对应句子已被删除过。
S5,利用目标文本分类模型,即TEXTCNN模型,对剩余文本进行处理, 得到剩余文本的类别,具体流程如下:
S51,通过TEXTCNN模型的嵌入层对剩余文本进行向量化处理,得到剩 余文本的词向量;
S52,通过TEXTCNN模型的卷积层对剩余文本的词向量进行卷积处理, 以提取剩余文本的特征;
S53,通过TEXTCNN模型的池化层对剩余文本的特征进行池化处理,得 到剩余文本的降维特征;
S54,通过TEXTCNN模型的全连接层将剩余文本的降维特征传输至 Softmax分类层;
S55,通过TEXTCNN模型的Softmax分类层计算得到剩余文本对应每种 分类标签的概率,并将概率最大的分类标签作为剩余文本的类别。
S6,判断删除前述某一句子得到的剩余文本的类别是否与待处理文本的类 别相同,若相同,说明删除的前述某一句子对待处理文本的整体语义不重要, 即,该句子应该从待处理文本的目标文本摘要中删除,则执行步骤S8;若不相 同,执行步骤S7。
S7,若剩余文本的类别与待处理文本的类别不同,则说明删除的前述某一 句子对文本的整体语义是重要的,即,该句子不应该从待处理文本的目标文本 摘要中删除。因此,将该删除的句子恢复至待处理文本中,并执行步骤S8。
S8,判断待处理文本中所有句子是否均被删除过,即,判断所有句子的删 除标志位是否都为1,若是,执行步骤S9,否则,返回步骤S4执行下一次循 环处理。
S9,将待处理文本中所有句子均经过删除后最终得到的剩余文本作为待提 取的目标文本摘要。
本发明的一个应用场景为:假设一待处理文本X包括A、B、C、D四个句 子,该文本通过目标文本分类模型处理后得到的类型为M。采用本申请的方法 处理时,首先随机删除句子D,若删除句子D后文本的类别仍为M,则说明句 子D对文本X不重要,句子D可以删除,得到包括句子A、B、C的剩余文本; 而后在剩余文本中随机删除句子C,若删除句子C后文本的类别不为M,则说 明句子C对文本X重要,句子C删除不可以删除,则将其恢复,仍然得到包括句子A、B、C的剩余文本;而后,继续在剩余文本中循环随机删除未被删过的 句子,由于句子C已被删除过,所以不再删除句子C,以此类推,将文本M中 所有句子均被删除过得到的剩余文本作为摘要。以待处理文本为步骤S3中提供的投诉文本为例,假设通过TEXTCNN模型对该文本处理后得到的类别为“时 效不达”,删除第1句后得到的类别发生改变,而删除第2、3或4句后得到的 类别仍为“时效不达”,说明第1句对该投诉文本来说是关键的,而第2-4句对该文本来说是非关键的,应从其摘要中删除,从而得到该投诉文本的摘要为第 1句。
可见,本发明通过随机循环删减待处理文本中的句子,并计算句子删除之 后的文本类别是否与删除之前相同,若相同,说明删除的句子对文本的语义贡 献小,该句子应被删除,否则,说明删除的句子对文本的语义贡献大,该句子 不应删除,则在文本中将该删除的句子恢复,当文本中的所有句子均被删除过 时,将得到文本的摘要。由于本发明是基于分类模型实现的,而分类模型是基于语义训练的,因而基于本发明得到的摘要是结合文本整体语义的摘要,即, 该摘要能够真正从语义方面去概况文本的整体信息,在兼顾文本处理速度性能 的同时,提高了文本摘要生成的准确性。
作为本实施例优选的方案,本发明还包括在执行步骤S2之前,对获取到的 待处理文本进行预处理,具体包括对待处理文本进行停用词过滤等预处理,即, 检测待处理文本中是否有词与预设停用词表中的停用词匹配,若是,则将匹配 的词删除。应该理解,停用词通常为无实际意义的虚词,如“的”、“地”、“得”、 “了”等。
需要说明的是,对于本实施例,为了简单描述,故将其都表述为一系列的 动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的 限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本 领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉 及的动作并不一定是本发明所必须的。
实施例二
如图2所示,本实施例提供一种文本摘要提取装置10,包括:
模型训练模块11,用于训练得到目标文本分类模型;
获取模块12,用于利用预先训练得到的目标文本分类模型对待处理文本进 行处理,得到待处理文本的类别,其中,待处理文本可以为投诉文本;
循环删减处理模块13,用于针对待处理文本执行如下循环处理,直至待处 理文本中的所有句子均经过删除:
从待处理文本中随机删除某一未经过删除的句子,得到剩余文本;
利用所述目标文本分类模型对剩余文本进行处理,得到剩余文本的类别;
判断剩余文本的类别是否与待处理文本的类别相同,若否,将删除的句子 恢复至所述待处理文本中;
摘要获取模块14,用于获取循环处理结束后得到的剩余文本作为目标文本 摘要。
在本实施例中,模型训练模块11包括:
样本数据集采集单元,用于采集样本数据集,样本数据集包含若干训练文 本,各训练文本标注有对应的类别,其中,训练文本可以为投诉文本;
样本数据集划分单元,用于按预定比例将样本数据集划分为训练集和验证 集;
训练单元,用于基于训练集,训练得到目标文本分类模型;
验证单元,用于基于验证集对目标文本分类模型进行验证,若验证通过, 训练结束,否则,增加训练集中训练文本的数量并对目标分类模型进行重新训 练。
在本实施例中,目标文本分类模型为TEXTCNN模型,TEXTCNN模型包 含嵌入层、卷积层、池化层、全连接层和Softmax分类层。
在本实施例中,类别获取模块12具体用于:
通过TEXTCNN模型的嵌入层对待处理文本进行向量化处理,得到待处理 文本的词向量;
通过TEXTCNN模型的卷积层对待处理文本的词向量进行卷积处理,以提 取待处理文本的特征;
通过TEXTCNN模型的池化层对待处理文本的特征进行池化处理,得到待 处理文本的降维特征;
通过TEXTCNN模型的全连接层将待处理文本的降维特征传输至Softmax 分类层;
通过TEXTCNN模型的Softmax分类层,根据待处理文本的降维特征计算 得到待处理文本对应各种分类标签的概率,并将概率最大的分类标签作为待处 理文本的类别。
在本实施例中,文本摘要提取装置10还可以包括预处理模块,用于在利用 预先训练得到的目标文本分类模型对待处理文本进行处理之前,对待处理文本 进行预处理,具体包括停用词过滤等预处理,即,检测待处理文本中是否有词 与预设停用词表中的停用词匹配,若是,则将匹配的词删除。应该理解,停用词通常为无实际意义的虚词,如“的”、“地”、“得”、“了”等。
本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例, 所涉及的模块作并不一定是本发明所必须的。
实施例三
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、 笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜 式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本 实施例的计算机设备20至少包括但不限于:可通过***总线相互通信连接的存储器21、处理器22,如图3所示。需要指出的是,图3仅示出了具有组件21-22 的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代 的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、 卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随 机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在 一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算 机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备 20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡 (Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包 括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备 20的操作***和各类应用软件,例如实施例二的文本摘要提取装置10的程序 代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类 数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit, CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通 常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储 器21中存储的程序代码或者处理数据,例如运行文本摘要提取装置10,以实 现实施例一的文本摘要提取方法。
实施例四
本发明还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型 存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访 问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务 器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相 应功能。本实施例的计算机可读存储介质用于存储文本摘要提取装置10,被处 理器执行时实现实施例一的文本摘要提取方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实 施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利 用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运 用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本摘要提取方法,其特征在于,包括以下步骤:
利用预先基于语义训练得到的目标文本分类模型对待处理文本进行处理,得到所述待处理文本的类别;
针对所述待处理文本执行如下循环处理,直至所述待处理文本中的所有句子均经过删除:
从所述待处理文本中随机删除某一未被删除过的句子,得到剩余文本;
利用所述目标文本分类模型对所述剩余文本进行处理,得到所述剩余文本的类别;
判断所述剩余文本的类别与所述待处理文本的类别是否相同,若否,将删除的句子恢复至所述待处理文本中;
将循环处理结束后得到的剩余文本作为目标文本摘要。
2.根据权利要求1所述的文本摘要提取方法,其特征在于,所述目标文本分类模型通过如下步骤训练得到:
采集样本数据集,所述样本数据集包含若干训练文本,各所述训练文本标注有对应的类别;
按预定比例将所述样本数据集划分为训练集和验证集;
基于所述训练集,训练得到所述目标文本分类模型;
基于所述验证集对所述目标文本分类模型进行验证,若验证通过,训练结束。
3.根据权利要求2所述的文本摘要提取方法,其特征在于,所述待处理文本和训练文本为投诉文本。
4.根据权利要求3所述的文本摘要提取方法,其特征在于,所述待处理文本和训练文本的类别包括时效不达、价格异议和服务态度。
5.根据权利要求1所述的文本摘要提取方法,其特征在于,所述目标文本分类模型为TEXTCNN模型,所述TEXTCNN模型包含嵌入层、卷积层、池化层、全连接层和Softmax分类层。
6.根据权利要求5所述的文本摘要提取方法,其特征在于,所述利用预先基于语义训练得到的目标文本分类模型对待处理文本进行处理的步骤如下:
通过所述嵌入层对所述待处理文本进行向量化处理,得到所述待处理文本的词向量;
通过所述卷积层对所述待处理文本的词向量进行卷积处理,以提取所述待处理文本的特征;
通过所述池化层对所述待处理文本的特征进行池化处理,得到所述待处理文本的降维特征;
通过所述全连接层将所述待处理文本的降维特征传输至所述Softmax分类层;
通过所述Softmax分类层对所述待处理文本的降维特征进行处理,得到所述待处理文本的类别。
7.根据权利要求1所述的文本摘要提取方法,其特征在于,还包括:在利用预先训练得到的目标文本分类模型对待处理文本进行处理之前,对所述待处理文本进行预处理。
8.一种文本摘要提取装置,其特征在于,包括:
类别获取模块,用于利用预先基于语义训练得到的目标文本分类模型对待处理文本进行处理,得到所述待处理文本的类别;
循环删减处理模块,用于针对所述待处理文本执行如下循环处理,直至所述待处理文本中的所有句子均经过删除:
从所述待处理文本中随机删除某一未被删除过的句子,得到剩余文本;
利用所述目标文本分类模型对所述剩余文本进行处理,得到所述剩余文本的类别;
判断所述剩余文本的类别是否与所述待处理文本的类别相同,若否,将删除的句子恢复至所述待处理文本中;
摘要获取模块,用于获取循环处理结束后得到的剩余文本作为目标文本摘要。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN201910753710.4A 2019-08-15 2019-08-15 文本摘要提取方法、装置、计算机设备及存储介质 Active CN110750637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910753710.4A CN110750637B (zh) 2019-08-15 2019-08-15 文本摘要提取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910753710.4A CN110750637B (zh) 2019-08-15 2019-08-15 文本摘要提取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110750637A CN110750637A (zh) 2020-02-04
CN110750637B true CN110750637B (zh) 2024-05-24

Family

ID=69275839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910753710.4A Active CN110750637B (zh) 2019-08-15 2019-08-15 文本摘要提取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110750637B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667815A (zh) * 2020-12-30 2021-04-16 北京捷通华声科技股份有限公司 文本处理方法、装置、计算机可读存储介质及处理器
CN113033216B (zh) * 2021-03-03 2024-05-28 东软集团股份有限公司 文本预处理方法、装置、存储介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
CN101446940A (zh) * 2007-11-27 2009-06-03 北京大学 为文档集自动生成摘要的方法及装置
CN106133772A (zh) * 2013-12-18 2016-11-16 谷歌公司 用基于评论概要的实体标注视频
KR20170089369A (ko) * 2016-01-26 2017-08-03 주식회사 마커 사용자 학습을 통한 문서 자동 요약 방법
WO2018036555A1 (zh) * 2016-08-25 2018-03-01 腾讯科技(深圳)有限公司 会话处理方法及装置
CN109376242A (zh) * 2018-10-18 2019-02-22 西安工程大学 基于循环神经网络变体和卷积神经网络的文本分类算法
CN109492091A (zh) * 2018-09-28 2019-03-19 科大国创软件股份有限公司 一种基于卷积神经网络的投诉工单智能分类方法
CN110069624A (zh) * 2019-04-28 2019-07-30 北京小米智能科技有限公司 文本处理方法及装置
KR20190090944A (ko) * 2018-01-26 2019-08-05 주식회사 두유비 문장 중요도 선별을 위한 기계 학습과 키워드 중요도 기반 요약 문장 생성 시스템 및 방법

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
CN101446940A (zh) * 2007-11-27 2009-06-03 北京大学 为文档集自动生成摘要的方法及装置
CN106133772A (zh) * 2013-12-18 2016-11-16 谷歌公司 用基于评论概要的实体标注视频
KR20170089369A (ko) * 2016-01-26 2017-08-03 주식회사 마커 사용자 학습을 통한 문서 자동 요약 방법
WO2018036555A1 (zh) * 2016-08-25 2018-03-01 腾讯科技(深圳)有限公司 会话处理方法及装置
KR20190090944A (ko) * 2018-01-26 2019-08-05 주식회사 두유비 문장 중요도 선별을 위한 기계 학습과 키워드 중요도 기반 요약 문장 생성 시스템 및 방법
CN109492091A (zh) * 2018-09-28 2019-03-19 科大国创软件股份有限公司 一种基于卷积神经网络的投诉工单智能分类方法
CN109376242A (zh) * 2018-10-18 2019-02-22 西安工程大学 基于循环神经网络变体和卷积神经网络的文本分类算法
CN110069624A (zh) * 2019-04-28 2019-07-30 北京小米智能科技有限公司 文本处理方法及装置

Also Published As

Publication number Publication date
CN110750637A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN110704633B (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
CN110502608B (zh) 基于知识图谱的人机对话方法及人机对话装置
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN110362822B (zh) 用于模型训练的文本标注方法、装置、计算机设备及存储介质
CN110750965B (zh) 英文文本序列标注方法、***及计算机设备
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN110866115B (zh) 序列标注方法、***、计算机设备及计算机可读存储介质
CN111858843B (zh) 一种文本分类方法及装置
CN110765785A (zh) 基于神经网络的中英翻译方法、及其相关设备
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN114461777B (zh) 智能问答方法、装置、设备及存储介质
CN110321426B (zh) 摘要抽取方法、装置及计算机设备
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN110750637B (zh) 文本摘要提取方法、装置、计算机设备及存储介质
CN112052305A (zh) 信息提取方法、装置、计算机设备及可读存储介质
CN109461016B (zh) 数据评分方法、装置、计算机设备及存储介质
CN114238629A (zh) 一种基于自动提示推荐的语言处理方法、装置及终端
CN113449489A (zh) 标点符号标注方法、装置、计算机设备和存储介质
CN111831920A (zh) 用户需求分析方法、装置、计算机设备及存储介质
CN111126056B (zh) 一种识别触发词的方法及装置
CN114238602A (zh) 基于语料匹配的对话分析方法、装置、设备及存储介质
CN112581297B (zh) 基于人工智能的信息推送方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant