CN109977219A - 基于启发式规则的文本摘要自动生成方法及装置 - Google Patents

基于启发式规则的文本摘要自动生成方法及装置 Download PDF

Info

Publication number
CN109977219A
CN109977219A CN201910207415.9A CN201910207415A CN109977219A CN 109977219 A CN109977219 A CN 109977219A CN 201910207415 A CN201910207415 A CN 201910207415A CN 109977219 A CN109977219 A CN 109977219A
Authority
CN
China
Prior art keywords
paragraph
segment
sentence
sequence
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910207415.9A
Other languages
English (en)
Other versions
CN109977219B (zh
Inventor
石瑾
张翔宇
张旭
刘春阳
李建欣
毛乾任
孙庆赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
National Computer Network and Information Security Management Center
Original Assignee
Beihang University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, National Computer Network and Information Security Management Center filed Critical Beihang University
Priority to CN201910207415.9A priority Critical patent/CN109977219B/zh
Publication of CN109977219A publication Critical patent/CN109977219A/zh
Application granted granted Critical
Publication of CN109977219B publication Critical patent/CN109977219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0239Online discounts or incentives
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于启发式规则的文本摘要自动生成方法,包括:S1、以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;S2、先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;S3、去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。以及,基于启发式规则的文本摘要自动生成装置。采用本发明的方法生成的文本摘要的句子组织连贯性好,可读性强。

Description

基于启发式规则的文本摘要自动生成方法及装置
技术领域
本发明涉及自然语言处理领域。更具体地说,本发明涉及一种基于启发式规则的文本摘要自动生成方法及装置。
背景技术
自动文摘的过程主要是总结文本文档中心意思,目的是创建包含原始文档主要内容的摘要。在新闻、金融、医疗等领域具有意义重大的应用场景。特别是现在的互联网信息时代,信息过载使得人们迫切地希望能在最短的时间内了解最多且最有用的文字信息,文本摘要自动生成技术使得这一项需求得以实现。
自动文摘技术以整篇文章作为输入,并生成一段精炼的话来表达与概况输入文章的核心内容,即生成的文摘就表达了原文要表达的核心意义。目前,自动文本摘要技术主要有生成式和抽取式两种方式,并以抽取式为主。抽取式自动文摘技术是按照一定的权重,从原文中抽取能表达文章中心思想或者文章中比较重要的一条或几条句子,然后组合起来形成摘要。经典的抽取式自动文摘技术如LexRank,TextRank是以句子为分割单元将文章的的所有句子两两之间计算相似度或重要度进行图方法的排序,得到能够表达文章的大致句子级。这种方法由于是自动选择文章中比较重要句子,然后按照句子的重要度顺序组成摘要,在语义语序的重组和生成内容的可读性上差强人意。
发明内容
本发明的一个目的是提供一种基于启发式规则的文本摘要自动生成方法及装置,其考虑段落、句子出现的顺序,先逐级抽取句子,再抽取句子中的片段,并按照片段在原文中的出现顺序生成文本摘要,使摘要的句子组织连贯性好,可读性强。
为了实现根据本发明的目的和其它优点,提供了一种基于启发式规则的文本摘要自动生成方法,包括:
S1、以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
S2、先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
S3、去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。
优选的是,所述的基于启发式规则的文本摘要自动生成方法,S1中,以句子和片段为粒度对各段落进行启发式分割,包括,S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE
优选的是,所述的基于启发式规则的文本摘要自动生成方法,S2中,具体为:S21、采用图排序算法分别对SB、SC、SE中的句子内容进行重要度排序,并进行句子间的相似度计算,抽取符合规则的句子为目标句子,按照句子的出现顺序组合,得到开头段落的句子摘要集合GSB、中间段落的句子摘要集合GSC和结尾段落的句子摘要集合GSE;S22、以逗号和分号为切割点,分别对GSB、GSC、GSE中的句子进行再分割,采用图排序算法分别对分割的片段内容进行重要度排序,并进行片段间的相似度计算,抽取符合规则的片段为目标片段,按照片段的出现顺序组合,得到开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE
优选的是,所述的基于启发式规则的文本摘要自动生成方法,S3中,具体为:S31、采用最大边界相关算法计算GaB、GaC、GaE中各片段的MMR值,并按照MMR值对各片段进行排序;S32、抽取排名前X的片段,按照片段出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
优选的是,所述的基于启发式规则的文本摘要自动生成方法,所述规则为相似度大于设定阈值。
本发明还提供了一种基于启发式规则的文本摘要自动生成装置,包括依次连接的分割模块、第一处理模块和第二处理模块,其中,
分割模块,以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
第一处理模块,用于先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
第二处理模块,用于去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。
优选的是,所述的基于启发式规则的文本摘要自动生成装置,对各段落进行启发式分割,包括,S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE
优选的是,所述的基于启发式规则的文本摘要自动生成装置,所述第一处理模块,包括,第一计算模块,其与所述分割模块连接,用于获取SB、SC、SE,采用图排序算法分别对SB、SC、SE中的句子内容进行重要度排序,并进行句子间的相似度计算;第一生成模块,其与所述第一计算模块连接,用于获取句子间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的句子,按照句子出现的顺序,生成开头段落的句子摘要集合GSB、中间段落的句子摘要集合GSC和结尾段落的句子摘要集合GSE;第二计算模块,其分别与所述第一生成模块和所述分割模块连接,用于获取GSB、GSC和GSE,以逗号和分号为切割点,分别对GSB、GSC、GSE中的句子进行再分割,采用图排序算法分别对分割的片段内容进行重要度排序,并进行片段间的相似度计算;第二生成模块,其与所述第二计算模块连接,用于获取片段间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的片段,按照片段出现的顺序生成开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE
优选的是,所述的基于启发式规则的文本摘要自动生成装置,所述第二处理模块,包括,第三计算模块,其与所述第二生成模块连接,用于获取GaB、GaC、GaE,采用最大边界相关算法计算GaB、GaC、GaE中各片段的MMR值,并按照MMR值对各片段进行排序;第三生成模块,其与所述第三计算模块连接,用于获取片段的排序结果,并抽取排名前X的片段,按照片段出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
本发明至少包括以下有益效果:
第一、本发明不同于经典的抽取式自动文摘技术中,针对文章所有的句子进行等同的图排序计算句子重要性的方法,本发明的方法考虑句子出现在不同段落的这种启发式规则,对于不同的句子在文章中表现的重要度计算考虑句子的出现位置与顺序,即以文本的段落、句子顺序作为启发式语序,将新闻正文分为开头段落、中间段落和结尾段落三个部分,采用图排序算法对各段落中的句子内容进行重要度排序和相似度计算,并对各段落的句子进行逐级抽取,使其最后生成的句子自身带有原文表达的顺序,使抽取的摘要在语义语序的重组和生成内容的可读性上得到一定的保证;
第二、本发明以逗号和分号进行文本内容分割与重要度计算和片段的冗余去除,使得对抽取摘要的分析粒度更细,保证重要片段被筛选的基础上,用最大边界相关算法去除片段的冗余,注重了抽取摘要内容的多样性,通过最小化选取摘要句子之间的相似性,使得生成的摘要多样化。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1是本发明实施例的基于启发式规则的文本摘要自动生成方法的流程图;
图2是本发明实施例的基于启发式规则的文本摘要自动生成装置的结构示意图。
具体实施方式
下面结合实施例和附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供一种基于启发式规则的文本摘要自动生成方法,包括:
S1、以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
S2、先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
S3、去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段在原文中出现的顺序组合,生成文本摘要。
新闻文本是由一系列明确的事实判断语句构成的,新闻报道的组织形式具有一定的叙述结构与事理逻辑的同构特性。新闻文本的外部架构的组成由:标题,电头,导语,主体,背景,结尾六个部分组成。其内容的组织形式是按照新闻的外部架构组络,把导语,主体,背景等基本零件内容有机的结合起来,并按照如倒金字塔式,金字塔式,悬念式,并列式,总分式等结构形式形成有层次新闻的内容。由此可见,新闻内容组织形式是有一定的启发式规则的,在不同的段落的新闻内容对新闻报道的作用不仅不同,而且重要程度也不同。本发明不仅考虑句子在段落中的位置,对各段落中的句子进行逐级抽取,还考虑抽取的句子中各片段的重要度和多样性,去除冗余片段,并将筛选出的片段按照片段在原文中的出现的顺序组合,使得抽取摘要的组成内容单元的粒度更细,组织结构性和可读性更强,更接近文章的中心思想。
S1按照新闻文本段落,以句子和片段为粒度对各段落进行启发式分割
S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE,如,开头段落PB包含T个句子集合S={b1,..,bx,...by,...,bT},其中每一个句子包括文字和“。”作为结束标示符;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE,如开头段落PB包含N个片段集合E={b1,...,bi,...,bj,...,bN},其中每一个片段包括文字和“,”或“;”或者“。”作为结束标识符。
S2基于图排序算法对分割内容进行重要度计算
在对分割内容进行关键句评分时,考虑每一个句子对应节点的连线数量以及连线权重,通过图排序方法得到每一个分割内容的重要性。具体如下:
S21对以“。”为单位的句子与句子之间的相似度计算:
采用基于图排序LexRank算法实现句子级别的文本摘要生成。具体对每一个段落[PB,PC,PE]都采用LexRank进行句子抽取,把每一个段落的文本分割成若干组成句子单元并建立图模型,利用投票机制对文本中的重要句子进行排序。其中,每一个段落以句子分割后,将各段落中的两两句子通过相似度计算,可以将句子与句子表示为一个有向有权图G=(V,E),由点集合V和边集合E组成,E是V×V的子集。
例如,对开头段落PB的句子进行重要句子提取,对于每一个按照“。”号分割的句子b∈SB,进行分词和词性处理,这里运用哈工大的LTP开发工具进行处理,并过滤掉停用词,只保留词性的单词,即把句子b表示为bx=[wx,1,...,wx,j,...,wx,T],wx,j∈bx是保留后的候选关键词。
句子间的相似度计算如:
展开(1)式得到相似度的详细计算方法:
其中,是逆向句子频率,表示词项w在句子中出现的次数,idfw是逆向句子频率,N为段落中句子的总数,Nw为段落中含有特征词w的句子数,如果两个句子间存在关系,则其相似度大于设定的阈值,相似度阈值根据实验的效果进行调整,经验上,阈值设置为0.1,抽取出来的句子表达摘要主要思想的能力最佳,最后得到开头段落PB的句子摘要集合GSB
中间段落PC、结尾段落PE也按照同样的抽取方式生成对应的句子摘要集合GSC、GSE
S22、将每一个段落抽取的句子按照原文顺序组合得到以句子为单位的抽取的摘要。在这些抽取的句子集合中,为了更加细粒度分析抽取到的内容的重复性与重要性。以“,”和“;”再次对抽取的内容进行片段分割,采用图排序算法实现片段级别的文本摘要生成。具体的,如S21的方法,对分割的片段b同样进行分词和词性处理,并过滤掉停用词,只保留词性的单词,即把片段b表示为bi=[wi,1,...,wi,j,...,wi,N],其中wi,j∈bi是保留后的候选关键词。
片段间的相似度计算如下:
其中,是逆向句子频率,表示词项w在片段中出现的次数。如果两两片段间存在关系,则其相似度大于设定的阈值,最后筛选出基于片段粒度的摘要集合,并按照片段在原文中出现的顺序组合,得到开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE
S3,基于最大边界相关算法的分割内容去冗余
在上述抽取片段内容组成的摘要中,还存在部分冗余内容,需要对冗余内容进行噪音去除与筛选得到最后的摘要。
S31、采用最大边界相关算法即MMR算法,通过计算Query语句与被搜索内容之间的相似度,并结合片段重要性分值,得到GaB、GaC、GaE中各片段的MMR值;
具体的MMR算法公式如下:
MMR(Q,Ga,R)=max[λ*score(i)-(1-λ)*max[similarity(i,j)]](4)
其中,Q表示当前查询的片段,Ga表示当前查询的对象即片段组成的摘要的集合。R表示已经得到的一个以相似度为基础的初始片段集合。λ为调节参数,score(i)计算的是i片段的重要性分值,右边第二项的计算的是片段i与所有已经被选择成为摘要的片段j之间的相似度最大值,注意这里的是负号,说明成为摘要的片段间的相似度越小越好。此处体现了MMR的算法原理,即均衡考虑了文本摘要的重要性和多样性。这种摘要提取方式与Textrank不同,Textrank只取全文的重要句子进行排序形成摘要,忽略了其多样性。
S32、按照MMR值对各片段进行rank排序,抽取排名前X的片段,按照片段在原文中出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
本发明还提供了一种基于启发式规则的文本摘要自动生成装置,包括依次连接的分割模块、第一处理模块和第二处理模块,其中,
分割模块,以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
第一处理模块,用于先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
第二处理模块,用于去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。
在另一技术方案中,所述的基于启发式规则的文本摘要自动生成装置,对各段落进行启发式分割,包括,S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE
在另一技术方案中,所述的基于启发式规则的文本摘要自动生成装置,所述第一处理模块,包括,第一计算模块,其与所述分割模块连接,用于获取SB、SC、SE,采用图排序算法分别对SB、SC、SE中的句子内容进行重要度排序,并进行句子间的相似度计算;第一生成模块,其与所述第一计算模块连接,用于获取句子间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的句子,按照句子出现的顺序,生成开头段落的句子摘要集合GSB、中间段落的句子摘要集合GSC和结尾段落的句子摘要集合GSE;第二计算模块,其分别与所述第一生成模块和所述分割模块连接,用于获取GSB、GSC和GSE,以逗号和分号为切割点,分别对GSB、GSC、GSE中的句子进行再分割,采用图排序算法分别对分割的片段内容进行重要度排序,并进行片段间的相似度计算;第二生成模块,其与所述第二计算模块连接,用于获取片段间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的片段,按照片段出现的顺序生成开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE
在另一技术方案中,所述的基于启发式规则的文本摘要自动生成装置,所述第二处理模块,包括,第三计算模块,其与所述第二生成模块连接,用于获取GaB、GaC、GaE,采用最大边界相关算法计算GaB、GaC、GaE中各片段的MMR值,并按照MMR值对各片段进行排序;第三生成模块,其与所述第三计算模块连接,用于获取片段的排序结果,并抽取排名前X的片段,按照片段出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
以下以具体实施例进行说明:
新闻原文如下:
ofo回应押金转化折扣折扣商城金币,用户拥有自主选择权。
针对将上线折扣商城,并将押金转成消费币一事,ofo在3月2日回应称,所有用户也都会在被充分告知的情况下拥有自主选择权。目前商城还在测试阶段,正努力扩充商品种类。
3月1日,有消息称ofo正在测试“折扣商城”的功能,用户可将押金转换为商城金币,进而可在商城购物消费。在放出的测试页面中部分商品需要以商城金币+现金的方式购买。
用户选择兑换金币后,再次骑车也无需缴纳押金。申请退押金的用户可以选择将押金兑换成购物金币,99元押金可以兑换成等值于150元的购物金币,199元押金可以兑换成等值于300元的购物金币。可购买的商品包括食品生鲜、酒水饮料和美妆护肤等品类。
此事在做,引发了部分网友对共享单车退押金一事的关注。部分网友称一直在排队退ofo的押金,但是几个月过去了,目前还没有拿到钱。此前,ofo用户申请退押金一度排队超过1000多万人,ofo方面称正在根据排队顺序进行退款。
对于新推出的商城业务,ofo回应称,折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,这几天开始小范围的做测试。
ofo方面表示,从去年下半年开始,共享单车行业问题成为社会关注的焦点,ofo一直在努力研究和尝试不同的方法,尽一切可能保障用户权益。同时也为响应近期交通运输部对共享单车行业的指示,给用户更多的选择,推出了这个折扣商城。
所有用户也都会在被充分告知的情况下拥有自主选择权。目前商城还是在测试阶段,还在努力扩充商品种类,ofo会不断地收集用户的反馈,对商城的各个环节作出更好的调整。一段时间之后,ofo会根据测试阶段用户的接受程度,再决定下一步的计划。商城是给用户的一种新的选择,ofo不会放弃探索共享单车行业一切的可能性。
对此条新闻使用基于启发式规则的文本摘要自动生成方法进行摘要抽取:
步骤S1:按照新闻文本段落对句子进行启发式分割
开头段落进行启发式分割后的句子集合SB为:
SB={ofo回应押金转化折扣商城金币,用户拥有自主选择权。}
中间段落进行启发式分割后的句子集合SC为:
SC={针对将上线折扣商城,并将押金转成消费币一事,ofo在3月2日回应称,所有用户也都会在被充分告知的情况下拥有自主选择权。
目前商城还在测试阶段,正努力扩充商品种类。
3月1日,有消息称ofo正在测试“折扣商城”的功能,用户可将押金转换为商城金币,进而可在商城购物消费。
在放出的测试页面中部分商品需要以商城金币+现金的方式购买。
用户选择兑换金币后,再次骑车也无需缴纳押金。
申请退押金的用户可以选择将押金兑换成购物金币,99元押金可以兑换成等值于150元的购物金币,199元押金可以兑换成等值于300元的购物金币。
可购买的商品包括食品生鲜、酒水饮料和美妆护肤等品类。
此事在做,引发了部分网友对共享单车退押金一事的关注。
部分网友称一直在排队退ofo的押金,但是几个月过去了,目前还没有拿到钱。
此前,ofo用户申请退押金一度排队超过1000多万人,ofo方面称正在根据排队顺序进行退款。
对于新推出的商城业务,ofo回应称,折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,这几天开始小范围的做测试。
ofo方面表示,从去年下半年开始,共享单车行业问题成为社会关注的焦点,ofo一直在努力研究和尝试不同的方法,尽一切可能保障用户权益。
同时也为响应近期交通运输部对共享单车行业的指示,给用户更多的选择,推出了这个折扣商城。}
结尾段落进行启发式分割后的句子集合SE为:
SE={所有用户也都会在被充分告知的情况下拥有自主选择权。
目前商城还是在测试阶段,还在努力扩充商品种类,ofo会不断地收集用户的反馈,对商城的各个环节作出更好的调整。
一段时间之后,ofo会根据测试阶段用户的接受程度,再决定下一步的计划。
商城是给用户的一种新的选择,ofo不会放弃探索共享单车行业一切的可能性。}
步骤S2:基于图排序LexRank算法对分割内容进行重要度计算
使用LexRank得到的句子的摘要集合如下:
开头段落句子摘要集合GSB
GSB={ofo回应押金转化折扣商城金币,用户拥有自主选择权。}
中间段落句子摘要集合GSC
GSC={针对将上线折扣商城,并将押金转成消费币一事,ofo在3月2日回应称,所有用户也都会在被充分告知的情况下拥有自主选择权。
3月1日,有消息称ofo正在测试“折扣商城”的功能,用户可将押金转换为商城金币,进而可在商城购物消费。
申请退押金的用户可以选择将押金兑换成购物金币,99元押金可以兑换成等值于150元的购物金币,199元押金可以兑换成等值于300元的购物金币。
此前,ofo用户申请退押金一度排队超过1000多万人,ofo方面称正在根据排队顺序进行退款。
对于新推出的商城业务,ofo回应称,折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,这几天开始小范围的做测试。
同时也为响应近期交通运输部对共享单车行业的指示,给用户更多的选择,推出了这个折扣商城。}
结尾段落句子摘要集合GSE
GSE={目前商城还是在测试阶段,还在努力扩充商品种类,ofo会不断地收集用户的反馈,对商城的各个环节做出更好的调整。
一段时间之后,ofo会根据测试阶段用户的接受程度,再决定下一步的计划。
商城是给用户的一种新的选择,ofo不会放弃探索共享单车行业一切的可能性。}
从GS中以“,”进行摘要再分割,对分割片段采用LexRank算法进行重要度计算,得到片段摘要集合Ga。}
开头段落片段摘要集合GaB
GaB={ofo回应押金转化折扣商城金币,
用户拥有自主选择权,}
中间段落片段摘要集合GaC
GaC={针对将上线折扣商城,
并将押金转成消费币一事,
ofo在3月2日回应称,
所有用户也都会在被充分告知的情况下拥有自主选择权。
有消息称ofo正在测试“折扣商城”的功能,
用户可将押金转换为商城金币,
申请退押金的用户可以选择将押金兑换成购物金币,
ofo回应称,
折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,同时也为响应近期交通运输部对共享单车行业的指示,
推出了这个折扣商城。}
结尾段落句子摘要集合GaE
GaE={目前商城还是在测试阶段,
ofo会不断地收集用户的反馈,
ofo会根据测试阶段用户的接受程度,
商城是给用户的一种新的选择,}
步骤S3:基于最大边界相关算法的分割内容去冗余
对GaB、GaC、GaE中的分割内容进行去冗余后的摘要集合G为
G={ofo回应押金转化折扣商城金币,
用户拥有自主选择权。
有消息称ofo正在测试“折扣商城”的功能,
申请退押金的用户可以选择将押金兑换成购物金币,
折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,
同时也为响应近期交通运输部对共享单车行业的指示,
给用户更多的选择,
ofo会不断地收集用户的反馈,}
最终得到的新闻摘要为:
ofo回应押金转化折扣商城金币,用户拥有自主选择权。有消息称ofo正在测试“折扣商城”的功能,申请退押金的用户可以选择将押金兑换成购物金币,折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,同时也为响应近期交通运输部对共享单车行业的指示,给用户更多的选择,ofo会不断地收集用户的反馈。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (9)

1.基于启发式规则的文本摘要自动生成方法,其特征在于,包括:
S1、以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
S2、先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
S3、去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。
2.如权利要求1所述的基于启发式规则的文本摘要自动生成方法,其特征在于,S1中,以句子和片段为粒度对各段落进行启发式分割,包括,S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE
3.如权利要求2所述的基于启发式规则的文本摘要自动生成方法,其特征在于,S2中,具体为:S21、采用图排序算法分别对SB、SC、SE中的句子内容进行重要度排序,并进行句子间的相似度计算,抽取符合规则的句子为目标句子,按照句子的出现顺序组合,得到开头段落的句子摘要集合GSB、中间段落的句子摘要集合GSC和结尾段落的句子摘要集合GSE;S22、以逗号和分号为切割点,分别对GSB、GSC、GSE中的句子进行再分割,采用图排序算法分别对分割的片段内容进行重要度排序,并进行片段间的相似度计算,抽取符合规则的片段为目标片段,按照片段的出现顺序组合,得到开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE
4.如权利要求3所述的基于启发式规则的文本摘要自动生成方法,其特征在于,S3中,具体为:S31、采用最大边界相关算法计算GaB、GaC、GaE中各片段的MMR值,并按照MMR值对各片段进行排序;S32、抽取排名前X的片段,按照片段出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
5.如权利要求3所述的基于启发式规则的文本摘要自动生成方法,其特征在于,所述规则为相似度大于设定阈值。
6.基于启发式规则的文本摘要自动生成装置,其特征在于,包括依次连接的分割模块、第一处理模块和第二处理模块,其中,
分割模块,以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
第一处理模块,用于先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
第二处理模块,用于去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。
7.如权利要求6所述的基于启发式规则的文本摘要自动生成装置,其特征在于,对各段落进行启发式分割,包括,S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE
8.如权利要求7所述的基于启发式规则的文本摘要自动生成装置,其特征在于,所述第一处理模块,包括,第一计算模块,其与所述分割模块连接,用于获取SB、SC、SE,采用图排序算法分别对SB、SC、SE中的句子内容进行重要度排序,并进行句子间的相似度计算;第一生成模块,其与所述第一计算模块连接,用于获取句子间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的句子,按照句子出现的顺序,生成开头段落的句子摘要集合GSB、中间段落的句子摘要集合GSC和结尾段落的句子摘要集合GSE;第二计算模块,其分别与所述第一生成模块和所述分割模块连接,用于获取GSB、GSC和GSE,以逗号和分号为切割点,分别对GSB、GSC、GSE中的句子进行再分割,采用图排序算法分别对分割的片段内容进行重要度排序,并进行片段间的相似度计算;第二生成模块,其与所述第二计算模块连接,用于获取片段间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的片段,按照片段出现的顺序生成开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE
9.如权利要求8所述的基于启发式规则的文本摘要自动生成装置,其特征在于,所述第二处理模块,包括,第三计算模块,其与所述第二生成模块连接,用于获取GaB、GaC、GaE,采用最大边界相关算法计算GaB、GaC、GaE中各片段的MMR值,并按照MMR值对各片段进行排序;第三生成模块,其与所述第三计算模块连接,用于获取片段的排序结果,并抽取排名前X的片段,按照片段出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
CN201910207415.9A 2019-03-19 2019-03-19 基于启发式规则的文本摘要自动生成方法及装置 Active CN109977219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910207415.9A CN109977219B (zh) 2019-03-19 2019-03-19 基于启发式规则的文本摘要自动生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910207415.9A CN109977219B (zh) 2019-03-19 2019-03-19 基于启发式规则的文本摘要自动生成方法及装置

Publications (2)

Publication Number Publication Date
CN109977219A true CN109977219A (zh) 2019-07-05
CN109977219B CN109977219B (zh) 2021-04-09

Family

ID=67079455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910207415.9A Active CN109977219B (zh) 2019-03-19 2019-03-19 基于启发式规则的文本摘要自动生成方法及装置

Country Status (1)

Country Link
CN (1) CN109977219B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362674A (zh) * 2019-07-18 2019-10-22 中国搜索信息科技股份有限公司 一种基于卷积神经网络的微博新闻摘要抽取式生成方法
CN111191413A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及***
CN112818077A (zh) * 2020-12-31 2021-05-18 科大讯飞股份有限公司 文本处理方法、装置、设备及存储介质
WO2021169217A1 (zh) * 2020-02-27 2021-09-02 平安科技(深圳)有限公司 摘要提取方法、装置、设备及计算机可读存储介质
CN114492384A (zh) * 2022-01-17 2022-05-13 海南车智易通信息技术有限公司 训练生成文本生成模型的方法及文本生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070118518A1 (en) * 2005-11-18 2007-05-24 The Boeing Company Text summarization method and apparatus using a multidimensional subspace
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成***及方法
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN108304445A (zh) * 2017-12-07 2018-07-20 新华网股份有限公司 一种文本摘要生成方法和装置
CN109033066A (zh) * 2018-06-04 2018-12-18 浪潮软件股份有限公司 一种摘要形成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070118518A1 (en) * 2005-11-18 2007-05-24 The Boeing Company Text summarization method and apparatus using a multidimensional subspace
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成***及方法
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN108304445A (zh) * 2017-12-07 2018-07-20 新华网股份有限公司 一种文本摘要生成方法和装置
CN109033066A (zh) * 2018-06-04 2018-12-18 浪潮软件股份有限公司 一种摘要形成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ERKAN G等: "《LexRank: Graph-based lexical centrality as salience in text summarization》", 《JOURNAL OF ARTIFICIAL INTELLIGENCE RESEARCH》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362674A (zh) * 2019-07-18 2019-10-22 中国搜索信息科技股份有限公司 一种基于卷积神经网络的微博新闻摘要抽取式生成方法
CN111191413A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及***
CN111191413B (zh) * 2019-12-30 2021-11-12 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及***
WO2021169217A1 (zh) * 2020-02-27 2021-09-02 平安科技(深圳)有限公司 摘要提取方法、装置、设备及计算机可读存储介质
CN112818077A (zh) * 2020-12-31 2021-05-18 科大讯飞股份有限公司 文本处理方法、装置、设备及存储介质
CN112818077B (zh) * 2020-12-31 2023-05-30 科大讯飞股份有限公司 文本处理方法、装置、设备及存储介质
CN114492384A (zh) * 2022-01-17 2022-05-13 海南车智易通信息技术有限公司 训练生成文本生成模型的方法及文本生成方法

Also Published As

Publication number Publication date
CN109977219B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN109977219A (zh) 基于启发式规则的文本摘要自动生成方法及装置
Luo et al. Comparative study of deep learning models for analyzing online restaurant reviews in the era of the COVID-19 pandemic
Blair-Goldensohn et al. Building a sentiment summarizer for local service reviews
Liu et al. TASC: Topic-adaptive sentiment classification on dynamic tweets
CN103729359B (zh) 一种推荐搜索词的方法及***
CN102831234B (zh) 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103678672B (zh) 一种信息推荐方法
Yang et al. Mave: A product dataset for multi-source attribute value extraction
CN106294425B (zh) 商品相关网络文章之自动图文摘要方法及***
Sutabri et al. Improving naïve bayes in sentiment analysis for hotel industry in Indonesia
Parra-Santander et al. Improving collaborative filtering in social tagging systems for the recommendation of scientific articles
CN107743249A (zh) 一种基于模型融合的ctr预估方法
CN108897784A (zh) 一个基于社交媒体的突发事件多维分析***
Li et al. A method of purchase prediction based on user behavior log
CN107256513A (zh) 一种对象的搭配推荐方法及装置
Mashuri Sentiment analysis in twitter using lexicon based and polarity multiplication
CN108280124A (zh) 产品分类方法及装置,排行榜生成方法及装置,电子设备
CN101763395A (zh) 采用人工智能技术自动生成网页的方法
TW201642195A (zh) 商品相關網路文章之自動圖文摘要方法及系統
Pouromid et al. ParsBERT post-training for sentiment analysis of tweets concerning stock market
Avigdor-Elgrabli et al. Structural clustering of machine-generated mail
Tatli et al. A tag-based hybrid music recommendation system using semantic relations and multi-domain information
Al Boni et al. Model adaptation for personalized opinion analysis
Rao et al. Product recommendation system from users reviews using sentiment analysis
Zhang Application of data mining technology in the analysis of e-commerce emotional law

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant