CN111680152B - 目标文本的摘要提取方法及装置、电子设备、存储介质 - Google Patents
目标文本的摘要提取方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN111680152B CN111680152B CN202010526718.XA CN202010526718A CN111680152B CN 111680152 B CN111680152 B CN 111680152B CN 202010526718 A CN202010526718 A CN 202010526718A CN 111680152 B CN111680152 B CN 111680152B
- Authority
- CN
- China
- Prior art keywords
- target
- paragraph
- candidate
- paragraphs
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种目标文本的摘要提取方法及装置、电子设备、计算机可读存储介质,该方法包括:针对目标文本的目标段落,计算目标段落与目标文本中标题之间的第一相似度;根据目标段落对应的第一相似度,筛选出第一相似度大于预设第一阈值的目标段落构成指定段落集,剩余的目标段落构成候选段落集;计算指定段落集中目标段落与候选段落集中候选句子之间的第二相似度;依据候选句子的第二相似度,从候选段落集中选取若干目标段落加入指定段落集;对指定段落集中的目标段落进行排序,得到目标文本的摘要。通过本申请技术方案,获取可以概括目标文本的内容的段落,并在排序后,得到可作为整体说明目标文本的主要内容的摘要。
Description
技术领域
本申请涉及文本处理技术领域,特别涉及一种目标文本的摘要提取方法及装置、电子设备、计算机可读存储介质。
背景技术
互联网海量的内容增加了人们获取信息的难度,各类搜索引擎、信息展示网站通过提取文档、视频的摘要,使得用户可以快速查看文档或摘要的主要内容,从而提高了获取信息的速度。
对于文档或网页而言,目前可以通过word2vec(Word To Vector,词到矢量)、TextRank等算法提取文本中的关键词,然后从文本中提取关键词相关的信息形成摘要。
上述方法可用于较为简单的摘要提取工作。对于复杂的文本,通常需要提取更多信息形成篇幅较长的摘要。
发明内容
本申请实施例的目的在于提供一种目标文本的摘要提取方法及装置、电子设备、计算机可读存储介质,用于处理复杂文本,提取出篇幅较长的摘要。
一方面,本申请提供了一种目标文本的摘要提取方法,包括:
针对目标文本的每一目标段落,计算所述目标段落与所述目标文本中标题之间的第一相似度;
根据每个目标段落对应的第一相似度,筛选出所述第一相似度大于预设第一阈值的目标段落构成指定段落集,剩余的目标段落构成候选段落集;
计算所述指定段落集中目标段落与所述候选段落集中候选句子之间的第二相似度;其中,所述候选句子为所述候选段落集中目标段落的句子;
依据所述候选句子的第二相似度,从所述候选段落集中选取若干目标段落加入所述指定段落集;
对所述指定段落集中的目标段落进行排序,得到所述目标文本的摘要。
在一实施例中,在计算所述第一相似度之前,所述方法还包括:
基于段落特征将所述目标文本划分成多个所述目标段落。
在一实施例中,所述计算所述目标段落与所述目标文本中标题之间的第一相似度,包括:
获取所述标题中的关键词;
计算所述关键词在所述目标段落中的词频-逆文本频率指数;
依据所述关键词在所述目标段落的词频-逆文本频率指数确定出所述第一相似度。
在一实施例中,所述计算所述指定段落集中目标段落与所述候选段落集中候选句子之间的第二相似度,包括:
针对所述指定段落集中每一目标段落,获取所述目标段落的多个第一词语,并基于所述第一词语确定所述目标段落对应的段落向量;
针对每一候选句子,获取所述候选句子的多个第二词语,并基于所述第二词语确定所述候选句子对应的句子向量;
基于所述段落向量和所述句子向量,确定所述指定段落集中每一目标段落和每一候选句子之间的所述第二相似度。
在一实施例中,所述依据所述候选句子的第二相似度,从所述候选段落集中选取若干目标段落加入所述指定段落集,包括:
筛选大于预设第二阈值的第二相似度对应的候选句子;
确定筛选出的候选句子所属的目标段落,并将所述目标段落加入所述指定段落集。
在一实施例中,所述对所述指定段落集中的目标段落进行排序,包括:
针对所述指定段落集中的每一目标段落,计算所述目标段落的情感倾向强度值;
依据所述情感倾向强度值从低到高的顺序,排序所述情感倾向强度值对应的所述目标段落。
在一实施例中,在所述排序所述情感倾向强度值对应的所述目标段落之后,所述方法还包括:
将排序后相邻的两个目标段落划为一个组合;
针对每个组合中的两个目标段落,计算契合度;
基于所述契合度,调整组合中两个目标段落的顺序。
另一方面,本申请还提供了一种目标文本的摘要提取装置,包括:
第一计算模块,用于针对目标文本的每一目标段落,计算所述目标段落与所述目标文本中标题之间的第一相似度;
筛选模块,用于根据每个目标段落对应的第一相似度,筛选出所述第一相似度大于预设第一阈值的目标段落构成指定段落集,剩余的目标段落构成候选段落集;
第二计算模块,用于计算所述指定段落集中目标段落与所述候选段落集中候选句子之间的第二相似度;其中,所述候选句子为所述候选段落集中目标段落的句子;
选择模块,用于依据所述候选句子的第二相似度,从所述候选段落集中选取若干目标段落加入所述指定段落集;
排序模块,用于对所述指定段落集中的目标段落进行排序,得到所述目标文本的摘要。
进一步的,本申请还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述目标文本的摘要提取方法。
另外,本申请还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述目标文本的摘要提取方法。
在本申请提供的实施例中,计算相似度,依据相似度从目标文本中选择与标题近似的目标段落,通过对目标段落排序后,生成摘要;通过本申请技术方案,可以获取目标文本中与标题的相关度最大的多个目标段落,从而得到可以概括目标文本的内容的段落,并在排序后,得到可作为整体说明目标文本的主要内容的摘要。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请一实施例提供的目标文本的摘要提取方法的应用场景示意图;
图2为本申请一实施例提供的电子设备的结构示意图;
图3为本申请一实施例提供的目标文本的摘要提取方法的流程示意图;
图4为本申请一实施例提供的计算第一相似度的流程示意图;
图5为本申请一实施例提供的计算第二相似度的流程示意图;
图6为本申请一实施例提供的调整已排序的目标段落的流程示意图;
图7为本申请一实施例提供的目标文本的摘要提取装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本申请实施例提供的目标文本的摘要提取方法的应用场景示意图。如图1所示,该应用场景包括服务端30和客户端20,服务端30可以是服务器、服务器集群或者云计算中心,服务端30可以对客户端20上传的目标文本执行摘要提取的业务。客户端20可以是智能手机、平板电脑、个人主机等智能设备,用于向服务端30上传目标文本。
如图2所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图2中以一个处理器11为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中,电子设备1可以是上述服务端30。
存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器11执行以完成本申请提供的目标文本的摘要提取方法。
参见图3,为本申请一实施例提供的目标文本的摘要提取方法的流程示意图,如图3所示,该方法可以包括以下步骤310-步骤350。
步骤310:针对目标文本的每一目标段落,计算所述目标段落与所述目标文本中标题之间的第一相似度。
其中,目标文本是待处理的文本,目标段落是目标文本中待处理的段落。第一相似度表征段落与标题之间的相似程度,第一相似度越大,相似程度越高。第一相似度的计算方式可以参见下文。
步骤320:根据每个目标段落对应的第一相似度,筛选出所述第一相似度大于预设第一阈值的目标段落构成指定段落集,剩余的目标段落构成候选段落集。
其中,第一阈值可以是经验值,用以筛选与标题足够近似的段落。
服务端可以筛选出大于第一阈值的第一相似度对应的目标段落。筛选出的目标段落构成指定段落集,指定段落集中的目标段落用于构成摘要。剩余的目标段落构成候选段落集,候选段落集中的目标段落需经进一步的筛选。
步骤330:计算所述指定段落集中目标段落与所述候选段落集中候选句子之间的第二相似度;其中,所述候选句子为所述候选段落集中目标段落的句子。
服务端可以将候选段落集中的目标段落划分成多个句子,将划分出的句子作为候选句子。计算指定段落集中目标段落和候选句子之间的第二相似度。第二相似度的计算方式可以参见下文。
步骤340:依据所述候选句子的第二相似度,从所述候选段落集中选取若干目标段落加入所述指定段落集。
在一实施例中,服务端可以筛选大于预设第二阈值的第二相似度对应的候选句子。其中,第二阈值可以是经验值,用以筛选与指定段落集中的目标段落足够近似的候选句子。
由于指定段落集内可能存在多个目标段落,同一个候选句子与多个目标段落之间存在多个第二相似度,当候选句子的对应任一第二相似度大于第二阈值,筛选出该候选句子。
服务端可以确定筛选出的候选句子所属的目标段落,并将该目标段落加入至指定段落集中。
步骤350:对所述指定段落集中的目标段落进行排序,得到所述目标文本的摘要。
服务端可以对上述指定段落集中的目标段落进行排序,然后将排序后的目标段落连接后,得到目标文本的摘要。
在一实施例中,服务端可以通过预设的顺序关键词词库,对指定段落集内各个目标段落进行匹配。其中,上述顺序关键词词库中包括大量用于指示文本顺序的顺序关键词,比如:“首先”、“其次”、“最后”、“综上所述”、“结果”、“第一”、“第二”等。顺序关键词词库中的顺序关键词之间预设先后关系,比如:“首先”在“其次”之前,“第一”在“第二”之前。
服务端从各个目标段落中查找到顺序关键词后,依据顺序关键词之间的先后关系,对顺序关键词所在的目标段落进行排序。服务端可将排序后的目标段落连接后,得到摘要。
参见图4,为本申请一实施例提供的计算第一相似度的流程示意图,如图4所示,该方法可以包括以下步骤311-步骤313。
步骤311:获取所述标题中的关键词。
服务端提取到的关键词可以是一个,也可以是多个。
服务端可以通过分词算法将标题拆分为多个词语,基于预设的停用词库,去除多个词语中的停用词。通过预设的关键词库进行匹配后,获得关键词。其中,停用词库中包含大量常见的停用词。关键词库包含指定的关键词。
示例性的,标题为《中材科技:业务全面实现盈利,业绩大超预期》,可以拆分成“中材科技/业务/全面/实现/盈利/业绩/大/超/预期”,去除停用词,并在关键词库中匹配后,得到关键词“业务”、“盈利”、“业绩”、“预期”。
步骤312:计算所述关键词在所述目标段落中的词频-逆文本频率指数。
对于每一关键词,服务端可以计算该关键词在每一目标段落中的词频-逆文本频率指数(Term Frequency-Inverse Document Frequency,TF-IDF)。
词频(Term Frequency,TF)表示关键词在段落中出现的频率,通过如下公式(1)计算:
其中,TFa,Di表示关键词a在第i个目标段落中出现的频率,count(a)表示关键词a在第i个目标段落中出现的次数,|Di|表示第i个目标段落中所有词的数量。
逆文本频率(Inverse Document Frequency,IDF)反映关键词的普遍程度,通过如下公式(2)计算:
其中,IDFa,Di表示关键词a在目标文档的第i个目标段落的逆文本频率;N表示目标文档中目标段落总数;I(a,Di)表示第i个目标段落中是否包含关键词a,若包含则为1,否则为0。
关键词在目标段落中的词频-逆文本频率指数,通过如下公式(3)计算:
其中,TF-IDFa,Di表示关键词a在目标文档的第i个目标段落的词频-逆文本频率指数,TFa,Di表示关键词a在第i个目标段落中出现的频率,IDFa,Di表示关键词a在目标文档的第i个目标段落的逆文本频率。
对于每一目标段落,服务端可以通过分词算法将目标段落拆分成多个词语,确定目标段落中存在的词语总数。通过在目标段落中查找上述关键词,确定目标段落中是否存在上述关键词,以及,关键词出现的次数。服务端通过执行上述公式(1)、公式(2)和公式(3),从而确定关键词在该目标段落中的词频-逆文本频率指数。
步骤313:依据所述关键词在所述目标段落的词频-逆文本频率指数确定出所述第一相似度。
示例性的,若存在4个关键词,对于每一目标段落,服务端可以计算4个关键词在该目标段落的词频-逆文本频率指数的平均数,将该平均数作为该目标段落与标题的第一相似度。
示例性的,若仅存在1个关键词,对于每一目标段落,服务端可以将该关键词在该目标段落的词频-逆文本频率指数,作为该目标段落与标题的第一相似度。
参见图5,为本申请一实施例提供的计算第二相似度的流程示意图,如图5所示,该方法可以包括以下步骤331-步骤333。
步骤331:针对所述指定段落集中每一目标段落,获取所述目标段落的多个第一词语,并基于所述第一词语确定所述目标段落对应的段落向量。
其中,第一词语为从指定段落集内目标段落中分词得到的词语。
服务端可以通过独热编码(One-Hot)的方式将第一词语转化为词语向量,并通过词频统计的方式将目标段落中多个第一词语对应的词语向量合并为段落向量。
步骤332:针对每一候选句子,获取所述候选句子的多个第二词语,并基于所述第二词语确定所述候选句子对应的句子向量。
其中,第二词语为从候选段落集的候选句子中分词得到的词语。
服务端可以通过独热编码的方式将第二词语转化为词语向量,并通过词频统计的方式将候选句子中多个第二词语对应的词语向量合并为句子向量。
步骤333:基于所述段落向量和所述句子向量,确定所述指定段落集中每一目标段落和每一候选句子之间的所述第二相似度。
获得段落向量和句子向量后,服务端可以确定指定段落集中每一目标段落和每一候选句子之间的第二相似度。
示例性的,可以基于海明距离计算第二相似度。
段落向量可以表示为:vec1=(x1,x2,x3……xn),n为服务端在通过独热编码时设定的词语总数,xi表示独热编码设定的第i个词在目标段落中出现的次数。
句子向量可以表示为vec2=(y1,y2,y3……yn),n为服务端在通过独热编码时设定的词语总数,yi表示独热编码设定的第i个词在候选句子中出现的次数。
第二相似度可以通过如下公式(4)表示:
其中,similarity表示第二相似度;ri表示段落向量的第i个元素是否等于句子向量的第i个元素,如果xi等于yi,ri=1,如果xi不等于yi,ri=0。
在一实施例中,对于一些文本而言,文本中的各个段落的情感倾向强度存在差异,且段落的顺序与情感倾向强度有关。
券商研报(Broker Research Report)的摘要一般包括事件陈述、论述观点、盈利预测和投资建议,这4个部分的情感倾向强度逐个增加。
如果目标文本是券商研报,服务端可以计算每一目标段落的情感倾向强度值。针对指定段落集内任一目标段落,服务端可以获取该目标段落中的词语,然后通过情感倾向算法基于词语计算出该目标段落的情感倾向强度值。其中,情感倾向算法可以是So-PMI(So-Pointwise Mutual Information,情感倾向点互信息算法)算法。
服务端可以依据情感倾向强度值从低到高的顺序,排序情感倾向强度值对应的目标段落。
服务端可将排序后的目标段落连接后,得到目标文本的摘要。
在该实施例中,服务端可以对排序后的目标段落进行调整。
参见图6,为本申请一实施例提供的调整已排序的目标段落的流程示意图,如图6所示,该方法可以包括以下步骤351-步骤353。
步骤351:将排序后相邻的两个目标段落划为一个组合。
示例性的,基于情感倾向强度值排序后的目标段落,为目标段落A、目标段落B、目标段落C、目标段落D和目标段落E,则划分出的组合包括目标段落A和目标段落B、目标段落B和目标段落C、目标段落C和目标段落D、目标段落D和目标段落E。
步骤352:针对每个组合中的两个目标段落,计算契合度。
契合度与两个目标段落的先后顺序有关。
示例性的,服务端可以通过语言模型(比如:N-Gram模型)计算上述契合度。服务端获取组合中的一个目标段落的首句和另一个目标段落的尾句,将首句和尾句连接,通过N-Gram模型对连接后的两个句子进行计算,从而获得契合度。该契合度表示两个句子形成一个句子的概率。
对于每一组合,服务端可以计算两个契合度。比如:目标段落A和目标段落B组合后,基于目标段落A的尾句和目标段落B的首句计算契合度,以及,基于目标段落B的尾句和目标段落A的首句计算契合度。
步骤353:基于所述契合度,调整组合中两个目标段落的顺序。
服务端可以判断当前组合内两个目标段落的顺序对应的契合度是否为两个契合度中更大的那一个。比如:目标段落A和目标段落B组合后,目标段落A在目标段落B前面,则基于目标段落A的尾句和目标段落B的首句计算出的契合度与当前的顺序相对应。服务端判断该契合度是否大于另一个契合度。
一方面,若当前顺序对应的契合度更大,无需调整组合内的目标段落的顺序。服务端可以对下一组合的两个契合度的大小进行判断。比如:若基于目标段落A的尾句和目标段落B的首句计算出的契合度较大,无需调整目标段落A和目标段落B的顺序,对目标段落B和目标段落C所在的组合的两个契合度大小进行判断。
另一方面,若当前顺序对应的契合度更小,服务端可以调整组合内的目标段落的顺序,并对隔一组合后的下一组合的两个契合度的大小进行判断。比如:若基于目标段落A的尾句和目标段落B的首句计算出的契合度较小,可以调整目标段落A和目标段落B的顺序,对目标段落C和目标段落D所在的组合的两个契合度大小进行判断。
重复上述过程,直到服务端对各个组合的两个契合度大小完成判断。通过该措施,服务端通过语义分析的方式修正了以情感倾向强度值排列的段落顺序,提高了摘要可读性和正确性。
在执行步骤310之前,服务端可以基于段落特征将目标文本划分成多个目标段落。其中,段落特征可以包括空格字符和句号。
服务端可以通过空格字符将目标文本划分成多个子文本。由于每个段落的段首存在两个空格字符,可将两个并置的空格字符认作一组空格字符。每两组空格字符之间存在一个子文本。
当段落内出现公式、代码、图标等表现形式时,同一段落可能存在多组空格字符。因此,通过空格符号加句号的方式确定一个段落。
服务端可以依次检查每一个子文本的末尾是否存在句号。
一种情况下,存在句号,可以确定该子文本为一个段落。
另一种情况下,不存在句号,服务端可以继续检查该子文本后面的子文本的末尾是否存在句号。若下个子文本的末尾存在句号,则确定这两个子文本构成一个段落;若下个子文本的末尾不存在句号,继续检查后面的子文本的末尾是否存在句号。这个过程一直重复,直到找到末尾存在句号的子文本。
服务端将末尾存在句号的子文本,以及,末尾不存在句号的子文本和与其连接的末尾存在句号的子文本,确定为一个段落。
从目标文本中确定出的段落为目标段落。
图7是本发明一实施例提供的一种目标文本的摘要提取装置的框图。如图7所示,该装置可以包括:第一计算模块710、筛选模块720、第二计算模块730、选择模块740、排序模块750。
第一计算模块710,用于针对目标文本的每一目标段落,计算所述目标段落与所述目标文本中标题之间的第一相似度。
筛选模块720,用于根据每个目标段落对应的第一相似度,筛选出所述第一相似度大于预设第一阈值的目标段落构成指定段落集,剩余的目标段落构成候选段落集。
第二计算模块730,用于计算所述指定段落集中目标段落与所述候选段落集中候选句子之间的第二相似度;其中,所述候选句子为所述候选段落集中目标段落的句子。
选择模块740,用于依据所述候选句子的第二相似度,从所述候选段落集中选取若干目标段落加入所述指定段落集。
排序模块750,用于对所述指定段落集中的目标段落进行排序,得到所述目标文本的摘要。
在一实施例中,所述装置还包括:
划分单元(图中未示出),用于基于段落特征将所述目标文本划分成多个所述目标段落。
在一实施例中,第一计算模块710,进一步用于:
获取所述标题中的关键词;
计算所述关键词在所述目标段落中的词频-逆文本频率指数;
依据所述关键词在所述目标段落的词频-逆文本频率指数确定出所述第一相似度。
在一实施例中,第二计算模块730,进一步用于:
针对所述指定段落集中每一目标段落,获取所述目标段落的多个第一词语,并基于所述第一词语确定所述目标段落对应的段落向量;
针对每一候选句子,获取所述候选句子的多个第二词语,并基于所述第二词语确定所述候选句子对应的句子向量;
基于所述段落向量和所述句子向量,确定所述指定段落集中每一目标段落和每一候选句子之间的所述第二相似度。
在一实施例中,选择模块740,进一步用于:
筛选大于预设第二阈值的第二相似度对应的候选句子;
确定筛选出的候选句子所属的目标段落,并将所述目标段落加入所述指定段落集。
在一实施例中,排序模块750,进一步用于:
针对所述指定段落集中的每一目标段落,计算所述目标段落的情感倾向强度值;
依据所述情感倾向强度值从低到高的顺序,排序所述情感倾向强度值对应的所述目标段落。
在一实施例中,排序模块750,进一步用于:
将排序后相邻的两个目标段落划为一个组合;
针对每个组合中的两个目标段落,计算契合度;
基于所述契合度,调整组合中两个目标段落的顺序。
上述装置中各个模块的功能和作用的实现过程具体详见上述目标文本的摘要提取方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (7)
1.一种目标文本的摘要提取方法,其特征在于,包括:
基于段落特征将目标文本划分成多个目标段落;
针对目标文本的每一目标段落,计算所述目标段落与所述目标文本中标题之间的第一相似度,包括:获取所述标题中的关键词;计算所述关键词在所述目标段落中的词频-逆文本频率指数;依据所述关键词在所述目标段落的词频-逆文本频率指数确定出所述第一相似度;
根据每个目标段落对应的第一相似度,筛选出所述第一相似度大于预设第一阈值的目标段落构成指定段落集,剩余的目标段落构成候选段落集;
计算所述指定段落集中目标段落与所述候选段落集中候选句子之间的第二相似度,包括:针对所述指定段落集中每一目标段落,获取所述目标段落的多个第一词语,并基于所述第一词语确定所述目标段落对应的段落向量;针对每一候选句子,获取所述候选句子的多个第二词语,并基于所述第二词语确定所述候选句子对应的句子向量;基于所述段落向量和所述句子向量,确定所述指定段落集中每一目标段落和每一候选句子之间的所述第二相似度;其中,所述候选句子为所述候选段落集中目标段落的句子;
依据所述候选句子的第二相似度,从所述候选段落集中选取若干目标段落加入所述指定段落集;
对所述指定段落集中的目标段落进行排序,得到所述目标文本的摘要。
2.根据权利要求1所述的方法,其特征在于,所述依据所述候选句子的第二相似度,从所述候选段落集中选取若干目标段落加入所述指定段落集,包括:
筛选大于预设第二阈值的第二相似度对应的候选句子;
确定筛选出的候选句子所属的目标段落,并将所述目标段落加入所述指定段落集。
3.根据权利要求1所述的方法,其特征在于,所述对所述指定段落集中的目标段落进行排序,包括:
针对所述指定段落集中的每一目标段落,计算所述目标段落的情感倾向强度值;
依据所述情感倾向强度值从低到高的顺序,排序所述情感倾向强度值对应的所述目标段落。
4.根据权利要求3所述的方法,其特征在于,在所述排序所述情感倾向强度值对应的所述目标段落之后,所述方法还包括:
将排序后相邻的两个目标段落划为一个组合;
针对每个组合中的两个目标段落,计算契合度;
基于所述契合度,调整组合中两个目标段落的顺序。
5.一种目标文本的摘要提取装置,其特征在于,包括:
划分单元,用于基于段落特征将目标文本划分成多个目标段落;
第一计算模块,用于针对目标文本的每一目标段落,计算所述目标段落与所述目标文本中标题之间的第一相似度,包括:获取所述标题中的关键词;计算所述关键词在所述目标段落中的词频-逆文本频率指数;依据所述关键词在所述目标段落的词频-逆文本频率指数确定出所述第一相似度;
筛选模块,用于根据每个目标段落对应的第一相似度,筛选出所述第一相似度大于预设第一阈值的目标段落构成指定段落集,剩余的目标段落构成候选段落集;
第二计算模块,用于计算所述指定段落集中目标段落与所述候选段落集中候选句子之间的第二相似度,包括:针对所述指定段落集中每一目标段落,获取所述目标段落的多个第一词语,并基于所述第一词语确定所述目标段落对应的段落向量;针对每一候选句子,获取所述候选句子的多个第二词语,并基于所述第二词语确定所述候选句子对应的句子向量;基于所述段落向量和所述句子向量,确定所述指定段落集中每一目标段落和每一候选句子之间的所述第二相似度;其中,所述候选句子为所述候选段落集中目标段落的句子;
选择模块,用于依据所述候选句子的第二相似度,从所述候选段落集中选取若干目标段落加入所述指定段落集;
排序模块,用于对所述指定段落集中的目标段落进行排序,得到所述目标文本的摘要。
6.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-4任意一项所述的目标文本的摘要提取方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-4任意一项所述的目标文本的摘要提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010526718.XA CN111680152B (zh) | 2020-06-10 | 2020-06-10 | 目标文本的摘要提取方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010526718.XA CN111680152B (zh) | 2020-06-10 | 2020-06-10 | 目标文本的摘要提取方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680152A CN111680152A (zh) | 2020-09-18 |
CN111680152B true CN111680152B (zh) | 2023-04-18 |
Family
ID=72435338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010526718.XA Active CN111680152B (zh) | 2020-06-10 | 2020-06-10 | 目标文本的摘要提取方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680152B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685534B (zh) * | 2020-12-23 | 2022-12-30 | 上海掌门科技有限公司 | 在创作过程中生成已创作内容的脉络信息的方法与设备 |
CN112287914B (zh) * | 2020-12-27 | 2021-04-02 | 平安科技(深圳)有限公司 | Ppt视频段提取方法、装置、设备及介质 |
CN114201601B (zh) * | 2021-12-10 | 2023-03-28 | 北京金堤科技有限公司 | 舆情文本的摘要抽取方法、装置、设备及计算机存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005071566A1 (en) * | 2004-01-26 | 2005-08-04 | International Business Machines Corporation | Method, system and program for handling anchor text |
WO2015179643A1 (en) * | 2014-05-23 | 2015-11-26 | Codeq Llc | Systems and methods for generating summaries of documents |
WO2016121048A1 (ja) * | 2015-01-29 | 2016-08-04 | 株式会社日立製作所 | 文章生成装置及び方法 |
WO2018232290A1 (en) * | 2017-06-16 | 2018-12-20 | Elsevier, Inc. | Systems and methods for automatically generating content summaries for topics |
CN109325235A (zh) * | 2018-10-17 | 2019-02-12 | 武汉斗鱼网络科技有限公司 | 一种基于词权的文本摘要提取方法及计算装置 |
CN110147425A (zh) * | 2019-05-22 | 2019-08-20 | 华泰期货有限公司 | 一种关键词提取方法、装置、计算机设备及存储介质 |
CN110837556A (zh) * | 2019-10-30 | 2020-02-25 | 深圳价值在线信息科技股份有限公司 | 摘要生成方法、装置、终端设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60044423D1 (de) * | 2000-02-03 | 2010-07-01 | Hitachi Ltd | Verfahren und Gerät zum Wiederauffinden und Ausgeben von Dokumenten und Speichermedium mit entspechendem Program |
US7017114B2 (en) * | 2000-09-20 | 2006-03-21 | International Business Machines Corporation | Automatic correlation method for generating summaries for text documents |
US7716226B2 (en) * | 2005-09-27 | 2010-05-11 | Patentratings, Llc | Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects |
US10169453B2 (en) * | 2016-03-28 | 2019-01-01 | Microsoft Technology Licensing, Llc | Automatic document summarization using search engine intelligence |
CN105930539A (zh) * | 2016-06-27 | 2016-09-07 | 北京百度网讯科技有限公司 | 话题订阅方法和装置 |
US10831793B2 (en) * | 2018-10-23 | 2020-11-10 | International Business Machines Corporation | Learning thematic similarity metric from article text units |
-
2020
- 2020-06-10 CN CN202010526718.XA patent/CN111680152B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005071566A1 (en) * | 2004-01-26 | 2005-08-04 | International Business Machines Corporation | Method, system and program for handling anchor text |
WO2015179643A1 (en) * | 2014-05-23 | 2015-11-26 | Codeq Llc | Systems and methods for generating summaries of documents |
WO2016121048A1 (ja) * | 2015-01-29 | 2016-08-04 | 株式会社日立製作所 | 文章生成装置及び方法 |
WO2018232290A1 (en) * | 2017-06-16 | 2018-12-20 | Elsevier, Inc. | Systems and methods for automatically generating content summaries for topics |
CN109325235A (zh) * | 2018-10-17 | 2019-02-12 | 武汉斗鱼网络科技有限公司 | 一种基于词权的文本摘要提取方法及计算装置 |
CN110147425A (zh) * | 2019-05-22 | 2019-08-20 | 华泰期货有限公司 | 一种关键词提取方法、装置、计算机设备及存储介质 |
CN110837556A (zh) * | 2019-10-30 | 2020-02-25 | 深圳价值在线信息科技股份有限公司 | 摘要生成方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111680152A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN111680152B (zh) | 目标文本的摘要提取方法及装置、电子设备、存储介质 | |
US20210056571A1 (en) | Determining of summary of user-generated content and recommendation of user-generated content | |
US9311389B2 (en) | Finding indexed documents | |
CN108009135B (zh) | 生成文档摘要的方法和装置 | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
US10417269B2 (en) | Systems and methods for verbatim-text mining | |
CN108052500B (zh) | 一种基于语义分析的文本关键信息提取方法及装置 | |
CN111611356B (zh) | 信息查找方法、装置、电子设备及可读存储介质 | |
CN110750704B (zh) | 一种查询自动补全的方法和装置 | |
CN108446295B (zh) | 信息检索方法、装置、计算机设备和存储介质 | |
US7917496B2 (en) | Method and apparatus for discovering and classifying polysemous word instances in web documents | |
Ferreira et al. | A comparative study of feature extraction algorithms in customer reviews | |
Aquino et al. | Keyword identification in spanish documents using neural networks | |
JP4426894B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
CN114912425A (zh) | 演示文稿生成方法及装置 | |
US20170053027A1 (en) | Determining an Optimized Summarizer Architecture for a Selected Task | |
JP6340351B2 (ja) | 情報検索装置、辞書作成装置、方法、及びプログラム | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
Tschuggnall et al. | Reduce & attribute: Two-step authorship attribution for large-scale problems | |
US8135715B2 (en) | Method and apparatus for discovering and classifying polysemous word instances in web documents | |
CN113806491B (zh) | 一种信息处理的方法、装置、设备和介质 | |
CN110619212A (zh) | 一种基于字符串的恶意软件识别方法、***及相关装置 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |