CN118069833A - 层次化摘要的生成方法、装置、设备及可读存储介质 - Google Patents
层次化摘要的生成方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN118069833A CN118069833A CN202410460549.2A CN202410460549A CN118069833A CN 118069833 A CN118069833 A CN 118069833A CN 202410460549 A CN202410460549 A CN 202410460549A CN 118069833 A CN118069833 A CN 118069833A
- Authority
- CN
- China
- Prior art keywords
- abstract
- hierarchical
- generating
- summaries
- original text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 19
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种层次化摘要的生成方法、装置、设备及可读存储介质,涉及人工智能领域,包括:获取待生成摘要的原始文本,依据所述原始文本生成多个一级摘要,将所述一级摘要作为下级摘要;依次基于预设数量个所述下级摘要生成上级摘要,若存在多个所述上级摘要,则将生成的所述上级摘要作为新的下级摘要,返回执行依次基于预设数量个所述下级摘要生成上级摘要的步骤;若存在一个所述上级摘要,则基于生成的所有摘要得到所述原始文本对应的层次化摘要。本申请实现了文本摘要能够反映文本本身的层次信息。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种层次化摘要的生成方法、装置、设备及可读存储介质。
背景技术
自动文本摘要是近年来学术界和工业界的研究热点之一,因其广阔的应用场景以及巨大的商业价值而备受瞩目。
文本摘要方式的生成方式大致可以分为抽取式文本摘要和生成式文本摘要。但是产生的摘要都是合成一整段文本摘要,面对整个长文本,一段文本摘要往往无法得到文本本身层次信息,从而导致容易冗长、模糊重点、无法传达文本全部的信息、结构混杂等等问题。
发明内容
本申请的主要目的在于提供一种层次化摘要的生成方法、装置、设备及可读存储介质,旨在解决文本摘要无法反映文本本身层次信息的技术问题。
为实现上述目的,本申请提供一种层次化摘要的生成方法,所述层次化摘要的生成方法包括以下步骤:
获取待生成摘要的原始文本,依据所述原始文本生成多个一级摘要,将所述一级摘要作为下级摘要;
依次基于预设数量个所述下级摘要生成上级摘要,若存在多个所述上级摘要,则将生成的所述上级摘要作为新的下级摘要,返回执行依次基于预设数量个所述下级摘要生成上级摘要的步骤;
若存在一个所述上级摘要,则基于生成的所有摘要得到所述原始文本对应的层次化摘要。
可选地,所述依据所述原始文本生成多个一级摘要的步骤,包括:
对所述原始文本进行分段处理,得到多段子原始文本;
基于所有所述子原始文本生成多个一级摘要。
可选地,所述基于所有所述子原始文本生成多个一级摘要的步骤,包括:
依据所有所述子原始文本中相邻的子原始文本,生成重叠摘要;
依据所有所述子原始文本中首端的子原始文本,生成首端摘要;
依据所有所述子原始文本中尾端的子原始文本,生成尾端摘要;
将所述重叠摘要、所述首端摘要与所述尾端摘要中一种或多种作为一级摘要。
可选地,所述依据所有所述子原始文本中相邻的子原始文本,生成重叠摘要的步骤,包括:
依据所述原始文本的文本顺序依次遍历每一所述子原始文本,将遍历的所述原始文本作为当前子原始文本;
确定所有所述子原始文本中与所述当前子原始文本顺序邻接的邻接子原始文本;
基于所述当前子原始文本与所述邻接子原始文本,生成重叠摘要。
可选地,所述依次基于预设数量个所述下级摘要生成上级摘要的步骤,包括:
若目标下级摘要的摘要数量大于或等于所述预设数量,则依次基于预设数量个所述目标下级摘要生成上级摘要,直至所述目标下级摘要的摘要数量小于所述预设数量,其中,所述目标下级摘要为所述下级摘要中未生成上级摘要的下级摘要;
若目标下级摘要的摘要数量大于零且小于所述预设数量, 则基于所述目标下级摘要生成上级摘要。
可选地,所述基于生成的所有摘要得到所述原始文本对应的层次化摘要的步骤之后,所述方法还包括:
对所述层次化摘要中每一摘要进行向量化处理,得到所述原始文本对应的层次化摘要向量,并将所述层次化摘要向量存储至预设数据库中,其中,所述层次化摘要向量包括一个或多个摘要向量。
可选地,所述对所述层次化摘要中每一摘要进行向量化处理,得到层次化摘要向量的步骤之后,所述方法还包括:
响应于检索请求,依据所述检索请求获取查询语句与检索文本,将预设数据库中所述检索文本对应的层次化摘要向量作为目标层次化摘要向量;
查询所述目标层次化摘要向量中与所述查询语句匹配度最高的目标摘要向量,确定所述目标摘要向量对应的摘要内容;
将所述摘要内容作为所述查询语句的查询结果,并输出所述查询结果。
此外,为实现上述目的,本申请还提供一种层次化摘要的生成装置,所述层次化摘要的生成装置包括:
一级摘要生成,用于获取待生成摘要的原始文本,依据所述原始文本生成多个一级摘要,将所述一级摘要作为下级摘要;
摘要递归生成模块,用于依次基于预设数量个所述下级摘要生成上级摘要,若存在多个所述上级摘要,则将生成的所述上级摘要作为新的下级摘要,返回执行依次基于预设数量个所述下级摘要生成上级摘要的步骤;
层次摘要模块,用于若存在一个所述上级摘要,则基于生成的所有摘要得到所述原始文本对应的层次化摘要。
此外,为实现上述目的,本申请还提供一种层次化摘要的生成设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的层次化摘要的生成程序,所述层次化摘要的生成程序被所述处理器执行时实现如上述的层次化摘要的生成方法的步骤。
此外,为实现上述目的,本申请还提供一种可读存储介质,可读存储介质上存储有层次化摘要的生成程序,层次化摘要的生成程序被处理器执行时实现如上述的层次化摘要的生成方法的步骤。
本申请中获取待生成摘要的原始文本,依据所述原始文本生成多个一级摘要,将所述一级摘要作为下级摘要;依次基于预设数量个所述下级摘要生成上级摘要,若存在多个所述上级摘要,则将生成的所述上级摘要作为新的下级摘要,返回执行依次基于预设数量个所述下级摘要生成上级摘要的步骤;若存在一个所述上级摘要,则基于生成的所有摘要得到所述原始文本对应的层次化摘要。如此,与合成一整段文本摘要的摘要生成的方式相比,本申请实施例基于原始文本生成多个一级摘要,将这多个一级摘要作为下级摘要,并基于下级摘要进一步生成上级摘要,递归的生成上级摘要,每预设数量个下级摘要合成一个更高层次的摘要,逐渐减少摘要的数量,同时提炼和压缩信息,仅生成一个上级摘要后,依据摘要递归生成的层级关系,可得到树状结构的层次化摘要,从而对于原始文本,生成树状结构的层次化摘要,通过层次化的摘要实现了对文本层次化信息的反映。
附图说明
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
图1是本申请实施例方案涉及的硬件运行环境的终端\***结构示意图;
图2为本申请层次化摘要的生成方法第一实施例的流程示意图;
图3为本申请层次化摘要的生成方法具体实施例的流程示意图;
图4为本申请层次化摘要的生成方法第二实施例的流程示意图;
图5为本申请层次化摘要的生成装置的装置结构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,图1为本申请实施例方案涉及的硬件运行环境的层次化摘要的生成设备结构示意图。
如图1所示,该层次化摘要的生成设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储***。
本领域技术人员可以理解,图1中示出的结构并不构成对层次化摘要的生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、数据存储模块、网络通信模块、用户接口模块以及层次化摘要的生成程序。
在图1所示的层次化摘要的生成设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本申请层次化摘要的生成设备中的处理器1001、存储器1005可以设置在层次化摘要的生成设备中,所述层次化摘要的生成设备通过处理器1001调用存储器1005中存储的层次化摘要的生成程序,并执行本申请实施例提供的层次化摘要的生成方法。
请参照图2,图2为本申请层次化摘要的生成方法第一实施例的流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中,本申请层次化摘要的生成方法应用于上述的终端设备。应当理解的是,基于实际应用的不同设计需要,在不同可行的实施方式当中,本申请层次化摘要的生成方法当然还可以具体应用于其它终端设备。
在本实施例中,如图2所示,所述层次化摘要的生成方法包括以下步骤:
步骤S10,获取待生成摘要的原始文本,依据所述原始文本生成多个一级摘要,将所述一级摘要作为下级摘要;
该原始文本可为单模态原始文本与多模态原始文本,其中,单模态原始文本为文本中仅包含一种模态,如仅包含文字,多模态原始为文本中包含多种模态,如包含文字、图像、音频中的多种。对于包括音频的原始文本,作为其中一种实施方式,可将音频转写为文本后,将转写的文本***原始文本中,具体地,依据音频在原始文本中的顺序,将转写后的文本***至原始文本中,以该***音频转写文本后的原始文本作为待生成摘要的原始文本。从而使得可以生成多模态原始文本的层次化摘要,降低了对原始文本的文本模态要求,使得本申请的层次化摘要方法适用性更广,可应用于任意模态的原始文本。
在一种可能的实施方式中,所述依据所述原始文本生成多个一级摘要的步骤,包括;
步骤S101,对所述原始文本进行分段处理,得到多段子原始文本;
作为其中一种实施方式,可采用等字符数划分的方式对原始文本进行分段处理,如每300字符划分为一段子原始文本等。作为另一种实施方式,可采用等字数划分的方式对原始文本进行分段处理,如每300字划分为一段子原始文本等。作为另一种实施方式,可采用每一自然段原始文本划分为一段子原始文本,本实施例对此并不做具体限制,本领域技术人员可根据实际情况进行设置。
步骤S102,基于所有所述子原始文本生成多个一级摘要。
作为其一种实施方式,可采用重叠文本的摘要生成方式生成一级摘要,举例来说,如假设该多段子原始文本分别为【A1、A2......Ai.....An】,则可以基于A1与A2生成一个一级摘要、A2与A3生成一个一级摘......Ai-1与Ai生成一个一级摘要、Ai与Ai+1生成一个一级摘要......An-1与An生成一个一级摘要,由此,得到生成的多个一级摘要。
此外,作为另一种实施方式,也可以基于每一段子原始文本生成一个一级摘要,如在上述例子中,A1生成一个一级摘要、A2生成一个一级摘......Ai生成一个一级摘要......An生成一个一级摘要,由此,得到生成的多个一级摘要。
需要说明地是,若原始文本仅划分得到一个子原始文本,则可基于原始文本生成摘要,并将该摘要作为原始文本的摘要生成结果进行输出。
步骤S20,依次基于预设数量个所述下级摘要生成上级摘要,若存在多个所述上级摘要,则将生成的所述上级摘要作为新的下级摘要,返回执行依次基于预设数量个所述下级摘要生成上级摘要的步骤;
本实施例中,递归的生成上级摘要,直至生成一个最终的上级摘要。举例来说,原始文本分段处理后生成了9个一级摘要,分别为【B1、B2、B3、B4、B5、B6、B7、B8、B9】,预设数量为3,则【B1、B2、B3】作为一组下级摘要生成上级摘要C1、【B4、B5、B6】作为一组下级摘要生成上级摘要C2、【B7、B8、B9】作为一组下级摘要生成上级摘要C3,生成的上级摘要【C1、C2、C3】大于1,再以【C1、C2、C3】作为下级摘要进一步生成上级摘要,即【C1、C2、C3】生成上级摘要D1,此时仅生成一个上级摘要,结束摘要递归生成。
需要说明地是,本申请实施例可采用已知的摘要生成算法生成摘要,如基于注意力机制的指针生成网络模型(PointerGeneratornetwork)、关键词提取(TextRank)算法、BM25算法等等,本实施例对此并不做具体限制。
步骤S30,若存在一个所述上级摘要,则基于生成的所有摘要得到所述原始文本对应的层次化摘要。
需要说明地是,在其他实施例中,也可以提前设置摘要递归生成的退出条件,如生成的上级摘要数量小于或等于预设阈值时,退出摘要递归生成。其中,预设阈值可取2、3等等。如预设阈值取2时,从一级摘要开始递归生成上级摘要,直到生成的最上级摘要的摘要数量小于或等于2时,则可退出递归,结束生成摘要。
对于生成的层次化摘要,其包括递归过程中生成的所有摘要,该层次化摘要的结构可为所有摘要按递归生成关系组成的树形结构。
在一可行的应用场景中,本实施例中得到的层次化摘要可应用于文档的检索场景,也即使用本实施例中生成的层次化摘要进行文档检索等。例如,检索增强生成(Retrieval-Augmented Generator,RAG)能够检索不同粒度的数据,解决原有RAG在粒度匹配上的问题,提升大型语言模型(Large Language Models,LLMs)对长文本的整体理解能力。RAG模型在处理长文本时,尤其是需要全局理解的情况(如长篇社交媒体动态分析),可能难以有效捕捉和整合文本的整体结构和深层含义。这是因为RAG在处理每个检索和生成步骤时,往往关注于文本的局部信息,而不是全文的连贯性和整体性。因此,本实施例可对长文本进行层次化信息组织与摘要生成,构建树形结构。该方法首先对长文本(如社交媒体动态、博客文章或详细报道等)的各部分生成摘要,旨在捕捉关键信息和核心内容。随后,将摘要进一步组织成多层次结构。这种方法使RAG在检索时能访问更全面、深入的信息,显著提升理解和处理长文本内容的效率与准确度。通过SRAG(Summary-Based RetrieverAugment Generation,层次化检索增强生成),大型语言模型在文档总结和信息检索方面的能力得到显著提升,尤其在处理内容丰富的长文本数据时,能提供更精准、深入的分析。SRAG使RAG在检索时访问更全局信息,提高理解整体内容的效率与准确度,显著增强LLMs在文档总结和信息检索领域的能力。
本实施例中获取待生成摘要的原始文本,依据所述原始文本生成多个一级摘要,将所述一级摘要作为下级摘要;依次基于预设数量个所述下级摘要生成上级摘要,若存在多个所述上级摘要,则将生成的所述上级摘要作为新的下级摘要,返回执行依次基于预设数量个所述下级摘要生成上级摘要的步骤;若存在一个所述上级摘要,则基于生成的所有摘要得到所述原始文本对应的层次化摘要。如此,与合成一整段文本摘要的摘要生成的方式相比,本实施例基于原始文本生成多个一级摘要,将这多个一级摘要作为下级摘要,并基于下级摘要进一步生成上级摘要,递归的生成上级摘要,每预设数量个下级摘要合成一个更高层次的摘要,逐渐减少摘要的数量,同时提炼和压缩信息,仅生成一个上级摘要后,依据摘要递归生成的层级关系,可得到树状结构的层次化摘要,从而对于原始文本,生成树状结构的层次化摘要,通过层次化的摘要实现了对文本层次化信息的反映。
进一步地,基于上述本申请的第一实施例,提出本申请层次化摘要的生成方法的第二实施例,与上述第一实施例相同或相似的内容,可以参考上文介绍,后续不再赘述。在本实施例中,参照图4所示,所述基于所有所述子原始文本生成多个一级摘要的步骤,包括:
步骤A10,依据所有所述子原始文本中相邻的子原始文本,生成重叠摘要;
该相邻的子原始文本具体可为文本顺序相邻的子原始文本。对于任意预设数量个相邻的子原始文本,生成重叠摘要,如对于任意两个相邻的子原始文本生成重叠摘要,具体地,可将任意两个相邻的子原始文本输入至预设的摘要生成算法中,输出得到的重叠摘要。
步骤A20,依据所有所述子原始文本中首端的子原始文本,生成首端摘要;
该首端的子原始文本具体可为依据原始文本的文本顺序对原始文本分段处理后,文本顺序最先的子原始文本。举例来说,假设对于原始文本A,依其文本顺序对A分段处理后,得到【A1、A2.....Ai......An】依文本顺序排列的多段子原始文本,则A1为首端得到子原始文本,基于A1生成首端摘要,如将A1输入至预设的摘要生成算法中,输出得到的首端摘要。
步骤A30,依据所有所述子原始文本中尾端的子原始文本,生成尾端摘要;
该尾端的子原始文本具体可为依据原始文本的文本顺序对原始文本分段处理后,文本顺序最末的子原始文本。举例来说,假设对于原始文本A,依其文本顺序对A分段处理后,得到【A1、A2.....Ai......An】依文本顺序排列的多段子原始文本,则An为尾端的子原始文本,基于An生成尾端摘要,如将An输入至预设的摘要生成算法中,输出得到的尾端摘要。
步骤A40,将所述重叠摘要、所述首端摘要与所述尾端摘要中一种或多种作为一级摘要。
本实施例中,优选地,将重叠摘要、首端摘要与尾端摘要均作为一级摘要,对文本首尾两端单独进行摘要处理,确保每个文本至少被总结两次,加强了文本开头和结尾部分信息的捕获,提高了摘要总结的全面性。
在一种可能的实施方式中,所述依据所有所述子原始文本中相邻的子原始文本,生成重叠摘要的步骤,包括:
步骤B10,依据所述原始文本的文本顺序依次遍历每一所述子原始文本,将遍历的所述原始文本作为当前子原始文本;
步骤B20,确定所有所述子原始文本中与所述当前子原始文本顺序邻接的邻接子原始文本;
邻接子原始文本可为预设数量个与当前子原始文本顺序邻接的子原始文本。本实施例中,优选地,邻接子原始文本为与当前子原始文本顺序邻接的一个子原始文本。举例来说,假设对于原始文本A,依其文本顺序对A分段处理后,得到【A1、A2.....Ai......An】依文本顺序排列的多段子原始文本,当前子原始文本为Ai时,邻接子原始文本为Ai+1。
步骤B30,基于所述当前子原始文本与所述邻接子原始文本,生成重叠摘要。
作为一种可行的实施方式,可将当前子原始文本与所述邻接子原始文本输入至预设的摘要生成算法中,输出得到重叠摘要。
本实施例中,对文档的每一段子原始文本进行重叠摘要,确保在文档的切分过程中不丢失重要信息,这样的重叠摘要方式保证了连续文本间内容的完整性和连贯性。
在一种可能的实施方式中,所述依次基于预设数量个所述下级摘要生成上级摘要的步骤,包括:
步骤C10,若目标下级摘要的摘要数量大于或等于所述预设数量,则依次基于预设数量个所述目标下级摘要生成上级摘要,直至所述目标下级摘要的摘要数量小于所述预设数量,其中,所述目标下级摘要为所述下级摘要中未生成上级摘要的下级摘要;
步骤C20,若目标下级摘要的摘要数量大于零且小于所述预设数量, 则基于所述目标下级摘要生成上级摘要。
可以理解地是,目标下级摘要为下级摘要中还未生成上级摘要的下级摘要。举例来说,假设【B1、B2、B3、B4、B5、B6、B7、B8、B9】,预设数量为3,则初始时【B1、B2、B3、B4、B5、B6、B7、B8、B9】均为目标下级摘要,然后选择【B1、B2、B3】作为一组下级摘要生成上级摘要C1后,【B4、B5、B6、B7、B8、B9】更新为目标下级摘要。
若目标下级摘要的摘要数量大于零且小于预设数量,则基于剩下的所有目标下级摘要生成上级摘要。举例来说,假设下级摘要为【B1、B2、B3、B4、B5、B6、B7、B8、B9】,预设数量为4,则【B1、B2、B3、B4】作为一组下级摘要生成上级摘要C1,【B5、B6、B7、B8】作为一组下级摘要生成上级摘要C2,最后B9作为单独的下级摘要生成上级摘要C3。
本实施例中,目标下级摘要的摘要数量大于或等于所述预设数量,则依次基于预设数量个所述目标下级摘要生成上级摘要,目标下级摘要的摘要数量大于零且小于所述预设数量, 则基于目标下级摘要生成上级摘要,保证了有序、准确且完整的生成上级摘要。
在一种可能的实施方式中,所述基于生成的所有摘要得到所述原始文本对应的层次化摘要的步骤之后,所述方法还包括:
步骤D10,对所述层次化摘要中每一摘要进行向量化处理,得到所述原始文本对应的层次化摘要向量,并将所述层次化摘要向量存储至预设数据库中,其中,所述层次化摘要向量包括一个或多个摘要向量。
对每一摘要进行向量化处理,得到每一摘要对应的摘要向量,组合每一摘要向量得到层次化摘要向量。具体可采用已知的文本向量化方式对每一摘要进行向量化处理,本实施例不再详述。
进一步地,可将该层次化摘要向量与原始文本的文本标识进行关联存储,以使能够确定预设数据库中每一层次化摘要向量具体为哪一文本的层次化摘要向量,提高后续检索的检索效率。
本实施例中,对摘要进行向量化处理,可以捕捉文本的语义信息,使得摘要在数学上可以进行计算和比较,为基于语义的相似性搜索和深度学习模型提供了数据基础。
进一步地,为了助于理解本申请的技术构思或工作原理,列举一具体实施例,在本具体实施例中,参照图3所示,层次化摘要的生成流程为:
步骤一:基于小区PCI mod4确认波束遍历起始时间加快结果收敛速度
当前小区与相邻小区间均需要遍历寻找最最优波束扫描方案,邻区的波束扫描方式的不同会影响当前小区的波束扫描结果,某一次计算的最优波束扫描方案不一定是最终最优波束扫描方案,需要周期性更新最佳波束扫描方法,达到逐步收敛于稳定的最佳波束扫描方案。
但是,如果当前小区与邻区同时遍历波束扫描方案,也即,小区A在改变波束扫描方案的同时,相邻小区B的波束扫描方式也同时改变,就加剧了变化程度,波束碰撞概率加大,不利于快速寻找到稳定的波束扫描方案,基于此,做了如下波束防碰撞最佳扫描方案的快速收敛设计。
由于SSB的DMRS信号在频域按照MOD4分布,因此5G***中相邻小区间一般需满足PCI MOD 4错开。设定评估周期,评估周期内在/>时间内计算出最佳波束扫描方案,其中,/>(本具体实施例中,预设阈值取8),其中,C为所有波束扫描方案的方案数量,/>为遍历时间,n为待扫描波束的波束数量,m为波束分组数量,nG为一个波束分组包括的待扫描波束数量,T为单周期信号发射时长。小区按照PCI mod 4的结果选择在/>周期内/>的起始时刻。这样能保障一个小区在遍历波束扫描方案时,其他相邻小区均采用上一周期内计算得到的最优波束扫描方案,且固定不变,加快波束方案收敛速度。
步骤二:当备选波束n≤8,遍历n!种波束扫描方案,获取平均SINR最大方案
记完成第k次波束扫描,波束扫描方案记为,基站记录本次扫描所有波束的SINR情况/>,并统计本次扫描所有波束的SINR平均值作为第k次波束扫描方案的平均SINR,记为/>=/>。
汇集遍历全部波束扫描方式的结果,并存储形成一个列表/>,最佳波束扫描方法即为SINR最大值时所对应的波束扫描方案。最大值记为/>=max(/>),k=0、1、2、...n!-1,则最终当前小区最优的波束扫描方案即为/>,其中,best=/>.index()。
步骤三:当备选波束n>8,将n波速分为m组,实行“组间遍历+组内波束遍历”的扫描方式,获取平均SINR最大方案,减小最佳方案求解复杂度。
备选波束n>8的最佳波束扫描方案确认算法与上述备选波束n≤8算法相同,均为取SINR平均值最大为最佳波束扫描方案。
需要说明的是,上述具体实施例仅用于理解本申请,并不构成对本申请波束扫描流程的限定,基于此技术构思进行更多形式的简单变换,均在本申请的保护范围内。
进一步地,基于上述本申请的第一实施例,提出本申请层次化摘要的生成方法的第二实施例,与上述第一实施例相同或相似的内容,可以参考上文介绍,后续不再赘述。在本实施例中,所述对所述层次化摘要中每一摘要进行向量化处理,得到层次化摘要向量的步骤之后,所述方法还包括:
步骤E10,响应于检索请求,依据所述检索请求获取查询语句与检索文本,将预设数据库中所述检索文本对应的层次化摘要向量作为目标层次化摘要向量;
该查询语句与检索文本可通过检索请求获取得到。举例来说,假设用于输出的查询语句为“文本A的中心思想是什么?”,则用户输入这一查询语句发起检索请求后,查询语句为“文本A的中心思想是什么?”,检索文本为文本A,基于该查询语句在预设数据库中进行查询检索。
进一步地,可对该查询语句进行向量处理,得到查询语句向量。
步骤E20,查询所述目标层次化摘要向量中与所述查询语句匹配度最高的目标摘要向量,确定所述目标摘要向量对应的摘要内容;
具体地,可查询目标层次化摘要向量中各摘要向量与查询语句向量之间的向量相似度,将向量相似度最高的摘要向量作为目标摘要向量。
步骤E30,将所述摘要内容作为所述查询语句的查询结果,并输出所述查询结果。
在一具体地应用场景中,本实施例中,基于层次化摘要向量的检索方式可应用于RAG检索场景,利用上述生成的向量化摘要进行检索增强。在检索阶段,可以利用各种机器学习和深度学习算法,比如聚类分析、神经网络等,来识别和提取文本中的关键信息和模式。通过这种方式,可以在预设数据库中快速定位到最相关的信息,增强检索的精度和效率。此外,还可以包括使用自然语言生成(NLG,NaturalLanguageGeneration)模型来根据用户的查询语句自动生成响应的摘要,从而提供更加动态和个性化的信息检索体验。
其中,RAG(Retrieval-Augmented Generation)技术是自然语言处理领域的一项重要创新,它结合了信息检索和文本生成的技术。这种技术的核心在于首先从大型知识库中检索与输入查询相关的信息,然后利用这些信息辅助生成文本回答或内容。RAG的起源可以追溯到对传统语言模型功能的扩展,特别是为了解决知识密集型文本生成的局限性。
在RAG模型中,检索阶段和生成阶段是密切相关的。模型首先对输入进行解析,然后从预构建的知识库中检索相关信息,这些知识库通常包含广泛的文本数据,如***等。检索到的信息随后被用于生成阶段,这一阶段通常由一个基于Transformer架构的序列到序列模型执行,以生成最终的文本输出。RAG模型在多种自然语言处理任务中表现出色,尤其是在开放域问答***中。它能够利用检索到的信息提供更精确、信息丰富的答案。此外,在文本摘要等任务中,RAG通过检索相关上下文信息,提高了摘要的质量和相关性。
虽然仅依靠大模型已经可以完成很多任务,Fine-tune 也可以起到补充领域知识的作用,但RAG仍旧有一些不可替代的应用场景。
首先,尽管大型模型如GPT(Generative Pre-Trained Transformer,生成式预训练Transformer模型)-3或GPT-4拥有巨大的参数规模,它们在生成内容时仍可能产生与现实不符的信息,即“幻觉”现象。这是因为它们的知识是静态的,来自于训练数据集,而人类的知识是持续更新和发展的。RAG模型通过实时从大型、更新的知识库中检索信息来弥补这一点,从而能够为生成内容提供更准确、及时的知识支持。
其次,关于语料更新时效性问题,虽然Fine-tuning可以为大模型引入新的知识,但这通常伴随着高昂的计算成本和较长的时间。与此相比,RAG模型可以更高效地通过更新其检索的知识库来保持信息的最新性。这种灵活性使得RAG模型在处理需要最新数据的场景(如新闻更新、科技发展等)时更具优势。
最后,涉及数据泄露问题,Fine-tuning大型模型时使用的领域特定数据可能包含敏感信息,这些信息有被无意间泄露的风险。而RAG模型可以通过集成私有数据存储,例如公司内部数据库或专有知识库,来提供更安全的数据处理方式。这种方法降低了敏感数据泄露的风险,同时使得模型能够在保证安全性的同时提供定制化和针对性的信息。
可以理解地是,RAG模型通过其独特的检索-生成机制,不仅提高了信息的准确性和时效性,还增强了数据处理的安全性,因此在当前NLP领域中仍然占有非常重要的地位。
此外,本申请还提供一种层次化摘要的生成装置,参照图5,所述层次化摘要的生成装置包括:
一级摘要生成10,用于获取待生成摘要的原始文本,依据所述原始文本生成多个一级摘要,将所述一级摘要作为下级摘要;
摘要递归生成模块20,用于依次基于预设数量个所述下级摘要生成上级摘要,若存在多个所述上级摘要,则将生成的所述上级摘要作为新的下级摘要,返回执行依次基于预设数量个所述下级摘要生成上级摘要的步骤;
层次摘要模块30,用于若存在一个所述上级摘要,则基于生成的所有摘要得到所述原始文本对应的层次化摘要。
一级摘要生成10,还用于:
对所述原始文本进行分段处理,得到多段子原始文本;
基于所有所述子原始文本生成多个一级摘要。
一级摘要生成10,还用于:
依据所有所述子原始文本中相邻的子原始文本,生成重叠摘要;
依据所有所述子原始文本中首端的子原始文本,生成首端摘要;
依据所有所述子原始文本中尾端的子原始文本,生成尾端摘要;
将所述重叠摘要、所述首端摘要与所述尾端摘要中一种或多种作为一级摘要。
一级摘要生成10,还用于:
依据所述原始文本的文本顺序依次遍历每一所述子原始文本,将遍历的所述原始文本作为当前子原始文本;
确定所有所述子原始文本中与所述当前子原始文本顺序邻接的邻接子原始文本;
基于所述当前子原始文本与所述邻接子原始文本,生成重叠摘要。
摘要递归生成模块20,还用于
若目标下级摘要的摘要数量大于或等于所述预设数量,则依次基于预设数量个所述目标下级摘要生成上级摘要,直至所述目标下级摘要的摘要数量小于所述预设数量,其中,所述目标下级摘要为所述下级摘要中未生成上级摘要的下级摘要;
若目标下级摘要的摘要数量大于零且小于所述预设数量, 则基于所述目标下级摘要生成上级摘要。
所述装置还包括摘要向量化模块,所述摘要向量化模块,用于:
对所述层次化摘要中每一摘要进行向量化处理,得到所述原始文本对应的层次化摘要向量,并将所述层次化摘要向量存储至预设数据库中,其中,所述层次化摘要向量包括一个或多个摘要向量。
所述装置还包括检索模块,所述检索模块,用于:
响应于检索请求,依据所述检索请求获取查询语句与检索文本,将预设数据库中所述检索文本对应的层次化摘要向量作为目标层次化摘要向量;
查询所述目标层次化摘要向量中与所述查询语句匹配度最高的目标摘要向量,确定所述目标摘要向量对应的摘要内容;
将所述摘要内容作为所述查询语句的查询结果,并输出所述查询结果。
此外,本申请实施例还提出一种层次化摘要的生成设备,层次化摘要的生成设备括存储器、处理器及存储在所述存储器上并可在所述处理器上执行的层次化摘要的生成程序,所述层次化摘要的生成程序被所述处理器执行时实现如上述的层次化摘要的生成方法的步骤。
本申请层次化摘要的生成设备具体实施方式与上述层次化摘要的生成方法每一实施例基本相同,在此不再赘述。
此外,为实现上述目的,本申请还提供一种可读存储介质,可读存储介质上存储有层次化摘要的生成程序,层次化摘要的生成程序被处理器执行时实现如上述的层次化摘要的生成方法的步骤。
本申请可读存储介质具体实施方式与上述层次化摘要的生成方法每一实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请每一个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种层次化摘要的生成方法,其特征在于,所述层次化摘要的生成方法包括以下步骤:
获取待生成摘要的原始文本,依据所述原始文本生成多个一级摘要,将所述一级摘要作为下级摘要;
依次基于预设数量个所述下级摘要生成上级摘要,若存在多个所述上级摘要,则将生成的所述上级摘要作为新的下级摘要,返回执行依次基于预设数量个所述下级摘要生成上级摘要的步骤;
若存在一个所述上级摘要,则基于生成的所有摘要得到所述原始文本对应的层次化摘要。
2.如权利要求1所述的层次化摘要的生成方法,其特征在于,所述依据所述原始文本生成多个一级摘要的步骤,包括:
对所述原始文本进行分段处理,得到多段子原始文本;
基于所有所述子原始文本生成多个一级摘要。
3.如权利要求2所述的层次化摘要的生成方法,其特征在于,所述基于所有所述子原始文本生成多个一级摘要的步骤,包括:
依据所有所述子原始文本中相邻的子原始文本,生成重叠摘要;
依据所有所述子原始文本中首端的子原始文本,生成首端摘要;
依据所有所述子原始文本中尾端的子原始文本,生成尾端摘要;
将所述重叠摘要、所述首端摘要与所述尾端摘要中一种或多种作为一级摘要。
4.如权利要求3所述的层次化摘要的生成方法,其特征在于,所述依据所有所述子原始文本中相邻的子原始文本,生成重叠摘要的步骤,包括:
依据所述原始文本的文本顺序依次遍历每一所述子原始文本,将遍历的所述原始文本作为当前子原始文本;
确定所有所述子原始文本中与所述当前子原始文本顺序邻接的邻接子原始文本;
基于所述当前子原始文本与所述邻接子原始文本,生成重叠摘要。
5.如权利要求1所述的层次化摘要的生成方法,其特征在于,所述依次基于预设数量个所述下级摘要生成上级摘要的步骤,包括:
若目标下级摘要的摘要数量大于或等于所述预设数量,则依次基于预设数量个所述目标下级摘要生成上级摘要,直至所述目标下级摘要的摘要数量小于所述预设数量,其中,所述目标下级摘要为所述下级摘要中未生成上级摘要的下级摘要;
若目标下级摘要的摘要数量大于零且小于所述预设数量, 则基于所述目标下级摘要生成上级摘要。
6.如权利要求1所述的层次化摘要的生成方法,其特征在于,所述基于生成的所有摘要得到所述原始文本对应的层次化摘要的步骤之后,所述方法还包括:
对所述层次化摘要中每一摘要进行向量化处理,得到所述原始文本对应的层次化摘要向量,并将所述层次化摘要向量存储至预设数据库中,其中,所述层次化摘要向量包括一个或多个摘要向量。
7.如权利要求6所述的层次化摘要的生成方法,其特征在于,所述对所述层次化摘要中每一摘要进行向量化处理,得到层次化摘要向量的步骤之后,所述方法还包括:
响应于检索请求,依据所述检索请求获取查询语句与检索文本,将预设数据库中所述检索文本对应的层次化摘要向量作为目标层次化摘要向量;
查询所述目标层次化摘要向量中与所述查询语句匹配度最高的目标摘要向量,确定所述目标摘要向量对应的摘要内容;
将所述摘要内容作为所述查询语句的查询结果,并输出所述查询结果。
8.一种层次化摘要的生成装置,所述层次化摘要的生成装置包括:
一级摘要生成,用于获取待生成摘要的原始文本,依据所述原始文本生成多个一级摘要,将所述一级摘要作为下级摘要;
摘要递归生成模块,用于依次基于预设数量个所述下级摘要生成上级摘要,若存在多个所述上级摘要,则将生成的所述上级摘要作为新的下级摘要,返回执行依次基于预设数量个所述下级摘要生成上级摘要的步骤;
层次摘要模块,用于若存在一个所述上级摘要,则基于生成的所有摘要得到所述原始文本对应的层次化摘要。
9.一种层次化摘要的生成设备,其特征在于,所述层次化摘要的生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的层次化摘要的生成程序,所述层次化摘要的生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的层次化摘要的生成方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有层次化摘要的生成程序,所述层次化摘要的生成程序被处理器执行时实现如权利要求1至7中任一项所述的层次化摘要的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410460549.2A CN118069833B (zh) | 2024-04-17 | 层次化摘要的生成方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410460549.2A CN118069833B (zh) | 2024-04-17 | 层次化摘要的生成方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118069833A true CN118069833A (zh) | 2024-05-24 |
CN118069833B CN118069833B (zh) | 2024-07-23 |
Family
ID=
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110597981A (zh) * | 2019-09-16 | 2019-12-20 | 西华大学 | 一种采用多策略自动生成摘要的网络新闻概要*** |
CN112231468A (zh) * | 2020-10-15 | 2021-01-15 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
EP3896595A1 (en) * | 2020-04-17 | 2021-10-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text key information extracting method, apparatus, electronic device, storage medium, and computer program product |
CN113609300A (zh) * | 2021-06-07 | 2021-11-05 | 联想(北京)有限公司 | 一种知识图谱摘要的确定方法及装置 |
CN115422941A (zh) * | 2022-07-28 | 2022-12-02 | 武汉轻工大学 | 文本摘要生成方法、装置、设备以及存储介质 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472238A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110597981A (zh) * | 2019-09-16 | 2019-12-20 | 西华大学 | 一种采用多策略自动生成摘要的网络新闻概要*** |
EP3896595A1 (en) * | 2020-04-17 | 2021-10-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text key information extracting method, apparatus, electronic device, storage medium, and computer program product |
CN112231468A (zh) * | 2020-10-15 | 2021-01-15 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
CN113609300A (zh) * | 2021-06-07 | 2021-11-05 | 联想(北京)有限公司 | 一种知识图谱摘要的确定方法及装置 |
CN115422941A (zh) * | 2022-07-28 | 2022-12-02 | 武汉轻工大学 | 文本摘要生成方法、装置、设备以及存储介质 |
Non-Patent Citations (1)
Title |
---|
李珍辉等: ""基于BART模型的风电技术文献摘要生成算法"", 《湖南工程学院学报(自然科学版)》, 31 December 2023 (2023-12-31), pages 48 - 53 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7870141B2 (en) | Method and system for finding a focus of a document | |
CN106844341B (zh) | 基于人工智能的新闻摘要提取方法及装置 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN110765247B (zh) | 一种用于问答机器人的输入提示方法及装置 | |
JP2016532942A (ja) | イベント知識データベースの構築方法および装置 | |
CN111831911A (zh) | 查询信息的处理方法、装置、存储介质和电子装置 | |
WO2011004529A1 (ja) | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN105956148A (zh) | 资源信息的推荐方法和装置 | |
CN105706091A (zh) | 在自然语言处理和其他应用中使用的四值类比转换运算符的方法和*** | |
CN115688779B (zh) | 一种基于自监督深度学习的地址识别方法 | |
CN112650842A (zh) | 基于人机交互的客服机器人意图识别方法及相关设备 | |
Amir et al. | Managing unbounded-length keys in comparison-driven data structures with applications to online indexing | |
CN114416926A (zh) | 关键词匹配方法、装置、计算设备及计算机可读存储介质 | |
CN114090735A (zh) | 一种文本匹配方法、装置、设备及存储介质 | |
CN113590811B (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN111475511A (zh) | 基于树状结构的数据存储方法、访问方法、装置及设备 | |
JP2018173909A (ja) | 学習プログラム、学習方法および学習装置 | |
Bidoki et al. | Text summarization as a multi-objective optimization task: Applying harmony search to extractive multi-document summarization | |
US20150154268A1 (en) | Method of discovering and exploring feature knowledge | |
CN118069833B (zh) | 层次化摘要的生成方法、装置、设备及可读存储介质 | |
CN118069833A (zh) | 层次化摘要的生成方法、装置、设备及可读存储介质 | |
WO2022262632A1 (zh) | 网页搜索方法、装置及存储介质 | |
CN114020898B (zh) | 人机自动对话方法、装置、电子设备及存储介质 | |
Kontakis et al. | Spatial indexing of complex virtual reality scenes in the web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |