CN117609461A - 文本生成方法、智能问答方法、装置和电子设备和介质 - Google Patents

文本生成方法、智能问答方法、装置和电子设备和介质 Download PDF

Info

Publication number
CN117609461A
CN117609461A CN202311621289.4A CN202311621289A CN117609461A CN 117609461 A CN117609461 A CN 117609461A CN 202311621289 A CN202311621289 A CN 202311621289A CN 117609461 A CN117609461 A CN 117609461A
Authority
CN
China
Prior art keywords
text
slice
slices
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311621289.4A
Other languages
English (en)
Inventor
贾敬伍
张�杰
于皓
刘海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongguancun Kejin Technology Co Ltd
Original Assignee
Beijing Zhongguancun Kejin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongguancun Kejin Technology Co Ltd filed Critical Beijing Zhongguancun Kejin Technology Co Ltd
Priority to CN202311621289.4A priority Critical patent/CN117609461A/zh
Publication of CN117609461A publication Critical patent/CN117609461A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了文本生成方法、智能问答方法、装置和电子设备和介质。所述文本生成方法,包括:获取初始文本内容;对初始文本内容进行切片处理,得到多个第一文本切片;将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片;将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,所述问题信息的答案位于所述问题信息所对应的合并文本切片内。本申请可以提高所生成的目标文本的质量。

Description

文本生成方法、智能问答方法、装置和电子设备和介质
技术领域
本申请涉及计算机技术领域,具体涉及一种文本生成方法、智能问答方法、装置和电子设备和介质。
背景技术
随着计算机技术的发展,智能问答技术在许多领域均得到的应用。目前,在构建智能问答***的过程中,通常需要构建一个数据库,如此,后续可以在所构建的数据库中查找问题所对应的答案。上述数据库的构建过程通常为:先获取大量原始文本,然后,针对原始文本进行切片处理,所述数据库包括大量文本切片。后续在智能问答过程中,通常是先获取问题所对应的问题切片,然后,基于所获取的文本切片生成对应的答案。然而,由于在对原始文本进行切片的过程中,通常是按照文本长度进行简单的切片,因此,可能导致很多切片均仅包括某一问题的部分答案,进而影响后续所生成答案的效果。可见,相关技术中,智能问答场景的数据库中的文本存在质量较差的问题。
发明内容
本申请提供的一种文本生成方法、智能问答方法、装置和电子设备和介质,可以提高所生成的目标文本的质量。
第一方面,本申请实施例提供了一种文本生成方法,包括:
获取初始文本内容;
对初始文本内容进行切片处理,得到多个第一文本切片;
将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片;
将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,所述问题信息的答案位于所述问题信息所对应的合并文本切片内。
第二方面,本申请实施例提供了一种智能问答方法,所述方法包括:
获取提问信息;
基于所述提问信息在目标数据库中进行查询,得到至少一个候选文本,所述目标数据库中的候选文本为基于第一方面的文本生成方法所生成的文本;
基于所述至少一个候选文本生成所述提问信息对应的回复信息。
第三方面,本申请实施例提供了一种文本生成装置,包括:
获取模块,用于获取初始文本内容;
切片模块,用于对初始文本内容进行切片处理,得到多个第一文本切片;
合并模块,用于将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片;
拼接模块,用于将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,所述问题信息的答案位于所述问题信息所对应的合并文本切片内。
第四方面,本申请实施例提供了一种智能问答装置,包括:
获取模块,用于获取提问信息;
查询模块,用于基于所述提问信息在目标数据库中进行查询,得到至少一个候选文本,所述目标数据库中的候选文本为基于权利要求1-4中的文本生成方法所生成的文本;
生成模块,用于基于所述至少一个候选文本生成所述提问信息对应的回复信息。
第五方面,本申请实施例还提供了一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上述第一方面或第二方面的方法步骤。
第六方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面或第二方面的方法步骤。
本申请实施例中,在文本生成的过程中,对初始文本内容进行切片之后,通过将多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,并基于合并后的合并文本切片与问题信息进行拼接得到目标文本,由于所述合并文本切片可能由多个第一文本切片合并形成,因此,所述合并文本切片中所包含的答案相对于单个第一文本切片而言更为全面,从而有利于提高所生成的目标文本的质量。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本生成方法的流程图;
图2是本申请实施例提供的智能问答方法的流程图之一;
图3是本申请实施例提供的智能问答方法的流程图之二;
图4是本申请实施例提供的智能问答***的结构示意图;
图5是本申请实施例提供的文本生成装置的结构示意图之一;
图6是本申请实施例提供的智能问答装置的结构示意图之一;
图7是本申请实施例提供的文本生成装置的结构示意图之二;
图8是本申请实施例提供的智能问答装置的结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
请参见图1,图1为本申请提供的一种文本生成方法的流程示意图,所述文本生成方法,包括:
步骤101、获取初始文本内容;
步骤102、对初始文本内容进行切片处理,得到多个第一文本切片;
步骤103、将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片;
步骤104、将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,所述问题信息的答案位于所述问题信息所对应的合并文本切片内。
其中,上述初始文本内容可以是通过各种途径获取到的文本。例如,可以是通过网络爬虫针对目标网站进行信息爬取所爬取的网页内容。其中,所述网络爬虫:又称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。具体地,所述初始文本内容可以包括一个网页的全部内容。
上述对初始文本内容进行切片处理具体可以是指:按照一定的文本长度对所述初始文本内容进行切片处理,其中,所述一定的文本长度即一定的字符数量,例如,500个字符、1000个字符等。
上述相似度可以是指:第一文本切片所对应的向量之间的余弦相似度。或者,所述相似度也可以是指文本相似度,所述文本相似度根据文本中所包括的相同的文字的数量确定。
上述第一阈值可以根据实际需求进行设置,例如,当所述相似度的取值范围位于0-1之间时,所述第一阈值可以为0.7、0.8或0.9等相对较高的数值。
上述将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,具体可以是指:将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行拼接处理。
可以理解的是,上述问题信息可以是预先对各个合并文本切片所包括的文本内容进行分析所确定的问题信息,例如,当某一合并文本切片中包括的内容是A产品的介绍时,所对应的问题信息可以包括:A产品是什么?或者,什么是A产品等。
可以理解的是,可以将所生成的目标文本存储于目标数据库,其中,所述目标数据库可以作为智能文本场景中的数据库,如此,后续在智能问答过程中,可以根据用户提问,在所述目标数据库中找到用户提问对应的合并文本切片,由于所述合并文本切片中包括的答案相对于单个第一文本切片而言更为全面,从而有利于提高后续基于合并文本切片所生成的回复内容的质量。
该实施方式中,在文本生成的过程中,对初始文本内容进行切片之后,通过将多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,并基于合并后的合并文本切片与问题信息进行拼接得到目标文本,由于所述合并文本切片可能由多个第一文本切片合并形成,因此,所述合并文本切片中所包含的答案相对于单个第一文本切片而言更为全面,从而有利于提高所生成的目标文本的质量。
可选地,所述将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片,包括:
将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组;
基于所述切片分组中的第一文本切片之间的语义相似度,对所述切片分组进行去重处理,得到与所述至少一个切分分组一一对应的目标切片分组,其中,所述目标切片分组中,任意两个第一文本切片之间的语义相似度大于第二阈值;
对每个目标切片分组中的所有第一文本切片进行合并处理,得到所述至少一个合并文本切片。
具体地,可以先对切片分组中各个第一文本切片进行语义识别,得到每个第一文本切片所对应的语义信息,然后,计算各个第一文本切片所对应的语义信息之间的相似度,从而得到上述语义相似度。其中,所述计算各个第一文本切片所对应的语义信息之间的相似度具体可以是指:计算各个第一文本切片所对应的语义信息之间的余弦相似度。
上述第二阈值可以根据实际需求进行设置,例如,当所述语义相似度的取值范围位于0-1之间时,所述第二阈值可以为0.7、0.8或0.9等相对较高的数值。
上述基于所述切片分组中的第一文本切片之间的语义相似度,对所述切片分组进行去重处理具体可以包括:针对切片分组中语义相似度超过两个的第一文本切片,仅保留其中一个第一文本切片。
该实施方式中,通过基于所述切片分组中的第一文本切片之间的语义相似度,对所述切片分组进行去重处理,如此,可以去除所述合并文本切片中语义相同或相近的文本内容,从而避免所述合并文本切片的文本长度过长,以进一步提高所生成的目标文本的质量。
可选地,所述将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组,包括:
基于大模型对所述多个第一文本切片进行相似度识别,得到相似度识别信息,所述相似度识别信息包括所述多个第一文本切片中,各个第一文本切片之间的相似度;
基于所述相似度识别信息,将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组。
上述大模型可以是指:自然语言处理领域中的基于生成式架构的大型语言模型,例如,所述大模型可以是GPT-3模型、GPT、Bloom系列等。所述大模型可以自动生成文本,而不仅仅是对给定输入进行分类或预测。其特点包括:生成能力、上下文感知、无需预定义规则,通过在海量数据上进行无监督学习来学习语言的模式和规律。而判别式模型与生成式模型相对应,是另一种常见的机器学习模型类型,依赖于监督学习,它们不会生成新的文本,而是将输入映射到预定义的输出类别。
该实施方式中,通过基于大模型对所述多个第一文本切片进行相似度识别,从而有利于提高所生成的相似度识别信息的准确性。
可选地,所述将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,包括:
确定每个合并文本切片对应的至少两个不同的问题信息;
将每个合并文本切片与所对应的每个问题信息分别进行拼接,得到每个合并文本切片对应的至少两个目标文本。
具体地,在确定每个合并文本切片所对应的问题信息时,可以针对一个合并文本切片确定两个以上的问题信息,例如,当某一个合并文本切片描述了B产品的产品详情和功能时,所对应的至少两个问题信息可以包括:B产品是什么、B产品具有什么功能、B产品简介是什么、B产品有哪些好处等。
可以理解的是,所生成的每个合并文本切片对应的至少两个目标文本可以全部存储于上述目标数据库,如此,后续在进行智能问答的过程中,针对用户针对同一问题的不同表述均可以定位到该目标文本,从而提高后续智能问答过程中的回复效果。
请参见图2,图X是本申请实施例提供的一种智能问答方法,所述智能问答方法包括:
步骤201、获取提问信息;
步骤202、基于所述提问信息在目标数据库中进行查询,得到至少一个候选文本,所述目标数据库中的候选文本为基于上述实施例所述的文本生成方法所生成的文本;
步骤203、基于所述至少一个候选文本生成所述提问信息对应的回复信息。
其中,所述智能问答方法可以应用于各种自动回复机器人,或者,其他各种智能问答场景。下文以应用于自动回复机器人的场景,对所述智能问答方法作进一步解释说明:
上述提问信息可以是用户在智能问答场景中向自动回复机器人的提问。上述回复信息即自动回复机器人针对所述提问向用户发送的回复内容。
可以理解的是,在构建上述目标数据库时,可以获取大量网页文本,然后,针对每个网页文本分别采用上述文本生成方法生成对应的多个目标文本,并将所生成的目标文本存储于所述目标数据库。
该实施方式中,由于所述目标数据库中的候选文本为基于上述实施例所述的文本生成方法所生成的文本,因此,所述智能问答方法能够实现上述文本生成方法的各个过程,且具有相同的有益效果,为避免重复,在此不再予以赘述。
可选地,所述基于所述至少一个候选文本生成所述提问信息对应的回复信息,包括:
将所述提问信息和所述至少一个候选文本输入大模型进行答案生成,得到所述问题信息所对应的回复内容,其中,所述回复内容为所述大模型基于所述至少一个候选文本中的目标候选文本生成的回复内容;
基于所述回复内容和所述目标候选文本生成所述回复信息,其中,所述回复信息包括所述回复内容和所述目标候选文本。
其中,所述大模型可以是上述实施例中所述的大模型。所述大模型在进行答案生成的过程中,可以先在所述至少一个候选文本中确定与所述提问信息匹配程度最高的目标候选文本,然后,基于大模型利用所述目标候选文本生成所述回复内容。
具体地,在将所述提问信息和所述至少一个候选文本输入大模型进行答案生成之前,可以先将“提问信息和所述至少一个候选文本”拼接形成如下形式:“\n用户问:{ask}\n候选项:{[candiate_1,candiate_2,……,candiate_n]}\n答案:\n相关候选项:”。其中,所述ask为提问信息的具体内容,candiate_1,candiate_2,……,candiate_n为n个候选文本,“n答案:”为待大模型生成的回复内容,“相关候选项:”为待大模型确定的目标候选文本。
可以理解的是,上述回复内容与所述目标候选文本可以不同,例如,当所述“提问信息”为:C城市22年出生人口为多少?所述目标候选文本为:具D机构统计,C城市地属D省南部,其过去5年的出生人口如下:2018年出生总人口为X万,2019年出生总人口为Y万,2020年出生总人口为Z万,2021年出生总人口为T万,2022年出生总人口为n万,则大模型所生成的回复内容可以为:C城市22年出生总人口为n万。如此,通过大模型在目标候选文本的基础上所生成的回复内容能够更为准确的对用户的提问进行回复。
然而,由于所述回复内容为大模型在目标候选文本的基础上生成的新的内容,而大模型生成的数据可能会改变原文本(即目标候选文本)中的表述,但是针对某些专业场景,一些表述不应被改变,在此场景下,可能导致所生成的回复内容表述不准确的问题,基于此,本申请实施例通过在回复信息中包括大模型在生成回复内容时所引用的目标回复文本,如此,以便于用户可以对回复内容进行溯源,即可以找到未经大模型改编的原文本,并基于原文本确定所述提问信息的准确答案。
请参见图3,为本申请实施例提供的一种智能问答方法的流程示意图,所述方法包括以下步骤:
爬取目标网站,以获取大量初始文本内容;
切片压缩,具体包括:对初始文本内容进行切片,按照相似度对切片进行拼接,拼接之前,按照语义相似度对同一切片分组中的第一文本切片进行去重压缩,其中,在该过程中可以利用大模型确定各个第一文本切片之间的相似度;
泛化存储,具体包括:将每个合并文本切片与所对应的至少两个问题信息分别进行拼接,得到每个合并文本切片对应的至少两个目标文本,并将所得到的目标文本存储于目标数据库,以完成目标数据库的构建过程,在该过程中,可以基于大模型对问题信息进行泛化处理,以得到更多的问题信息;
需要说明的是,上述步骤属于在进行智能问答之前的准备工作,在完成上述目标数据库的构建之后,后续的所有问答过程均可以基于所构建的目标数据库进行答案生成。以下为一次智能问答的步骤流程:
接收用户问;
基于用户问,召回至少一个候选项,所述候选项即候选文本;
将至少一个候选项和用户问输入大模型进行答案生成及溯源,得到回复信息;
将回复信息发送至发送所述用户问的客户端进行前端展示。
请参见图4,为本申请实施例提供的一种智能问答***的结构示意图,其包括:
目标网站爬取模块,用于爬取目标网站,以获取大量初始文本内容;
切片压缩模块,用于对初始文本内容进行切片,按照相似度对切片进行拼接,拼接之前,按照语义相似度对同一切片分组中的第一文本切片进行去重压缩;
泛化存储模块,用于将每个合并文本切片与所对应的至少两个问题信息分别进行拼接,得到每个合并文本切片对应的至少两个目标文本,并将所得到的目标文本存储于目标数据库;
召回候选项模块,用于基于用户问,召回至少一个候选项,所述候选项即候选文本;
答案生成及溯源模块,用于将至少一个候选项和用户问输入大模型进行答案生成及溯源,得到回复信息。
请参见图5,图5为本申请实施例提供的一种文本生成装置500的结构示意图,所述文本生成装置500包括:
获取模块501,用于获取初始文本内容;
切片模块502,用于对初始文本内容进行切片处理,得到多个第一文本切片;
合并模块503,用于将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片;
拼接模块504,用于将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,所述问题信息的答案位于所述问题信息所对应的合并文本切片内。
可选地,所述合并模块503,包括:
划分子模块,用于将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组;
去重子模块,用于基于所述切片分组中的第一文本切片之间的语义相似度,对所述切片分组进行去重处理,得到与所述至少一个切分分组一一对应的目标切片分组,其中,所述目标切片分组中,任意两个第一文本切片之间的语义相似度大于第二阈值;
合并子模块,用于对每个目标切片分组中的所有第一文本切片进行合并处理,得到所述至少一个合并文本切片。
可选地,所述划分子模块,包括:
识别单元,用于基于大模型对所述多个第一文本切片进行相似度识别,得到相似度识别信息,所述相似度识别信息包括所述多个第一文本切片中,各个第一文本切片之间的相似度;
划分单元,用于基于所述相似度识别信息,将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组。
所述拼接模块504,包括:
确定子模块,用于确定每个合并文本切片对应的至少两个不同的问题信息;
拼接子模块,用于将每个合并文本切片与所对应的每个问题信息分别进行拼接,得到每个合并文本切片对应的至少两个目标文本。
本申请实施例提供的文本生成装置500能够实现上述文本生成方法实施例中的各个过程,为避免重复,这里不再赘述。
请参见图6,图6为本申请实施例提供的一种智能问答装置600的结构示意图,所述智能问答装置600包括:
获取模块601,用于获取提问信息;
查询模块602,用于基于所述提问信息在目标数据库中进行查询,得到至少一个候选文本,所述目标数据库中的候选文本为基于上述实施例中的文本生成方法所生成的文本;
生成模块603,用于基于所述至少一个候选文本生成所述提问信息对应的回复信息。
可选地,所述生成模块603,具体用于将所述提问信息和所述至少一个候选文本输入大模型进行答案生成,得到所述问题信息所对应的回复内容,其中,所述回复内容为所述大模型基于所述至少一个候选文本中的目标候选文本生成的回复内容;
所述生成模块603,具体还用于基于所述回复内容和所述目标候选文本生成所述回复信息,其中,所述回复信息包括所述回复内容和所述目标候选文本。
本申请实施例提供的智能问答装置600能够实现上述智能问答方法实施例中的各个过程,为避免重复,这里不再赘述。
参见图7,图7是本申请另一实施提供的文本生成装置700的结构图,如图7所示,文本生成装置700包括:处理器701、存储器702及存储在存储器702上并可在处理器上运行的计算机程序,文本生成装置700中的各个组件通过总线接口703耦合在一起,计算机程序被处理器701执行时实现如下步骤:
获取初始文本内容;
对初始文本内容进行切片处理,得到多个第一文本切片;
将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片;
将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,所述问题信息的答案位于所述问题信息所对应的合并文本切片内。
可选地,所述将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片,包括:
将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组;
基于所述切片分组中的第一文本切片之间的语义相似度,对所述切片分组进行去重处理,得到与所述至少一个切分分组一一对应的目标切片分组,其中,所述目标切片分组中,任意两个第一文本切片之间的语义相似度大于第二阈值;
对每个目标切片分组中的所有第一文本切片进行合并处理,得到所述至少一个合并文本切片。
可选地,所述将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组,包括:
基于大模型对所述多个第一文本切片进行相似度识别,得到相似度识别信息,所述相似度识别信息包括所述多个第一文本切片中,各个第一文本切片之间的相似度;
基于所述相似度识别信息,将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组。
可选地,所述将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,包括:
确定每个合并文本切片对应的至少两个不同的问题信息;
将每个合并文本切片与所对应的每个问题信息分别进行拼接,得到每个合并文本切片对应的至少两个目标文本。
参见图8,图8是本申请另一实施提供的智能问答装置800的结构图,如图8所示,智能问答装置800包括:处理器801、存储器802及存储在存储器802上并可在处理器上运行的计算机程序,智能问答装置800中的各个组件通过总线接口803耦合在一起,计算机程序被处理器801执行时实现如下步骤:
获取提问信息;
基于所述提问信息在目标数据库中进行查询,得到至少一个候选文本,所述目标数据库中的候选文本为基于上述实施例中的文本生成方法所生成的文本;
基于所述至少一个候选文本生成所述提问信息对应的回复信息。
可选地,所述基于所述至少一个候选文本生成所述提问信息对应的回复信息,包括:
将所述提问信息和所述至少一个候选文本输入大模型进行答案生成,得到所述问题信息所对应的回复内容,其中,所述回复内容为所述大模型基于所述至少一个候选文本中的目标候选文本生成的回复内容;
基于所述回复内容和所述目标候选文本生成所述回复信息,其中,所述回复信息包括所述回复内容和所述目标候选文本。
本申请实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种文本生成方法,其特征在于,包括:
获取初始文本内容;
对初始文本内容进行切片处理,得到多个第一文本切片;
将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片;
将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,所述问题信息的答案位于所述问题信息所对应的合并文本切片内。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片,包括:
将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组;
基于所述切片分组中的第一文本切片之间的语义相似度,对所述切片分组进行去重处理,得到与所述至少一个切分分组一一对应的目标切片分组,其中,所述目标切片分组中,任意两个第一文本切片之间的语义相似度大于第二阈值;
对每个目标切片分组中的所有第一文本切片进行合并处理,得到所述至少一个合并文本切片。
3.根据权利要求2所述的方法,其特征在于,所述将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组,包括:
基于大模型对所述多个第一文本切片进行相似度识别,得到相似度识别信息,所述相似度识别信息包括所述多个第一文本切片中,各个第一文本切片之间的相似度;
基于所述相似度识别信息,将所述多个第一文本切片中,所述相似度超过所述第一阈值的第一文本切片划分至同一分组,得到至少一个切片分组。
4.根据权利要求1所述的方法,其特征在于,所述将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,包括:
确定每个合并文本切片对应的至少两个不同的问题信息;
将每个合并文本切片与所对应的每个问题信息分别进行拼接,得到每个合并文本切片对应的至少两个目标文本。
5.一种智能问答方法,其特征在于,所述方法包括:
获取提问信息;
基于所述提问信息在目标数据库中进行查询,得到至少一个候选文本,所述目标数据库中的候选文本为基于权利要求1-4中的文本生成方法所生成的文本;
基于所述至少一个候选文本生成所述提问信息对应的回复信息。
6.根据权利要求5所述的方法,其特征在于,所述基于所述至少一个候选文本生成所述提问信息对应的回复信息,包括:
将所述提问信息和所述至少一个候选文本输入大模型进行答案生成,得到所述问题信息所对应的回复内容,其中,所述回复内容为所述大模型基于所述至少一个候选文本中的目标候选文本生成的回复内容;
基于所述回复内容和所述目标候选文本生成所述回复信息,其中,所述回复信息包括所述回复内容和所述目标候选文本。
7.一种文本生成装置,其特征在于,包括:
获取模块,用于获取初始文本内容;
切片模块,用于对初始文本内容进行切片处理,得到多个第一文本切片;
合并模块,用于将所述多个第一文本切片中,相似度超过第一阈值的第一文本切片进行合并处理,得到至少一个合并文本切片;
拼接模块,用于将所述至少一个合并文本切片中,每个合并文本切片与所对应的问题信息进行拼接,得到至少一个目标文本,所述问题信息的答案位于所述问题信息所对应的合并文本切片内。
8.一种智能问答装置,其特征在于,包括:
获取模块,用于获取提问信息;
查询模块,用于基于所述提问信息在目标数据库中进行查询,得到至少一个候选文本,所述目标数据库中的候选文本为基于权利要求1-4中的文本生成方法所生成的文本;
生成模块,用于基于所述至少一个候选文本生成所述提问信息对应的回复信息。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法步骤。
CN202311621289.4A 2023-11-30 2023-11-30 文本生成方法、智能问答方法、装置和电子设备和介质 Pending CN117609461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311621289.4A CN117609461A (zh) 2023-11-30 2023-11-30 文本生成方法、智能问答方法、装置和电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311621289.4A CN117609461A (zh) 2023-11-30 2023-11-30 文本生成方法、智能问答方法、装置和电子设备和介质

Publications (1)

Publication Number Publication Date
CN117609461A true CN117609461A (zh) 2024-02-27

Family

ID=89943942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311621289.4A Pending CN117609461A (zh) 2023-11-30 2023-11-30 文本生成方法、智能问答方法、装置和电子设备和介质

Country Status (1)

Country Link
CN (1) CN117609461A (zh)

Similar Documents

Publication Publication Date Title
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
CN111182162B (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN110765235B (zh) 训练数据的生成方法、装置、终端及可读介质
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN112416778A (zh) 测试用例推荐方法、装置和电子设备
CN111552800A (zh) 摘要生成方法、装置、电子设备及介质
CN112115252A (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN116882372A (zh) 文本生成方法、装置、电子设备以及存储介质
CN112925898A (zh) 基于人工智能的问答方法、装置、服务器及存储介质
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN117668180A (zh) 文档问答方法、文档问答设备以及可读存储介质
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN112069833B (zh) 日志分析方法、日志分析装置及电子设备
CN113434631A (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN117473034A (zh) 交互文本处理方法、装置、电子设备及存储介质
CN117349515A (zh) 搜索处理方法、电子设备和存储介质
CN115757720A (zh) 基于知识图谱的项目信息搜索方法、装置、设备和介质
CN117609461A (zh) 文本生成方法、智能问答方法、装置和电子设备和介质
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN115270746A (zh) 问题样本生成方法和装置、电子设备及存储介质
CN114842982A (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN114372478A (zh) 一种基于知识蒸馏的问答方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination