CN113836296A - 一种佛学问答摘要的生成方法、装置、设备及存储介质 - Google Patents

一种佛学问答摘要的生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113836296A
CN113836296A CN202111146330.8A CN202111146330A CN113836296A CN 113836296 A CN113836296 A CN 113836296A CN 202111146330 A CN202111146330 A CN 202111146330A CN 113836296 A CN113836296 A CN 113836296A
Authority
CN
China
Prior art keywords
answer
buddhist
question
paragraph
asked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111146330.8A
Other languages
English (en)
Inventor
杜江楠
李剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111146330.8A priority Critical patent/CN113836296A/zh
Publication of CN113836296A publication Critical patent/CN113836296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及人工智能技术领域,揭露了一种佛学问答摘要的生成方法、装置、设备及存储介质,方法包括:获取用户所提问佛学问题对应的多个答案文档,从每个答案文档中抽取与提问佛学问题相关的答案段落;对每个答案段落进行分句,并将分句得到的句子添加到候选句子集合中;基于用户提问过的历史佛学问题确定属于佛学领域的主题关键词;针对候选句子集合中的每个句子,根据主题关键词,确定句子相对所提问佛学问题的语义相似度;根据语义相似度从候选句子集合中选择句子生成佛学答案摘要。这样经过提炼获得的佛学答案摘要,既考虑了问题和答案的相关性,也考虑了用户的关注点,能够很好的满足不同用户的个性化需求,且还可提高用户阅读效率,降低阅读门槛。

Description

一种佛学问答摘要的生成方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种佛学问答摘要的生成方法、装置、设备及存储介质。
背景技术
随着科技的发展,人工智能(AI,Artificial Intelligence)逐渐进入工业、商业和生活领域。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。
基于人机交互的智能问答是人工智能的重要应用方向,广泛应用在各个领域的咨询场景中,随着互联网技术的发展,在越来越多的场景下需要根据问题搜索答案。例如,在佛学问答场景中,用户可以向线上的机器人咨询佛学问题,机器人在问答数据(包括问题和答案)中搜索合适的答案以回应用户。
然而,佛学问答数据长度相对较长,并且一个佛学问题通常会对应多篇答案文档,这样需要回应给用户的答案数据会很多,需要用户花很多时间去阅读,使用体验不佳。
发明内容
本发明的目的是针对上述现有技术的不足提出的一种佛学问答摘要的生成方法、装置、设备及存储介质,该目的是通过以下技术方案实现的。
本发明的第一方面提出了一种佛学问答摘要的生成方法,所述方法包括:
获取用户所提问佛学问题对应的多个答案文档,从每个答案文档中抽取与所提问佛学问题相关的答案段落;
对每个答案段落进行分句,并将分句得到的句子添加到候选句子集合中;
基于所述用户提问过的历史佛学问题确定属于佛学领域的主题关键词;
针对候选句子集合中的每个句子,根据所述主题关键词,确定所述句子相对所提问佛学问题的语义相似度;
根据语义相似度,从候选句子集合中选择句子生成佛学答案摘要。
在本申请的一些实施例中,所述从每个答案文档中抽取与所提问佛学问题相关的答案段落,包括:
针对每个答案文档,根据所述答案文档和所提问佛学问题预测所述答案文档中每个字对应的段落开头概率和段落结尾概率;根据每个字对应的段落开头概率和段落结尾概率,确定所述答案文档中与所提问佛学问题相关的答案段落。
在本申请的一些实施例中,所述根据每个字对应的段落开头概率和段落结尾概率,确定所述答案文档中与所提问佛学问题相关的答案段落,包括:
针对所述答案文档中每个字,获取所述字对应的段落开头概率减去对应的段落结尾概率的第一差值,并获取所述字对应的段落结尾概率减去对应的段落开头概率的第二差值;从所述答案文档中选取最大的第一差值对应的字作为答案段落的开头位置,以及选取最大的第二差值对应的字作为答案段落的结尾位置;将所述答案文档中位于所述开头位置和所述结尾位置之间的字作为与所提问佛学问题相关的答案段落。
在本申请的一些实施例中,所述基于所述用户提问过的历史佛学问题确定属于佛学领域的主题关键词,包括:
获取所述用户提问过的历史佛学问题;将获取的历史佛学问题输入已训练的多标签分类模型,以由所述多标签分类模型根据所述历史佛学问题为所述用户打上与佛学相关的类别标签;在预设的类别标签与主题关键词的对应关系中,查找所述类别标签下包含的主题关键词作为属于佛学领域的主题关键词。
在本申请的一些实施例中,类别标签与主题关键词的对应关系的配置过程包括:
收集各种历史佛学问题,并利用收集的各种历史佛学问题进行主题分布计算,以得到每个主题下包含的主题关键词;确定所述多标签分类模型包含的类别标签,并将每个主题下包含的主题关键词和确定的类别标签输出提示,以由用户为每个类别标签配置主题关键词;接收用户为每个类别标签配置的主题关键词。
在本申请的一些实施例中,根据语义相似度,从候选句子集合中选择句子并生成佛学答案摘要,包括:
按照语义相似度从高到低的顺序对候选句子集合中的句子进行排序,得到排序结果;根据预设的摘要长度,从所述排序结果中选取句子生成佛学答案摘要。
本发明的第二方面提出了一种佛学问答摘要的生成装置,所述装置包括:
答案段落抽取模块,用于获取用户所提问佛学问题对应的多个答案文档,从每个答案文档中抽取与所提问佛学问题相关的答案段落;
候选句子集合确定模块,用于对每个答案段落进行分句,并将分句得到的句子添加到候选句子集合中;
主题关键词确定模块,用于基于所述用户提问过的历史佛学问题确定属于佛学领域的主题关键词;
匹配模块,用于针对候选句子集合中的每个句子,根据所述主题关键词,确定所述句子相对所提问佛学问题的语义相似度;
摘要生成模块,用于根据语义相似度,从候选句子集合中选择句子生成佛学答案摘要。
本发明的第三方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述方法的步骤。
本发明的第四方面提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第一方面所述方法的步骤。
基于上述第一方面和第二方面所述的佛学问答摘要的生成方法及装置,本发明至少具有如下有益效果或优点:
通过从多个答案文档的每个答案文档中抽取出与所提问佛学问题相关的答案段落,并通过对每个答案段落进行分句以形成一个候选句子集合,该集合中的句子均为与所提问佛学问题相关的答案,进一步再基于用户提问过的历史佛学问题获得用户感兴趣的一些主题关键词,并根据这些主题关键词确定所提问佛学问题和答案句子之间的语义相似度,最后选择语义相似度比较高的答案句子生成佛学答案摘要,这样经过一系列提炼获得的佛学答案摘要,既考虑了问题和答案的相关性,也考虑了用户的关注点,能够很好的满足不同用户的个性化需求,并且由于佛学答案摘要是经精简提炼获得,因此可以提高用户阅读效率,降低阅读门槛。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明根据一示例性实施例示出的一种佛学问答摘要的生成方法的实施例流程图;
图2为本发明根据图1所示实施例示出的一种答案段落的抽取流程示意图;
图3为本发明根据图1所示实施例示出的一种确定属于佛学领域的主题关键词的流程示意图;
图4为本发明根据一示例性实施例示出的一种佛学问答摘要的生成装置的结构示意图;
图5为本发明根据一示例性实施例示出的一种电子设备的硬件结构示意图图;
图6为本发明根据一示例性实施例示出的一种存储介质的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
问答***是人工智能尤其是自然语言处理(NLP)领域的重要组成部分,目前针对于佛学垂直领域的问答***回答专业知识的需求便越来越多。
佛学知识问答数据存在两个难题,第一是佛学问答数据长度相对较长,又因为高度的专业性对于修行人阅读有一定的门槛要求;第二是佛学属于哲学范畴,往往一个问题不止有一个答案,所以会存在一个问题对应多篇文档的情况,而且不同的提问者的关注点也会有所不同,这样需要对不同的用户进行个性化回答。综合这两点,个性化的答案摘要是需要解决的问题。
为解决上述技术问题,本发明提出一种佛学问答摘要的生成方法,即通过从多个答案文档的每个答案文档中抽取出与所提问佛学问题相关的答案段落,并通过对每个答案段落进行分句以形成一个候选句子集合,该集合中的句子均为与所提问佛学问题相关的答案,进一步再基于用户提问过的历史佛学问题获得用户感兴趣的一些主题关键词,并根据这些主题关键词确定所提问佛学问题和答案句子之间的语义相似度,最后选择语义相似度比较高的答案句子生成佛学答案摘要,这样经过一系列提炼获得的佛学答案摘要,既考虑了问题和答案的相关性,也考虑了用户的关注点,能够很好的满足不同用户的个性化需求,并且由于佛学答案摘要是经精简提炼获得,因此可以提高用户阅读效率,降低阅读门槛。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
实施例一:
图1为本发明根据一示例性实施例示出的一种佛学问答摘要的生成方法的实施例流程图,所述佛学问答摘要的生成方法可以应用在计算机设备上,所述计算机设备可以是终端设备、移动终端、PC机、服务器等设备,如图1所示,所述佛学问答摘要的生成方法包括如下步骤:
步骤101:获取用户所提问佛学问题对应的多个答案文档。
其中,对于佛学问答数据,通常一个问题会对应多个正确答案。对于问题对应的答案文档的获取过程可以采用相关技术实现,例如,通过数据库匹配技术实现,本发明对此不进行具体限定。
步骤102:从每个答案文档中抽取与所提问佛学问题相关的答案段落。
在本实施例中,由于问题的每个答案文档都很长,通过从每个答案文档中抽取与问题最为相关的答案段落,这样每个冗余的答案文档就会得到初步的精简提炼。
针对答案段落的抽取过程,可以参见下述实施例的相关描述,本发明在此暂不详述。
步骤103:对每个答案段落进行分句,并将分句得到的句子添加到候选句子集合中。
其中,通过对答案段落进行分句,可以将每个答案拆分为多个句子,这些句子均属于与问题相关的候选句子。
需要说明的是,为了进一步对问题的答案进行精简,还可以通过计算候选句子集合中每个句子在集合中的相似度,并将相似度超过一定数值的句子去除。
可选的,可以采用TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)方法计算每个句子的词频作为相似度。
步骤104:基于用户提问过的历史佛学问题确定属于佛学领域的主题关键词。
其中,由用户提问过的历史佛学问题确定出来的主题关键词,是用户比较关注感兴趣的一些词,例如佛经、佛理、欢喜、悲苦、修行等。
需要说明的是,针对基于用户提问过的历史佛学问题确定属于佛学领域的主题关键词的过程,可以参见下述实施例的相关描述,本发明在此暂不详述。
需要进一步说明的是,若不存在所述用户提问过的历史佛学问题,则可以直接从抽取出来的答案段落中,选取一个答案段落推送给用户。
步骤105:针对候选句子集合中的每个句子,根据主题关键词,确定所述句子相对所提问佛学问题的语义相似度。
在一可选的具体实施例中,通过将所述主题关键词、所述句子、以及所提问佛学问题输入已训练的匹配模型,以由匹配模型根据所述主题关键词,确定所述句子相对所提问佛学问题的语义相似度。
其中,匹配模型输出的语义相似度是在考虑主题关键词的情况下确定的打分结果,这个语义相似度能够反映用户关注点的同时表示答案句子与问题的匹配程度。
具体地,匹配模型可以采用基于关键词的bert模型,即keyword-bert模型。
下面以keyword-bert模型为例,对模型的训练过程进行介绍:
收集与问题之间相似度高的样本答案作为正样本,以及与问题之间相似度低的样本答案作为负样本,以及佛学领域的主题词,进而利用收集的正样本、负样本、以及主题词训练keyword-bert模型,直至模型收敛。
其中,训练过程中,使用Triplet损失函数计算损失值,损失值计算公式如下:
L=max(margind+d(a,n)-d(a,p),0)
其中,a为问题,n为负样本,p为正样本,margind为边界值,d(a,n)为负样本的预测得分,d(a,p)为正样本的预测得分。
本领域技术人员可以理解的是,本申请对句子相对所提问佛学问题的语义相似度的确定方式不进行具体限定,上述给出的keyword-bert模型仅为一种示例性说明,对于其他确定方式也在本申请保护范围之内。
步骤106:根据语义相似度,从候选句子集合中选择句子生成佛学答案摘要。
在一可选的具体实施例中,按照语义相似度从高到低的顺序对候选句子集合中的句子进行排序,根据预设的摘要长度,从排序结果中抽取满足预设条件的句子生成佛学答案摘要。
其中,预设条件指的是排序靠前,也就是说通过控制生成摘要的长度,从候选句子集合中选取语义相似度高的句子,这样既保证了摘要的长度,又可以抽取出与问题最匹配的句子。
至此,完成上述图1所示的流程,通过从多个答案文档的每个答案文档中抽取出与所提问佛学问题相关的答案段落,并通过对每个答案段落进行分句以形成一个候选句子集合,该集合中的句子均为与所提问佛学问题相关的答案,进一步再基于用户提问过的历史佛学问题获得用户感兴趣的一些主题关键词,并根据这些主题关键词确定所提问佛学问题和答案句子之间的语义相似度,最后选择语义相似度比较高的答案句子生成佛学答案摘要,这样经过一系列提炼获得的佛学答案摘要,既考虑了问题和答案的相关性,也考虑了用户的关注点,能够很好的满足不同用户的个性化需求,并且由于佛学答案摘要是经精简提炼获得,因此可以提高用户阅读效率,降低阅读门槛。
实施例二:
图2为本发明根据一示例性实施例示出的一种答案段落的抽取流程示意图,基于上述图1所示实施例的基础上,在上述步骤102中,针对从每个答案文档中抽取与所提问佛学问题相关的答案段落的过程包括如下步骤:
步骤201:针对每个答案文档,根据所述答案文档和所提问佛学问题预测所述答案文档中每个字对应的段落开头概率和段落结尾概率。
其中,每个字的段落开头概率与段落结尾概率之间没有关联关系,取值范围均为0-1。
在一可选的具体实施例中,可以通过将答案文档和所提问佛学问题输入已训练的阅读理解模型,以由阅读理解模型分别预测答案文档中每个字对应的段落开头概率和段落结尾概率并输出。
其中,阅读理解模型可以采用roberta模型实现,即通过模型中的bert层进行文档和问题的理解,然后再通过模型中的序列标注层根据bert层的输出,预测文档中每个字的段落开头概率与段落结尾概率。
在执行步骤201之前,需要利用佛学数据对roberta模型进行微调,即通过收集各种佛学问题以及每种佛学问题的答案文档,并在答案文档中打上答案段落开头和结尾的标签,进而利用佛学问题和对应的打了标签的答案文档训练roberta模型,直至收敛。
其中,在训练过程中,使用交叉熵损失函数计算损失值,损失值计算公式如下:
Figure BDA0003285531120000081
其中,M是roberta模型实际输出的字长度,pij是第i个字为段落开头或者段落结尾的预测概率,yij是第i个字为段落开头或者段落结尾的标签。
本领域技术人员可以理解的是,本申请对段落开头概率和段落结尾概率的预测方式不进行具体限定,上述给出的采用阅读理解模型实现答案文档中每个字的段落开头概率和段落结尾概率的预测,仅为一种示例性说明,对于其他预测方式也在本申请保护范围之内。
步骤202:根据每个字对应的段落开头概率和段落结尾概率,确定所述答案文档中与所提问佛学问题相关的答案段落。
在一可选的具体实施例中,针对答案文档中每个字,可以通过获取所述字对应的段落开头概率减去对应的段落结尾概率的第一差值,并获取所述字对应的段落结尾概率减去对应的段落开头概率的第二差值,进而从所述答案文档中选取最大的第一差值对应的字作为答案段落的开头位置,以及选取最大的第二差值对应的字作为答案段落的结尾位置,并将答案文档中位于所述开头位置和所述结尾位置之间的字作为与所提问佛学问题相关的答案段落。
其中,段落开头概率减去段落结尾概率的第一差值表示属于段落开头的程度。进一步地,段落结尾概率减去段落开头概率的第二差值表示属于段落结尾的程度。
在另一可选的具体实施例中,也可以从段落开头概率中选取最大值对应的字作为答案段落的开头位置,从段落结尾概率中选取最大值对应的字作为答案段落的结尾位置,并将答案文档中位于所述开头位置和所述结尾位置之间的字作为与所提问佛学问题相关的答案段落。
至此,完成上述图2所示的答案段落的抽取流程,通过使用阅读理解模型实现对答案文档中每个字分别进行是否时段落开头或者段落结尾的二分类概率预测,可以提升答案段落的抽取准确度。
实施例三:
图3为本发明根据图1所示实施例示出的一种确定属于佛学领域的主题关键词的流程示意图,基于上述图1至图2所示实施例的基础上,在上述步骤104中,针对基于用户提问过的历史佛学问题确定属于佛学领域的主题关键词的过程包括如下步骤:
步骤301:获取所述用户提问过的历史佛学问题。
其中,用户的历史佛学问题能够反映用户的历史行为。
步骤302:将获取的历史佛学问题输入已训练的多标签分类模型,以由所述多标签分类模型根据历史佛学问题为所述用户打上与佛学相关的类别标签。
其中,由多标签分类模型输出的类别标签属于佛学领域的类别标签,例如教派、修行兴趣、情绪倾向等类别。
步骤303:在预设的类别标签与主题关键词的对应关系中,查找所述类别标签下包含的主题关键词作为属于佛学领域的主题关键词。
在执行步骤303之前,需要预先建立各个类别标签与主题关键词之间的对应关系,建立过程包括:收集各种历史佛学问题,并利用收集的各种历史佛学问题进行主题分布计算,以得到每个主题下包含的主题关键词,确定所述多标签分类模型包含的类别标签,并将每个主题下包含的主题关键词和确定的类别标签输出提示,以由用户为每个类别标签配置主题关键词,因此可以通过接收接收用户为每个类别标签配置的主题关键词。
可选的,可以采用LDA算法进行主题分布计算,以为每个主题下产生一些主题关键词。
至此,完成上述图3所示的确定属于佛学领域的主题关键词的流程,通过将用户已提问过的一些历史佛学问题输入多标签分类模型,以由多标签分类模型为用户的历史行为打上不同的类别标签,从而通过查找预先建立的类别标签与主题关键词之间的对应关系,获得属于佛学领域的主题关键词。
与前述佛学问答摘要的生成方法的实施例相对应,本发明还提供了佛学问答摘要的生成装置的实施例。
图4为本发明根据一示例性实施例示出的一种佛学问答摘要的生成装置的结构示意图,该装置用于执行上述任一实施例提供的佛学问答摘要的生成方法,如图4所示,该佛学问答摘要的生成装置包括:
答案段落抽取模块410,用于获取用户所提问佛学问题对应的多个答案文档,从每个答案文档中抽取与所提问佛学问题相关的答案段落;
候选句子集合确定模块420,用于对每个答案段落进行分句,并将分句得到的句子添加到候选句子集合中;
主题关键词确定模块430,用于基于所述用户提问过的历史佛学问题确定属于佛学领域的主题关键词;
匹配模块440,用于针对候选句子集合中的每个句子,根据所述主题关键词,确定所述句子相对所提问佛学问题的语义相似度;
摘要生成模块450,用于根据语义相似度,从候选句子集合中选择句子生成佛学答案摘要。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施方式还提供一种与前述实施方式所提供的佛学问答摘要的生成方法对应的电子设备,以执行上述佛学问答摘要的生成方法。
图5为本发明根据一示例性实施例示出的一种电子设备的硬件结构图,该电子设备包括:通信接口601、处理器602、存储器603和总线604;其中,通信接口601、处理器602和存储器603通过总线604完成相互间的通信。处理器602通过读取并执行存储器603中与佛学问答摘要的生成方法的控制逻辑对应的机器可执行指令,可执行上文描述的佛学问答摘要的生成方法,该方法的具体内容参见上述实施例,此处不再累述。
本发明中提到的存储器603可以是任何电子、磁性、光学或其它物理存储装置,可以包含存储信息,如可执行指令、数据等等。具体地,存储器603可以是RAM(Random AccessMemory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。通过至少一个通信接口601(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线604可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器603用于存储程序,所述处理器602在接收到执行指令后,执行所述程序。
处理器602可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。
本申请实施例提供的电子设备与本申请实施例提供的佛学问答摘要的生成方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的佛学问答摘要的生成方法对应的计算机可读存储介质,请参考图6所示,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的佛学问答摘要的生成方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的佛学问答摘要的生成方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种佛学问答摘要的生成方法,其特征在于,所述方法包括:
获取用户所提问佛学问题对应的多个答案文档,从每个答案文档中抽取与所提问佛学问题相关的答案段落;
对每个答案段落进行分句,并将分句得到的句子添加到候选句子集合中;
基于所述用户提问过的历史佛学问题确定属于佛学领域的主题关键词;
针对候选句子集合中的每个句子,根据所述主题关键词,确定所述句子相对所提问佛学问题的语义相似度;
根据语义相似度,从候选句子集合中选择句子并生成佛学答案摘要。
2.根据权利要求1所述的方法,其特征在于,所述从每个答案文档中抽取与所提问佛学问题相关的答案段落,包括:
针对每个答案文档,根据所述答案文档和所提问佛学问题预测所述答案文档中每个字对应的段落开头概率和段落结尾概率;
根据每个字对应的段落开头概率和段落结尾概率,确定所述答案文档中与所提问佛学问题相关的答案段落。
3.根据权利要求2所述的方法,其特征在于,所述根据每个字对应的段落开头概率和段落结尾概率,确定所述答案文档中与所提问佛学问题相关的答案段落,包括:
针对所述答案文档中每个字,获取所述字对应的段落开头概率减去对应的段落结尾概率的第一差值,并获取所述字对应的段落结尾概率减去对应的段落开头概率的第二差值;
从所述答案文档中选取最大的第一差值对应的字作为答案段落的开头位置,以及选取最大的第二差值对应的字作为答案段落的结尾位置;
将所述答案文档中位于所述开头位置和所述结尾位置之间的字作为与所提问佛学问题相关的答案段落。
4.根据权利要求2所述的方法,其特征在于,所述根据每个字对应的段落开头概率和段落结尾概率,确定所述答案文档中与所提问佛学问题相关的答案段落,包括:
从段落开头概率中选取最大值对应的字作为答案段落的开头位置;
从段落结尾概率中选取最大值对应的字作为答案段落的结尾位置;
将所述答案文档中位于所述开头位置和所述结尾位置之间的字作为与所提问佛学问题相关的答案段落。
5.根据权利要求1所述的方法,其特征在于,所述基于所述用户提问过的历史佛学问题确定属于佛学领域的主题关键词,包括:
获取所述用户提问过的历史佛学问题;
将获取的历史佛学问题输入已训练的多标签分类模型,以由所述多标签分类模型根据所述历史佛学问题为所述用户打上与佛学相关的类别标签;
在预设的类别标签与主题关键词的对应关系中,查找所述类别标签下包含的主题关键词作为属于佛学领域的主题关键词。
6.根据权利要求5所述的方法,其特征在于,类别标签与主题关键词的对应关系的配置过程包括:
收集各种历史佛学问题,并利用收集的各种历史佛学问题进行主题分布计算,以得到每个主题下包含的主题关键词;
确定所述多标签分类模型包含的类别标签,并将每个主题下包含的主题关键词和确定的类别标签输出提示,以接收用户根据所述类别标签输出提示为每个类别标签配置主题关键词。
7.根据权利要求1所述的方法,其特征在于,根据语义相似度,从候选句子集合中选择句子并生成佛学答案摘要,包括:
按照语义相似度从高到低的顺序对候选句子集合中的句子进行排序,得到排序结果;
根据预设的摘要长度,从所述排序结果中选取满足预设条件的句子生成佛学答案摘要。
8.一种佛学问答摘要的生成装置,其特征在于,所述装置包括:
答案段落抽取模块,用于获取用户所提问佛学问题对应的多个答案文档,从每个答案文档中抽取与所提问佛学问题相关的答案段落;
候选句子集合确定模块,用于对每个答案段落进行分句,并将分句得到的句子添加到候选句子集合中;
主题关键词确定模块,用于基于所述用户提问过的历史佛学问题确定属于佛学领域的主题关键词;
匹配模块,用于针对候选句子集合中的每个句子,根据所述主题关键词,确定所述句子相对所提问佛学问题的语义相似度;
摘要生成模块,用于根据语义相似度,从候选句子集合中选择句子生成佛学答案摘要。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
CN202111146330.8A 2021-09-28 2021-09-28 一种佛学问答摘要的生成方法、装置、设备及存储介质 Pending CN113836296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111146330.8A CN113836296A (zh) 2021-09-28 2021-09-28 一种佛学问答摘要的生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111146330.8A CN113836296A (zh) 2021-09-28 2021-09-28 一种佛学问答摘要的生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113836296A true CN113836296A (zh) 2021-12-24

Family

ID=78967223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111146330.8A Pending CN113836296A (zh) 2021-09-28 2021-09-28 一种佛学问答摘要的生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113836296A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880449A (zh) * 2022-05-17 2022-08-09 平安科技(深圳)有限公司 智能问答的答复生成方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163229A (zh) * 2011-04-13 2011-08-24 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104375977A (zh) * 2013-08-14 2015-02-25 腾讯科技(深圳)有限公司 问答社区中答复信息的处理方法及装置
CN110020009A (zh) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 在线问答方法、装置及***
CN110162778A (zh) * 2019-04-02 2019-08-23 阿里巴巴集团控股有限公司 文本摘要的生成方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163229A (zh) * 2011-04-13 2011-08-24 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN104375977A (zh) * 2013-08-14 2015-02-25 腾讯科技(深圳)有限公司 问答社区中答复信息的处理方法及装置
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN110020009A (zh) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 在线问答方法、装置及***
CN110162778A (zh) * 2019-04-02 2019-08-23 阿里巴巴集团控股有限公司 文本摘要的生成方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880449A (zh) * 2022-05-17 2022-08-09 平安科技(深圳)有限公司 智能问答的答复生成方法、装置、电子设备及存储介质
CN114880449B (zh) * 2022-05-17 2024-05-10 平安科技(深圳)有限公司 智能问答的答复生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN106570708B (zh) 一种智能客服知识库的管理方法及***
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
US20170132314A1 (en) Identifying relevant topics for recommending a resource
CN111539197B (zh) 文本匹配方法和装置以及计算机***和可读存储介质
US10762150B2 (en) Searching method and searching apparatus based on neural network and search engine
CN117009490A (zh) 基于知识库反馈的生成式大语言模型的训练方法和装置
US20220343082A1 (en) System and method for ensemble question answering
CN111078837B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
US11461613B2 (en) Method and apparatus for multi-document question answering
CN111368048A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN111832305B (zh) 一种用户意图识别方法、装置、服务器和介质
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN117149984A (zh) 一种基于大模型思维链的定制化培训方法及装置
CN113111159A (zh) 问答记录生成方法、装置、电子设备及存储介质
CN115714030A (zh) 一种基于疼痛感知和主动交互的医疗问答***及方法
CN117573985B (zh) 一种应用于智能化在线教育***的信息推送方法及***
CN117056575B (zh) 一种基于智能图书推荐***数据采集的方法
EP4030355A1 (en) Neural reasoning path retrieval for multi-hop text comprehension
CN113836296A (zh) 一种佛学问答摘要的生成方法、装置、设备及存储介质
CN110929526B (zh) 样本生成方法、装置以及电子设备
CN113569018A (zh) 问答对挖掘方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40062838

Country of ref document: HK