CN115080722A - 问题生成方法、问题生成设备及存储介质 - Google Patents

问题生成方法、问题生成设备及存储介质 Download PDF

Info

Publication number
CN115080722A
CN115080722A CN202210995732.3A CN202210995732A CN115080722A CN 115080722 A CN115080722 A CN 115080722A CN 202210995732 A CN202210995732 A CN 202210995732A CN 115080722 A CN115080722 A CN 115080722A
Authority
CN
China
Prior art keywords
text
question
entity
processed
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210995732.3A
Other languages
English (en)
Other versions
CN115080722B (zh
Inventor
王超凡
宋时德
梅林海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202210995732.3A priority Critical patent/CN115080722B/zh
Publication of CN115080722A publication Critical patent/CN115080722A/zh
Application granted granted Critical
Publication of CN115080722B publication Critical patent/CN115080722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种问题生成方法、问题生成设备及存储介质,其中,该问题生成方法包括:获取待处理文本;将所述待处理文本进行处理,得到所述待处理文本中的至少一个实体;基于所述至少一个实体依次从数据库搜索所述至少一个实体对应的描述信息;将所述待处理文本、所述至少一个实体及其对应的所述描述信息输入问题生成模型,生成至少一个文本答案及其对应的问题。本申请提供的问题生成方法,能够基于数据库提供的辅助信息使得生成的问答对更加合理,并且与领域的相关度更高,信息更加丰富;除此之外,还能够提取超出规则以外的问答对,通用性更高。

Description

问题生成方法、问题生成设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种问题生成方法、问题生成设备及存储介质。
背景技术
随着移动互联网技术的迅速发展,人工智能领域的研究开始成为热点,主要体现在机器人、语言识别、图像识别、自然语言处理等研究领域。其中,问题生成任务是自然语言处理中的典型任务。传统的问题生成依赖启发式规则和人为给定的模板来进行,这样的方法通用性低,泛化性差,无法提取超出规则以外的问答对。近年来,主要运用深度学习的方法来执行问题生成任务,也取得了不错的成就,但依然存在着无法从文档中自动提取问答对,且生成的问答对与领域相关低、信息不够丰富的问题。
发明内容
本申请提供了一种问题生成方法、问题生成设备及存储介质,能够基于数据库提供的辅助信息使得生成的问答对更加合理,并且与领域的相关度更高,信息更加丰富;除此之外,还能够提取超出规则以外的问答对,通用性更高。
第一方面,本申请提供了一种问题生成方法,所述方法包括:
获取待处理文本;
将所述待处理文本进行处理,得到所述待处理文本中的至少一个实体;
基于所述至少一个实体依次从数据库搜索所述至少一个实体对应的描述信息;
将所述待处理文本、所述至少一个实体及其对应的所述描述信息输入问题生成模型,生成至少一个文本答案及其对应的问题。
第二方面,本申请还提供了一种问题生成设备,所述问题生成设备包括:
处理器、存储器、存储在所述存储器上并可被所述处理器执行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,其中所述计算机程序被所述处理器执行时,实现如本申请实施例提供的任一项所述的问题生成方法的步骤。
第三方面,本申请还提供了一种计算机可读存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如本申请实施例提供的任一项所述的问题生成方法的步骤。
本申请公开的问题生成方法、问题生成设备、计算机设备及存储介质,能够基于数据库提供的辅助信息使得生成的问答对更加合理,并且与领域的相关度更高,信息更加丰富;除此之外,还能够提取超出规则以外的问答对,通用性更高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的实施例提供的一种问题生成方法的步骤示意图;
图2是本申请的实施例提供的对待处理文本进行处理的具体实施步骤流程图;
图3是本申请的实施例提供的另一种问题生成方法的步骤示意图;
图4是本申请的实施例提供的又一种问题生成方法的步骤示意图;
图5是本申请的实施例提供的一种问题生成设备的应用场景示意图;
图6是本申请的实施例提供的一种计算机设备的示意框图;
图7是本申请提供的存储介质的结构示意图。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
应当理解,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一识别模型和第二识别模型仅仅是为了区分不同的回调函数,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的问题生成方法的步骤示意流程图。该方法应用于问题生成设备,能够用于问题的生成。如图1所示,该问题生成方法包括步骤S11至步骤S14。
步骤S11:获取待处理文本。
问题生成设备能够获取待处理文本。其中,待处理文本可以为若干关键词,也可以为关键的语句,还可以是若干关联的词语组合,本实施例对待处理文本的形式以及字数不加以限制。
进一步的,本申请对于待处理文本的领域不做限定,例如可以为保险领域的待处理文本,也可以为医疗领域等除保险领域外其他领域的待处理文本。本申请以待处理文本为保险领域为例进行说明,可以理解的,问题生成设备能够基于获取的保险领域的待处理文本生成有关保险领域的问题。
步骤S12:将待处理文本进行处理,得到待处理文本中的至少一个实体。
问题生成设备能够将待处理文本进行处理,以得到待处理文本中的实体。其中,实体至少包括文本答案。进一步的,本实施例对实体个数不加以限定,例如可以为一个实体,也可以为两个或两个以上实体。
具体的,请参阅图2,图2是本申请的实施例提供的对待处理文本进行处理的具体实施步骤流程图。
步骤S121:构建序列标注模型,序列标注模型包括相互连接的第一编码端和第一解码端。
问题生成设备能够构建序列标注模型,其中序列标注模型包括相互连接的第一编码端和第一解码端。
需要说明的是,序列标注模型为自然语言处理中常见的模型之一,常用的序列标注模型有线性模型、隐马尔可夫模型、最大熵马尔可夫模型、条件随机场等。与一般分类问题不同的是,序列标注模型输出的是一个标签序列。通常而言,标签之间相互联系的结构能够构成标签之间的结构信息,序列标注模型能够利用该结构信息进行标注,从而达到比传统分类方法更高的性能。
进一步的,本申请对于序列标注模型的类型不做限定,例如可以为线性模型,也可以为隐马尔可夫模型、最大熵马尔可夫模型、条件随机场等。
步骤S122:将待处理文本输入序列标注模型,利用第一编码端对待处理文本的文本特征进行编码,得到待处理文本的标注结果;利用第一解码端对标注结果进行解码,得到待处理文本的标注信息。
文本特征为文本的数据化表现方式,这些数据化的方式保留了文本中的语法信息以及语义信息。
问题生成设备能够将待处理文本输入序列标注模型,得到待处理文本的文本特征。进一步的,问题生成设备能够利用序列标注模型的第一编码端对待处理文本的文本特征进行编码,以得到待处理文本中每个字的编码结果,也即待处理文本的标注结果。
可选地,本申请对于上述具体的编码方式不加以限定,例如可以将序列模型上的各个点当做一个整体来处理,同时以路径为单位进行训练,从而对待处理文本的文本特征进行标注。如此,不但可以理解文本,还可以理解序列的规则性知识。
问题生成设备可以利用第一解码端对上述待处理文本的标注结果进行解码,解码出每个字的标记结果,从而得到待处理文本的标注信息。
步骤S123:基于标注信息提取待处理文本中的至少一个实体。
进一步的,问题生成设备能够基于上述待处理文本的标注信息提取出待处理文本中的至少一个实体。需要说明的是,本申请对于实体的数量不做限定,例如可以为一个,也可以为两个及两个以上。
步骤S13:基于至少一个实体依次从数据库搜索至少一个实体对应的描述信息。
问题生成设备能够基于实体从数据库中搜索该实体对应的描述信息。实体对应的描述信息即为数据库中该实体的相关信息,该信息能够有助于实体对应的问题生成。
可选地,当数据库中存在该实体时,可直接输出该实体对应的描述信息;当数据库中不存在该实体时,问题生成设备可通过答案链接的方式,找到对应的答案。
可选地,问题生成设备能够通过以下方式生成数据库:收集保险领域的训练数据,并基于该训练数据构建数据库,并以图数据库进行保存,以使得数据库中能够包含保险领域的重要概念以及其相互关系。其中,训练数据可以为保险领域的相关文档,例如可以为条款说明、隐私政策等,本申请对此不加以限定。
需要说明的是,数据库至少包括上述待处理文本中的至少一个实体及其对应的描述信息,以使得问题生成设备能够基于实体从数据库中搜索该实体以及该实体对应的描述信息。
图数据库是以“图”这种数据结构存储和查询数据,图数据库的数据模型主要是以节点和关系(边)来体现,也可处理键值对,其优点是能够快速解决复杂的关系问题。
步骤S14:将待处理文本、至少一个实体及其对应的描述信息输入问题生成模型,生成至少一个文本答案及其对应的问题。
由于实体包括文本答案,因此,问题生成设备能够将待处理文本,至少一个实体及其对应的描述信息输入问题生成模型,以生成该文本答案及其对应的问题。
可选地,问题生成设备能够将待处理文本,至少一个文本答案及其对应的描述信息进行拼接,以获取拼接后的至少一个拼接文本。其中,上述拼接过程可以分隔符号进行分隔,例如可以为<SEP>符号,本申请对此不加以限定。
在其他实施例中,问题生成设备还可以将待处理文本,至少一个文本答案及其对应的描述信息以及词性信息进行拼接,以获取拼接后的至少一个拼接文本。
需要说明的是,文本答案对应的词性信息可以为时间或地点等信息,该信息能够作为文本答案的补充信息,有助于实体对应的问题的生成。例如当文本答案对应的词性信息为时间时,其文本答案对应的问题生成更倾向于“XXX需要多久”而不是“XXX是什么”,该词性信息能够使问题的生成更加精确。
进一步的,问题生成模型至少包括第二编码端以及第二解码端。问题生成设备能够将至少一个拼接文本通过第二编码端进行编码,得到至少一个拼接文本对应的状态变量,并基于该状态变量通过第二解码端进行解码,得到至少一个文本答案及其对应的问题。
需要说明的是,本申请对于问题生成模型的具体模型不做限定,例如可以为T5(Transfer Text-to-Text Transformer,文本到文本转换)模型。T5模型在生成任务上有优异的性能,常被用于各种生成任务,例如机器翻译、诗歌生成等,因此,可使用T5模型应用于问题的生成模型。
在本申请实施例中,问题生成设备可通过将待处理文本进行处理,以得到该文本中至少一个实体。进一步的,问题生成设备可基于至少一个实体从数据库中搜索对应的描述信息,并将待处理文本、至少一个实体及其对应的描述信息输入问题生成模型以生成至少一个文本答案及对应的问题。本申请提供的问题生成方法能够基于数据库提供的辅助信息使得生成的问答对更加合理,并且与领域的相关度更高,信息更加丰富;除此之外,还能够提取超出规则以外的问答对,通用性更高。
可选地,请参阅图3,图3是本申请的实施例提供的另一种问题生成方法的步骤示意图。为了使生成的问题更加精确,也即生成的问题与待处理文本中答案的匹配度、合理性更高,本申请提供的问题生成方法,还可以包括:
步骤S15:构建问题过滤模型。
问题生成设备可构建问题过滤模型,以用于将待处理文本中的答案与生成的匹配度较低的问题进行舍弃,同时保留较高匹配度的问答对。
步骤S16:将至少一个文本答案及其对应的问题输入问题过滤模型,获取至少一个文本答案与其对应的问题的匹配度。
步骤S17:根据匹配度对至少一个文本答案与其对应的问题过滤。
问题生成设备可将至少一个文本答案以及其对应的问题输入问题过滤模型,以得到该问答对的匹配度。进一步的,问题生成设备可基于该匹配度对上述问答对进行过滤。例如,对于匹配度低于预设阈值的问答对进行舍弃,而保留匹配度高于预设阈值的问答对。其中,预设阈值可根据用户的实际需求中自行设置,本申请对此不加以限定。
在本申请实施例中,问题生成设备还可以利用问题过滤模型对生成的答案以及其对应的问题进行过滤,通过获取生成的答案以及其对应的问题之间的匹配度,并基于该匹配度进行过滤,以实现生成的问答对的合理性更高。
可选地,请继续参阅图4,图4是本申请的实施例提供的又一种问题生成方法的步骤示意图。为了使问题过滤模型的表现更好,也即基于问题过滤模型得出的结构更加精确。问题生成设备可通过数据增强策略,强化问题过滤模型的鲁棒性。
步骤S18:将数据库中数据进行标注,得到标注后的数据。
问题生成设备可将数据库中的数据进行标注,得到标注后的数据。
可选地,问题生成设备可获取数据库中的至少一个实体,并基于该实体从数据库中搜索预设数量的与实体对应的问题。其中,该至少一个实体与其对应的问题的匹配度大于预设阈值。
需要说明的是,本申请对于上述预设阈值以及预设数量不做限定。例如,问题生成设备可基于实体,获取数据库中5个与实体对应的问题;其中,该实体与其对应的5个问题之间的匹配度由最高到低依次减弱。
可选地,问题生成设备可通过相关性的算法以使得其能够获取与答案匹配度高的问题。需要说明的是,本申请对相关性的算法不做限定,例如可以为bm25、也可以为bm25f等。
进一步的,问题生成设备可将上述得到的至少一个实体与其对应的预设数量的问题进行标注,得到标注后的数据。
步骤S19:基于标注后的数据对问题过滤模型进行训练。
问题生成设备可基于上述标注后的数据对问题过滤模型进行训练,如此,能够使得问题过滤模型过滤干扰性较强的问答对,从而实现增强了问题过滤模型的鲁棒性。
在本申请实施例中,问题生成设备可通过数据增强策略,通过将数据库中的部分数据进行标注,并基于标注好的数据对问题过滤模型进行训练,从而实现增强问题过滤模型的鲁棒性,使其能够得到更加合理的问答对。
可选地,问题生成设备还可以对数据库中的数据进行预处理,以得到预处理,并基于预处理后的数据对序列标注模型以及问题过滤模型进行训练,从而得到精确度以及合理性较高的问答对。
具体的,问题生成设备可将数据库中的部分数据进行标注,例如标注该部分数据中的至少一个答案、该至少一个答案对应的问题以及二者之间的匹配度,得到标注结果。进而问题生成设备可利用上述标注结果,对序列标注模型、问题生成模型以及问题过滤模型进行训练。
可以理解的,对数据库中的至少一个答案进行标注可用于训练序列标注模型;对数据库中的至少一个答案对应的问题标注可用于训练问题生成模型;对至少一个答案以及该至少一个答案对应的问题之间的匹配度进行标注可用于训练问题过滤模型。
在本申请实施例中,问题生成设备可对数据库中的部分数据进行标注,并基于标注后的数据训练序列标注模型、问题生成模型以及问题过滤模型,如此,能够使得基于序列标注模型、问题生成模型以及问题过滤模型后生成的问答对更加合理,并且与领域的相关度更高,信息更加丰富。
在一应用场景中,如图5所示,图5是本申请的实施例提供的一种问题生成设备的应用场景示意图。如图所示,问题生成设备可预先收集训练数据,并基于训练数据生成数据库。进一步的,问题生成设备可将待处理的文本进行处理,以得到至少一个实体,并基于至少一个实体以及数据库中该实体对应的描述信息生成该至少一个实体及其对应的问题,也即问答对。进一步的,问题生成设备还可通过问题过滤模型对上述生成的问答对进行过滤,以得到更加合理、与领域的相关度更高,信息更加丰富的问答对。
以上实施例,仅是对本申请的其中一种常见案例而已,并非对本申请的技术范围做任何限制,故凡是依据本申请方案的实质对以上内容所做的任何细微修改、等同变化或者修饰,均仍属于本申请技术方案的范围内。
请继续参阅图6,图6是本申请提供的问题生成设备一实施例的结构示意图。问题生成设备6包括处理器61、存储器62及程序(图未示),程序存储在存储器62上,处理器61执行程序时实现上述任一实施例所述的问题生成方法。
其中,处理器61还可以称为CPU(Central Processing Unit,中央处理单元)。处理器61可能是一种集成电路芯片,具有信令的处理能力。处理器61还可以是通用处理器、数字信令处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器62可以为内存条、TF卡等,可以存储问题生成设备6中全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器62中。它根据控制器指定的位置存入和取出信息。有了存储器62,终端设备6才有记忆功能,才能保证正常工作。问题生成设备6的存储器62按用途存储器62可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,***服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。
请参阅图7,图7是本申请提供的存储介质的结构示意图。本申请的存储介质5存储有能够实现上述所有基于问题生成方法的计算机程序51,其中,该计算机程序51可以以软件产品的形式存储在上述存储介质5中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质5包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端装置。
以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (11)

1.一种问题生成方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本进行处理,得到所述待处理文本中的至少一个实体;
基于所述至少一个实体从数据库搜索所述至少一个实体对应的描述信息;
将所述待处理文本、所述至少一个实体及其对应的所述描述信息输入问题生成模型,生成至少一个文本答案及其对应的问题。
2.根据权利要求1所述的问题生成方法,其特征在于,所述将所述待处理文本进行处理,得到所述待处理文本中的至少一个的实体,包括:
构建序列标注模型,所述序列标注模型包括相互连接的第一编码端和第一解码端;
将所述待处理文本输入所述序列标注模型,利用所述第一编码端对所述待处理文本的文本特征进行编码,得到所述待处理文本的标注结果;利用第一解码端对所述标注结果进行解码,得到所述待处理文本的标注信息;
基于所述标注信息提取所述待处理文本中的至少一个实体。
3.根据权利要求1所述的问题生成方法,其特征在于,所述实体至少包括文本答案,所述问题生成模型包括相互连接的第二编码端和第二解码端;所述将所述待处理文本、所述至少一个实体及其对应的所述描述信息输入问题生成模型,生成至少一个文本答案及其对应的问题,包括:
将所述待处理文本、所述至少一个文本答案及其对应的描述信息进行拼接,获取拼接后的至少一个拼接文本;
将所述至少一个拼接文本通过所述第二编码端进行编码,得到所述至少一个拼接文本对应的状态变量;
将所述至少一个拼接文本对应的状态变量通过所述第二解码端进行解码,得到所述至少一个文本答案及其对应的问题。
4.根据权利要求1所述的问题生成方法,其特征在于,所述将所述待处理文本、所述至少一个实体及其对应的所述描述信息输入问题生成模型,生成至少一个文本答案及其对应的问题之后,包括:
构建问题过滤模型;
将所述至少一个文本答案及其对应的问题输入所述问题过滤模型,获取所述至少一个文本答案与其对应的问题的匹配度;
根据所述匹配度对所述至少一个文本答案与其对应的问题过滤。
5.根据权利要求4所述的问题生成方法,其特征在于,所述构建问题过滤模型之后,还可以包括:
将所述数据库中数据进行标注,得到标注后的数据;
基于所述标注后的数据对所述问题过滤模型进行训练。
6.根据权利要求5所述的问题生成方法,其特征在于,所述将所述数据库中的数据进行标注,得到标注后的数据,包括:
获取所述数据库中的至少一个实体;
基于所述至少一个实体从所述数据库搜索预设数量的与所述实体对应的问题,其中,所述至少一个实体与其对应的所述问题的匹配度大于预设阈值;
将所述至少一个实体与其对应的所述问题进行标注。
7.根据权利要求1所述的问题生成方法,其特征在于,所述基于所述至少一个实体从数据库搜索所述至少一个实体对应的描述信息之后,还可以包括:
将所述待处理文本、所述至少一个实体及其对应的所述描述信息和词性信息输入问题生成模型,生成至少一个文本答案及其对应的问题。
8.根据权利要求1所述的问题生成方法,其特征在于,所述数据库通过如下步骤获得:
收集训练数据;
基于所述训练数据生成所述数据库,其中,
所述数据库至少包括所述至少一个实体及其对应的描述信息。
9.根据权利要求8所述的问题生成方法,其特征在于,所述基于所述训练数据生成所述数据库之后,包括:
将所述数据库中的数据进行预处理,得到预处理后的数据;
基于所述预处理后的数据对序列标注模型、所述问题生成模型以及问题过滤模型进行训练。
10.一种问题生成设备,其特征在于,所述问题生成设备包括处理器、存储器、存储在所述存储器上并可被所述处理器执行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,其中所述计算机程序被所述处理器执行时,实现如权利要求1至8中任一项所述的问题生成方法的步骤。
11.一种存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至8中任一项所述的问题生成的方法的步骤。
CN202210995732.3A 2022-08-19 2022-08-19 问题生成方法、问题生成设备及存储介质 Active CN115080722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210995732.3A CN115080722B (zh) 2022-08-19 2022-08-19 问题生成方法、问题生成设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210995732.3A CN115080722B (zh) 2022-08-19 2022-08-19 问题生成方法、问题生成设备及存储介质

Publications (2)

Publication Number Publication Date
CN115080722A true CN115080722A (zh) 2022-09-20
CN115080722B CN115080722B (zh) 2023-02-17

Family

ID=83244261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210995732.3A Active CN115080722B (zh) 2022-08-19 2022-08-19 问题生成方法、问题生成设备及存储介质

Country Status (1)

Country Link
CN (1) CN115080722B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491421A (zh) * 2018-02-07 2018-09-04 北京百度网讯科技有限公司 一种生成问答的方法、装置、设备和计算存储介质
CN108549710A (zh) * 2018-04-20 2018-09-18 腾讯科技(深圳)有限公司 智能问答方法、装置、存储介质及设备
CN111897934A (zh) * 2020-07-28 2020-11-06 腾讯科技(深圳)有限公司 问答对生成方法及装置
CN113672708A (zh) * 2020-05-13 2021-11-19 武汉Tcl集团工业研究院有限公司 语言模型训练方法、问答对生成方法、装置及设备
US20220027707A1 (en) * 2020-07-24 2022-01-27 International Business Machines Corporation Subgraph guided knowledge graph question generation
CN114691850A (zh) * 2022-03-31 2022-07-01 中国建设银行股份有限公司 生成问答对的方法、神经网络模型的训练方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491421A (zh) * 2018-02-07 2018-09-04 北京百度网讯科技有限公司 一种生成问答的方法、装置、设备和计算存储介质
CN108549710A (zh) * 2018-04-20 2018-09-18 腾讯科技(深圳)有限公司 智能问答方法、装置、存储介质及设备
CN113672708A (zh) * 2020-05-13 2021-11-19 武汉Tcl集团工业研究院有限公司 语言模型训练方法、问答对生成方法、装置及设备
US20220027707A1 (en) * 2020-07-24 2022-01-27 International Business Machines Corporation Subgraph guided knowledge graph question generation
CN111897934A (zh) * 2020-07-28 2020-11-06 腾讯科技(深圳)有限公司 问答对生成方法及装置
CN114691850A (zh) * 2022-03-31 2022-07-01 中国建设银行股份有限公司 生成问答对的方法、神经网络模型的训练方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
乔振浩等: "基于问题生成的知识图谱问答方法", 《智能计算机与应用》 *

Also Published As

Publication number Publication date
CN115080722B (zh) 2023-02-17

Similar Documents

Publication Publication Date Title
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN112215008B (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN113268586A (zh) 文本摘要生成方法、装置、设备及存储介质
WO2023040493A1 (zh) 事件检测
CN109062904B (zh) 逻辑谓词提取方法和装置
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN115292457B (zh) 知识问答方法、装置、计算机可读介质及电子设备
CN115048944B (zh) 一种基于主题增强的开放域对话回复方法及***
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及***
CN113282729B (zh) 基于知识图谱的问答方法及装置
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN112131881A (zh) 信息抽取方法及装置、电子设备、存储介质
CN114153994A (zh) 医保信息问答方法及装置
CN113742446A (zh) 一种基于路径排序的知识图谱问答方法及***
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
Qi et al. DuReadervis: A Chinese dataset for open-domain document visual question answering
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN112613315B (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
CN111401034A (zh) 文本的语义分析方法、语义分析装置及终端
CN111783425B (zh) 基于句法分析模型的意图识别方法及相关装置
Xu et al. Clustering-based summarization of transactional chatbot logs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant