CN114428842A - 一种扩充问答库的方法、装置、电子设备及可读存储介质 - Google Patents
一种扩充问答库的方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN114428842A CN114428842A CN202210040054.5A CN202210040054A CN114428842A CN 114428842 A CN114428842 A CN 114428842A CN 202210040054 A CN202210040054 A CN 202210040054A CN 114428842 A CN114428842 A CN 114428842A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- target
- sample
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于计算机技术领域,公开了一种扩充问答库的方法、装置、电子设备及可读存储介质,该方法包括,确定待扩充的目标问题对应的问题类别;获取针对问题类别设置的语料数据;采用预先训练好的问答匹配模型,从语料数据中,提取出目标问题匹配的目标答案,其中,问答匹配模型是基于有监督学习和无监督学习训练获得的;基于目标问题与目标答案,对问答库进行扩充。这样,在进行对问答库扩充时,可以节约问答库扩充的时间和人工成本。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种扩充问答库的方法、装置、电子设备及可读存储介质。
背景技术
随着人工智能的快速发展,智能问答***越来越多,用以解决用户针对业务提出的问题。
现有技术下,通常通过人工搜集大量的业务相关的问题与答案,并将问题与答案进行匹配,形成问答对,以及存储在数据库中。
但是,现有技术下通常需要人工对问答库进行扩充,需要耗费大量的时间成本和人工成本,效率较低。
由此,在进行对问答库扩充时,如何节约问答库扩充的时间和人工成本,是一个需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种扩充问答库的方法、装置、电子设备及可读存储介质,用以在进行对问答库扩充时,节约问答库扩充的时间和人工成本。
一方面,提供一种扩充问答库的方法,包括:确定待扩充的目标问题对应的问题类别;获取针对问题类别设置的语料数据;采用预先训练好的问答匹配模型,从语料数据中,提取出目标问题匹配的目标答案,其中,问答匹配模型是基于有监督学习和无监督学习训练获得的;基于目标问题与目标答案,对问答库进行扩充。
在上述实现过程中,通过训练好的问答匹配模型,针对待扩充目标问题,从语料数据中,获取对应的目标答案,这样在扩充问答对时,无需耗费大量的人工迭代添加,以及大量的时间成本和人力成本,进而提高了问答对的扩充效率。
一种实施方式中,在获取针对问题类别设置的语料数据之前,还包括:获取分别针对每一问题类别设置的语料文本;按照指定字符,对针对每一问题类别设置的语料文本进行划分,获得针对每一问题类别设置的语料文本的至少一个子文本,子文本为语料数据。
在上述实现过程中,获取针对每一问题类别设置的语料文本,并按照指定字符对语料文本进行划分,获得语料数据,这样,在后续步骤中,可以直接获取针对问题类别设置的语料数据。
一种实施方式中,确定待扩充的目标问题对应的问题类别,包括:提取待扩充的目标问题中的至少一个关键词;分别将每一关键词与预设问题类别集合中每一问题类别进行匹配,确定至少一个关键词匹配的问题类别。
在上述实现过程中,提取目标问题中的关键词,根据关键词确定目标问题的问题类别,这样,就可以在后续步骤中,根据问题类别,基于训练好的问答匹配模型,获得对应的目标答案。
一种实施方式中,采用预先训练好的问答匹配模型,从语料数据中,提取出目标问题匹配的目标答案,包括:提取语料数据的文本特征向量,以及目标问题的问题特征向量;基于语料数据的文本特征向量,以及目标问题的问题特征向量,确定目标问题与各语料数据的问答匹配度;从各语料数据中,筛选高于预设匹配度的特征向量对应的答案;基于筛选出的答案,确定目标问题匹配的目标答案。
在上述实现过程中,基于训练好的问答匹配模型,针对目标问题,获得对应的目标答案,通过训练好的模型,获得待扩充的问答对,节省了耗费的人力成本,提高了扩充的效率。
一种实施方式中,在采用预先训练好的问答匹配模型,从语料数据中,提取出目标问题匹配的目标答案之前,还包括:基于训练集合,对初始问答匹配模型进行训练,获得训练好的问答匹配模型;其中,初始问答匹配模型基于有监督学习和无监督学习获得的。
在上述实现过程中,基于训练集合,训练问答匹配模型,基于训练好的问答匹配模型,获得目标问题对应的目标答案,节省了人力成本和时间成本,提高了扩充的效率。
一种实施方式中,在采用预先训练好的问答匹配模型,从语料数据中,提取出目标问题匹配的目标答案之前,还包括:获取正样本数据,正样本数据包含多个问答组合样本以及每一问答组合样本对应的匹配度,每一问答组合样本包括一个问题样本,以及一个问题样本对应的答案;将正样本数据中各问答组合样本中的问题和答案进行随机交换,获得负样本数据,负样本数据包含多个交换后的问答组合样本,以及相应的问答匹配度,每一问答组合样本包括一个问题样本,以及一个问题样本对应的答案;基于正样本数据和负样本数据,获得训练集合。
在上述实现过程中,获取训练集合,基于训练集合,训练问答匹配模型,就可以在后续步骤中,直接使用训练好的问答匹配模型,获得目标答案。
一种实施方式中,基于训练集合,对初始问答匹配模型进行训练,包括:分别提取训练集合中每一问答组合样本中答案的特征向量,以及对应的问题样本的内容向量;基于各问答组合样本中每一答案的特征向量,以及对应的问题样本的内容向量,分别获得每一问答组合样本的预测问答匹配度;基于预测问答匹配度以及设定问答匹配度,确定匹配度损失;若匹配度损失小于设定损失值,则获得训练好的问答匹配模型,否则,基于匹配度损失,调整初始问答匹配模型的模型参数,直至基于调整后的初始问答匹配模型确定出的匹配度损失小于设定损失值。
在上述实现过程中,基于训练集合,通过各问答组合样本的预测问答匹配度和设定问答匹配度,获得匹配度损失,并基于匹配度损失,调整初始问答匹配模型的参数,直到问答匹配模型训练完成,通过训练好的模型,获得待扩充的问答对,节省了耗费的人力成本,提高了扩充的效率。
一方面,提供一种扩充问答库的装置,包括:确定单元,用于确定待扩充的目标问题对应的问题类别;获取单元,用于获取针对问题类别设置的语料数据;提取单元,用于采用预先训练好的问答匹配模型,从语料数据中,提取出目标问题匹配的目标答案,其中,问答匹配模型是基于有监督学习和无监督学习训练获得的;扩充单元,用于基于目标问题与目标答案,对问答库进行扩充。
一种实施方式中,获取单元还用于:获取分别针对每一问题类别设置的语料文本;按照指定字符,对针对每一问题类别设置的语料文本进行划分,获得针对每一问题类别设置的语料文本的至少一个子文本,子文本为语料数据。
一种实施方式中,确定单元具体用于:提取待扩充的目标问题中的至少一个关键词;分别将每一关键词与预设问题类别集合中每一问题类别进行匹配,确定至少一个关键词匹配的问题类别。
一种实施方式中,提取单元具体用于:提取语料数据的文本特征向量,以及目标问题的问题特征向量;基于语料数据的文本特征向量,以及目标问题的问题特征向量,确定目标问题与各语料数据的问答匹配度;从各语料数据中,筛选高于预设匹配度的特征向量对应的答案;基于筛选出的答案,确定目标问题匹配的目标答案。
一种实施方式中,提取单元还用于:基于训练集合,对初始问答匹配模型进行训练,获得训练好的问答匹配模型;其中,初始问答匹配模型基于有监督学习和无监督学习获得的。
一种实施方式中,提取单元还用于:获取正样本数据,正样本数据包含多个问答组合样本以及每一问答组合样本对应的匹配度,每一问答组合样本包括一个问题样本,以及一个问题样本对应的答案;将正样本数据中各问答组合样本中的问题和答案进行随机交换,获得负样本数据,负样本数据包含多个交换后的问答组合样本,以及相应的问答匹配度,每一问答组合样本包括一个问题样本,以及一个问题样本对应的答案;基于正样本数据和负样本数据,获得训练集合。
一种实施方式中,提取单元还用于:分别提取训练集合中每一问答组合样本中答案的特征向量,以及对应的问题样本的内容向量;基于各问答组合样本中每一答案的特征向量,以及对应的问题样本的内容向量,分别获得每一问答组合样本的预测问答匹配度;基于预测问答匹配度以及设定问答匹配度,确定匹配度损失;若匹配度损失小于设定损失值,则获得训练好的问答匹配模型,否则,基于匹配度损失,调整初始问答匹配模型的模型参数,直至基于调整后的初始问答匹配模型确定出的匹配度损失小于设定损失值。
一方面,提供了一种计算机程序产品,计算机程序产品在计算机上运行时,使得计算机执行如上述任一种扩充问答库的各种可选实现方式中提供的方法的步骤。
一方面,提供了一种电子设备,包括处理器以及存储器,存储器存储有计算机可读取指令,当计算机可读取指令由处理器执行时,运行如上述任一种扩充问答库的各种可选实现方式中提供的方法的步骤。
一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时运行如上述任一种扩充问答库的各种可选实现方式中提供的方法的步骤。
本申请实施例提供的一种扩充问答库的方法、装置、电子设备及可读存储介质中,确定待扩充的目标问题对应的问题类别;获取针对问题类别设置的语料数据;采用预先训练好的问答匹配模型,从语料数据中,提取出目标问题匹配的目标答案,其中,问答匹配模型是基于有监督学习和无监督学习训练获得的;基于目标问题与目标答案,对问答库进行扩充。这样,在进行对问答库扩充时,无需耗费大量的人工迭代添加,以及大量的时间成本和人力成本,进而提高了问答对的扩充效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种扩充问答库的***架构示意图;
图2为本申请实施例提供的一种扩充问答库的方法的实施流程图;
图3为本申请实施例提供的一种扩充问答库的方法的详细实施流程图;
图4为本申请实施例提供的一种扩充问答库的装置的结构框图;
图5为本申请实施方式中一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
首先对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
终端设备:可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信***设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。
服务器:可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
语料:语言材料,可以为百科资料、公司的条款,以及规定等。
有监督学习:是指用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知样本。
无监督学习:根据没有标记类别的训练样本解决模式识别中的各种问题,称为无监督学习。
卷积神经网络(Convolutional Neural Networks,CNN):是一类包含卷积计算且具有深度结构的神经网络。
为了进行对问答库扩充时,可以提高问答库扩充的效率,本申请实施例提供了一种扩充问答库的方法、装置、电子设备及可读存储介质。
参阅图1所示,为本申请实施例提供的一种扩充问答库的***架构示意图。该扩充问答库的***架构包括问答匹配模块,以及问答库模块。其中,问答匹配模块,以及问答库模块可以为同一设备上,也可以不在同一设备上,其中上述设备可以为服务器,也可以为终端,在此不作限制。
其中,问答匹配模块用于:接收目标问题,并根据目标问题的问题类别,从语料数据中,提取出目标问题匹配的目标答案,以及将目标问题与目标答案,发送给问答库模块。
问答库模块用于:接收问答匹配模块发送的目标问题与目标答案,并将目标问题与目标答案以问答对的形式,存储到问答库中。
一种实施方式中,问答匹配模块接收待扩充的目标问题,并确定目标问题的问题类别,以及根据目标问题的问题类别,从语料数据中,提取目标问题对应的目标答案。问答匹配模块将目标问题与目标答案发送给问答库模块,问答库模块接收答匹配模块发送的目标问题与目标答案,并将目标问题与目标答案以问答对的形式,存储到问答库中。
这样,通过获得训练好的问答匹配模型,针对待扩充目标问题,从语料数据中,获取对应的目标答案,这样在扩充问答对时,无需耗费大量的人工迭代添加,节省了大量的时间成本和人力成本,进而提高了问答对的扩充效率。
本申请实施例中,仅以执行主体为服务器为例进行说明,实际应用中,执行主体也可以为终端设备等其他电子设备,在此不作限制。
参阅图2所示,为本申请实施例提供的一种扩充问答库的方法的实施流程图,该方法的具体实施流程如下:
步骤200:确定待扩充的目标问题对应的问题类别。
具体的,执行步骤200,可以执行以下步骤:
S2001:提取待扩充的目标问题中的至少一个关键词。
具体的,接收到待扩充的目标问题,通过关键词提取技术,提取待扩充的目标问题中的至少一个关键词。
可选的,关键词可以为产品名,实际应用中,根据实际应用情况,关键词也可以为其它词语,在此不作限制。
这样,就可以提取待扩充的目标问题中的至少一个关键词。
进一步的,在执行步骤S2001之前,还可以对待扩充的目标问题进行字符识别处理,识别并剔除无意义问句、少于预设字数的问句、特殊字符、表情,以及琐碎词语等。
其中,无意义问句可以为“今天天气好吗”,琐碎词语可以为“好的,谢谢”等。
其中,预设字数可以为4个。
实际应用中,预设字数的数量也可以根据实际应用场景进行设置,在此不作限制。
S2002:分别将每一关键词与预设问题类别集合中每一问题类别进行匹配,确定至少一个关键词匹配的问题类别。
具体的,分别将待扩充的目标问题中的每一关键词,分别与预设问题类别集合中每一问题类别进行匹配,确定至少一个关键词匹配的问题类别。
其中,关键词可以为产品名。
可选的,预设问题类别集合可以为产品名关系映射表,实际应用中,根据实际应用情况,预设问题类别集合也可以为其它关键词集合,在此不作限制。
一种实施方式中,通过产品名关系映射表,分别将待扩充的目标问题中的每一关键词,分别与产品名关系映射中每一产品名类别进行匹配,确定至少一个关键词匹配到的产品类别,根据产品类别,确定问题类别。
其中,产品名关系映射表是根据“产品名标准名”与“产品别名”总结出来的关系映射表。
这样,就可以根据关键词,确定关键词类别,进而确定至少一个关键词匹配的问题类别。
步骤201:获取针对问题类别设置的语料数据。
具体的,获取针对目标问题的问题类别设置的语料数据。
可选的,语料数据可以包括产品介绍、条款,以及历史案例中的优秀回答中任意一种。
实际应用中,语料数据也可以为其它数据,在此不作限制。
进一步的,在执行步骤201之前,还可以执行以下步骤:
步骤一:获取分别针对每一问题类别设置的语料文本。
具体的,获取分别针对每一问题类别提前设置的语料文本。
步骤二:按照指定字符,对针对每一问题类别设置的语料文本进行划分,获得针对每一问题类别设置的语料文本的至少一个子文本。
具体的,按照指定字符,对针对每一问题类别设置的语料文本进行划分,获得针对每一问题类别设置的语料文本的一个或多个子文本。
其中,语料数据可以包含多个子文本。
可选的,指定字符可以为逗号、句号,以及换行符号,实际应用中,指定字符还可以为其它符号,在此不作限制。
其中,针对每一问题类别设置的语料文本的至少一个子文本中,每一子文本都包含对应的语料文本,以及被划分的部分语料文本。
一种实施方式中,语料文本可以为“aaa。Bbb<换行>ccc。”,则按照指定字符,对上述语料文本进行划分,获得[[“aaa。Bbb<换行>ccc。”,“aaa。”],[“aaa。Bbb<换行>ccc。”,“bbb。”],[“aaa。Bbb<换行>ccc。”,“ccc。”]]。
这样,就可以按照指定字符,对针对每一问题类别设置的语料文本进行划分,获得针对每一问题类别设置的语料文本的至少一个子文本。
步骤202:采用预先训练好的问答匹配模型,从语料数据中,提取出目标问题匹配的目标答案。
其中,问答匹配模型是基于有监督学习和无监督学习构建的。
具体的,执行步骤202,可以执行以下步骤:
S2021:提取语料数据的文本特征向量,以及目标问题的问题特征向量。
具体的,提取语料数据的文本特征向量,以及目标问题的问题特征向量。
进一步的,还可以采用向量转换算法,将语料数据和目标问题转换为文本向量,并采用卷积核的方式,提取语料数据的文本特征向量和目标问题的问题特征向量。
其中,向量转换算法可以为将文本转化为文本向量的算法。
可选的,向量转换算法可以为基于卷积神经网络的文本分类算法(TextCNN)和快速文本分类器(FastText)。
实际应用中,向量转换算法还可以为其它算法,在此不作限制。
这样,就可以提取语料数据的文本特征向量,以及目标问题的问题特征向量。
S2022:基于语料数据的文本特征向量,以及目标问题的问题特征向量,确定目标问题与各语料数据的问答匹配度。
具体的,基于语料数据的文本特征向量,以及目标问题的问题特征向量,采用余弦相似度算法,计算目标答案与对应的各语料数据的匹配度。
其中,余弦相似度算法的计算公式可以为:
其中,A表示目标问题的问题特征向量、B表示语料数据的文本特征向量,cos(A,B)表示余弦相似度,‖A‖表示特征向量A的模,‖B‖表示特征向量B的模,n表示目标问题和语料数据的个数,i表示从1到n的变量。
实际应用中,也可以采用其它方法确定目标问题与各语料数据的匹配度,在此不作限制。
这样,就可以基于语料数据的文本特征向量,以及目标问题的问题特征向量,确定目标问题与各语料数据的问答匹配度。
进一步的,在获得目标问题与各语料数据的问答匹配度后,将目标问题与各语料数据对应的预料文本形成问答对,并按照问题类别,以预设顺序排列各问答对,以及将上述排序生成文档,作为知识库扩充材料进行输出。
可选的,预设顺序可以为按照问答匹配度降序排列问答对或按照问答匹配度升序排列问答对。
实际应用中,预设顺序还可以为其它方式,在此不作限制。
S2023:从各语料数据中,筛选高于预设匹配度的特征向量对应的答案。
具体的,从各语料数据中,筛选高于预设匹配度的特征向量对应的语料数据,并将其称为答案。
可选的,预设匹配度的取值可以为70%。
实际应用中,根据实际应用情况,预设匹配度的取值可以为其它取值,在此不作限制。
这样,就可以从各语料数据中,筛选高于预设匹配度的特征向量对应的答案。
S2024:基于筛选出的答案,确定目标问题匹配的目标答案。
具体的,基于筛选出的目标问题对应的答案,确定目标问题匹配的目标答案。
一种实施方式中,筛选出的答案有3个,分别与目标问题的匹配度为80%、75%、90%,则挑选与目标问题匹配度最高的答案,作为目标问题匹配的目标答案。
其中,还可以将筛选出的答案,都确定为目标问题匹配的目标答案。
这样,就可以基于筛选出的答案,确定目标问题匹配的目标答案。
进一步的,确定目标问题匹配的目标答案后,获得目标答案所在的语料文本,并将目标问题与语料文本组成问答对,存储到问答库中。
进一步的,在执行步骤202之前,还可以执行以下步骤:
步骤A:获取正样本数据。
其中,正样本数据包含多个问答组合样本以及每一问答组合样本对应的问答匹配度,每一问答组合样本包括一个问题样本,以及一个问题样本对应的答案。
其中,正样本中的问答匹配度可以为1。
其中,一个答案通常可以回答多个问题样本,即问题样本之间可能为相似问题。
其中,正样本数据包含的多个问答组合样本中,为每一相似问题样本匹配对应的答案。
进一步的,正样本数据包含的多个问答组合样本中,每一问答组合样本还可以包括一个答案,以及一个或多个问题样本,在后续训练初始问答匹配模型时,每一问答组合样本可以根据一个答案,随机挑选一个对应的问题样本。
这样,就可以获取正样本。
步骤B:将正样本数据中各问答组合样本中的问题和答案进行随机交换,获得负样本数据。
具体的,将正样本数据中各问答组合样本中的问题和答案进行随机交换,获得负样本数据。
其中,负样本数据包含多个交换后的问答组合样本以及每一问答组合样本对应的问答匹配度,每一问答组合样本包括一个问题样本,以及一个问题样本对应的答案。
其中,负样本中的问答匹配度可以为0。
其中,一个答案通常可以回答多个问题样本,即问题样本之间可能为相似问题。
其中,负样本数据包含的多个问答组合样本中,为每一相似问题样本匹配对应的答案。
进一步的,负样本数据包含的多个问答组合样本中,每一问答组合样本还可以包括一个答案,以及一个或多个问题样本,在后续训练初始问答匹配模型时,每一问答组合样本可以根据一个答案,随机挑选一个对应的问题样本。
这样,就可以获取负样本。
步骤C:基于正样本数据和负样本数据,获得训练集合。
具体的,由正样本数据和负样本数据,组成训练集合。
这样,就获得了训练集合,用于在后续步骤中,训练初始问答匹配模型。
步骤D:基于训练集合,对初始问答匹配模型进行训练,获得训练好的问答匹配模型。
具体的,初始问答匹配模型可以为基于业内开源的预训练语言模型拼接权连接层构建的。
其中,初始问答匹配模型初始问答匹配模型可以是基于业内开源的预训练语言模型构建,并基于有监督学习和无监督学习训练获得的。
可选的,业内开源的预训练语言模型可以为预训练的语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)或长短期记忆网络(Long Short-Term Memory,LSTM)。
实际应用中,还可以根据实际应用情况,采用其它语言模型,在此不作限制。
其中,通过有监督学习,建立问题样本和对应的答案之间的关联。通过无监督学习,减少答案之间的关联。
进一步的,在进行问答库扩充时,不需要大额的人为干涉,无监督学习可以多次进行。
具体的,执行步骤D,可以执行以下步骤:
步骤a:分别提取训练集合中每一问答组合样本中答案的特征向量,以及对应的问题样本的内容向量。
具体的,分别提取训练集合中每一问答组合样本中答案的特征向量,以及对应的问题样本的内容向量。
进一步的,还可以采用向量转换算法,将每一问答组合样本中答案和对应的问题样本转换为文本向量,并采用卷积核的方式,分别提取训练集合中每一问答组合样本中答案的特征向量,以及对应的问题样本的内容向量。
其中,向量转换算法可以为将文本转化为文本向量的算法。
可选的,向量转换算法可以为文本分类算法和快速文本分类器。
实际应用中,根据实际应用情况,向量转换算法还可以为其它算法,在此不作限制。
这样,就可以分别提取训练集合中每一问答组合样本中答案的特征向量,以及对应的问题样本的内容向量。
步骤b:基于各问答组合样本中每一答案的特征向量,以及对应的问题样本的内容向量,分别获得每一问答组合样本的预测问答匹配度。
具体的,基于各问答组合样本中每一答案的特征向量,以及对应的问题样本的内容向量,分别获得每一问答组合样本的预测问答匹配度。
其中,预测匹配度的取值范围可以为0-1之间。
实际应用中,根据实际应用情况,预测匹配度的取值范围也可以其它取值,在此不作限制。
这样,就可以分别获得每一问答组合样本的预测问答匹配度。
步骤c:基于预测问答匹配度以及设定问答匹配度,确定匹配度损失。
具体的,根据获得的预测问答匹配度和预先设定问答匹配度,确定匹配度损失。
其中,设定问答匹配度是预先设置的。
可选的,设定问答匹配度的取值范围可以为0.6-0.9之间,也可以为其它,在此不作限制。
其中,预先设置损失函数,根据损失函数,确定匹配度损失。
可选的,损失函数可以为0-1损失函数、绝对值损失函数、log对数损失函数、平方损失函数、指数损失函数、感知损失函数,以及交叉熵损失函数等。
实际应用中,根据实际应用情况,也可以采用其它损失函数,在此不作限制。
这样,就可以基于预测问答匹配度以及设定问答匹配度,确定匹配度损失。
步骤d:若匹配度损失小于设定损失值,则获得训练好的问答匹配模型,否则,基于匹配度损失,调整初始问答匹配模型的模型参数,直至基于调整后的初始问答匹配模型确定出的匹配度损失小于设定损失值。
具体的,若匹配度损失小于设定损失值,则获得训练好的问答匹配模型,否则,基于匹配度损失,调整初始问答匹配模型的模型参数,直至基于调整后的初始问答匹配模型确定出的匹配度损失小于设定损失值,即获得训练好的问答匹配模型。
这样,就获得训练好的问答匹配模型。
步骤203:基于目标问题与目标答案,对问答库进行扩充。
具体的,将获得的目标问题与目标答案组成问答对,并将该问答对添加到问答库中。
这样,就完成对问答库的扩充。
参阅图3所示,其为本申请实施例提供的一种扩充问答库的方法详细实施流程图,该方法的具体实施流程如下:
步骤300:提取待扩充的目标问题中的至少一个关键词。
步骤301:分别将每一关键词与预设问题类别集合中每一问题类别进行匹配,确定至少一个关键词匹配的问题类别。
步骤302:获取分别针对每一问题类别设置的语料文本。
步骤303:按照指定字符,对针对每一问题类别设置的语料文本进行划分,获得针对每一问题类别设置的语料文本的至少一个语料数据。
步骤304:获取针对问题类别设置的语料数据。
步骤305:提取语料数据的文本特征向量,以及目标问题的问题特征向量。
步骤306:基于语料数据的文本特征向量,以及目标问题的问题特征向量,确定目标问题与各语料数据的问答匹配度。
步骤307:从各语料数据中,筛选高于预设匹配度的特征向量对应的答案。
步骤308:基于筛选出的答案,确定目标问题匹配的目标答案。
步骤309:将目标问题与对应的目标答案扩充到问答库中。
具体的,执行步骤300-步骤309时,具体步骤参见上述步骤200-步骤203,在此不做赘述。
本申请实施例中,通过对比学习方法来构建训练集合,使得训练集合中样本更加丰富。通过训练集合训练问答匹配模型,有助于问答匹配模型在训练集合数据基础上训练的更加充分,从而达到充分的拟合,获得训练好的问答匹配模型,针对待扩充目标问题,从语料数据中,获取对应的目标答案,这样在扩充问答对时,无需耗费大量的人工迭代添加,以及大量的时间成本和人力成本,进而提高了问答对的扩充效率。
如图4所示,其为本申请实施例提供的一种扩充问答库的装置的结构示意图,包括:确定单元401,用于确定待扩充的目标问题对应的问题类别;获取单元402,用于获取针对问题类别设置的语料数据;提取单元403,用于采用预先训练好的问答匹配模型,从语料数据中,提取出目标问题匹配的目标答案,其中,问答匹配模型是基于有监督学习和无监督学习训练获得的;扩充单元404,用于基于目标问题与所述目标答案,对问答库进行扩充。
一种实施方式中,获取单元402还用于:获取分别针对每一问题类别设置的语料文本;按照指定字符,对针对每一问题类别设置的语料文本进行划分,获得针对每一问题类别设置的语料文本的至少一个子文本,子文本为语料数据。
一种实施方式中,确定单元401具体用于:提取待扩充的目标问题中的至少一个关键词;分别将每一关键词与预设问题类别集合中每一问题类别进行匹配,确定至少一个关键词匹配的问题类别。
一种实施方式中,提取单元403具体用于:提取语料数据的文本特征向量,以及目标问题的问题特征向量;基于语料数据的文本特征向量,以及目标问题的问题特征向量,确定目标问题与各语料数据的问答匹配度;从各语料数据中,筛选高于预设匹配度的特征向量对应的答案;基于筛选出的答案,确定目标问题匹配的目标答案。
一种实施方式中,提取单元403还用于:基于训练集合,对初始问答匹配模型进行训练,获得训练好的问答匹配模型;其中,初始问答匹配模型基于有监督学习和无监督学习获得的。
一种实施方式中,提取单元403还用于:获取正样本数据,正样本数据包含多个问答组合样本以及每一问答组合样本对应的匹配度,每一问答组合样本包括一个问题样本,以及一个问题样本对应的答案;将正样本数据中各问答组合样本中的问题和答案进行随机交换,获得负样本数据,负样本数据包含多个交换后的问答组合样本,以及相应的问答匹配度,每一问答组合样本包括一个问题样本,以及一个问题样本对应的答案;基于正样本数据和负样本数据,获得训练集合。
一种实施方式中,提取单元403还用于:分别提取训练集合中每一问答组合样本中答案的特征向量,以及对应的问题样本的内容向量;基于各问答组合样本中每一答案的特征向量,以及对应的问题样本的内容向量,分别获得每一问答组合样本的预测问答匹配度;基于预测问答匹配度以及设定问答匹配度,确定匹配度损失;若匹配度损失小于设定损失值,则获得训练好的问答匹配模型,否则,基于匹配度损失,调整初始问答匹配模型的模型参数,直至基于调整后的初始问答匹配模型确定出的匹配度损失小于设定损失值。
由于上述装置及设备解决问题的原理与一种扩充问答库的方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
本申请实施例提供的一种扩充问答库的方法、装置、电子设备及可读存储介质中,确定待扩充的目标问题对应的问题类别;获取针对问题类别设置的语料数据;采用预先训练好的问答匹配模型,从语料数据中,提取出目标问题匹配的目标答案,其中,问答匹配模型是基于有监督学习和无监督学习训练获得的;基于目标问题与目标答案,对问答库进行扩充。这样,在进行对问答库扩充时,无需耗费大量的人工迭代添加,以及大量的时间成本和人力成本,进而提高了问答对的扩充效率。
图5示出了一种电子设备5000的结构示意图。参阅图5所示,电子设备5000包括:处理器5010以及存储器5020,可选的,还可以包括电源5030、显示单元5040、输入单元5050。
处理器5010是电子设备5000的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在存储器5020内的软件程序和/或数据,执行电子设备5000的各种功能,从而对电子设备5000进行整体监控。
本申请实施例中,处理器5010调用存储器5020中存储的计算机程序时执行如图2中所示的实施例提供的扩充问答库的方法。
可选的,处理器5010可包括一个或多个处理单元;优选的,处理器5010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器5010中。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
存储器5020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、各种应用等;存储数据区可存储根据电子设备5000的使用所创建的数据等。此外,存储器5020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
电子设备5000还包括给各个部件供电的电源5030(比如电池),电源可以通过电源管理***与处理器5010逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗等功能。
显示单元5040可用于显示由用户输入的信息或提供给用户的信息以及电子设备5000的各种菜单等,本发明实施例中主要用于显示电子设备5000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元5040可以包括显示面板5041。显示面板5041可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置。
输入单元5050可用于接收用户输入的数字或字符等信息。输入单元5050可包括触控面板5051以及其他输入设备5052。其中,触控面板5051,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板5051上或在触控面板5051附近的操作)。
具体的,触控面板5051可以检测用户的触摸操作,并检测触摸操作带来的信号,将这些信号转换成触点坐标,发送给处理器5010,并接收处理器5010发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5051。其他输入设备5052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
当然,触控面板5051可覆盖显示面板5041,当触控面板5051检测到在其上或附近的触摸操作后,传送给处理器5010以确定触摸事件的类型,随后处理器5010根据触摸事件的类型在显示面板5041上提供相应的视觉输出。虽然在图5中,触控面板5051与显示面板5041是作为两个独立的部件来实现电子设备5000的输入和输出功能,但是在某些实施例中,可以将触控面板5051与显示面板5041集成而实现电子设备5000的输入和输出功能。
电子设备5000还可包括一个或多个传感器,例如压力传感器、重力加速度传感器、接近光传感器等。当然,根据具体应用中的需要,上述电子设备5000还可以包括摄像头等其它部件,由于这些部件不是本申请实施例中重点使用的部件,因此,在图5中没有示出,且不再详述。
本领域技术人员可以理解,图5仅仅是电子设备的举例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
本申请实施例中,一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得通信设备可以执行上述实施例中的各个步骤。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种扩充问答库的方法,其特征在于,包括:
确定待扩充的目标问题对应的问题类别;
获取针对所述问题类别设置的语料数据;
采用预先训练好的问答匹配模型,从所述语料数据中,提取出所述目标问题匹配的目标答案,其中,所述问答匹配模型是基于有监督学习和无监督学习训练获得的;
基于所述目标问题与所述目标答案,对所述问答库进行扩充。
2.如权利要求1所述的方法,其特征在于,在所述获取针对所述问题类别设置的语料数据之前,还包括:
获取分别针对每一问题类别设置的语料文本;
按照指定字符,对所述针对每一问题类别设置的语料文本进行划分,获得所述针对每一问题类别设置的语料文本的至少一个子文本,所述子文本为所述语料数据。
3.如权利要求2所述的方法,其特征在于,所述确定待扩充的目标问题对应的问题类别,包括:
提取所述待扩充的目标问题中的至少一个关键词;
分别将每一关键词与预设问题类别集合中每一问题类别进行匹配,确定所述至少一个关键词匹配的问题类别。
4.如权利要求3所述的方法,其特征在于,所述采用预先训练好的问答匹配模型,从所述语料数据中,提取出所述目标问题匹配的目标答案,包括:
提取所述语料数据的文本特征向量,以及所述目标问题的问题特征向量;
基于所述语料数据的文本特征向量,以及所述目标问题的问题特征向量,确定所述目标问题与各语料数据的问答匹配度;
从各语料数据中,筛选高于预设匹配度的特征向量对应的答案;
基于筛选出的答案,确定所述目标问题匹配的目标答案。
5.如权利要求1-4任一项所述的方法,其特征在于,在所述采用预先训练好的问答匹配模型,从所述语料数据中,提取出所述目标问题匹配的目标答案之前,还包括:
基于训练集合,对初始问答匹配模型进行训练,获得训练好的所述问答匹配模型;
其中,所述初始问答匹配模型基于有监督学习和无监督学习获得的。
6.如权利要求5所述的方法,其特征在于,在所述采所述用预先训练好的问答匹配模型,从所述语料数据中,提取出所述目标问题匹配的目标答案之前,还包括:
获取正样本数据,所述正样本数据包含多个问答组合样本以及每一问答组合样本对应的匹配度,每一问答组合样本包括一个问题样本,以及所述一个问题样本对应的答案;
将所述正样本数据中各问答组合样本中的问题和答案进行随机交换,获得负样本数据,所述负样本数据包含多个交换后的问答组合样本,以及相应的问答匹配度,每一问答组合样本包括一个问题样本,以及所述一个问题样本对应的答案;
基于所述正样本数据和所述负样本数据,获得训练集合。
7.如权利要求6所述的方法,其特征在于,所述基于训练集合,对初始问答匹配模型进行训练,包括:
分别提取所述训练集合中每一问答组合样本中答案的特征向量,以及对应的问题样本的内容向量;
基于各问答组合样本中每一答案的特征向量,以及对应的问题样本的内容向量,分别获得每一问答组合样本的预测问答匹配度;
基于所述预测问答匹配度以及设定问答匹配度,确定匹配度损失;
若所述匹配度损失小于设定损失值,则获得训练好的所述问答匹配模型,否则,基于所述匹配度损失,调整所述初始问答匹配模型的模型参数,直至基于调整后的初始问答匹配模型确定出的匹配度损失小于所述设定损失值。
8.一种扩充问答库的装置,其特征在于,包括:
确定单元,用于确定待扩充的目标问题对应的问题类别;
获取单元,用于获取针对所述问题类别设置的语料数据;
提取单元,用于采用预先训练好的问答匹配模型,从所述语料数据中,提取出所述目标问题匹配的目标答案,其中,所述问答匹配模型是基于有监督学习和无监督学习训练获得的;
扩充单元,用于基于所述目标问题与所述目标答案,对所述问答库进行扩充。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7任一所述方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210040054.5A CN114428842A (zh) | 2022-01-14 | 2022-01-14 | 一种扩充问答库的方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210040054.5A CN114428842A (zh) | 2022-01-14 | 2022-01-14 | 一种扩充问答库的方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114428842A true CN114428842A (zh) | 2022-05-03 |
Family
ID=81311407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210040054.5A Pending CN114428842A (zh) | 2022-01-14 | 2022-01-14 | 一种扩充问答库的方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114428842A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113092A (zh) * | 2023-10-24 | 2023-11-24 | 北京睿企信息科技有限公司 | 一种基于问答任务模型进行问题扩充的方法及存储介质 |
CN117556906A (zh) * | 2024-01-11 | 2024-02-13 | 卓世智星(天津)科技有限公司 | 问答数据集生成方法、装置、电子设备及存储介质 |
-
2022
- 2022-01-14 CN CN202210040054.5A patent/CN114428842A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117113092A (zh) * | 2023-10-24 | 2023-11-24 | 北京睿企信息科技有限公司 | 一种基于问答任务模型进行问题扩充的方法及存储介质 |
CN117113092B (zh) * | 2023-10-24 | 2024-01-23 | 北京睿企信息科技有限公司 | 一种基于问答任务模型进行问题扩充的方法及存储介质 |
CN117556906A (zh) * | 2024-01-11 | 2024-02-13 | 卓世智星(天津)科技有限公司 | 问答数据集生成方法、装置、电子设备及存储介质 |
CN117556906B (zh) * | 2024-01-11 | 2024-04-05 | 卓世智星(天津)科技有限公司 | 问答数据集生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022078102A1 (zh) | 一种实体识别方法、装置、设备以及存储介质 | |
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN107943860B (zh) | 模型的训练方法、文本意图的识别方法及装置 | |
CN111553162B (zh) | 一种意图识别的方法以及相关装置 | |
CN110162770A (zh) | 一种词扩展方法、装置、设备及介质 | |
CN101305368A (zh) | 语义可视搜索引擎 | |
WO2021159877A1 (zh) | 问答方法及装置 | |
CN114428842A (zh) | 一种扩充问答库的方法、装置、电子设备及可读存储介质 | |
CN111931501A (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN112214605A (zh) | 一种文本分类方法和相关装置 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN111563158A (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN112749252A (zh) | 一种基于人工智能的文本匹配方法和相关装置 | |
CN110765294A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN115022098B (zh) | 人工智能安全靶场内容推荐方法、装置及存储介质 | |
KR101545050B1 (ko) | 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템 | |
CN111444321B (zh) | 问答方法、装置、电子设备和存储介质 | |
CN111241815A (zh) | 文本增量方法、装置及终端设备 | |
CN113342944B (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
CN116975295B (zh) | 一种文本分类方法、装置及相关产品 | |
CN112862021A (zh) | 一种内容标注方法和相关装置 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
CN114547242A (zh) | 一种问卷调研的方法、装置、电子设备及可读存储介质 | |
CN114357138A (zh) | 一种问答识别的方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |