CN111782785B - 自动问答方法、装置、设备以及存储介质 - Google Patents
自动问答方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN111782785B CN111782785B CN202010613855.7A CN202010613855A CN111782785B CN 111782785 B CN111782785 B CN 111782785B CN 202010613855 A CN202010613855 A CN 202010613855A CN 111782785 B CN111782785 B CN 111782785B
- Authority
- CN
- China
- Prior art keywords
- target
- standard
- question
- determining
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 19
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了自动问答方法、装置、设备以及存储介质,涉及自然语言处理、人工智能、深度学习技术领域。具体实现方案为:获取目标问题;对目标问题进行分析,确定目标问题所属的目标类目;根据目标问题以及与目标类目对应的预设关键词集合,确定目标问题中的至少一个关键词;根据目标问题、至少一个关键词以及预设的知识库中目标类目下的至少一个标准问题、各标准问题对应的关键词,确定与目标问题相似的目标标准问题;将目标标准问题的答案输出。本实现方式充分利用了知识库中的知识,确定出目标问题所属的类目,提高了目标问题的识别速度,并能够基于类目准确提取关键词,从而提高问题匹配的准确率。
Description
技术领域
本申请涉及计算机技术领域,具体涉及自然语言处理、人工智能、深度学习技术领域,尤其涉及自动问答方法、装置、设备以及存储介质。
背景技术
在机器人对话***中,***需要对用户输入的查询语句实时地给出正确的回复,其中(Frequently Asked Question)FAQ是指用户询问频率较高的业务知识类问题的自动解答,是问答***的一种应用场景。
现有的FAQ一般对字面很相近的问题的匹配效果不好。
发明内容
提供了一种自动问答方法、装置、设备以及存储介质。
根据第一方面,提供了一种自动问答方法,包括:获取目标问题;对目标问题进行分析,确定目标问题所属的目标类目;根据目标问题以及与目标类目对应的预设关键词集合,确定目标问题中的至少一个关键词;根据目标问题、至少一个关键词以及预设的知识库中目标类目下的至少一个标准问题、各标准问题对应的关键词,确定与目标问题相似的目标标准问题;将目标标准问题的答案输出。
根据第二方面,提供了一种自动问答装置,包括:问题获取单元,被配置成获取目标问题;类目确定单元,被配置成对目标问题进行分析,确定目标问题所属的目标类目;关键词确定单元,被配置成根据目标问题以及与目标类目对应的预设关键词集合,确定目标问题中的至少一个关键词;问题确定单元,被配置成根据目标问题、至少一个关键词以及预设的知识库中目标类目下的至少一个标准问题、各标准问题对应的关键词,确定与目标问题相似的目标标准问题;答案输出单元,被配置成将目标标准问题的答案输出。
根据第三方面,提供了一种自动问答电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面所描述的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,上述计算机指令用于使计算机执行如第一方面所描述的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被计算单元执行时实现如第一方面所描述的方法。
根据本申请的技术充分利用了知识库中的知识,确定出目标问题所属的类目,提高了目标问题的识别速度,并能够基于类目准确提取关键词,从而提高问题匹配的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请的一个实施例可以应用于其中的示例性***架构图;
图2是根据本申请的自动问答方法的一个实施例的流程图;
图3是根据本申请的自动问答方法的一个应用场景的示意图;
图4是根据本申请的自动问答方法的另一个实施例的流程图;
图5是根据本申请的自动问答装置的一个实施例的结构示意图;
图6是用来实现本申请实施例的自动问答方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的自动问答方法或自动问答装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如语音识别类应用、自动问答类应用、购物类应用、社交平台类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103发送的问题予以答复的后台服务器。后台服务器可以利用外部知识库,查找与问题相似的问题的答案,并将答案反馈给终端设备101、102、103。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的自动问答方法可以由终端设备101、102、103执行,也可以由服务器105执行。相应地,自动问答装置可以设置于终端设备101、102、103中,也可以设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的自动问答方法的一个实施例的流程200。本实施例的自动问答方法,包括以下步骤:
步骤201,获取目标问题。
本实施例中,自动问答方法的执行主体(例如图1中所示的终端设备101、102、103或服务器105)可以通过各种方式获取目标问题。例如,可以通过语音识别的方式获取目标问题、通过接收请求的方式获取目标问题。上述目标问题可以是用户通过即时通讯类应用提出的一个问题,也可以是对话过程中某个说话者提出的问题。
步骤202,对目标问题进行分析,确定目标问题所属的目标类目。
执行主体在获取目标问题后,可以对目标问题进行分析,确定目标问题所属的目标类目。这里,上述分析可以包括但不限于:提取目标问题的特征、对目标问题进行依存句法分析等。目标类目可以表示目标问题对应的分类。类目可以包括例如个人贷款、个人理财等等。执行主体可以根据分析结果确定目标问题所属的目标类目。例如将目标问题的特征输入预先训练的分类器,来确定目标问题所属的目标类目。
步骤203,根据目标问题以及与目标类目对应的预设关键词集合,确定目标问题中的至少一个关键词。
在确定出目标问题所属的目标类目后,执行主体还可以确定目标问题中的至少一个关键词。具体的,执行主体可以首先确定出与目标类目对应的预设关键词集合,将上述预设关键词集合与目标问题进行对比,从而确定出目标问题中的至少一个关键词。
步骤204,根据目标问题、至少一个关键词以及预设的知识库中目标类目下的至少一个标准问题、各标准问题对应的关键词,确定与目标问题相似的目标标准问题。
本实施例中,执行主体可以连接或获取预设的知识库。该知识库中存储有各类目下的至少一个标准问题-答案对,知识库中还存储有每个标准问题对应的关键词。这里,目标类目可以包括至少一个标准问题。标准问题可以为类目下最常问到的问题。例如,对于个人贷款业务这个类目来说,最常问到的问题可以包括但不限于:“怎么办理贷款”“需要什么材料”等等。可以理解的是,标准问题可以根据实际应用场景进行设定。各标准问题还可以对应有至少一个关键词。上述关键词可以通过各种方式得到。举例来说,对于标准问题“怎么办理贷款”来说,其关键词可以包括“办理”“贷款”。
执行主体可以根据目标问题、至少一个关键词以及知识库中目标类目下的至少一个标准问题、各标准问题对应的关键词,确定与目标问题相似的目标标准问题。具体的,执行主体可以分别计算目标问题与各标准问题之间的相似度、目标问题的关键词与各标准问题的关键词之间的相似度。然后,根据各相似度确定出与目标问题相似的目标标准问题。例如,可以将各相似度相加,得到相似度之和。这样,每个标准问题都对应一个相似度之和,将最大值对应的标准问题作为与目标问题相似的目标标准问题。
步骤205,将目标标准问题的答案输出。
在确定与目标问题相似的目标标准问题后,可以将目标标准问题的答案输出。
参见图3,其示出了根据本申请的自动问答方法的一个应用场景的示意图。在图3的应用场景中,用户在商场的入口处询问机器人“电影院在几楼”,机器人对上述问题进行分析后,确定出上述问题属于“地图”类目。然后查询本地知识库中“地图”类目下的各标准问题,确定与上述问题相似的标准问题为“在哪可以看电影”,并输出答案“您可以到八楼的XX电影院观看电影”。
本申请的上述实施例提供的自动问答方法,充分利用了知识库中的知识,确定出目标问题所属的类目,提高了目标问题的识别速度,并能够基于类目准确提取关键词,从而提高问题匹配的准确率。
继续参见图4,其示出了根据本申请的自动问答方法的另一个实施例的流程400。如图4所示,本实施例的自动问答方法可以包括以下步骤:
步骤401,获取目标问题。
步骤402,利用预先训练的类目确定模型以及目标问题,确定目标问题所属的目标类目。
本实施例中,执行主体可以利用预先训练的类目确定模型来确定目标问题所属的目标类目。类目确定模型用于表征问题与类目的对应关系。具体的,可以将目标问题输入上述类目确定模型中,类目确定模型的输出即为目标类目。
上述类目确定模型可以通过以类目为监督信息的分类模型。其可以对知识库中的所有问题进行标注,标签是该问题所属的类目。然后,将上述问题作为模型的输入,将标签作为模型的期望输出,训练得到上述类目确定模型。
步骤403,根据目标问题以及与目标类目对应的预设关键词集合,确定目标问题中的至少一个关键词。
本实施例中,执行主体可以根据目标问题以及与目标类目对应的预设关键词集合,确定目标问题中的至少一个关键词。
在本实施例的一些可选的实现方式中,关键词集合通过图4中未示出的以下步骤确定:从知识库中确定与目标类目对应的问题集合;对于每个问题子集合,对该问题子集合中的问题进行分词,确定每个问题包括的词语,得到词语子集合;根据各词语子集合中词语的出现频次,确定关键词集合。
本实现方式中,执行主体可以首先从知识库中确定与目标类目对应的问题集合。问题集合可以包括多个问题子集合。每个问题子集合包括标准问题和与标准问题语义相同的相似问题。这里,相似问题可以由标准问题泛化得到。具体的,执行主体可以通过标准问题中的关键词的同义词、近义词、表述方式以及句法相似度确定相似问题。例如,将标准问题中关键词替换为近义词得到相似问题。
对于每个问题子集合,执行主体可以对该问题子集合中的问题进行分词,确定每个问题包括的词语,得到词语子集合。在一些具体的应用中,在对问题进行分词之前,还可以对问题进行处理(例如去停用词等)。
执行主体可以根据各词语子集合中词语的出现频次,确定关键词集合。例如,可以将各词语子集合中出现频次最高的词语作为关键词,得到关键词集合。
在本实施例的一些可选的实现方式中,上述问题集合还包括标准问题子集合,即目标类目下所有标准问题组成的集合。执行主体可以通过图4中未示出的以下步骤来确定关键词集合:确定词语子集合中的各词语在问题子集合中的第一出现频次以及在标准问题子集合中的第二出现频次;对词语集合中的词语,按照第一出现频次对各词语进行降序排序;对于每个词语,根据该词语的第一出现频次、第二出现频次以及标准问题子集合,确定该词语的重要值;根据各重要值以及排序,确定关键词集合。
本实现方式中,执行主体可以对词语子集合中各词语在问题子集合中的出现频次进行统计,这样可以得到各词语在问题子集合组成的词语集合中的第一出现频次以及在标准问题子集合中的第二出现频次。
然后,执行主体可以按照上述第一出现频次对各词语进行降序排序。排在首位的是出现频次最高的词语。
然后,根据各词语的第一出现频次、第二出现频次以及标准问题子集合,确定该词语的重要值。具体的,执行主体可以首先确定出标准问题子集合中标准问题的数量K。然后,确定该词语在问题子集合中的第一出现频次m以及在标准问题子集合中的第二出现频次n。根据以下公式计算重要值:
其中,p为重要值,ε为预设值,其作用为防止分母为0造成计算错误。其值可以为10-3或10-4。
在计算得到各词语的重要值后,可以选取出排序中前L个词语作为关键词,得到关键词集合。
本实现方式中,通过为每个类目设置关键词集合,可以有效地增强关键词的捕获能力。
本实施例中,在确定出目标问题的关键词后,执行主体可以根据预先训练的相似度确定模型、目标问题、至少一个关键词以及预设的知识库中目标类目下的至少一个标准问题、各标准问题对应的关键词,确定与目标问题相似的目标标准问题。
这里,相似度确定模型用于计算两个问题、问题对应的关键词之间的相似度。具体的,执行主体可以将目标问题、至少一个关键词以及预设的知识库中目标类目下的至少一个标准问题、各标准问题对应的关键词均输入上述相似度确定模型中,得到目标问题与各标准问题的相似度,然后确定出于目标问题相似的目标标准问题。
在本实施例的一些可选的实现方式中,执行主体可以根据步骤404~407来确定出与目标问题相似的目标标准问题。
步骤404,根据目标问题、至少一个关键词,确定目标问题向量。
本实现方式中,执行主体可以首先根据目标问题、至少一个关键词,确定目标问题向量。上述目标问题向量的形式可以为(目标问题,关键词1,关键词2……)。
步骤405,根据各标准问题以及各标准问题对应的关键词,确定各标准问题向量。
同样的,执行主体还可以根据各标准问题以及各标准问题对应的关键词,确定各标准问题向量。标准问题向量的形式可以包括(标准问题1,关键词11,关键词12……)、(标准问题2,关键词21,关键词22……)……(标准问题K,关键词K1,关键词K2……)。
步骤406,根据相似度确定模型、目标问题向量以及各标准问题向量,确定目标问题向量与各标准问题向量之间的相似度。
执行主体可以分别将目标问题向量以及各标准问题向量输入相似度确定模型,从而计算出目标问题向量与各标准问题向量之间的相似度。
这里,相似度确定模型可以通过有监督的训练得到。具体的,可以首先获取训练样本集合,上述训练样本包括两个向量以及两个向量是否相似的标签。两个向量分别为(问题一,问题一对应的关键词)、(问题二,问题二对应的关键词)。如果问题一与问题二相似,则两个向量对应的标签为“相似”。如果问题一与问题二不相似,则两个向量对应的标签为“不相似”。
步骤407,将相似度最大值对应的标准问题作为与目标问题相似的目标标准问题。
执行主体可以将相似度最大值对应的标准问题作为与目标问题相似的目标标准问题。
步骤408,将目标标准问题的答案输出。
在本实施例的一些可选的实现方式中,上述相似度确定模型可以通过图4中未示出的以下步骤得到:获取通用相似度确定模型;获取与目标类目对应的专用训练数据;利用专用训练数据对通用相似度确定模型进行训练,得到相似度确定模型。
本实现方式中,执行主体可以首先获取通用相似度确定模型。上述通用相似度确定模型可以是基于利用海量训练样本训练得到的模型。上述海量训练样本涉及到各个类目,即包括类目一的训练样本集合、类目二的训练样本集合……类目N的训练样本集合。通用相似度确定模型可以应用于任意类目对应的应用场景,但由于训练样本并不对应某一具体类目,所以在任意类目的效果都不理想。
然后,执行主体可以获取专用训练数据,这里专用训练数据包括与目标类目对应的训练样本集合。执行主体可以利用这些专用训练数据对通用相似度确定模型进行训练,得到本实施例中所应用的相似度确定模型。
需要说明的是,本实施例中,关键词集合的确定以及相似度确定模型的训练这些步骤可以由执行主体来实现,也可以由其它电子设备来实现。如果由其它电子设备来实现,则其它电子设备可以将确定的关键词集合和相似度确定模型发送给执行主体,以供使用。
本申请的上述实施例提供的自动问答方法,可以通过确定目标问题的类目,快速定位并缩小目标问题的范围,提高了识别速度;同时充分利用了知识库中的知识。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种自动问答装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的输出信息装置500包括:问题获取单元501、类目确定单元502、关键词确定单元503、问题确定单元504和答案输出单元505。
问题获取单元501,被配置成获取目标问题。
类目确定单元502,被配置成对目标问题进行分析,确定目标问题所属的目标类目。
关键词确定单元503,被配置成根据目标问题以及与目标类目对应的预设关键词集合,确定目标问题中的至少一个关键词。
问题确定单元504,被配置成根据目标问题、至少一个关键词以及预设的知识库中目标类目下的至少一个标准问题、各标准问题对应的关键词,确定与目标问题相似的目标标准问题。
答案输出单元505,被配置成将目标标准问题的答案输出。
在本实施例的一些可选的实现方式中,类目确定单元502可以进一步被配置成:利用预先训练的类目确定模型以及目标问题,确定目标问题所属的目标类目。其中,类目确定模型用于表征问题与类目的对应关系。
在本实施例的一些可选的实现方式中,问题确定单元504可以进一步被配置成:根据预先训练的相似度确定模型、目标问题、至少一个关键词以及预设的知识库中目标类目下的至少一个标准问题、各标准问题对应的关键词,确定与目标问题相似的目标标准问题。
在本实施例的一些可选的实现方式中,问题确定单元504可以进一步被配置成:根据目标问题、至少一个关键词,确定目标问题向量;根据各标准问题以及各标准问题对应的关键词,确定各标准问题向量;根据相似度确定模型、目标问题向量以及各标准问题向量,确定目标问题向量与各标准问题向量之间的相似度;将相似度最大值对应的标准问题作为与目标问题相似的目标标准问题。
在本实施例的一些可选的实现方式中,装置500还可以进一步包括图5中未示出的关键词集合确定单元,被配置成:从知识库中确定与目标类目对应的问题集合,其中,问题集合包括多个问题子集合,问题子集合包括标准问题和与标准问题语义相同的相似问题;对于每个问题子集合,对该问题子集合中的问题进行分词,确定每个问题包括的词语,得到词语子集合;根据各词语子集合中词语的出现频次,确定关键词集合。
在本实施例的一些可选的实现方式中,问题集合还包括标准问题子集合。关键词集合确定单元可以进一步被配置成:确定词语子集合中的各词语在问题子集合中的第一出现频次以及在标准问题子集合中的第二出现频次;按照第一出现频次对各词语进行降序排序;对于每个词语,根据该词语的第一出现频次、第二出现频次以及标准问题子集合,确定该词语的重要值;根据各重要值以及排序,确定关键词集合。
在本实施例的一些可选的实现方式中,装置500还可以进一步包括图5中未示出的模型确定单元,被配置成:获取通用相似度确定模型;获取与目标类目对应的专用训练数据;利用专用训练数据对通用相似度确定模型进行训练,得到相似度确定模型。
应当理解,自动问答装置500中记载的单元501至单元505分别与参考图2中描述的方法中的各个步骤相对应。由此,上文针对自动问答方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的执行自动问答方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的执行自动问答方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的执行自动问答方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的执行自动问答方法对应的程序指令/模块(例如,附图5所示的问题获取单元501、类目确定单元502、关键词确定单元503、问题确定单元504和答案输出单元505)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的执行自动问答方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据执行自动问答电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至执行自动问答电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
执行自动问答方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与执行自动问答电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。上述计算机程序产品在被处理器执行时可以实现上述方法实施例对应的流程。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,充分利用了知识库中的知识,确定出目标问题所属的类目,提高了目标问题的识别速度,并能够基于类目准确提取关键词,从而提高问题匹配的准确率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (12)
1.一种自动问答方法,包括:
获取目标问题;
对所述目标问题进行分析,确定所述目标问题所属的目标类目;
根据所述目标问题以及与所述目标类目对应的预设关键词集合,确定所述目标问题中的至少一个关键词;
根据所述目标问题、所述至少一个关键词以及预设的知识库中所述目标类目下的至少一个标准问题、各所述标准问题对应的关键词,确定与所述目标问题相似的目标标准问题;
将所述目标标准问题的答案输出,
所述预设关键词集合通过以下步骤确定:
从所述知识库中确定与所述目标类目对应的问题集合,其中,所述问题集合包括多个问题子集合,问题子集合包括标准问题和与标准问题语义相同的相似问题;
对于每个问题子集合,对该问题子集合中的问题进行分词,确定每个问题包括的词语,得到词语子集合;
根据各所述词语子集合中词语的出现频次,确定所述关键词集合,
所述问题集合还包括标准问题子集合,所述标准问题子集合是目标类目下所有标准问题组成的集合;以及
所述根据各所述词语子集合中词语的出现频次,确定所述关键词集合,包括:
确定所述词语子集合中的各词语在所述问题子集合中的第一出现频次以及在所述标准问题子集合中的第二出现频次;
按照所述第一出现频次对各词语进行降序排序;
对于每个词语,根据该词语的第一出现频次、第二出现频次以及所述标准问题子集合,确定该词语的重要值;
根据各所述重要值以及所述排序,确定关键词集合。
2.根据权利要求1所述的方法,其中,所述对所述目标问题进行分析,确定所述目标问题所属的目标类目,包括:
利用预先训练的类目确定模型以及所述目标问题,确定所述目标问题所属的目标类目,其中,所述类目确定模型用于表征问题与类目的对应关系。
3.根据权利要求1所述的方法,其中,所述根据所述目标问题、所述至少一个关键词以及预设的知识库中所述目标类目下的至少一个标准问题、各所述标准问题对应的关键词,确定与所述目标问题相似的目标标准问题,包括:
根据预先训练的相似度确定模型、所述目标问题、所述至少一个关键词以及预设的知识库中所述目标类目下的至少一个标准问题、各所述标准问题对应的关键词,确定与所述目标问题相似的目标标准问题。
4.根据权利要求3所述的方法,其中,所述根据预先训练的相似度确定模型、所述目标问题、所述至少一个关键词以及预设的知识库中所述目标类目下的至少一个标准问题、各所述标准问题对应的关键词,确定与所述目标问题相似的目标标准问题,包括:
根据所述目标问题、所述至少一个关键词,确定目标问题向量;
根据各所述标准问题以及各所述标准问题对应的关键词,确定各标准问题向量;
根据所述相似度确定模型、所述目标问题向量以及各所述标准问题向量,确定所述目标问题向量与各所述标准问题向量之间的相似度;
将相似度最大值对应的标准问题作为与所述目标问题相似的目标标准问题。
5.根据权利要求1所述的方法,其中,所述相似度确定模型通过以下步骤得到:
获取通用相似度确定模型;
获取与所述目标类目对应的专用训练数据;
利用所述专用训练数据对所述通用相似度确定模型进行训练,得到所述相似度确定模型。
6.一种自动问答装置,包括:
问题获取单元,被配置成获取目标问题;
类目确定单元,被配置成对所述目标问题进行分析,确定所述目标问题所属的目标类目;
关键词确定单元,被配置成根据所述目标问题以及与所述目标类目对应的预设关键词集合,确定所述目标问题中的至少一个关键词;
问题确定单元,被配置成根据所述目标问题、所述至少一个关键词以及预设的知识库中所述目标类目下的至少一个标准问题、各所述标准问题对应的关键词,确定与所述目标问题相似的目标标准问题;
答案输出单元,被配置成将所述目标标准问题的答案输出,
所述装置还包括关键词集合确定单元,被配置成:
从所述知识库中确定与所述目标类目对应的问题集合,其中,所述问题集合包括多个问题子集合,问题子集合包括标准问题和与标准问题语义相同的相似问题;
对于每个问题子集合,对该问题子集合中的问题进行分词,确定每个问题包括的词语,得到词语子集合;
根据各所述词语子集合中词语的出现频次,确定所述关键词集合,
所述问题集合还包括标准问题子集合,所述标准问题子集合是目标类目下所有标准问题组成的集合;以及
所述关键词集合确定单元进一步被配置成:
确定所述词语子集合中的各词语在所述问题子集合中的第一出现频次以及在所述标准问题子集合中的第二出现频次;
按照所述第一出现频次对各词语进行降序排序;
对于每个词语,根据该词语的第一出现频次、第二出现频次以及所述标准问题子集合,确定该词语的重要值;
根据各所述重要值以及所述排序,确定关键词集合。
7.根据权利要求6所述的装置,其中,所述类目确定单元进一步被配置成:
利用预先训练的类目确定模型以及所述目标问题,确定所述目标问题所属的目标类目,其中,所述类目确定模型用于表征问题与类目的对应关系。
8.根据权利要求6所述的装置,其中,所述问题确定单元进一步被配置成:
根据预先训练的相似度确定模型、所述目标问题、所述至少一个关键词以及预设的知识库中所述目标类目下的至少一个标准问题、各所述标准问题对应的关键词,确定与所述目标问题相似的目标标准问题。
9.根据权利要求6所述的装置,其中,所述问题确定单元进一步被配置成:
根据所述目标问题、所述至少一个关键词,确定目标问题向量;
根据各所述标准问题以及各所述标准问题对应的关键词,确定各标准问题向量;
根据所述相似度确定模型、所述目标问题向量以及各所述标准问题向量,确定所述目标问题向量与各所述标准问题向量之间的相似度;
将相似度最大值对应的标准问题作为与所述目标问题相似的目标标准问题。
10.根据权利要求6所述的装置,其中,所述装置还包括模型确定单元,被配置成:
获取通用相似度确定模型;
获取与所述目标类目对应的专用训练数据;
利用所述专用训练数据对所述通用相似度确定模型进行训练,得到所述相似度确定模型。
11.一种自动问答电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010613855.7A CN111782785B (zh) | 2020-06-30 | 2020-06-30 | 自动问答方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010613855.7A CN111782785B (zh) | 2020-06-30 | 2020-06-30 | 自动问答方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782785A CN111782785A (zh) | 2020-10-16 |
CN111782785B true CN111782785B (zh) | 2024-04-19 |
Family
ID=72761277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010613855.7A Active CN111782785B (zh) | 2020-06-30 | 2020-06-30 | 自动问答方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782785B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487165A (zh) * | 2020-12-02 | 2021-03-12 | 税友软件集团股份有限公司 | 一种基于关键词的问答方法、装置及介质 |
CN113111159A (zh) * | 2021-04-21 | 2021-07-13 | 康键信息技术(深圳)有限公司 | 问答记录生成方法、装置、电子设备及存储介质 |
CN113468176B (zh) * | 2021-06-30 | 2023-09-26 | 北京百度网讯科技有限公司 | 信息录入方法和装置、电子设备、计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425640A (zh) * | 2012-05-14 | 2013-12-04 | 华为技术有限公司 | 一种多媒体问答***及方法 |
CN104598445A (zh) * | 2013-11-01 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 自动问答***和方法 |
WO2016027714A1 (ja) * | 2014-08-21 | 2016-02-25 | 国立研究開発法人情報通信研究機構 | 質問文生成装置及びコンピュータプログラム |
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN108491433A (zh) * | 2018-02-09 | 2018-09-04 | 平安科技(深圳)有限公司 | 聊天应答方法、电子装置及存储介质 |
CN108536708A (zh) * | 2017-03-03 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答*** |
WO2019052261A1 (zh) * | 2017-09-18 | 2019-03-21 | 京东方科技集团股份有限公司 | 用于问答服务的方法、问答服务***以及存储介质 |
WO2019174428A1 (zh) * | 2018-03-15 | 2019-09-19 | 腾讯科技(深圳)有限公司 | 答复信息的获取方法及装置 |
CN110647614A (zh) * | 2019-08-01 | 2020-01-03 | 平安科技(深圳)有限公司 | 智能问答方法、装置、介质及电子设备 |
CN110941708A (zh) * | 2019-11-04 | 2020-03-31 | 智器云南京信息科技有限公司 | 智能问答库建立方法、智能问答方法及装置、计算机设备 |
CN111159363A (zh) * | 2018-11-06 | 2020-05-15 | 航天信息股份有限公司 | 一种基于知识库的问题答案确定方法及装置 |
-
2020
- 2020-06-30 CN CN202010613855.7A patent/CN111782785B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425640A (zh) * | 2012-05-14 | 2013-12-04 | 华为技术有限公司 | 一种多媒体问答***及方法 |
CN104598445A (zh) * | 2013-11-01 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 自动问答***和方法 |
WO2015062482A1 (en) * | 2013-11-01 | 2015-05-07 | Tencent Technology (Shenzhen) Company Limited | System and method for automatic question answering |
WO2016027714A1 (ja) * | 2014-08-21 | 2016-02-25 | 国立研究開発法人情報通信研究機構 | 質問文生成装置及びコンピュータプログラム |
CN108536708A (zh) * | 2017-03-03 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种自动问答处理方法及自动问答*** |
WO2019052261A1 (zh) * | 2017-09-18 | 2019-03-21 | 京东方科技集团股份有限公司 | 用于问答服务的方法、问答服务***以及存储介质 |
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN108491433A (zh) * | 2018-02-09 | 2018-09-04 | 平安科技(深圳)有限公司 | 聊天应答方法、电子装置及存储介质 |
WO2019174428A1 (zh) * | 2018-03-15 | 2019-09-19 | 腾讯科技(深圳)有限公司 | 答复信息的获取方法及装置 |
CN111159363A (zh) * | 2018-11-06 | 2020-05-15 | 航天信息股份有限公司 | 一种基于知识库的问题答案确定方法及装置 |
CN110647614A (zh) * | 2019-08-01 | 2020-01-03 | 平安科技(深圳)有限公司 | 智能问答方法、装置、介质及电子设备 |
CN110941708A (zh) * | 2019-11-04 | 2020-03-31 | 智器云南京信息科技有限公司 | 智能问答库建立方法、智能问答方法及装置、计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111782785A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560912B (zh) | 分类模型的训练方法、装置、电子设备和存储介质 | |
EP3923160A1 (en) | Method, apparatus, device and storage medium for training model | |
CN111221984A (zh) | 多模态内容处理方法、装置、设备及存储介质 | |
CN110674314B (zh) | 语句识别方法及装置 | |
CN111782785B (zh) | 自动问答方法、装置、设备以及存储介质 | |
CN111104514A (zh) | 文档标签模型的训练方法及装置 | |
CN112330455B (zh) | 用于推送信息的方法、装置、设备以及存储介质 | |
CN111522944B (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN110674260B (zh) | 语义相似模型的训练方法、装置、电子设备和存储介质 | |
CN111078878B (zh) | 文本处理方法、装置、设备及计算机可读存储介质 | |
CN111428514A (zh) | 语义匹配方法、装置、设备以及存储介质 | |
CN111611990B (zh) | 用于识别图像中表格的方法和装置 | |
CN112084366A (zh) | 用于检索图像的方法、装置、设备以及存储介质 | |
CN111783427B (zh) | 用于训练模型与输出信息的方法、装置、设备及存储介质 | |
CN112507090A (zh) | 用于输出信息的方法、装置、设备和存储介质 | |
CN110059172B (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
CN116204672A (zh) | 图像识别、模型训练方法、装置、设备及存储介质 | |
CN110991183A (zh) | 问题的谓词确定方法、装置、设备及存储介质 | |
CN113157829A (zh) | 一种兴趣点名称比对方法、装置、电子设备和存储介质 | |
CN112328896B (zh) | 用于输出信息的方法、装置、电子设备和介质 | |
CN111523019B (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN112784102A (zh) | 视频检索方法、装置和电子设备 | |
CN112669855A (zh) | 语音处理方法和装置 | |
CN112529181A (zh) | 用于模型蒸馏的方法和装置 | |
CN112561059A (zh) | 用于模型蒸馏的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |