CN111737437B - 问答知识的提取方法、提取装置与计算机可读存储介质 - Google Patents
问答知识的提取方法、提取装置与计算机可读存储介质 Download PDFInfo
- Publication number
- CN111737437B CN111737437B CN202010615397.0A CN202010615397A CN111737437B CN 111737437 B CN111737437 B CN 111737437B CN 202010615397 A CN202010615397 A CN 202010615397A CN 111737437 B CN111737437 B CN 111737437B
- Authority
- CN
- China
- Prior art keywords
- paragraph
- question
- vocabulary
- determining
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种问答知识的提取方法、提取装置与计算机可读存储介质,该提取方法包括:确定预定词表,预定词表为与用户预咨询的业务相关的词表;获取业务文档;根据预定词表,从业务文档中获取与预定词表相关联的段落,段落包括一个或多个语句;从段落中提取出问答对,问答对由与预定词表相关联的问题和问题对应的答案组成,本方案通过先确定与预定词表相关联的段落的方式,有效缩小了问答知识的提取范围,达到了精确提取问答对的目的,避免提取出范围较大且业务关联性不强的问答知识,实现了从大量的业务文档快速提取问答对。
Description
技术领域
本申请涉及人工智能领域,具体而言,涉及一种问答知识的提取方法、提取装置、计算机可读存储介质和处理器。
背景技术
目前提取标准问答知识的技术,是从整个文档中将所有的问答知识提取出来,从大篇的业务文档中提取出的大量问答知识,往往是业务范围较大且关联性不强的知识。用户只能在最终提取出的大量问答知识中一条条筛选,并不能有效的减少知识加工的工作量。
当面对大篇幅的文档,用户想针对性的提取某个业务或与某个业务相关联的知识时往往无法满足。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种问答知识的提取方法、提取装置、计算机可读存储介质和处理器,以解决现有技术中的问答知识的提取方法的提取效率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种问答知识的提取方法,包括:确定预定词表,所述预定词表为与用户预咨询的业务相关的词表;获取业务文档;根据所述预定词表,从所述业务文档中获取与所述预定词表相关联的段落,所述段落包括一个或多个语句;从所述段落中提取出问答对,所述问答对由与所述预定词表相关联的问题和所述问题对应的答案组成。
进一步地,根据所述预定词表,从所述业务文档中获取与所述预定词表相关联的段落,包括:确定所述预定词表所在的段落为第一段落;确定所述第一段落为与所述预定词表相关联的所述段落。
进一步地,根据所述预定词表,从所述业务文档中获取与所述预定词表相关联的段落,包括:确定与所述预定词表相关联的关联词表;确定所述预定词表所在的段落为第一段落;确定所述关联词表所在的段落为第二段落;确定所述第一段落和所述第二段落为与所述预定词表相关联的所述段落。
进一步地,从所述段落中提取出问答对,包括:确定所述预定词表与所述第一段落的第一匹配度;根据所述第一匹配度,从所述第一段落中提取出所述问答对。
进一步地,根据所述第一匹配度,从所述段落中提取出所述问答对,包括:在所述第一匹配度大于第一预定值的情况下,从对应的所述第一段落中提取出所述问答对。
进一步地,从所述段落中提取出问答对,包括:确定预定词组与所述第一段落的第二匹配度,所述预定词组包括所述预定词表和所述关联词表;确定所述预定词组与所述第二段落的第三匹配度;根据所述第二匹配度,从所述第一段落中提取出所述问答对;根据所述第三匹配度,从所述第二段落中提取出所述问答对。
进一步地,根据所述第二匹配度,从所述第一段落中提取出所述问答对,包括:在所述第二匹配度大于第二预定值的情况下,从对应的所述第一段落中提取出所述问答对;根据所述第三匹配度,从所述第二段落中提取出所述问答对,包括:在所述第三匹配度大于第三预定值的情况下,从对应的所述第二段落中提取出所述问答对。
根据本申请的另一方面,提供了一种问答知识的提取装置,包括:确定单元,用于确定预定词表,所述预定词表为与用户预咨询的业务相关的词表;第一获取单元,用于获取业务文档;第二获取单元,用于根据所述预定词表,从所述业务文档中获取与所述预定词表相关联的段落,所述段落包括一个或多个语句;提取单元,用于从所述段落中提取出问答对,所述问答对由与所述预定词表相关联的问题和所述问题对应的答案组成。
根据本申请的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行任意一种所述问答知识的提取方法。
根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任意一种所述问答知识的提取方法。
应用本申请的技术方案,通过确定与用户预咨询的业务相关的预定词表,以及获取业务文档,然后根据所确定的预定词表从业务文档中获取与预定词表相关联的段落,再从获取的段落中提取出问答对,通过先确定与预定词表相关联的段落的方式,有效缩小了问答知识的提取范围,达到了精确提取问答对的目的,避免提取出范围较大且业务关联性不强的问答知识,实现了从大量的业务文档快速提取问答对。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请实施例的问答知识的提取方法流程图;以及
图2示出了根据本申请实施例的问答知识的提取装置示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。
正如背景技术中所介绍的,现有技术中的问答知识的提取方法的提取效率较低,为解决如上问答知识的提取方法的提取效率较低的问题,本申请的实施例提供了一种问答知识的提取方法、提取装置、计算机可读存储介质和处理器。
根据本申请的实施例,提供了一种问答知识的提取方法。
图1是根据本申请实施例的问答知识的提取方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,确定预定词表,上述预定词表为与用户预咨询的业务相关的词表;
步骤S102,获取业务文档;
步骤S103,根据上述预定词表,从上述业务文档中获取与上述预定词表相关联的段落,上述段落包括一个或多个语句;
步骤S104,从上述段落中提取出问答对,上述问答对由与上述预定词表相关联的问题和上述问题对应的答案组成。
上述方案中,通过确定与用户预咨询的业务相关的预定词表,以及获取业务文档,然后根据所确定的预定词表从业务文档中获取与预定词表相关联的段落,再从获取的段落中提取出问答对,通过先确定与预定词表相关联的段落的方式,有效缩小了问答知识的提取范围,达到了精确提取问答对的目的,避免提取出范围较大且业务关联性不强的问答知识,实现了从大量的业务文档快速提取问答对。
具体地,上述业务文档中包括大量的问答知识,以及各种问答知识对应的问题和答案,例如,关于运动、美食、健康、科技和历史人文等方面的问答知识。
具体地,上述预定词表包括各种词表,例如,用户想要咨询体育方面的问答知识,就可以将预定词表设置为运动、体育等,用户想要咨询科技方面的问答知识,就可以将预定词表设置为人工智能、机器人等,用户可以根据想要咨询的业务的类型,选择合适的预定词表,当然,预定词表可以有一个或者多个,都可以根据实际的需求进行设置,在确定预定词表为“银行卡”的情况下,提取到的问答知识中“银行卡”的权重会明显增加,有助于从大量的业务文档快速提取问答对。
具体地,从段落中提取出问答对包括各种问答对,例如,用户想要咨询体育方面的问答知识,且确定的预定词表为运动,则提取到的问答对中的问题可以为“最受青少年欢迎的运动是什么”,对应的答案可以为“最受青少年欢迎的运动是篮球”,等等,只要业务文档中的内容足够丰富,就可以获取最想获取的问答知识。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请的又一种实施例,根据上述预定词表,从上述业务文档中获取与上述预定词表相关联的段落,包括:确定上述预定词表所在的段落为第一段落;确定上述第一段落为与上述预定词表相关联的上述段落,具体地,确定与上述预定词表相关联的段落可以将预定词表所在的第一段落确定为与预定词表相关联的段落,例如,预定词表为“体育”的情况下,确定“体育”所在的段落为与预定词表相关联的段落,实现了对与预定词表相关联的段落的快速确定,进一步地保证了从段落中快速提取出问答对,可很大程度上减少后期人工判断筛选问答知识的工作量。
本申请的另一种实施例,根据上述预定词表,从上述业务文档中获取与上述预定词表相关联的段落,包括:确定与上述预定词表相关联的关联词表;确定上述预定词表所在的段落为第一段落;确定上述关联词表所在的段落为第二段落;确定上述第一段落和上述第二段落为与上述预定词表相关联的上述段落,不仅可以确定预定词表所在的段落为与预定词表相关联的段落,还可以通过确定与预定词表相关联的关联词表,再确定关联词表所在的第二段落为与预定词表相关联的段落,例如,在预定词表为“体育”的情况下,确定与“体育”相关联的关联词表包括“足球”、“篮球”以及“羽毛球”等,在预定词表为“银行卡”的情况下,确定与“银行卡”相关联的关联词表包括“储蓄卡”、“***”和“借记卡”等,通过将预定词表所在的段落和关联词表所在的段落都确定为与预定词表相关联的上述段落,实现了对与预定词表相关联的段落的快速确定,且保证了预定词表相关联的段落的丰富性,进一步地保证了从段落中快速提取出问答对。
本申请的另一种实施例,从上述段落中提取出问答对,包括:确定上述预定词表与上述第一段落的第一匹配度;根据上述第一匹配度,从上述第一段落中提取出上述问答对,确定与预定词表相关联的段落后,想要从相关联的段落中提取出问答对,由于相关联的段落可能包括多个语句,且相关联的段落中的内容并不一定均与预定词表有关,所以还需要将确定的预定词表与相关联的段落进行匹配,例如,将预定词表与相关联的段落中的每一个语句进行匹配,将预定词表与相关联的段落中的每相邻的两个语句进行匹配,等等,得到与预定词表与相关联的段落中的语句的第一匹配度,然后再根据第一匹配度,从上述第一段落中提取出上述问答对。
本申请的再一种实施例,根据上述第一匹配度,从上述段落中提取出上述问答对,包括:在上述第一匹配度大于第一预定值的情况下,从对应的上述第一段落中提取出上述问答对,在用第一预定值量化第一匹配度的情况下,例如,在第一匹配度大于60%的情况下,确定从该第一段落中提取出上述问答对,当然,在将预定词表与第一段落中的每一个语句进行匹配的情况下,可以从第一匹配度大于70%的语句中提取出问答对,当然,第一预定值的大小可以根据实际情况灵活设置,以实现对问答对的精准且快速地提取。
本申请的另一种实施例,从上述段落中提取出问答对,包括:确定预定词组与上述第一段落的第二匹配度,上述预定词组包括上述预定词表和上述关联词表;确定上述预定词组与上述第二段落的第三匹配度;根据上述第二匹配度,从上述第一段落中提取出上述问答对;根据上述第三匹配度,从上述第二段落中提取出上述问答对,即不仅可以将预定词表与上述第一段落进行匹配,还可以将包括预定词表和关联词表的预定词组与第一段落进行匹配,例如,预定词表为“体育”,关联词表为“篮球”、“足球”以及“羽毛球”,则将“体育+篮球+足球+羽毛球”设置为预定词组,然后将预定词组与第一段落进行匹配,得到第二匹配度,将预定词组与第二段落进行匹配,得到第三匹配度,然后根据第二匹配度和第三匹配度分别从第一段落和第二段落中提取出问答对,由于预定词组既包括了预定词表还包括了关联词表,进一步地保证了所提取的问答对的准确性。
本申请的再一种实施例,根据上述第二匹配度,从上述第一段落中提取出上述问答对,包括:在上述第二匹配度大于第二预定值的情况下,从对应的上述第一段落中提取出上述问答对;在用第二预定值量化第二匹配度的情况下,例如,在第二匹配度大于60%的情况下,确定从该第一段落中提取出上述问答对,当然,在将预定词组与第一段落中的每一个语句进行匹配的情况下,可以从第二匹配度大于70%的语句中提取出问答对,当然,第二预定值的大小可以根据实际情况灵活设置,以实现对问答对的精准且快速地提取;根据上述第三匹配度,从上述第二段落中提取出上述问答对,包括:在上述第三匹配度大于第三预定值的情况下,从对应的上述第二段落中提取出上述问答对,在用第三预定值量化第三匹配度的情况下,例如,在第三匹配度大于60%的情况下,确定从该第二段落中提取出上述问答对,当然,在将预定词组与第二段落中的每一个语句进行匹配的情况下,可以从第三匹配度大于70%的语句中提取出问答对,当然,第二预定值的大小可以根据实际情况灵活设置,以实现对问答对的精准且快速地提取。
本申请的另一种实施例,从上述段落中提取出问答对之后,上述提取方法还包括:将上述问答对反馈至上述用户,使得用户获得问答知识的提取结果。
本申请实施例还提供了一种问答知识的提取装置,需要说明的是,本申请实施例的问答知识的提取装置可以用于执行本申请实施例所提供的用于问答知识的提取方法。以下对本申请实施例提供的问答知识的提取装置进行介绍。
图2是根据本申请实施例的问答知识的提取装置的示意图。如图2所示,该装置包括:
确定单元10,用于确定预定词表,上述预定词表为与用户预咨询的业务相关的词表;
第一获取单元20,用于获取业务文档;
第二获取单元30,用于根据上述预定词表,从上述业务文档中获取与上述预定词表相关联的段落,上述段落包括一个或多个语句;
提取单元40,用于从上述段落中提取出问答对,上述问答对由与上述预定词表相关联的问题和上述问题对应的答案组成。
上述方案中,确定单元确定与用户预咨询的业务相关的预定词表,第一获取单元获取业务文档,第二获取单元根据所确定的预定词表从业务文档中获取与预定词表相关联的段落,提取单元从获取的段落中提取出问答对,通过先确定与预定词表相关联的段落的方式,有效缩小了问答知识的提取范围,达到了精确提取问答对的目的,避免提取出范围较大且业务关联性不强的问答知识,实现了从大量的业务文档快速提取问答对。
具体地,上述业务文档中包括大量的问答知识,以及各种问答知识对应的问题和答案,例如,关于运动、美食、健康、科技和历史人文等方面的问答知识。
具体地,上述预定词表包括各种词表,例如,用户想要咨询体育方面的问答知识,就可以将预定词表设置为运动、体育等,用户想要咨询科技方面的问答知识,就可以将预定词表设置为人工智能、机器人等,用户可以根据想要咨询的业务的类型,选择合适的预定词表,当然,预定词表可以有一个或者多个,都可以根据实际的需求进行设置,在确定预定词表为“银行卡”的情况下,提取到的问答知识中“银行卡”的权重会明显增加,有助于从大量的业务文档快速提取问答对。
具体地,从段落中提取出问答对包括各种问答对,例如,用户想要咨询体育方面的问答知识,且确定的预定词表为运动,则提取到的问答对中的问题可以为“最受青少年欢迎的运动是什么”,对应的答案可以为“最受青少年欢迎的运动是篮球”,等等,只要业务文档中的内容足够丰富,就可以获取最想获取的问答知识。
本申请的又一种实施例,第二获取单元包括第一确定模块和第二确定模块,第一确定模块用于确定上述预定词表所在的段落为第一段落;第二确定模块用于确定上述第一段落为与上述预定词表相关联的上述段落,具体地,确定与上述预定词表相关联的段落可以将预定词表所在的第一段落确定为与预定词表相关联的段落,例如,预定词表为“体育”的情况下,确定“体育”所在的段落为与预定词表相关联的段落,实现了对与预定词表相关联的段落的快速确定,进一步地保证了从段落中快速提取出问答对,可很大程度上减少后期人工判断筛选问答知识的工作量。
本申请的另一种实施例,第二获取单元还包括第三确定模块、第四确定模块、第五确定模块和第六确定模块,第三确定模块用于确定与上述预定词表相关联的关联词表;第四确定模块用于确定上述预定词表所在的段落为第一段落;第五确定模块用于确定上述关联词表所在的段落为第二段落;第六确定模块用于确定上述第一段落和上述第二段落为与上述预定词表相关联的上述段落,不仅可以确定预定词表所在的段落为与预定词表相关联的段落,还可以通过确定与预定词表相关联的关联词表,再确定关联词表所在的第二段落为与预定词表相关联的段落,例如,在预定词表为“体育”的情况下,确定与“体育”相关联的关联词表包括“足球”、“篮球”以及“羽毛球”等,在预定词表为“银行卡”的情况下,确定与“银行卡”相关联的关联词表包括“储蓄卡”、“***”和“借记卡”等,通过将预定词表所在的段落和关联词表所在的段落都确定为与预定词表相关联的上述段落,实现了对与预定词表相关联的段落的快速确定,且保证了预定词表相关联的段落的丰富性,进一步地保证了从段落中快速提取出问答对。
本申请的另一种实施例,提取单元包括第一匹配模块和第一提取模块,第一匹配模块用于确定上述预定词表与上述第一段落的第一匹配度;第一提取模块用于根据上述第一匹配度,从上述第一段落中提取出上述问答对,确定与预定词表相关联的段落后,想要从相关联的段落中提取出问答对,由于相关联的段落可能包括多个语句,且相关联的段落中的内容并不一定均与预定词表有关,所以还需要将确定的预定词表与相关联的段落进行匹配,例如,将预定词表与相关联的段落中的每一个语句进行匹配,将预定词表与相关联的段落中的每相邻的两个语句进行匹配,等等,得到与预定词表与相关联的段落中的语句的第一匹配度,然后再根据第一匹配度,从上述第一段落中提取出上述问答对。
本申请的再一种实施例,第一提取模块还用于在上述第一匹配度大于第一预定值的情况下,从对应的上述第一段落中提取出上述问答对,在用第一预定值量化第一匹配度的情况下,例如,在第一匹配度大于60%的情况下,确定从该第一段落中提取出上述问答对,当然,在将预定词表与第一段落中的每一个语句进行匹配的情况下,可以从第一匹配度大于70%的语句中提取出问答对,当然,第一预定值的大小可以根据实际情况灵活设置,以实现对问答对的精准且快速地提取。
本申请的另一种实施例,提取单元还包括第二匹配模块、第三匹配模块、第二提取模块和第三提取模块,第二匹配模块用于确定预定词组与上述第一段落的第二匹配度,上述预定词组包括上述预定词表和上述关联词表;第三匹配模块用于确定上述预定词组与上述第二段落的第三匹配度;第二提取模块用于根据上述第二匹配度,从上述第一段落中提取出上述问答对;第三提取模块用于根据上述第三匹配度,从上述第二段落中提取出上述问答对,即不仅可以将预定词表与上述第一段落进行匹配,还可以将包括预定词表和关联词表的预定词组与第一段落进行匹配,例如,预定词表为“体育”,关联词表为“篮球”、“足球”以及“羽毛球”,则将“体育+篮球+足球+羽毛球”设置为预定词组,然后将预定词组与第一段落进行匹配,得到第二匹配度,将预定词组与第二段落进行匹配,得到第三匹配度,然后根据第二匹配度和第三匹配度分别从第一段落和第二段落中提取出问答对,由于预定词组既包括了预定词表还包括了关联词表,进一步地保证了所提取的问答对的准确性。
本申请的再一种实施例,第二提取模块还用于在上述第二匹配度大于第二预定值的情况下,从对应的上述第一段落中提取出上述问答对;在用第二预定值量化第二匹配度的情况下,例如,在第二匹配度大于60%的情况下,确定从该第一段落中提取出上述问答对,当然,在将预定词组与第一段落中的每一个语句进行匹配的情况下,可以从第二匹配度大于70%的语句中提取出问答对,当然,第二预定值的大小可以根据实际情况灵活设置,以实现对问答对的精准且快速地提取;第三提取模块还用于在上述第三匹配度大于第三预定值的情况下,从对应的上述第二段落中提取出上述问答对,在用第三预定值量化第三匹配度的情况下,例如,在第三匹配度大于60%的情况下,确定从该第二段落中提取出上述问答对,当然,在将预定词组与第二段落中的每一个语句进行匹配的情况下,可以从第三匹配度大于70%的语句中提取出问答对,当然,第二预定值的大小可以根据实际情况灵活设置,以实现对问答对的精准且快速地提取。
本申请的另一种实施例,上述提取装置还包括反馈单元,反馈单元用于从上述段落中提取出问答对之后,将上述问答对反馈至上述用户,使得用户获得问答知识的提取结果。
上述问答知识的提取装置包括处理器和存储器,上述确定单元、第一获取单元、第二获取单元和提取单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高提取问答对的效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行上述问答知识的提取方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述问答知识的提取方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:
步骤S101,确定预定词表,上述预定词表为与用户预咨询的业务相关的词表;
步骤S102,获取业务文档;
步骤S103,根据上述预定词表,从上述业务文档中获取与上述预定词表相关联的段落,上述段落包括一个或多个语句;
步骤S104,从上述段落中提取出问答对,上述问答对由与上述预定词表相关联的问题和上述问题对应的答案组成。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:
步骤S101,确定预定词表,上述预定词表为与用户预咨询的业务相关的词表;
步骤S102,获取业务文档;
步骤S103,根据上述预定词表,从上述业务文档中获取与上述预定词表相关联的段落,上述段落包括一个或多个语句;
步骤S104,从上述段落中提取出问答对,上述问答对由与上述预定词表相关联的问题和上述问题对应的答案组成。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的问答知识的提取方法,通过确定与用户预咨询的业务相关的预定词表,以及获取业务文档,然后根据所确定的预定词表从业务文档中获取与预定词表相关联的段落,再从获取的段落中提取出问答对,通过先确定与预定词表相关联的段落的方式,实现了从大量的业务文档快速提取问答对。
2)、本申请的问答知识的提取装置,确定单元确定与用户预咨询的业务相关的预定词表,第一获取单元获取业务文档,第二获取单元根据所确定的预定词表从业务文档中获取与预定词表相关联的段落,提取单元从获取的段落中提取出问答对,通过先确定与预定词表相关联的段落的方式,实现了从大量的业务文档快速提取问答对。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种问答知识的提取方法,其特征在于,包括:
确定预定词表,所述预定词表为与用户预咨询的业务相关的词表;
获取业务文档;
根据所述预定词表,从所述业务文档中获取与所述预定词表相关联的段落,所述段落包括一个或多个语句;
从所述段落中提取出问答对,所述问答对由与所述预定词表相关联的问题和所述问题对应的答案组成,
根据所述预定词表,从所述业务文档中获取与所述预定词表相关联的段落,包括:
确定与所述预定词表相关联的关联词表;
确定所述预定词表所在的段落为第一段落;
确定所述关联词表所在的段落为第二段落;
确定所述第一段落和所述第二段落为与所述预定词表相关联的所述段落,
从所述段落中提取出问答对,包括:
确定预定词组与所述第一段落的第二匹配度,所述预定词组包括所述预定词表和所述关联词表;
确定所述预定词组与所述第二段落的第三匹配度;
根据所述第二匹配度,从所述第一段落中提取出所述问答对;
根据所述第三匹配度,从所述第二段落中提取出所述问答对。
2.根据权利要求1所述的提取方法,其特征在于,根据所述预定词表,从所述业务文档中获取与所述预定词表相关联的段落,包括:
确定所述预定词表所在的段落为第一段落;
确定所述第一段落为与所述预定词表相关联的所述段落。
3.根据权利要求2所述的提取方法,其特征在于,从所述段落中提取出问答对,包括:
确定所述预定词表与所述第一段落的第一匹配度;
根据所述第一匹配度,从所述第一段落中提取出所述问答对。
4.根据权利要求3所述的提取方法,其特征在于,根据所述第一匹配度,从所述段落中提取出所述问答对,包括:
在所述第一匹配度大于第一预定值的情况下,从对应的所述第一段落中提取出所述问答对。
5.根据权利要求1所述的提取方法,其特征在于,
根据所述第二匹配度,从所述第一段落中提取出所述问答对,包括:
在所述第二匹配度大于第二预定值的情况下,从对应的所述第一段落中提取出所述问答对;
根据所述第三匹配度,从所述第二段落中提取出所述问答对,包括:
在所述第三匹配度大于第三预定值的情况下,从对应的所述第二段落中提取出所述问答对。
6.一种问答知识的提取装置,其特征在于,包括:
确定单元,用于确定预定词表,所述预定词表为与用户预咨询的业务相关的词表;
第一获取单元,用于获取业务文档;
第二获取单元,用于根据所述预定词表,从所述业务文档中获取与所述预定词表相关联的段落,所述段落包括一个或多个语句;
提取单元,用于从所述段落中提取出问答对,所述问答对由与所述预定词表相关联的问题和所述问题对应的答案组成,
所述第二获取单元还包括第三确定模块、第四确定模块、第五确定模块和第六确定模块,第三确定模块用于确定与所述预定词表相关联的关联词表;第四确定模块用于确定所述预定词表所在的段落为第一段落;第五确定模块用于确定所述关联词表所在的段落为第二段落;第六确定模块用于确定所述第一段落和所述第二段落为与所述预定词表相关联的所述段落,
提取单元还包括第二匹配模块、第三匹配模块、第二提取模块和第三提取模块,第二匹配模块用于确定预定词组与所述第一段落的第二匹配度,所述预定词组包括所述预定词表和所述关联词表;第三匹配模块用于确定所述预定词组与所述第二段落的第三匹配度;第二提取模块用于根据所述第二匹配度,从所述第一段落中提取出所述问答对;第三提取模块用于根据所述第三匹配度,从所述第二段落中提取出所述问答对。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至5中任意一项所述问答知识的提取方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述问答知识的提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615397.0A CN111737437B (zh) | 2020-06-30 | 2020-06-30 | 问答知识的提取方法、提取装置与计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615397.0A CN111737437B (zh) | 2020-06-30 | 2020-06-30 | 问答知识的提取方法、提取装置与计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737437A CN111737437A (zh) | 2020-10-02 |
CN111737437B true CN111737437B (zh) | 2024-06-28 |
Family
ID=72653816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010615397.0A Active CN111737437B (zh) | 2020-06-30 | 2020-06-30 | 问答知识的提取方法、提取装置与计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737437B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159363A (zh) * | 2018-11-06 | 2020-05-15 | 航天信息股份有限公司 | 一种基于知识库的问题答案确定方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914543B (zh) * | 2014-04-03 | 2017-12-26 | 北京百度网讯科技有限公司 | 搜索结果的展现方法和装置 |
US10528612B2 (en) * | 2017-02-21 | 2020-01-07 | International Business Machines Corporation | Processing request documents |
CN110019719B (zh) * | 2017-12-15 | 2023-04-25 | 微软技术许可有限责任公司 | 基于断言的问答 |
CN110377745B (zh) * | 2018-04-11 | 2023-08-18 | 阿里巴巴集团控股有限公司 | 信息处理方法、信息检索方法、装置及服务器 |
CN109063032B (zh) * | 2018-07-16 | 2020-09-11 | 清华大学 | 一种远程监督检索数据的降噪方法 |
CN110532369B (zh) * | 2019-09-04 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 一种问答对的生成方法、装置及服务器 |
CN111241260A (zh) * | 2020-01-08 | 2020-06-05 | 平安科技(深圳)有限公司 | 基于人机交互的数据处理方法、装置、设备及存储介质 |
-
2020
- 2020-06-30 CN CN202010615397.0A patent/CN111737437B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159363A (zh) * | 2018-11-06 | 2020-05-15 | 航天信息股份有限公司 | 一种基于知识库的问题答案确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111737437A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Assink et al. | Fitting three-level meta-analytic models in R: A step-by-step tutorial | |
CN108845936B (zh) | 一种基于海量用户的ab测试方法及*** | |
CN110162778B (zh) | 文本摘要的生成方法及装置 | |
CN107807915B (zh) | 基于纠错平台的纠错模型建立方法、装置、设备和介质 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN107368489B (zh) | 一种资讯数据处理方法及装置 | |
CN110879839A (zh) | 一种热词识别方法、装置及*** | |
CN110502614B (zh) | 文本拦截方法、装置、***以及设备 | |
CN110019298B (zh) | 数据处理方法和装置 | |
CN113079201B (zh) | 一种信息的处理***、方法、装置及设备 | |
CN112749299A (zh) | 确定视频类型的方法、装置、电子设备及可读存储介质 | |
CN111737437B (zh) | 问答知识的提取方法、提取装置与计算机可读存储介质 | |
US10559223B2 (en) | Food description processing methods and apparatuses | |
CN108255891B (zh) | 一种判别网页类型的方法及装置 | |
CN117609444A (zh) | 一种基于大模型的搜索问答方法 | |
CN111881274B (zh) | 确定问题的答案的方法、装置与处理器 | |
CN116501317A (zh) | 页面的生成方法和装置、存储介质及电子设备 | |
CN108984572B (zh) | 网站信息推送方法及装置 | |
Schank | Intention, memory, and computer understanding | |
CN106971306B (zh) | 产品问题的识别方法及*** | |
CN110858214B (zh) | 推荐模型训练、及进一步审计程序推荐方法、装置及设备 | |
Wu et al. | Instructing large language models to identify and ignore irrelevant conditions | |
CN113470630A (zh) | 基于大数据的语音识别方法、***、设备及存储介质 | |
CN110019771B (zh) | 文本处理的方法及装置 | |
CN110968781B (zh) | 视频页面剧目确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |