CN111782759A

CN111782759A - 一种问答处理方法、装置及计算机可读存储介质

Info

Publication number: CN111782759A
Application number: CN202010608881.0A
Authority: CN
Inventors: 张欢韵
Original assignee: Digital Finance Ltd
Current assignee: Digital Finance Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-16
Anticipated expiration: 2040-06-29
Also published as: CN111782759B

Abstract

本发明实施例公开了一种问答处理方法、装置及计算机可读存储介质，其中方法包括：对待处理文档和初始问句分别进行预处理，得到所述待处理文档对应的目标文本和所述初始问句的搜索词条，其中，所述目标文本包括至少一个段落；根据所述目标文本中段落的倒排索引和所述搜索词条确定候选段落集合，并确定所述候选段落集合中每个候选段落与所述初始问句的第一相似度；根据所述候选段落集合确定候选句子集合，并确定所述候选句子集合中每个候选句子与所述初始问句的第二相似度；根据所述第一相似度、所述第二相似度和所述候选句子集合，确定所述初始问句的答案。通过实施上述方法，可以快速、精确的从文档中确定问题的答案。

Description

一种问答处理方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种问答处理方法、装置及计算机可读存储介质。

背景技术

在人工智能领域中，随着技术的快速发展，机器阅读理解应用越来越广泛。现有技术中，机器阅读理解一是可以通过文章中的各级标题来确定问题的答案，这种确定方法在标题较少，或者是只有一个较大标题的情况下很难精确的获取答案，对于寻求细节性的问题，也很难精确的获取答案；二是可以通过预先训练一个问答模型，再根据该问答模型确定问题的答案，这种确定方法需要大量人工标注的问答数据对训练一个问答模型，成本较大，而对于数据量较少的情况不适用，进而导致很难在准确度和成本中得到一个折中。可见，快速、精确的从文档中确定出问题对应的答案成为急需解决的问题。

发明内容

本发明实施例提供了一种问答处理方法、装置及计算机可读存储介质，可以快速、精确的从文档中确定问题的答案。

本发明实施例第一方面公开了一种问答处理方法，所述方法包括：

对待处理文档和初始问句分别进行预处理，得到所述待处理文档对应的目标文本和所述初始问句的搜索词条，其中，所述目标文本包括至少一个段落；

根据所述目标文本中段落的倒排索引和所述搜索词条确定候选段落集合，并确定所述候选段落集合中每个候选段落与所述初始问句的第一相似度；

根据所述候选段落集合确定候选句子集合，并确定所述候选句子集合中每个候选句子与所述初始问句的第二相似度；

根据所述第一相似度、所述第二相似度和所述候选句子集合，确定所述初始问句的答案。

本发明实施例第二方面公开了一种问答处理装置，所述装置包括：

处理模块，用于对待处理文档和初始问句分别进行预处理，得到所述待处理文档对应的目标文本和所述初始问句的搜索词条，其中，所述目标文本包括至少一个段落；

第一确定模块，用于根据所述目标文本中段落的倒排索引和所述搜索词条确定候选段落集合，并确定所述候选段落集合中每个候选段落与所述初始问句的第一相似度；

第二确定模块，用于根据所述候选段落集合确定候选句子集合，并确定所述候选句子集合中每个候选句子与所述初始问句的第二相似度；

第三确定模块，用于根据所述第一相似度、所述第二相似度和所述候选句子集合，确定所述初始问句的答案。

本发明实施例第三方面公开了一种终端，包括处理器、存储器和网络接口，所述处理器、存储器和网络接口相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

本发明实施例第四方面公开了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本发明实施例中，终端可以对待处理文档和初始问句分别进行预处理，得到待处理文档对应的文本和初始问句的搜索词条，其中，目标文本包括至少一个段落，再根据目标文本中段落的倒排索引和搜索词条确定候选段落集合，并确定候选段落集合中每个候选段落与初始问句的第一相似度，进一步的，根据候选段落集合确定候选句子集合，并确定候选句子集合中每个候选句子与初始问句的第二相似度，根据第一相似度、第二相似度和候选句子集合，确定初始问句的答案。通过实施上述方法，可以快速、精确的从文档中确定问题的答案。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种问答处理方法的流程示意图；

图2a是本发明实施例提供的一种图片形式的待处理文档示意图；

图2b是本发明实施例提供的两个待处理文档示意图；

图2c是本发明实施例提供的一种利用Elasticsearch的结果示意图；

图2d是本发明实施例提供的另一种利用Elasticsearch的结果示意图；

图2e是本发明实施例提供的一种初始候选句子集合示意图；

图3是本发明实施例提供的另一种问答处理方法的流程示意图；

图4a是本发明实施例提供的一种确定候选段落集合的流程示意图；

图4b是本发明实施例提供的一种基于候选段落集合确定初始问句的答案的流程示意图；

图5是本发明实施例提供的一种问答处理装置的结构示意图；

图6是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，为本发明实施例提供的一种问答处理方法的流程示意图。本实施例中所描述的问答处理方法，包括以下步骤：

101：对待处理文档和初始问句分别进行预处理，得到待处理文档对应的目标文本和初始问句的搜索词条，其中，目标文本包括至少一个段落。

具体的，终端可以获取待处理文档和初始问句，并对待处理文档和初始问句分别进行预处理，以得到待处理文档对应的目标文本和初始问句的搜索词条。其中，终端例如可以是用户侧设备，包括智能手机、平板电脑等，还可以是后台的服务器。该待处理文档可以是文本，可以是图片，可以是表格，也可以包括文本、图片和表格中的一种或多种。

在一种实现方式中，终端可以根据预设转换规则，对待处理文档中的文本、图片和表格进行处理，以得到仅根据段落形式表示的文本信息，即待处理文本。再将该待处理文本进行规范化处理，得到待处理文档对应的目标文本。终端还可以将初始问句进行规范化处理，得到初始问句的搜索词条。

在一种实现方式中，预设转换规则可以是：针对文本，可以将文本以段落形式输出；针对图片，可以将图片经过光学字符识别(Optical Character Recognition，OCR)转换为可编辑的文本，并以段落形式输出；针对表格，可以将表格按照三元组、四元组的方式输出一段句子。

举例来说，待处理文档为例如图2a所示的图片，将图片经过OCR识别后可以得到如下以段落形式表示的待处理文本。

“XXX电报

2020-05-12 20:11星期二

【XXX：把扩大内需各项政策举措抓实把实体经济特别是制造业做强做优】XXX 5月12日讯，XXX在山西考察时强调，要更加及时有效解决企业恢复生产经营面临的各种困难和问题，把扩大内需各项政策举措抓实，把实体经济特别是制造业做强做优，发挥重大投资项目带动作用，落实好能源革命综合改革试点要求，持续推动产业结构调整优化，实施一批变革性、牵引性、标志性举措，大力加强科技创新，在新基建、新技术、新材料、新装备、新产品、新业态上不断取得突破，持续在国企国资、财税金融、营商环境、民营经济、扩大内需、城乡融合等重点改革领域攻坚克难，健全对外开放体制机制，奋发有为推进高质量发展。”

举例来说，待处理文档为例如表1所示的表格，将表格按照三元组、四元组的方式转换可以得到如下以段落形式表示的待处理文本。

表1：

书名	借阅时间	借阅人
			时间简史	2020年5月2日	张三
水浒传	2020年3月4日	李四

“时间简史借阅时间2020年5月2日。

时间简史借阅人张三。

水浒传借阅时间2020年3月4日。

水浒传借阅人李四。”

在一种实现方式中，终端在将待处理文档转换为待处理文本后，还可以对待处理文本进行规范化处理，规范化处理可以包括将文本中的大小写统一为小写等操作，例如，“apple”、“APPLE”统一规范成apple，对中文还需通过分词器进行分词处理，得到规范化文本。其中，规范化处理可以是将待处理文本通过分析器，分析器可以是标准分析器，包括分词器和词语过滤器，它提供基于语法的标记，并且用于大多数语言。对于初始问句，终端可以采用上述的分析器进行规范化处理，以得到搜索词条列表，也就是通过标准分析器处理后得到的结果。如初始问句为“《时间简史》被谁借了？”，通过标准分析器处理后得到的搜索词条列表为：“时间简史”、“谁”、“借”。

102：根据目标文本中段落的倒排索引和搜索词条确定候选段落集合，并确定候选段落集合中每个候选段落与初始问句的第一相似度。

具体的，终端可以对目标文本中的每个段落创建倒排索引，并根据倒排索引和搜索词条，确定每个段落的检索得分，对每个段落的检索得分以从高到低的规则排序，将前面N个段落确定为候选段落集合，再根据候选段落集合中每个候选段落的检索得分和段落相似度权重，确定候选段落集合中每个候选段落与初始问句的第一相似度。

103：根据候选段落集合确定候选句子集合，并确定候选句子集合中每个候选句子与初始问句的第二相似度。

具体的，终端可以先确定初始问句的问句类型，再根据预设的问句类型与答案词性的对应关系，确定初始问句对应答案的词性，并将该对应答案的词性作为目标词性，终端根据该目标词性对每个初始候选句子进行删除处理，将每个初始候选句子中词性为目标词性的词删除，每个初始候选句子进行删除处理后可以得到对应的多个候选句子，终端可以将初始候选句子集合中每个初始候选句子对应的多个候选句子确定为候选句子集合。

104：根据第一相似度、第二相似度和候选句子集合，确定初始问句的答案。

具体的，终端可以获取每个候选句子所在的候选段落与初始问句的第一相似度，以及每个候选句子与初始问句的第二相似度，并根据上述两个相似度，确定出每个候选句子与初始问句的目标相似度，并从候选句子集合中确定出目标相似度最大的目标候选句子，则初始问句的答案可以是目标候选句子对应的初始候选句子，也可以是目标候选句子相对于目标候选句子对应的初始候选句子删除的词。

本发明实施例中，终端可以对待处理文档和初始问句分别进行预处理，得到待处理文档对应的目标文本和初始问句的搜索词条，其中，目标文本包括至少一个段落，再根据目标文本中段落的倒排索引和搜索词条确定候选段落集合，并确定候选段落集合中每个候选段落与初始问句的第一相似度，进一步的，根据候选段落集合确定候选句子集合，并确定候选句子集合中每个候选句子与初始问句的第二相似度，根据第一相似度、第二相似度和候选句子集合，确定初始问句的答案。通过实施上述方法，可以快速、精确的从文档中确定问题的答案。

请参阅图3，为本发明实施例提供的另一种问答处理方法的流程示意图。本实施例中所描述的问答处理方法，包括以下步骤：

301：对待处理文档和初始问句分别进行预处理，得到待处理文档对应的目标文本和初始问句的搜索词条，其中，目标文本包括至少一个段落。

其中，步骤301的具体实施方式可以参见上述实施例步骤101的具体描述，此处不再赘述。

302：根据目标文本中段落的倒排索引和搜索词条确定候选段落集合，并确定候选段落集合中每个候选段落与初始问句的第一相似度。

具体的，终端可以对目标文本中的每个段落创建倒排索引，并根据倒排索引和搜索词条，确定每个段落的检索得分。终端可以按照每个段落的检索得分从高到低的顺序，从至少一个段落中确定出N个段落，并将N个段落作为候选段落集合，其中，N为大于等于1的整数。再根据候选段落集合中每个候选段落的检索得分和段落相似度权重，确定出候选段落集合中每个候选段落与初始问句的第一相似度，其中，第一相似度可以是每个候选段落的检索得分与段落相似度权重的乘积。

在一种实现方式中，倒排索引和检索得分可以利用Elasticsearch的结果，其中，Elasticsearch是一种搜索引擎，Elasticsearch使用倒排索引的结构，适用于快速的全文搜索。

举例来说，针对如图2b中的两篇待处理文档，针对这两篇待处理文档，有两个问题：“垃圾分类分为哪几类”，“元旦节放哪天”。对于这两篇文档，首先按照段落经过分析器后进行倒排索引，倒排索引和检索得分直接采用Elasticsearch的结果。如图2c所示，为针对问题“垃圾分类分为哪几类”，得到的词条为：“垃圾”、“分类”、“分为”、“类”，倒排索引和检索得分可以采用Elasticsearch的结果，从图2c中可以看出，终端按照每个段落的检索得分从高到低的顺序，确定了三个段落作为候选段落集合，三个段落的检索得分分别为7.5778594、3.6179621、3.2483444。假设段落相似度权重为0.1。将上述三个段落的检索得分归一化后分别为1、0.085、0，乘以段落相似度权重0.1，最后得出的每个段落与问句的相似度分别为0.1、0.0085、0。如图2d所示，为针对问题“元旦节放哪天”，得到的词条为：“元旦节”、“放”、“天”，倒排索引和检索得分可以采用Elasticsearch的结果。

303：按照预设拆分规则将候选段落集合中的每个候选段落拆分成句子，得到初始候选句子集合。

其中，预设拆分规则可以是根据标点符号将每个候选段落拆分成句子，例如，可以是。！？“”；等标点符号。如图2e所示为根据图2c中的三个段落拆分成的十个句子，该十个句子就为初始候选句子集合。

304：对初始问句进行分类，并根据分类结果从初始候选句子集合中确定候选句子集合。

具体的，终端可以对初始问句进行分类，得到初始问句的问句类型，根据初始问句的问句类型以及预设的问句类型与答案词性的对应关系，确定初始问句对应答案的目标词性。再针对初始候选句子集合中每个初始候选句子，删除词性为目标词性的词，其中，在删除每个句子中词性为目标词性的词时，可以是删除一个或多个，就可以得到该初始候选句子对应的多个候选句子，则候选句子集合可以是初始候选句子集合中每个初始候选句子对应的多个候选句子。

在一种实现方式中，终端可以预先设置问句类型与答案词性的对应关系。问句类型可以分为“什么”、“时间”、“地点”、“人物”、“方式”、“原因”、“是否”等类型。并指定每一个问句类型对应的答案词性，例如，问句类型为“什么”，则对应的答案词性是名词、形容词、副词等，可以自行设定；问句类型为“时间”，则对应的答案词性是时间、数词等词性；问句类型为“地点”，则对应的答案词性是地名、名词等词性；问句类型为“人物”，则对应的答案词性是人名、团体名等词性。

举例来说，针对上述的初始问句“垃圾分类分为哪几类”，该初始问句的问句类型是“什么”，则根据预设的问句类型与答案词性的对应关系，可以确定其对应的答案词性，即目标词性是“名词、形容词、副词”。针对如图2e所示中的十个句子，该十个句子为初始候选句子，将每个句子中词性为目标词性的词删除，以句子“可回收物主要包括废纸、塑料、玻璃、金属和布料五大类”为例，这句话只有为名词的目标词性的词，对六个名词(可回收物、废纸、塑料、玻璃、金属、布料)进行删除处理，在删除处理中可以任意选择六个名词中的一个或多个，一共可以得到C¹ ₆+C₆ ²+C³ ₆+C⁴ ₆+C⁵ ₆+C⁶ ₆＝63个候选句子。对这十个句子都进行删除处理后，每一个句子都可以得到多个候选句子，则这十个句子中每个句子对应的多个候选句子就确定为候选句子集合。

举例再说，针对上述的初始问句“元旦节放哪天”，该初始问句的问句类型是“时间”，则根据预设的问句类型与答案词性的对应关系，可以确定其对应的答案词性，即目标词性是“时间词、数词”。以句子“一、元旦：2020年1月1日放假，共1天”为例，可对九个词(一、元旦、2020、年、1、月、1、日、1)进行删除处理，在删除处理中可以任意选择九个名词中的一个或多个，一共可以得到

个候选句子。

305：确定候选句子集合中每个候选句子与初始问句的第二相似度。

具体的，终端可以先确定候选句子集合中每个候选句子与初始问句的句子相似度，再将句子相似度与句子相似度权重的乘积作为候选句子集合中每个候选句子与初始问句的第二相似度。

其中，句子相似度权重与上述的段落相似度权重之和为1，并且句子相似度权重要远远大于段落相似度权重。

在一种实现方式中，终端确定候选句子集合中每个候选句子与初始问句的句子相似度可以利用孪生神经网络或者用词频-逆向文件频率(TermFrequency–InverseDocument Frequency，TF-IDF)值与余弦相似度来计算句子相似度。

306：根据每个候选句子所在的候选段落与初始问句的第一相似度，以及每个候选句子与初始问句的第二相似度，确定每个候选句子与初始问句的目标相似度。

具体的，针对候选句子集合中的每个候选句子，终端可以确定每个候选句子所在的候选段落，并获取每个候选句子所在的候选段落与初始问句的第一相似度，终端还可以获取每个候选句子与初始问句的第二相似度，在获取上述两个相似度之后，终端可以计算每个候选句子所在的候选段落与初始问句的第一相似度和每个候选句子与初始问句的第二相似度之和，第一相似度和第二相似度之和就是每个候选句子与初始问句最终的相似度，也就是目标相似度。

307：从候选句子集合中确定出目标相似度最大的目标候选句子。

具体的，终端在确定出每个候选句子与初始问句的目标相似度之后，可以从该目标相似度中确定出最大值，并从候选句子集合中确定出该最大值对应的候选句子，也就是目标候选句子。

308：将目标候选句子对应的初始候选句子或目标词作为初始问句的答案，目标词为目标候选句子相对于目标候选句子对应的初始候选句子删除的词。

具体的，终端在确定出目标候选句子之后，还可以找出目标候选句子对应的初始候选句子，初始问句的答案就是目标候选句子对应的初始候选句子，还可以是目标候选句子相对于目标候选句子对应的初始候选句子删除的词。

举例来说，针对上述的初始问句“垃圾分类分为哪几类”的情况，经过计算确定候选句子“垃圾种类有四种”与问句的目标相似度最高，则“垃圾种类有四种”就是目标候选句子。该候选句子是根据如图2e所示的初始候选句子集合中的初始候选句子“垃圾种类有可回收物、其他垃圾、厨余垃圾、有害垃圾四种”经过删除目标词(可回收物、其他垃圾、厨余垃圾、有害垃圾)后所得。目标候选句子“垃圾种类有四种”对应的初始候选句子“垃圾种类有可回收物、其他垃圾、厨余垃圾、有害垃圾四种”就是初始问句的答案。该初始候选句子删除的目标词(可回收物、其他垃圾、厨余垃圾、有害垃圾)也是初始问句的答案。

举例再说，针对上述的初始问句“元旦节放哪天”的情况，经过计算确定候选句子“元旦放假共1天”与问句的目标相似度最高，则“元旦放假共1天”就是目标候选句子。该候选句子是根据初始候选句子集合中的初始候选句子“一、元旦：2020年1月1日放假，共1天”经过删除目标词(一、2020年1月1日)后所得。目标候选句子“元旦放假共1天”对应的初始候选句子“一、元旦：2020年1月1日放假，共1天”就是初始问句的答案。该初始候选句子删除的目标词(一、2020年1月1日)也是初始问句的答案。

本发明实施例中，终端可以对待处理文档和初始问句分别进行预处理，得到待处理文档对应的目标文本和初始问句的搜索词条，其中，目标文本包括至少一个段落。根据目标文本中段落的倒排索引和搜索词条确定候选段落集合，并确定候选段落集合中每个候选段落与初始问句的第一相似度。按照预设拆分规则将候选段落集合中的每个候选段落拆分成句子，得到初始候选句子集合。对初始问句进行分类，并根据分类结果从初始候选句子集合中确定候选句子集合。确定候选句子集合中每个候选句子与初始问句的第二相似度。根据每个候选句子所在的候选段落与初始问句的第一相似度，以及每个候选句子与初始问句的第二相似度，确定每个候选句子与初始问句的目标相似度。从候选句子集合中确定出目标相似度最大的目标候选句子。将目标候选句子对应的初始候选句子或目标词作为初始问句的答案，目标词为目标候选句子相对于目标候选句子对应的初始候选句子删除的词。通过实施上述方法，可以快速、精确的从文档中确定问题的答案。

请参阅图4a，为本发明实施例提供的一种确定候选段落集合的流程示意图。在图4a的流程中，终端可以将待处理文档中的图片信息项和表格信息根据预设转换规则转换为文本段落，得到待处理文本，再将待处理文本通过分析器，得到目标文本，然后以段落为单位对目标文本创建倒排索引，初始问句也可以通过上述相同的分析器，得到搜索词条，然后根据段落倒排索引和搜索词条进行检索和检索得分排序，将检索得分最高的N个段落作为候选段落集合，并计算候选段落集合中每个候选段落与初始问句的相似度。

请参阅图4b，为本发明实施例提供的一种基于候选段落集合确定初始问句的答案的流程示意图。在图4b的流程中，终端可以将候选段落集合中的每个段落以预设拆分规则拆分成句子，得到初始候选句子集合，终端还可以对初始问句分类，例如图4b中所描述的“什么”、“时间”、“地点”、“人物”、“方式”、“是否”、“原因”“其他”类型，再根据初始问句的类型对初始候选句子集合进行删除处理，删除处理是删除每个初始候选句子中词性为对应的答案词性的词，以得到候选句子集合，计算候选句子集合中每个候选句子与初始问句的相似度，根据上述两个相似度确定每个候选句子与初始问句的目标相似度，并确定目标相似度中的最大值对应的候选句子，找到该候选句子进行删除处理前的初始候选句子，该初始候选句子就是初始问句的答案，还可以将该初始候选句子对应删除的词作为初始问句的答案。

请参阅图5，为本发明实施例提供的一种问答处理装置的结构示意图。所述问答处理装置包括：

处理模块501，用于对待处理文档和初始问句分别进行预处理，得到所述待处理文档对应的目标文本和所述初始问句的搜索词条，其中，所述目标文本包括至少一个段落；

第一确定模块502，用于根据所述目标文本中段落的倒排索引和所述搜索词条确定候选段落集合，并确定所述候选段落集合中每个候选段落与所述初始问句的第一相似度；

第二确定模块503，用于根据所述候选段落集合确定候选句子集合，并确定所述候选句子集合中每个候选句子与所述初始问句的第二相似度；

第三确定模块504，用于根据所述第一相似度、所述第二相似度和所述候选句子集合，确定所述初始问句的答案。

在一种实现方式中，所述第一确定模块502，具体用于：

对所述目标文本中的每个段落创建倒排索引，并根据所述倒排索引和所述搜索词条，确定所述每个段落的检索得分；

按照所述每个段落的检索得分从高到低的顺序，从所述至少一个段落中确定出N个段落，并将所述N个段落作为候选段落集合，其中，N为大于等于1的整数；

根据所述候选段落集合中每个候选段落的检索得分和段落相似度权重，确定所述候选段落集合中每个候选段落与所述初始问句的第一相似度。

在一种实现方式中，所述第二确定模块503，具体用于：

按照预设拆分规则将所述候选段落集合中的每个候选段落拆分成句子，得到初始候选句子集合；

对所述初始问句进行分类，并根据分类结果从所述初始候选句子集合中确定候选句子集合；

确定所述候选句子集合中每个候选句子与所述初始问句的第二相似度。

在一种实现方式中，所述第二确定模块503，具体用于：

对所述初始问句进行分类，得到所述初始问句的问句类型；

根据所述初始问句的问句类型以及预设的问句类型与答案词性的对应关系，确定所述初始问句对应答案的目标词性；

针对所述初始候选句子集合中每个初始候选句子，删除词性为所述目标词性的词，得到该初始候选句子对应的多个候选句子；

将所述初始候选句子集合中每个初始候选句子对应的多个候选句子确定为候选句子集合。

在一种实现方式中，所述第二确定模块503，具体用于：

确定所述候选句子集合中每个候选句子与所述初始问句的句子相似度；

将所述句子相似度与句子相似度权重的乘积作为所述候选句子集合中每个候选句子与所述初始问句的第二相似度，其中，所述句子相似度权重与所述段落相似度权重之和为1。

在一种实现方式中，所述第三确定模块504，具体用于：

根据所述每个候选句子所在的候选段落与所述初始问句的第一相似度，以及所述每个候选句子与所述初始问句的第二相似度，确定所述每个候选句子与所述初始问句的目标相似度；

从所述候选句子集合中确定出目标相似度最大的目标候选句子；

将所述目标候选句子对应的初始候选句子或目标词作为所述初始问句的答案，所述目标词为所述目标候选句子相对于所述目标候选句子对应的初始候选句子删除的词。

在一种实现方式中，所述第三确定模块504，具体用于：

针对所述候选句子集合中的每个候选句子，获取所述每个候选句子所在的候选段落与所述初始问句的第一相似度，以及所述每个候选句子与所述初始问句的第二相似度；

计算所述每个候选句子所在的候选段落与所述初始问句的第一相似度和所述每个候选句子与所述初始问句的第二相似度之和；

将所述第一相似度和所述第二相似度之和作为所述每个候选句子与所述初始问句的目标相似度。

在一种实现方式中，所述处理模块501，具体用于：

根据预设转换规则，将所述待处理文档转换为待处理文本；

将所述待处理文本进行规范化处理，得到所述待处理文档对应的目标文本；

将所述初始问句进行规范化处理，得到所述初始问句的搜索词条。

可以理解的是，本发明实施例所描述的问答处理装置的各功能模块的功能可根据图1或者图3所述的方法实施例中的方法具体实现，其具体实现过程可以参照图1或者图3的方法实施例的相关描述，此处不再赘述。

本发明实施例中，处理模块501对待处理文档和初始问句分别进行预处理，得到所述待处理文档对应的目标文本和所述初始问句的搜索词条，其中，所述目标文本包括至少一个段落，第一确定模块502根据所述目标文本中段落的倒排索引和所述搜索词条确定候选段落集合，并确定所述候选段落集合中每个候选段落与所述初始问句的第一相似度，第二确定模块503根据所述候选段落集合确定候选句子集合，并确定所述候选句子集合中每个候选句子与所述初始问句的第二相似度，第三确定模块504根据所述第一相似度、所述第二相似度和所述候选句子集合，确定所述初始问句的答案。通过实施上述方法，可以快速、精确的从文档中确定问题的答案。

请参阅图6，为本发明实施例提供的一种终端的结构示意图。本实施例中所描述的终端，包括：处理器601、存储器602以及网络接口603。上述处理器601、存储器602以及网络接口603之间可以交互数据。

上述处理器601可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器602可以包括只读存储器和随机存取存储器，并向处理器601提供程序指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。其中，所述处理器601调用所述程序指令时用于执行：

在一种实现方式中，所述处理器601，具体用于：

对所述初始问句进行分类，得到所述初始问句的问句类型；

在一种实现方式中，所述处理器601，具体用于：

根据预设转换规则，将所述待处理文档转换为待处理文本；

具体实现中，本发明实施例中所描述的处理器601和存储器602可执行本发明实施例图1或者图3提供的问答处理方法中所描述的实现方式，也可执行本发明实施例图5所描述的问答处理装置的实现方式，在此不再赘述。

本发明实施例中，本发明实施例中，处理器601可以对待处理文档和初始问句分别进行预处理，得到所述待处理文档对应的目标文本和所述初始问句的搜索词条，其中，所述目标文本包括至少一个段落，根据所述目标文本中段落的倒排索引和所述搜索词条确定候选段落集合，并确定所述候选段落集合中每个候选段落与所述初始问句的第一相似度，根据所述候选段落集合确定候选句子集合，并确定所述候选句子集合中每个候选句子与所述初始问句的第二相似度，根据所述第一相似度、所述第二相似度和所述候选句子集合，确定所述初始问句的答案。通过实施上述方法，可以快速、精确的从文档中确定问题的答案。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，所述程序执行时可包括如图1或者图3对应实施例中的问答处理方法的部分或全部步骤。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上对本发明实施例所提供的一种问答处理方法、装置及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种问答处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本中段落的倒排索引和所述搜索词条确定候选段落集合，并确定所述候选段落集合中每个候选段落与所述初始问句的第一相似度，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述候选段落集合确定候选句子集合，并确定所述候选句子集合中每个候选句子与所述初始问句的第二相似度，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述初始问句进行分类，并根据分类结果从所述初始候选句子集合中确定候选句子集合，包括：

对所述初始问句进行分类，得到所述初始问句的问句类型；

5.根据权利要求3所述的方法，其特征在于，所述确定所述候选句子集合中每个候选句子与所述初始问句的第二相似度，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述第一相似度、所述第二相似度和所述候选句子集合，确定所述初始问句的答案，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述每个候选句子所在的候选段落与所述初始问句的第一相似度，以及所述每个候选句子与所述初始问句的第二相似度，确定所述每个候选句子与所述初始问句的目标相似度，包括：

8.根据权利要求1所述的方法，其特征在于，所述对待处理文档和初始问句分别进行预处理，得到所述待处理文档对应的目标文本和所述初始问句的搜索词条，包括：

根据预设转换规则，将所述待处理文档转换为待处理文本；

9.一种问答处理装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。