CN109065015A

CN109065015A - 一种数据采集方法、装置、设备及可读存储介质

Info

Publication number: CN109065015A
Application number: CN201810844009.9A
Authority: CN
Inventors: 国家喜; 吴及; 李承程; 吕萍; 岳阔; 赵湖勇; 李群
Original assignee: Tsinghua University; iFlytek Co Ltd
Current assignee: Tsinghua University; iFlytek Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2018-12-21
Anticipated expiration: 2038-07-27
Also published as: CN109065015B

Abstract

本申请公开了一种数据采集方法、装置、设备及可读存储介质，由于获取了目标项目对应的问答节点集合，集合中包含了目标项目对应的问题信息，基于问题信息实现的机器自动数据采集，不会出现人工漏问导致的采集数据缺失的问题，并且机器采集相比人工采集效率得到了大大提升。

Description

一种数据采集方法、装置、设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体地说，涉及一种数据采集方法、装置、设备及可读存储介质。

背景技术

随着时代的发展，当前已经进入了数据时代。各行各业都需要积累基础数据，以支持更高层次的决策。

较常见的例子如，审讯内容数据采集，需要通过问答形式采集被审讯人的回答，并最终形成审讯笔录。审讯笔录可以作为后续案件审判的支持材料。再比如，病例采集，即通过医患间的问答交流，由医生获得患者发病及治疗经过，并形成病例书。病例采集是诊断疾病的重要依据之一，作为疾病诊断的支持材料。

通过研究发现，现有各项目的问答形式的数据采集过程均是通过人工实现，即由提问方提出问题，由回答方给出问题对应的回答，并由提问方手动记录问题与对应的回答内容。显然，这种数据采集方式，受提问方个人经验及状态的影响，针对复杂的项目，很容易出现提问方考虑不全，导致采集数据缺失的问题。并且，人工采集也存在采集效率低的问题。

发明内容

有鉴于此，本申请提供了一种数据采集方法、装置、设备及可读存储介质，用于解决现有人工数据采集所存在的采集数据易缺失、成本高、效率低的问题。

为了实现上述目的，现提出的方案如下：

一种数据采集方法，包括：

获取待进行数据采集的目标项目对应的问答节点集合，所述问答节点集合包含与所述目标项目对应的问答节点，所述问答节点包含问题信息；

从所述问答节点集合中选取问答节点，并输出选取的问答节点所包含的问题信息；

获取对输出问题信息反馈的回答信息，得到问答节点对应的回答信息。

优选地，所述从所述问答节点集合中选取问答节点，包括：

按照预设的所述目标项目对应的各问答节点的询问顺序，从所述问答节点集合中选取问答节点。

优选地，所述按照预设的所述目标项目对应的各问答节点的询问顺序，从所述问答节点集合中选取问答节点，包括：

按照所述问答节点集合中各问答节点的排序顺序，从头至尾选取问答节点，所述问答节点集合中各问答节点的排序顺序与所述询问顺序一致。

优选地，所述问答节点还包含下一问答节点槽，用于存储依据所述询问顺序确定的所述问答节点的下一问答节点的索引；

所述按照预设的所述目标项目对应的各问答节点的询问顺序，从所述问答节点集合中选取问答节点，包括：

在得到当前选取的问答节点对应的回答信息，确定需要选取下一问答节点时，将所述当前选取的问答节点所包含的下一问答节点槽存储的下一问答节点的索引对应的问答节点，作为下一问答节点。

优选地，所述从所述问答节点集合中选取问答节点，包括：

针对所述问答节点集合中已选取的每一问答节点，根据所述问答节点的问题信息及回答信息，确定所述问答节点的节点特征；

按照选取的先后顺序，将已选取的每一问答节点的节点特征组合为节点特征集合；

将所述节点特征集合输入预置的节点选择模型，得到节点选择模型输出的下一问答节点的索引；

所述节点选择模型为，以所述目标项目对应的已选取问答节点的节点特征训练数据依选取顺序组合成的节点特征训练数据集合为训练样本，以标注的下一待选取问答节点的索引为样本标签训练得到。

优选地，所述问答节点还包含下一问答节点槽，用于存储下一问答节点的索引；

所述从所述问答节点集合中选取问答节点，还包括：

在得到当前选取的问答节点对应的回答信息，确定需要选取下一问答节点时，判断所述当前选取的问答节点所包含的下一问答节点槽内是否存储有下一问答节点的索引；

若是，则将所述当前选取的问答节点所包含的下一问答节点槽存储的下一问答节点的索引对应的问答节点，作为下一问答节点；

若否，则执行所述针对所述问答节点集合中已选取的每一问答节点，根据所述问答节点的问题信息及回答信息，确定所述问答节点的节点特征的操作。

优选地，所述根据所述问答节点的问题信息及回答信息，确定所述问答节点的节点特征，包括：

将所述问答节点的问题信息及回答信息作为输入数据，输入预置的节点编码模型，所述节点编码模型为，能够对输入数据进行特征提取，并依据提取的特征，预测第三方项目的项目结果的模型，所述第三方项目为应用所述目标项目所采集的数据的项目；

获取所述节点编码模型对所述输入数据提取的特征，作为所述问答节点的节点特征。

优选地，所述输出选取的问答节点所包含的问题信息，包括：

若所述问题信息为文本形式，则以文本形式输出选取的问答节点所包含的问题信息，或，将选取的问答节点所包含的问题信息进行语音合成，并输出合成的语音形式的问题信息；

若所述问题信息为语音形式，则以语音形式输出选取的问答节点所包含的问题信息，或，将选取的问答节点所包含的问题信息进行语音转写，并输出转写后的文本形式的问题信息。

优选地，所述获取对输出的问题信息反馈的回答信息，得到问答节点对应的回答信息，包括：

获取对输出的问题信息反馈的语音形式的回答信息，并将其转写为文本形式的回答信息；或，

获取对输出的问题信息反馈的图像形式的回答信息，并对其进行图像文本识别，识别出文本形式的回答信息；或，

获取对输出的问题信息反馈的文本形式的回答信息；

对获取的回答信息进行标准化，得到问答节点对应的标准回答信息。

优选地，所述问答节点还包含问题类型槽，用于存储问题信息的类型；

所述对获取的回答信息进行标准化，得到问答节点对应的标准回答信息，包括：

若根据问题类型槽确定获取的回答信息对应问题信息的类型为是否类问题，则根据获取的回答信息对肯定类或否定类关键词的包含情况，确定标准回答信息为肯定或否定；

若根据问题类型槽确定获取的回答信息对应问题信息的类型为描述类问题，则将获取的回答信息作为标准回答信息。

优选地，所述问答节点还包含候选答案槽，用于存储与问题信息匹配的候选答案信息；

所述对获取的回答信息进行标准化，得到问答节点对应的标准回答信息，还包括：

若根据问题类型槽确定获取的回答信息对应问题信息的类型为选择类问题，则计算获取的回答信息与候选答案槽中存储的每一候选答案信息的相似度；

根据相似度的大小，从候选答案信息中确定标准回答信息。

优选地，所述目标项目包括病例采集项目、审讯内容采集项目、面试数据采集项目中的任意一种或多种。

优选地，所述目标项目为病例采集项目，则所述目标项目对应的问答节点集合的生成过程，包括：

根据病例采集项目对应的科室疾病，获取与所述科室疾病相关的症状术语；

从医学问答资源中收集与所述症状术语相关的问答数据，并整理成问题信息与回答信息；

将整理后的问题信息节点化，并按照预设的问诊流程将节点化后的问题信息组成问答节点集合。

一种数据采集装置，包括：

问答节点集合获取单元，用于获取待进行数据采集的目标项目对应的问答节点集合，所述问答节点集合包含与所述目标项目对应的问答节点，所述问答节点包含问题信息；

问答节点选取单元，用于从所述问答节点集合中选取问答节点；

问题信息输出单元，用于输出选取的问答节点所包含的问题信息；

回答信息获取单元，用于获取对输出的问题信息反馈的回答信息，得到问答节点对应的回答信息。

优选地，所述问答节点选取单元包括：

依序选取单元，用于按照预设的所述目标项目对应的各问答节点的询问顺序，从所述问答节点集合中选取问答节点。

优选地，所述依序选取单元包括：

集合内顺序选取单元，用于按照所述问答节点集合中各问答节点的排序顺序，从头至尾选取问答节点，所述问答节点集合中各问答节点的排序顺序与所述询问顺序一致。

优选地，所述问答节点还包含下一问答节点槽，用于存储依据所述询问顺序确定的所述问答节点的下一问答节点的索引；所述依序选取单元包括：

依索引选取单元，用于在得到当前选取的问答节点对应的回答信息，确定需要选取下一问答节点时，将所述当前选取的问答节点所包含的下一问答节点槽存储的下一问答节点的索引对应的问答节点，作为下一问答节点。

优选地，所述问答节点选取单元包括：

节点特征确定单元，用于针对所述问答节点集合中已选取的每一问答节点，根据所述问答节点的问题信息及回答信息，确定所述问答节点的节点特征；

特征组合单元，用于按照选取的先后顺序，将已选取的每一问答节点的节点特征组合为节点特征集合；

节点选择模型预测单元，用于将所述节点特征集合输入预置的节点选择模型，得到节点选择模型输出的下一问答节点的索引；

所述问答节点选取单元还包括：

问答节点槽判断单元，用于在得到当前选取的问答节点对应的回答信息，确定需要选取下一问答节点时，判断所述当前选取的问答节点所包含的下一问答节点槽内是否存储有下一问答节点的索引；若是，执行问答节点槽使用单元，若否，执行所述节点特征确定单元；

所述问答节点槽使用单元，用于将所述当前选取的问答节点所包含的下一问答节点槽存储的下一问答节点的索引对应的问答节点，作为下一问答节点。

优选地，所述节点特征确定单元包括：

节点编码模型预测单元，用于将所述问答节点的问题信息及回答信息作为输入数据，输入预置的节点编码模型，所述节点编码模型为，能够对输入数据进行特征提取，并依据提取的特征，预测第三方项目的项目结果的模型，所述第三方项目为应用所述目标项目所采集的数据的项目；

节点编码模型特征提取单元，用于获取所述节点编码模型对所述输入数据提取的特征，作为所述问答节点的节点特征。

优选地，所述问题信息输出单元包括：

第一问题信息输出子单元，用于若所述问题信息为文本形式，则以文本形式输出选取的问答节点所包含的问题信息，或，将选取的问答节点所包含的问题信息进行语音合成，并输出合成的语音形式的问题信息；

第二问题信息输出子单元，用于若所述问题信息为语音形式，则以语音形式输出选取的问答节点所包含的问题信息，或，将选取的问答节点所包含的问题信息进行语音转写，并输出转写后的文本形式的问题信息。

优选地，所述回答信息获取单元包括：

语音回答信息获取子单元，用于获取对输出的问题信息反馈的语音形式的回答信息，并将其转写为文本形式的回答信息；或，

图像回答信息获取子单元，用于获取对输出的问题信息反馈的图像形式的回答信息，并对其进行图像文本识别，识别出文本形式的回答信息；或，

文本回答信息获取子单元，用于获取对输出的问题信息反馈的文本形式的回答信息；

标准化处理单元，用于对获取的回答信息进行标准化，得到问答节点对应的标准回答信息。

所述标准化处理单元包括：

第一标准化处理子单元，用于若根据问题类型槽确定获取的回答信息对应问题信息的类型为是否类问题，则根据获取的回答信息对肯定类或否定类关键词的包含情况，确定标准回答信息为肯定或否定；

第二标准化处理子单元，用于若根据问题类型槽确定获取的回答信息对应问题信息的类型为描述类问题，则将获取的回答信息作为标准回答信息。

所述标准化处理单元还包括：

第三标准化处理子单元，用于若根据问题类型槽确定获取的回答信息对应问题信息的类型为选择类问题，则计算获取的回答信息与候选答案槽中存储的每一候选答案信息的相似度；根据相似度的大小，从候选答案信息中确定标准回答信息。

一种数据采集设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的数据采集方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的数据采集方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的数据采集方法，获取目标项目对应的问答节点集合，该集合包含了与目标项目对应的问答节点，且问答节点包含问题信息，并从中选取问答节点，输出选取的问答节点所包含的问题信息，供用户针对问题信息反馈回答信息，并获取到该反馈的回答信息，得到问答节点对应的回答信息。本申请由于获取到目标项目对应的问答节点集合，集合中包含了目标项目对应的问题信息，基于问题信息实现的机器自动数据采集，不会出现人工漏问导致的采集数据缺失的问题，并且机器采集相比人工采集效率得到了大大提升。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种数据采集方法流程图；

图2为本申请实施例公开的一种数据采集装置结构示意图；

图3为本申请实施例公开的一种数据采集设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的数据采集方案，可以应用于数据采集设备，如电脑、手机、服务器等智能终端设备，该智能终端设备能够与用户进行数据交互，交互方式不限于：语音、文本、图像等多种交互方式。本实施例的数据采集方案可以针对任意一种问答形式的目标项目，如病例采集项目、审讯内容采集项目、面试数据采集项目等。需要注意的是，病例采集项目的目的是得到病例书，该病例书并非疾病诊断结果，而是用于辅助医生进行疾病诊断的支持材料。

接下来，结合图1对本本申请实施例的数据采集方法进行介绍，如图1所示，该方法可以包括：

步骤S100、获取待进行数据采集的目标项目对应的问答节点集合。

其中，所述问答节点集合包含与所述目标项目对应的问答节点，所述问答节点包含问题信息。

如前所述，目标项目可以是需要通过问答形式进行数据采集的项目。根据目标项目的不同，对应的问答节点集合也不同。问答节点集合中包含了目标项目对应的所有问答节点，每一问答节点包含对应的问题信息，问题信息可以理解为问题的描述信息，如“是否出现腹痛”、“持续性还是间断性胸痛”等。问答节点集合中包含的问答节点至少有一个，一般性的，问答节点的个数为多个。

以目标项目为病例采集项目为例，其还可以进一步做细分为子项目，如按照就诊科室的不同，可以分为多个不同科室病例采集子项目。

本申请预先针对不同的目标项目，确定了需要进行采集的问题信息，并基于此构建了目标项目对应的问答节点集合。在确定了所需要进行数据采集的目标项目时，可以直接获取预先生成的与该目标项目对应的问答节点集合。

步骤S110、从所述问答节点集合中选取问答节点，并输出选取的问答节点所包含的问题信息。

具体地，可以从问答节点集合中选取问答节点，并输出该选取的问答节点所包含的问题信息。选取方式可以是逐个选取，也可以是一次选取多个。

可以理解的是，问题信息的形式可以有多种，如文本形式、语音形式等。若问题信息的形式是文本形式，则可以直接将文本形式的问题信息输出，如通过显示屏的形式进行展示，供用户进行公开。此外，还可以文本形式的将问题信息进行语音合成，并输出合成后的语音形式的问题信息。具体地，可以通过麦克风将合成后的语音形式的问题信息进行播放，供用户收听。

进一步，若问题信息的形式是语音形式，则可以以语音形式输出问题信息。此外，还可以将问题信息进行语音转写，并输出转写后的文本形式的问题信息。

当然上述仅仅示例了几种问题信息的输出形式，除此之外还可以按照其他形式对问题信息进行输出，保证用户能够了解到问题信息即可。

步骤S120、获取对输出问题信息反馈的回答信息，得到问答节点对应的回答信息。

具体地，上一步骤中对选取的问答节点包含的问题信息进行输出，在此基础上，用户可以针对输出的问题信息反馈回答信息。本步骤中获取对输出的问题信息反馈的回答信息，该回答信息与输出的问题信息对应，也即与问题信息所在的问答节点对应，因此可以得到问答节点对应的回答信息。

可以理解的是，本步骤中获取的回答信息可以是语音回答信息，还可以是文本回答信息，或者，还可以是图像等其他形式的文本回答信息。以病例采集项目为例，患者可以通过语音、文本形式反馈回答信息，还可以将检查检验单作为回答信息。

由于上一步骤中从问答节点集合中选取问答节点，并输出选取的问答节点包含的问题信息，因此，通过本步骤中可以获取问答节点集合中每一问答节点对应的回答信息，最终得到问答节点集合中各问答节点对应的回答信息。各问答节点对应的回答信息即为目标项目对应的采集数据。

本申请实施例提供的数据采集方法，由于获取到目标项目对应的问答节点集合，集合中包含了目标项目对应的问题信息，基于问题信息实现的机器自动数据采集，不会出现人工漏问导致的采集数据缺失的问题，并且机器采集相比人工采集效率得到了大大提升。

在本申请的一个实施例中，对上述步骤S120，获取对输出的问题信息反馈的回答信息，得到问答节点对应的回答信息的过程进行说明。

上述已经介绍了，回答信息可以有多种形式，如语音形式、图像形式、文本形式等。为了便于对回答信息进行编辑，本实施例将获取的各种形式的回答信息，均转换为文本形式，具体包括：

1)若回答信息为语音形式，则本实施例获取对输出的问题信息反馈的语音形式的回答信息，并将其转写为文本形式的回答信息。

具体地，为了提高语音转写准确率，针对目标项目可以预先获取对应的语音训练数据，并标注语义训练数据对应的文本内容，进而利用语音训练数据及对应的文本内容训练语音转写模型。后续可以利用训练好的语音转写模型，对回答信息进行转写，得到对应的文本形式的回答信息。

以目标项目为病例采集为例，语音训练数据可以是收集的真实病患在就诊过程汇总对医生问题进行回答的语音数据。

2)若回答信息为图像形式，则本实施例获取对输出的问题信息反馈的图像形式的回答信息，并对其进行图像文本识别，识别出文本形式的回答信息。

具体地，本实施例可以采用OCR(OpticalCharacter Recognition，光学字符识别)技术，对图像形式的回答信息进行文本识别，并得到识别出的文本形式的回答信息。

3)若回答信息为文本形式，则本实施例直接获取对输出的问题信息反馈的文本形式的回答信息。

4)进一步地，对获取的回答信息进行标准化，得到问答节点对应的标准回答信息。

在前述得到文本形式的回答信息之后，可以进一步对回答信息进行标准化处理，得到问题节点对应的标准回答信息。

一种可选的实施方式下，问答节点还可以包含问题类型槽，用于存储问题信息的类型。本实施例可以预先通过目标项目对应的问题信息的各种类型，并在对应问答节点的问题类型槽中记录该问答节点的问题信息的类型。

问题信息的类型可以有多种，常见的如是否类问题、描述类问题、选择类问题等。

本实施例中，若根据问题类型槽确定获取的回答信息对应问题信息的类型为是否类问题，则根据获取的回答信息对肯定类或否定类关键词的包含情况，确定标准回答信息为肯定或否定。

具体地，本实施例可以预先统计肯定类关键词和否定类关键词，肯定类关键词如：是、有…；否定类关键词如：不是，无、没有…。

通过匹配获取的回答信息对两类关键词的包含情况，若回答信息匹配到肯定类关键词，则确定标准回答信息为肯定；若回答信息匹配到否定类关键词，则确定标准回答信息为否定。

进一步地，若根据问题类型槽确定获取的回答信息对应问题信息的类型为描述类问题，则将获取的回答信息作为标准回答信息。

具体地，针对描述类问题，可以直接将获取的回答信息作为标准回答信息。

另一种可选的实施方式下，问答节点还可以包含候选答案槽，用于存储与问题信息匹配的候选答案信息。具体地，对于某些问题信息，其候选答案信息是固定的，如问题信息为：“持续性还是间断性胸痛”，对应的候选回答信息可以包括：“持续性”和“间断性”。

在此基础上，若根据问题类型槽确定获取的回答信息对应问题信息的类型为选择类问题，则可以计算获取的回答信息与候选答案槽中存储的每一候选答案信息的相似度。

进一步，根据相似度的大小，从候选答案信息中确定标准回答信息。

具体地，可以选取相似度最大的一个候选答案信息，作为标准回答信息，或者可以选取相似度最高的topN个候选答案信息，作为标准回答信息。

对于回答信息与候选答案信息相似度计算过程，可以包括如下步骤：

A、对回答信息和候选答案信息分别进行分词。

分词时，可以构成分词模型。具体地，对目标项目对应的回答信息训练数据进行分词标注，并基于标注结果训练分词模型。利用训练后的分词模型，对回答信息和候选答案信息分别进行分词处理。

B、对回答信息和候选答案信息分词后的结果进行停用词去除，得到处理后回答信息和处理后候选答案信息。

C、对处理后回答信息及处理后候选答案信息计算语义相似度。

具体地，从词向量模型中获得处理后回答信息包含的每一分词的词向量，以及每一处理后候选答案信息中每一分词的词向量。进一步，根据处理后回答信息包含的每一分词的词向量，与处理后候选答案信息包含的每一分词的词向量，计算向量距离，作为二者的相似度。

本步骤中得到处理后回答信息与每一处理后候选答案信息间的语义相似度。

在本申请的又一个实施例中，以目标项目为病例采集为例，对步骤S100，获取待进行数据采集的目标项目对应的问答节点集合的过程进行说明，该过程可以包括：

S1、根据病例采集项目对应的科室疾病，获取与所述科室疾病相关的症状术语。

病例采集项目可以对应多个科室，如内科、外科等。每个科室的疾病是可以预先确定的，因此，本步骤中可以根据病例采集项目对应的科室疾病，获取科室疾病相关的症状术语。

具体地，可以通过数据挖掘方法从医学资源数据中得到与科室疾病相关症状术语集合。医学资源数据包括医学相关书籍以及其它网络上相关的医学资料。可选的方式如，按照科室名称从医学教科书中获得相关疾病。进一步，从医学资源数据中将与疾病相关描述内容提取出来。再进一步，通过序列标注方法对提取的描述内容进行症状术语标记，得到症状术语集合。

其中，症状术语如：头疼、发烧、腹痛等。

可选的，对于获取的症状术语集合，可以采用频繁集算法从中获取与科室疾病出现频率最高的topM个病状术语。

S2、从医学问答资源中收集与所述症状术语相关的问答数据，并整理成问题信息与回答信息。

S3、将整理后的问题信息节点化，并按照预设的问诊流程将节点化后的问题信息组成问答节点集合。

具体地，每一问题信息可以对应一问答节点，按照问诊流程可以将问答节点组成问答节点集合。

可选的，本实施例可以在问答节点中设置问题类型槽，并将问题信息对应的类型填入该问题类型槽中。

进一步可选的，本实施例还可以在问答节点中设置候选答案槽，并将问题信息对应的回答信息填入候选答案槽中。

再进一步可选的，由于问诊流程是确定的，因此问答节点之间的排序顺序也可以确定，因此还可以在问答节点中设置下一问答节点槽，并将按照问诊流程确定的当前问答节点的下一问答节点的索引填入下一问答节点槽中，以便后续可以依据下一问答节点槽来确定下一问答节点。

本实施例生成的问答节点集合，可以是按照列表形式存储，还可以是按照树状结构存储，其存储形式不做具体限定。

在本申请的又一个实施例中，对上述步骤S110、从所述问答节点集合中选取问答节点的过程进行说明。

本申请实施例公开了几种不同的从问答节点集合中选取问答节点的方式，接下来分别介绍每种实施方式：

第一种：

针对目标项目对应的各个问答节点，可以预先设定其询问顺序。进而本实施例可以按照预设的询问顺序，从问答节点集合中选取问答节点。

具体地，预设的询问顺序可以通过多种形式体现，如：

1)问答节点集合中各问答节点的排序顺序保持与询问顺序一致。基于此，可以按照问答节点集合中各问答节点的排序顺序，从头至尾选取问答节点。

2)如前述对问答节点集合的生成过程所介绍的，问答节点可以包含下一问答节点槽，用于存储依据所述询问顺序确定的所述问答节点的下一问答节点的索引。示例如，依照询问顺序，问答节点排序如下：A-B-C-D。则可以在问答节点A的下一问答节点槽中填入问答节点B的索引。同理，针对问答节点B、C、D。

基于这种设置方式，在得到当前选取的问答节点对应的回答信息，确定需要选取下一问答节点时，将所述当前选取的问答节点所包含的下一问答节点槽存储的下一问答节点的索引对应的问答节点，作为下一问答节点。

第二种：

针对某些类型的目标项目，其对应的问答节点可能无法预先确定询问顺序。需要根据已经遍历过的问答节点，来确定下一问答节点。基于此类目标项目，本实施例提供了一种通过深度神经网络模型来预测的方案，详细如下：

1)针对所述问答节点集合中已选取的每一问答节点，根据所述问答节点的问题信息及回答信息，确定所述问答节点的节点特征。

具体地，定义当前选取的以及当前时刻之前已经选取过的问答节点为已选取问答节点，则针对每一个已选取问答节点，根据已选取问答节点的问题信息及回答信息，确定该已选取问答节点的节点特征。

可选的，可以使用节点编码模型来确定问答节点的节点特征。

具体地，定义应用目标项目所采集的数据的项目为第三方项目。以目标项目为病例采集项目为例，可以基于采集的病例数据来确定疾病类型，则疾病诊断可以作为第三方项目。再比如，目标项目为审讯内容采集项目，可以基于采集的审讯内容进行量刑判定，则量刑判定可以作为第三方项目。

基于此，节点编码模型可以是，以目标项目的问答信息和回答信息作为输入数据，并能够对输入数据进行特征提取，以及依据提取的特征预测第三方项目的项目结果的模型。节点编码模型可以采用双向长短时神经网络形式的模型，或者采用其他形式的模型。

基于节点编码模型，确定问答节点的节点特征的过程可以包括：

a.将所述问答节点的问题信息及回答信息作为输入数据，输入预置的节点编码模型；

b.获取所述节点编码模型对所述输入数据提取的特征，作为所述问答节点的节点特征。

除此之外，还可以采用其他方式来确定问答节点的节点特征。如确定问答节点的问题信息及回答信息对应的词向量集合，将词向量集合作为问答节点的节点特征等。

2)按照选取的先后顺序，将已选取的每一问答节点的节点特征组合为节点特征集合。

具体地，问答节点的节点特征可以是特征向量形式，则本步骤中可以将已选取的每一问答节点的特征向量进行合并，按照选取的先后顺序，合并为特征向量矩阵。

3)将所述节点特征集合输入预置的节点选择模型，得到节点选择模型输出的下一问答节点的索引。

具体地，本实施例可以预先训练节点选择模型，训练时以所述目标项目对应的已选取问答节点的节点特征训练数据依选取顺序组合成的节点特征训练数据集合为训练样本，以标注的下一待选取问答节点的索引为样本标签。节点选择模型可以是单向长短时记忆形式的模型，或者是其他形式的模型。

基于训练后的节点选择模型，可以将节点特征集合输入模型，得到模型输出的下一问答节点的索引。

节点选择模型的输出的可以是一个向量矩阵，向量矩阵的维度与问答节点集合中问答节点的个数相同，每一维度向量对应问答节点集合中唯一一问答节点。可以将节点选择模型输出的向量矩阵中，已选取的问答节点对应维度的向量删除，并在剩余维度向量中确定向量值最大的维度，将该维度对应的问答节点的索引作为下一问答节点的索引。

本实施例提供的基于模型预测下一问答节点的方法，考虑了已选取的各问答节点的节点特征，并结合依据训练数据所训练的节点选择模型，能够准确预测下一问答节点的索引。

第三种：

针对某些类型的目标项目，其对应的问答节点集合中可能部分问答节点之间的先后询问顺序可以预先确定，而其他部分问答节点间的先后询问顺序是无法预先确定的。基于此，可以将上述两种实现方案进行结合，具体可以包括：

S1、在得到当前选取的问答节点对应的回答信息，确定需要选取下一问答节点时，判断所述当前选取的问答节点所包含的下一问答节点槽内是否存储有下一问答节点的索引；若是，执行S2，若否，执行S3。

具体地，如果问答节点的下一问答节点槽内存储有下一问答节点的索引在，则说明可以根据预先确定的询问顺序来确定下一问答节点，否则，说明无法确定，可以基于节点选择模型来预测。

S2、将所述当前选取的问答节点所包含的下一问答节点槽存储的下一问答节点的索引对应的问答节点，作为下一问答节点。

S3、针对所述问答节点集合中已选取的每一问答节点，根据所述问答节点的问题信息及回答信息，确定所述问答节点的节点特征。

S4、按照选取的先后顺序，将已选取的每一问答节点的节点特征组合为节点特征集合。

S5、将所述节点特征集合输入预置的节点选择模型，得到节点选择模型输出的下一问答节点的索引。

下面对本申请实施例提供的数据采集装置进行描述，下文描述的数据采集装置与上文描述的数据采集方法可相互对应参照。

参见图2，图2为本申请实施例公开的一种数据采集装置结构示意图。如图2所示，该装置可以包括：

问答节点集合获取单元11，用于获取待进行数据采集的目标项目对应的问答节点集合，所述问答节点集合包含与所述目标项目对应的问答节点，所述问答节点包含问题信息；

问答节点选取单元12，用于从所述问答节点集合中选取问答节点；

问题信息输出单元13，用于输出选取的问答节点所包含的问题信息；

回答信息获取单元14，用于获取对输出的问题信息反馈的回答信息，得到问答节点对应的回答信息。

可选的，所述问答节点选取单元可以包括：

可选的，所述依序选取单元可以包括：

可选的，所述问答节点还可以包含下一问答节点槽，用于存储依据所述询问顺序确定的所述问答节点的下一问答节点的索引。基于此，所述依序选取单元可以包括：

可选的，所述问答节点选取单元可以包括：

可选的，所述问答节点还可以包含下一问答节点槽，用于存储下一问答节点的索引。基于此，所述问答节点选取单元还可以包括：

可选的，所述节点特征确定单元可以包括：

可选的，所述问题信息输出单元可以包括：

可选的，所述回答信息获取单元可以包括：

可选的，所述问答节点还可以包含问题类型槽，用于存储问题信息的类型。基于此，所述标准化处理单元可以包括：

可选的，所述问答节点还可以包含候选答案槽，用于存储与问题信息匹配的候选答案信息。基于此，所述标准化处理单元还可以包括：

本申请实施例提供的数据采集装置可应用于数据采集设备，如PC终端、云平台、服务器及服务器集群等。可选的，图3示出了数据采集设备的硬件结构框图，参照图3，数据采集设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC

(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据采集方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述问答节点集合中选取问答节点，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述问答节点集合中选取问答节点，包括：

4.根据权利要求3所述的方法，其特征在于，所述问答节点还包含下一问答节点槽，用于存储下一问答节点的索引；

所述从所述问答节点集合中选取问答节点，还包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述问答节点的问题信息及回答信息，确定所述问答节点的节点特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取对输出的问题信息反馈的回答信息，得到问答节点对应的回答信息，包括：

获取对输出的问题信息反馈的文本形式的回答信息；

7.根据权利要求6所述的方法，其特征在于，所述问答节点还包含问题类型槽，用于存储问题信息的类型；

8.根据权利要求7所述的方法，其特征在于，所述问答节点还包含候选答案槽，用于存储与问题信息匹配的候选答案信息；

根据相似度的大小，从候选答案信息中确定标准回答信息。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述目标项目包括病例采集项目、审讯内容采集项目、面试数据采集项目中的任意一种或多种。

10.根据权利要求9所述的方法，其特征在于，所述目标项目为病例采集项目，则所述目标项目对应的问答节点集合的生成过程，包括：

11.一种数据采集装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述问答节点选取单元包括：

13.根据权利要求11所述的装置，其特征在于，所述回答信息获取单元包括：

14.一种数据采集设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-10中任一项所述的数据采集方法的各个步骤。

15.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-10中任一项所述的数据采集方法的各个步骤。