CN110888864B

CN110888864B - 用户数据的自动化收集方法及装置

Info

Publication number: CN110888864B
Application number: CN201911183543.0A
Authority: CN
Inventors: 郭啸; 张君; 史岩; 陈琦; 龙佩; 杨荟生; 范闯; 苏星康; 陆康; 尹淇翰; 任慧琛; 林玉鑫; 李甲
Original assignee: Beijing Guotenglianxin Technology Co ltd
Current assignee: Beijing Guotenglianxin Technology Co ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2022-08-23
Anticipated expiration: 2039-11-27
Also published as: CN110888864A

Abstract

本申请提供一种用户数据的自动化收集方法及装置，通过输出每个目标收集维度对应的至少一个收集类问题，并针对每个目标收集维度对应的收集类问题的反馈数据设置对应的置信度；根据每个目标收集维度对应的收集类问题的反馈数据和反馈数据的置信度，计算每个目标收集维度对应的总体置信度；输出每个目标收集维度对应的验证问题；利用每个目标收集维度对应的验证问题的反馈数据，验证目标收集维度对应的收集类问题的反馈数据的置信度，得到目标收集维度对应的收集类问题的反馈数据的验证结果；基于目标收集维度对应的收集类问题的反馈数据的验证结果，对目标收集维度的总体置信度进行修正；输出收集到的收集类问题的反馈数据以及修正后的总体置信度。

Description

用户数据的自动化收集方法及装置

技术领域

本发明涉及数据收集领域，特别涉及一种用户数据的自动化收集方法及装置。

背景技术

在众多的领域上，如金融风控调研领域，都需要根据用户的数据来展开相应地工作，所以收集用户的数据已成为这些领域中，一项必不可少的重要过程。

在现有技术的一些领域中，为了能有方向性的、深入的收集到用户在风险等方面的数据，并且可以实时评估出收集到的用户的数据的可靠程度，并调整数据收集的方向，会通过人工询问用户的方式收集用户的数据。因为人工可以通过用户的回答，判断信息获取的可靠性及涉及的风险因素，从而有针对性的进行进一步深入的提问，从而收集到多个维度上的数据，并且可以通过进一步深入的提问及时验证用户的数据的可靠性。

但是人工的方式不仅效率低，并且对于询问人员的业务素质存在较高的要求，一致性差，所以无法有效地保证所得到用户的数据以及用户的数据的可信度程度的可靠性，也很难标准化规模化复制。

发明内容

基于上述现有技术的不足，本发明提供了一种用户数据的自动化收集方法及装置，以解决现有技术，通过人工询问的方式收集用户数据，无法有效地保证标准化、同时有针对性的获取用户的数据以及用户的数据的可信度程度的可靠性的问题。

为了实现上述目的，本发明提供了以下技术方案：

本发明一方面提供了一种用户数据的自动化收集方法，包括：

在接收到数据收集请求时，输出每个目标收集维度对应的至少一个收集类问题，并针对每个所述目标收集维度对应的每一个收集类问题的反馈数据，设置对应的置信度；其中，所述置信度用于说明所述收集类问题的反馈数据的可信程度；

分别根据每个所述目标收集维度对应的收集类问题的反馈数据以及所述反馈数据的置信度，计算得到每个所述目标收集维度对应的总体置信度；

输出每个所述目标收集维度对应的验证问题；

接收用户输入的每个所述目标收集维度对应的验证问题的反馈数据，并利用所述每个所述目标收集维度对应的验证问题的反馈数据，验证所述目标收集维度对应的收集类问题的反馈数据的置信度，得到每个所述目标收集维度对应的收集类问题的反馈数据的验证结果；

基于每个所述目标收集维度对应的收集类问题的反馈数据的验证结果，对所述目标收集维度对应的总体置信度进行修正；

输出每个所述目标收集维度对应的收集类问题的反馈数据以及每个所述目标收集维度对应的修正后的所述总体置信度。

可选地，在上述方法中，所述在接收到数据收集请求时，输出每个目标收集维度对应的至少一个收集类问题，并针对每个所述目标收集维度对应的每一个收集类问题的反馈数据，设置对应的置信度，包括：

在接收到数据收集请求时，选取出多个收集维度，并将所述选取出的每个收集维度作为目标收集维度；

针对每个所述目标收集维度，从本地题库中的多个收集类问题中，筛选得到至少一个基础收集类问题；

分别采用每个所述基础收集类问题的输出方式，输出所述基础收集类问题；

获取每个所述基础收集类问题的反馈数据，并分别根据每个所述基础收集类问题对应的置信度确定方法，设置每个所述基础收集类问题的反馈数据的置信度；

基于每个所述基础收集类问题的反馈数据的置信度，从所述本地题库中的多个收集类问题中，筛选得到多个与任意一个所述基础收集类问题存在关联关系的深入收集类问题；

分别采用每个所述深入收集类问题对应的输出方式，输出所述深入收集类问题；

获取每个所述深入收集类问题的反馈数据，并分别根据每个所述深入收集类问题对应的置信度确定方法，设置每个所述深入收集类问题的反馈数据的置信度。

可选地，在上述方法中，所述输出每个所述目标收集维度对应的验证问题，包括：

针对每一个所述目标收集维度，将从本地题库中的多个验证问题中，筛选得到所述目标收集维度对应的验证问题，或者从云数据库中确定出所述目标收集维度对应的验证问题输出；其中，所述每个所述目标收集维度对应的验证问题，基于每个所述目标收集维度对应的所述收集类问题的反馈数据进行筛选得到。

可选地，在上述方法中，所述利用所述每个所述目标收集维度对应的验证问题的反馈数据，验证所述目标收集维度对应的收集类问题的反馈数据的置信度，得到每个所述目标收集维度对应的收集类问题的反馈数据的验证结果，包括：

分别验证所述每个所述目标收集维度对应的验证问题的反馈数据的正确性；

其中，若无法验证所述目标收集维度对应的验证问题的反馈数据的正确性，则确定所述目标收集维度对应的收集类问题的反馈数据的验证结果为无法验证；

若验证出所述目标收集维度对应的验证问题的反馈数据是错误的，则确定所述目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较低；

若验证出所述目标收集维度对应的验证问题的反馈数据是正确的，则确定所述目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较高。

可选地，在上述方法中，所述基于每个所述目标收集维度对应的收集类问题的反馈数据的验证结果，对所述目标收集维度对应的总体置信度进行修正，包括：

若所述目标收集维度对应的收集类问题的反馈数据的验证结果为无法验证，则计算预设的所述验证问题对应的第一修正系数与所述目标收集维度对应的总体置信度的乘积，得修正后的所述目标收集维度对应的总体置信度；其中，所述第一修正系数小于1；

若所述目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较低，则计算预设的所述验证问题对应的第二修正系数与所述目标收集维度对应的总体置信度的乘积，得修正后的所述目标收集维度对应的总体置信度；其中，所述第二修正系数小于1；

若所述目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较高，则计算预设的所述验证问题对应的第三修正系数与所述目标收集维度对应的总体置信度的乘积，得修正后的所述目标收集维度对应的总体置信度；其中，所述第三修正系数等于1。

可选地，在上述方法中，所述在接收到数据收集请求时，针对每个所述目标收集维度，从本地题库中的多个收集类问题中，筛选得到至少一个基础收集类问题，包括：

确定所要选取所述基础收集类问题的总数量；

根据所述所要筛选的所述基础收集类问题的总数量、以及每个所述目标收集维度对应的每个所述收集类问题的重要度系数，确定出每个所述目标收集维度对应的所述基础收集类问题的选取数量；其中，所述目标收集维度对应的所述收集类问题的重要度系数越大，所述目标收集维度对应的所述基础收集类问题的选取数量越多；

分别从每个所述目标收集维度对应的多个所述收集类问题中，筛选得到满足每个所述目标收集维度对应的所述基础收集类问题的选取数量的基础收集类问题。

可选地，在上述方法中，所述基于每个所述基础收集类问题的反馈数据的置信度，从所述本地题库中的多个收集类问题中，筛选得到多个与任意一个所述基础收集类问题存在关联关系的深入收集类问题，包括：

分别针对每个所述基础收集类问题，根据所述基础收集类问题的反馈数据的置信度，计算得到与所述基础收集类问题存在关联关系的深入收集类问题的待选取数量；其中，所述基础收集类问题的反馈数据的置信度越低，计算得到的所要选取的与所述基础收集类问题存在关联关系的所述深入收集类问题的待选取数量越多；

分别从与每个所述基础收集类问题存在关联关系的收集类问题中，筛选得到满足所述待选取数量要求的深入收集类问题。

本发明另一方提供了一种用户数据的自动化收集装置，包括：

收集单元，用于在接收到数据收集请求时，输出每个目标收集维度对应的至少一个收集类问题，并针对每个所述目标收集维度对应的每一个收集类问题的反馈数据，设置对应的置信度；其中，所述置信度用于说明所述收集类问题的反馈数据的可信程度；

第一计算单元，用于分别根据每个所述目标收集维度对应的收集类问题的反馈数据以及所述反馈数据的置信度，计算得到每个所述目标收集维度对应的总体置信度；

第一输出单元，用于输出每个所述目标收集维度对应的验证问题；

验证单元，用于接收用户输入的每个所述目标收集维度对应的验证问题的反馈数据，并利用所述每个所述目标收集维度对应的验证问题的反馈数据，验证所述目标收集维度对应的收集类问题的反馈数据的置信度，得到每个所述目标收集维度对应的收集类问题的反馈数据的验证结果；

修正单元，用于基于每个所述目标收集维度对应的收集类问题的反馈数据的验证结果，对所述目标收集维度对应的总体置信度进行修正；

第二输出单元，用于输出每个所述目标收集维度对应的收集类问题的反馈数据以及每个所述目标收集维度对应的修正后的所述总体置信度。

可选地，在上述装置中，所述收集单元，包括：

选取单元，用于在接收到数据收集请求时，选取出多个收集维度，并将所述选取出的每个收集维度作为目标收集维度；

第一筛选单元，用于针对每个所述目标收集维度，从本地题库中的多个收集类问题中，筛选得到至少一个基础收集类问题；

第三输出单元，用于分别采用每个所述基础收集类问题的输出方式，输出所述基础收集类问题；

第一设置单元，用于获取每个所述基础收集类问题的反馈数据，并分别根据每个所述基础收集类问题对应的置信度确定方法，设置每个所述基础收集类问题的反馈数据的置信度；

第二筛选单元，用于基于每个所述基础收集类问题的反馈数据的置信度，从所述本地题库中的多个收集类问题中，筛选得到多个与任意一个所述基础收集类问题存在关联关系的深入收集类问题；

第四输出单元，用于分别采用每个所述深入收集类问题对应的输出方式，输出所述深入收集类问题；

第二设置单元，用于获取每个所述深入收集类问题的反馈数据，并分别根据每个所述深入收集类问题对应的置信度确定方法，设置每个所述深入收集类问题的反馈数据的置信度。

可选地，在上述装置中，所述第一输出单元，包括：

第一输出子单元，用于针对每一个所述目标收集维度，将从本地题库中的多个验证问题中，筛选得到所述目标收集维度对应的验证问题，或者从云数据库中确定出所述目标收集维度对应的验证问题输出；

其中，所述每个所述目标收集维度对应的验证问题，基于每个所述目标收集维度对应的所述收集类问题的反馈数据进行筛选得到。

可选地，在上述装置中，所述验证单元，包括：

验证子单元，用于分别验证所述每个所述目标收集维度对应的验证问题的反馈数据的正确性；

其中，所述验证子单元在无法验证所述目标收集维度对应的验证问题的反馈数据的正确性时，则确定所述目标收集维度对应的收集类问题的反馈数据的验证结果为无法验证；在验证出所述目标收集维度对应的验证问题的反馈数据是错误的时，则确定所述目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较低；在验证出所述目标收集维度对应的验证问题的反馈数据是正确的时，则确定所述目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较高。

可选地，在上述装置中，所述修正单元，包括：

第一修正单元，用于在所述目标收集维度对应的收集类问题的反馈数据的验证结果为无法验证时，计算预设的所述验证问题对应的第一修正系数与所述目标收集维度对应的总体置信度的乘积，得修正后的所述目标收集维度对应的总体置信度；其中，所述第一修正系数小于1；

第二修正单元，用于在所述目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较低时，计算预设的所述验证问题对应的第二修正系数与所述目标收集维度对应的总体置信度的乘积，得修正后的所述目标收集维度对应的总体置信度；其中，所述第二修正系数小于1；

第三修正单元，用于在所述目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较高时，计算预设的所述验证问题对应的第三修正系数与所述目标收集维度对应的总体置信度的乘积，得修正后的所述目标收集维度对应的总体置信度；其中，所述第三修正系数等于1。

可选地，在上述装置中，所述第一筛选单元，包括：

第一确定单元，用于确定所要选取所述基础收集类问题的总数量；

第二确定单元，用于根据所述所要筛选的所述基础收集类问题的总数量、以及每个所述目标收集维度对应的每个所述收集类问题的重要度系数，确定出每个所述目标收集维度对应的所述基础收集类问题的选取数量；其中，所述目标收集维度对应的所述收集类问题的重要度系数越大，所述目标收集维度对应的所述基础收集类问题的选取数量越多；

第一筛选子单元，用于分别从每个所述目标收集维度对应的多个所述收集类问题中，筛选得到满足每个所述目标收集维度对应的所述基础收集类问题的选取数量的基础收集类问题。

可选地，在上述装置中，所述第二筛选单元，包括：

第二计算单元，用于分别针对每个所述基础收集类问题，根据所述基础收集类问题的反馈数据的置信度，计算得到与所述基础收集类问题存在关联关系的深入收集类问题的待选取数量；其中，所述基础收集类问题的反馈数据的置信度越低，计算得到的所要选取的与所述基础收集类问题存在关联关系的所述深入收集类问题的待选取数量越多；

第二筛选子单元，用于分别从与每个所述基础收集类问题存在关联关系的收集类问题中，筛选得到满足所述待选取数量要求的深入收集类问题。

本发明提供了一种用户数据的自动化收集方法及装置，通过预设多个问题，从而在接收到数据收集请求时，可以输出每个目标收集维度对应的至少一个收集问题，从而收集到多个目标收集维度上的收集类问题的反馈数据。并且，通过设置每个收集类问题的反馈数据的置信度，明确每个反馈数据的可信程度性。并且，通过及时的输出每个所述目标收集维度对应的验证问题，以通过每个目标收集维度对应的验证问题的反馈数据，验证目标收集维度对应的收集类问题的反馈数据的置信度，并基于验证的结果相应地对目标收集维度对应的总体置信度进行修正确，从而有效保证收集准确的用户的数据以及各个用户的数据的置信。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种用户数据的自动化收集方法的流程示意图；

图2为本发明实施例提供的另一种用户数据的自动化收集方法的流程示意图；

图3为本发明实施例提供的另一种用户数据的自动化收集方法的流程示意图；

图4为本发明实施例提供的另一种用户数据的自动化收集方法的流程示意图；

图5为本发明另一实施例提供的一种用户数据的自动化收集装置的结构示意图；

图6为本发明另一实施例提供的一种收集单元的结构示意图；

图7为本发明另一实施例提供的一种第一筛选单元的结构示意图；

图8为本发明另一实施例提供的一种第二筛选单元的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供了一种用户数据的自动化收集方法，如图1所示，包括：

S101、在接收到数据收集请求时，输出每个目标收集维度对应的至少一个收集类问题，并针对每个目标收集维度对应的每一个收集类问题的反馈数据，设置对应的置信度。

其中，置信度用于说明收集类问题的反馈数据的可信程度。收集类问题指的是用于收集用户数据的问题。

具体的，可以根据所要收集数据的需求，预设多个收集维度，例如需要收集用户的数据来评估用户的信用风险，则可以设置收入、资产、婚姻状态等收集维度。从而在接收到数据收集请求时，可以从预设的多个收集维度中选取出部分收集维度，并将选取出的收集维度确定为目标收集维度，作为本次数据收集的目标收集维度。当然，也可以是将所有的预设的收集维度作为目标收集维度。在确定目标收集维度后，输出每个目标收集维度对应的至少一个收集类问题，来对用户的数据进行收集。

可选地，输出每个目标收集维度对应的收集类问题可以是通过语音或者文本等方式输出，以让用户获得输出的收集类问题，从而获取用户对于收集类问题的反馈数据。所以，收集类问题可以语音数据也可以是文本等其他类型的数据。

可选地，获取收集类问题的反馈数据，同样可以是通过收集用户的语音数据，也可以是用户在用户界面输出的文本数据，又或者是经用户授权后从第三方渠道获得的反馈数据等。例如，收集类问题是提问用户的年纳税金额，则可以通过麦克风收集用户的语音回复得到用户的年纳税金额，也可以在用户界面上提示用户输入年纳税金额，从而获得用户输入的年纳税金额，又或者在用户界面上让用户授权，从税务局得到用户的年纳税金额等。

具体的，在获取到用户对收集类问题的反馈数据后，为每个反馈数据设置对应的置信度。可选地，可以根据反馈数据的来源渠道，反馈数据的反馈时间、用户的语调、语速或者通过用户注视点的移动情况等一个或多个方式的组合来确定反馈数对应的置信度。

可选地，本发明另一实施中，步骤S101的一种具体实现方式，如图2所示，包括：

S201、在接收到数据收集请求时，选取出多个收集维度，并将选取出的每个收集维度作为目标收集维度。

S202、针对每个目标收集维度，从本地题库中的多个收集类问题中，筛选得到至少一个基础收集类问题。

首先需要说明的是，在本发明实施例中，需要预先建立一个包含有多个问题的本地题库。具体的，为每个目标收集维度设置多个问题，并设置每个问题的属性，然后将所述问题以及属性存储在本地题库中。可选地，问题的属性包括输出方式、问题反馈方式、目的、问题对应的目标收集维度、问题的重要度系数以及支持系数、与其他问题的关联关系、置信度确认方式。以及修正系数等属性。

其中，问题的目的包括收集和验证两个目的，所以可以根据问题的目的将所有的问题划分为收集类问题，用于收集用户的数据，例如直接询问用户的收入等，以及验证问题，用于验证用户的反馈数据，例如，知道用户的出生日期，询问用户的生肖等。问题的重要度系数根据问题的反馈数据的重要程度的高低确定，例如，收入就比婚姻状况更能反应用户的信用风险，所以收入相关问题的重要度系数就大于婚姻相关问题的重要度系数。支持系数则为对在所对应的目标收集维度上的收集到的数据的置信度的支持程度的大小确定。例如，用户的每月工资流水对收入这一目标收集维度的支持程度，要大于用户所在企业性质或工作岗位对收入维度的支持程度，所以用户的每月工资流水问题的支持系数就大于用户所在企业性质及岗位的支持系数。

还需要说明的是，只有验证问题才需要设置修正系数，其根据该问题对于被验证数据的置信度的影响程度设定。具体的，一个问题对于被验证数据的置信度的影响程度，可根据以往的大数据来确定。即在该问题回答正确时，若后来确定被验证数据出现错误的几率小，或者该问题回答错误时，相应的后来确定被验证数据出现错误的几率高，则确定该问题对于被验证数据的影响程度高。

所以具体的，在接收到数据收集请求时，可以针对每个目标收集维度，根据问题的属性，从本地题库中的多个收集类问题中，筛选得到至少一个收集类问题作为基础收集类问题。

可选地，本发明另一实施例中，步骤S202的一种具体实现方式，如图3所示，包括：

S301、确定所要选取基础收集类问题的总数量。

需要说明的是，为了能输出每个目标收集维度对应的至少一个基础收集类问题，所以确定的所要选取基础收集类问题的总数量不少于目标收集维度的数量。

S302、根据所要筛选的基础收集类问题的总数量、以及每个目标收集维度对应的每个收集类问题的重要度系数，确定出每个目标收集维度对应的基础收集类问题的选取数量。

其中，目标收集维度对应的收集类问题的重要度系数越大，目标收集维度对应的基础收集类问题的选取数量越多。

因为问题的重要度系数表示了问题反馈数据的重要程度，所以所筛选得到的重要度系数高的问题的数量应该更多。所以在本发明实施例中，在每个目标收集维度对应的基础收集类问题的选取数量，由目标收集维度对应的收集类问题的重要度系数决定。即也可以理解为目标收集维度对应的收集类问题的重要度系数，决定了该目标收集维度对应的基础收集类问题的选取数量在总数量中的占比。

具体的，例如从m个目标收集维度上，依次选取k个问题，则第i个问题，选取到第j个目标收集维度的概率则为：

其中，α_j为第j个目标收集维度的重要度系数。α_r为各个目标收集维度的重要度系数，b为预设每个目标收集维度权重调整参数。n为在第j个目标收集维度上选取的收集问题的最大数量。

为前第1到i-1个问题中，选中第j个目标收集维度的数量。

S303、分别从每个目标收集维度对应的多个收集类问题中，筛选得到满足每个目标收集维度对应的基础收集类问题的选取数量的基础收集类问题。

具体的，随机从每个目标收集维度对应的多个收集类问题中，筛选得到满足每个目标收集维度对应的基础收集类问题的选取数量的收集类问题作为基础收集类问题。

可选地，在本发明实施例中，随机选取收集类问题并不是等概率随机，即每个收集类问题被选中的概率并不相同。其中，每个问题被选中的概率与该问题的属性的支持系数有关，问题的属性中的支持系数越大，问题所被选取到的概率就越大。

具体的，例如在上述的例子中从m个目标收集维度中，确定其中一个目标收集维度后，从n个收集类问题中，选择一个收集类问题，而选取到属于该目标收集维度的第s个收集类问题的概率为：

其中，β_s为第s个收集类问题的支持系数，β_r为各个收集类问题的支持系数，

为目标收集维度支持强度权重调整参数。

S203、分别采用每个基础收集类问题的输出方式，输出基础收集类问题。

也就是说，在本发明实施例中，每个基础收集类问题的输出方式可能是不相同的，采用不同的问题不仅可以在一定程度上实现反欺诈，并且还能提高用户的体验等。

可选地，在输出每个基础收集类问题时，还可以相应地输出基础收集类问题的对应的反馈方式。

S204、获取每个基础收集类问题的反馈数据，并分别根据每个基础收集类问题对应的置信度确定方法，设置每个基础收集类问题的反馈数据的置信度。

由于，每个基础收集类问题对应的目标收集维度不同，反馈数据的获取方式也存在区别，所以应该分别采用每个基础收集类问题对应的置信度确定方法，来确定每个基础收集类问题的置信度，从而保证得到的执行度的准确性。例如，基础收集类问题是关于用户的收入，则在确定该基础收集类问题时，反馈数据的获取渠道所占的比例更大。而对于需要用户主观回答的问题，则用户反馈的时间或者语速所占的比例更大。

S205、基于每个基础收集类问题的反馈数据的置信度，从本地题库中的多个收集类问题中，筛选得到多个与任意一个基础收集类问题存在关联关系的深入收集类问题。

也就是说，本发明实施例中，所输出的收集类问题分为基础收集类问题和深入收集类问题，并且深入收集类问题是在获取到基础收集类问题的反馈数据后，再从本地题库中筛选并输出。在获取到基础收集类问题的回复数据后，根据基础收集类问题的反馈数据的置信度，再进一步确定深入收集类问题，从而可以通过深入收集类问题进一步收集用户的数据，也能进一步降低收集到用户的反馈数据虚假性和偶然性。

可选地，在本发明另一实施例中，步骤S205的一种具体实现方式，如图4所示，包括：

S401、分别针对每个基础收集类问题，根据基础收集类问题的反馈数据的置信度，计算得到与基础收集类问题存在关联关系的深入收集类问题的待选取数量。

其中，基础收集类问题的反馈数据的置信度越低，计算得到的所要选取的与基础收集类问题存在关联关系的深入收集类问题的待选取数量越多。因为，基础收集类问题的反馈数据的置信度越低，说明反馈数据的可信程度越低，反馈数据存在虚假的可能性越高，所以需要选取更多的存在关联关系的收集类问题，进一步的收集用户在这一方面上的数据。

具体的，针对每个基础收集类问题，以设置的每个基础收集类的反馈数据的置信度作为权重参数，以及所要选取的深入收集类问题的总数量，确定从与每个基础收集类问题的存在关联关系的收集类问题中选取深入收集类问题的数量。假设某个基础收集类问题的反馈数据的置信度为ψ_i，则以

为选取数量权重；其中，

为预设的置信度可靠性权重。然后，根据所要选取的深入收集类问题的总数量，以及该基础收集类问题对应的选取数量权重，确定从该基础收集类问题的关系谱中选取收集类问题的数量，即确定选取与该基础收集类问题存在关联关系的收集类问题作为深入收集类问题的数量。

更具体的，例如在得到上述例子中的k个基础收集类问题的置信度后，确定所要选取的深入收集类问题为l个，若各个基础收集类问题的置信度为ψ_r，则第i个基础收集类问题的置信度为ψ_i，则从第i个基础收集类问题的关系谱中的收集类问题中选取深入收集类问题的待选取数量为：

其中，θ_i为

向下取整后的整数，两者的差值即小数部分为：

所以，当

小于1时，θ_i＝0，因此当基础收集类问题的反馈数据的置信度足够大，那么从与该基础收集类问题存在关联关系的收集类问题中选取深入收集类的问题的数量为0。

由于，待选取数量是向下取整得到的，所以很大概率上会出现计算得到的，每个基础收集类问题对应的深入收集类问题的待选取数量的总和小于l，即出现

且l′不等于0的情况。此时，从ε_i的前l′个最大值所对应的基础收集类问题的关系谱中再各选取一个深入收集类问题

S402、分别从与每个基础收集类问题存在关联关系的收集类问题中，筛选得到满足待选取数量要求的深入收集类问题。

针对，每个基础收集类问题，从与其存在关联关系的收集类问题中，随机选取得到满足对应的待选取数量的收集类问题作为深入收集类问题。

S206、分别采用每个深入收集类问题对应的输出方式，输出深入收集类问题。

同样，每个深入收集类问题都是通过其对应的输出方式被输出，而不是采用统一的输出方式，本步骤的具体实现过程可相应地参考上述步骤S203的具体实现方式，此处不再赘述。

S207、获取每个深入收集类问题的反馈数据，并分别根据每个深入收集类问题对应的置信度确定方法，设置每个深入收集类问题的反馈数据的置信度。

深入收集类问题与基础收集类问题都同时从收集类问题中筛选得到的，所以两种属于同一类型的问题，因此，步骤S207的具体实现方式可相应地参考上述步骤S204的具体实现过程，此处不再赘述。

S102、分别根据每个目标收集维度对应的收集类问题的反馈数据以及反馈数据的置信度，计算得到每个目标收集维度对应的总体置信度。

其中，目标收集维度对应的总体置信度可以理解为通过该目标收集维度对应的收集类问题收集到的用户的所有数据的总的置信度。

具体的，针对每个收集问题，根据每个目标收集维度对应的输出的收集类问题的反馈数据以及反馈数据的置信度，计算得到每个目标收集维度对应的所有收集类问题的反馈数据的总的置信度。其中，每个目标收集维度对应的所有收集类问题包括筛选得到的基础收集类问题以及深入收集类问题。

可选地，计算每个目标收集维度对应的总体置信度，可以是分别将每个目标收集维度对应的收集类问题的反馈数据以及反馈数据的置信度作为一个集合，并依次从集合中确定出相似程度满足预设条件的两个反馈数据，然后将两个反馈数据合并为一个反馈数据，并且将两个反馈数据的两个置信度合并为一个置信度，最后再对每个集合中的所有置信度，求几何平均值得到每个目标收集维度对应的总体置信度。

S103、输出每个目标收集维度对应的验证问题。

需要说明的是，验证问题是用于验证收集类问题的反馈数据的问题。例如，当反馈数据为用户在本科就读的大学的名称，则验证问题可以是询问用户，其所本科所就读的学校的校训。所以，验证问题需要根据收集类问题的反馈数据，进行相应地筛选得到。

所以，在执行步骤S102后，基于每个所述目标收集维度对应的所述收集类问题的反馈数据，筛选得到每个所述目标收集维度对应的验证问题。并输出给用户。

需要说明的是，因为目标收集维度对应的总体置信度越低，则该收集问题对应的收集类问题的反馈数据越需要进行验证，因此输出该目标收集维度对应的验证问题的数量应该越多。

可选地，输出的每个目标收集维度对应的验证的问题的数量，具体可以基于每个目标收集维度对应的总体置信度，采用图4所对应的实施例中的步骤S401中，所提及的深入收集类问题的待选取数量的确定方式，确定每个目标收集维度对应的验证的问题的数量。从而可以实现，目标收集维度对应的总体置信度越低，则所确定的要输出的该目标收集维度对应的验证问题的数量就越多。

相应的，当目标收集维度对应的总体置信度足够高时，则确定出的该目标收集维度对应的验证问题的数量可以为零。所以，具体与预设的置信度可靠性权重

的大小相关。

可选地，本发明另一实施例，提供了一种步骤S103的具体方式，包括：针对每一个所述目标收集维度，将从本地题库中的多个验证问题中，筛选得到目标收集维度对应的验证问题，或者从云数据库中确定出目标收集维度对应的验证问题输出。

其中，每个所述目标收集维度对应的验证问题，基于每个目标收集维度对应的所述收集类问题的反馈数据进行筛选得到。

也就是说，本发明实施例中，验证问题可以中本地题库中筛选得到，也可以从云数据库中筛选得到。具体的，从本地题库中筛选得到验证问题，则需要预先在本地题库中，根据收集类问题设置多个验证问题，并建立验证问题与收集问题的关联关系。后续可以根据收集类问题的反馈数据，从本地题库中筛选得到该收集类问题的反馈数据的验证问题。

具体从云数据库中筛选得到验证问题，可以在获取到收集类问题的反馈数据后，根据反馈数据从网上收集多个与反馈数据相对应的验证问题，组成云数据库，然后再从云数据库中筛选得到验证问题。

可选地，从本地题库筛选验证问题的数量，和从云数据库筛选验证问题数量，可以分别占验证问题总量的一般。并且从本地题库筛选验证问题，或从云数据库筛选问题，都可以相应地，采用图4所对应的实施例，所提供的深入收集类问题的筛选方法。具体可相应参考上述步骤S401及步骤S402的具体实现过程，此处不再赘述。

S104、接收用户输入的每个目标收集维度对应的验证问题的反馈数据，并利用每个目标收集维度对应的验证问题的反馈数据，验证目标收集维度对应的收集类问题的反馈数据的置信度，得到每个目标收集维度对应的收集类问题的反馈数据的验证结果。

具体的，通过接收到的用户输入的每个目标收集维度对应的验证问题的反馈数据，验证所得到的目标收集维度对应的收集类问题的反馈数据的置信度是否足够可信。

S105、基于每个目标收集维度对应的收集类问题的反馈数据的验证结果，对目标收集维度对应的总体置信度进行修正。

具体的，对目标收集维度对应的总体置信度进行修正，就是基于每个目标收集维度对应的收集类问题的反馈数据的验证结果，相应地调高或调低，又或者不改变目标收集维度对应的总体置信度。其中，当验证结果说明目标收集维度对应的收集类问题的反馈数据的可信程度高时，可以相应不改变或者调高目标收集维度对应的总体置信度，当验证结果说明目标收集维度对应的收集类问题的反馈数据的可信程度低时，则降低目标收集维度对应的总体置信度。

可选地，本发明另一实施例中，步骤S104的一种具体实现方式，包括：分别验证每个目标收集维度对应的验证问题的反馈数据的正确性。

具体可以是，通过查找验证问题的正确答案，并通过验证问题的正确答案与用户输入的反馈数据进行对比，从而确定每个目标收集维度对应的验证问题的反馈数据的正确性。

可选地，针对每个目标收集维度，可以是验证目标收集维度对应的每个的验证问题的反馈数据都正确时，则确定该目标收集维度对应的验证问题的反馈数据的是正确的；若存在任意一个验证问题的反馈数据是错误的，则确定该目标收集维度对应的验证问题的反馈数据的是错误的；若存在预设数量的验证问题的反馈数据无法验证，则确定该目标收集维度对应的验证问题的反馈数据为无法验证。当然，这只是其中一种可选地的方式，也可以是通过其他的规则，确定一个维度对应的验证问题的反馈数据的正确性。

例如，可以通过设置正确率的方式，确定一个维度对应的验证问题的反馈数据的正确性。即当验证目标收集维度对应的验证问题的反馈数据的正确率满足要求时，则确定该目标收集维度对应的验证问题的反馈数据的是正确。当验证目标收集维度对应的验证问题的反馈数据的正确率不满足要求时，则确定该目标收集维度对应的验证问题的反馈数据的是错误的；当存在预设数量的验证问题的反馈数据无法验证，则确定该目标收集维度对应的验证问题的反馈数据为无法验证。

需要说明的是，在本发明实施例中，若无法验证目标收集维度对应的验证问题的反馈数据的正确性，则确定目标收集维度对应的收集类问题的反馈数据的验证结果为无法验证；若验证出目标收集维度对应的验证问题的反馈数据是错误的，则确定目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较低；若验证出目标收集维度对应的验证问题的反馈数据是正确的，则确定目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较高。

相应地，本发明实施例中，步骤S105的具体实现方式，包括：

若目标收集维度对应的收集类问题的反馈数据的验证结果为无法验证，则计算预设的验证问题对应的第一修正系数与所述目标收集维度对应的总体置信度的乘积，得修正后的目标收集维度对应的总体置信度。

若目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较低，则计算预设的验证问题对应的第二修正系数与目标收集维度对应的总体置信度的乘积，得修正后的目标收集维度对应的总体置信度。

若目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较高，则计算预设的验证问题对应的第三修正系数与目标收集维度对应的总体置信度的乘积，得修正后的目标收集维度对应的总体置信度。

其中，第一修正系数和第二修正系数都小于1，并且第一修正系数大于第二修正系数；第三修正系数等于1。

也就是说，在本发明实施例中，验证结果为无法验证和错误时，都降低目标收集维度对应的总体置信度，并且验证结果为错误时降低的幅度大于，验证结果为无法验证时的降低幅度。对于验证结果为正确时，则不改变目标收集维度对应的总体置信度。当然，这只是其中一种可选地的方式，也可以采用设定其他的修正系数，对目标收集维度对应的总体置信度进行相应的修正，这都应属于本发明的保护范畴。

S106、输出每个目标收集维度对应的收集类问题的反馈数据以及每个目标收集维度对应的修正后的总体置信度。

最后，将收集到的各个维度对应的收集问题的反馈数据，以及收集到各个首目标收集维度对应的修正后的总体置信度输出。

本发明实施例提供的一种用户数据的自动化收集方法，通过预设多个问题，从而在接收到数据收集请求时，可以输出每个目标收集维度对应的至少一个收集问题，从而收集到多个目标收集维度上的收集类问题的反馈数据。并且，通过设置每个收集类问题的反馈数据的置信度，明确每个反馈数据的可信程度性。并且，通过及时的输出每个所述目标收集维度对应的验证问题，以通过每个目标收集维度对应的验证问题的反馈数据，验证目标收集维度对应的收集类问题的反馈数据的置信度，并基于验证的结果相应地对目标收集维度对应的总体置信度进行修正确，从而有效保证收集准确的用户的数据以及各个用户的数据的置信。

本发明另一实施例提供了一种用户数据的自动化收集装置，如图5所示，包括：

收集单元501，用于在接收到数据收集请求时，输出每个目标收集维度对应的至少一个收集类问题，并针对每个目标收集维度对应的每一个收集类问题的反馈数据，设置对应的置信度。

其中，置信度用于说明收集类问题的反馈数据的可信程度。

需要说明的是，收集单元501的具体工作过程可相应地参考上述方法实施例中的步骤S101，此处不再赘述。

第一计算单元502，用于分别根据每个目标收集维度对应的收集类问题的反馈数据以及反馈数据的置信度，计算得到每个目标收集维度对应的总体置信度。

需要说明的是，第一计算单元502的具体工作过程可相应地参考上述方法实施例中的步骤S102，此处不再赘述。

第一输出单元503，用于输出每个目标收集维度对应的验证问题。

需要说明的是，第一输出单元503的具体工作过程可相应地参考上述方法实施例中的步骤S103，此处不再赘述。

验证单元504，用于接收用户输入的每个目标收集维度对应的验证问题的反馈数据，并利用每个目标收集维度对应的验证问题的反馈数据，验证目标收集维度对应的收集类问题的反馈数据的置信度，得到每个目标收集维度对应的收集类问题的反馈数据的验证结果。

需要说明的是，验证单元504的具体工作过程可相应地参考上述方法实施例中的步骤S104，此处不再赘述。

修正单元505，用于基于每个目标收集维度对应的收集类问题的反馈数据的验证结果，对目标收集维度对应的总体置信度进行修正。

需要说明的是，修正单元505的具体工作过程可相应地参考上述方法实施例中的步骤S105，此处不再赘述。

第二输出单元506，用于输出每个目标收集维度对应的收集类问题的反馈数据以及每个目标收集维度对应的修正后的总体置信度。

需要说明的是，第二输出单元506的具体工作过程可相应地参考上述方法实施例中的步骤S106，此处不再赘述。

可选地，本发明另一实施例中，收集单元501，如图6所示，具体包括：

选取单元601，用于在接收到数据收集请求时，选取出多个收集维度作为目标收集维度。

第一筛选单元602，用于在接收到数据收集请求时，针对每个目标收集维度，从本地题库中的多个收集类问题中，筛选得到至少一个基础收集类问题。

需要说明的是，第一筛选单元602的具体工作过程可相应地参考上述方法实施例中的步骤S202，此处不再赘述。

第三输出单元603，用于分别采用每个基础收集类问题的输出方式，输出基础收集类问题。

需要说明的是，第三输出单元603的具体工作过程可相应地参考上述方法实施例中的步骤S203，此处不再赘述。

第一设置单元604，用于获取每个基础收集类问题的反馈数据，并分别根据每个基础收集类问题对应的置信度确定方法，设置每个基础收集类问题的反馈数据的置信度。

需要说明的是，第一设置单元604的具体工作过程可相应地参考上述方法实施例中的步骤S204，此处不再赘述。

第二筛选单元605，用于基于每个基础收集类问题的反馈数据的置信度，从本地题库中的多个收集类问题中，筛选得到多个与任意一个基础收集类问题存在关联关系的深入收集类问题。

需要说明的是，第二筛选单元605的具体工作过程可相应地参考上述方法实施例中的步骤S205，此处不再赘述。

第四输出单元606，用于分别采用每个深入收集类问题对应的输出方式，输出深入收集类问题。

需要说明的是，第四输出单元606的具体工作过程可相应地参考上述方法实施例中的步骤S206，此处不再赘述。

第二设置单元607，用于获取每个深入收集类问题的反馈数据，并分别根据每个深入收集类问题对应的置信度确定方法，设置每个深入收集类问题的反馈数据的置信度。

需要说明的是，第二设置单元607的具体工作过程可相应地参考上述方法实施例中的步骤S207，此处不再赘述。

可选地，本发明另一实施例中，第一输出单元503，包括：

第一输出子单元，用于针对每一个目标收集维度，将从本地题库中的多个验证问题中，筛选得到目标收集维度对应的验证问题，或者从云数据库中确定出目标收集维度对应的验证问题输出。

其中，每个目标收集维度对应的验证问题，基于每个目标收集维度对应的收集类问题的反馈数据进行筛选得到。

需要说明的是，第一输出子单元的具体工作过程可相应地参考上述方法实施例中的步骤S103的一种具体实现方式，此处不再赘述。

可选地，本发明的另一实施例中，验证单元504，包括：

验证子单元，用于分别验证每个目标收集维度对应的验证问题的反馈数据的正确性。

其中，验证子单元在无法验证目标收集维度对应的验证问题的反馈数据的正确性时，则确定目标收集维度对应的收集类问题的反馈数据的验证结果为无法验证；在验证出目标收集维度对应的验证问题的反馈数据是错误的时，则确定目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较低；在验证出目标收集维度对应的验证问题的反馈数据是正确的时，则确定目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较高。

需要说明的是，验证子单元的具体工作过程可相应地参考上述方法实施例中的步骤S104的一种具体实现方式，此处不再赘述。

可选地，本发明另一实施例中，修正单元505，包括：

第一修正单元，用于在目标收集维度对应的收集类问题的反馈数据的验证结果为无法验证时，计算预设的验证问题对应的第一修正系数与目标收集维度对应的总体置信度的乘积，得修正后的目标收集维度对应的总体置信度。其中，第一修正系数小于1。

第二修正单元，用于在目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较低时，计算预设的验证问题对应的第二修正系数与目标收集维度对应的总体置信度的乘积，得修正后的目标收集维度对应的总体置信度。其中，第二修正系数小于1。

第三修正单元，用于在目标收集维度对应的收集类问题的反馈数据的验证结果为置信度较高时，计算预设的验证问题对应的第三修正系数与目标收集维度对应的总体置信度的乘积，得修正后的目标收集维度对应的总体置信度。其中，第三修正系数等于1。

需要说明的是，本发明实施例中的上述单元的具体工作过程可相应地参考上述方法实施例中的步骤S105的一种具体实现方式，此处不再赘述。

可选地，本发明另一实施例中，第一筛选单元602，如图7所示，包括：

第一确定单元701，用于确定所要选取基础收集类问题的总数量。

需要说明的是，第一确定单元701的具体工作过程可相应地参考上述方法实施例中的步骤S301的一种具体实现方式，此处不再赘述。

第二确定单元702，用于根据所要筛选的基础收集类问题的总数量、以及每个目标收集维度对应的每个收集类问题的重要度系数，确定出每个目标收集维度对应的基础收集类问题的选取数量；其中，目标收集维度对应的收集类问题的重要度系数越大，目标收集维度对应的基础收集类问题的选取数量越多。

需要说明的是，第二确定单元702的具体工作过程可相应地参考上述方法实施例中的步骤S302的一种具体实现方式，此处不再赘述。

第一筛选子单元703，用于分别从每个目标收集维度对应的多个收集类问题中，筛选得到满足每个目标收集维度对应的基础收集类问题的选取数量的基础收集类问题。

需要说明的是，第一筛选子单元703的具体工作过程可相应地参考上述方法实施例中的步骤S303的一种具体实现方式，此处不再赘述。

本发明的另一实施例中，第二筛选单元605，如图8所示，包括：

第二计算单元801，用于分别针对每个基础收集类问题，根据基础收集类问题的反馈数据的置信度，计算得到与基础收集类问题存在关联关系的深入收集类问题的待选取数量。

其中，基础收集类问题的反馈数据的置信度越低，计算得到的所要选取的与基础收集类问题存在关联关系的深入收集类问题的待选取数量越多。

需要说明的是，第二计算单元801的具体工作过程可相应地参考上述方法实施例中的步骤S401的一种具体实现方式，此处不再赘述。

第二筛选子单元802，用于分别从与每个基础收集类问题存在关联关系的收集类问题中，筛选得到满足待选取数量要求的深入收集类问题。

需要说明的是，第二筛选子单元802的具体工作过程可相应地参考上述方法实施例中的步骤S402的一种具体实现方式，此处不再赘述。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用户数据的自动化收集方法，其特征在于，包括：

输出每个所述目标收集维度对应的验证问题；

输出每个所述目标收集维度对应的收集类问题的反馈数据以及每个所述目标收集维度对应的修正后的所述总体置信度；

其中，所述在接收到数据收集请求时，输出每个目标收集维度对应的至少一个收集类问题，并针对每个所述目标收集维度对应的每一个收集类问题的反馈数据，设置对应的置信度，包括：

在接收到数据收集请求时，选取出多个收集维度，并将所述选取出的每个收集维度作为所述目标收集维度；

2.根据权利要求1所述的方法，其特征在于，所述输出每个所述目标收集维度对应的验证问题，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用所述每个所述目标收集维度对应的验证问题的反馈数据，验证所述目标收集维度对应的收集类问题的反馈数据的置信度，得到每个所述目标收集维度对应的收集类问题的反馈数据的验证结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于每个所述目标收集维度对应的收集类问题的反馈数据的验证结果，对所述目标收集维度对应的总体置信度进行修正，包括：

5.根据权利要求1所述的方法，其特征在于，所述针对每个所述目标收集维度，从本地题库中的多个收集类问题中，筛选得到至少一个基础收集类问题，包括：

确定所要选取所述基础收集类问题的总数量；

根据所要筛选的所述基础收集类问题的总数量、以及每个所述目标收集维度对应的每个所述收集类问题的重要度系数，确定出每个所述目标收集维度对应的所述基础收集类问题的选取数量；其中，所述目标收集维度对应的所述收集类问题的重要度系数越大，所述目标收集维度对应的所述基础收集类问题的选取数量越多；

6.根据权利要求1所述的方法，其特征在于，所述基于每个所述基础收集类问题的反馈数据的置信度，从所述本地题库中的多个收集类问题中，筛选得到多个与任意一个所述基础收集类问题存在关联关系的深入收集类问题，包括：

7.一种用户数据的自动化收集装置，其特征在于，包括：

第二输出单元，用于输出每个所述目标收集维度对应的收集类问题的反馈数据以及每个所述目标收集维度对应的修正后的所述总体置信度；

其中，所述收集单元，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一输出单元，包括：

9.根据权利要求7所述的装置，其特征在于，所述验证单元，包括：

10.根据权利要求9所述的装置，其特征在于，所述修正单元，包括：

11.根据权利要求7所述的装置，其特征在于，所述第一筛选单元，包括：

第二确定单元，用于根据所要筛选的所述基础收集类问题的总数量、以及每个所述目标收集维度对应的每个所述收集类问题的重要度系数，确定出每个所述目标收集维度对应的所述基础收集类问题的选取数量；其中，所述目标收集维度对应的所述收集类问题的重要度系数越大，所述目标收集维度对应的所述基础收集类问题的选取数量越多；

12.根据权利要求7所述的装置，其特征在于，所述第二筛选单元，包括：