CN105843889A

CN105843889A - 基于可信度面向大数据及普通数据的数据采集方法和***

Info

Publication number: CN105843889A
Application number: CN201610164635.4A
Authority: CN
Inventors: 朱定局
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2016-03-21
Filing date: 2016-03-21
Publication date: 2016-08-10
Anticipated expiration: 2036-03-21
Also published as: CN105843889B

Abstract

本发明涉及一种数据采集方法和***，其方法包括：获取采集条件，根据采集条件获取多个目标数据；根据预设特征匹配度对目标数据进行分类，得到数据群体；分别获取对应各目标数据的个体可信度，并根据个体可信度获取数据群体的群体可信度；判断群体可信度是否大于或等于预设值；若是，采集数据群体中对应的目标数据存入目标数据库或大数据存储库。如此，根据群体可信度和预设值对目标数据组成的数据群体进行筛选，当群体可信度大于或等于预设值时才采集对应的目标数据，避免采集到不可靠的数据，提高数据采集的正确率。

Description

基于可信度面向大数据及普通数据的数据采集方法和***

技术领域

本发明涉及数据处理技术领域，特别是涉及一种基于可信度面向大数据及普通数据的数据采集方法和***。

背景技术

对数据进行采集时，例如对大数据进行采集，传统的方法通常只是根据***或数据库指定需要的数据类型进行采集后，直接将被采集数据存入***或数据库以备用。例如，存放语言信息的语言数据库需要某个字词的正确释义或发音时，直接采集有这个字词释义或发音的语言信息放入语言数据库，而不会检验被采集的语言信息对该字词的释义或发音是否正确。对于被采集数据的来源可信度不明确以及同一数据对应多个不同来源的采集数据的情况，这种传统的数据采集方法不会对数据的正确性进行检验，易出现存入数据错误或矛盾的情况，采集正确率低。

发明内容

基于此，有必要针对上述问题，提供一种提高采集正确率的数据采集方法和***。

一种数据采集方法，包括以下步骤：

获取采集条件，根据所述采集条件获取多个目标数据；

对所述目标数据进行分类，得到数据群体；

分别获取对应各目标数据的个体可信度，并根据所述个体可信度获取所述数据群体的群体可信度；

判断所述群体可信度是否大于或等于预设值；

若是，则采集所述数据群体中对应的目标数据存入目标数据库或大数据存储库。

一种数据采集***，包括：

数据获取模块，用于获取采集条件，根据所述采集条件获取多个目标数据；

数据分类模块，用于对所述目标数据进行分类，得到数据群体；

群体可信度计算模块，用于分别获取对应各目标数据的个体可信度，并根据所述个体可信度获取所述数据群体的群体可信度；

可信度分析模块，用于判断所述群体可信度是否大于或等于预设值；

数据采集模块，用于在所述群体可信度大于或等于所述预设值时，采集所述数据群体中对应的目标数据存入目标数据库或大数据存储库。

上述数据采集方法和***，通过获取采集条件，根据采集条件获取多个目标数据后，对目标数据进行分类得到数据群体；然后分别获取对应各目标数据的个体可信度，并根据个体可信度获取数据群体的群体可信度；判断群体可信度是否大于或等于预设值，若是，则采集数据群体中对应的目标数据存入目标数据库或大数据存储库。如此，根据群体可信度和预设值对目标数据组成的数据群体进行筛选，当群体可信度大于或等于预设值时才采集对应的目标数据，避免采集到不可靠的数据，提高数据采集的正确率。

附图说明

图1为一实施例中本发明数据采集方法的流程图；

图2为一实施例中根据身份信息查找被采集对象的可信度，将被采集对象的可信度作为对应目标数据的个体可信度的流程图；

图3为另一实施例中本发明数据采集方法的流程图；

图4为一实施例中根据反馈信息修正被采集对象的可信度得到被采集对象新的初始可信度的步骤的流程图；

图5为一实施例中本发明数据采集***的模块图；

图6为另一实施例中本发明数据采集***的模块图；

图7为一实施例中可信度修正模块的单元图。

具体实施方式

大数据指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，具有数量巨大、难于收集、处理、分析等特点。

本发明所指的普通数据指非大数据。

可信度指人或事物被信赖的程度，是根据经验对作为群体为真的相信程度。

参考图1，本发明一实施例中的一种数据采集方法，基于可信度、面向大数据及普通数据实现，包括以下步骤。

S110：获取采集条件，根据采集条件获取多个目标数据。

采集条件指用于指定需要采集数据特征的信息，包括对象和属性。通过根据采集条件可以获取同时符合该采集条件的多个目标数据。目标数据可以是大数据或普通数据。

在其中一实施例中，采集条件为某个指定字词的文本信息、普通话发音信息、某种方言发音信息等，即对象为某个指定字词，属性包括文本信息、普通话发音信息、某种方言发音信息等。对应地，根据该采集条件获取的目标数据包括文本信息和/或语音信息。目标数据可以为多个，例如，用户A、用户B和用户C均录制有某同一字词的语音，采集条件为该字词的语音信息时，对应采集用户A、用户B和用户C录制的语音得到多个目标数据。

S130：对目标数据进行分类，得到数据群体。

在其中一实施例中，步骤S130包括步骤11和步骤12。

步骤11：提取目标数据的预设特征。

其中，预设特征可以根据目标数据的采集条件进行选择。例如，本实施例中，预设特征为采集条件中指定字词的文本信息和/或语音信息。

步骤12：将预设特征的匹配度大于或等于预设匹配度的目标数据作为一个数据群体。

其中，预设匹配度可以根据实际情况进行选择。预设特征匹配度大于或等于预设匹配度，则表示对应的目标数据的预设特征较相似，可以归为一类。通过根据预设特征的匹配度分类，便于对相似目标数据进行统一处理，提高多数据采集的效率。

S150：分别获取对应各目标数据的个体可信度，并根据个体可信度获取数据群体的群体可信度。

可以理解，因为一个数据群体中的每个目标数据的预设特征较相似，所以一个数据群体中的每个目标数据的真实可信度类似，因此一个数据群体中的群体可信度可以代表该个数据群体中每个目标数据的真实可信度。

在其中一实施例中，步骤S150中分别获取对应各目标数据的个体可信度的步骤包括步骤21和步骤22。

步骤21：分别根据各目标数据获取提供目标数据的被采集对象的身份信息。

被采集对象的身份信息指用于识别被采集人身份的信息。每一个被采集对象对应一个唯一的身份信息。本实施例中，被采集对象为人，即目标数据由被采集人提供。例如，目标数据为某字词的语音信息，该语音消息由用户A录制，则用户A为该目标数据的被采集人。具体地，本实施例中，被采集对象的身份信息为被采集人的身份证号码。可以理解，在其他的实施例中，被采集对象也可以是网站等，对应地，被采集对象的身份信息为网址。

步骤22：根据身份信息查找被采集对象的可信度，将被采集对象的可信度作为对应目标数据的个体可信度。

例如，目标数据包括某字词的文本信息和/或语音信息的实施例中，步骤22具体为从语言数据库获取被采集对象的可信度。其中，语言数据库包括多个文本信息和/或语音信息、每个文本信息和/或语音信息的被采集对象的身份信息、每个身份信息的可信度，并且包括文本信息和/或语音信息与身份信息与可信度之间的关联关系。

可以理解，在其他的实施例中，个体可信度也可以是对应目标数据预先存储，即每一个目标数据对应一个个体可信度，只要获取了目标数据，即可根据关联性对应获取个体可信度。

在其中一实施例中，步骤S150中根据个体可信度获取数据群体的群体可信度的步骤包括：计算数据群体中所有目标数据的个体可信度的平均值，得到数据群体的群体可信度。

例如，某一数据群体中各目标数据的个体可信度分别为：0.5，0.4，0.6，1，则该数据群体的群体可信度＝(0.5+0.4+0.6+1)/4＝0.625。可以理解，在其他的实施例中，还可以采用其他的计算方式获取群体可信度。

S170：判断群体可信度是否大于或等于预设值。若否，则表示当前获取的该数据群体不满足要求，可能为错误数据群体，不采集；若是，则执行步骤S190。

其中，预设值可以根据需要的数据采集正确率进行具体设置。本实施例中，预设值为0.6。可以理解，在其他实施例中，若对数据采集正确率要求较高，则适当设置增加预设值，例如0.8；若对数据采集正确率要求较低，则适当设置减小预设值，例如0.5。

S190：采集数据群体中对应的目标数据存入目标数据库或大数据存储库。

其中，目标数据库指用于存储普通数据的传统数据库，例如关系型数据库；大数据存储库指用于存储大数据的存储库。当采集的数据为普通数据时，存入目标数据库，当采集的数据为大数据时，存入大数据存储库。

例如，目标数据为某字词的文本信息和/或语音信息的实施例中，采集数据群体中对应的目标数据存入语言数据库。

通过将群体可信度大于或等于预设值的数据群体中对应的目标数据采集存入目标数据库或大数据存储库，根据群体可信度对目标数据进行筛选，可以提高数据采集的正确率。

在其中一实施例中，步骤S190包括：采集数据群体中包含的所有目标数据存入目标数据库或大数据存储库。

通过采集群体可信度大于或等于预设值的数据群体中所有的目标数据，在验证数据正确性的同时实现多数据采集，提高数据采集效率。

在另一实施例中，步骤S190包括：查找数据群体中个体可信度最高的目标数据并存入目标数据库或大数据存储库。

通过采集群体可信度大于或等于预设值的数据群体中个体可信度最高的目标数据，选择一个最优的目标数据，可最大程度的提高数据采集的正确率。

在其中一实施例中，参考图2，步骤22包括步骤S151至步骤S157。

S151：根据身份信息判断目标数据库或大数据存储库中是否存在被采集对象的初始可信度。若是，则执行步骤S153；若否，则执行步骤S155。

S153：将初始可信度作为被采集对象的可信度。

S155：将预设可信度作为被采集对象的可信度。

S157：将被采集对象的可信度作为对应目标数据的个体可信度。

预设可信度可以根据实际情况具体设置。本实施例中，预设可信度为0.5。

通过判断是否存在被采集对象的初始可信度，若否则默认预设可信度作为被采集对象的可信度，可以保证每一个被采集人都对应一个可信度，从而避免出现目标数据不存在对应的个体可信度的情况。

在其中一实施例中，参考图3，步骤S190之后，还包括：步骤S210和步骤S230。

S210：获取目标数据的反馈信息。

其中，反馈信息指用户对目标数据是否正确的反馈。例如，反馈信息可以包括“正确”或类似含义的信息，以及“错误”或类似含义的信息。

S230：根据反馈信息修正被采集对象的可信度得到被采集对象新的初始可信度，并将新的初始可信度与被采集对象关联存储至目标数据库或大数据存储库中。

通过以用户的反馈为依据对被采集对象的初始可信度进行修正，可以及时提高初始可信度的准确性，可以给后续数据采集提供更准确的参考，提高数据采集的正确率。

在其中一实施例中，反馈信息包括正反馈和负反馈。例如“正确”表示正反馈，“错误”表示负反馈。参考图4，步骤S230根据反馈信息修正被采集对象的可信度得到被采集对象新的初始可信度的步骤包括步骤S231和步骤S235。

S231：判断反馈信息的类型是否为正反馈。若是，表示该目标数据正确，执行步骤S233，若否，表示反馈信息的类型为负反馈，目标数据错误，执行步骤S235。

S233：按预设差值提高被采集对象的可信度得到被采集对象新的初始可信度。

S235：按预设差值降低被采集对象的可信度得到被采集对象新的初始可信度。

预设差值可以根据实际情况具体设置。例如，本实施例中，预设预值0.1。因此，每获得一次正反馈，对应被采集对象的初始可信度在原来的基础上提高0.1；每获得一次负反馈，对应被采集对象的初始可信度在原来的基础上降低0.1。

本实施例中，初始可信度为大于等于0且小于等于1。步骤S233具体为：

Y＝min(1，(X+0.1))；

步骤S235具体为：

Y＝max(0，(X-0.1))；

其中，X为修正之前被采集对象的初始可信度，Y为修正后被采集对象的初始可信度。

上述数据采集方法，通过获取采集条件，根据采集条件获取多个目标数据后，根据预设特征匹配度对目标数据进行分类，得到数据群体；然后分别获取对应各目标数据的个体可信度，并根据个体可信度获取数据群体的群体可信度；判断群体可信度是否大于或等于预设值，若是，则采集数据群体中对应的目标数据存入目标数据库或大数据存储库。如此，根据群体可信度和预设值对目标数据组成的数据群体进行筛选，当群体可信度大于或等于预设值时才采集对应的目标数据，避免采集到不可靠的数据，提高数据采集的正确率。

参考图5，本发明一实施例中的一种数据采集***，基于可信度、面向大数据和普通数据实现，包括数据获取模块110、数据分类模块130、群体可信度计算模块150、可信度分析模块170和数据采集模块190。

数据获取模块110用于获取采集条件，根据采集条件获取多个目标数据。

在其中一实施例中，采集条件为某个指定字词的文本信息、普通话发音信息、某种方言发音信息等，即对象为某个指定字词，属性包括文本信息、普通户话发音信息、某种方言发音信息。对应地，根据该采集条件获取的目标数据包括文本信息和/或语音信息。目标数据可以为多个，例如，用户A、用户B和用户C均录制有某同一字词的语音，采集条件为该字词的语音信息时，对应采集用户A、用户B和用户C录制的语音得到多个目标数据。

数据分类模块130用于对目标数据进行分类，得到数据群体。

在其中一实施例中，数据分类模块130具体用于：提取目标数据的预设特征，将预设特征的匹配度大于或等于预设匹配度的目标数据作为一个数据群体。

其中，预设匹配度可以根据实际情况进行选择。预设特征匹配度大于或等于预设匹配度，则表示对应的目标数据为相似数据，可以归为一类。通过根据预设特征匹配度分类，便于对相似目标数据进行统一处理，提高多数据采集的效率。

群体可信度计算模块150用于分别获取对应各目标数据的个体可信度，并根据个体可信度获取数据群体的群体可信度。

在其中一实施例中，群体可信度计算模块150包括身份信息获取单元(图未示)、个体可信度获取单元(图未示)和计算单元(图未示)。

身份信息获取单元用于分别根据各目标数据获取提供目标数据的被采集对象的身份信息。被采集对象的身份信息指用于识别被采集人身份的信息。每一个被采集对象对应一个唯一的身份信息。本实施例中，被采集对象为人，即目标数据由被采集人提供。例如，目标数据为某字词的语音信息，该语音消息由用户A录制，则用户A为该目标数据的被采集人。具体地，本实施例中，被采集对象的身份信息为被采集人的身份证号码。可以理解，在其他的实施例中，被采集对象也可以是网站等，对应地，被采集对象的身份信息为网址。

个体可信度获取单元用于根据身份信息查找被采集对象的可信度，将被采集对象的可信度作为对应目标数据的个体可信度。例如，目标数据包括某字词的文本信息和/或语音信息的实施例中，个体可信度获取单元具体从语言数据库获取被采集对象的可信度。其中，语言数据库包括多个文本信息和/或语音信息、每个文本信息和/或语音信息的被采集对象的身份信息、每个身份信息的可信度，并且包括文本信息和/或语音信息与身份信息与可信度之间的关联关系。

计算单元用于根据个体可信度获取数据群体的群体可信度。

在其中一实施例中，计算单元具体用于：计算数据群体中所有目标数据的个体可信度的平均值，得到数据群体的群体可信度。

可信度分析模块170用于判断群体可信度是否大于或等于预设值。若否，则表示当前获取的该数据群体的正确率不满足要求，可能为错误数据群体，不采集；若是，则表示该数据群体的正确率满足要求。

数据采集模块190用于在群体可信度大于或等于预设值时，采集数据群体中对应的目标数据存入目标数据库或大数据存储库。

通过将群体可信度大于或等于预设值的数据群体中对应的目标数据采集存入目标数据库或大数据存储库，根据群体可信度对目标数据进行筛选，可以提高数据采集的正确率。例如，目标数据为某字词的文本信息和/或语音信息的实施例中，采集数据群体中对应的目标数据存入语言数据库。

在其中一实施例中，数据采集模块190具体用于采集数据群体中包含的所有目标数据存入目标数据库或大数据存储库。通过采集群体可信度大于或等于预设值的数据群体中所有的目标数据，在验证数据正确性的同时实现多数据采集，提高数据采集效率。

在另一实施例中，数据采集模块190具体用于查找数据群体中个体可信度最高的目标数据并存入目标数据库或大数据存储库。通过采集群体可信度大于或等于预设值的数据群体中个体可信度最高的目标数据，选择一个最优的目标数据，可最大程度的提高数据采集的正确率。

在其中一实施例中，群体可信度计算模块150中的个体可信度获取单元具体用于根据身份信息判断目标数据库或大数据存储库中是否存在对应被采集对象的初始可信度。在存在初始可信度时，将初始可信度作为对应被采集对象的可信度；否则，将预设可信度作为被采集对象的可信度，以及用于将被采集对象的可信度作为对应目标数据的个体可信度。

其中，预设可信度可以根据实际情况具体设置。本实施例中，预设可信度为0.5。

在其中一实施例中，参考图6，上述数据采集***还包括反馈信息获取模块210和可信度修正模块230。

反馈信息获取模块210用于获取目标数据的反馈信息。

可信度修正模块230用于根据反馈信息修正被采集对象的可信度得到被采集对象新的初始可信度，并将新的初始可信度与被采集对象关联存储至目标数据库或大数据存储库中。

在其中一实施例中，反馈信息包括正反馈和负反馈。例如“正确”表示正反馈，“错误”表示负反馈。参考图7，可信度修正模块230包括反馈信息判断单元231、可信度提高单元233、可信度降低单元235和数据存储单元237。

反馈信息判断单元231用于判断反馈信息的类型是否为正反馈。若是，表示该目标数据正确，若否，表示反馈信息的类型为负反馈，该目标数据错误。

可信度提高单元233用于在反馈信息的类型为正反馈时，按预设差值提高被采集对象的可信度得到被采集对象新的初始可信度。

可信度降低单元235用于在反馈信息的类型为负反馈时，按预设差值降低被采集对象的可信度得到被采集对象新的初始可信度。

数据存储单元237用于将新的初始可信度与被采集对象关联存储至目标数据库或大数据存储库中。通过将修正后的初始可信度与被采集对象关联存储，便于后续使用。

其中，预设差值可以根据实际情况具体设置。例如，本实施例中，预设预值0.1。因此，每获得一次正反馈，对应被采集对象的初始可信度在原来的基础上提高0.1；每获得一次负反馈，对应被采集对象的初始可信度在原来的基础上降低0.1。

本实施例中，初始可信度为大于等于0且小于等于1。可信度提高单元233具体根据：

Y＝min(1，(X+0.1))；

获取新的个体可信度。可信度降低单元235具体根据：

Y＝max(0，(X-0.1))；

获取新的个体可信度。其中，X为修正之前被采集对象的初始可信度，Y为修正后被采集对象的初始可信度。

上述数据采集***，数据获取模块110获取采集条件，根据采集条件获取多个目标数据后，数据分类模块130根据预设特征匹配度对目标数据进行分类，得到数据群体；群体可信度计算模块150分别获取对应各目标数据的个体可信度，并根据个体可信度获取数据群体的群体可信度；可信度分析模块170判断群体可信度是否大于或等于预设值，若是，则数据采集模块190采集数据群体中对应的目标数据存入目标数据库或大数据存储库。如此，根据群体可信度和预设值对目标数据组成的数据群体进行筛选，当群体可信度大于或等于预设值时才采集对应的目标数据，避免采集到不可靠的数据，提高数据采集的正确率。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种数据采集方法，其特征在于，包括以下步骤：

获取采集条件，根据所述采集条件获取多个目标数据；

对所述目标数据进行分类，得到数据群体；

判断所述群体可信度是否大于或等于预设值；

2.根据权利要求1所述的数据采集方法，其特征在于，所述对所述目标数据进行分类，得到数据群体的步骤包括：

提取所述目标数据的预设特征；

将预设特征的匹配度大于或等于预设匹配度的目标数据作为一个数据群体。

3.根据权利要求1所述的数据采集方法，其特征在于，所述分别获取对应各目标数据的个体可信度的步骤包括：

分别根据各目标数据获取提供所述目标数据的被采集对象的身份信息；

根据所述身份信息查找所述被采集对象的可信度，将所述被采集对象的可信度作为对应所述目标数据的个体可信度。

4.根据权利要求3所述的数据采集方法，其特征在于，所述根据所述身份信息查找所述被采集对象的可信度，将所述被采集对象的可信度作为对应所述目标数据的个体可信度的步骤包括：

根据所述身份信息判断所述目标数据库或所述大数据存储库中是否存在所述被采集对象的初始可信度；

若是，则将所述初始可信度作为所述被采集对象的可信度；

若否，则将预设可信度作为所述被采集对象的可信度；

将所述被采集对象的可信度作为对应所述目标数据的个体可信度。

5.根据权利要求4所述的数据采集方法，其特征在于，所述采集所述数据群体中对应的目标数据存入目标数据库或大数据存储库的步骤之后，还包括：

获取所述目标数据的反馈信息；

根据所述反馈信息修正所述被采集对象的可信度得到所述被采集对象新的初始可信度，并将所述新的初始可信度与所述被采集对象关联存储至所述目标数据库或所述大数据存储库中。

6.根据权利要求5所述的数据采集方法，其特征在于，所述根据所述反馈信息修正所述被采集对象的可信度得到所述被采集对象新的初始可信度的步骤包括：

判断所述反馈信息的类型是否为正反馈；

若是，则按预设差值提高所述被采集对象的可信度得到所述被采集对象新的初始可信度；

若否，则按预设差值降低所述被采集对象新的可信度得到所述被采集对象新的初始可信度。

7.一种数据采集***，其特征在于，包括：

8.根据权利要求7所述的数据采集***，其特征在于，所述数据分类模块具体用于：提取所述目标数据的预设特征，将预设特征的匹配度大于或等于预设匹配度的目标数据作为一个数据群体。

9.根据权利要求7所述的数据采集***，其特征在于，所述群体可信度计算模块包括：

身份信息获取单元，用于分别根据各目标数据获取提供所述目标数据的被采集对象的身份信息；

个体可信度获取单元，用于根据所述身份信息查找所述被采集对象的可信度，将所述被采集对象的可信度作为对应所述目标数据的个体可信度；

计算单元，用于根据所述个体可信度获取所述数据群体的群体可信度。

10.根据权利要求8所述的数据采集***，其特征在于，还包括：

反馈信息获取模块，用于获取所述目标数据的反馈信息；

可信度修正模块，用于根据所述反馈信息修正所述被采集对象的可信度得到所述被采集对象新的初始可信度，并将所述新的初始可信度与所述被采集对象关联存储至所述目标数据库或所述大数据存储库中。