CN105843889A - 基于可信度面向大数据及普通数据的数据采集方法和*** - Google Patents

基于可信度面向大数据及普通数据的数据采集方法和*** Download PDF

Info

Publication number
CN105843889A
CN105843889A CN201610164635.4A CN201610164635A CN105843889A CN 105843889 A CN105843889 A CN 105843889A CN 201610164635 A CN201610164635 A CN 201610164635A CN 105843889 A CN105843889 A CN 105843889A
Authority
CN
China
Prior art keywords
data
credibility
colony
target data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610164635.4A
Other languages
English (en)
Other versions
CN105843889B (zh
Inventor
朱定局
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201610164635.4A priority Critical patent/CN105843889B/zh
Publication of CN105843889A publication Critical patent/CN105843889A/zh
Application granted granted Critical
Publication of CN105843889B publication Critical patent/CN105843889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据采集方法和***,其方法包括:获取采集条件,根据采集条件获取多个目标数据;根据预设特征匹配度对目标数据进行分类,得到数据群体;分别获取对应各目标数据的个体可信度,并根据个体可信度获取数据群体的群体可信度;判断群体可信度是否大于或等于预设值;若是,采集数据群体中对应的目标数据存入目标数据库或大数据存储库。如此,根据群体可信度和预设值对目标数据组成的数据群体进行筛选,当群体可信度大于或等于预设值时才采集对应的目标数据,避免采集到不可靠的数据,提高数据采集的正确率。

Description

基于可信度面向大数据及普通数据的数据采集方法和***
技术领域
本发明涉及数据处理技术领域,特别是涉及一种基于可信度面向大数据及普通数据的数据采集方法和***。
背景技术
对数据进行采集时,例如对大数据进行采集,传统的方法通常只是根据***或数据库指定需要的数据类型进行采集后,直接将被采集数据存入***或数据库以备用。例如,存放语言信息的语言数据库需要某个字词的正确释义或发音时,直接采集有这个字词释义或发音的语言信息放入语言数据库,而不会检验被采集的语言信息对该字词的释义或发音是否正确。对于被采集数据的来源可信度不明确以及同一数据对应多个不同来源的采集数据的情况,这种传统的数据采集方法不会对数据的正确性进行检验,易出现存入数据错误或矛盾的情况,采集正确率低。
发明内容
基于此,有必要针对上述问题,提供一种提高采集正确率的数据采集方法和***。
一种数据采集方法,包括以下步骤:
获取采集条件,根据所述采集条件获取多个目标数据;
对所述目标数据进行分类,得到数据群体;
分别获取对应各目标数据的个体可信度,并根据所述个体可信度获取所述数据群体的群体可信度;
判断所述群体可信度是否大于或等于预设值;
若是,则采集所述数据群体中对应的目标数据存入目标数据库或大数据存储库。
一种数据采集***,包括:
数据获取模块,用于获取采集条件,根据所述采集条件获取多个目标数据;
数据分类模块,用于对所述目标数据进行分类,得到数据群体;
群体可信度计算模块,用于分别获取对应各目标数据的个体可信度,并根据所述个体可信度获取所述数据群体的群体可信度;
可信度分析模块,用于判断所述群体可信度是否大于或等于预设值;
数据采集模块,用于在所述群体可信度大于或等于所述预设值时,采集所述数据群体中对应的目标数据存入目标数据库或大数据存储库。
上述数据采集方法和***,通过获取采集条件,根据采集条件获取多个目标数据后,对目标数据进行分类得到数据群体;然后分别获取对应各目标数据的个体可信度,并根据个体可信度获取数据群体的群体可信度;判断群体可信度是否大于或等于预设值,若是,则采集数据群体中对应的目标数据存入目标数据库或大数据存储库。如此,根据群体可信度和预设值对目标数据组成的数据群体进行筛选,当群体可信度大于或等于预设值时才采集对应的目标数据,避免采集到不可靠的数据,提高数据采集的正确率。
附图说明
图1为一实施例中本发明数据采集方法的流程图;
图2为一实施例中根据身份信息查找被采集对象的可信度,将被采集对象的可信度作为对应目标数据的个体可信度的流程图;
图3为另一实施例中本发明数据采集方法的流程图;
图4为一实施例中根据反馈信息修正被采集对象的可信度得到被采集对象新的初始可信度的步骤的流程图;
图5为一实施例中本发明数据采集***的模块图;
图6为另一实施例中本发明数据采集***的模块图;
图7为一实施例中可信度修正模块的单元图。
具体实施方式
大数据指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,具有数量巨大、难于收集、处理、分析等特点。
本发明所指的普通数据指非大数据。
可信度指人或事物被信赖的程度,是根据经验对作为群体为真的相信程度。
参考图1,本发明一实施例中的一种数据采集方法,基于可信度、面向大数据及普通数据实现,包括以下步骤。
S110:获取采集条件,根据采集条件获取多个目标数据。
采集条件指用于指定需要采集数据特征的信息,包括对象和属性。通过根据采集条件可以获取同时符合该采集条件的多个目标数据。目标数据可以是大数据或普通数据。
在其中一实施例中,采集条件为某个指定字词的文本信息、普通话发音信息、某种方言发音信息等,即对象为某个指定字词,属性包括文本信息、普通话发音信息、某种方言发音信息等。对应地,根据该采集条件获取的目标数据包括文本信息和/或语音信息。目标数据可以为多个,例如,用户A、用户B和用户C均录制有某同一字词的语音,采集条件为该字词的语音信息时,对应采集用户A、用户B和用户C录制的语音得到多个目标数据。
S130:对目标数据进行分类,得到数据群体。
在其中一实施例中,步骤S130包括步骤11和步骤12。
步骤11:提取目标数据的预设特征。
其中,预设特征可以根据目标数据的采集条件进行选择。例如,本实施例中,预设特征为采集条件中指定字词的文本信息和/或语音信息。
步骤12:将预设特征的匹配度大于或等于预设匹配度的目标数据作为一个数据群体。
其中,预设匹配度可以根据实际情况进行选择。预设特征匹配度大于或等于预设匹配度,则表示对应的目标数据的预设特征较相似,可以归为一类。通过根据预设特征的匹配度分类,便于对相似目标数据进行统一处理,提高多数据采集的效率。
S150:分别获取对应各目标数据的个体可信度,并根据个体可信度获取数据群体的群体可信度。
可以理解,因为一个数据群体中的每个目标数据的预设特征较相似,所以一个数据群体中的每个目标数据的真实可信度类似,因此一个数据群体中的群体可信度可以代表该个数据群体中每个目标数据的真实可信度。
在其中一实施例中,步骤S150中分别获取对应各目标数据的个体可信度的步骤包括步骤21和步骤22。
步骤21:分别根据各目标数据获取提供目标数据的被采集对象的身份信息。
被采集对象的身份信息指用于识别被采集人身份的信息。每一个被采集对象对应一个唯一的身份信息。本实施例中,被采集对象为人,即目标数据由被采集人提供。例如,目标数据为某字词的语音信息,该语音消息由用户A录制,则用户A为该目标数据的被采集人。具体地,本实施例中,被采集对象的身份信息为被采集人的身份证号码。可以理解,在其他的实施例中,被采集对象也可以是网站等,对应地,被采集对象的身份信息为网址。
步骤22:根据身份信息查找被采集对象的可信度,将被采集对象的可信度作为对应目标数据的个体可信度。
例如,目标数据包括某字词的文本信息和/或语音信息的实施例中,步骤22具体为从语言数据库获取被采集对象的可信度。其中,语言数据库包括多个文本信息和/或语音信息、每个文本信息和/或语音信息的被采集对象的身份信息、每个身份信息的可信度,并且包括文本信息和/或语音信息与身份信息与可信度之间的关联关系。
可以理解,在其他的实施例中,个体可信度也可以是对应目标数据预先存储,即每一个目标数据对应一个个体可信度,只要获取了目标数据,即可根据关联性对应获取个体可信度。
在其中一实施例中,步骤S150中根据个体可信度获取数据群体的群体可信度的步骤包括:计算数据群体中所有目标数据的个体可信度的平均值,得到数据群体的群体可信度。
例如,某一数据群体中各目标数据的个体可信度分别为:0.5,0.4,0.6,1,则该数据群体的群体可信度=(0.5+0.4+0.6+1)/4=0.625。可以理解,在其他的实施例中,还可以采用其他的计算方式获取群体可信度。
S170:判断群体可信度是否大于或等于预设值。若否,则表示当前获取的该数据群体不满足要求,可能为错误数据群体,不采集;若是,则执行步骤S190。
其中,预设值可以根据需要的数据采集正确率进行具体设置。本实施例中,预设值为0.6。可以理解,在其他实施例中,若对数据采集正确率要求较高,则适当设置增加预设值,例如0.8;若对数据采集正确率要求较低,则适当设置减小预设值,例如0.5。
S190:采集数据群体中对应的目标数据存入目标数据库或大数据存储库。
其中,目标数据库指用于存储普通数据的传统数据库,例如关系型数据库;大数据存储库指用于存储大数据的存储库。当采集的数据为普通数据时,存入目标数据库,当采集的数据为大数据时,存入大数据存储库。
例如,目标数据为某字词的文本信息和/或语音信息的实施例中,采集数据群体中对应的目标数据存入语言数据库。
通过将群体可信度大于或等于预设值的数据群体中对应的目标数据采集存入目标数据库或大数据存储库,根据群体可信度对目标数据进行筛选,可以提高数据采集的正确率。
在其中一实施例中,步骤S190包括:采集数据群体中包含的所有目标数据存入目标数据库或大数据存储库。
通过采集群体可信度大于或等于预设值的数据群体中所有的目标数据,在验证数据正确性的同时实现多数据采集,提高数据采集效率。
在另一实施例中,步骤S190包括:查找数据群体中个体可信度最高的目标数据并存入目标数据库或大数据存储库。
通过采集群体可信度大于或等于预设值的数据群体中个体可信度最高的目标数据,选择一个最优的目标数据,可最大程度的提高数据采集的正确率。
在其中一实施例中,参考图2,步骤22包括步骤S151至步骤S157。
S151:根据身份信息判断目标数据库或大数据存储库中是否存在被采集对象的初始可信度。若是,则执行步骤S153;若否,则执行步骤S155。
S153:将初始可信度作为被采集对象的可信度。
S155:将预设可信度作为被采集对象的可信度。
S157:将被采集对象的可信度作为对应目标数据的个体可信度。
预设可信度可以根据实际情况具体设置。本实施例中,预设可信度为0.5。
通过判断是否存在被采集对象的初始可信度,若否则默认预设可信度作为被采集对象的可信度,可以保证每一个被采集人都对应一个可信度,从而避免出现目标数据不存在对应的个体可信度的情况。
在其中一实施例中,参考图3,步骤S190之后,还包括:步骤S210和步骤S230。
S210:获取目标数据的反馈信息。
其中,反馈信息指用户对目标数据是否正确的反馈。例如,反馈信息可以包括“正确”或类似含义的信息,以及“错误”或类似含义的信息。
S230:根据反馈信息修正被采集对象的可信度得到被采集对象新的初始可信度,并将新的初始可信度与被采集对象关联存储至目标数据库或大数据存储库中。
通过以用户的反馈为依据对被采集对象的初始可信度进行修正,可以及时提高初始可信度的准确性,可以给后续数据采集提供更准确的参考,提高数据采集的正确率。
在其中一实施例中,反馈信息包括正反馈和负反馈。例如“正确”表示正反馈,“错误”表示负反馈。参考图4,步骤S230根据反馈信息修正被采集对象的可信度得到被采集对象新的初始可信度的步骤包括步骤S231和步骤S235。
S231:判断反馈信息的类型是否为正反馈。若是,表示该目标数据正确,执行步骤S233,若否,表示反馈信息的类型为负反馈,目标数据错误,执行步骤S235。
S233:按预设差值提高被采集对象的可信度得到被采集对象新的初始可信度。
S235:按预设差值降低被采集对象的可信度得到被采集对象新的初始可信度。
预设差值可以根据实际情况具体设置。例如,本实施例中,预设预值0.1。因此,每获得一次正反馈,对应被采集对象的初始可信度在原来的基础上提高0.1;每获得一次负反馈,对应被采集对象的初始可信度在原来的基础上降低0.1。
本实施例中,初始可信度为大于等于0且小于等于1。步骤S233具体为:
Y=min(1,(X+0.1));
步骤S235具体为:
Y=max(0,(X-0.1));
其中,X为修正之前被采集对象的初始可信度,Y为修正后被采集对象的初始可信度。
上述数据采集方法,通过获取采集条件,根据采集条件获取多个目标数据后,根据预设特征匹配度对目标数据进行分类,得到数据群体;然后分别获取对应各目标数据的个体可信度,并根据个体可信度获取数据群体的群体可信度;判断群体可信度是否大于或等于预设值,若是,则采集数据群体中对应的目标数据存入目标数据库或大数据存储库。如此,根据群体可信度和预设值对目标数据组成的数据群体进行筛选,当群体可信度大于或等于预设值时才采集对应的目标数据,避免采集到不可靠的数据,提高数据采集的正确率。
参考图5,本发明一实施例中的一种数据采集***,基于可信度、面向大数据和普通数据实现,包括数据获取模块110、数据分类模块130、群体可信度计算模块150、可信度分析模块170和数据采集模块190。
数据获取模块110用于获取采集条件,根据采集条件获取多个目标数据。
采集条件指用于指定需要采集数据特征的信息,包括对象和属性。通过根据采集条件可以获取同时符合该采集条件的多个目标数据。目标数据可以是大数据或普通数据。
在其中一实施例中,采集条件为某个指定字词的文本信息、普通话发音信息、某种方言发音信息等,即对象为某个指定字词,属性包括文本信息、普通户话发音信息、某种方言发音信息。对应地,根据该采集条件获取的目标数据包括文本信息和/或语音信息。目标数据可以为多个,例如,用户A、用户B和用户C均录制有某同一字词的语音,采集条件为该字词的语音信息时,对应采集用户A、用户B和用户C录制的语音得到多个目标数据。
数据分类模块130用于对目标数据进行分类,得到数据群体。
在其中一实施例中,数据分类模块130具体用于:提取目标数据的预设特征,将预设特征的匹配度大于或等于预设匹配度的目标数据作为一个数据群体。
其中,预设特征可以根据目标数据的采集条件进行选择。例如,本实施例中,预设特征为采集条件中指定字词的文本信息和/或语音信息。
其中,预设匹配度可以根据实际情况进行选择。预设特征匹配度大于或等于预设匹配度,则表示对应的目标数据为相似数据,可以归为一类。通过根据预设特征匹配度分类,便于对相似目标数据进行统一处理,提高多数据采集的效率。
群体可信度计算模块150用于分别获取对应各目标数据的个体可信度,并根据个体可信度获取数据群体的群体可信度。
可以理解,因为一个数据群体中的每个目标数据的预设特征较相似,所以一个数据群体中的每个目标数据的真实可信度类似,因此一个数据群体中的群体可信度可以代表该个数据群体中每个目标数据的真实可信度。
在其中一实施例中,群体可信度计算模块150包括身份信息获取单元(图未示)、个体可信度获取单元(图未示)和计算单元(图未示)。
身份信息获取单元用于分别根据各目标数据获取提供目标数据的被采集对象的身份信息。被采集对象的身份信息指用于识别被采集人身份的信息。每一个被采集对象对应一个唯一的身份信息。本实施例中,被采集对象为人,即目标数据由被采集人提供。例如,目标数据为某字词的语音信息,该语音消息由用户A录制,则用户A为该目标数据的被采集人。具体地,本实施例中,被采集对象的身份信息为被采集人的身份证号码。可以理解,在其他的实施例中,被采集对象也可以是网站等,对应地,被采集对象的身份信息为网址。
个体可信度获取单元用于根据身份信息查找被采集对象的可信度,将被采集对象的可信度作为对应目标数据的个体可信度。例如,目标数据包括某字词的文本信息和/或语音信息的实施例中,个体可信度获取单元具体从语言数据库获取被采集对象的可信度。其中,语言数据库包括多个文本信息和/或语音信息、每个文本信息和/或语音信息的被采集对象的身份信息、每个身份信息的可信度,并且包括文本信息和/或语音信息与身份信息与可信度之间的关联关系。
可以理解,在其他的实施例中,个体可信度也可以是对应目标数据预先存储,即每一个目标数据对应一个个体可信度,只要获取了目标数据,即可根据关联性对应获取个体可信度。
计算单元用于根据个体可信度获取数据群体的群体可信度。
在其中一实施例中,计算单元具体用于:计算数据群体中所有目标数据的个体可信度的平均值,得到数据群体的群体可信度。
例如,某一数据群体中各目标数据的个体可信度分别为:0.5,0.4,0.6,1,则该数据群体的群体可信度=(0.5+0.4+0.6+1)/4=0.625。可以理解,在其他的实施例中,还可以采用其他的计算方式获取群体可信度。
可信度分析模块170用于判断群体可信度是否大于或等于预设值。若否,则表示当前获取的该数据群体的正确率不满足要求,可能为错误数据群体,不采集;若是,则表示该数据群体的正确率满足要求。
其中,预设值可以根据需要的数据采集正确率进行具体设置。本实施例中,预设值为0.6。可以理解,在其他实施例中,若对数据采集正确率要求较高,则适当设置增加预设值,例如0.8;若对数据采集正确率要求较低,则适当设置减小预设值,例如0.5。
数据采集模块190用于在群体可信度大于或等于预设值时,采集数据群体中对应的目标数据存入目标数据库或大数据存储库。
其中,目标数据库指用于存储普通数据的传统数据库,例如关系型数据库;大数据存储库指用于存储大数据的存储库。当采集的数据为普通数据时,存入目标数据库,当采集的数据为大数据时,存入大数据存储库。
通过将群体可信度大于或等于预设值的数据群体中对应的目标数据采集存入目标数据库或大数据存储库,根据群体可信度对目标数据进行筛选,可以提高数据采集的正确率。例如,目标数据为某字词的文本信息和/或语音信息的实施例中,采集数据群体中对应的目标数据存入语言数据库。
在其中一实施例中,数据采集模块190具体用于采集数据群体中包含的所有目标数据存入目标数据库或大数据存储库。通过采集群体可信度大于或等于预设值的数据群体中所有的目标数据,在验证数据正确性的同时实现多数据采集,提高数据采集效率。
在另一实施例中,数据采集模块190具体用于查找数据群体中个体可信度最高的目标数据并存入目标数据库或大数据存储库。通过采集群体可信度大于或等于预设值的数据群体中个体可信度最高的目标数据,选择一个最优的目标数据,可最大程度的提高数据采集的正确率。
在其中一实施例中,群体可信度计算模块150中的个体可信度获取单元具体用于根据身份信息判断目标数据库或大数据存储库中是否存在对应被采集对象的初始可信度。在存在初始可信度时,将初始可信度作为对应被采集对象的可信度;否则,将预设可信度作为被采集对象的可信度,以及用于将被采集对象的可信度作为对应目标数据的个体可信度。
其中,预设可信度可以根据实际情况具体设置。本实施例中,预设可信度为0.5。
通过判断是否存在被采集对象的初始可信度,若否则默认预设可信度作为被采集对象的可信度,可以保证每一个被采集人都对应一个可信度,从而避免出现目标数据不存在对应的个体可信度的情况。
在其中一实施例中,参考图6,上述数据采集***还包括反馈信息获取模块210和可信度修正模块230。
反馈信息获取模块210用于获取目标数据的反馈信息。
其中,反馈信息指用户对目标数据是否正确的反馈。例如,反馈信息可以包括“正确”或类似含义的信息,以及“错误”或类似含义的信息。
可信度修正模块230用于根据反馈信息修正被采集对象的可信度得到被采集对象新的初始可信度,并将新的初始可信度与被采集对象关联存储至目标数据库或大数据存储库中。
通过以用户的反馈为依据对被采集对象的初始可信度进行修正,可以及时提高初始可信度的准确性,可以给后续数据采集提供更准确的参考,提高数据采集的正确率。
在其中一实施例中,反馈信息包括正反馈和负反馈。例如“正确”表示正反馈,“错误”表示负反馈。参考图7,可信度修正模块230包括反馈信息判断单元231、可信度提高单元233、可信度降低单元235和数据存储单元237。
反馈信息判断单元231用于判断反馈信息的类型是否为正反馈。若是,表示该目标数据正确,若否,表示反馈信息的类型为负反馈,该目标数据错误。
可信度提高单元233用于在反馈信息的类型为正反馈时,按预设差值提高被采集对象的可信度得到被采集对象新的初始可信度。
可信度降低单元235用于在反馈信息的类型为负反馈时,按预设差值降低被采集对象的可信度得到被采集对象新的初始可信度。
数据存储单元237用于将新的初始可信度与被采集对象关联存储至目标数据库或大数据存储库中。通过将修正后的初始可信度与被采集对象关联存储,便于后续使用。
其中,预设差值可以根据实际情况具体设置。例如,本实施例中,预设预值0.1。因此,每获得一次正反馈,对应被采集对象的初始可信度在原来的基础上提高0.1;每获得一次负反馈,对应被采集对象的初始可信度在原来的基础上降低0.1。
本实施例中,初始可信度为大于等于0且小于等于1。可信度提高单元233具体根据:
Y=min(1,(X+0.1));
获取新的个体可信度。可信度降低单元235具体根据:
Y=max(0,(X-0.1));
获取新的个体可信度。其中,X为修正之前被采集对象的初始可信度,Y为修正后被采集对象的初始可信度。
上述数据采集***,数据获取模块110获取采集条件,根据采集条件获取多个目标数据后,数据分类模块130根据预设特征匹配度对目标数据进行分类,得到数据群体;群体可信度计算模块150分别获取对应各目标数据的个体可信度,并根据个体可信度获取数据群体的群体可信度;可信度分析模块170判断群体可信度是否大于或等于预设值,若是,则数据采集模块190采集数据群体中对应的目标数据存入目标数据库或大数据存储库。如此,根据群体可信度和预设值对目标数据组成的数据群体进行筛选,当群体可信度大于或等于预设值时才采集对应的目标数据,避免采集到不可靠的数据,提高数据采集的正确率。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据采集方法,其特征在于,包括以下步骤:
获取采集条件,根据所述采集条件获取多个目标数据;
对所述目标数据进行分类,得到数据群体;
分别获取对应各目标数据的个体可信度,并根据所述个体可信度获取所述数据群体的群体可信度;
判断所述群体可信度是否大于或等于预设值;
若是,则采集所述数据群体中对应的目标数据存入目标数据库或大数据存储库。
2.根据权利要求1所述的数据采集方法,其特征在于,所述对所述目标数据进行分类,得到数据群体的步骤包括:
提取所述目标数据的预设特征;
将预设特征的匹配度大于或等于预设匹配度的目标数据作为一个数据群体。
3.根据权利要求1所述的数据采集方法,其特征在于,所述分别获取对应各目标数据的个体可信度的步骤包括:
分别根据各目标数据获取提供所述目标数据的被采集对象的身份信息;
根据所述身份信息查找所述被采集对象的可信度,将所述被采集对象的可信度作为对应所述目标数据的个体可信度。
4.根据权利要求3所述的数据采集方法,其特征在于,所述根据所述身份信息查找所述被采集对象的可信度,将所述被采集对象的可信度作为对应所述目标数据的个体可信度的步骤包括:
根据所述身份信息判断所述目标数据库或所述大数据存储库中是否存在所述被采集对象的初始可信度;
若是,则将所述初始可信度作为所述被采集对象的可信度;
若否,则将预设可信度作为所述被采集对象的可信度;
将所述被采集对象的可信度作为对应所述目标数据的个体可信度。
5.根据权利要求4所述的数据采集方法,其特征在于,所述采集所述数据群体中对应的目标数据存入目标数据库或大数据存储库的步骤之后,还包括:
获取所述目标数据的反馈信息;
根据所述反馈信息修正所述被采集对象的可信度得到所述被采集对象新的初始可信度,并将所述新的初始可信度与所述被采集对象关联存储至所述目标数据库或所述大数据存储库中。
6.根据权利要求5所述的数据采集方法,其特征在于,所述根据所述反馈信息修正所述被采集对象的可信度得到所述被采集对象新的初始可信度的步骤包括:
判断所述反馈信息的类型是否为正反馈;
若是,则按预设差值提高所述被采集对象的可信度得到所述被采集对象新的初始可信度;
若否,则按预设差值降低所述被采集对象新的可信度得到所述被采集对象新的初始可信度。
7.一种数据采集***,其特征在于,包括:
数据获取模块,用于获取采集条件,根据所述采集条件获取多个目标数据;
数据分类模块,用于对所述目标数据进行分类,得到数据群体;
群体可信度计算模块,用于分别获取对应各目标数据的个体可信度,并根据所述个体可信度获取所述数据群体的群体可信度;
可信度分析模块,用于判断所述群体可信度是否大于或等于预设值;
数据采集模块,用于在所述群体可信度大于或等于所述预设值时,采集所述数据群体中对应的目标数据存入目标数据库或大数据存储库。
8.根据权利要求7所述的数据采集***,其特征在于,所述数据分类模块具体用于:提取所述目标数据的预设特征,将预设特征的匹配度大于或等于预设匹配度的目标数据作为一个数据群体。
9.根据权利要求7所述的数据采集***,其特征在于,所述群体可信度计算模块包括:
身份信息获取单元,用于分别根据各目标数据获取提供所述目标数据的被采集对象的身份信息;
个体可信度获取单元,用于根据所述身份信息查找所述被采集对象的可信度,将所述被采集对象的可信度作为对应所述目标数据的个体可信度;
计算单元,用于根据所述个体可信度获取所述数据群体的群体可信度。
10.根据权利要求8所述的数据采集***,其特征在于,还包括:
反馈信息获取模块,用于获取所述目标数据的反馈信息;
可信度修正模块,用于根据所述反馈信息修正所述被采集对象的可信度得到所述被采集对象新的初始可信度,并将所述新的初始可信度与所述被采集对象关联存储至所述目标数据库或所述大数据存储库中。
CN201610164635.4A 2016-03-21 2016-03-21 基于可信度面向大数据及普通数据的数据采集方法和*** Active CN105843889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610164635.4A CN105843889B (zh) 2016-03-21 2016-03-21 基于可信度面向大数据及普通数据的数据采集方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610164635.4A CN105843889B (zh) 2016-03-21 2016-03-21 基于可信度面向大数据及普通数据的数据采集方法和***

Publications (2)

Publication Number Publication Date
CN105843889A true CN105843889A (zh) 2016-08-10
CN105843889B CN105843889B (zh) 2020-08-25

Family

ID=56587790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610164635.4A Active CN105843889B (zh) 2016-03-21 2016-03-21 基于可信度面向大数据及普通数据的数据采集方法和***

Country Status (1)

Country Link
CN (1) CN105843889B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292183A (zh) * 2017-06-29 2017-10-24 国信优易数据有限公司 一种数据处理方法及设备
CN107315968A (zh) * 2017-06-29 2017-11-03 国信优易数据有限公司 一种数据处理方法及设备
CN108664497A (zh) * 2017-03-30 2018-10-16 大有秦鼎(北京)科技有限公司 数据匹配的方法和装置
CN109034194A (zh) * 2018-06-20 2018-12-18 东华大学 基于特征分化的交易欺诈行为深度检测方法
CN110412467A (zh) * 2019-07-30 2019-11-05 重庆邮电大学 一种归一化互信息准则约束的锂电池故障数据筛选方法
CN112835947A (zh) * 2019-11-22 2021-05-25 杭州海康威视***技术有限公司 目标识别方法及装置、电子设备、存储介质
WO2024088031A1 (zh) * 2022-10-27 2024-05-02 华为云计算技术有限公司 一种数据采集方法、装置及相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101681400A (zh) * 2007-06-07 2010-03-24 皇家飞利浦电子股份有限公司 用于提供健康数据的可靠性度量的信誉***
CN102692615A (zh) * 2012-03-02 2012-09-26 安徽中兴继远信息技术有限公司 自动采集电量数据***
CN103177092A (zh) * 2013-03-08 2013-06-26 深圳先进技术研究院 知识库数据更新方法、***及知识库
KR20130089890A (ko) * 2012-01-10 2013-08-13 대한민국(관리부서 : 지식경제부 기술표준원장) 산업기술 지식정보 관리시스템 및 산업기술 지식정보의 서비스 방법
CN103533546A (zh) * 2013-10-29 2014-01-22 无锡赛思汇智科技有限公司 基于多维度行为特征的隐式用户验证及隐私保护方法
CN104092601A (zh) * 2014-07-28 2014-10-08 北京微众文化传媒有限公司 社交网络账号的识别方法和装置
CN104618372A (zh) * 2015-02-02 2015-05-13 同济大学 一种基于web浏览习惯的用户身份认证装置和方法
CN105405068A (zh) * 2015-11-30 2016-03-16 国网北京市电力公司 电力数据的检测方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101681400A (zh) * 2007-06-07 2010-03-24 皇家飞利浦电子股份有限公司 用于提供健康数据的可靠性度量的信誉***
KR20130089890A (ko) * 2012-01-10 2013-08-13 대한민국(관리부서 : 지식경제부 기술표준원장) 산업기술 지식정보 관리시스템 및 산업기술 지식정보의 서비스 방법
CN102692615A (zh) * 2012-03-02 2012-09-26 安徽中兴继远信息技术有限公司 自动采集电量数据***
CN103177092A (zh) * 2013-03-08 2013-06-26 深圳先进技术研究院 知识库数据更新方法、***及知识库
CN103533546A (zh) * 2013-10-29 2014-01-22 无锡赛思汇智科技有限公司 基于多维度行为特征的隐式用户验证及隐私保护方法
CN104092601A (zh) * 2014-07-28 2014-10-08 北京微众文化传媒有限公司 社交网络账号的识别方法和装置
CN104618372A (zh) * 2015-02-02 2015-05-13 同济大学 一种基于web浏览习惯的用户身份认证装置和方法
CN105405068A (zh) * 2015-11-30 2016-03-16 国网北京市电力公司 电力数据的检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵鹏: "气象信息电子采集***错误数据排除方法仿真", 《计算机仿真》 *
马彦图: "冶金现场信息电子采集***中数据优化方法研究", 《电气应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664497A (zh) * 2017-03-30 2018-10-16 大有秦鼎(北京)科技有限公司 数据匹配的方法和装置
CN108664497B (zh) * 2017-03-30 2020-11-03 大有秦鼎(北京)科技有限公司 数据匹配的方法和装置
CN107315968A (zh) * 2017-06-29 2017-11-03 国信优易数据有限公司 一种数据处理方法及设备
CN107292183B (zh) * 2017-06-29 2019-08-23 国信优易数据有限公司 一种数据处理方法及设备
CN107315968B (zh) * 2017-06-29 2019-08-23 国信优易数据有限公司 一种数据处理方法及设备
CN107292183A (zh) * 2017-06-29 2017-10-24 国信优易数据有限公司 一种数据处理方法及设备
CN109034194B (zh) * 2018-06-20 2022-03-04 东华大学 基于特征分化的交易欺诈行为深度检测方法
CN109034194A (zh) * 2018-06-20 2018-12-18 东华大学 基于特征分化的交易欺诈行为深度检测方法
CN110412467A (zh) * 2019-07-30 2019-11-05 重庆邮电大学 一种归一化互信息准则约束的锂电池故障数据筛选方法
CN110412467B (zh) * 2019-07-30 2021-07-23 重庆邮电大学 一种归一化互信息准则约束的锂电池故障数据筛选方法
CN112835947A (zh) * 2019-11-22 2021-05-25 杭州海康威视***技术有限公司 目标识别方法及装置、电子设备、存储介质
CN112835947B (zh) * 2019-11-22 2024-04-02 杭州海康威视***技术有限公司 目标识别方法及装置、电子设备、存储介质
WO2024088031A1 (zh) * 2022-10-27 2024-05-02 华为云计算技术有限公司 一种数据采集方法、装置及相关设备

Also Published As

Publication number Publication date
CN105843889B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN105843889A (zh) 基于可信度面向大数据及普通数据的数据采集方法和***
CN110619506B (zh) 一种岗位画像生成方法、岗位画像生成装置及电子设备
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
US9390378B2 (en) System and method for high accuracy product classification with limited supervision
US20190102655A1 (en) Training data acquisition method and device, server and storage medium
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
US20150026163A1 (en) Correlating Corpus/Corpora Value from Answered Questions
CN104573130B (zh) 基于群体计算的实体解析方法及装置
US10452627B2 (en) Column weight calculation for data deduplication
US20200250370A1 (en) Systems and methods for facilitating data object extraction from unstructured documents
CN113051362B (zh) 数据的查询方法、装置和服务器
US20120197936A1 (en) System and method for using a combination of semantic and statistical processing of input strings or other data content
US20130311474A1 (en) Generating Mappings Between a Plurality of Taxonomies
CN109979568B (zh) 心理健康预警方法、服务器、家属终端与***
CN110046264A (zh) 一种面向手机文档的自动分类方法
CN110008309A (zh) 一种短语挖掘方法及装置
CN116541752B (zh) 元数据管理方法、装置、计算机设备及存储介质
CN111708810B (zh) 模型优化推荐方法、装置和计算机存储介质
CN107704869B (zh) 一种语料数据抽样方法及模型训练方法
TWI254880B (en) Method for classifying electronic document analysis
WO2022267325A1 (zh) 新闻热度计算方法、设备及存储介质
WO2022143608A1 (zh) 语言标注方法、装置、计算机设备和存储介质
CN111950267B (zh) 文本三元组的抽取方法及装置、电子设备及存储介质
CN105843890A (zh) 基于知识库面向大数据及普通数据的数据采集方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant