发明内容
为了至少克服现有技术中的上述不足,本发明的目的之一在于提供一种海量数据导入方法、装置、服务器及可读存储介质。
本发明实施例提供了一种海量数据导入方法,所述方法至少包括:
获取第一终端发送的科研项目数据以及各申报指标数据;
在根据所述科研项目数据确定出所述第一终端中包含有关联信用记录时,根据多个第二终端的科研项目数据的关联信用记录中的申报指标数据及其置信度确定所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据之间的匹配系数,并根据所述匹配系数将所述第一终端的非关联信用记录中的与关联信用记录中的申报指标数据相匹配的申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录;
确定所述目标关联信用记录是否通过安全验证,在所述目标关联信用记录通过所述安全验证时,获取所述科研项目数据中包括的科研项目类别信息和科研项目进程信息;
解析所述科研项目类别信息和所述科研项目进程信息得到关键词向量,根据所述关键词向量中的每两个关键词之间的汉明距离对所述关键词向量进行滤波,得到文本特征向量;将所述文本特征向量与预存于项目申报数据库中的历史特征向量进行匹配,得到匹配结果;根据所述匹配结果获得所述科研项目数据的标识数据;
根据所述目标关联信用记录,确定出所述第一终端的推荐系数;
将所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包,将所述科研项目申报数据包导入预设的科研项目推送池中。
在一种可选的方式中,所述根据多个第二终端的科研项目数据的关联信用记录中的申报指标数据及其置信度确定所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据之间的匹配系数,并根据所述匹配系数将所述第一终端的非关联信用记录中的与关联信用记录中的申报指标数据相匹配的申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录,包括:
确定出所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据的重叠百分比;
分别判断各重叠百分比是否达到预设百分比,并将重叠百分比达到所述预设百分比的非关联信用记录中的各申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录;所述重叠百分比是根据所述多个第二终端的关联信用记录中的申报指标数据及其置信度确定出的申报指标数据属于关联信用记录的分布权重。
在一种可选的方式中,所述根据所述匹配结果获得所述科研项目数据的标识数据,包括:
分别确定出所述匹配结果的第一置信度分值以及所述匹配结果的特征字符的第二置信度分值;
确定出所述第二置信度分值与预设置信度分值的差值,将所述差值作为检测结果;
当所述检测结果表征所述差值大于所述第一置信度分值时,表征所述检测结果符合预设条件;在所述检测结果符合预设条件时,判定所述匹配结果的特征字符是所述匹配结果的转换结果,在判定出所述匹配结果的特征字符为所述匹配结果的转换结果时,将所述匹配结果转换为所述匹配结果的特征字符;
将所述特征字符作为第一索引标识,将在得到所述匹配结果之后获取的所述科研项目数据的预设推送对象信息作为第二索引标识,对所述第一索引标识和所述第二索引标识进行拼接,并将拼接结果作为第三索引标识;
根据所述第三索引标识进行特征字符转换处理,得到所述科研项目数据的标识数据。
在一种可选的方式中,所述根据所述目标关联信用记录,确定出所述第一终端的推荐系数,包括:
确定在所述目标关联信用记录中的多个信用特征值,所述关联信用记录中包括有一个或者多个信用风险率;
分别确定各信用特征值所激活的一个或多个信用风险率;
从所述目标关联信用记录中确定出符合信用判断逻辑的信用风险率序列;所述信用判断逻辑包括但不限于符合违约风险判断逻辑、数据安全风险判断逻辑和数据真实性风险判断逻辑中的至少一种;
获得所述信用风险率序列对应的候选系数,所述候选系数包括但不限于违约风险系数、数据安全风险系数和数据真实性风险系数中的至少一种;
根据所述候选系数,确定出所述第一终端的推荐系数。
在一种可选的方式中,所述将所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包,包括:
检测是否存在封装指令;
在检测到存在所述封装指令时,获取与所述封装指令包含的数据包封装类别对应的第一封装进程;
当确定所述第一封装进程中不包含所述推荐系数、所述标识数据和所述科研项目数据的第一封装条件时,根据所述数据封装类别在预先建立的封装条件数据库中进行搜索,获取与所述第一封装条件对应的第二封装条件;
启动所述第一封装进程,按照所述第二封装条件对所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包。
在一种可选的方式中,所述将所述科研项目申报数据包导入预设的科研项目推送池中,包括:
获取所述科研项目申报数据包的数据结构文本;
对所述数据结构文本进行解析,得到所述科研项目申报数据包数据结构逻辑信息;
对所述数据结构逻辑信息按照所述科研项目推送池中的数据逻辑信息类别进行分类处理,得到所述数据结构逻辑信息所处的第一目标类别;
确定出所述科研项目申报数据包的存储占用量;
判断所述第一目标类别对应的存储空间的剩余存储容量是否达到所述存储占用量;若达到,将所述科研项目申报数据包导入所述第一目标类别对应的存储空间中;若未达到,从所述科研项目推送池中确定出与所述第一目标类别之间的相似度值最小的第二目标类别;
在所述第二目标类别对应的存储空间的剩余存储容量达到所述存储占用量时将所述科研项目申报数据包导入第二目标类别对应的存储空间中。
在一种可选的方式中,所述确定出所述科研项目申报数据包的存储占用量,包括:
获取所述科研项目申报数据包的第一存储占用量;
获取所述科研项目申报数据包的脚本文件的第二存储占用量;
确定出所述第一存储占用量和所述第二存储占用量之间的差值;
将所述差值确定为所述科研项目申报数据包的存储占用量。
本发明实施例提供了一种海量数据导入装置,所述装置至少包括:
获取模块,用于获取第一终端发送的科研项目数据以及各申报指标数据;
匹配模块,用于在根据所述科研项目数据确定出所述第一终端中包含有关联信用记录时,根据多个第二终端的科研项目数据的关联信用记录中的申报指标数据及其置信度确定所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据之间的匹配系数,并根据所述匹配系数将所述第一终端的非关联信用记录中的与关联信用记录中的申报指标数据相匹配的申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录;
验证模块,用于确定所述目标关联信用记录是否通过安全验证,在所述目标关联信用记录通过所述安全验证时,获取所述科研项目数据中包括的科研项目类别信息和科研项目进程信息;
解析模块,用于解析所述科研项目类别信息和所述科研项目进程信息得到关键词向量,根据所述关键词向量中的每两个关键词之间的汉明距离对所述关键词向量进行滤波,得到文本特征向量;将所述文本特征向量与预存于项目申报数据库中的历史特征向量进行匹配,得到匹配结果;根据所述匹配结果获得所述科研项目数据的标识数据;
确定模块,用于根据所述目标关联信用记录,确定出所述第一终端的推荐系数;
导入模块,用于将所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包,将所述科研项目申报数据包导入预设的科研项目推送池中。
本发明实施例提供了一种服务器,包括处理器以及与所述处理器连接的存储器和总线;其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述的海量数据导入方法。
本发明实施例提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的海量数据导入方法。
本发明实施例所提供的一种海量数据导入方法、装置、服务器及可读存储介质,能够将所述第一终端中的关联信用记录和非关联信用记录考虑在内,不仅考虑了第一终端自身的安全性,也考虑了与第一终端通信的其他设备的安全性,如此,能够通过风险传导的思想准确、全面地确定第一终端的目标关联信用记录,确定目标关联信用记录是否通过安全验证,确保了导入项目申报服务平台的数据的安全性,进一步地,通过对科研项目类别信息和科研项目进程信息进行解析,并对解析得到的关键词向量进行滤波,能够滤除关键词向量中的噪声,从而确保得到的文本特征向量能够准确反映第一终端的科研项目申报的情况,将推荐系数、标识数据和科研项目数据进行封装得到科研项目数据包,能够在确保第一终端的科研项目数据的标识性的前提下有效减少数据容量,从而提高科研项目推送池的接纳量,通过标识数据和推荐系数,能够从科研项目推送池中确定出符合第一终端的科研项目申报的相关项目,无需对第一终端的科研项目数据进行进一步分析,提高了项目申报服务平台的处理效率。综上,上述方案能够提高项目申报服务平台对海量的项目申报进行处理的安全性和效率。
具体实施方式
下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种海量数据导入方法、装置、服务器及可读存储介质,用以改善现有的项目申报服务平台难以对海量的项目申报进行安全且高效地处理的技术问题。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
图1为根据本发明一个实施例提供的海量数据导入方法的流程图,该方法应用于项目申报服务平台,其中,项目申报服务平台主要用于政策的爬虫挖掘、政策的推送、企业项目申报评估以及企业创新技术挖掘等。
详细地,图1所示的方法可以包括以下内容:
步骤S21,获取第一终端发送的科研项目数据以及各申报指标数据。
步骤S22,在根据所述科研项目数据确定出所述第一终端中包含有关联信用记录时,根据多个第二终端的科研项目数据的关联信用记录中的申报指标数据及其置信度确定所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据之间的匹配系数,并根据所述匹配系数将所述第一终端的非关联信用记录中的与关联信用记录中的申报指标数据相匹配的申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录。
步骤S23,确定所述目标关联信用记录是否通过安全验证,在所述目标关联信用记录通过所述安全验证时,获取所述科研项目数据中包括的科研项目类别信息和科研项目进程信息。
步骤S24,解析所述科研项目类别信息和所述科研项目进程信息得到关键词向量,根据所述关键词向量中的每两个关键词之间的汉明距离对所述关键词向量进行滤波,得到文本特征向量;将所述文本特征向量与预存于项目申报数据库中的历史特征向量进行匹配,得到匹配结果;根据所述匹配结果获得所述科研项目数据的标识数据。
步骤S25,根据所述目标关联信用记录,确定出所述第一终端的推荐系数。
步骤S26,将所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包,将所述科研项目申报数据包导入预设的科研项目推送池中。
通过步骤S21-步骤S26,能够将所述第一终端中的关联信用记录和非关联信用记录考虑在内,不仅考虑了第一终端自身的安全性,也考虑了与第一终端通信的其他设备的安全性,如此,能够通过风险传导的思想准确、全面地确定第一终端的目标关联信用记录,确定目标关联信用记录是否通过安全验证,确保了导入项目申报服务平台的数据的安全性,进一步地,通过对科研项目类别信息和科研项目进程信息进行解析,并对解析得到的关键词向量进行滤波,能够滤除关键词向量中的噪声,从而确保得到的文本特征向量能够准确反映第一终端的科研项目申报的情况,将推荐系数、标识数据和科研项目数据进行封装得到科研项目数据包,能够在确保第一终端的科研项目数据的标识性的前提下有效减少数据容量,从而提高科研项目推送池的接纳量,通过标识数据和推荐系数,能够从科研项目推送池中确定出符合第一终端的科研项目申报的相关项目,无需对第一终端的科研项目数据进行进一步分析,提高了项目申报服务平台的处理效率。由此可见,通过步骤S21-步骤S26,能够提高项目申报服务平台对海量的项目申报进行处理的安全性和效率。
在具体实施时,为了准确确定第一终端与多个第二终端进行交互时存在的风险,从而准确确定第一终端的目标关联信用记录,在步骤S22中,所述根据多个第二终端的科研项目数据的关联信用记录中的申报指标数据及其置信度确定所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据之间的匹配系数,并根据所述匹配系数将所述第一终端的非关联信用记录中的与关联信用记录中的申报指标数据相匹配的申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录,具体可以包括以下内容:
步骤S221,确定出所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据的重叠百分比。
步骤S222,分别判断各重叠百分比是否达到预设百分比,并将重叠百分比达到所述预设百分比的非关联信用记录中的各申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录。
在步骤S221中,所述重叠百分比是根据所述多个第二终端的关联信用记录中的申报指标数据及其置信度确定出的申报指标数据属于关联信用记录的分布权重。
可以理解,通过步骤S221-步骤S222,能够准确确定第一终端与多个第二终端进行交互时存在的风险,从而准确确定第一终端的目标关联信用记录。
在具体实施时,由于匹配结果是根据项目申报数据库中的历史特征向量得到的,而历史特征向量可能是其他终端的,这样会导致获得的标识数据存在偏差,为此,在步骤S24中,所述根据所述匹配结果获得所述科研项目数据的标识数据,包括:
步骤S241,分别确定出所述匹配结果的第一置信度分值以及所述匹配结果的特征字符的第二置信度分值。
步骤S242,确定出所述第二置信度分值与预设置信度分值的差值,将所述差值作为检测结果。
步骤S243,当所述检测结果表征所述差值大于所述第一置信度分值时,表征所述检测结果符合预设条件;在所述检测结果符合预设条件时,判定所述匹配结果的特征字符是所述匹配结果的转换结果,在判定出所述匹配结果的特征字符为所述匹配结果的转换结果时,将所述匹配结果转换为所述匹配结果的特征字符。
步骤S244,将所述特征字符作为第一索引标识,将在得到所述匹配结果之后获取的所述科研项目数据的预设推送对象信息作为第二索引标识,对所述第一索引标识和所述第二索引标识进行拼接,并将拼接结果作为第三索引标识。
步骤S245,根据所述第三索引标识进行特征字符转换处理,得到所述科研项目数据的标识数据。
可以理解,通过步骤S241-步骤S245,能够将匹配结果的第一置信度分值以及匹配结果的特征字符的第二置信度分值考虑在内,通过以第一置信度分值和第二置信度分值来确定是否转换匹配结果得到特征字符,能够将历史特征向量中其他终端的噪声进行滤除,从而确保特征字符能够准确地反映科研项目层面的特征,将第一索引标识和第二索引标识进行拼接,能够将科研项目数据的预设推送对象信息,如此,能够针对性地为科研项目数据确定标识数据,便于后期进行科研项目申报推送和匹配时的效率。此外,将第三索引标识进行特征字符转换处理,能够使得标识数据与科研项目推送池中的数据形式对应,提高科研项目申报推送和匹配的成功率。
在具体实施时,目标关联信用记录所对应的信用维度是多方面的,因此,为了准确地根据目标关联信用记录确定出第一终端的推荐系数,在步骤S25中,具体可以包括以下内容:
步骤S251,确定在所述目标关联信用记录中的多个信用特征值,所述关联信用记录中包括有一个或者多个信用风险率。
步骤S252,分别确定各信用特征值所激活的一个或多个信用风险率。
步骤S253,从所述目标关联信用记录中确定出符合信用判断逻辑的信用风险率序列;所述信用判断逻辑包括但不限于符合违约风险判断逻辑、数据安全风险判断逻辑和数据真实性风险判断逻辑中的至少一种。
步骤S254,获得所述信用风险率序列对应的候选系数,所述候选系数包括但不限于违约风险系数、数据安全风险系数和数据真实性风险系数中的至少一种。
步骤S255,根据所述候选系数,确定出所述第一终端的推荐系数。
通过步骤S251-步骤S256,能够确定出目标关联信用记录中的多个信用特征值以及各信用特征值激活的信用风险率,并根据信用判断逻辑确定出信用风险率序列,然后确定出信用风险率序列对应的候选系数,如此,能够将目标关联信用记录中的违约风险、数据安全风险和数据真实性风险考虑在内,从而对目标关联信用记录进行多维度的风险识别和预测,进而保证确定出的第一终端的推荐系数的全面性和可靠性。
在具体实施时,对推荐系数、标识数据和科研项目数据进行封装需要根据封装指令和封装条件进行,为了提高数据包封装的可靠性和准确性,在步骤S26中,所述将所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包,具体可以包括以下内容:
步骤S2611,检测是否存在封装指令。
步骤S2612,在检测到存在所述封装指令时,获取与所述封装指令包含的数据包封装类别对应的第一封装进程。
步骤S2613,当确定所述第一封装进程中不包含所述推荐系数、所述标识数据和所述科研项目数据的第一封装条件时,根据所述数据封装类别在预先建立的封装条件数据库中进行搜索,获取与所述第一封装条件对应的第二封装条件。
步骤S2614,启动所述第一封装进程,按照所述第二封装条件对所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包。
通过步骤S2611-步骤S2614,能够在检测到封装指令时进行后续的封装操作,如此,能够避免直接进行封装操作带来的计算负荷。根据第二封装条件进行封装,能够确保按照推荐系数、标识数据和科研项目数据的具体数据场景和类别进行封装,避免在封装过程中的不兼容导致数据的丢失和改变,确保得到的科研项目申报数据包的可靠性和准确性。
在具体实施时,为了提高后续科研项目申报推送和匹配的效率,在步骤S26中,所述将所述科研项目申报数据包导入预设的科研项目推送池中,具体科研包括以下内容:
步骤S2621,获取所述科研项目申报数据包的数据结构文本。
步骤S2622,对所述数据结构文本进行解析,得到所述科研项目申报数据包数据结构逻辑信息。
步骤S2623,对所述数据结构逻辑信息按照所述科研项目推送池中的数据逻辑信息类别进行分类处理,得到所述数据结构逻辑信息所处的第一目标类别。
步骤S2624,确定出所述科研项目申报数据包的存储占用量。
步骤S2625,判断所述第一目标类别对应的存储空间的剩余存储容量是否达到所述存储占用量;若达到,将所述科研项目申报数据包导入所述第一目标类别对应的存储空间中;若未达到,从所述科研项目推送池中确定出与所述第一目标类别之间的相似度值最小的第二目标类别。
步骤S2626,在所述第二目标类别对应的存储空间的剩余存储容量达到所述存储占用量时将所述科研项目申报数据包导入第二目标类别对应的存储空间中。
通过步骤S2621-步骤S2626,能够将科研项目申报数据包进行类导入,如此,能够确保在后续科研项目申报推送和匹配时,可以直接根据类别进行推送和匹配,从而提高科研项目申报推送和匹配的效率。
在存储空间的剩余存储容量不足时,能够基于类别之间的相似度值进行科研项目申报数据包的导入,进一步提高了科研项目申报推送和匹配的效率。
可选地,在步骤S2624中,所述确定出所述科研项目申报数据包的存储占用量,具体可以包括以下内容:
获取所述科研项目申报数据包的第一存储占用量,获取所述科研项目申报数据包的脚本文件的第二存储占用量,确定出所述第一存储占用量和所述第二存储占用量之间的差值,将所述差值确定为所述科研项目申报数据包的存储占用量。
可以理解,由于脚本文件在导入科研项目推送池时是不占用存储空间的,因此,通过上述方法,能够准确确定出科研项目申报数据包的存储占用量,避免因科研项目申报数据包的存储占用量的误差导致对科研项目申报数据包进行导入时出错。
在上述基础上,本发明实施例提供了一种海量数据导入装置200。图2为根据本发明一个实施例提供的一种海量数据导入装置200的功能模块框图,该海量数据导入装置200包括:
获取模块201,用于获取第一终端发送的科研项目数据以及各申报指标数据。
匹配模块202,用于在根据所述科研项目数据确定出所述第一终端中包含有关联信用记录时,根据多个第二终端的科研项目数据的关联信用记录中的申报指标数据及其置信度确定所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据之间的匹配系数,并根据所述匹配系数将所述第一终端的非关联信用记录中的与关联信用记录中的申报指标数据相匹配的申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录。
验证模块203,用于确定所述目标关联信用记录是否通过安全验证,在所述目标关联信用记录通过所述安全验证时,获取所述科研项目数据中包括的科研项目类别信息和科研项目进程信息。
解析模块204,用于解析所述科研项目类别信息和所述科研项目进程信息得到关键词向量,根据所述关键词向量中的每两个关键词之间的汉明距离对所述关键词向量进行滤波,得到文本特征向量;将所述文本特征向量与预存于项目申报数据库中的历史特征向量进行匹配,得到匹配结果;根据所述匹配结果获得所述科研项目数据的标识数据。
确定模块205,用于根据所述目标关联信用记录,确定出所述第一终端的推荐系数。
导入模块206,用于将所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包,将所述科研项目申报数据包导入预设的科研项目推送池中。
在一种可选的方式中,匹配模块202,具体用于:
确定出所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据的重叠百分比;
分别判断各重叠百分比是否达到预设百分比,并将重叠百分比达到所述预设百分比的非关联信用记录中的各申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录;所述重叠百分比是根据所述多个第二终端的关联信用记录中的申报指标数据及其置信度确定出的申报指标数据属于关联信用记录的分布权重。
在一种可选的方式中,解析模块204,具体用于:
分别确定出所述匹配结果的第一置信度分值以及所述匹配结果的特征字符的第二置信度分值;
确定出所述第二置信度分值与预设置信度分值的差值,将所述差值作为检测结果;
当所述检测结果表征所述差值大于所述第一置信度分值时,表征所述检测结果符合预设条件;在所述检测结果符合预设条件时,判定所述匹配结果的特征字符是所述匹配结果的转换结果,在判定出所述匹配结果的特征字符为所述匹配结果的转换结果时,将所述匹配结果转换为所述匹配结果的特征字符;
将所述特征字符作为第一索引标识,将在得到所述匹配结果之后获取的所述科研项目数据的预设推送对象信息作为第二索引标识,对所述第一索引标识和所述第二索引标识进行拼接,并将拼接结果作为第三索引标识;
根据所述第三索引标识进行特征字符转换处理,得到所述科研项目数据的标识数据。
在一种可选的方式中,确定模块205,具体用于:
确定在所述目标关联信用记录中的多个信用特征值,所述关联信用记录中包括有一个或者多个信用风险率;
分别确定各信用特征值所激活的一个或多个信用风险率;
从所述目标关联信用记录中确定出符合信用判断逻辑的信用风险率序列;所述信用判断逻辑包括但不限于符合违约风险判断逻辑、数据安全风险判断逻辑和数据真实性风险判断逻辑中的至少一种;
获得所述信用风险率序列对应的候选系数,所述候选系数包括但不限于违约风险系数、数据安全风险系数和数据真实性风险系数中的至少一种;
根据所述候选系数,确定出所述第一终端的推荐系数。
在一种可选的方式中,导入模块206,具体用于:
检测是否存在封装指令;
在检测到存在所述封装指令时,获取与所述封装指令包含的数据包封装类别对应的第一封装进程;
当确定所述第一封装进程中不包含所述推荐系数、所述标识数据和所述科研项目数据的第一封装条件时,根据所述数据封装类别在预先建立的封装条件数据库中进行搜索,获取与所述第一封装条件对应的第二封装条件;
启动所述第一封装进程,按照所述第二封装条件对所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包。
在一种可选的方式中,导入模块206,具体用于:
获取所述科研项目申报数据包的数据结构文本;
对所述数据结构文本进行解析,得到所述科研项目申报数据包数据结构逻辑信息;
对所述数据结构逻辑信息按照所述科研项目推送池中的数据逻辑信息类别进行分类处理,得到所述数据结构逻辑信息所处的第一目标类别;
确定出所述科研项目申报数据包的存储占用量;
判断所述第一目标类别对应的存储空间的剩余存储容量是否达到所述存储占用量;若达到,将所述科研项目申报数据包导入所述第一目标类别对应的存储空间中;若未达到,从所述科研项目推送池中确定出与所述第一目标类别之间的相似度值最小的第二目标类别;
在所述第二目标类别对应的存储空间的剩余存储容量达到所述存储占用量时将所述科研项目申报数据包导入第二目标类别对应的存储空间中。
在一种可选的方式中,导入模块206,具体用于:
获取所述科研项目申报数据包的第一存储占用量;
获取所述科研项目申报数据包的脚本文件的第二存储占用量;
确定出所述第一存储占用量和所述第二存储占用量之间的差值;
将所述差值确定为所述科研项目申报数据包的存储占用量。
所述服务器300包括处理器和存储器,上述获取模块201、匹配模块202、验证模块203、解析模块204、确定模块205和导入模块206等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数提高项目申报服务平台对海量的项目申报进行处理的安全性和效率。
本发明实施例提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现所述海量数据导入方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述海量数据导入方法。
本发明实施例中,如图3所示,服务器300包括至少一个处理器301、以及与处理器301连接的至少一个存储器302、总线;其中,处理器301、存储器302通过总线303完成相互间的通信;处理器301用于调用存储器302中的程序指令,以执行上述的海量数据导入方法。本文中的服务器300可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取第一终端发送的科研项目数据以及各申报指标数据;
在根据所述科研项目数据确定出所述第一终端中包含有关联信用记录时,根据多个第二终端的科研项目数据的关联信用记录中的申报指标数据及其置信度确定所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据之间的匹配系数,并根据所述匹配系数将所述第一终端的非关联信用记录中的与关联信用记录中的申报指标数据相匹配的申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录;
确定所述目标关联信用记录是否通过安全验证,在所述目标关联信用记录通过所述安全验证时,获取所述科研项目数据中包括的科研项目类别信息和科研项目进程信息;
解析所述科研项目类别信息和所述科研项目进程信息得到关键词向量,根据所述关键词向量中的每两个关键词之间的汉明距离对所述关键词向量进行滤波,得到文本特征向量;将所述文本特征向量与预存于项目申报数据库中的历史特征向量进行匹配,得到匹配结果;根据所述匹配结果获得所述科研项目数据的标识数据;
根据所述目标关联信用记录,确定出所述第一终端的推荐系数;
将所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包,将所述科研项目申报数据包导入预设的科研项目推送池中。
在一种可选的方式中,所述根据多个第二终端的科研项目数据的关联信用记录中的申报指标数据及其置信度确定所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据之间的匹配系数,并根据所述匹配系数将所述第一终端的非关联信用记录中的与关联信用记录中的申报指标数据相匹配的申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录,包括:
确定出所述第一终端的非关联信用记录中的各申报指标数据与所述第一终端的关联信用记录中的各申报指标数据的重叠百分比;
分别判断各重叠百分比是否达到预设百分比,并将重叠百分比达到所述预设百分比的非关联信用记录中的各申报指标数据导入相应的关联信用记录中,得到所述第一终端的目标关联信用记录;所述重叠百分比是根据所述多个第二终端的关联信用记录中的申报指标数据及其置信度确定出的申报指标数据属于关联信用记录的分布权重。
在一种可选的方式中,所述根据所述匹配结果获得所述科研项目数据的标识数据,包括:
分别确定出所述匹配结果的第一置信度分值以及所述匹配结果的特征字符的第二置信度分值;
确定出所述第二置信度分值与预设置信度分值的差值,将所述差值作为检测结果;
当所述检测结果表征所述差值大于所述第一置信度分值时,表征所述检测结果符合预设条件;在所述检测结果符合预设条件时,判定所述匹配结果的特征字符是所述匹配结果的转换结果,在判定出所述匹配结果的特征字符为所述匹配结果的转换结果时,将所述匹配结果转换为所述匹配结果的特征字符;
将所述特征字符作为第一索引标识,将在得到所述匹配结果之后获取的所述科研项目数据的预设推送对象信息作为第二索引标识,对所述第一索引标识和所述第二索引标识进行拼接,并将拼接结果作为第三索引标识;
根据所述第三索引标识进行特征字符转换处理,得到所述科研项目数据的标识数据。
在一种可选的方式中,所述根据所述目标关联信用记录,确定出所述第一终端的推荐系数,包括:
确定在所述目标关联信用记录中的多个信用特征值,所述关联信用记录中包括有一个或者多个信用风险率;
分别确定各信用特征值所激活的一个或多个信用风险率;
从所述目标关联信用记录中确定出符合信用判断逻辑的信用风险率序列;所述信用判断逻辑包括但不限于符合违约风险判断逻辑、数据安全风险判断逻辑和数据真实性风险判断逻辑中的至少一种;
获得所述信用风险率序列对应的候选系数,所述候选系数包括但不限于违约风险系数、数据安全风险系数和数据真实性风险系数中的至少一种;
根据所述候选系数,确定出所述第一终端的推荐系数。
在一种可选的方式中,所述将所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包,包括:
检测是否存在封装指令;
在检测到存在所述封装指令时,获取与所述封装指令包含的数据包封装类别对应的第一封装进程;
当确定所述第一封装进程中不包含所述推荐系数、所述标识数据和所述科研项目数据的第一封装条件时,根据所述数据封装类别在预先建立的封装条件数据库中进行搜索,获取与所述第一封装条件对应的第二封装条件;
启动所述第一封装进程,按照所述第二封装条件对所述推荐系数、所述标识数据和所述科研项目数据进行封装,得到所述第一终端的科研项目申报数据包。
在一种可选的方式中,所述将所述科研项目申报数据包导入预设的科研项目推送池中,包括:
获取所述科研项目申报数据包的数据结构文本;
对所述数据结构文本进行解析,得到所述科研项目申报数据包数据结构逻辑信息;
对所述数据结构逻辑信息按照所述科研项目推送池中的数据逻辑信息类别进行分类处理,得到所述数据结构逻辑信息所处的第一目标类别;
确定出所述科研项目申报数据包的存储占用量;
判断所述第一目标类别对应的存储空间的剩余存储容量是否达到所述存储占用量;若达到,将所述科研项目申报数据包导入所述第一目标类别对应的存储空间中;若未达到,从所述科研项目推送池中确定出与所述第一目标类别之间的相似度值最小的第二目标类别;
在所述第二目标类别对应的存储空间的剩余存储容量达到所述存储占用量时将所述科研项目申报数据包导入第二目标类别对应的存储空间中。
在一种可选的方式中,所述确定出所述科研项目申报数据包的存储占用量,包括:
获取所述科研项目申报数据包的第一存储占用量;
获取所述科研项目申报数据包的脚本文件的第二存储占用量;
确定出所述第一存储占用量和所述第二存储占用量之间的差值;
将所述差值确定为所述科研项目申报数据包的存储占用量。
本申请是参照根据本申请实施例的方法、服务器(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理服务器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理服务器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,服务器包括一个或多个处理器(CPU)、存储器和总线。服务器还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储服务器或任何其他非传输介质,可用于存储可以被计算服务器访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者服务器不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者服务器所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者服务器中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。