CN113590531B - 一种基于大数据的数据分类存储***及方法 - Google Patents

一种基于大数据的数据分类存储***及方法 Download PDF

Info

Publication number
CN113590531B
CN113590531B CN202110841855.7A CN202110841855A CN113590531B CN 113590531 B CN113590531 B CN 113590531B CN 202110841855 A CN202110841855 A CN 202110841855A CN 113590531 B CN113590531 B CN 113590531B
Authority
CN
China
Prior art keywords
address
file
files
investigation
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110841855.7A
Other languages
English (en)
Other versions
CN113590531A (zh
Inventor
姜义凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huiding Hualian Technology Co ltd
Original Assignee
Zhejiang Huiding Hualian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huiding Hualian Technology Co ltd filed Critical Zhejiang Huiding Hualian Technology Co ltd
Priority to CN202110841855.7A priority Critical patent/CN113590531B/zh
Publication of CN113590531A publication Critical patent/CN113590531A/zh
Application granted granted Critical
Publication of CN113590531B publication Critical patent/CN113590531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的数据分类存储***及方法,所述数据存储***包括数据库、预判断模块、考察地址划分模块、第一地址分析模块和第二地址分析模块,所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱,所述常用数据库中的文件不限制存储时长,所述临时数据库中的文件的存储时长为第一存储时长,所述垃圾箱中的文件的存储时长为第二存储时长,所述第一存储时长大于第二存储时长,所述预判断模块用于在预设时间段内接收到一批文件时,设该批文件为待分类文件,获取各个待分类文件的发件地址,判断某个待分类文件的发件地址是否为黑名单中的发件地址。

Description

一种基于大数据的数据分类存储***及方法
技术领域
本发明涉及数据分类存储技术领域,具体为一种基于大数据的数据分类存储***及方法。
背景技术
随着社会信息化的进度日益加快,越来越多的企业通过互联网等信息技术来进行办公。无论是企业内部的部门之间还是企业内部与企业外部之间,在通过信息技术办公的过程中都会产生很多的行政文件数据,这些行政文件数据有的极为重要,需要进行长期存储保存,有的是无关痛痒,即使不处理也没有关系,如果不对这些行政文件数据进行分类,会导致文件数据的保存不当,容易导致丢失;现有技术中,往往是通过人为的对这些行政文件数据进行分类、整合,但这种人为的分类方式效率较低。
发明内容
本发明的目的在于提供一种基于大数据的数据分类存储***及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于大数据的数据分类存储***,所述数据存储***包括数据库、预判断模块、考察地址划分模块、第一地址分析模块、第二地址分析模块和未读标识添加模块,所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱,所述常用数据库中的文件不限制存储时长,所述临时数据库中的文件的存储时长为第一存储时长,所述垃圾箱中的文件的存储时长为第二存储时长,所述第一存储时长大于第二存储时长,所述预判断模块用于在预设时间段内接收到一批文件时,设该批文件为待分类文件,获取各个待分类文件的发件地址,判断某个待分类文件的发件地址是否为黑名单中的发件地址,在判断发件地址是黑名单中的发件地址时,将该待分类文件存入垃圾箱,在判断发件地址为黑名单以外的发件地址时,设待分类文件的发件地址为考察地址,并令考察地址划分模块将考察地址划分为第一地址和第二地址,所述第一地址分析模块对第一地址所发送的文件进行分析,判断各个第一地址所对应的待分类文件的存储方式,所述第二地址分析模块从第一地址中选取第二地址的关联地址,根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式,所述未读标识添加模块用于在文件存入相应的数据库中时给文件添加相应的未读标识。
进一步的,所述考察地址划分模块包括第一相似度获取模块、参照文件选取模块和地址分类模块,所述第一相似度获取模块采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度,所述参照文件选取模块将各批文件所对应的第一相似度按照从大到小的顺序排序,选取排序第一所对应的那批文件为参照文件,所述地址分类模块获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址,待分类文件的发件地址中除第一地址以外的发件地址为第二地址。
进一步的,所述第一地址分析模块包括回点次数获取模块、回点次数比较模块和第一存储指数比较模块,所述回点次数获取模块用于获取各个第一地址所对应的参照文件的回点次数,其中,所述回点次数为在接收阅读文件之后再次点击阅读文件的次数,所述回点次数比较模块用于判断回点次数是否大于等于1,在某个第一地址所对应的回点次数大于等于1的时候,将该第一地址所对应的待分类文件存入常用数据库,在某个第一地址所对应的回点次数小于1的时候,所述第一存储指数比较模块采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数,在第一存储指数大于等于第一存储阈值时,将该第一地址所对应的待分类文件存入常用数据库,在第一存储指数小于第一存储阈值时,将该第一地址所对应的待分类文件存入临时数据库。
进一步的,所述第二地址分析模块包括第一指数获取模块、第二指数获取模块、关联指数计算模块、关联差值计算模块、关联地址选取模块和预降级标识添加模块,所述第一指数获取模块获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0,那么某个考察地址的第一指数X=C0/Cz,所述第二指数获取模块获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y=G0/Cz,其中,G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值,所述关联指数计算模块根据第一指数、第二指数计算考察地址的关联指数P=0.5*C0/Cz+0.5*G0/Cz,所述关联差值计算模块用于计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值,所述关联地址选取模块将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序,选取排序第一所对应的第一地址为该第二地址的关联地址,并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库,所述预降级标识添加模块当第二地址的关联地址所对应的关联差值大于关联阈值,那么给该第二地址发送的考察文件添加预降级标识,其中,当某个考察文件添加有预降级标识时,如果它的未读标识的时长大于等于时长阈值,那么将该考察文件移入到下一级的数据库。
一种基于大数据的数据分类存储方法,所述数据分类存储方法包括以下步骤:
预先建立数据库,所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱,所述常用数据库中的文件不限制存储时长,所述临时数据库中的文件的存储时长为第一存储时长,所述垃圾箱中的文件的存储时长为第二存储时长,所述第一存储时长大于第二存储时长;
当预设时间段内接收到一批文件时,设该批文件为待分类文件,获取各个待分类文件的发件地址,当某个待分类文件的发件地址为黑名单中的发件地址时,将该待分类文件存入垃圾箱;
获取待分类文件的发件地址为黑名单以外的发件地址为考察地址,并将考察地址划分为第一地址和第二地址,
对第一地址所发送的文件进行分析,判断各个第一地址所对应的待分类文件的存储方式;
从第一地址中选取第二地址的关联地址,根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式。
进一步的,所述将考察地址划分为第一地址和第二地址包括:
采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度,将各批文件所对应的第一相似度按照从大到小的顺序排序,选取排序第一所对应的那批文件为参照文件,
获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址,待分类文件的发件地址中除第一地址以外的发件地址为第二地址。
进一步的,所述对第一地址所发送的文件进行分析包括:
分别获取各个第一地址所对应的参照文件的回点次数,当回点次数大于等于1时,那么将该第一地址所对应的待分类文件存入常用数据库,并添加未读标识,其中,所述回点次数为在接收阅读文件之后再次点击阅读文件的次数;
否则,采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数,
如果第一存储指数大于等于第一存储阈值,那么将该第一地址所对应的待分类文件存入常用数据库,并添加未读标识,所述未读标识在文件被点击阅读后消失,
如果第一存储指数小于第一存储阈值,那么将该第一地址所对应的待分类文件存入临时数据库,并添加未读标识。
进一步的,所述从第一地址中选取第二地址的关联地址包括:
获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0,那么某个考察地址的第一指数X=C0/Cz,
获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y=G0/Cz,其中,G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值;
那么某个考察地址的关联指数P=0.5*C0/Cz+0.5*G0/Cz,
计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值,并将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序,选取排序第一所对应的第一地址为该第二地址的关联地址,并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库,并添加未读标识。
进一步的,所述确认第二地址所对应的待分类文件的存储方式还包括:当第二地址的关联地址所对应的关联差值大于关联阈值,那么给该第二地址发送的考察文件添加预降级标识,其中,当某个考察文件添加有预降级标识时,如果它的未读标识的时长大于等于时长阈值,那么将该考察文件移入到下一级的数据库。
与现有技术相比,本发明所达到的有益效果是:本发明通过将接收到的当前批次的文件的地址与历史接收到批次的文件的地址进行相似度比较,选取相似度比较大的批次所对应的文件作为当前批次的文件的存储方式的参照对象,从而提高了当前批次的文件的存储方式的合理性,同时,本申请中还设置了预降级标识,能够实现文件在数据库之前的自动调整移动,增加了文件数据存储的灵活性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明基于大数据的数据分类存储***的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供技术方案:一种基于大数据的数据分类存储***,所述数据存储***包括数据库、预判断模块、考察地址划分模块、第一地址分析模块、第二地址分析模块和未读标识添加模块,所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱,所述常用数据库中的文件不限制存储时长,所述临时数据库中的文件的存储时长为第一存储时长,所述垃圾箱中的文件的存储时长为第二存储时长,所述第一存储时长大于第二存储时长,所述预判断模块用于在预设时间段内接收到一批文件时,设该批文件为待分类文件,获取各个待分类文件的发件地址,判断某个待分类文件的发件地址是否为黑名单中的发件地址,在判断发件地址是黑名单中的发件地址时,将该待分类文件存入垃圾箱,在判断发件地址为黑名单以外的发件地址时,设待分类文件的发件地址为考察地址,并令考察地址划分模块将考察地址划分为第一地址和第二地址,所述第一地址分析模块对第一地址所发送的文件进行分析,判断各个第一地址所对应的待分类文件的存储方式,所述第二地址分析模块从第一地址中选取第二地址的关联地址,根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式,所述未读标识添加模块用于在文件存入相应的数据库中时给文件添加相应的未读标识。
所述考察地址划分模块包括第一相似度获取模块、参照文件选取模块和地址分类模块,所述第一相似度获取模块采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度,所述参照文件选取模块将各批文件所对应的第一相似度按照从大到小的顺序排序,选取排序第一所对应的那批文件为参照文件,所述地址分类模块获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址,待分类文件的发件地址中除第一地址以外的发件地址为第二地址。
所述第一地址分析模块包括回点次数获取模块、回点次数比较模块和第一存储指数比较模块,所述回点次数获取模块用于获取各个第一地址所对应的参照文件的回点次数,其中,所述回点次数为在接收阅读文件之后再次点击阅读文件的次数,所述回点次数比较模块用于判断回点次数是否大于等于1,在某个第一地址所对应的回点次数大于等于1的时候,将该第一地址所对应的待分类文件存入常用数据库,在某个第一地址所对应的回点次数小于1的时候,所述第一存储指数比较模块采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数,在第一存储指数大于等于第一存储阈值时,将该第一地址所对应的待分类文件存入常用数据库,在第一存储指数小于第一存储阈值时,将该第一地址所对应的待分类文件存入临时数据库。
所述第二地址分析模块包括第一指数获取模块、第二指数获取模块、关联指数计算模块、关联差值计算模块、关联地址选取模块和预降级标识添加模块,所述第一指数获取模块获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0,那么某个考察地址的第一指数X=C0/Cz,所述第二指数获取模块获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y=G0/Cz,其中,G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值,所述关联指数计算模块根据第一指数、第二指数计算考察地址的关联指数P=0.5*C0/Cz+0.5*G0/Cz,所述关联差值计算模块用于计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值,所述关联地址选取模块将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序,选取排序第一所对应的第一地址为该第二地址的关联地址,并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库,所述预降级标识添加模块当第二地址的关联地址所对应的关联差值大于关联阈值,那么给该第二地址发送的考察文件添加预降级标识,其中,当某个考察文件添加有预降级标识时,如果它的未读标识的时长大于等于时长阈值,那么将该考察文件移入到下一级的数据库。
一种基于大数据的数据分类存储方法,所述数据分类存储方法包括以下步骤:
预先建立数据库,所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱,所述常用数据库中的文件不限制存储时长,所述临时数据库中的文件的存储时长为第一存储时长,所述垃圾箱中的文件的存储时长为第二存储时长,所述第一存储时长大于第二存储时长;常用数据库中的文件可以人为的设置任意存储时长;
当预设时间段内接收到一批文件时,设该批文件为待分类文件,获取各个待分类文件的发件地址,当某个待分类文件的发件地址为黑名单中的发件地址时,将该待分类文件存入垃圾箱;本实施例中的文件指的是邮件,发件地址是指邮件的发送邮箱,在公司工作过程中,有时会出现采用定时登录邮箱查看邮件的情况,此时如果对该段时间接收到的每一个邮件,用户都要去阅读一下,再对其进行分类存储,将非常耗费时间精力;黑名单用于存储将文件移入垃圾箱的发件地址;
获取待分类文件的发件地址为黑名单以外的发件地址为考察地址,并将考察地址划分为第一地址和第二地址,
所述将考察地址划分为第一地址和第二地址包括:
采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度,将各批文件所对应的第一相似度按照从大到小的顺序排序,选取排序第一所对应的那批文件为参照文件,本申请中的各批文件是指最近一段时间每一个预设时间段内所收到的邮箱邮件,在比较相似度时,是将各批接收到的文件所对应的地址与待分类文件的地址进行比较,比如某一批接收到文件a1、a2、a3、a4、a5,相对应的发送文件的地址为b1、b2、b3、b4、b5,而待分类文件的文件为c1、c2、c3、c4、c5,相对应的发送文件的地址为b1、b3、b5、b2、b6,那么在比较相似度时,是将地址“b1、b2、b3、b4、b5”与“b1、b3、b5、b2、b6”进行比较,两个地址中包含的相同的地址的个数越多,那么他们的相似度也就越高,这里设地址“b1、b2、b3、b4、b5”与“b1、b3、b5、b2、b6”的相似度是最高的,那么“a1、a2、a3、a4、a5”便为参照文件;
获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址,待分类文件的发件地址中除第一地址以外的发件地址为第二地址;在上述例子中“b1、b2、b3、b5”便为第一地址,“b6”变为第二地址;
对第一地址所发送的文件进行分析,判断各个第一地址所对应的待分类文件的存储方式;
对第一地址所发送的文件进行分析包括:
分别获取各个第一地址所对应的参照文件的回点次数,当回点次数大于等于1时,那么将该第一地址所对应的待分类文件存入常用数据库,并添加未读标识,其中,所述回点次数为在接收阅读文件之后再次点击阅读文件的次数;当再次点击阅读文件数据的持续时长大于持续时长阈值时,才算一次回点次数;将新接收到的文件存入数据库时,都会添加未读标识,在阅读相应文件之后,未读标识会消失;在上述例子当中,“a1、a2、a3、a4、a5”是参照文件,所对应的发件地址分别为“b1、b2、b3、b4、b5”,第一地址为“b1、b2、b3、b5”,那么获取文件“a1、a2、a3、a5”的回点次数,
否则,采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数,更深层次的,可以获取参照文件的阅读时长r1与文件大小k1的比值r1/k1,和参考文件所对应的第一地址历史发送文件时的阅读时长与文件大小的比值的平均值e,如果r1/k1在该平均值e的波动范围之外,那么修改r1的值为e*k1,将e*k1与参照文件的总阅读时长的比值为第一存储指数,当然这里的参照文件的总阅读时长也是将r1修改为e*k1后的时长,
如果第一存储指数大于等于第一存储阈值,那么将该第一地址所对应的待分类文件存入常用数据库,并添加未读标识,所述未读标识在文件被点击阅读后消失,未读标识可以当做文件数据在数据库中的存储标志,当文件数据添加有未读标识,将该文件数据进行置顶;
如果第一存储指数小于第一存储阈值,那么将该第一地址所对应的待分类文件存入临时数据库,并添加未读标识。工作人员在实际过程中也可以在阅读文件数据后对数据库内的文件的存储地方进行调整;
从第一地址中选取第二地址的关联地址,根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式;在上述例子中,从“b1、b2、b3、b5”中选取“b6”的关联地址;
所述从第一地址中选取第二地址的关联地址包括:
获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0,那么某个考察地址的第一指数X=C0/Cz,上述例子中,b1、b3、b5、b2、b6为考察地址,比如,最近一段时间内,考察地址“b1”发送了10次文件,每次的文件阅读情况分别为:阅读、没阅读、没阅读、没阅读、阅读、没阅读、没阅读、阅读、阅读、阅读,那么未点击阅读文件的次数CO=5,Cz=10,
获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y=G0/Cz,其中,G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值;在上述例子中,Cz=10,G0=(3+2+0+0)/4=5/4
那么某个考察地址的关联指数P=0.5*C0/Cz+0.5*G0/Cz,通过未阅读次数和相邻两次阅读之间间隔的没阅读的次数来判断工作人员对这个发件地址所发送的文件是否有阅读以及频繁阅读的倾向性;
计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值,并将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序,选取排序第一所对应的第一地址为该第二地址的关联地址,并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库,并添加未读标识。当两个地址之间的关联差值绝对值差不多大小时,说明工作人员对这两个地址发送的文件的阅读倾向性是类似的;
在上述例子中,比如“b1”中是“b6”的关联地址,如果b1发送的待分类文件存入常用数据库,那么b6发送的待分类文件也存入常用数据库,如果b1发送的待分类文件存入临时数据库,那么b6发送的待分类文件也存入临时数据库;
所述确认第二地址所对应的待分类文件的存储方式还包括:当第二地址的关联地址所对应的关联差值大于关联阈值,那么给该第二地址发送的考察文件添加预降级标识,其中,当某个考察文件添加有预降级标识时,如果它的未读标识的持续时长大于等于时长阈值,那么将该考察文件移入到下一级的数据库。比如当存储在常用数据库的文件a3有预降级标识,当a3文件上的未读标识的时长大于等于时长阈值,就将a3文件移入存储到临时数据库。本申请中的关联差值是指第二地址的关联指数减第一地址的关联指数,当关联指数越大,那么说明工作人员是倾向于不读这个文件,所以在文件长时间没被读的时候,将其存入低一个级别的数据库。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于大数据的数据分类存储***,其特征在于,所述数据分类存储***包括数据库、预判断模块、考察地址划分模块、第一地址分析模块、第二地址分析模块和未读标识添加模块,所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱,所述常用数据库中的文件不限制存储时长,所述临时数据库中的文件的存储时长为第一存储时长,所述垃圾箱中的文件的存储时长为第二存储时长,所述第一存储时长大于第二存储时长,所述预判断模块用于在预设时间段内接收到一批文件时,设该批文件为待分类文件,获取各个待分类文件的发件地址,判断某个待分类文件的发件地址是否为黑名单中的发件地址,在判断发件地址是黑名单中的发件地址时,将该待分类文件存入垃圾箱,在判断发件地址为黑名单以外的发件地址时,设待分类文件的发件地址为考察地址,并令考察地址划分模块将考察地址划分为第一地址和第二地址,所述第一地址分析模块对第一地址所发送的文件进行分析,判断各个第一地址所对应的待分类文件的存储方式,所述第二地址分析模块从第一地址中选取第二地址的关联地址,根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式,所述未读标识添加模块用于在文件存入相应的数据库中时给文件添加相应的未读标识;
所述考察地址划分模块包括第一相似度获取模块、参照文件选取模块和地址分类模块,所述第一相似度获取模块采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度,所述参照文件选取模块将各批文件所对应的第一相似度按照从大到小的顺序排序,选取排序第一所对应的那批文件为参照文件,所述地址分类模块获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址,待分类文件的发件地址中除第一地址以外的发件地址为第二地址。
2.根据权利要求1所述的一种基于大数据的数据分类存储***,其特征在于:所述第一地址分析模块包括回点次数获取模块、回点次数比较模块和第一存储指数比较模块,所述回点次数获取模块用于获取各个第一地址所对应的参照文件的回点次数,其中,所述回点次数为在接收阅读文件之后再次点击阅读文件的次数,所述回点次数比较模块用于判断回点次数是否大于等于1,在某个第一地址所对应的回点次数大于等于1的时候,将该第一地址所对应的待分类文件存入常用数据库,在某个第一地址所对应的回点次数小于1的时候,所述第一存储指数比较模块采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数,在第一存储指数大于等于第一存储阈值时,将该第一地址所对应的待分类文件存入常用数据库,在第一存储指数小于第一存储阈值时,将该第一地址所对应的待分类文件存入临时数据库。
3.根据权利要求2所述的一种基于大数据的数据分类存储***,其特征在于:所述第二地址分析模块包括第一指数获取模块、第二指数获取模块、关联指数计算模块、关联差值计算模块、关联地址选取模块和预降级标识添加模块,所述第一指数获取模块获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0,那么某个考察地址的第一指数X=C0/Cz,所述第二指数获取模块获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y=G0/Cz,其中,G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值,所述关联指数计算模块根据第一指数、第二指数计算考察地址的关联指数P=0.5*C0/Cz+0.5*G0/Cz,所述关联差值计算模块用于计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值,所述关联地址选取模块将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序,选取排序第一所对应的第一地址为该第二地址的关联地址,并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库,所述预降级标识添加模块当第二地址的关联地址所对应的关联差值大于关联阈值,那么给该第二地址发送的考察文件添加预降级标识,其中,当某个考察文件添加有预降级标识时,如果它的未读标识的时长大于等于时长阈值,那么将该考察文件移入到下一级的数据库。
4.一种基于大数据的数据分类存储方法,其特征在于:所述数据分类存储方法包括以下步骤:
预先建立数据库,所述数据库按照级别从高到低依次包括常用数据库、临时数据库和垃圾箱,所述常用数据库中的文件不限制存储时长,所述临时数据库中的文件的存储时长为第一存储时长,所述垃圾箱中的文件的存储时长为第二存储时长,所述第一存储时长大于第二存储时长;
当预设时间段内接收到一批文件时,设该批文件为待分类文件,获取各个待分类文件的发件地址,当某个待分类文件的发件地址为黑名单中的发件地址时,将该待分类文件存入垃圾箱;
获取待分类文件的发件地址为黑名单以外的发件地址为考察地址,并将考察地址划分为第一地址和第二地址,
对第一地址所发送的文件进行分析,判断各个第一地址所对应的待分类文件的存储方式;
从第一地址中选取第二地址的关联地址,根据第一地址所对应的待分类的文件的存储方式确认第二地址所对应的待分类文件的存储方式;
所述将考察地址划分为第一地址和第二地址包括:
采集最近一段时间接收到的各批文件所对应的发送地址与该批待分类文件的考察地址的相似度为第一相似度,将各批文件所对应的第一相似度按照从大到小的顺序排序,选取排序第一所对应的那批文件为参照文件,
获取参照文件的发件地址与考察地址的交集集合中的发件地址为第一地址,待分类文件的发件地址中除第一地址以外的发件地址为第二地址。
5.根据权利要求4所述的一种基于大数据的数据分类存储方法,其特征在于:所述对第一地址所发送的文件进行分析包括:
分别获取各个第一地址所对应的参照文件的回点次数,当回点次数大于等于1时,那么将该第一地址所对应的待分类文件存入常用数据库,并添加未读标识,其中,所述回点次数为在接收阅读文件之后再次点击阅读文件的次数;
否则,采集接收到各个第一地址发送的参照文件的阅读时长与参照文件的总阅读时长的比值为第一存储指数,
如果第一存储指数大于等于第一存储阈值,那么将该第一地址所对应的待分类文件存入常用数据库,并添加未读标识,所述未读标识在文件被点击阅读后消失,
如果第一存储指数小于第一存储阈值,那么将该第一地址所对应的待分类文件存入临时数据库,并添加未读标识。
6.根据权利要求5所述的一种基于大数据的数据分类存储方法,其特征在于:所述从第一地址中选取第二地址的关联地址包括:
获取最近一段时间内接收到各个考察地址发送的文件的次数Cz以及未点击阅读该考察地址发送的文件的次数C0,那么某个考察地址的第一指数X=C0/Cz,
获取最近一段时间内某个考察地址所发送的文件的阅读情况得到某个考察地址的第二指数Y=G0/Cz,其中,G0为相邻两次点击阅读考察地址发送的文件的之间的未阅读的间隔次数的平均值;
那么某个考察地址的关联指数P=0.5*C0/Cz+0.5*G0/Cz,
计算各个第一地址的关联指数与某个第二地址的关联指数的差值为关联差值,并将某个第二地址所对应的关联差值的绝对值按照从小到大的顺序排序,选取排序第一所对应的第一地址为该第二地址的关联地址,并将该第二地址发送的考察文件存入与其关联地址发送的考察文件所存入的数据库,并添加未读标识。
7.根据权利要求6所述的一种基于大数据的数据分类存储方法,其特征在于:所述确认第二地址所对应的待分类文件的存储方式还包括:当第二地址的关联地址所对应的关联差值大于关联阈值,那么给该第二地址发送的考察文件添加预降级标识,其中,当某个考察文件添加有预降级标识时,如果它的未读标识的时长大于等于时长阈值,那么将该考察文件移入到下一级的数据库。
CN202110841855.7A 2021-07-26 2021-07-26 一种基于大数据的数据分类存储***及方法 Active CN113590531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110841855.7A CN113590531B (zh) 2021-07-26 2021-07-26 一种基于大数据的数据分类存储***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110841855.7A CN113590531B (zh) 2021-07-26 2021-07-26 一种基于大数据的数据分类存储***及方法

Publications (2)

Publication Number Publication Date
CN113590531A CN113590531A (zh) 2021-11-02
CN113590531B true CN113590531B (zh) 2021-12-31

Family

ID=78249885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110841855.7A Active CN113590531B (zh) 2021-07-26 2021-07-26 一种基于大数据的数据分类存储***及方法

Country Status (1)

Country Link
CN (1) CN113590531B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216855A (zh) * 2008-01-16 2008-07-09 中兴通讯股份有限公司 消息类业务累计数据缓存方法及***
US10514978B1 (en) * 2015-10-23 2019-12-24 Pure Storage, Inc. Automatic deployment of corrective measures for storage arrays
CN112766831A (zh) * 2021-04-08 2021-05-07 南京上古网络科技有限公司 一种应用于电力行业的数据处理***及方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3161520B2 (ja) * 1997-12-17 2001-04-25 日本電気株式会社 携帯端末装置およびその文字データ格納方法
US8266215B2 (en) * 2003-02-20 2012-09-11 Sonicwall, Inc. Using distinguishing properties to classify messages
CN100490392C (zh) * 2006-04-19 2009-05-20 腾讯科技(深圳)有限公司 一种垃圾邮件处理***及分检垃圾邮件的方法
JP5169761B2 (ja) * 2008-11-17 2013-03-27 富士通株式会社 電子ファイル管理システム,端末装置および電子ファイル管理プログラム
JP4852638B2 (ja) * 2009-09-28 2012-01-11 株式会社沖データ メール管理装置、複合装置、及び通信方法
US8762385B2 (en) * 2011-01-28 2014-06-24 Oracle International Corporation Methods and systems for implementing email recipient templates
KR20150105359A (ko) * 2013-01-09 2015-09-16 에버님, 인크. 액세스-제어된 상호작용을 위한 시스템 및 방법
US10628824B2 (en) * 2015-10-13 2020-04-21 Jpmorgan Chase Bank, N.A. System and method for transaction-based temporary email
CN109639838B (zh) * 2019-02-13 2020-03-17 随身云(南京)信息技术有限公司 一种基于大数据的信息分类存储***
US11487665B2 (en) * 2019-06-05 2022-11-01 Pure Storage, Inc. Tiered caching of data in a storage system
CN112632387B (zh) * 2020-12-30 2021-06-29 广东富状元科技有限公司 一种基于大数据的政策信息个性化定制推送***
CN112988684A (zh) * 2021-03-15 2021-06-18 浪潮云信息技术股份公司 一种基于哈希算法电子公文数据的提取和去重方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216855A (zh) * 2008-01-16 2008-07-09 中兴通讯股份有限公司 消息类业务累计数据缓存方法及***
US10514978B1 (en) * 2015-10-23 2019-12-24 Pure Storage, Inc. Automatic deployment of corrective measures for storage arrays
CN112766831A (zh) * 2021-04-08 2021-05-07 南京上古网络科技有限公司 一种应用于电力行业的数据处理***及方法

Also Published As

Publication number Publication date
CN113590531A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
US7725544B2 (en) Group based spam classification
US8131652B2 (en) Residential delivery indicator
AU2012367398B2 (en) Systems and methods for spam detection using character histograms
CN112765235A (zh) 基于特征识别和大数据分析的人力资源智能管理***及云管理服务器
CN102135979A (zh) 数据清洗方法及装置
CN102098638A (zh) 短信分类处理方法、装置和终端
CN109241043B (zh) 一种数据质量检测方法及装置
CN113590531B (zh) 一种基于大数据的数据分类存储***及方法
CN111241229B (zh) 快递驿站地址辨别方法、计算机设备和存储介质
CN115982132A (zh) 一种外销扇面图像数据样本库构建***
CN105787800B (zh) 一种智能化的社交平台潜在人脉检索装置、***及方法
CN1972762A (zh) 自动确定读取***的操作性能数据的方法
TW200837581A (en) Verifying method for reliability of patent data
CN113553336B (zh) 一种基于互联网的人才简历数据库更新***及方法
CN115858598A (zh) 基于企业大数据的目标信息筛选匹配方法及相关设备
CN108763242B (zh) 标签生成方法及装置
CN113298148B (zh) 一种面向生态环境评价的不平衡数据重采样方法
CN111324818A (zh) 一种网络信息处理方法及处理***
CN110995465A (zh) 信通点位全景视图信息运维方法及***
CN112446673A (zh) 一种商标变更判断方法、***、设备及可读存储介质
CN111696254A (zh) 一种物品的回收控制方法及装置
CN110727858A (zh) 一种推荐方法、计算机存储介质及电子设备
CN112085053B (zh) 一种基于最近邻方法的数据漂移判别方法及装置
CN109768915B (zh) 一种增加邮件夹未读邮件的方法及装置
CN115619292B (zh) 一种问题管理的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant