发明内容
针对现有技术存在的不足,本发明目的是提供一种基于文档数据分析的在线文献归纳和储存***。
本发明所要解决的技术问题为:
(1)如何对文档数据进行有力剖析,从而在线文献得到合理化的归纳和存储;
(2)如何依据文献访问数据对访问者的文献操作权限进行差异化设置。
本发明的目的可以通过以下技术方案实现:
一种基于文档数据分析的在线文献归纳和储存***,包括数据采集模块、文献识别模块、类分存储模块、热度计算模块和服务器;
服务器存储有若干个在线文献和IP地址库,服务器通信连接有用户终端,使用人员通过用户终端中文献上传单元上传初始文献或对服务器中的在线文献进行文献操作;
所述服务器接收到用户终端上传的初始文献,所述服务器将初始文献发送至文献识别模块,所述文献识别模块接收到服务器发送的初始文献,用于对初始文献进行文献识别,文献识别后将初始文献分别标记为重复文献和最新文献,所述文献识别模块将标记为重复文献的初始文献和最新文献的初始文献发送至服务器,服务器依据重复文献生成上传失败信号,依据最新文献上传成功信号,所述服务器将上传失败信号和上传成功信号反馈至用户终端;所述文献识别模块还用于将标记为最新文献的初始文献发送至类分存储模块;
所述类分存储模块接收到文献识别模块发送的初始文献,类分存储模块依据初始文献信息中的文献标识将初始文献进行类分存储;所述热度计算模块用于对服务器中的在线文献进行热度计算,计算得到在线文献的活跃值HYu;
所述热度计算模块将在线文献的活跃值发送至服务器和类分存储模块,类分存储模块依据活跃值赋予在线文献对应的存储等级,具体如下:
步骤SS1:若HYu≥Y2,则判定在线文献为活跃文献,将对应的在线文献移动至***活跃层;
步骤SS2:若Y2>HYu≥Y1,则判定在线文献为普通文献,将对应的在线文献移动至***普通层;
步骤SS3:若Y1>HYu,则判定在线文献为冷门文献,将对应的在线文献移动至***冷门层。
进一步地,所述文献识别模块的文献识别步骤具体如下:
步骤一:获取初始文献的初始文献信息,得到初始文献的文献名称、文献责任者、文献出版者、文献出版日期、文献页码和文献标识这六个初始文献特性;
步骤二:将初始文献的文献名称、文献责任者、文献出版者、文献出版日期、文献页码和文献标识组合成初始文献特性组;
步骤三:同理,获取服务器中在线文献的在线文献信息,得到在线文献的在线文献特征,建立在线文献的在线文献特性组;
步骤四:初始文献特性组比对若干个在线文献特性组,提取初始文献特性组中任一初始文献特性,比对在线文献特性组中同类型的在线文献特性;
若判定初始文献为重复文献,不同意初始文献上传,若判定初始文献为最新文献,同意初始文献上传。
进一步地,所述热度计算模块的热度计算过程具体如下:
步骤S1:通过时间记录单元得到在线文献的文献上传时间,利用当前时间减去文献上传时间得到在线文献的文献存储时长WCTu;
步骤S2:获取在文献存储时长内的点赞次数DZu和倒彩次数DCu;利用公式DZLu=DZu/(DZu+DCu)计算得到在文献存储时长内在线文献的点赞率DZLu;
步骤S3:获取在文献存储时长内在线文献的浏览次数LLu和下载次数XZu,将浏览次数LLu、下载次数XZu和点赞率DZLu代入计算式
得到在文献存储时长内在线文献的使用热度值SRu;
步骤S4:将在线文献的文献存储时长划分为若干等时长的时间段Ti;随机选取相邻两个时间段Ti和时间段Ti+1,且Ti<Ti+1;依据步骤S2~步骤S3计算得到在时间段Ti中在线文献的使用热度值SRuTi和在时间段Ti+1中在线文献的使用热度值SRuTi+1;
步骤S5:若SRuTi<SRuT
i+1,利用公式
计算得到时间段Ti至时间段T
i+1存储文档的热度增长率RZu,并记录热度增长率的个数为CRZu;
若SRuTi>SRuT
i+1,利用公式
计算得到时间段Ti至时间段Ti+1存储文档的热度降低率RJu,并记录热度降低率的个数CRJu;
步骤S6:统计时间段与时间段之间在线文献的热度增长率和热度降低率,热度增长率相加求和取平均值得到热增均率RZJu,热度降低率相加求和取平均值得到热降均率RJJu,并结合公式RXu=(RZJu×CRZu)/(RJJu×CRJu)计算得到在文献存储时长内在线文献的热度系数RXu;
步骤S7:在文献存储时长内在线文献的热度系数RXu与使用热度值SRu结合公式HYu=RXu×SRu得到在线文献的活跃值HYu。
进一步地,***活跃层为:在线文献在***首页以热搜形式进行展示,无需检索查询;***普通层为:在线文献归纳至***的类别项中,打开类别项即可检索查询;***冷门层为:在线文献归纳至***映射连接的文件夹中,需要使用人员输入检索关键字方可检索查询。
进一步地,***还包括权限分配模块,所述权限分配模块用于对用户终端的文献操作权限进行分配,分配过程具体如下:
步骤P1:获取用户终端的终端IP,若终端IP与IP地址库中的终端IP相匹配,则判定终端IP为再次访问,并将用户终端标记为再次访问用户;
若终端IP与IP地址库中的终端IP不相匹配,则判定终端IP为首次访问,并将用户终端标记为初次访问用户;
步骤P2:依据终端IP对再次访问用户进行身份识别,若用户终端为管理用户,则将用户终端标记为后台管理用户,若用户终端为普通用户,则将用户终端标记为普通访问用户;
步骤P3:将初次访问用户、后台管理用户和普通访问用户分别标记为q、w和e;获取普通访问用户文献的访问次数,并将访问次数标记为FCe;
步骤P4:获取普通访问用户每次的访问停留时长,每次访问停留时长相加求和除以访问次数得到普通访问用户的访问均时FTe;获取普通访问用户每次访问时的文献点击次数,每次文献点击次数相加求和除以访问次数得到普通访问用户的点击均次DJe;
步骤P5:通过公式FWe=FCe×b1+FTe×b2+DJe×b3计算得到普通访问用户的文献访问值FWe;
步骤P6:若普通访问用户的文献访问值FWe比对访问阈值,将普通访问用户划分为活跃访问用户、中等访问用户和冷门访问用户;
步骤P7:分别为冷门访问用户、初次访问用户、活跃访问用户、中等访问用户和后台管理用户分配文献操作权限;
所述权限分配模块将冷门访问用户和初次访问用户的权限等级记为一级访问等级、中等访问用户的权限等级记为二级访问等级、活跃访问用户的权限等级记为三级访问等级、后台管理用户的权限等级记为四级访问等级。
进一步地,所述用户终端包括注册登录单元、信息采集单元和文献上传单元,所述注册登录单元用于使用人员输入个人信息进行注册登录,并将个人信息发送至服务器,所述文献上传单元用于使用人员通过用户终端上传初始文献,并将初始文献发送至服务器,所述信息采集单元用于对用户终端上传的初始文献进行信息采集,采集得到初始文献信息加标终端编号后一并发送至服务器;
个人信息包括使用人员的姓名、手机号码、终端编号和终端IP;所述初始文献信息包括文献责任者、文献名称、参考文献类型、文献出版者、文献出版日期、文献页码和文献标识。
进一步地,所述数据采集模块包括时间记录单元、次数采集单元和信息采集单元,所述,所述时间记录单元用于记录服务器中在线文献的时间信息,并将时间信息发送至服务器,所述次数采集单元用于采集服务器中在线文献的次数信息,并将次数信息发送至服务器,所述信息采集单元用于采集服务器中在线文献的在线文献信息;所述数据采集模块用于采集服务器中在线文献的时间信息、次数信息和在线文献信息,并将时间信息、次数信息和在线文献信息发送至服务器;
时间信息包括在线文献的开始查看时间、停止查看时间、查看时长、文献上传时间、文献下载时间、文献移动时间、文献删除时间和文献存储时长;在线文献信息包括文献责任者、文献名称、参考文献类型、文献出版者、文献出版日期、文献页码和文献标识;次数信息包括在线文献的浏览次数、移动次数、点赞次数、倒彩次数和下载次数;
文献操作具体包括在线浏览、下载、删除、移动、替换和转存。
进一步地,一级访问等级具体为:在线文献的浏览;
二级访问等级具体为:在线文献的浏览和下载;
三级访问等级具体为:在线文献的浏览、下载和上传;
四级访问等级具体为:在线文献的浏览、下载、上传、删除、转存和移动。
与现有技术相比,本发明的有益效果是:
1、本发明通过文献识别模块对初始文献进行文献识别,避免用户终端上传上传重复的文献,上传成功的文献发送至类分存储模块,类分存储模块依据初始文献信息中的文献标识将初始文献进行类分存储;本发明通过热度计算模块对服务器中的在线文献进行热度计算得到在文献存储时长内在线文献的活跃值,类分存储模块依据活跃值赋予在线文献对应的存储等级,本发明方便对文献数据进行有力剖析,从而合理化的归纳存储在线文献;
2、本申请通过权限分配模块对用户终端的文献操作权限进行分配,依据判断访问者为再次访问用户或初次访问用户,并对再次访问用户进行身份识别,而后依据普通访问用户文献的访问次数、访问均时和点击均次得到普通访问用户的文献访问值,文献访问值比对访问阈值将普通访问用户划分为活跃访问用户、中等访问用户和冷门访问用户,从而为冷门访问用户、初次访问用户、活跃访问用户、中等访问用户和后台管理用户分配文献操作权限,本发明依据文献访问数据对访问者的文献操作权限进行差异化设置。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,一种基于文档数据分析的在线文献归纳和储存***,包括数据采集模块、权限分配模块、文献识别模块、类分存储模块、热度计算模块和服务器;
服务器通信连接有用户终端,用户终端包括注册登录单元、信息采集单元和文献上传单元,注册登录单元用于使用人员输入个人信息进行注册登录,并将个人信息发送至服务器,文献上传单元用于使用人员通过用户终端上传初始文献,并将初始文献发送至服务器,信息采集单元用于对用户终端上传的初始文献进行信息采集,采集得到初始文献信息加标终端编号后一并发送至服务器;
其中,个人信息包括使用人员的姓名、手机号码、终端编号、终端IP等;初始文献信息包括文献责任者、文献名称、参考文献类型、文献出版者、文献出版日期、文献页码、文献标识等;
具体的,使用人员可以通过用户终端中文献上传单元上传初始文献,也可以通过用户终端对服务器中的在线文献进行文献操作,文献操作具体包括在线浏览、下载、删除、移动、替换、转存等;
服务器接收到用户终端上传的初始文献,服务器将初始文献发送至文献识别模块,文献识别模块接收到服务器发送的初始文献,用于对初始文献进行文献识别,文献识别步骤具体如下:
步骤一:获取初始文献的初始文献信息,得到初始文献的文献名称、文献责任者、文献出版者、文献出版日期、文献页码和文献标识这六个初始文献特性;
步骤二:将初始文献的文献名称、文献责任者、文献出版者、文献出版日期、文献页码和文献标识组合成初始文献特性组;
步骤三:同理,获取服务器中在线文献的在线文献信息,得到在线文献的在线文献特征,建立在线文献的在线文献特性组;
步骤四:初始文献特性组比对若干个在线文献特性组,提取初始文献特性组中任一初始文献特性,比对在线文献特性组中同类型的在线文献特性;
具体为:在线文献记为u,u=1,2,……,z,z为正整数,将在线文献特性组中的文献名称记为MCu,初始文献的文献名称记为MC,利用公式X1u=MCu/MC计算得到在线文献的文献名称相似度X1u,以此类推,依次计算得到在线文献的文献责任者相似度X2u、文献出版者相似度X3u、文献出版日期相似度X4u、文献页码相似度X5u和文献标识相似度X6u;
六组相似度均比对对应的相似阈值,若存在任一在线文献特性的相似度超过相似阈值,进入下一步骤,若不存在,则判定初始文献为最新文献,同意初始文献上传;
六组相似度相加求和得到在线文献的相似均值XJu,若相似均值XJu大于等于设定阈值,则判定初始文献为重复文献,不同意初始文献上传,若相似均值XJu小于设定阈值,则判定初始文献为最新文献,同意初始文献上传;
文献识别模块将初始文献分别标记为重复文献和最新文献,文献识别模块将标记重复文献和最新文献的初始文献发送至服务器,服务器依据重复文献生成上传失败信号,依据最新文献上传成功信号,服务器将上传失败信号和上传成功信号反馈至用户终端;文献识别模块还用于将标记为最新文献的初始文献发送至类分存储模块;
数据采集模块包括时间记录单元、次数采集单元和信息采集单元,时间记录单元用于记录服务器中在线文献的时间信息,并将时间信息发送至服务器,次数采集单元用于采集服务器中在线文献的次数信息,并将次数信息发送至服务器,信息采集单元用于采集服务器中在线文献的在线文献信息;数据采集模块用于采集服务器中在线文献的时间信息、次数信息和在线文献信息,并将时间信息、次数信息和在线文献信息发送至服务器;
在具体实施时,时间信息包括在线文献的开始查看时间、停止查看时间、查看时长、文献上传时间、文献下载时间、文献移动时间、文献删除时间、文献存储时长等;在线文献信息包括文献责任者、文献名称、参考文献类型、文献出版者、文献出版日期、文献页码、文献标识等;次数信息包括在线文献的浏览次数、移动次数、点赞次数、倒彩次数、下载次数等;
类分存储模块接收到文献识别模块发送的初始文献,类分存储模块依据初始文献信息中的文献标识将初始文献进行类分存储;
同时,服务器存储有若干个在线文献和IP地址库,IP地址库存储有若干个终端IP,热度计算模块用于对服务器中的在线文献进行热度计算,热度计算过程具体如下:
步骤S1:通过时间记录单元得到在线文献的文献上传时间,利用当前时间减去文献上传时间得到在线文献的文献存储时长WCTu;
步骤S2:获取在文献存储时长内的点赞次数DZu和倒彩次数DCu;利用公式DZLu=DZu/(DZu+DCu)计算得到在文献存储时长内在线文献的点赞率DZLu;
步骤S3:获取在文献存储时长内在线文献的浏览次数LLu和下载次数XZu,将浏览次数LLu、下载次数XZu和点赞率DZLu代入计算式得到在文献存储时长内在线文献的使用热度值SRu,计算式具体如下:
;式中a1和a2均为比例系数固定数值,且a1和a2的取值均大于零,在具体实施时,a1可以为0.1321,a2可以为1.0245511,只要保证a1和a2为大于零的固定数值即可,在此不作限定;
步骤S4:将在线文献的文献存储时长划分为若干等时长的时间段Ti,i=1,2,……,x,i代表时间段的编号,x为正整数,时间段Ti按照时间排序为T1<T2<……<Tx;随机选取相邻两个时间段Ti和时间段Ti+1,且Ti<Ti+1;依据步骤S2~步骤S3计算得到在时间段Ti中在线文献的使用热度值SRuTi和在时间段Ti+1中在线文献的使用热度值SRuTi+1;
步骤S5:若SRuTi<SRuT
i+1,利用公式
计算得到时间段Ti至时间段T
i+1存储文档的热度增长率RZu,并记录热度增长率的个数为CRZu;
若SRuTi>SRuT
i+1,利用公式
计算得到时间段Ti至时间段T
i+1存储文档的热度降低率RJu,并记录热度降低率的个数CRJu;
步骤S6:统计时间段与时间段之间在线文献的热度增长率和热度降低率,热度增长率相加求和取平均值得到热增均率RZJu,热度降低率相加求和取平均值得到热降均率RJJu,并结合公式RXu=(RZJu×CRZu)/(RJJu×CRJu)计算得到在文献存储时长内在线文献的热度系数RXu;
需要具体说明的是;此处不考虑在线文献在文献存储时长内的总体热度增长率或总体热度降低率;
步骤S7:在文献存储时长内在线文献的热度系数RXu与使用热度值SRu结合公式HYu=RXu×SRu得到在线文献的活跃值HYu;
热度计算模块将在线文献的活跃值发送至服务器和类分存储模块,类分存储模块依据活跃值赋予在线文献对应的存储等级,具体如下:
步骤SS1:若HYu≥Y2,则判定在线文献为活跃文献,将对应的在线文献移动至***活跃层;其中,***活跃层具体为:在线文献在***首页以热搜形式进行展示,无需检索查询;
步骤SS2:若Y2>HYu≥Y1,则判定在线文献为普通文献,将对应的在线文献移动至***普通层,其中,***普通层具体为:在线文献归纳至***的类别项中,打开类别项即可检索查询;
步骤SS3:若Y1>HYu,则判定在线文献为冷门文献,将对应的在线文献移动至***冷门层,其中,***冷门层具体为:在线文献归纳至***映射连接的文件夹中,需要使用人员输入检索关键字方可检索查询;其中,Y1和Y2均为活跃阈值,且Y1<Y2;
***还包括权限分配模块,权限分配模块用于对用户终端的文献操作权限进行分配,分配过程具体如下:
步骤P1:获取用户终端的终端IP,若终端IP与IP地址库中的终端IP相匹配,则判定终端IP为再次访问,并将用户终端标记为再次访问用户;
若终端IP与IP地址库中的终端IP不相匹配,则判定终端IP为首次访问,并将用户终端标记为初次访问用户;
步骤P2:依据终端IP对再次访问用户进行身份识别,若用户终端为管理用户,则将用户终端标记为后台管理用户,若用户终端为普通用户,则将用户终端标记为普通访问用户;
步骤P3:将初次访问用户、后台管理用户和普通访问用户分别标记为q、w和e,q=1,2,……,v,w=1,2,……,n,e=1,2,……,m,v、n和m均为正整数;获取普通访问用户文献的访问次数,并将访问次数标记为FCe;
步骤P4:获取普通访问用户每次的访问停留时长,每次访问停留时长相加求和除以访问次数得到普通访问用户的访问均时FTe;获取普通访问用户每次访问时的文献点击次数,每次文献点击次数相加求和除以访问次数得到普通访问用户的点击均次DJe;
步骤P5:通过公式FWe=FCe×b1+FTe×b2+DJe×b3计算得到普通访问用户的文献访问值FWe;式中,b1、b2和b3均为权重系数,b1+b2+b3=1,且b1、b2和b3的取值均大于零,在具体实施时,b1可以为0.2,b2可以为0.28,b3可以为0.52;
步骤P6:若普通访问用户的文献访问值FWe大于等于K2,则将普通访问用户标记为活跃访问用户;
若普通访问用户的文献访问值FWe大于等于K1且小于K2,则将普通访问用户标记为中等访问用户;
若普通访问用户的文献访问值FWe小于K1且大于零,则将普通访问用户标记为冷门访问用户;式中K1和K2为访问阈值,且K1<K2;
步骤P7:分别为冷门访问用户、初次访问用户、活跃访问用户、中等访问用户和后台管理用户分配文献操作权限;
权限分配模块将冷门访问用户和初次访问用户的权限等级记为一级访问等级、中等访问用户的权限等级记为二级访问等级、活跃访问用户的权限等级记为三级访问等级、后台管理用户的权限等级记为四级访问等级;
一种基于文档数据分析的在线文献归纳和储存***,工作时,使用人员可以通过用户终端中文献上传单元上传初始文献,也可以通过用户终端对服务器中的在线文献进行文献操作,服务器将用户终端上传的初始文献发送至文献识别模块,文献识别模块对初始文献进行文献识别,获取初始文献的初始文献信息,得到初始文献的六个初始文献特性,将六个初始文献特性组合成初始文献特性组,同理,获取服务器中在线文献的在线文献信息,得到在线文献的初始文献特征,建立初始文献的在线文献特性组,初始文献特性组比对若干个在线文献特性组,提取初始文献特性组中任一初始文献特性,比对在线文献特性组中同类型的在线文献特性,计算各个在线文献特性与初始文献特性的相似度,相似度均比对对应的相似阈值,若不存在任一在线文献特性的相似度超过相似阈值,则判定初始文献为最新文献,同意初始文献上传,若存在任一在线文献特性的相似度超过相似阈值,相似度相加求和得到在线文献的相似均值,相似均值比对设定阈值,判定初始文献为重复文献或最新文献,文献识别模块将重复文献和最新文献的初始文献发送至服务器,服务器分别生成上传失败信号和上传成功信号,同时,文献识别模块还将标记为最新文献的初始文献发送至类分存储模块,类分存储模块接收到文献识别模块发送的初始文献,依据初始文献信息中的初始文献信息将初始文献进行类分存储;
通过热度计算模块对服务器中的在线文献进行热度计算,通过时间记录单元得到在线文献的文献上传时间,利用当前时间减去文献上传时间得到在线文献的文献存储时长WCTu,获取在文献存储时长内的点赞率DZLu、浏览次数LLu和下载次数XZu,代入计算式
得到在文献存储时长内在线文献的使用热度值SRu,将在线文献的文献存储时长划分为若干等时长的时间段Ti,随机选取相邻两个时间段Ti和时间段T
i+1,计算得到在时间段Ti中在线文献的使用热度值SRuTi和在时间段T
i+1中在线文献的使用热度值SRuT
i+1,若SRuTi<SRuT
i+1,利用公式
计算得到时间段Ti至时间段T
i+1存储文档的热度增长率RZu,并记录热度增长率的个数为CRZu,若SRuTi>SRuT
i+1,利用公式
计算得到时间段Ti至时间段T
i+1存储文档的热度降低率RJu,并记录热度降低率的个数CRJu,统计时间段与时间段之间在线文献的热度增长率和热度降低率,热度增长率相加求和取平均值得到热增均率RZJu,热度降低率相加求和取平均值得到热降均率RJJu,结合公式RXu=(RZJu×CRZu)/(RJJu×CRJu)计算得到在文献存储时长内在线文献的热度系数RXu,在文献存储时长内在线文献的热度系数RXu、使用热度值SRu结合公式HYu=RXu×SRu得到在线文献的活跃值HYu,热度计算模块将在线文献的活跃值发送至服务器和类分存储模块;
类分存储模块依据活跃值赋予在线文献对应的存储等级,若HYu≥Y2,则判定在线文献为活跃文献,将对应的在线文献移动至***活跃层,若Y2>HYu≥Y1,则判定在线文献为普通文献,将对应的在线文献移动至***普通层,若Y1>HYu,则判定在线文献为冷门文献,将对应的在线文献移动至***冷门层,其中;
本申请还通过权限分配模块对用户终端的文献操作权限进行分配,获取用户终端的终端IP,终端IP与IP地址库中的终端IP将用户终端判定为再次访问用户或初次访问用户,对再次访问用户进行身份识别得到后台管理用户或普通访问用户,获取普通访问用户文献的访问次数FCe、访问均时FTe和点击均次DJe,通过公式FWe=FCe×b1+FTe×b2+DJe×b3计算得到普通访问用户的文献访问值FWe,若普通访问用户的文献访问值FWe比对访问阈值,将普通访问用户划分为活跃访问用户、中等访问用户和冷门访问用户,最后分别为冷门访问用户、初次访问用户、活跃访问用户、中等访问用户和后台管理用户分配文献操作权限。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。