CN113239207A - 一种基于文档数据分析的在线文献归纳和储存*** - Google Patents

一种基于文档数据分析的在线文献归纳和储存*** Download PDF

Info

Publication number
CN113239207A
CN113239207A CN202110782604.6A CN202110782604A CN113239207A CN 113239207 A CN113239207 A CN 113239207A CN 202110782604 A CN202110782604 A CN 202110782604A CN 113239207 A CN113239207 A CN 113239207A
Authority
CN
China
Prior art keywords
document
online
documents
initial
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110782604.6A
Other languages
English (en)
Other versions
CN113239207B (zh
Inventor
楚龙兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Spacetime Shenzhen Intelligent Technology Co ltd
Original Assignee
Shenzhen Zhiku Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhiku Information Technology Co ltd filed Critical Shenzhen Zhiku Information Technology Co ltd
Priority to CN202110782604.6A priority Critical patent/CN113239207B/zh
Publication of CN113239207A publication Critical patent/CN113239207A/zh
Application granted granted Critical
Publication of CN113239207B publication Critical patent/CN113239207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文档数据分析的在线文献归纳和储存***,属于文献领域,用于解决在线文献没有合理地归纳存储和访问者的文献操作权限没有差异化设置的技术问题,包括文献识别模块、类分存储模块、热度计算模块和权限分配模块,文献识别模块用于对初始文献进行文献识别,文献识别重复文献和最新文献,类分存储模块依据初始文献信息中的文献标识将初始文献进行类分存储,热度计算模块用于对服务器中的在线文献进行热度计算,权限分配模块用于对用户终端的文献操作权限进行分配,本发明将文献合理化的归纳存储在线文献,并对访问者的文献操作权限进行差异化设置。

Description

一种基于文档数据分析的在线文献归纳和储存***
技术领域
本发明属于文献领域,涉及归纳存储技术,具体是一种基于文档数据分析的在线文献归纳和储存***。
背景技术
文献指的是有历史意义或研究价值的图书、期刊、典章,对于科研人员来说,在日常研究工作中阅读大量的文献是必不可少的,当阅读一些具有影响力的文献时,研究人员需要通过这些文献的研究动机或主体思想来更加深入地理解这些文献,当一些新的研究人员想要选择新的研究方向时,他们在准备阶段需要查阅相关文献以及这些文献的参考文献;
现有技术中,没有对文档数据进行有力剖析,导致在线文献没有合理地归纳存储,归纳存储较为混乱,没有依据文献访问数据对访问者进行权限差异化,为此,我们提出一种基于文档数据分析的在线文献归纳和储存***。
发明内容
针对现有技术存在的不足,本发明目的是提供一种基于文档数据分析的在线文献归纳和储存***。
本发明所要解决的技术问题为:
(1)如何对文档数据进行有力剖析,从而在线文献得到合理化的归纳和存储;
(2)如何依据文献访问数据对访问者的文献操作权限进行差异化设置。
本发明的目的可以通过以下技术方案实现:
一种基于文档数据分析的在线文献归纳和储存***,包括数据采集模块、文献识别模块、类分存储模块、热度计算模块和服务器;
服务器存储有若干个在线文献和IP地址库,服务器通信连接有用户终端,使用人员通过用户终端中文献上传单元上传初始文献或对服务器中的在线文献进行文献操作;
所述服务器接收到用户终端上传的初始文献,所述服务器将初始文献发送至文献识别模块,所述文献识别模块接收到服务器发送的初始文献,用于对初始文献进行文献识别,文献识别后将初始文献分别标记为重复文献和最新文献,所述文献识别模块将标记为重复文献的初始文献和最新文献的初始文献发送至服务器,服务器依据重复文献生成上传失败信号,依据最新文献上传成功信号,所述服务器将上传失败信号和上传成功信号反馈至用户终端;所述文献识别模块还用于将标记为最新文献的初始文献发送至类分存储模块;
所述类分存储模块接收到文献识别模块发送的初始文献,类分存储模块依据初始文献信息中的文献标识将初始文献进行类分存储;所述热度计算模块用于对服务器中的在线文献进行热度计算,计算得到在线文献的活跃值HYu;
所述热度计算模块将在线文献的活跃值发送至服务器和类分存储模块,类分存储模块依据活跃值赋予在线文献对应的存储等级,具体如下:
步骤SS1:若HYu≥Y2,则判定在线文献为活跃文献,将对应的在线文献移动至***活跃层;
步骤SS2:若Y2>HYu≥Y1,则判定在线文献为普通文献,将对应的在线文献移动至***普通层;
步骤SS3:若Y1>HYu,则判定在线文献为冷门文献,将对应的在线文献移动至***冷门层。
进一步地,所述文献识别模块的文献识别步骤具体如下:
步骤一:获取初始文献的初始文献信息,得到初始文献的文献名称、文献责任者、文献出版者、文献出版日期、文献页码和文献标识这六个初始文献特性;
步骤二:将初始文献的文献名称、文献责任者、文献出版者、文献出版日期、文献页码和文献标识组合成初始文献特性组;
步骤三:同理,获取服务器中在线文献的在线文献信息,得到在线文献的在线文献特征,建立在线文献的在线文献特性组;
步骤四:初始文献特性组比对若干个在线文献特性组,提取初始文献特性组中任一初始文献特性,比对在线文献特性组中同类型的在线文献特性;
若判定初始文献为重复文献,不同意初始文献上传,若判定初始文献为最新文献,同意初始文献上传。
进一步地,所述热度计算模块的热度计算过程具体如下:
步骤S1:通过时间记录单元得到在线文献的文献上传时间,利用当前时间减去文献上传时间得到在线文献的文献存储时长WCTu;
步骤S2:获取在文献存储时长内的点赞次数DZu和倒彩次数DCu;利用公式DZLu=DZu/(DZu+DCu)计算得到在文献存储时长内在线文献的点赞率DZLu;
步骤S3:获取在文献存储时长内在线文献的浏览次数LLu和下载次数XZu,将浏览次数LLu、下载次数XZu和点赞率DZLu代入计算式
Figure 199826DEST_PATH_IMAGE001
得到在文献存储时长内在线文献的使用热度值SRu;
步骤S4:将在线文献的文献存储时长划分为若干等时长的时间段Ti;随机选取相邻两个时间段Ti和时间段Ti+1,且Ti<Ti+1;依据步骤S2~步骤S3计算得到在时间段Ti中在线文献的使用热度值SRuTi和在时间段Ti+1中在线文献的使用热度值SRuTi+1
步骤S5:若SRuTi<SRuTi+1,利用公式
Figure 123786DEST_PATH_IMAGE002
计算得到时间段Ti至时间段Ti+1存储文档的热度增长率RZu,并记录热度增长率的个数为CRZu;
若SRuTi>SRuTi+1,利用公式
Figure 477407DEST_PATH_IMAGE003
计算得到时间段Ti至时间段Ti+1存储文档的热度降低率RJu,并记录热度降低率的个数CRJu;
步骤S6:统计时间段与时间段之间在线文献的热度增长率和热度降低率,热度增长率相加求和取平均值得到热增均率RZJu,热度降低率相加求和取平均值得到热降均率RJJu,并结合公式RXu=(RZJu×CRZu)/(RJJu×CRJu)计算得到在文献存储时长内在线文献的热度系数RXu;
步骤S7:在文献存储时长内在线文献的热度系数RXu与使用热度值SRu结合公式HYu=RXu×SRu得到在线文献的活跃值HYu。
进一步地,***活跃层为:在线文献在***首页以热搜形式进行展示,无需检索查询;***普通层为:在线文献归纳至***的类别项中,打开类别项即可检索查询;***冷门层为:在线文献归纳至***映射连接的文件夹中,需要使用人员输入检索关键字方可检索查询。
进一步地,***还包括权限分配模块,所述权限分配模块用于对用户终端的文献操作权限进行分配,分配过程具体如下:
步骤P1:获取用户终端的终端IP,若终端IP与IP地址库中的终端IP相匹配,则判定终端IP为再次访问,并将用户终端标记为再次访问用户;
若终端IP与IP地址库中的终端IP不相匹配,则判定终端IP为首次访问,并将用户终端标记为初次访问用户;
步骤P2:依据终端IP对再次访问用户进行身份识别,若用户终端为管理用户,则将用户终端标记为后台管理用户,若用户终端为普通用户,则将用户终端标记为普通访问用户;
步骤P3:将初次访问用户、后台管理用户和普通访问用户分别标记为q、w和e;获取普通访问用户文献的访问次数,并将访问次数标记为FCe;
步骤P4:获取普通访问用户每次的访问停留时长,每次访问停留时长相加求和除以访问次数得到普通访问用户的访问均时FTe;获取普通访问用户每次访问时的文献点击次数,每次文献点击次数相加求和除以访问次数得到普通访问用户的点击均次DJe;
步骤P5:通过公式FWe=FCe×b1+FTe×b2+DJe×b3计算得到普通访问用户的文献访问值FWe;
步骤P6:若普通访问用户的文献访问值FWe比对访问阈值,将普通访问用户划分为活跃访问用户、中等访问用户和冷门访问用户;
步骤P7:分别为冷门访问用户、初次访问用户、活跃访问用户、中等访问用户和后台管理用户分配文献操作权限;
所述权限分配模块将冷门访问用户和初次访问用户的权限等级记为一级访问等级、中等访问用户的权限等级记为二级访问等级、活跃访问用户的权限等级记为三级访问等级、后台管理用户的权限等级记为四级访问等级。
进一步地,所述用户终端包括注册登录单元、信息采集单元和文献上传单元,所述注册登录单元用于使用人员输入个人信息进行注册登录,并将个人信息发送至服务器,所述文献上传单元用于使用人员通过用户终端上传初始文献,并将初始文献发送至服务器,所述信息采集单元用于对用户终端上传的初始文献进行信息采集,采集得到初始文献信息加标终端编号后一并发送至服务器;
个人信息包括使用人员的姓名、手机号码、终端编号和终端IP;所述初始文献信息包括文献责任者、文献名称、参考文献类型、文献出版者、文献出版日期、文献页码和文献标识。
进一步地,所述数据采集模块包括时间记录单元、次数采集单元和信息采集单元,所述,所述时间记录单元用于记录服务器中在线文献的时间信息,并将时间信息发送至服务器,所述次数采集单元用于采集服务器中在线文献的次数信息,并将次数信息发送至服务器,所述信息采集单元用于采集服务器中在线文献的在线文献信息;所述数据采集模块用于采集服务器中在线文献的时间信息、次数信息和在线文献信息,并将时间信息、次数信息和在线文献信息发送至服务器;
时间信息包括在线文献的开始查看时间、停止查看时间、查看时长、文献上传时间、文献下载时间、文献移动时间、文献删除时间和文献存储时长;在线文献信息包括文献责任者、文献名称、参考文献类型、文献出版者、文献出版日期、文献页码和文献标识;次数信息包括在线文献的浏览次数、移动次数、点赞次数、倒彩次数和下载次数;
文献操作具体包括在线浏览、下载、删除、移动、替换和转存。
进一步地,一级访问等级具体为:在线文献的浏览;
二级访问等级具体为:在线文献的浏览和下载;
三级访问等级具体为:在线文献的浏览、下载和上传;
四级访问等级具体为:在线文献的浏览、下载、上传、删除、转存和移动。
与现有技术相比,本发明的有益效果是:
1、本发明通过文献识别模块对初始文献进行文献识别,避免用户终端上传上传重复的文献,上传成功的文献发送至类分存储模块,类分存储模块依据初始文献信息中的文献标识将初始文献进行类分存储;本发明通过热度计算模块对服务器中的在线文献进行热度计算得到在文献存储时长内在线文献的活跃值,类分存储模块依据活跃值赋予在线文献对应的存储等级,本发明方便对文献数据进行有力剖析,从而合理化的归纳存储在线文献;
2、本申请通过权限分配模块对用户终端的文献操作权限进行分配,依据判断访问者为再次访问用户或初次访问用户,并对再次访问用户进行身份识别,而后依据普通访问用户文献的访问次数、访问均时和点击均次得到普通访问用户的文献访问值,文献访问值比对访问阈值将普通访问用户划分为活跃访问用户、中等访问用户和冷门访问用户,从而为冷门访问用户、初次访问用户、活跃访问用户、中等访问用户和后台管理用户分配文献操作权限,本发明依据文献访问数据对访问者的文献操作权限进行差异化设置。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明;
图1为本发明的整体***框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,一种基于文档数据分析的在线文献归纳和储存***,包括数据采集模块、权限分配模块、文献识别模块、类分存储模块、热度计算模块和服务器;
服务器通信连接有用户终端,用户终端包括注册登录单元、信息采集单元和文献上传单元,注册登录单元用于使用人员输入个人信息进行注册登录,并将个人信息发送至服务器,文献上传单元用于使用人员通过用户终端上传初始文献,并将初始文献发送至服务器,信息采集单元用于对用户终端上传的初始文献进行信息采集,采集得到初始文献信息加标终端编号后一并发送至服务器;
其中,个人信息包括使用人员的姓名、手机号码、终端编号、终端IP等;初始文献信息包括文献责任者、文献名称、参考文献类型、文献出版者、文献出版日期、文献页码、文献标识等;
具体的,使用人员可以通过用户终端中文献上传单元上传初始文献,也可以通过用户终端对服务器中的在线文献进行文献操作,文献操作具体包括在线浏览、下载、删除、移动、替换、转存等;
服务器接收到用户终端上传的初始文献,服务器将初始文献发送至文献识别模块,文献识别模块接收到服务器发送的初始文献,用于对初始文献进行文献识别,文献识别步骤具体如下:
步骤一:获取初始文献的初始文献信息,得到初始文献的文献名称、文献责任者、文献出版者、文献出版日期、文献页码和文献标识这六个初始文献特性;
步骤二:将初始文献的文献名称、文献责任者、文献出版者、文献出版日期、文献页码和文献标识组合成初始文献特性组;
步骤三:同理,获取服务器中在线文献的在线文献信息,得到在线文献的在线文献特征,建立在线文献的在线文献特性组;
步骤四:初始文献特性组比对若干个在线文献特性组,提取初始文献特性组中任一初始文献特性,比对在线文献特性组中同类型的在线文献特性;
具体为:在线文献记为u,u=1,2,……,z,z为正整数,将在线文献特性组中的文献名称记为MCu,初始文献的文献名称记为MC,利用公式X1u=MCu/MC计算得到在线文献的文献名称相似度X1u,以此类推,依次计算得到在线文献的文献责任者相似度X2u、文献出版者相似度X3u、文献出版日期相似度X4u、文献页码相似度X5u和文献标识相似度X6u;
六组相似度均比对对应的相似阈值,若存在任一在线文献特性的相似度超过相似阈值,进入下一步骤,若不存在,则判定初始文献为最新文献,同意初始文献上传;
六组相似度相加求和得到在线文献的相似均值XJu,若相似均值XJu大于等于设定阈值,则判定初始文献为重复文献,不同意初始文献上传,若相似均值XJu小于设定阈值,则判定初始文献为最新文献,同意初始文献上传;
文献识别模块将初始文献分别标记为重复文献和最新文献,文献识别模块将标记重复文献和最新文献的初始文献发送至服务器,服务器依据重复文献生成上传失败信号,依据最新文献上传成功信号,服务器将上传失败信号和上传成功信号反馈至用户终端;文献识别模块还用于将标记为最新文献的初始文献发送至类分存储模块;
数据采集模块包括时间记录单元、次数采集单元和信息采集单元,时间记录单元用于记录服务器中在线文献的时间信息,并将时间信息发送至服务器,次数采集单元用于采集服务器中在线文献的次数信息,并将次数信息发送至服务器,信息采集单元用于采集服务器中在线文献的在线文献信息;数据采集模块用于采集服务器中在线文献的时间信息、次数信息和在线文献信息,并将时间信息、次数信息和在线文献信息发送至服务器;
在具体实施时,时间信息包括在线文献的开始查看时间、停止查看时间、查看时长、文献上传时间、文献下载时间、文献移动时间、文献删除时间、文献存储时长等;在线文献信息包括文献责任者、文献名称、参考文献类型、文献出版者、文献出版日期、文献页码、文献标识等;次数信息包括在线文献的浏览次数、移动次数、点赞次数、倒彩次数、下载次数等;
类分存储模块接收到文献识别模块发送的初始文献,类分存储模块依据初始文献信息中的文献标识将初始文献进行类分存储;
同时,服务器存储有若干个在线文献和IP地址库,IP地址库存储有若干个终端IP,热度计算模块用于对服务器中的在线文献进行热度计算,热度计算过程具体如下:
步骤S1:通过时间记录单元得到在线文献的文献上传时间,利用当前时间减去文献上传时间得到在线文献的文献存储时长WCTu;
步骤S2:获取在文献存储时长内的点赞次数DZu和倒彩次数DCu;利用公式DZLu=DZu/(DZu+DCu)计算得到在文献存储时长内在线文献的点赞率DZLu;
步骤S3:获取在文献存储时长内在线文献的浏览次数LLu和下载次数XZu,将浏览次数LLu、下载次数XZu和点赞率DZLu代入计算式得到在文献存储时长内在线文献的使用热度值SRu,计算式具体如下:
Figure 337916DEST_PATH_IMAGE004
;式中a1和a2均为比例系数固定数值,且a1和a2的取值均大于零,在具体实施时,a1可以为0.1321,a2可以为1.0245511,只要保证a1和a2为大于零的固定数值即可,在此不作限定;
步骤S4:将在线文献的文献存储时长划分为若干等时长的时间段Ti,i=1,2,……,x,i代表时间段的编号,x为正整数,时间段Ti按照时间排序为T1<T2<……<Tx;随机选取相邻两个时间段Ti和时间段Ti+1,且Ti<Ti+1;依据步骤S2~步骤S3计算得到在时间段Ti中在线文献的使用热度值SRuTi和在时间段Ti+1中在线文献的使用热度值SRuTi+1
步骤S5:若SRuTi<SRuTi+1,利用公式
Figure 333554DEST_PATH_IMAGE005
计算得到时间段Ti至时间段Ti+1存储文档的热度增长率RZu,并记录热度增长率的个数为CRZu;
若SRuTi>SRuTi+1,利用公式
Figure 736853DEST_PATH_IMAGE006
计算得到时间段Ti至时间段Ti+1存储文档的热度降低率RJu,并记录热度降低率的个数CRJu;
步骤S6:统计时间段与时间段之间在线文献的热度增长率和热度降低率,热度增长率相加求和取平均值得到热增均率RZJu,热度降低率相加求和取平均值得到热降均率RJJu,并结合公式RXu=(RZJu×CRZu)/(RJJu×CRJu)计算得到在文献存储时长内在线文献的热度系数RXu;
需要具体说明的是;此处不考虑在线文献在文献存储时长内的总体热度增长率或总体热度降低率;
步骤S7:在文献存储时长内在线文献的热度系数RXu与使用热度值SRu结合公式HYu=RXu×SRu得到在线文献的活跃值HYu;
热度计算模块将在线文献的活跃值发送至服务器和类分存储模块,类分存储模块依据活跃值赋予在线文献对应的存储等级,具体如下:
步骤SS1:若HYu≥Y2,则判定在线文献为活跃文献,将对应的在线文献移动至***活跃层;其中,***活跃层具体为:在线文献在***首页以热搜形式进行展示,无需检索查询;
步骤SS2:若Y2>HYu≥Y1,则判定在线文献为普通文献,将对应的在线文献移动至***普通层,其中,***普通层具体为:在线文献归纳至***的类别项中,打开类别项即可检索查询;
步骤SS3:若Y1>HYu,则判定在线文献为冷门文献,将对应的在线文献移动至***冷门层,其中,***冷门层具体为:在线文献归纳至***映射连接的文件夹中,需要使用人员输入检索关键字方可检索查询;其中,Y1和Y2均为活跃阈值,且Y1<Y2;
***还包括权限分配模块,权限分配模块用于对用户终端的文献操作权限进行分配,分配过程具体如下:
步骤P1:获取用户终端的终端IP,若终端IP与IP地址库中的终端IP相匹配,则判定终端IP为再次访问,并将用户终端标记为再次访问用户;
若终端IP与IP地址库中的终端IP不相匹配,则判定终端IP为首次访问,并将用户终端标记为初次访问用户;
步骤P2:依据终端IP对再次访问用户进行身份识别,若用户终端为管理用户,则将用户终端标记为后台管理用户,若用户终端为普通用户,则将用户终端标记为普通访问用户;
步骤P3:将初次访问用户、后台管理用户和普通访问用户分别标记为q、w和e,q=1,2,……,v,w=1,2,……,n,e=1,2,……,m,v、n和m均为正整数;获取普通访问用户文献的访问次数,并将访问次数标记为FCe;
步骤P4:获取普通访问用户每次的访问停留时长,每次访问停留时长相加求和除以访问次数得到普通访问用户的访问均时FTe;获取普通访问用户每次访问时的文献点击次数,每次文献点击次数相加求和除以访问次数得到普通访问用户的点击均次DJe;
步骤P5:通过公式FWe=FCe×b1+FTe×b2+DJe×b3计算得到普通访问用户的文献访问值FWe;式中,b1、b2和b3均为权重系数,b1+b2+b3=1,且b1、b2和b3的取值均大于零,在具体实施时,b1可以为0.2,b2可以为0.28,b3可以为0.52;
步骤P6:若普通访问用户的文献访问值FWe大于等于K2,则将普通访问用户标记为活跃访问用户;
若普通访问用户的文献访问值FWe大于等于K1且小于K2,则将普通访问用户标记为中等访问用户;
若普通访问用户的文献访问值FWe小于K1且大于零,则将普通访问用户标记为冷门访问用户;式中K1和K2为访问阈值,且K1<K2;
步骤P7:分别为冷门访问用户、初次访问用户、活跃访问用户、中等访问用户和后台管理用户分配文献操作权限;
权限分配模块将冷门访问用户和初次访问用户的权限等级记为一级访问等级、中等访问用户的权限等级记为二级访问等级、活跃访问用户的权限等级记为三级访问等级、后台管理用户的权限等级记为四级访问等级;
一种基于文档数据分析的在线文献归纳和储存***,工作时,使用人员可以通过用户终端中文献上传单元上传初始文献,也可以通过用户终端对服务器中的在线文献进行文献操作,服务器将用户终端上传的初始文献发送至文献识别模块,文献识别模块对初始文献进行文献识别,获取初始文献的初始文献信息,得到初始文献的六个初始文献特性,将六个初始文献特性组合成初始文献特性组,同理,获取服务器中在线文献的在线文献信息,得到在线文献的初始文献特征,建立初始文献的在线文献特性组,初始文献特性组比对若干个在线文献特性组,提取初始文献特性组中任一初始文献特性,比对在线文献特性组中同类型的在线文献特性,计算各个在线文献特性与初始文献特性的相似度,相似度均比对对应的相似阈值,若不存在任一在线文献特性的相似度超过相似阈值,则判定初始文献为最新文献,同意初始文献上传,若存在任一在线文献特性的相似度超过相似阈值,相似度相加求和得到在线文献的相似均值,相似均值比对设定阈值,判定初始文献为重复文献或最新文献,文献识别模块将重复文献和最新文献的初始文献发送至服务器,服务器分别生成上传失败信号和上传成功信号,同时,文献识别模块还将标记为最新文献的初始文献发送至类分存储模块,类分存储模块接收到文献识别模块发送的初始文献,依据初始文献信息中的初始文献信息将初始文献进行类分存储;
通过热度计算模块对服务器中的在线文献进行热度计算,通过时间记录单元得到在线文献的文献上传时间,利用当前时间减去文献上传时间得到在线文献的文献存储时长WCTu,获取在文献存储时长内的点赞率DZLu、浏览次数LLu和下载次数XZu,代入计算式
Figure 28420DEST_PATH_IMAGE008
得到在文献存储时长内在线文献的使用热度值SRu,将在线文献的文献存储时长划分为若干等时长的时间段Ti,随机选取相邻两个时间段Ti和时间段Ti+1,计算得到在时间段Ti中在线文献的使用热度值SRuTi和在时间段Ti+1中在线文献的使用热度值SRuTi+1,若SRuTi<SRuTi+1,利用公式
Figure 313907DEST_PATH_IMAGE009
计算得到时间段Ti至时间段Ti+1存储文档的热度增长率RZu,并记录热度增长率的个数为CRZu,若SRuTi>SRuTi+1,利用公式
Figure DEST_PATH_IMAGE010
计算得到时间段Ti至时间段Ti+1存储文档的热度降低率RJu,并记录热度降低率的个数CRJu,统计时间段与时间段之间在线文献的热度增长率和热度降低率,热度增长率相加求和取平均值得到热增均率RZJu,热度降低率相加求和取平均值得到热降均率RJJu,结合公式RXu=(RZJu×CRZu)/(RJJu×CRJu)计算得到在文献存储时长内在线文献的热度系数RXu,在文献存储时长内在线文献的热度系数RXu、使用热度值SRu结合公式HYu=RXu×SRu得到在线文献的活跃值HYu,热度计算模块将在线文献的活跃值发送至服务器和类分存储模块;
类分存储模块依据活跃值赋予在线文献对应的存储等级,若HYu≥Y2,则判定在线文献为活跃文献,将对应的在线文献移动至***活跃层,若Y2>HYu≥Y1,则判定在线文献为普通文献,将对应的在线文献移动至***普通层,若Y1>HYu,则判定在线文献为冷门文献,将对应的在线文献移动至***冷门层,其中;
本申请还通过权限分配模块对用户终端的文献操作权限进行分配,获取用户终端的终端IP,终端IP与IP地址库中的终端IP将用户终端判定为再次访问用户或初次访问用户,对再次访问用户进行身份识别得到后台管理用户或普通访问用户,获取普通访问用户文献的访问次数FCe、访问均时FTe和点击均次DJe,通过公式FWe=FCe×b1+FTe×b2+DJe×b3计算得到普通访问用户的文献访问值FWe,若普通访问用户的文献访问值FWe比对访问阈值,将普通访问用户划分为活跃访问用户、中等访问用户和冷门访问用户,最后分别为冷门访问用户、初次访问用户、活跃访问用户、中等访问用户和后台管理用户分配文献操作权限。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种基于文档数据分析的在线文献归纳和储存***,其特征在于,包括数据采集模块、文献识别模块、类分存储模块、热度计算模块和服务器;
服务器存储有若干个在线文献和IP地址库,服务器通信连接有用户终端,使用人员通过用户终端中文献上传单元上传初始文献或对服务器中的在线文献进行文献操作;
所述服务器接收到用户终端上传的初始文献,所述服务器将初始文献发送至文献识别模块,所述文献识别模块接收到服务器发送的初始文献,用于对初始文献进行文献识别,文献识别后将初始文献分别标记为重复文献和最新文献,所述文献识别模块将标记为重复文献的初始文献和最新文献的初始文献发送至服务器,服务器依据重复文献生成上传失败信号,依据最新文献上传成功信号,所述服务器将上传失败信号和上传成功信号反馈至用户终端;所述文献识别模块还用于将标记为最新文献的初始文献发送至类分存储模块;
所述类分存储模块接收到文献识别模块发送的初始文献,类分存储模块依据初始文献信息中的文献标识将初始文献进行类分存储;所述热度计算模块用于对服务器中的在线文献进行热度计算,计算得到在线文献的活跃值HYu;
所述热度计算模块将在线文献的活跃值发送至服务器和类分存储模块,类分存储模块依据活跃值赋予在线文献对应的存储等级,具体如下:
步骤SS1:若HYu≥Y2,则判定在线文献为活跃文献,将对应的在线文献移动至***活跃层;
步骤SS2:若Y2>HYu≥Y1,则判定在线文献为普通文献,将对应的在线文献移动至***普通层;
步骤SS3:若Y1>HYu,则判定在线文献为冷门文献,将对应的在线文献移动至***冷门层。
2.根据权利要求1所述的一种基于文档数据分析的在线文献归纳和储存***,其特征在于,所述文献识别模块的文献识别步骤具体如下:
步骤一:获取初始文献的初始文献信息,得到初始文献的文献名称、文献责任者、文献出版者、文献出版日期、文献页码和文献标识六个初始文献特性;
步骤二:将初始文献的文献名称、文献责任者、文献出版者、文献出版日期、文献页码和文献标识组合成初始文献特性组;
步骤三:同理,获取服务器中在线文献的在线文献信息,得到在线文献的在线文献特征,建立在线文献的在线文献特性组;
步骤四:初始文献特性组比对若干个在线文献特性组,提取初始文献特性组中任一初始文献特性,比对在线文献特性组中同类型的在线文献特性;
若判定初始文献为重复文献,不同意初始文献上传,若判定初始文献为最新文献,同意初始文献上传。
3.根据权利要求1所述的一种基于文档数据分析的在线文献归纳和储存***,其特征在于,所述热度计算模块的热度计算过程具体如下:
步骤S1:通过时间记录单元得到在线文献的文献上传时间,利用当前时间减去文献上传时间得到在线文献的文献存储时长WCTu;
步骤S2:获取在文献存储时长内的点赞次数DZu和倒彩次数DCu;利用公式DZLu=DZu/(DZu+DCu)计算得到在文献存储时长内在线文献的点赞率DZLu;
步骤S3:获取在文献存储时长内在线文献的浏览次数LLu和下载次数XZu,将浏览次数LLu、下载次数XZu和点赞率DZLu代入计算式
Figure 703274DEST_PATH_IMAGE001
得到在文献存储时长内在线文献的使用热度值SRu;
步骤S4:将在线文献的文献存储时长划分为若干等时长的时间段Ti;随机选取相邻两个时间段Ti和时间段Ti+1,且Ti<Ti+1;依据步骤S2~步骤S3计算得到在时间段Ti中在线文献的使用热度值SRuTi和在时间段Ti+1中在线文献的使用热度值SRuTi+1
步骤S5:若SRuTi<SRuTi+1,利用公式
Figure 354835DEST_PATH_IMAGE002
计算得到时间段Ti至时间段Ti+1存储文档的热度增长率RZu,并记录热度增长率的个数为CRZu;
若SRuTi>SRuTi+1,利用公式
Figure 931310DEST_PATH_IMAGE003
计算得到时间段Ti至时间段Ti+1存储文档的热度降低率RJu,并记录热度降低率的个数CRJu;
步骤S6:统计时间段与时间段之间在线文献的热度增长率和热度降低率,热度增长率相加求和取平均值得到热增均率RZJu,热度降低率相加求和取平均值得到热降均率RJJu,并结合公式RXu=(RZJu×CRZu)/(RJJu×CRJu)计算得到在文献存储时长内在线文献的热度系数RXu;
步骤S7:在文献存储时长内在线文献的热度系数RXu与使用热度值SRu结合公式HYu=RXu×SRu得到在线文献的活跃值HYu。
4.根据权利要求1所述的一种基于文档数据分析的在线文献归纳和储存***,其特征在于,***活跃层为:在线文献在***首页以热搜形式进行展示,无需检索查询;***普通层为:在线文献归纳至***的类别项中,打开类别项即可检索查询;***冷门层为:在线文献归纳至***映射连接的文件夹中,需要使用人员输入检索关键字方可检索查询。
5.根据权利要求1所述的一种基于文档数据分析的在线文献归纳和储存***,其特征在于,***还包括权限分配模块,所述权限分配模块用于对用户终端的文献操作权限进行分配,分配过程具体如下:
步骤P1:获取用户终端的终端IP,若终端IP与IP地址库中的终端IP相匹配,则判定终端IP为再次访问,并将用户终端标记为再次访问用户;
若终端IP与IP地址库中的终端IP不相匹配,则判定终端IP为首次访问,并将用户终端标记为初次访问用户;
步骤P2:依据终端IP对再次访问用户进行身份识别,若用户终端为管理用户,则将用户终端标记为后台管理用户,若用户终端为普通用户,则将用户终端标记为普通访问用户;
步骤P3:将初次访问用户、后台管理用户和普通访问用户分别标记为q、w和e;获取普通访问用户文献的访问次数,并将访问次数标记为FCe;
步骤P4:获取普通访问用户每次的访问停留时长,每次访问停留时长相加求和除以访问次数得到普通访问用户的访问均时FTe;获取普通访问用户每次访问时的文献点击次数,每次文献点击次数相加求和除以访问次数得到普通访问用户的点击均次DJe;
步骤P5:通过公式FWe=FCe×b1+FTe×b2+DJe×b3计算得到普通访问用户的文献访问值FWe;
步骤P6:若普通访问用户的文献访问值FWe比对访问阈值,将普通访问用户划分为活跃访问用户、中等访问用户和冷门访问用户;
步骤P7:分别为冷门访问用户、初次访问用户、活跃访问用户、中等访问用户和后台管理用户分配文献操作权限;
所述权限分配模块将冷门访问用户和初次访问用户的权限等级记为一级访问等级、中等访问用户的权限等级记为二级访问等级、活跃访问用户的权限等级记为三级访问等级、后台管理用户的权限等级记为四级访问等级。
6.根据权利要求1所述的一种基于文档数据分析的在线文献归纳和储存***,其特征在于,所述用户终端包括注册登录单元、信息采集单元和文献上传单元,所述注册登录单元用于使用人员输入个人信息进行注册登录,并将个人信息发送至服务器,所述文献上传单元用于使用人员通过用户终端上传初始文献,并将初始文献发送至服务器,所述信息采集单元用于对用户终端上传的初始文献进行信息采集,采集得到初始文献信息加标终端编号后一并发送至服务器;
个人信息包括使用人员的姓名、手机号码、终端编号和终端IP;所述初始文献信息包括文献责任者、文献名称、参考文献类型、文献出版者、文献出版日期、文献页码和文献标识。
7.根据权利要求1所述的一种基于文档数据分析的在线文献归纳和储存***,其特征在于,所述数据采集模块包括时间记录单元、次数采集单元和信息采集单元,所述时间记录单元用于记录服务器中在线文献的时间信息,并将时间信息发送至服务器,所述次数采集单元用于采集服务器中在线文献的次数信息,并将次数信息发送至服务器,所述信息采集单元用于采集服务器中在线文献的在线文献信息;所述数据采集模块用于采集服务器中在线文献的时间信息、次数信息和在线文献信息,并将时间信息、次数信息和在线文献信息发送至服务器;
时间信息包括在线文献的开始查看时间、停止查看时间、查看时长、文献上传时间、文献下载时间、文献移动时间、文献删除时间和文献存储时长;在线文献信息包括文献责任者、文献名称、参考文献类型、文献出版者、文献出版日期、文献页码和文献标识;次数信息包括在线文献的浏览次数、移动次数、点赞次数、倒彩次数和下载次数;
文献操作具体包括在线浏览、下载、删除、移动、替换和转存。
8.根据权利要求5所述的一种基于文档数据分析的在线文献归纳和储存***,其特征在于,一级访问等级具体为:在线文献的浏览;
二级访问等级具体为:在线文献的浏览和下载;
三级访问等级具体为:在线文献的浏览、下载和上传;
四级访问等级具体为:在线文献的浏览、下载、上传、删除、转存和移动。
CN202110782604.6A 2021-07-12 2021-07-12 一种基于文档数据分析的在线文献归纳和储存*** Active CN113239207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110782604.6A CN113239207B (zh) 2021-07-12 2021-07-12 一种基于文档数据分析的在线文献归纳和储存***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110782604.6A CN113239207B (zh) 2021-07-12 2021-07-12 一种基于文档数据分析的在线文献归纳和储存***

Publications (2)

Publication Number Publication Date
CN113239207A true CN113239207A (zh) 2021-08-10
CN113239207B CN113239207B (zh) 2021-09-24

Family

ID=77135274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110782604.6A Active CN113239207B (zh) 2021-07-12 2021-07-12 一种基于文档数据分析的在线文献归纳和储存***

Country Status (1)

Country Link
CN (1) CN113239207B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035752A (zh) * 2021-12-01 2022-02-11 特斯联科技集团有限公司 一种城市碳中和数据处理***
CN114417099A (zh) * 2022-01-21 2022-04-29 黑龙江中医药大学 一种基于rfid标签的档案管理***
CN114915453A (zh) * 2022-04-14 2022-08-16 浙江网商银行股份有限公司 访问响应方法以及装置
CN115357551A (zh) * 2022-08-24 2022-11-18 福州年科信息科技有限公司 一种基于大数据的企业管理咨询用数据管理***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983246A (en) * 1997-02-14 1999-11-09 Nec Corporation Distributed document classifying system and machine readable storage medium recording a program for document classifying
CN101819601A (zh) * 2010-05-11 2010-09-01 同方知网(北京)技术有限公司 学术文献自动分类的方法
CN103530388A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 一种云存储***中提升性能的数据处理方法
CN109918481A (zh) * 2019-02-28 2019-06-21 深圳市海恒智能科技有限公司 自动化立体仓库存储图书的方法及***
CN109977076A (zh) * 2019-03-25 2019-07-05 段崇楷 一种基于大数据分析的历史文献分类存储方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983246A (en) * 1997-02-14 1999-11-09 Nec Corporation Distributed document classifying system and machine readable storage medium recording a program for document classifying
CN101819601A (zh) * 2010-05-11 2010-09-01 同方知网(北京)技术有限公司 学术文献自动分类的方法
CN103530388A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 一种云存储***中提升性能的数据处理方法
CN109918481A (zh) * 2019-02-28 2019-06-21 深圳市海恒智能科技有限公司 自动化立体仓库存储图书的方法及***
CN109977076A (zh) * 2019-03-25 2019-07-05 段崇楷 一种基于大数据分析的历史文献分类存储方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIAN LIPING ET.AL: "A Study on IT-security vocabulary for domain document classification", 《2011 SEVENTH INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY》 *
李娟娟: "若干热门主题文献归类探析", 《福建师范大学学报(哲学社会科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035752A (zh) * 2021-12-01 2022-02-11 特斯联科技集团有限公司 一种城市碳中和数据处理***
CN114417099A (zh) * 2022-01-21 2022-04-29 黑龙江中医药大学 一种基于rfid标签的档案管理***
CN114417099B (zh) * 2022-01-21 2022-09-09 黑龙江中医药大学 一种基于rfid标签的档案管理***
CN114915453A (zh) * 2022-04-14 2022-08-16 浙江网商银行股份有限公司 访问响应方法以及装置
CN115357551A (zh) * 2022-08-24 2022-11-18 福州年科信息科技有限公司 一种基于大数据的企业管理咨询用数据管理***

Also Published As

Publication number Publication date
CN113239207B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN113239207B (zh) 一种基于文档数据分析的在线文献归纳和储存***
CN106651424B (zh) 基于大数据技术的电力用户画像建立与分析方法
US7016889B2 (en) System and method for identifying useful content in a knowledge repository
US20050187937A1 (en) Computer program product, device system, and method for providing document view
CN112699089B (zh) 数据共享***、数据共享方法及装置
CN112632405A (zh) 一种推荐方法、装置、设备及存储介质
CN113704830B (zh) 一种智能化网站数据防篡改***及方法
CN106997557A (zh) 订单信息采集方法及装置
CN109615469A (zh) 基于招标网站相关信息提取的管理***及方法
CN107092645A (zh) 一种图书资源管理方法及装置
Nadi et al. A hybrid recommender system for dynamic web users
CN104915388B (zh) 一种基于谱聚类和众包技术的图书标签推荐方法
KR20080040355A (ko) 연구개발 환경정보를 이용한 미래 시그널 및 이슈 도출시스템 및 그 방법
CN117370539A (zh) 一种基于知识库和大模型的法律条文信息推荐***
CN116595262A (zh) 商旅方案推荐方法、装置、电子设备及计算机存储介质
Shepherd et al. Are ISO 15489‐1: 2001 and ISAD (G) compatible? Part 1
CN109460518B (zh) 一种基于用户网站访问记录的图书推荐方法
CN116089759A (zh) 一种书籍在线阅读***
CN113538011B (zh) 一种电力***中非在册联系信息与在册用户的关联方法
CN105264563B (zh) 门户网站***
CN113204644B (zh) 一种基于知识图谱的政务百科构建方法
CN111797317A (zh) 一种基于数字图书馆的智慧学习***
Butler Electronic editions of serials: the virtual library model
CN117453982B (zh) 一种档案管理文件分类***
CN109491800B (zh) 一种基于产品结构的档案推送***及档案推送方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230925

Address after: A2701, Nanshan Software Park, No. 10128 Shennan Avenue, Liancheng Community, Nantou Street, Nanshan District, Shenzhen, Guangdong Province, 518000

Patentee after: New Spacetime (Shenzhen) Intelligent Technology Co.,Ltd.

Address before: 518000 f6-021-c, Hedong building, Haoyunlai Plaza, Hedong community, Xixiang street, Bao'an District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Zhiku Information Technology Co.,Ltd.

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 513000 503, Building D, Haifu Ecological Building, 9 Happy Harbor, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong

Patentee after: New Spacetime (Shenzhen) Intelligent Technology Co.,Ltd.

Country or region after: China

Address before: A2701, Nanshan Software Park, No. 10128 Shennan Avenue, Liancheng Community, Nantou Street, Nanshan District, Shenzhen, Guangdong Province, 518000

Patentee before: New Spacetime (Shenzhen) Intelligent Technology Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address