CN107885808B - 共享资源文件防作弊方法 - Google Patents

共享资源文件防作弊方法 Download PDF

Info

Publication number
CN107885808B
CN107885808B CN201711070780.7A CN201711070780A CN107885808B CN 107885808 B CN107885808 B CN 107885808B CN 201711070780 A CN201711070780 A CN 201711070780A CN 107885808 B CN107885808 B CN 107885808B
Authority
CN
China
Prior art keywords
file
resource
resource file
shared resource
stock
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711070780.7A
Other languages
English (en)
Other versions
CN107885808A (zh
Inventor
李禹江
何渔
吴豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Winshare Education Science & Technology Co ltd
Original Assignee
Sichuan Winshare Education Science & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Winshare Education Science & Technology Co ltd filed Critical Sichuan Winshare Education Science & Technology Co ltd
Priority to CN201711070780.7A priority Critical patent/CN107885808B/zh
Publication of CN107885808A publication Critical patent/CN107885808A/zh
Application granted granted Critical
Publication of CN107885808B publication Critical patent/CN107885808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了共享资源文件防作弊方法,所述方法包括以下步骤:S1:将入库文件转化为PDF格式文件,并把转化后的PDF格式文件上传至资源存量库中;S2:Luncene通过数据库获取资源存量库中的路径信息,通过路径信息在资源存量库中获取资源文件,Luncene装载和构建文档对象,对存量资源文件进行分词,并创建索引文件;S3:随机抽取新共享资源文件内容片段,片段数N>=3次抽样,装载共享资源文件,获取共享资源文件字符总长度T、内容片段步长S=10,构建随机数集合C=字符总长度T‑步长S;提高了判定共享资源是否为作弊行为的时间,提高了整个效率。同时避免了相似文件进入资源库,节约了存储空间。

Description

共享资源文件防作弊方法
技术领域
本发明涉及一种文件防作弊方法,具体涉及共享资源文件防作弊方法。
背景技术
网络技术的高速发展,大家可以共享自己的资源文件。在有偿共享条件下,发现有小部分人,在他人已共享的文件基础上进行下载,然后微量改动,再进行共享,非法获取报酬。如果不能够对共享资源文件进行有效防作弊就会出现以下问题:
1、造成共享资源的收集成本加大。
2、相似资源文件导致存储空间浪费。
3、相似资源文件导致资源文件获取者选择成本加大。
发明内容
本发明所要解决的技术问题是造成共享资源的收集成本大、相似资源文件导致存储空间浪费、耗时过长等问题,本发明的目的就是提出一种既能够减少服务器消耗,又能快速获取新共享资源文件与存量资源文件的相似度,防止共享资源文件作弊行为。
本发明通过下述技术方案实现:
共享资源文件防作弊方法,所述方法包括以下步骤:S1:将入库文件转化为PDF格式文件,并把转化后的PDF格式文件上传至资源存量库中;S2:Luncene通过数据库获取资源存量库中的路径信息,通过路径信息在资源存量库中获取资源文件,Luncene装载和构建文档对象,对存量资源文件进行分词,并创建索引文件;S3:随机抽取新共享资源文件内容片段,片段数N>=3次抽样,装载共享资源文件,获取共享资源文件字符总长度T、内容片段步长S=10,构建随机数集合C=字符总长度T-步长S;S4:若C<=0,共享文件所有内容最为抽样片段内容;若C>0,以随机数集合C为限,生成随机数K,获取K至K+S间的内容片段,并重复S3步骤,当内容片段数量等于N时停止抽样;S5:利用N次抽样内容片段作为检索关键字在搜索引擎做N次检索暂存检索结果;S6:对N次检索结果进行分析,计算文件在N次搜索中命中数H,文件在搜索结果中出现一次,命中数H增加1;S7;获取存量相似资源文件列表及数量Fn,文件命中数H与内容片段数N进行比较,命中率R=H/N如果命中率R>=60%,该文件即为存量相似资源文件。
现有技术为了防止共享资源文件作弊行为,现采用文件内容处理技术利用“向量空间模型”计算新共享资源文件与存量资源文件的相似度。如果文件相似度超过了判定值,则判定新共享资源文件为作弊文件,文件不允许进入资源库。该技术对文件相似度的判定会耗费大量服务器资源。并且随存量资源数量增大,文件相似度的识别过程会越来越长。
进一步地,所述步骤S1中的入库文件通过转化器整体转化为PDF格式文件。采用PDF格式文件进行文件内容的存储、共享以及文件内容片段的对比时因为PDF格式文件能够较好的实现在线查看,并且在对比时,可以通过OCR等文字识别软件,快速的将文字进行识别处理。
进一步地,所述步骤S2中的数据库为MYSQL数据库。与其他的大型数据库例如Oracle、DB2、SQL Server等相比,MySQL自有它的不足之处,如规模小、功能有限,但是本发明中仅需要进行简单的存储,并且MYSQL是开放数据库,因此使用这种方式不用花一分钱(除开人工成本)就可以建立起一个稳定、免费的网站***。
进一步地,所述步骤S6中的检索结果为内容片段对应的文件列表。
进一步地,所述步骤S2中的Luncene为开放源程序的搜寻器,通过Luncene能够在目标***中实现全文检索。
进一步地,所述Luncene对文档进行分析、分词建立索引。
本发明关键点是对共享资源文件随机进行内容抽样,获得内容片段,利用搜索引擎服务,查找存量资源文件列表,利用共享资源文件、文件内容片段、对应存量资源文件列表间的关系找到共享资源文件对应的存量资源列表,判定共享资源是否为作弊行为。提高了判定共享资源是否为作弊行为的时间,提高了整个效率。同时避免了相似文件进入资源库,节约了存储空间。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明共享资源文件防作弊方法,既能够减少服务器消耗,又能快速获取新共享资源文件与存量资源文件的相似度,防止共享资源文件作弊行为;
2、本发明共享资源文件防作弊方法,整个服务器的使用成本低、存储空间可以有效的节省。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明***流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,本发明共享资源文件防作弊方法,共享资源文件防作弊方法,所述方法包括以下步骤:S1:将入库文件转化为PDF格式文件,并把转化后的PDF格式文件上传至资源存量库中;S2:Luncene通过数据库获取资源存量库中的路径信息,通过路径信息在资源存量库中获取资源文件,Luncene装载和构建文档对象,对存量资源文件进行分词,并创建索引文件;S3:随机抽取新共享资源文件内容片段,片段数N>=3次抽样,装载共享资源文件,获取共享资源文件字符总长度T、内容片段步长S=10,构建随机数集合C=字符总长度T-步长S;S4:若C<=0,共享文件所有内容最为抽样片段内容;若C>0,以随机数集合C为限,生成随机数K,获取K至K+S间的内容片段,并重复S3步骤,当内容片段数量等于N时停止抽样;S5:利用N次抽样内容片段作为检索关键字在搜索引擎做N次检索暂存检索结果;S6:对N次检索结果进行分析,计算文件在N次搜索中命中数H,文件在搜索结果中出现一次,命中数H增加1;S7;获取存量相似资源文件列表及数量Fn,文件命中数H与内容片段数N进行比较,命中率R=H/N如果命中率R>=60%,该文件即为存量相似资源文件。
现有技术为了防止共享资源文件作弊行为,现采用文件内容处理技术利用“向量空间模型”计算新共享资源文件与存量资源文件的相似度。如果文件相似度超过了判定值,则判定新共享资源文件为作弊文件,文件不允许进入资源库。该技术对文件相似度的判定会耗费大量服务器资源。并且随存量资源数量增大,文件相似度的识别过程会越来越长。
以现有教育资源内容服务中心为例,教育资源内容服务中心是对教育资源进行上传,管理,搜索,查看,下载的***。其中用户可以共享原创信息,如果共享信息成功,按共享文档质量进行在线奖励金发放。
例如小学语文教师想共享教学课件到教育资源内容服务中心,该资源***已经搭建共享资源文件防作弊***。老师打开***进入共享资源功能选择需要共享的课件文件后,***对该课件资源文件内容抽取3次样品,分别为文件内容的顺序第30至40字符(N1)<“内容并行体会反驳新解”>、第100至110字符(N2)<渔火钟声才有活力才染>、倒序200至210字符(N3)<江枫渔火指江边丹枫愁>,发送到服务器,服务器以3次抽样(N1-N3)内容并行到资源内容库中检索,检索结果N1:3个文件、N2:5个文件、N3:4个文件,服务器对检索出来的12个文件重复次数统计,1个文件出现3次,命中率100%;2个文件出现2次,命中率66.6%;其他文件出现1次,命中率33%。通过上面统计结果得出,待共享文件在存量相似资源文件数量Fn=3,服务器向教师端返回存量资源列表信息,并提示用户该资源文件已存在,不能进行共享。
实施例二
本实施例在实施例一的基础上进行优化选型,所述步骤S1中的入库文件通过转化器整体转化为PDF格式文件。采用PDF格式文件进行文件内容的存储、共享以及文件内容片段的对比时因为PDF格式文件能够较好的实现在线查看,并且在对比时,可以通过OCR等文字识别软件,快速的将文字进行识别处理。
进所述步骤S2中的数据库为MYSQL数据库。与其他的大型数据库例如Oracle、DB2、SQL Server等相比,MySQL自有它的不足之处,如规模小、功能有限,但是本发明中仅需要进行简单的存储,并且MYSQL是开放数据库,因此使用这种方式不用花一分钱(除开人工成本)就可以建立起一个稳定、免费的网站***。所述步骤S6中的检索结果为内容片段对应的文件列表。所述步骤S2中的Luncene为开放源程序的搜寻器,通过Luncene能够在目标***中实现全文检索。所述Luncene对文档进行分析、分词建立索引。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.共享资源文件防作弊方法,其特征在于,所述方法包括以下步骤:
S1:将入库文件转化为PDF格式文件,并把转化后的PDF格式文件上传至资源存量库中;
S2:Luncene通过数据库获取资源存量库中的路径信息,通过路径信息在资源存量库中获取资源文件,Luncene装载和构建文档对象,对存量资源文件进行分词,并创建索引文件;
S3:随机抽取新共享资源文件内容片段,片段数N>=3次抽样,装载共享资源文件,获取共享资源文件字符总长度T、内容片段步长S=10,构建随机数集合C=字符总长度T-步长S;
S4:若C<=0,共享文件所有内容为抽样片段内容;若C>0, 以随机数集合C为限,生成随机数K, 获取K至K+S间的内容片段,并重复S3步骤,当内容片段数量等于N时停止抽样;
S5:利用N次抽样内容片段作为检索关键字在搜索引擎做N次检索暂存检索结果;
S6:对N次检索结果进行分析,计算文件在N次搜索中命中数H,文件在搜索结果中出现一次,命中数H增加1;
S7;获取存量相似资源文件列表及数量Fn,文件命中数H与内容片段数N进行比较,命中率R=H/N 如果命中率R>=60%,该文件即为存量相似资源文件。
2.根据权利要求1所述的共享资源文件防作弊方法,其特征在于,所述步骤S1中的入库文件通过转化器整体转化为PDF格式文件。
3.根据权利要求1所述的共享资源文件防作弊方法,其特征在于,所述步骤S2中的数据库为MYSQL数据库。
4.根据权利要求1所述的共享资源文件防作弊方法,其特征在于,所述步骤S6中的检索结果为内容片段对应的文件列表。
5.根据权利要求1所述的共享资源文件防作弊方法,其特征在于,所述步骤S2中的Luncene为开放源程序的搜寻器,通过Luncene能够在目标***中实现全文检索。
6.根据权利要求5所述的共享资源文件防作弊方法,其特征在于,所述Luncene对文档进行分析、分词建立索引。
CN201711070780.7A 2017-11-03 2017-11-03 共享资源文件防作弊方法 Active CN107885808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711070780.7A CN107885808B (zh) 2017-11-03 2017-11-03 共享资源文件防作弊方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711070780.7A CN107885808B (zh) 2017-11-03 2017-11-03 共享资源文件防作弊方法

Publications (2)

Publication Number Publication Date
CN107885808A CN107885808A (zh) 2018-04-06
CN107885808B true CN107885808B (zh) 2021-03-30

Family

ID=61778734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711070780.7A Active CN107885808B (zh) 2017-11-03 2017-11-03 共享资源文件防作弊方法

Country Status (1)

Country Link
CN (1) CN107885808B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109032954B (zh) * 2018-08-16 2022-04-05 五八有限公司 一种a/b测试的用户选取方法、装置、存储介质及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095258A (zh) * 2014-05-08 2015-11-25 腾讯科技(北京)有限公司 一种媒体信息排序方法、装置和媒体信息推荐***
CN106909609A (zh) * 2017-01-09 2017-06-30 北方工业大学 确定相似字符串的方法、文件查重的方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303716B2 (en) * 2014-01-31 2019-05-28 Nbcuniversal Media, Llc Fingerprint-defined segment-based content delivery

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095258A (zh) * 2014-05-08 2015-11-25 腾讯科技(北京)有限公司 一种媒体信息排序方法、装置和媒体信息推荐***
CN106909609A (zh) * 2017-01-09 2017-06-30 北方工业大学 确定相似字符串的方法、文件查重的方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高校实验教学中基于文件的防作弊技术;胡艳;《科教文汇》;20141031;全文 *

Also Published As

Publication number Publication date
CN107885808A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN111105209B (zh) 适用于人岗匹配推荐***的职位简历匹配方法及装置
US9798831B2 (en) Processing data in a MapReduce framework
US20170235726A1 (en) Information identification and extraction
CN103793434A (zh) 一种基于内容的图片搜索方法和装置
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN112883734B (zh) 区块链安全事件舆情监测方法及***
WO2022068543A1 (zh) 一种多媒体内容发布的方法、装置、电子设备及存储介质
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
Huang et al. A Low‐Cost Named Entity Recognition Research Based on Active Learning
McKenzie et al. Of Oxen and Birds: Is Yik Yak a useful new data source in the geosocial zoo or just another Twitter?
Zhao et al. Text sentiment analysis algorithm optimization and platform development in social network
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN108897819B (zh) 一种数据搜索方法和装置
CN107885808B (zh) 共享资源文件防作弊方法
Mazloom et al. Few-example video event retrieval using tag propagation
CN110580301A (zh) 一种高效商标检索方法、***及平台
US9547701B2 (en) Method of discovering and exploring feature knowledge
Chen et al. Research on clustering analysis of Internet public opinion
Kordumova et al. Exploring the long tail of social media tags
Zhang et al. A system for extracting top-k lists from the web
Brambilla et al. On the quest for changing knowledge
Samah et al. TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity
CN113536133B (zh) 基于单一舆情事件的互联网数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant