CN110020026A - 项目申报数据的查重***及方法 - Google Patents
项目申报数据的查重***及方法 Download PDFInfo
- Publication number
- CN110020026A CN110020026A CN201710591752.3A CN201710591752A CN110020026A CN 110020026 A CN110020026 A CN 110020026A CN 201710591752 A CN201710591752 A CN 201710591752A CN 110020026 A CN110020026 A CN 110020026A
- Authority
- CN
- China
- Prior art keywords
- data
- duplicate checking
- checked
- text data
- project application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种项目申报数据的查重***及方法,查重***包括:非关系型数据库,用于存储多个项目申报历史数据中的历史非文本数据,并提取历史非文本数据中的特征值以创建索引,还将索引存储于索引库中;数据输入模块,用于生成数据输入模板,并获取数据输入模板接收的待查重的项目申报数据中的待查非文本数据;查重模块,用于提取待查非文本数据中的待查特征值,并将待查特征值与索引库中的所有特征值进行匹配分析,以获取非关系型数据库反馈的包括待查特征值的所有历史非文本数据,查重模块还用于根据所有历史非文本数据计算待查非文本数据的相似度。本发明实现了对项目申报数据中的非文本数据进行查重,大大提高了查重准确率。
Description
技术领域
本发明涉及一种数据查重***,特别涉及一种创新创业项目申报数据的查重***及方法。
背景技术
目前,我国每年有大量在校学生及科研人员会申报国家、省地各级各类创新创业项目。为了提高创新创业项目的创新高度,项目评审前需要对其进行查重。现有技术中,有许多网站能提供查重功能,但该些网站只能进行文本查重,不能实现非文本(表格、图像、网页等)查重,故有些项目申报者会通过将文本数据转换为非文本数据来规避查重,以降低其项目论文的相似度。
发明内容
本发明要解决的技术问题是为了克服现有技术中的查重***不能进行非文本查重的缺陷,提供一种项目申报数据的查重***及方法。
本发明是通过下述技术方案来解决上述技术问题:
一种项目申报数据的查重***,其特点在于,所述查重***包括:
非关系型数据库,用于存储多个项目申报历史数据中的历史非文本数据,并提取所述历史非文本数据中的特征值以创建索引,所述非关系型数据库还用于将所述索引存储于索引库中;
数据输入模块,用于生成数据输入模板,并获取数据输入模板接收的待查重的项目申报数据中的待查非文本数据;
查重模块,用于提取所述待查非文本数据中的待查特征值,并将所述待查特征值与所述索引库中的所有特征值进行匹配分析,以获取非关系型数据库反馈的包括所述待查特征值的所有历史非文本数据,所述查重模块还用于根据所述所有历史非文本数据计算所述待查非文本数据的相似度。
较佳地,所述查重***还包括:关系型数据库;
所述关系型数据库用于存储所述项目申报历史数据中的历史文本数据;
所述数据输入模块还用于获取所述数据输入模板接收的待查重的项目申报数据中的待查文本数据;
所述查重模块还用于将所述待查文本数据与所述关系型数据库中的所有历史文本数据进行匹配分析,并计算所述待查文本数据的相似度。
较佳地,所述查重模块还用于获取查询条件,并根据所述查询条件提取所述待查文本数据中的内容数据作为待查文本数据和/或待查非文本数据。
较佳地,所述内容数据包括以下数据中的至少一种:
项目标题、关键词、研究意义、国内外研究现状、研究目标、研究内容、拟解决的关键问题、项目名称、项目申请理由、立论依据、研究方案、特色与创新、拟解决的关键问题、计划进度、研究基础和预期研究成果。
较佳地,所述非文本数据包括以下数据中的至少一种:
图像数据、表格数据和网页数据。
较佳地,所述查重模块包括图像查重单元和文本查重单元;
所述数据输入模块还用于从所述图像数据和/或所述表格数据和/或所述网页数据中获取待查文本数据并发送至所述文本查重单元;
所述图像查重单元用于提取所述图像数据中的图像特征值,并将提取出的图像特征值与所述索引库中的图像特征值进行匹配分析,并生成图像数据的相似度;
所述文本查重单元用于将所述待查文本数据与所述历史文本数据进行匹配分析,并计算待查文本数据的相似度。
较佳地,所述查重模块还用于统计所述待查非文本数据的相似度和所述待查文本数据的相似度,并计算所述待查重的项目申报数据的总相似度。
较佳地,所述查重模块基于cosine算法计算所述待查非文本数据的相似度和/或所述待查文本数据的相似度。
较佳地,所述查重***还包括:
结果输出模块,用于输出查重结果;
所述查重结果包括以下数据的至少一种:
待查重的项目申报数据的总相似度、待查非文本数据的相似度、待查文本数据的相似度、待查重的项目申报数据的字数、待查重的项目申报数据的段落数、待查重的项目申报数据的句子数、句子的平均长度、句子的最大长度、句子的最小长度、句子的相似度分布图、句子的相似度折线图、相似资源的信息列表。
较佳地,所述结果输出模块还用于根据查重结果并基于FreeMarker(一种模板引擎)技术生成查重报告。较佳地,所述查重***还包括存储模块,用于将待查非文本数据存储于所述非关系型数据库中,并将待查文本数据存储于所述关系型数据库中。
较佳地,所述结果输出模块还用于将所述查重报告转换为html格式文档。
较佳地,所述存储模块还用于存储所述html格式文档。
较佳地,所述数据输入模块还用于通过互联网搜索项目申报历史数据,并调用所述存储模块以将未存储在非关系型数据库的项目申报历史数据中的历史非文本数据存储入非关系型数据库,将未存储在关系型数据库的项目申报历史数据中的历史文本数据存储入关系型数据库。
较佳地,所述非关系型数据库为mongoDB。
本发明还提供一种项目申报数据的查重方法,所述查重方法利用如上所述的查重***实现,所述查重方法包括:
S1、在非关系型数据库中存储多个项目申报历史数据中的历史非文本数据,提取所述历史非文本数据中的特征值以创建索引,并将所述索引存储于索引库中;
S2、数据输入模块生成数据输入模板,并获取数据输入模板接收的待查重的项目申报数据中的待查非文本数据;
S3、查重模块提取所述待查非文本数据中的待查特征值,并将所述待查特征值与所述索引库中的所有特征值进行匹配分析,以获取非关系型数据库反馈的包括所述待查特征值的所有历史非文本数据,以根据所述所有历史非文本数据计算所述待查非文本数据的相似度。
较佳地,所述查重***还包括:关系型数据库;
步骤S1还包括:在关系型数据库中存储所述项目申报历史数据中的历史文本数据;
步骤S2还包括:所述数据输入模块获取所述数据输入模板接收的待查重的项目申报数据中的待查文本数据;
步骤S3还包括:所述查重模块将所述待查文本数据与所述关系型数据库中的所有历史文本数据进行匹配分析,并计算所述待查文本数据的相似度。
较佳地,在步骤S3之前,所述查重方法还包括:
所述查重模块获取查询条件,并根据所述查询条件提取所述待查文本数据中的内容数据作为待查文本数据和/或待查非文本数据。
较佳地,所述内容数据包括以下数据中的至少一种:
项目标题、关键词、研究意义、国内外研究现状、研究目标、研究内容、拟解决的关键问题、项目名称、项目申请理由、立论依据、研究方案、特色与创新、拟解决的关键问题、计划进度、研究基础和预期研究成果。
较佳地,所述非文本数据包括以下数据中的至少一种:
图像数据、表格数据和网页数据。
较佳地,所述查重模块包括图像查重单元和文本查重单元;
步骤S2中,所述数据输入模块获取待查文本数据还包括:
所述数据输入模块从所述图像数据和/或所述表格数据和/或所述网页数据中获取待查文本数据并发送至所述文本查重单元;
步骤S3中,所述查重模块计算所述待查非文本数据的相似度的步骤,具体包括:
所述图像查重单元提取所述图像数据中的图像特征值,并将提取出的图像特征值与所述索引库中的图像特征值进行匹配分析,并生成图像数据的相似度;
所述查重模块计算所述待查文本数据的相似度的步骤,具体包括:
所述文本查重单元将所述待查文本数据与所述历史文本数据进行匹配分析,并计算待查文本数据的相似度。
较佳地,步骤S3还包括:
所述查重模块统计所述待查非文本数据的相似度和所述待查文本数据的相似度,并计算所述待查重的项目申报数据的总相似度。
较佳地,所述查重模块基于cosine算法计算所述待查非文本数据的相似度和/或所述待查文本数据的相似度。
较佳地,所述查重***还包括结果输出模块;
所述查重方法还包括:
S4、结果输出模块输出查重结果;
所述查重结果包括以下数据的至少一种:
待查重的项目申报数据的总相似度、待查非文本数据的相似度、待查文本数据的相似度、待查重的项目申报数据的字数、待查重的项目申报数据的段落数、待查重的项目申报数据的句子数、句子的平均长度、句子的最大长度、句子的最小长度、句子的相似度分布图、句子的相似度折线图、相似资源的信息列表。
较佳地,步骤S4还包括:
所述结果输出模块根据查重结果并基于FreeMarker技术生成查重报告。
较佳地,步骤S3之后,所述查重方法还包括:
将待查非文本数据存储于所述非关系型数据库中,并将待查文本数据存储于所述关系型数据库中。
较佳地,步骤S4还包括:
所述结果输出模块将所述查重报告转换为html格式文档。
较佳地,步骤S4还包括:
存储所述html格式文档。
较佳地,所述查重方法还包括:
所述数据输入模块通过互联网搜索项目申报历史数据,并将未存储在非关系型数据库的项目申报历史数据中的历史非文本数据存储入非关系型数据库,将未存储在关系型数据库的项目申报历史数据中的历史文本数据存储入关系型数据库。
较佳地,所述非关系型数据库为mongoDB。
本发明的积极进步效果在于:本发明实现了对项目申报数据中的非文本数据进行查重,大大提高了查重准确率。
附图说明
图1为本发明实施例1的项目申报数据的查重***的模块示意图。
图2为本发明实施例1的项目申报数据的查重***的工作流程图。
图3为本发明实施例2的项目申报数据的查重方法的流程图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例的项目申报数据的查重***可用于各大高校(大学、专门学院、高等职业技术学院、高等专科学校等)的申报项目的查重,也可用于各个企业的项目申报的查重。如图1所示,本实施例的项目申报数据的查重***包括:非关系型数据库1、关系型数据库2、数据输入模块3和查重模块4。
非关系型数据库(优选地,非关系型数据库为MongoDB)用于存储多个项目申报历史数据(该项目申报历史数据作为检测查重的基础数据,一般包括文本数据和非文本数据)中的历史非文本数据。其中,历史非文本数据包括图像数据、表格数据和网页数据。非关系型数据库还用于提取历史非文本数据中的特征值以创建索引,并将索引存储于索引库5(Solr库)中。关系型数据库用于存储项目申报历史数据中的历史文本数据。本实施例中,查重***还包括MongoDB实时同步心跳监听模块。
数据输入模块用于生成数据输入模板。用户可根据数据输入模板对应的输入待查重的项目申报数据,若待查重的项目申报数据包括待查文本数据、待查图像数据、待查表格数据和待查网页数据,则将待查文本数据填入文本输入区域,将图像数据填入图像输入区域,将表格数据填入表格输入区域,将网页数据填入网页输入区域。数据输入模块则分别获取数据输入模板接收的待查重的项目申报数据中的待查非文本数据以及待查文本数据,并将其发送至查重模块。具体的,数据输入模块使用前端的FileUpload(实现文件上传功能的一个项目),SpringMVC(java框架)上传数据文档,并对其进行POI(对文本格式进行读写的技术)技术处理。
本实施例中,数据输入模块还可统计文本字数、句子数、段落数、文档标题、文档内容、作者等信息,并发送至查重模块,以作为计算相似度的参考参数。
查重模块根据不同的数据类型在不同的数据库中进行查重比对,以获取待查的项目申报数据的相似度。具体的,对非文本数据进行查重时,查重模块提取待查非文本数据中的待查特征值,并将待查特征值与索引库中的所有特征值进行匹配分析,以获取非关系型数据库反馈的包括待查特征值的所有历史非文本数据,查重模块则根据所有历史非文本数据计算待查非文本数据的相似度。对文本数据进行查重时,查重模块将待查文本数据与关系型数据库中的所有历史文本数据进行匹配分析,并计算待查文本数据的相似度。从而,不仅实现了对项目申报数据中的文本数据进行查重,还实现了对项目申报数据中的非文本数据进行查重,大大提高了查重准确率。
本实施例中,查重模块包括图像查重单元和文本查重单元。若待查重的项目申报数包含图像数据、表格数据或网页数据,且图像数据、表格数据或网页数据中包含有文本数据,则输入模块还用于从图像数据、表格数据或网页数据中获取待查文本数据并发送至文本查重单元。文本查重单元则将待查文本数据与历史文本数据进行匹配分析,并计算待查文本数据的相似度。图像查重单元用于提取图像数据中的图像特征值(也即待查特征值),并将提取出的图像特征值与索引库中的图像特征值进行匹配分析,并生成图像数据的相似度。
本实施例中,查重模块基于cosine算法计算待查非文本数据的相似度和/或待查文本数据的相似度。查重模块还用于统计待查非文本数据的相似度和待查文本数据的相似度,并计算待查重的项目申报数据的总相似度。
本实施例中,查重模块还用于获取查询条件,并根据查询条件提取待查文本数据中的内容数据作为待查文本数据和/或待查非文本数据。其中,内容数据包括以下数据中的至少一种:项目标题、关键词、研究意义、国内外研究现状、研究目标、研究内容、拟解决的关键问题、项目名称、项目申请理由、立论依据、研究方案、特色与创新、拟解决的关键问题、计划进度、研究基础和预期研究成果。也即用户可自行定义查询内容。也即根据选择的数据内容实现项目申报数据的精查或粗查。
本实施例中,查重***还包括结果输出模块6,结果输出模块用于输出查重结果。查重结果包括以下数据的至少一种:待查重的项目申报数据的总相似度、待查非文本数据的相似度、待查文本数据的相似度、待查重的项目申报数据的字数、待查重的项目申报数据的段落数、待查重的项目申报数据的句子数、句子的平均长度、句子的最大长度、句子的最小长度、句子的相似度分布图、句子的相似度折线图、相似资源的信息列表。其中,信息列表包括句子的最高相似度值、相似句子的内容、相似句子所在的项目申报数据文档、相似句子所在文档的原文查看的网页地址、相似句子的原文作者等信息。
结果输出模块还用于根据查重结果并基于FreeMarker技术生成查重报告。结果输出模块还可将查重报告转换为html格式的文档,使之能够在网页上直接查看。查重***还可调用下文所述的存储模块对html格式文档进行存储,供用户随时查看历史查重报告。具体的,如图2所示,***检测到用户上传文档(待查重项目申报数据)后,对其进行查重处理,结果输出模块调用查重模块计算的查重结果以生成查重报告,供用户查看,其中,查重报告包括详细报告、综合评估和项目原文,本实施例的***还设置了可连接打印机的接口,以便于用户随时打印报告。
本实施例中,查重***的存储模块7用于将待查非文本数据存储于非关系型数据库中,并将待查文本数据存储于关系型数据库中。需要说明的是,存储模块还用于随时存储项目申报历史数据,以实现数据库中的文档补充,使检测查重的基础数据更全面、完整,从而使查重更加精准。具体的,数据输入模块还用于通过互联网搜索项目申报历史数据,并将项目申报历史数据中的对应内容数据导入数据输入模板,如图2所示,存储项目申报历史数据包括对数据的初始化,若上传的是压缩包,还包括解压压缩包,搜索压缩包中的文档,提取文档数据中的不同格式的内容,调用存储模块以将未存储在非关系型数据库的项目申报历史数据中的历史非文本数据存储入非关系型数据库,并自动建立索引,并存入索引数据库;还将未存储在关系型数据库的项目申报历史数据中的历史文本数据存储入关系型数据库;从而实现将数据输入模板的不同区域中的数据存储入对应的数据库。
实施例2
本实施例的项目申报数据的查重方法利用实施例1中的查重***实现,如图3所示,所述查重方法包括:
步骤101、在非关系型数据库中存储多个项目申报历史数据中的历史非文本数据,提取历史非文本数据中的特征值以创建索引,并将索引存储于索引库中;在关系型数据库中存储项目申报历史数据中的历史文本数据。
步骤102、数据输入模块生成数据输入模板,并获取数据输入模板接收的待查重的项目申报数据中的待查非文本数据,以及待查重的项目申报数据中的待查文本数据。
其中,非文本数据包括以下数据中的至少一种:图像数据、表格数据和网页数据。图像数据、表格数据和网页数据中也包括文本数据,数据输入模块还从图像数据和/或表格数据和/或网页数据中获取待查文本数据并发送至查重模块的文本查重单元以进行相似度计算。
步骤103、查重模块提取待查非文本数据中的待查特征值,并将待查特征值与索引库中的所有特征值进行匹配分析,获取非关系型数据库反馈的包括待查特征值的所有历史非文本数据,以根据所有历史非文本数据计算待查非文本数据的相似度;查重模块还将待查文本数据与关系型数据库中的所有历史文本数据进行匹配分析,并计算待查文本数据的相似度。具体的相似度计算可通过cosine算法实现。
相似度计算完成之后,查重方法还包括:
将待查非文本数据存储于非关系型数据库中,并将待查文本数据存储于关系型数据库中。以充实数据库,将待查重的项目申报数据作为项目申报历史数据。
具体的,查重模块包括图像查重单元和文本查重单元。查重模块计算待查非文本数据的相似度的步骤,具体包括:
图像查重单元提取图像数据中的图像特征值,并将提取出的图像特征值与索引库中的图像特征值进行匹配分析,并生成图像数据的相似度。
查重模块计算待查文本数据的相似度的步骤,具体包括:
文本查重单元将待查文本数据与历史文本数据进行匹配分析,并计算待查文本数据的相似度。
本实施例中,在步骤103之前,查重方法还包括:
查重模块获取查询条件,并根据查询条件提取待查文本数据中的内容数据作为待查文本数据和/或待查非文本数据。根据查询内容数据的不同,查询可分为精查和粗查。
其中,所述内容数据包括以下数据中的至少一种:
项目标题、关键词、研究意义、国内外研究现状、研究目标、研究内容、拟解决的关键问题、项目名称、项目申请理由、立论依据、研究方案、特色与创新、拟解决的关键问题、计划进度、研究基础和预期研究成果。
本实施例中,计算得到文本数据的相似度和非文本数据的相似度之后,步骤103还包括:查重模块统计待查非文本数据的相似度和待查文本数据的相似度,并计算待查重的项目申报数据的总相似度。
步骤104、结果输出模块输出查重结果。
其中,查重结果包括以下数据的至少一种:
待查重的项目申报数据的总相似度、待查非文本数据的相似度、待查文本数据的相似度、待查重的项目申报数据的字数、待查重的项目申报数据的段落数、待查重的项目申报数据的句子数、句子的平均长度、句子的最大长度、句子的最小长度、句子的相似度分布图、句子的相似度折线图、相似资源的信息列表。
本实施例中,步骤104还包括:
结果输出模块根据查重结果并基于FreeMarker技术生成查重报告;将查重报告转换为html格式文档;并存储html格式文档。
本实施例中,查重方法还包括:
数据输入模块通过互联网搜索项目申报历史数据,并将未存储在非关系型数据库的项目申报历史数据中的历史非文本数据存储入非关系型数据库,将未存储在关系型数据库的项目申报历史数据中的历史文本数据存储入关系型数据库。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (30)
1.一种项目申报数据的查重***,其特征在于,所述查重***包括:
非关系型数据库,用于存储多个项目申报历史数据中的历史非文本数据,并提取所述历史非文本数据中的特征值以创建索引,所述非关系型数据库还用于将所述索引存储于索引库中;
数据输入模块,用于生成数据输入模板,并获取数据输入模板接收的待查重的项目申报数据中的待查非文本数据;
查重模块,用于提取所述待查非文本数据中的待查特征值,并将所述待查特征值与所述索引库中的所有特征值进行匹配分析,以获取非关系型数据库反馈的包括所述待查特征值的所有历史非文本数据,所述查重模块还用于根据所述所有历史非文本数据计算所述待查非文本数据的相似度。
2.如权利要求1所述的项目申报数据的查重***,其特征在于,所述查重***还包括:关系型数据库;
所述关系型数据库用于存储所述项目申报历史数据中的历史文本数据;
所述数据输入模块还用于获取所述数据输入模板接收的待查重的项目申报数据中的待查文本数据;
所述查重模块还用于将所述待查文本数据与所述关系型数据库中的所有历史文本数据进行匹配分析,并计算所述待查文本数据的相似度。
3.如权利要求2所述的项目申报数据的查重***,其特征在于,所述查重模块还用于获取查询条件,并根据所述查询条件提取所述待查文本数据中的内容数据作为待查文本数据和/或待查非文本数据。
4.如权利要求3所述的项目申报数据的查重***,其特征在于,所述内容数据包括以下数据中的至少一种:
项目标题、关键词、研究意义、国内外研究现状、研究目标、研究内容、拟解决的关键问题、项目名称、项目申请理由、立论依据、研究方案、特色与创新、拟解决的关键问题、计划进度、研究基础和预期研究成果。
5.如权利要求2所述的项目申报数据的查重***,其特征在于,所述非文本数据包括以下数据中的至少一种:
图像数据、表格数据和网页数据。
6.如权利要求5所述的项目申报数据的查重***,其特征在于,所述查重模块包括图像查重单元和文本查重单元;
所述数据输入模块还用于从所述图像数据和/或所述表格数据和/或所述网页数据中获取待查文本数据并发送至所述文本查重单元;
所述图像查重单元用于提取所述图像数据中的图像特征值,并将提取出的图像特征值与所述索引库中的图像特征值进行匹配分析,并生成图像数据的相似度;
所述文本查重单元用于将所述待查文本数据与所述历史文本数据进行匹配分析,并计算待查文本数据的相似度。
7.如权利要求2所述的项目申报数据的查重***,其特征在于,所述查重模块还用于统计所述待查非文本数据的相似度和所述待查文本数据的相似度,并计算所述待查重的项目申报数据的总相似度。
8.如权利要求7所述的项目申报数据的查重***,其特征在于,所述查重模块基于cosine算法计算所述待查非文本数据的相似度和/或所述待查文本数据的相似度。
9.如权利要求7所述的项目申报数据的查重***,其特征在于,所述查重***还包括:
结果输出模块,用于输出查重结果;
所述查重结果包括以下数据的至少一种:
待查重的项目申报数据的总相似度、待查非文本数据的相似度、待查文本数据的相似度、待查重的项目申报数据的字数、待查重的项目申报数据的段落数、待查重的项目申报数据的句子数、句子的平均长度、句子的最大长度、句子的最小长度、句子的相似度分布图、句子的相似度折线图、相似资源的信息列表。
10.如权利要求9所述的项目申报数据的查重***,其特征在于,所述结果输出模块还用于根据查重结果并基于FreeMarker技术生成查重报告。
11.如权利要求10所述的项目申报数据的查重***,其特征在于,所述查重***还包括存储模块,用于将待查非文本数据存储于所述非关系型数据库中,并将待查文本数据存储于所述关系型数据库中。
12.如权利要求11所述的项目申报数据的查重***,其特征在于,所述结果输出模块还用于将所述查重报告转换为html格式文档。
13.如权利要求12所述的项目申报数据的查重***,其特征在于,所述存储模块还用于存储所述html格式文档。
14.如权利要求11所述的项目申报数据的查重***,其特征在于,所述数据输入模块还用于通过互联网搜索项目申报历史数据,并调用所述存储模块以将未存储在非关系型数据库的项目申报历史数据中的历史非文本数据存储入非关系型数据库,将未存储在关系型数据库的项目申报历史数据中的历史文本数据存储入关系型数据库。
15.如权利要求1所述的项目申报数据的查重***,其特征在于,所述非关系型数据库为mongoDB。
16.一种项目申报数据的查重方法,其特征在于,所述查重方法利用权利要求1所述的查重***实现,所述查重方法包括:
S1、在非关系型数据库中存储多个项目申报历史数据中的历史非文本数据,提取所述历史非文本数据中的特征值以创建索引,并将所述索引存储于索引库中;
S2、数据输入模块生成数据输入模板,并获取数据输入模板接收的待查重的项目申报数据中的待查非文本数据;
S3、查重模块提取所述待查非文本数据中的待查特征值,并将所述待查特征值与所述索引库中的所有特征值进行匹配分析,以获取非关系型数据库反馈的包括所述待查特征值的所有历史非文本数据,以根据所述所有历史非文本数据计算所述待查非文本数据的相似度。
17.如权利要求16所述的项目申报数据的查重方法,其特征在于,所述查重***还包括:关系型数据库;
步骤S1还包括:在关系型数据库中存储所述项目申报历史数据中的历史文本数据;
步骤S2还包括:所述数据输入模块获取所述数据输入模板接收的待查重的项目申报数据中的待查文本数据;
步骤S3还包括:所述查重模块将所述待查文本数据与所述关系型数据库中的所有历史文本数据进行匹配分析,并计算所述待查文本数据的相似度。
18.如权利要求17所述的项目申报数据的查重方法,其特征在于,在步骤S3之前,所述查重方法还包括:
所述查重模块获取查询条件,并根据所述查询条件提取所述待查文本数据中的内容数据作为待查文本数据和/或待查非文本数据。
19.如权利要求18所述的项目申报数据的查重方法,其特征在于,所述内容数据包括以下数据中的至少一种:
项目标题、关键词、研究意义、国内外研究现状、研究目标、研究内容、拟解决的关键问题、项目名称、项目申请理由、立论依据、研究方案、特色与创新、拟解决的关键问题、计划进度、研究基础和预期研究成果。
20.如权利要求17所述的项目申报数据的查重方法,其特征在于,所述非文本数据包括以下数据中的至少一种:
图像数据、表格数据和网页数据。
21.如权利要求20所述的项目申报数据的查重方法,其特征在于,所述查重模块包括图像查重单元和文本查重单元;
步骤S2中,所述数据输入模块获取待查文本数据还包括:
所述数据输入模块从所述图像数据和/或所述表格数据和/或所述网页数据中获取待查文本数据并发送至所述文本查重单元;
步骤S3中,所述查重模块计算所述待查非文本数据的相似度的步骤,具体包括:
所述图像查重单元提取所述图像数据中的图像特征值,并将提取出的图像特征值与所述索引库中的图像特征值进行匹配分析,并生成图像数据的相似度;
所述查重模块计算所述待查文本数据的相似度的步骤,具体包括:
所述文本查重单元将所述待查文本数据与所述历史文本数据进行匹配分析,并计算待查文本数据的相似度。
22.如权利要求17所述的项目申报数据的查重方法,其特征在于,步骤S3还包括:
所述查重模块统计所述待查非文本数据的相似度和所述待查文本数据的相似度,并计算所述待查重的项目申报数据的总相似度。
23.如权利要求17所述的项目申报数据的查重方法,其特征在于,所述查重模块基于cosine算法计算所述待查非文本数据的相似度和/或所述待查文本数据的相似度。
24.如权利要求22所述的项目申报数据的查重方法,其特征在于,所述查重***还包括结果输出模块;
所述查重方法还包括:
S4、结果输出模块输出查重结果;
所述查重结果包括以下数据的至少一种:
待查重的项目申报数据的总相似度、待查非文本数据的相似度、待查文本数据的相似度、待查重的项目申报数据的字数、待查重的项目申报数据的段落数、待查重的项目申报数据的句子数、句子的平均长度、句子的最大长度、句子的最小长度、句子的相似度分布图、句子的相似度折线图、相似资源的信息列表。
25.如权利要求24所述的项目申报数据的查重方法,其特征在于,步骤S4还包括:
所述结果输出模块根据查重结果并基于FreeMarker技术生成查重报告。
26.如权利要求25所述的项目申报数据的查重方法,其特征在于,步骤S3之后,所述查重方法还包括:
将待查非文本数据存储于所述非关系型数据库中,并将待查文本数据存储于所述关系型数据库中。
27.如权利要求26所述的项目申报数据的查重方法,其特征在于,步骤S4还包括:
所述结果输出模块将所述查重报告转换为html格式文档。
28.如权利要求27所述的项目申报数据的查重方法,其特征在于,步骤S4还包括:
存储所述html格式文档。
29.如权利要求26所述的项目申报数据的查重方法,其特征在于,所述查重方法还包括:
所述数据输入模块通过互联网搜索项目申报历史数据,并将未存储在非关系型数据库的项目申报历史数据中的历史非文本数据存储入非关系型数据库,将未存储在关系型数据库的项目申报历史数据中的历史文本数据存储入关系型数据库。
30.如权利要求16所述的项目申报数据的查重方法,其特征在于,所述非关系型数据库为mongoDB。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710591752.3A CN110020026A (zh) | 2017-07-19 | 2017-07-19 | 项目申报数据的查重***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710591752.3A CN110020026A (zh) | 2017-07-19 | 2017-07-19 | 项目申报数据的查重***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110020026A true CN110020026A (zh) | 2019-07-16 |
Family
ID=67185854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710591752.3A Pending CN110020026A (zh) | 2017-07-19 | 2017-07-19 | 项目申报数据的查重***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020026A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110888920A (zh) * | 2019-12-06 | 2020-03-17 | 北京中电普华信息技术有限公司 | 一种项目功能相似度的确定方法及装置 |
CN110929069A (zh) * | 2019-10-14 | 2020-03-27 | 广西壮族自治区科学技术情报研究所 | 一种基于图像分区进行大数据匹配计算的科技项目查重方法 |
CN111582837A (zh) * | 2020-05-20 | 2020-08-25 | 恒瑞通(福建)信息技术有限公司 | 一种固定资产投资项目的查重方法及终端 |
CN112131348A (zh) * | 2020-09-29 | 2020-12-25 | 四川财经职业学院 | 基于文本和图像相似度防止项目重复申报的方法 |
CN112199936A (zh) * | 2020-11-12 | 2021-01-08 | 深圳供电局有限公司 | 一种科研项目重复申报智能分析方法、存储介质 |
CN113807816A (zh) * | 2021-09-18 | 2021-12-17 | 山东亿云信息技术有限公司 | 一种项目建设方案查重方法、装置、存储介质及电子设备 |
CN114840515A (zh) * | 2022-06-30 | 2022-08-02 | 中科声龙科技发展(北京)有限公司 | 一种实现批量数据查重的方法、装置及芯片 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
CN106202207A (zh) * | 2016-06-28 | 2016-12-07 | 中国电子科技集团公司第二十八研究所 | 一种基于HBase‑ORM的索引及检索*** |
CN106776880A (zh) * | 2016-11-22 | 2017-05-31 | 广东技术师范学院 | 一种基于图文识别的论文重查***及其方法 |
-
2017
- 2017-07-19 CN CN201710591752.3A patent/CN110020026A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
CN106202207A (zh) * | 2016-06-28 | 2016-12-07 | 中国电子科技集团公司第二十八研究所 | 一种基于HBase‑ORM的索引及检索*** |
CN106776880A (zh) * | 2016-11-22 | 2017-05-31 | 广东技术师范学院 | 一种基于图文识别的论文重查***及其方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929069A (zh) * | 2019-10-14 | 2020-03-27 | 广西壮族自治区科学技术情报研究所 | 一种基于图像分区进行大数据匹配计算的科技项目查重方法 |
CN110888920A (zh) * | 2019-12-06 | 2020-03-17 | 北京中电普华信息技术有限公司 | 一种项目功能相似度的确定方法及装置 |
CN111582837A (zh) * | 2020-05-20 | 2020-08-25 | 恒瑞通(福建)信息技术有限公司 | 一种固定资产投资项目的查重方法及终端 |
CN112131348A (zh) * | 2020-09-29 | 2020-12-25 | 四川财经职业学院 | 基于文本和图像相似度防止项目重复申报的方法 |
CN112199936A (zh) * | 2020-11-12 | 2021-01-08 | 深圳供电局有限公司 | 一种科研项目重复申报智能分析方法、存储介质 |
CN112199936B (zh) * | 2020-11-12 | 2024-01-23 | 深圳供电局有限公司 | 一种科研项目重复申报智能分析方法、存储介质 |
CN113807816A (zh) * | 2021-09-18 | 2021-12-17 | 山东亿云信息技术有限公司 | 一种项目建设方案查重方法、装置、存储介质及电子设备 |
CN114840515A (zh) * | 2022-06-30 | 2022-08-02 | 中科声龙科技发展(北京)有限公司 | 一种实现批量数据查重的方法、装置及芯片 |
CN114840515B (zh) * | 2022-06-30 | 2022-09-02 | 中科声龙科技发展(北京)有限公司 | 一种实现批量数据查重的方法、装置及芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020026A (zh) | 项目申报数据的查重***及方法 | |
CN105468605B (zh) | 一种实体信息图谱生成方法及装置 | |
CN105069102B (zh) | 信息推送方法和装置 | |
CN109582861B (zh) | 一种数据隐私信息检测*** | |
CN112035653B (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
US8620930B2 (en) | Method and system for determining similarity score | |
US20110153611A1 (en) | Extracting data from a report document | |
CN103593336B (zh) | 一种基于语义分析的知识推送***及方法 | |
CN107391671A (zh) | 一种文档泄露检测方法及*** | |
CN101751458A (zh) | 一种网络舆情监控***及方法 | |
CN103874994A (zh) | 用于自动概括电子文档的内容的方法和装置 | |
CN104268192B (zh) | 一种网页信息提取方法、装置及终端 | |
CN102222083A (zh) | 基于创建对象的xbrl分类标准的快速解析方法 | |
CN109918621A (zh) | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 | |
CN106933845A (zh) | 使用sql实现mdx查询效果的方法和装置 | |
CN106777996A (zh) | 一种基于Solr的体检数据搜索*** | |
CN110516210A (zh) | 文本相似度的计算方法和装置 | |
CN104268289B (zh) | 链接url的失效检测方法和装置 | |
CN106777048A (zh) | 企业质量信用数据获取方法和*** | |
CN103257961B (zh) | 书目消重的方法、装置及*** | |
WO2014033724A1 (en) | Querying structured and unstructured databases | |
Parthiban et al. | Big data architecture for capturing, storing, analyzing and visualizing of web server logs | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN110851611A (zh) | 一种隐患数据知识图谱的构建方法及装置、设备、介质 | |
CN107291700A (zh) | 实体词识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |