CN107908796A - 电子政务查重方法、装置以及计算机可读存储介质 - Google Patents

电子政务查重方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN107908796A
CN107908796A CN201711354088.7A CN201711354088A CN107908796A CN 107908796 A CN107908796 A CN 107908796A CN 201711354088 A CN201711354088 A CN 201711354088A CN 107908796 A CN107908796 A CN 107908796A
Authority
CN
China
Prior art keywords
similarity
project
government
word segmentation
duplicate checking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711354088.7A
Other languages
English (en)
Inventor
周贵廷
黄华慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Qi Ming Software Technology Co Ltd
Original Assignee
Guangzhou Qi Ming Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Qi Ming Software Technology Co Ltd filed Critical Guangzhou Qi Ming Software Technology Co Ltd
Priority to CN201711354088.7A priority Critical patent/CN107908796A/zh
Publication of CN107908796A publication Critical patent/CN107908796A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种电子政务查重方法、装置以及计算机可读存储介质,所述电子政务查重方法包括:对存储在项目数据库中的多个项目建议书分别提取多个文本信息;根据所述多个文本信息建立数据库索引,并将相同类型的文本信息存储在同一文本信息数据库中;分别计算所述多个文本信息的相似度;根据任意一个所述项目建议书对应的多个文本信息的相似度,计算任意一个所述项目建议书的相似度;根据所述多个项目建议书的相似度,将所述多个项目建议书按照由高到低的顺序进行排序,获得项目建议书的查重结果;通过上述电子政务查重方法可以提高电子政务查重的兼容性、可靠性以及查重效率。

Description

电子政务查重方法、装置以及计算机可读存储介质
技术领域
本发明涉及数据处理领域,具体涉及一种电子政务查重方法、装置以及计算机可读存储介质。
背景技术
我国电子政务从上世纪80年末开始至今,已有20多年的发展历史。各级财政每年投入大量财政资金,用于各领域电子政务信息平台建设,虽然已取得了一定的成效,但也存在着大量财政信息化资金浪费和重复建设等问题。
为了避免在电子政务项目的重复申报而导致的资金浪费现象,在电子政务项目的申报审核过程中,主要依靠人工审查方式和通过将项目建议书的关键词集与项目数据库做简单比对这两种查重方式,将重复申报的项目从大量上报的项目中筛选出来。这两种筛选方式虽然也能够在一定程度上减少科研项目的重复申报,但是仍然存在效率低下和容易出现错判、漏判的缺点。而且目前通过项目建议书的关键词语项目数据库对比的查重方式只能从结构化的文件中提取关键词,不能适用于电子政务领域。一方面不同地方对项目建议书的格式要求不同,很难找到统一的描述模式;另一方面大部分信息化管理部门***只要求登记部分结构化信息,比如项目名称、项目承担单位、建设目标、内容摘要等,而项目建议书大都以附件形式上传,由此导致电子政务项目的查重更为复杂,兼容性和可靠性较差,查重效率低。
发明内容
本发明的目的是提供一种电子政务查重方法、装置以及计算机可读存储介质,提高电子政务查重的兼容性、可靠性以及查重效率。
为解决以上技术问题,本发明实施例提供一种电子政务查重方法,所述电子政务查重方法由电子政务查重***执行,包括:
对存储在项目数据库中的多个项目建议书分别提取多个文本信息;
根据所述多个文本信息建立数据库索引,并将相同类型的文本信息存储在同一文本信息数据库中;
分别计算所述多个文本信息的相似度;
根据任意一个所述项目建议书对应的多个文本信息的相似度,计算任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度;
根据所述多个项目建议书的相似度,将所述多个项目建议书按照由高到低的顺序进行排序,获得项目建议书的查重结果。
优选地,所述分别计算所述多个文本信息的相似度,具体包括:
所述电子政务查重***包括任务主节点和多个任务从节点;
根据预设的分配规则,所述任务主节点生成多个任务指令并分发给多个任务从节点;
根据所述任务指令,所述任务从节点从指定的文本信息数据库中获取多个指定的文本信息,并计算所述多个指定的文本信息的相似度。
优选地,所述根据所述项目建议书对应的多个文本信息的相似度,计算所述项目建议书的相似度,具体包括:
所述任务主节点对任意一个所述项目建议书对应的多个文本信息的相似度进行加权整合处理,得到任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度。
优选地,所述对存储在项目数据库中的多个项目建议书分别提取多个文本信息,具体包括:
判断所述项目建议书是否为结构化数据;
当所述项目建议书是结构化数据时,从所述项目建议书中提取多个文本信息;
当所述项目建议书不是结构化数据时,调用电子政务查重***的操作***的底层消息服务,虚拟打开所述项目建议书,从虚拟打开的所述项目建议书中提取多个文本信息。
优选地,所述计算所述多个指定的文本信息的相似度,具体包括:
对所述多个指定的文本信息进行分词;
根据分词结果,采用双向最大匹配法计算所述多个指定的文本信息的相似度。
优选地,所述根据分词结果,计算所述多个指定的文本信息的相似度具体包括:
当正向分词结果分词数量不等于反向分词结果的分词数量时,获取较少的分词数量;
当正向分词结果分词数量等于反向分词结果的分词数量时,判断正向分词结果与反向分词结果是否相同;
当正向分词结果与反向分词结果相同时,获取正向分词结果和反向分词结果中任意一个分词结果;当正向分词结果与反向分词结果不相同时,获取正向分词结果和反向分词结果中单字较少的分词结果;
根据获取的分词结果,计算重复分词的数量;
根据重复分词的数量和较多的分词数量,计算所述文本信息的相似度。
优选地,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述的电子政务查重方法。
优选地,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述的电子政务查重方法。
与现有技术相比,本发明实施例提供的一种电子政务查重方法的有益效果在于:所述电子政务查重方法,包括:对存储在项目数据库中的多个项目建议书分别提取多个文本信息;根据所述多个文本信息建立数据库索引,并将相同类型的文本信息存储在同一文本信息数据库中;分别计算所述多个文本信息的相似度;根据任意一个所述项目建议书对应的多个文本信息的相似度,计算任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度;根据所述多个项目建议书的相似度,将所述多个项目建议书按照由高到低的顺序进行排序,获得项目建议书的查重结果;通过上述电子政务查重方法可以简化电子政务的查重的过程,提高电子政务查重的可靠性。本发明实施例还提供一种电子政务查重装置以及计算机可读存储介质。
附图说明
图1是本发明实施例提供的一种电子政务查重方法的流程图;
图2是本发明实施例提供的一种电子政务查重***的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其是本发明一实施例所提供的一种电子政务查重方法的流程图,所述电子政务查重方法由电子政务查重***执行,包括:
S1:对存储在项目数据库中的多个项目建议书分别提取多个文本信息;S2:根据所述多个文本信息建立数据库索引,并将相同类型的文本信息存储在同一文本数据库中;
S3:分别计算所述多个文本信息的相似度;
S4:根据任意一个所述项目建议书对应的多个文本信息的相似度,计算任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度;
S5:根据所述多个项目建议书的相似度,将所述多个项目建议书按照由高到低的顺序进行排序,获得项目建议书查重结果。
在本实施例中,所述多个文本信息包括项目名称、建议内容、承担单位、上级主管部门、建议书正文,对N个所述项目建议书分别提取项目名称、建议内容、承担单位、上级主管部门、建议书正文,共获得N个项目名称、N个建议内容、N个承担单位、N个上级主管部门、N个建议书内容;其中,所述文本数据库包括项目名称数据库、建议内容数据库、承担单位数据库、上级主管部门数据库、建议内容数据库;将N个项目名称存储在对应的项目名称数据库中,N个建议内容存储在对应的建议内容数据库中,N个承担单位存储在对应的承担单位数据库中,N个上级主管部门存储在对应的上级主管部门数据库中,N个建议书内容存储在对应的建议内容数据库中,并建立所述数据库索引,以使得用户或电子政务查重***根据所述数据库索引搜索任意一个所述文本信息。首先计算任意一个所述文本信息的相似度,然后加权整合计算以所述项目建议书对应的多个文本信息的相似度,获得所述项目建议书的相似度,共获得N个所述项目建议书对应的相似度;根据N个所述项目建议书对应的相似度,由高至低对N个所述项目建议书进行排序,获得项目建议书查重结果。通过上述电子政务查重方法可以兼容多个格式的项目建议书文件,提高电子政务查重的兼容性,简化电子政务项目的查重的过程,提高电子政务查重的可靠性以及查重效率。
根据所述查重结果,查重人员根据需要决定是否结合人工研判。如需人工辅助,则可通过所述数据库索引直接定位并打开对应文本信息,例如:项目建议书正文进行重复内容研判。
在一种可选的实施例中,S3:分别计算所述多个文本信息的相似度,具体包括:
所述电子政务查重***包括任务主节点和多个任务从节点;
根据预设的分配规则,所述任务主节点生成多个任务指令并分发给多个任务从节点;
根据所述任务指令,所述任务从节点从指定的文本数据库中获取多个指定的文本信息,并计算所述多个指定的文本信息的相似度。
在本实施例中,采用Hadoop分布式处理方法,所述电子政务查重***建立一个任务主节点和多个任务从节点,所述任务主节点根据预设的分配规则,生成多个任务指令并分发给多个任务从节点,其中,一个所述任务指令对应一个所述任务从节点,所述任务指令包括所述任务从节点需要处理的文本信息;例如所述预设的分配规则为每一任务从节点计算100个文本信息的相似度,则所述任务主节点对存储在多个所述文本数据库的多个文本信息进行分配调度,生所述多个任务指令,任务从节点taskA接收到所述任务指令后,从指定的文本数据库中获取100个指定的文本信息,并计算所述100个指定的文本信息的相似度,任务从节点taskB接收到所述任务指令后,从指定的文本数据库中获取100个指定的文本信息,并计算所述100个指定的文本信息的相似度,如此类推,以使得所述文本信息分散到不同的任务从节点进行相似度计算,所述任务主节点对所述多个任务从节点计算的相似度进行汇总和加权计算,得出单个所述项目建议书的相似度,通过上述计算方法电子政务项目建议书内容庞大,数据量大的情况下,可以提高相似度的计算效率,从而提高查重的效率。
在一种可选的实施例中,S4:根据任意一个所述项目建议书对应的多个文本信息的相似度,计算任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度,具体包括:
所述任务主节点对任意一个所述项目建议书对应的多个文本信息的相似度进行加权整合处理,得到任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度。
在一种可选的实施例中,S1:对存储在项目数据库中的多个项目建议书分别提取多个文本信息,具体包括:
判断所述项目建议书是否为结构化数据;
当所述项目建议书是结构化数据时,从所述项目建议书中提取多个文本信息;
当所述项目建议书不是结构化数据时,调用电子政务查重***的操作***的底层消息服务,虚拟打开所述项目建议书,从虚拟打开的所述项目建议书中提取多个文本信息。
在本实施例中,对于非结构化数据,例如PDF格式的项目建议书,所述电子政务查重***调用Windows底层服务,虚拟打开所述项目建议书并从虚拟打开的所述项目建议书中提取多个文本信息,通过该方法可以兼容多种格式的项目建议书,同时不需要人工逐个打开非结构化的数据文件,提高相似度的计算效率,从而提高查重的效率。
在一种可选的实施例中,S3:计算所述多个指定的文本信息的相似度,具体包括:
对所述多个指定的文本信息法进行分词;
根据分词结果,采用双向最大匹配计算所述多个指定的文本信息的相似度。
在一种可选的实施例中,所述根据分词结果,计算所述多个指定的文本信息的相似度具体包括:
当正向分词结果分词数量不等于反向分词结果的分词数量时,获取较少的分词数量;
当正向分词结果分词数量等于反向分词结果的分词数量时,判断正向分词结果与反向分词结果是否相同;
当正向分词结果与反向分词结果相同时,获取正向分词结果和反向分词结果中任意一个分词结果;
当正向分词结果与反向分词结果不相同时,获取正向分词结果和反向分词结果中单字较少的分词结果;
根据获取的分词结果,计算重复分词的数量;
根据重复分词的数量和较多的分词数量,计算所述文本信息的相似度。
其中,所述文本信息的相似度=(重复分词数量/分词数量较大者)*100%。
请参阅图2,其实本发明还提供一种电子政务查重***的示意图,所述电子政务查重***包括:
文本提取模块1,用于对存储在项目数据库中的多个项目建议书分别提取多个文本信息;
索引建立模块2,用于根据所述多个文本信息建立数据库索引,并将相同类型的文本信息存储在同一文本数据库中;
第一相似度计算模块3,用于分别计算所述多个文本信息的相似度;
第二相似度计算模块4,用于根据任意一个所述项目建议书对应的多个文本信息的相似度,计算任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度;
排序模块5,用于根据所述多个项目建议书的相似度,将所述多个项目建议书按照由高到低的顺序进行排序,获得项目建议书查重结果。
在本实施例中,所述多个文本信息包括项目名称、建议内容、承担单位、上级主管部门、建议书正文,对N个所述项目建议书分别提取项目名称、建议内容、承担单位、上级主管部门、建议书正文,共获得N个项目名称、N个建议内容、N个承担单位、N个上级主管部门、N个建议书内容;其中,所述文本数据库包括项目名称数据库、建议内容数据库、承担单位数据库、上级主管部门数据库、建议内容数据库;将N个项目名称存储在对应的项目名称数据库中,N个建议内容存储在对应的建议内容数据库中,N个承担单位存储在对应的承担单位数据库中,N个上级主管部门存储在对应的上级主管部门数据库中,N个建议书内容存储在对应的建议内容数据库中,并建立所述数据库索引,以使得用户或电子政务查重***根据所述数据库索引搜索任意一个所述文本信息。首先计算任意一个所述文本信息的相似度,然后加权整合计算以所述项目建议书对应的多个文本信息的相似度,获得所述项目建议书的相似度,共获得N个所述项目建议书对应的相似度;根据N个所述项目建议书对应的相似度,由高至低对N个所述项目建议书进行排序,获得项目建议书查重结果。
在一种可选的实施例中,所述电子政务查重***包括任务主节点和多个任务从节点,其中所述任务主节点建立在所述第二相似度计算模块上,所述多个任务从节点建立在所述第一相似度计算模块上;
根据预设的分配规则,所述任务主节点生成多个任务指令并分发给多个任务从节点;
根据所述任务指令,所述任务从节点从指定的文本数据库中获取多个指定的文本信息,并计算所述多个指定的文本信息的相似度。
在本实施例中,采用Hadoop分布式处理方法,所述电子政务查重***建立一个任务主节点和多个任务从节点,所述任务主节点根据预设的分配规则,生成多个任务指令并分发给多个任务从节点,其中,一个所述任务指令对应一个所述任务从节点,所述任务指令包括所述任务从节点需要处理的文本信息;例如所述预设的分配规则为每一任务从节点计算100个文本信息的相似度,则所述任务主节点对存储在多个所述文本数据库的多个文本信息进行分配调度,生所述多个任务指令,任务从节点taskA接收到所述任务指令后,从指定的文本数据库中获取100个指定的文本信息,并计算所述100个指定的文本信息的相似度,任务从节点taskB接收到所述任务指令后,从指定的文本数据库中获取100个指定的文本信息,并计算所述100个指定的文本信息的相似度,如此类推,以使得所述文本信息分散到不同的任务从节点进行相似度计算,所述任务主节点对所述多个任务从节点计算的相似度进行汇总和加权计算,得出单个所述项目建议书的相似度,通过上述计算方法电子政务项目建议书内容庞大,数据量大的情况下,可以提高相似度的计算效率,从而提高查重的效率。
在一种可选的实施例中,所述电子政务查重***包括:
所述任务主节点对任意一个所述项目建议书对应的多个文本信息的相似度进行加权整合处理,得到任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度。
在一种可选的实施例中,所述电子政务查重***包括判断模块,
所述判断模块用于判断所述项目建议书是否为结构化数据;
当所述项目建议书是结构化数据时,所述文本提取模块从所述项目建议书中提取多个文本信息;
当所述项目建议书不是结构化数据时,所述文本提取模块调用电子政务查重***的操作***的底层消息服务,虚拟打开所述项目建议书并从虚拟打开的所述项目建议书中提取多个文本信息。
在本实施例中,对于非结构化数据,例如PDF格式的项目建议书,所述文本提取模块调用Windows底层服务,虚拟打开所述项目建议书并从虚拟打开的所述项目建议书中提取多个文本信息。
在一种可选的实施例中,所述第一相似度计算模块包括:
分词单元,用于对所述多个指定的文本信息进行分词;
文本相似度计算单元,用于根据分词结果,采用双向最大匹配法计算所述多个指定的文本信息的相似度。
在一种可选的实施例中,所述文本相似度计算单元用于当正向分词结果分词数量不等于反向分词结果的分词数量时,获取较少的分词数量;当正向分词结果分词数量等于反向分词结果的分词数量时,判断正向分词结果与反向分词结果是否相同;当正向分词结果与反向分词结果相同时,获取正向分词结果和反向分词结果中任意一个分词结果;当正向分词结果与反向分词结果不相同时,获取正向分词结果和反向分词结果中单字较少的分词结果;根据获取的分词结果,计算重复分词的数量;根据重复分词的数量和较多的分词数量,计算所述文本信息的相似度。
其中,所述文本信息的相似度=(重复分词数量/分词数量较大者)*100%。
本发明实施例还提供一种电子政务查重装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述的电子政务查重方法。
该实施例的电子政务查重装置包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如全文搜索的权限控制程序。所述处理器执行所述计算机程序时实现上述各个电子政务查重方法实施例中的步骤,例如图1所示的步骤S1~S5。或者,所述处理器执行所述计算机程序时实现上述各装置/***实施例中各模块的功能,例如文本提取模块、索引建立模块、第一相似度计算模块、第二相似度计算模块、排序模块。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子政务查重***中的执行过程。例如,所述计算机程序可以被分割成文本提取模块、索引建立模块、第一相似度计算模块、第二相似度计算模块、排序模块,各模块具体功能如下:文本提取模块,用于对存储在项目数据库中的多个项目建议书分别提取多个文本信息;索引建立模块,用于根据所述多个文本信息建立数据库索引,并将相同类型的文本信息存储在同一文本数据库中;第一相似度计算模块,用于分别计算所述多个文本信息的相似度;第二相似度计算模块,用于根据任意一个所述项目建议书对应的多个文本信息的相似度,计算任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度;排序模块,用于根据所述多个项目建议书的相似度,将所述多个项目建议书按照由高到低的顺序进行排序,获得项目建议书查重结果。
所述电子政务查重装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电子政务查重装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图2仅仅是全文搜索的权限控制装置的示例,并不构成对全文搜索的权限控制装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述全文搜索的权限控制装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述全文搜索的权限控制装置的控制中心,利用各种接口和线路连接整个全文搜索的权限控制装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述电子政务查重装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述电子政务查重装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述的电子政务查重方法。
与现有技术相比,本发明实施例提供的一种电子政务查重方法的有益效果在于:所述电子政务查重方法,包括:对存储在项目数据库中的多个项目建议书分别提取多个文本信息;根据所述多个文本信息建立数据库索引,并将相同类型的文本信息存储在同一文本信息数据库中;分别计算所述多个文本信息的相似度;根据所述项目建议书对应的多个文本信息的相似度,计算所述项目建议书的相似度;根据所述多个项目建议书的相似度,将所述多个项目建议书按照由高到低的顺序进行排序,获得项目建议书的查重结果;通过上述电子政务查重方法可以提高电子政务查重的兼容性、可靠性以及查重效率。本发明实施例还提供一种电子政务查重装置以及计算机可读存储介质。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.一种电子政务查重方法,其特征在于,所述电子政务查重方法由电子政务查重***执行,包括:
对存储在项目数据库中的多个项目建议书分别提取多个文本信息;
根据所述多个文本信息建立数据库索引,并将相同类型的文本信息存储在同一文本数据库中;
分别计算所述多个文本信息的相似度;
根据任意一个所述项目建议书对应的多个文本信息的相似度,计算任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度;
根据所述多个项目建议书的相似度,将所述多个项目建议书按照由高到低的顺序进行排序,获得项目建议书的查重结果。
2.如权利要求1所述的电子政务查重方法,其特征在于,所述分别计算所述多个文本信息的相似度,具体包括:
所述电子政务查重***包括任务主节点和多个任务从节点;
根据预设的分配规则,所述任务主节点生成多个任务指令并分发给多个任务从节点;
根据所述任务指令,所述任务从节点从指定的文本信息数据库中获取多个指定的文本信息,并计算所述多个指定的文本信息的相似度。
3.如权利要求2所述的电子政务查重方法,其特征在于,所述根据任意一个所述项目建议书对应的多个文本信息的相似度,计算任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度,具体包括:
所述任务主节点对任意一个所述项目建议书对应的多个文本信息的相似度进行加权整合处理,得到任意一个所述项目建议书的相似度,共获得所述多个项目建议书对应的相似度。
4.如权利要求1所述的电子政务查重方法,其特征在于,所述对存储在项目数据库中的多个项目建议书分别提取多个文本信息,具体包括:
判断所述项目建议书是否为结构化数据;
当所述项目建议书是结构化数据时,从所述项目建议书中提取多个文本信息;
当所述项目建议书不是结构化数据时,调用电子政务查重***的操作***的底层消息服务,虚拟打开所述项目建议书,从虚拟打开的所述项目建议书中提取多个文本信息。
5.如权利要求2所述的电子政务查重方法,其特征在于,所述计算所述多个指定的文本信息的相似度,具体包括:
对所述多个指定的文本信息进行分词;
根据分词结果,采用双向最大匹配法计算所述多个指定的文本信息的相似度。
6.如权利要求5所述的电子政务查重方法,其特征在于,根据分词结果,计算所述多个指定的文本信息的相似度具体包括:
当正向分词结果分词数量不等于反向分词结果的分词数量时,获取较少的分词数量;
当正向分词结果分词数量等于反向分词结果的分词数量时,判断正向分词结果与反向分词结果是否相同;
当正向分词结果与反向分词结果相同时,获取正向分词结果和反向分词结果中任意一个分词结果;当正向分词结果与反向分词结果不相同时,获取正向分词结果和反向分词结果中单字较少的分词结果;
根据获取的分词结果,计算重复分词的数量;
根据重复分词的数量和较多的分词数量,计算所述文本信息的相似度。
7.一种全文搜索的权限控制装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的电子政务查重方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的电子政务查重方法。
CN201711354088.7A 2017-12-15 2017-12-15 电子政务查重方法、装置以及计算机可读存储介质 Pending CN107908796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711354088.7A CN107908796A (zh) 2017-12-15 2017-12-15 电子政务查重方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711354088.7A CN107908796A (zh) 2017-12-15 2017-12-15 电子政务查重方法、装置以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN107908796A true CN107908796A (zh) 2018-04-13

Family

ID=61869956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711354088.7A Pending CN107908796A (zh) 2017-12-15 2017-12-15 电子政务查重方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107908796A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN109636352A (zh) * 2018-12-20 2019-04-16 湖南晖龙集团股份有限公司 一种基于财政大数据的分布式内容查重预警***
CN110196920A (zh) * 2018-05-10 2019-09-03 腾讯科技(北京)有限公司 文本数据的处理方法和装置、以及存储介质和电子装置
CN114780825A (zh) * 2022-04-23 2022-07-22 重庆市小苹果科技有限公司 基于大数据的政务信息化项目的查重管理方法
CN116127942A (zh) * 2023-02-17 2023-05-16 北京思前软件有限公司 文本比对方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214209A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种用于识别同名信息实体的方法与设备
US20110258227A1 (en) * 1999-07-30 2011-10-20 Cpa Global Patent Research Limited Method and system for searching documents
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN104133838A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有***检测功能的数据处理方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258227A1 (en) * 1999-07-30 2011-10-20 Cpa Global Patent Research Limited Method and system for searching documents
CN102214209A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种用于识别同名信息实体的方法与设备
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN104133838A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有***检测功能的数据处理方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘红娜: "基于Hadoop的科技项目相似度计算研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196920A (zh) * 2018-05-10 2019-09-03 腾讯科技(北京)有限公司 文本数据的处理方法和装置、以及存储介质和电子装置
CN110196920B (zh) * 2018-05-10 2024-02-09 腾讯科技(北京)有限公司 文本数据的处理方法和装置、以及存储介质和电子装置
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN108804418B (zh) * 2018-05-21 2022-03-08 浪潮软件股份有限公司 一种基于语义分析的文档查重方法和装置
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN109636352A (zh) * 2018-12-20 2019-04-16 湖南晖龙集团股份有限公司 一种基于财政大数据的分布式内容查重预警***
CN114780825A (zh) * 2022-04-23 2022-07-22 重庆市小苹果科技有限公司 基于大数据的政务信息化项目的查重管理方法
CN116127942A (zh) * 2023-02-17 2023-05-16 北京思前软件有限公司 文本比对方法、装置、设备和存储介质
CN116127942B (zh) * 2023-02-17 2024-02-13 北京思前软件有限公司 文本比对方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN107908796A (zh) 电子政务查重方法、装置以及计算机可读存储介质
CN107766371A (zh) 一种文本信息分类方法及其装置
CN109388675A (zh) 数据分析方法、装置、计算机设备及存储介质
CN110427610A (zh) 文本分析方法、装置、计算机装置及计算机存储介质
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN110347724A (zh) 异常行为识别方法、装置、电子设备及介质
CN108804323A (zh) 代码质量监控方法、设备及存储介质
CN110929145A (zh) 舆情分析方法、装置、计算机装置及存储介质
CN107463683A (zh) 代码元素的命名方法及终端设备
CN105095179B (zh) 对用户评价进行处理的方法及装置
CN110147433A (zh) 一种基于字典树的文本模板提取方法
CN110472043A (zh) 一种针对评论文本的聚类方法及装置
CN111523324A (zh) 命名实体识别模型的训练方法及装置
CN107918657A (zh) 一种数据源的匹配方法和装置
CN107657030A (zh) 收集用户阅读数据的方法、装置、终端设备及存储介质
CN107480205A (zh) 一种进行数据分区的方法和装置
CN107463935A (zh) 应用分类方法和应用分类装置
CN109376873A (zh) 运维方法、装置、电子设备及计算机可读存储介质
CN108876452A (zh) 用电客户需求信息获取方法、装置以及电子设备
CN110147389A (zh) 帐号处理方法和装置、存储介质及电子装置
CN109033148A (zh) 一种面向多分类的不平衡数据预处理方法、装置及设备
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN109117475A (zh) 一种文本改写的方法以及相关设备
CN113435308B (zh) 文本多标签分类方法、装置、设备及存储介质
CN112613296B (zh) 新闻的重要程度获取方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180413

RJ01 Rejection of invention patent application after publication