CN110807449A - 一种科技项目申报线上服务终端 - Google Patents
一种科技项目申报线上服务终端 Download PDFInfo
- Publication number
- CN110807449A CN110807449A CN202010015896.6A CN202010015896A CN110807449A CN 110807449 A CN110807449 A CN 110807449A CN 202010015896 A CN202010015896 A CN 202010015896A CN 110807449 A CN110807449 A CN 110807449A
- Authority
- CN
- China
- Prior art keywords
- data
- scientific
- technological project
- service terminal
- line service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 16
- 238000007689 inspection Methods 0.000 claims abstract description 14
- 238000013480 data collection Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 8
- 238000003708 edge detection Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 206010061217 Infestation Diseases 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000001502 supplementing effect Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 235000019580 granularity Nutrition 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000005260 corrosion Methods 0.000 description 3
- 230000007797 corrosion Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000003628 erosive effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/155—Segmentation; Edge detection involving morphological operators
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及服务终端技术领域,具体地说,涉及一种科技项目申报线上服务终端。其包括资料收集单元、资料预检查单元和信息查询单元,资料收集单元用于对申报的科技项目数据资料进行收集和归类,资料预检查单元用于对申报的科技项目数据资料进行预处理检查。该科技项目申报线上服务终端中,基于边缘文字检测算法提取录入的科技项目名称信息,并对录入的科技项目名称信息的关键字进行提取,按照关键字的相似度对科技项目进行分类,完成科技项目的录入,便于后期分类处理,提高处理效率,采用资料预检查单元对申报的科技项目数据资料进行预处理检查,提高申报的科技项目数据的完整性。
Description
技术领域
本发明涉及服务终端技术领域,具体地说,涉及一种科技项目申报线上服务终端。
背景技术
项目申报是指政府机关针对企业或其他研究单位作出的一系列优惠政策,企业或相关研究单位再根据政府的政策进行编写申报文件然后根据相关申报要求和流程进行申报。随着人们知识产权保护意识的提升,对科技项目的申报数量日益加剧,而现有的科技项目申报终端仅仅只能对科技项目申报信息进行收集,但科技项目申报信息种类繁多,且其中含有的无效数据较多,后期处理困难,处理效率低。
发明内容
本发明的目的在于提供一种科技项目申报线上服务终端,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供一种科技项目申报线上服务终端,包括资料收集单元、资料预检查单元和信息查询单元,所述资料收集单元用于对申报的科技项目数据资料进行收集和归类,所述资料预检查单元用于对申报的科技项目数据资料进行预处理检查,所述信息查询单元用于对申报的科技项目数据资料处理流程溯源信息进行查询。
作为优选,所述资料收集单元包括如下流程步骤:
S1.1、录入数据:录入科技项目数据;
S1.2、提取名称:提取录入的科技项目名称数据;
S1.3、提取关键字:提取科技项目名称数据中的关键词;
S1.4、数据分类:根据提取关键字的相似度对录入科技项目数据进行分类。
作为优选,所述S1.2中,提取名称选用边缘文字检测算法,其算法流程如下:
S1.2.1、使用边缘检测算子检测出名称文字边缘特征;
S1.2.2、对边缘特征进行滤波处理;
S1.2.3、通过形态学操作将边缘合并呈区域;
S1.2.4、根据水平投影算法提取文字区域。
作为优选,所述边缘检测算子采用Sobel算子检测文字边缘特征,其算子公式为:
K代表邻域点标记矩阵模板,以(i,j)为中心3×3 邻域矩阵,a为是条件中的控制因子,取值范围为0至1,通过多个的a取值来控制边缘的宽度;
矩阵(1)、(2)和(3)分别为该算子的x向卷积模板、y向卷积模板以及待处理点的邻域点标记矩阵。
作为优选,所述边缘特征进行滤波处理采用高斯滤波处理,其公式如下:
作为优选,所述水平投影算法的公式如下:
作为优选,所述S1.3中,提取关键字采用TFIDF算法,其算法流程如下:
S1.3.1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数;
S1.3.2、遍历每个词,得到每个词在所有文档里的IDF值以及在本聚类内出现的次数TF相乘的值;
S1.3.3、用一个字典来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词。
作为优选,所述关键字的相似度采用汉明距离的文本相似度计算方法,其计算方法公式如下:
作为优选,所述数据分类采用K-means聚类算法,其方法步骤如下:
S1.4.1、对于等待聚类的文本集D,确定要生成的簇的数目k;
S1.4.2、生成k个聚类中心作为聚类的初始中心点,;
S1.4.5、重新确定每个簇的中心点;
S1.4.6、反复执行S1.4.3-S1.4.5,到中心点不再改变,文本不再重新被分配为止。
与现有技术相比,本发明的有益效果:
1、该科技项目申报线上服务终端中,基于边缘文字检测算法提取录入的科技项目名称信息,并对录入的科技项目名称信息的关键字进行提取,按照关键字的相似度对科技项目进行分类,完成科技项目的录入,便于后期分类处理,提高处理效率。
2、该科技项目申报线上服务终端中,采用资料预检查单元对申报的科技项目数据资料进行预处理检查,提高申报的科技项目数据的完整性。
附图说明
图1为本发明的整体流程框图;
图2为本发明的边缘文字检测算法流程框图;
图3为本发明的提取关键字流程框图;
图4为本发明的数据分类流程框图;
图5为本发明的膨胀单元原理图;
图6为本发明的腐蚀单元原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图6所示,本发明提供一种技术方案:
本发明提供一种科技项目申报线上服务终端,包括资料收集单元、资料预检查单元和信息查询单元,资料收集单元用于对申报的科技项目数据资料进行收集和归类,资料预检查单元用于对申报的科技项目数据资料进行预处理检查,信息查询单元用于对申报的科技项目数据资料处理流程溯源信息进行查询。
本实施例中,服务终端采用J2EE方式是实现,主要采用servlet技术实现与使用者的移动终端产生交互,采用J2EE具有平台无关性,易移植,性能高,容易部署等特点,在该***实现中,只需要在机房安装一台小型机做为服务器硬件,同时申请一个域名,即可实现信息共享,使用者只需与服务终端进行交互就可实现资料收集单元、资料预检查单元和信息查询单元的使用。
进一步的,资料收集单元包括如下流程步骤:
S1.1、录入数据:录入科技项目数据;
S1.2、提取名称:提取录入的科技项目名称数据;
S1.3、提取关键字:提取科技项目名称数据中的关键词;
S1.4、数据分类:根据提取关键字的相似度对录入科技项目数据进行分类。
其中,S1.2中,提取名称选用边缘文字检测算法,其算法流程如下:
S1.2.1、使用边缘检测算子检测出名称文字边缘特征;
S1.2.2、对边缘特征进行滤波处理;
S1.2.3、通过形态学操作将边缘合并呈区域;
S1.2.4、根据水平投影算法提取文字区域。
进一步的,边缘检测算子采用Sobel算子检测文字边缘特征,其算子公式为:
K代表邻域点标记矩阵模板,以(i,j)为中心3×3 邻域矩阵,a为是条件中的控制因子,取值范围为0至1,通过多个的a取值来控制边缘的宽度;
具体的,边缘特征进行滤波处理采用高斯滤波处理,高斯滤波的实现可以用两个一维高斯核分别两次加权实现,高斯核实现公式如下:
式(4)为离散化的一维高斯函数,确定参数就可以得到一维核向量,其公式为:
式(4.1)为离散化的二维高斯函数,确定参数就可以得到二维核向量。
值得说明的是,水平投影算法的公式如下:
值得说明的是,形态学操作包括膨胀单元、腐蚀单元、开运算单元和闭运算单元。
其中,膨胀单元定义为:把结构元素B平移a后得到Ba,若Ba击中X,我们记下这个a
点。所有满足上述条件的a点组成的集合称做X被B膨胀的结果。用公式表示为:D(X)={a|Ba↑
X}=XB,(Ba↑X表示Ba击中X,表示异或运算,其运算法则为ab = (¬a∧b)∨(a∧¬b)),
如图5所示,X是被处理的对象,B是结构元素,对于任意一个在阴影部分的点a,Ba击中X,X被
B膨胀的结果就是图5中阴影部分。
其中,腐蚀单元定义为:结构元素B平移a后得到Ba,若Ba包含于X,我们记下这个a
点,所有满足上述条件的a点组成的集合称做X被B腐蚀的结果,用公式表示为:E(X)={a|Ba X}=XB,其中XB表示X被B腐蚀的结果,如图6所示,图中,X是被处理的对象,B是结构元
素,对于任意一个在阴影部分的点a,Ba包含于X,X被B腐蚀的结果为图6中阴影部分。
其中,开运算单元是结构元素B对输入图像A的开运算记为A○B,定义为A○B=(A
B)B=U{B+x:B+xA}。开运算可以通过计算所有可以填入图像内部的结构元素平移的并
求得,即是对A先腐蚀后膨胀运算的结果,开运算具有平滑功能,能清除图像的某些微小连
接、边缘毛刺和孤立斑点。
其中,闭运算单元是结构元素B对输入图像A的闭运算记为A●B,定义为A●B=(A
B)B。闭运算是开运算的对偶运算,即是对A先膨胀后腐蚀运算的结果,闭运算具有过滤功
能,可填平图像内部小沟、孔洞和裂缝,使断线相连。
进一步的,S1.3中,提取关键字采用TFIDF算法,其算法流程如下:
S1.3.1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数;
S1.3.2、遍历每个词,得到每个词在所有文档里的IDF值以及在本聚类内出现的次数TF相乘的值;
S1.3.3、用一个字典来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词。
具体的,关键字的相似度采用汉明距离的文本相似度计算方法,其计算方法公式如下:
其中,n为两个长码字之间的距离,k为码字个数,表示模2加运算,,表示两码字在相同位置上不同码符号的数目的总和,它能够反映两
码字之间的差异,可作为提供码字之间的相似程度的客观依据。该方法将文本中的关键词、
文摘等信息排列成一个有n个位序列的码字,文本信息就用这些码字表示,使文本与码字建
立1-1对应的关系。
具体的,若文本对应的码字为,查询式对应的码字为,对于
来说, 它们之间的距离介于0和n之间,当文本与查询式用n位码字表示完全不同时,距离为
n,当文本与查询式码字完全相同时,距离为0,相似度计算时,先确定文本集对应的码字集,
对于不同的文本或文本与查询式之间,设,基于汉
明距离的相似度计算如公式所示:
值得说明的是,数据分类采用K-means聚类算法,其方法步骤如下:
S1.4.1、对于等待聚类的文本集D,确定要生成的簇的数目k;
S1.4.5、重新确定每个簇的中心点;
S1.4.6、反复执行S1.4.3-S1.4.5,到中心点不再改变,文本不再重新被分配为止。
值得说明的是,资料预检查单元包括纠正错误模块、删除重复项模块、统一规格模块、修正逻辑模块、转换构造模块、数据压缩模块、数据补缺模块和数据丢弃模块。
本实施例中,纠正错误模块用于纠正数据错误形式,纠正错误模块用于数据值错误的纠正、数据类型错误的纠正、数据编码错误的纠正、数据格式错误的纠正、数据异常错误的纠正、依赖冲突的纠正和多值错误的纠正。
进一步的,由于各种原因,数据中可能存在重复记录或重复字段(列),对于这些重复项目(行和列)需要删除重复项模块进行处理,删除重复项模块用于删除数据中存在的重复记录或重复字段,对于重复项的判断,基本思想是“排序和合并”,先将数据库中的记录按一定规则排序,然后通过比较邻近记录是否相似来检测记录是否重复。
具体的,由于数据源***分散在各个业务线,不同业务线对于数据的要求、理解和规格不同,导致对于同一数据对象描述规格完全不同,因此在清洗过程中需要通过统一规格模块统一数据规格并将一致性的内容抽象出来。
此外,修正逻辑模块用于明确各个源***的逻辑、条件、口径,并对异常源***的采集逻辑进行修正。
除此之外,转换构造模块用于对数据进行标准化处理,转换构造模块包括数据类型转换、数据语义转换、数据粒度转换、表/数据拆分、行列转换、数据离散化、数据标准化、提炼新字段和属性构造。
其中,数据类型转换:当数据来自不同数据源时,不同类型的数据源数据类型不兼容可能导致***报错,这时需要将不同数据源的数据类型进行统一转换为一种兼容的数据类型。
其中,数据语义转换:传统数据仓库中基于第三范式可能存在维度表、事实表等,此时在事实表中会有很多字段需要结合维度表才能进行语义上的解析。
其中,数据粒度转换:将数据按照数据仓库中不同的粒度需求进行聚合。
其中,表/数据拆分:某些字段可能存储多中数据信息,例如时间戳中包含了年、月、日、小时、分、秒等信息,有些规则中需要将其中部分或者全部时间属性进行拆分,以此来满足多粒度下的数据聚合需求。
其中,行列转换:对表内的行列数据进行转换。
其中,数据离散化:将连续取值的属性离散化成若干区间,来帮助消减一个连续属性的取值个数。
其中,数据标准化:不同字段间由于字段本身的业务含义不同,需要消除变量之间不同数量级造成的数值之间的悬殊差异。
其中,提炼新字段:很多情况下,需要基于业务规则提取新的字段,这些字段也称为复合字段。
其中,属性构造:在建模过程中,根据已有的属性集构造新的属性。
进一步的,数据压缩模块用于保持原有数据集的完整性和准确性,不丢失有用信息的前提下,按照一定的算法和方式对数据进行重新组织,大规模的数据进行复杂的数据分析与数据计算通常需要耗费大量时间,所以在这之前需要进行数据的约减和压缩,减小数据规模,而且还可能面临交互式的数据挖掘,根据数据挖掘前后对比对数据进行信息反馈。这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同。
此外,数据补缺模块用于对残缺数据的数据进行补充,数据补充包括补充缺失值和补充空值,缺失值指的是的数据原本是必须存在的,但实际上没有数据,空值指的是实际存在可能为空的情况。
除此之外,数据丢弃模块对于数据中的异常数据进行删除,丢弃数据的类型包含整条删除和变量删除,整条删除指的是删除含有缺失值的样本,变量删除,如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除,这种做法减少了供分析用的变量数目,但没有改变样本量。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (9)
1.一种科技项目申报线上服务终端,包括资料收集单元、资料预检查单元和信息查询单元,其特征在于:所述资料收集单元用于对申报的科技项目数据资料进行收集和归类,所述资料预检查单元用于对申报的科技项目数据资料进行预处理检查,所述信息查询单元用于对申报的科技项目数据资料处理流程溯源信息进行查询。
2.根据权利要求1所述的科技项目申报线上服务终端,其特征在于:所述资料收集单元包括如下流程步骤:
S1.1、录入数据:录入科技项目数据;
S1.2、提取名称:提取录入的科技项目名称数据;
S1.3、提取关键字:提取科技项目名称数据中的关键词;
S1.4、数据分类:根据提取关键字的相似度对录入科技项目数据进行分类。
3.根据权利要求2所述的科技项目申报线上服务终端,其特征在于:所述S1.2中,提取名称选用边缘文字检测算法,其算法流程如下:
S1.2.1、使用边缘检测算子检测出名称文字边缘特征;
S1.2.2、对边缘特征进行滤波处理;
S1.2.3、通过形态学操作将边缘合并呈区域;
S1.2.4、根据水平投影算法提取文字区域。
7.根据权利要求2所述的科技项目申报线上服务终端,其特征在于:所述S1.3中,提取关键字采用TFIDF算法,其算法流程如下:
S1.3.1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数;
S1.3.2、遍历每个词,得到每个词在所有文档里的IDF值以及在本聚类内出现的次数TF相乘的值;
S1.3.3、用一个字典来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010015896.6A CN110807449A (zh) | 2020-01-08 | 2020-01-08 | 一种科技项目申报线上服务终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010015896.6A CN110807449A (zh) | 2020-01-08 | 2020-01-08 | 一种科技项目申报线上服务终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110807449A true CN110807449A (zh) | 2020-02-18 |
Family
ID=69493425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010015896.6A Pending CN110807449A (zh) | 2020-01-08 | 2020-01-08 | 一种科技项目申报线上服务终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807449A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111677658A (zh) * | 2020-05-25 | 2020-09-18 | 阿勒泰正元国际矿业有限公司 | 一种矿井水泵自动化控制***及其控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105825046A (zh) * | 2016-03-13 | 2016-08-03 | 冯贵良 | 一种医疗数据的收集及处理方法及装置 |
US20170213101A1 (en) * | 2016-01-25 | 2017-07-27 | Koninklijke Philips N.V. | Image data pre-processing |
CN110310083A (zh) * | 2019-06-04 | 2019-10-08 | 南方电网科学研究院有限责任公司 | 一种科技项目数据报告的提交*** |
CN110389950A (zh) * | 2019-07-31 | 2019-10-29 | 南京安夏电子科技有限公司 | 一种快速运行的大数据清洗方法 |
CN110618978A (zh) * | 2019-09-20 | 2019-12-27 | 南京信同诚信息技术有限公司 | 一种云***集成和存储***及方法 |
CN110659276A (zh) * | 2019-09-25 | 2020-01-07 | 江苏医健大数据保护与开发有限公司 | 一种计算机数据统计***及其统计分类方法 |
-
2020
- 2020-01-08 CN CN202010015896.6A patent/CN110807449A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213101A1 (en) * | 2016-01-25 | 2017-07-27 | Koninklijke Philips N.V. | Image data pre-processing |
CN105825046A (zh) * | 2016-03-13 | 2016-08-03 | 冯贵良 | 一种医疗数据的收集及处理方法及装置 |
CN110310083A (zh) * | 2019-06-04 | 2019-10-08 | 南方电网科学研究院有限责任公司 | 一种科技项目数据报告的提交*** |
CN110389950A (zh) * | 2019-07-31 | 2019-10-29 | 南京安夏电子科技有限公司 | 一种快速运行的大数据清洗方法 |
CN110618978A (zh) * | 2019-09-20 | 2019-12-27 | 南京信同诚信息技术有限公司 | 一种云***集成和存储***及方法 |
CN110659276A (zh) * | 2019-09-25 | 2020-01-07 | 江苏医健大数据保护与开发有限公司 | 一种计算机数据统计***及其统计分类方法 |
Non-Patent Citations (3)
Title |
---|
杨纪成主编: "《互联网软件应用与开发》", 31 August 2006, 经济科学出版社 * |
汪波: "复杂背景图像中的文字提取算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
沈焕生: "基于信息内容的关键词抽取研究", 《中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111677658A (zh) * | 2020-05-25 | 2020-09-18 | 阿勒泰正元国际矿业有限公司 | 一种矿井水泵自动化控制***及其控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Paliwal et al. | Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images | |
US8407236B2 (en) | Mining new words from a query log for input method editors | |
US11651150B2 (en) | Deep learning based table detection and associated data extraction from scanned image documents | |
CN110851598B (zh) | 文本分类方法、装置、终端设备及存储介质 | |
Wei et al. | A keyword retrieval system for historical Mongolian document images | |
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN111078979A (zh) | 一种基于ocr和文本处理技术识别网贷网站的方法及*** | |
CN112016294A (zh) | 一种基于文本的新闻重要性评估方法、装置及电子设备 | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
Pengcheng et al. | Fast Chinese calligraphic character recognition with large-scale data | |
CN114048354A (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
Dölek et al. | A deep learning model for Ottoman OCR | |
CN109753581A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN103336800A (zh) | 基于行为分析的指纹存储比对的方法 | |
CN110807449A (zh) | 一种科技项目申报线上服务终端 | |
CN111259223B (zh) | 基于情感分析模型的新闻推荐和文本分类方法 | |
CN109359090A (zh) | 基于卷积神经网络的文件碎片分类方法及*** | |
US11361565B2 (en) | Natural language processing (NLP) pipeline for automated attribute extraction | |
WO2007070010A1 (en) | Improvements in electronic document analysis | |
CN111967391A (zh) | 医学化验单的文本识别方法和计算机可读存储介质 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及*** | |
Dhankhar et al. | Support Vector Machine Based Handwritten Hindi Character Recognition and Summarization. | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及*** | |
CN115062147A (zh) | 融合命名实体频繁模式特征的篇章级文本事件分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200218 |
|
RJ01 | Rejection of invention patent application after publication |