CN110807449A - 一种科技项目申报线上服务终端 - Google Patents

一种科技项目申报线上服务终端 Download PDF

Info

Publication number
CN110807449A
CN110807449A CN202010015896.6A CN202010015896A CN110807449A CN 110807449 A CN110807449 A CN 110807449A CN 202010015896 A CN202010015896 A CN 202010015896A CN 110807449 A CN110807449 A CN 110807449A
Authority
CN
China
Prior art keywords
data
scientific
technological project
service terminal
line service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010015896.6A
Other languages
English (en)
Inventor
江峰
李缙航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Haozhi Tiancheng Information Technology Co Ltd
Original Assignee
Hangzhou Haozhi Tiancheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Haozhi Tiancheng Information Technology Co Ltd filed Critical Hangzhou Haozhi Tiancheng Information Technology Co Ltd
Priority to CN202010015896.6A priority Critical patent/CN110807449A/zh
Publication of CN110807449A publication Critical patent/CN110807449A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及服务终端技术领域,具体地说,涉及一种科技项目申报线上服务终端。其包括资料收集单元、资料预检查单元和信息查询单元,资料收集单元用于对申报的科技项目数据资料进行收集和归类,资料预检查单元用于对申报的科技项目数据资料进行预处理检查。该科技项目申报线上服务终端中,基于边缘文字检测算法提取录入的科技项目名称信息,并对录入的科技项目名称信息的关键字进行提取,按照关键字的相似度对科技项目进行分类,完成科技项目的录入,便于后期分类处理,提高处理效率,采用资料预检查单元对申报的科技项目数据资料进行预处理检查,提高申报的科技项目数据的完整性。

Description

一种科技项目申报线上服务终端
技术领域
本发明涉及服务终端技术领域,具体地说,涉及一种科技项目申报线上服务终端。
背景技术
项目申报是指政府机关针对企业或其他研究单位作出的一系列优惠政策,企业或相关研究单位再根据政府的政策进行编写申报文件然后根据相关申报要求和流程进行申报。随着人们知识产权保护意识的提升,对科技项目的申报数量日益加剧,而现有的科技项目申报终端仅仅只能对科技项目申报信息进行收集,但科技项目申报信息种类繁多,且其中含有的无效数据较多,后期处理困难,处理效率低。
发明内容
本发明的目的在于提供一种科技项目申报线上服务终端,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供一种科技项目申报线上服务终端,包括资料收集单元、资料预检查单元和信息查询单元,所述资料收集单元用于对申报的科技项目数据资料进行收集和归类,所述资料预检查单元用于对申报的科技项目数据资料进行预处理检查,所述信息查询单元用于对申报的科技项目数据资料处理流程溯源信息进行查询。
作为优选,所述资料收集单元包括如下流程步骤:
S1.1、录入数据:录入科技项目数据;
S1.2、提取名称:提取录入的科技项目名称数据;
S1.3、提取关键字:提取科技项目名称数据中的关键词;
S1.4、数据分类:根据提取关键字的相似度对录入科技项目数据进行分类。
作为优选,所述S1.2中,提取名称选用边缘文字检测算法,其算法流程如下:
S1.2.1、使用边缘检测算子检测出名称文字边缘特征;
S1.2.2、对边缘特征进行滤波处理;
S1.2.3、通过形态学操作将边缘合并呈区域;
S1.2.4、根据水平投影算法提取文字区域。
作为优选,所述边缘检测算子采用Sobel算子检测文字边缘特征,其算子公式为:
Figure 379516DEST_PATH_IMAGE002
K代表邻域点标记矩阵模板,以(i,j)为中心3×3 邻域矩阵,a为是条件中的控制因子,取值范围为0至1,通过多个的a取值来控制边缘的宽度;
矩阵(1)、(2)和(3)分别为该算子的x向卷积模板、y向卷积模板以及待处理点的邻域点标记矩阵。
作为优选,所述边缘特征进行滤波处理采用高斯滤波处理,其公式如下:
Figure 835905DEST_PATH_IMAGE004
其中,
Figure 591372DEST_PATH_IMAGE005
高斯滤波器宽度,决定着平滑程度,x为坐标,控制高斯核形状。
作为优选,所述水平投影算法的公式如下:
Figure 750269DEST_PATH_IMAGE006
其中,E表示文本区域的边缘图,
Figure 490691DEST_PATH_IMAGE007
是图像中像素点的坐标,h为图像的高度,为 横坐标为
Figure 965852DEST_PATH_IMAGE009
的水平投影。
作为优选,所述S1.3中,提取关键字采用TFIDF算法,其算法流程如下:
S1.3.1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数;
S1.3.2、遍历每个词,得到每个词在所有文档里的IDF值以及在本聚类内出现的次数TF相乘的值;
S1.3.3、用一个字典来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词。
作为优选,所述关键字的相似度采用汉明距离的文本相似度计算方法,其计算方法公式如下:
Figure 702995DEST_PATH_IMAGE010
其中,
Figure 337239DEST_PATH_IMAGE011
表示模2加运算,
Figure 434508DEST_PATH_IMAGE012
表示两码字在相同位置 上不同码符号的数目的总和,n为两个长码字之间的距离,k为码字个数。
作为优选,所述数据分类采用K-means聚类算法,其方法步骤如下:
S1.4.1、对于等待聚类的文本集D,确定要生成的簇的数目k;
S1.4.2、生成k个聚类中心作为聚类的初始中心点,
S1.4.3、对D中的每一个文本
Figure 627909DEST_PATH_IMAGE014
,依次计算它与各个中心点的相似度
Figure 194949DEST_PATH_IMAGE016
S1.4.4、选取具有最大的相似度的中心点
Figure 616703DEST_PATH_IMAGE017
,将
Figure 944916DEST_PATH_IMAGE018
归入以
Figure 84910DEST_PATH_IMAGE019
为聚类 中心的簇
Figure 805873DEST_PATH_IMAGE020
,从而得到D一个聚类
S1.4.5、重新确定每个簇的中心点;
S1.4.6、反复执行S1.4.3-S1.4.5,到中心点不再改变,文本不再重新被分配为止。
与现有技术相比,本发明的有益效果:
1、该科技项目申报线上服务终端中,基于边缘文字检测算法提取录入的科技项目名称信息,并对录入的科技项目名称信息的关键字进行提取,按照关键字的相似度对科技项目进行分类,完成科技项目的录入,便于后期分类处理,提高处理效率。
2、该科技项目申报线上服务终端中,采用资料预检查单元对申报的科技项目数据资料进行预处理检查,提高申报的科技项目数据的完整性。
附图说明
图1为本发明的整体流程框图;
图2为本发明的边缘文字检测算法流程框图;
图3为本发明的提取关键字流程框图;
图4为本发明的数据分类流程框图;
图5为本发明的膨胀单元原理图;
图6为本发明的腐蚀单元原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图6所示,本发明提供一种技术方案:
本发明提供一种科技项目申报线上服务终端,包括资料收集单元、资料预检查单元和信息查询单元,资料收集单元用于对申报的科技项目数据资料进行收集和归类,资料预检查单元用于对申报的科技项目数据资料进行预处理检查,信息查询单元用于对申报的科技项目数据资料处理流程溯源信息进行查询。
本实施例中,服务终端采用J2EE方式是实现,主要采用servlet技术实现与使用者的移动终端产生交互,采用J2EE具有平台无关性,易移植,性能高,容易部署等特点,在该***实现中,只需要在机房安装一台小型机做为服务器硬件,同时申请一个域名,即可实现信息共享,使用者只需与服务终端进行交互就可实现资料收集单元、资料预检查单元和信息查询单元的使用。
进一步的,资料收集单元包括如下流程步骤:
S1.1、录入数据:录入科技项目数据;
S1.2、提取名称:提取录入的科技项目名称数据;
S1.3、提取关键字:提取科技项目名称数据中的关键词;
S1.4、数据分类:根据提取关键字的相似度对录入科技项目数据进行分类。
其中,S1.2中,提取名称选用边缘文字检测算法,其算法流程如下:
S1.2.1、使用边缘检测算子检测出名称文字边缘特征;
S1.2.2、对边缘特征进行滤波处理;
S1.2.3、通过形态学操作将边缘合并呈区域;
S1.2.4、根据水平投影算法提取文字区域。
进一步的,边缘检测算子采用Sobel算子检测文字边缘特征,其算子公式为:
Figure 50089DEST_PATH_IMAGE002
K代表邻域点标记矩阵模板,以(i,j)为中心3×3 邻域矩阵,a为是条件中的控制因子,取值范围为0至1,通过多个的a取值来控制边缘的宽度;
矩阵(1)、(2)和(3)分别为该算子的
Figure 677380DEST_PATH_IMAGE022
向卷积模板、
Figure 185722DEST_PATH_IMAGE023
向卷积模板以及待处理点的邻域 点标记矩阵,据此可用数学公式表达其每个点的梯度幅值为:
Figure 785330DEST_PATH_IMAGE024
具体的,边缘特征进行滤波处理采用高斯滤波处理,高斯滤波的实现可以用两个一维高斯核分别两次加权实现,高斯核实现公式如下:
Figure 471658DEST_PATH_IMAGE026
其中,
Figure 586244DEST_PATH_IMAGE005
高斯滤波器宽度,
Figure 367118DEST_PATH_IMAGE005
决定着平滑程度,x为坐标,控制高斯核形状。
式(4)为离散化的一维高斯函数,确定参数就可以得到一维核向量,其公式为:
Figure 883550DEST_PATH_IMAGE027
式(4.1)为离散化的二维高斯函数,确定参数就可以得到二维核向量。
值得说明的是,水平投影算法的公式如下:
Figure 475200DEST_PATH_IMAGE028
其中,E表示文本区域的边缘图,
Figure 77082DEST_PATH_IMAGE029
是图像中像素点的坐标,h为图像的高度,
Figure 661648DEST_PATH_IMAGE030
为横坐标为的水平投影。
值得说明的是,形态学操作包括膨胀单元、腐蚀单元、开运算单元和闭运算单元。
其中,膨胀单元定义为:把结构元素B平移a后得到Ba,若Ba击中X,我们记下这个a 点。所有满足上述条件的a点组成的集合称做X被B膨胀的结果。用公式表示为:D(X)={a|Ba↑ X}=XB,(Ba↑X表示Ba击中X,
Figure 84648DEST_PATH_IMAGE032
表示异或运算,其运算法则为a
Figure 676167DEST_PATH_IMAGE032
b = (¬a∧b)∨(a∧¬b)), 如图5所示,X是被处理的对象,B是结构元素,对于任意一个在阴影部分的点a,Ba击中X,X被 B膨胀的结果就是图5中阴影部分。
其中,腐蚀单元定义为:结构元素B平移a后得到Ba,若Ba包含于X,我们记下这个a 点,所有满足上述条件的a点组成的集合称做X被B腐蚀的结果,用公式表示为:E(X)={a|Ba
Figure 167191DEST_PATH_IMAGE033
X}=X
Figure 349910DEST_PATH_IMAGE034
B,其中X
Figure 129648DEST_PATH_IMAGE034
B表示X被B腐蚀的结果,如图6所示,图中,X是被处理的对象,B是结构元 素,对于任意一个在阴影部分的点a,Ba包含于X,X被B腐蚀的结果为图6中阴影部分。
其中,开运算单元是结构元素B对输入图像A的开运算记为A○B,定义为A○B=(A
Figure 56015DEST_PATH_IMAGE034
B)
Figure 886699DEST_PATH_IMAGE032
B=U{B+x:B+x
Figure 505899DEST_PATH_IMAGE033
A}。开运算可以通过计算所有可以填入图像内部的结构元素平移的并 求得,即是对A先腐蚀后膨胀运算的结果,开运算具有平滑功能,能清除图像的某些微小连 接、边缘毛刺和孤立斑点。
其中,闭运算单元是结构元素B对输入图像A的闭运算记为A●B,定义为A●B=(A
Figure 304091DEST_PATH_IMAGE032
B)
Figure 34150DEST_PATH_IMAGE034
B。闭运算是开运算的对偶运算,即是对A先膨胀后腐蚀运算的结果,闭运算具有过滤功 能,可填平图像内部小沟、孔洞和裂缝,使断线相连。
进一步的,S1.3中,提取关键字采用TFIDF算法,其算法流程如下:
S1.3.1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数;
S1.3.2、遍历每个词,得到每个词在所有文档里的IDF值以及在本聚类内出现的次数TF相乘的值;
S1.3.3、用一个字典来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词。
具体的,关键字的相似度采用汉明距离的文本相似度计算方法,其计算方法公式如下:
Figure 984919DEST_PATH_IMAGE035
其中,n为两个长码字之间的距离,k为码字个数,表示模2加运算,
Figure 529350DEST_PATH_IMAGE037
Figure 797520DEST_PATH_IMAGE038
表示两码字在相同位置上不同码符号的数目的总和,它能够反映两 码字之间的差异,可作为提供码字之间的相似程度的客观依据。该方法将文本中的关键词、 文摘等信息排列成一个有n个位序列的码字,文本信息就用这些码字表示,使文本与码字建 立1-1对应的关系。
具体的,若文本
Figure 55326DEST_PATH_IMAGE039
对应的码字为
Figure 16329DEST_PATH_IMAGE040
,查询式对应的码字为
Figure 539846DEST_PATH_IMAGE041
,对于
Figure 611707DEST_PATH_IMAGE042
来说, 它们之间的距离介于0和n之间,当文本与查询式用n位码字表示完全不同时,距离为 n,当文本与查询式码字完全相同时,距离为0,相似度计算时,先确定文本集对应的码字集, 对于不同的文本或文本与查询式之间,设
Figure 989598DEST_PATH_IMAGE043
,基于汉 明距离的相似度计算如公式所示:
Figure 855923DEST_PATH_IMAGE044
其中,
Figure 381583DEST_PATH_IMAGE045
分别表示文本
Figure 739358DEST_PATH_IMAGE046
对应的码字和查询式对应的码字
Figure 21938DEST_PATH_IMAGE049
中第
Figure 435602DEST_PATH_IMAGE050
位的 分量,或者为0或者为1,
Figure 522506DEST_PATH_IMAGE051
就是模2加运算。
值得说明的是,数据分类采用K-means聚类算法,其方法步骤如下:
S1.4.1、对于等待聚类的文本集D,确定要生成的簇的数目k;
S1.4.2、生成k个聚类中心作为聚类的初始中心点,
Figure 12525DEST_PATH_IMAGE052
S1.4.3、对D中的每一个文本
Figure 184880DEST_PATH_IMAGE053
,依次计算它与各个中心点
Figure 136656DEST_PATH_IMAGE054
的相似度
Figure 405963DEST_PATH_IMAGE055
S1.4.4、选取具有最大的相似度的中心点
Figure 988254DEST_PATH_IMAGE056
,将
Figure 444643DEST_PATH_IMAGE057
归入以
Figure 216421DEST_PATH_IMAGE058
为聚 类中心的簇
Figure DEST_PATH_IMAGE059
,从而得到D一个聚类
Figure 74656DEST_PATH_IMAGE060
S1.4.5、重新确定每个簇的中心点;
S1.4.6、反复执行S1.4.3-S1.4.5,到中心点不再改变,文本不再重新被分配为止。
值得说明的是,资料预检查单元包括纠正错误模块、删除重复项模块、统一规格模块、修正逻辑模块、转换构造模块、数据压缩模块、数据补缺模块和数据丢弃模块。
本实施例中,纠正错误模块用于纠正数据错误形式,纠正错误模块用于数据值错误的纠正、数据类型错误的纠正、数据编码错误的纠正、数据格式错误的纠正、数据异常错误的纠正、依赖冲突的纠正和多值错误的纠正。
进一步的,由于各种原因,数据中可能存在重复记录或重复字段(列),对于这些重复项目(行和列)需要删除重复项模块进行处理,删除重复项模块用于删除数据中存在的重复记录或重复字段,对于重复项的判断,基本思想是“排序和合并”,先将数据库中的记录按一定规则排序,然后通过比较邻近记录是否相似来检测记录是否重复。
具体的,由于数据源***分散在各个业务线,不同业务线对于数据的要求、理解和规格不同,导致对于同一数据对象描述规格完全不同,因此在清洗过程中需要通过统一规格模块统一数据规格并将一致性的内容抽象出来。
此外,修正逻辑模块用于明确各个源***的逻辑、条件、口径,并对异常源***的采集逻辑进行修正。
除此之外,转换构造模块用于对数据进行标准化处理,转换构造模块包括数据类型转换、数据语义转换、数据粒度转换、表/数据拆分、行列转换、数据离散化、数据标准化、提炼新字段和属性构造。
其中,数据类型转换:当数据来自不同数据源时,不同类型的数据源数据类型不兼容可能导致***报错,这时需要将不同数据源的数据类型进行统一转换为一种兼容的数据类型。
其中,数据语义转换:传统数据仓库中基于第三范式可能存在维度表、事实表等,此时在事实表中会有很多字段需要结合维度表才能进行语义上的解析。
其中,数据粒度转换:将数据按照数据仓库中不同的粒度需求进行聚合。
其中,表/数据拆分:某些字段可能存储多中数据信息,例如时间戳中包含了年、月、日、小时、分、秒等信息,有些规则中需要将其中部分或者全部时间属性进行拆分,以此来满足多粒度下的数据聚合需求。
其中,行列转换:对表内的行列数据进行转换。
其中,数据离散化:将连续取值的属性离散化成若干区间,来帮助消减一个连续属性的取值个数。
其中,数据标准化:不同字段间由于字段本身的业务含义不同,需要消除变量之间不同数量级造成的数值之间的悬殊差异。
其中,提炼新字段:很多情况下,需要基于业务规则提取新的字段,这些字段也称为复合字段。
其中,属性构造:在建模过程中,根据已有的属性集构造新的属性。
进一步的,数据压缩模块用于保持原有数据集的完整性和准确性,不丢失有用信息的前提下,按照一定的算法和方式对数据进行重新组织,大规模的数据进行复杂的数据分析与数据计算通常需要耗费大量时间,所以在这之前需要进行数据的约减和压缩,减小数据规模,而且还可能面临交互式的数据挖掘,根据数据挖掘前后对比对数据进行信息反馈。这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同。
此外,数据补缺模块用于对残缺数据的数据进行补充,数据补充包括补充缺失值和补充空值,缺失值指的是的数据原本是必须存在的,但实际上没有数据,空值指的是实际存在可能为空的情况。
除此之外,数据丢弃模块对于数据中的异常数据进行删除,丢弃数据的类型包含整条删除和变量删除,整条删除指的是删除含有缺失值的样本,变量删除,如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除,这种做法减少了供分析用的变量数目,但没有改变样本量。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (9)

1.一种科技项目申报线上服务终端,包括资料收集单元、资料预检查单元和信息查询单元,其特征在于:所述资料收集单元用于对申报的科技项目数据资料进行收集和归类,所述资料预检查单元用于对申报的科技项目数据资料进行预处理检查,所述信息查询单元用于对申报的科技项目数据资料处理流程溯源信息进行查询。
2.根据权利要求1所述的科技项目申报线上服务终端,其特征在于:所述资料收集单元包括如下流程步骤:
S1.1、录入数据:录入科技项目数据;
S1.2、提取名称:提取录入的科技项目名称数据;
S1.3、提取关键字:提取科技项目名称数据中的关键词;
S1.4、数据分类:根据提取关键字的相似度对录入科技项目数据进行分类。
3.根据权利要求2所述的科技项目申报线上服务终端,其特征在于:所述S1.2中,提取名称选用边缘文字检测算法,其算法流程如下:
S1.2.1、使用边缘检测算子检测出名称文字边缘特征;
S1.2.2、对边缘特征进行滤波处理;
S1.2.3、通过形态学操作将边缘合并呈区域;
S1.2.4、根据水平投影算法提取文字区域。
4.根据权利要求3所述的科技项目申报线上服务终端,其特征在于:所述边缘检测算子采用Sobel算子检测文字边缘特征,其算子公式为:
Figure 699932DEST_PATH_IMAGE001
(1)
Figure 148231DEST_PATH_IMAGE002
(2)
Figure 459127DEST_PATH_IMAGE003
K代表邻域点标记矩阵模板,以(i,j)为中心3×3 邻域矩阵,a为是条件中的控制因子,取值范围为0至1,通过多个的a取值来控制边缘的宽度;
矩阵(1)、(2)和(3)分别为该算子的X向卷积模板、Y向卷积模板以及待处理点的邻域点标记矩阵。
5.根据权利要求3所述的科技项目申报线上服务终端,其特征在于:所述边缘特征进行滤波处理采用高斯滤波处理,其公式如下:
Figure 651074DEST_PATH_IMAGE004
其中,
Figure 747337DEST_PATH_IMAGE005
高斯滤波器宽度,
Figure 304220DEST_PATH_IMAGE005
决定着平滑程度,x为坐标,控制高斯核形状。
6.根据权利要求3所述的科技项目申报线上服务终端,其特征在于:所述水平投影算法的公式如下:
Figure 367991DEST_PATH_IMAGE006
其中,E表示文本区域的边缘图,是图像中像素点的坐标,h为图像的高度,
Figure 501349DEST_PATH_IMAGE008
为横 坐标为的水平投影。
7.根据权利要求2所述的科技项目申报线上服务终端,其特征在于:所述S1.3中,提取关键字采用TFIDF算法,其算法流程如下:
S1.3.1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数;
S1.3.2、遍历每个词,得到每个词在所有文档里的IDF值以及在本聚类内出现的次数TF相乘的值;
S1.3.3、用一个字典来保存所有的词信息,然后按value对字典排序,最后取权重排名靠前的几个词作为关键词。
8.根据权利要求2所述的科技项目申报线上服务终端,其特征在于:所述关键字的相似度采用汉明距离的文本相似度计算方法,其计算方法公式如下:
Figure 327671DEST_PATH_IMAGE011
其中,
Figure 799103DEST_PATH_IMAGE012
表示模2加运算,
Figure 853647DEST_PATH_IMAGE013
表示两码字在相同位置 上不同码符号的数目的总和,n为两个长码字之间的距离,k为码字个数。
9.根据权利要求2所述的科技项目申报线上服务终端,其特征在于:所述数据分类采用K-means聚类算法,其方法步骤如下:
S1.4.1、对于等待聚类的文本集D,确定要生成的簇的数目k;
S1.4.2、生成k个聚类中心作为聚类的初始中心点,
Figure 80229DEST_PATH_IMAGE014
S1.4.3、对D中的每一个文本
Figure 56275DEST_PATH_IMAGE015
,依次计算它与各个中心点
Figure 862557DEST_PATH_IMAGE016
的相似度
Figure 50569DEST_PATH_IMAGE017
S1.4.4、选取具有最大的相似度的中心点,将
Figure 380236DEST_PATH_IMAGE019
归入以为聚类 中心的簇
Figure 488186DEST_PATH_IMAGE021
,从而得到D一个聚类
Figure 790992DEST_PATH_IMAGE022
S1.4.5、重新确定每个簇的中心点;
S1.4.6、反复执行S1.4.3-S1.4.5,到中心点不再改变,文本不再重新被分配为止。
CN202010015896.6A 2020-01-08 2020-01-08 一种科技项目申报线上服务终端 Pending CN110807449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010015896.6A CN110807449A (zh) 2020-01-08 2020-01-08 一种科技项目申报线上服务终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010015896.6A CN110807449A (zh) 2020-01-08 2020-01-08 一种科技项目申报线上服务终端

Publications (1)

Publication Number Publication Date
CN110807449A true CN110807449A (zh) 2020-02-18

Family

ID=69493425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010015896.6A Pending CN110807449A (zh) 2020-01-08 2020-01-08 一种科技项目申报线上服务终端

Country Status (1)

Country Link
CN (1) CN110807449A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111677658A (zh) * 2020-05-25 2020-09-18 阿勒泰正元国际矿业有限公司 一种矿井水泵自动化控制***及其控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825046A (zh) * 2016-03-13 2016-08-03 冯贵良 一种医疗数据的收集及处理方法及装置
US20170213101A1 (en) * 2016-01-25 2017-07-27 Koninklijke Philips N.V. Image data pre-processing
CN110310083A (zh) * 2019-06-04 2019-10-08 南方电网科学研究院有限责任公司 一种科技项目数据报告的提交***
CN110389950A (zh) * 2019-07-31 2019-10-29 南京安夏电子科技有限公司 一种快速运行的大数据清洗方法
CN110618978A (zh) * 2019-09-20 2019-12-27 南京信同诚信息技术有限公司 一种云***集成和存储***及方法
CN110659276A (zh) * 2019-09-25 2020-01-07 江苏医健大数据保护与开发有限公司 一种计算机数据统计***及其统计分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213101A1 (en) * 2016-01-25 2017-07-27 Koninklijke Philips N.V. Image data pre-processing
CN105825046A (zh) * 2016-03-13 2016-08-03 冯贵良 一种医疗数据的收集及处理方法及装置
CN110310083A (zh) * 2019-06-04 2019-10-08 南方电网科学研究院有限责任公司 一种科技项目数据报告的提交***
CN110389950A (zh) * 2019-07-31 2019-10-29 南京安夏电子科技有限公司 一种快速运行的大数据清洗方法
CN110618978A (zh) * 2019-09-20 2019-12-27 南京信同诚信息技术有限公司 一种云***集成和存储***及方法
CN110659276A (zh) * 2019-09-25 2020-01-07 江苏医健大数据保护与开发有限公司 一种计算机数据统计***及其统计分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
杨纪成主编: "《互联网软件应用与开发》", 31 August 2006, 经济科学出版社 *
汪波: "复杂背景图像中的文字提取算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
沈焕生: "基于信息内容的关键词抽取研究", 《中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111677658A (zh) * 2020-05-25 2020-09-18 阿勒泰正元国际矿业有限公司 一种矿井水泵自动化控制***及其控制方法

Similar Documents

Publication Publication Date Title
Paliwal et al. Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images
US8407236B2 (en) Mining new words from a query log for input method editors
US11651150B2 (en) Deep learning based table detection and associated data extraction from scanned image documents
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
Wei et al. A keyword retrieval system for historical Mongolian document images
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN111078979A (zh) 一种基于ocr和文本处理技术识别网贷网站的方法及***
CN112016294A (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
US20230138491A1 (en) Continuous learning for document processing and analysis
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
CN114048354A (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
Dölek et al. A deep learning model for Ottoman OCR
CN109753581A (zh) 图像处理方法、装置、电子设备和存储介质
CN103336800A (zh) 基于行为分析的指纹存储比对的方法
CN110807449A (zh) 一种科技项目申报线上服务终端
CN111259223B (zh) 基于情感分析模型的新闻推荐和文本分类方法
CN109359090A (zh) 基于卷积神经网络的文件碎片分类方法及***
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
WO2007070010A1 (en) Improvements in electronic document analysis
CN111967391A (zh) 医学化验单的文本识别方法和计算机可读存储介质
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及***
Dhankhar et al. Support Vector Machine Based Handwritten Hindi Character Recognition and Summarization.
CN112560849B (zh) 基于神经网络算法的文理分割方法及***
CN115062147A (zh) 融合命名实体频繁模式特征的篇章级文本事件分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200218

RJ01 Rejection of invention patent application after publication