CN108038495B - 一种残缺汉字识别方法 - Google Patents
一种残缺汉字识别方法 Download PDFInfo
- Publication number
- CN108038495B CN108038495B CN201711256495.4A CN201711256495A CN108038495B CN 108038495 B CN108038495 B CN 108038495B CN 201711256495 A CN201711256495 A CN 201711256495A CN 108038495 B CN108038495 B CN 108038495B
- Authority
- CN
- China
- Prior art keywords
- chinese character
- chinese
- detected
- sim
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种残缺汉字识别方法,属于汉语信息处理技术领域。本发明通过中文点阵字库建立汉字特征数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行灰度化及二值化后提取汉字特征并生成特征向量,与数据库中现有汉字分别计算其基于余弦定理的字形相似度和基于欧氏距离的字形相似度,最后再通过相似融合算法及相似阈值判定,得到待检测残缺汉字的相似字集合。本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。
Description
技术领域
本发明涉及一种残缺汉字识别方法,属于汉语信息处理技术领域。
背景技术
在文物考察、重要文档辨识中,可能存在一些汉字的一部分因某种原因而被抹去,正确识别出这些残缺的汉字对近代历史研究及考察名人语录等方面具有重要意义。
目前,对于残缺汉字的识别,主要是依靠人对汉字的熟悉程度以及人工对比汉语词典,再根据上下文信息进行推理得到,但是由于汉字的广泛性,使得这一工作即耗时又繁琐。若以编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即使可以根据残缺汉字的大概字形及上下文信息推理进行筛选,但筛选结果也存在许多的备选项,更重要的是人工识别中对于这一工作难免会产生疏忽与厌倦,这就造成了识别残缺汉字的难度又一步加大。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种残缺汉字识别方法,以解决现有技术对残缺汉字的识别耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。
本发明的技术方案是:一种残缺汉字识别方法,具体包括以下步骤:
Step0:提取汉字特征并建立汉字特征数据库。根据15×16像素中文点阵字库,将点阵按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成该汉字所对应的汉字特征向量{p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库P:{P1,P2,…,PN};
Step1:利用现代扫描技术及汉字形状特征,从汉字载体中提取出待检测残缺汉字X的图片,将图片以15:16的比例剪切至待检测残缺汉字X尽可能铺满图片为止,但要将其残缺汉字重心处于图片的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图片
Step3:将待检测残缺汉字X的15×16像素点阵,按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中残缺汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成待检测残缺汉字X所对应的汉字特征向量X:{x1,x2,…,x40};
Step4:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,由余弦定理计算公式(1)求得待检测残缺汉字X、目标汉字Pi之间基于余弦定理的字形相似度Sim1(X,Pi);
Step5:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺汉字X、目标汉字Pi之间基于欧氏距离的字形相似度Sim2(X,Pi);
Step6:设Step4、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由字形相似度Sim1(X,Pi)及权值α、字形相似度Sim2(X,Pi)及权值β,由相似度融合算法,即公式(3)计算出待检测残缺汉字X、目标汉字Pi之间的最终字形相似度Sim(X,Pi);
Sim(X,Pi)=Sim1(X,Pi)·α+Sim2(X,Pi)·β (3)
Step7:遍历汉字特征数据库P,对数据库中每个汉字Pi,i∈[1,N]都经Step4、Step5、Step6步骤,计算其与待检测残缺汉字X之间的字形相似度Sim(X,Pi),定义相似阈值θ,如果满足公式(4)的要求则将该汉字添加至相似字集合,最终导出待检测残缺汉字X的相似字集合S:{S1,S2,…,SM},其中M是与待检测残缺汉字X相似的汉字个数。
Sim(X,Pi)≥θ (4)
进一步地,所述步骤Step0中,可根据汉字的字体建立多个汉字特征数据库,如宋体汉字特征数据库、楷体汉字特征数据库、隶书汉字特征数据库等。
进一步地,所述步骤Step0和Step3中,2×3像素小矩阵中汉字所占像素数pi,i∈[1,40]应满足公式(5)的要求。
0≤pi≤6,i∈[1,40] (5)
进一步地,所述步骤Step0中,汉字特征数据库P:{P1,P2,…,PN}的大小N,即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即N=20902。
进一步地,所述步骤Step1中,提取残缺汉字的图片信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step2中,考虑到待检测残缺汉字可能是彩色,故对其进行灰度化和二值化处理;归一化的规则指每个像素点中若存在该汉字的笔画部件,则以黑点填充,否则不予处理,既空白。
进一步地,所述步骤Step5中,归一化参数δ取正整数,通常取δ=1,但可根据实际效果进行调整。
进一步地,所述步骤Step4中得到的基于余弦定理的字形相似度Sim1(X,Pi)、所述步骤Step5中得到的基于欧氏距离的字形相似度Sim2(X,Pi)、所述步骤Step6中得到的最终字形相似度Sim(X,Pi),应满足公式(6)的要求,即字形相似度Sim1(X,Pi)、Sim2(X,Pi)、Sim(X,Pi)以一个[0,1]之间的数值反映待检测汉字X、目标汉字Pi之间的相似程度,且数值越大表示相似程度越高。
0≤Sim1(X,Pi),Sim2(X,Pi),Sim(X,Pi)≤1 (6)
进一步地,所述步骤Step7中,相似阈值θ需满足0≤θ≤1,通常取θ=0.8,但可根据实际效果进行调整。
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术耗费人力且准确性欠佳等现象,致力于增加目前依靠计算机对残缺汉字进行识别的有效性和准确性。
附图说明
图1是本发明总流程示意图;
图2是本发明建立数据库流程示意图;
图3是本发明获取待检测残缺文字的特征向量流程示意图;
图4是本发明15×16像素中文点阵示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种残缺汉字识别方法,具体包括以下步骤:
Step0:提取汉字特征并建立汉字特征数据库。根据15×16像素中文点阵字库,将点阵按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成该汉字所对应的汉字特征向量{p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库P:{P1,P2,…,PN};
Step1:利用现代扫描技术及汉字形状特征,从纸张或竹简等其他汉字载体中提取出待检测残缺汉字X的图片,将图片以15:16的比例剪切至待检测残缺汉字X尽可能铺满图片为止,但要将其残缺汉字重心处于图片的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图片
Step3:将待检测残缺汉字X的15×16像素点阵,按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中残缺汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成待检测残缺汉字X所对应的汉字特征向量X:{x1,x2,…,x40};
Step4:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,由余弦定理计算公式(1)求得待检测残缺汉字X、目标汉字Pi之间基于余弦定理的字形相似度Sim1(X,Pi);
Step5:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺汉字X、目标汉字Pi之间基于欧氏距离的字形相似度Sim2(X,Pi);
Step6:设Step4、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由字形相似度Sim1(X,Pi)及权值α、字形相似度Sim2(X,Pi)及权值β,由相似度融合算法,即公式(3)计算出待检测残缺汉字X、目标汉字Pi之间的最终字形相似度Sim(X,Pi);
Sim(X,Pi)=Sim1(X,Pi)·α+Sim2(X,Pi)·β (3)
Step7:遍历汉字特征数据库P,对数据库中每个汉字Pi,i∈[1,N]都经Step4、Step5、Step6步骤,计算其与待检测残缺汉字X之间的字形相似度Sim(X,Pi),定义相似阈值θ,如果满足公式(4)的要求则将该汉字添加至相似字集合,最终导出待检测残缺汉字X的相似字集合S:{S1,S2,…,SM},其中M是与待检测残缺汉字X相似的汉字个数。
Sim(X,Pi)≥θ (4)
进一步地,所述步骤Step0中,可根据汉字的字体建立多个汉字特征数据库,如宋体汉字特征数据库、楷体汉字特征数据库、隶书汉字特征数据库等。
进一步地,所述步骤Step0中,15×16像素中文点阵如图4所示,以虚线组成的小方格作为像素点,共计240个像素点;以实线组成2×3像素的小矩阵,共计40个2×3像素的小矩阵。
进一步地,所述步骤Step0和Step3中,2×3像素小矩阵中汉字所占像素数pi,i∈[1,40]应满足公式(5)的要求。
0≤pi≤6,i∈[1,40] (5)
进一步地,所述步骤Step0中,汉字特征数据库P:{P1,P2,…,PN}的大小N,即为汉字的总个数,若按照编码方式为Unicode的基本字符集为标准,则共有20902个汉字,即N=20902。
进一步地,所述步骤Step1中,提取残缺汉字的图片信息时尽可能使残缺汉字平铺,有助于提取残缺汉字的汉字特征。
进一步地,所述步骤Step2中,考虑到待检测残缺汉字可能是彩色,故对其进行灰度化和二值化处理;归一化的规则指每个像素点中若存在该汉字的笔画部件,则以黑点填充,否则不予处理,既空白。
进一步地,所述步骤Step5中,归一化参数δ取正整数,通常取δ=1,但可根据实际效果进行调整。
进一步地,所述步骤Step4中得到的基于余弦定理的字形相似度Sim1(X,Pi)、所述步骤Step5中得到的基于欧氏距离的字形相似度Sim2(X,Pi)、所述步骤Step6中得到的最终字形相似度Sim(X,Pi),应满足公式(6)的要求,即字形相似度Sim1(X,Pi)、Sim2(X,Pi)、Sim(X,Pi)以一个[0,1]之间的数值反映待检测汉字X、目标汉字Pi之间的相似程度,且数值越大表示相似程度越高。
0≤Sim1(X,Pi),Sim2(X,Pi),Sim(X,Pi)≤1 (6)
进一步地,所述步骤Step7中,相似阈值θ需满足0≤θ≤1,通常取θ=0.8,但可根据实际效果进行调整。
本发明通过中文点阵字库建立汉字特征数据库,对任意待检测残缺汉字通过现代扫描技术及汉字形状特征转化为图像,对其进行灰度化及二值化后提取汉字特征并生成特征向量,与数据库中现有汉字分别计算其基于余弦定理的字形相似度和基于欧氏距离的字形相似度,最后再通过相似融合算法及相似阈值判定,得到待检测残缺汉字的相似字集合。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种残缺汉字识别方法,其特征在于,具体包括以下步骤:
Step0:提取汉字特征并建立汉字特征数据库,根据15×16像素中文点阵字库,将点阵按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成该汉字所对应的汉字特征向量{p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库P:{P1,P2,…,PN};
Step1:利用扫描技术及汉字形状特征,从汉字载体中提取出待检测残缺汉字X的图片,将图片以15:16的比例剪切至待检测残缺汉字X铺满图片为止,但要将其残缺汉字重心处于图片的中心,并留取合适的边距,生成待检测残缺汉字X的扫描图片
Step3:将待检测残缺汉字X的15×16像素点阵,按照从左至右、从上至下的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中残缺汉字所占像素数为pi,i∈[1,40],观察所有pi,i∈[1,40]并生成待检测残缺汉字X所对应的汉字特征向量X:{x1,x2,…,x40};
Step4:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,由余弦定理计算公式(1)求得待检测残缺汉字X、目标汉字Pi之间基于余弦定理的字形相似度Sim1(X,Pi);
Step5:将待检测残缺汉字X的汉字特征向量X:{x1,x2,…,x40},以及汉字特征数据库P中的汉字特征向量Pi:{p1,p2,…,p40},i∈[1,N]作为输入,定义归一化参数δ,由欧氏距离计算公式(2)求得待检测残缺汉字X、目标汉字Pi之间基于欧氏距离的字形相似度Sim2(X,Pi);
Step6:设Step4、Step5步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由字形相似度Sim1(X,Pi)及权值α、字形相似度Sim2(X,Pi)及权值β,由相似度融合算法,即公式(3)计算出待检测残缺汉字X、目标汉字Pi之间的最终字形相似度Sim(X,Pi);
Sim(X,Pi)=Sim1(X,Pi)·α+Sim2(X,Pi)·β (3)
Step7:遍历汉字特征数据库P,对数据库中每个汉字Pi,i∈[1,N]都经Step4、Step5、Step6步骤,计算其与待检测残缺汉字X之间的字形相似度Sim(X,Pi),定义相似阈值θ,如果满足公式:Sim(X,Pi)≥θ的要求则将该汉字添加至相似字集合,最终导出待检测残缺汉字X的相似字集合S:{S1,S2,…,SM},其中M是与待检测残缺汉字X相似的汉字个数。
2.根据权利要求1所述的残缺汉字识别方法,其特征在于:所述步骤Step0和Step3中,2×3像素小矩阵中汉字所占像素数pi,i∈[1,40]应满足公式:0≤pi≤6,i∈[1,40]的要求。
3.根据权利要求1所述的残缺汉字识别方法,其特征在于:所述步骤Step2中,若待检测残缺汉字为彩色,则先其进行灰度化和二值化处理,然后再进行归一化处理;归一化的规则是指每个像素点中若存在该汉字的笔画部件,则以黑点填充,否则不予处理,既空白。
4.根据权利要求1所述的残缺汉字识别方法,其特征在于:所述步骤Step5中,归一化参数δ取正整数。
5.根据权利要求1所述的残缺汉字识别方法,其特征在于:所述步骤Step4中得到的基于余弦定理的字形相似度Sim1(X,Pi)、所述步骤Step5中得到的基于欧氏距离的字形相似度Sim2(X,Pi)、所述步骤Step6中得到的最终字形相似度Sim(X,Pi)应满足公式:0≤Sim1(X,Pi),Sim2(X,Pi),Sim(X,Pi)≤1的要求,即字形相似度Sim1(X,Pi)、Sim2(X,Pi)、Sim(X,Pi)以一个[0,1]之间的数值反映待检测汉字X、目标汉字Pi之间的相似程度,且数值越大表示相似程度越高。
6.根据权利要求1所述的残缺汉字识别方法,其特征在于:所述步骤Step7中,相似阈值θ需满足0≤θ≤1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711256495.4A CN108038495B (zh) | 2017-12-04 | 2017-12-04 | 一种残缺汉字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711256495.4A CN108038495B (zh) | 2017-12-04 | 2017-12-04 | 一种残缺汉字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108038495A CN108038495A (zh) | 2018-05-15 |
CN108038495B true CN108038495B (zh) | 2021-08-20 |
Family
ID=62094705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711256495.4A Active CN108038495B (zh) | 2017-12-04 | 2017-12-04 | 一种残缺汉字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108038495B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255040B (zh) * | 2018-07-27 | 2021-10-22 | 昆明理工大学 | 一种基于矩阵运算的相似汉字提取方法 |
CN109409373A (zh) * | 2018-09-06 | 2019-03-01 | 昆明理工大学 | 一种基于图像处理的字体识别方法 |
CN109344834A (zh) * | 2018-09-06 | 2019-02-15 | 昆明理工大学 | 一种基于图像处理的残缺汉字识别方法 |
CN109409358B (zh) * | 2018-09-10 | 2021-10-22 | 昆明理工大学 | 一种基于纵横直方图的残缺汉字识别方法 |
CN109460701B (zh) * | 2018-09-10 | 2020-09-25 | 昆明理工大学 | 一种基于纵横直方图的字体识别方法 |
CN109447058B (zh) * | 2018-09-10 | 2022-04-12 | 昆明理工大学 | 一种基于矩阵分块的残缺汉字识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003308317A (ja) * | 2002-04-17 | 2003-10-31 | Toshiba Corp | 文字列変換方法および文字認識方法および文字認識装置および文字認識プログラム |
CN101286097A (zh) * | 2008-06-02 | 2008-10-15 | 昆明理工大学 | 一种汉字输入方法 |
CN102081731A (zh) * | 2009-11-26 | 2011-06-01 | ***通信集团广东有限公司 | 一种从图像中提取文本的方法和装置 |
CN102231188A (zh) * | 2011-07-05 | 2011-11-02 | 上海合合信息科技发展有限公司 | 结合文字识别和图像匹配的名片识别方法 |
CN102654902A (zh) * | 2012-01-16 | 2012-09-05 | 江南大学 | 基于轮廓向量特征的嵌入式实时图像匹配方法 |
CN103838789A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种文本相似度计算方法 |
CN106407179A (zh) * | 2016-08-26 | 2017-02-15 | 福建网龙计算机网络信息技术有限公司 | 汉字字形相似度计算方法及其*** |
-
2017
- 2017-12-04 CN CN201711256495.4A patent/CN108038495B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003308317A (ja) * | 2002-04-17 | 2003-10-31 | Toshiba Corp | 文字列変換方法および文字認識方法および文字認識装置および文字認識プログラム |
CN101286097A (zh) * | 2008-06-02 | 2008-10-15 | 昆明理工大学 | 一种汉字输入方法 |
CN102081731A (zh) * | 2009-11-26 | 2011-06-01 | ***通信集团广东有限公司 | 一种从图像中提取文本的方法和装置 |
CN102231188A (zh) * | 2011-07-05 | 2011-11-02 | 上海合合信息科技发展有限公司 | 结合文字识别和图像匹配的名片识别方法 |
CN102654902A (zh) * | 2012-01-16 | 2012-09-05 | 江南大学 | 基于轮廓向量特征的嵌入式实时图像匹配方法 |
CN103838789A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种文本相似度计算方法 |
CN106407179A (zh) * | 2016-08-26 | 2017-02-15 | 福建网龙计算机网络信息技术有限公司 | 汉字字形相似度计算方法及其*** |
Also Published As
Publication number | Publication date |
---|---|
CN108038495A (zh) | 2018-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038495B (zh) | 一种残缺汉字识别方法 | |
CN101957919B (zh) | 基于图像局部特征检索的文字识别方法 | |
US20120099792A1 (en) | Adaptive optical character recognition on a document with distorted characters | |
CN107194400A (zh) | 一种财务报销全票据图片识别处理方法 | |
CN104809481A (zh) | 一种基于自适应色彩聚类的自然场景文本检测的方法 | |
CN104123550A (zh) | 基于云计算的文本扫描识别方法 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN109583438B (zh) | 电子图像的文字的识别方法及图像处理装置 | |
CN103577818A (zh) | 一种图像文字识别的方法和装置 | |
CN102831403A (zh) | 一种基于指纹特征点的识别方法 | |
US20140079316A1 (en) | Segmentation co-clustering | |
CN103473545A (zh) | 一种基于多特征的文本图像相似度度量方法 | |
CN113326797A (zh) | 一种pdf文档提取的表格信息转换为结构化知识的方法 | |
CN104850822A (zh) | 基于多特征融合的简单背景下的叶片识别方法 | |
CN109213886B (zh) | 基于图像分割和模糊模式识别的图像检索方法及*** | |
WO2019085765A1 (zh) | 图像检索 | |
CN106991416A (zh) | 一种基于手动拍照的化验单识别方法 | |
CN113657377B (zh) | 一种机打票据图像结构化识别方法 | |
Moussa et al. | Fractal-based system for Arabic/Latin, printed/handwritten script identification | |
CN108171115B (zh) | 一种残缺英文单词识别方法 | |
CN111274762A (zh) | 一种基于藏经典文献中多样性字体的计算机表达方法 | |
CN108763266B (zh) | 一种基于图像特征提取的商标检索方法 | |
CN111814801B (zh) | 一种机械图中标注串的提取方法 | |
CN112329641B (zh) | 一种表格识别方法、装置、设备及可读存储介质 | |
CN105224619B (zh) | 一种适用于视频/图像局部特征的空间关系匹配方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |