CN105760901B - 一种多语种倾斜文档图像的自动语言判别方法 - Google Patents
一种多语种倾斜文档图像的自动语言判别方法 Download PDFInfo
- Publication number
- CN105760901B CN105760901B CN201610053497.2A CN201610053497A CN105760901B CN 105760901 B CN105760901 B CN 105760901B CN 201610053497 A CN201610053497 A CN 201610053497A CN 105760901 B CN105760901 B CN 105760901B
- Authority
- CN
- China
- Prior art keywords
- language
- character
- image
- document
- automatic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 238000012937 correction Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000012850 discrimination method Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000007797 corrosion Effects 0.000 claims description 3
- 238000005260 corrosion Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 2
- 238000009510 drug design Methods 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 239000006002 Pepper Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2445—Alphabet recognition, e.g. Latin, Kanji or Katakana
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明涉及一种多语种倾斜文档图像的自动语言判别方法,其技术特点是包括以下步骤:对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的自动判别,将文档图像分为亚洲语种文档图像和拉丁语种文档图像;针对不同语种的文档图像使用相应的倾斜校正算法,得到校正后的文档图像,然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别,从而实现文档图像的语言自动判别功能。本发明设计合理,其采用Gabor滤波和关键词匹配相结合的方法实现了文档图像的自动语言判别功能,并且通过分块投票方式保证了方法的鲁棒性,提高了识别的准确率,准确率满足了实际应用的需求。
Description
技术领域
本发明属于信息技术领域,尤其是一种多语种倾斜文档图像的自动语言判别方法。
背景技术
光学字符识别(简称OCR)技术已经被广泛地应用于文档图像的数字化工作,其作用是将通过照相机拍摄或扫描仪扫描得到的文档图像转化为可编辑、可搜索的电子文档。随着国际化程度的不断提高,具有多种语言的文档图像往往混杂在一起。目前的OCR技术多是针对某种特定语言的文档图像进行处理,根据人为指定的语言对文档图像进行版面分析和文字识别、将其转化为可编辑和可搜索的电子文档。通过文档图像自动语言判别方法,可以自动将待做OCR处理的文档图像按语言分类,根据语言判别结果将文档图像送入不同的OCR引擎或使用不同的语言选项进行处理,从而减少人工干预、降低人工成本。由于某些语言使用的字符结构相似,以及图像采集过程中经常遇到的噪音多、分辨率不高等问题,难以设计出一种能够满足实际应用需要的具有高准确率的文档图像自动语言判别方法。
目前,在文档图像自动语言判别方法的研究工作中,主要是利用纹理特征和文字形状特征来做语言判别,其存在的主要问题是:(1)纹理特征对于字形相似的语言难以达到实用的效果,如英/德/法语言判别等;(2)对于字形差异较大的语言,使用单一语言区域的纹理特征也会造成判别结果不稳定、准确率偏低等问题;(3)与纹理特征相比,文字形状特征更适用于区分文字结构相似的语言,但在分辨率不高的情况下利用文字形状特征也难以达到满足实际应用需要的准确率;(4)待处理文档图像可能存在倾斜等问题,而对于不同语种的文档图像需要应用不同的倾斜校正方法,如由于字符结构差异较大、中文文档图像和英文文档图像的倾斜校正方法完全不同。另外,不同语种文档图像的文字切分方法也完全不同。因此,在未知语种的情况下无法在文档图像中提取正确的文字形状特征、从而使基于文字形状特征的自动语言判别方法失效。综上所述,现有的文档图像自动语言判别方法虽然取得了一定的效果,但由于某些语言文字在纹理和形状上都非常相似,以及图像采集过程中引入的噪音多、分辨率不高、倾斜等问题,其准确率难以满足实际应用的需求。
发明内容
本发明的目的在于克服现有技术的不足,提供一种设计合理、准确率高且适应性强的多语种倾斜文档图像的自动语言判别方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种多语种倾斜文档图像的自动语言判别方法,包括以下步骤:
步骤1、对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的自动判别,将文档图像分为亚洲语种文档图像和拉丁语种文档图像;
步骤2、针对不同语种的文档图像使用相应的倾斜校正算法,得到校正后的文档图像,然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别,从而实现文档图像的语言自动判别功能。
进一步,所述步骤1的具体实现方法包括以下步骤:
(1)对采集的文档图像使用数学形态学的方法进行滤噪处理;
(2)对于存在倾斜的文档图像,从中选取适合于做自动语言判别的一定数量的文字区域;
(3)对选出的每个文字区域分别做Gabor滤波,并根据提取到的Gabor特征、应用分类器对每个文字区域的语种进行自动判别;
(4)对每个文字区域的自动语种判别结果进行投票,取投票数最多的语种作为整个文档图像的语种判别结果,从而将输入的文档图像分为亚洲语种文档图像和拉丁语种文档图像两大类。
进一步,所述步骤(1)对采集的文档图像使用数学形态学的方法进行滤噪处理是采用腐蚀及膨胀算法实现的。
进一步,所述步骤(3)的具体方法为:首先对于选出的文字区域图像生成不同尺度、多个方向的Gabor图像;然后生成得到Gabor幅值图像并对Gabor幅值图像进行向下采样;最后,根据提取到的Gabor特征利用文字区域训练样本进行分类器学习,对待作语种判别的文字区域图像进行分类,将每一文字区域分为亚洲语种或拉丁语种。
进一步,所述步骤2的具体实现方法包括以下步骤:
(1)根据自动判别得到的语种对文档图像进行倾斜校正及文字切分处理;
(2)从文字切分结果中取出最符合文字特点的若干块文字图像;
(3)根据自动判别得到的语种对每一块切分出来的文字图像或单词图像利用分类器进行识别,根据识别结果对每一块文字图像或单词图像的语言进行自动判别;
(4)对文字图像或单词图像的自动语言判别结果进行投票,取投票数最多的语言作为整幅文档图像的语言判别结果。
进一步,所述步骤(1)的文字切分处理方法为:在校正的文档图像上使用适用于不同语种的文字切分方法,得到文字切分结果:对于亚洲语种文档图像,通过文字切分得到多个候选字符;对于拉丁语种文档图像,通过文字切分得到多个候选单词。
进一步,所述步骤(2)的具体方法为:对于亚洲语种文档图像,首先将候选字符按高度计算直方图,选取高度在直方图峰值附近的字符,以滤除噪音、减少其对判别结果的影响;然后,对选取的字符按宽高比减一的绝对值进行升序排序,保留前面字符进行后继分析;对于拉丁语种文档图像,按照候选单词的长度降序排列,保留前面一定数量的单词进行后继分析。
进一步,所述步骤(3)的具体方法为:对于亚洲语种文档图像,将第(2)步保留下来的一定数量的字符图像送入亚洲文字图像分类器进行字符识别,每个字符的识别结果包括中文、日文或韩文,保留识别可信度最高的前面一定数量的字符进行语言判别投票;对于拉丁语种文档图像,将第(2)步保留下来的一定数量的单词进行字符切分和识别,保留通过语言词库匹配且可信度最高的前面一定数量的单词进行语言判别投票
本发明的优点和积极效果是:
本发明设计合理,其采用Gabor滤波和关键词匹配相结合的方法实现了文档图像的自动语言判别功能,并且通过分块投票方式保证了方法的鲁棒性,提高了识别的准确率,准确率满足了实际应用的需求,解决了倾斜情况下中、日、韩、英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰等语言文档图像的自动语言判别问题。
附图说明
图1是本发明的***框架图;
图2是文档图像自动语种判别流程图;
图3是同语种文档图像自动语言判别流程图;
图4是拉丁语种文档图像的语言判别实验结果示意图。
具体实施方式
以下结合附图对本发明实施例做进一步详述:
一种多语种倾斜文档图像的自动语言判别方法,如图1所示,包括以下步骤:
步骤1、对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的自动判别,将文档图像分为亚洲语种(包括中、日、韩)文档图像和拉丁语种(包括英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰)文档图像。
本步骤的具体处理过程如图2所示,包括以下步骤:
步骤(1)、对采集的文档图像应用数学形态学的方法进行滤噪处理,减少噪音的影响。
对待作语种判别的文档图像做开运算(即先腐蚀再膨胀),滤除文档图像中可能存在的噪音。其中,
(a)腐蚀的算法:用3*3的结构元素,扫描图像的每一个像素,用结构元素与其覆盖的二值图像做“与”操作。如果都为1,结果图像的该像素为1,否则为0。
(b)膨胀的算法:用3*3的结构元素,扫描图像的每一个像素,用结构元素与其覆盖的二值图像做“与”操作。如果都为0,结果图像的该像素为0,否则为1。
步骤(2)、对于存在倾斜的文档图像,从中选取最适合于做自动语言判别的前m个文字区域(这里令m=21)。
对于一幅要提取Gabor特征的文档图像,首先从图像中随机选取100幅尺寸为200*200的子图像;接着,对这100幅子图像进行筛选,筛选标准如下:
(a)如果一幅子图像的黑像素数量超过子图像尺寸的1/4,则认为不是文字区域、将其删除,以减少图像等非文字区域对结果的干扰。
(b)将(a)中筛选出来的每幅文字区域图像平均分成4行4列,共计16块。对每一块,使用canny算子求出其边缘图像。如果边缘的比例占文字区域总大小10%~20%,则文字区域的支持度增1。最终得到的每一文字区域的支持度取值范围在0~16。
(c)按照支持度从高到低对文字区域进行排序,选取支持度最高的前21个文字区域图像进行Gabor特征的提取,并据此进行分类。
步骤(3)、对选出的每个文字区域分别做Gabor滤波,并基于提取到的Gabor特征、应用分类器对每个文字区域的语种进行自动判别。
对于选出的21幅文字区域图像,首先生成不同尺度(g=0,1,2)、多个方向(h=0,1,2,…,15)的Gabor图像。
Gabor函数的表达形式如公式(1)所示:
实部和虚部的计算方法分别如公式(2)和公式(3)所示:
其中,
xt=xcosθ+ysinθ (4)
yt=-xsinθ+ycosθ
公式(1)至公式(4)中,x和y代表像素点坐标;(xt,yt)是(x,y)顺时针旋转θ度得到
的结果;f代表复正弦信号频率,其取值为fmax=0.25;θ代表小波
方向,其取值为γ代表沿正弦平面波的小波空间宽度,η代表垂
直于正弦平面波的小波空间宽度,这里
在固定尺度和固定方向下,可计算出核矩阵,分为实部核矩阵和虚部核矩阵,核矩阵的计算需要一个窗口,窗口值设为8,得到的两个8*8的核矩阵。求出核矩阵后,对实部核矩阵做上下翻转,加上左右翻转,虚部核矩阵不做操作。然后分别用这两个核矩阵对图像进行卷积,分别得到实部卷积后图像和虚部卷积后图像。最后根据这两个卷积后的图像计算幅值,得到幅值图像。
对计算出的Gabor幅值图像进行向下采样(下采样比率4),即将幅值图像缩小到原始大小的1/4。在特定尺度和特定方向上有一幅下采样后的图像(50*50),将图像的像素值求平均。这样对于一幅子图像,我们有3个尺度、16个方向,那么总特征数为3*16=48个。
根据提取到的Gabor特征利用文字区域训练样本进行分类器学习,再对待作语种判别的文字区域图像进行分类,将每一文字区域分为亚洲语种或拉丁语种。
步骤(4)、对21个文字区域的自动语种判别结果进行投票,取投票数最多的语种作为整个文档图像的语种判别结果。
对于一幅待作语种判别的文档图像,根据选出的21个文字区域的语种自动判别结果进行投票,投票数多的语种即为文档图像的语种判别结果,从而将送入的文档图像分为亚洲语种文档图像和拉丁语种文档图像两大类。
步骤2、在得到文档图像语种判别结果的基础上,针对不同语种的文档图像应用不同的倾斜校正算法,得到校正后的文档图像,并在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别。
本步骤的具体处理过程如图3所示,包括以下步骤:
步骤(1)、根据自动判别得到的语种对文档图像进行相应的倾斜校正及文字切分处理。
根据前面得到的文档图像语种自动判别结果,应用适用于不同语种的倾斜校正方法,将文档图像转正;然后,在校正的文档图像上应用适用于不同语种的文字切分方法,得到文字切分结果。对于亚洲语种文档图像,通过文字切分得到多个候选字符;对于拉丁语种文档图像,通过文字切分得到多个候选单词。
步骤(2)、从文字切分结果中取出最符合文字特点的若干块文字图像。
对于亚洲语种文档图像,首先将候选字符按高度计算直方图,选取高度在直方图峰值附近的字符,以滤除噪音、减少其对判别结果的影响;然后,对选取的字符按(宽高比-1)的绝对值进行升序排序,保留前100个字符进行后继分析,即宽高比越接近1,则越有可能是切分正确的亚洲文字。
对于拉丁语种文档图像,按照候选单词的长度降序排列,保留前100个单词进行后继分析,即单词长度越长,则越可以降低因个别字符误识而导致的单词所属语言判别错误。
步骤(3)、根据自动判别得到的语种对每一块切分出来的文字图像或单词图像利用分类器进行识别,根据识别结果对每一块文字图像或单词图像的语言进行自动判别。
对于亚洲语种文档图像,将第(2)步保留下来的100个字符图像送入亚洲文字图像分类器进行字符识别,每个字符的识别结果可能是中文、日文或韩文,保留识别可信度最高的前20个字符进行语言判别投票。
对于拉丁语种文档图像,将第(2)步保留下来的100个单词进行字符切分和识别,保留能够通过某种语言词库匹配且可信度最高的前20个单词进行语言判别投票。
步骤(4)、对文字图像或单词图像的自动语言判别结果进行投票,取投票数最多的语言作为整幅文档图像的语言判别结果。
对于亚洲语种文档图像,根据第(3)步保留下来的20个字符的识别结果,进行中、日、韩语言判别投票,字符数最多的语言即为亚洲语种文档图像自动语言判别结果。
对于拉丁语种文档图像,根据第(3)步保留下来的20个单词的识别结果,进行英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰语言判别投票,单词数最多的语言即为拉丁语种文档图像自动语言判别结果。
通过以上步骤,即可实现文档图像的语言自动判别功能,解决了倾斜情况下中、日、韩、英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰等语言文档图像的自动语言判别问题。
下面通过“文档图像语种自动判别实验结果”与“同语种文档图像语言自动判别实验结果”两方面验证本发明提出的基于Gabor滤波和关键词匹配相结合的多语种倾斜文档图像自动语言判别方法。第1部分,通过在亚洲语种文档图像和拉丁语种文档图像上的实验,表明本发明对于倾斜文档图像的语种判别有较强的鲁棒性。第2部分,分别通过在中、日、韩等亚洲语种文档图像和英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰等拉丁语种文档图像上的实验,表明本发明能够在语种判别结果的基础上较好地解决具有相似文字结构的同语种文档图像语言判别问题。
1、文档图像语种自动判别实验结果
本实验采集110幅亚洲语种文档图像和110幅拉丁语种文档图像,每幅图像按15种不同角度进行旋转,最后得到倾斜亚洲语种文档图像和倾斜拉丁语种文档图像各1650幅,这些图像作为文档图像语种自动判别实验的数据集。实验结果表明,亚洲语种文档图像和拉丁语种文档图像的语种判别准确率达到了99.48%。具体的实验结果如表1所示,仅有0.70%的亚洲语种文档图像被误识为拉丁语种、0.33%的拉丁语种文档图像被误识为亚洲语种。
表1 亚洲语种和拉丁语种文档图像语种判别实验结果
2、同语种文档图像语言自动判别实验结果
2.1亚洲语种文档图像语言自动判别
本实验数据集包括倾斜校正后的40幅中文文档图像、35幅日文文档图像和35幅韩文文档图像,分别加入高斯噪音(均值和方差分别为0和0.02)和椒盐噪音(噪音比为0.05),得到220幅图像作为亚洲语种文档图像语言自动判别实验的数据集。实验结果表明,中、日、韩等亚洲语种文档图像的语言判别准确率达到了98.18%。具体的实验结果如表2所示,中、日、韩文档图像的语言判别准确率分别达到了100.00%、97.14%和97.14%。
表2 亚洲语种文档图像的语言判别实验结果
2.2拉丁语种文档图像语言自动判别
本实验中各种语言文档图像的数量如表3所示。
表3 拉丁语种文档图像数据集
对所有样本分别加入高斯噪音(均值和方差分别为0和0.02)和椒盐噪音(噪音比为0.05),得到25,614幅图像作为拉丁语种文档图像语言自动判别实验的数据集。具体的实验结果如图4所示,从图中可以看出,拉丁语种文档图像的语言判别准确率达到了98.18%。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (7)
1.一种多语种倾斜文档图像的自动语言判别方法,其特征在于包括以下步骤:
步骤1、对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的自动判别,将文档图像分为亚洲语种文档图像和拉丁语种文档图像;
步骤2、针对不同语种的文档图像使用相应的倾斜校正算法,得到校正后的文档图像,然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别,从而实现文档图像的语言自动判别功能;
所述步骤1的具体实现方法包括以下步骤:
(1)对采集的文档图像使用数学形态学的方法进行滤噪处理;
(2)对于存在倾斜的文档图像,从中选取适合于做自动语言判别的一定数量的文字区域;
(3)对选出的每个文字区域分别做Gabor滤波,并根据提取到的Gabor特征、应用分类器对每个文字区域的语种进行自动判别;
(4)对每个文字区域的自动语种判别结果进行投票,取投票数最多的语种作为整个文档图像的语种判别结果,从而将输入的文档图像分为亚洲语种文档图像和拉丁语种文档图像两大类。
2.根据权利要求1所述的一种多语种倾斜文档图像的自动语言判别方法,其特征在于:所述步骤(1)对采集的文档图像使用数学形态学的方法进行滤噪处理是采用腐蚀及膨胀算法实现的。
3.根据权利要求1所述的一种多语种倾斜文档图像的自动语言判别方法,其特征在于:所述步骤(3)的具体方法为:首先对于选出的文字区域图像生成不同尺度、多个方向的Gabor图像;然后生成得到Gabor幅值图像并对Gabor幅值图像进行向下采样;最后,根据提取到的Gabor特征利用文字区域训练样本进行分类器学习,对待作语种判别的文字区域图像进行分类,将每一文字区域分为亚洲语种或拉丁语种。
4.根据权利要求1所述的一种多语种倾斜文档图像的自动语言判别方法,其特征在于:所述步骤2的具体实现方法包括以下步骤:
(1)根据自动判别得到的语种对文档图像进行倾斜校正及文字切分处理;
(2)从文字切分结果中取出最符合文字特点的若干块文字图像;
(3)根据自动判别得到的语种对每一块切分出来的文字图像或单词图像利用分类器进行识别,根据识别结果对每一块文字图像或单词图像的语言进行自动判别;
(4)对文字图像或单词图像的自动语言判别结果进行投票,取投票数最多的语言作为整幅文档图像的语言判别结果。
5.根据权利要求4所述的一种多语种倾斜文档图像的自动语言判别方法,其特征在于:所述步骤(1)的文字切分处理方法为:在校正的文档图像上使用适用于不同语种的文字切分方法,得到文字切分结果:对于亚洲语种文档图像,通过文字切分得到多个候选字符;对于拉丁语种文档图像,通过文字切分得到多个候选单词。
6.根据权利要求4所述的一种多语种倾斜文档图像的自动语言判别方法,其特征在于:所述步骤(2)的具体方法为:对于亚洲语种文档图像,首先将候选字符按高度计算直方图,选取高度在直方图峰值附近的字符,以滤除噪音、减少其对判别结果的影响;然后,对选取的字符按宽高比减一的绝对值进行升序排序,保留前面字符进行后继分析;对于拉丁语种文档图像,按照候选单词的长度降序排列,保留前面一定数量的单词进行后继分析。
7.根据权利要求4所述的一种多语种倾斜文档图像的自动语言判别方法,其特征在于:所述步骤(3)的具体方法为:对于亚洲语种文档图像,将第(2)步保留下来的一定数量的字符图像送入亚洲文字图像分类器进行字符识别,每个字符的识别结果包括中文、日文或韩文,保留识别可信度最高的前面一定数量的字符进行语言判别投票;对于拉丁语种文档图像,将第(2)步保留下来的一定数量的单词进行字符切分和识别,保留通过语言词库匹配且可信度最高的前面一定数量的单词进行语言判别投票。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610053497.2A CN105760901B (zh) | 2016-01-27 | 2016-01-27 | 一种多语种倾斜文档图像的自动语言判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610053497.2A CN105760901B (zh) | 2016-01-27 | 2016-01-27 | 一种多语种倾斜文档图像的自动语言判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105760901A CN105760901A (zh) | 2016-07-13 |
CN105760901B true CN105760901B (zh) | 2019-01-04 |
Family
ID=56342625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610053497.2A Active CN105760901B (zh) | 2016-01-27 | 2016-01-27 | 一种多语种倾斜文档图像的自动语言判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105760901B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598937B (zh) * | 2015-10-16 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 用于文本的语种识别方法、装置和电子设备 |
CN107256378A (zh) * | 2017-04-24 | 2017-10-17 | 北京航空航天大学 | 语种识别方法及装置 |
CN107346428A (zh) * | 2017-05-24 | 2017-11-14 | 上海视马艾智能科技有限公司 | 一种ic表面字符识别方法与装置 |
CN110032996B (zh) * | 2018-01-11 | 2021-06-04 | 台达电子工业股份有限公司 | 分类基础式的字符倾斜校正装置及其方法 |
CN109409356B (zh) * | 2018-08-23 | 2021-01-08 | 浙江理工大学 | 一种基于swt的多方向中文印刷体文字检测方法 |
CN109741377B (zh) * | 2018-11-30 | 2021-07-06 | 四川译讯信息科技有限公司 | 一种图像差异检测方法 |
CN111339787B (zh) * | 2018-12-17 | 2023-09-19 | 北京嘀嘀无限科技发展有限公司 | 一种语种识别方法、装置、电子设备及存储介质 |
CN111027528B (zh) * | 2019-11-22 | 2023-10-03 | 华为技术有限公司 | 语种识别方法、装置、终端设备及计算机可读存储介质 |
CN111046784B (zh) * | 2019-12-09 | 2024-02-20 | 科大讯飞股份有限公司 | 文档版面分析识别方法、装置、电子设备和存储介质 |
CN113822275A (zh) * | 2021-09-27 | 2021-12-21 | 北京有竹居网络技术有限公司 | 一种图像语种识别方法及其相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890783B (zh) * | 2011-07-20 | 2015-07-29 | 富士通株式会社 | 识别图像块中文字的方向的方法和装置 |
-
2016
- 2016-01-27 CN CN201610053497.2A patent/CN105760901B/zh active Active
Non-Patent Citations (1)
Title |
---|
"文本图像语种识别技术";侯跃云 等;《计算机应用》;20060630;第0-4节 |
Also Published As
Publication number | Publication date |
---|---|
CN105760901A (zh) | 2016-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760901B (zh) | 一种多语种倾斜文档图像的自动语言判别方法 | |
Omee et al. | A complete workflow for development of Bangla OCR | |
Demilew et al. | Ancient Geez script recognition using deep learning | |
Bukhari et al. | High performance layout analysis of Arabic and Urdu document images | |
Hallale et al. | Twelve directional feature extraction for handwritten English character recognition | |
Nagabhushan et al. | Text extraction in complex color document images for enhanced readability | |
Ramappa et al. | Skew detection, correction and segmentation of handwritten Kannada document | |
Yadav et al. | Text extraction in document images: highlight on using corner points | |
Mohsin et al. | Developing an Arabic handwritten recognition system by means of artificial neural network | |
CN107609482A (zh) | 一种基于汉字笔画特征的中文文本图像倒置判别方法 | |
Karthik et al. | Segmentation and recognition of handwritten kannada text using relevance feedback and histogram of oriented gradients–a novel approach | |
Tikader et al. | Histogram of oriented gradients for English-Bengali script recognition | |
Ahmed et al. | Enhancing the character segmentation accuracy of bangla ocr using bpnn | |
Kaur et al. | Page segmentation in OCR system-a review | |
Jameel et al. | A REVIEW ON RECOGNITION OF HANDWRITTEN URDU CHARACTERS USING NEURAL NETWORKS. | |
Choudhury et al. | Recognition of handwritten Bangla numerals using adaptive coefficient matching technique | |
Hadi et al. | A novel approach of skew estimation and correction in persian manuscript text using radon transform | |
Kavallieratou et al. | Handwritten text localization in skewed documents | |
Emmanuel et al. | Automatic detection and recognition of Malayalam text from natural scene images | |
Arefin et al. | Bangla handwritten characters recognition by using distance-based segmentation and histogram oriented gradients | |
Tikader et al. | Edge based directional features for English-Bengali script recognition | |
Choudhury et al. | An approach towards recognition of size and shape independent Bangla handwritten numerals | |
Setumin et al. | Car plate character extraction and recognition using stroke analysis | |
Koundal et al. | Punjabi optical character recognition: a survey | |
CN111553336B (zh) | 基于连体段的印刷体维吾尔文文档图像识别***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |