CN103810471A - 识别文档图像的方法和装置及其拍摄方法 - Google Patents
识别文档图像的方法和装置及其拍摄方法 Download PDFInfo
- Publication number
- CN103810471A CN103810471A CN201310572149.2A CN201310572149A CN103810471A CN 103810471 A CN103810471 A CN 103810471A CN 201310572149 A CN201310572149 A CN 201310572149A CN 103810471 A CN103810471 A CN 103810471A
- Authority
- CN
- China
- Prior art keywords
- picture
- file
- image
- unique point
- input picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims description 27
- 230000002093 peripheral effect Effects 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/21—Intermediate information storage
- H04N1/2166—Intermediate information storage for mass storage, e.g. in document filing systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Abstract
提供一种识别文档图像的方法和装置及其拍摄方法。所述方法包括:通过将与比较像素不相似的每个像素和比较像素进行比较来将所述每个像素确定为特征点,从而从输入图像提取包括关于特征点的信息的主特征,其中,比较像素与所述每个像素隔开预定距离,并且通过将包括特征点的总数的标准的预设主分类标准应用于主特征,来将输入图像分类为文档图像或非文档图像。
Description
技术领域
本公开涉及分析由拍摄装置(诸如数码相机)拍摄的图像的技术。更具体地讲,本公开涉及用于从拍摄的图像识别文档图像的方法和装置,及使用该方法和装置的拍摄方法。
背景技术
近年来,应用于普通数码相机和便携式摄像机的数字静止相机(DSC)功能已作为基本元素被应用于便携式终端(诸如智能电话、蜂窝电话、便携式多媒体播放器(PMP)、运动图像专家组(MPEG)、音频层3(MP3)播放器、个人导航装置、个人计算机(PC)、膝上型PC、平板计算机以及任何其它相似和/或合适的便携式电子装置),以便提高用户便利性。
用户可通过在任何时间和任何地点使用便携式终端来拍摄、捕捉照片。最近,由于安装于便携式终端的相机的性能和内容存储能力的快速发展,用户除了拍摄人物和风景之外,还可拍摄主要包含文本的印刷品(诸如书、纸和小册子),并可存储拍摄相应印刷品的图像,其中,拍摄相应印刷品的图像可被称为“文档图像”,从而利用相机来保存记录在相应印刷品中的信息。
根据趋势,已提出了确定当前将拍摄的图像是否为文档图像并相应地执行包括光圈值的拍摄条件的合适且自动的调整的技术。该技术在(惠普开发公司)于2006年5月30日发表的名称为“自动文档检测方法和***(Automaticdocument detection method and system)”的美国7,053,939号专利申请中公开。
在上述现有技术中,考虑到由于字符而导致在文档图像中存在相对大量的边缘部分,将通过相机输入的图像划分为等尺寸的区域,针对所述区域中的每个检测边缘,并针对所述区域确定边缘的数量是否大于给定阈值,以检测文档图像。当边缘数量大于阈值的区域的总数量超出特定参考值时,将所述图像确定为文档图像。
在现有技术的方法中,尽管在一定程度上可准确判断文档图像,但是具有大量边缘的图像(如具有复杂图案的图像)更可能被判断错误。此外,在文档具有大尺寸字符、少量字符或各种尺寸或字体的情况下,或在文档具有表格(诸如公交时刻表、菜单表或日历)的情况下,难以准确将相应图像判断为文档图像。
因此,除了普通文档图像(诸如书和纸)之外,还需要一种在日常使用中针对各种类型和形状的信息印刷品更准确地判断文档图像的技术。
上述信息仅被呈现为有助于本公开的理解的背景信息。对于任何上述内容是否可适用于针对本公开的现有技术,未做出任何确定,也未做出任何断言。
发明内容
本公开的多个方面在于至少解决上述问题和/或缺点并在于至少提供下述优点。因此,本公开的一方面在于提供一种用于识别文档图像的方法和装置,以及一种使用该方法和装置的拍摄方法,其中,可更准确地判断在现有技术中难以确定为文档图像的各种类型和形状的信息印刷品的文档图像。
根据本公开的一方面,提供一种识别文档图像的方法。所述方法包括:通过将与比较像素不相似的每个像素和比较像素进行比较来将所述每个像素确定为特征点,从而从输入图像提取包括关于特征点的信息的主特征,其中,比较像素与所述每个像素隔开预定距离;并且通过将包括特征点的总数的标准的预设主分类标准应用于主特征,来将输入图像分类为文档图像或非文档图像。
根据本公开的另一方面,提供一种用于识别文档图像的装置。所述装置包括:相机单元,被构造为拍摄外部目标对象;以及图像处理单元,被构造为对由相机单元拍摄的图像和从外部装置传送的图像中的至少一个图像执行图像处理操作,其中,图像处理单元被构造为:通过将与比较像素不相似的每个像素和比较像素进行比较来将所述每个像素确定为特征点,从而从输入图像提取包括关于特征点的信息的主特征,其中,比较像素与所述每个像素隔开预定距离,其中,图像处理单元被构造为:通过将包括针对特征点的总数的标准的预设主分类标准应用于主特征,来将输入图像分类为文档图像或非文档图像。
根据本公开的一方面,提供一种使用文档图像识别技术的拍摄方法。所述方法包括:通过预设拍摄操纵对目标对象执行拍摄操作;将拍摄的图像分类并存储为文档图像或非文档图像,其中,对拍摄的图像进行分类的步骤包括:接收拍摄的图像,通过将与比较像素不相似的每个像素和比较像素进行比较来将所述每个像素确定为特征点,从而从输入图像提取包括关于特征点的信息的主特征,其中,比较像素与所述每个像素隔开预定距离;并且通过将包括特征点的总数的标准的预设主分类标准应用于主特征,来将输入图像分类为文档图像或非文档图像。
根据本公开的一方面,提供一种使用文档图像识别技术的拍摄方法,所述拍摄方法包括:将通过相机单元输入的图像显示为预览图像;从预览图像中选择一个静止图像;将选择的静止图像分类为文档图像或非文档图像;根据对选择的静止图像的分类的结果设置文档拍摄条件或非文档拍摄条件;并且当检测到对拍摄键的预设操纵时,根据当前设置的文档拍摄条件或非文档拍摄条件执行拍摄操作,其中,对选择的静止图像进行分类的步骤包括:接收选择的静止图像,通过将与比较像素不相似的每个像素和比较像素进行比较来将所述每个像素确定为特征点,从而从输入图像提取包括关于特征点的信息的主特征,其中,比较像素与所述每个像素隔开预定距离;并且通过将包括特征点的总数的标准的预设主分类标准应用于主特征,来将输入图像分类为文档图像或非文档图像。
如上所述,本公开提供一种用于识别文档图像的方法和装置及使用该方法和装置的拍摄方法,其可更准确判断在现有技术中难以确定为文档图像的各种类型和形状的信息印刷品的文档图像。
从下面结合附图公开本公开的各种实施例的详细描述中,本公开的其它方面、优点和显著特征对于本领域技术人员而言将变得清楚。
附图说明
从以下结合附图的描述中,本公开的特定实施例的上述以及其它方面、特征和优点将更加清楚,在附图中:
图1是示出根据本公开的实施例的采用文档图像识别装置的便携式终端的框图;
图2是示出根据本公开的实施例的应用了文档图像识别操作的拍摄操作的流程图;
图3是示出根据本公开的实施例的文档图像识别操作的流程图;
图4示出根据本公开的实施例的提取了主特征的图像;
图5A和图5B示出根据本公开的实施例的在输入图像中的用于在提取主特征时用于确定特征点的被确定的像素以及在该像素周围的比较像素;
图6示出根据本公开的实施例的用于主特征的主分类标准;
图7A和图7B示出根据本公开的实施例提取了次特征的图像;
图8A和图8B示出根据本公开的实施例提取了次特征的图像;
图9A、图9B、图9C和图9D示出根据本公开的实施例的在二进制码图像中确定字符预测区域的斜率的方法,该方法用于在提取次要特征时提取斜率信息;
图10A和图10B示出根据本公开的实施例的根据图3中示出的操作的结果分类的文档图像;
图11是示出根据本公开的实施例的应用了文档图像识别操作的拍摄操作的流程图。
贯穿附图,应注意,相同的标号用于描述相同或相似元件、特征和结构。
具体实施方式
提供以下参照附图的描述以助于全面理解由权利要求及其等同物限定的本公开的各种实施例。以下描述包括各种特定细节以助于理解,但是这些描述将仅被认为是示例性的。因此,本领域的普通技术人员将认识到,在不脱离本公开的范围和精神的情况下可对在此描述的各种实施例进行各种改变和修改。另外,为了清楚和简明,可以省略公知功能和构造的描述。
在以下描述和权利要求中使用的术语和词语不限于字面含义,而是仅被发明人使用以实现对本公开清楚和一致的理解。因此,对本领域技术人员应该清楚的是,提供本公开的各种实施例的以下描述仅用于说明目的,而不是用于限制由权利要求及其等同物限定的本公开的目的。
将理解,除非上下文另有明确指示,否则单数形式包括复数指示。因此,例如,提到“组件表面”包括提到一个或多个这样的表面。
尽管在下面的描述中将示出诸如特定操作处理、针对文档图像的分类标准的特定数值、或者各种屏幕的具体内容,但是本公开所属领域技术人员将清楚的是,提出具体内容仅用于帮助全面理解本公开,并且可在本公开的范围内做出各种修改和改变。
图1是示出根据本公开的实施例的采用文档图像识别装置的便携式终端的框图。
参照图1,根据本公开的采用文档图像识别装置的便携式终端包括相机单元10、图像处理单元20、存储单元30、控制器40、显示单元50和操纵单元60。
相机单元10执行数字相机的一般功能,所述数字相机通过使用从外部目标对象反射的可见光来拍摄外部目标对象的静止图像和移动图像中的至少一个。相机单元10除了包括构造为电荷耦合器件(CCD)图像传感器之外,还可包括用于测量照明的强度的照度传感器、用于测量对象的焦距的距离传感器。图像处理单元20执行图像处理(诸如通过处理图像数据将由相机单元10拍摄的图像转换为合适格式的数字图像数据)的总体操作,更具体地讲,根据本公开的特征,图像处理单元20执行对由相机单元10拍摄的图像和从外部装置传送的图像中的至少一个进行分析的操作,并执行识别图像是否是文档图像的操作。
总体上,显示单元50可被构造为液晶显示器(LCD)屏幕,并可被实现为触摸屏的结构,其中,LCD屏幕用于在相应的便携式终端中显示各种应用程序的执行图像、操作状态或菜单状态。然而,本公开不限于此,并且显示单元50可被构造为任何适合和/或类似的显示装置(诸如发光二极管(LED)显示器、有机LED显示器、薄膜晶体管显示器和其它类似显示装置类型)。操纵单元60构造为与显示单元50配合工作的触摸屏控制器,以通过用户在触摸屏上的操纵来接收输入,并包括用于操纵多个操作的按钮,其中,按钮被机械地安装到相应装置的键盘或外壳,以接收通过用户对按钮的操纵的输入。
总体上,根据本公开的特征,控制器40除了控制文档图像识别操作之外,还控制相应便携式终端的各个功能单元和操作。除了拍摄的图像之外,存储单元30还存储各种内容、各种应用程序和相关内容、用户产生的数据和与操作处理相关的数据。
除此之外,便携式终端包括移动通信单元70和语音输入/输出单元80。移动通信单元70包括用于移动通信的天线,并执行移动通信功能的无线信号处理操作。语音输入/输出单元80包括扬声器和麦克风,根据移动通信功能在进行电话呼叫时接收用户的语音输入或向用户输出可听见的声音,并输出与各种操作相应的操作音、或与各种数字音频和视频内容相应的声音。
此外,便携式终端还可包括功能单元,诸如构造有可充电电池的电源单元、全球定位***(GPS)单元、振动电机、检测相应装置的运动状态的运动传感器、和便携式终端普遍采用的任何其它相似和/或合适的功能单元、元件、装置和/或单元。
尽管在以上描述中分开构造图像处理单元20和控制器40,但是图像处理单元20和控制器40还可被物理地或逻辑地实现为单个单元。
图2是示出根据本公开的实施例的应用了文档图像识别操作的拍摄操作的流程图。
参照图2,可在图1示出的装置中的控制器的控制下执行拍摄操作。如图2所示,可将可应用本公开的拍摄操作大致划分为拍摄模式200下的操作和照片存储模式210下的操作,作为示例,在照片存储模式210下执行本公开的文档图像识别方法。
可通过用户对拍摄键,或者换句话说,被构造为执行拍摄和/或摄影操作的物理按钮(诸如快门键)的操纵或在菜单环境下用户对用于拍摄的菜单的选择来启动图2中示出的拍摄操作,其中,物理按钮被预先分开地安装在便携式终端中。考虑到拍摄条件(诸如便携式终端与将被拍摄的目标对象之间的距离、亮度等),当用户操纵快门键(即,拍摄键)时,在拍摄模式200下执行拍摄操作,随后拍摄模式200被转换为照片存储模式210。
在照片存储模式210下,在操作212,首先进行关于是否存储拍摄的图像的确定。可根据经由显示单元以适当形式显示消息,通过用户操纵进行确定,其中,所述消息向用户询问是否存储当前拍摄的图像。当在操作212确定未存储拍摄的图像时,结束照片存储模式并执行操作218,当在操作212确定已存储拍摄的图像时,执行操作214。
在操作214,根据本公开的特征,通过识别拍摄的图像的文本图像来将拍摄的图像分类为文档图像或非文档图像。之后,在操作216,存储被分类为文档图像或非文档图像的拍摄的图像。当在操作216存储分类的拍摄的图像时,可将已分类为文档图像的拍摄的图像和已分类为非文档图像的拍摄的图像存储在不同的存储文件夹中,或者还可在拍摄的图像上显示指示拍摄的图像为文档图像的元数据的状态下存储已分类为文档图像的拍摄的图像。
之后,在操作218,确定是否满足结束拍摄的条件(诸如对单独设置的结束键(例如主屏键)的输入)。当在218确定没有满足结束拍摄的条件时,操作流返回到拍摄模式200,并且重复执行上述操作,当在操作218确定已满足结束拍摄的条件时,结束拍摄操作。
根据本公开的实施例,可通过图2中示出的操作执行拍摄操作。尽管已示出用户分别选择是否存储拍摄的图像,但是在本公开的另一实施例中,可不进行操作212而自动存储拍摄的图像。
图3是示出根据本公开的实施例的文档图像识别操作的流程图。
参照图3,可在图2中示出的照片存储模式210下将文档图像识别操作应用于操作214,在操作214中,拍摄的图像被分类为文档图像或非文档图像。尽管如图3所示,可通过图1中示出的控制器执行这样的操作,但是可在图像处理单元中或通过任何其它相似和/或合适的处理单元单独执行与图3有关的操作。如图3所示,在根据本公开的实施例的文档图像识别操作中,在操作302,首先从相应的输入图像提取主特征。
在操作302提取主特征的步骤包括:针对相应的输入图像中的每一个像素,通过将相应的像素与邻近和/或***比较像素进行比较,来提取关于与比较像素不相似的像素的信息,其中,所述邻近和/或***比较像素与所述相应的像素不邻近并与相应的像素隔开预定距离。如上所述的这样的方法可被称为“快速特征”算法,与***比较像素不相似的像素可被称为“特征点”。以下将参照图4、图5A、图5B和图6讨论图3中示出的进一步操作。
图4示出提取了主特征的图像,并且在相应的图像中使用绿色显示多个特征点;图5A和图5B示出根据本公开的实施例的在相应的图像中的用于在提取了主特征时用于确定特征点的被确定的像素以及在该像素周围的比较像素。
参照图5A和图5B,将与像素p放射式地隔开预定距离的十六个***像素设置为比较像素。同时,相应的图像被转换为使确定特征点更容易的黑白图像,并通过使用像素的颜色值(还可被称为亮度值)来确定每个像素是否与用于确定特征点的***比较像素相似。
参照图3,在操作304,将预先设置的主分类标准应用于在操作302提取的主特征,以将相应的图像分类为文档图像或非文档图像。这样设置主分类标准:使得当特征点的总数增加并且颜色值(例如,特征点的亮度值)的标准偏差减小时,相应的图像更可能被分类为文档图像,其中,在操作302确定特征点。在本公开的实施例中,尽管可将线性分类标准(其中,特征点的总数和特征点的亮度值的标准偏差用作两个变量)应用为主分类标准,但是在本公开的实施例中,为了更加灵活和精确的确定,可将非线性分类标准应用为主分类标准,其中,通过使用利用径向基函数(RBF)核的支持矢量机(SVM)的机器学习算法,来在单独的计算环境中预先设置非线性分类标准。
图6示出根据本公开的实施例的用于主特征的主分类标准。
参照图6,示出用于与总共500个文档/非文档图像的SVM学习结果相应的主特征的主分类标准。
在操作304,在将主分类标准应用于主特征之后,随后在操作306,确定相应的输入图像是否为文档图像。当确定相应的输入图像为文档图像时,操作流进行到操作308,并且将相应的输入图像分类为文档图像。
通过上述操作302至308可以看出,在本公开中,根据通过快速特征算法和特征点的亮度值的标准偏差值(诸如,颜色直方图)从输入图像提取的特征点的总数,将相应输入图像分类为文档图像。由于普通文档图像具有由于大量特征而通过快速特征算法提取大量特征点的性质和/或特征,并且由于位于字符的角落的特征点而导致特征点的亮度值的标准差相对于非文档图像的特征点的亮度值的标准差较小,因此,根据本公开的方法允许普通文档图像被更准确地分类为文档图像。同时,由于特征点的数量根据图像的尺寸而不同,因此可使用归一化(normalized)数量的具有预定幅值的特征点。
同时,根据本公开的实施例,当在操作306确定相应的输入图像不是文档图像时,可将输入图像分类为非文档图像。然而,在图3的实施例中,如果在操作306确定相应的输入图像不是文档图像,则操作流从操作310进行到操作314,并且进行关于相应输入图像是否为文档图像的次确定。即,在操作310,从在操作302输入的图像提取次特征。
在操作310提取次特征的步骤包括:将预先在相应的输入图像中设置的区域转换为二进制码图像,在相应的二进制码图像中分别获得还可被称为字符预测区域的包括分离形态(separated morphologies)的最小面积矩形,并提供关于最小面积矩形的斜率的信息。下面将参照图7A至图9D讨论图3中示出的进一步的操作。
图7A至图8B示出根据本公开的实施例提取了次特征的图像;图8A和图8B示出根据本公开的实施例提取了次特征的图像。
参照图7A和图8A,显示在各个输入图像中获得的针对字符预测区域的斜率,图7B和图8B示出预先在输入图像(例如,输入图像的中心的部分)中设置的区域将被转换为的二进制码图像。
图9A、图9B、图9C和图9D示出根据本公开的实施例的在二进制码图像中确定用于在次特征被提取时提取斜率信息的字符预测区域的斜率的方法。
参照图9A,示出在输入图像中预先设置的区域被转换为的二进制码图像。参照图9B,示出在相应的二进制码图像中包括分离形态的最小面积矩形(即,字符预测区域)。此时,通过将输入图像转换为二进制码图像,在各种颜色的字符混合的图像中和/或在各种颜色的背景混合的文档图像中更容易区分字符预测区域。
图9A和图9B示出“A”和“B”彼此邻近而不具有任何空间的形态。如上所述,随着实际对应于字符的形态的数量减少,用于获得针对各个形态的最小面积矩形的计算复杂性减小。因此,当输入图像被转换为二进制码图像时,邻近字符的形态还可通过作为各种常规图像处理技术之一的形态膨胀操作彼此连接。即使字符的形态如上所述彼此连接,最终获得的最小面积矩形的斜率也可与字符的形态未连接的情况下的斜率相同,或比字符的形态未连接的情况下的斜率更准确。
图9C示出获得了包括字符预测区域(即,形态)并且具有最小面积的最小面积矩形的状态。之后,如图9D所示,基于一个边缘(例如,两个水平边缘的底边缘或顶边缘(诸如边缘c和边缘a)以及两个垂直边缘的左边缘或右边缘(诸如边缘b和边缘d))获得关于最小面积矩形的斜率信息。可基于垂直边缘或水平边缘将斜率信息设置为例如三十个等角指数之一。
如上所述,可在操作310提取次特征,在操作310,可通过仅使用斜率信息进行关于输入图像是否为文档图像的次确定。然而,根据本公开的实施例,除此之外,针对相应的输入图像中的每个像素,当在操作310提取次特征时,还可与在操作302的主特征提取操作一样提取关于特征点的总数的信息,以使该信息包括在次特征中,次特征包括对应于被确定为与比较像素不相似的像素的特征点,其中,通过比较相应的像素与邻近比较像素来进行所述确定,所述比较像素与相应的像素不邻近并与相应的像素隔开预定距离。在这种情况下,可照常使用在主特征提取操作中提取的关于特征点的信息。
此外,在操作310提取关于特征点周围的十六个比较像素中具有最低颜色值(即,最低亮度值)的像素的颜色值信息。如以下将描述的,提取这样的颜色值信息,以便在不使用特征点本身的亮度值时使用***比较像素的最低颜色值。换句话说,由于在各种文档图像中通过快速特征算法从比较大尺寸的字符获得的特征点有时被设置为字符之外的像素,因此,目的在于使用特征点周围的最低颜色值,这与用于主分类标准的方法不同。
在操作310提取了次特征之后,随后,在操作312,将预先设置的次分类标准应用于在操作310提取的次特征,以将相应图像分类为文档图像或非文档图像。这样设置次分类标准,使得当在操作310获得的形态的斜率的偏差减小时、当特征点的总数增加时以及当特征点的比较像素的最低颜色值的偏差减小时,相应的图像更可能被分类为文档图像。此时,通过使用利用径向基函数(RBF)核的支持矢量机(SVM)的机器学习算法,在单独的计算环境中预先设置的非线性分类标准可应用于三个变量。
当在操作312应用次分类标准并且在操作310仅获得了关于斜率的信息的情况下时,仅可将斜率的标准偏差应用为分类标准。
如上所述,在针对各个形态的斜率的偏差减小的情况下,输入图像更可能被视为文档图像。在那种情况下将输入图像分类为文档图像的原因为:在许多情况下,存在于相应的图像中的字符形态具有相同或相似角度的斜率。同时,即使当倾斜拍摄相应图像,使得不与将被拍摄的目标文档平行或垂直时,存在于相应图像中的字符形态的斜率同样地倾斜,从而可通过确定斜率是否彼此相似来确定相应的图像是否为文档图像。
在操作312将次分类标准应用于次特征之后,随后在操作314确定相应的输入图像是否为文档图像。当确定相应输入图像为文档图像时,操作流进行到操作308,并且将相应的输入图像分类为文档图像。可选择地,当确定相应的输入图像不是文档图像时,操作流进行到操作316。在操作316,将相应的输入图像分类为非文档图像。
图10A和图10B示出根据本公开的实施例的根据图3中示出的操作的结果分类的文档图像。
参照图10A和图10B,尽管为了方便描述,可将标签“Document(文档)”分别添加到图10A和图10B的图像,但是本公开不限于此。即,根据本公开的实施例,标签“Document”可不另外与原始图像组合,并且根据本公开的实施例,这样的指示图像是文档图像的标识符还可与原始图像组合或显示在原始图像的缩略图中。
通过图3中示出的操作的概述,可以看出在本公开的实施例中执行两步分类操作以对文档图像进行分类。即,在主分类的情况下,将具有基本相同的背景颜色和字符颜色的文档图像进行分类,在次分类的情况下,将包括字符但是由于数量少且尺寸和形状多样而未被分类为文档图像的文档图像(诸如公车时刻表、菜单、墙报、海报等)进行分类。
图11是示出根据本公开的实施例的应用了文档图像识别操作的拍摄操作的流程图。
参照图11,可在图1中示出的装置的控制器的控制下执行拍摄操作。如图11所示,可将应用了本公开的拍摄操作分类为在拍摄模式110下的操作和在照片存储模式120下的操作,作为示例,在图11中示出的实施例中,在拍摄模式110下执行本公开的文档图像识别方法。
可通过用户对预先单独安装在便携式终端中的拍摄键的操纵或用户在菜单环境下对进行拍摄的菜单的选择来启动图11中示出的拍摄操作。
在拍摄模式110下,在操作111,可通过显示单元将当前通过相机单元输入的图像显示为预览图像。在操作112,从预览图像选择一个静止图像。在操作114,将选择的静止图像分类为文档图像或非文档图像。可通过图3中示出的文档/非文档分类操作执行操作114中的文档/非文档图像分类。
在操作115,根据操作114的分类结果设置文档拍摄模式或非文档拍摄模式。换句话说,在操作115,根据在操作114获得的分类结果,构造具有根据文档图像或非文档图像而被预先适当且不同地设置的拍摄条件的文档和/或非文档拍摄模式。随后,在操作116确定是否操纵了快门键。当确定操纵了快门键时,在操作117,根据当前文档或非文档拍摄条件来执行拍摄操作。用于操作115和117的文档图像的拍摄条件可包括诸如曝光、快门速度、灵敏度等的设置条件,使得字符与背景之间的对比度被进一步加强,所述拍摄条件还可包括禁用自动闪光模式。
在操作117之后,执行照片存储模式120,之后在操作128确定是否满足结束拍摄的条件(诸如对单独设置的结束键(例如,主屏按钮)的输入)。当满足结束拍摄的条件时,结束拍摄操作。此时,在照片存储模式120下,可通过使用相应的拍摄的图像的文档/非文档信息,将分类为文档图像的拍摄的图像以及分类为非文档图像的拍摄的图像不同地存储在单独的存储文件夹中,或者还可在拍摄的图像上显示指示拍摄的图像为文档图像的元数据的状态下存储已分类为文档图像的拍摄的图像。
如上所述,可根据本公开的实施例进行文档图像识别的配置和操作,并且尽管上面已经描述了本公开的特定实施例,但是在不脱离本公开的范围和精神的情况下,可进行各种修改。
例如,在以上描述的实施例中,已将根据本公开的文档/非文档图像识别技术应用于包括拍摄模式和照片存储模式的拍摄操作。然而,除此之外,还可将根据本公开的文档/非文档图像识别技术应用于从先前存储的照片图像中集体地识别和/或搜索文档图像或非文档图像的操作。此外,根据本公开的文档/非文档图像识别技术可与图像字符识别技术配合工作和/或组合。
尽管本公开的实施例应用于通过便携式终端拍摄的照片图像,但是根据本公开的文档/非文档图像识别技术除了应用于便携式终端之外,还可应用于其它计算环境(诸如联网计算机、桌上型计算机以及其它相似和/或适当计算环境),并且根据本公开的文档/非文档图像识别技术可充分应用于通过分析从其它外部装置传送的图像来识别文档图像或非文档图像的操作。
尽管根据图3中示出的本公开,已在本公开中描述了可在文档/非文档图像识别操作期间,将相应的图像中的特征点的总数、关于针对每个特征点具有最低颜色值的比较像素的信息、以及在相应的图像中的字符预测区域的斜率偏差用作次特征,但是在本公开的实施例中,还可将在相应的图像中的字符预测区域的斜率偏差排除在外,而将相应的图像中的特征点的总数和关于针对每个特征点具有最低颜色值的比较像素的信息用作次特征。
此外,可与本公开的背景技术中描述的边缘检测方法并行地执行根据本公开的文档/非文档图像识别操作,或可结合边缘检测方法执行根据本公开的文档/非文档图像识别操作。
将理解,可以以硬件、软件或者硬件和软件的组合来实现本公开的各种实施例。不管是否可擦除或可重新记录,这样的可选软件可被存储在非易失性存储装置(诸如只读存储器(ROM))、诸如随机存取存储器(RAM)的存储器、存储芯片、存储装置、集成电路(IC)、处理器、控制器、专用IC(ASIC)中或者可由机器(例如,计算机)光或电磁地记录和读取的存储介质(诸如致密盘(CD)、数字多功能盘(DVD)、磁盘或磁带)。将理解,可包含在便携式终端中的存储器可以是适合存储程序的机器可读存储介质的示例,所述程序包括执行本公开的各种实施例的命令。因此,本公开的实施例提供包括用于实现权利要求书中的任何一个权利要求所要求保护的设备或方法的代码的程序和用于存储这样的程序的机器可读装置。此外,可通过任意介质(诸如通过电缆或无线连接传送的通信信号)电传送上述的这样的程序,并且本公开恰当包括与其等效的元件和/或单元。
尽管已参照本公开的各种实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由权利要求及其等同物限定的本公开的精神和范围的情况下,可在形式和细节上做出各种改变。
Claims (16)
1.一种识别文档图像的方法,所述方法包括:
通过将与比较像素不相似的每个像素和比较像素进行比较来将所述每个像素确定为特征点,从而从输入图像提取包括关于特征点的信息的主特征,其中,比较像素与所述每个像素隔开预定距离;
通过将包括特征点的总数的标准的预设主分类标准应用于主特征,来将输入图像分类为文档图像或非文档图像。
2.如权利要求1所述的方法,其中,预设主分类标准包括通过使用机器学习算法预先设置的分类标准,使得当针对主特征提取的特征点的总数增加时以及当特征点的颜色值的偏差减小时,输入图像被分类为文档图像。
3.如权利要求1或2所述的方法,其中,将输入图像转换为黑白图像,
其中,当确定了特征点时,将与被确定的像素放射式地隔开预定距离的十六个***像素设置为比较像素。
4.如权利要求1所述的方法,还包括:
当通过应用预设主分类标准将输入图像分类为文档图像或非文档图像的结果为确定输入图像不是文档图像时,将存在于输入图像的预设区域中的分离形态确定为字符预测区域;
获得包括各个字符预测区域的形态的最小面积矩形;
提取包括关于获得的最小面积矩形的斜率的信息的次特征;
通过将包括针对斜率的不同的标准的预设次分类标准应用于次特征,来将输入图像分类为文档图像或非文档图像。
5.如权利要求4所述的方法,其中,次特征还包括:
关于输入图像的特征点的总数的信息;
关于特征点的比较像素中具有最低颜色值的比较像素的颜色值的信息,
其中,次分类标准包括非线性分类标准,非线性分类标准通过使用机器学习算法被预先设置,使得当斜率的偏差减小时,当特征点的总数增加时以及当具有最低颜色值的比较像素的颜色值的偏差减小时,输入图像被分类为文档图像,
其中,已针对次特征提取了斜率、特征点的总数和颜色值。
6.如权利要求4或5所述的方法,其中,将输入图像转换为二进制码图像,
其中,当提取次特征时,邻近字符的形态通过形态膨胀操作彼此连接。
7.一种用于识别文档图像的装置,所述装置包括:
相机单元,被构造为拍摄外部目标对象;
图像处理单元,被构造为对由相机单元拍摄的图像和从外部装置传送的图像中的至少一个图像执行图像处理操作,
其中,图像处理单元被构造为:通过将与比较像素不相似的每个像素和比较像素进行比较来将所述每个像素确定为特征点,从而从输入图像提取包括关于特征点的信息的主特征,其中,比较像素与所述每个像素隔开预定距离,
其中,图像处理单元被构造为:通过将包括特征点的总数的标准的预设主分类标准应用于主特征,来将输入图像分类为文档图像或非文档图像。
8.如权利要求7所述的装置,其中,预设主分类标准包括通过使用机器学习算法预先设置的分类标准,使得当针对主特征提取的特征点的总数增加时以及当特征点的颜色值的偏差减小时,输入图像被分类为文档图像。
9.如权利要求7或8所述的装置,其中,图像处理单元被构造为将输入图像转换为黑白图像,
其中,图像处理单元被构造为当确定了特征点时,将与被确定的像素放射式地隔开预定距离的十六个***像素设置为比较像素。
10.如权利要求7所述的装置,其中,图像处理单元被构造为:当通过应用预设主分类标准将输入图像分类为文档图像或非文档图像的结果为确定输入图像不是文档图像时,将存在于输入图像的预设区域中的分离形态确定为字符预测区域;
其中,图像处理单元被构造为获得包括各个字符预测区域的形态的最小面积矩形;
其中,图像处理单元被构造为提取包括关于获得的最小面积矩形的斜率的信息的次特征;
其中,图像处理单元被构造为通过将包括针对斜率的不同的标准的预设次分类标准应用于次特征,来将输入图像分类为文档图像或非文档图像。
11.如权利要求10所述的装置,其中,次特征还包括:关于输入图像的特征点的总数的信息;关于特征点的比较像素中具有最低颜色值的比较像素的颜色值的信息,
其中,次分类标准包括非线性分类标准,非线性分类标准通过使用机器学习算法被预先设置,使得当斜率的偏差减小时,当特征点的总数增加时以及当具有最低颜色值的比较像素的颜色值的偏差减小时,输入图像被分类为文档图像,
其中,已针对次特征提取了斜率、特征点的总数和颜色值。
12.如权利要求10或11所述的装置,其中,图像处理单元被构造为当提取次特征时将输入图像转换为二进制码图像,
其中,图像处理单元被构造为将邻近字符的形态通过形态膨胀操作彼此连接。
13.一种使用如权利要求1至6中的任何一个所述的识别文档图像的方法的拍摄方法,所述拍摄方法包括:
通过预设拍摄操纵对目标对象执行拍摄操作;
将拍摄的图像分类并存储为文档图像或非文档图像。
14.如权利要求13所述的方法,还包括:
将分类为文档图像或非文档图像的图像不同地存储在单独的存储文件夹中;
将指示图像为文档图像的信息添加到被分类为文档图像的图像。
15.一种使用如权利要求1至6中的任何一个所述的识别文档图像的方法的拍摄方法,所述拍摄方法包括:
将通过相机单元输入的图像显示为预览图像;
从预览图像中选择一个静止图像;
将选择的静止图像分类为文档图像或非文档图像;
根据对选择的静止图像的分类的结果设置文档拍摄条件或非文档拍摄条件;
当检测到对拍摄键的预设操纵时,根据当前设置的文档拍摄条件或非文档拍摄条件执行拍摄操作。
16.如权利要求15所述的方法,还包括:
将分类为文档图像或非文档图像的图像不同地存储在单独的存储文件夹中;
将指示图像为文档图像的信息添加到被分类为文档图像的图像。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120128147A KR101992153B1 (ko) | 2012-11-13 | 2012-11-13 | 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법 |
KR10-2012-0128147 | 2012-11-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103810471A true CN103810471A (zh) | 2014-05-21 |
CN103810471B CN103810471B (zh) | 2018-11-13 |
Family
ID=49585289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310572149.2A Expired - Fee Related CN103810471B (zh) | 2012-11-13 | 2013-11-13 | 识别文档图像的方法和装置及其拍摄方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9628660B2 (zh) |
EP (1) | EP2731054B1 (zh) |
KR (1) | KR101992153B1 (zh) |
CN (1) | CN103810471B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590082A (zh) * | 2014-10-22 | 2016-05-18 | 北京拓尔思信息技术股份有限公司 | 文档图像识别方法 |
CN107506362A (zh) * | 2016-11-23 | 2017-12-22 | 上海大学 | 基于用户群优化的图像分类仿脑存储方法 |
CN108737712A (zh) * | 2017-04-24 | 2018-11-02 | 中兴通讯股份有限公司 | 一种拍照方法和装置 |
CN110463177A (zh) * | 2017-04-06 | 2019-11-15 | 华为技术有限公司 | 文档图像的校正方法及装置 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721259B2 (en) | 2012-10-08 | 2017-08-01 | Accenture Global Services Limited | Rules-based selection of counterfeit detection techniques |
US10181102B2 (en) * | 2015-01-22 | 2019-01-15 | Tata Consultancy Services Limited | Computer implemented classification system and method |
SG10201914031XA (en) | 2015-08-03 | 2020-03-30 | Angel Playing Cards Co Ltd | Fraud detection system in casino |
US10061980B2 (en) | 2015-08-20 | 2018-08-28 | Accenture Global Services Limited | Digital verification of modified documents |
US10116830B2 (en) | 2016-09-15 | 2018-10-30 | Accenture Global Solutions Limited | Document data processing including image-based tokenization |
CN107743195A (zh) * | 2017-10-09 | 2018-02-27 | 惠州Tcl移动通信有限公司 | 一种拍照方法、移动终端及存储介质 |
CN111201787B (zh) * | 2017-10-16 | 2022-09-20 | 索尼公司 | 成像装置、图像处理装置和图像处理方法 |
KR102516366B1 (ko) | 2018-05-30 | 2023-03-31 | 삼성전자주식회사 | 특징 데이터 획득 방법 및 장치 |
KR102109855B1 (ko) * | 2019-03-06 | 2020-05-12 | 서울대학교산학협력단 | Sift 구분자를 활용한 실내도면 이미지에서의 텍스트 정보 구축 방법 |
US11212397B1 (en) * | 2020-06-30 | 2021-12-28 | Kyocera Document Solutions Inc. | Image reading system, image forming system, and image reading method for dividing each area into blockchains |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010012400A1 (en) * | 1996-11-18 | 2001-08-09 | Shin-Ywan Wang | Page analysis system |
US20030072568A1 (en) * | 2001-10-17 | 2003-04-17 | Qian Lin | Automatic document detection method and system |
US20050281463A1 (en) * | 2004-04-22 | 2005-12-22 | Samsung Electronics Co., Ltd. | Method and apparatus for processing binary image |
CN102592123A (zh) * | 2010-05-21 | 2012-07-18 | 手持产品公司 | 用于在图像信号中捕获文档的交互式用户接口 |
CN103198311A (zh) * | 2011-12-13 | 2013-07-10 | 三星电子株式会社 | 基于拍摄的图像来识别字符的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233353B1 (en) * | 1998-06-29 | 2001-05-15 | Xerox Corporation | System for segmenting line drawings from text within a binary digital image |
US8521737B2 (en) | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
JP2009506393A (ja) | 2005-08-23 | 2009-02-12 | 株式会社リコー | 混合メディア環境における画像照合方法及びシステム |
CN101551859B (zh) | 2008-03-31 | 2012-01-04 | 夏普株式会社 | 图像辨别装置及图像检索装置 |
KR101169140B1 (ko) * | 2010-02-17 | 2012-07-30 | 고려대학교 산학협력단 | 문자 영역 추출을 위한 영상 생성 장치 및 방법 |
-
2012
- 2012-11-13 KR KR1020120128147A patent/KR101992153B1/ko active IP Right Grant
-
2013
- 2013-11-13 CN CN201310572149.2A patent/CN103810471B/zh not_active Expired - Fee Related
- 2013-11-13 EP EP13192659.4A patent/EP2731054B1/en not_active Not-in-force
- 2013-11-13 US US14/079,156 patent/US9628660B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010012400A1 (en) * | 1996-11-18 | 2001-08-09 | Shin-Ywan Wang | Page analysis system |
US20030072568A1 (en) * | 2001-10-17 | 2003-04-17 | Qian Lin | Automatic document detection method and system |
US20050281463A1 (en) * | 2004-04-22 | 2005-12-22 | Samsung Electronics Co., Ltd. | Method and apparatus for processing binary image |
CN102592123A (zh) * | 2010-05-21 | 2012-07-18 | 手持产品公司 | 用于在图像信号中捕获文档的交互式用户接口 |
CN103198311A (zh) * | 2011-12-13 | 2013-07-10 | 三星电子株式会社 | 基于拍摄的图像来识别字符的方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590082A (zh) * | 2014-10-22 | 2016-05-18 | 北京拓尔思信息技术股份有限公司 | 文档图像识别方法 |
CN105590082B (zh) * | 2014-10-22 | 2019-02-22 | 北京拓尔思信息技术股份有限公司 | 文档图像识别方法 |
CN107506362A (zh) * | 2016-11-23 | 2017-12-22 | 上海大学 | 基于用户群优化的图像分类仿脑存储方法 |
CN107506362B (zh) * | 2016-11-23 | 2021-02-23 | 上海大学 | 基于用户群优化的图像分类仿脑存储方法 |
CN110463177A (zh) * | 2017-04-06 | 2019-11-15 | 华为技术有限公司 | 文档图像的校正方法及装置 |
CN108737712A (zh) * | 2017-04-24 | 2018-11-02 | 中兴通讯股份有限公司 | 一种拍照方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP2731054A3 (en) | 2016-04-20 |
US20140132799A1 (en) | 2014-05-15 |
US9628660B2 (en) | 2017-04-18 |
EP2731054A2 (en) | 2014-05-14 |
KR20140061033A (ko) | 2014-05-21 |
EP2731054B1 (en) | 2019-09-25 |
CN103810471B (zh) | 2018-11-13 |
KR101992153B1 (ko) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103810471A (zh) | 识别文档图像的方法和装置及其拍摄方法 | |
US10674083B2 (en) | Automatic mobile photo capture using video analysis | |
US9998651B2 (en) | Image processing apparatus and image processing method | |
US8704914B2 (en) | Apparatus to automatically tag image and method thereof | |
US8988347B2 (en) | Image processing apparatus, image displaying method, and image displaying program | |
KR102022444B1 (ko) | 복수의 카메라를 구비한 휴대 단말에서 유효한 영상들을 합성하기 위한 방법 및 이를 위한 휴대 단말 | |
KR102036337B1 (ko) | 발신자 전화번호를 이용한 부가 정보 제공 장치 및 방법 | |
RU2643464C2 (ru) | Способ и устройство для классификации изображений | |
WO2018072271A1 (zh) | 一种图像显示优化方法及装置 | |
EP2194473A2 (en) | Image processing apparatus, image display method, and image display program | |
CN104463103B (zh) | 图像处理方法及装置 | |
US9058655B2 (en) | Region of interest based image registration | |
EP2677501A2 (en) | Apparatus and method for changing images in electronic device | |
CN105590298A (zh) | 从图像提取并校正对象的图像数据 | |
WO2018184260A1 (zh) | 文档图像的校正方法及装置 | |
US20150062126A1 (en) | Electronic device and operation method thereof | |
US8687089B2 (en) | Method and apparatus for managing an album | |
WO2019137259A1 (zh) | 图像处理方法、装置、存储介质及电子设备 | |
US9767588B2 (en) | Method and apparatus for image processing | |
JP2007133838A (ja) | 画像表示方法及び画像表示プログラム | |
JP5402026B2 (ja) | 電子カメラおよび画像処理プログラム | |
CN110728167A (zh) | 文本检测方法、装置及计算机可读存储介质 | |
JP2015069580A (ja) | 人物画像分類装置、人物画像分類方法、及び、プログラム | |
US10958955B1 (en) | System for generating modified video output | |
CN111597369A (zh) | 照片查看方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181113 |
|
CF01 | Termination of patent right due to non-payment of annual fee |