CN103069452A - 书籍读取***及书籍读取方法 - Google Patents
书籍读取***及书籍读取方法 Download PDFInfo
- Publication number
- CN103069452A CN103069452A CN2011800401020A CN201180040102A CN103069452A CN 103069452 A CN103069452 A CN 103069452A CN 2011800401020 A CN2011800401020 A CN 2011800401020A CN 201180040102 A CN201180040102 A CN 201180040102A CN 103069452 A CN103069452 A CN 103069452A
- Authority
- CN
- China
- Prior art keywords
- books
- image
- page
- pattern
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title description 35
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000012937 correction Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 8
- 230000009467 reduction Effects 0.000 description 21
- 230000009471 action Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000009466 transformation Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013316 zoning Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/04—Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0007—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/521—Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Optics & Photonics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Image Analysis (AREA)
- Facsimile Scanning Arrangements (AREA)
- Image Input (AREA)
Abstract
提供一种一边翻开装订的书籍一边高速读取记载于书籍的信息的技术。页面状态测定部(2)测定已翻开的书籍的页面状态。书籍图像获取部(1)的多个第一照相机(11)从彼此不同的方向多次分别获取有关书籍的页面的书籍图像。数据处理部(3)使用由页面状态测定部(2)测定的书籍的页面状态的信息修正由书籍图像获取部(1)获取的书籍图像。
Description
技术领域
本发明涉及书籍读取***及书籍读取方法。尤其,本发明涉及适用于一边翻开装订的书籍一边自动读取书籍中所记载的信息的技术。
背景技术
利用多张图像还原形状的技术从模型的建模到建筑物的还原持续产生大量具有魅力的应用。但是,该大量的技术一直以对象物体为刚体为前提来解决各种课题。在对象为非刚体的情况下,由于形状变形的大前提的不同,要求采用新的方法解决问题。作为对象为非刚体时的形状还原,近年来提出了一些方法,但尚未确立如刚体的情况那般标准的方法。因此,在计算机视觉的领域成为挑战的课题。
认为非刚体的变形估计具有技术挑战性,并且即使在其应用中,从产业检查到娱乐领域均可以广泛地做出创新的贡献。在目前为止的相同的方法涉及的报告中未提议确定的应用开展,但提出了高适用性的途径。例如,进行用于估计纸、罐、T恤衫、游艇的帆等的变形的评价实验。特别是以材质的非伸缩性为限制条件进行利用且将焦点置于只变形的还原。
在此,认为现有的变形模型所导入的对象的非伸缩性的意思是,只要对象本来是从平面变形的,就可以展开成平坦的状态。该展开的操作在还原问题上可能具有重要的意义。具体而言,可以利用对所有的观测图像展开的纹理图像只存在一种的条件。这样,利用观测到的图像一并实施对象表面的纹理的还原时,认为在应用和技术上的两个侧面具有大的优点。
认为这种技术对于书籍电子化的领域有贡献。近年来,面向书籍电子化的需求在全世界变高。书籍电子化需要高速性和高精确,但兼备其两者的***尚未实现。至此,通常将书籍按一页固定并依次对相对平坦的状态的纸面进行电子化的样式,存在需要时间的问题。
为解决该问题,提倡不在书籍的页面翻开动作中停止动作而进行电子化的书籍翻开扫描(Book Flipping Scanning)(下述非专利文献1)。
认为通过该新的方法,从业务用途到个人用途根据各种必要性产生几个***结构。例如,提出了通过使用三维传感器,实时获取形状,使用该形状的信息校正通过照相机获取的失真的书籍图像的类型的***(下述非专利文献1)。但是,该***仅由1台照相机构成,并且每一页仅拍摄一次,因此,在书籍图像的分辨率低这一点及纸面重叠产生死角这一点上有改善的余地。
现有技术文献
非专利文献
非专利文献1:[1]T.Nakashima,Y.Watanabe,T.Komuro,and M.Ishikawa.Book flipping scanning.22nd Symposium on User Interface Software andTechnology(UIST2009)(Victoria,2009.10.5)/Adjunct Proceedings,pp.79-80,2009.
发明内容
发明要解决的课题
但是,在执行将翻开动作中的书籍连续电子化的***时,有时因翻开中的某页面的背后隐藏下一页面,或者没有预料的页面失真,因而不能获取适宜的书籍图像。于是,可能不能适当地还原书籍图像。另外,高速的照相机由于分辨率会降低,所以存在电子化的书籍图像的精确度低的问题。
即,为了书籍电子化,在这一点上有改善的余地。
本发明是鉴于所述的情况而创立的。本发明的目的在于,提供一种为了一边翻开页面一边获取正确的书籍图像而可利用的技术。
用于解决课题的方案
解决所述的课题的发明如以下项目所记载。
(项目1)
一种书籍读取***,其特征在于,
具备页面状态测定部、书籍图像获取部和数据处理部,
所述页面状态测定部的结构为测定已翻开的书籍的页面状态,
所述书籍图像获取部具备多个第一照相机,
所述多个第一照相机的结构为从彼此不同的方向分别获取有关所述书籍的页面的书籍图像,
所述数据处理部的结构为使用由所述页面状态测定部测定的所述书籍的页面状态的信息校正由所述书籍图像获取部获取的所述书籍图像。
(项目2)
如项目1所述的书籍读取***,其中,
所述页面状态测定部具备用于朝向所述书籍的页面投影既定的图案的图案光源,
所述多个第一照相机的结构为进一步获取投影了所述图案的页面的形状图像。
(项目3)
如项目2所述的书籍读取***,其中,
所述多个第一照相机的结构为在从所述图案光源投影所述图案的定时获取所述形状图像且在未从所述图案光源投影所述图案的定时获取所述书籍图像。
(项目4)
如项目1所述的书籍读取***,其中,
所述页面状态测定部具备形状图像用的第二照相机,
所述第二照相机具备使从所述图案光源投影的波长的光透过且遮蔽其以外的环境光的滤波器,
所述图案光源的结构为使用既定的波长的光朝向所述书籍的页面投影所述既定的图案,
由此,所述第二照相机能够获取投影于所述书籍的页面的所述既定的图案。
(项目5)
如项目1~4中任一项所述的书籍读取***,其中,
所述第一照相机的结构为在所述书籍的每一页面获取多张的书籍图像,
所述数据处理部的结构为通过统一所述多张的书籍图像的信息从而提高校正了页面形状的失真的书籍图像的精确度。
发明效果
根据本发明,获取利用多个第一照相机拍摄印刷于书籍的纸面的字符或绘画的图像(书籍图像),因此,与单一的照相机的情况相比,能够更高精度地校正书籍图像而将书籍的信息电子化。进而,本发明的其它目的在于,通过统一对变形中的纸面拍摄了多次的书籍图像,从而与仅根据对一个页面拍摄了一次的书籍图像进行校正的情况相比,进行高质量的书籍电子化。
附图说明
图1是表示本发明的第一实施方式中的书籍读取***的概略性结构的方框图。
图2是用于说明本发明第一实施方式中的照相机及图案光源的配置的说明图。
图3是用于说明本发明第一实施方式中的书籍读取***的整体的动作的流程图。
图4是用于说明获取页面初始形状的步骤的流程图。
图5是用于说明可展面的说明图。
图6是用于说明可展面的平面展开的说明图。
图7是用于说明页面位置的估计的说明图。
图8是用于说明可展面的估计的说明图。
图9是用于说明还原展开的校正图像的步骤的说明图。
图10是用于说明页面形状的还原的流程图。
图11是用于说明还原页面的三维形状的步骤的说明图。
图12是表示本发明第二实施方式的书籍读取***的概略性结构的方框图。
具体实施方式
下面,参照附图说明本发明第一实施方式的书籍读取***。
(第一实施方式的结构)
本实施方式的书籍读取***具备书籍图像获取部1、页面状态测定部2、数据处理部3、控制部4(参照图1)。
书籍图像获取部1具备多个第一照相机11和扩散光源12。
多个第一照相机11为从彼此不同的方向分别获取有关书籍的页面的书籍图像的结构。第一照相机11在书籍的信息中被阵列状配置。另外,第一照相机11朝向书籍配置,可拍摄书籍的各页面。
在第一照相机11为多台的情况下,优选以能够将书籍的页面分割拍摄的方式进行配置。另外,各照相机的拍摄区域优选为重复。第一照相机11为奇数台的情况下,在上述的偶数台照相机的配置的基础上,优选剩余的一台以能够拍摄页面整体的方式进行配置。
另外,上述第一照相机优选在每次翻开一张页面时,可以以能够拍摄多张书籍图像的程度进行高速动作。
扩散光源12通过控制部4与第一照相机11的动作时期同步进行动作。即,扩散光源12在第一照相机11获取书籍图像时接通,容易获取鲜明的书籍图像。扩散光源12照射第一照相机11应拍摄的书籍。但是,在环境光充足的情况下,可以省略扩散光源12。
页面状态测定部2为测定已翻开的书籍的页面状态的结构。更详细而言,本实施方式的页面状态测定部2具备图案光源22。图案光源22用于朝向书籍的页面投影既定的图案。在本实施方式中,由多个第一照相机11获取照射了来自图案光源22的图案的页面的图像(形状图像)。另外,作为图案光源22,在本实施方式中使用投影仪。更详细而言,多个第一照相机11为在从图案光源投影图案的定时(第f帧)获取形状图像,在未从图案光源投影图案的定时(第f+1帧)获取书籍图像的结构。图案光源22可以设置多台。但是,在以下的说明中,假定图案光源22为一台。此外,关于形状图像,也如后述,优选以能够按每一页面拍摄多张的方式构成。
图2表示第一照相机11和图案光源22的配置例。图2是从侧面观测***和书籍的动作的图。假设书籍被一页一页地翻开。图中表示某瞬间的书籍的样态,但纸面总是变动。在此,将书籍的装订部中心设为原点0,将水平轴设为x轴,将垂直轴设为y轴。将到纸面的中心的距离设为r,根据翻开动作描绘同轴心的半径为r的半圆。此时,若将翻开的纸面的旋转角设为θ,则期望将照相机11和图案光源设置在成为如下的位置。
在此,D是书籍的纸面的中心和至设置照相机/图案光源的距离,是由各器件(照相机至光源)的画角决定的参数。因此,在同模型描绘的曲线上任意并排照相机和光源。
在此,假设所有的照相机和光源的位置关系和内部参数被预先获取。将该获取作业称作校准(calibration)。因此,在本实施方式中可以进行所有的照相机图像之间的坐标变换。
数据处理部3为使用由页面状态测定部2测定的书籍的页面状态的信息校正由书籍图像获取部1获取的书籍图像的结构。更具体而言,该实施方式的数据处理部3具备页面初始形状获取部31、校正图像还原部32、形状还原部33。有关数据处理部3的具体的动作后述。数据处理部3例如可以由安装于计算机硬件的计算机程序构成。
控制部4用于在既定的定时使书籍图像获取部1和页面状态测定部2动作。关于控制部4的书籍图像获取部1及页面状态测定部2的动作定时后述。另外,控制部4例如也可以由安装于计算机硬件的计算机程序构成。
(第一实施方式的动作)
下面,参照图3说明本实施方式的书籍读取***的动作。
(图3的步骤SA-1及2)
首先,通过控制部4驱动页面状态测定部2和书籍图像获取部1,分别获取书籍的形状图像和书籍图像。
更具体而言,例如,在t时刻扩散光源发光,同时由多个第一照相机11获取书籍图像。接着,在t+1时刻图案光源发光,同时由多个第一照相机获取形状图像。通过重复该动作,能够获取多张书籍图像及形状图像。书籍图像和形状图像的拍摄周期可以根据页面翻开速度适宜决定,优选以在从各页面的页面翻开开始到页面翻开终点为止的期间能够获取多个书籍图像和形状图像的方式设定拍摄周期。
获取的书籍图像及形状图像依次被送入数据处理部3。
(图3的步骤SA-3)
下面,通过数据处理部3的页面初始形状获取部31获取有关形状图像的各拍摄时刻的页面初始形状。进一步参照图4说明该处理。
(图4的步骤SB-1)
(关于可展面)
在此,说明在本实施方式的说明中提及的可展面。可展面是指在作为直线向量ξ移动时的包络面而描绘的曲面中曲面上的任意点的高斯曲率为0的曲面。在此,将描绘可展面的各直线称作母线。另外,将连接母线(rulings)的曲线向量γ称作准线(directrix)(参照图5)。可展面的一般式以X(s,r)=γ(s)+rξ(s)记述。s是曲线γ的曲线长,r表示单位向量ξ的方向和长度。作为可展面的记述例,有如下的式子。
该情况下,通过确定准线,能够设定成为可展面的曲面,因此,决定可展面的模型参数被定义为定义准线的参数。也考虑其它定义,但本说明中主要以同模型为前提使用。
另外,可展面能够在平面上展开而不会伸缩断裂。在本实施方式中,在估计了表示纸面变形的可展面后,通过进行该平面展开,进行观测图像上的失真的校正。之后,将校正了失真的图像称作校正图像。在此,参照图6说明平面展开。在展开前和展开后的坐标系中保存距离。因此,展开的面的坐标表示为Q(s,r)=L(s)+rη(s)。另外,准线为测地线,因此,在展开后的平面上成为直线L。进而,准线γ和母线ξ间的角度与展开后的直线L和对应于母线的η相同。使用这些关系,可求取可展面上的各点在展开后所处的坐标。
(使用形状图像计算三维形状的方法:SB-1)
下面说明根据形状图像计算可展面的三维形状的方法。本步骤中,确定形状图像的各点与实际投影的光源图案的哪一位置对应,利用该对应,通过三角测量导出各点的三维位置。
例如,形状图像中的点和光源图案中的点的对应如下解决,即,在书籍的纸面变形的范围预先已知的情况下,以在形状图像上能够唯一地确定图案的方式设计图案,同时设置照相机和光源图案。作为简单的例子,对图案为由平行的多个线段构成的多线的图案的情况进行说明。从光源投影的各线由对象物体的表面反射并被照相机捕获。由照相机捕获的线的位置根据反射的场所和照相机的位置变化。在照相机被固定,对象的测量范围预先已知的情况下,各线在照相机上变化的范围可以设为已知。可以以该各线的变化范围不与其它线重复的方式设置照相机和光源。由此,可以唯一地确定在照相机上观测到的线相当于投影的图案的哪一位置。
或者,通过利用成为样品的书籍图像的方法,解决形状图像和光源图案的对应。该方法中,在***设置后预先拍摄因书籍的变形而产生的形状图像的多个事例图像。同事例图像和光源图案的对应手动进行。在观测时,进行输入的形状图像和同事例图像的对照,发现相关最高的图像。之后,以输入的形状图像的各点,在检测出的事例图像的各点附近搜索并发现以同一点为中心的局部区域的相关最高的位置。将相当于在事例图像中发现的点的图案的位置对应至形状图像的点。
在第一实施方式中,通过定时控制获取形状图像和书籍图像,因此,获取这些图像的时刻不同。通过相对于纸面变形的速度充分高速地进行拍摄,考虑该时刻偏差带来的精度的劣化通过下述的方法被补偿。即,在照相机的帧率非常高的情况下,将由形状图像算出的三维点群作为对于连续的时刻的书籍图像的数据进行分配。另一方面,在该假定难以成立的情况下,使用下述方法的任一方法估计书籍图像在被获取的时刻的形状。本方法对各观点的数据适用。
(方法1)
图7表示该方法的概要。假设输入图像的透镜失真已被校正。首先,求通过透视投影的关系式
ωut=PXt
所导出的连接照相机的光学中心和图像点的三维直线与算出的时刻t-1和t+1的曲面形状的交点Xt-1,Xt+1。曲面形状通过根据利用上述的方法算出的三维点群求近似的连续曲面而获取。将两点的中央值设为如下。
Xt(ut)
对书籍图像上的多个位置重复相同步骤,计算时刻t的三维点的集合。
(方法2)
通过以连续的三个时刻拍摄的图像来获取对应点。为获取对应点,准备三张连续的图像。在此,假设准备了时刻t-1、t、t+1的图像。此外,以第t-1、t+1时刻的图像为形状图像,以第t时刻的图像为书籍图像。
首先,在时刻t的图像内任意设定代表点。其次,切出以同点为中心的局部区域的图像Is。在时刻t-1的图像内设定以与代表点相同的坐标为中心的附近范围。在同范围内扫描图像Is,在范围内的各点计算切出的图像Is和时刻t-1的图像It-1的图像相关。决定相关最高的时刻t-1的图像上的位置。将同位置设为与时刻t的代表点对应的位置。对于第t+1时刻的图像也进行同样的步骤。另外,设定多个代表点,重复相同步骤,获取对应点的集合。此外,假设投影了图案的位置不作为代表点进行设定。
接着,求获取的图像点ut±1的三维位置Xt±1。计算式设为下述二式。
求出时刻t-1、t+1的三维点后,求对应的时刻t的三维点。因此,求解
评价函数 制约条件 的附带制约的最小化问题。
(图3的步骤SB-2)
在本实施方式中,第一照相机有多个。因此,使用通过校准得到的坐标变换将由各照相机的坐标系记述的形状与基准坐标系对齐。基准坐标系选择一个主照相机,设定同照相机的坐标系。这样,每时刻使所有的照相机的形状在同一坐标系移动。
(图4的步骤SB-3)
在步骤SB-2,叙述以对齐到同一坐标的三维点群为输入的可展面的形状估计。作为可展面的模型,利用设为如下式的展直可展面。
在展直可展面中,以准线为测地线。以下说明具体例。
首先,将输入数据P(测量的三维点的集合)应用于暂时的参量连续曲面。作为参量连续曲面,例如有多项式近似z=f(x,y)及线性网格等。应用后,获取母线的集合。图8表示方法的概要。
首先,说明求点~ci上的母线~ξi的方法。穿过点~ci的母线~ξi与点~ci中的法线向量~ni正交。另外,母线群与曲面相接。根据这些条件搜索点~ci中的母线~ξi。
其次,说明在决定了第i个的母线~ξi后,搜索新的附近点~ci+1的方法。本次,准线γ为测地线。因此,需要两点(~ci,~ci+1)间的距离在曲面上为最短。根据该条件,假定关注的点~ci的周围区域为平面,且以连接两点的向量和新的母线~ξi+1正交的方式选择新的点~ci+1。
通过上述方法,改变起点~c0,获取多个成为解的候选的母线的集合。例如,在xy平面(将三维空间的基底轴称作x、y、z轴)上将起点均等地配置。
使用在此得到的初始值,解如下的最小化问题。
在此,θ为可展面的模型参数。另外,s为决定可展面的准线上的位置的参变量。使用求出的可展面求与测量出的点群分别对应的参变量s、r。此外,这里的参变量s表示曲线长,但也可以根据使用的曲线模型使用同模型的参变量。在决定了参变量后,应用下一最小化问题。
在估计精度不足的情况下,使用由上述的最小化问题所估计的可展面重新计算与测量点对应的参变量,之后再次估计可展面。
将以上的步骤SB-3应用于对齐到各时刻的同一坐标系的三维点群,从而能够估计第一时刻~第T时刻的可展面。
(图4的步骤SB-4)
根据T×N2张书籍图像生成多个在图像中观测曲面上的相同范围的两张图像的对。根据取出的两张图像检测同一点的位置,作为对应点保存。在此,T为拍摄时间数,N2为第一照相机的台数。
叙述对应点的检测方法。首先,从两张图像提取对应点。对应点的检测使用对照局部区域的图像特征量的方式(Scale-Invariant Feature Transform(参照D.G.Lowe.Object recognition from local scale-invariant features.InProceedings of the International Conference on Computer Vision,pages1150-1157,1999.)等)。另外,在两张图像的变动小的情况下,除去对应点间的距离大的对。但是,在此得到的对应点的对也包含错误的对。
为除去该脱离值,应用如下步骤。使用RANSAC法(参照Martin A.Fischlerand Robert C.Bolles(June1981).'Random Sample Consensus:A Paradigm forModel Fitting with Applications to Image Analysis and Automated Cartography'.Comm.of the ACM24:381-395.),估计两张图像的对应点间的对照率最高的映射变换。该映射变换可利用单应变换或二维仿射变换等。使用该映射变换使两张图像粗略对齐。
接着,将粗略对齐的两张图像补片分割。补片分割是指将图像分割为小的区划的操作。将各区划称作补片。在两张图像中,补片的大小相同。
在分割后,对各补片应用如下步骤。在两张图像间获取相同位置的补片内的对应点对。针对该对应点对,与上述同样地使用RANSAC法,从两个补片间的对应点对除去脱离值。对所有的补片重复该步骤。
与在图像整体假定了映射变换的情况相比,仅在补片内假定的情况由于该假定近似性以更高的精度满足,所以认为脱离值的检验有效发挥作用。结束以上的步骤后,将由各补片获取的对应点的集合作为特征点使用。
(图4的步骤SB-5)
在此,求在步骤SB-4检测到的图像上的各对应点在可展面上的位置。这可作为求连接各照相机的光轴中心和图像点的三维直线与可展面的交点的问题进行计算。接着,根据计算出的可展面上的三维点求展开到平面上时的同点的坐标。这使用在上述的可展面的概要中叙述的方法。接着,决定展开的坐标系上的基准坐标系,求向同坐标系的变换。通过以上的步骤,求与图像上的点q对应的可展面上的三维点X和展开面上的点u、及用于在展开各时刻的可展面后与基准的展开面的坐标系对齐的变换ψ。
(图4的步骤SB-6)
在步骤SB-4检测到的两张书籍图像间的对应点在通过可展面的展开而生成的校正图像上成为相同位置。因此,通过对对应点解如下的最佳化问题,从而再次估计T时刻量的可展面。该处理是统一以多个照相机视点拍摄了多次的观测信息从而估计各时刻的可展面的处理,因此,相当于本发明的“统一多张的书籍图像的信息的处理”的一例。
这些式中,Θk是表示时刻k的可展面的参数。同参数如上述式(5),由表示可展面的变形的参数θ和对齐到展开后的基准坐标系的变换参数ψ这两个构成。该参数准备T时刻量。另外,ηi是表示可展面上的位置的参数。该参数准备相应于在步骤SB-4中获取的所有点的数目。在上述式(1)中,对在步骤SB-4中获取的所有的点求使评价函数最小化的上述参数。
上述式(1)的第一项如上述式(2)所示。该项为了使所估计的可展面与观测到的书籍图像匹配,计算观测图像上的点和对应于该点的估计图像点的位置之间的误差。qi表示图像点,~qi表示由参数Θ和η算出的“估计的图像点”。该计算通过在由参数Θ和η计算出可展面上的三维位置后在对应的视点的照相机面上投影同一位置而进行。此外,Θki表示与第i个的图像点的时刻相当的可展面参数。
上述式(1)的第二项如上述式(3)所示。该项对在步骤SB-4中作为书籍纸面上的同一点检测的对应点的对进行计算。这些点在展开后成为相同位置。在上述式(3)中,计算这些点在展开坐标上的位置误差。第j个对应点的展开坐标的对由~uij,1和~uij,2表示。将相当于对的第一个的点的编号由ij,1表示,将相当于第二个的点的编号由ij,2表示。在此的展开坐标使用估计参数Θ和η计算。有关与对的各点对应的估计参数的分配的下标也以与上述相同的规则记载。
上述式(1)的第三项如上述式(4)所示。该项是针对校正后的坐标位置已知这一点进行计算的项。例如,就纸面的四角的角等而言,如果纸面的尺寸已知,则可以确定校正后的坐标。因此,同项中计算使用估计参数Θ和η计算的坐标~uic和已知的目标坐标uic的位置的误差。此外,ic表示与第c个已知点相当的点的编号。
(图3的步骤SA-4)
接着,重复图3的步骤SA-4和SA-5直至收敛。这些处理是统一多张书籍图像而生成一张校正了的书籍图像的处理,因此,与本发明中的“统一多张书籍图像的信息的处理”的一例相当。
在步骤SA-4中,通过数据处理部3的校正图像还原部32还原展开的校正图像。图9表示该处理。即,使用T时刻量的可展面和T时刻量的书籍图像来解图9的式,由此可以得到展开的校正图像(校正了书籍图像后的图像)。
图9的式中,I(q)表示坐标q的亮度值。Ik j表示以时刻k的第j个视点观测的图像。~I(q)表示根据参数Θ和校正图像J计算的估计观测图像。该计算由下式表示。
同式的g(u)表示校正图像和观测图像的坐标变换。这根据可展面的形状而成为不同的变换。该变换函数表示如下。
该式根据可展面的展开和将可展面上的点投影于观测照相机面上的两个操作计算。在进行了坐标系的变换后,基于透镜模糊模型计算位于观测照相机的各点的附近的校正图像的亮度值的加权总和,计算估计观测图像~I。
图9的f(J)表示有关校正图像J的限制条件。预先了解有关J的信息的情况下,追加f(J)。
(图3的步骤SA-5)
接着,通过数据处理部3的形状还原部33还原书籍图像的形状。该步骤可通过将在步骤SA-4中估计了校正图像J的问题切换为估计可展面参数Θ的问题来实现。这由下式表示。
但是,该最小化问题在解的搜索中需要时间。在短时间内实施数据处理的情况下,应用以后的还原步骤。参照图10说明该还原的步骤。
(图10的步骤SC-1)
首先,使用估计出的变形参数Θk生成估计拍摄图像~Ik。该图像的生成方法与在步骤SA-4中所叙述的相同。
(图10的步骤SC-2)
其次,在输入图像Ik和生成的估计拍摄图像~Ik之间获取特征点的对应。特征点的对应使用与在步骤SB-4中所叙述的相同的方法。
(图10的步骤SC-3)
本实施方式的方法中,不改变校正图像,而搜索使照相机图像之间的对应点之间的位置的误差最小化的可展面参数,还原正确的可展面。
图11表示正确的可展面的还原的概念图。下式表示将误差最小化且还原可展面的问题。该问题在各时刻求解。
下式表示该式的Vk j,i。
这是针对时刻k的第j个视点的第i个关注点(在SC-2中作为对应点获取的点),并拍了其在该照相机上的坐标q和在校正图像上的坐标u。照相机上的坐标在步骤SC-2获取。校正图像上的坐标在步骤SC-2中发现了对应点之后使用在该时点的对应的校正图像上的位置。该坐标在步骤SC-3的估计中为常数而不变化。~Vk j,i表示使用可展面参数Θ和表示可展面上的位置的参变量ηk j,i计算的观测图像上的位置和校正图像的位置。此外,如在步骤SB-6中也叙述的那样,针对关注点中预先知晓展开后的坐标的关注点,作为Vk j,i的校正图像的坐标设定已知的值。
通过将这些数据的误差最小化,可在满足校正图像为唯一的条件的同时,还原可展面。
(第二实施方式)
下面,参照图12说明本发明的第二实施方式的***。此外,在第二实施方式的说明中,对于与上述的第一实施方式的说明基本上共通的要素使用同一符号,由此避免说明的繁杂。
在上述的第一实施方式中,由第一照相机11一同拍摄了书籍图像和形状图像。但是,第二实施方式的第一照相机11仅拍摄书籍图像。
另外,第二实施方式的页面状态测定部2具备形状图像用的第二照相机21。第二照相机21具备使从图案光源投影的波长的光透过且遮蔽其以外的环境光的滤波器(未图示)。
第二实施方式的图案光源22为使用既定波长的光朝向书籍的页面投影既定的图案的结构。由此,第二照相机21可将投影于书籍的页面的既定的图案作为形状图像获取。
在第二实施方式中,第一照相机11在扩散光源12发光的定时动作,可以获取书籍图像。另外,第二照相机21在图案光源22发光的定时动作,可经由滤波器获取形状图像。在此,在该第二实施方式中,可通过波长区分来自扩散光源12的光和来自图案光源22的光,因此,通过使扩散光源12和图案光源22同时发光且使第一照相机11和第二照相机21同时动作,可以同时获取书籍图像和形状图像。由此,在该实施方式中,具有可以增加能够在单位时间内获取的书籍图像和形状图像的张数的优点。
另外,第二实施方式的书籍图像获取部1的第一照相机11优选具备遮蔽图案光源22的波长的光且使来自扩散光源12及环境光的波长的光透过的滤波器(未图示)。通过该构成,能够防止图案照到书籍图像。但是,考虑也可以不在书籍图像获取部1的第一照相机11设置滤波器而在获取书籍图像后通过图像处理除去图案。该情况下,也可以省略滤波器的设置。此外,第二实施方式中,由于可通过波长来区分来自扩散光源12的光和来自图案光源22的光,所以还能够使各光源总是接通。
第二实施方式中的其它结构及动作与上述的第一实施方式基本上相同,因此,省略其以上的详细说明。但是,在步骤SB-1中叙述的形状图像和书籍图像的时刻偏移的削除步骤在本实施方式中不进行。
此外,本发明不限于上述的实施方式,在不脱离本发明的宗旨的范围内可以增加各种变更。
例如,上述的各构成要素只要作为功能块存在即可,也可以作为独立的硬件存在。另外,作为安装方法,可以使用硬件也可以使用计算机软件。另外,本发明的一个功能要素也可以通过多个功能要素的集合实现,本发明的多个功能要素也可以通过一个功能要素实现。
另外,构成本发明的各功能要素也可以分开存在。在分开存在的情况下,例如可以经由网络交接所需的数据。各部的内部的各功能同样也可以分开存在。例如,也可以使用网格计算或云计算实现本实施方式中的各功能要素或其一部分。
标号说明
1书籍图像获取部
11第一照相机
12扩散光源
2页面状态测定部
21第二照相机
22图案光源
3数据处理部
31页面初始形状获取部
32校正图像还原部
33形状还原部
4控制部
Claims (5)
1.一种书籍读取***,其特征在于,
具备页面状态测定部、书籍图像获取部和数据处理部,
所述页面状态测定部的结构为测定已翻开的书籍的页面状态,
所述书籍图像获取部具备多个第一照相机,
所述多个第一照相机的结构为从彼此不同的方向分别获取有关所述书籍的页面的书籍图像,
所述数据处理部的结构为使用由所述页面状态测定部测定的所述书籍的页面状态的信息校正由所述书籍图像获取部获取的所述书籍图像。
2.如权利要求1所述的书籍读取***,其中,
所述页面状态测定部具备用于朝向所述书籍的页面投影既定的图案的图案光源,
所述多个第一照相机的结构为进一步获取投影了所述图案的页面的形状图像。
3.如权利要求2所述的书籍读取***,其中,
所述多个第一照相机的结构为在从所述图案光源投影所述图案的定时获取所述形状图像且在未从所述图案光源投影所述图案的定时获取所述书籍图像。
4.如权利要求1所述的书籍读取***,其中,
所述页面状态测定部具备形状图像用的第二照相机,
所述第二照相机具备使从所述图案光源投影的波长的光透过且遮蔽其以外的环境光的滤波器,
所述图案光源的结构为使用既定的波长的光朝向所述书籍的页面投影所述既定的图案,
由此,所述第二照相机能够获取投影于所述书籍的页面的所述既定的图案。
5.如权利要求1~4中任一项所述的书籍读取***,其中,
所述第一照相机的结构为在所述书籍的每一页面获取多张的书籍图像,
所述数据处理部的结构为通过统一所述多张的书籍图像的信息从而提高校正了页面形状的失真的书籍图像的精确度。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US37551110P | 2010-08-20 | 2010-08-20 | |
US61/375,511 | 2010-08-20 | ||
US201161509038P | 2011-07-18 | 2011-07-18 | |
US61/509,038 | 2011-07-18 | ||
PCT/JP2011/068734 WO2012023596A1 (ja) | 2010-08-20 | 2011-08-19 | 書籍読み取りシステム及び書籍読み取り方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103069452A true CN103069452A (zh) | 2013-04-24 |
CN103069452B CN103069452B (zh) | 2017-05-24 |
Family
ID=45605248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180040102.0A Active CN103069452B (zh) | 2010-08-20 | 2011-08-19 | 书籍读取***及书籍读取方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9065962B2 (zh) |
EP (1) | EP2608147B1 (zh) |
JP (2) | JPWO2012023596A1 (zh) |
CN (1) | CN103069452B (zh) |
WO (1) | WO2012023596A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6236819B2 (ja) * | 2013-03-19 | 2017-11-29 | 大日本印刷株式会社 | 検査装置、検査方法、および、検査装置用のプログラム |
JP6163806B2 (ja) * | 2013-03-19 | 2017-07-19 | 大日本印刷株式会社 | 検査装置、検査方法、および、検査装置用のプログラム |
JP6728750B2 (ja) * | 2016-02-22 | 2020-07-22 | 株式会社リコー | 画像読取装置、画像形成装置、原稿画像表示方法およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020113946A1 (en) * | 2001-02-14 | 2002-08-22 | Takashi Kitaguchi | Image input apparatus |
US7508978B1 (en) * | 2004-09-13 | 2009-03-24 | Google Inc. | Detection of grooves in scanned images |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3340413B2 (ja) | 2000-01-20 | 2002-11-05 | 株式会社スキャンテクノロジー | ペットボトル内沈殿異物検査方法及びその装置 |
JP3954436B2 (ja) * | 2001-12-11 | 2007-08-08 | 株式会社リコー | 画像入力装置 |
US7660458B1 (en) * | 2004-12-14 | 2010-02-09 | Google Inc. | Three-dimensional model construction using unstructured pattern |
JP5041458B2 (ja) * | 2006-02-09 | 2012-10-03 | 本田技研工業株式会社 | 三次元物体を検出する装置 |
-
2011
- 2011-08-19 CN CN201180040102.0A patent/CN103069452B/zh active Active
- 2011-08-19 WO PCT/JP2011/068734 patent/WO2012023596A1/ja active Application Filing
- 2011-08-19 US US13/818,099 patent/US9065962B2/en active Active
- 2011-08-19 JP JP2012529618A patent/JPWO2012023596A1/ja active Pending
- 2011-08-19 EP EP11818236.9A patent/EP2608147B1/en active Active
-
2015
- 2015-11-19 JP JP2015226738A patent/JP6099281B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020113946A1 (en) * | 2001-02-14 | 2002-08-22 | Takashi Kitaguchi | Image input apparatus |
US7508978B1 (en) * | 2004-09-13 | 2009-03-24 | Google Inc. | Detection of grooves in scanned images |
Also Published As
Publication number | Publication date |
---|---|
US20140009797A1 (en) | 2014-01-09 |
WO2012023596A1 (ja) | 2012-02-23 |
CN103069452B (zh) | 2017-05-24 |
EP2608147A4 (en) | 2017-08-30 |
JP6099281B2 (ja) | 2017-03-22 |
EP2608147B1 (en) | 2020-01-15 |
JP2016053580A (ja) | 2016-04-14 |
EP2608147A1 (en) | 2013-06-26 |
JPWO2012023596A1 (ja) | 2013-10-28 |
US9065962B2 (en) | 2015-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102654391B (zh) | 基于光束平差原理的条纹投影三维测量***及其标定方法 | |
WO2016181687A1 (ja) | 画像処理装置と画像処理方法およびプログラム | |
CN112598729B (zh) | 融合激光与相机的目标物体识别与定位方法 | |
Barandiaran et al. | Real-time optical markerless tracking for augmented reality applications | |
CN111639663A (zh) | 多传感器数据融合的方法 | |
JP2011526029A5 (zh) | ||
CN113888639B (zh) | 基于事件相机与深度相机的视觉里程计定位方法及*** | |
CN112163588A (zh) | 基于智能进化的异源图像目标检测方法、存储介质及设备 | |
CN112241978A (zh) | 一种数据处理的方法和装置 | |
CN103069452A (zh) | 书籍读取***及书籍读取方法 | |
CN116935013A (zh) | 基于三维重建的电路板点云大范围拼接方法及*** | |
McIlroy et al. | Kinectrack: Agile 6-dof tracking using a projected dot pattern | |
CN114092564B (zh) | 无重叠视域多相机***的外参数标定方法、***、终端及介质 | |
US20240013437A1 (en) | Method for providing calibration data for calibrating a camera, method for calibrating a camera, method for producing at least one predefined point-symmetric region, and device | |
CN113884025B (zh) | 增材制造结构光回环检测方法、装置、电子设备和存储介质 | |
CN114485479A (zh) | 基于双目相机和惯性导航的结构光扫描测量方法及*** | |
CN115344113A (zh) | 多视角人体运动捕捉方法、装置、***、介质及终端 | |
CN112991372A (zh) | 一种基于多边形匹配的2d-3d相机外参标定方法 | |
Mo et al. | Cross-based dense depth estimation by fusing stereo vision with measured sparse depth | |
Hu et al. | Accurate fiducial mapping for pose estimation using manifold optimization | |
JP2000339473A (ja) | 2次元動画像中の特徴点の追跡方法 | |
CN111709989B (zh) | 一种基于多源特征数据控制的双向闭合模式的立体视觉全场测量方法 | |
JP2003256811A (ja) | 3次元情報復元装置、3次元情報復元方法、3次元情報復元方法のプログラムおよびこのプログラムを記録した記録媒体 | |
Wierzbicki et al. | Application of Stereo Cameras with Wide-Angle Lenses for the Indoor Mapping | |
CN116165615A (zh) | 一种雷视融合感知***的轻量标定方法、***及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |