JP6746634B2 - 書物電子化装置および書物電子化方法 - Google Patents

書物電子化装置および書物電子化方法 Download PDF

Info

Publication number
JP6746634B2
JP6746634B2 JP2018119948A JP2018119948A JP6746634B2 JP 6746634 B2 JP6746634 B2 JP 6746634B2 JP 2018119948 A JP2018119948 A JP 2018119948A JP 2018119948 A JP2018119948 A JP 2018119948A JP 6746634 B2 JP6746634 B2 JP 6746634B2
Authority
JP
Japan
Prior art keywords
book
paper
data
ray
rays
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018119948A
Other languages
English (en)
Other versions
JP2020003224A (ja
Inventor
中西 徹
徹 中西
全健 金
全健 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018119948A priority Critical patent/JP6746634B2/ja
Priority to US16/445,715 priority patent/US10742830B2/en
Priority to CN201910551442.8A priority patent/CN110633618B/zh
Publication of JP2020003224A publication Critical patent/JP2020003224A/ja
Application granted granted Critical
Publication of JP6746634B2 publication Critical patent/JP6746634B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00795Reading arrangements
    • H04N1/00827Arrangements for reading an image from an unusual original, e.g. 3-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • G06F15/025Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators adapted to a specific application
    • G06F15/0291Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators adapted to a specific application for reading, e.g. e-books
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/024Details of scanning heads ; Means for illuminating the original
    • H04N1/028Details of scanning heads ; Means for illuminating the original for picture information pick-up
    • H04N1/02815Means for illuminating the original, not specific to a particular type of pick-up head

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Facsimile Scanning Arrangements (AREA)

Description

本発明は、書物電子化装置および書物電子化方法に関する。
書物の保存または利用の観点から、書物の電子データ化が求められている。書物は、開くことで傷むことがあるので、書物を開かずに実施可能な書物の電子データ化が求められている。
当該電子データ化の技術には、X線の照射によって取得した書物の三次元データから上記書物のページに対応するページ領域を特定し、当該ページ領域における文字列または図形を二次元平面にマッピングする技術が知られている(例えば、特許文献1参照)。上記三次元データは、X線の検出位置と吸収強度との情報を有する、ノードとも呼ばれる点の集合である。
上記技術によれば、上記書物に書かれた文字列または図形を含む二次元のページデータが作成される。二次元のページのデータのそれぞれは、上記ノードのうちの所定の面上に配置されているノードによって構成される。
国際公開第2017/131184号
上述のような従来技術において、三次元データを二次元ページデータに変換する際に、二次元平面上の紙のノードおよびインクのノードを含む、全てのノードデータについて、変換処理を行っていた。そのため、処理時間がかかる等の問題があった。
本発明の一態様は、短時間で実施可能な書物の電子データ化を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る書物電子化装置は、紙の種類と前記紙がエネルギー線を吸収し得るエネルギー線の物性値とを対応させて格納可能なテーブルと、入力された紙の種類に対応するエネルギー線の物性値を前記テーブルから取得する取得部と、取得された前記物性値を有するエネルギー線で書物を撮像することによって、前記書物の三次元データを取得する撮像部と、を備えている。
本発明の一態様によれば、書物の電子データ化を短時間で実施することができる。
本発明の実施形態に係る書物電子化装置の構成を模式的に示す図である。 本発明の実施形態1に係る書物電子化装置のブロック図である。 本発明の実施形態1に係る書物電子化装置が書物の三次元データを作成するまでのフローチャートである。 本発明の実施形態1に係る書物電子化装置が書物の三次元データから二次元データを作成するまでのフローチャートである。 (a)は、本発明の実施形態1に係る書物電子化装置による二次元データからの文字認識の第一の状態を模式的に示す図であり、(b)は、本発明の実施形態1に係る書物電子化装置による二次元データからの文字認識の第二の状態を模式的に示す図である。 本発明の実施形態2に係る書物電子化装置のブロック図である。 本発明の実施形態2に係る書物電子化装置が書物の三次元データを作成するまでのフローチャートである。
〔実施形態1〕
以下、本発明の一実施形態について、詳細に説明する。
[書物電子化装置の概略構成]
図1は、本発明の実施形態1に係る書物電子化装置100の構成を模式的に示す図である。図2は、書物電子化装置100のブロック図である。書物電子化装置100は、図1に示されるように、撮像装置50、表示部4および文字認識システム60を有している。また、書物電子化装置100は、図2に示されるように、テーブル1、取得部2、入力部3、表示部4、X線照射装置5、検出器6、位置指定部7、面特定部8およびデータ生成部9を含む。図2中、符号20は、データ作成部を示し、符号30は、制御ブロックを示している。
表示部4は、撮像装置50における入力部3からの入力情報、検出器6の検出結果、データ生成部9で作成された二次元のデータなど、書物電子化装置100の作業に関する情報を表示する。表示部4は、例えば液晶表示装置である。
文字認識システム60は、入力された二次元のページデータから文字を認識可能なシステムである。文字認識システム60は、例えば、インターネットに接続されたデータ処理装置で構成される。文字認識システム60は、例えば、十分な処理能力を有するパーソナルコンピュータ(PC)によって構築することが可能である。
撮像装置50は、書物へのエネルギー線であるX線の照射、検出およびそれに関する一連のデータ処理を行うように構成されている。
書物電子化装置100において、表示部4と文字認識システム60とは一体的に構成されている。一方で、撮像装置50は、これらとはデータ通信可能に接続されており、例えば、図示するように、文字認識システム60と接続されている。テーブル1、取得部2、入力部3、位置指定部7、面特定部8およびデータ生成部9は、図1中の文字認識システム60に含まれる。X線照射装置5および検出器6は、図1中の撮像装置50に含まれる。
テーブル1は、紙の種類と紙のX線の管電圧およびピーク吸収波長とを対応させて格納している。例えば、テーブル1は、表1に示されるように、印刷用紙(上質紙)、印刷用紙(再生紙)、葉書用紙、新聞紙およびトレーシングペーパーと、それに対応するX線の管電圧およびピーク吸収波長とをX線の物性値として格納している。テーブル1中の管電圧の範囲は、対応する紙を最も認識できるX線の管電圧の範囲を表している。テーブル1中のピーク吸収波長の範囲は、対応する紙が吸収するX線の波長のピークが含まれ得る範囲を表している。
紙の種類は、見た目で区別しやすいので特定することが可能である。インクの種類に対応するX線のピーク吸収波長(吸収波長のピーク値)は、印刷物中の上記紙へ種々の波長のX線を照射することによって特定することが可能である。ピーク吸収波長は、検出値の揺らぎ、例えば、X線の強度の差による若干のシフト、が考慮されてもよい。ピーク吸収波長は、それを代表する値であってよく、表1に記載されているような範囲であってもよいし、当該範囲の中央値であってもよい。
Figure 0006746634
取得部2には、ユーザからの入力信号などの、入力部3からの入力信号を取得する。また、取得部2は、ユーザから入力された紙の種類に対応するX線の管電圧またはピーク吸収波長をテーブル1から取得する。さらに、取得部2は、後述する検出器6の検出値による書物の三次元データを取得する。一方で、取得部2は、テーブル1から取得したX線の管電圧またはピーク吸収波長をX線照射装置5へ出力する。また、取得部2は、検出器6からの上記三次元データなどの、取得部2が取得した情報を適宜に表示部4または位置指定部7に出力する。
入力部3は、取得部2への指示を入力するための装置である。入力部3は、例えば、ハードキーボードであってもよいし、ソフトキーボードであってもよい。
表示部4は、入力部3からの入力情報および後述の検出器6の検出結果、それによる書物の三次元データ、あるいはデータ生成部9で作成された二次元のデータなどの、書物電子化装置100に関する情報を表示する。
X線照射装置5は、書物にX線を照射する。X線照射装置5は、例えば、X線照射の出力(波長)を調整可能に構成されており、所望の波長のX線を書物へ照射することが可能である。
検出器6は、書物に照射されたX線を検出する。検出器6は、X線の検出位置とその位置でのX線の強度とを含む検出値を取得するように構成されている。検出器6は、取得した検出値を三次元データとして取得部2に出力する。
このように、X線照射装置5、検出器6および取得部2は、管電圧またはピーク吸収波長を有するX線で書物を撮像することによって書物の三次元データを取得する撮像部を構成している。
位置指定部7は、三次元データのデータ値に基づき、ページ領域を特定するための初期点を指定する。ページ領域とは、三次元データのうちの、書物の各ページに対応する部分であり、当該各ページに対応するある面上に存在するノードの集合である。位置指定部7は、初期点の情報を面特定部8に出力する。
面特定部8は、指定された初期点に繋がるページ領域を特定する。面特定部8は、ページ領域に対応する点の集合、および各点のデータ値を、データ生成部9に出力する。
データ生成部9は、特定されたページ領域のデータを二次元の(平面の)ページデータに変換する。ページデータは、書物のページ内における複数の文字または図形の位置関係(文字などの配置)の情報を有する。
このように、位置指定部7、面特定部8およびデータ生成部9は、書物の三次元データから書物の二次元データを作成するデータ作成部20を構成している。
[書物の電子化方法]
以下、本発明の一実施形態に係る書物電子化方法について説明する。実施形態1に係る書物電子化方法は、ユーザから入力された紙の種類に対応するX線の管電圧またはピーク吸収波長を取得する工程と、書物の三次元データを取得する工程とを含む。上記書物の電子化方法において、上記X線の管電圧またはピーク吸収波長は、テーブル1から取得される。上記三次元データは、テーブル1から取得した管電圧またはピーク吸収波長を有するX線で書物を撮像することによって取得される。
上記書物電子化方法は、前述した本実施形態の書物電子化装置を用いて実施することが可能である。図3は、本発明の実施形態1に係る書物電子化装置が書物の三次元データを作成するまでのフローチャートである。
まず、入力部3は、電子化対象の書物の紙の種類を指定する(ステップS11)。紙の種類は、例えばユーザによって入力部3に入力される。入力部3は、指定された紙の種類の情報を取得部2に提供する。
取得部2は、指定された紙の種類の、X線の管電圧またはピーク吸収波長をテーブル1から取得する(ステップS12)。このようにして、ユーザから入力された紙の種類に対応するX線のピーク吸収波長が、紙の種類および紙のX線の管電圧またはピーク吸収波長を対応させて格納しているテーブル1から取得される。当該管電圧またはピーク吸収波長は、紙の種類の指定により即時に取得される。
例えば、書物が印刷用紙(上質紙)を含む場合では、ユーザは「印刷用紙(上質紙)」を入力部3に入力する。入力部3から「印刷用紙(上質紙)」の情報が提供された取得部2は、印刷用紙(上質紙)に対応するX線の管電圧、30〜50kVを、書物に照射すべきX線の管電圧としてテーブル1から取得する。この場合、取得部2は、例えば、上記範囲内の中心値(40kV)を、照射すべきX線の管電圧として選択する。また、取得部2は、普通紙Aに対応するX線の波長、0.025〜0.041nmを、書物に照射すべきX線の波長としてテーブル1から取得する。この場合、取得部2は、例えば、上記範囲内の中心値(0.033nm)を、照射すべきX線の波長として選択する。
次いで、取得部2は、X線照射装置5に、取得した管電圧またはピーク吸収波長の波長を有するX線で書物を照射させ、検出器6によって当該X線を検出させる(ステップS13)。X線照射装置5は、閉じたままの書物にX線を照射する。X線照射装置5から照射されたX線の一部は、書物中の紙によって吸収される。
検出器6は、書物を通過したX線の、特定の位置と強度とを含む検出値を検出し、取得部2に提供する。書物中の紙が存在する領域を通過したX線は、書物のインク付着部分を通過したX線よりも強い強度のX線として検出器6に検出される。上記検出値の集合は、このような強い強度のX線が検出された点を含む三次元データを構成する。当該三次元データは、インクや紙面の位置の情報と、当該位置におけるX線の強度の情報とを含むので、書物中の1ページの位置を示しており、取得部2は、このような三次元データを取得する。このようにして、テーブル1から取得した管電圧またはピーク吸収波長を有するX線で書物を撮像することによって、書物中の1ページの三次元データが取得される。取得部2は、三次元データを位置指定部7に提供する。
図4は、実施形態1に係る書物電子化装置が書物の三次元データから二次元データを作成するまでのフローチャートである。三次元データは、重なった複数のシート(媒体、例えば紙)と、シート同士の間の隙間(空気)と、シート上のインク(文字)との情報を、X線の検出位置とその強度として含んでいる。三次元データからの二次元データの作成は、例えば特許文献1に記載されているような公知の方法によって実施することが可能である。
位置指定部7は、三次元データにおいて、重なっている媒体の少なくとも一枚(書物が冊子であれば1ページ)と交差するように、線状の経路を指定する(ステップS21)。当該経路は、例えば書物が冊子の場合では、書物の表紙と裏表紙とを貫通し、書物の全てのページと交差する直線である。
そして、位置指定部7は、上記経路上における、シートのデータ値と隙間のデータ値とを分ける閾値に対応する点をページ領域の初期点として指定する(ステップS22)。位置指定部7は、例えば、複数のページ領域に対応する複数の初期点を指定する。位置指定部7は、初期点の情報を面特定部8に提供する。
面特定部8は、上記初期点から決まるページ領域の位置を特定する(ステップS23)。ページ領域は、例えば、三次元データの直交座標中に、当該直交座標を構成する単位セルを横切るように配置されている。面特定部8は、例えば、ページ領域が横断する単位セルの辺において上記の閾値以上である点を上記ページ領域に対応する点とし、上記ページ領域を特定する。面特定部8は、特定したページ領域の情報をデータ生成部9に提供する。
データ生成部9は、ページ領域の各点のデータ値を二次元平面上にマッピングすることによってページデータを生成する(ステップS24)。二次元のページデータの各点のデータ値は、概ねシートおよびインクのいずれかに対応する。マッピングの方法には、公知の方法(例えば、鞍点特徴を利用した三次元メッシュ展開など)が利用される。
[ページデータの文字認識]
以下、データ生成部9による二次元データからのページデータの文字認識について説明する。上記二次元データは、ある面上における単なるノードの集合、とも言える。データ生成部9は、当該ノードの集合を適当な文字として認識したときに、上記二次元データから、文字として適した形態に表示可能なデータを作成する。図5の(a)は、実施形態1に係る書物電子化装置100による二次元データからの文字認識の第一の状態を模式的に示す図である。図5の(b)は、当該書物電子化装置100による二次元データからの文字認識の第二の状態を模式的に示す図である。
文字認識システム60は、撮像装置50(例えばデータ生成部9)から二次元データ(ページデータ)を受け取る。そして、当該ページデータ内の任意の1ページ分のデータを表示部4に表示する(図5の(a))。1ページ内に含まれる文字の数が少ないと、その後の文字認識の処理が難しくなることがある。円滑な文字認識の実現の観点から、1ページ分の文字データの割合は、当該1ページの面積の30%程度であることが適当である。
ユーザは、表示された画面を確認し、必要に応じて、文字データの画面を回転させる(図5の(b))。
次いで、ユーザは、表示されたデータの文字に関する情報を文字認識システム60に入力する。当該情報とは、例えば、文字の方向(横書き、縦書き、左から読むか、右から読むかなど)と、文字の種類(アルファベット、アラビア文字、漢字など)、および、言語(英語、フランス語、日本語など)である。文字認識システム60は、当該情報を参照して、文字認識を開始すべき第1番目の文字、認識方向および認識方法を決定する。
このように、上記ページデータは、書物のページ内における複数の文字または図形の位置関係(文字などの配置)の情報を有する。上記ページデータは、正確に特定されたページ領域に基づいて生成される。よって、当該ページデータ中にノイズが存在したとしても、当該ページデータ中の文字列などのイメージは、正確に識別され得る。それゆえ、書物電子化装置100は、書物に描かれている文字列または図形の情報を上記ページデータから容易に取得する。したがって、書物電子化装置100は、単独の文字だけでなく、書物に書かれた複数の文字によって構成される単語、または複数の当該単語によって構成される文を読み取ることができる。また、表示部4に表示されたページデータにおいて、ユーザは、文字列などを容易に識別することができる。
[撮像時間の短縮化についての説明]
書物電子化装置100は、従来の書物電子化装置に比べて、書物のX線による撮像時間を短縮することが可能である。その理由を以下に説明する。
X線の透過画像は、X線の吸収度の差による濃淡を含む。X線は、木または紙にはほとんど吸収されずに透過するが、書物中のインクにはより吸収される。そこで、X線が紙を最も撮像しやすくするには、できるだけ紙に吸収されやすい波長等を物性値として選ぶ。また、ページデータには、X線の透過量の差が反映されている。紙とインクとのX線の透過量の差は、一般に、十分なコントラストが得られる程度に大きいことから、上記ページデータから当該ページデータ内の文字列が正確に読み出され得る。
紙のX線の吸収度は、X線の波長(強度)と被写体である紙の材料とによって決まる。照射するX線の波長が長すぎる(X線の強度が弱すぎる)と、インクと紙との間のX線の吸収の差が小さすぎ、上記コントラストが不十分となることがある。逆に、照射するX線の波長が短すぎる(X線の強度が強すぎる)と、X線が紙だけでなくインクも透過してしまうため、上記コントラストが不十分となることがある。このため、書物のインクと媒体(紙など)とのコントラストが十分に大きくなる強度(波長)のX線を照射することが重要である。一般に、紙に吸収されにくく、かつインクに最も吸収される管電圧または波長(ピーク吸収波長)のX線を照射することが、十分な上記コントラストを発現させる観点から好ましい。
また、紙のX線の吸収度を最も高くすることにより、紙の部分を最も明確に撮像することができる。この場合、X線の管電圧またはピーク波長は、紙のX線の吸収度が最も高くなる値に設定される。
十分なコントラストが得られるX線の管電圧または波長は、紙または書物に照射するX線の波長を徐々に変えた場合のX線の吸収度の結果(挙動)から決めることが可能である。ここで、「十分なコントラストが得られるX線の管電圧または波長」とは、例えば、紙が吸収するX線の波長のピークであり、「紙または書物に照射するX線の波長を徐々に変えた場合」とは、例えば、X線の強度を徐々に強くした場合である。しかしながら、一般に、照射するX線の強度の変更には時間がかかる。よって、X線の照射、検出による書物の電子データ化にも時間がかかる傾向にある。
実施形態1では、紙の種類と、紙にX線を照射したときの管電圧または波長と吸収度との関係(例えば、当該吸収度が最小になるX線の管電圧またはピーク吸収波長)が予め調べられており、紙の種類とその紙のX線の管電圧またはピーク吸収波長とがテーブルに格納されている。そして、例えば対象の書物が印刷用紙(上質紙)を含む場合では、書物電子化装置100は、照射すべきX線として上記テーブルから管電圧が30〜50kVであるX線を選び、書物に照射、検出して、書物の可視化(三次元データの取得)を行う。よって、書物電子化装置100では、書物に照射すべきX線の管電圧または波長の調整を行う時間が短縮される。その結果、書物電子化装置100は、上記ページデータの取得をより速く行うことができる。したがって、このページデータの集合としての書物の電子データの取得までに要する時間もより一層短縮される。
書物に記載された情報を電子化する際、例えば書物が古い文献であって、書物の記載内容を文字情報として抽出する方法だけではなく、例えばPDFデータのような形態で1枚の紙(1ページ)の情報として抽出する方法もある。本実施形態は、このような後者の方法に適している。
〔実施形態2〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図6は、本発明の実施形態2に係る書物電子化装置200のブロック図である。
書物電子化装置200は、図6に示されるように、取得部2に代えて取得部12を有し、ピーク検出部13(検出部)さらに含む以外は、書物電子化装置100と同じ構成を有している。ピーク検出部13は、取得部12に接続されている。ピーク検出部13は、書物にエネルギー線であるX線を照射し、検出して書物の紙のエネルギー線の吸収波長を検出する吸収波長検出部に相当している。また、取得部12は、吸収波長検出部が検出したエネルギー線の吸収波長を書物の紙の情報と対応させてテーブル1に書き込むデータ書き込み部をさらに兼ねている。
図7は、書物電子化装置200が書物の三次元データを作成するまでのフローチャートである。
紙の種類が不明な場合、あるいは、紙の種類に対応するX線の吸収波長が不明な場合では、取得部12は、ピーク検出部13に、書物の紙におけるX線のピーク吸収波長の検出を指示する(ステップS31)。当該指示は、ユーザの入力部3への入力による指示であってもよいし、テーブル1から取得すべきX線の波長のデータを取得できない場合に、取得部12からピーク検出部13に自動で出力される指示であってもよい。
次いで、ピーク検出部13は、種々の波長のX線をX線照射装置5から照射させ、検出器6で検出させる(ステップS32)。例えば、書物に照射するX線の波長を100nmから1pm(0.001nm)まで徐々に短くしていき、検出器6における吸収強度を確認する。ピーク検出のために照射するX線の波長は、予め決められていてもよいし、検出結果に基づいてその都度決められてもよい。また、異なる波長のX線の照射は、公知の方法によって実施することが可能である。異なる波長のX線の照射は、例えばX線照射装置5の出力を調整することによって、あるいは所望の波長のX線を通過させる光学フィルタを介在させることによって、あるいは照射するX線の波長が異なる複数のX線照射装置を用いることによって、行うことが可能である。
次いで、ピーク検出部13は、書物の紙のX線の吸収波長のピークを決定する(ステップS33)。紙のピーク吸収波長は、検出結果におけるX線の吸収強度のピークそのものであってもよいし、検出した吸収波長のピークを含む特定の吸収度の範囲であってもよい。特定の吸収度とは、例えば、インクとの十分なコントラストが得られる吸収度以上の吸収度である。
紙の種類が不明であっても、その紙に対応するX線の吸収波長がテーブル1に格納されている場合では、ピーク検出部13は、テーブル1に格納されているピーク吸収波長のデータから、書物に照射すべきX線のピーク吸収波長を決める。この場合では、ピーク検出部13は、検出器6でのX線の検出結果とテーブル1中のX線のピーク吸収波長とを比較する。例えば、ピーク検出部13は、0.020nm付近で吸収強度が最大であれば、書物中の紙は印刷用紙(再生紙)であると判断し、0.013nm付近で吸収波長が最大であれば、書物の紙は新聞紙であると判断する。ピーク検出部13は、決定したピーク吸収波長を取得部12に出力する。
取得部12は、ピーク検出部13で決定された波長のX線を、X線照射装置5から書物に照射させ、検出器6に検出させる(ステップS13)。その結果、取得部12は、前述した三次元データを取得する。また、取得部12は、ピーク検出部13で決定されたX線のピーク吸収波長を、紙の情報(例えば検出日時、試料番号など)と対応させてテーブル1に書き込む。テーブル1に書き込まれたこれらのデータは、それ以降の、同種の紙を含む書物の電子データ化の際に、予めテーブル1に格納されているデータとして、前述したようにX線のピーク吸収波長の決定に使用される。よって、同種の紙を含む書物の電子データ化にかかる時間を、次回から短縮することが可能となる。
上記のように紙の種類が不明である場合には、テーブル1にピーク吸収データを書き込むことで学習を行い、テーブル1を随時更新する。これにより、テーブル1の精度を高めることができる。
なお、本実施形態では、種類が不明な紙に対応するX線の吸収波長を決定することについて説明した。本実施形態では、これに限らず、種類が不明な紙に対応するX線の管電圧を決定してもよい。
〔変形例〕
書物は、媒体とそれに付着するインクとによって構成されていればよい。例えば、当該書物の形態は、冊子であってもよいし、巻物であってもよい。また、書物は、一枚の紙の印刷物であってもよいし、綴じられることなく積み重ねられた複数枚の紙の印刷物であってもよい。また、X線照射装置5においてX線が照射される際の書物の状態は、限定されず、前述したように閉じられた状態であってもよいし、開かれた状態であってもよい。
上記X線は、その吸収強度においてインクと紙(媒体)との間に十分なコントラストを有する範囲において、他のエネルギー線であってもよい。X線以外の当該エネルギー線の例には、紫外線および可視光が含まれる。
上記紙は、上記エネルギー線が透過可能であり、かつ当該エネルギー線の吸収強度がインクのそれに対して十分な差を有する範囲において、適宜に決めることが可能である。紙以外の当該媒体の例には、樹脂シートが含まれる。
入力部への紙の種類の入力は、ユーザからの入力でなくてもよい。例えば、入力部と通信可能な紙の分析装置から入力部へ提供される紙の種類の情報であってもよい。
テーブル1は、書物へのエネルギー線の照射に先立って紙の種類と当該紙のエネルギー線の管電圧または吸収波長とを対応させて格納可能であれば、これらのデータを常時格納していなくてもよい。例えば、テーブル1は、紙の種類とそのX線の管電圧またはピーク吸収波長との対応データを、紙の種類の入力時に通信によって入手し、格納するテーブルであってもよい。また、例えば、テーブル1は、入力される紙の色やメーカなどの、紙の属性の情報の入力によって、それに該当する、通信によって提供される対応データを格納するテーブルであってもよい。
また、書物に照射するエネルギー線の波長は、インクと紙との間に十分なコントラストを有する範囲において、適宜に決めることが可能である。例えば、書物に照射するエネルギー線の波長は、インクと紙との間のコントラストが十分に大きくなる(例えば当該コントラストが最大となる)波長であってもよい。
実施形態2においてテーブル1に書き込まれる紙の情報は、テーブル1に書き込むX線の管電圧または波長の情報との対応が明確な範囲において、適宜に決めることが可能である。このような紙の情報とは、例えば、紙の種類とそれに対応するX線の管電圧またはピーク吸収波長との対応が未知であった紙の情報である。テーブル1に書き込まれる紙の情報は、前述したように測定日時のように自動的に決まる情報であってもよいし、ユーザが入力部3を介して入力する情報(例えば、紙の種類、その紙を含む書籍の情報など)であってもよい。
〔ソフトウェアによる実現例〕
書物電子化装置100、200の制御ブロック30(テーブル1、取得部2、12、位置指定部7、面特定部8、データ生成部9およびピーク検出部13)は、ハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。当該ハードウェアの例には、集積回路(ICチップ)などに形成された論理回路が含まれる。また、書物電子化装置100、200におけるテーブル1、取得部2、12、位置指定部7、面特定部8、データ生成部9およびピーク検出部13は、別途設けられた制御部によって前述した機能を発現するように制御されてもよい。
上記のテーブル1等をソフトウェアによって実現する場合、書物電子化装置100は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも1つのプロセッサ(制御装置)を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも1つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。
上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)などの他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論
理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。
また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波など)を介して上記コンピュータに供給されてもよい。
なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る書物電子化装置100は、紙の種類と前記紙がエネルギー線を吸収し得るエネルギー線の物性値とを対応させて格納可能なテーブル1と、入力された紙の種類に対応するエネルギー線の物性値を前記テーブル1から取得する取得部2と、取得された前記物性値を有するエネルギー線で書物を撮像することによって、前記書物の三次元データを取得する撮像部(取得部2、X線照射装置5および検出器6)とを備えている。
上記の構成によれば、紙の種類の入力により照射すべきエネルギー線の物性値がテーブル1から読み出される。これにより、三次元データの大半を占める紙について、照射すべきエネルギー線の物性値を決定する時間を大幅に短縮することが可能である。よって、書物の電子データ化を短時間で実施することができる。
本発明の態様2に係る書物電子化装置100は、上記態様1において、書物にエネルギー線を照射し、検出して書物のインクのエネルギー線の物性値を検出する検出部(ピーク検出部13)をさらに含んでいてもよい。
上記の構成によれば、紙の種類とX線の未知の物性値との対応が未知である紙の物性値を検出することが可能となり、紙の種類およびそれに対応するX線の物性値の一方または両方が未知である書物の電子データ化をさらに行うことが可能となる。
本発明の態様3に係る書物電子化装置100は、上記態様2において、前記検出部が検出したエネルギー線の物性値を前記書物の紙の情報と対応させて前記テーブル1に書き込むデータ書き込み部(取得部12)をさらに含んでいてもよい。
上記の構成によれば、未知であった紙の種類とそれ対応するX線の物性値の組み合わせが、それ以降の当該紙を含む書物の電子データ化に適用される。よって、紙の種類または物性値が未知であった書物のそれ以降の電子データ化を短時間で実施することができる。
本発明の態様4に係る書物電子化装置100は、上記態様1〜3において、書物の三次元データから書物の二次元データを作成するデータ作成部20(位置指定部7、面特定部8およびデータ生成部9)をさらに含んでいてもよい。
上記の構成によれば、書物の内容を示す電子データ(書物が冊子であればページのデータ)を作成することができる。
本発明の態様5に係る書物電子化装置100は、上記態様1〜4において、エネルギー線がX線であってもよい。
上記の構成によれば、紙を媒体とする一般の書物の電子データ化が可能である。
本発明の態様6に係る書物電子化装置100は、上記態様1〜5のいずれかにおいて、前記物性値が前記エネルギー線の波長であり、当該波長が、前記エネルギー線が前記紙に吸収される吸収度を最も高くするピーク吸収波長であってもよい。
上記の構成によれば、X線によって紙の部分を最も明確に撮像することができる。
本発明の態様7に係る書物電子化方法は、入力された紙の種類に対応する、前記紙がエネルギー線を吸収し得るエネルギー線の物性値を、紙の種類と前記紙におけるエネルギー線の物性値とを対応させて格納可能なテーブルから取得する工程と、取得した物性値を有するエネルギー線で書物を撮像することによって前記書物の三次元データを取得する工程とを含む。
上記の構成によれば、態様1と同様の効果を奏する。
〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 テーブル
2、12 取得部
3 入力部
4 表示部
5 X線照射装置
6 検出器
7 位置指定部
8 面特定部
9 データ生成部
13 ピーク検出部(検出部)
20 データ作成部
30 制御ブロック
50 撮像装置
60 文字認識システム
100、200 書物電子化装置

Claims (7)

  1. 紙の種類と前記紙がエネルギー線を吸収し得るエネルギー線の物性値とを対応させて格納可能なテーブルと、
    入力された紙の種類に対応するエネルギー線の物性値を前記テーブルから取得する取得部と、
    取得された前記物性値を有するエネルギー線で書物を撮像することによって、前記書物の三次元データを取得する撮像部と、を備えていることを特徴とする書物電子化装置。
  2. 前記書物にエネルギー線を照射し、検出して前記書物の紙のエネルギー線の物性値を検出する検出部をさらに備えていることを特徴とする請求項1に記載の書物電子化装置。
  3. 前記検出部が検出したエネルギー線の物性値を前記書物の紙の情報と対応させて前記テーブルに書き込むデータ書き込み部をさらに備えていることを特徴とする請求項2に記載の書物電子化装置。
  4. 前記書物の前記三次元データから前記書物の二次元データを作成するデータ作成部をさらに備えていることを特徴とする請求項1〜3のいずれか1項に記載の書物電子化装置。
  5. 前記エネルギー線がX線であることを特徴とする請求項1〜4のいずれか1項に記載の書物電子化装置。
  6. 前記物性値は前記エネルギー線の波長であり、
    当該波長は、前記エネルギー線が前記紙に吸収される吸収度を最も高くするピーク吸収波長であることを特徴とする請求項1〜5のいずれか1項に記載の書物電子化装置。
  7. 入力された紙の種類に対応する、前記紙がエネルギー線を吸収し得るエネルギー線の物性値を、紙の種類と前記紙におけるエネルギー線の物性値とを対応させて格納可能なテーブルから取得する工程と、
    取得した物性値を有するエネルギー線で書物を撮像することによって前記書物の三次元データを取得する工程と、を含むことを特徴とする書物電子化方法。
JP2018119948A 2018-06-25 2018-06-25 書物電子化装置および書物電子化方法 Active JP6746634B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018119948A JP6746634B2 (ja) 2018-06-25 2018-06-25 書物電子化装置および書物電子化方法
US16/445,715 US10742830B2 (en) 2018-06-25 2019-06-19 Book digitization apparatus and book digitization method
CN201910551442.8A CN110633618B (zh) 2018-06-25 2019-06-24 书籍电子化装置以及书籍电子化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018119948A JP6746634B2 (ja) 2018-06-25 2018-06-25 書物電子化装置および書物電子化方法

Publications (2)

Publication Number Publication Date
JP2020003224A JP2020003224A (ja) 2020-01-09
JP6746634B2 true JP6746634B2 (ja) 2020-08-26

Family

ID=68968742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018119948A Active JP6746634B2 (ja) 2018-06-25 2018-06-25 書物電子化装置および書物電子化方法

Country Status (3)

Country Link
US (1) US10742830B2 (ja)
JP (1) JP6746634B2 (ja)
CN (1) CN110633618B (ja)

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4658978A (en) * 1985-06-24 1987-04-21 Nippon Ball Valve Co., Ltd. Top entry ball valve and a clamp therefor
JPH03218438A (ja) * 1990-01-23 1991-09-26 Mitsubishi Paper Mills Ltd 灰分及び塗工量の測定方法及び測定装置
JP3886279B2 (ja) * 1998-12-28 2007-02-28 株式会社日立製作所 配信スケジュール管理方法及び装置
US6426748B1 (en) * 1999-01-29 2002-07-30 Hypercosm, Inc. Method and apparatus for data compression for three-dimensional graphics
JP2000283526A (ja) * 1999-03-25 2000-10-13 Internatl Business Mach Corp <Ibm> エア・コンデイショニング・システム及び方法
JP2002260478A (ja) * 2001-03-01 2002-09-13 Internatl Business Mach Corp <Ibm> キーボード
JP4863700B2 (ja) * 2005-02-04 2012-01-25 東芝Itコントロールシステム株式会社 X線検査装置
JP4577212B2 (ja) * 2005-12-27 2010-11-10 株式会社島津製作所 X線検査装置
KR100783504B1 (ko) * 2006-06-01 2007-12-07 김수진 투명필름을 이용한 전자도서 및 도서 인식 방법
JP4110189B2 (ja) * 2006-12-13 2008-07-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 半導体パッケージ
US20110299775A1 (en) * 2010-06-08 2011-12-08 International Business Machines Corporation Correcting page curl in scanned books
US8885233B2 (en) * 2011-09-28 2014-11-11 Pathway Innovations And Technologies, Inc. Method, system, and apparatus for a document camera based book scanner and reading machine with an automatic page turner
JP2013145265A (ja) * 2012-01-13 2013-07-25 Sony Corp サーバ、学習用端末装置、および学習コンテンツ管理方法
JP6016768B2 (ja) * 2013-02-21 2016-10-26 富士フイルム株式会社 インク組成物、インクジェット記録方法、及び、高分子開始剤
JP6399840B2 (ja) * 2014-07-22 2018-10-03 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US9588651B1 (en) * 2014-09-24 2017-03-07 Amazon Technologies, Inc. Multiple virtual environments
JP6360963B2 (ja) * 2015-02-26 2018-07-18 シャープ株式会社 光照射用基板
US10384075B2 (en) * 2015-02-27 2019-08-20 Sharp Kabushiki Kaisha Light irradiation substrate
US10724971B2 (en) * 2015-11-05 2020-07-28 Shimadzu Corporation Display device and x-ray CT device
JP6432871B2 (ja) * 2016-01-28 2018-12-05 シャープ株式会社 書物電子化方法および書物電子化装置
JP6304609B2 (ja) * 2016-05-20 2018-04-04 カシオ計算機株式会社 データ量推定方法、プログラム、及び情報処理装置
US10614815B2 (en) * 2017-12-05 2020-04-07 International Business Machines Corporation Conversational challenge-response system for enhanced security in voice only devices
JP2019144702A (ja) * 2018-02-16 2019-08-29 シャープ株式会社 書物電子化装置および書物電子化方法

Also Published As

Publication number Publication date
CN110633618B (zh) 2023-06-30
US10742830B2 (en) 2020-08-11
US20190394346A1 (en) 2019-12-26
JP2020003224A (ja) 2020-01-09
CN110633618A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
US9336437B2 (en) Segregation of handwritten information from typographic information on a document
CN108734089A (zh) 识别图片文件中表格内容的方法、装置、设备及存储介质
DE69727320T2 (de) Aufnahmeverfahren und gerät
Padmavathi et al. Conversion of braille to text in English, Hindi and Tamil languages
JP6432871B2 (ja) 書物電子化方法および書物電子化装置
CN107832270A (zh) 基于LaTeX的公式编辑方法和公式编辑器
JP6746634B2 (ja) 書物電子化装置および書物電子化方法
JP4232679B2 (ja) 画像形成装置およびプログラム
JP2019144702A (ja) 書物電子化装置および書物電子化方法
JP6817251B2 (ja) 文字認識装置および文字認識方法
Hubert et al. Training & quality assessment of an optical character recognition model for Northern Haida
Tomaschek Evaluation of off-the-shelf OCR technologies
Chowdhury et al. Implementation of an optical character reader (ocr) for bengali language
CN108664871A (zh) 基于点阵识别的信息认证***
CN110634099B (zh) 书籍电子化装置及书籍电子化方法
CN108664872A (zh) 基于点阵识别的信息验证***
JP2020024640A (ja) 書物電子化装置および書物電子化方法
Albertin et al. The Venice “Archivio Di Stato”: innovating digitization with x-ray tomography
Ou et al. Three-dimensional book data page segmentation and extraction method using Laplace equation
JP6210527B2 (ja) ドットインパクトプリンタ装置並びにその印字濃度調整方法及びプログラム
JP4124145B2 (ja) セキュアプリントを用いた印刷読取り方法、印刷読取りシステム及び印刷読取り装置
CN109145266B (zh) 一种从图片快速生成动态pdf文件的方法
JP6891625B2 (ja) 画像処理装置、x線撮影システム及びx線撮影システムによる被写体の撮影方法
Wanigapura et al. Handwritten computer program recognition, compilation & execution application
CN104361048A (zh) 一种档案索引生成方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200805

R150 Certificate of patent or registration of utility model

Ref document number: 6746634

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150