JP2009026287A - 文字画像抽出装置および文字画像抽出方法 - Google Patents
文字画像抽出装置および文字画像抽出方法 Download PDFInfo
- Publication number
- JP2009026287A JP2009026287A JP2007246157A JP2007246157A JP2009026287A JP 2009026287 A JP2009026287 A JP 2009026287A JP 2007246157 A JP2007246157 A JP 2007246157A JP 2007246157 A JP2007246157 A JP 2007246157A JP 2009026287 A JP2009026287 A JP 2009026287A
- Authority
- JP
- Japan
- Prior art keywords
- character
- partition
- image
- unit
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
【課題】 複数の文字が並ぶ文字列領域から、各文字の画像を高精度で抽出することができる文字画像抽出方法および文字画像抽出装置を提供する。
【解決手段】 抽出ステップでは、抽出部401によって、複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、その中から連結成分に外接する外接図形によって区画される区画要素を抽出する。第1改変ステップでは、第1改変部402によって、前記抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とする。第1選択ステップでは、第1選択部403によって、基準の大きさを予め定め、第1改変ステップにて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。
【選択図】 図1
【解決手段】 抽出ステップでは、抽出部401によって、複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、その中から連結成分に外接する外接図形によって区画される区画要素を抽出する。第1改変ステップでは、第1改変部402によって、前記抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とする。第1選択ステップでは、第1選択部403によって、基準の大きさを予め定め、第1改変ステップにて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。
【選択図】 図1
Description
本発明は、複数の文字が並ぶ文字列領域から各文字の画像を抽出する文字画像抽出装置および文字画像抽出方法に関する。
また本発明は、複数の文字が並ぶ文字列領域から各文字の画像を抽出するための文字画像抽出プログラムおよび記録媒体に関する。
従来から、文書ファイリング装置が実用化されている。文書ファイリング装置は、文書データベースに文書を保持し、文書データベースに対して文書を検索することを可能とする(たとえば特許文献1参照)。文書ファイリング装置には、イメージスキャナなどの画像入力装置で文書を画像に変換して電子的に蓄積し、後から検索することを可能とするものもある。このような文書ファイリング装置では、後から検索することを可能とするために、画像文書中の文字列領域から、各文字の画像を抽出する必要がある。
文字列領域には、文字の他に、句読点などの約物が含まれることが多くあり、またノイズ部分が含まれることも多くある。約物およびノイズ部分は、検索には必要がない。それにも拘わらず、従来の文書ファイリング装置では、文字列領域から各文字の画像を抽出する際に、文字を含む要素だけでなく、約物を含む要素およびノイズ部分を含む要素までもが抽出されてしまう。
本発明の目的は、複数の文字が並ぶ文字列領域から、各文字の画像を高精度で抽出することができる文字画像抽出方法および文字画像抽出装置を提供することである。
本発明は、複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を前記文字列領域から抽出する抽出ステップと、
抽出ステップにて抽出された区画要素を改変する改変ステップであって、抽出ステップにて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする改変ステップと、
基準の大きさを予め定め、改変ステップにて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する選択ステップとを備えることを特徴とする文字画像抽出方法である。
抽出ステップにて抽出された区画要素を改変する改変ステップであって、抽出ステップにて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする改変ステップと、
基準の大きさを予め定め、改変ステップにて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する選択ステップとを備えることを特徴とする文字画像抽出方法である。
また本発明は、前記選択ステップにて選択された区画要素を改変する第2の改変ステップであって、第1の基準の寸法を予め定め、前記選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第1の基準の寸法よりも小さくて互いに文字の並び方向に隣接する区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする第2の改変ステップと、
第2の基準の寸法を予め定め、第2の改変ステップにて改変された区画要素のうちで、文字の並び方向に関する寸法が前記第2の基準の寸法よりも大きい区画要素を選択する第2の選択ステップとをさらに備えることを特徴とする。
第2の基準の寸法を予め定め、第2の改変ステップにて改変された区画要素のうちで、文字の並び方向に関する寸法が前記第2の基準の寸法よりも大きい区画要素を選択する第2の選択ステップとをさらに備えることを特徴とする。
また本発明は、第3の基準の寸法を予め定め、前記第2の選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第3の基準の寸法よりも大きい区画要素を、前記第3の基準の寸法に基づいて分割する分割ステップをさらに備えることを特徴とする。
また本発明は、複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を前記文字列領域から抽出する抽出部と、
抽出部にて抽出された区画要素を改変する改変部であって、抽出部にて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする改変部と、
基準の大きさを予め定め、改変部にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する選択部とを備えることを特徴とする文字画像抽出装置である。
抽出部にて抽出された区画要素を改変する改変部であって、抽出部にて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする改変部と、
基準の大きさを予め定め、改変部にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する選択部とを備えることを特徴とする文字画像抽出装置である。
また本発明は、コンピュータに請求項1に記載の文字画像抽出方法を実行させるための文字画像抽出プログラムである。
また本発明は、コンピュータに請求項1に記載の文字画像抽出方法を実行させるための文字画像抽出プログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、抽出ステップによって、複数の文字が並ぶ文字列領域から区画要素が抽出される。改変ステップによって、抽出ステップにて抽出された区画要素が改変される。選択ステップによって、改変ステップにて改変された区画要素の一部が選択される。
抽出ステップでは、文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を抽出する。この区画要素には、文字の全体を含む要素と、文字の一部を含む要素とがある。また、この区画要素には、約物を含む要素がある。約物とは、句点類、括弧類および中点類などの記述記号をいう。さらに、この区画要素には、文字および約物のいずれにも属さないノイズ部分を含む要素もある。
改変ステップでは、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とする。これによって、ある文字について、その文字の一部を含む要素とその文字の他の一部を含む要素とを統合させて、その文字の全体を含む1つの要素を得ることができる。また、ある文字について、その文字の一部を含む要素とその文字の全体を含む要素とを統合させて、その文字の全体を含む1つの要素を得ることができる。
しかも改変ステップでは、残余の区画要素をそのまま新たな区画要素とする。これによって、約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素が、後述の選択ステップにて不所望に選択されることを防ぐことができる。
約物を含む要素およびノイズ部分を含む要素は、文字を含む要素に比べて小さい。この点を利用して、選択ステップでは、基準の大きさを予め定め、改変ステップにて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。これによって、改変ステップにて改変された区画要素のうちで、文字を含む要素を選択することができる。換言すれば、改変ステップにて改変された区画要素から、約物を含む要素およびノイズ部分を含む要素を除外することができる。
このような本発明では、抽出ステップ、改変ステップおよび選択ステップがこの順で実行されることによって、文字列領域から、約物を含む要素およびノイズ部分を含む要素を誤って抽出することなく、文字を含む要素を抽出することができる。その結果、文字列領域から、文字を含む要素を文字画像として高精度で抽出することができる。
また本発明によれば、第2の改変ステップによって、選択ステップにて選択された区画要素が改変される。第2の選択ステップによって、第2の選択ステップにて改変された区画要素の一部が選択される。
文字列領域の各文字は、互いに大きさが異なる場合がある。この場合、比較的に小さい文字を含む複数の要素が文字の並び方向に隣接することはよくあり得る。しかしながら、約物を含む要素が文字の並び方向に隣接することは稀であり、またノイズ部分を含む要素が文字の並び方向に隣接することも稀である。
この点を利用して、第2の改変ステップは、第1の基準の寸法を予め定め、前記選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第1の基準の寸法よりも小さくて互いに文字の並び方向に隣接する区画要素を統合させて新たな区画要素とする。これによって、比較的に小さい文字を含む要素を統合させて大きな要素とすることができる。したがって比較的に小さい文字を含む要素が、後述の第2の選択ステップにて不所望に除外されることを防ぐことができる。
しかも第2の改変ステップは、残余の区画要素をそのまま新たな区画要素とする。これによって、約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素を、後述の第2の選択ステップにて確実に除外することができる。
第2の選択ステップでは、第2の基準の寸法を予め定め、第2の改変ステップにて改変された区画要素のうちで、文字の並び方向に関する寸法が前記第2の基準の寸法よりも大きい区画要素を選択する。これによって、第2の改変ステップにて改変された区画要素のうちで、文字を含む要素を選択することができる。換言すれば、第2の改変ステップにて改変された区画要素から、約物を含む要素およびノイズ部分を含む要素を除外することができる。
このような本発明では、第2の改変ステップおよび第2の選択ステップがこの順でさらに実行されることによって、文字列領域から、約物を含む要素およびノイズ部分を含む要素を誤って抽出することを可及的に防いだうえで、文字を含む要素を確実に抽出することができる。その結果、より一層に高い精度で、文字列領域から、文字を含む要素を文字画像として抽出することができる。
また本発明によれば、抽出ステップにて区画要素を抽出したときに、文字の並び方向に隣接する複数の文字が、1つの区画要素に含まれてしまうことがある。また改変ステップにて区画要素を改変したとき、さらには第2の改変ステップにて区画要素を改変したときに、文字の並び方向に隣接する複数の文字が、1つの区画要素に含まれてしまうことがある。そこで、分割ステップでは、第3の基準の寸法を予め定め、第2の選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第3の基準の寸法よりも大きい区画要素を、前記第3の基準の寸法に基づいて分割する。これによって1つの区画要素に複数の文字が含まれることを防ぐことができる。換言すれば、文字列領域から、各文字画像を1文字分ずつ抽出することができる。
また本発明によれば、抽出部によって、複数の文字画像が並ぶ文字列領域から区画要素が抽出される。改変部によって、抽出部にて抽出された区画要素が改変される。選択部によって、改変部にて改変された区画要素の一部が選択される。
抽出部は、文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を抽出する。この区画要素には、文字の全体を含む要素と、文字の一部を含む要素とがある。また、この区画要素には、約物を含む要素がある。さらに、この区画要素には、文字および約物のいずれにも属さないノイズ部分を含む要素もある。
改変部は、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とする。これによって、ある文字について、その文字の一部を含む要素とその文字の他の一部を含む要素とを統合させて、その文字の全体を含む1つの要素を得ることができる。また、ある文字について、その文字の一部を含む要素とその文字の全体を含む要素とを統合させて、その文字の全体を含む1つの要素を得ることができる。
しかも改変部は、残余の区画要素をそのまま新たな区画要素とする。これによって、約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素が、後述の選択部にて不所望に選択されることを防ぐことができる。
約物を含む要素およびノイズ部分を含む要素は、文字を含む要素に比べて小さい。この点を利用して、選択部は、基準の大きさを予め定め、改変部にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。これによって、改変部にて改変された区画要素のうちで、文字を含む要素を選択することができる。換言すれば、改変部にて改変された区画要素から、約物を含む要素およびノイズ部分を含む要素を除外することができる。
このような本発明では、抽出部、改変部および選択部がそれぞれ機能することによって、文字列領域から、約物を含む要素およびノイズ部分を含む要素を誤って抽出することなく、文字を含む要素を抽出することができる。その結果、文字列領域から、文字を含む要素を文字画像として高精度で抽出することができる。
また本発明によれば、文字画像抽出プログラム、文字画像抽出プログラムを記録したコンピュータ読み取り可能な記録媒体として提供することができる。
以下図面を参考にして本発明の好適な実施形態を詳細に説明する。
図1は、本発明の実施の一形態である文字画像抽出方法を実行する文字画像抽出装置400の構成を示すブロック図である。文字画像抽出装置400は、文書を画像として入力して蓄積する画像文書処理装置10の一部を構成する。文字画像抽出装置400は、複数の文字が並ぶ文字列領域である見出し領域から、各文字の画像を抽出するために用いられる。
図1は、本発明の実施の一形態である文字画像抽出方法を実行する文字画像抽出装置400の構成を示すブロック図である。文字画像抽出装置400は、文書を画像として入力して蓄積する画像文書処理装置10の一部を構成する。文字画像抽出装置400は、複数の文字が並ぶ文字列領域である見出し領域から、各文字の画像を抽出するために用いられる。
文字列領域には、複数の文字が、文字の幅方向または文字の高さ方向に並ぶ。文字の幅方向とは、文字の、字の向きに直交する方向をいい、文字の高さ方向とは、文字の、字の向きに平行な方向をいう。換言すれば、文字の並び方向は、文字の幅方向または文字の高さ方向と一致する。さらに換言すれば、文字は横書きまたは縦書きになっている。本実施の形態は、文字が横書きになっている場合を想定して説明する。文字は、左から右へと1列に並ぶ。文字列領域は、2値画像である。
文字画像抽出装置400は、文字列領域から区画要素を抽出する抽出部401と、抽出部401にて抽出された区画要素を改変する改変部である第1改変部402と、第1改変部402にて改変された区画要素の一部を選択する選択部である第1選択部403と、第1選択部403にて選択された区画要素を改変する第2の改変部である第2改変部404と、第2改変部404にて改変された区画要素の一部を選択する第2の選択部である第2選択部405と、第2選択部405にて選択された区画要素を分割する分割部406とを有する。
図2は、文字画像抽出装置400によって実行される文字画像抽出方法を説明するためのフローチャートである。文字列領域が与えられると、文字画像抽出処理が開始される。文字画像抽出処理が開始されると、まず、ステップa1で、抽出ステップを実行する。抽出ステップでは、抽出部401によって、文字列領域から区画要素を抽出する。
次のステップa2では、改変ステップである第1改変ステップを実行する。第1改変ステップでは、第1改変部402によって、抽出部401にて抽出された区画要素を改変する。次のステップa3では、選択ステップである第1選択ステップを実行する。第1選択ステップでは、第1選択部403によって、第1改変部402にて改変された区画要素の一部を選択する。
次のステップa4では、第2の改変ステップである第2改変ステップを実行する。第2改変ステップでは、第2改変部404によって、第1選択部403にて選択された区画要素を改変する。次のステップa5では、第2の選択ステップである第2選択ステップを実行する。第2選択ステップでは、第2選択部405によって、第2改変部404にて改変された区画要素の一部を選択する。
次のステップa6では、分割ステップを実行する。分割ステップでは、分割部406によって、第2選択部405にて選択された区画要素を分割する。分割ステップを実行した後、文字画像抽出処理が終了される。
図3は、抽出ステップ、第1改変ステップ、第1選択ステップおよび第2改変ステップを詳細に説明するための図であり、図3(a)は抽出ステップにて抽出された各区画要素を示し、図3(b)は第1改変ステップにて改変された各区画要素を示し、図3(c)は第1選択ステップにて選択された各区画要素を示し、図3(d)は第2改変ステップにて改変された各区画要素を示す。
抽出ステップにおいて、抽出部401は、文字列領域410について、互いに連結している複数の画素で構成される連結成分411を求め、連結成分411に外接する外接図形412によって区画される区画要素413を前記文字列領域410から抽出する。抽出ステップでは、図3(a)に示すように、各区画要素が抽出される。
連結成分411は、互いに連結している同一の画素値を有する画素で構成される。連結成分411を求めるにあたっては、連結性について、8連結で見てもよく、あるいは4連結で見てもよい。本実施の形態では、文字列領域410において文字は左から右へと1列に並ぶことを考慮して、文字列領域410の左端から右端に向かって連結成分411を求めていく。
外接図形412は、矩形であり、文字の幅方向D1に平行な2つの辺416,417と文字の高さ方向D2に平行な2つの辺418,419とによって構成される。区画要素413は、このような外接図形412の内側の部分である。この区画要素には、文字の全体を含む要素と、文字の一部を含む要素とがある。また、この区画要素には、約物を含む要素がある。さらに、この区画要素には、文字および約物のいずれにも属さないノイズ部分を含む要素もある。
約物とは、句点類、括弧類および中点類などの記述記号をいう。句点類は、文または文章の終わりを示すものであり、たとえばピリオドが挙げられる。括弧類は、始め括弧類および終わり括弧類を含む。始め括弧類は、文章の中で、ある部分を囲んで他との区別を明らかにするための記号のうち、区切りの始まりを示すものであり、たとえば二重引用符が挙げられる。終わり括弧類は、文章の中で、ある部分を囲んで他との区別を明らかにするための記号のうち、区切りの終わりを示すものであり、たとえば閉じ二重引用符が挙げられる。終わり括弧類は、文章中の切れ目を示すものも含み、たとえばコンマが挙げられる。中点類は、文章および語句の区切りに用いる記号であり、文字の幅の中心に位置するものであり、たとえばコロンが挙げられる。
第1改変ステップにおいて、第1改変部402は、抽出部401にて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする。第1改変ステップでは、図3(b)に示すように、各区画要素が得られる。
新たな区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させたものは、前記互いに重なり合う区画要素に外接する外接図形によって区画される。この外接図形も、矩形であり、文字の幅方向に平行な2つの辺と文字の高さ方向に平行な2つの辺とによって構成される。
このような第1改変ステップでは、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とする。これによって、ある文字について、その文字の一部を含む要素とその文字の他の一部を含む要素とを統合させて、その文字の全体を含む1つの要素を得ることができる。また、ある文字について、その文字の一部を含む要素とその文字の全体を含む要素とを統合させて、その文字の全体を含む1つの要素を得ることができる。
たとえば、「男」という文字については、抽出ステップにおいて、図3(a)に示すように、2つの区画要素421,422が抽出される。1つは、文字の一部を含む要素421であり、もう1つは、文字の他の一部を含む要素422である。第1改変ステップでは、これらの2つの区画要素421,422を統合させて、図3(b)に示すように、1つの区画要素423を得ることができる。
また、たとえば「治」という文字については、抽出ステップにおいて、図3(a)に示すように、3つの区画要素426,427,428が抽出される。1つは、文字の全体を含む要素426であり、もう1つは、文字の一部を含む要素427であり、さらにもう1つは、文字の他の一部を含む要素428である。第1改変ステップでは、これらの3つの区画要素426〜428を統合させて、図3(b)に示すように、1つの区画要素429を得ることができる。
しかも第1改変ステップでは、残余の区画要素をそのまま新たな区画要素とする。これによって、約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素が、後述の第1および第2選択ステップにて不所望に選択されることを防ぐことができる。
本実施の形態では、少なくとも一部分が文字の高さ方向D2に互いに重なり合う区画要素を統合させる。換言すれば、文字の幅方向D1に互いに重なり合っていたとしても、文字の高さ方向D2に互いに重なり合っていなければ、区画要素を統合させない。したがって約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを可及的に防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素が、後述の第1および第2選択ステップにて不所望に選択されることを可及的に防ぐことができる。
第1選択ステップにおいて、第1選択部403は、基準の大きさを予め定め、第1改変部402にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。第1選択ステップでは、図3(c)に示すように、各区画要素が選択される。
約物を含む要素およびノイズ部分を含む要素は、文字を含む要素に比べて小さい。この点を利用して、第1選択ステップでは、第1改変部402にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する。これによって、第1改変部402にて改変された区画要素のうちで、文字を含む要素を選択することができる。換言すれば、第1改変部402にて改変された区画要素から、約物を含む要素およびノイズ部分を含む要素を除外することができる。たとえば、二重引用符を含む要素431,432については、第1選択ステップにて除外される。
前記基準の大きさは、文字列領域の、文字の並び方向に直交する方向に関する寸法、または第1改変部402にて改変された区画要素の大きさに基づいて設定される。したがって前記基準の大きさを適切に設定することができる。これによって、前記基準の大きさが小さすぎて、約物を含む要素およびノイズ部分を含む要素が除外されなかったり、前記基準の大きさが大きすぎて、文字を含む要素までもが除外されたりすることを防ぐことができる。
具体的には、第1選択ステップでは、区画要素の大きさとして、区画要素の、文字の幅方向D1に関する寸法(以下「幅寸法」という)および文字の高さ方向D2に関する寸法(以下「高さ寸法」という)が用いられ、前記基準の大きさとして、基準の幅寸法および基準の高さ寸法が用いられる。
文字によっては、その文字を含む要素の幅寸法および高さ寸法のいずれか一方が基準の寸法を満たさないことがある。そこで、第1選択ステップでは、幅寸法が基準の幅寸法よりも小さくて高さ寸法が基準の高さ寸法よりも小さい区画要素は除外し、それ以外の区画要素は選択する。これによって文字を含む要素までもが不所望に除外されることを防ぐことができる。
基準の幅寸法および基準の高さ寸法は、文字列領域の、文字の並び方向に直交する方向に関する寸法、本実施の形態では文字列領域の高さ寸法に基づいて設定される。これによって、各区画要素の大きさのばらつきに拘わらず、基準の幅寸法および基準の高さ寸法を適切に設定することができる。
具体的には、基準の幅寸法および基準の高さ寸法は、文字列領域の高さ寸法に、0を超えて1未満の所定の比率を乗算した値に設定される。基準の幅寸法および基準の高さ寸法は、文字列領域の高さ寸法に対して、たとえば50%の値に選ばれる。
基準の幅寸法および基準の高さ寸法は、他の設定方法で設定されてもよい。たとえば、基準の幅寸法は、各区画要素の幅寸法の平均値に所定の比率を乗算した値に設定されてもよい。また基準の高さ寸法は、各区画要素の高さ寸法の平均値に所定の比率を乗算した値に設定されてもよい。
第1選択ステップでは、区画要素の対角線の寸法に基づいて、区画要素を選択するか否かを判定してもよい。また区画要素の面積に基づいて、区画要素を選択するか否かを判定してもよい。
さらに第1選択ステップでは、区画要素の位置情報にも基づいて、区画要素を選択するか否かを判定してもよい。この場合、区画要素が、他の区画要素と比べて、上過ぎる位置または下過ぎる位置にあり、しかも基準の大きさよりも小さいとき、その区画要素は除外し、それ以外の区画要素は選択する。またこの場合、文字の並び方向両端の区画要素については、その他の区画要素から離れていると判定されたときも除外する。
以上のような抽出ステップ、第1改変ステップおよび第1選択ステップが実行されることによって、文字列領域から、文字を含む要素を文字画像として高精度で抽出することができる。換言すれば、文字列領域から、約物を含む要素およびノイズ部分を含む要素を誤って抽出することなく、文字を含む要素を抽出することができる。
第2改変ステップにおいて、第2改変部404は、第1の基準の寸法を予め定め、第1選択部403にて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第1の基準の寸法よりも小さくて互いに文字の並び方向に隣接する区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする。第2改変ステップでは、図3(d)に示すように、各区画要素が得られる。
文字列領域の各文字は、互いに大きさが異なる場合がある。この場合、比較的に小さい文字を含む複数の要素が文字の並び方向に隣接することはよくあり得る。しかしながら、約物を含む要素が文字の並び方向に隣接することは稀であり、またノイズ部分を含む要素が文字の並び方向に隣接することも稀である。
この点を利用して、第2改変ステップでは、文字の並び方向に関する寸法が前記第1の基準の寸法よりも小さくて互いに文字の並び方向に隣接する区画要素を統合させて新たな区画要素とする。具体的には、2つの隣接する区画要素のそれぞれの幅寸法が、前記第1の基準の寸法よりも小さい場合に、それらの区画要素を統合の候補とする。そして、統合の候補となる各区画要素の幅寸法とそれらの区画要素間の距離との合計値が、前記第1の基準の寸法に所定の比率を乗算した値よりも小さい場合は、2つの隣接する区画要素を統合させる。これによって、比較的に小さい文字を含む要素を統合させて大きな要素とすることができる。たとえば、図3(c)に示すような、比較的に小さい文字を含む要素441,442を統合させて、図3(d)に示すように、1つの大きな要素443を得ることができる。したがって比較的に小さい文字を含む要素が、後述の第2選択ステップにて不所望に除外されることを防ぐことができる。
しかも第2改変ステップでは、残余の区画要素をそのまま新たな区画要素とする。これによって、約物を含む要素およびノイズ部分を含む要素について、不所望に統合されて大きな要素となることを防ぐことができる。したがって約物を含む要素およびノイズ部分を含む要素を、後述の第2選択ステップにて確実に除外することができる。
前記第1の基準の寸法は、第1選択部403にて選択された区画要素の大きさに基づいて設定される。したがって、前記第1の基準の寸法を適切に設定することができる。これによって、前記第1の基準の寸法が小さすぎて、比較的に小さい文字を含む要素が統合されなかったり、前記第1の基準の寸法が大きすぎて、比較的に大きい文字を含む要素までもが統合されたりすることを防ぐことができる。
前記第1の基準の寸法は、各区画要素の幅寸法または各区画要素の高さ寸法に基づいて設定される。これによって、各区画要素の大きさのばらつきに拘わらず、前記第1の基準の寸法を適切に設定することができる。
具体的には、前記第1の基準の寸法は、各区画要素の幅寸法の平均値に、0を超えて1未満の所定の比率を乗算した値に設定される。前記第1の基準の寸法は、各区画要素の高さ寸法の平均値に、0を超えて1未満の所定の比率を乗算した値に設定されてもよい。前記第1の基準の寸法は、他の設定方法で設定されてもよい。
図4は、第2選択ステップを説明するための図であり、図4(a)は第2改変ステップにて改変された各区画要素を示し、図4(b)は第2選択ステップにて選択された各区画要素を示す。図5は、第2選択ステップを説明するための図であり、図5(a)は第2改変ステップにて改変された各区画要素を示し、図5(b)は第2選択ステップにて選択された各区画要素を示す。
第2選択ステップにおいて、第2選択部405は、第2の基準の寸法を予め定め、第2改変部404にて改変された区画要素のうちで、前記第2の基準の寸法よりも大きい区画要素を選択する。第2選択ステップでは、図4(b)および図5(b)に示すように、各区画要素が選択される。
このような第2選択ステップでは、第2改変部404にて改変された区画要素のうちで、文字の並び方向に関する寸法が前記第2の基準の寸法よりも大きい区画要素を選択する。これによって、第2改変部404にて改変された区画要素から、約物を含む要素およびノイズ部分を含む要素を確実に除外することができる。
前記第2の基準の寸法は、文字列領域の、文字の並び方向に直交する方向に関する寸法、または第2改変部404にて改変された区画要素の大きさに基づいて設定される。したがって前記第2の基準の寸法を適切に設定することができる。これによって、前記第2の基準の寸法が小さすぎて、約物を含む要素およびノイズ部分を含む要素が除外されなかったり、前記第2の基準の寸法が大きすぎて、文字を含む要素までもが除外されたりすることを防ぐことができる。
第2選択ステップでは、文字の並び方向に関する寸法が前記第2の基準の寸法よりも小さい区画要素は除外し、それ以外の区画要素は選択する。換言すれば、文字の並び方向に直交する方向に関する寸法が前記第2の基準の寸法よりも大きくても、文字の並び方向に関する寸法が前記第2の基準の寸法よりも小さければ、その区画要素は除外する。このように第2選択ステップでは、選択条件を厳しくしている。これによって、約物を含む要素およびノイズ部分を含む要素を確実に除外することができる。
たとえば、図4に示すように、ノイズ部分である細線を含む要素445については、第2選択ステップにて除外される。また図5に示すように、他の文字に比べて非常に小さな文字を含む要素446についても、第2選択ステップにて除外される。
前記第2の基準の寸法は、文字列領域の、文字の並び方向に直交する方向に関する寸法、本実施の形態では文字列領域の高さ寸法に基づいて設定される。これによって、各区画要素の大きさのばらつきに拘わらず、前記第2の基準の寸法を適切に設定することができる。
具体的には、前記第2の基準の寸法は、文字列領域の高さ寸法に、0を超えて1未満の所定の比率を乗算した値に設定される。第2選択ステップでの所定の比率は、第1選択ステップでの所定の比率よりも大きい。前記第2の基準の寸法は、文字列領域の高さ寸法に対して、たとえば70%の値に選ばれる。
前記第2の基準の寸法は、他の設定方法で設定されてもよい。たとえば、前記第2の基準の寸法は、各区画要素の幅寸法の平均値に所定の比率を乗算した値に設定されてもよい。また前記第2の基準の寸法は、各区画要素の高さ寸法の平均値に所定の比率を乗算した値に設定されてもよい。
以上のような第2改変ステップおよび第2選択ステップがさらに実行されることによって、より一層に高い精度で、文字列領域から、文字を含む要素を文字画像として抽出することができる。換言すれば、文字列領域から、約物を含む要素およびノイズ部分を含む要素を誤って抽出することなく、文字を含む要素を確実に抽出することができる。
図6は、分割ステップを説明するための図であり、図6(a)は第2選択ステップにて選択された各区画要素を示し、図6(b)は分割ステップにて分割された各区画要素を示す。
分割ステップにおいて、分割部406は、第3の基準の寸法を予め定め、第2選択部405にて選択された区画要素のうちで、幅寸法が前記第3の基準の寸法よりも大きい区画要素を、前記第3の基準の寸法に基づいて分割する。
抽出ステップにて区画要素を抽出したときに、文字の並び方向に隣接する複数の文字が、1つの区画要素に含まれてしまうことがある。また第1改変ステップにて区画要素を改変したとき、さらには第2改変ステップにて区画要素を改変したときにも、文字の並び方向に隣接する複数の文字が、1つの区画要素に含まれてしまうことがある。
そこで、分割ステップでは、第2選択部405にて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第3の基準の寸法よりも大きい区画要素を、前記第3の基準の寸法に基づいて分割する。具体的には、区画要素の幅寸法と前記第3の基準の寸法との割合を算出し、この割合に基づいて分割数を決定し、区画要素をその分割数で等分割する。たとえば、図6に示すように、2つの文字を含む要素451については、1つの文字をそれぞれ含む2つの要素452,453に分割される。これによって1つの区画要素に複数の文字が含まれることを防ぐことができる。換言すれば、文字列領域から、各文字画像を1文字分ずつ抽出することができる。
前記第3の基準の寸法は、第2選択部405にて選択された区画要素の大きさに基づいて設定される。したがって前記第3の基準の寸法を適切に設定することができる。これによって前記第3の基準の寸法が小さすぎて、分割されるべきでない区画要素が不所望に分割されたり、前記第3の基準の寸法が大きすぎて、分割されるべき区画要素が分割されなかったりすることを防ぐことができる。
前記第3の基準の寸法は、各区画要素の幅寸法の平均値または各区画要素の高さ寸法の平均値に基づいて設定される。これによって、各区画要素の大きさのばらつきに拘わらず、前記第3の基準の寸法を適切に設定することができる。
具体的には、前記第3の基準の寸法は、各区画要素の幅寸法の平均値に、0を超えて1未満の所定の比率を乗算した値に設定される。また前記第3の基準の寸法は、各区画要素の高さ寸法の最大値に、0を超えて1未満の所定の比率を乗算した値に設定されてもよい。前記第3の基準の寸法は、他の設定方法で設定されてもよい。
前述の実施の形態では、第1選択ステップでは、区画要素の大きさに基づいて、区画要素を選択するか否かを判定するけれども、本発明の実施の他の形態では、この第1選択ステップでは、区画要素の位置にも基づいて、区画要素を選択するか否かを判定してもよい。たとえば、他の区画要素に対して離れた位置にある区画要素は除外されてもよい。
また本発明の実施のさらに他の形態では、第2改変ステップおよび第2選択ステップは、省略してもよい。
図7は、画像文書処理装置10の構成を大略的に示すブロック図である。画像文書処理装置10は、プロセッサ4と、プロセッサ4が実際の処理を行うためのソフトウエアなどを格納する外部記憶装置5とを含む。
プロセッサ4は、画像文書から検索の要となる見出し領域を抽出する画像文書特徴抽出処理、画像文書に対する検索を可能にするインデックス情報を生成するインデックス情報生成処理、インデックス情報を用いた検索処理、およびインデックス情報を用いて後述する意味のある文書名を作成して画像文書を管理する画像文書管理処理などを実際に行う。
プロセッサ4における実際の処理は、外部記憶装置5に格納されるソフトウエアによって実行される。プロセッサ4は、たとえば通常のコンピュータ本体などで構成される。本実施の形態では、プロセッサ4は、インデックス情報生成処理に用いる後述する字形特徴辞書15を作成する字形特徴辞書作成処理も実行するようになっている。
外部記憶装置5は、たとえば高速アクセスが可能なハードディスクなどで構成することができる。外部記憶装置5は、画像文書を大量に保持するために光ディスクなどの大容量デバイスを用いるような構成をとっても構わない。後述する字形特徴辞書15、インデックス情報データベース(インデックス情報DB)17、画像文書データベース(画像文書DB)19、字形見本データベース(字形見本DB)13などは、外部記憶装置5にて構成される。
画像文書処理装置10には、キーボード1が接続されるとともに、表示装置3が接続される。キーボード1は、検索キーワードの入力に用いられる。またキーボード1は、画像文書を閲覧する際の指示入力にも用いられる。さらにキーボード1は、後述する候補文字数、相関値、および行の相関度加重因子Qなどの設定値変更にも用いられる。表示装置3は、画像文書などを出力して表示する。表示装置3に表示される内容には、相関度の情報、および画像名称などの情報も含まれる。
画像文書処理装置10には、イメージスキャナ2またはデジタルカメラ6がさらに接続される。イメージスキャナ2およびデジタルカメラ6は、画像文書を取得するために用いられる。画像文書の取得は、イメージスキャナ2およびデジタルカメラ6に限られるものではなく、ネットワークなどを介して通信を行うことによって取得してもよい。また、イメージスキャナ2またはデジタルカメラ6を用いた検索キーワードの入力も可能である。
図8は、画像文書処理装置10の構成を詳細に示すブロック図である。画像文書処理装置10は、文字データベース入力部(文字DB入力部)11、字体正規化処理部12、字形見本DB13、文字画像特徴抽出部(画像特徴抽出部)14、字形特徴辞書15、特徴マッチング部16、インデックス情報DB17、見出し領域初期処理部18、画像文書DB19、画像文書特徴データベース(画像文書特徴DB)20、画像文書入力部21、検索部22、語彙解析部23、キーワード入力部24、検索結果表示部25、文書名作成部51、画像文書DB管理部52、画像文書表示部53、指示入力部54を含んでいる。
このうち、文字DB入力部11、字体正規化処理部12、字形見本DB13、文字画像特徴抽出部14、字形特徴辞書15にて、上記した字形特徴辞書作成処理を実施する字形特徴辞書生成部30が構成される。
まず、字形特徴辞書生成部30を構成する、上記機能ブロック11,12,13,14,15について説明する。
文字DB入力部11は、字形特徴辞書15を作成するために必要な、基本となる文字データベースを入力するためのものである。本装置が、たとえば、中国語対応の装置であれば、中華人民共和国におけるGB2312の6763個の全文字などが入力される。また、本装置が、日本語対応の装置であれば、JIS第一水準の約3,000字種などが入力される。つまり、ここで言う文字には、符号が含まれる。このような文字DB入力部11は、プロセッサ4にて構成され、文字データベースは、記録媒体を介して、或いはネットワークなどを通じて供給される。
字体正規化処理部12は、文字DB入力部11より入力された文字データベースに含まれる全ての文字について、異なるフォントとサイズの文字画像を作成するものである。異なるフォントとサイズの文字画像は、字形見本DB13に格納される。
図9に、字体正規化処理部12が字形見本DB13を作成する処理を示す。字体正規化処理部12には、本装置が中国語対応の装置であれば、たとえば、宋体、倣宋体、黒体、楷体などの字形見本12aが具備されている。また、本装置が日本語対応の装置であれば、MS明朝、MSゴシック…などの字形見本が具備されている。
字体正規化処理部12における変形処理部12bが、文字データベースの文字を画像化し、文字画像を標準化処理する。次に、変形処理部12bは、字形見本12aを参照して、標準化処理した文字画像に対し、変形処理を施し、さらに異なるフォントとサイズの文字画像にする。変形処理には、たとえば、曖昧化処理、拡大・縮小化処理、微細化処理などがある。このように変形処理された文字画像を、字体基準部12cは、基準文字画像として字形見本DB13に格納する。
字形見本DB13には、文字データベースの全ての文字に対して、同じ文字であっても、フォント、サイズによって決まる字形毎に基準文字画像が格納されている。例をあげると、文字種は同じ「中」であっても、定められているフォントの数だけ形状の異なる基準文字画像の「中」があり、また、定められているサイズの数だけ大きさの異なる基準文字画像の「中」が格納されている。
文字画像特徴抽出部14は、文字画像の特徴(画像特徴)を抽出して、字形特徴辞書15に格納するものでもある。本実施の形態では、文字画像特徴抽出部14は、文字画像外囲特徴と網格方向との組合せによって文字画像の特徴を抽出し、特徴ベクトルとする。なお、文字画像の特徴は、これらに限られるものではなく、他の特徴を抽出して特徴ベクトルを形成してもよい。
ここで、文字画像外囲特徴及び網格方向特徴について説明しておく。図10は、文字画像外囲特徴の説明図である。文字画像外囲特徴とは、文字画像の外部からみた輪郭の特徴である。図10に示すように、文字画像の外接矩形の4辺から走査し、白画素から黒画素に変化する点までの距離を特徴とし、最初に変化する位置と2度目に変化する位置を取り出す。
たとえば、外接矩形をX行Y列に分割した場合、行を単位として左方向と右方向からそれぞれ画像を走査し、列を単位として上方向と下方向からそれぞれ走査する。なお、図10は、行を単位に左から走査している図である。
また、図10において、実線の矢印F1にて、最初に白画素から黒画素に変化する点までの走査軌跡を示している。破線の矢印F2は、2回目に白画素から黒画素に変化する点までの走査軌を示している。実線の矢印F3は、最後まで白画素から黒画素に変化する点を検出することができなかった走査軌跡を示しており、このような場合、距離値は0となる。
一方、図11(a),(b)は、網格方向特徴の説明図である。文字画像を粗い網格に分割し、各格子領域内の黒画素についてあらかじめ定めた複数方向に触手を伸ばす。そして、各方向に連結する黒画素の画素数を計数し、該黒画素の各方向成分別の分布状況を表す方向寄与度を、識別関数としてユークリッド距離を用いて黒画素数の差に応じた値により距離値を除算して距離値を算出する。
図11(a)では、文字画像を4×4の16個の格子に分割し、格子の交点からX軸方向に最も近い黒画素から白画素になる点を中心に、X軸方向(0°)、45°方向、Y軸方向(90°)の3方向に触手を伸ばしている。
本実施例では、文字画像を8×8の4角の網に分割し、図11(b)に示すように、0°,45°,90°,135°,180°,225°,270°,315°の8方向に触手を伸ばすようになっている。
なお、網格方向の特徴の抽出方法としては、触手の伸ばす方向や、触手を伸ばす中心点を置き方など、様々な手法があり、たとえば、特開2000−181994号公報などに記載されている。
文字画像特徴抽出部14は、このような文字画像の特徴の抽出を、字形見本DB13に格納されている、基準文字画像の全部に対して行う。そして、文字画像特徴抽出部14は、字形見本DB13に格納されている基準文字画像の抽出結果については字形特徴辞書15に格納し、字形特徴辞書15を生成する。
図12に、文字画像特徴抽出部14による字形特徴辞書15を作成する処理を示す。文字画像特徴抽出部14における字形基準化部14aが、字形見本DB13から基準文字画像を取り出し、文字画像特徴取出部14bは、字形基準化部14aが取り出した基準文字画像に対してその特徴を取り出す。そして、特徴分類部14cが、字形見本DB13を参照して、基準文字画像毎に抽出した特徴を分類して、字形特徴辞書15に格納する。
文字画像特徴取出部14bにおいては、上述したように、単文字ごと、加重付けによる異なる基準文字画像の特徴の適値を求め、基準文字画像の標準特徴を取得する。
文字画像特徴取出部14bが、異なる字体字号を加重させることによって、異なる字形特徴辞書を作成することができる。多字体の画像特徴を融合し、単文字画像特徴を単位で字形特徴辞書を作成することで、多字体・字号画像文書の自動インデックスと管理を満足できる。
次に、画像文書特徴抽出処理を実施する画像文書特徴抽出部31を構成する、画像文書DB19、画像文書特徴DB20、見出し領域初期処理部18、文字画像特徴抽出部14について説明する。
画像文書DB19は、画像文書入力部21より画像文書が入力されると、識別のための文書IDを付けて保存するものである。
見出し領域初期処理部18は、画像文書DB19に新しい画像文書が保存されると、そのイメージデータより画像文書における見出し領域を定位して抽出して、文字画像を前述した文字画像特徴抽出部14に送るものである。
図15に、画像文書50に対して、T1、T2、T3の3領域を見出し領域として定位した様子を示す。この図17からも分かるように、画像文書50におけるタイトル部分を見出し領域Tとして抽出する。
見出し領域初期処理部18にて抽出されて文字画像特徴抽出部14に送られる文字画像は、通常は複数の文字を含んだ文字列の画像である。したがって、これ以降は、見出し領域初期処理部18より送られる文字画像は文字列の画像であるとして説明する。
本実施の形態では、見出し領域初期処理部18は射影法と連通域統計分析により、見出し領域Tの定位及び抽出を行う。なお、このような見出し領域Tは、主にタイトル部分が相当し、たとえば、特開平9−319747号公報、特開平8−153110号公報などに記載されている方法など、従来ある様々な手法を用いることができる。
画像文書の全ての文字領域(テキスト領域)を対象とすることなく、このように見出し領域Tのみを定位し抽出しているため、検索の対象となる情報量を少なくして検索時間を短くできる。
但し、全てのテキスト領域を定位することなく、見出し領域Tのみを定位することは、検索に関して言えば必須の構成要素でなく、全文テキスト領域を定位して抽出することも可能である。ただし、後述する意味のある文書名の作成に関して言えば、見出し領域Tのみを定位することは必須の構成要素である。
文字画像特徴抽出部14は、見出し領域初期処理部18から入力される文字列の画像については、前述の文字画像抽出方法によって、各文字画像を抽出した上で、字形特徴辞書15の作成時と同様、各文字画像の特徴を抽出する。そして、抽出した特徴は、画像文書特徴DB20に画像文書ごとに格納する。
画像文書特徴DB20には、見出し領域初期処理部18にて抽出された見出し領域Tに含まれる文字列の画像の特徴情報が、文字列を構成する各文字それぞれの特徴(特徴ベクトル)として格納される。
図15に示ように、1つの画像文書50に対して、抽出された全ての見出し領域T1,T2,T3…に含まれる文字列の文字画像の特徴、つまり文字列を構成する各文字の文字画像の特徴が、画像文書50の文書IDと共に格納される。
次に、インデックス情報作成処理を実施するインデックス情報生成部32を構成する、文字画像特徴抽出部14、字形特徴辞書15、特徴マッチング部16、インデックス情報DB17、画像文書特徴DB20について説明する。
文字画像特徴抽出部14、字形特徴辞書15、画像文書特徴DB20の機能は既に説明したとおりである。
特徴マッチング部16は、画像文書特徴DB20より画像文書の見出し領域Tに含まれる文字画像の特徴を読み出し、該読み出した特徴に基づいて、字形特徴辞書15を参照して後述するようにインデックス行列を作成して、画像文書のインデックス情報を生成するものである。
ここで、インデックス情報が1つの画像文書に対して1つ生成され、インデックス情報に含まれるインデックス行列は、見出し領域T毎に作成される。したがって、1つの画像文書内に見出し領域Tが複数ある場合は、当該画像文書のインデックス情報の中に複数のインデックス行列が含まれることとなる。
図13に、インデックス情報DB17を作成する処理を示す。上述したように、ある画像文書が入力されて画像文書DB19に格納されると、文字画像特徴取出部14bが、各見出し領域Tに含まれる文字列の文字画像の特徴を抽出して、画像文書特徴DB20に格納する。
特徴マッチング部16は、画像文書特徴DB20より、各見出し領域Tに含まれる文字列の画像の特徴を読み出し、単文字ごとに字形特徴辞書15内の基準文字画像と適合を行って、見出し領域Tそれぞれのインデックス行列を作成する。
そして、特徴マッチング部16は、これらインデックス行列に、当該画像文書のその他の情報である、文書IDや画像文書DB19内における該当する画像文書の保存位置の情報などを含めてインデックス情報とし、インデックス情報DB17に格納する。
図14に、特徴マッチング部16によるインデックス行列を作成する処理の一例を示す。図14は、図15における見出し領域T3に含まれる文字列「去神仙居住的地方」の8つの文字画像について、インデックス行列を作成する説明図である。
文字列『去神仙居住的地方』は、「去」「神」「仙」「居」「住」「的」「地」「方」の1文字画像に分割される。
「去」…「地」の8文字には、並び順に従い、「去」には1、「神」には2、…「方」には8というように、1〜8までの番号が付される。この番号は、インデックス行列の行番号に相当する。
このような8つの文字画像全てに対して、図14に参照符号Aにて示す、画像文書特徴DB20より格納されている文字画像「去」に対する特徴を取り出し(S1)、字形特徴辞書15を参照して特徴が近い(適合度が高い)順に、N個の候補文字を選択する(S2)といった処理が実施される。
適合度の高い順に抽出されるN個の候補文字には、抽出順序に応じた番号が付され、これがインデックス行列の列番号に相当する。そして、検索キーワードに含まれる各検索文字と候補文字との適合度を示す文字相関値(相関値)は、この列番号に応じて設定されている。
図14に、参照符号100にて示すテーブルは、文字列『去神仙居住的地方』のインデックス行列の内容を示している。たとえば、5文字目の「住」の文字画像に対しては、行番号5の行に適合度の高い1列目から順に、「任」,「佳」,「住」,…「仁」の候補文字が抽出されている。テーブル100において、たとえば候補文字「去」のインデックス行列内の位置は[1,1]、候補文字「屑」の位置は[4,2]、候補文字「仁」の位置は[5,N]となる。
なお、図14のテーブル100では、理解を助けるために、文字列の各文字に対応する候補文字に対しては○を付して示している。
このようなインデックス行列の行数Mは、見出し領域初期処理部18が見出し領域Tとして抽出した文字列の画像の文字数にて決まる。また、列数Nは、1文字について選出する候補文字数にて決まる。したがって、本発明によれば、インデックス行列の次元数(列数)を変えることで、インデックス行列内の要素数、つまり、候補文字数量を柔軟に設定することができる。そのため、画像文書の検索において、正確でほぼ漏れのない検索を行うことができる。
インデックス行列において、選択された候補文字の情報の持たせ方は、検索キーワードの入力方法に応じて適宜設定することができる。たとえば、検索キーワードをキーボード1より入力する構成であれば、キーボード1から入力された検索キーワードに対して検索を掛けることができるように、候補文字を文字コードなどの情報で格納する。
また、イメージスキャナ2などを用いて検索キーワードをイメージデータにて入力する構成であれば、検索キーワードの特徴(特徴ベクトル)を抽出し、特徴ベクトル同士を比べて掛けることができるように、候補文字を特徴(特徴ベクトル)の情報で格納すればよい。
図15に、インデックス情報DB17におけるインデックス情報のデータ配置例を示す。複数の見出し領域T1,T2,T3…Tnが存在する画像文書50のインデックス情報では、複数の見出し領域T1,T2,T3…Tnに対して作成されたインデックス行列が線形に配置される。図17の例では、文書IDが先頭に配置され、続いて、複数のインデックス行列が配列され、最後に保存位置の情報が配置されている。ここで、5×Nは、インデックス行列のサイズを示しており5行N列であることを示している。
インデックス情報をこのようなデータ配置としておくことで、画像文書DB19内の画像文書の格納位置と、画像文書中の見出し領域Tの位置を迅速に定位して、検索結果の表示に用いることができる。
また、実際の要求に従って、インデックス情報に画像文書の他の属性を追加することもできる。
次に、インデックス情報を用いた検索処理を実施する検索部22について説明する。図16は、検索部22の機能と検索処理とを示す説明図である。検索部22は、インデックス行列検索処理部22a、文字相関値保存部(保存部)22b、相関度算出部22c、表示順序決定部(順序決定部)22d、及び画像文書抽出部22eを含む。
インデックス行列検索処理部22aには、キーワード入力部24より検索キーワードが入力される。キーワード入力部24としては、前述したキーボード1或いはイメージスキャナ2などが相当する。
インデックス行列検索処理部22aは、インデックス情報DB17に対して検索を行い、入力された検索キーワードを含むインデックス行列を検出するものである。インデックス行列検索処理部22aは、検索キーワードを1文字ごとに分割し、各検索文字を含むインデックス行列を探し、検索文字が含まれている場合は、当該検索文字のインデックス行列内の適合位置の情報を取得する。なお、インデックス行列の抽出手順例については、図17のフローチャートを用いて後述する。
文字相関値保存部22bは、インデックス行列検索処理部22aにて取得された適合位置の情報と、該適合位置の列番号に応じた文字相関値を保存するものである。
相関度算出部22cは、インデックス行列検索処理部22aにおける全てのインデックス行列に対する検出が完了すると、検出されたインデックス行列と検索キーワードとの相関度を算出するものである。
相関度の算出は、文字相関値保存部22bに保存されている適合位置及び文字相関値の情報を用い、予め設定されている相関度算出方法に従うことで算出する。相関度の算出については、図18、図19を用いて後述する。
なお、ここでは、文字相関値保存部22bが、適合位置の情報と、該適合位置の列番号に応じた文字相関値を保存する構成としていたが、文字相関値保存部22bは、適合位置のみを保存し、相関度算出部22cが、適合位置の情報より文字相関値を取得する構成としてもよい。
表示順序決定部22dは、相関度算出部22cにて算出された相関度の情報を基に、表示順序を決定するものである。表示順序決定部22dは、相関度の高いインデックス行列を含む画像文書より順に、画像文書の内容が検索結果表示部25に表示されるように表示順序を決定する。
画像文書抽出部22eは、表示順序決定部22dにて決定された順序に従い画像文書が表示されるように、画像文書DB19より画像文書のイメージデータを読み出し、検索結果表示部25に出力して表示させるものである。
検索結果表示部25は、表示順序に従い画像文書を表示する。サムネイル表示などであってもよい。検索結果表示部25としては、前述した表示装置3などが相当する。
ここで、検索手順について説明する。図17は、検索部22における検索手順を示すフローチャートである。R個の文字列よりなる検索キーワードが入力され、検索が指示されると、インデックス行列検索処理部22aは、まず、検索キーワードの第1番目の検索文字を取り出す(S11)。
次に、インデックス行列検索処理部22aは、インデックス情報DB17内の全てのインデックス行列に対して、第1番目の検索文字を検索する(S12)。
全てのインデックス行列に対する検索が完了すると、第1番目の検索文字を検索できたかどうかを判断し、1つも検索できなかった場合はS19に移行し、検索できた場合はS14に進む。
S14においては、インデックス行列検索処理部22aが、第1番目の検索文字が含まれていたインデックス行列における適合位置と文字相関値とを、文字相関値保存部22bに保存する。
続いて、インデックス行列検索処理部22aは、第1番目の検索文字が含まれていた全てのインデックス行列を取り出す(S15)。そして、検索キーワードの次の文字である第2番目の検索文字を取り出し、S15で取り出した第1番目の検索文字を含んでいたインデックス行列に対して検索する(S16)。
S15で取り出した全てのインデックス行列に対する検索が完了すると、第2番目の検索文字を検索できたかどうかを判断し(S17)、1つも検索できなかった場合は上記と同様にS19に移行し、検索できた場合はS18に進む。
S18においては、インデックス行列検索処理部22aが、第2番目の検索文字が含まれていたインデックス行列における適合位置と文字相関値とを、文字相関値保存部22bに保存する。
続いて、インデックス行列検索処理部22aは、再度S16に戻り、検索キーワードのさらに次の文字である第3番目の検索文字を取り出し、S15で取り出した第1番目の検索文字を含んでいたインデックス行列に対して検索する。
そして、ここでも、検索が完了すると、インデックス行列検索処理部22aは、第3番目の検索文字を検索できたかどうかを判断し(S17)、1つも検索できなかった場合はS19に移行し、検索できた場合は再度S18に進み、検索キーワードのさらなる次の検索文字についての検索を行う。
このようなS16〜S18までの処理、つまり、S15にて抽出した、第1番目の検索文字が含まれているインデックス行列を対象とした、第2番目以降の各検索文字の絞り込み検索を、インデックス行列検索処理部22aは、S17で文字を1つも検出できなかったと判断するか、検索キーワード内の全検索文字に対しての検索が完了したと判断するまで行い、その後、S19に移行する。
S19では、検索キーワードにおける次の文字である第2番目の検索文字を取り出す。次いで、検索文字が終わりか、つまり、全ての検索文字に対して検索を終えたかどうを判断し(S20)、終わっていない場合は、S12に戻る。
そして、上記と同様にして、インデックス行列検索処理部22aは、インデックス情報DB17内の全てのインデックス行列に対して、第2番目の検索文字を検索する。検索できた場合は、インデックス行列の適合位置と文字相関値を保存した上でS15に進み、第2番目の検索文字を含んでいる全てのインデックス行列に対して、検索キーワードの次の文字、つまり、第2番目の次である第3番目以降の各検索文字に対して、S16〜S18を繰り返し行って絞り込み検索を行う。
インデックス行列検索処理部22aは、上記のような検索を、S19で検索文字を一つ進め、進めた検索文字を含むインデックス行列を取り出し、それ以降の検索文字にて絞り込みを掛けるといった処理を、第3番目以降の各検索文字についても順次行う。
そして、S19にて検索キーワード内の全ての検索文字について取り出しを終え、S20にて、全ての検索文字に対して検索を終了したと判断した場合は、S21に進む。
S21では、相関度算出部22cが、検索キーワードと各インデックス行列との相関度を、後述するように相関度基準にしたがって算出する。
そして、表示順序決定部22dが相関度の高いインデックス行列を含む画像文書より表示されるように表示順序を決定し、画像文書抽出部22eが画像文書DB19より画像文書のイメージデータを取得し、検索結果表示部25が相関度の高い順に画像文書を表示する(S22)。
続いて、図18、図19を用いて、相関度算出部22cにおける相関度基準にしたがった、インデックス行列と検索キーワードとの相関度算出方法について説明する。
図18の参照符号101のブロックには、検索条件を記載している。そして、参照符号102のブロックには、相関度を計算するためのある仮定の検索キーワードとインデックス行列との相対関係を記載している。ブロック101に示した検索条件で、検索キーワードとインデックス行列とが、ブロック102に示すような相対関係であった場合、検索キーワードとインデックス行列の相関度は、ブロック103にて示されるような計算式にて算出されることとなる。
まず、ブロック101の検索条件について説明する。検索キーワードの文字数はR個であり、第1番目の検索文字がC1、第2番目がC2、…、第R番目がCrである。
検索対照となるインデックス行列はM×N次行列である。つまり、見出し領域Tとして切り出された文字列画像の文字数がM個であり、文字列の各文字それぞれの候補として選択された候補文字数がN個である。
検索文字と各候補文字との相関値である文字相関値は、インデックス行列の各位置に応じて定められているので、インデックス行列と同じ次数の行列となる。つまり、文字相関値行列Weightは、M×N次行列である。たとえば、Weight[i][j]は、インデックス行列における位置[i,j](=Index[i][j])にある候補文字が適合された場合の文字相関値を表している。本実施の形態では、インデックス行列の列番号[j]が同じであれば、行番号[i]に関わらず、文字相関値は同じである。
行の相関度加重因子Qは、インデックス行列における隣接する2行にわたって、検索文字が適合した場合に、それら2行の文字相関値に加えられる加重である。隣接する2行にわたって検索文字が適合する場合、検索キーワードの連続する2文字を含んでいる可能性が高い。
行の相関度加重因子Qを高く設定すると、相関度算出部22cが算出する相関度への貢献度が、連続的に適合された2行の文字相関値では大きくなるが、隣接しない各行の文字相関値では小さくなる。つまり、行の相関度加重因子Qを高く設定することで、語彙を一つの単位として検索した結果に近づくようになり、逆に行の相関度加重因子Qを小さくすることで、字を1つの単位として検索した結果に近づくようになる。
検索文字C1が適合した文字相関値はW1、検索文字C2が適合した文字相関値はW2,。ュ、検索文字Crが適合した文字相関値はWrとして表す。
続いて、ブロック102に示す、相関度を計算するために仮定した、検索キーワードとインデックス行列との相対関係について説明する。
検索キーワードとインデックス行列とは、全ての検索文字C1,C2,…Crがインデックス行列内の何れかの候補文字と適合する関係にある。検索文字C1,C2,…Crが適合した各候補文字のインデックス行列内の位置、つまり適合位置を、[C1i,C1j],[C2i,C2j],…[Cri,Crj]として表す。
そして、さらなる相対関係として、ブロック102に示す式(1)、
C(k+1)i=Cki+1,C(m+1)i=Cmi+1(m>k)…(1)
の関係にある。
C(k+1)i=Cki+1,C(m+1)i=Cmi+1(m>k)…(1)
の関係にある。
該式において、k,mは、検索キーワードを構成する各検索文字の相対位置を表している。また、C(k+1)iは、検索キーワードの第k+1番目の検索文字が適合した候補文字のインデックス行列内の行番号を示し、Ckiは、検索キーワードの第k番目の検索文字が適合した候補文字のインデックス行列内の行番号を示している。
したがって、C(k+1)i=Cki+1は、検索キーワードの第k+1番目の検索文字が適合した候補文字のインデックス行列内の行番号が、検索キーワードの第k番目の検索文字が適合した候補文字のインデックス行列内の行番号に1を加算したものと同じであることを示している。換言すると、C(k+1)i=Cki+1は、検索キーワードの第k+1番目の検索文字と第k番目の検索文字とが、インデックス行列における隣接した2行にそれぞれ適合する関係にあることを示している。
C(m+1)i=Cmi+1も同様であり、検索キーワードの第m+1番目の検索文字と第m番目の検索文字とが、インデックス行列における隣接した2行にそれぞれ適合する関係にあることを示している。
検索キーワードとインデックス行列とが、このような相対関係にある場合、検索キーワードとインデックス行列との相関度は、ブロック103に示す式(2)にて算出される。
SimDegree=W1+W2+…+W(k−1)+Q*(Wk+W(k+1))+…
+W(m−1)+Q*(Wm+W(m+1))+…+Wr …(2)
SimDegree=W1+W2+…+W(k−1)+Q*(Wk+W(k+1))+…
+W(m−1)+Q*(Wm+W(m+1))+…+Wr …(2)
該式において、W1は、第1番目の検索文字C1が適合した文字相関値であり、W2は第2番目の検索文字C2が適合した文字相関値、W(k−1)は、第(k−1)番目の検索文字C(k−1)が適合した文字相関値である。同様にして、W(k)は、第k番目の検索文字Ckが適合した文字相関値であり、W(k+1)は、第(k+1)番目の検索文字C(k+1)が適合した文字相関値である。また、W(m−1)は、第(m−1)番目の検索文字C(m−1)が適合した文字相関値である。同様にして、W(m)は、第m番目の検索文字Cmが適合した文字相関値であり、W(m+1)は、第(m+1)番目の検索文字C(m+1)が適合した文字相関値である。そして、最後のWrは、第r番目の最後の検索文字C1が適合した文字相関値である。
このように、相関度の算出においては、検索キーワードを構成する全検索文字の文字相関値Wが積算(累計)される。
そして、式(2)におけるQ*(Wk+W(k+1))は、検索キーワードにおける第k番目の検索文字Ckと第(k+1)番目の検索文字C(k+1)とが、インデックス行列における隣接した2行にそれぞれ適合しているので、文字相関値Wkと文字相関値W(k+1)とに行の相関度加重因子Qが掛け合わされていることを示している。Q*(Wm+W(m+1))についても同様である。
なお、検索キーワードの第k−1番目の検索文字と第k番目の検索文字は、隣接した2行に適合する関係にはないため、W(k−1)とWkとの両方に対して相関度加重因子Qを掛け合わせてはいない。W(m−1)とWmについても同様である。
ところで、図18のブロック102に示した検索キーワードとインデックス行列との相対関係では、全ての検索文字C1、C2、…Crがインデックス行列内の何れかの候補文字と適合する関係にあるとしたので、式(2)においては、W1〜Wrまでの全ての検索文字の文字相関値が累積されている。
しかしながら、これは一例であり、たとえば、式(1)の相対関係を有するものの、検索文字C1と検索文字Crとがインデックス行列内の何れの候補文字にも適合しなかった場合の相関度を算出する式は、次式のようになり、累積項が少ない分、当然その相関度は低くなる。
SimDegree=W2+…+W(k−1)+Q*(Wk+W(k+1))+…
+W(m−1)+Q*(Wm+W(m+1))+…+W(r−1)
SimDegree=W2+…+W(k−1)+Q*(Wk+W(k+1))+…
+W(m−1)+Q*(Wm+W(m+1))+…+W(r−1)
また、全ての検索文字C1、C2、…Crがインデックス行列内の何れかの候補文字と適合する関係にあり、かつ、検索キーワードの第k+1番目の検索文字と第k番目の検索文字、及び、第k+2番目の検索文字と第k+1番目の検索文字とが、それぞれ隣接した2行に適合する関係にある場合、相関度を算出する式は次式のようになるであろう。
SimDegree=W1+W2+…+W(k−1)
+Q*(Wk+W(k+1)+W(k+2))…+WR
SimDegree=W1+W2+…+W(k−1)
+Q*(Wk+W(k+1)+W(k+2))…+WR
この場合も、検索キーワードの第k−1番目の検索文字と第k番目の検索文字は、隣接した2行に適合する関係にはないため、W(k−1)とWkとの両方に対して相関度加重因子Qを掛け合わせてはいない。
次に、図19を用いて、相関度計算の具体例を説明する。ここでは、図14に示した、文字列『去神仙居住的地方』のインデックス行列(テーブル100参照)と、検索キーワード『神仙』との相関度を求める。
図19のブロック104に検索条件を示す。相関値行列WeightはM×N次,文字相関値はWeight[i]=[1,1−1/N,1−2/N,…,1/N](i=0,1,…,M−1),行の相関度加重因子Qである。
検索キーワード『神仙』は、それぞれ、第1番目の検索文字である『神』と第2番目の検索文字である『仙』とに分割され、それぞれに対してインデックス行列内の候補文字に対して検索される。
図14のテーブル100を参照すると分かるように、検索文字である『神』は、インデックス行列における位置[i,j]の[2,2]に適合し、検索文字である『仙』は、インデックス行列における[3,1]に適合する。
したがって、ブロック105に示すように、検索文字『神』の文字相関値は(1−1/N)、検索文字『仙』の文字相関値は1となる。
そして、検索文字『神』の行番号は[2]であり、検索文字『仙』の行番号は[3]であり、図14のテーブル100に示すように、これら2つの検索文字は、インデックス行列における隣接した2行にそれぞれ適合している。
したがって、ブロック106に示すように、検索文字『神』の文字相関値(1−1/N)と検索文字『仙』の文字相関値1には、行の相関度加重因子Qが掛け合わされ、検索キーワードの『神仙』と文字列『去神仙居住的地方』のインデックス行列との相関度は、 SimDegree=Q*((1−1/N)+1)となる。
検索キーワードとインデックス行列との相関度は、相関値行列における加重(文字相関値)と行の相関度加重因子Qなどのパラメータを、ユーザの要望にしたがって柔軟に調整することで、より理想的な検索結果を得ることができる。
ユーザは、キーボード1などを用いて、相関値行列における加重(文字相関値)と行の相関度加重因子Qなどのパラメータを必要に応じて適宜設定することができる。
そして、このような画像特徴によるインデックスと適合方式は、多言語の画像文書のインデックスと検索を満足できる、文字認識を行わず、計算量が少ない。本発明は中国語に限らず各種言語の画像文書に応用できる。
続いて、語彙解析機能(語義分析機能)付き検索処理について説明する。図8にも示すように、本実施の形態の画像文書処理装置10では、キーワード入力部24と検索部22との間に、語彙解析部23が設けられている。図20に語彙解析機能付きの検索処理を示す。
語彙解析部23は、語義分析処理部23aと語義辞典23bとから構成される。語義分析処理部23aは、キーワード入力部24から検索キーワードが入力されると、語義辞典23bを参照して、検索キーワードの語彙を分析する。
たとえば、検索キーワードとして「中日関係」が入力されると、語義分析処理部23aは、「中日関係」に関連する単語として、たとえば「中国」,「日本」,「関係」の3つを検索部22の入力する。これら「中国」,「日本」,「関係」はorの関係にあり、検索式は、「中国」or「日本」or「関係」となる。
検索部22には、該検索式「中国」or「日本」or「関係」が入力され、検索部22は、インデックス情報DB17に対して検索を掛け、「中国」を含む画像文書、「日本」を含む画像文書、及び「関係」を含む画像文書を抽出する。
これにより、入力された検索キーワードが直接的に含まれている画像文書だけでなく、関連の画像文書も検索できる。
次に、画像文書管理処理を実施する画像文書管理部57について説明する。画像文書管理部57は、文字画像特徴抽出部14、字形特徴辞書15、特徴マッチング部16、見出し領域初期処理部18、画像文書DB19、画像文書特徴DB20、文書名作成部51、画像文書DB管理部52、画像文書表示部53、指示入力部54により構成されており、これらについて説明する。
文字画像特徴抽出部14、字形特徴辞書15、特徴マッチング部16、見出し領域初期処理部18、画像文書DB19、画像文書特徴DB20の機能については既に説明している。ここでは、意味のある文書名を作成して画像文書特徴DB20の画像文書を管理する画像文書管理処理を実施するためにさらに必要な機能のみ、適宜説明する。
図21を用いて画像文書管理処理を説明する。イメージスキャナ2やデジタルカメラ6にて構成される画像文書入力部21より、画像文書1〜Nが入力される。
入力された画像文書1〜Nに対し、見出し領域初期処理部18が、それぞれの画像文書の内容を分析して、見出し領域を切出して文字列を取得する。続いて、図示してはいないが、文字画像特徴抽出部14が、前記と同様に、切出された見出し領域に含まれる文字列の文字画像を1文字ごとに分割して各文字画像の画像特徴を抽出する。
そして、このように抽出された文字列画像の画像特徴を基に、字形特徴辞書15および特徴マッチング部16からなる候補文字列生成部55が、画像特徴の適合度が高い文字画像を候補文字として選択して、切出された見出し領域に含まれる文字列に応じた候補文字列を作成するとともに、語彙解析法を用いて該候補文字列を構成する各候補文字を調整して意味のある候補文字列とする。
より具体的に言うと、候補文字列生成部55は、文字画像特徴抽出部14によって抽出された文字画像の画像特徴を基に、字形特徴辞書15により、画像特徴の適合度が近い順にN個(N>1の整数)の文字画像を候補文字として選択し、前記文字列の文字数をM個(M>1の整数)とした場合に、M×N次のインデックス行列を作成する。これは、前述した特徴マッチング部16の処理である。
次に、特徴マッチング部16は、作成したインデックス行列に基づいて、該インデックス行列における第1列目に位置する各行の候補文字を順に連ねた候補文字列を作成する。そして、この候補文字列を構成する連続する各行の候補文字によりなる単語の語義を解析し、候補文字列が意味をなすように各行の第1列目の候補文字を調整する。
図22に、作成したインデックス行列を調整して第1列目の文字列が意味のある文字列となるように、語彙解析法を用いて調整した具体例を示す説明図である。
図22の上部に示す調整前のインデックス行列109は、図14にテーブル100にて示したインデックス行列と同じである。インデックス情報DB17にはこの状態で格納されている。このようなインデックス行列109により作成される候補文字列は「去伸仙居任酌地方」となり意味を成さない。
意味ある文書名として利用する候補文字列は、主語、述語、および目的語の接続詞関係等が意味的に正しくなければならない。そこで、語彙解析により、意味のある候補文字列に変換する。具体例には、複数のエラー候補文字に対し、概念辞書を使用し、複数のエラー候補文字と、候補テキストの他の単語との間の意味情報を分析し、候補文字列を意味ある文字列に修正する。
このような語彙解析に用いられる言語モデル61は、すべての漢字で始まる活字の統計データを提供するものであればよい。つまり、この言語モデル61のメインコンセプトにより、自動索引システムを技術的に確立することができ、中国語の新聞のスクリプトに関する統計データを得ることができる。
たとえば、実装例として、Bi−gramモデル(言語モデル)を使用することができる。Bi−gramは、2つの文字、2つの音節、または2つの単語のグループであり、テキストの簡単な統計分析の基礎として非常に一般的に使用される。シンボル系列で示した場合、各シンボルの外観を、独立事象とし、上記シンボル系列の確率を、以下のとおり定義する。
なお、上記の機能の分解に、確率の連鎖法則を使用できる。中国語を、(N−1)オーダマルコフ連鎖とする(シンボルの確率は、N−1オーダシンボルの前出を条件とする)。この言語文字はN−gramモデルと称される。
確立的なN−gramモデルの使用は、長く好結果をもたらす統計的な自然言語処理を含んでいる。N−gramは、テキストの大きい文書全般(コーパス)中の文字および単語の共起を用いて得られる統計から通常構成され、文字連鎖または単語連鎖の確立を規定する。N−gramには、通常、直接、コーパスから抽出する場合より、はるかに大きい言語をカバーできるという利点がある。言語モデルへのアプリケーションでは、コンピュータの制限と制限のない言語の特性(文字、単語は無限に存在する)のため、N=2と設定し、bi−gramモデルとする。
図22の下部に、調整後のインデックス行列110を示す。第2行目の第1列目の「伸」がエラー候補文字として、第2列目の「神」に置き換えられている。同様に、第5行目の第1列目の「任」が第3列目の「住」に置き換えられている。そして、第6行目の第1列目の「酌」が、その前後の「居住」と「地方」との関連性から鑑みてエラー候補文字であるとして、第2列目の「的」に置き換えられている。
このようなインデックス行列110の第1列目に含まれる候補文字列は、「去神仙居住的地方」となり、意味を成す。なお、特徴マッチング部16は、このような調整後のインデックス行列110をインデックス情報DB17に格納するようにしてもよい。
再び、図21に戻り、候補文字列生成部55にてこのように生成された意味のある候補文字列は、文書名作成部51に送られる。
文書名作成部51は、入力された画像文書に対して、候補文字列生成部55にて生成された意味のある候補文字列を含めた文書名を作成する。この意味のある候補文字列が含まれた文書名を、以下においては「意味のある文書名」と称する。
文書名作成部51には、時間データ等発生部60から、画像文書が入力された時間および入力経路を示すデータ等のその他のデータも入力されるようになっている。文書名作成部51は、時間データ等発生部60から入力される時間データを少なくとも含むその他のデータを用いて、書類名を生成することもできる。
たとえば、時間データ等のその他のデータのうち、時間データを意味のある文書名に含め、意味のある文書名を、時間データと意味のある候補文字列よりなる構成としてもよい。
あるいは、時間データ等のその他のデータを用いて、同じ画像文書に、別の文書名を作成してもよい。時間データ等のその他のデータ等にて構成された文書名を、以下、オリジナル文書名と称する。
このような構成とすることで、1つの画像文書を、意味のある文書名と、時間データ等のその他のデータ等にて構成されたオリジナル文書名とで管理することが可能となる。
個々の画像文書に対して生成された意味のある文書名、およびオリジナル文書名は、画像文書DB管理部52に送られ、画像文書DB19に、画像文書のイメージデータに対応させて格納される。
画像文書DB管理部52は、キーボード1等により構成される図8に示す指示入力部54を用いて、画像文書DB19に蓄積されている画像文書の閲覧指示等がユーザよりなされると、表示装置3等より構成される図8の画像文書表示部53に、閲覧画面を表示する。
図23に、画像文書表示部53に表示される、画像文書DB19に格納されている画像文書の閲覧画面の一例を示す。
図において、左側に示されている画面201は、蓄積されている画像文書がオリジナル文書名にて一覧表示されている状態を示す。画面201の上には、各画像文書の入力順を示している。紙面一番手前にある「AR C262M 20060803 103140」とのオリジナル文書名が付されている画像文書が、この画面にて、最も先に入力された画像文書となる。「20060803」は入力日(2006年8月3日)を表し、「103140」は時間(10時31分40秒)を表している。
このような表示状態において、画面に表示されている「意味のある文書名」のタグを選択するなどの操作にて、閲覧画面の表示は、図において、右側に示されている画面202へと遷移する。画面202は、蓄積されている画像文書が意味のある文書名にて一覧表示されている状態を示す。
この画面202は、画面201に対応しており、ここでも、画面201の上部に示す、紙面一番手前にある「定格惠州西湖」との意味のある文書名が付されている画像文書が、この画面にて、最も先に入力された画像文書である。
このように、意味のある文書名にて閲覧できることにより、ユーザによる蓄積された画像文書の管理やサーチが容易に実施できるようになる。また、オリジナル文書名も併せて作成されることで、時間データ等の情報も、書類名と同時にみることができる。
なお、本画像文書処理装置10においては、作成したインデックス行列を用いてインデックス情報を作成し、検索処理に用いる。そのため、見出し領域初期処理部18は、画像文書に含まれる複数の見出し領域Tを抽出し、それぞれにインデックス行列を作成するようになっている。しかしながら、画像文書に意味のある文書名を作成することのみを目的とするのであれば、画像文書に含まれる複数の見出しを抽出してそれぞれにインデックス行列を作成する必要はない。
つまり、画像文書を最もよく表す見出し領域に含まれる見出しの文字列(文字画像列)に対してインデックス行列を作成し、これに基づき、特徴がマッチする文字列を使用して、意味の持つ名称を作成するように構成すればよい。
画像文書を最もよく表す見出し領域としては、たとえば、抽出された複数の見出し領域のうち、画像文書の一番上の行に存在するものとすることができる。これは、重要な見出しは、画像文書の一番上の行に配されることが多いためである。
また、見出し領域に含まれる文字のサイズが、ある閾値より大きく、抽出された他の見出し領域のものよりも大きいものとすることもできる。これは、重要な見出しは、他の見出しよりも大きな文字のサイズにて記載されることが多いためである。
あるいは、見出し領域に含まれる文字のフォント(字形)タイプが、抽出された他の見出し領域のものと異なるものとすることもできる。これは、重要な見出しは、他の見出しとは異なるフォント(字形)にて記載されることが多いためである。なお、これら以外の基準を付加することもでき、また、各基準は、個々に用いてもよいし、組合わせて用いてもよい。
また、本画像文書処理装置10のように、1つの画像文書について、複数の見出し領域を抽出し、それぞれにインデックス行列を作成する構成では、見出し領域の配置位置や、文字サイズ、あるいはフォントにて、最も重要な見出し領域のインデックス行列を特性するようにすればよい。また、特に、このような場合であれば、抽出された複数の見出し領域のインデックス行列より、最も頻出する単語が候補文字列に含まれるように作成することも好ましい。
最後に、画像文書処理装置10の各ブロック、特に、字体正規化処理部12、文字画像特徴抽出部14、特徴マッチング部16、見出し領域初期処理部18、検索部22、語彙解析部23、文書名作成部51、画像文書DB管理部52等は、ハードウエアロジックによって構成してもよいし、次のようにCPUを用いてソフトウエアによって実現してもよい。
すなわち、画像文書処理装置10は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリなどの記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウエアである画像文書処理装置10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記画像文書処理装置10に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、たとえば、磁気テープやカセットテープなどのテープ系、フロッピー(登録商標)ディスク/ハードディスクなどの磁気ディスクやCD−ROM/MO/MD/DVD/CD−Rなどの光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カードなどのカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROMなどの半導体メモリ系などを用いることができる。
また、画像文書処理装置10を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、たとえば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網などが利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、たとえば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線などの有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網などの無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明は、その精神または主要な特徴から逸脱することなく、他のいろいろな形態で実施できる。したがって、前述の実施形態はあらゆる点で単なる例示に過ぎず、本発明の範囲は特許請求の範囲に示すものであって、明細書本文には何ら拘束されない。さらに、特許請求の範囲に属する変形や変更は全て本発明の範囲内のものである。
400 文字画像抽出装置
401 抽出部
402 第1改変部
403 第1選択部
404 第2改変部
405 第2選択部
406 分割部
401 抽出部
402 第1改変部
403 第1選択部
404 第2改変部
405 第2選択部
406 分割部
Claims (6)
- 複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を前記文字列領域から抽出する抽出ステップと、
抽出ステップにて抽出された区画要素を改変する改変ステップであって、抽出ステップにて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする改変ステップと、
基準の大きさを予め定め、改変ステップにて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する選択ステップとを備えることを特徴とする文字画像抽出方法。 - 前記選択ステップにて選択された区画要素を改変する第2の改変ステップであって、第1の基準の寸法を予め定め、前記選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第1の基準の寸法よりも小さくて互いに文字の並び方向に隣接する区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする第2の改変ステップと、
第2の基準の寸法を予め定め、第2の改変ステップにて改変された区画要素のうちで、文字の並び方向に関する寸法が前記第2の基準の寸法よりも大きい区画要素を選択する第2の選択ステップとをさらに備えることを特徴とする請求項1に記載の文字画像抽出方法。 - 第3の基準の寸法を予め定め、前記第2の選択ステップにて選択された区画要素のうちで、文字の並び方向に関する寸法が前記第3の基準の寸法よりも大きい区画要素を、前記第3の基準の寸法に基づいて分割する分割ステップをさらに備えることを特徴とする請求項2に記載の文字画像抽出方法。
- 複数の文字が並ぶ文字列領域について、互いに連結している複数の画素で構成される連結成分を求め、連結成分に外接する外接図形によって区画される区画要素を前記文字列領域から抽出する抽出部と、
抽出部にて抽出された区画要素を改変する改変部であって、抽出部にて抽出された区画要素のうちで、少なくとも一部分が互いに重なり合う区画要素を統合させて新たな区画要素とし、残余の区画要素をそのまま新たな区画要素とする改変部と、
基準の大きさを予め定め、改変部にて改変された区画要素のうちで、前記基準の大きさよりも大きい区画要素を選択する選択部とを備えることを特徴とする文字画像抽出装置。 - コンピュータに請求項1に記載の文字画像抽出方法を実行させるための文字画像抽出プログラム。
- コンピュータに請求項1に記載の文字画像抽出方法を実行させるための文字画像抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007101296050A CN101354746B (zh) | 2007-07-23 | 2007-07-23 | 文字图像抽出装置及文字图像抽出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009026287A true JP2009026287A (ja) | 2009-02-05 |
Family
ID=40295407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007246157A Pending JP2009026287A (ja) | 2007-07-23 | 2007-09-21 | 文字画像抽出装置および文字画像抽出方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8750616B2 (ja) |
JP (1) | JP2009026287A (ja) |
CN (1) | CN101354746B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020203339A1 (ja) * | 2019-03-29 | 2020-10-08 | Arithmer株式会社 | 活字文字列認識装置、プログラム、及び方法。 |
Families Citing this family (189)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
KR20100121690A (ko) | 2008-03-05 | 2010-11-18 | 이베이 인크. | 이미지 인식 서비스 방법, 시스템 및 컴퓨터 판독가능한 매체 |
US9495386B2 (en) | 2008-03-05 | 2016-11-15 | Ebay Inc. | Identification of items depicted in images |
JP4626777B2 (ja) * | 2008-03-14 | 2011-02-09 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP4952627B2 (ja) * | 2008-03-21 | 2012-06-13 | 富士通株式会社 | 画像処理装置、画像処理方法および画像処理プログラム |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8818978B2 (en) | 2008-08-15 | 2014-08-26 | Ebay Inc. | Sharing item images using a similarity score |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8825660B2 (en) * | 2009-03-17 | 2014-09-02 | Ebay Inc. | Image-based indexing in a network-based marketplace |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9164577B2 (en) | 2009-12-22 | 2015-10-20 | Ebay Inc. | Augmented reality system, method, and apparatus for displaying an item image in a contextual environment |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10127606B2 (en) | 2010-10-13 | 2018-11-13 | Ebay Inc. | Augmented reality system and method for visualizing an item |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8977059B2 (en) * | 2011-06-03 | 2015-03-10 | Apple Inc. | Integrating feature extraction via local sequential embedding for automatic handwriting recognition |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8903175B2 (en) | 2011-08-29 | 2014-12-02 | Hewlett-Packard Development Company, L.P. | System and method for script and orientation detection of images |
US9449342B2 (en) | 2011-10-27 | 2016-09-20 | Ebay Inc. | System and method for visualization of items in an environment using augmented reality |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9934522B2 (en) | 2012-03-22 | 2018-04-03 | Ebay Inc. | Systems and methods for batch- listing items stored offline on a mobile device |
US8891822B2 (en) | 2012-04-10 | 2014-11-18 | Hewlett-Packard Development Company, L.P. | System and method for script and orientation detection of images using artificial neural networks |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9323726B1 (en) * | 2012-06-27 | 2016-04-26 | Amazon Technologies, Inc. | Optimizing a glyph-based file |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US10846766B2 (en) | 2012-06-29 | 2020-11-24 | Ebay Inc. | Contextual menus based on image recognition |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
JP5831420B2 (ja) * | 2012-09-28 | 2015-12-09 | オムロン株式会社 | 画像処理装置および画像処理方法 |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的***和方法 |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10713304B2 (en) * | 2016-01-26 | 2020-07-14 | International Business Machines Corporation | Entity arrangement by shape input |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN107103312A (zh) * | 2017-06-07 | 2017-08-29 | 深圳天珑无线科技有限公司 | 一种图片处理方法及装置 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
CN108229483A (zh) * | 2018-01-11 | 2018-06-29 | 中国计量大学 | 基于caffe与软触发下的门牌压印字符识别装置 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0417086A (ja) * | 1990-05-10 | 1992-01-21 | Ricoh Co Ltd | 文字切り出し方法 |
JPH05174185A (ja) * | 1991-01-24 | 1993-07-13 | Matsushita Electric Ind Co Ltd | 日本語文字認識装置 |
JPH06111064A (ja) * | 1992-09-29 | 1994-04-22 | N T T Data Tsushin Kk | 文字切出し方法 |
JPH08305794A (ja) * | 1995-04-28 | 1996-11-22 | Nec Corp | 宛名行抽出装置 |
JPH09106437A (ja) * | 1995-10-11 | 1997-04-22 | Ricoh Co Ltd | 文字切出し装置および文字切出し方法 |
JP2002157550A (ja) * | 2000-11-17 | 2002-05-31 | Ricoh Co Ltd | 文字認識装置、文字認識方法、および記録媒体 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
US5410611A (en) * | 1993-12-17 | 1995-04-25 | Xerox Corporation | Method for identifying word bounding boxes in text |
EP0677818B1 (en) * | 1994-04-15 | 2000-05-10 | Canon Kabushiki Kaisha | Image pre-processor for character recognition system |
DE69519323T2 (de) * | 1994-04-15 | 2001-04-12 | Canon Kk | System zur Seitensegmentierung und Zeichenerkennung |
US5821929A (en) | 1994-11-30 | 1998-10-13 | Canon Kabushiki Kaisha | Image processing method and apparatus |
JPH08153110A (ja) | 1994-11-30 | 1996-06-11 | Canon Inc | 文書ファイリング装置及び方法 |
JP2765618B2 (ja) | 1995-05-29 | 1998-06-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 言語解析装置 |
US5768414A (en) * | 1995-12-22 | 1998-06-16 | Canon Kabushiki Kaisha | Separation of touching characters in optical character recognition |
JPH09319747A (ja) | 1996-05-29 | 1997-12-12 | Ricoh Co Ltd | 文書画像の構造化方法 |
US5892843A (en) * | 1997-01-21 | 1999-04-06 | Matsushita Electric Industrial Co., Ltd. | Title, caption and photo extraction from scanned document images |
JP3563911B2 (ja) * | 1997-03-04 | 2004-09-08 | シャープ株式会社 | 文字認識装置 |
JP4170441B2 (ja) * | 1997-11-28 | 2008-10-22 | 富士通株式会社 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
JP2000090201A (ja) | 1998-09-11 | 2000-03-31 | Masaki Nakagawa | バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置 |
JP3375292B2 (ja) | 1998-12-16 | 2003-02-10 | 日本電信電話株式会社 | 文字認識処理方法及びその装置及びその方法を記録した記録媒体 |
JP3753357B2 (ja) * | 1999-01-19 | 2006-03-08 | 株式会社リコー | 文字抽出方法および記録媒体 |
EP1310904A4 (en) * | 2000-06-02 | 2007-03-28 | Japan Science & Tech Agency | DOCUMENT PROCESSING METHOD, RECORDING MEDIA RECORDING A DOCUMENT PROCESSING PROGRAM AND DOCUMENT PROCESSOR |
JP2002245062A (ja) | 2001-02-14 | 2002-08-30 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
US6826305B2 (en) * | 2001-03-27 | 2004-11-30 | Ncr Corporation | Methods and apparatus for locating and identifying text labels in digital images |
US7286718B2 (en) * | 2004-01-26 | 2007-10-23 | Sri International | Method and apparatus for determination of text orientation |
TWI284288B (en) * | 2004-06-04 | 2007-07-21 | Benq Corp | Text region recognition method, storage medium and system |
CN100369049C (zh) * | 2005-02-18 | 2008-02-13 | 富士通株式会社 | 灰度字符的精确分割装置及方法 |
KR101035197B1 (ko) * | 2005-05-26 | 2011-05-18 | 샤프 가부시키가이샤 | 특허 정보 분석 장치, 특허 정보 분석 방법, 및 특허 정보 분석 프로그램을 기록하고 있는 컴퓨터 판독 가능한 기록 매체 |
-
2007
- 2007-07-23 CN CN2007101296050A patent/CN101354746B/zh not_active Expired - Fee Related
- 2007-09-21 JP JP2007246157A patent/JP2009026287A/ja active Pending
- 2007-12-21 US US11/963,613 patent/US8750616B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0417086A (ja) * | 1990-05-10 | 1992-01-21 | Ricoh Co Ltd | 文字切り出し方法 |
JPH05174185A (ja) * | 1991-01-24 | 1993-07-13 | Matsushita Electric Ind Co Ltd | 日本語文字認識装置 |
JPH06111064A (ja) * | 1992-09-29 | 1994-04-22 | N T T Data Tsushin Kk | 文字切出し方法 |
JPH08305794A (ja) * | 1995-04-28 | 1996-11-22 | Nec Corp | 宛名行抽出装置 |
JPH09106437A (ja) * | 1995-10-11 | 1997-04-22 | Ricoh Co Ltd | 文字切出し装置および文字切出し方法 |
JP2002157550A (ja) * | 2000-11-17 | 2002-05-31 | Ricoh Co Ltd | 文字認識装置、文字認識方法、および記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020203339A1 (ja) * | 2019-03-29 | 2020-10-08 | Arithmer株式会社 | 活字文字列認識装置、プログラム、及び方法。 |
JP6820578B1 (ja) * | 2019-03-29 | 2021-01-27 | Arithmer株式会社 | 活字文字列認識装置、プログラム、及び方法。 |
Also Published As
Publication number | Publication date |
---|---|
US8750616B2 (en) | 2014-06-10 |
CN101354746B (zh) | 2011-08-31 |
US20090028435A1 (en) | 2009-01-29 |
CN101354746A (zh) | 2009-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009026287A (ja) | 文字画像抽出装置および文字画像抽出方法 | |
JP4533920B2 (ja) | 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体 | |
JP4408129B2 (ja) | 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体 | |
JP4740916B2 (ja) | 画像文書処理装置、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体 | |
JP4570648B2 (ja) | 画像文書処理装置、画像文書処理方法、画像文書処理プログラムおよび記録媒体 | |
JP4364914B2 (ja) | 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体 | |
JP4772817B2 (ja) | 画像文書処理装置および画像文書処理方法 | |
US8731300B2 (en) | Handwritten word spotter system using synthesized typed queries | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
KR20100007722A (ko) | 카메라 기반 영상의 문자 인식 및 번역 방법 | |
KR19990078364A (ko) | 문서처리장치 및 그의 방법 | |
US10152540B2 (en) | Linking thumbnail of image to web page | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
EP2806336A1 (en) | Text prediction in a text input associated with an image | |
JP7493937B2 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
CN116842138B (zh) | 基于文档的检索方法、装置、设备及存储介质 | |
JP2009110204A (ja) | 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム | |
JP2004287992A (ja) | 文書情報処理装置並びにプログラム | |
JP2000250905A (ja) | 言語処理装置及びそのプログラム記憶媒体 | |
Song et al. | Free-Flow: Unintrusive Reading Device for a Printed Text | |
JPH0696285A (ja) | 文字認識装置 | |
JPH04352063A (ja) | 日本語文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100824 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110412 |