JP2008520152A - 画像中のテキストの検出および修正 - Google Patents

画像中のテキストの検出および修正 Download PDF

Info

Publication number
JP2008520152A
JP2008520152A JP2007540787A JP2007540787A JP2008520152A JP 2008520152 A JP2008520152 A JP 2008520152A JP 2007540787 A JP2007540787 A JP 2007540787A JP 2007540787 A JP2007540787 A JP 2007540787A JP 2008520152 A JP2008520152 A JP 2008520152A
Authority
JP
Japan
Prior art keywords
text
image
pixels
pixel
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007540787A
Other languages
English (en)
Inventor
エキン,アーメト
ジャシンスキ,ラドゥ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2008520152A publication Critical patent/JP2008520152A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Character Input (AREA)
  • Studio Circuits (AREA)
  • Image Analysis (AREA)

Abstract

本発明の方法は画像を適応させる二つの段階を有する:画像中のテキストを識別する段階と、該テキストのタイポグラフィー特徴を修正する段階である。本発明の電子装置は、本発明の方法を実行するよう動作する。本発明はまた、プログラム可能装置をして本発明の方法を実行するよう動作せしめる制御ソフトウェアおよび本発明の装置において使用するための電子回路にも関する。

Description

本発明は画像を適応させる方法に関する。
本発明は、プログラム可能装置をしてそのような方法を実行するよう動作するようにするための制御ソフトウェアにも関する。
本発明はさらに、画像を適応させるよう動作する電子回路を有する電子装置に関する。
本発明は、そのような装置における使用のための電子回路にも関する。
そのような方法の一例がUS2003/0021586から知られている。その既知の方法は、光学式またはその他の記録/再生装置とテレビとの組み合わせシステムのためにクローズドキャプションおよび字幕の表示を制御する。その既知の方法は、いずれもASCIIフォーマットのテキストとして存在する表示されるクローズドキャプションおよび字幕が重ならないことを保証する。その既知の方法は、字幕が画像の一体化した一部をなす場合にはクローズドキャプションおよび字幕の表示を制御するために使えないという欠点がある。
本発明の第一の目的は、画像の一体化した一部をなすテキストの表示を制御するために使える、冒頭で述べた種類の方法を提供することである。
本発明の第二の目的は、画像の一体化した一部をなすテキストの表示を制御するために使える、冒頭で述べた種類の電子装置を提供することである。
本発明によれば、前記第一の目的は、本方法が、画像中で、あるタイポグラフィー特徴をもつテキストを識別し、該テキストのタイポグラフィー特徴を修正する段階を有することにおいて実現される。アナログビデオ素材(たとえばアナログビデオ放送またはアナログビデオテープ)はしばしばオーバーレイ・キャプションおよび/または字幕を含む。本発明の方法は、ディスプレイ上でのオーバーレイ・テキストの見え方をカスタマイズすることを可能にする。
本発明の方法のある実施形態によれば、前記タイポグラフィー特徴はフォントサイズを含む。前記タイポグラフィー特徴は追加的または代替的に、たとえばフォントタイプおよび/またはフォント色を含んでいてもよい。フォントサイズを上げると、文字を読むのが困難な人および/またはたとえば携帯電話などの小型ディスプレイをもつ装置を利用する人にとって、テキストは読みやすくなる。
画像中でテキストを識別する段階は、複数の画像ラインのどれが最も多くの水平エッジを有しているかを判別することによって水平なテキスト行の境界を検出することを含みうる。これは識別段階のテキスト検出性能を改善する。まず水平なテキスト行の境界を検出することによって、テキスト検出アルゴリズムの次の段階において処理される必要のある面積が比較的小さくできる。処理する必要のある面積を減らすために水平なテキスト行の境界を検出するという本発明の発想およびこの発想の実施形態は、テキストのタイポグラフィー特徴を修正する必要がなくても使うことができ、たとえばマルチメディアのインデックス付けおよび検索用途において使用される。
画像中でテキストを識別する段階はさらに、水平なテキスト行境界内にのみ生起するピクセル値の集合を決定し、そのピクセル値の集合からの値をもつピクセルをテキストピクセルであるとして識別する段階を含みうる。一部の代替的なテキスト検出アルゴリズムとは違って、このテキスト検出アルゴリズムは通常のテキストのほか反転したテキストも検出することを可能にする。
画像中でテキストを識別する段階はさらに、識別されたテキストピクセルに対して形態上の閉包化(closing)の動作を実行して語境界を判別し、該語境界の内側に位置するさらなるピクセルをテキストピクセルとして識別する段階を含みうる。これはビデオ画像におけるより多数のテキストピクセルが正しく識別できることを保証する。
テキストのタイポグラフィー特徴を修正する段階は、テキストをなすテキストピクセルを処理し、処理されたピクセルを画像に重ねる段階を有しうる。これはピクセルから構成される画像を適応させるために有用である。
本発明の方法はさらに、テキストピクセルの少なくとも一つを、非テキストピクセル、すなわちテキストをなしていないピクセルの値に基づく値をもつ置換ピクセルで置き換える段階を有しうる。フォーマットし直されたテキストが完全にもとのテキストに重ならない場合には、もとのテキストの除去が必要になることがある。非テキストピクセルの値に基づく置換ピクセルを使うことによって、目に見えるアーチファクトの数が減少する。テキストを除去する本発明の方法は比較的少数のアーチファクトを引き起こし、該方法はテキスト除去が行われるいかなる用途においても有用である。ユーザーが話されている言語を理解できるから単に字幕を除去したいという場合には、字幕のタイポグラフィー特徴を修正することは必要でない。
置換ピクセルの値は、少なくとも一つのテキストピクセルの近傍における非テキストピクセルの中央値の(median)色に基づいていてもよい。試験では、これは代替的な諸アルゴリズムを用いて決定された置換ピクセルよりも目立ちにくい置換ピクセルを生じた。
本発明の方法はさらに、前記置換ピクセルの近傍におけるあるさらなるテキストピクセルを、少なくとも部分的に前記置換ピクセルに基づく値をもつさらなる置換ピクセルで置き換える段階を有しうる。テキストピクセルがその近傍に所定数より少ない非テキストピクセルを有している場合に単に近傍サイズを大きくするのは適切ではない。遠くの背景のピクセルが使われる場合には推定される色は精確でないことがあるし、近傍サイズが大きいほどより多くの計算が必要とされるからである。前記さらなる置換ピクセルの値が少なくとも部分的に前記置換ピクセルに基づいている場合、特に前記さらなる置換ピクセルの値が該さらなる置換ピクセルの近傍における複数の置換ピクセルに基づいている場合、比較的小さな近傍サイズでも目に見えるアーチファクトの良好な削減を達成するのに十分である。
テキストのタイポグラフィー特徴を修正する段階は、相続く画像においてテキストをスクロールすることを含みうる。拡大した字幕やキャプションの全体をビデオ画像に納める必要がある場合、字幕やキャプションの拡大はある最大に限られる。この最大は一部の人にとっては不十分でありうる。フォーマットし直されたテキストピクセルを相続くビデオ画像においてスクロールさせることにより、テキストサイズをさらに一層拡大できる。
本発明の方法はさらに、テキストがスクロールされる速さをユーザーが定義できるようにする段階を有しうる。これはユーザーがその速さを自分の読むスピードに合わせて調整することを許容する。
本発明によれば、前記第二の目的は、前記電子回路が機能的に、画像中で、あるタイポグラフィー特徴をもつテキストを識別する識別器と、該テキストのタイポグラフィー特徴を修正する修正器とを有することにおいて実現される。前記電子装置はたとえば、パソコン、テレビ、セットトップボックス、ビデオレコーダー、ビデオプレーヤーまたは携帯電話でありうる。
これらのことを含む本発明のさまざまな側面は、例として図面を参照することから明らかとなり、さらに明快にされるであろう。
図面における対応する要素は同じ参照符号によって示されている。
本発明の方法(図1参照)は、画像中で、あるタイポグラフィー特徴をもつテキストを識別するステップ1と、該テキストのタイポグラフィー特徴を修正するステップ3を有する。テキストをフォーマットし直す可能性は多数あり、それには色、フォントサイズ、位置などの変更が含まれる。図3は、テキストの大きさ、よって位置が変更される例を示している。これは、たとえば携帯電話ディスプレイのような小型のディスプレイ画面上で特に有利である。図3の左部分は、字幕をもつもとの画像のスケール変更されたバージョンを示している(水平方向、垂直方向の両方向に4倍でサブサンプリングされる)。スケール変更された画像における字幕の文字サイズはずっと小さくなり、ユーザーによっては読むのが難しいかもしれない。図3の右部分における画像は大きなサイズの字幕をもつ同じ画像である。有利には、消費者電子装置、たとえばテレビ、ビデオレコーダー、パームトップまたは携帯電話は、本発明の方法を実行できる。あるいはまた、送信電子装置が本方法の一部分を実行し、受信(消費者)電子装置が本方法の残りの部分を実行する。その場合、送信電子装置によって実行される本方法において、テキストのタイポグラフィー特徴を修正するステップ3は、修正されたタイポグラフィー特徴をもつテキストを、当該テキストをその修正されたタイポグラフィー特徴で画像上に重ねることのできる電子装置に送信するステップによって置き換えられることができる。
テキストのタイポグラフィー特徴を修正するステップ3は、相続く画像においてテキストをスクロールすることを含んでいてもよい。図4では、サブサンプリングされた画像におけるテキストのサイズが、静的テキストを動くテキストに変換することによって、もとの画像における字幕テキストサイズよりさらに大きくされている。図4の4枚の画像によって実証されるように、もとの静的な字幕テキストは、一つまたは複数の異なる色をもつより大きな動くテキストに変容されている。本方法はさらに、テキストがスクロールされる速さをユーザーが定義できるようにするステップを含みうる。これにより、ユーザーが、ある時間期間にわたってテキストのスクロールを遅くすることが可能になる。スクロールするテキストの速度減少は実時間での遅延を引き起こすので、実時間のテキストの流れに遅れたテキストデータは先入れ先出し(FIFO)メモリに保存しなければならない。FIFOメモリの大きさは有限なので、遅くする動作の継続時間は、ユーザーが、リアルタイムの流れに追いつくために一部のテキスト流れ情報を失うことに同意するのでない限り、限界がある。遅れているテキストデータを保存するにはFIFOメモリを使うことができ、FIFOメモリの全体を使い切るまでの時間期間は、動くテキストのフォントサイズ、新たなスピードともとのテキストスピードとの大きさの比およびメモリサイズといったパラメータを使って、諸アルゴリズムを使って計算できる。ユーザーはそのような限界について注意喚起され、フィードバックを求められることもできる。
ビデオにおけるオーバーレイ・テキスト検出は、自動ビデオインデックス付けツールのための増え続ける需要の結果として、最近、人気が出ている。既存のテキスト検出アルゴリズムのすべては、何らかの形でオーバーレイ・テキスト領域の高コントラスト属性を利用する。ある好適なテキスト検出アルゴリズムでは、高コントラスト領域を際だたせるために、テキストが検出されることになるフレームの水平方向および垂直方向の微分がまず計算される。画像およびビデオ処理の文献では、図5のマスク61および63のような簡単なマスクが画像の微分を近似することはよく知られている。各色チャネル(あるいは、選択される色空間によっては強度チャネルおよび色度チャネル)について微分が計算されたのち、エッジ配向特徴(edge orientation feature)が図5の式65によって計算される。ここで、Di x(x,y)およびDi y(x,y)はピクセル位置(x,y)でi番目の色チャネルについての水平方向および垂直方向の微分であり、Cは選択された色空間のすべてのチャネルの集合を表す。エッジ配向特徴は最初に、Rainer Lienhart and Axel Wernicke, “Localizing and Segmenting Text in Images, Videos and Web Pages”, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 12, No.4, pp. 256-268, April 2002によって提案されたものである。
最適なテキスト/非テキスト分類器を見出すために、統計的学習ツールを使うことができる。サポートベクターマシン(SVM: Support Vector Machine)は二値分類器を生じ、良好な汎化能力をもつ。エッジ配向特徴が計算されている1000個のテキストブロックおよび高々3000の非テキストブロックでトレーニングされたSVMベースの分類器は、諸実験で良好な結果を与えている。代表的な分類困難な非テキストの例をみつけるのは難しいので、K. K. Sung and T. Poggioによって“Example-based learning for view-based human face detection”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol.20, no. 1, pp.39-51, Jan. 1998において導入された人気のあるブートストラップ式アプローチをたどることができる。ブートストラップベースのトレーニングは数回の反復工程で完了する。各反復工程において、結果として得られる分類器はテキストを含んでいない何らかの画像に対して試験される。このデータセットに対する誤認は、現在の分類器が正しく分類できない、困難な非テキスト例を表すことになる。これらの非テキスト試料がトレーニングセットに追加される。よって、非テキストのトレーニングデータセットは成長し、分類器はこの拡大されたデータセットで再トレーニングされる。分類器がトレーニングされるとき、決めるべき重要な点は、分類器に与えられる画像ブロックの大きさである。ブロックの高さが検出可能な最小フォントサイズを決定し、ブロックの幅が検出可能な最小テキスト幅を決定するからである。SVM分類器をトレーニングするための12×12ブロックは良好な結果を与える。それは、400ピクセルの高さの典型的なフレームでは、12より小さいフォントサイズを見出すことがまれだからである。フォントサイズ独立性は、12×12のウィンドウサイズをもつ分類器を複数解像度で走らせることによって達成され、位置独立性はウィンドウを水平方向および垂直方向に動かして画像全体にわたって分類器を評価することによって達成される。記載されているテキスト検出アルゴリズムは、図6に示されるようなブロックベースのテキスト領域を生じる。検出されたテキスト結果は緑のブロックとして示されており、2×2(水平方向サブサンプリングレート×垂直方向サブサンプリングレート)でサブサンプリングされたビデオから得られている。よって、該結果はもとのフレームにおける24×24のブロックに対応する(サブサンプリングされたフレームについては12×12のブロックサイズ)。
画像中でテキストを識別するステップ1は、複数の画像ラインのどれが最も多くの水平エッジを有しているかを判別することによって水平なテキスト行の境界を検出することを含みうる。ピクセル精確なテキストマスクを得る一つの方法は、明示的にテキスト行と語境界を位置指定し(主としてテキストを複数行で表示し、テキストマスクをより精確に抽出できるため)、二値テキストマスクを抽出することによるものである。同じ行および隣接行におけるテキスト領域が組み合わされて、処理されるべき単一の合同領域を生じたのち、形態解析が実行できる。図7のROI71は、列ごとおよび行ごとのマージ手順によって図6から抽出される関心領域(ROI: region-of-interest)を示している。まず、エッジ検出がROIにおいて実行され、高頻度ピクセルが見出される。高頻度ピクセルはそのほとんどがテキストであると期待される。ROI73は、当技術分野において知られているプレウィット(Prewitt)検出器によって検出されたエッジを白で示している。ROIは主としてテキストによって支配されているので、テキスト行の上端はエッジ数の増大を示し、テキスト行の下端はエッジ数の対応する減少を示すことが予期される。水平および/または垂直な次元に沿った投影は、そのような位置を簡単に検出するための効果的な記述子である。多くのテキスト切り出しアルゴリズムで使われる強度投影(intensity projections)とは対照的に、エッジ投影はテキストの色の変動に対して堅牢である。図8に示される水平方向のエッジ投影は、図7のROI73に示されるエッジピクセルの、各画像ラインに沿った平均数を見出すことによって計算される。図7のROI71における二つのテキスト行は、該投影において、二つの容易に抽出可能なエッジ領域を与える。図7のROI75は、自動的に計算された赤および緑の直線でマークされた、二つの抽出された行を示す。テキスト行当たり4本の直線の意味は、ラテン文字テキストの属性に従ったものである。最初の上の直線はテキスト行の上端を表す。しかし、より詳細なレベルでは、それはtやkのような上に伸びた文字の先端に対応する。二番目の上の直線は、aやeのような上に伸びていない文字の先端を示す。同様に、二本の下の線は下に伸びていない文字の下端およびpやyもしくは句読点「,」のような下に伸びた文字の下端を示す。
画像中でテキストを識別するステップ1はさらに、水平なテキスト行の境界内にのみ生起するピクセル値の集合を決定し、そのピクセル値の集合からの値をもつピクセルをテキストピクセルであるとして識別する段階を含みうる。テキスト行が検出されたあと、閾値T二値化が自動的に計算され、二値でありピクセルごとにより精確であるテキストマスクが見出される。パラメータT二値化は、図7のROI75に示されている検出されたテキスト行の外部にあるいかなるピクセルもテキストピクセル、たとえば白として割り当てられないように設定される。結果として得られるテキストピクセルは図7のROI77に示されている。
画像中でテキストを識別するステップ1はさらに、識別されたテキストピクセルに対して形態上の閉包化の動作を実行して語境界を判別し、該語境界の内側に位置するさらなるピクセルをテキストピクセルとして識別する段階を含みうる。個々の語を切り出すため、図7のROI79に結果が示されている形態上の閉包化の動作および連結要素ラベリング(connected-component labeling)アルゴリズムが、結果として得られるテキストマスクに適用される。閉包化の動作は、単語内の別々の文字を結合し、連結要素ラベリングアルゴリズムは連結された領域(今の場合では語)を抽出する。
テキストのタイポグラフィー特徴を修正するステップ1は、テキストをなすテキストピクセルを処理し、処理されたピクセルを画像に重ねる段階を有しうる。処理されたピクセルを画像に重ねたあとまたは重ねる前に、テキストピクセルの少なくとも一つを、非テキストピクセルの値に基づく値をもつ置換ピクセルで置き換えるステップ9が実行されてもよい。置換ピクセルの値は、前記少なくとも一つのテキストピクセルの近傍における非テキストピクセルの中央値の(median)色に基づいていてもよい。図7のROI77のもとのテキストマスクに形態上の閉包化動作を適用したあとでは、図7のROI79に示されるような拡大されたテキストマスクが得られる。拡大マスクを使う第一の理由は、もとのマスクは実際のテキスト行より薄いことがあり、そのためもとのテキストが除去された画像中に見苦しいテキスト断片を生じうるからである。テキスト領域を埋めるため、当該ピクセルの十分大きな近傍(たとえば720×576画像について23×23のウィンドウ)における非テキストピクセルの中央値の色が使用される。
本発明の方法はさらに、前記置換ピクセルの近傍におけるあるさらなるテキストピクセルを、少なくとも部分的に前記置換ピクセルに基づく値をもつさらなる置換ピクセルで置き換える段階を有しうる。当該テキストピクセルがテキストマスクの境界まで遠い場合には、大きなウィンドウでも、そのテキストピクセルを埋めるために使われるべき色を近似するために十分な非テキストピクセルをもてないことがありうる。さらに、これらのピクセルについてのより大きなウィンドウの使用は適切ではない。というのは、1)それらは背景から遠く、遠くの背景のピクセルが使われる場合には推定される色は精確でないことがあるし、2)ウィンドウサイズが大きいほどより多くの計算が必要とされるからである。これらの場合、現在のテキストピクセルの小さな、たとえば3×3の近傍内のこれらのピクセルの中央値の色がその色として割り当てられる。この近傍は、処理の指定(direction)に従って定義され、それにより該近傍におけるすべてのテキストピクセルはすでに色を割り当てられているようになる。この小さなウィンドウ内のピクセルは、もともとテキストピクセルであったか非テキストピクセルであったかにかかわりなく、全ピクセルの色の値が使われることを注意しておく。このテキスト検出アルゴリズムの結果が図9に示されている。
本発明の電子装置21(図2参照)は電子回路23を有する。電子回路23は機能的に、画像中で、あるタイポグラフィー特徴をもつテキストを識別する識別器25と、該テキストのタイポグラフィー特徴を修正する修正器27とを有する。前記電子装置21はたとえば、パソコン、テレビ、セットトップボックス、ビデオレコーダー、ビデオプレーヤーまたは携帯電話でありうる。電子回路23はたとえばPhilips Trimediaメディアプロセッサ、Philips Nexperiaオーディオビデオ入力プロセッサ、AMD Athlon CPUまたはIntel Pentium(登録商標) CPUでありうる。好適には、識別器25および修正器27はコンピュータプログラムの機能的コンポーネントである。電子装置21はさらに入力31を有しうる。たとえば、SCART、コンポジット、SVHSもしくはコンポーネントソケットまたはテレビチューナーである。電子装置21はさらに、出力33を有しうる。たとえば、SCART、コンポジット、SVHSもしくはコンポーネントソケットまたは無線送信機である。電子装置21は、電子回路23に結合されたディスプレイ(図示せず)を有しうる。電子装置21はまた、記憶手段35を有しうる。記憶手段35はたとえば、未処理のビデオ画像を保存するために、および/または処理済みのビデオ画像を保存するために使用されうる。電子装置21は光学式文字認識(OCR: optical character recognition)ユニットおよびテキスト音声化(TTS: text-to-speech)ユニットを有しうる。TTSへの入力は単語および文の形のASCIIテキストだから、OCRの使用はTTSの動作にとって必要である。OCRユニットおよびTTSユニットの一つの用途は、読み取り能力の弱いユーザーが、字幕を読むよりは、自動的に生成される自分の母語での音声セグメントを聴くことを選ぶことがありうるということである。もとのオーディオからの干渉を防ぐため、こうした場合にはもとのオーディオは好ましくはオフにされる。さらに、OCRエンジンによって文字を認識することにより、ビデオコンテンツの自動インデックス付けができるようになり、そのことはさまざまな応用を可能にする。電子装置21はまた、二つの電子装置によって実現されることもできる。第一の電子装置では、電子回路は機能的に、画像中で、あるタイポグラフィー特徴をもつテキストを識別する識別器と、修正されたタイポグラフィー特徴をもつテキストおよび当該画像を識別する識別情報の両方を前記修正されたタイポグラフィー特徴をもつテキストを前記画像に重ねる機能をもつ電子装置に送信する送信機とを有する。第二の電子装置では、電子回路は機能的に、修正されたタイポグラフィー特徴をもつテキストおよび画像を識別する識別情報を受信する受信機と、前記修正されたタイポグラフィー特徴をもつテキストを前記画像に重ねる重畳器とを有する。たとえば、両電子装置は同じ家庭ネットワークの一部であってもよいし、あるいは第二の電子装置は家庭ネットワーク内に位置している一方、第一の電子装置はサービス提供者の位置にあって遠くに位置していてもよい。
本発明について好適な諸実施形態との関連で述べてきたが、上述した原理の範囲内にあるその修正は当業者には明らかであろうことは理解されるであろう。本発明は好適な実施形態に限定されるものではなく、そのような修正をも包含することが意図されている。本発明は、すべての各新規の特徴機能およびすべての各機能特徴の組み合わせに存している。請求項に参照符号があったとしても、保護範囲を限定するものではない。動詞「有する」およびその活用形の使用は請求項において述べられているもの以外の要素の存在を排除しない。要素の単数形の表現はそのような要素の複数の存在を排除しない。
本発明は、いくつかの相異なる要素を有するハードウェアによって、および好適にプログラムされた装置によって実装できる。「制御ソフトウェア」は、フロッピー(登録商標)ディスクのようなコンピュータ可読媒体上に保存された、ネットワークを介してダウンロード可能な、あるいは他の任意の仕方で市販されている任意のソフトウェアプロダクトを意味するものと理解されるものである。
本発明の方法のフローチャートである。 本発明の電子装置のブロック図である。 字幕が拡大されたビデオ画像の例を示す図である。 字幕が動くテキストに変換されたビデオ画像の例を示す図である。 本発明のある実施形態のテキスト検出ステップにおいて使用される、一つの式と二つのマスクを示す図である。 ビデオ画像中に検出されたテキストの例を示す図である。 本発明のある実施形態における関心領域内のテキストを識別する段階を示す図である。 図7の例について計算された水平方向のエッジ投影を示す図である。 識別されたテキストピクセルが除去されたビデオ画像の例である。

Claims (17)

  1. 画像を適応させる方法であって:
    前記画像中で、あるタイポグラフィー特徴をもつテキストを識別する段階と;
    前記テキストの前記タイポグラフィー特徴を修正する段階、
    とを有する方法。
  2. 前記タイポグラフィー特徴がフォントサイズを含むことを特徴とする、請求項1記載の方法。
  3. 前記画像中でテキストを識別する前記段階が、複数の画像ラインのうちどれが最も多くの水平エッジを有しているかを判別することによって水平なテキスト行の境界を検出する段階を有することを特徴とする、請求項1記載の方法。
  4. 前記画像中でテキストを識別する前記段階がさらに、水平なテキスト行の境界内にのみ生起するピクセル値の集合を決定し、そのピクセル値の集合からの値をもつピクセルをテキストピクセルであるとして識別する段階を有することを特徴とする、請求項3記載の方法。
  5. 前記画像中でテキストを識別する前記段階がさらに、識別されたテキストピクセルに対して形態上の閉包化の動作を実行して語境界を判別し、該語境界の内側に位置するさらなるピクセルをテキストピクセルとして識別する段階を有することを特徴とする、請求項4記載の方法。
  6. 前記テキストのタイポグラフィー特徴を修正する前記段階が、前記テキストをなすテキストピクセルを処理し、処理されたピクセルを前記画像に重ねる段階を有することを特徴とする、請求項1記載の方法。
  7. 前記テキストピクセルの少なくとも一つを、非テキストピクセルの値に基づく値をもつ置換ピクセルで置き換える段階をさらに有する、請求項6記載の方法。
  8. 前記置換ピクセルの値が、前記少なくとも一つのテキストピクセルの近傍における非テキストピクセルの中央値の色に基づくことを特徴とする、請求項7記載の方法。
  9. 前記置換ピクセルの近傍におけるあるさらなるテキストピクセルを、少なくとも部分的に前記置換ピクセルに基づく値をもつさらなる置換ピクセルで置き換える段階をさらに有する、請求項7記載の方法。
  10. 前記テキストのタイポグラフィー特徴を修正する前記段階が、相続く画像においてテキストをスクロールさせる段階を有することを特徴とする、請求項1記載の方法。
  11. 前記テキストがスクロールされる速さをユーザーが定義できるようにする段階をさらに有する、請求項10記載の方法。
  12. 画像を適応させる方法であって:
    前記画像中で、あるタイポグラフィー特徴をもつテキストを識別する段階と;
    修正されたタイポグラフィー特徴をもつ前記テキストを、該修正されたタイポグラフィー特徴をもつ前記テキストを前記画像上に重ねることができる電子装置に送信する段階、
    とを有する方法。
  13. プログラム可能装置をして請求項1記載の方法を実行するよう動作せしめる制御ソフトウェア。
  14. ・画像中で、あるタイポグラフィー特徴をもつテキストを識別する識別器と、
    ・前記テキストのタイポグラフィー特徴を修正する修正器、
    とを機能的に有している電子回路を有する電子装置。
  15. ・修正されたタイポグラフィー特徴をもつテキストおよび画像を識別する識別情報を受信する受信機と;
    ・前記修正されたタイポグラフィー特徴をもつテキストを前記画像上に重ねる重畳器、
    とを機能的に有している電子回路を有する電子装置。
  16. 画像中の、あるタイポグラフィー特徴をもつテキストを識別する識別器と;
    修正されたタイポグラフィー特徴をもつ前記テキストおよび前記画像を識別する識別情報を、該修正されたタイポグラフィー特徴をもつ前記テキストを前記画像上に重ねることができる電子装置に送信する送信機、
    とを機能的に有している電子回路を有する電子装置。
  17. 請求項14、15または16の電子装置において使用するための電子回路。
JP2007540787A 2004-11-15 2005-11-08 画像中のテキストの検出および修正 Pending JP2008520152A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04105759 2004-11-15
PCT/IB2005/053661 WO2006051482A1 (en) 2004-11-15 2005-11-08 Detection and modification of text in a image

Publications (1)

Publication Number Publication Date
JP2008520152A true JP2008520152A (ja) 2008-06-12

Family

ID=35809646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007540787A Pending JP2008520152A (ja) 2004-11-15 2005-11-08 画像中のテキストの検出および修正

Country Status (4)

Country Link
US (1) US20080095442A1 (ja)
JP (1) JP2008520152A (ja)
CN (1) CN101057247A (ja)
WO (1) WO2006051482A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3101737U (ja) * 2003-11-18 2004-06-17 船井電機株式会社 Dvd一体型テレビ
JP2005216223A (ja) * 2004-02-02 2005-08-11 Oki Data Corp 印刷制御方法及び画像形成装置
KR100836197B1 (ko) * 2006-12-14 2008-06-09 삼성전자주식회사 동영상 자막 검출 장치 및 그 방법
DE102007010603B4 (de) * 2007-03-05 2009-01-15 Siemens Ag Verfahren für Fernübertragung von Anzeigedaten zwischen zwei Rechnern
US8640024B2 (en) * 2007-10-30 2014-01-28 Adobe Systems Incorporated Visually distinct text formatting
US8457448B2 (en) * 2008-02-04 2013-06-04 Hewlett-Packard Development Company, L.P. Removing inserted text from an image using extrapolation for replacement pixels after optical character recognition
US8644611B2 (en) * 2009-06-03 2014-02-04 Raytheon Bbn Technologies Corp. Segmental rescoring in text recognition
JP5328510B2 (ja) * 2009-06-24 2013-10-30 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
CN102147863B (zh) * 2010-02-10 2013-03-06 中国科学院自动化研究所 一种网络动画中的文字定位及识别方法
US20120056896A1 (en) * 2010-09-02 2012-03-08 Border John N Presenting information on a see-though display
US9013631B2 (en) * 2011-06-22 2015-04-21 Google Technology Holdings LLC Method and apparatus for processing and displaying multiple captions superimposed on video images
US20150082159A1 (en) 2013-09-17 2015-03-19 International Business Machines Corporation Text resizing within an embedded image
US9432671B2 (en) * 2014-05-22 2016-08-30 Xerox Corporation Method and apparatus for classifying machine printed text and handwritten text
CN104463103B (zh) * 2014-11-10 2018-09-04 小米科技有限责任公司 图像处理方法及装置
US10372981B1 (en) 2015-09-23 2019-08-06 Evernote Corporation Fast identification of text intensive pages from photographs
CN106650727B (zh) * 2016-12-08 2020-12-18 宇龙计算机通信科技(深圳)有限公司 一种信息显示方法以及ar设备
CN108171104B (zh) * 2016-12-08 2022-05-10 腾讯科技(深圳)有限公司 一种文字检测方法及装置
US10459620B2 (en) * 2018-02-09 2019-10-29 Nedelco, Inc. Caption rate control
CN109522900B (zh) * 2018-10-30 2020-12-18 北京陌上花科技有限公司 自然场景文字识别方法及装置
TWI783718B (zh) * 2021-10-07 2022-11-11 瑞昱半導體股份有限公司 可應用於在顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路
CN115661183B (zh) * 2022-12-27 2023-03-21 南京功夫豆信息科技有限公司 一种基于边缘计算的智能扫描管理***及方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965670A (en) * 1989-08-15 1990-10-23 Research, Incorporated Adjustable overlay display controller
US5436981A (en) * 1992-06-24 1995-07-25 Canon Kabushiki Kaisha Image processing method, and apparatus therefor
US5438630A (en) * 1992-12-17 1995-08-01 Xerox Corporation Word spotting in bitmap images using word bounding boxes and hidden Markov models
US5877781A (en) * 1995-11-29 1999-03-02 Roland Kabushiki Kaisha Memory control device for video editor
KR20020027332A (ko) * 2000-03-31 2002-04-13 요트.게.아. 롤페즈 텍스트 검출
AU2001293001A1 (en) * 2000-09-22 2002-04-02 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US6934413B2 (en) * 2001-06-25 2005-08-23 International Business Machines Corporation Segmentation of text lines in digitized images
US20030043172A1 (en) * 2001-08-24 2003-03-06 Huiping Li Extraction of textual and graphic overlays from video
JP2003334740A (ja) * 2002-05-15 2003-11-25 Mitsubishi Electric Corp 許容速度決定方法および速度制御装置
US7054804B2 (en) * 2002-05-20 2006-05-30 International Buisness Machines Corporation Method and apparatus for performing real-time subtitles translation

Also Published As

Publication number Publication date
WO2006051482A1 (en) 2006-05-18
CN101057247A (zh) 2007-10-17
US20080095442A1 (en) 2008-04-24

Similar Documents

Publication Publication Date Title
JP2008520152A (ja) 画像中のテキストの検出および修正
US11367282B2 (en) Subtitle extraction method and device, storage medium
JP4643829B2 (ja) ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法
US9628837B2 (en) Systems and methods for providing synchronized content
KR101464572B1 (ko) 작은 스크린 크기들에 대해 비디오 이미지들을 적응시키는 방법
US8761582B2 (en) Video editing device and video editing system
EP1840798A1 (en) Method for classifying digital image data
US9137562B2 (en) Method of viewing audiovisual documents on a receiver, and receiver for viewing such documents
Yang et al. Automatic lecture video indexing using video OCR technology
Gargi et al. Indexing text events in digital video databases
JP2008527525A (ja) グラフィカルなオブジェクトを検出するための方法及び電子装置
US20070291134A1 (en) Image editing method and apparatus
JP2010503006A5 (ja)
JP2004364234A (ja) 放送番組内容メニュー作成装置及び方法
WO2013152682A1 (zh) 一种新闻视频字幕标注方法
US11699276B2 (en) Character recognition method and apparatus, electronic device, and storage medium
CN113435438B (zh) 一种图像和字幕融合的视频报幕板提取及视频切分方法
Ghorpade et al. Extracting text from video
Yang et al. Caption detection and text recognition in news video
CN102609958A (zh) 视频对象提取的方法及设备
KR101822443B1 (ko) 샷 경계 및 자막을 이용한 동영상 축약 방법 및 처리 장치
JP2016119552A (ja) 映像コンテンツ処理装置、映像コンテンツ処理方法及びプログラム
JP4839076B2 (ja) 映像中文字認識装置、映像中文字認識方法、プログラム、及び記録媒体
JP2009217303A (ja) テロップ文字抽出方法およびテロップ文字認識装置
KR101911613B1 (ko) 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치