JP3757565B2 - 音声認識画像処理装置 - Google Patents

音声認識画像処理装置 Download PDF

Info

Publication number
JP3757565B2
JP3757565B2 JP22194197A JP22194197A JP3757565B2 JP 3757565 B2 JP3757565 B2 JP 3757565B2 JP 22194197 A JP22194197 A JP 22194197A JP 22194197 A JP22194197 A JP 22194197A JP 3757565 B2 JP3757565 B2 JP 3757565B2
Authority
JP
Japan
Prior art keywords
voice
character
image
display
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22194197A
Other languages
English (en)
Other versions
JPH1155614A (ja
Inventor
純 飯島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP22194197A priority Critical patent/JP3757565B2/ja
Publication of JPH1155614A publication Critical patent/JPH1155614A/ja
Application granted granted Critical
Publication of JP3757565B2 publication Critical patent/JP3757565B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Editing Of Facsimile Originals (AREA)
  • Information Transfer Between Computers (AREA)

Description

【0001】
【発明の属する技術分野】
本発明はデジタルカメラやパーソナルコンピュータ(以下、パソコンと記す)等の画像処理装置に関し、特に、音声を入力して文字データに変換し画像データに重畳させて表示/記録/出力する音声認識画像処理装置に関する。
【0002】
【従来の技術】
デジタルカメラで撮像された被写体像は、CCDによる光電変換、信号変換及び信号処理等を経て画像データとして記憶媒体に記録される。また、デジタルカメラの多くは液晶ディスプレイ等からなる表示装置を備えており、このようなデジタルカメラでは、使用者は撮像の際にそれをファインダー代りに用いることもできるし、また、撮像後に記録媒体から読み出した再生画像を表示することもできる。
【0003】
一方、文字認識技術や音声認識技術はコンピュータの発達、普及に伴いデータ入力或いは指示入力手段としての応用が多くの分野でなされている。
【0004】
音声認識装置における音声認識処理にあたっては、背景雑音や不要語の付加による音声区間検出の誤りを防ぐためにワードスポッティング法を用いる認識処理が一般に行われている。これは、任意の入力音声からあらかじめ定めた単語や音節等の単位を捜し出すもので、音声区間検出を行わず種々の部分区間を設定し各標準パターンとの類似度を求め、すべての部分区間を通して類似度が最大となる単語を認識結果とするものである。
【0005】
文字認識装置における文字認識処理では、読取った文字パターン(未知の文字)と候補文字の特徴を比較し、比較結果としてのパターン間の距離を得て候補文字のコードを未知の文字候補として出力するか否かのリジェクト判定を行うものがある。使用頻度が高い文字種については標準辞書を用い、使用頻度が低い文字種については、順に使用頻度が低くなる文字種についての標準パターンで構成した多段構成の辞書を用いて認識処理を行うものもある。
【0006】
また、音声を認識して文字に変換する技術として、音声波形の特徴を抽出して、波形と文字(単音)を登録した辞書を用いて音声を単音列として文字列(平仮名或いは片仮名)に変換する技術や、変換された文字列を区分して語(漢字)に変換する技術が開発されている。
【0007】
【発明が解決しようとする課題】
画像データを再生した表示画像或いは印刷画像を識別する場合にインデックスや表題或いは説明文をつけることが行なわれているが、これらはパーソナルコンピュータ(以下、パソコン)のキーボード等の入力装置から入力した文字データを重畳するか、画像入力時に文字と共に画像データとして入力するか、或いは画像入力時に画像と文字を別々に入力して保存し出力時に合成している。
これらはいずれも文字入力を必要とするのでそのための装置(例えば、キーボードやスキャナー)を必要とする。
【0008】
一方、デジタルカメラは電子写真機としての応用の他に画像入力等の画像入力装置として応用されているが、デジタルカメラは大衆向け製品としてユーザにとっての使い易さという点から外形およびサイズが制約され、従来の大衆向け光学カメラ程度の大きさの範囲にとどまらざるを得ず、キーボード等の入力機器を付加することは事実上困難である。仮に、デジタルカメラにキーボードを付加したとしても撮影時にキーボード入力を行なうことは時間的/場所的に不具合が生じる可能性が高いという問題点がある。
【0009】
したがって、デジタルカメラで撮像した画像に表題や説明文を付ける場合には、デジタルカメラで得た画像データをパソコン等で処理しその際に文字等を入力するか、被写体と共に表題や説明文を掲示するか、或いは被写体に添付して撮影する方法があるが、パソコン等の後処理では臨場感に富んだ表現が欠けインパクトのない客観表現に止ることが多く、撮影時の爽快感や感動等の印象を表現しにくいという問題点がある。また、被写体と共に表題や説明文を撮影する方法は効果的ではあるが、文字と被写体がバランスを欠く可能性が高いという問題点がある他、画像と文字が同一画像の画像データとして変換されるので、画像と文字を別々に処理しようとする場合にパソコンと画像処理用高級プログラムを用いた処理を要するという不具合が生ずる。
【0010】
ここで、デジタルカメラで撮影時に音声を入力し、音声認識を行なって文字に変換して、液晶ディスプレイに再生画像と文字で現わされた言葉を重畳表示し、また、画像データおよび文字データとして記録できれば、撮影時の印象や事実を画像と共に表示および記録することができ、画像処理装置としてのデジタルカメラの新しい利用分野を拓くこととなり好ましい。
【0011】
また、文字表示の際に、漫画等での言語表示の一手法である「吹出し」を形成し言語(文字)をその中に表示するようにできれば、画像の印象付けや、誰が云ったかを明示でき更に好ましい。
【0012】
本発明は、上述した画像に文字を付加する場合の問題点や不具合を解消するために上記着想に基づいてなされたものであり、音声を入力して音声認識処理し、認識された音声を文字に変換して入力画像と重畳して表示し、記録或いは出力する画像処理装置の提供を目的とする。
【0013】
本発明は、また、上記重畳表示或いは印刷出力の際に適切な位置に適切な大きさの吹出し枠を形成して、その吹出し枠の中に認識された音声の文字表示を行ない得る画像処理装置の提供を目的とする。
【0014】
【課題を解決するための手段】
上記の目的を達成するために本発明の音声認識画像処理装置は、画像データを入力する画像データ入力系と、音声を入力して認識して認識結果を文字,記号,または絵文字に変換する音声/文字変換系と、画像データと、図形枠で囲まれた前記音声/文字変換系による変換結果とを合成する合成手段と、この合成手段によって合成された画像データを表示する画像表示手段と、前記合成手段によって合成された画像データを記録媒体に記録する記録手段と、音声の発せられた方向を検出して前記変換結果の合成位置情報を得る音声方向解析手段とを備え、前記音声/文字変換系は、音声を入力して音声信号に変換する音声入力手段と、前記音声入力手段の出力から所定の強度範囲の音声信号を抽出し音声データを得る音声信号処理手段と、前記音声データを認識処理して文字に変換する音声/文字変換処理手段とからなり、前記合成手段は、前記音声方向解析手段の合成位置情報に基づいて音声の発生方向が一見してわかるように合成することを特徴とする。
【0015】
前記記録手段は、変換結果と画像データを対応づけて別々に保存するように構成してもよい。
【0017】
前記音声/文字変換処理手段が、更に、音声の強度を基に前記認識結果の表示サイズおよび表示濃度情報を得る表示状態決定手段を有している。
【0018】
更に、音声認識画像処理装置は、図形枠を吹出し枠としてもよい。
【0020】
更に、上述の各音声認識画像処理装置を、表示された変換結果を修正または編集する編集手段を有するように構成してもよい。
【0021】
この場合、編集手段を、認識結果の表示位置を移動する移動手段と、認識結果の表示サイズおよび表示濃度を調整する調整表示手段を有するように構成する。
なお、上記編集手段が、認識結果と閉鎖図形の表示位置を移動する移動手段と、認識結果と閉鎖図形の表示サイズおよび表示濃度を調整する調整表示手段を有するように構成してもよい。
【0022】
また、上記編集手段を、更に、表示された認識結果の一部または全部を指定して、該指定部分に相当する音声を再入力して当該指定部分を修正する修正手段を有するように構成してもよく、更に上記編集手段が、表示された認識結果の一部または全部を指定して、他の文字列、記号或いは絵文字に変換する変換手段を有するように構成してもよい。
【0023】
【発明の実施の形態】
<画像処理装置の構成>
図1は本発明の音声認識画像処理装置(以下、単に画像処理装置と記す)の構成例を示すブロック図である。
画像処理装置100は、画像データを記録部60に与える画像データ入力系10と、画像処理装置100全体の動作制御を行なう制御部20と、音声を入力して音声認識処理等を行ない、認識結果を文字に変換する音声/文字変換系30と、ユーザによって操作された指示結果を制御部20に与える操作部40と、画像と文字に変換された言葉(音声)を重畳表示する表示部50と、画像データ入力系10からの画像データ,音声/文字変換系30の出力等を記録媒体61に記録すると共にそれらの読み出しを行なう記録部60と、「画像処理装置100」用の入力インターフェイス81,82(後述)と、外部機器に画像処理装置100による処理結果を出力する出力インターフェイス83を有している。なお、図1で記号90はバスラインを示す。
【0024】
画像データ入力系10としては、画像処理装置100全体をデジタルカメラとする場合には図12に示すようなデジタルカメラ200の光学系11からDRAM14に至る系が相当し、画像処理装置100がパソコン等のコンピュータ装置によってプログラム制御される処理装置(以下、「画像処理装置」と記す)の場合には、デジタルカメラ、デジタルカメラ以外の撮像装置、スキャナー等の画像データ変換装置およびメモリーカードやCD−ROM等の画像データを記録した記録媒体の読取装置等が相当する。
なお、画像処理装置100全体をデジタルカメラとする場合には、図1の入力インターフェイス81は不要である。
【0025】
また、デジタルカメラからの画像データは後述するようにJPEG圧縮されているので「画像処理装置100」では画像データの伸張部を設けるか画像データ伸張手段をプログラムで構成して後述する各手段と同様にROM23に格納してCPU21により実行するように構成することが望ましい。この場合、画像データ入力系10からの画像データが圧縮データでない場合(例えば、スキャナー出力)には画像データの伸張部或いは伸張手段を機能させないように構成する。なお、画像処理装置100全体をデジタルカメラとする場合には、データ伸張の際にはデジタルカメラの圧縮データ伸張部(信号処理部(図12))を用いる。
【0026】
制御部20はCPU21、RAM22、及びROM23を有している。CPU21はROM23に格納されている制御プログラムにより画像処理装置100全体の制御を行なうと共に、音声認識画像処理手段110(図3)により入力音声の認識処理と認識結果の文字データへの変換、表示位置および吹出し枠の決定、文字データの編集および画像データとの重畳表示、或いは出力を行なう。
【0027】
RAM22はデータ或いは処理結果の一時記憶および中間作業領域等に用いられる。なお、画像処理装置100をデジタルカメラとする場合には画像データの作業領域および音声データの一時格納領域としてDRAM14(図12)を用いることもできる。
【0028】
ROM23は上述の制御プログラムと音声認識画像処理手段110および画像処理装置のその他の各機能を実行させるためのプログラムを記録する記録媒体であり、PROM、FROM(フラッシュROM)等が用いられる。なお、これらプログラムをROM23以外のリムーバブルな記録媒体(例えば、記録媒体61(後述))に格納するように構成することもできる。
【0029】
音声/文字変換系30は、図2に示すように、音声入力手段31、音声信号処理手段32、復元手段33および音声/文字変換処理手段34を有している。なお、音声/文字変換処理手段34は入力した音声を解析して音声を認識し、音声認識の結果を文字コードに変換する音声/文字変換手段341、音声の発せられた方向を検出し文字表示位置の決定を行なう音声方向解析手段342および入力音量等を基に表示文字の大きさおよび吹出し(図10)の大きさ等を決定し、画像メモリー(VRAMb)にイメージ展開する表示状態決定手段343を有している。また、音声/文字変換処理手段34は実施例ではプログラムで構成されているが、ハードウエアで構成してもよい。
【0030】
音声入力手段31は、マイクロフォン等からなり音声を入力して電気信号(音声信号)に変換する。
音声信号処理手段32は一定の強度範囲以外の音声信号のカットや、突出波形のカットおよび雑音処理等の前処理を施した後、出力信号(音声信号)をA/D変換して音声データ(デジタルデータ)としてRAM22(或いはDRAM14)に格納する。
復元手段33はRAM22(或いはDRAM14)に格納された音声データを読み出して音声信号(アナログ信号)を復元する。
【0031】
なお、本実施の形態では後述の音声方向解析処理を行なうため、音声入力手段31として左右(L,R)にマイクロフォンを設けるように構成しているが左右上下に設けるようにしてもよく、また、音声方向解析処理を行なわない場合(後述するように、ユーザー操作により文字表示位置の決定を行なう場合)には1個のマイククロフォンで構成してもよい。
また、画像処理装置100全体をデジタルカメラとする場合には、図1の入力インターフェイス82は不要である。
【0032】
図1で、操作部40はモード切換えボタン(キー)、表示文字(および吹出し)移動ボタン、表示文字サイズ拡大/縮小ボタン、音声再入力ボタン、文字変換ボタン、記録ボタン、出力ボタン等を有し、使用者による選択操作、或いは確認操作により押し下げ等が行なわれると、その結果が電気信号(デジタルコード)変換され、バス90を介してCPU21に入力される。CPU21は受け取った電気信号を基にこれらのボタン(キー)の状態フラグをセットする。
【0033】
表示部50は第1および第2のVRAM(ビデオラム)およびビデオモニタ(例えば、図8の液晶ディスプレイ53やパソコンのディスプレイ)からなり、記録媒体61から読み出された画像データの再生結果をビデオモニタの画面上に表示すると共に、音声/文字変換された文字を画像と重畳表示する。なお、表示する文字を吹出しで囲んで表示することもできる。
以下、説明上、第1のVRAMを画像表示用(VRAMa)とし、第2のVRAMを文字データ表示用(VRAMb)とする(図12参照)。
この場合、VRAMaには記録媒体61から読み出された画像データがイメージ展開され、VRAMbに音声から変換された文字および吹出しの他、選択メニューや入力指示メッセージ等の表示データが一時的に格納され、ビデオモニタの画面上に重畳表示或いは単独表示される。
【0034】
記録部60は記録媒体61を収容し、CPU21の制御により記録媒体61上に画像データ入力系10からの画像データおよび文字変換された音声データと、文字表示位置情報、吹出し描画情報(呼び出し図形番号)と画像データおよび文字変換された音声データを関連づけるポインタを有する参照リスト(図7、図8)を記録し、また、記録媒体61から画像データ、文字データ或いは参照リストを読み出してRAM22(或いは、DRAM14)に転送する。なお、記録部60によるデータの転送はDMA(ダイレクトメモリーアクセス方式)によって行なわれるよう構成することが望ましい。また、参照リストは記録媒体61の先頭に格納されることが望ましい。
【0035】
記録媒体61は画像処理装置100がデジタルカメラに相当する場合にはフラッシュROMやメモリーカードが用いられる。
また、「画像処理装置100」の場合にはFD,磁気ディスク,光ディスク等のリムーバブルな記録媒体が用いられる。この場合、記録装置60として、FD装置,磁気ディスク装置,光ディスク装置等が用いられる。
【0036】
インターフェイス81、82は「画像処理装置100」の場合に、画像データを外部画像データ入力系(10)から入力したり、文字変換された音声データを外部音声/文字変換系(30)から入力するために設けられているが、前述したように画像データ入力系10が内部データ入力系(すなわち、デジタルカメラの光学系11〜DRAM14に至る系)であり、音声/文字変換系30が内部変換系(すなわち、デジタルカメラの音声入力部31〜音声/文字変換部34に至る系)である場合には不要である。
【0037】
<モード>
動作モードは画像処理装置100の有する処理手段(プログラム)によって規定され、操作部40に設けられた、ボタン、キー、或いはスイッチの操作、或いは表示部50の画面にモード選択メニューを表示してカーソルボタン等の操作よって使用者により選択される。
制御部20は操作部40からのモード選択信号を受け取ると、後述のモード指定手段111制御を移す。
画像処理装置100は音声認識画像処理モード、通常処理モード、特殊処理モードを有しており、音声認識画像処理モードは、音声/画像入力モード、文字/画像再生モードおよび文字/画像出力モードからなっている(図4)。
これら、動作モードの選択は画像処理装置100の動作中の任意の時点で行なうようにすることができる。
【0038】
<音声認識画像処理手段>
図3は、画像処理装置100の音声認識画像処理を実行する音声認識画像処理手段の構成例を示すブロック図であり、音声認識画像処理手段110は、モード指定手段111と、画像データ入力系10と、音声/文字変換系30と、画像/文字表示手段112と、記録手段113と、再生表示手段114と、出力手段115と、編集手段70とを有し、本実施例では、モード指定手段111、画像データ入力系10のうちのデータ圧縮/伸張手段、音声/文字変換系30のうちの音声/文字変換処理手段34、記録手段113、再生表示手段114、出力手段115および編集手段70はプログラムで構成されている。
【0039】
音声認識画像処理手段110は画像処理装置100の制御プログラムによりその実行順序を管理される。
モード指定手段111は操作部40から送られたモード選択信号を調べて対応の処理ブロック、例えば、図4に示す音声/画像入力モード処理ブロック1111,文字/画像再生モード処理ブロック1112および文字/画像出力モード処理ブロック1113からなる音声認識画像処理モード、或いは画像入力モード処理ブロック1114,画像再生モード処理ブロック1115および画像出力モード処理ブロック1116からなる通常処理モード、或いはその他のモード処理ブロック1117からなる特殊処理モードに制御を渡す。
画像データ入力系10は画像データを記録部60に与える。画像データ入力系10の具体例としてはデジタルカメラ(実施例参照)、スキャナー、デジタルカメラの記録結果を格納した記録媒体(例えば、カードメモリー或いはROM等)の読取り装置および画像データ圧縮/伸張手段(実施例ではプログラムで構成)がある。なお、前述したように画像データ入力系10を内部データ入力系(すなわち、デジタルカメラの光学系11〜DRAM14に至る系)とすることもできる。
【0040】
音声/文字変換系30は、前述したように、音声入力手段31、音声信号処理手段32、復元手段33および音声/文字変換処理手段34を有し(図2)、音声入力手段31で音声を入力して電気信号(音声信号)に変換し、音声信号処理手段32で一定の強度範囲以外の音声信号のカットや、突出波形のカットおよび雑音処理等の前処理を施した後、出力信号(音声信号)をA/D変換して音声データとしてRAM22(またはDRAM14)に格納し、復元手段33でRAM22(またはDRAM14)に格納した音声データを取り出してD/A変換して音声信号に復元し、音声/文字変換処理手段34で、音声認識処理を行なって文字コードに変換すると共に、文字表示位置の決定や表示文字および吹出し枠の大きさや太さの決定等を行なう。
【0041】
図5は音声/文字変換処理手段34の構成例を示すブロック図であり、音声/文字変換処理手段34は、音声/文字変換手段341、音声方向解析手段342、表示状態決定手段343を有している。
【0042】
音声/文字変換手段341はRAM22(或いはDRAM14)から読み出され音声信号に復元された音声信号を単音に区分して波形の特徴を解析する特徴解析手段3411と、単音の特徴データと文字コードを登録した音声/文字変換辞書3414の各特徴データとの類似度を計算して最も類似度の高い特徴データを認識結果として音声を単音列として文字コード列(平仮名或いは片仮名)に変換する文字変換手段3412と、変換された文字列を区分して漢字辞書を用いて語(漢字)コードおよび仮名コードの混合した文字列に変換する仮名漢字変換手段3413と、音声/文字変換辞書3414および漢字辞書3415を有している。なお、仮名漢字変換手段3413および漢字辞書3415はオプションであり、仮名コードのみとしてもよい。また、特定の語(或いは予め設定された語)については別の辞書を用いて別の語(例えば丁寧語)に変換したり、記号や絵文字(アイコン)に変換するように構成してもよい。
【0043】
なお、実施例では上述したように、音声/文字変換処理手段34で、RAM22から読み出されD/A変換により復元された音声信号の単音の波形特徴を解析するように構成しているが、前述したワードスポッティング法を用いて任意の入力音声からあらかじめ定めた単語や音節等の単位を捜し出すよう構成し、音声区間検出を行わず種々の部分区間を設定し各標準パターンとの類似度を求め、すべての部分区間を通して類似度が最大となる単語を認識結果とするように構成してもよい。
【0044】
また、音声/文字変換手段341で、RAM22から読み出され復元された音声信号の単音の波形特徴を解析する代りに、RAM22(或いはDRAM14)に格納された音声データをD/A変換することなく取り出して、特徴解析手段3411で単音の特徴を解析し、文字変換手段3412で単音音声データの特徴データと文字コードを登録した音声/文字変換辞書3414の各特徴データと比較して音声を単音列として文字コード列(平仮名或いは片仮名)に変換するように構成してもよい。
【0045】
音声方向解析手段342は、画像処理装置100の左右に設けられた音声入力手段31Rおよび31Lから得られる音量VR,VLを基に音声入力手段31Rおよび31Lを2点とする三角形の頂点の座標(すなわち、音声の発生位置)を算出し吹出し口位置とする発声位置推測手段3421と、VRAMaに展開された画像イメージの黒画素の密度の高い領域と低い領域を調べ発声位置推測手段3421で得た座標点を黒画素の密度の低い領域に平行移動し、その点を含む黒画素低密度域の形状と標準図形テーブル3423に登録された各種吹出しの形状とを比較し、相似度を判定して吹出しの形状および縮尺を決定し、当該縮尺を基にして決定された大きさの吹出しを嵌め込む黒画素低密度域を文字表示位置候補とする文字表示位置候補決定手段3422と、吹出しの標準形状および各吹出しに入る標準形状の文字数を登録した標準図形テーブル3423を有している。
【0046】
図6は標準図形テーブル3423の一実施例であり、標準図形テーブル3423には吹出しの種類を特定する吹出し図形番号、吹出し図形番号で特定される吹出しを描画する吹出し描画コマンド、描画コマンドで描かれる標準の大きさの吹出しの閉空間面積(または、形成される吹出し線で囲まれる画素数)、標準の大きさの吹出しに書込めるある標準Aの大きさの文字数(行数、行当りの文字数とその合計)、標準B,C・・の大きさの文字数等が登録されている。なお、ここで文字の標準A、B、C・・とは文字サイズ(或いは、縮尺)を意味する。また、吹出しパターンを登録した吹出しパターンテーブルを設け、描画コマンドの代りに図形番号で特定される吹出しパターンのアドレス(ポインタ)を登録するようにしてもよい。
【0047】
表示状態決定処理手段343は、文字数および上記当該サイズにより決定された大きさの吹出しの大きさと標準文配列テーブル3423を基にして、表示文字の大きさおよび配列を決定する表示文字形状決定手段3431と、入力音量の大きさを基にして吹出しおよび文字の太さを決定する文字濃度決定手段3432と、上記決定された大きさと太さの吹出しをVRAMbの上記決定された表示位置(相対座標)にイメージ展開し、さらに文字コードに対応する文字パターンを登録したパターン辞書3434を基に、当該VRAMb領域中の吹出しの中に上記決定された大きさと太さの文字列(或いは記号、絵文字)をイメージ展開する文字展開手段3333と、パターン辞書3434を有している。
【0048】
図3で、画像/文字表示手段112は画像/文字入力モードのとき入力した画像および音声(文字に変換された言葉)を合成して表示部50の画面に表示する。すなわち、画像データ入力系10でVRAMaにイメージ展開した画像と音声/文字変換系30でVRAMbにイメージ展開した文字(吹出し付き文字)を図10の例に示すように重畳させて表示する。
【0049】
記録手段113は、ユーザが操作部40から記録指示を行なうと重畳表示された画像データ、文字データ(文字コード)と位置データ(位置座標)および吹出し番号、或いは文字および吹出しのイメージデータを記録媒体61に記録する。
【0050】
図7(a)は画像データおよび文字データとその表示情報等を記録する記録媒体61のレイアウト例であり、(b)は参照リスト610の例を示す。
(a)に示すように記録媒体61には、参照リスト610、文字データ620−1〜620−m、画像データ630−1〜630−n(n≧m)が記録され、文字データおよび画像データの記録アドレスは対応の参照リスト610の対応の画像番号のポインタ612、613に格納される。
また、参照リスト610には、画像データ番号611、文字データの記録アドレスを示すポインタ612、文字データの記録アドレスを示すポインタ613、文字(吹出し口)表示位置を示す表示座標614、吹出し情報(種類)を示す吹出し図形番号615が含まれている。
【0051】
なお、本実施の形態では文字データと位置データおよび吹出し図形番号を格納するように構成したが、図8に示すように文字(イメージ)データと画像データをそれぞれ別の1枚の画像620’、630として別々に記録媒体61に記録するようにしてもよい。この場合、参照リスト610’には画像データ番号611、文字データの記録アドレスを示すポインタ612’、文字データの記録アドレスを示すポインタ613が格納される。また、図示しないが画像データと文字(イメージ)データを1枚の合成画像のデータとして記録するようにしてもよい。再生/表示手段114は、文字/画像再生モードが選択された場合に起動され、画像データおよび文字データを記録媒体61から読み出し、画像データについては伸張処理を施した後にVRAMaにイメージ展開し、文字データについてはVRAMbに(吹出しと共に)イメージ展開する。これにより表示部50の画面上に再生された画像および文字が重畳表示される。
【0052】
なお、記録媒体61に格納されている画像データと文字データの合成(重畳表示)の可否を画面で指定するように再生手段114を構成してもよく、また、文字データが記録されている場合に必ず対応の画像と重畳表示するように構成してもよい。
【0053】
出力手段115は、文字/画像出力モードの指定、或いは文字/画像再生モードが指定されて画像表示がなされた後にユーザの出力指示操作があると、画面上に表示されている画像および文字に対応する画像データおよび文字データ、或いは指定の番号の画像および文字に対応する画像データおよび文字データを記録部60およびインターフェイス83を介して記録媒体61から外部装置(例えば、プリンタや他の画像処理装置或いは通信回線に接続する端末機器)に送信する。
【0054】
編集手段70は、音声/文字入力モードまたは文字/画像再生モードで表示部50に文字と画像が重畳表示された場合に、操作部40からユーザによる割込み編集指示があると、表示文字の位置、大きさ、認識誤りのあった文字の訂正/再入力および丁寧語或いは絵文字への文字の変換等の編集処理を行なう。なお、操作部40からの割込み指示は操作部40に設けられた編集用ボタン(或いはキー)の押し下げにより制御部20に与えられる(図10参照)。
【0055】
図9は編集手段70の構成例を示すブロック図であり、編集手段70は表示位置移動手段71、サイズ拡大/縮小手段72、音声再入力手段73および文字変換手段74を有している。
【0056】
表示位置移動手段71は画面に表示された文字(吹出し)の位置が画像の主要部に重なっていたり、位置のバランスが悪かったりした場合に適切な位置に吹出しごと文字を移動させる。実施例では文字の移動を図10に示すような移動用ボタン42および十字キー48(図11)の操作により吹出し口を移動中心として移動させている。
【0057】
サイズ拡大/縮小手段72は画面に表示された文字(吹出し)が小さ過ぎたり大き過ぎたりした場合や、表示位置移動手段71による移動先の空間の大きさが現在の吹出しの大きさより大きかったり小さかったりする場合に文字(および吹出し)の大きさを拡大或いは縮小して表示バランスを調整する。サイズ拡大/縮小手段72は、また、文字および吹出しの濃度(線の太さ)の調整も行なうことができる。実施例では文字の拡大/縮小を図10に示すようなサイズ拡大/縮小ボタン43と十字キー48の操作により行なっている。
【0058】
音声再入力手段73は、画面に表示された文字に認識誤りがある場合に誤った文字のみをスポット的に訂正したり、表現全体を差替えたい場合に操作部40(実施例では変換入力ボタン44および十字キー48の操作)により訂正対象(訂正文字のみ或いは文字列全体または、訂正する行)を指定し、音声の再入力を行なうことによりスポット訂正或いは全体の差替えを行なう。
誤った文字をスポット的に訂正する場合にはその部分を指定し、正しい音を単音で区切って再入力し、全体を差替える場合には(例えば、吹出し口部分を指定すると全体差し換え、というように意味付けて)全体の差替えを指定し、差替える言葉を再入力するようにできる。
ユーザーが再入力操作を行なうと、音声/文字変換系30が起動され、前述したような処理を経て新たな文字が画面上に重畳表示される。
【0059】
文字変換手段74は、画面に表示された文字(または、文字列)を特定の文字(丁寧語)に変換したり、特定の記号や絵文字に変換したい場合に操作部40(実施例では変換入力ボタン44および十字キー48の操作)により変換対象の文字又は文字列を指定すると、変換辞書とのマッチングを行なって当該文字または文字列を指定の語,記号または絵文字に変換する。
変換辞書には文字又は文字列と、それら文字列と変換可能な語,記号または絵文字が登録されている。
なお、変換後、必要に応じて吹出しの形状或いは大きさを自動的に調整できるように構成してもよい。
【0060】
<実施例>
以下、本発明をデジタルカメラに適用した場合の一実施例について述べる。
図10はデジタルカメラでの文字/画像の重畳表示例を示す説明図であり、(a),(a)’は被撮影者の発した言葉101’を画像に重畳表示した例であり、(a)で撮影時に被撮影者が発した「おめでとうございます」という音声を手前のデジタルカメラ200で捉えて、(a)’に示すように画像後方に吹出し枠101付きで重畳表示している。
また、(b),(b)’は撮影者の発した言葉102’を画像に重畳表示した例であり、(a)で撮影時に撮影者が発した「おめでとうございます」という音声を手前のデジタルカメラ200で捉えて、(b)’に示すように画像前方に吹出し枠102付きで重畳表示している。
上述の例のように被撮影者の言葉や動物の鳴き声等を表示する場合は吹出し口を像の方向に向け、撮影者の言葉を表示する場合は吹出し口を外側に向けることにより、被撮影者(物)の発した音声か、撮影者の発した音声かを一見して明らかに表示できる。
【0061】
なお、上例では吹出しを横方向に長めに形成し、文字も横書きとしているが、吹出しを縦長にしたり、文字を縦書きにすることもできる。また、吹出し枠を実線で現わされる矩形状としているが、破線で形成してもよく、また、大音響や驚き等を表現する場合に用いられる突起状の角を有する吹出しも表示できる。
【0062】
図11は本発明を適用したデジタルカメラ一実施例の斜視図であり、(a)は正面図、(b)は背面図である。
デジタルカメラ200の上面には、動作モードを本発明の音声認識画像処理モードに切換えるモード切換えスイッチ(スライドスイッチ)41と、編集用ボタン42〜45、出力用ボタン47、デジタルカメラ200を起動するメインスイッチ201、撮像用シャッターボタン202が設けられている。
前面(正面)には、撮像部210、撮像レンズ201、ファインダー220、ファインダーレンズ221が設けられ、前面の内部にはステレオマイク231,232が設けられている。ここで、ステレオマイク231は音声入力部31の右耳(R)に、ステレオマイク232は左耳(L)に相当する。
【0063】
背部には、記録モードと再生モードを切換える記録/再生モード切換えスイッチ46と、光学ファインダー202と、画像表示用の液晶ディスプレイ53が設けられている。なお、背部の内部に撮影者の音声入力用マイク233を設けてもよい。音声入力用マイク233を設けた場合には撮影者からの音声であることを確実に判定できるので、音声方向解析手段342の構成が音声入力用マイク233を設けない場合に比べて簡易になる。
【0064】
図12は図11のデジタルカメラ200の回路構成例を示すブロック図である。以下、図1の画像処理装置100と同じ機能を有する構成部分については同じ記号を用い、詳細な説明は省略する。
【0065】
光学系11,信号変換部12,信号処理部13,DRAM(ダイナミックメモリー)14は図1の画像データ入力系10に相当する。
光学系11は、撮像レンズおよび絞り等の光学系機構11を含み、被写体からの光を後段の信号変換部12のCCD上に結像させる。
信号変換部12は、CCD,A/D変換部およびCCD駆動信号生成回路を含み、前段の光学系11を介してCCDに結像した画像を電気信号に変換すると共にデジタルデータ(以下、画像データ)に変換してDRAM14に一時的に記憶させる。
【0066】
信号処理部13は、画像データをJPEG方式等の圧縮方式により圧縮し、また、圧縮された画像データに伸張処理を施す。また、信号処理部13はDRAM14からの画像データ或いはフラッシュメモリー61から読み出した画像データに伸張処理を施した後、VRAM(ビデオRAM)51にイメージ展開する。
【0067】
制御部20は上述の各回路および図示しない電源切換えスイッチ等にバスラインを介して接続し、ROM21内に格納された制御プログラムによりデジタルカメラ200全体の動作を制御する。また、制御部20はROM21内に格納された音声認識画像処理手段110(図3)を実行して音声認識画像処理モードの制御を行なう。
【0068】
音声/文字入力部30は音声認識画像処理モードの時に、撮像の際入力される被撮影者(物)或いは撮影者から発せられた音声を認識して文字コードに変換し、撮像結果(画像)上の表示位置、文字の大きさ等を決定して、文字イメージを吹出しとともにVRAM52に展開する。
【0069】
モード切換えスイッチ41,移動ボタン42,拡大/縮小ボタン43,音声再入力ボタン44,文字変換ボタン45,記録/再生スイッチ46および出力ボタン47(以下、単にスイッチ41,46、ボタン42,43,44,45,47と記す)は図1の操作部40の構成部分に相当する。
VRAM51,VRAM52,および液晶ディスプレイ53は表示部50を構成する(VRAM51はVRAMaに、VRAM52はVRAMbに相当する)。
【0070】
液晶ディスプレイ(LCD)53の電源がオン(ON)であれば、VRAM51上の画像データが液晶ディスプレイ53に画像表示される。また、制御部20を介してVRAM52に書込まれる音声変換後の文字および吹出しや選択画像フォーマットや各種メニューおよびメッセージを液晶ディスプレイ53に表示する。さらに、VRAM51上の画像イメージとVRAM52上のイメージを液晶ディスプレイ53に合成(重畳)して表示できる。
【0071】
フラッシュメモリー61は画像データの記録媒体として圧縮された画像データと、音声/文字変換された文字データを記録し、また、必要参照事項を記録する参照リストを有する(図7,図8)。
インターフェイス83はデジタルカメラ200と、プリンタやパソコン、その他の画像処理装置、CD−ROM等の外部機器との間のデータの授受を行なう。フラッシュメモリー61に記録された画像データおよび文字データ等の外部機器への送信(出力)は、図示しない出力手段115(プログラム)に基づいて行なわれる。
【0072】
<モードの切換>
スイッチ41は、「NOP」、「通常」、「特殊」、「音声/文字変換」の4位置にスライド可能に構成されている。スイッチ41が「NOP」に位置する場合はメインスイッチ201がオンであってもモード処理動作に移行しない(すなわち、ノーオペレーション状態である)。また、スイッチ41はメインスイッチ201をオフにすると自動的に「NOP」位置に戻る。
【0073】
メインスイッチ201をオン(ON)にした後、スイッチ41を「通常」側に切換えると、デジタルカメラ200は通常処理モード(図4)となり、被写体の撮像、表示、記録等、一連の撮像動作を行なうことができる。
また、スイッチ41を「特殊」側に切換えると、デジタルカメラ200は特殊処理モード(図4)となり、接写や連写その他特殊処理動作を行なうことができる。
【0074】
さらに、スイッチ41を「音声/文字変換]側に切換えると、音声認識画像処理モードとなり、撮像/音声入力モード、文字/画像再生モードおよび文字/画像出力モードを実行することができる(図4)。
スイッチ41を「音声/文字変換]側に切換えた場合、撮像スイッチ202が2段となり、一回押すとステレオマイク231,232(およびマイク233)が起動され、被撮影者(物)または撮影者の発する音声の入力を可能とする。撮像スイッチをもう一回押すと被写体が撮像され、撮像/音声入力モード処理ブロック1111が実行されて液晶ディスプレイ53上に撮像結果である静止画像と入力音声が変換された文字が(吹出し付きで)重畳表示される(図13参照)。
【0075】
記録/再生スイッチ46は、「NOP」、「記録」、「再生」の3位置にスライド可能に構成されている。スイッチ46が「NOP」に位置する場合はメインスイッチ201およびスイッチ41がオンであってもモード処理動作に移行しない(すなわち、ノーオペレーション状態である)。また、スイッチ46はメインスイッチ201をオフにするか或いはスイッチ41を「NOP」に位置させるとスイッチ46は自動的に「NOP」位置に戻る(図14参照)。
【0076】
スイッチ41を「音声/文字変換」側に切換えた場合にスイッチ46を「記録」に切換えると撮像/音声入力モード処理により液晶ディスプレイ53に表示中の画像および文字に係わるデータ(画像データ,文字データおよび表示位置データ、大きさデータ、太さデータ、吹出し図形番号)がフラッシュメモリー61に記録される。
【0077】
スイッチ41を「音声/文字変換」側に切換えた場合にスイッチ46を「再生」に切換えるとデジタルカメラ200は文字/画像再生モードとなり、文字/画像再生モード処理ブロック1112が実行され、フラッシュメモリー61に記録されている画像データおよび文字データが読み出され、各変換処理等を経て液晶ディスプレイ53上に静止画像と入力音声が変換された文字が(吹出し付きで)重畳表示される(図15参照)。
【0078】
スイッチ211を「音声/文字変換]側に切換えた場合に、ボタン47を押すと文字/画像出力モードとなり、文字/画像出力モード処理ブロック1113により画像データおよび文字データがインターフェイス83を介して外部機器に送信される。
【0079】
図13〜図15は音声認識画像処理モードにおける画像処理装置200の動作を示すフローチャートであり、図13は音声/画像入力モード時の動作フローチャート、図14は文字/画像再生モード時の動作フローチャート、図15は文字/画像出力モード時の動作フローチャートである。
【0080】
(イ) 音声/画像入力モード時の動作
図13で、選択モードを調べ、音声/画像入力モードが選択された場合にはS3に移行し、その他の場合にはS2のその他のモード処理に移行する(S1)。
上記S2では音声/画像入力モード処理以外のモード処理を行ない、終了するとS1に戻る。
【0081】
音声/画像モードが選択された場合、撮像シャッター202を一回押すとステレオマイク231,232(およびマイク233)が起動され、2回目に撮像シャッター202を押すと所定時間経つとオフとなる(S3)。
また、2回目の撮像シャッター押し下げにより撮像が行なわれ(S3’)、撮像データは信号変換処理(S4’)を経てVRAM51(VRAMb)にイメージ展開される(S5’)。
【0082】
ステレオマイク231,232(およびマイク233)から入力された音は、音声信号処理手段32により一定の強度以上の音が抽出され、突出波形のカットや雑音処理等が施された後に特徴抽出処理を経てからA/D変換されて音声データとしてDRAM14に一時的に格納される(S4)。
【0083】
VRAM14に格納した音声データを取り出して、音声/文字変換手段341による特徴解析(S5)、文字変換(S6)および仮名漢字変換処理等の音声/文字変換(S7)を行ない、次に、音声方向解析手段342による発声位置の推測(S8)、文字および吹出し表示位置候補の決定(S9)を行なう。さらに、および表示状態決定手段343による表示文字形状決定(S10)と文字濃度(文字の太さ)の決定(S11)を行ない、吹出しおよび文字をVRAM52(VRAMa)にイメージ展開する(S12)。
【0084】
VRAM51への1枚分の画像イメージ展開とVRAM52への文字イメージ展開が終ると、画像/文字表示手段112によりVRAM51の画像イメージとVRAM52の文字イメージを合成し、液晶ディスプレイ53上に画像と吹出しに囲まれた文字を重畳表示する(S13)。
【0085】
ここで、制御部20は操作部40からの信号状態を調べ、信号状態が「記録」を意味している場合(すなわち、再生/記録ボタン46が「記録」位置に切換えられた場合)にはS15に移行し、信号状態が「編集」を意味している場合(すなわち、ボタン42〜45のいずれかが押し下げられた場合)には、S16に移行し、その他の場合にはS1に戻る(S14)。
【0086】
上記S15で、再生/記録ボタン46が「記録」位置に切換えられた場合には、記録手段113(図3)が起動され、フラッシュメモリー61に現在液晶ディスプレイ53に重畳表示されている画像の圧縮データ、文字データを格納すると共にフラッシュメモリー61に設けられている参照リストに当該画像の画像番号、画像データ格納アドレス(ポインタ1)、文字データ格納アドレス(ポインタ2)、画像表示位置情報、濃度情報、吹出し図形番号等の必要情報を登録し、S1に戻る(S15)。
【0087】
上記S15で、ボタン42〜45のいずれかが押し下げられた場合には、編集割込みとして対応の編集処理に移行する。すなわち、ボタン42が押し下げられた場合には文字(吹出し)移動処理を、ボタン43が押し下げられた場合にはサイズ拡大/縮小処理を、ボタン44が押し下げられた場合には音声再入力処理を、ボタン45が押し下げられた場合には文字変換処理を実行し、それぞれの処理が終了するとS15に戻る(S16)。
【0088】
(ロ) 文字/画像再生モード時の動作
文字/画像再生モードが選択されると、図14で、再生手段114により参照リスト、画像データおよび文字データが記録媒体61から読み出され(T1)、画像データについては伸張処理が施された後にVRAM51にイメージ展開され(T2)、文字データについては参照リストに格納された各情報(画像表示位置情報、濃度情報 、吹出し図形番号等)を基にして吹出しおよび文字列がVRAM52にイメージ展開される(T3)。
【0089】
VRAM51への1枚分の画像イメージ展開とVRAM52への文字イメージ展開が終ると、画像/文字表示手段112によりVRAM51の画像イメージとVRAM52の文字イメージを合成し、液晶ディスプレイ53上に画像と吹出しに囲まれた文字を重畳表示する(T4)。
【0090】
ここで、CPU21は操作部40からの信号状態を調べ、信号状態が「編集」を意味している場合(すなわち、ボタン42〜45のいずれかが押し下げられた場合)にはT6に移行し、その他の場合には図13のS1に戻る(T5)。
【0091】
上記T5で、ボタン47が押し下げられた場合には文字/画像出力モード(図15)に移行する。また、ボタン42〜45のいずれかが押し下げられた場合には、編集割込みとして対応の編集処理に移行する。すなわち、ボタン42が押し下げられた場合には文字(吹出し)移動処理を、ボタン43が押し下げられた場合にはサイズ拡大/縮小処理を、ボタン44が押し下げられた場合には音声再入力処理を、ボタン45が押し下げられた場合には文字変換処理を実行する(T6)。
【0092】
それぞれの編集処理が終了すると、記録手段113が起動され、フラッシュメモリー61に現在液晶ディスプレイ53に重畳表示されている画像の圧縮データ、文字データを格納すると共にフラッシュメモリー61に設けられている参照リストに当該画像の画像番号、画像データ格納アドレス(ポインタ1)、文字データ格納アドレス(ポインタ2)、画像表示位置情報、濃度情報、吹出し図形番号等の必要情報を登録し、図13のS1に戻る(T7)。
【0093】
(ハ) 文字/画像出力モード時の処理
文字/画像出力モードが選択されると、図15で、出力手段115により画面上に表示されている画像および文字に対応する画像データおよび文字データ、或いは指定の番号の画像および文字に対応する画像データおよび文字データをフラッシュメモリー61から読み出し(U1)、イターフェイス83を介して外部装置に送信する(U2)。
なお、上記実施例では吹出しのなかに文字を表示したが、吹出しを設けず文字をそのまま表示するようにしてもよい。
【0094】
他の実施例として、先に撮像を行なって画像データを記録しておき、後から音声入力を行なって画像と変換された文字を重畳表示するように構成できる。この場合、前述の実施例において通常モードを選択し、次に画像入力モード(撮像モード)1114を選択して撮像および記録を行なった後、所望の時期に音声認識処理モードを選択し、次いで文字/画像再生モードを選択して記録画像を表示し、編集割込みにより編集処理(この場合は、音声再入力)を行なって、変換された文字(言葉)を重畳表示するようにしてもよい。
【0095】
以上本発明の実施例について説明したが、本発明は上記実施例に限定されるものではなく、種々の変形実施が可能であることはいうまでもない。
【0096】
【発明の効果】
以上説明したように本発明によれば、デジタルカメラ等の画像処理装置での画像入力時(デジタルカメラの場合は撮影時)に音声を入力し、音声認識を行なって文字に変換して、液晶ディスプレイに画像と文字で現わされた言葉を重畳表示でき、また、画像データおよび文字データを記録/出力できるので、撮像時の印象や事実を画像と共に表示および記録することができる。これにより画像処理装置としてのデジタルカメラの新しい利用分野、例えば、写真撮影時の印象や事実等が表示されたアルバムの作成や、画像データに印象や事実を記述した文字データを臨場的に対応させて外部に送信し、外部装置で加工できる。
また、文字表示の際に、漫画等での言語表示の一手法である「吹出し」を形成し言語(文字)をその中に表示するようにできるので、画像の印象付けや、誰が言ったか等を画像中に明示できる。
【図面の簡単な説明】
【図1】本発明の音声認識画像処理装置の構成例を示すブロック図である。
【図2】音声/文字変換系の構成例を示すブロック図である。
【図3】音声認識画像処理系の構成例を示すブロック図である。
【図4】動作モードの構成例を示す構成図である。
【図5】音声/文字変換処理手段の構成例を示すブロック図である。
【図6】標準図形テーブルの一実施例を示す図である。
【図7】記録媒体のレイアウトの一例を示す図である。
【図8】記録媒体のレイアウトの一例を示す図である。
【図9】編集手段の構成例を示すブロック図である。
【図10】本発明をデジタルカメラに適用した場合の文字/画像の重畳表示例を示す説明図である。
【図11】本発明をデジタルカメラに適用した場合の一実施例の斜視図である。
【図12】図11のデジタルカメラの回路構成例を示すブロック図である。
【図13】音声認識画像処理装置の音声/画像入力モード時の動作を示すフローチャートである。
【図14】音声認識画像処理装置の文字/画像再生モード時の動作を示すフローチャートである。
【図15】音声認識画像処理装置の文字/画像出力モード時の動作を示すフローチャートである。
【符号の説明】
10 画像データ入力系
30 音声/文字変換系
31 音声入力手段
32 音声信号処理手段
34 音声/文字変換処理手段
50 表示部(表示装置;VRAMa,VRAM,液晶ディスプレイ))
60 記録部(記録装置)
61 記録媒体
70 編集手段
71 表示位置移動手段(移動手段)
72 サイズ拡大/縮小手段(調整表示手段)
73 音声再入力手段(修正手段)
74 文字変換手段(変換手段)
100 音声認識画像処理装置
101,102 吹出し枠(閉鎖図形)
112 画像/文字表示手段(画像表示手段)
113 記録遮断
114 再生/表示手段(画像表示手段)
200 デジタルカメラ(音声認識画像処理装置)
342 音声方向解析手段
343 表示状態決定手段

Claims (9)

  1. 画像データを入力する画像データ入力系と、
    音声を入力して認識して認識結果を文字,記号,または絵文字に変換する音声/文字変換系と、
    画像データと、図形枠で囲まれた前記音声/文字変換系による変換結果とを合成する合成手段と、
    この合成手段によって合成された画像データを表示する画像表示手段と、
    前記合成手段によって合成された画像データを記録媒体に記録する記録手段と、
    音声の発せられた方向を検出して前記変換結果の合成位置情報を得る音声方向解析手段とを備え、
    前記音声/文字変換系は、音声を入力して音声信号に変換する音声入力手段と、前記音声入力手段の出力から所定の強度範囲の音声信号を抽出し音声データを得る音声信号処理手段と、前記音声データを認識処理して文字に変換する音声/文字変換処理手段とからなり、
    前記合成手段は、前記音声方向解析手段の合成位置情報に基づいて音声の発生方向が一見してわかるように合成することを特徴とする音声認識画像処理装置。
  2. 前記音声/文字変換処理手段が、更に、音声の強度を基に前記認識結果の表示サイズおよび表示濃度情報を得る表示状態決定手段を有することを特徴とする請求項1記載の音声認識画像処理装置。
  3. 前記図形枠が吹き出し口を備えた吹出し枠であり、前記吹き出し口は前記音声の発生方向を示すことを特徴とする請求項1記載の音声認識画像処理装置。
  4. 更に、前記表示された変換結果を修正または編集する編集手段を有することを特徴とする請求項1または3に記載の音声認識画像処理装置。
  5. 前記編集手段が、前記認識結果の表示位置を移動する移動手段と、前記認識結果の表示サイズおよび表示濃度を調整する調整表示手段を有することを特徴とする請求項4記載の音声認識画像処理装置。
  6. 前記編集手段が、前記認識結果と前記図形枠の表示位置を移動する移動手段と、前記認識結果と前記図形枠の表示サイズおよび表示濃度を調整する調整表示手段を有することを特徴とする請求項4記載の音声認識画像処理装置。
  7. 前記編集手段が、更に、表示された前記認識結果の一部または全部を指定して、該指定部分に相当する音声を再入力して当該指定部分を修正する修正手段を有することを特徴とする請求項4記載の音声認識画像処理装置。
  8. 前記編集手段が、更に、表示された前記認識結果の一部または全部を指定して、他の文字列、記号或いは絵文字に変換する変換手段を有することを特徴とする請求項4記載の音声認識画像処理装置。
  9. 前記変換結果と前記画像データと対応づけて別々に保存する手段を設けたことを特徴とする請求項1記載の音声認識画像処理装置。
JP22194197A 1997-08-04 1997-08-04 音声認識画像処理装置 Expired - Fee Related JP3757565B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22194197A JP3757565B2 (ja) 1997-08-04 1997-08-04 音声認識画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22194197A JP3757565B2 (ja) 1997-08-04 1997-08-04 音声認識画像処理装置

Publications (2)

Publication Number Publication Date
JPH1155614A JPH1155614A (ja) 1999-02-26
JP3757565B2 true JP3757565B2 (ja) 2006-03-22

Family

ID=16774562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22194197A Expired - Fee Related JP3757565B2 (ja) 1997-08-04 1997-08-04 音声認識画像処理装置

Country Status (1)

Country Link
JP (1) JP3757565B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067300A (ja) * 2001-08-29 2003-03-07 Nec Corp 音声認識処理による電子メール作成方法
JP2005346252A (ja) * 2004-06-01 2005-12-15 Nec Corp 情報伝達システムおよび情報伝達方法
JP4650303B2 (ja) * 2006-03-07 2011-03-16 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP2010124039A (ja) * 2008-11-17 2010-06-03 Hoya Corp 撮像装置
JP5209510B2 (ja) * 2009-01-07 2013-06-12 オリンパスイメージング株式会社 音声表示装置及びカメラ
US20100238323A1 (en) * 2009-03-23 2010-09-23 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
JP5279028B2 (ja) * 2009-05-26 2013-09-04 Necカシオモバイルコミュニケーションズ株式会社 音声処理装置、音声処理方法、及び、プログラム
US8886530B2 (en) * 2011-06-24 2014-11-11 Honda Motor Co., Ltd. Displaying text and direction of an utterance combined with an image of a sound source
JP2015087695A (ja) * 2013-11-01 2015-05-07 セイコーエプソン株式会社 情報処理装置および情報処理装置の制御方法
WO2015156011A1 (ja) * 2014-04-08 2015-10-15 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2016209039A1 (ko) * 2015-06-24 2016-12-29 주식회사 브이터치 의사소통을 지원하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
JP6696739B2 (ja) * 2015-07-13 2020-05-20 株式会社コロプラ ユーザ入力支援のためのコンピュータ・プログラム
CN112151029A (zh) * 2020-09-04 2020-12-29 深圳创维-Rgb电子有限公司 语音唤醒与识别自动化测试方法、存储介质及测试终端

Also Published As

Publication number Publication date
JPH1155614A (ja) 1999-02-26

Similar Documents

Publication Publication Date Title
JP3757565B2 (ja) 音声認識画像処理装置
CN110933330A (zh) 视频配音方法、装置、计算机设备及计算机可读存储介质
JP2010219692A (ja) 撮像装置及びカメラ
JP2008158788A (ja) 情報処理装置および情報処理方法
CN105635452A (zh) 移动终端及其联系人标识方法
JP2009223835A (ja) 撮影装置、画像処理装置、これらにおける画像処理方法およびプログラム
JP5120716B2 (ja) 撮像装置、撮像制御方法及びプログラム
JP4330049B2 (ja) 電子カメラ装置、情報配置方法及びコンピュータ読み取り可能な記録媒体
JP2004199299A (ja) 手書き情報記録方法、投影記録装置
JP2009301248A (ja) 言語処理装置
JPH06217252A (ja) 電子スチルカメラ
KR101742779B1 (ko) 음성인식형 입체적 디지털영상 구현시스템
JP2005346259A (ja) 情報処理装置及び情報処理方法
JPH09135417A (ja) デジタルスチルビデオカメラ
JP2005101931A (ja) 画像プリント装置
CN110149479A (zh) 双摄像头成像方法、装置、终端和介质
JP4235635B2 (ja) データ検索装置及びその制御方法
JP2007166383A (ja) デジタルカメラ及び画像合成方法並びにプログラム
JP2006267934A (ja) 議事録作成装置および議事録作成処理プログラム
CN106060394A (zh) 一种拍照方法、装置和终端设备
KR101843135B1 (ko) 영상 처리 방법, 장치 및 컴퓨터 프로그램
JPH11238116A (ja) 対話型画像データ合成装置及び方法
JP2008065653A (ja) 映像翻訳装置
JP2003348410A (ja) 音声入力可能なカメラ
JP2002298078A (ja) 文字表示装置、その制御方法、記録媒体およびプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051219

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100113

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110113

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110113

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120113

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130113

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130113

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees