JP2007013255A - 信号処理装置および方法、プログラム、並びに記録媒体 - Google Patents

信号処理装置および方法、プログラム、並びに記録媒体 Download PDF

Info

Publication number
JP2007013255A
JP2007013255A JP2005187700A JP2005187700A JP2007013255A JP 2007013255 A JP2007013255 A JP 2007013255A JP 2005187700 A JP2005187700 A JP 2005187700A JP 2005187700 A JP2005187700 A JP 2005187700A JP 2007013255 A JP2007013255 A JP 2007013255A
Authority
JP
Japan
Prior art keywords
image
signal
level
unit
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005187700A
Other languages
English (en)
Other versions
JP4441879B2 (ja
Inventor
Kazuhiko Ozawa
一彦 小沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005187700A priority Critical patent/JP4441879B2/ja
Priority to KR1020060058131A priority patent/KR20070001007A/ko
Priority to US11/474,982 priority patent/US8547416B2/en
Priority to CNB2006101108767A priority patent/CN100546367C/zh
Publication of JP2007013255A publication Critical patent/JP2007013255A/ja
Application granted granted Critical
Publication of JP4441879B2 publication Critical patent/JP4441879B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/775Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Processing (AREA)

Abstract

【課題】 撮影された画像内において特定の被写体から発せられる音声を強調することができるようにする。
【解決手段】 画像認識部131が、画像を構成する画素のヒストグラムを生成し、人物が写っている場合の画素のヒストグラムのパターンとマッチングして相関係数を出力する。判定部132が相関係数に基づいて、画像の中に人物が写っているか否かを判定し、人物が写っていると判定された場合、指向性操作部133が前方向を重視したポーラパターンを設定し、音声帯域操作部134が人の声の周波数帯域を強調させるように音声の信号を処理する。本発明は、ビデオカメラに適用することができる。
【選択図】図2

Description

本発明は、信号処理装置および方法、プログラム、並びに記録媒体に関し、特に、撮影された画像内において特定の被写体から発せられる音声を強調することができるようにする信号処理装置および方法、プログラム、並びに記録媒体に関する。
近年、ビデオカメラなどの機器において、オートフォーカス機能などとともに、音声信号の抽出に関する技術も向上している。例えば、撮影方向の中央部分に位置する音源から発せられる音声信号を抽出し、強調する技術が提案されている(例えば、特許文献1参照。)。これは映像信号とともに音声信号を記録及び再生するビデオカメラなどの機器においては、撮影目的となる被写体がほとんどの場合に、画面中央部分に位置することを踏まえて、その被写体の発する音声をクリアに記録及び再生することを目的としたものであった。
また、音場空間の全周囲方向から入力する音声を、映像と共にマルチチャンネルで記録または再生することで臨場感のある映像と音声の試聴が可能なビデオカメラも提案されている(例えば、特許文献2参照。)。
特開2001−8285号公報 特開2000−299842号公報
しかしながら、特許文献1によれば、常に画面中央方向から入射した音声が抽出されて強調されるために、人物に限らず、画面中央方向に音源がある場合には、環境音であっても抽出されてしまい、目的とする音声が強調されない場合があった。
また、特許文献2によれば、臨場感を重視すれば、映像に見えないところの周囲からの音声が収音され、被写体の発する音声がクリアに収音されず、逆に被写体の音声を重視すれば、臨場感に乏しい収音となってしまう。
本発明はこのような状況に鑑みてなされたものであり、撮影された画像内において特定の被写体から発せられる音声を強調することができるようにするものである。
本発明の信号処理装置は、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置であって、入力された画像の信号に基づいて、画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成手段と、生成手段により生成された情報に基づいて、画像の中に特定の被写体が写っているか否かを判定する判定手段と、判定手段により、画像の中に特定の被写体が写っていると判定された場合、被写体方向に向けて収音した音声の信号のレベルを上げ、および、または被写体方向以外の方向に向けて収音した音声の信号のレベルを下げるように、音声の信号の指向特性を変更する指向特性変更手段とを備えることを特徴とする。
前記判定手段により、画像の中に特定の被写体が写っていると判定された場合、被写体の発する音声が含まれる周波数帯域のレベルを上げ、および、または被写体の発する音声が含まれる周波数帯域以外の周波数帯域のレベルを下げるように、音声の信号の周波数特性を変更する周波数特性変更手段をさらに備えるようにすることができる。
前記生成手段は、入力された信号に対応する画像の中で、特定の色の画素により構成される領域を抽出する抽出手段と、抽出手段により抽出された領域の画素の輝度または色差に基づいて領域の画素の特徴量のパターンを検出する検出手段と、予め特定の被写体を含む画像から検出された特徴量のパターンを記憶する記憶手段と、検出手段により検出された特徴量のパターンと、記憶手段に記憶されている特徴量のパターンとを比較し、それぞれのパターンの相関係数を演算する演算手段とを備え、演算手段により演算された相関係数が画像の中に特定の被写体が写っている可能性の大きさを表す情報として生成されるようにすることができる。
前記画像の中の所定の領域を切り出す切出し手段をさらに備え、抽出手段は、切出し手段により切り出された画像の中で、特定の色の画素により構成される領域を抽出するようにすることができる。
前記特定の被写体は、人物であり、判定手段により、画像の中に人物が写っていると判定された場合、指向特性変更部は、前方向に向けて収音した音声の信号のレベルを上げ、および、または前方向以外の方向に向けて収音した音声の信号のレベルを下げるように、音声の信号の指向特性を変更し、周波数特性変更部は、人の声が含まれる周波数帯域のレベルを上げ、および、またはそれ以外の周波数帯域のレベルを下げるように、音声の信号の周波数特性を変更するようにすることができる。
前記指向特性変更部による音声の信号の指向特性の変更の度合い、または周波数特性変更部による音声の信号の周波数特性の変更の度合いを制御する制御レベルを設定する設定手段をさらに備えるようにすることができる。
前記設定手段は、抽出手段により抽出された領域の大きさを表す情報を正規化し、制御レベルとして設定するようにすることができる。
前記設定手段は、演算手段により演算された相関関数を正規化し、制御レベルとして設定するようにすることができる。
前記画像の信号と、指向特性変更部または周波数特性変更部の処理を経た音声の信号が、記録装置により記録媒体に記録されるようにすることができる。
前記画像の信号と、音声の信号は、記録媒体に記録されたデータが再生装置により再生されることにより出力される画像の信号と、音声の信号であるようにすることができる。
本発明の信号処理方法は、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置の信号処理方法であって、入力された画像の信号に基づいて、画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成ステップと、生成ステップの処理により生成された情報に基づいて、画像の中に特定の被写体が写っているか否かを判定する判定ステップと、判定ステップの処理により、画像の中に特定の被写体が写っていると判定された場合、被写体方向に向けて収音した音声信号のレベルを上げ、および、または被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、音声信号の指向特性を変更する指向特性変更ステップとを含むことを特徴とする。
本発明のプログラムは、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置に信号処理を実行させるプログラムであって、入力された画像の信号に基づいて、画像の中に特定の被写体が写っている可能性の大きさを表す情報の生成を制御する生成制御ステップと、生成制御ステップの処理により生成された情報に基づいて、画像の中に特定の被写体が写っているか否かの判定を制御する判定制御ステップと、判定制御ステップの処理により、画像の中に特定の被写体が写っていると判定された場合、被写体方向に向けて収音した音声信号のレベルを上げ、および、または被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、音声信号の指向特性の変更を制御する指向特性変更制御ステップとをコンピュータに実行させることを特徴とする。
本発明の信号処理装置および方法、並びにプログラムにおいては、入力された画像の信号に基づいて、画像の中に特定の被写体が写っている可能性の大きさを表す情報が生成され、生成された情報に基づいて、画像の中に特定の被写体が写っているか否かが判定され、画像の中に特定の被写体が写っていると判定された場合、被写体方向に向けて収音した音声信号のレベルを上げ、および、または被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、音声信号の指向特性が変更される。
本発明によれば、撮影された画像内において特定の被写体から発せられる音声を強調することができる。
以下に本発明の実施の形態を説明するが、本明細書に記載した発明と、発明の実施の形態との対応関係を例示すると、次のようになる。この記載は、本明細書に記載されている発明をサポートする実施の形態が明細書に記載されていることを確認するためのものである。従って、明細書には記載されているが、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。
さらに、この記載は、明細書に記載されている発明が、全て請求されていることを意味するものではない。換言すれば、この記載は、明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出願、または追加される発明の存在を否定するものではない。
請求項1に記載の信号処理装置は、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置(例えば、図2の被写体強調処理部107)であって、入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成手段(例えば、図2の画像認識部131)と、前記生成手段により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かを判定する判定手段(例えば、図2の判定部132)と、前記判定手段により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声の信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声の信号のレベルを下げるように、前記音声の信号の指向特性を変更する指向特性変更手段(例えば、図2の指向性操作部133)とを備えることを特徴とする。
請求項2に記載の信号処理装置は、前記判定手段により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体の発する音声が含まれる周波数帯域のレベルを上げ、および、または前記被写体の発する音声が含まれる周波数帯域以外の周波数帯域のレベルを下げるように、前記音声の信号の周波数特性を変更する周波数特性変更手段(例えば、図2の音声帯域操作部134)をさらに備えるようにすることができる。
請求項3に記載の信号処理装置は、前記生成手段が、入力された信号に対応する画像の中で、特定の色の画素により構成される領域を抽出する抽出手段(例えば、図3の色領域抽出部162)と、前記抽出手段により抽出された領域の画素の輝度または色差に基づいて前記領域の画素の特徴量のパターン(例えば、ヒストグラム)を検出する検出手段(例えば、図3の特徴量抽出部163)と、予め前記特定の被写体を含む画像から検出された特徴量のパターンを記憶する記憶手段(例えば、図3のモデル記憶部164)と、前記検出手段により検出された前記特徴量のパターンと、前記記憶手段に記憶されている前記特徴量のパターンとを比較し、それぞれのパターンの相関係数を演算する演算手段(例えば、図3のパターンマッチング部165)とを備え、前記演算手段により演算された相関係数が前記画像の中に特定の被写体が写っている可能性の大きさを表す情報として生成されるようにすることができる。
請求項4に記載の信号処理装置は、前記画像の中の所定の領域(例えば、画面中央の領域)を切り出す切出し手段(例えば、図3のウィンドウ切出し部161)をさらに備え、前記抽出手段は、前記切出し手段により切り出された画像の中で、特定の色の画素により構成される領域を抽出するようにすることができる。
請求項6に記載の信号処理装置は、前記指向特性変更部による前記音声の信号の指向特性の変更の度合い、または前記周波数特性変更部による前記音声の信号の周波数特性の変更の度合いを制御する制御レベルを設定する設定手段(例えば、レベル設定部142)をさらに備えるようにすることができる。
請求項9に記載の信号処理装置は、前記画像の信号と、前記指向特性変更部または前記周波数特性変更部の処理を経た音声の信号が、記録装置(例えば、図1の映像音声記録装置100)により記録媒体に記録されるようにすることができる。
請求項10に記載の信号処理装置は、前記画像の信号と、前記音声の信号は、記録媒体に記録されたデータが再生装置(例えば、図18の映像音声記録再生装置400)により再生されることにより出力される画像の信号と、音声の信号であるようにすることができる。
請求項11に記載の信号処理方法は、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置(例えば、図2の被写体強調処理部107)の信号処理方法であって、入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成ステップ(例えば、図11のステップS101)と、前記生成ステップの処理により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かを判定する判定ステップ(例えば、図11のステップS102)と、前記判定ステップの処理により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、前記音声信号の指向特性を変更する指向特性変更ステップ(例えば、図11のステップS103)とを含む。
請求項12に記載のプログラムは、画像の信号と、この画像に同期した音声の信号を処理する信号処理装置(例えば、図2の被写体強調処理部107)に信号処理を実行させるプログラムであって、入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報の生成を制御する生成制御ステップ(例えば、図11のステップS101)と、前記生成制御ステップの処理により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かの判定を制御する判定制御ステップ(例えば、図11のステップS102)と、前記判定制御ステップの処理により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、前記音声信号の指向特性の変更を制御する指向特性変更制御ステップ(例えば、図11のステップS103)とをコンピュータに実行させる。
以下、図面を参照して、本発明の実施の形態について説明する。
図1は、本発明を適用した映像音声記録装置100の一実施形態に係る構成例を示す図である。
図1において、映像音声記録装置100は、例えば、ビデオカメラとして構成され、レンズ101を介して集光される光に基づく画像(映像)と、マイクロホン104または105を介して集音される音声を記録する。
レンズ101を介して集光された光は、撮像素子102において例えば、光の強度に応じた電気信号に変換(光電変換)される。撮像素子102は、例えば、CCD(Charge Coupled Device)センサまたはCMOS(Complementary Metal-Oxide Semiconductor)センサなどの光電変換素子により構成される。
画像信号処理部103は、撮像素子102から出力される電気信号を、A/D変換して得られるデータに基づいて、RGB画像信号のデータを生成する。
一方、マイクロホン104またはマイクロホン105を介して集音された音声の信号は、音声信号処理部106においてA/D変換される。例えば、マイクロホン104は、映像音声記録装置(ビデオカメラ)100の前方から発せられる音声を中心に集音するように設けられており、マイクロホン105は、ビデオカメラの左右方向から発せられる音声を中心に集音するように設けられている。音声信号処理部106は、例えば、マイクロホン104またはマイクロホン105から入力される音声信号に対応する音声データであって、それぞれビデオカメラの前方の音声または左右方向の音声であることを表すデータの付加された音声データを生成する。
画像信号処理部103または音声信号処理部106から出力されるデータは、被写体強調処理部107に入力される。被写体強調処理部107は、ビデオカメラにより撮影される画像の中に、例えば、ユーザが所望する被写体(例えば、人物など)の画像が含まれているか否かをチェックして、人物などの画像が含まれている場合、その人物から発せられたと推測される前方から発せられた音声を強調する処理を行う。なお、被写体強調処理部107の詳細な構成については後述する。
被写体強調処理部107から出力される画像信号のデータおよび音声信号のデータは、エンコード処理部108に入力され、エンコード処理部108は、入力された画像信号のデータおよび音声信号のデータを、例えば、MPEG(Moving Picture Experts Group)などの方式に基づいて圧縮符号化などの処理を行い符号化(エンコード)し、記録ストリームを生成する。
記録部109は、エンコード処理部108から出力される記録ストリームを、例えば、DVD(Digital Versatile Disk)、HDD(Hard Disk Drive)などの記録媒体に記録する。
図2は、被写体強調処理部107の詳細な構成例を示すブロック図である。同図において、画像認識部131は、画像信号処理部103から供給される画像信号のデータに基づいて、例えば、ビデオカメラにより撮影された画像の中に人物などの被写体が含まれている確からしさの度合いを表す評価値を算出して、判定部132に出力する。
図3は、画像認識部131の詳細な構成例を示すブロック図である。同図において、ウィンドウ切出し部161は、入力される画像の中の所定の部分(例えば、画面中央の部分)をウィンドウとして切り出す。このとき、例えば、図4に示されるように、撮影された画像190の中で、画像190のサイズと比較して縦方向(上下方向)および横方向(左右方向)ともに小さいサイズとされる画面中央のウィンドウ191が切り出される。この例では、撮影された画像190の中央に人物が写っており、人物の顔の部分(図中ハッチングされていない部分)がウィンドウ191として切り出されている。
あるいはまた、ウィンドウ191が図5に示されるように切り出されるようにしてもよい。図5においては、撮影された画像190の中で、画像190のサイズと比較して縦方向のサイズは変わらず、横方向(左右方向)が小さいサイズとされる画面中央のウィンドウ191が切り出されている。この例では、撮影された画像190の中央に2人の人物が写っており、画像190の中で2人の人物全体を含む部分がウィンドウ191として切り出されている。
ウィンドウ191は、例えば、縦方向と横方向のサイズが予め定められた値に基づいて、設定されて切り出されるようにしてもよいし、例えば、図示せぬ操作部などを介して入力されるユーザの操作などに基づいて、縦方向と横方向のサイズが設定されて切り出されるようにしてもよい。
図3に戻って、ウィンドウ切出し部161により切り出されたウィンドウ191の画素のデータは、色領域抽出部162に供給される。色領域抽出部162は、例えば、RGB信号に対応するデータとして構成されるウィンドウ191の画素のデータを、次式により輝度と色差信号のデータに変換する。なお、次式において、「R」、「G」、「B」は、RGB信号のそれぞれ「R」、「G」、「B」に対応する値を表しており、「Y」は輝度信号の値、「Cr」、「Cb」はそれぞれ色差信号の値を表している。
Y=0.299R+0.587G+0.114B
Cr=0.701R−0.587G−0.114B
Cb=-0.299R−0.587G+0.886B
色領域抽出部162は、輝度と色差信号のデータに基づいて、特定の被写体の色に対応する画素と、それ以外の画素を区別し、ウィンドウ191の画素のデータを2値化する。例えば、特定の被写体として人物を抽出したい場合、個々の画素の輝度と色差信号のデータに基づいて、その画素の色が推定され、その画素が人物の色である肌色に対応する画素である場合、その画素のデータに、抽出すべき領域であることを表す所定のデータが付加され、その画素が肌色に対応する画素ではない場合、その画素のデータに、抽出すべき領域ではないことを表す所定のデータが付加されて2値化される。
特徴抽出部163は、色領域抽出部162により抽出された(2値化)された、ウィンドウ191の画素のデータのうち抽出すべき領域の画素のデータについて、特徴量を演算する。特徴量は、例えば、画素の色の濃度または明るさなどの値に基づくヒストグラムとして演算される。
図6は、例えば、人物の顔の部分がウィンドウ191として切り出された場合、ウィンドウ191の中の肌色の画素を、所定の水平走査期間内において画素の濃度(明るさ)によりヒストグラム化したときの例を示すグラフである。同図においては、縦軸が画素の明るさとされ、横軸が画面水平方向の時間とされ、画素のヒストグラムが線211で表されている。また、特徴抽出部163は、例えば、同様に所定の垂直走査期間内において画素の明るさと画面垂直方向の時間とに対応する画素のヒストグラムも生成する。
図3に戻って、特徴抽出部163により生成されたヒストグラムと、モデル記憶部164から供給されるヒストグラムに基づいて、パターンマッチング部165は、それぞれのヒストグラムの相似度を表す相関係数を演算する。
モデル記憶部164には、人間の顔などに対応するヒストグラムのパターンが予め記憶されている。例えば、予め撮影された人間の顔の画像などに基づいて、図7のグラフにおいて線212で示されるようなヒストグラムが生成されて、モデル記憶部164に記憶されている。
図6の線211で示され、特徴抽出部163により生成されたヒストグラムを関数A[t]とし、図7の線212で示され、モデル記憶部164から供給されるヒストグラムを関数B[t]とすると、双方のヒストグラムの相関係数ρは、式(1)により求めることができる。
Figure 2007013255
図3に戻って、パターンマッチング部165は、演算した相関係数ρの値を、評価値として出力する。ここで、評価値は、特徴抽出部163により生成されたヒストグラムと、モデル記憶部164から供給されるヒストグラムとの相似度を表しており、双方のヒストグラムの相似度が高いほど、ρの値は1に近くなり、また、双方のヒストグラムの相似度が低いほど、ρの値は0に近くなる。
図2に戻って、判定部132は、画像認識部131から出力される評価値に基づいて、ビデオカメラにより撮影された画像の中に特定の被写体(いまの場合、人物の顔)が写っているか否かを判定する。例えば、画像認識部131から出力される評価値が、予め設定された閾値を超えている場合、判定部132は、撮影された画像の中に特定の被写体が写っていると判定し、後述するように、指向性操作部133と音声帯域操作部134とを制御する制御信号を出力する。
指向性操作部133は、ビデオカメラにより撮影される画像とともに入力される音声の指向特性を制御する機能ブロックであり、判定部132から出力される制御信号に基づいて、マイクロホン104または105を介して入力される音声の指向特性を変更する。音声帯域操作部134は、ビデオカメラにより撮影される画像とともに入力される音声の中で、周波数帯の強調(例えば、特定の周波数帯のレベルを増加させるなど)を制御する機能ブロックであり、判定部132から出力される制御信号に基づいて、集音された音声のうち所定の周波数帯のレベルを変更する。
図8は、通常時、すなわち判定部132から制御信号が出力されていない場合、指向性操作部133により設定される、マイクロホン104または105を介して入力される音声の指向特性(ポーラパターン)の例を示す図である。同図においては、図中上側がビデオカメラの前方向とされ、図中左右がそれぞれビデオカメラの左方向または右方向とされ、実線253および破線254によりポーラパターンが示されている。なお、実線253および破線254は、それぞれその方向から発せられる音声の集音レベルを表している。ここでは例えば、臨場感を重視したポーラパターンであって、ビデオカメラの左前方に対応する矢印251を指向主軸とする実線253と、ビデオカメラの右前方に対応する矢印252を指向主軸とする破線254とがポーラパターンとして設定されている。
すなわち、指向性操作部133は、通常時は、ビデオカメラの左前方および右前方から発生される音声が強いレベルで集音されるように、矢印251および252を中心としたポーラパターンを設定する。
図9は、ビデオカメラにより撮影された画像の中に特定の被写体が写っている場合、すなわち判定部132から制御信号が出力されている場合、指向性操作部133により設定される、マイクロホン104または105を介して入力される音声の指向特性(ポーラパターン)の例を示す図である。同図においては、図中上側がビデオカメラの前方向とされ、図中左右がそれぞれビデオカメラの左方向または右方向とされ、実線272によりポーラパターンが示されている。なお、実線272は、その方向から発せられる音声の集音レベルを表している。ここでは例えば、撮影される画像の中の中央の被写体を重視したポーラパターンであって、ビデオカメラの前方に対応する矢印271を指向主軸とする実線272がポーラパターンとして設定されている。
すなわち、指向性操作部133は、画像の中に特定の被写体が写っているときは、ビデオカメラの前方から発生される音声が強いレベルで集音されるように、矢印271を中心としたポーラパターンを設定する。
このようにすることで、例えば、通常時(風景などを撮影しているとき)は、画面の左右方向からの音声がはっきりと聞こえる臨場感のある画像と音声を提供することができるとともに、人物などを撮影しているときは、画面の前方にいる人物が発する音声がはっきりと聞こえる画像と音声を提供することができる。
図10は、音声帯域操作部134を介して出力される音声信号の周波数特性の例を示す図である。図10において縦軸は、レベルを表し、横軸は周波数を表す。
音声帯域操作部134は、通常時、すなわち判定部132から制御信号が出力されていない場合、点線291で示されるような周波数特性を有する音声信号を出力する。点線291は、全ての周波数帯にわたってレベルがほぼ平坦であり、このような周波数特性であれば、集音された音声が特に強調されることなく出力されることになる。
すなわち、音声帯域操作部134は、画像の中に特定の被写体(例えば、人物)が写っていないときは、集音された音声を特に強調せずに出力する。
一方、ビデオカメラにより撮影された画像の中に特定の被写体が写っている場合、すなわち判定部132から制御信号が出力されている場合、音声帯域操作部134は、実線292で示されるような周波数特性を有する音声信号を出力する。実線292は、点線291と比較して、ボイス帯域とされる周波数帯のレベルが増大されており、ボイス帯域とされる周波数帯以外の周波数帯のレベルが減少されている。このような周波数特性であれば、集音された音声のうち、ボイス帯域に属する周波数帯の音声が強調されて出力されることになる。ここで、ボイス帯域は、人の声の周波数帯に対応する帯域であり、例えば、400Hzから4kHzまでの間の周波数帯域がボイス帯域とされる。
すなわち、音声帯域操作部134は、画像の中に特定の被写体(例えば、人物)が写っているときは、人物が発する声が強いレベルで集音されるように、ボイス帯域を強調させる。
このようにすることで、例えば、通常時(風景などを撮影しているとき)は、画面の中のすべての物体(被写体)からの音声がはっきりと聞こえる臨場感のある画像と音声を提供することができるとともに、人物などを撮影しているときは、人物が発する音声がはっきりと聞こえる画像と音声を提供することができる。
次に、図11のフローチャートを参照して、被写体強調処理部107による音声信号出力処理について説明する。この処理は、例えば、図1の映像音声記録装置100により映像と音声が記録されるとき実行される。
ステップS101において、画像認識部131は、図12を参照して後述する評価値演算処理を実行する。これにより、上述した評価値が演算される。
ここで、図12のフローチャートを参照して、図11のステップS101の評価値演算処理の詳細について説明する。
ステップS121において、ウィンドウ切出し部161は、入力される画像の中でウィンドウを切り出す。このとき、例えば、図4または図5を参照して上述したように、画像190の中でウィンドウ191が切り出される。
ステップS122において、色領域抽出部162は、例えば、RGB信号に対応するデータとして構成されるウィンドウ191の画素のデータを、輝度と色差信号のデータに変換することにより切り出されたウィンドウの画像の色空間を変換する。
ステップS123において、色領域抽出部162は、輝度と色差信号のデータに基づいて、特定の被写体の色(例えば、肌色)に対応する画素と、それ以外の画素を区別し、ウィンドウ191の画素のデータを2値化する。
ステップS124において、色領域抽出部162は、ステップS123の処理で2値化されたデータに基づいて、抽出すべき領域(いまの場合、肌色の領域)を設定する。
ステップS125において、特徴抽出部163は、ステップS124の処理で設定された抽出すべき領域の画素のデータについて、画素の色の濃度または明るさなどの値に基づくヒストグラムを生成する。このとき、例えば、図6を参照して上述したようなヒストグラムが生成される。
ステップS126において、パターンマッチング部165は、ステップS125の処理により生成されたヒストグラムと、モデル記憶部164に記憶されているヒストグラムとのパターンマッチングを行う。このとき、上述したように、双方のヒストグラムの相似度を表す相関係数が演算される。
ステップS127において、パターンマッチング部165は、ステップS126の処理結果に基づいて評価値を出力する。
このようにして、評価値が演算されて出力される。
図11に戻って、ステップS101の処理の後、ステップS102において、判定部132は、ステップS101の処理の結果出力された評価値は、閾値を超えているか否かを判定する。閾値は、例えば、予め設定された閾値であり、ステップS101の処理で演算された閾値が評価値を超えている場合、撮影された画像のウィンドウの中に、例えば、人物の顔などの特定の被写体が写っている可能性が高いと推定される。
ステップS101において、評価値は、閾値を超えていると判定された場合、処理は、ステップS103に進み、判定部132は制御信号を出力し、指向性操作部133は、マイクロホン104または105を介して集音される音声の指向特性を変更する。このとき例えば、図9に示されるように、撮影される画像の中の中央の被写体を重視したポーラパターンであって、ビデオカメラの前方を指向主軸とするポーラパターンが設定される。
すなわち、画像の中に特定の被写体(人物)が写っているので、ビデオカメラの前方から発生される音声が強いレベルで集音されるように設定される。
ステップS104において、判定部132は制御信号を出力し、音声帯域操作部134は、例えば図10を参照して上述したように、ボイス帯域とされる周波数帯のレベルが増大させ、ボイス帯域とされる周波数帯以外の周波数帯のレベルが減少させ、ボイス帯域の周波数帯を強調する。
すなわち、画像の中に特定の被写体(人物)が写っているので、人物が発する声が強いレベルで集音されるように設定される。
ステップS105において、ステップS103およびステップS104において、それぞれ指向性操作部133および音声帯域操作部134の処理を経た音声信号が出力される。
一方、ステップS102において、ステップS101の処理の結果出力された評価値は、閾値を超えていないと判定された場合、ステップS103とS104の処理は、スキップされる。
すなわち、画像の中に特定の被写体(人物)が写っていないので、ステップS105では、ビデオカメラの左右から発生される音声が強いレベルで集音され、また、特定の周波数帯が強調されることなく音声信号が出力されることになる。
このようにして、被写体強調処理部107から音声信号が出力される。このようにすることで、風景などを撮影しているときは、画面の中のすべての物体(被写体)からの音声がはっきりと聞こえる臨場感のある画像と音声を提供することができるとともに、人物などを撮影しているときは、人物が発する音声がはっきりと聞こえる画像と音声を提供することができる。
以上においては、被写体強調処理部107により、画像の中に特定の被写体(人物)が写っているときと、写っていないときに対応して音声信号が変更される例について説明したが、被写体強調処理部107により、段階的に音声信号が変更されるようにすることも可能である。例えば、図3のパターンマッチング部165により演算される相関関数の値に応じて段階的に音声信号が変更されるようにしてもよい。
図13は、この場合の被写体強調処理部107の詳細な構成例を示すブロック図である。同図において、図2と対応する部分には、それぞれ同一の符号が付されている。
図13の例では、図2の場合における判定部132に代わり、レベル設定部142が設けられている。レベル設定部142は、画像認識部131から出力される評価値に基づいて、指向性操作部133と音声帯域操作部134とを制御する制御レベルを設定する。レベル設定部142は、例えば、画像認識部131から出力される評価値を、10段階の制御レベルに対応させて正規化して得られた制御レベルを、指向性操作部133および音声帯域操作部134に供給する。
被写体強調処理部107が図13のように構成される場合、指向性操作部133は、レベル設定部142により設定された制御レベルに応じて、段階的にマイクロホン104または105を介して入力される音声の指向特性(ポーラパターン)を変化させる。
図14と図15は、レベル設定部142の制御レベルに応じて設定される指向特性の例を示す図である。なお、同図においては、図8の場合と同様に、図中上側がビデオカメラの前方向とされ、図中左右がそれぞれビデオカメラの左方向または右方向とされ、矢印251と252は指向主軸を表し、実線253および破線254によりポーラパターンが示されている。
図14は、例えば制御レベルが1である場合の指向特性(ポーラパターン)の例を示す図である。この例では、図8に示される通常時のポーラパターンと比較して、指向主軸である矢印251と252が、より前方向に近づいている。すなわち、図8の場合と比較して、矢印251と252とが、それぞれ前方向の軸となす角度が小さくなっており、実線253および破線254により示されるポーラパターンは、より前方向が重視されたものになっている。
図15は、例えば、制御レベルが2である場合の指向特性(ポーラパターン)の例を示す図である。この例では、図14の場合と比較してさらに、指向主軸である矢印251と252が、より前方向に近づいている。すなわち、図14の場合と比較して、矢印251と252とが、それぞれ前方向の軸となす角度がさらに小さくなっており、実線253および破線254により示されるポーラパターンは、さらに前方向が重視されたものになっている。
このように、指向性操作部133は、レベル設定部142から供給される制御レベルが高くなるほど、前方向を重視した指向特性を設定する。このようにすることで、例えば、撮影される画像の中に人物が写っている確度が高い(評価値が高い)ほど、画面の前方にいる人物が発する音声がはっきりと聞こえるように、画像と音声を提供することができる。
被写体強調処理部107が図13のように構成される場合、音声帯域操作部134は、例えば、レベル設定部142により設定された制御レベルに応じて、段階的にボイス帯域を強調させる。
図16は、レベル設定部142の制御レベルに応じて変化する、音声帯域操作部134を介して出力される音声信号の周波数特性の例を示す図である。図16において縦軸は、レベルを表し、横軸は周波数を表す。
同図において、線301で示される周波数特性は、例えば、制御レベルが1である場合の周波数特性とされ、通常時の周波数特性である点線291と比較して、ボイス帯域の周波数が強調された周波数特性とされている。
また、線302で示される周波数特性は、例えば、制御レベルが2である場合の周波数特性とされ、線301の場合と比較して、ボイス帯域の周波数がさらに強調された周波数特性とされている。
このように、音声帯域操作部134は、レベル設定部142から供給される制御レベルが高くなるほど、ボイス帯域の周波数を強調する。このようにすることで、例えば、撮影される画像の中に人物が写っている確度が高い(評価値が高い)ほど、人物が発する音声がはっきりと聞こえるように、画像と音声を提供することができる。
ここまで、レベル設定部142が評価値に応じて制御レベルを設定する例について説明したが、例えば、レベル設定部142に、パターンマッチング部165により演算された評価値とともに、色領域抽出部162により抽出された領域の大きさを表す情報を供給し、レベル設定部142は、例えば、評価値が閾値を超える場合、色領域抽出部162により抽出された領域の大きさを表す情報を、10段階の制御レベルに対応させて正規化して得られた制御レベルを、指向性操作部133および音声帯域操作部134に供給するようにしてもよい。
このようにすることで、例えば、撮影される画像の中で人物がズームアップされるなどした場合、ズームアップされた度合いが高い(抽出された領域が大きい)ほど、人物が発する音声がはっきりと聞こえるように、画像と音声を提供することができる。
図17は、被写体強調処理部107が図13のように構成される場合の、音声信号出力処理の例を説明するフローチャートである。
ステップS201の処理は、図11のステップS101の処理と同様の処理なので詳細な説明は省略する。
ステップS202において、レベル設定部142は、ステップS101の処理により演算された評価値を、例えば、10段階の制御レベルに正規化し、制御レベルを設定する。なお、ここで上述したように、評価値が閾値を超える場合、色領域抽出部162により抽出された領域の大きさを表す情報を、10段階の制御レベルに対応させて正規化し、制御レベルを設定してもよい。
ステップS203において、指向性操作部133は、ステップS202の処理で設定された制御レベルに応じて指向特性を変化させる。このとき、例えば、図14と図15を参照して上述したように、指向特性が段階的に変化させられる。
ステップS204において、音声帯域操作部134は、ステップS202の処理で設定された制御レベルに応じてボイス帯域の周波数を強調する。このとき、例えば、図16を参照して上述したように、ボイス帯域の周波数が段階的に強調される。
ステップS205において、ステップS203およびステップS204において、それぞれ指向性操作部133および音声帯域操作部134の処理を経た音声信号が出力される。
このようにして、被写体強調処理部107から音声信号が出力される。このようにすることで、風景などを撮影しているときは、画面の中のすべての物体(被写体)からの音声がはっきりと聞こえる臨場感のある画像と音声を提供することができるとともに、人物などを撮影しているときは、その画像における人物の写り方に応じて段階的に人物が発する音声がはっきりと聞こえる画像と音声を提供することができる。
ここまで、例えば、ビデオカメラなどとして構成される映像音声記録装置100を例として特定の被写体の音声を強調する例について説明したが、例えば、DVDプレーヤなどで構成される映像音声再生装置により特定の被写体の音声が強調されるようにすることも可能である。
この場合、映像音声再生装置に上述した図2または図13に示されるような被写体強調処理部107を組み込み、例えば、複数の指向特性(例えば、前方を重視した指向特性と左右方向を重視した指向特性)に対応する音声をそれぞれ異なるチャネルに記録したマルチチャネルのDVDなどを、映像音声再生装置により再生する。そして、映像音声再生装置に内蔵された被写体強調処理部107が再生される映像(画像)を、図12を参照して上述したように解析して、画像の中に特定の被写体が写っている場合、図11または図17を参照して上述したように、その被写体から発せられる音声が強調されるようにすればよい。
ただし、この場合、指向性操作部133は、マイクロホンを介して入力される音声の指向特性を変更させるのではなく、所定のチャネルの出力レベルを上げるなどして、その被写体から発せられる音声が強調されるように指向特性を変更することになる。
また、映像音声記録装置と、映像音声再生装置をあわせて1つの装置(映像音声記録再生装置)として構成することも可能である。図18は、映像音声記録再生装置400の構成例を示すブロック図である。
同図において、レンズ401乃至エンコード処理部408は、図1のレンズ101乃至エンコード処理部108と同様なので詳細な説明は省略する。
図18の例では、映像音声記録再生装置400にスイッチ409が設けられており、映像音声を記録する場合、スイッチ401は、エンコード処理部408と、記録再生部410を接続するように設定され、エンコード処理部408から出力される映像音声のストリームデータが、記録再生部の記録媒体などに記録される。
また、映像音声を再生する場合、スイッチ401は、デコード処理部411と、記録再生部410を接続するように設定され、記録再生部410から出力される圧縮符号化された映像音声のストリームデータが、デコード処理部411により復号(デコード)され、デコードされた画像信号と音声信号に対応するデータが被写体強調処理部412に供給される。
被写体強調処理部412は、図2または図13に示されるような被写体強調処理部107と同様の構成を有しており、デコード処理部411から供給される画像のデータを、図12を参照して上述したように解析して、画像の中に特定の被写体が写っている場合、図11または図17を参照して上述したように、その被写体から発せられる音声を強調させる処理を行う。ただし記録時と異なり再生時は、例えば、複数の指向特性(例えば、前方を重視した指向特性と左右方向を重視した指向特性)に対応する音声がそれぞれ異なるチャネルの音声のデータとして被写体強調処理部412に供給され、所定のチャネルの出力レベルを上げるなどして、その被写体から発せられる音声が強調されるように指向特性が変更される。
そして、被写体強調処理部412から出力された音声信号がアンプ413により増幅されて図示せぬスピーカなどから出力される。
このようにすることで、記録時も再生時も、人物などが写っているときは、人物が発する音声がはっきりと聞こえる画像と音声を提供することができる。
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図19に示されるような汎用のパーソナルコンピュータ500などに、ネットワークや記録媒体からインストールされる。
図19において、CPU(Central Processing Unit)501は、ROM(Read Only Memory
)502に記憶されているプログラム、または記憶部508からRAM(Random Access Memory)503にロードされたプログラムに従って各種の処理を実行する。RAM503にはまた、CPU501が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU501、ROM502、およびRAM503は、バス504を介して相互に接続されている。このバス504にはまた、入出力インタフェース505も接続されている。
入出力インタフェース505には、キーボード、マウスなどよりなる入力部506、CRT(Cathode Ray Tube)、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部507、ハードディスクなどより構成される記憶部508、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部509が接続されている。通信部509は、インターネットを含むネットワークを介しての通信処理を行う。
入出力インタフェース505にはまた、必要に応じてドライブ510が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア511が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部508にインストールされる。
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア511などからなる記録媒体からインストールされる。
なお、この記録媒体は、図19に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア511により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM502や、記憶部508に含まれるハードディスクなどで構成されるものも含む。
本明細書において上述した一連の処理を実行するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
本発明を適用した映像音声記録装置の一実施形態に係る構成例を示す図である。 図1の被写体強調処理部の詳細な構成例を示すブロック図である。 図2の画像認識部の詳細な構成例を示すブロック図である。 ウィンドウの例を示す図である。 ウィンドウの別の例を示す図である。 図3の特徴抽出部により生成されるヒストグラムの例を示す図である。 図3のモデル記憶部に記憶されているヒストグラムの例を示す図である。 通常時の指向特性(ポーラパターン)の例を示す図である。 特定の被写体が写っているときの指向特性(ポーラパターン)の例を示す図である。 図2の音声帯域操作部を介して出力される音声信号の周波数特性の例を示す図である。 音声信号出力処理を説明するフローチャートである。 評価値演算処理を説明するフローチャートである。 図1の被写体強調処理部の別の構成例を示すブロック図である。 図13の指向性操作部により設定される指向特性(ポーラパターン)の例を示す図である。 図13の指向性操作部により設定される指向特性(ポーラパターン)の例を示す図である。 図13の音声帯域操作部を介して出力される音声信号の周波数特性の例を示す図である。 音声信号出力処理の別の例を説明するフローチャートである。 本発明を適用した映像音声記録再生装置の一実施形態に係る構成例を示す図である。 パーソナルコンピュータの構成例を示すブロック図である。
符号の説明
100 映像音声記録装置, 107 被写体強調処理部, 131 画像認識部, 132 判定部, 133 指向性操作部, 134 音声帯域操作部, 142 レベル判定部, 161 ウィンドウ切出し部, 162 色領域抽出部, 163 特徴抽出部, 164 モデル記憶部, 165 パターンマッチング部, 400 映像音声記録再生装置

Claims (13)

  1. 画像の信号と、この画像に同期した音声の信号を処理する信号処理装置であって、
    入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成手段と、
    前記生成手段により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かを判定する判定手段と、
    前記判定手段により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声の信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声の信号のレベルを下げるように、前記音声の信号の指向特性を変更する指向特性変更手段と
    を備えることを特徴とする信号処理装置。
  2. 前記判定手段により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体の発する音声が含まれる周波数帯域のレベルを上げ、および、または前記被写体の発する音声が含まれる周波数帯域以外の周波数帯域のレベルを下げるように、前記音声の信号の周波数特性を変更する周波数特性変更手段をさらに備える
    ことを特徴とする請求項1に記載の信号処理装置。
  3. 前記生成手段は、
    入力された信号に対応する画像の中で、特定の色の画素により構成される領域を抽出する抽出手段と、
    前記抽出手段により抽出された領域の画素の輝度または色差に基づいて前記領域の画素の特徴量のパターンを検出する検出手段と、
    予め前記特定の被写体を含む画像から検出された特徴量のパターンを記憶する記憶手段と
    前記検出手段により検出された前記特徴量のパターンと、前記記憶手段に記憶されている前記特徴量のパターンとを比較し、それぞれのパターンの相関係数を演算する演算手段とを備え、
    前記演算手段により演算された相関係数が前記画像の中に特定の被写体が写っている可能性の大きさを表す情報として生成される
    ことを特徴とする請求項2に記載の信号処理装置。
  4. 前記画像の中の所定の領域を切り出す切出し手段をさらに備え、
    前記抽出手段は、前記切出し手段により切出された画像の中で、特定の色の画素により構成される領域を抽出する
    ことを特徴とする請求項3に記載の信号処理装置。
  5. 前記特定の被写体は、人物であり、
    前記判定手段により、前記画像の中に人物が写っていると判定された場合、
    前記指向特性変更部は、前方向に向けて収音した音声の信号のレベルを上げ、および、または前方向以外の方向に向けて収音した音声の信号のレベルを下げるように、前記音声の信号の指向特性を変更し、
    前記周波数特性変更部は、人の声が含まれる周波数帯域のレベルを上げ、および、またはそれ以外の周波数帯域のレベルを下げるように、前記音声の信号の周波数特性を変更する
    ことを特徴とする請求項4に記載の信号処理装置。
  6. 前記指向特性変更部による前記音声の信号の指向特性の変更の度合い、または前記周波数特性変更部による前記音声の信号の周波数特性の変更の度合いを制御する制御レベルを設定する設定手段をさらに備える
    ことを特徴とする請求項4に記載の信号処理装置。
  7. 前記設定手段は、前記抽出手段により抽出された領域の大きさを表す情報を正規化し、前記制御レベルとして設定する
    ことを特徴とする請求項6に記載の信号処理装置。
  8. 前記設定手段は、前記演算手段により演算された相関関数を正規化し、前記制御レベルとして設定する
    ことを特徴とする請求項6に記載の信号処理装置。
  9. 前記画像の信号と、前記指向特性変更部または前記周波数特性変更部の処理を経た音声の信号が、記録装置により記録媒体に記録される
    ことを特徴とする請求項8に記載の信号処理装置。
  10. 前記画像の信号と、前記音声の信号は、記録媒体に記録されたデータが再生装置により再生されることにより出力される画像の信号と、音声の信号である
    ことを特徴とする請求項8に記載の信号処理装置。
  11. 画像の信号と、この画像に同期した音声の信号を処理する信号処理装置の信号処理方法であって、
    入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報を生成する生成ステップと、
    前記生成ステップの処理により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かを判定する判定ステップと、
    前記判定ステップの処理により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、前記音声信号の指向特性を変更する指向特性変更ステップと
    を含むことを特徴とする信号処理方法。
  12. 画像の信号と、この画像に同期した音声の信号を処理する信号処理装置に信号処理を実行させるプログラムであって、
    入力された画像の信号に基づいて、前記画像の中に特定の被写体が写っている可能性の大きさを表す情報の生成を制御する生成制御ステップと、
    前記生成制御ステップの処理により生成された情報に基づいて、前記画像の中に特定の被写体が写っているか否かの判定を制御する判定制御ステップと、
    前記判定制御ステップの処理により、前記画像の中に特定の被写体が写っていると判定された場合、前記被写体方向に向けて収音した音声信号のレベルを上げ、および、または前記被写体方向以外の方向に向けて収音した音声信号のレベルを下げるように、前記音声信号の指向特性の変更を制御する指向特性変更制御ステップと
    をコンピュータに実行させることを特徴とするプログラム。
  13. 請求項12に記載のプログラムが記録されていることを特徴とする記録媒体。
JP2005187700A 2005-06-28 2005-06-28 信号処理装置および方法、プログラム、並びに記録媒体 Expired - Fee Related JP4441879B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2005187700A JP4441879B2 (ja) 2005-06-28 2005-06-28 信号処理装置および方法、プログラム、並びに記録媒体
KR1020060058131A KR20070001007A (ko) 2005-06-28 2006-06-27 신호 처리 장치 및 방법, 프로그램, 및 기록 매체
US11/474,982 US8547416B2 (en) 2005-06-28 2006-06-27 Signal processing apparatus, signal processing method, program, and recording medium for enhancing voice
CNB2006101108767A CN100546367C (zh) 2005-06-28 2006-06-28 信号处理装置,信号处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005187700A JP4441879B2 (ja) 2005-06-28 2005-06-28 信号処理装置および方法、プログラム、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2007013255A true JP2007013255A (ja) 2007-01-18
JP4441879B2 JP4441879B2 (ja) 2010-03-31

Family

ID=37567466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005187700A Expired - Fee Related JP4441879B2 (ja) 2005-06-28 2005-06-28 信号処理装置および方法、プログラム、並びに記録媒体

Country Status (4)

Country Link
US (1) US8547416B2 (ja)
JP (1) JP4441879B2 (ja)
KR (1) KR20070001007A (ja)
CN (1) CN100546367C (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009049873A (ja) * 2007-08-22 2009-03-05 Sony Corp 情報処理装置
JP2009065587A (ja) * 2007-09-10 2009-03-26 Sanyo Electric Co Ltd 音声記録装置及び音声再生装置
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP2010093603A (ja) * 2008-10-09 2010-04-22 Olympus Imaging Corp カメラ、再生装置、および再生方法
JP2010183252A (ja) * 2009-02-04 2010-08-19 Nikon Corp 撮像装置
US20110102619A1 (en) * 2009-11-04 2011-05-05 Niinami Norikatsu Imaging apparatus
JP2011124850A (ja) * 2009-12-11 2011-06-23 Canon Inc 撮像装置並びにその制御方法及びプログラム
JP2011150191A (ja) * 2010-01-22 2011-08-04 Nec Personal Products Co Ltd 音声変更装置、音声変更方法、プログラム及び記録媒体
US8218033B2 (en) 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
WO2013146893A1 (ja) * 2012-03-28 2013-10-03 株式会社ニコン デジタルカメラ

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8497928B2 (en) 2007-07-31 2013-07-30 Palm, Inc. Techniques to automatically focus a digital camera
JP4934580B2 (ja) * 2007-12-17 2012-05-16 株式会社日立製作所 映像音声記録装置および映像音声再生装置
US8237807B2 (en) 2008-07-24 2012-08-07 Apple Inc. Image capturing device with touch screen for adjusting camera settings
US20100098258A1 (en) * 2008-10-22 2010-04-22 Karl Ola Thorn System and method for generating multichannel audio with a portable electronic device
JP5801026B2 (ja) * 2009-05-28 2015-10-28 株式会社ザクティ 画像音響処理装置及び撮像装置
CN101710958B (zh) * 2009-12-02 2015-11-25 北京中星微电子有限公司 一种音视频复合设备及其音视频同步的方法和装置
US9955209B2 (en) 2010-04-14 2018-04-24 Alcatel-Lucent Usa Inc. Immersive viewer, a method of providing scenes on a display and an immersive viewing system
US9294716B2 (en) 2010-04-30 2016-03-22 Alcatel Lucent Method and system for controlling an imaging system
US8754925B2 (en) * 2010-09-30 2014-06-17 Alcatel Lucent Audio source locator and tracker, a method of directing a camera to view an audio source and a video conferencing terminal
US10102619B1 (en) 2011-03-28 2018-10-16 Hermes Microvision, Inc. Inspection method and system
US9008487B2 (en) 2011-12-06 2015-04-14 Alcatel Lucent Spatial bookmarking
JP2014143678A (ja) 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
US10466955B1 (en) * 2014-06-24 2019-11-05 A9.Com, Inc. Crowdsourced audio normalization for presenting media content
US10497356B2 (en) * 2015-05-18 2019-12-03 Panasonic Intellectual Property Management Co., Ltd. Directionality control system and sound output control method
US10909384B2 (en) 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
CN105045662A (zh) * 2015-08-10 2015-11-11 上海斐讯数据通信技术有限公司 可切换主题应用的移动终端及可切换主题应用的方法
KR102650850B1 (ko) 2016-05-30 2024-03-26 소니그룹주식회사 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
US10264379B1 (en) * 2017-12-01 2019-04-16 International Business Machines Corporation Holographic visualization of microphone polar pattern and range
CN110248197B (zh) * 2018-03-07 2021-10-22 杭州海康威视数字技术股份有限公司 语音增强方法及装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548346A (en) * 1993-11-05 1996-08-20 Hitachi, Ltd. Apparatus for integrally controlling audio and video signals in real time and multi-site communication control method
JP2937009B2 (ja) * 1994-03-30 1999-08-23 ヤマハ株式会社 音像定位制御装置
JPH09200601A (ja) 1996-01-12 1997-07-31 Canon Inc 撮像記録装置
KR100238311B1 (ko) 1997-08-04 2000-01-15 윤종용 시뮬캐스트 수신기의 동일채널 간섭 제거기와 그 방법
US6005610A (en) * 1998-01-23 1999-12-21 Lucent Technologies Inc. Audio-visual object localization and tracking system and method therefor
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
DE19854373B4 (de) * 1998-11-25 2005-02-24 Robert Bosch Gmbh Verfahren zur Steuerung der Empfindlichkeit eines Mikrofons
JP4538860B2 (ja) 1999-04-13 2010-09-08 ソニー株式会社 音声帯域信号記録再生装置、音声帯域信号記録再生方法、音声帯域信号記録装置及び音声帯域信号記録方法
JP2001008285A (ja) 1999-04-19 2001-01-12 Sony Corp 音声帯域信号処理方法及び音声帯域信号処理装置
JP3195920B2 (ja) * 1999-06-11 2001-08-06 科学技術振興事業団 音源同定・分離装置及びその方法
JP2001352530A (ja) 2000-06-09 2001-12-21 Nippon Telegr & Teleph Corp <Ntt> 通信会議装置
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
US7646372B2 (en) * 2003-09-15 2010-01-12 Sony Computer Entertainment Inc. Methods and systems for enabling direction detection when interfacing with a computer program
JP3996015B2 (ja) * 2002-08-09 2007-10-24 本田技研工業株式会社 姿勢認識装置及び自律ロボット
US7874917B2 (en) * 2003-09-15 2011-01-25 Sony Computer Entertainment Inc. Methods and systems for enabling depth and direction detection when interfacing with a computer program
JP4269883B2 (ja) * 2003-10-20 2009-05-27 ソニー株式会社 マイクロホン装置、再生装置及び撮像装置
US7430004B2 (en) * 2003-11-08 2008-09-30 Hewlett-Packard Development Company, L.P. Volume control linked with zoom control
JP2005151042A (ja) 2003-11-13 2005-06-09 Sony Corp 音源位置特定装置および撮像装置並びに撮像方法
US20050182503A1 (en) * 2004-02-12 2005-08-18 Yu-Ru Lin System and method for the automatic and semi-automatic media editing
US20060195858A1 (en) * 2004-04-15 2006-08-31 Yusuke Takahashi Video object recognition device and recognition method, video annotation giving device and giving method, and program
KR100754385B1 (ko) * 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
JP5801026B2 (ja) * 2009-05-28 2015-10-28 株式会社ザクティ 画像音響処理装置及び撮像装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009049873A (ja) * 2007-08-22 2009-03-05 Sony Corp 情報処理装置
JP2009065587A (ja) * 2007-09-10 2009-03-26 Sanyo Electric Co Ltd 音声記録装置及び音声再生装置
US8218033B2 (en) 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP2010093603A (ja) * 2008-10-09 2010-04-22 Olympus Imaging Corp カメラ、再生装置、および再生方法
JP2010183252A (ja) * 2009-02-04 2010-08-19 Nikon Corp 撮像装置
US20110102619A1 (en) * 2009-11-04 2011-05-05 Niinami Norikatsu Imaging apparatus
US8456542B2 (en) * 2009-11-04 2013-06-04 Ricoh Company, Ltd. Imaging apparatus that determines a band of sound and emphasizes the band in the sound
JP2011124850A (ja) * 2009-12-11 2011-06-23 Canon Inc 撮像装置並びにその制御方法及びプログラム
JP2011150191A (ja) * 2010-01-22 2011-08-04 Nec Personal Products Co Ltd 音声変更装置、音声変更方法、プログラム及び記録媒体
WO2013146893A1 (ja) * 2012-03-28 2013-10-03 株式会社ニコン デジタルカメラ

Also Published As

Publication number Publication date
KR20070001007A (ko) 2007-01-03
CN100546367C (zh) 2009-09-30
US20060291816A1 (en) 2006-12-28
US8547416B2 (en) 2013-10-01
CN1893610A (zh) 2007-01-10
JP4441879B2 (ja) 2010-03-31

Similar Documents

Publication Publication Date Title
JP4441879B2 (ja) 信号処理装置および方法、プログラム、並びに記録媒体
US8218033B2 (en) Sound corrector, sound recording device, sound reproducing device, and sound correcting method
JP4934580B2 (ja) 映像音声記録装置および映像音声再生装置
US20120050570A1 (en) Audio processing based on scene type
US20100302401A1 (en) Image Audio Processing Apparatus And Image Sensing Apparatus
JP4645707B2 (ja) コンテンツデータ処理装置
US20110052139A1 (en) Imaging Device And Playback Device
JP2013106298A (ja) 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
JP2008084213A (ja) 画像処理装置、撮像装置、画像処理方法およびプログラム
JP2009156888A (ja) 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
KR20100002090A (ko) 전자 기기, 영상 콘텐츠 편집 방법 및 프로그램
TWI588590B (zh) 影像產生系統及影像產生方法
US20110193995A1 (en) Digital photographing apparatus, method of controlling the same, and recording medium for the method
JP2009065587A (ja) 音声記録装置及び音声再生装置
JP2011101110A (ja) 撮像装置
JP4909063B2 (ja) 撮像装置及び画像記録方法
JP2012151544A (ja) 撮像装置及びプログラム
JP5173915B2 (ja) 画像処理装置及び撮像装置
JP6761230B2 (ja) 画像処理装置、その制御方法、プログラム及び撮像装置
JP2014122978A (ja) 撮像装置、音声認識方法、及びプログラム
JP2011139306A (ja) 撮像装置及び再生装置
JP2009239349A (ja) 撮影装置
WO2010061791A1 (ja) 映像制御装置およびそれを備えた撮像装置、表示装置
JP5979843B2 (ja) 音声信号処理装置、音声信号処理方法及びプログラム
US20120060614A1 (en) Image sensing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091217

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091230

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140122

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees