JP2023513318A

JP2023513318A - マルチメディアコンテンツ

Info

Publication number: JP2023513318A
Application number: JP2022548695A
Authority: JP
Inventors: ユッシアルットゥリレッパネン; ラッセユハニラークソネン; ミーカタパニヴィレルモ; アルトユハニレーティニエミ
Original assignee: ノキアテクノロジーズオサケユイチア
Priority date: 2020-02-14
Filing date: 2021-02-02
Publication date: 2023-03-30
Also published as: US20230074589A1; EP3866457A1; US11805312B2; CN115136581A; WO2021160465A1

Abstract

音源のオーディオフォーカス減衰を識別し、オーディオフォーカス減衰を受ける音源と、対応する視覚的物体との間の対応を決定し、オーディオフォーカス減衰を受ける音源に対応する視覚的物体を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正するための手段を備える装置。【選択図】図３

Description

本開示の実施形態はマルチメディアコンテンツに関する。詳細には、マルチメディアコンテンツを取り込むこと、および／または処理することに関する。

マルチメディアコンテンツはしばしば、専門家ではない人々によって場当たり的で無計画のシナリオで記録される。たとえば、音声付きのビデオが、ポータブルカメラ、カメラ対応携帯電話、またはスポーツアクティビティカメラ上に容易に記録され得る。

取り込まれ、または記録されるマルチメディアコンテンツの品質を改善することが望ましいはずである。

必ずしもすべての実施形態ではないが、様々な実施形態によれば、
音源のオーディオフォーカス減衰を識別し、
オーディオフォーカス減衰を受ける音源と、対応する視覚的物体との間の対応を決定し、
オーディオフォーカス減衰を受ける音源に対応する視覚的物体を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正する
ための手段を備える装置が提供される。

必ずしもすべての実施例ではないが、いくつかの実施例では、装置は、
オーディオフォーカス減衰を受ける音源の位置を決定し、
オーディオフォーカス減衰を受ける音源の位置に関連付けられる視覚的物体を決定し、
決定した視覚的物体を除外するように、取り込まれたイメージを修正する
ための手段を備える。

必ずしもすべての実施例ではないが、いくつかの実施例では、オーディオフォーカス減衰を受ける音源の位置を決定するための手段は、
候補音源がしきい値を超えるエネルギーまたはレベルを有することを判定し、
目標音源と候補音源との間の十分な相関の欠如を判定し、
候補音源がしきい値を超えるエネルギーまたはレベルを有し、目標音源との間の十分な相関が欠如している場合、候補音源の位置を取得する
ための手段を備える。

目標音源は、その代わりにユーザ選択された音源であり得る。

ターゲティングは、たとえばユーザ選択を介して行われ得る。必ずしもすべての実施例ではないが、いくつかの実施例では、目標音源がユーザ選択され、装置は、目標音源に関連付けられる視覚的物体の、ビューファインダディスプレイ内のユーザ選択のための手段を備える。

必ずしもすべての実施例ではないが、いくつかの実施例では、候補音源が、複数の場所、たとえば別個の場所のうちのいずれか１つに配置され得る。

必ずしもすべての実施例ではないが、いくつかの実施例では、候補音源が空間オーディオを使用して配置され得る。

必ずしもすべての実施例ではないが、いくつかの実施例では、オーディオフォーカス減衰を受ける音源の位置に関連付けられる視覚的物体を決定するための手段は、物体認識のための手段を備える。

必ずしもすべての実施例ではないが、いくつかの実施例では、イメージの取込みを修正するための手段が、取り込まれたイメージを再フレーミングして、音源に関連付けられる視覚的物体を除外するように構成される。

必ずしもすべての実施例ではないが、いくつかの実施例では、イメージの取込みを修正するための手段が、イメージセンサアレイで検出されたイメージに適用されるクロップを変更するように構成され、適用されるクロップが、取り込まれるイメージを決定する。

必ずしもすべての実施例ではないが、いくつかの実施例では、イメージの取込みを修正するための手段が、イメージセンサアレイで検出されたイメージに適用されるクロップの位置を変更するように構成される。

必ずしもすべての実施例ではないが、いくつかの実施例では、イメージの取込みを修正するための手段が、イメージセンサアレイで検出されたイメージに適用されるクロップのサイズを維持するように構成される。

必ずしもすべての実施例ではないが、いくつかの実施例では、イメージの取込みを修正するための手段が、オーディオフォーカス減衰を受ける音源に関連付けられるすべての視覚的物体を除外するように構成される。

必ずしもすべての実施例ではないが、いくつかの実施例では、イメージの取込みを修正するための手段が、オーディオフォーカス減衰を受ける音源に関連付けられる、選択された視覚的物体を除外するように構成され、視覚的物体の選択が、
取り込まれたイメージ内の、オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体の数を最小限に抑えること、
取り込まれたイメージから除外される、オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体の数を最大にすること、
オーディオフォーカス減衰を受け、取り込まれたイメージ内の視覚的物体に関連付けられる音源の全エネルギーを最小限に抑えること、
オーディオフォーカス減衰を受け、取り込まれたイメージから除外される視覚的物体に関連付けられる音源の全エネルギーを最大にすること、
オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体の物体認識、
オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体の、装置に対する近接、および
オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体によって占められる、取り込まれたイメージの面積を最小限に抑えること
のうちの１つまたは複数に依存する。

必ずしもすべての実施形態ではないが、様々な実施形態によれば、コンピュータ上で実行されるとき、
音源のオーディオフォーカス減衰を識別することと、
オーディオフォーカス減衰を受ける音源と、対応する視覚的物体との間の対応を決定することと、
オーディオフォーカス減衰を受ける音源に対応する視覚的物体を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正することと
を実施するコンピュータプログラムが提供される。

必ずしもすべての実施形態ではないが、様々な実施形態によれば、
音源のオーディオフォーカス減衰を識別することと、
オーディオフォーカス減衰を受ける音源と、対応する視覚的物体との間の対応を決定することと、
オーディオフォーカス減衰を受ける音源に対応する視覚的物体を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正することと
を含む方法が提供される。

必ずしもすべての実施形態ではないが、様々な実施形態によれば、添付の特許請求の範囲で特許請求される実施例が提供される。

定義
音源のオーディオフォーカス減衰は、その音源に対する相対的減衰の適用である。音源のレベルが低下する。

音源のオーディオフォーカス減衰は、その音源に対する相対的利得の適用である。音源のレベルが増加する。

複数の音源のうちの１つ（または複数）のオーディオフォーカス減衰は、必然的に複数の音源のうちの他の音源のオーディオフォーカス利得となる。

複数の音源のうちの１つ（または複数）のオーディオフォーカス利得は、必然的に複数の音源のうちの他の音源のオーディオフォーカス減衰となる。

次に、添付の図面を参照しながら、いくつかの例示的実施形態が説明される。

本明細書で説明される主題の例示的実施形態を示す図である。本明細書で説明される主題の例示的実施形態を示す図である。本明細書で説明される主題の別の例示的実施形態を示す図である。本明細書で説明される主題の別の例示的実施形態を示す図である。本明細書で説明される主題の別の例示的実施形態を示す図である。本明細書で説明される主題の別の例示的実施形態を示す図である。本明細書で説明される主題の例示的実施形態を示す図である。本明細書で説明される主題の例示的実施形態を示す図である。本明細書で説明される主題の例示的実施形態を示す図である。本明細書で説明される主題の例示的実施形態を示す図である。本明細書で説明される主題の例示的実施形態を示す図である。本明細書で説明される主題の例示的実施形態を示す図である。本明細書で説明される主題の例示的実施形態を示す図である。

図１Ａおよび１Ｂは、複数の音源１２を含む音響空間１０の一実施例を示す。相異なる位置にある音源１２には、相異なる添字で符号が付けられる。図１Ａおよび図１Ｂは、原点１４に対して相異なる位置にある３つの音源１２₁、１２₂、１２₃を示す。

マイクロフォンなどの音声取込みデバイスが、原点１４または原点１４の近くに配置され得る。たとえば、音声取込みデバイスは、アレイ、たとえば１次元、２次元、または３次元アレイとして構成され得る。

複数の音声取込みデバイスの使用により、ある音源１２の、別の音源１２に対する選択的相対的減衰が可能となる。

この実施例では、少なくとも目標音源１２₃、および１つまたは複数の他の非目標音源１２₁、１２₂を含む３つの音源１２がある。

音声取込み装置が、目標音源１２₃に相対的利得を適用し、１つまたは複数の他の非目標音源１２₁、１２₂に相対的減衰を適用して、目標音源１２₃に対するオーディオフォーカス１６を生み出すように構成される。１つまたは複数の非目標音源１２₂、１２₂のオーディオフォーカス減衰がある。

目標音源１２₃は、原点１４に対する第１の位置にあり、１つまたは複数の非目標音源１２₁、１２₂は、第１の位置とは異なる、原点１４からの第２の位置にある。すなわち、目標音源１２₃は、１つまたは複数の非目標音源１２₁、１２₂とは空間的に異なる。

音声取込み装置は、ビームフォーミングを使用して第１の位置から来る音を分離するように構成され得る。ビームフォーミングは、相異なる音声取込みデバイスからのオーディオ信号の重みつき一次結合を使用する。オーディオ信号の重みつき一次結合は、ハードウェアもしくはソフトウェアで、またはハードウェアとソフトウェアの組合せで実施され得る。

必ずしもすべての実施例ではないが、いくつかの実施例では、一次結合についての重みづけは適応的である。重みづけは、たとえば、いくつかの実施例では、第１の位置に向かう目標方向に応答を保つための制約下で、干渉する音源（たとえば、非目標音源１２₁、１２₂）のエネルギーを最小限に抑えることによって取得され得る。これは最小分散無ひずみ応答（ｍｉｎｉｍｕｍｖａｒｉａｎｃｅｄｉｓｔｏｒｔｉｏｎｌｅｓｓｒｅｓｐｏｎｓｅ）である。

必ずしもすべての実施例ではないが、いくつかの実施例では、重みづけは周波数に依存する。

たとえば、別個のマイクロフォンのアレイからの信号を処理し、伝播する音場の空間フィルタリングを実現するためにビームフォーマが使用され得る。空間フィルタリングは、重複する周波数内容を有するが、相異なる空間位置から生じる信号を分離する。目標位置（方位）からの目標信号は減衰されないが、他の場所（方位）からの信号は減衰される。空間フィルタは、非目標信号の方向について利得のディープヌル（ｄｅｅｐｎｕｌｌ）を生み出す。したがって、ビームフォーマは、目標方向１６からの信号に対する空間帯域フィルタとして、および非目標方向からの信号に対する帯域消去フィルタとして動作し得る。

相異なるマイクロフォンからのオーディオ信号の重みつき一次結合は、ｙ（ｔ）＝ｗ^Hｘ（ｔ）として表され得る。到来方向θを有する複素平面波について、ｙ（ｔ）＝ｅｘｐ（ｊωｔ）．ｒ（θ，ω）であり、ただしビームフォーマ応答ｒ（θ，ω）＝ｗ^Hｄ（θ，ω）であり、ｄ（θ，ω）はステアリングベクトルである。

ｗ^Hは、ｙ（ｔ）が目標音源１２₃からの著しく高い（たとえば、最大の）寄与（目標方向のオーディオフォーカス１６）と、非目標音源１２₁、１２₂（非目標方向）からの著しく低い（たとえば、最小の）寄与とを含むように選択される。ｗ^Hは、単一の周波数帯にわたって、または別個の周波数帯にわたって別々に適用され得る。

重みｗ^Hは、費用関数を最小限に抑えることによって、たとえば、ある方向に対する目標利得と、別の方向に対する目標減衰（たとえば、力ゼロ利得）などの応答制約を受ける（目標とするものからの）出力分散を最小限に抑えることによって取得され得る。これにより、非目標方向からの（たとえば、非目標音源１２₁、１２₂からの）非目標信号からの出力に対する寄与を最小限に抑えながら、（たとえば、目標音源１２₃からの）目標信号を保持する最小分散無ひずみ応答（ＭＶＤＲ）ビームフォーマが生み出される。

重みづけおよび空間フィルタリングはリアルタイムに変化し得る。たとえば、ステアリングベクトルｄ（θ，ω）はリアルタイムに変化し得る。たとえば、重みｗ^Hはリアルタイムで適合され得る。

図１Ａおよび１Ｂはまた、１つまたは複数の視覚的物体２２を含む視覚空間２０の一実施例を示す。相異なる位置にある視覚的物体２２には、相異なる添字で符号が付けられる。図１Ａおよび１Ｂは、原点１４に対して相異なる位置にある３つの視覚的物体２２₁、２２₂、２２₃を示す。

必ずしもすべての実施例ではないが、この実施例では、各音源１２₁、１２₂、１２₃が、対応する視覚的物体２２₁、２２₂、２２₃を有する。

この実施例では、音響空間１０と視覚空間２０が対応する。音響空間１０内の音源１２₁、１２₂、１２₃の位置は、視覚空間２０内の視覚的物体２２₁、２２₂、２２₃の位置と重複する。

カメラなどの１つまたは複数のイメージ取込みデバイスが、原点１４または原点１４の近くに配置され得る。イメージ取込みデバイスは、たとえば、視野２６₁によって画定される視覚的シーンを取り込むように構成され得る。イメージ取込みデバイスは、たとえば、視野２６₁によって画定された視覚的シーンのシーケンスを含むビデオを取り込むビデオカメラであり得る。

この実施例では、視覚的物体２２₁、２２₂は、減衰された音源１２₁、１２₂に対応し、視覚的物体２２₃は、減衰されない音源１２₃に対応する。減衰された音源は、たとえば消音された音源であり得る。

図１Ｂから、減衰された音源１２₁に対応する視覚的物体２２₁が視野２６₁内にはなく、したがって原点１４にあるカメラによって取り込まれる視覚的シーン内にはないことを理解することができる。

図１Ｂから、減衰されない音源１２₃に対応する視覚的物体２２₃が視野２６₁内にあり、したがって原点１４にあるカメラによって取り込まれる視覚的シーン内にあることを理解することができる。

図１Ｂから、減衰された音源１２₂に対応する視覚的物体２２₂が視野２６₁内にあり、したがって原点１４にあるカメラによって取り込まれる視覚的シーン内にあることを理解することができる。

この実施例では、視野２６₁内にある、減衰された音源１２₂に対応する視覚的物体２２₂は、減衰されない音源１２₃に対応する視覚的物体２２₃から注意をそらすものとなり得る。このことは、視野２６₁内にある、減衰された音源１２₂に対応する視覚的物体２２₂が、視覚的物体２２₃よりも視覚的シーンの広い部分を占めるとき、または視覚的物体２２₃が背景の物体であるときに視覚的物体２２₂が前景の物体であるとき、または視覚的物体２２₂が動的視覚的物体（位置を移動し、かつ／または変化する視覚的物体）であるときに特にそうである。

図２Ａは視覚的シーンの一実施例を示す。視覚的物体２２₂は、減衰された音源１２₂に対応する。視覚的物体２２₂と、視覚的物体２２₂に対応する減衰された音源１２₂の位置は、視野２６₁内にある。取り込まれたイメージ内に視覚的物体２２₂を確認することができる。視覚的物体２２₃は、減衰されない音源１２₃に対応する。視覚的物体２２₃と、視覚的物体２２₃に対応する減衰されない音源１２₃は、視野２６₁内にある。取り込まれたイメージ内で視覚的物体２２₃を確認することができる。減衰されない音源１２₃から取り込まれた音声が聴覚的に最も顕著であるのに対して、より大きいサイズの前景の視覚的物体２２₂が視覚的に最も顕著である。より大きいサイズの前景の視覚的物体２２₂は、減衰されない音源１２₃に対応する視覚的物体２２₃から視覚的に注意をそらす。

以下の方法１００（図３）が、注意をそらすことを低減する。

方法１００は、
ブロック１０２で、音源１２₂のオーディオフォーカス減衰を識別することと、
ブロック１０４で、オーディオフォーカス減衰を受ける音源１２₂と、対応する視覚的物体２２₂との間の対応を決定することと、
ブロック１０６で、オーディオフォーカス減衰を受ける音源１２₂に対応する視覚的物体２２₂を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正することと
を含む。

必ずしもすべての実施例ではないが、いくつかの実施例では、ブロック１０２で、方法は、音源１２₂のオーディオフォーカス減衰を自動的に識別することを含み得る。必ずしもすべての実施例ではないが、いくつかの実施例では、ブロック１０４で、方法は、オーディオフォーカス減衰を受ける音源１２₂と、対応する視覚的物体２２₂との間の対応を自動的に決定することを含み得る。必ずしもすべての実施例ではないが、いくつかの実施例では、ブロック１０６では、方法は、オーディオフォーカス減衰を受ける音源１２₂に対応する視覚的物体２２₂を少なくとも部分的に除外および／または修正するようにイメージの取込みを自動的に修正することを含み得る。

方法は、オーディオフォーカス減衰を受ける音源１２₂に対応する視覚的物体２２₂の取り込まれたイメージに対する視覚的影響を低減する。

方法１００の結果の一例が図２Ｂに示されている。方法は、オーディオフォーカス減衰を受ける音源１２₂に対応する視覚的物体２２₂を少なくとも部分的に修正するようにイメージの取込みを修正する。未修正の視覚的物体２２₂が図２Ａに示されており、修正された視覚的物体２２₂’が図２Ｂに示されている。この実施例では、（視覚的物体２２₃ではなく）未修正の視覚的物体２２₂が、たとえば５０ピクセルのぼけカーネル（ｂｌｕｒｒｉｎｇｋｅｒｎｅｌ）を受け、修正された視覚的物体２２₂’が生成される。実際には、オーディオフォーカス減衰を受ける音源１２₂に対応する視覚的物体２２₂が、たとえばぼけ、着色などによって視覚的に減衰される。

方法１００の結果の一例が図２Ｃに示されている。方法は、視覚的シーンを再フレーミングして、オーディオフォーカス減衰を受ける音源１２₂に対応する視覚的物体２２₂を少なくとも部分的に除外するようにイメージの取込みを修正する。未修正の視覚的物体２２₂が図２Ａに示されており、少なくとも部分的に除外された、修正された視覚的物体２２₂’が図２Ｃに示されている。この実施例では、（視覚的物体２２₃ではなく）未修正の視覚的物体２２₂が、取り込まれたイメージからの少なくとも部分的な除外の対象となる。これは、たとえば、パニングもしくはトラッキングおよび／またはズーミングによって取り込まれるイメージを実質的に再フレーミングすることによって達成され得る。これは、視野２６のサイズおよび／または方向を変更することによって達成され得る。

図４Ａは図１Ｂに類似している。図４Ａは、減衰されない音源１２₃に対応する視覚的物体２２₃が視野２６₁内にあり、したがって原点１４にあるカメラによって取り込まれる視覚的シーン内にあること、および減衰された音源１２₂に対応する視覚的物体２２₂が視野２６₁内にあり、したがって原点１４にあるカメラによって取り込まれる視覚的シーン内にあることを示す。

図４Ｂは図１Ｂと同様であるが、視野２６₁が視野２６₁’という新しい視野に修正されている。これは、取り込まれたイメージを再フレーミングし、減衰された音源１２₂に対応する視覚的物体２２₂のすべてまたは部分を除外する。

したがって、図４Ｂは、減衰されない音源１２₃に対応する視覚的物体２２₃が新しい視野２６₁’内にあり、したがって原点１４にあるカメラによって取り込まれる視覚的シーン内にあること、および減衰された音源１２₂に対応する視覚的物体２２₂が新しい視野２６₁’から少なくとも部分的に除外され、したがって原点１４にあるカメラによって取り込まれる視覚的シーン内にもはやないことを示す。

いくつかの例では、再フレーミングが自動的に行われる。他の例では、再フレーミングをさせるためのユーザ選択可能なオプションがユーザに与えられる。

この実施例では、再フレーミングは同一の解像度を維持し、実質的にはパンまたはトラックである。他の例では、追加または代替として、再フレーミングは解像度を変更し、実質的にはズームである。

図４Ａおよび４Ｂの実施例では、第２のより広い視野２６₂が示されている。広い視野２６₂は、カメラのイメージセンサによって撮像される視覚的シーンを示す。より狭い視野２６₁、２６₁’は、イメージセンサによって取り込まれる視覚的シーンを示す。より狭い視野２６₁、２６₁’は、第２のより広い視野２６₂の副部分である。図４Ｂに示されるフレーミングは、より狭い視野イメージを達成するように広い視野イメージをクロッピングすることによって達成される。クロップは、図４Ａと図４Ｂの間でサイズおよび／または位置を変更し得る。クロップは、図４Ａと図４Ｂの間で同一のサイズを保ち得る。この実施例では、イメージの取込みを修正することは、イメージセンサアレイで検出されたイメージに適用されるクロップを変更するように構成され、適用されるクロップが、取り込まれるイメージを決定する。クロップは、センサアレイのセンセル（ｓｅｎｓｅｌ）の連続するサブセットを画定する。イメージセンサアレイで検出されたイメージに適用されるクロップの位置が変更される。イメージセンサアレイで検出されたイメージに適用されるクロップのサイズが維持され、または変更され得る。再クロッピングの効果が図５Ａおよび５Ｂに示されている。図５Ａは、イメージセンサアレイで検出されたイメージ（視野２６₂）と、現在適用されているクロップ（減衰された音源１２₂に対応する視覚的物体２２₂を含む視野２６₁）とを示す。図５Ｂは、イメージセンサアレイで検出されたイメージ（視野２６₂）に新しく適用された新しいクロップによって画定される、取り込まれたイメージ（減衰された音源１２₂に対応する視覚的物体２２₂を含まない視野２６₁’）を示す。必ずしもすべての実施例ではないが、この実施例では、取り込まれたイメージは、減衰された音源１２₂に対応する、除外される視覚的物体２２₂の一部（修正された視覚的物体２２₂’）を保持する。

方法１００（図３）は、ブロック１０２で、音源１２₂のオーディオフォーカス減衰を識別することを含む。このブロックは、たとえば、
オーディオフォーカス方向、たとえばビームフォーミングステアリングベクトルｄ（θ，ω）を取得することと、
音源方向を取得することと、
たとえばオーディオフォーカス方向ではない方向に減衰される１つまたは複数の音源を決定することと
を含み得る。

方法１００は、ブロック１０４で、オーディオフォーカス減衰を受ける音源１２と、対応する視覚的物体２２との間の対応を決定することを含む。

このブロック１０４は、
オーディオフォーカス減衰を受ける音源１２の位置を決定することと、
オーディオフォーカス減衰を受ける音源１２の位置に関連付けられる視覚的物体２２を決定することと、
決定した視覚的物体２２を除外または修正するように、取り込まれたイメージを修正することと
を含み得る。

視覚的物体２２が、オーディオフォーカス減衰を受ける音源１２の位置またはその近くにある場合、たとえば視覚的物体２２（または視覚的物体２２の任意の部分）がその位置のしきい値距離以内にある場合、視覚的物体２２はその位置に関連付けられる。

必ずしもすべての実施例ではないが、いくつかの実施例では、ブロック１０４の前に、イメージが取り込まれる。次いで、ブロック１０６で、この取り込まれたイメージが修正される。必ずしもすべての実施例ではないが、いくつかの実施例では、取り込まれたイメージが、対応する視覚的物体２２₂を識別するために処理される。

位置に関連付けられる視覚的物体２２の周囲を識別し、あるいは場所に関連付けられる視覚的物体２２を認識または特徴付けるためにコンピュータビジョン技法が使用され得る。コンピュータビジョン技法は、たとえば、縁部またはコーナ検出、注目点検出、特徴検出を含み得る。

位置は、たとえば１次元方位（たとえば方位角φ）、２次元方位（たとえば方位角φおよび極角θ）、２次元座標（たとえばデカルト座標（ｘ，ｙ）または極座標（ｒ，φ））、または３次元座標（たとえばデカルト座標（ｘ，ｙ，ｚ）または円柱極座標（ｒ，φ，ｚ）または球面極座標（ｒ，φ，θ））であり得る。

たとえば、決定した視覚的物体２２を修正するように、取り込まれたイメージを修正することは、たとえば図２Ｂを参照しながら説明したように、取り込まれたイメージを処理することを含み得る。

たとえば、決定した視覚的物体２２を修正するように、取り込まれたイメージを修正することは、たとえば図２Ｃまたは図４Ａ、４Ｂ、５Ａ、５Ｂを参照しながら説明したように、取り込まれたイメージを再フレーミングまたはクロッピングすることを含み得る。

候補音源（オーディオフォーカス減衰を受ける音源１２であることがあり、またはそうでないことがある）１２がしきい値を超えるエネルギーまたはレベルを有すること、および目標音源１２₃と候補音源１２との間の十分な相関の欠如（しきい値未満の相関スコア）の結果として、候補音源がオーディオフォーカス減衰を受ける音源１２として識別され得る。

オーディオフォーカス減衰を受ける音源１２の位置を決定することは、
候補音源１２がしきい値を超えるエネルギーまたはレベルを有すると判定することと、
目標音源１２₃と候補音源１２との間の十分な相関の欠如を判定することと、
候補音源１２がしきい値を超えるエネルギーまたはレベルを有し、目標音源１２₃との間の十分な相関が欠如している場合、候補音源１２の位置を取得することと
を含み得る。

しきい値はゼロまたは非ゼロしきい値であり得る。

いくつかの例では、候補音源１２の位置が、たとえばビームフォーミングステアリングベクトルｄ（θ，ω）の量子化された値によって定義される、複数の別個の位置のうちのいずれか１つに特定され得る。

候補音源１２の位置が、空間オーディオを使用して、たとえば前述のビームフォーマを使用して、または候補音響物体に関連付けられるメタデータから特定され得る。

必ずしもすべての実施例ではないが、いくつかの実施例では、目標音源１２₃がユーザ選択され得る。装置は、たとえば、ビューファインダディスプレイ内のユーザ選択のための手段を備え得る。

図６Ａは装置５０の一実施例を示す。

装置５０は音声取込み装置であり、音声の入力のためのオーディオ入力回路６０を備える。オーディオ入力回路は複数の音声取込みデバイス６２を備え、この実施例では、複数の音声取込みデバイス６２はマイクロフォンである。

マイクロフォンは空間的に分散し、別個のマイクロフォンのアレイを形成する。アレイは、たとえば１Ｄ、２Ｄ、または３Ｄであり得る。

装置５０はイメージ取込み装置であり、イメージ取込みデバイス７０を備える。イメージ取込みデバイス７０はカメラまたはイメージセンサであり得る。

イメージ取込みデバイス７０は、たとえばビデオカメラ７２であり得る。

コントローラ８０は、オーディオ入力回路６０からオーディオデータを受け取り、イメージ取込みデバイス７０から視覚的データを受け取るように構成される。データはｒａｗであり得、何らかの前処理がオーディオ入力回路６０および／またはイメージ取込みデバイス７０で行われ得る。

この実施例では、装置５０はビームフォーマ装置であり得る。装置５０は、オーディオ入力回路６０からのオーディオデータを空間的にフィルタリングして、前述のようにオーディオフォーカスを実現するように構成される。オーディオフォーカスは望ましくない方向からの音を減衰する。

コントローラ８０はまた、
音源１２のオーディオフォーカス減衰を識別し、
オーディオフォーカス減衰を受ける音源１２と、対応する視覚的物体２２との間の対応を決定し、
オーディオフォーカス減衰を受ける音源１２に対応する視覚的物体２２を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正する
ように構成される。

装置５０はレンダリング装置であり、イメージおよび音声をマルチメディアコンテンツとして同時にレンダリングするためのユーザ出力回路４０を備える。ユーザ出力回路４０は、この実施例では、より多くのスピーカ、ヘッドフォンのうちの１つ、あるいはスピーカまたはヘッドフォンに対するインターフェースを備え得るオーディオ出力回路４２を備える。ユーザ出力回路４０は、この実施例では、たとえばより多くのディスプレイ４４のうちの１つを備え得るイメージ出力回路を備える。

装置５０は、オーディオフォーカス減衰を受ける音源に対応する視覚的物体の除外／修正前のイメージをディスプレイ４４上に表示するように構成され得る。

装置５０は、オーディオフォーカス減衰を受ける音源に対応する視覚的物体の除外／修正後のイメージをディスプレイ４４上に表示するように構成され得る。

装置５０は、オーディオフォーカス減衰を受ける音源に対応する視覚的物体を少なくとも部分的に除外および／または修正する、取り込まれたイメージをディスプレイ４４上に表示するように構成され得る。

装置５０は、いくつかの例では、ユーザが装置５０に制御コマンドを与えることを可能にするように構成されるユーザ入力回路９０を備え得る。必ずしもすべての実施例ではないが、いくつかの実施例では、ユーザ入力回路９０は、タッチスクリーンディスプレイを作成するようにディスプレイ４４と一体化され得る。必ずしもすべての実施例ではないが、いくつかの実施例では、ディスプレイ４４またはタッチスクリーンディスプレイは、ビデオカメラ７２のためのカメラビューファインダを提供する。ユーザ入力回路９０は、ユーザが音源１２および／または音源１２に関連付けられる視覚的物体２２を識別することを可能にし得る。

装置５０はポータブルまたはハンドポータブルデバイスであり得る。装置５０は、たとえばカメラであり得、またはカメラ機能を有する携帯電話であり得る。

図６Ｂは、コントローラ８０の一実施例を示す。コントローラ８０の実装はコントローラ回路としてのものであり得る。コントローラ８０は、ハードウェアだけで実装され得、ファームウェアだけを含むソフトウェアのいくつかの態様を有し、またはハードウェアとソフトウェア（ファームウェアを含む）の組合せであり得る。

図６Ｂに示されるように、コントローラ８０は、たとえば、汎用または専用プロセッサ８２によって実行されるべき、コンピュータ可読記憶媒体（ディスク、メモリなど）上に記憶され得る、そのようなプロセッサ８２内のコンピュータプログラム８６の実行可能命令を使用することにより、ハードウェア機能を可能にする命令を使用して実装され得る。

プロセッサ８２は、メモリ８４から読み取り、メモリ８４に書き込むように構成される。プロセッサ８２はまた、データおよび／またはコマンドがそれを介してプロセッサ８２によって出力される出力インターフェースと、データおよび／またはコマンドがそれを介してプロセッサ８２に入力される入力インターフェースとを備え得る。

メモリ８４は、プロセッサ８２内にロードされたとき、装置５０の動作を制御するコンピュータプログラム命令（コンピュータプログラムコード）を含むコンピュータプログラム８６を記憶する。コンピュータプログラム８６のコンピュータプログラム命令は、装置が図３に示される方法を実施することを可能にする論理およびルーチンを提供する。メモリ８４を読み取ることにより、プロセッサ８２は、コンピュータプログラム８６をロードおよび実行することができる。

したがって装置５０は、
少なくとも１つのプロセッサ８２と、
コンピュータプログラムコードを含む少なくとも１つのメモリ８４と、
少なくとも１つのプロセッサ８２と共に、装置５０に、
音源のオーディオフォーカス減衰を識別することと、
オーディオフォーカス減衰を受ける音源と、対応する視覚的物体との間の対応を決定することと、
オーディオフォーカス減衰を受ける音源に対応する視覚的物体を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正することと
を少なくとも実施させるように構成された少なくとも１つのメモリ８４およびコンピュータプログラムコードと
を備える。

図６Ｂに示されるように、コンピュータプログラム８６は、任意の適切な送達機構８８を介して装置５０に到達し得る。送達機構８８は、たとえば、機械可読媒体、コンピュータ可読媒体、非一時的コンピュータ可読記憶媒体、コンピュータプログラム製品、メモリデバイス、コンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）、ソリッドステートメモリなどの記録媒体、コンピュータプログラム８６を含む、またはコンピュータプログラム８６を有形に実施する製造品であり得る。送達機構は、コンピュータプログラム８６を確実に転送するように構成された信号であり得る。装置５０は、コンピュータプログラム８６をコンピュータデータ信号として伝播または送信し得る。

装置に少なくとも以下を実施させる、または少なくとも以下を実施するためのコンピュータプログラム命令。
音源のオーディオフォーカス減衰を識別することと、
オーディオフォーカス減衰を受ける音源と、対応する視覚的物体との間の対応を決定することと、
オーディオフォーカス減衰を受ける音源に対応する視覚的物体を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正すること。

コンピュータプログラム命令は、コンピュータプログラム、非一時的コンピュータ可読媒体、コンピュータプログラム製品、機械可読媒体内に含まれ得る。必ずしもすべての実施例ではないが、いくつかの実施例では、コンピュータプログラム命令は、複数のコンピュータプログラムにわたって分散し得る。

メモリ８４が単一の構成要素／回路として示されているが、メモリ８４は、１つまたは複数の別々の構成要素／回路として実装され得、その一部またはすべてが一体化され／取外し可能であり得、かつ／または永続的／半永続的／動的／キャッシュされたストレージを提供し得る。

プロセッサ８２が単一の構成要素／回路として示されているが、プロセッサ８２は、１つまたは複数の別々の構成要素／回路として実装され得、その一部またはすべてが一体化され／取外し可能であり得る。プロセッサ８２はシングルコアまたはマルチコアプロセッサであり得る。

前述の実施例が、複数のオーディオフォーカス方向がある状況に拡張され得る。

前述の実施例が、オーディオフォーカス減衰を受け、候補の取り込まれたイメージ内の視覚的物体に対応する複数の音源がある状況に拡張され得る。

方法１００は、そうした音源のそれぞれについて実施される。

方法は、
ブロック１０２で、複数の音源１２のオーディオフォーカス減衰を識別することと、
ブロック１０４で、オーディオフォーカス減衰を受ける複数の音源１２と、取り込まれるべきイメージ内に存在する、それぞれの複数の視覚的物体２２との間の対応を決定することと、
ブロック１０６で、オーディオフォーカス減衰を受ける複数の音源１２に対応するそれぞれの複数の視覚的物体２２のうちの少なくとも一部を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正することと
を含み得る。

必ずしもすべての実施例ではないが、いくつかの実施例では、方法は、普通なら取り込まれたイメージ内にあるはずの、オーディオフォーカス減衰を受ける音源１２に関連付けられるすべての視覚的物体２２を全体的または部分的に除外および／または修正する。その結果、減衰された音源１２は見えない。

必ずしもすべての実施例ではないが、いくつかの実施例では、イメージの取込みを修正することが、オーディオフォーカス減衰を受ける音源１２に関連付けられる、選択された視覚的物体２２を除外するように構成され、視覚的物体２２の選択が、
取り込まれたイメージ内の、オーディオフォーカス減衰を受ける音源１２に関連付けられる視覚的物体２２の数を最小限に抑えること、
取り込まれたイメージから除外される、オーディオフォーカス減衰を受ける音源１２に関連付けられる視覚的物体２２の数を最大にすること、
オーディオフォーカス減衰を受け、取り込まれたイメージ内の視覚的物体２２に関連付けられる音源１２の全エネルギーを最小限に抑えること、
オーディオフォーカス減衰を受け、取り込まれたイメージから除外される視覚的物体２２に関連付けられる音源１２の全エネルギーを最大にすること、
オーディオフォーカス減衰を受ける音源１２に関連付けられる視覚的物体２２の物体認識、
オーディオフォーカス減衰を受ける音源１２に関連付けられる視覚的物体２２の、装置５０に対する近接、
オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体２２の移動または変化、
オーディオフォーカス減衰を受ける音源１２に関連付けられる視覚的物体２２によって占められる、取り込まれたイメージの面積を最小限に抑えること
のうちの１つまたは複数に依存する。

「コンピュータ可読記憶媒体」、「コンピュータプログラム製品」、「有形に実施されたコンピュータプログラム」など、または「コントローラ」、「コンピュータ」、「プロセッサ」などへの参照は、単一／マルチプロセッサアーキテクチャや順次（フォンノイマン）／並列アーキテクチャなどの様々なアーキテクチャを有するコンピュータだけではなく、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け回路（ＡＳＩＣ）、信号処理デバイス、他の処理回路などの専用回路をも包含すると理解されたい。コンピュータプログラム、命令、コードなどへの参照は、たとえば、プロセッサのための命令であっても、固定機能デバイス、ゲートアレイ、またはプログラマブル論理デバイスなどのための構成設定であっても、ハードウェアデバイスのプログラム可能な内容などのプログラム可能プロセッサまたはファームウェアのためのソフトウェアを包含すると理解されたい。

本願では、「回路」という用語は、以下のうちの１つまたは複数またはすべてを指すことがある。
（ａ）ハードウェアのみの回路実装（アナログおよび／またはデジタルのみの回路実装など）、および
（ｂ）以下のような（適用可能なとき）、ハードウェア回路とソフトウェアの組合せ
（ｉ）アナログおよび／またはデジタルハードウェア回路とソフトウェア／ファームウェアの組合せ、および
（ｉｉ）携帯電話やサーバなどの装置に様々な機能を実施させるように共に働く、ソフトウェアを有するハードウェアプロセッサ（デジタル信号プロセッサを含む）、ソフトウェア、およびメモリの任意の部分、および
（ｃ）動作のためにソフトウェア（たとえばファームウェア）を必要とするが、動作のためにソフトウェアが不要であるときにソフトウェアが存在しないことがある、ハードウェア回路、および／またはマイクロプロセッサやマイクロプロセッサの一部などのプロセッサ。

回路のこの定義は、任意の請求項内を含む、本願でのこの用語のすべての使用に当てはまる。別の実施例として、本願では、回路という用語は、単なるハードウェア回路またはプロセッサおよびその付随するソフトウェアおよび／またはファームウェアの一実装をも包含する。回路という用語はまた、たとえば、特定の請求項要素に適用可能な場合、モバイルデバイス用のベースバンド集積回路、あるいはサーバ、セルラネットワークデバイス、または他のコンピューティングもしくはネットワークデバイス内の類似の集積回路をも包含する。

図３に示されるブロックは、方法でのステップ、および／またはコンピュータプログラム８６内のコードのセクションを表し得る。ブロックに対する特定の順序の例示は、ブロックについての必要とされる、または好ましい順序があることを必ずしも示唆せず、ブロックの順序および構成は変動し得る。さらに、いくつかのブロックを省略することが可能であり得る。

構造的特徴を説明したところでは、構造的特徴が、構造的特徴の機能のうちの１つまたは複数を実施するための手段によって、そうした機能が明示的に説明されるか、それとも暗黙的に説明されるかに関わらず置換され得る。

必ずしもすべての実施例ではないが、いくつかの実施例では、装置５０は、装置５０でのメモリ８４内へのデータのローカル記憶を用いて、または用いずに、装置５０での回路またはプロセッサによるデータのローカル処理を用いて、または用いずに、装置５０からデータを通信するように構成される。

データは、１つまたは複数のデバイスに処理済みフォーマットまたは未処理フォーマットでリモートに記憶され得る。データはクラウド内に記憶され得る。

データは１つまたは複数のデバイスでリモートに処理され得る。データは、部分的にローカルに処理され、１つまたは複数のデバイスで部分的にリモートに処理され得る。

データは、たとえばＷｉ－ＦｉやＢｌｕｅｔｏｏｔｈなどの近距離無線通信を介して、または遠距離セルラ無線リンクを介してワイヤレスにリモートデバイスに通信され得る。装置は、たとえばデータの通信用の無線トランシーバなどの通信インターフェースを備え得る。

装置５０は、より大規模な分散型ネットワークの部分を形成する、モノのインターネットの部分であり得る。

データの処理は、ローカルであっても、リモートであっても、健康監視、データアグリゲーション、患者監視、生命徴候監視、または他の目的のためのものであり得る。

データの処理は、ローカルであっても、リモートであっても、人工知能または機械学習アルゴリズムを使用し得る。データは、たとえば、機械学習ネットワークをトレーニングするための学習入力として使用され得、または機械学習ネットワークに対する照会入力として使用され得、機械学習ネットワークは応答を提供する。機械学習ネットワークは、たとえば、線形回帰、ロジスティック回帰、ベクトルサポートマシン、または単一もしくは複数隠れ層ニューラルネットワークなどの非循環機械学習ネットワーク（ａｃｙｃｌｉｃｍａｃｈｉｎｅｌｅａｒｎｉｎｇｎｅｔｗｏｒｋ）を使用し得る。

データの処理は、ローカルであっても、リモートであっても出力を生成し得る。出力は装置５０に通信され得、装置５０は、音声出力、視覚的出力、または触覚出力などの対象に感応する出力を生成し得る。

データの記録は一時的な記録のみを含み得、またはデータの記録は永続的記録を含み得、またはデータの記録は一時的記録と永続的記録の両方を含み得る。一時的記録は一時的なデータの記録を示唆する。これは、たとえば、感知またはイメージ取込み中に行われ、ダイナミックメモリで行われ、環状バッファ、レジスタ、キャッシュなどのバッファで行われ得る。永続的記録は、データが、アドレス指定可能メモリ空間から検索可能であるアドレス指定可能データ構造の形態であり、したがって削除または上書きされるまで記憶および検索され得ることを示唆するが、長期記憶が行われることがあり、または行われないことがある。イメージに関連する「取込み」という用語の使用は、イメージのデータの一時的記録に関係する。イメージに関連する「記憶」という用語の使用は、イメージのデータの永続的記録に関係する。

上記の実施例では、取り込まれたイメージは記録されたイメージでもあり得る。

ここでは、「モジュール」とは、製造業者またはユーザによって追加されることになるいくつかの部品／構成要素を除外するユニットまたは装置を指す。

たとえば、装置５０は、時間および／または空間で分離され得る、オーディオ入力回路６０、イメージ取込みデバイス７０、コントローラ８０、およびユーザ出力回路４０のうちの１つまたは複数に物理的に分離され得る。装置５０の機能は、複数の異なるデバイスであるが、機能的に結合されたデバイスを使用して実装され得る。

前述の実施例は、
自動車システム、遠隔通信システム、消費者電子製品を含む電子システム、分散コンピューティングシステム、音声コンテンツ、視覚的コンテンツ、およびオーディオビジュアルコンテンツ、ならびに複合現実感、媒介現実感、仮想現実感、および／または拡張現実感を含むメディアコンテンツを生成またはレンダリングするためのメディアシステム、パーソナルヘルスシステムまたはパーソナルフィットネスシステムを含むパーソナルシステム、ナビゲーションシステム、ヒューマンマシンインターフェースとも呼ばれるユーザインターフェース、セルラ、非セルラ、および光ネットワークを含むネットワーク、アドホックネットワーク、インターネット、モノのインターネット、仮想化ネットワーク、ならびに関連するソフトウェアおよびサービス
の使用可能構成要素として応用される。

「備える」という用語は、本文書では排他的ではなく包含的な意味で使用される。すなわち、Ｙを備えるＸに対する任意の参照は、Ｘがただ１つのＹを備え得、または複数のＹを備え得る。「備える」を排他的な意味で使用することが意図される場合、「ただ１つの．．を備える」を参照することによって、または「からなる」を使用することによって、文脈でそれが明らかにされる。

この説明では、様々な実施例に対して参照が行われた。実施例に関連する特徴または機能の説明は、そうした特徴または機能がその実施例に存在することを示す。本文での「実施例」または「たとえば」または「することができる」または「し得る」という用語の使用は、明示的に述べられたか否かに関わらず、そのような特徴または機能が、一例として説明されたか否かに関わらず、少なくとも説明された実施例に存在すること、および必ずしもそうではないが、他の実施例のうちのいくつか、またはすべての他の実施例に存在し得ることを示す。したがって、「実施例」、「たとえば」、「することができる」、または「し得る」は、実施例のクラス内の特定の例を参照する。例の特性は、その例のみの特性、またはクラスの特性、またはクラス内の例のすべてではないが一部を含むクラスのサブクラスの特性であり得る。したがって、一実施例を参照するが別の実施例を参照せずに説明された特徴が、可能なら、機能する組合せの部分としてその別の実施例で使用され得るが、その別の実施例で必ずしも使用する必要のないことが暗黙的に開示される。

先行するパラグラフで、様々な実施例を参照しながら実施形態が説明されたが、特許請求の範囲から逸脱することなく、与えられた実施例に対する修正が行われ得ることを理解されたい。

先行する説明で説明された特徴が、上記で明示的に説明した組合せ以外の組合せで使用され得る。

いくつかの特徴を参照しながら機能が説明されたが、そうした機能は、説明されたか否かに関わらず、他の特徴によって実施可能であり得る。

いくつかの実施形態を参照しながら特徴が説明されたが、そうした特徴は、説明されたか否かに関わらず、他の実施形態にも存在し得る。

「ａ」または「ｔｈｅ」という用語は、本文書では排他的な意味ではなく、包含的な意味で使用される。すなわち、Ｙを備えるＸ（Ｘｃｏｍｐｒｉｓｉｎｇａ／ｔｈｅＹ）に対する任意の参照は、文脈がそうではないことを明確に示すのでない限り、Ｘがただ１つのＹを備え得、または複数のＹを備え得ることを示す。「ａ」または「ｔｈｅ」を排他的な意味で使用することが意図される場合、文脈でそれが明らかにされる。ある状況では、「少なくとも１つ」または「１つまたは複数」の使用は、包含的な意味を強調するために使用され得るが、こうした用語の欠如を排他的な意味を推論するように理解するべきではない。

請求項での特徴（特徴の組合せ）の存在は、その特徴または（特徴の組合せ）自体に対する参照、さらには実質的に同一の技術的効果（同等の特徴）を達成する特徴に対する参照である。同等の特徴は、たとえば、変形形態であり、ほぼ同様にして実質的に同一の結果を達成する特徴を含む。同等の特徴は、たとえば、ほぼ同一の結果を達成するためにほぼ同一の方式でほぼ同一の機能を実施する特徴を含む。

この説明では、実施例の特徴を説明するために、形容詞または形容詞句を用いて様々な実施例に対する参照が行われた。実施例に関する、特徴のそのような説明は、特徴がいくつかの例では厳密に説明したように存在し、他の例ではほぼ説明したように存在することを示す。

上記の明細書では重要であると考えられる特徴に注意を引くように努めたが、出願人は、強調が置かれているか否かに関わらず、上記で参照され、かつ／または図面に示される、特許を受けることができる特徴または特徴の組合せに関して請求の範囲を介して保護を求めることがあることを理解されたい。

Claims

音源のオーディオフォーカス減衰を識別し、
オーディオフォーカス減衰を受ける前記音源と、対応する視覚的物体との間の対応を決定し、
オーディオフォーカス減衰を受ける前記音源に対応する前記視覚的物体を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正する
ための手段を備える装置。
オーディオフォーカス減衰を受ける前記音源の位置を決定し、
オーディオフォーカス減衰を受ける前記音源の前記位置に関連付けられる視覚的物体を決定し、
決定した視覚的物体を除外するように、取り込まれたイメージを修正する
ための手段を備える、請求項１に記載の装置。
オーディオフォーカス減衰を受ける前記音源の位置を決定するための前記手段が、
候補音源がしきい値を超えるエネルギーまたはレベルを有することを判定し、
目標音源と前記候補音源との間の十分な相関の欠如を判定し、
前記候補音源が前記しきい値を超えるエネルギーまたはレベルを有し、前記目標音源との間の十分な相関が欠如している場合、前記候補音源の位置を取得する
ための手段を備える、請求項２に記載の装置。
前記候補音源が、複数の場所のうちのいずれか１つに配置され得る、請求項３に記載の装置。
推定される音源の位置が空間オーディオを使用して特定され得る、請求項３または４に記載の装置。
前記目標音源がユーザ選択され、前記装置が、前記目標音源に関連付けられる視覚的物体の、ビューファインダディスプレイでのユーザ選択のための手段を備える、請求項３、４、または５に記載の装置。
オーディオフォーカス減衰を受ける前記音源の前記位置に関連付けられる視覚的物体を決定するための前記手段が、物体認識のための手段を備える、請求項２～６のいずれかに記載の装置。
イメージの取込みを修正するための前記手段が、取り込まれたイメージを再フレーミングして、前記音源に関連付けられる前記視覚的物体を除外するように構成される、請求項１～７のいずれかに記載の装置。
イメージの取込みを修正するための前記手段が、イメージセンサアレイで検出されたイメージに適用されるクロップを変更するように構成され、適用されるクロップが、取り込まれる前記イメージを決定する、請求項１～８のいずれかに記載の装置。
イメージの取込みを修正するための前記手段が、前記イメージセンサアレイで検出された前記イメージに適用される前記クロップの位置を変更するように構成される、請求項９に記載の装置。
イメージの取込みを修正するための前記手段が、前記イメージセンサアレイで検出された前記イメージに適用される前記クロップのサイズを維持するように構成される、請求項１０に記載の装置。
イメージの取込みを修正するための前記手段が、オーディオフォーカス減衰を受ける音源に関連付けられるすべての視覚的物体を除外するように構成される、請求項１～１１のいずれかに記載の装置。
イメージの取込みを修正するための前記手段が、オーディオフォーカス減衰を受ける音源に関連付けられる、選択された視覚的物体を除外するように構成され、前記視覚的物体の前記選択が、
取り込まれたイメージ内の、オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体の数を最小限に抑えること、
取り込まれたイメージから除外される、オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体の数を最大にすること、
オーディオフォーカス減衰を受け、取り込まれたイメージ内の視覚的物体に関連付けられる音源の全エネルギーを最小限に抑えること、
オーディオフォーカス減衰を受け、取り込まれたイメージから除外される視覚的物体に関連付けられる音源の全エネルギーを最大にすること、
オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体の物体認識、
オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体の、前記装置に対する近接、および
オーディオフォーカス減衰を受ける音源に関連付けられる視覚的物体によって占められる、取り込まれたイメージの面積を最小限に抑えること
のうちの１つまたは複数に依存する、請求項１～１１のいずれかに記載の装置。
コンピュータで実行されるとき、
音源のオーディオフォーカス減衰を識別することと、
オーディオフォーカス減衰を受ける前記音源と、対応する視覚的物体との間の対応を決定することと、
オーディオフォーカス減衰を受ける前記音源に対応する前記視覚的物体を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正することと
を実施するコンピュータプログラム。
音源のオーディオフォーカス減衰を識別することと、
オーディオフォーカス減衰を受ける前記音源と、対応する視覚的物体との間の対応を決定することと、
オーディオフォーカス減衰を受ける前記音源に対応する前記視覚的物体を少なくとも部分的に除外および／または修正するようにイメージの取込みを修正することと
を含む方法。