JP2014063359A - 信号処理装置および信号処理方法、出力装置および出力方法、並びにプログラム - Google Patents

信号処理装置および信号処理方法、出力装置および出力方法、並びにプログラム Download PDF

Info

Publication number
JP2014063359A
JP2014063359A JP2012208320A JP2012208320A JP2014063359A JP 2014063359 A JP2014063359 A JP 2014063359A JP 2012208320 A JP2012208320 A JP 2012208320A JP 2012208320 A JP2012208320 A JP 2012208320A JP 2014063359 A JP2014063359 A JP 2014063359A
Authority
JP
Japan
Prior art keywords
image
unit
base
block
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012208320A
Other languages
English (en)
Inventor
Shun Ami
俊 羅
Liqing Zhang
麗清 張
Haohua Zhao
浩華 招
Weizhi Xu
偉志 許
Zhenbang Sun
振邦 孫
Wei Shi
惟 施
Takefumi Nagumo
武文 名雲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012208320A priority Critical patent/JP2014063359A/ja
Priority to US14/022,606 priority patent/US20140086479A1/en
Priority to CN201310418697.XA priority patent/CN103679645A/zh
Publication of JP2014063359A publication Critical patent/JP2014063359A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】より正確な基底信号を得ることができるようにする。
【解決手段】学習部は、信号としての学習用の輝度画像の静止画像が、基底画像係数が疎となる複数の基底信号としての基底画像の線形演算で表されるように、基底画像係数間の相関性を表す項を含むコスト関数を用いて複数の基底信号としての基底画像を学習する。本技術は、例えば、スパースコーディングにおける基底信号を学習する学習装置に適用することができる。
【選択図】図2

Description

本技術は、信号処理装置および信号処理方法、出力装置および出力方法、並びにプログラムに関し、特に、より正確な基底信号を得ることができるようにした信号処理装置および信号処理方法、出力装置および出力方法、並びにプログラムに関する。
近年、スパースコーディング(sparse coding)を用いた画像復元技術が多く研究されている。スパースコーディングとは、人間の視覚系をモデリングし、信号を基底信号に分解して表現する手法である。
具体的には、人間の視覚系では、網膜で捉えられた画像は、そのままの形で上位の認識機構に伝達されるのではなく、初期視覚の段階で、以下の式(1)に示すように複数の基底画像の線形和に分解されて伝達されると考えられている。
(画像)=Σ[(係数)×(基底画像)]
・・・(1)
ここで、式(1)において、多くの係数は0となり僅かな係数だけが大きな値となる、即ち係数は疎(sparse)となるという特徴がある。このため、人間の視覚系をモデリングし、信号を基底信号に分解して表現する手法は、スパースコーディングと呼ばれる。
スパースコーディングでは、まず、上述した式(1)によりモデリングされた基底信号が、以下の式(2)に示すコスト関数を用いて学習される。なお、ここでは、スパースコーディング対象となる信号が画像であるものとする。
L=argmin{||Dα-Y||+μ||α||
・・・(2)
式(2)において、Lは、コスト関数であり、Dは、基底画像の各画素の画素値を列方向に並べたものを、基底画像ごとに行方向に並べた行列(以下、基底画像行列という)である。また、αは、各基底画像の係数(以下、基底画像係数という)を列方向に並べたベクトル(以下、基底画像係数ベクトルという)であり、Yは、学習用の画像の各画素の画素値を列方向に並べたベクトル(以下、学習用画像ベクトルという)である。μは予め設定されたパラメータである。
次に、式(2)において、学習された基底画像と、学習用の画像の代わりにスパースコーディング対象の画像とを用いることにより求められたコスト関数が、所定値以下になるときの基底画像係数が求められる。
近年、スパースコーディング対象の画像をブロックに分割し、ブロック単位で基底画像係数を求める方法が考案されている(例えば、非特許文献1参照)。
また、コスト関数における基底画像係数に対する拘束としては、式(2)で示したL0ノルム以外に、L1ノルムやL1ノルムの近似式などが存在する(例えば、非特許文献2参照)。基底画像係数がL1ノルムで拘束される場合、コスト関数は以下の式(3)で表され、基底画像係数がL1ノルムの近似式で拘束される場合、コスト関数は以下の式(4)で表される。
L=argmin{||Dα-Y||+μ||α||
・・・(3)
Figure 2014063359
なお、式(3)および(4)において、Lはコスト関数であり、Dは基底画像行列であり、αは基底画像係数ベクトルであり、Yは学習用画像ベクトルであり、μは予め設定されたパラメータである。また、式(4)において、a,y,bは、予め設定されたパラメータである。
ところで、スパースコーディングの最も重要な要素は基底信号の学習である。従来、基底信号は、冗長性かつランダム性(基底信号間の相関性がない)を有すると仮定されて学習されている。
Michal Aharon,Michael Elad,and Alred Bruckstein,"K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation",IEEE TRANSACTION ON SIGNAL PROCESSING,VOL.54,NO.11,NOVEMBER 2006,P4311-4322 Libo Ma,Liqing Zhang,"Overcomplete topographic independent component analysis",Neurocomputing,10 March 2008,P2217-2223
しかしながら、近年、人間の視覚系についての最新研究から、ニューロンの発火はランダムに発生するのではなく、近傍のニューロンの発火と相関性を有する(Topographic構造を有する)ことがわかっている。従って、従来のように、基底信号が、基底信号間の相関性がないと仮定して学習される場合、正確な基底信号を学習することはできない。
本技術は、このような状況に鑑みてなされたものであり、より正確な基底信号を得ることができるようにするものである。
本技術の第1の側面の信号処理装置は、信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて前記複数の基底信号を学習する学習部を備える信号処理装置である。
本技術の第1の側面の信号処理方法およびプログラムは、本技術の第1の側面の信号処理装置に対応する。
本技術の第1の側面においては、信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて前記複数の基底信号が学習される。
本技術の第2の側面の出力装置は、信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて学習された前記複数の基底信号、所定の信号、および前記コスト関数に基づいて、前記所定の信号の前記係数を演算する演算部を備える出力装置である。
本技術の第2の側面の出力方法およびプログラムは、本技術の第2の側面の出力装置に対応する。
本技術の第2の側面においては、信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて学習された前記複数の基底信号、所定の信号、および前記コスト関数に基づいて、前記所定の信号の前記係数が演算される。
第1の側面の信号処理装置および第2の側面の出力装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
本技術の第1の側面によれば、より正確な基底信号を学習することができる。
また、本技術の第2の側面によれば、より正確に学習された基底信号を得て、その基底信号の係数を演算することができる。
スパースコーディングによる画像復元の概要を説明する図である。 本技術を適用した信号処理装置の第1実施の形態としての学習装置の構成例を示すブロック図である。 図2の分割部により分割されるブロックの第1の例を示す図である。 図2の分割部により分割されるブロックの第2の例を示す図である。 図2の学習部における学習の背景を説明する図である。 図2の学習部による学習時の拘束条件を説明する図である。 図2の学習装置の学習処理を説明するフローチャートである。 本技術を適用した出力装置の第1実施の形態としての画像生成装置の第1の構成例を示すブロック図である。 図8の生成部の処理を説明する図である。 図8の画像生成装置の生成処理を説明するフローチャートである。 本技術を適用した出力装置の第1実施の形態としての画像生成装置の第2の構成例を示すブロック図である。 図11の画像生成装置の生成処理を説明するフローチャートである。 本技術を適用した信号処理装置の第2実施の形態としての学習装置の構成例を示すブロック図である。 図13の学習部による学習時の拘束条件を説明する図である。 図13の学習装置の学習処理を説明するフローチャートである。 本技術を適用した出力装置の第2実施の形態としての画像生成装置の構成例を示すブロック図である。 図16の画像生成装置の生成処理を説明するフローチャートである。 本技術を適用した信号処理装置の第3実施の形態としての学習装置の構成例を示すブロック図である。 図18の帯域分割部の構成例を示すブロック図である。 図18の学習部による学習時の拘束条件を説明する図である。 図18の学習装置の学習処理を説明するフローチャートである 本技術を適用した出力装置の第3実施の形態としての画像生成装置の構成例を示すブロック図である。 図22の生成部の構成例を示すブロック図である。 図22の画像生成装置の生成処理を説明するフローチャートである。 本技術を適用した信号処理装置の第4実施の形態としての学習装置の構成例を示すブロック図である。 図25の学習部による学習時の拘束条件を説明する図である。 本技術を適用した出力装置の第4実施の形態としての画像生成装置の構成例を示すブロック図である。 本技術を適用した信号処理装置の第5実施の形態としての学習装置の構成例を示すブロック図である。 本技術を適用した出力装置の第5実施の形態としてのオーディオ生成装置の構成例を示すブロック図である。 本技術を適用した信号処理装置の第6実施の形態としての学習装置の構成例を示すブロック図である。 図30の学習装置の学習処理を説明するフローチャートである。 本技術を適用した出力装置の第6実施の形態としての異常検知装置の構成例を示すブロック図である。 図32の抽出部により抽出される検知領域の例を示す図である。 図32の認識部による異常情報の生成方法を説明する図である。 図32の異常検知装置の異常検知処理を説明するフローチャートである。 コンピュータのハードウエアの構成例を示すブロック図である。
<第1実施の形態>
[スパースコーディングによる画像復元の概要]
図1は、スパースコーディングによる画像復元の概要を説明する図である。
図1に示すように、スパースコーディングによる画像復元では、事前に、大量の画質劣化のない学習用の画像を用いて基底画像が学習され、その結果得られる基底画像が保持されている。そして、スパースコーディングの対象として入力される画質が劣化した劣化画像に対して、基底画像を用いて基底画像係数の最適化が行われ、最適化された基底画像係数と基底画像を用いて、劣化画像に対応する画質劣化のない画像が、復元画像として生成される。
[学習装置の構成例]
図2は、本技術を適用した信号処理装置の第1実施の形態としての学習装置の構成例を示すブロック図である。
図2に示すように、学習装置10は、分割部11、学習部12、および記憶部13により構成され、画像復元用のスパースコーディングの基底画像を学習する。
具体的には、学習装置10の分割部11には、外部から大量の画質劣化のない学習用の輝度画像の静止画像が入力される。分割部11は、学習用の輝度画像の静止画像を所定のサイズ(例えば、8×8画素)のブロックに分割し、学習部12に供給する。
学習部12は、分割部11から供給されるブロックを上述した式(1)によりモデリングして、基底画像係数間で空間的な相関性を有するという拘束条件の下に、ブロック単位の基底画像を学習する。具体的には、学習部12は、ブロック単位の学習用の輝度画像の静止画像と、基底画像係数間の空間的な相関性を表す項を含むコスト関数とを用いて、ブロック単位の基底画像を学習する。学習部12は、学習されたブロック単位の基底画像を記憶部13に供給する。
記憶部13は、学習部12から供給されるブロック単位の基底画像を記憶する。
[ブロックの例]
図3は、図2の分割部11により分割されるブロックの第1の例を示す図である。
図3の例では、分割部11は、学習用の輝度画像の静止画像30を、所定のサイズのブロックのいずれかに分割する。従って、水平方向に隣接するブロック31とブロック32、および、垂直方向に隣接するブロック31とブロック33は重ならない。
図4は、図2の分割部11により分割されるブロックの第2の例を示す図である。
図4の例では、分割部11は、学習用の輝度画像の静止画像40を、ブロックサイズより小さい間隔(図4の例では、ブロックサイズの1/4)で水平方向および垂直方向に隣接する所定のサイズ(ブロックサイズ)のブロックに分割する。従って、水平方向に隣接するブロック41とブロック42、および、垂直方向に隣接するブロック41とブロック43は重なる。
図4に示したように、ブロックが重なるように分割される場合、図3の場合に比べて、学習の処理量は多くなるが、学習の精度は向上する。なお、ブロックの形状は正方形に限定されない。
[学習の説明]
図5は、図2の学習部12における学習の背景を説明する図である。
なお、図5において、各正方形は、ブロック単位の基底画像を表しており、図5では、ブロック単位の基底画像が水平方向および垂直方向に並べられている。
近年、人間の視覚系についての最新研究から、ニューロンの発火はランダムに発生するのではなく、近傍のニューロンの発火と相関性を有する(Topographic構造を有する)ことがわかっている。
しかしながら、式(2)乃至(4)のいずれかで定義されるコスト関数に基づく従来の学習では、基底画像係数間に相関性がないと仮定されており、図5の左側に示すように、学習された基底画像間には空間的な相関性がない。
そこで、学習部12は、基底画像係数間で空間的な相関性を有するという拘束条件の下に基底画像の学習を行うことにより、人間の視覚系により近いモデルで基底画像を学習する。その結果、図5の右側に示すように、学習された基底画像間には空間的な相関性がある。
図6は、図2の学習部12による学習時の拘束条件を説明する図である。
学習部12は、基底画像係数間で空間的な相関性を有する基底画像を学習する。そのため、学習部12は、図6に示すように、ブロック単位の基底画像61の基底画像係数が、その基底画像61を中心とした3×3個のブロック単位の基底画像61乃至69の基底画像係数と同様の疎表現(0または非0)を有するという拘束条件をコスト関数の演算時に与える。
具体的には、学習部12は、以下の式(5)によりコスト関数を定義する。
Figure 2014063359
なお、式(5)において、Dは、ブロック単位の基底画像行列(以下、ブロック単位基底画像行列という)であり、αは、ブロック単位の基底画像係数ベクトル(以下、ブロック単位基底画像係数ベクトルという)である。また、Yは、ブロック単位の学習用の輝度画像の静止画像の各画素の画素値を列方向に並べたベクトル(以下、学習用輝度画像ベクトルという)であり、μは予め設定されたパラメータである。
さらに、h(i,j)は、i番目(i=1,…,基底画像数n)のブロック単位の基底画像の基底画像係数と、i番目のブロック単位の基底画像を中心とした3×3個のブロック単位の基底画像のうちのj番目(j=1,・・・,9)のブロック単位の基底画像の基底画像係数との相関関係を表す係数(以下、相関係数という)である。αは、j番目(j=1,・・・,9)のブロック単位の基底画像の基底画像係数である。従って、式(5)の右辺のargmin()内の第2項は、基底画像係数間の空間的な相関性を表す項である。
学習部12は、このようにして定義されたコスト関数を用いて、最急降下法により基底画像を学習する。具体的には、学習部12は、全ての学習用の輝度画像の静止画像の全てのブロックについて以下の処理を行う。
まず、学習部12は、以下の式(6)に示すように、式(5)で定義されるコスト関数をブロック単位基底画像係数ベクトルに対して偏微分し、ブロック単位基底画像行列を初期値にしてΔαを計算する。なお、ブロック単位基底画像行列の初期値としては、ランダムな値や所定値が用いられる。
Figure 2014063359
式(6)において、Dはブロック単位基底画像行列であり、αはブロック単位基底画像係数ベクトルであり、Yは学習用輝度画像ベクトルであり、μは予め設定されたパラメータである。また、h(i,j)は相関係数であり、αはj番目(j=1,・・・,9)のブロック単位の基底画像の基底画像係数である。
次に、学習部12は、Δαを用いて、以下の式(7)に示すように、ブロック単位基底画像係数ベクトルを更新する。
α=α+ηΔα
・・・(7)
なお、式(7)において、αはブロック単位基底画像係数ベクトルであり、ηは最急降下法のパラメータである。
そして、学習部12は、以下の式(8)に示すように、式(5)で定義されるコスト関数をブロック単位基底画像行列に対して偏微分し、更新後のブロック単位基底画像係数ベクトルを用いてΔDを計算する。
Figure 2014063359
式(8)において、Yは学習用輝度画像ベクトルであり、Dはブロック単位基底画像行列であり、αはブロック単位基底画像係数ベクトルである。
次に、学習部12は、ΔDを用いて、以下の式(9)に示すように、ブロック単位基底画像行列を更新する。
D=D+ηΔD
・・・(9)
式(9)において、Dはブロック単位基底画像行列であり、ηは最急降下法のパラメータである。
そして、学習部12は、更新後のブロック単位基底画像行列とブロック単位基底画像係数ベクトルを用いて、全ての学習用の輝度画像の静止画像の全てのブロックについて式(5)で定義されるコスト関数を演算する。そのコスト関数の和が所定値以下ではない場合、学習部12は、コスト関数の和が所定値以下となるまで、ブロック単位基底画像行列とブロック単位基底画像係数ベクトルの更新を繰り返す。コスト関数の和が所定値以下である場合、学習部12は、更新後のブロック単位基底画像行列を構成するブロック単位の基底画像を学習結果とする。
なお、本明細書では、jは9とするが、jは2以上であればどのような値であってもよい。
[学習装置の処理の説明]
図7は、図2の学習装置10の学習処理を説明するフローチャートである。この学習処理は、例えば、外部から全ての学習用の輝度画像の静止画像が学習装置10に入力されたとき、オフラインで行われる。
図7のステップS11において、分割部11は、外部から入力された学習用の輝度画像の静止画像を所定のサイズのブロックに分割し、学習部12に供給する。ステップS12において、学習部12は、学習の繰り返し回数Nを1に設定する。以降のステップS13乃至S17およびステップS19の処理は、全ての学習用の輝度画像の静止画像の全てのブロックに対して、ブロックごとに行われる。
ステップS13において、学習部12は、ブロック単位基底画像行列を初期値に設定する。ステップS14において、学習部12は、設定されたブロック単位基底画像行列と、分割部11から供給されるブロックとを用いて、上述した式(6)により、Δαを計算する。
ステップS15において、学習部12は、ステップS14で計算されたΔαを用いて、上述した式(7)によりブロック単位基底画像係数ベクトルを更新する。ステップS16において、学習部12は、ステップS15で更新されたブロック単位基底画像係数ベクトルとブロックとを用いて、上述した式(8)によりΔDを計算する。
ステップS17において、学習部12は、ステップS16で計算されたΔDを用いて、上述した式(9)によりブロック単位基底画像行列を更新する。ステップS18において、学習部12は、学習の繰り返し回数Nを1だけインクリメントする。
ステップS19において、学習部12は、ステップS15で更新されたブロック単位基底画像係数ベクトル、ステップS17で更新されたブロック単位基底画像行列、および、ブロックを用いて、上述した式(5)によりコスト関数を求める。
ステップS20において、学習部12は、全ての学習用の輝度画像の静止画像の全てのブロックのコスト関数の和が所定の閾値より小さいかどうかを判定する。ステップS20でコスト関数の和が所定の閾値以上であると判定された場合、処理はステップS21に進む。
ステップS21において、学習部12は、学習の繰り返し回数Nが所定の閾値より大きいかどうかを判定する。ステップS21で学習の繰り返し回数Nが所定の閾値以下であると判定された場合、処理はステップS14に戻る。そして、コスト関数の和が所定の閾値より小さくなるか、または、学習の繰り返し回数Nが所定の閾値より大きくなるまで、ステップS14乃至S21の処理が繰り返される。
一方、ステップS20でコスト関数の和が所定の閾値より小さいと判定された場合、または、ステップS21で学習の繰り返し回数Nが所定の閾値より大きいと判定された場合、処理はステップS22に進む。
ステップS22において、学習部12は、直前のステップS17で更新されたブロック単位基底画像行列を構成するブロック単位の基底画像を記憶部13に供給し、記憶させる。
なお、ここでは、全ての学習用の輝度画像の静止画像の全てのブロックを用いてブロック単位基底画像行列を繰り返し学習したが、各ブロックを用いた繰り返し学習を順に行うようにしてもよい。
以上のように、学習装置10は、学習用の輝度画像の静止画像が、基底画像係数が疎となる基底画像の線形演算で表されるように、基底画像係数間の空間的な相関性を表す項を含むコスト関数を用いて基底画像を学習する。従って、より人間の視覚系に近いモデルを用いて基底画像を学習することができる。その結果、より正確な基底画像を学習することができる。
[画像生成装置の第1の構成例]
図8は、図2の学習装置10により学習された基底画像を用いて画像を生成する、本技術を適用した出力装置の第1実施の形態としての画像生成装置の第1の構成例を示すブロック図である。
図8に示すように、画像生成装置80は、分割部81、記憶部82、演算部83、および生成部84により構成される。画像生成装置80は、外部から劣化画像として入力される輝度画像の静止画像に対してスパースコーディングを行うことにより、復元画像を生成する。
具体的には、画像生成装置80の分割部81には、外部から輝度画像の静止画像が劣化画像として入力される。分割部81は、外部から入力された劣化画像を、図2の分割部11と同様に所定のサイズのブロックに分割し、演算部83に供給する。
記憶部82は、図2の学習装置10により学習され、記憶部13に記憶されたブロック単位の基底画像を記憶する。
演算部83は、記憶部82からブロック単位の基底画像を読み出す。演算部83は、分割部81から供給される劣化画像のブロックごとに、コスト関数が所定の閾値より小さくなるように、ブロック単位基底画像係数ベクトルを演算する。このコスト関数は、読み出されたブロック単位の基底画像からなるブロック単位基底画像行列を用いて、上述した式(5)のYを劣化画像のブロックの各画素の画素値を列方向に並べたベクトル(以下、劣化画像ベクトルという)にした式により定義される。演算部83は、ブロック単位基底画像係数ベクトルを生成部84に供給する。
生成部84は、記憶部82からブロック単位の基底画像を読み出す。生成部84は、ブロックごとに、演算部83から供給されるブロック単位基底画像係数ベクトルと、読み出されたブロック単位の基底画像からなるブロック単位基底画像行列とを用いて、以下の式(10)によりブロック単位の輝度画像の静止画像を生成する。
X=D×α
・・・(10)
式(10)において、Xは、生成されるブロック単位の輝度画像の静止画像の各画素の画素値を列方向に並べたベクトル(以下、ブロック単位生成画像ベクトルという)であり、Dは、ブロック単位基底画像行列であり、αは、ブロック単位基底画像係数ベクトルである。
生成部84は、各ブロックのブロック単位の輝度画像の静止画像から1枚の輝度画像の静止画像を生成し、復元画像として出力する。
[生成部の処理の説明]
図9は、分割部81が劣化画像を図4に示したブロックに分割する場合の図8の生成部84の処理を説明する図である。
なお、図9において、実線の正方形は画素を表し、点線の正方形はブロックを表す。図9の例では、ブロックのサイズは4×4画素である。
図9に示すように、分割部81が劣化画像100を図4に示したブロックに分割する場合、生成部84は、復元画像の各画素の画素値として、その画素に対応するブロックのブロック単位生成画像ベクトルの成分の平均値を生成する。
具体的には、例えば、左上の画素101はブロック111にのみ含まれる。従って、生成部84は、画素101の画素値を、ブロック111のブロック単位生成画像ベクトルの画素101に対応する成分とする。
これに対して、画素101の右隣の画素102は、ブロック111とブロック112に含まれる。従って、生成部84は、画素102の画素値を、ブロック111およびブロック112のブロック単位生成画像ベクトルの画素102に対応する成分の平均値とする。
また、画素101の直下の画素103は、ブロック111とブロック113に含まれる。従って、生成部84は、画素103の画素値を、ブロック111およびブロック113のブロック単位生成画像ベクトルの画素103に対応する成分の平均値とする。
さらに、画素103の右隣の画素104は、ブロック111乃至ブロック114に含まれる。従って、生成部84は、画素104の画素値を、ブロック111乃至ブロック114のブロック単位生成画像ベクトルの画素104に対応する成分の平均値とする。
一方、図示は省略するが、分割部81が劣化画像を図3に示したブロックに分割する場合、生成部84は、各ブロックのブロック単位生成画像ベクトルの各成分を、その成分に対応する画素の画素値として合成し、復元画像を生成する。
[画像生成装置80の処理の説明]
図10は、図8の画像生成装置80の生成処理を説明するフローチャートである。この生成処理は、例えば、外部から劣化画像として輝度画像の静止画像が入力されたとき、開始される。
図10のステップS41において、画像生成装置80の分割部81は、外部から劣化画像として入力された輝度画像の静止画像を、図2の分割部11と同様に所定のサイズのブロックに分割し、演算部83に供給する。なお、以降のステップS42乃至S51の処理は、ブロック単位で行われる。
ステップS42において、演算部83は、ブロック単位基底画像係数ベクトルの演算の繰り返し回数Mを1に設定する。
ステップS43において、演算部83は、記憶部82からブロック単位の基底画像を読み出す。ステップS44において、演算部83は、読み出されたブロック単位の基底画像からなるブロック単位基底画像行列と、分割部81から供給されるブロックとを用いて、上述した式(6)のYを劣化画像ベクトルにした式により、Δαを計算する。
ステップS45において、演算部83は、ステップS44で計算されたΔαを用いて、上述した式(7)によりブロック単位基底画像係数ベクトルを更新する。ステップS46において、演算部83は、繰り返し回数Mを1だけインクリメントする。
ステップS47において、演算部83は、ステップS45で更新されたブロック単位基底画像係数ベクトル、ブロック単位基底画像行列、および、劣化画像のブロックを用いて、上述した式(5)のYを劣化画像ベクトルにした式によりコスト関数を求める。
ステップS48において、演算部83は、コスト関数が所定の閾値より小さいかどうかを判定する。ステップS48でコスト関数が所定の閾値以上であると判定された場合、ステップS49において、演算部83は、繰り返し回数Mが所定の閾値より大きいかどうかを判定する。
ステップS49で繰り返し回数Mが所定の閾値以下であると判定された場合、演算部83は、処理をステップS44に戻す。そして、コスト関数が所定の閾値より小さくなるか、または、繰り返し回数Mが所定の閾値より大きくなるまで、ステップS44乃至S49の処理が繰り返される。
一方、ステップS48でコスト関数が所定の閾値より小さいと判定された場合、または、ステップS49で繰り返し回数Mが所定の閾値より大きいと判定された場合、演算部83は、直前のステップS45で更新されたブロック単位基底画像係数ベクトルを生成部84に供給する。
そして、ステップS50において、生成部84は、記憶部82からブロック単位の基底画像を読み出す。ステップS51において、生成部84は、読み出されたブロック単位の基底画像からなるブロック単位基底画像行列と、演算部83から供給されるブロック単位基底画像係数ベクトルとを用いて、上述した式(10)によりブロック単位の輝度画像の静止画像を生成する。
ステップS52において、生成部84は、ブロックの分割方法に応じて、ブロック単位の輝度画像の静止画像から1枚の輝度画像の静止画像を生成する。ステップS53において、生成部84は、生成された1枚の輝度画像の静止画像を復元画像として出力し、処理を終了する。
以上のように、画像生成装置80は、学習装置10により学習された基底画像を得て、その基底画像、劣化画像、および基底画像係数間の空間的な相関性を表す項を含むコスト関数に基づいて、基底画像係数を演算する。従って、画像生成装置80は、人間の視覚系に近いモデルの基底画像と基底画像係数を得ることができる。よって、画像生成装置80は、得られた基底画像と基底画像係数を用いて、高画質な復元画像を生成することができる。
[画像生成装置の第2の構成例]
図11は、図2の学習装置10により学習された基底画像を用いて画像を生成する、本技術を適用した出力装置の第1実施の形態としての画像生成装置の第2の構成例を示すブロック図である。
図11に示す構成のうち、図8の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図11の画像生成装置130の構成は、演算部83の代わりに演算部131が設けられ、生成部84の代わりに生成部132が設けられる点が図8の構成と異なる。画像生成装置130は、復元画像を生成するとともに基底画像を学習する。
具体的には、画像生成装置130の演算部131は、図8の演算部83と同様に、記憶部82からブロック単位の基底画像を読み出す。演算部131は、分割部81から供給される劣化画像のブロックごとに、コスト関数が所定の閾値より小さくなるように、ブロック単位基底画像行列を学習しつつ、ブロック単位基底画像係数ベクトルを演算する。
このコスト関数は、読み出されたブロック単位の基底画像からなるブロック単位基底画像行列を用いて、上述した式(5)のYを劣化画像ベクトルにした式により定義される。演算部131は、学習されたブロック単位基底画像行列とブロック単位基底画像係数ベクトルとを生成部132に供給する。
生成部132は、ブロックごとに、演算部131から供給されるブロック単位基底画像係数ベクトルとブロック単位基底画像行列とを用いて、上述した式(10)によりブロック単位の輝度画像の静止画像を生成する。生成部132は、図8の生成部84と同様に、各ブロックのブロック単位の輝度画像の静止画像から1枚の輝度画像の静止画像を生成し、復元画像として出力する。
[画像生成装置130の処理の説明]
図12は、図11の画像生成装置130の生成処理を説明するフローチャートである。この生成処理は、例えば、外部から劣化画像として輝度画像の静止画像が入力されたとき、開始される。
図12のステップS71乃至S75の処理は、図10のステップS41乃至S45の処理と同様であるので、説明は省略する。以降のステップS76乃至S82の処理は、ブロック単位で行われる。
ステップS76において、演算部131は、ステップS75で更新されたブロック単位基底画像係数ベクトルと劣化画像のブロックとを用いて、上述した式(8)のYを劣化画像ベクトルにした式によりΔDを計算する。
ステップS77において、演算部131は、ステップS77で計算されたΔDを用いて、上述した式(9)によりブロック単位基底画像行列を更新する。ステップS78において、演算部131は、繰り返し回数Mを1だけインクリメントする。
ステップS79において、演算部131は、ステップS75で更新されたブロック単位基底画像係数ベクトル、ステップS77で更新されたブロック単位基底画像行列、および、劣化画像のブロックを用いて、上述した式(5)のYを劣化画像ベクトルにした式によりコスト関数を求める。
ステップS80において、演算部131は、コスト関数が所定の閾値より小さいかどうかを判定する。ステップS80でコスト関数が所定の閾値以上であると判定された場合、処理はステップS81に進む。
ステップS81において、演算部131は、繰り返し回数Mが所定の閾値より大きいかどうかを判定する。ステップS81で繰り返し回数Mが所定の閾値以下であると判定された場合、処理はステップS74に戻る。そして、コスト関数が所定の閾値より小さくなるか、または、学習の繰り返し回数Mが所定の閾値より大きくなるまで、ステップS74乃至S81の処理が繰り返される。
一方、ステップS80でコスト関数が所定の閾値より小さいと判定された場合、または、ステップS81で繰り返し回数Mが所定の閾値より大きいと判定された場合、演算部131は、直前のステップS75で更新されたブロック単位基底画像係数ベクトルと、ステップS77で更新されたブロック単位基底画像行列を生成部132に供給する。
そして、ステップS82において、生成部132は、演算部131から供給されるブロック単位基底画像係数ベクトルとブロック単位基底画像行列を用いて、上述した式(10)によりブロック単位の輝度画像の静止画像を生成する。
ステップS83およびS84の処理は、図10のステップS52およびS53の処理と同様であるので、説明は省略する。
なお、図12の生成処理では、ブロックごとにブロック単位基底画像行列が更新されるようにしたが、劣化画像単位でブロック単位基底画像行列が更新されるようにしてもよい。この場合、劣化画像の全てのブロックについてコスト関数が求められ、そのコスト関数の和に基づいて繰り返し演算が行われる。
以上のように、画像生成装置130は、復元画像を生成するとともに、ブロック単位の基底画像を学習するので、ブロック単位の基底画像の精度を向上させ、高画質の復元画像を生成することができる。
しかしながら、画像生成装置130では、劣化画像が入力されるたびに学習を行う、即ちオンライン学習を行う必要があるため、高い処理能力が要求される。従って、比較的処理能力の高いパーソナルコンピュータ等には画像生成装置130を適用し、比較的処理能力の低いデジタルカメラや携帯端末には画像生成装置80を適用すると好適である。
なお、第1実施の形態では、学習用の画像および劣化画像が輝度画像の静止画像であったが、色画像の静止画像であってもよい。
学習用の画像および劣化画像が色画像の静止画像である場合には、その色画像の静止画像が、色チャンネル(例えば、R(Red),G(Green),B(Blue))ごとに所定のサイズのブロックに分割される。そして、以下の式(11)に示すように色チャンネルごとにコスト関数が定義される。その結果、学習装置10は、色チャンネルごとにブロック単位の基底画像を学習し、画像生成装置80(130)は、色チャンネルごとに色画像の静止画像を生成する。
Figure 2014063359
式(11)において、L,L,Lは、それぞれ、R,G,Bの色チャンネルのコスト関数であり、D,D,Dは、それぞれ、R,G,Bの色チャンネルのブロック単位基底画像行列である。また、αは、それぞれ、R,G,Bの色チャンネルのブロック単位基底画像係数ベクトルであり、R,G,Bは、それぞれ、R,G,Bの色チャンネルのブロック単位の学習用の色画像の静止画像の各画素の画素値を列方向に並べたベクトル(以下、学習用色画像ベクトルという)である。μは予め設定されたパラメータである。
さらに、h(i,j)は、相関係数である。α は、それぞれ、R,G,Bの色チャンネルのi番目(i=1,…,基底画像数n)のブロック単位の基底画像を中心とした3×3個のブロック単位の基底画像のうちのj番目(j=1,・・・,9)のブロック単位の基底画像の基底画像係数である。また、a,y,bは、予め設定されたパラメータである。
また、学習用の画像および劣化画像は、動画像であってもよい。この場合、その動画像はフレームごとに所定のサイズのブロックに分割される。
<第2実施の形態>
[学習装置の構成例]
図13は、本技術を適用した信号処理装置の第2実施の形態としての学習装置の構成例を示すブロック図である。
図13の学習装置150は、分割部151、学習部152、および記憶部153により構成される。学習装置150は、学習用の各色チャンネルの色画像の静止画像を用いて、各色チャンネルの基底画像係数間で相関性を有し、かつ、全ての色チャンネルの基底画像係数間で空間的な相関性を有するように、基底画像を学習する。
具体的には、分割部151には、外部から大量の画質劣化のない学習用の各色チャンネルの色画像の静止画像が入力される。分割部151は、色チャンネルごとに、学習用の色画像の静止画像を所定のサイズのブロックに分割し、学習部152に供給する。
学習部152は、分割部151から供給される各色チャンネルのブロックを上述した式(1)によりモデリングして、各色チャンネルの基底画像係数間で相関性を有し、かつ、全ての色チャンネルの基底画像係数間で空間的な相関性を有するという拘束条件の下に、各色チャンネルのブロック単位の基底画像を学習する。
具体的には、学習部152は、各色チャンネルのブロックと、各色チャンネルの基底画像係数間の相関性と全ての色チャンネルの基底画像係数間の空間的な相関性とを表す項を含むコスト関数とを用いて、各色チャンネルのブロック単位の基底画像を学習する。学習部152は、学習された各色チャンネルのブロック単位の基底画像を記憶部153に供給し、記憶させる。
[拘束条件の説明]
図14は、図13の学習部152による学習時の拘束条件を説明する図である。
学習部152は、各色チャンネルの基底画像係数間で相関性を有し、全ての色チャンネルの基底画像係数間で空間的な相関性を有する基底画像を学習する。そのため、学習部152は、図14に示すように、Rの色チャンネルのブロック単位の基底画像171A、その基底画像171Aを中心とした3×3個のブロック単位の基底画像からなる基底画像群171、Bの色チャンネルの基底画像群171と同一の位置の基底画像群172、およびGの色チャンネルの基底画像群171と同一の位置の基底画像群173の基底画像係数が同様の疎表現を有するという拘束条件をコスト関数の演算時に与える。
具体的には、学習部152は、以下の式(12)によりコスト関数を定義する。
Figure 2014063359
なお、式(12)において、D,D,Dは、それぞれ、R,G,Bの色チャンネルのブロック単位基底画像行列であり、αは、それぞれ、R,G,Bの色チャンネルのブロック単位基底画像係数ベクトルである。また、R,G,Bは、それぞれ、R,G,Bの色チャンネルの学習用色画像ベクトルであり、μは予め設定されたパラメータである。
さらに、h(i,j)は、相関係数である。α は、それぞれ、R,G,Bの色チャンネルのi番目(i=1,…,基底画像数n)のブロック単位の基底画像を中心とした3×3個のブロック単位の基底画像のうちのj番目(j=1,・・・,9)のブロック単位の基底画像の基底画像係数である。また、a,y,bは、予め設定されたパラメータである。
従って、式(12)の右辺のargmin()内の第4項は、各色チャンネルの基底画像係数間の相関性と全ての色チャンネルの基底画像係数間の空間的な相関性を表す項である。
[学習装置の処理の説明]
図15は、図13の学習装置150の学習処理を説明するフローチャートである。この学習処理は、例えば、外部から全ての学習用の輝度画像の静止画像が学習装置10に入力されたとき、オフラインで行われる。
図15のステップS91において、分割部151は、色チャンネルごとに、外部から入力された学習用の色画像の静止画像を所定のサイズのブロックに分割し、学習部152に供給する。ステップS92において、学習部12は、学習の繰り返し回数Nを1に設定する。以降のステップS93乃至S97およびステップS99の処理は、全ての学習用の輝度画像の静止画像の全てのブロックに対して、ブロックごとに行われる。
ステップS93において、学習部152は、各色チャンネルのブロック単位基底画像行列を初期値に設定する。
ステップS94において、学習部152は、設定された各色チャンネルのブロック単位基底画像行列と、分割部11から供給される各色チャンネルのブロックとを用いて、各色チャンネルのΔαを計算する。具体的には、学習部152は、式(12)で定義されるコスト関数を各色チャンネルのブロック単位基底画像係数ベクトルに対して偏微分した式により、各色チャンネルのブロック単位基底画像行列と各色チャンネルのブロックとを用いて、各色チャンネルのΔαを計算する。
ステップS95において、学習部152は、ステップS94で計算された各色チャンネルのΔαを用いて、色チャンネルごとに、上述した式(7)により各色チャンネルのブロック単位基底画像係数ベクトルを更新する。
ステップS96において、学習部152は、ステップS95で更新された各色チャンネルのブロック単位基底画像係数ベクトルと各色チャンネルのブロックとを用いて、各色チャンネルのΔDを計算する。具体的には、学習部152は、式(12)で定義されるコスト関数を各色チャンネルのブロック単位基底画像行列に対して偏微分した式により、各色チャンネルのブロック単位基底画像係数ベクトルと各色チャンネルのブロックとを用いて、各色チャンネルのΔDを計算する。
ステップS97において、学習部152は、ステップS96で計算された各色チャンネルのΔDを用いて、色チャンネルごとに、上述した式(9)により各色チャンネルのブロック単位基底画像行列を更新する。ステップS98において、学習部152は、学習の繰り返し回数Nを1だけインクリメントする。
ステップS99において、学習部152は、ステップS95で更新された各色チャンネルのブロック単位基底画像係数ベクトル、ステップS97で更新された各色チャンネルのブロック単位基底画像行列、および、各色チャンネルのブロックを用いて、上述した式(12)によりコスト関数を求める。
ステップS100およびS101の処理は、図7のステップS20およびS21の処理と同様であるので、説明は省略する。
ステップS102において、学習部152は、直前のステップS97で更新された各色チャンネルのブロック単位基底画像行列を構成するブロック単位の基底画像を記憶部153に供給し、記憶させる。
以上のように、学習装置150におけるコスト関数は、学習装置10の場合と同様に全ての色チャンネルの基底画像係数間の空間的な相関性を表すだけでなく、各色チャンネルの基底画像係数間の相関性も表す項を含む。従って、人間の視覚系に近いだけでなく、偽色の発生を抑制するモデルを用いて基底画像を学習することができる。その結果、より正確な基底画像を学習することができる。
[画像生成装置の構成例]
図16は、図13の学習装置150により学習された各色チャンネルの基底画像を用いて画像を生成する、本技術を適用した出力装置の第2実施の形態としての画像生成装置の構成例を示すブロック図である。
図16の画像生成装置190は、分割部191、記憶部192、演算部193、および生成部194により構成され、外部から劣化画像として入力される色画像の静止画像に対してスパースコーディングを行うことにより、復元画像を生成する。
具体的には、画像生成装置190の分割部191には、外部から色画像の静止画像が劣化画像として入力される。分割部191は、外部から入力された劣化画像を、色チャンネルごとに図13の分割部151と同様に所定のサイズのブロックに分割し、演算部193に供給する。
記憶部192は、図13の学習装置150により学習され、記憶部153に記憶された各色チャンネルのブロック単位の基底画像を記憶する。
演算部193は、記憶部192から各色チャンネルのブロック単位の基底画像を読み出す。演算部193は、分割部191から供給される劣化画像のブロックごとに、コスト関数が所定の閾値より小さくなるように、各色チャンネルのブロック単位基底画像係数ベクトルを演算する。このコスト関数は、読み出された各色チャンネルのブロック単位の基底画像からなるブロック単位基底画像行列を用いて、上述した式(12)のR,G,BをそれぞれR,G,Bの色チャンネルの劣化画像ベクトルにした式により定義される。演算部193は、各色チャンネルのブロック単位基底画像係数ベクトルを生成部194に供給する。
生成部194は、記憶部192から各色チャンネルのブロック単位の基底画像を読み出す。生成部194は、各色チャンネルのブロックごとに、演算部83から供給される各色チャンネルのブロック単位基底画像係数ベクトルと、読み出された各色チャンネルのブロック単位の基底画像からなるブロック単位基底画像行列とを用いて、上述した式(10)の輝度画像を各色チャンネルの色画像にした式により、色画像の静止画像を生成する。
生成部194は、各色チャンネルのブロックの色画像の静止画像から、各色チャンネルの1枚の色画像の静止画像を生成し、復元画像として出力する。
[画像生成装置の処理の説明]
図17は、図16の画像生成装置190の生成処理を説明するフローチャートである。この生成処理は、例えば、外部から劣化画像として各色チャンネルの色画像の静止画像が入力されたとき、開始される。
図17のステップS111において、画像生成装置190の分割部191は、外部から劣化画像として入力された各色チャンネルの色画像の静止画像を、色チャンネルごとに図13の分割部151と同様に所定のサイズのブロックに分割し、演算部193に供給する。なお、以降のステップS112乃至S121の処理は、ブロック単位で行われる。
ステップS112において、演算部193は、ブロック単位基底画像係数ベクトルの演算の繰り返し回数Mを1に設定する。
ステップS113において、演算部193は、記憶部192から各色チャンネルのブロック単位の基底画像を読み出す。
ステップS114において、演算部193は、読み出された各色チャンネルのブロック単位の基底画像からなるブロック単位基底画像行列と、分割部191から供給される各色チャンネルのブロックとを用いて、Δαを計算する。具体的には、演算部193は、式(12)で定義されるコスト関数を各色チャンネルのブロック単位基底画像係数ベクトルに対して偏微分し、Yを劣化画像ベクトルにした式により、各色チャンネルのブロック単位基底画像行列と各色チャンネルのブロックとを用いて、各色チャンネルのΔαを計算する。
ステップS115において、演算部193は、ステップS114で計算されたΔαを用いて、色チャンネルごとに、上述した式(7)により各色チャンネルのブロック単位基底画像係数ベクトルを更新する。ステップS116において、演算部193は、繰り返し回数Mを1だけインクリメントする。
ステップS117において、演算部193は、ステップS115で更新された各色チャンネルのブロック単位基底画像係数ベクトル、各色チャンネルのブロック単位基底画像行列、および、劣化画像の各色チャンネルのブロックを用いて、上述した式(12)のYを劣化画像ベクトルにした式によりコスト関数を求める。
ステップS118およびS119の処理は、図17のステップS48およびS49の処理と同様であるので、説明は省略する。
ステップS120において、生成部194は、記憶部192から各色チャンネルのブロック単位の基底画像を読み出す。ステップS121において、生成部194は、読み出された各色チャンネルのブロック単位の基底画像からなるブロック単位基底画像行列と、演算部193から供給される各色チャンネルのブロック単位基底画像係数ベクトルとを用いて、上述した式(10)の輝度画像を各色チャンネルの色画像にした式により、各色チャンネルのブロック単位の色画像の静止画像を生成する。
ステップS122において、生成部194は、ブロックの分割方法に応じて、色チャンネルごとに、ブロック単位の色画像の静止画像から1枚の色画像の静止画像を生成する。ステップS123において、生成部194は、生成された各色チャンネルの1枚の色画像の静止画像を復元画像として出力し、処理を終了する。
以上のように、画像生成装置190は、学習装置150により学習された基底画像を得て、その基底画像、劣化画像、および学習装置10の場合と同様に全ての色チャンネルの基底画像係数間の空間的な相関性を表すだけでなく、各色チャンネルの基底画像係数間の相関性も表す項を含むコスト関数に基づいて、基底画像係数を演算する。従って、画像生成装置80は、人間の視覚系に近いだけでなく、偽色の発生を抑制するモデルの基底画像と基底画像係数を得ることができる。よって、画像生成装置80は、得られた基底画像と基底画像係数を用いて、偽色の発生が抑制された高画質な復元画像を生成することができる。
なお、第2実施の形態において、コスト関数は、各色チャンネルの基底画像係数間の相関性のみを表す項を含むようにしてもよい。また、第2実施の形態においても、第1実施の形態と同様に、復元画像を生成しながら基底画像を学習することもできる。さらに、第2実施の形態において、学習用の画像および劣化画像は、動画像であってもよい。
<第3実施の形態>
[学習装置の構成例]
図18は、本技術を適用した信号処理装置の第3実施の形態としての学習装置の構成例を示すブロック図である。
図18に示す構成のうち、図2の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図18の学習装置210の構成は、帯域分割部211が新たに設けられる点、学習部12の代わりに学習部212が設けられ、記憶部13の代わりに記憶部213が設けられる点が図2の構成と異なる。学習装置210は、帯域分割された学習用の輝度画像の静止画像を用いて、各帯域の基底画像係数間で相関性を有し、かつ、全ての帯域の基底画像係数間で空間的な相関性を有するように、基底画像を学習する。
具体的には、帯域分割部211は、分割部11により分割されたブロックを、高域(高解像度)、中域(中解像度)、および低域(低解像度)に帯域分割して、高域、中域、および低域のブロックを生成し、学習部212に供給する。
学習部212は、帯域分割部211から供給される高域、中域、および低域のブロックを上述した式(1)によりモデリングして、各帯域の基底画像係数間で相関性を有し、かつ、全ての帯域の基底画像係数間で空間的な相関性を有するという拘束条件の下に、各帯域のブロック単位の基底画像を学習する。
具体的には、学習部212は、各帯域のブロックと、各帯域の基底画像係数間の相関性と全ての帯域の基底画像係数間の空間的な相関性とを表す項を含むコスト関数とを用いて、各帯域のブロック単位の基底画像を学習する。学習部212は、学習された各帯域のブロック単位の基底画像を記憶部213に供給し、記憶させる。
[帯域分割部の構成例]
図19は、図18の帯域分割部211の構成例を示すブロック図である。
図19に示すように、帯域分割部211は、ローパスフィルタ231およびローパスフィルタ232、並びに、減算部233および減算部234により構成される。
ローパスフィルタ231には、分割部11により分割されたブロックが入力される。ローパスフィルタ231は、入力されたブロックのうちの低域のブロックを抽出し、ローパスフィルタ232、減算部233、および減算部234に供給する。
ローパスフィルタ232は、ローパスフィルタ231から供給される低域のブロックのうちのさらに低域のブロックを抽出する。ローパスフィルタ232は、抽出された低域のブロックを減算部234と学習部212(図18)に供給する。
減算部233は、分割部11から入力されたブロックから、ローパスフィルタ231から供給される低域のブロックを減算し、その結果得られる高域のブロックを学習部212に供給する。
減算部234は、ローパスフィルタ231から供給される低域のブロックから、ローパスフィルタ232から供給されるより低域のブロックを減算し、その結果得られる高域と低域の間の帯域のブロックを、中域のブロックとして学習部212に供給する。
[拘束条件の説明]
図20は、図18の学習部212による学習時の拘束条件を説明する図である。
学習部212は、各帯域の基底画像係数間で相関性を有し、全ての帯域の基底画像係数間で空間的な相関性を有する基底画像を学習する。そのため、学習部212は、図20に示すように、低域のブロック単位の基底画像241A、その基底画像241Aを中心とした3×3個のブロック単位の基底画像からなる基底画像群241、基底画像群241の各基底画像に対応する中域の3×3個のブロック単位の基底画像からなる基底画像群242、および基底画像群241の各基底画像に対応する高域の5×6個のブロック単位の基底画像からなる基底画像群243の基底画像係数が同様の疎表現を有するという拘束条件をコスト関数の演算時に与える。
具体的には、学習部212は、以下の式(13)によりコスト関数を定義する。
Figure 2014063359
なお、式(13)において、DH,DM,Dは、それぞれ、高域、中域、低域のブロック単位基底画像行列であり、αHMは、それぞれ、高域、中域、低域のブロック単位基底画像係数ベクトルである。また、H,M,Loは、それぞれ、高域、中域、低域の学習用輝度画像ベクトルであり、μ乃至μは予め設定されたパラメータである。
さらに、h(i,j)は、相関係数である。h(i,j,k)は、所定の帯域のi番目(i=1,…,基底画像数n)のブロック単位の基底画像の基底画像係数、所定の帯域のi番目のブロック単位の基底画像を中心とした3×3個のブロック単位の基底画像のうちのj番目(j=1,・・・,9)のブロック単位の基底画像の基底画像係数、および所定の帯域のi番目のブロック単位の基底画像に対応する、その帯域より高い帯域のブロック単位の基底画像のうちのk番目のブロック単位の基底画像の基底画像係数の相関関係を表す係数である。
また、h(i,j,k,m)は、低域のi番目(i=1,…,基底画像数n)のブロック単位の基底画像の基底画像係数、低域のi番目のブロック単位の基底画像を中心とした3×3個のブロック単位の基底画像のうちのj番目(j=1,・・・,9)のブロック単位の基底画像の基底画像係数、低域のi番目のブロック単位の基底画像に対応する3×3個の中域の基底画像のうちのk番目(k=1,・・・,9)のブロック単位の基底画像の基底画像係数、および低域のi番目のブロック単位の基底画像に対応する5×6個の高域の基底画像のうちのm番目(m=1,・・・,30)のブロック単位の基底画像の基底画像係数の相関関係を表す係数である。
α M は、それぞれ、低域、中域、高域のi番目(i=1,…,基底画像数n)のブロック単位の基底画像を中心とした3×3個のブロック単位の基底画像のうちのj番目(j=1,・・・,9)のブロック単位の基底画像の基底画像係数である。また、α は、それぞれ、低域、中域のi番目(i=1,…,基底画像数n)のブロック単位の基底画像に対応する1つ上の帯域(中域、高域)のブロック単位の基底画像のうちのk番目のブロック単位の基底画像の基底画像係数である。
また、α は、低域のi番目(i=1,…,基底画像数n)のブロック単位の基底画像に対応する高域の5×6個のブロック単位の基底画像のうちのm番目(m=1,・・・,30)のブロック単位の基底画像の基底画像係数である。さらに、a,y,bは、予め設定されたパラメータである。従って、式(13)の右辺のargmin()内の第4項および第5項は、各帯域の基底画像係数間の相関性を表す項である。
[学習装置の処理の説明]
図21は、図18の学習装置210の学習処理を説明するフローチャートである。この学習処理は、例えば、外部から全ての学習用の輝度画像の静止画像が学習装置210に入力されたとき、オフラインで行われる。
図21のステップS130において、分割部11は、外部から入力された学習用の輝度画像の静止画像を所定のサイズのブロックに分割し、帯域分割部211に供給する。ステップS131において、帯域分割部211は、分割部11から供給されるブロックを、高域、中域、および低域に帯域分割し、学習部212に供給する。
ステップS132乃至S142の処理は、色チャンネルが帯域に変わった点、および、コスト関数を定義する式が式(12)ではなく式(13)である点を除いて、図15のステップS92乃至S102の処理と同様であるので、説明は省略する。
以上のように、学習装置210におけるコスト関数は、学習装置10の場合と同様に全ての帯域の基底画像係数間の空間的な相関性を表すだけでなく、各帯域の基底画像係数間の相関性も表す項を含む。従って、人間の視覚系に近いだけでなく、テクスチャやエッジなど重要な部分の画質を向上させるモデルを用いて基底画像を学習することができる。その結果、より正確な基底画像を学習することができる。
[画像生成装置の構成例]
図22は、図18の学習装置210により学習された各帯域の基底画像を用いて画像を生成する、本技術を適用した出力装置の第3実施の形態としての画像生成装置の構成例を示すブロック図である。
図22に示す構成のうち、図8の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図22の画像生成装置250の構成は、帯域分割部251が新たに設けられる点、および記憶部82、演算部83、生成部84の代わりに、記憶部252、演算部253、生成部254が設けられる点が図8の構成と異なる。画像生成装置250は、外部から劣化画像として入力される輝度画像の静止画像に対して帯域ごとにスパースコーディングを行うことにより、復元画像を生成する。
具体的には、画像生成装置250の帯域分割部251は、図19の帯域分割部211と同様に構成され、分割部81により分割されたブロックを、高域、中域、および低域に帯域分割し、演算部253に供給する。
記憶部252は、図18の学習装置210により学習され、記憶部213に記憶された各帯域のブロック単位の基底画像を記憶する。
演算部253は、記憶部252から各帯域のブロック単位の基底画像を読み出す。演算部253は、帯域分割部251から供給される劣化画像のブロックごとに、コスト関数が所定の閾値より小さくなるように、各帯域のブロック単位基底画像係数ベクトルを演算する。このコスト関数は、読み出された各帯域のブロック単位の基底画像からなるブロック単位基底画像行列を用いて、上述した式(13)のH,M,Loをそれぞれ高域、中域、低域の劣化画像ベクトルにした式により定義される。演算部253は、各帯域のブロック単位基底画像係数ベクトルを生成部254に供給する。
生成部254は、記憶部252から各帯用のブロック単位の基底画像を読み出す。生成部254は、各帯域のブロックごとに、演算部253から供給される各帯域のブロック単位基底画像係数ベクトルと、読み出された各帯域のブロック単位の基底画像からなるブロック単位基底画像行列とを用いて、上述した式(10)により輝度画像の静止画像を生成する。
生成部254は、各帯域のブロックの輝度画像の静止画像を合成することにより、1枚の全帯域の輝度画像の静止画像を生成し、復元画像として出力する。
[生成部の構成例]
図23は、図22の生成部254の構成例を示すブロック図である。
図23の生成部254は、輝度画像生成部271と加算部272により構成される。
生成部254の輝度画像生成部271は、図22の記憶部252から各帯域用のブロック単位の基底画像を読み出す。輝度画像生成部271は、各帯域のブロックごとに、演算部253から供給される各帯域のブロック単位基底画像係数ベクトルと、読み出された各帯域のブロック単位の基底画像からなるブロック単位基底画像行列とを用いて、上述した式(10)により輝度画像の静止画像を生成する。
輝度画像生成部271は、帯域ごとに、各ブロックのブロック単位の輝度画像の静止画像を合成することにより、各帯域の1枚の輝度画像の静止画像を生成する。輝度画像生成部271は、生成された高域、中域、および低域の1枚の輝度画像の静止画像を加算部272に供給する。
加算部272は、輝度画像生成部271から供給される高域、中域、および低域の1枚の輝度画像の静止画像を加算し、その結果得られる全帯域の1枚の輝度画像の静止画像を復元画像として出力する。
[画像生成装置の処理の説明]
図24は、図22の画像生成装置250の生成処理を説明するフローチャートである。この生成処理は、例えば、外部から劣化画像として輝度画像の静止画像が入力されたとき、開始される。
図24のステップS150において、分割部81は、外部から劣化画像として入力された輝度画像の静止画像を、図18の分割部11と同様に所定のサイズのブロックに分割し、帯域分割部251に供給する。ステップS151において、帯域分割部251は、分割部81から供給されるブロックを、高域、中域、および低域に帯域分割し、演算部253に供給する。
ステップS152乃至S163の処理は、色チャンネルが帯域に変わった点、および、コスト関数を定義する式が式(12)ではなく式(13)のH,M,Loをそれぞれ高域、中域、低域の劣化画像ベクトルにした式である点を除いて、図17のステップS112乃至S123の処理と同様であるので、説明は省略する。
以上のように、画像生成装置250は、学習装置210により学習された基底画像を得て、その基底画像、劣化画像、および学習装置10の場合と同様に全ての帯域の基底画像係数間の空間的な相関性を表すだけでなく、各帯域の基底画像係数間の相関性も表す項を含むコスト関数に基づいて、基底画像係数を演算する。従って、画像生成装置250は、人間の視覚系に近いだけでなく、テクスチャやエッジなどの重要な部分の画質を向上させるモデルの基底画像と基底画像係数を得ることができる。よって、画像生成装置250は、得られた基底画像と基底画像係数を用いて、テクスチャやエッジなどの重要な部分の画質が向上した高画質な復元画像を生成することができる。
なお、第3実施の形態において、コスト関数は、各帯域の基底画像係数間の相関性のみを表す項を含むようにしてもよい。また、第3実施の形態においても、第1実施の形態と同様に、復元画像を生成しながら基底画像を学習することもできる。
また、第3実施の形態では、輝度画像の静止画像が、高域、中域、および低域の3つの帯域に分割されたが、帯域分割の数は3つに限定されない。また、ローパスフィルタ231(232)の通過帯域は限定されない。
さらに、第3実施の形態では、学習用の画像および劣化画像が輝度画像の静止画像であったが、色画像の静止画像であってもよい。この場合、色チャンネルごとに学習処理や生成処理が行われる。また、学習用の画像および劣化画像は、動画像であってもよい。
<第4実施の形態>
[学習装置の構成例]
図25は、本技術を適用した信号処理装置の第4実施の形態としての学習装置の構成例を示すブロック図である。
図25の学習装置290は、分割部291、学習部292、および記憶部293により構成される。学習装置290は、学習用の輝度画像の動画像を用いて、連続する3フレームの基底画像係数間で時間的な相関性を有し、かつ、空間的な相関性を有するように、基底画像を学習する。
具体的には、分割部291には、外部から大量の画質劣化のない学習用の輝度画像の動画像が入力される。分割部291は、フレームごとに、学習用の輝度画像の動画像を所定のサイズのブロックに分割し、学習部292に供給する。
学習部292は、分割部291から供給される各フレームのブロックを上述した式(1)によりモデリングして、連続する3フレームの基底画像係数間で時間的な相関性を有し、かつ、空間的な相関性を有するという拘束条件の下に、連続する3フレームの各フレームのブロック単位の基底画像を学習する。
具体的には、学習部292は、連続する3フレームの各フレームのブロックと、連続する3フレームの基底画像係数間の時間的な相関性と空間的な相関性とを表す項を含むコスト関数とを用いて、連続する3フレームの各フレームのブロック単位の基底画像を学習する。学習部292は、学習された連続する3フレームの各フレームのブロック単位の基底画像を記憶部293に供給し、記憶させる。
[拘束条件の説明]
図26は、図25の学習部292による学習時の拘束条件を説明する図である。
なお、図26において、横軸は、先頭からのフレーム数を表している。
学習部292は、連続する3フレームの各フレームの基底画像係数間で相関性を有し、連続する3フレームの基底画像係数間で空間的な相関性を有する基底画像を学習する。そのため、学習部292は、図26に示すように、t番目(t=1,2,・・・,動画像のフレーム数T/3)のフレームのブロック単位の基底画像311A、その基底画像311Aを中心とした3×3個のブロック単位の基底画像からなる基底画像群311、t-1番目のフレームの基底画像群311と同一の位置の基底画像群312、およびt+1番目のフレームの基底画像群311と同一の位置の基底画像群313の基底画像係数が同様の疎表現を有するという拘束条件をコスト関数の演算時に与える。
具体的には、学習部292は、以下の式(14)によりコスト関数を定義する。
Figure 2014063359
なお、式(14)において、Dt−1,D,Dt+1は、それぞれ、t-1,t,t+1番目のフレームのブロック単位基底画像行列であり、αt−1t+1は、それぞれ、t-1,t,t+1番目のフレームのブロック単位基底画像係数ベクトルである。また、Yt−1,Y,Yt+1は、それぞれ、t-1,t,t+1番目のフレームの学習用輝度画像ベクトルであり、μは予め設定されたパラメータである。h(i,j)は相関係数である。
また、αt−1 t+1 は、それぞれ、t-1,t,t+1番目のフレームのi番目(i=1,…,基底画像数n)のブロック単位の基底画像を中心とした3×3個のブロック単位の基底画像のうちのj番目(j=1,・・・,9)のブロック単位の基底画像の基底画像係数である。a,y,bは、予め設定されたパラメータである。
従って、式(14)の右辺のargmin()内の第4項は、連続する3フレームの基底画像係数間の時間的な相関性と空間的な相関性を表す項である。
[学習装置の処理の説明]
学習装置290の学習処理は、各色チャンネルが連続する3フレームの各フレームに変わった点、および、コスト関数を定義する式が式(12)ではなく式(14)である点を除いて、図15の学習処理と同一であるので、図示および説明は省略する。
以上のように、学習装置290におけるコスト関数は、学習装置10の場合と同様に連続する3フレームの基底画像係数間の空間的な相関性を表すだけでなく、時間的な相関性も表す項を含む。従って、人間の視覚系に近いだけでなく、フレーム間のバタツキを低減し、動画像を滑らかにするモデルを用いて基底画像を学習することができる。その結果、より正確な基底画像を学習することができる。
[画像生成装置の構成例]
図27は、図25の学習装置290により学習された連続する3フレームの各フレームの基底画像を用いて画像を生成する、本技術を適用した出力装置の第4実施の形態としての画像生成装置の構成例を示すブロック図である。
図27の画像生成装置330は、分割部331、記憶部332、演算部333、および生成部334により構成され、外部から劣化画像として入力される輝度画像の動画像に対してスパースコーディングを行うことにより、復元画像を生成する。
具体的には、画像生成装置330の分割部331には、外部から輝度画像の動画像が劣化画像として入力される。分割部331は、外部から入力された劣化画像を、フレームごとに図25の分割部291と同様に所定のサイズのブロックに分割し、演算部333に供給する。
記憶部332は、図25の学習装置290により学習され、記憶部293に記憶された連続する3フレームの各フレームのブロック単位の基底画像を記憶する。
演算部333は、記憶部332から連続する3フレームの各フレームのブロック単位の基底画像を読み出す。演算部333は、分割部331から供給される3フレーム分の劣化画像のブロックごとに、コスト関数が所定の閾値より小さくなるように、各フレームのブロック単位基底画像係数ベクトルを演算する。このコスト関数は、読み出された連続する3フレームの各フレームのブロック単位の基底画像からなるブロック単位基底画像行列を用いて、上述した式(14)のYt−1,Y,Yt+1をそれぞれt-1,t,t+1番目のフレームの劣化画像ベクトルにした式により定義される。演算部333は、連続する3フレームの各フレームのブロック単位基底画像係数ベクトルを生成部334に供給する。
生成部334は、記憶部332から連続する3フレームの各フレームのブロック単位の基底画像を読み出す。生成部334は、連続する3フレームの各フレームのブロックごとに、演算部333から供給される連続する3フレームの各フレームのブロック単位基底画像係数ベクトルと、読み出された連続する3フレームの各フレームのブロック単位の基底画像からなるブロック単位基底画像行列とを用いて、上述した式(10)により、輝度画像の動画像を生成する。
生成部334は、連続する3フレームの各フレームのブロックの輝度画像の動画像から、連続する3フレームの輝度画像の動画像を生成し、連続する3フレームの復元画像として出力する。
[画像生成装置の処理の説明]
図27の画像生成装置330の生成処理は、各色チャンネルが連続する3フレームの各フレームに変わった点、および、コスト関数を定義する式が式(12)ではなく式(14)のYt−1,Y,Yt+1をそれぞれt-1,t,t+1番目のフレームの劣化画像ベクトルにした式である点を除いて、図17の生成処理と同一であるので、図示および説明は省略する。
以上のように、画像生成装置330は、学習装置290により学習された基底画像を得て、その基底画像、劣化画像、および学習装置10の場合と同様に連続する3フレームの基底画像係数間の空間的な相関性を表すだけでなく、時間的な相関性も表す項を含むコスト関数に基づいて、基底画像係数を演算する。従って、画像生成装置330は、人間の視覚系に近いだけでなく、フレーム間のバタツキを低減し、動画像を滑らかにするモデルの基底画像と基底画像係数を得ることができる。よって、画像生成装置330は、得られた基底画像と基底画像係数を用いて、フレーム間のバタツキが低減された滑らかで高画質な復元画像を生成することができる。
なお、第4実施の形態において、コスト関数は、連続する3フレームの基底画像係数間の時間的な相関性のみを表す項を含むようにしてもよい。また、第4実施の形態においても、第1実施の形態と同様に、復元画像を生成しながら基底画像を学習することもできる。
また、第4実施の形態では、学習用の画像および劣化画像が輝度画像の動画像であったが、色画像の動画像であってもよい。
この場合、色画像の動画像の各フレームが色チャンネルごとに所定のサイズのブロックに分割される。そして、色チャンネルごとにコスト関数が定義される。その結果、学習装置290は、色チャンネルごとに連続する3フレームの各フレームのブロック単位の基底画像を学習し、画像生成装置330は、色チャンネルごとに色画像の動画像を生成する。
さらに、第4実施の形態では、連続する3フレームの基底画像係数間で時間的な相関性を有するようにしたが、時間的な相関性を有する基底画像係数のフレーム数は3フレームに限定されない。
<第5実施の形態>
[学習装置の構成例]
図28は、本技術を適用した信号処理装置の第5実施の形態としての学習装置の構成例を示すブロック図である。
図28の学習装置350は、分割部351、帯域分割部352、学習部353、および記憶部354により構成される。学習装置350は、帯域分割された学習用のオーディオ信号を用いて、各帯域の基底オーディオ係数間で相関性を有し、かつ、全ての帯域の基底オーディオ係数間で空間的な相関性を有するように、基底オーディオ信号を学習する。
具体的には、分割部351には、外部から大量の音質劣化のない学習用のオーディオ信号が入力される。分割部351は、学習用のオーディオ信号を所定の区間のブロック(フレーム)に分割し、帯域分割部352に供給する。
帯域分割部352は、図19の帯域分割部211と同様に構成され、分割部351から供給されるブロックを、高域、中域、および低域に帯域分割し、学習部353に供給する。
学習部353は、帯域分割部352から供給される高域、中域、および低域のブロックを上述した式(1)の画像をオーディオ信号にした式によりモデリングして、各帯域の基底オーディオ係数(詳細は後述する)間で相関性を有し、かつ、全ての帯域の基底オーディオ係数間で空間的な相関性を有するという拘束条件の下に、各帯域のブロック単位の基底オーディオ信号を学習する。
具体的には、学習部353は、各帯域のブロックと、各帯域の基底オーディオ係数間の相関性と全ての帯域の基底オーディオ係数間の空間的な相関性とを表す項を含むコスト関数とを用いて、各帯域のブロック単位の基底オーディオ信号を学習する。このコスト関数は、上述した式(13)の画像をオーディオ信号にした式で定義される。
即ち、学習部353におけるコスト関数を定義する式において、DH,DM,Dは、それぞれ、高域、中域、低域のブロック単位の基底オーディオ信号の各サンプリング値を列方向に並べたものを、基底オーディオ信号ごとに行方向に並べた行列(以下、ブロック単位基底オーディオ行列という)である。αHMは、それぞれ、高域、中域、低域のブロック単位の各基底オーディオ信号の係数である基底オーディオ係数を列方向に並べたベクトル(以下、ブロック単位基底オーディオ係数ベクトルという)である。また、H,M,Loは、それぞれ、高域、中域、低域の学習用のオーディオ信号の各サンプリング値を列方向に並べたベクトル(以下、学習用音声ベクトルという)であり、μ乃至μは予め設定されたパラメータである。
さらに、h(i,j)は、i番目(i=1,…,基底オーディオ信号数n)のブロック単位の基底オーディオ信号の基底オーディオ係数と、i番目のブロック単位の基底オーディオ信号を中心とした3×3個のブロック単位の基底オーディオ信号のうちのj番目(j=1,・・・,9)のブロック単位の基底オーディオ信号の基底オーディオ係数との相関関係を表す係数である。h(i,j,k)は、所定の帯域のi番目(i=1,…,基底オーディオ信号数n)のブロック単位の基底オーディオ信号の基底オーディオ係数、所定の帯域のi番目のブロック単位の基底オーディオ信号を中心とした3×3個のブロック単位の基底オーディオ信号のうちのj番目(j=1,・・・,9)のブロック単位の基底オーディオ信号の基底オーディオ係数、および所定の帯域のi番目のブロック単位の基底オーディオ信号に対応する、その帯域より高い帯域のブロック単位の基底オーディオ信号のうちのk番目のブロック単位の基底オーディオ信号の基底オーディオ係数の相関関係を表す係数である。
また、h(i,j,k,m)は、低域のi番目(i=1,…,基底オーディオ信号数n)のブロック単位の基底オーディオ信号の基底オーディオ係数、低域のi番目のブロック単位の基底オーディオ信号を中心とした3×3個のブロック単位の基底オーディオ信号のうちのj番目(j=1,・・・,9)のブロック単位の基底オーディオ信号の基底オーディオ係数、低域のi番目のブロック単位の基底オーディオ信号に対応する3×3個の中域の基底オーディオ信号のうちのk番目(k=1,・・・,9)のブロック単位の基底オーディオ信号の基底オーディオ係数、および低域のi番目のブロック単位の基底オーディオ信号に対応する5×6個の高域の基底オーディオ信号のうちのm番目(m=1,・・・,30)のブロック単位の基底オーディオ信号の基底オーディオ係数の相関関係を表す係数である。
α M は、それぞれ、低域、中域、高域のi番目(i=1,…,基底オーディオ信号数n)のブロック単位の基底オーディオ信号を中心とした3×3個のブロック単位の基底オーディオ信号のうちのj番目(j=1,・・・,9)のブロック単位の基底オーディオ信号の基底オーディオ係数である。また、α は、それぞれ、低域、中域のi番目(i=1,…, 基底オーディオ信号数n)のブロック単位の基底オーディオ信号に対応する1つ上の帯域(中域、高域)のブロック単位の基底オーディオ信号のうちのk番目のブロック単位の基底オーディオ信号の基底オーディオ係数である。
また、α は、低域のi番目(i=1,…,基底オーディオ信号数n)のブロック単位の基底オーディオ信号に対応する高域の5×6個のブロック単位の基底オーディオ信号のうちのm番目(m=1,・・・,30)のブロック単位の基底オーディオ信号の基底オーディオ係数である。さらに、a,y,bは、予め設定されたパラメータである。
学習部353は、学習された各帯域のブロック単位の基底オーディオ信号を記憶部354に供給し、記憶させる。
[学習装置の処理の説明]
学習装置350の学習処理は、学習用の信号が輝度画像の静止画像ではなくオーディオ信号である点、および、コスト関数が上述した式(13)の画像をオーディオ信号にした式により求められる点を除いて、図21の学習処理と同一であるので、図示および説明は省略する。
以上のように、学習装置350は、学習用のオーディオ信号が、基底オーディオ係数が疎となる基底オーディオ信号の線形演算で表されるように、基底オーディオ係数間の空間的な相関性を表す項を含むコスト関数を用いて基底オーディオ信号を学習する。従って、より人間の視覚系に近いモデルを用いて基底オーディオ信号を学習することができる。ここで、人間の視覚系と聴覚系は、ともに外部からの入力信号を理解する脳の処理であり、同様の処理であると考えられている。従って、学習装置350は、より人間の聴覚系に近いモデルを用いて基底オーディオ信号を学習することができるといえる。その結果、より正確な基底オーディオ信号を学習することができる。
[オーディオ生成装置の構成例]
図29は、図28の学習装置350により学習された各帯域の基底オーディオ信号を用いてオーディオ信号を生成する、本技術を適用した出力装置の第5実施の形態としてのオーディオ生成装置の構成例を示すブロック図である。
図29のオーディオ生成装置370は、分割部371、帯域分割部372、記憶部373、演算部374、および生成部375により構成される。オーディオ生成装置370は、外部から入力される音質が劣化した劣化オーディオ信号に対して帯域ごとにスパースコーディングを行うことにより、復元オーディオ信号を生成する。
オーディオ生成装置370の分割部371には、外部から劣化オーディオ信号が入力される。分割部371は、外部から入力された劣化オーディオ信号を、図28の分割部351と同様に所定の区間のブロックに分割し、帯域分割部372に供給する。
帯域分割部372は、図28の帯域分割部352と同様に構成され、分割部371から供給されるブロックを、高域、中域、および低域に帯域分割し、演算部374に供給する。
記憶部373は、図28の学習装置350により学習され、記憶部354に記憶された各帯域のブロック単位の基底オーディオ信号を記憶する。
演算部374は、記憶部373から各帯域のブロック単位の基底オーディオ信号を読み出す。演算部374は、帯域分割部372から供給される劣化オーディオ信号のブロックごとに、コスト関数が所定の閾値より小さくなるように、各帯域のブロック単位基底オーディオ係数ベクトルを演算する。このコスト関数は、読み出された各帯域のブロック単位の基底オーディオ信号からなるブロック単位基底オーディオ行列を用いて、上述した式(13)のH,M,Loをそれぞれ高域、中域、低域の劣化オーディオ信号のブロックの各サンプリング値を列方向に並べたベクトル(以下、劣化オーディオベクトルという)にした式により定義される。演算部374は、各帯域のブロック単位基底オーディオ係数ベクトルを生成部375に供給する。
生成部375は、記憶部373から各帯域のブロック単位の基底オーディオ信号を読み出す。生成部375は、各帯域のブロックごとに、演算部374から供給される各帯域のブロック単位基底オーディオ係数ベクトルと、読み出された各帯域のブロック単位の基底オーディオ信号からなるブロック単位基底オーディオ行列とを用いて、上述した式(10)の画像をオーディオ信号にした式によりオーディオ信号を生成する。
生成部375は、各帯域のブロックのオーディオ信号を合成することにより、全区間の全帯域のオーディオ信号を生成し、復元オーディオ信号として出力する。
[オーディオ生成装置の処理の説明]
オーディオ生成装置370の生成処理は、スパースコーディング対象とする信号が劣化画像ではなく劣化オーディオ信号である点、および、コスト関数が上述した式(13)の画像をオーディオ信号にし、H,M,Loをそれぞれ高域、中域、帯域の劣化オーディオベクトルにした式により求められる点を除いて、図24の生成処理と同一であるので、図示および説明は省略する。
以上のように、オーディオ生成装置370は、学習装置350により学習された基底オーディオ信号を得て、その基底オーディオ信号、劣化オーディオ信号、および基底オーディオ係数間の空間的な相関性を表す項を含むコスト関数に基づいて、基底オーディオ係数を演算する。従って、オーディオ生成装置370は、人間の視覚系に近いモデルの基底オーディオ信号と基底オーディオ係数を得ることができる。上述したように、人間の視覚系と聴覚系は同様の処理であると考えられている。従って、オーディオ生成装置370は、人間の聴覚系に近いモデルの基底オーディオ信号と基底オーディオ係数を得ることができるといえる。よって、オーディオ生成装置370は、得られた基底オーディオ信号と基底オーディオ係数を用いて、高音質の復元オーディオ信号を生成することができる。
なお、第5実施の形態では、全ての帯域の基底オーディオ係数間の空間的な相関性を表すだけでなく、各帯域の基底オーディオ係数間の相関性も表す項を含むコスト関数が用いられたが、全ての帯域の基底オーディオ係数間の空間的な相関性を表す項のみを含むコスト関数が用いられるようにしてもよい。
<第6実施の形態>
[学習装置の構成例]
図30は、本技術を適用した信号処理装置の第6実施の形態としての学習装置の構成例を示すブロック図である。
図30に示す構成のうち、図25の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図30の学習装置390の構成は、分割部291の代わりに抽出部391が設けられる点が図25の構成と異なる。学習装置390には、学習用の輝度画像の動画像として、図示せぬ監視カメラにより撮影された大量の正常時の輝度画像の動画像が入力される。
学習装置390の抽出部391は、学習用の輝度画像の動画像として図示せぬ監視カメラから入力された大量の正常時の輝度画像の動画像の各フレームから、後述する異常検知装置で異常検知の対象とする領域(以下、検知領域という)を抽出する。
例えば、後述する異常検知装置が人の異常を検知する場合には、抽出部391は、人や顔の領域を検出し、その領域を検知領域として抽出する。また、後述する異常検知装置が車の異常を検知する場合には、抽出部391は、予め設定された車の特徴点を含む領域を検出し、その領域を検知領域として抽出する。なお、抽出部391は、フレームごとに検知領域を抽出するのではなく、所定数のフレームごとに検知領域を抽出し、抽出しない期間においては、抽出された検知領域をトラッキングすることにより検知領域を設定するようにしてもよい。
抽出部391は、抽出された検知領域を正規化して所定のサイズのブロックとし、学習部292に供給する。
なお、検知領域の数は、各フレームに対して単数であっても複数であってもよい。各フレームの検知領域の数が複数である場合、検知領域ごとに基底画像が学習される。
[学習装置の処理の説明]
図31は、図30の学習装置390の学習処理を説明するフローチャートである。この学習処理は、図示せぬ監視カメラから、全ての学習用の輝度画像の動画像としての正常時の輝度画像の動画像が学習装置390に入力されたとき、オフラインで行われる。
ステップS171において、学習装置390の抽出部391は、図示せぬ監視カメラから入力される全ての学習用の輝度画像の動画像の各フレームから、検知領域を抽出する。
ステップS172において、抽出部391は、抽出された検知領域を正規化して所定のサイズのブロックとし、学習部292に供給する。ステップS173乃至S183の処理は、各色チャンネルが連続する3フレームの各フレームに変わった点、および、コスト関数を定義する式が式(12)ではなく式(14)である点を除いて、図15のステップS92乃至S102の処理と同様であるので、説明は省略する。
以上のように、学習装置390におけるコスト関数は、学習装置290の場合と同様に、連続する3フレームの基底画像係数間の空間的な相関性を表すだけでなく、連続する3フレームの各フレームの基底画像係数間の相関性も表す項を含む。従って、人間の視覚系に近いだけでなく、フレーム間のバタツキを低減し、動画像を滑らかにするモデルを用いて検知領域の基底画像を学習することができる。その結果、より正確な検知領域の基底画像を学習することができる。
[異常検知装置の構成例]
図32は、図30の学習装置390により学習された連続する3フレームの各フレームの基底画像を用いて異常を検知する、本技術を適用した出力装置の第6実施の形態としての異常検知装置の構成例を示すブロック図である。
図32に示す構成のうち、図27の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
図32の異常検知装置410の構成は、分割部331の代わりに抽出部411が設けられる点、生成部334の代わりに生成部412が設けられる点、および、新たに認識部413が設けられる点が図27の構成と異なる。異常検知装置410は、監視カメラから異常検知対象の画像として入力される輝度画像の動画像に対してスパースコーディングを行うことにより、異常を検知する。
具体的には、異常検知装置410の抽出部411には、監視カメラから輝度画像の動画像が異常検知対象の画像として入力される。抽出部411は、監視カメラから入力された異常検知対象の画像の各フレームから、図30の抽出部391と同様に検知領域を抽出する。
抽出部411は、抽出された検知領域を、図30の抽出部391と同様に正規化して所定のサイズのブロックとし、演算部333と認識部413に供給する。ここで、異常検知装置410の演算部333におけるコスト関数を定義する式(14)のYは、異常検知対象の画像のブロックの各画素の画素値を列方向に並べたベクトル(以下、検知画像ベクトルという)である。
生成部412は、図27の生成部334と同様に、記憶部332から連続する3フレームの各フレームのブロック単位の基底画像を読み出す。生成部412は、生成部334と同様に、連続する3フレームの各フレームのブロックごとに、輝度画像の動画像を生成し、認識部413に供給する。
認識部413は、生成部412から供給されるブロック単位の輝度画像の動画像と、抽出部411から供給されるブロックの差分を、各フレームのブロックごとに求める。認識部413は、その差分に基づいてブロックの異常を検知(認識)して、異常の有無を表す異常情報を生成し、出力する。
[検知領域の例]
図33は、図32の抽出部411により抽出される検知領域の例を示す図である。
図33の例では、抽出部411は、異常検知対象の画像の各フレームから人の領域を検知領域431として抽出し、車の領域を検知領域432として抽出する。図33に示すように、異常検知対象の画像の各フレームの検知領域431や検知領域432のサイズは異なる場合があるため、所定のサイズのブロックに正規化される。
抽出部411により抽出される各フレームの検知領域の数は、図33に示すように複数であってもよいし、単数であってもよい。各フレームの検知領域の数が複数である場合には、検知領域ごとにブロック単位基底画像係数ベクトルが演算され、異常情報が生成される。
[異常情報の生成方法の説明]
図34は、図32の認識部413による異常情報の生成方法を説明する図である。
図34の左側に示すように、図30の学習装置390は、大量な正常時の輝度画像の動画像を用いてブロック単位の基底画像を学習する。図34の中央と右側に示すように、図32の異常検知装置410の演算部333は、学習されたブロック単位の基底画像と、異常検知対象の画像の検知領域のブロックとを用いて、連続する3フレームごとに、各フレームのブロック単位基底画像係数ベクトルを所定回数だけ繰り返し演算する。
生成部412は、連続する3フレームごとに、各フレームのブロック単位基底画像係数ベクトルとブロック単位の基底画像とから、ブロック単位の輝度画像の動画像を生成する。そして、認識部413は、生成されたブロック単位の輝度画像の動画像と、異常検知対象の画像の検知領域のブロックとの差分を、各フレームのブロックごとに演算する。
先頭からt-1乃至t+1番目のフレームの差分の和が閾値より小さい場合、図34の中央に示すように、認識部413は、そのフレームについて異常を検知せず、異常の無しを表す異常情報を生成する。一方、先頭からt-1乃至t+1番目のフレームの差分の和が閾値以上である場合、図34の右側に示すように、認識部413は、そのフレームについて異常を検知し、異常の有りを表す異常情報を生成する。
即ち、異常検知対象の画像が、学習用の輝度画像の動画像と同様の輝度画像の動画像、即ち正常時の輝度画像の動画像である場合、所定の回数だけブロック単位基底画像係数ベクトルの演算が繰り返されると、ブロック単位基底画像係数ベクトルは十分に収束する。従って、そのブロック単位基底画像係数ベクトルを用いて生成されたブロック単位の輝度画像の動画像と、異常検知対象の画像の検知領域のブロックとの差分は小さくなる。
これに対して、異常検知対象の輝度画像が、学習用の輝度画像の動画像と同様の輝度画像の動画像ではない、即ち異常時の輝度画像の動画像である場合、所定の回数だけブロック単位基底画像係数ベクトルの演算が繰り返されても、ブロック単位基底画像係数ベクトルは十分に収束しない。従って、そのブロック単位基底画像係数ベクトルを用いて生成されたブロック単位の輝度画像の動画像と、異常検知対象の画像の検知領域のブロックとの差分は大きくなる。
よって、ブロック単位基底画像係数ベクトルを用いて生成されたブロック単位の輝度画像の動画像と、異常検知対象の画像の検知領域のブロックとの差分が閾値より小さい場合、認識部413は、異常を検知せず、異常の無しを表す異常情報を生成する。また、認識部413は、その差分が閾値以上である場合、異常を検知し、異常の有りを表す異常情報を生成する。
[異常検知装置の処理の説明]
図35は、図32の異常検知装置410の異常検知処理を説明するフローチャートである。この異常検知処理は、例えば、監視カメラから異常検知対象の画像として輝度画像の動画像の連続する3フレームが入力されたとき、開始される。
図35のステップS201において、異常検知装置410の抽出部411は、図示せぬ監視カメラから入力された異常検知対象の画像の連続する3フレームの各フレームから、図30の抽出部391と同様に検知領域を抽出する。
ステップS202において、抽出部411は、抽出された検知領域を、図30の抽出部391と同様に正規化して所定のサイズのブロックとし、演算部333と認識部413に供給する。なお、以降のステップS203乃至S215の処理は、ブロック単位で行われる。
ステップS203において、演算部333は、ブロック単位基底画像係数ベクトルの演算の繰り返し回数Mを1に設定する。ステップS204において、演算部333は、記憶部332から連続する3フレームの各フレームのブロック単位の基底画像を読み出す。
ステップS205において、演算部333は、読み出された連続する3フレームの各フレームのブロック単位の基底画像からなるブロック単位基底画像行列と、抽出部411から供給されるブロックとを用いて、Δαを計算する。具体的には、演算部333は、式(14)で定義されるコスト関数を連続する3フレームの各フレームのブロック単位基底画像係数ベクトルに対して偏微分し、Yを検知画像ベクトルにした式により、連続する3フレームの各フレームのブロック単位基底画像行列とブロックとを用いて、連続する3フレームの各フレームのΔαを計算する。
ステップS206において、演算部333は、ステップS205で計算されたΔαを用いて、上述した式(7)により各フレームのブロック単位基底画像係数ベクトルを更新する。ステップS207において、演算部333は、繰り返し回数Mを1だけインクリメントする。
ステップS208において、演算部333は、繰り返し回数Mが所定の閾値より大きいかどうかを判定する。ステップS208で繰り返し回数Mが所定の閾値以下であると判定された場合、演算部333は、処理をステップS205に戻す。そして、繰り返し回数Mが所定の閾値より大きくなるまで、ステップS205乃至S208の処理が繰り返される。
一方、ステップS208で繰り返し回数Mが所定の閾値より大きいと判定された場合、演算部333は、直前のステップS206で更新された各フレームのブロック単位基底画像係数ベクトルを生成部412に供給する。
そして、ステップS209において、生成部412は、記憶部332から連続する3フレームの各フレームのブロック単位の基底画像を読み出す。ステップS210において、生成部412は、読み出された連続する3フレームの各フレームのブロック単位の基底画像からなるブロック単位基底画像行列と、演算部333から供給される各フレームのブロック単位基底画像係数ベクトルとを用いて、上述した式(10)により各フレームのブロック単位の輝度画像の動画像を生成する。生成部412は、そのブロック単位の輝度画像の動画像を認識部413に供給する。
ステップS211において、認識部413は、フレームごとに、生成部412から供給されるブロック単位の輝度画像の動画像と、抽出部411から供給されるブロックの差分を演算する。
ステップS212において、認識部413は、ステップS211で演算された連続する3フレームの差分を加算する。ステップS213において、認識部413は、ステップS212による加算の結果得られる差分の和が所定の閾値より小さいかどうかを判定する。
ステップS213で差分の和が所定の閾値より小さいと判定された場合、ステップS214において、認識部413は、異常を検知せず、異常の無しを表す異常情報を生成して出力し、処理を終了する。
一方、ステップS213で差分の和が所定の閾値以上であると判定された場合、ステップS215において、認識部413は、異常を検知し、異常の有りを表す異常情報を生成して出力し、処理を終了する。
以上のように、異常検知装置410は、画像生成装置330と同様に、連続する3フレームの基底画像係数間の空間的な相関性を表すだけでなく、連続する3フレームの各フレームの基底画像係数間の相関性も表す項を含むコスト関数を用いて学習された基底画像を得る。そして、異常検知装置410は、その基底画像、異常検知対象の画像、およびコスト関数に基づいて、基底画像係数を演算する。
従って、異常検知装置410は、人間の視覚系に近いだけでなく、フレーム間のバタツキを低減し、動画像を滑らかにするモデルの基底画像と基底画像係数を得ることができる。よって、異常検知装置410は、得られた基底画像と基底画像係数を用いて、フレーム間のバタツキが低減された滑らかで高画質な正常時の検知領域の輝度画像の動画像を生成することができる。
そして、異常検知装置410は、生成された高画質な正常時の検知領域の輝度画像の動画像と、異常検知対象の画像の検知領域との差分に基づいて異常を検知(認識)する。従って、高精度に異常を検知することができる。
なお、第6実施の形態では、第4実施の形態と同様の拘束条件の下に基底画像の学習および画像の生成を行ったが、第1および第3実施の形態と同様の拘束条件の下に基底画像の学習および画像の生成を行うようにしてもよい。
また、学習用の画像および異常検知対象の画像が色画像である場合には、第1実施の形態、第3実施の形態、および第4実施の形態だけでなく、第2実施の形態と同様の拘束条件の下に基底画像の学習および画像の生成を行うようにしてもよい。学習用の画像および異常検知対象の画像は、静止画像であってもよい。
さらに、第6実施の形態は、スパースコーディングの認識技術への応用の一例であり、スパースコーディングは、異常検知以外の物体認識等の認識技術にも応用することができる。
<第7実施の形態>
[本技術を適用したコンピュータの説明]
上述した一連の処理(学習処理、生成処理、異常検知処理)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図36は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)601,ROM(Read Only Memory)602,RAM(Random Access Memory)603は、バス604により相互に接続されている。
バス604には、さらに、入出力インタフェース605が接続されている。入出力インタフェース605には、入力部606、出力部607、記憶部608、通信部609、及びドライブ610が接続されている。
入力部606は、キーボード、マウス、マイクロフォンなどよりなる。出力部607は、ディスプレイ、スピーカなどよりなる。記憶部608は、ハードディスクや不揮発性のメモリなどよりなる。通信部609は、ネットワークインタフェースなどよりなる。ドライブ610は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア611を駆動する。
以上のように構成されるコンピュータでは、CPU601が、例えば、記憶部608に記憶されているプログラムを、入出力インタフェース605及びバス604を介して、RAM603にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU601)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア611に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア611をドライブ610に装着することにより、入出力インタフェース605を介して、記憶部608にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部609で受信し、記憶部608にインストールすることができる。その他、プログラムは、ROM602や記憶部608に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、学習用の信号およびスパースコーディングの対象とする信号が、色画像の静止画像である場合、第2実施の形態と第3実施の形態を組み合わせるようにしてもよい。即ち、基底画像係数間の空間的な相関性、各色チャンネルの基底画像係数間の相関性、および各帯域の基底画像係数間の相関性を表す項を含むコスト関数を用いて学習およびスパースコーディングを行うようにしてもよい。
さらに、学習用の信号およびスパースコーディングの対象とする信号が、輝度画像の動画像である場合、第3実施の形態と第4実施の形態を組み合わせるようにしてもよい。即ち、基底画像係数間の空間的な相関性、各帯域の基底画像係数間の相関性、および各フレームの基底画像係数間の相関性を表す項を含むコスト関数を用いて学習およびスパースコーディングを行うようにしてもよい。
また、学習用の信号およびスパースコーディングの対象とする信号が、色画像の動画像である場合、第2実施の形態または第3実施の形態の少なくとも一方と第4実施の形態を組み合わせるようにしてもよい。即ち、基底画像係数間の空間的な相関性、各色チャンネルまたは各帯域の少なくとも一方の基底画像係数間の相関性、および各フレームの基底画像係数間の相関性を表す項を含むコスト関数を用いて学習およびスパースコーディングを行うようにしてもよい。
なお、本技術は、以下のような構成もとることができる。
(1)
信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて前記複数の基底信号を学習する学習部
を備える信号処理装置。
(2)
前記コスト関数は、前記係数間の空間的な相関性を表す項を含む
前記(1)に記載の信号処理装置。
(3)
前記コスト関数は、前記係数間の時間的な相関性を表す項を含む
前記(1)または(2)のいずれかに記載の信号処理装置。
(4)
前記学習部は、各色チャンネルの前記信号が前記線形演算で表されるように、各色チャンネルの前記係数間の相関性を表す項を含むコスト関数を用いて各色チャンネルの前記複数の基底信号を学習する
前記(1)乃至(3)のいずれかに記載の信号処理装置。
(5)
前記信号を帯域分割し、各帯域の信号を生成する帯域分割部
をさらに備え、
前記学習部は、前記帯域分割部により生成された各帯域の信号が前記線形演算で表されるように、各帯域の前記係数間の相関性を表す項を含むコスト関数を用いて各帯域の前記複数の基底信号を学習する
前記(1)乃至(4)のいずれかに記載の信号処理装置。
(6)
前記学習部は、各色チャンネルの前記信号が前記線形演算で表されるように、前記色チャンネルごとに、前記コスト関数を用いて前記複数の基底信号を学習する
前記(1)乃至(3)のいずれかに記載の信号処理装置。
(7)
信号処理装置が、
信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて前記複数の基底信号を学習する学習ステップ
を含む信号処理方法。
(8)
コンピュータを、
信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて前記複数の基底信号を学習する学習部
として機能させるためのプログラム。
(9)
信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて学習された前記複数の基底信号、所定の信号、および前記コスト関数に基づいて、前記所定の信号の前記係数を演算する演算部
を備える出力装置。
(10)
前記コスト関数は、前記係数間の空間的な相関性を表す項を含む
前記(9)に記載の出力装置。
(11)
前記コスト関数は、前記係数間の時間的な相関性を表す項を含む
前記(9)または(10)に記載の出力装置。
(12)
前記演算部は、各色チャンネルの前記信号が前記線形演算で表されるように、各色チャンネルの前記係数間の相関性を表す項を含むコスト関数を用いて学習された各色チャンネルの前記複数の基底信号、各色チャンネルの前記所定の信号、および前記コスト関数に基づいて、各色チャンネルの前記所定の信号の前記係数を演算する
前記(9)乃至(11)のいずれかに記載の出力装置。
(13)
前記所定の信号を帯域分割し、各帯域の前記所定の信号を生成する帯域分割部
をさらに備え、
前記演算部は、各帯域の前記信号が前記線形演算で表されるように、各帯域の前記係数間の相関性を表す項を含むコスト関数を用いて学習された各帯域の前記複数の基底信号、前記帯域分割部により生成された各帯域の前記所定の信号、および前記コスト関数に基づいて、各帯域の前記所定の信号の前記係数を演算する
前記(9)乃至(12)のいずれかに記載の出力装置。
(14)
前記演算部は、色チャンネルごとに、各色チャンネルの前記信号が前記線形演算で表されるように前記コスト関数を用いて学習された各色チャンネルの前記複数の基底信号、各色チャンネルの前記所定の信号、および前記コスト関数に基づいて、前記色チャンネルごとに、前記所定の信号の前記係数を演算する
前記(9)乃至(11)のいずれかに記載の出力装置。
(15)
前記演算部により演算された前記係数と前記複数の基底信号とを用いて、前記所定の信号に対応する信号を生成する生成部
をさらに備える
前記(9)乃至(14)のいずれかに記載の出力装置。
(16)
前記生成部により生成された前記信号と前記所定の信号との差分に基づいて、前記所定の信号を認識する認識部
をさらに備える
前記(15)に記載の出力装置。
(17)
出力装置が、
信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて学習された前記複数の基底信号、所定の信号、および前記コスト関数に基づいて、前記所定の信号の前記係数を演算する演算ステップ
を含む出力方法。
(18)
コンピュータを、
信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて学習された前記複数の基底信号、所定の信号、および前記コスト関数に基づいて、前記所定の信号の前記係数を演算する演算部
として機能させるためのプログラム。
10 学習装置, 12 学習部, 80 画像生成装置, 83 演算部, 84 生成部, 130 画像生成装置, 131 演算部, 132 生成部, 150 学習装置, 152 学習部, 190 画像生成装置, 193 演算部, 194 生成部, 210 学習装置, 211 帯域分割部, 212 学習部, 250 画像生成装置, 251 帯域分割部, 253 演算部, 254 生成部, 290 学習装置, 292 学習部, 330 画像生成装置, 333 演算部, 334 生成部, 350 学習装置, 352 帯域分割部, 370 オーディオ生成装置, 372 帯域分割部, 374 演算部, 375 生成部, 390 学習装置, 410 異常検知装置, 412 生成部, 413 認識部

Claims (18)

  1. 信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて前記複数の基底信号を学習する学習部
    を備える信号処理装置。
  2. 前記コスト関数は、前記係数間の空間的な相関性を表す項を含む
    請求項1に記載の信号処理装置。
  3. 前記コスト関数は、前記係数間の時間的な相関性を表す項を含む
    請求項1に記載の信号処理装置。
  4. 前記学習部は、各色チャンネルの前記信号が前記線形演算で表されるように、各色チャンネルの前記係数間の相関性を表す項を含むコスト関数を用いて各色チャンネルの前記複数の基底信号を学習する
    請求項1に記載の信号処理装置。
  5. 前記信号を帯域分割し、各帯域の信号を生成する帯域分割部
    をさらに備え、
    前記学習部は、前記帯域分割部により生成された各帯域の信号が前記線形演算で表されるように、各帯域の前記係数間の相関性を表す項を含むコスト関数を用いて各帯域の前記複数の基底信号を学習する
    請求項1に記載の信号処理装置。
  6. 前記学習部は、各色チャンネルの前記信号が前記線形演算で表されるように、前記色チャンネルごとに、前記コスト関数を用いて前記複数の基底信号を学習する
    請求項1に記載の信号処理装置。
  7. 信号処理装置が、
    信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて前記複数の基底信号を学習する学習ステップ
    を含む信号処理方法。
  8. コンピュータを、
    信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて前記複数の基底信号を学習する学習部
    として機能させるためのプログラム。
  9. 信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて学習された前記複数の基底信号、所定の信号、および前記コスト関数に基づいて、前記所定の信号の前記係数を演算する演算部
    を備える出力装置。
  10. 前記コスト関数は、前記係数間の空間的な相関性を表す項を含む
    請求項9に記載の出力装置。
  11. 前記コスト関数は、前記係数間の時間的な相関性を表す項を含む
    請求項9に記載の出力装置。
  12. 前記演算部は、各色チャンネルの前記信号が前記線形演算で表されるように、各色チャンネルの前記係数間の相関性を表す項を含むコスト関数を用いて学習された各色チャンネルの前記複数の基底信号、各色チャンネルの前記所定の信号、および前記コスト関数に基づいて、各色チャンネルの前記所定の信号の前記係数を演算する
    請求項9に記載の出力装置。
  13. 前記所定の信号を帯域分割し、各帯域の前記所定の信号を生成する帯域分割部
    をさらに備え、
    前記演算部は、各帯域の前記信号が前記線形演算で表されるように、各帯域の前記係数間の相関性を表す項を含むコスト関数を用いて学習された各帯域の前記複数の基底信号、前記帯域分割部により生成された各帯域の前記所定の信号、および前記コスト関数に基づいて、各帯域の前記所定の信号の前記係数を演算する
    請求項9に記載の出力装置。
  14. 前記演算部は、色チャンネルごとに、各色チャンネルの前記信号が前記線形演算で表されるように前記コスト関数を用いて学習された各色チャンネルの前記複数の基底信号、各色チャンネルの前記所定の信号、および前記コスト関数に基づいて、前記色チャンネルごとに、前記所定の信号の前記係数を演算する
    請求項9に記載の出力装置。
  15. 前記演算部により演算された前記係数と前記複数の基底信号とを用いて、前記所定の信号に対応する信号を生成する生成部
    をさらに備える
    請求項9に記載の出力装置。
  16. 前記生成部により生成された前記信号と前記所定の信号との差分に基づいて、前記所定の信号を認識する認識部
    をさらに備える
    請求項15に記載の出力装置。
  17. 出力装置が、
    信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて学習された前記複数の基底信号、所定の信号、および前記コスト関数に基づいて、前記所定の信号の前記係数を演算する演算ステップ
    を含む出力方法。
  18. コンピュータを、
    信号が、係数が疎となる複数の基底信号の線形演算で表されるように、前記係数間の相関性を表す項を含むコスト関数を用いて学習された前記複数の基底信号、所定の信号、および前記コスト関数に基づいて、前記所定の信号の前記係数を演算する演算部
    として機能させるためのプログラム。
JP2012208320A 2012-09-21 2012-09-21 信号処理装置および信号処理方法、出力装置および出力方法、並びにプログラム Pending JP2014063359A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012208320A JP2014063359A (ja) 2012-09-21 2012-09-21 信号処理装置および信号処理方法、出力装置および出力方法、並びにプログラム
US14/022,606 US20140086479A1 (en) 2012-09-21 2013-09-10 Signal processing apparatus, signal processing method, output apparatus, output method, and program
CN201310418697.XA CN103679645A (zh) 2012-09-21 2013-09-13 信号处理装置、信号处理方法、输出装置、输出方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012208320A JP2014063359A (ja) 2012-09-21 2012-09-21 信号処理装置および信号処理方法、出力装置および出力方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2014063359A true JP2014063359A (ja) 2014-04-10

Family

ID=50317101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012208320A Pending JP2014063359A (ja) 2012-09-21 2012-09-21 信号処理装置および信号処理方法、出力装置および出力方法、並びにプログラム

Country Status (3)

Country Link
US (1) US20140086479A1 (ja)
JP (1) JP2014063359A (ja)
CN (1) CN103679645A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104980442B (zh) * 2015-06-26 2018-05-01 四川长虹电器股份有限公司 一种基于元样本稀疏表示的网络入侵检测方法
KR102548718B1 (ko) * 2017-06-07 2023-06-28 삼성전자주식회사 전자 장치 및 그 제어 방법
CN108260155B (zh) * 2018-01-05 2021-05-07 西安电子科技大学 一种基于时空相似度的无线传感网异常检测方法
US10909700B2 (en) 2019-04-02 2021-02-02 Samsung Electronics Co., Ltd. Display apparatus and image processing method thereof
CN112633298B (zh) * 2020-12-28 2023-07-18 深圳大学 一种度量图像/图像块相似性的方法
US11863786B2 (en) * 2021-05-21 2024-01-02 Varjo Technologies Oy Method of transporting a framebuffer

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006106508A2 (en) * 2005-04-04 2006-10-12 Technion Research & Development Foundation Ltd. System and method for designing of dictionaries for sparse representation
US20140037199A1 (en) * 2005-04-04 2014-02-06 Michal Aharon System and method for designing of dictionaries for sparse representation
CN101510943A (zh) * 2009-02-26 2009-08-19 上海交通大学 利用超完备拓扑稀疏编码有效去除图像噪声的方法
CN102298775B (zh) * 2010-06-24 2013-04-10 财团法人工业技术研究院 以样本为基础的人脸超分辨率重建方法与***
US8345971B2 (en) * 2010-06-28 2013-01-01 The Hong Kong Polytechnic University Method and system for spatial-temporal denoising and demosaicking for noisy color filter array videos
US9087390B2 (en) * 2011-09-16 2015-07-21 Adobe Systems Incorporated High-quality upscaling of an image sequence
CN102521599A (zh) * 2011-09-30 2012-06-27 中国科学院计算技术研究所 一种基于集成学习的模式训练和识别方法
CN102346908B (zh) * 2011-11-04 2013-06-26 西安电子科技大学 基于稀疏表示的sar图像相干斑抑制方法

Also Published As

Publication number Publication date
US20140086479A1 (en) 2014-03-27
CN103679645A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN108229526B (zh) 网络训练、图像处理方法、装置、存储介质和电子设备
JP6330385B2 (ja) 画像処理装置、画像処理方法およびプログラム
US11501563B2 (en) Image processing method and system
JP2014063359A (ja) 信号処理装置および信号処理方法、出力装置および出力方法、並びにプログラム
JP5229575B2 (ja) 画像処理装置および方法、並びにプログラム
CN111160533A (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
WO2019026104A1 (ja) 情報処理装置、情報処理プログラム及び情報処理方法
JP2009110240A (ja) 動画像の各画素の前景背景分類装置、方法及びプログラム
KR20170038622A (ko) 영상으로부터 객체를 분할하는 방법 및 장치
US9299011B2 (en) Signal processing apparatus, signal processing method, output apparatus, output method, and program for learning and restoring signals with sparse coefficients
JP7405198B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN111241924B (zh) 基于尺度估计的人脸检测及对齐方法、装置、存储介质
CN112446379A (zh) 一种动态大场景自适应智能处理方法
KR20180109658A (ko) 영상 처리 방법과 장치
US20220138583A1 (en) Human characteristic normalization with an autoencoder
CN112149500A (zh) 一种部分遮挡的人脸识别小样本学习方法
KR101877683B1 (ko) 학습을 이용한 얼굴 인식 장치 및 방법
JP5768719B2 (ja) 学習装置、識別装置、学習識別システム及び学習識別装置
JP2021170284A (ja) 情報処理装置及びプログラム
JP7380915B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN115457614B (zh) 一种图像质量评价方法、模型训练方法及装置
CN113554685A (zh) 遥感卫星运动目标检测方法、装置、电子设备及存储介质
Chaczko et al. Teaching Computer Vision for telemedicine systems using OpenCV
Subramanian et al. Fuzzy logic based content protection for image resizing by seam carving