JP3902887B2 - Lip extraction method - Google Patents
Lip extraction method Download PDFInfo
- Publication number
- JP3902887B2 JP3902887B2 JP15859799A JP15859799A JP3902887B2 JP 3902887 B2 JP3902887 B2 JP 3902887B2 JP 15859799 A JP15859799 A JP 15859799A JP 15859799 A JP15859799 A JP 15859799A JP 3902887 B2 JP3902887 B2 JP 3902887B2
- Authority
- JP
- Japan
- Prior art keywords
- lip
- color component
- candidate region
- histogram
- color
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Spectrometry And Color Measurement (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、人物の顔を含む画像から唇部分を抽出する方法に関する。
【0002】
【従来の技術】
従来より、話者の唇の動き情報を検知し、この検知結果を利用して音声認識の認識精度を向上する試みがなされている。そして、唇の動き情報を検出するためには、話者の顔画像から唇部分を精度よく抽出する必要がある。
【0003】
顔画像から唇部分を抽出する方法としては、1990年電子情報通信学会春期全国大会、D−329、p7−81、「顔画像からの唇特徴点の抽出法」などが知られている。
【0004】
図10は、従来の唇画像抽出装置の概要を示すブロック図である。
【0005】
まず、話者の顔画像が背景分離部1001に入力される。背景分離部1001は、入力された顔画像に、その輝度情報を用いてSobel(エッジ抽出)オペレータをかけることによりエッジを抽出する。次に背景分離部1001は、顔画像から、顔画像の最も外側のエッジよりも外側の部分を背景として分離し、顔面画像とする。背景を分離された顔面画像は、YIQ表色系変換部1002に入力される。
【0006】
YIQ表色系変換部1002は、唇候補領域の決定するために、背景を分離された顔画像をYIQ表色系へ色変換する。この色変換された画像は、唇候補領域決定部1003に入力される。
【0007】
唇候補領域決定部1003は、通常は、顔画面中の色の中で唇部分を示す色が、最も大きなQ軸値を示すことを考慮に入れて、Q軸に関して濃度値の累積ヒストグラムをとる。次に、唇候補領域決定部1003は、この累積ヒストグラムに、濃度値の高い方からx%の値で閾値処理を行うことで、唇候補領域を決定する。この、唇候補領域内の画像は唇抽出部1004に入力される。
【0008】
このときxは(式1)から自動的に設定される。
x=(s/(m+n))×ratio×100(%) …(式1)
ここで、m×nは原画像の画素数、sは背景分離画像の画素数で、ratioは顔の面積に対する唇部分の面積比を表すもので、経験的に定められる。
【0009】
唇抽出部1004は、唇候補領域内の画像から唇部分を抽出するため、Q軸に関して濃度値の累積ヒストグラムをとり、Q軸値により再度閾値処理を行う。このようにして唇画像が抽出される。
【0010】
このときの閾値は、同様に累積ヒストグラムから(式2)で与えられるy%の値とする。
y=(s’/(m+n))×level×100(%) …(式2)
ここで、s’は唇候補領域内の画素数、levelは唇候補領域の面積に対する唇部分の面積比を表し、これも経験的に定められる。
【0011】
以上のようにして、色成分ヒストグラムと閾値処理により、入力した話者の顔画像から唇部分を抽出することが可能である。
【0012】
【発明が解決しようとする課題】
しかしながら、従来の唇抽出方法では、色成分を用いて唇を抽出しているが、色成分は照明条件の影響を受けやすいという問題がある。
【0013】
また、閾値設定のためにあらかじめ設定した係数を用いているため、男女差および化粧の有無など話者の個人差により、唇抽出の精度は影響を受けやすいという問題もある。
【0014】
本発明はかかる点に鑑みてなされたものであり、照明など周囲の条件または、話者の個人差などに依存せずに顔画像から唇部分を精度よく抽出することを目的とする。
【0015】
【課題を解決するための手段】
そこで、本発明の唇抽出方法では、顔画像から唇を含む第1の唇候補領域を決定する工程と、前記顔画像から前記第1の唇候補領域の全ての領域とその周辺の領域を含む第2の唇候補領域を決定する工程と、前記第1の唇候補領域の色成分ヒストグラムを作成する工程と、前記第2の唇候補領域の色成分ヒストグラムを作成する工程と、前記第1の唇候補領域の色成分ヒストグラムと前記第2の唇候補領域の色成分ヒストグラムとの差分ヒストグラムを作成する工程と、前記差分ヒストグラムにおけるピークを唇周辺の肌色部分の色成分によるものとし、そのピーク値に対応する色成分値に係数を掛けて得られる色成分値を閾値として設定する工程と、前記第1の唇候補領域の色成分ヒストグラムのピークを前記唇部分の色成分によるものとし、前記閾値よりも前記唇部分の色成分によるピーク側にある色成分の領域を唇部分として抽出する工程と、を具備することを特徴とする。
【0016】
このように構成することで、第1の唇候補領域と第2の唇候補領域は共に唇部分を含み、第2の唇候補領域は第1の唇候補領域よりも広い範囲で唇周辺における肌色部分を含む。このため、前述の差分ヒストグラムは唇周辺の肌色部分の色成分ヒストグラムとなる。従って、差分ヒストグラムの分布から閾値を設定することにより、対象とする話者の肌と唇部分の色成分の境界を精度よく抽出することが可能となる。
【0017】
また、閾値設定のために抽出する第1の唇候補領域、第2の唇候補領域ともに同じ画像を用いるため、照明など周囲の条件によって生じる、唇部分抽出精度の劣化も防ぐことも可能となる。
本発明の唇抽出装置では、顔画像から唇を含む第1の唇候補領域を決定する第1の唇候補領域決定部と、前記顔画像から前記第1の唇候補領域の全ての領域とその周辺の領域を含む第2の唇候補領域を決定する第2の唇候補領域決定部と、前記第1の唇候補領域の色成分ヒストグラムと前記第2の唇候補領域の色成分ヒストグラムとを作成する色成分ヒストグラム作成部と、前記第1の唇候補領域の色成分ヒストグラムと前記第2の唇候補領域の色成分ヒストグラムとの差分ヒストグラムを作成し、前記差分ヒストグラムにおけるピ ークを唇周辺の肌色部分の色成分によるものとし、そのピーク値に対応する色成分値に係数を掛けて得られる色成分値を閾値として設定する閾値設定部と、前記第1の唇候補領域の色成分ヒストグラムのピークを前記唇部分の色成分によるものとし、前記閾値よりも前記唇部分の色成分によるピーク側にある色成分の領域を唇部分として抽出する唇抽出部と、を具備することを特徴とする。
【0018】
【発明の実施の形態】
本発明の第1の態様にかかる唇抽出方法は、顔画像から唇を含む第1の唇候補領域を決定する工程と、前記顔画像から前記第1の唇候補領域の全ての領域とその周辺の領域を含む第2の唇候補領域を決定する工程と、前記第1の唇候補領域の色成分ヒストグラムを作成する工程と、前記第2の唇候補領域の色成分ヒストグラムを作成する工程と、前記第1の唇候補領域の色成分ヒストグラムと前記第2の唇候補領域の色成分ヒストグラムとの差分ヒストグラムを作成する工程と、前記差分ヒストグラムにおけるピークを唇周辺の肌色部分の色成分によるものとし、そのピーク値に対応する色成分値に係数を掛けて得られる色成分値を閾値として設定する工程と、前記第1の唇候補領域の色成分ヒストグラムのピークを前記唇部分の色成分によるものとし、前記閾値よりも前記唇部分の色成分によるピーク側にある色成分の領域を唇部分として抽出する工程と、を具備する。
【0019】
このように差分ヒストグラムの分布から閾値を設定することにより、対象とする話者の肌と唇部分の色成分の境界を精度よく抽出することが可能となる。また、閾値設定のために抽出する第1の唇候補領域、第2の唇候補領域ともに同じ画像を用いるため、照明など周囲の条件によって生じる、唇部分抽出精度の劣化も防ぐことも可能となる。
【0020】
本発明の第2の態様は、第1の態様にかかる唇抽出方法において、前記色成分ヒストグラムを求める色成分は、予め設定した係数をa、bとして、作成するヒストグラムの色成分がRGB表色系の
(R−a・G−b・B)
である。
【0021】
このように構成することにより、入力する顔画像のRGB成分から容易に色成分ヒストグラムを作成することができる。
【0022】
本発明の第3の態様は、第1の態様または第2の態様にかかる唇抽出方法において、第1の唇候補領域と第2の唇候補領域の面積比が1対1よりも大きく、1対3よりも小さい。
【0023】
このような面積比にすることで、精度の高い閾値を設定できるので、唇の抽出も精度高くできる。
【0024】
本発明の第4の態様は、第1の態様から第3の態様のいずれかにかかる唇抽出方法において、第1の唇候補領域を決定する工程は、顔画像から仮唇候補領域を決定する工程と、仮唇候補領域の色成分ヒストグラムを作成する工程と、予め作成した複数の話者の顔画像から唇部分を切り出す際に使用した複数の閾値の平均値である閾値を、仮唇候補領域の色成分ヒストグラムに用いて色成分による閾値処理を行うことにより、仮唇候補領域から唇部分を抽出し、2値化を行う工程と、抽出された唇部分を含む長方形の領域を切り出すことで決定した新たな唇候補領域を第1の唇候補領域とする工程と、を具備する。
【0025】
以上のようにして、仮唇候補領域を使用して第1の唇候補領域を決定することにより、第1の唇候補領域を精度よく抽出することが可能となる。さらに、このように精度よく抽出された第1の唇候補領域を使用して唇画像を抽出するため、唇を精度よく抽出することができる。
【0026】
本発明の第5の態様は、第1の態様から第3の態様のいずれかにかかる唇抽出方法において、第1の唇候補領域を決定する工程は、顔画像から仮唇候補領域を決定する工程と、仮唇候補領域の色成分ヒストグラムを作成する工程と、予め複数の話者の顔画像から唇部分を切り出して作成した唇抽出用テンプレートの色成分ヒストグラムと前記仮唇候補領域の色成分ヒストグラムを比較し、類似度のもっとも高い唇抽出用テンプレートの閾値を仮唇候補領域の色成分ヒストグラムに用いて色成分による閾値処理を行うことにより、仮唇候補領域から唇部分を抽出し、2値化を行う工程と、抽出された唇部分を含む長方形の領域を切り出すことで決定した新たな唇候補領域を第1の唇候補領域とする工程と、を具備する。
【0027】
以上のようにして、仮唇候補領域を使用して第1の唇候補領域を決定することにより、第1の唇候補領域を精度よく抽出することが可能となる。さらに、このように精度よく抽出された第1の唇候補領域を使用して唇画像を抽出するため、唇を精度よく抽出することができる。
【0028】
本発明の第6の態様は、第1の態様から第5の態様のいずれかにかかる唇抽出方法において、前記色成分ヒストグラムを求める色成分は、前記抽出した唇部分の色成分の分布と抽出した唇周辺部分の色分布に対し、RGB色空間上で唇部分と唇周辺部分を2分する関数
a・R+b・G+c・B+d=0
を求め、唇抽出のために作成するヒストグラムの色成分を
a・R+b・G+c・B
とする。
【0029】
このように唇部分と唇周辺部分を2分する関数により、抽出した唇部分の色成分の分布と抽出した唇周辺部分の色分布を唇部分と唇周辺部分とに簡単に2分することができる。また、唇部分と唇周辺部分を2分する関数から、閾値を設定するための色成分(a・R+b・G+c・B)の係数(a、b、c)を決定し、この係数により色成分ヒストグラムを作成することにより、より精度よく唇部分を抽出することが可能になる。
【0030】
本発明の第7の態様は、第1の態様から第6の態様のいずれかにかかる唇抽出方法において、さらに、第1の唇候補領域の画像を輝度成分に変換し、エッジ抽出し、2値化した画像と、色成分により唇部分を抽出した画像の論理和を取った画像を唇抽出画像として出力する工程を有する。
【0031】
このように色成分と輝度成分による唇抽出を行うことにより、より精度の高い唇部分の抽出が可能となる。
本発明の第8の態様に係る唇抽出装置は、顔画像から唇を含む第1の唇候補領域を決定する第1の唇候補領域決定部と、前記顔画像から前記第1の唇候補領域の全ての領域とその周辺の領域を含む第2の唇候補領域を決定する第2の唇候補領域決定部と、前記第1の唇候補領域の色成分ヒストグラムと前記第2の唇候補領域の色成分ヒストグラムとを作成する色成分ヒストグラム作成部と、前記第1の唇候補領域の色成分ヒストグラムと前記第2の唇候補領域の色成分ヒストグラムとの差分ヒストグラムを作成し、前記差分ヒストグラムにおけるピークを唇周辺の肌色部分の色成分によるものとし、そのピーク値に対応する色成分値に係数を掛けて得られる色成分値を閾値として設定する閾値設定部と、前記第1の唇候補領域の色成分ヒストグラムのピークを前記唇部分の色成分によるものとし、前記閾値よりも前記唇部分の色成分によるピーク側にある色成分の領域を唇部分として抽出する唇抽出部と、を具備することを特徴とする。
本発明の第9の態様は、第8の態様にかかる唇抽出装置において、前記色成分ヒストグラムを求める色成分は、予め係数a,bを設定し、作成する色成分ヒストグラムの色成分がRGB表色系の(R−a・G−b・B)であることを特徴とする。
本発明の第10の態様は、第8の態様または第9の態様にかかる唇抽出装置において、前記第1の唇候補領域と前記第2の唇候補領域の面積比が1対1よりも大きく、1対3よりも小さいことを特徴とする。
【0032】
以下、本発明の実施の形態について図を用いて詳細に説明する。
【0033】
(実施の形態1)
図1は、本発明にかかる音声認識装置の構成を示すブロック図である。この図を使用して、実施の形態1にかかる音声認識装置ついて説明する。
【0034】
音声認識装置101は、画像入力部102と画像処理部103と音声入力部104と音声認識部105とを有する構成になっている。
【0035】
画像入力部102は、話者の顔を撮影することによって得られた顔画像を出力する。画像入力部102としては、CCDカメラなどが考えられる。
【0036】
画像処理部103は、画像入力部102から入力された顔画像から唇画像を抽出して出力する。画像処理部103は、顔面画像抽出部106と唇画像抽出部107とを有する構成になっている。
【0037】
顔面画像抽出部106は、画像入力部102から入力された顔画像に、その輝度情報を用いてSobel(エッジ抽出)オペレータをかけてエッジを抽出する。次に顔面画像抽出部106は、最も外側のエッジよりも外側の部分顔画像の画像情報を背景として顔画像から分離し、顔面画像を作成する。顔面画像抽出部106は、顔面画像をYIQ表色系変換に変換し、唇画像抽出部107に入力する。
【0038】
なお、本実施の形態では、顔面画像抽出部106が顔画像から顔面画像を抽出する方法として、顔画像の輝度情報を用いてSobel(エッジ抽出)オペレータをかけてエッジを抽出する方法を用いたが、これ以外の方法を用いてもよく、これ以外の方法を用いた形態も本発明に包含される。
【0039】
唇画像抽出部107は、入力された顔面画像から唇画像を抽出して音声認識部105に出力する。
【0040】
音声入力部104は、マイクなどの集音装置により集音された音声を音声認識部105に出力する。
【0041】
音声認識部105は、画像処理部103から入力された唇画像を用いて、音声入力部104から入力された音声認識をして、認識結果を出力する。
【0042】
以下、本発明の特徴である唇抽出精度が高められた唇画像抽出部107の説明を詳細に行う。
【0043】
図2は、実施の形態1にかかる唇画像抽出部の構成を示すブロック図である。
【0044】
第1の唇候補領域決定部201は、入力された話者の顔面画像と唇を抽出するための情報から第1の唇候補領域を決定する。第1の唇候補領域の決定方法としては、前述の従来例における方法や、第2回画像センシングシンポジウム講演論文集、A−1、p1〜6、「色情報とGAを用いた顔画像抽出と個人照合の応用」に示されているような、予め用意された顔(または唇)抽出用テンプレートベクトル集合と遺伝的アルゴリズムを用いたパターンマッチングによる領域抽出法などが考えられる。なお、第1の唇候補領域の決定方法として、これら以外の技術を用いることも可能であり、これら以外の技術を使用して第1の唇候補領域の決定してもよい。
【0045】
第2の唇候補領域決定部202は、入力された顔面画像から第1の唇候補領域の全てとその周辺を含むように決定された第2の唇候補領域を決定する。第1の唇候補領域と第2の唇候補領域の面積比は、1対1よりも大きく、1対3よりも小さくなっている。
【0046】
色成分ヒストグラム作成部203は、第1の唇候補領域の色成分ヒストグラムおよび第2の唇候補領域の色成分ヒストグラムを作成する。図4において、色成分としてRGB表色系における(R−G−B)成分を横軸として示している。しかし、色成分として、このほかにも(R−G)成分、R/G成分、R/(G・B)成分、予め設定した係数をa、bとして、(R−a・G−b・B)成分を算出して用いることで入力する顔画像のRGB成分から容易に色成分ヒストグラムを作成できるようにすることや、前述の従来例に示されているYIQ表色系におけるQ成分や、HSV表色系におけるH成分、S成分などを利用することで効果を上げることも可能である。
【0047】
閾値設定部204は、第1の唇候補領域のヒストグラムと第2の唇候補領域のヒストグラムとの差分を取った差分ヒストグラムを作成し、この差分ヒストグラムのピーク値と予め設定された係数を掛けることにより得られる値に対応する色成分値を閾値として設定する。
【0048】
唇抽出部205は、第1の唇候補領域のヒストグラムと閾値設定部204で決定した閾値から唇部分を抽出し、唇画像として出力する。
【0049】
図3は、実施の形態1にかかる第1の唇候補領域および第2の唇候補領域を説明するための概略図である。
【0050】
301は、唇部分であり、302は第1の唇候補領域決定部201により決定された第1の唇候補領域であり、303は第1の唇候補領域の全てとその周辺を含むように決定された第2の唇候補領域である。
【0051】
図4は、実施の形態1にかかる第1の唇候補領域の色成分ヒストグラム(度数分布)と、第2の唇候補領域の色成分ヒストグラムと、第1の唇候補領域の色成分ヒストグラムと第2の唇候補領域の色成分ヒストグラムとの差分ヒストグラムと、を示す図である。
【0052】
横軸は色成分(RGB表色系における、(R−G−B)成分)、縦軸は色成分の度数である。401は第1の唇候補領域302の色成分ヒストグラム、402は第2の唇候補領域303の色成分ヒストグラム、403は第1の唇候補領域302の色成分ヒストグラムと第2の唇候補領域303の色成分ヒストグラムとの差分ヒストグラムである。また、404は、第2の唇候補領域の色成分ヒストグラムの第1のピークであり、405は、第2の唇候補領域の色成分ヒストグラムの第2のピークである。
【0053】
以下、実施の形態1にかかる唇画像抽出部の動作について図2、図3および図4を使用して説明する。
【0054】
初めに、第1の唇候補領域決定部201に話者の顔面画像と唇を抽出するための情報が入力される。第1の唇候補領域決定部201は、この顔面画像から第1の唇候補領域302を決定し、色成分ヒストグラム作成部203に出力する。
【0055】
続いて、第2の唇候補領域決定部202が、入力された話者の顔面画像から、第1の唇候補領域302の全てとその周辺を含む領域を第2の唇候補領域303として新たに決定し、色成分ヒストグラム作成部203に出力する。
【0056】
色成分ヒストグラム作成部203は、抽出した第1の唇候補領域302の色成分ヒストグラム401および第2の唇候補領域303の色成分ヒストグラム402を作成する。
【0057】
図4からも明らかなように、第2の唇候補領域303の色成分ヒストグラム402には、第1のピーク404と第2のピーク405の2つのピークがある。また、第1の唇候補領域302の色成分ヒストグラム401には第2のピーク405と同じ位置にピークがある。
【0058】
第1の唇候補領域302の色成分ヒストグラム401と第2の唇候補領域303の色成分ヒストグラム402とが共にピークを現わしている第2のピーク405は唇部分301の色成分によるものである。また、第2の唇候補領域303の色成分ヒストグラム402にのみはっきりと現れている第1のピーク404は、唇周辺の肌色部分の色成分によるものである。
【0059】
従って、第1の唇候補領域302の色成分ヒストグラム401と第2の唇候補領域303の色成分ヒストグラム402との差分ヒストグラム403を作成することにより、唇周辺の肌色成分ヒストグラムを抽出することが可能となる。
【0060】
閾値設定部204は、この肌色成分ヒストグラムである差分ヒストグラム403を作成し、そのピーク値を求め、このピーク値に対応する色成分値を求める。さらに、閾値設定部204は、このピーク値に対応する色成分値に予め設定された係数を掛けることにより得られる色成分値を閾値として設定し、唇抽出部205に出力する。
【0061】
唇抽出部205は、第1の唇候補領域の色成分ヒストグラム401の色成分のうち閾値設定部204で決定した閾値よりも第2のピーク405側にある色成分の領域を唇部分として抽出し、唇画像を出力する。
【0062】
また、第1の唇候補領域302と第2の唇候補領域303の面積比が1対1よりも大きく、1対3よりも小さい面積比になっている。このような面積比にすることで、精度よく閾値を求めることができるので、唇を精度よく抽出することができる。なお、面積比はこの比率以外でも周囲の環境および個人差によって変更しても構わない。
【0063】
このように、実施の形態1にかかる唇画像抽出部によれば、第1の唇候補領域と第2の唇候補領域は共に唇部分を含み、第2の唇候補領域は第1の唇候補領域よりも広い範囲で唇周辺における肌色部分を含む。このため、差分ヒストグラムは唇周辺の肌色部分の色成分ヒストグラムとなる。従って、差分ヒストグラムの分布から閾値を設定することにより、対象とする話者の肌と唇部分の色成分の境界を精度よく抽出することが可能となる。
【0064】
また、閾値設定のために抽出する第1の唇候補領域、第2の唇候補領域ともに同じ画像を用いるため、照明など周囲の条件によって生じる、唇部分抽出精度の劣化も防ぐことも可能となる。
【0065】
よって、実施の形態1にかかる唇画像抽出部によれば、照明などの条件や、男女差、化粧(口紅)の有無など話者の個人差により、色成分ヒストグラムの分布が異なっても、これらの影響を受けることなく唇部分の抽出が可能となる。
【0066】
(実施の形態2)
図5は、本発明の実施の形態2にかかる唇画像抽出部の構成を示すブロック図である。この図を使用して、唇画像抽出部の構成について詳細に説明する。
【0067】
実施の形態2にかかる唇画像抽出部は、実施の形態1にかかる唇画像抽出部において、第1の唇候補領域決定方法として仮唇候補領域を用いる点が異なるのみである。また、既に説明した部分と同じ部分については同一の符号を付与してある。
【0068】
仮唇候補領域決定部501は、実施の形態1で説明した第1の唇候補領域決定部201と同じ動作をし、唇候補領域を抽出し、この領域を仮唇候補領域とする。
【0069】
色成分ヒストグラム作成部502は、仮唇候補領域の色成分(R−G−B)のヒストグラムを作成する。なお、色成分ヒストグラム作成部203と同様にこの色成分以外の色成分を使用しても良い。
【0070】
閾値記憶部503は、実施の形態1にかかる唇画像抽出部により、予め複数の話者の複数の話者の顔画像から唇画像部分を抽出し、その際に用いた唇画像抽出のための閾値(色成分)の平均値を算出した閾値を記憶している。
【0071】
唇抽出部504は、仮唇候補領域の色成分ヒストグラムと閾値記憶部503に記憶された閾値を用いて唇部分を抽出し、2値化し、唇画像として出力する。
【0072】
第1の唇候補領域決定部505は、唇抽出部504から入力せれた唇部分を含む長方形の領域を切り出し、この領域をあらたに第1の唇候補領域として決定する。
【0073】
以下に、実施の形態2にかかる唇画像抽出部の動作について説明する。
【0074】
まず、仮唇候補領域決定部501に唇抽出の対象となる話者の顔面画像と唇情報が入力される。仮唇候補領域決定部501は、唇抽出の対象となる話者の顔面画像に対して、仮唇候補領域を決定し、色成分ヒストグラム作成部502に出力する。
【0075】
続いて、色成分ヒストグラム作成部502が、入力された仮唇候補領域の色成分(R−G−B)のヒストグラムを作成し、唇抽出部504に出力する。
【0076】
唇抽出部504は、色成分ヒストグラム作成部502から入力された仮唇候補領域の色成分ヒストグラムと閾値記憶部503に記憶されている閾値を用いて唇部分を抽出し2値化し、第1の唇候補領域決定部505に出力する。
【0077】
第1の唇候補領域決定部505は、抽出された唇部分を含む長方形を切り出し、この領域を第1の唇候補領域として決定する。
【0078】
以下の動作については実施の形態1と同じなので説明を省略する。
【0079】
以上のように、実施の形態2にかかる唇画像抽出部によれば、仮唇候補領域を使用して第1の唇候補領域を決定することにより、精度よく第1の唇候補領域を抽出することが可能となる。さらに、このように精度よく抽出された第1の唇候補領域を使用して唇画像を抽出するため、唇画像を精度よく抽出することができる。
【0080】
(実施の形態3)
図6は、本発明の実施の形態3にかかる唇画像抽出部の構成を示すブロック図である。この図を使用して実施の形態3にかかる唇画像抽出部の構成を説明する。なお、すでに説明した部分と同一の部分については同一の符号を付与してある。
【0081】
実施の形態3にかかる唇画像抽出部は、実施の形態1にかかる唇画像抽出部おいて、第1の唇候補領域決定方法として仮唇候補領域を用いる点が異なるのみである。また、既に説明した部分と同じ部分については同一の符号を付与してある。
【0082】
唇抽出用テンプレート601は、予め複数の話者の顔画像から唇部分を切り出して作成した色成分ヒストグラムと閾値が記憶している。
【0083】
唇抽出部602は、唇抽出用テンプレート601の色成分ヒストグラムと仮唇候補領域の色成分ヒストグラムを比較する。そして、次に、唇抽出部602は、比較した結果、類似度のもっとも高い唇抽出用テンプレートの閾値を用いて仮唇候補領域の画像に対して唇部分の画像を抽出する。
【0084】
以下、実施の形態3にかかる唇抽出部の動作について説明する。
【0085】
まず、前述の実施の形態2と同じ方法により、仮唇候補領域の色成分ヒストグラムが作成され、唇抽出部602に入力される。
【0086】
続いて、唇抽出部602は、唇抽出用テンプレート601の色成分ヒストグラムと仮唇候補領域の色成分ヒストグラムを比較する。そして、唇抽出部602は、比較した結果、類似度の最も高い唇抽出用テンプレート601の閾値を用いて仮唇候補領域の画像に対して唇部分を抽出し、出力する。
【0087】
以下の動作については、実施の形態1または実施の形態2と同様なので説明を省略する。
【0088】
以上のように、実施の形態3にかかる唇画像抽出部によれば、仮唇候補領域と唇抽出用テンプレートを使用して第1の唇候補領域を決定することにより、精度よく第1の唇候補領域を抽出することが可能となる。さらに、このように精度よく抽出された第1の唇候補領域を使用して唇画像を抽出するため、唇画像を精度よく抽出することができる。
【0089】
(実施の形態4)
図7は本発明の実施の形態4にかかる唇画像抽出部の構成を示すブロック図である。この図を使用して実施の形態4にかかる唇画像抽出部の構成を説明する。なお、すでに説明した部分と同一の部分については同一の符号を付与してある。
【0090】
仮唇部分の色成分分布作成部701は、唇抽出された部分の色成分の分布をRGBの空間上で作成する。
【0091】
仮唇周辺部分の色成分分布作成部702は、唇周辺部分の色成分の分布をRGBの空間上で作成する。
【0092】
色成分パラメータ決定部703は、ある与えられた色成分(R、G、B)が唇抽出された部分の色成分の分布と唇周辺部分の色成分の分布のいずれに属するかをRGB色空間上で判別するために用いる判別関数
a・R+b・G+c・B+d=0
を求める。また、判別関数は判別分析により求めることができる。判別関数の係数(a、b、c)を用いて第1の唇候補領域302と第2の唇候補領域303の色成分パラメータ((a・R+b・G+c・B)を決定する。なお、実施の形態1に示した色成分(R−G−B)はa=1、b=−1、c=−1の場合に相当する。
【0093】
色成分ヒストグラム作成部704は、係数(a、b、c)を用いて第1の唇候補領域302の色成分(a・R+b・G+c・B)ヒストグラムと、第2の唇候補領域303の色成分ヒストグラムを作成する。
【0094】
図8は、実施の形態4にかかる唇抽出された部分の色成分の分布と唇周辺部分の色成分の分布をRGBの色空間上に示した図である。
【0095】
801は抽出された仮唇部分の色成分の分布をRGBの色空間上に示したものであり、802は仮唇周辺部分の色成分の分布をRGBの色空間上に示したものである。803は、ある与えられた色成分(R、G、B)が仮唇部分の集合と仮唇周辺部分の集合のいずれに属するかを判別するための判別関数(a・R+b・G+c・B+d=0)を示す平面である。
【0096】
以下、実施の形態4にかかる唇画像抽出部の動作について説明する。
【0097】
まず、実施の形態1と同様な手順で唇部分を抽出する。
【0098】
つぎに、仮唇部分の色成分分布作成部701がこの唇部分を仮唇部分とし、仮唇部分の色成分分布を作成し、出力する。同様に、仮唇周辺部分の色成分分布作成部702は、仮唇周辺の色成分分布を作成し、出力する。
【0099】
次に、色成分パラメータ決定部703は、入力された仮唇部分の色成分の分布801と仮唇周辺部分の色成分の分布802に対して(RGB)色空間上で判別分析を行い判別関数
a・R+b・G+c・B+d=0
を求め、この係数(a、b、c)を用いて第1の唇候補領域302と第2の唇候補領域303の色成分パラメータ(a・R+b・G+c・B)を決定し、出力する。
【0100】
色成分ヒストグラム作成部704は、このようにして得られた、係数(a、b、c)を用いて第1の唇候補領域302の色成分ヒストグラムを作成し、出力する。さらに、色成分ヒストグラム作成部704は、第2の唇候補領域303の色成分(a・R+b・G+c・B)ヒストグラムを作成し、出力する。
【0101】
以下の動作については、既に説明した動作と同じであるので説明を省略する。
【0102】
以上のように、実施の形態4にかかる唇画像抽出部によれば、判別分析の判別関数により閾値を設定するための色成分(a・R+b・G+c・B)の係数(a、b、c)を決定し、この色成分を使用して色成分ヒストグラムを作成することにより、より精度よく唇部分を抽出することが可能となる。
【0103】
なお、実施の形態4では、唇部分と唇周辺部分を2分する関数として、判別分析によって求められた判別関数を使用したが、判別関数以外の関数、例えば唇抽出された仮唇部分の色成分分布801と仮唇周辺部分の色成分の分布802、それぞれの重心間の中点を通り、重心を結ぶ直線に直交する平面を表わす関数(a・R+b・G+c・B+d=0)等を使用することも可能である。また、これらの判別関数以外の関数の係数(a、b、c)を用いることも当然のことながら可能である。
【0104】
(実施の形態5)
図9は、本発明の実施の形態5にかかる唇画像抽出部の構成を示すブロック図である。この図を使用して実施の形態5にかかる唇画像抽出部について詳細に説明する。なお、既に説明した部分と同一の部分については同一の符号が付与してある。
【0105】
輝度値変換部901は、第1の唇候補領域の画像データを輝度値で表わされる画像データに変換する。
【0106】
エッジ抽出部902は、輝度値で表わされた画像データにエッジオペレーターをかけることによりエッジを抽出し、さらに2値化する。
【0107】
画像合成部903は、色成分ヒストグラムを用いて抽出した唇画像とエッジ抽画像の論理和をとり、唇画像として出力する。
【0108】
以下、実施の形態5にかかる唇画像抽出部の動作について説明する。
【0109】
色成分ヒストグラムを用いて唇抽出する部分の処理は実施の形態1と同様であるので、説明を省略する。
【0110】
第1の唇候補領域決定部201が第1の唇候補領域抽出した後、輝度値変換部901は、第1の唇候補領域の画像データを輝度値で表わされる画像データに変換し、出力する。
【0111】
次に、エッジ抽出部902が、輝度値に変換された画像データにエッジオペレーターをかけることによりエッジを抽出し、さらに2値化して出力する。
【0112】
そして、画像合成部903が、実施の形態1と同様に色成分ヒストグラムを用いて抽出した唇画像とエッジ抽出部902から入力されたエッジ抽出画像の論理和をとり、これを唇画像として出力する。
【0113】
以上のようにして、実施の形態5にかかる唇画像抽出部によれば、色成分による唇抽出だけでなく輝度成分による唇抽出も行うことにより、より精度の高い唇部分の抽出が可能となる。
【0114】
以上説明してきたように、本発明の唇抽出方式では、照明などの条件や話者の個人差に影響を受けることなく、唇部分を精度よく抽出することが可能となる。
【0115】
また、実施の形態1から実施の形態5を適宜組み合わせることにより、さらに精度を上げることも可能である。
【0116】
さらに、本発明にかかる唇画像抽出部の構成は、図2、図5〜7、図9に限定されるものではなく、各処理部、例えば色成分ヒストグラム作成部を設ける数を増やす等して並列化し、処理を高速化することもできる。また、本発明にかかる唇画像抽出部の各処理部、例えば閾値設定部、色成分ヒストグラム作成部などに複数回の処理をさせることにより、小型化することもできる。
【0117】
また、本発明の説明では、唇画像抽出部を音声認識装置に適用したが、唇画像抽出部をこれ以外の装置に適用することも可能であり、本発明に含まれる。
【0118】
【発明の効果】
以上説明したように、本発明によれば、照明などの条件や話者の個人差に影響を受けることなく、唇部分を精度よく抽出することが可能となる。
【図面の簡単な説明】
【図1】 本発明にかかる音声認識装置の構成を示すブロック図
【図2】 本発明の実施の形態1にかかる唇画像抽出部の構成を示すブロック図
【図3】 実施の形態1にかかる第1の唇候補領域および第2の唇候補領域を説明するための概略図
【図4】 実施の形態1にかかる第1の唇候補領域の色成分ヒストグラムと、第2の唇候補領域の色成分ヒストグラムと、第1の唇候補領域の色成分ヒストグラムと第2の唇候補領域の色成分ヒストグラムとの差分ヒストグラムを示す図
【図5】 本発明の実施の形態2にかかる唇画像抽出部の構成を示すブロック図
【図6】 本発明の実施の形態3にかかる唇画像抽出部の構成を示すブロック図
【図7】 本発明の実施の形態4にかかる唇画像抽出部の構成を示すブロック図
【図8】 実施の形態4にかかる唇抽出された部分の色成分の分布と唇周辺部分の色成分の分布をRGBの色空間上に示した図
【図9】 本発明の実施の形態5にかかる唇画像抽出部の構成を示すブロック図
【図10】 従来の唇画像抽出装置の概要を示すブロック図
【符号の説明】
101 音声認識装置
102 画像入力部
103 画像処理部
104 音声入力部
105 音声認識部
106 顔面画像抽出部
107 唇画像抽出部
201、505 第1の唇候補領域決定部
202 第2の唇候補領域決定部
203、502 色成分ヒストグラム作成部
204 閾値設定部
205、504、602 唇抽出部
501 仮唇候補領域決定部
503 閾値記憶部
601 唇抽出用テンプレート
701 仮唇部分の色成分分布作成部
702 仮唇周辺部分の色成分分布作成部
703 色成分パラメータ決定部
704 色成分ヒストグラム作成部
901 輝度値変換部
902 エッジ抽出部
903 画像合成部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a method for extracting a lip portion from an image including a human face.
[0002]
[Prior art]
Conventionally, attempts have been made to detect the movement information of the speaker's lips and improve the recognition accuracy of voice recognition using the detection result. In order to detect lip movement information, it is necessary to accurately extract the lip portion from the face image of the speaker.
[0003]
As a method for extracting a lip portion from a face image, the 1990 electronic information communication society spring national convention, D-329, p7-81, “a method for extracting lip feature points from a face image” and the like are known.
[0004]
FIG. 10 is a block diagram showing an outline of a conventional lip image extraction apparatus.
[0005]
First, a speaker's face image is input to the
[0006]
The YIQ color
[0007]
The lip candidate
[0008]
At this time, x is automatically set from (Equation 1).
x = (s / (m + n)) × ratio × 100 (%) (Formula 1)
Here, m × n is the number of pixels of the original image, s is the number of pixels of the background separation image, and ratio represents the area ratio of the lip portion to the area of the face and is determined empirically.
[0009]
In order to extract the lip portion from the image in the lip candidate region, the
[0010]
Similarly, the threshold value at this time is a value of y% given by (Equation 2) from the cumulative histogram.
y = (s ′ / (m + n)) × level × 100 (%) (Formula 2)
Here, s' represents the number of pixels in the lip candidate region, and level represents the ratio of the area of the lip portion to the area of the lip candidate region, which is also determined empirically.
[0011]
As described above, the lip portion can be extracted from the input face image of the speaker by the color component histogram and the threshold processing.
[0012]
[Problems to be solved by the invention]
However, in the conventional lip extraction method, lips are extracted using color components, but there is a problem that the color components are easily affected by illumination conditions.
[0013]
In addition, since a preset coefficient is used for setting the threshold value, there is a problem that the accuracy of lip extraction is easily affected by individual differences among speakers such as gender differences and the presence or absence of makeup.
[0014]
The present invention has been made in view of such a point, and an object thereof is to accurately extract a lip portion from a face image without depending on ambient conditions such as illumination or individual differences among speakers.
[0015]
[Means for Solving the Problems]
Therefore, in the lip extraction method of the present invention, from the face image.Including lipsThe first lip candidate areaA step of determining, a step of determining a second lip candidate region including all regions of the first lip candidate region and surrounding regions thereof from the face image, and a color component histogram of the first lip candidate region A step of generating a color component histogram of the second lip candidate region, and a difference histogram between the color component histogram of the first lip candidate region and the color component histogram of the second lip candidate region And the peak in the difference histogram is determined by the color component of the skin color portion around the lips, and the color component value obtained by multiplying the color component value corresponding to the peak value by a coefficient is used as a threshold value.A setting process;The peak of the color component histogram of the first lip candidate region is caused by the color component of the lip portion, and the region of the color component located on the peak side by the color component of the lip portion from the threshold is extracted as the lip portion. And comprising.
[0016]
With this configuration, both the first lip candidate area and the second lip candidate area include lip portions, and the second lip candidate area is wider than the first lip candidate area, and is a skin color around the lips. Including parts. Therefore, the above difference histogram is a color component histogram of the skin color portion around the lips. Therefore, by setting a threshold value from the distribution of the difference histogram, it is possible to accurately extract the boundary between the color components of the target speaker's skin and lips.
[0017]
In addition, since the same image is used for both the first lip candidate region and the second lip candidate region extracted for setting the threshold, it is possible to prevent deterioration of the lip portion extraction accuracy caused by ambient conditions such as illumination. .
In the lip extraction apparatus of the present invention, a first lip candidate region determination unit that determines a first lip candidate region including lips from a face image, all the first lip candidate regions from the face image, and Creating a second lip candidate region determining unit that determines a second lip candidate region including a peripheral region, a color component histogram of the first lip candidate region, and a color component histogram of the second lip candidate region A color component histogram creation unit that creates a difference histogram between the color component histogram of the first lip candidate region and the color component histogram of the second lip candidate region, and A threshold value setting unit for setting a color component value obtained by multiplying a color component value corresponding to the peak value by a coefficient as a threshold value, and the first lip candidate A lip extractor that extracts a peak of the color component histogram of the region from the color component of the lip portion and extracts a region of the color component that is on the peak side of the color component of the lip portion from the threshold as the lip portion. It is characterized by doing.
[0018]
DETAILED DESCRIPTION OF THE INVENTION
The lip extraction method according to the first aspect of the present invention includes:Determining a first lip candidate area including lips from a face image; and determining a second lip candidate area including all areas of the first lip candidate area and surrounding areas from the face image. Creating a color component histogram of the first lip candidate area; creating a color component histogram of the second lip candidate area; and a color component histogram of the first lip candidate area; Creating a difference histogram with the color component histogram of the lip candidate region of 2 and the peak in the difference histogram as a color component of the skin color portion around the lips, and multiplying the color component value corresponding to the peak value by a coefficient And setting the color component value obtained as a threshold value, and the peak of the color component histogram of the first lip candidate region is due to the color component of the lip part, and the color of the lip part is more than the threshold value. A step of extracting a region of the color components on the peak side by minute as lip portion comprises a.
[0019]
Thus, by setting a threshold value from the distribution of the difference histogram, it is possible to accurately extract the boundary between the color components of the target speaker's skin and lips. In addition, since the same image is used for both the first lip candidate region and the second lip candidate region extracted for setting the threshold, it is possible to prevent deterioration of the lip portion extraction accuracy caused by ambient conditions such as illumination. .
[0020]
According to a second aspect of the present invention, in the lip extraction method according to the first aspect,The color component for obtaining the color component histogram is:Assuming that the coefficients set in advance are a and b, the color components of the histogram to be created are in the RGB color system.
(Ra, Gb, B)
It is.
[0021]
With this configuration, it is possible to easily create a color component histogram from the RGB components of the input face image.
[0022]
According to a third aspect of the present invention, in the lip extraction method according to the first aspect or the second aspect, the area ratio between the first lip candidate region and the second lip candidate region is larger than 1: 1, Smaller than pair 3.
[0023]
By setting such an area ratio, a highly accurate threshold can be set, so that the extraction of lips can be performed with high accuracy.
[0024]
According to a fourth aspect of the present invention, in the lip extraction method according to any one of the first aspect to the third aspect, the step of determining the first lip candidate area determines the temporary lip candidate area from the face image. A threshold value which is an average value of a plurality of threshold values used in extracting a lip portion from a plurality of speaker face images created in advance, a step of creating a color component histogram of the lip candidate region, Extracting the lip portion from the temporary lip candidate region by performing threshold processing using the color component using the color component histogram of the region, binarizing, and cutting out a rectangular region including the extracted lip portion And a step of setting the new lip candidate region determined in step 1 as a first lip candidate region.
[0025]
As described above, the first lip candidate region can be accurately extracted by determining the first lip candidate region using the temporary lip candidate region. Furthermore, since the lip image is extracted using the first lip candidate region extracted with high accuracy in this way, the lips can be extracted with high accuracy.
[0026]
According to a fifth aspect of the present invention, in the lip extraction method according to any one of the first to third aspects, the step of determining the first lip candidate region determines the temporary lip candidate region from the face image. A step of creating a color component histogram of the temporary lip candidate region, a color component histogram of a lip extraction template created by cutting out lip portions from a plurality of speaker face images in advance, and a color component of the temporary lip candidate region By comparing the histograms, using the threshold value of the lip extraction template with the highest similarity in the color component histogram of the temporary lip candidate region, and performing threshold processing based on the color component, the lip portion is extracted from the temporary lip candidate region. And a step of performing a valuation, and a step of setting a new lip candidate region determined by cutting out a rectangular region including the extracted lip portion as a first lip candidate region.
[0027]
As described above, the first lip candidate region can be accurately extracted by determining the first lip candidate region using the temporary lip candidate region. Furthermore, since the lip image is extracted using the first lip candidate region extracted with high accuracy in this way, the lips can be extracted with high accuracy.
[0028]
According to a sixth aspect of the present invention, in the lip extraction method according to any one of the first to fifth aspects,The color component for obtaining the color component histogram is theA function that bisects the lip part and the peripheral part of the lip in the RGB color space with respect to the color component distribution of the extracted lip part and the color distribution of the extracted peripheral part of the lip
a * R + b * G + c * B + d = 0
The histogram color components to be created for lip extraction.
a ・ R + b ・ G + c ・ B
And
[0029]
In this way, the function of dividing the lip portion and the lip peripheral portion into two can easily divide the extracted lip portion color component distribution and the extracted lip peripheral portion color distribution into the lip portion and the lip peripheral portion. it can. Also, coefficients (a, b, c) of color components (a, R + b, G + c, B) for setting a threshold are determined from a function that bisects the lip portion and the peripheral portion of the lips, and the color components are determined based on these coefficients. By creating a histogram, it is possible to extract the lip portion with higher accuracy.
[0030]
According to a seventh aspect of the present invention, in the lip extraction method according to any one of the first to sixth aspects,further,The image of the first lip candidate region is converted into a luminance component, edge extraction is performed, and an image obtained by performing a logical sum of the binarized image and the image obtained by extracting the lip portion by the color component is output as a lip extraction image.Have steps.
[0031]
By performing lip extraction using the color component and the luminance component in this manner, it is possible to extract the lip portion with higher accuracy.
The lip extraction apparatus according to an eighth aspect of the present invention includes a first lip candidate region determining unit that determines a first lip candidate region including lips from a face image, and the first lip candidate region from the face image. A second lip candidate region determining unit that determines a second lip candidate region including all of the regions and surrounding regions thereof, a color component histogram of the first lip candidate region, and the second lip candidate region A color component histogram creating unit that creates a color component histogram; and creating a difference histogram between the color component histogram of the first lip candidate region and the color component histogram of the second lip candidate region; and a peak in the difference histogram A threshold value setting unit that sets a color component value obtained by multiplying a color component value corresponding to the peak value by a coefficient as a threshold value, and a first lip candidate region Color component histo A lip extraction unit configured to extract a region of a color component located on a peak side of the lip portion as a lip portion with a peak of the lam being caused by the color component of the lip portion and being above the threshold value by the color component of the lip portion. And
According to a ninth aspect of the present invention, in the lip extraction apparatus according to the eighth aspect, the color component for obtaining the color component histogram is set with coefficients a and b in advance, and the color component histogram to be created is an RGB table. It is characterized by a color system (Ra, Gb, B).
According to a tenth aspect of the present invention, in the lip extraction apparatus according to the eighth aspect or the ninth aspect, an area ratio of the first lip candidate region to the second lip candidate region is larger than 1: 1. It is smaller than 1: 3.
[0032]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0033]
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to the present invention. The speech recognition apparatus according to the first embodiment will be described with reference to FIG.
[0034]
The
[0035]
The
[0036]
The
[0037]
The face
[0038]
In the present embodiment, as the method by which the facial
[0039]
The lip
[0040]
The
[0041]
The
[0042]
Hereinafter, the lip
[0043]
FIG. 2 is a block diagram of a configuration of the lip image extraction unit according to the first embodiment.
[0044]
The first lip candidate
[0045]
The second lip candidate
[0046]
The color component
[0047]
The threshold
[0048]
The
[0049]
FIG. 3 is a schematic diagram for explaining a first lip candidate region and a second lip candidate region according to the first embodiment.
[0050]
301 is a lip portion, 302 is a first lip candidate region determined by the first lip candidate
[0051]
FIG. 4 shows a color component histogram (frequency distribution) of the first lip candidate region, a color component histogram of the second lip candidate region, a color component histogram of the first lip candidate region, and the first lip candidate region according to the first embodiment. It is a figure which shows the difference histogram with the color component histogram of 2 lip candidate area | regions.
[0052]
The horizontal axis is the color component ((RGB) component in the RGB color system), and the vertical axis is the frequency of the color component. 401 is a color component histogram of the first
[0053]
Hereinafter, the operation of the lip image extracting unit according to the first embodiment will be described with reference to FIGS. 2, 3, and 4.
[0054]
First, information for extracting a speaker's face image and lips is input to the first lip candidate
[0055]
Subsequently, the second lip candidate
[0056]
The color component
[0057]
Figure4As can be seen from the color component histogram of the second lip candidate region 303402There are two peaks, a first peak 404 and a
[0058]
The
[0059]
Therefore, by creating a
[0060]
The threshold
[0061]
The
[0062]
Further, the area ratio between the first lip candidate region 302 and the second lip candidate region 303 is larger than 1: 1 and smaller than 1: 3. By using such an area ratio, the threshold value can be obtained with high accuracy, so that the lips can be extracted with high accuracy. The area ratio may be changed depending on the surrounding environment and individual differences other than this ratio.
[0063]
As described above, according to the lip image extraction unit according to the first embodiment, the first lip candidate region and the second lip candidate region both include the lip portion, and the second lip candidate region is the first lip candidate. The skin color part around the lips is included in a wider range than the area. Therefore, the difference histogram is a color component histogram of the skin color portion around the lips. Therefore, by setting a threshold value from the distribution of the difference histogram, it is possible to accurately extract the boundary between the color components of the target speaker's skin and lips.
[0064]
In addition, since the same image is used for both the first lip candidate region and the second lip candidate region extracted for setting the threshold, it is possible to prevent deterioration of the lip portion extraction accuracy caused by ambient conditions such as illumination. .
[0065]
Therefore, according to the lip image extraction unit according to the first embodiment, even if the distribution of the color component histogram is different depending on the individual condition of the speaker such as lighting conditions, gender difference, makeup (lipstick), etc. It is possible to extract the lip portion without being affected by.
[0066]
(Embodiment 2)
FIG. 5 is a block diagram showing a configuration of the lip image extraction unit according to the second exemplary embodiment of the present invention. The configuration of the lip image extraction unit will be described in detail with reference to FIG.
[0067]
The lip image extraction unit according to the second embodiment is different from the lip image extraction unit according to the first embodiment only in using a temporary lip candidate region as the first lip candidate region determination method. Moreover, the same code | symbol is provided about the part same as the part already demonstrated.
[0068]
The temporary lip candidate
[0069]
The color component
[0070]
The
[0071]
The
[0072]
The first lip candidate
[0073]
The operation of the lip image extraction unit according to the second embodiment will be described below.
[0074]
First, a facial image and lip information of a speaker to be extracted are input to the temporary lip candidate
[0075]
Subsequently, the color component
[0076]
The
[0077]
The first lip candidate
[0078]
Since the following operations are the same as those in the first embodiment, description thereof is omitted.
[0079]
As described above, according to the lip image extraction unit according to the second embodiment, the first lip candidate region is accurately extracted by determining the first lip candidate region using the temporary lip candidate region. It becomes possible. Furthermore, since the lip image is extracted using the first lip candidate region extracted with high accuracy in this way, the lip image can be extracted with high accuracy.
[0080]
(Embodiment 3)
FIG. 6 is a block diagram illustrating a configuration of the lip image extraction unit according to the third embodiment of the present invention. The configuration of the lip image extraction unit according to the third embodiment will be described with reference to FIG. In addition, the same code | symbol is provided about the part same as the part already demonstrated.
[0081]
The lip image extraction unit according to the third embodiment is different from the lip image extraction unit according to the first embodiment only in using a temporary lip candidate region as the first lip candidate region determination method. Moreover, the same code | symbol is provided about the part same as the part already demonstrated.
[0082]
The
[0083]
The
[0084]
The operation of the lip extraction unit according to the third embodiment will be described below.
[0085]
First, a color component histogram of the temporary lip candidate region is created and input to the
[0086]
Subsequently, the
[0087]
Since the following operations are the same as those in the first or second embodiment, the description thereof is omitted.
[0088]
As described above, according to the lip image extracting unit according to the third embodiment, the first lip can be accurately determined by determining the first lip candidate region using the temporary lip candidate region and the lip extraction template. Candidate areas can be extracted. Furthermore, since the lip image is extracted using the first lip candidate region extracted with high accuracy in this way, the lip image can be extracted with high accuracy.
[0089]
(Embodiment 4)
FIG. 7 is a block diagram showing the configuration of the lip image extraction unit according to the fourth embodiment of the present invention. The configuration of the lip image extraction unit according to the fourth embodiment will be described with reference to FIG. In addition, the same code | symbol is provided about the part same as the part already demonstrated.
[0090]
The temporary lip portion color component
[0091]
The color component
[0092]
The color component
a * R + b * G + c * B + d = 0
Ask for. The discriminant function can be obtained by discriminant analysis. The color component parameters ((a · R + b · G + c · B) of the first lip candidate region 302 and the second lip candidate region 303 are determined using the coefficients (a, b, c) of the discriminant function. The color component (RGB) shown in Form 1 corresponds to the case where a = 1, b = −1, and c = −1.
[0093]
The color component
[0094]
FIG. 8 is a diagram showing the color component distribution of the lip-extracted portion and the color component distribution of the lip peripheral portion according to the fourth embodiment on the RGB color space.
[0095]
[0096]
The operation of the lip image extraction unit according to the fourth embodiment will be described below.
[0097]
First, the lip portion is extracted in the same procedure as in the first embodiment.
[0098]
Next, the lip portion color component
[0099]
Next, the color component
a * R + b * G + c * B + d = 0
And the color component parameters (a · R + b · G + c · B) of the first lip candidate region 302 and the second lip candidate region 303 are determined and output using the coefficients (a, b, c).
[0100]
The color component
[0101]
Since the following operations are the same as those already described, the description thereof is omitted.
[0102]
As described above, according to the lip image extraction unit according to the fourth embodiment, the coefficients (a, b, c) of the color components (a · R + b · G + c · B) for setting the threshold value by the discriminant function of discriminant analysis. ) And using this color component to create a color component histogram makes it possible to extract the lip portion with higher accuracy.
[0103]
In the fourth embodiment, the discriminant function obtained by the discriminant analysis is used as the function for dividing the lip portion and the lip peripheral portion into two. However, functions other than the discriminant function, for example, the color of the lip extracted temporary lip portion
[0104]
(Embodiment 5)
FIG. 9 is a block diagram showing a configuration of the lip image extraction unit according to the fifth embodiment of the present invention. The lip image extraction unit according to the fifth embodiment will be described in detail with reference to FIG. In addition, the same code | symbol is provided about the part same as the part already demonstrated.
[0105]
The luminance
[0106]
The
[0107]
The
[0108]
The operation of the lip image extraction unit according to the fifth embodiment will be described below.
[0109]
The processing for extracting the lips using the color component histogram is the same as that in the first embodiment, and a description thereof will be omitted.
[0110]
After the first lip candidate
[0111]
Next, the
[0112]
Then, the
[0113]
As described above, according to the lip image extraction unit according to the fifth embodiment, it is possible to extract a lip portion with higher accuracy by performing not only lip extraction using a color component but also lip extraction using a luminance component. .
[0114]
As described above, with the lip extraction method of the present invention, it is possible to accurately extract the lip portion without being affected by conditions such as lighting and individual differences among speakers.
[0115]
Further, the accuracy can be further increased by appropriately combining the first to fifth embodiments.
[0116]
Furthermore, the configuration of the lip image extraction unit according to the present invention is not limited to FIGS. 2, 5 to 7, and 9. For example, the number of processing units such as a color component histogram creation unit is increased. Parallel processing can be used to speed up processing. In addition, each processing unit of the lip image extraction unit according to the present invention, for example, a threshold setting unit, a color component histogram creation unit, and the like can be reduced in size by performing a plurality of processes.
[0117]
In the description of the present invention, the lip image extraction unit is applied to the voice recognition device. However, the lip image extraction unit can be applied to other devices and is included in the present invention.
[0118]
【The invention's effect】
As described above, according to the present invention, it is possible to accurately extract the lip portion without being affected by conditions such as lighting or individual differences among speakers.
[Brief description of the drawings]
FIG. 1 is a block diagram showing the configuration of a speech recognition apparatus according to the present invention.
FIG. 2 is a block diagram showing a configuration of a lip image extraction unit according to the first embodiment of the present invention;
FIG. 3 is a schematic diagram for explaining a first lip candidate region and a second lip candidate region according to the first embodiment;
FIG. 4 is a color component histogram of a first lip candidate area, a color component histogram of a second lip candidate area, a color component histogram of a first lip candidate area, and a second lip candidate according to the first embodiment; The figure which shows a difference histogram with the color component histogram of an area | region
FIG. 5 is a block diagram showing a configuration of a lip image extraction unit according to the second embodiment of the present invention;
FIG. 6 is a block diagram showing a configuration of a lip image extraction unit according to the third embodiment of the present invention;
FIG. 7 is a block diagram showing a configuration of a lip image extraction unit according to a fourth embodiment of the present invention.
FIG. 8 is a diagram showing the color component distribution of the lip-extracted portion and the color component distribution of the lip peripheral portion in the RGB color space according to the fourth embodiment;
FIG. 9 is a block diagram showing a configuration of a lip image extraction unit according to the fifth embodiment of the present invention;
FIG. 10 is a block diagram showing an outline of a conventional lip image extracting apparatus.
[Explanation of symbols]
101 Voice recognition device
102 Image input unit
103 Image processing unit
104 Voice input part
105 Voice recognition unit
106 Face image extraction unit
107 Lip image extraction unit
201, 505 First lip candidate area determination unit
202 Second lip candidate area determination unit
203, 502 Color component histogram creation unit
204 Threshold setting unit
205, 504, 602 Lip extractor
501 Temporary lip candidate area determination unit
503 Threshold storage unit
601 Lip Extraction Template
701 Color component distribution creation part of lip portion
702 Color component distribution creation part around the lip
703 Color component parameter determination unit
704 Color component histogram generator
901 Brightness value converter
902 Edge extraction unit
903 Image composition unit
Claims (10)
a・R+b・G+c・B+d=0
を求め、唇抽出のために作成するヒストグラムの色成分を
a・R+b・G+c・B
とすることを特徴とする請求項1から請求項5のいずれかに記載の唇抽出方法。 The color component for obtaining the color component histogram is a function that bisects the lip portion and the lip peripheral portion in the RGB color space with respect to the color component distribution of the extracted lip portion and the color distribution of the extracted lip peripheral portion a.・ R + b ・ G + c ・ B + d = 0
The color components of the histogram to be created for lip extraction are a · R + b · G + c · B
The lip extraction method according to any one of claims 1 to 5, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15859799A JP3902887B2 (en) | 1999-06-04 | 1999-06-04 | Lip extraction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP15859799A JP3902887B2 (en) | 1999-06-04 | 1999-06-04 | Lip extraction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000348173A JP2000348173A (en) | 2000-12-15 |
JP3902887B2 true JP3902887B2 (en) | 2007-04-11 |
Family
ID=15675175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15859799A Expired - Fee Related JP3902887B2 (en) | 1999-06-04 | 1999-06-04 | Lip extraction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3902887B2 (en) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006170669A (en) * | 2004-12-13 | 2006-06-29 | Mitsui Mining & Smelting Co Ltd | Quality inspection device of vegetables and fruits |
JP2006172381A (en) * | 2004-12-20 | 2006-06-29 | Dkk Toa Corp | Image observation method and device for performing the same method |
JP2007047949A (en) * | 2005-08-08 | 2007-02-22 | Advanced Telecommunication Research Institute International | Apparatus for tracking mouse and computer program |
KR100680278B1 (en) | 2005-12-28 | 2007-02-07 | 고려대학교 산학협력단 | Method for lip shape extraction and apparatus thereof |
JP2008090792A (en) * | 2006-10-05 | 2008-04-17 | Yamaguchi Univ | Eyeball detection method using genetic algorithm |
JP5023328B2 (en) * | 2006-11-20 | 2012-09-12 | 国立大学法人山口大学 | Meal support system |
KR100957194B1 (en) | 2008-06-24 | 2010-05-11 | 동명대학교산학협력단 | The mouse interface system of between human and terminal, and control method |
KR101035768B1 (en) * | 2009-01-02 | 2011-05-20 | 전남대학교산학협력단 | Method for setting lip region for lip reading and apparatus for the same |
JP4831259B1 (en) | 2011-03-10 | 2011-12-07 | オムロン株式会社 | Image processing apparatus, image processing method, and control program |
JP6662052B2 (en) * | 2016-01-14 | 2020-03-11 | 富士通株式会社 | Image processing program, image processing apparatus, and image processing method |
WO2018139242A1 (en) * | 2017-01-27 | 2018-08-02 | パナソニック株式会社 | Image analysis system, image analysis method, and program |
-
1999
- 1999-06-04 JP JP15859799A patent/JP3902887B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000348173A (en) | 2000-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100480781B1 (en) | Method of extracting teeth area from teeth image and personal identification method and apparatus using teeth image | |
JP4597391B2 (en) | Facial region detection apparatus and method, and computer-readable recording medium | |
JP3902887B2 (en) | Lip extraction method | |
JP2007257087A (en) | Skin color area detecting device and skin color area detecting method | |
JP4100885B2 (en) | Form recognition apparatus, method, program, and storage medium | |
JP2000105829A (en) | Method and device for face parts image detection | |
JP2007272435A (en) | Face feature extraction device and face feature extraction method | |
JP4077094B2 (en) | Color document image recognition device | |
KR20150007880A (en) | method and apparatus for improving quality of image and recording medium thereof | |
KR20160115663A (en) | Image processing apparatus and image processing method | |
KR101654287B1 (en) | A Navel Area Detection Method Based on Body Structure | |
WO2011074014A2 (en) | A system for lip corner detection using vision based approach | |
Arsic et al. | Improved lip detection algorithm based on region segmentation and edge detection | |
JP2000339471A (en) | Method and device for extracting picture | |
JP2004246424A (en) | Method for extracting skin color area | |
JP4439829B2 (en) | Data analysis apparatus and data recognition apparatus | |
Youlian et al. | Face detection method using template feature and skin color feature in rgb color space | |
JP2007188407A (en) | Image processing device and image processing program | |
KR101439190B1 (en) | Method of operating mobile system based on image processing, method of processing image in mobile system, and mobile system using the same | |
JPH05108804A (en) | Identifying method and executing device for three-dimensional object | |
Nath et al. | Lip contour extraction scheme using morphological reconstruction based segmentation | |
JP2001209808A (en) | System and method for extracting object, and storage medium with stored program for object extraction | |
JP2007243987A (en) | Image processing method, image processing system, and image processing program | |
JP2022147713A (en) | Image generation device, learning device, and image generation method | |
KR101327482B1 (en) | Vein feature extraction method and apparatus in leaf image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060926 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070105 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100112 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100112 Year of fee payment: 3 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100112 Year of fee payment: 3 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100112 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100112 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100112 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110112 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120112 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120112 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130112 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |