JP7438690B2

JP7438690B2 - 情報処理装置、画像認識方法及び学習モデル生成方法

Info

Publication number: JP7438690B2
Application number: JP2019147085A
Authority: JP
Inventors: 崇文久野; 誠佐藤; 大樹加藤; 秀樹横山
Original assignee: Nippon Television Network Corp
Current assignee: Nippon Television Network Corp
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2024-02-27
Anticipated expiration: 2039-08-09
Also published as: JP2021026744A

Description

本発明は情報処理装置、画像認識方法及び学習モデル生成方法に関し、特に、認識対象の人物の顔を認識する情報処理装置、画像認識方法及び学習モデル生成方法に関する。

映像中から人物の顔を認識する技術の開発が行われている。特に、近年では、ディープラーニング、強化学習等の機械学習により、学習モデルを生成し、その学習モデルを用いて人物を画像認識する技術が盛んに行われている。高精度な認識を行う学習モデルを生成するには、大量の教師データを必要とする。

ところで、放送局等は、俳優、スポーツ選手、政治家等の多数の映像を保有している。なかでも、多数出演している俳優などは、通常の顔のみならず、笑顔や怒った顔など表現が異なる様々な表現の顔の画像を保持可能である。一方で、一部を除いて選手や政治家等は、日常的にテレビに出演又は放送されるものではなく、大会や選挙など、映像として保存される機会はあまりない。すなわち、このような人物は、様々な表現の顔の画像を保持することが不可能であり、これらの人物を画像認識する場合、教師データの絶対数が不足する。

そこで、本発明は、機械学習による学習モデルによって人物の顔の画像認識を行う際、教師データの絶対数の不足による認識精度の低下を防ぐことができる情報処理装置、画像認識方法及び学習モデル生成方法を提供することにある。

本発明の一態様は、認識対象人物の顔の基本顔画像から、前記基本顔画像の顔の表情と異なる表情の顔の表情変化顔画像を生成する表情変化顔画像生成部と、前記認識対象人物の識別情報、前記認識対象人物の基本顔画像及び表情変化顔画像を含む教師データを用いて生成された、人物の顔画像を入力、前記認識対象人物に関する値を出力とする学習モデルと、映像から人物の顔画像を抽出し、前記学習モデルに入力する顔画像抽出部と、前記学習モデルの出力値から、前記映像から前記認識対象人物を認識する認識対象人物認識部と、を備える映像処理装置である。

本発明の一態様は、認識対象人物の顔の基本顔画像から、前記基本顔画像の顔の表情と異なる表情の顔の表情変化顔画像を生成し、前記認識対象人物の識別情報、前記認識対象人物の基本顔画像及び表情変化顔画像を含む教師データを用いて、人物の顔画像を入力、前記認識対象人物に関する値を出力とする学習モデルを生成し、映像から人物の顔画像を抽出し、前記学習モデルに入力し、前記学習モデルの出力値から、前記映像から前記認識対象人物を認識する画像認識方法である。

本発明の一態様は、認識対象人物の顔の基本顔画像から、前記基本顔画像の顔の表情と異なる表情の顔の表情変化顔画像を生成し、前記認識対象人物の識別情報、前記認識対象人物の基本顔画像及び表情変化顔画像を含む教師データを用いて、人物の顔画像を入力、前記認識対象人物に関する値を出力とする学習モデルを生成する学習モデル生成方法である。

本発明の一態様は、認識対象人物の顔の基本顔画像から、前記認識対象人物の顔の経過時間情報に対応した経時変化顔画像を生成し、前記認識対象人物の識別情報、前記経過時間情報、前記認識対象人物の基本顔画像及び経時変化顔画像を含む教師データを用いて、人物の顔画像及び前記経過時間情報を入力、前記認識対象人物に関する値を出力とする学習モデルを生成する学習モデル生成方法である。

本発明によれば、機械学習による学習モデルによって人物の顔の画像認識を行う際、教師データの絶対数の不足による認識精度の低下を防ぐことができる。

図１は第１の実施の形態の全体の構成を示すブロック図である。図２は第１の実施の形態の映像処理装置２のブロック図である。図３は表情変化顔画像の生成を説明するための図である。図４は情報処理装置２の具体的な動作を説明するための図である。図５は情報処理装置２の具体的な動作を説明するための図である。図６は情報処理装置２の具体的な動作を説明するための図である。図７は情報処理装置２の具体的な動作を説明するための図である。図８は第１の実施の形態の変形例の映像処理装置２のブロック図である。図９は物品装着顔画像の生成を説明するための図である。図１０は第１の実施の形態の変形例２の顔画像抽出部２４を説明するための図である。図１１は第１の実施の形態の変形例３の顔画像抽出部２４を説明するための図である。図１２は第１の実施の形態の変形例３の顔画像抽出部２４を説明するための図である。図１３は第２の実施の形態の映像処理装置２のブロック図である。図１４は第２の実施の形態の具体的な動作を説明するための図である。図１５は第２の実施の形態の具体的な動作を説明するための図である。図１６は第３の実施の形態の映像処理装置２のブロック図である。図１７は第４の実施の形態の映像処理装置２のブロック図である。図１８は第４の実施の形態の情報処理装置２の具体的な動作を説明するための図である。図１９は第４の実施の形態の情報処理装置２の具体的な動作を説明するための図である。図２０は第４の実施の形態の情報処理装置２の具体的な動作を説明するための図である。図２１はコンピュータシステムによって構成された映像処理装置２のブロック図である。

＜第１の実施の形態＞
第１の実施の形態を説明する。

図１は第１の実施の形態の全体の構成を示すブロック図である。図１中、１はカメラ、２は映像処理装置、３は表示装置である。

カメラ１は、映像を撮影するカメラである。カメラ１は、人物などの認識のために、高画質な映像が撮影できる４Ｋ又は８Ｋのカメラが好ましいが、これらに限定されるものではない。

映像処理装置２は、カメラ１の撮影映像を入力し、映像中の人物のなかから、特定の人物（以下、認識対象人物と記載する）を認識し、その結果を表示装置３に出力するものである。尚、本実施の形態では、映像処理装置２が処理する映像は、カメラ１から出力される映像であるが、カメラ１で撮影され、一度、記憶装置に記憶された映像（リアルタイムではない）でも良い。

表示装置３は、撮影映像と、映像処理装置２から出力される認識結果とが出力されるディスプレイである。しかし、表示装置３は、表示機能のみならず、タブレット端末のように、タッチパネルの機能を持つディスプレイであっても良い。

次に、映像処理装置２を説明する。図２は映像処理装置２のブロック図である。

映像処理装置２は、基本顔画像記憶部２１と、表情変化顔画像生成部２２と、学習モデル２３と、顔画像抽出部２４と、認識対象人物認識部２５とを備える。

基本顔画像記憶部２１は、映像中の認識対象の人物となる複数の認識対象人物の基本顔画像が格納された記憶部である。基本顔画像は、識対象人物の基本となる表情の顔が写った顔画像である。

表情変化顔画像生成部２２は、基本顔画像を用いて、基本顔画像の顔の表情と異なる表情の認識対象人物の顔の画像（以下、表情変化顔画像と記載する）を生成する。例えば、図３に示すような、笑顔、泣き顔、怒った顔、恐れた顔、疲労した顔など顔画像である。表情変化顔画像の生成は既知の技術を用いることが可能である。例えば、基本顔画像の顔の特徴点を抽出し、その特徴点をあるルールに従って変化させることにより、基本顔画像とは異なる他の表現の表情変化顔画像の生成が可能である。

学習モデル２３は、人物の顔画像を入力とし、認識対象人物に関する値を出力とする学習モデルである。学習モデルの生成は、各認識対象人物の識別情報（例えば、氏名）と、各認識対象人物の基本顔画像記憶部２１からの基本顔画像と、各認識対象人物の表情変化顔画像生成部２２によって生成された表情変化顔画像とを含む教師データを用いて、ディープラーニング、強化学習、それらの組み合わせなどにより学習する。学習モデル２３の出力である認識対象人物に関する値は、例えば、入力された顔画像の人物が認識対象人物である確率などである。

顔画像抽出部２４は、入力された映像から人物の顔を検出し、その顔の顔画像を抽出し、顔画像とその顔画像を識別できる識別情報とを、学習モデル２３に出力する。映像から人物の抽出は、既知の技術を用いることができる。

認識対象人物認識部２５は、学習モデル２３からの値を受けて、認識対象人物を認識し、認識結果を表示装置３に出力する。例えば、学習モデルの出力値のうち、所定の閾値以上の確率を持つ顔画像の顔を、認識対象人物として認識し、認識対象人物の映像中の位置を示すマーカ（例えば、認識対象人物の顔を囲む矩形）とその認識対象人物の識別情報（例えば、氏名）とを表示装置３に出力する。

次に、情報処理装置２の具体的な動作を説明する。

まず、各認識対象人物の基本顔画像を用意し、表情変化顔画像生成部２２に入力する。各認識対象人物の複数の表情変化顔画像を生成する。

図４は認識対象人物Ｘの場合の複数の表情変化顔画像の生成を説明するための図である。認識対象人物Ｘの基本顔画像を用意し、表情変化顔画像生成部２２に入力する。表情変化顔画像生成部２２は、例えば、基本顔画像の顔の特徴点を抽出し、その特徴点をあるルールに従って変化させることにより、認識対象人物Ｘの基本顔画像の顔とは異なる他の表現（例えば、笑顔、泣き顔、怒った顔等）の表情変化顔画像を複数生成する。これにより、認識対象人物Ｘの画像認識する場合の教師データ数の不足を解決する。同様に、他の認識対象人物Ｙ、認識対象人物Ｚ．．．等の認識したい人物の基本顔画像を用意し、表情変化顔画像生成部２２により、基本顔画像の顔とは異なる他の表現の表情変化顔画像を複数生成する。

次に、少なくとも１以上の認識対象人物の識別情報（例えば、氏名）と、少なくとも１以上の認識対象人物の基本顔画像と、少なくとも１以上の認識対象人物の基本顔画像を用いて表情変化顔画像生成部２２により生成された複数の表情変化顔画像とを教師データとし、顔画像から認識対象人物を認識する学習モデル２３を生成する。学習モデル２３の出力は、入力された顔画像の顔が、認識対象人物の顔である確率（確からしさ）である。

学習モデル２３の学習が完了した後、認識対象人物の画像認識の処理を開始する。以下の説明では、カメラ１は、選挙の演説の模様を撮影しており、その映像は図５に示す映像であり、表示装置３に表示される映像である。

カメラ１の映像は、顔画像抽出部２４に入力される。顔画像抽出部２４は、カメラ１の映像中の人物の顔を検出する。カメラ１の映像で検出された顔は、図６に示す如く、顔Ａ、顔Ｂ、顔Ｃ、顔Ｄ、顔Ｅ、顔Ｆである。尚、図６の映像中において、検出された人物の顔を点線の矩形で示しているが、これは検出を概念的に示しているだけであり、表示装置３には点線の矩形は表示されない。

顔画像抽出部２４は、カメラ１の映像から、顔Ａ、顔Ｂ、顔Ｃ、顔Ｄ、顔Ｅ、顔Ｆをそれぞれ囲む矩形領域の画像を抽出し、顔Ａの顔画像、顔Ｂの顔画像、顔Ｃの顔画像、顔Ｄの顔画像、顔Ｅの顔画像、顔Ｆの顔画像として、学習モデル２３に出力する。

学習モデル２３は、顔Ａの顔画像、顔Ｂの顔画像、顔Ｃの顔画像、顔Ｄの顔画像、顔Ｅの顔画像、顔Ｆの顔画像に対して、各認識対象人物の顔である確率（確からしさ）を出力する。ここでは、学習モデル２３の出力が、認識対象人物Ｘについて、顔Ａの顔画像＝０．１、顔Ｂの顔画像＝０．８５、顔Ｃの顔画像＝０．０５、顔Ｄの顔画像＝０．９、顔Ｅの顔画像＝０．３、顔Ｆの顔画像＝０．１であり、認識対象人物Ｙについて、顔Ａの顔画像＝０．１、顔Ｂの顔画像＝０．５、顔Ｃの顔画像＝０．０１、顔Ｄの顔画像＝０．６、顔Ｅの顔画像＝０．９、顔Ｆの顔画像＝０．１であり、認識対象人物Ｚについて、顔Ａの顔画像＝０．２、顔Ｂの顔画像＝０．１、顔Ｃの顔画像＝０．１、顔Ｄの顔画像＝０．２、顔Ｅの顔画像＝０．１、顔Ｆの顔画像＝０．９であり、．．．、とする。

認識対象人物認識部２５は、学習モデル２３の出力値を入力する。ここで、認識対象人物認識部２５は、所定の閾値以上の確率を持つ顔画像の顔を、認識対象人物として認識する。ここで、閾値を０．８とすると、顔Ｂ及び顔Ｄが認識対象人物Ｘの顔であり、顔Ｅが認識対象人物Ｙの顔であり、顔Ｆが認識対象人物Ｚの顔であると認識する。そして、顔Ｂ及び顔Ｄを囲む矩形と「認識対象人物Ｘ」と、顔Ｅを囲む矩形と「認識対象人物Ｙ」と、顔Ｆを囲む矩形と「認識対象人物Ｚ」とを表示装置３に出力する。

図７は、表示装置３に表示される認識結果の一例であり、顔Ｂ及び顔Ｄは矩形で囲まれ、矩形の下には識別情報である「認識対象人物Ｘ」が表示される。同様に、顔Ｅは矩形で囲まれ、矩形の下には識別情報である「認識対象人物Ｙ」が表示される。同様に、顔Ｆは矩形で囲まれ、矩形の下には識別情報である「認識対象人物Ｆ」が表示される。

第１の実施の形態によれば、教師データの絶対数の不足による認識精度の低下を防ぐことができる。

＜第１の実施の形態の変形例１＞
第１の実施の形態の変形例を説明する。

図８は第１の実施の形態の変形例の映像処理装置２のブロック図である。

第１の実施の形態の変形例は、第１の実施の形態の情報処理装置２に、物品装着画像生成部２６を追加している。

物品装着顔画像生成部２６は、変化顔画像生成部２２と同様に、基本顔画像を用いて、基本顔画像の顔に物品を装着した認識対象人物の顔の画像（以下、物品装着顔画像と記載する）を生成する。物品装着顔画像は、例えば、図９に示すように、認識対象人物の基本顔画像にメガネを装着した場合の顔画像である。ここで、物品は、顔に装着するものであれば何でも良いが、例えば、めがね、サングラス、帽子、ヘルメット、アクセサリー等がある。

第１の実施の形態の変形例は、認識対象人物がメガネなどを装着した場合の顔画像を生成し、学習モデル２３の教師データとすることにより、学習モデル２３の認識精度が高まるという効果がある。

＜第１の実施の形態の変形例２＞
第１の実施の形態の変形例２を説明する。

第１の実施の形態の顔画像抽出部２４は、映像中に写っている人物と思われる全ての顔を検出している。しかし、放送などで使用される映像では、映像の中心付近に位置する人物は重要な被写体であることが多い。すなわち、認識対象人物が、映像の中心付近に位置することが多い。そこで、顔画像抽出部２４は、顔を認識する領域を限定し、その領域に存在する人物のみの顔を検出するように構成する。図１０の例では、映像の中心付近に識別対象領域を設定し、その識別対象領域内の人物のみ顔を検出するようにしているので、検出される顔は、顔Ｂ、顔Ｃ及び顔Ｄとなり、第１の実施の形態と比べて検出される顔の数が減り、認識処理する数を削減すことができる。

第１の実施の形態の変形例２は、顔を検出する領域を限定することにより、顔画像抽出部２４による顔の検出数を減らすことにより、画像認識処理全体を高速化する効果を有する。

＜第１の実施の形態の変形例３＞
第１の実施の形態の変形例３を説明する。

放送等で使用される映像では、映像のセンター（中心）付近にいる人は重要な被写体であることが多い。また、グループショットの場合、センター（中心）付近にいる人と同程度の奥行に位置する人は同じく重要であることが多い。第１の実施の形態の変形例３は、これらの特徴を利用して、認識対象者を減らし、処理時間を短くする例を説明する。

具体的に説明すると、顔画像抽出部２４は、映像中の検出できる顔を検出し、その顔のサイズ（顔を囲む矩形のサイズ）を求める。図１１の例では、検出できる顔は顔Ａから顔Ｆであり、顔Ａから顔Ｆのサイズを求める。

続いて、映像のセンター（中心）に最も近い位置に存在する人物の顔を認識対象とする。しかし、映像のセンター（中心）付近に位置に存在する人物を検出するのは、別途、骨格検出等の処理が必要となる。そこで、映像のセンター（中心）付近に位置に存在する人物の顔の位置を想定し、その位置を基準点とし、その基準点に最も近い顔を認識対象とする。具体的に説明すると、例えば、図１１に示すように、縦方向を上から３０パーセント対７０パーセントに分割する線と、横方向を５０パーセント対５０パーセントに分割する線との交点を基準点とする。そして、基準点に最も近い顔Ｂを認識対象とし、認識対象である顔Ｂのサイズ（顔を囲む矩形のサイズ）を検出し、これを基準サイズとする。

次に、認識対象とした顔の基準サイズよりも一定以上小さい（例えば、７０％以下）、もしくは、大きい（１４０％以上）サイズの顔は認識対象外とする。すなわち、それらの顔の顔画像を学習モデル２３に出力しない。図１１の例では、上記の条件に合致し、顔Ｂ以外に認識対象となる顔は顔Ａ、顔Ｃであり、顔Ｄ、顔Ｅ、顔Ｆは認識対象外となる。従って、学習モデル２３に出力される顔画像は、図１２に示す如く、顔Ａの顔画像、顔Ｂの顔画像及び顔Ｃの顔画像である。

このような処理により、学習モデル２３が処理する顔画像の数を削減することができ、結果として、画像認識処理全体を高速化する効果を有する。

＜第２の実施の形態＞
第２の実施の形態を説明する。

第２の実施の形態は、認識対象人物の顔の経過時間による顔の表情の変化を考慮して、画像認識を行うものである。

図１３は第２の実施の形態の映像処理装置２のブロック図である。

第２の実施の形態の映像処理装置２が、第１の実施の形態の映像処理装置２と異なる所は、時間情報（例えば、試合の経過時間、タイムコード）を学習モデルが入力し、認識対象人物の顔の経過時間による顔の表情の変化を考慮して、学習モデル２３が認識対象人物の認識を行うことである。ここで、経過時間による顔の表情の変化とは、時間の経過にともなう顔の表情の変化であり、例えば、時間経過の疲労による顔の表情の変化、年齢経過の老いによる顔の表情の変化などである。

具体的な説明をすると、競技などでは、開始から時間が経過するにつれて、選手は疲労し、顔に疲労が表れる。特に、マラソンなどの競技では、それが顕著である。

そこで、変化顔画像生成部２２は、基本顔画像から、競技開始から経過時間に応じた疲労度を加味した変化顔画像を生成する。例えば、図１４に示すように、競技開始から１時間経過後の疲労度を加味した変化顔画像ａ、競技開始から２時間経過後の疲労度を加味した変化顔画像ｂを生成する。

学習モデル２３が学習する際、教師データとして、各認識対象人物の基本顔画像記憶部２１からの基本顔画像と、各認識対象人物の表情変化顔画像生成部２２によって生成された表情変化顔画像とに加えて、表情変化顔画像の時間的情報を加える。上記の例では、変化顔画像ａには競技開始から１経過後、変化顔画像ｂには競技開始から２時間経過後という時間的情報も教師データとして用いる。

一方、画像認識の際には、顔画像に加えて、時間情報（競技開始からの経過時間）が入力データとして、学習モデル２３に入力される。

図１５はマラソンを一例とした図である。マラソン開始後は、選手も疲労はなく、基本顔画像に近い顔をしているが、１時間経過すると、選手の顔は、疲労して変化顔画像ｂに近い顔になる。更に、２時間経過すると、選手の顔は、更に疲労して変化顔画像ｃに近い顔になる。

学習モデル２３は、上記の特徴を利用し、画像認識の際には、映像とともに、競技開始からのおよその経過時間を入力し、これを認識のパラメータのひとつとする。それにより、経過時間を考慮した画像認識を行うことができ、より、高精度な画像認識を行うことができる。

＜第３の実施の形態＞
第３の実施の形態を説明する。

図１６は第３の実施の形態の映像処理装置２のブロック図である。

第３の実施の形態の映像処理装置２が、第１の実施の形態の映像処理装置２と異なる所は、映像に関する映像関連情報を用いて、学習モデル２３が認識対象人物の認識を行うことである。

ニュースのような映像は、そのニュースの原稿等の映像関連情報が存在する。原稿等は、その映像に存在する人物の氏名等が記載されている場合が多い。そこで、原稿などのテキストデータから抽出した認識対象人物の識別情報（例えば、氏名）を、そのテキストデータと映像との対応関係（例えば、タイムコード等）を用いて、学習モデル２３が認識している映像時に学習モデル２３に入力する。

学習モデル２３は、入力された認識対象人物の識別情報に対応する認識対象人物の確からしさに重み付けを行う。これにより、学習モデル２３の認識精度を高めることができる。

＜第４の実施の形態＞
図１７は第４の実施の形態の映像処理装置２のブロック図である。

第４の実施の形態の映像処理装置２が、第１の実施の形態の映像処理装置２と異なる所は、認識対象人物認識部２５が認識した認識対象人物の顔のうち経時的変化を検出しない認識対象人物を認識対象から除外する認識対象除外部２７を更に備えることである。

学習モデル２３は、認識対象候補人物の顔は識別することはできるが、実際にその場所にいる認識対象人物と、ポスター又は絵画やフィギュア等に写った認識対象人物とを区別することはできない。例えば、図７に示すように、第１の実施の形態では、実際にその場所にいる認識対象人物の顔と、ポスターに写った認識対象人物の顔とを区別せず、認識対象人物の顔として検出している。

しかし、実際にその場所にいる認識対象人物と、ポスター又は絵画やフィギュア等に写った認識対象人物とを区別し、実際にその場所にいる認識対象人物のみを識別して欲しい場合もある。

そこで、実際にその場所にいる認識対象人物は、時間の経過とともに動いたり、笑ったりして、動きや表情の変化がある。このような性質を利用し、認識対象除外部２７は、それらの認識対象人物の顔の経時的変化を検出し、経時的変化を検出しない認識対象人物の顔を除外することにより、ポスター又は絵画やフィギュア等に写った人物の顔を除外し、実際にその場所にいる認識対象人物の顔のみ認識することが出来る。

ここで、経時的変化とは、認識対象人物の顔画像が、経時適に変化することをいい、例えば、認識対象人物の顔画像から抽出された特徴点の位置等の変化である。認識対象除外部２７は、認識対象人物の顔画像のうち特徴点が変化している顔画像に対応する人物を認識対象人物として特定する。

次に、第４の実施の形態の具体的な動作を説明する。

認識対象人物認識部２５は、図１８に示すように、顔Ｂを「認識対象人物Ｘ」、顔Ｄを「認識対象人物Ｘ」、顔Ｅを「認識対象人物Ｙ」、顔Ｆを「認識対象人物Ｆ」と検出する。

認識対象除外部２７は、所定フレーム分の各認識対象人物の顔の顔画像を取得し、各認識対象人物の顔の特徴点の変化を検出する。ここで、顔Ｂは実際にその場所にいる認識対象人物の顔であり、顔Ｄ、顔Ｅ及び顔Ｆはポスターに写った認識対象人物の顔写真である。従って、図１９に示すように、顔Ｂは特徴点の変化が検出されるが、顔Ｄ、顔Ｅ及び顔Ｆは特徴点の変化が検出されない。

認識対象除外部２７は、特徴点の変化が検出されない顔Ｄ、顔Ｅ及び顔Ｆを認識対象人物の顔から除外し、特徴点の変化を検出した顔Ｂのみを認識対象人物として、表示装置３に出力する。図２０は、第４の実施の形態における表示装置３の表示例である。図７と比べて、図２０の例では、実際にその場所にいる認識対象人物Ｘの顔Ｂのみが矩形で囲まれ、矩形の下に識対象人物Ｘが表示されている。

第４の実施の形態は、ポスター又は絵画やフィギュア等に写った認識対象人物の顔は認識せず、実際にその場所にいる認識対象人物の顔のみ認識することが出来る。

上述した映像処理装置２は、具体的には、各種の演算処理等を行うプロセッサを有するコンピュータシステムによって実現することもできる。

図２１はコンピュータシステムによって構成された映像処理装置２のブロック図である。

映像処理装置２は、図２１に示す如く、プロセッサ１０１、メモリ（ＲＯＭやＲＡＭ）１０２、記憶装置（ハードディスク、半導体ディスクなど）１０３、入力装置（キーボード、マウス、タッチパネルなど）１０４、通信装置１０５を有するコンピュータ１００により構成することができる。

映像処理装置２は、記憶装置１０３に格納されたプログラムがメモリ１０２にロードされ、プロセッサ１０１により実行されることにより、表情変化顔画像生成部２２、学習モデル２３、顔画像抽出部２４、認識対象人物認識部２５、物品装着顔画像生成部２６、認識対象除外部２７の機能が実現されるものである。また、基本顔画像記憶部２１は、記憶装置１０３に対応する。尚、基本顔画像記憶部２１は、コンピュータ１００と物理的に外部に設けられ、ＬＡＮ等のネットワークを介してコンピュータ１００と接続されていても良い。

以上好ましい実施の形態をあげて本発明を説明したが、全ての実施の形態の構成を備える必要はなく、適時組合せて実施することができるばかりでなく、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

１カメラ
２映像処理装置
３表示装置
２１基本顔画像記憶部
２２表情変化顔画像生成部
２３学習モデル
２４顔画像抽出部
２５認識対象人物認識部
２６物品装着顔画像生成部
２７認識対象除外部

Claims

映像から人物の顔画像を抽出する顔画像抽出部と、
前記抽出された人物の顔画像が認識対象人物の顔である確からしさを出力する学習モデルと、
前記学習モデルが出力する確からしさを用いて、前記映像から前記認識対象人物を認識する認識対象人物認識部と、
前記認識対象人物の顔の基本顔画像から、時間の経過によって前記認識対象人物の顔が変化した経時変化顔画像を生成する変化顔画像生成部と、
を備え、
前記変化顔画像生成部は、所定の経過時間毎に前記経時変化顔画像を生成し、
前記学習モデルは、前記認識対象人物の基本顔画像と、前記経時変化顔画像と、前記経時変化顔画像の経過時間と、を含む教師データを用いて学習された学習モデルであり、
前記学習モデルには、前記抽出された人物の顔画像と、経過時間と、が入力される、
映像処理装置。
前記経過時間は、所定の競技の開始から経過した時間である、
請求項１に記載の映像処理装置。
前記変化顔画像生成部は、所定の競技の開始から経過した時間にともなう前記認識対象人物の疲労を加味した前記経時変化顔画像を生成する、
請求項２に記載の映像処理装置。
前記変化顔画像生成部は、前記基本顔画像から、前記基本顔画像の顔の表情と異なる表情の顔の表情変化顔画像を生成し、
前記学習モデルの教師データは、前記表情変化顔画像を更に含む、
請求項１から請求項３のいずれかに記載の映像処理装置。
前記変化顔画像生成部は、前記基本顔画像から、前記認識対象人物の顔に物品が装着された物品装着顔画像を生成し、
前記学習モデルの教師データは、前記物品装着顔画像を更に含む、
請求項１から請求項４のいずれかに記載の映像処理装置。
情報処理装置が、
認識対象人物の顔の基本顔画像から、時間の経過によって前記認識対象人物の顔が変化した経時変化顔画像を、所定の経過時間毎に生成し、
前記認識対象人物の基本顔画像と、前記経時変化顔画像と、前記経時変化顔画像の経過時間と、を含む教師データを用いて、学習モデルを生成し、
映像から人物の顔画像を抽出し、前記抽出された人物の顔画像と前記経過時間とを、前記学習モデルに入力し、
前記学習モデルの前記認識対象人物の顔である確からしさの出力値を用いて、前記映像から前記認識対象人物を認識する、
画像認識方法。
前記経過時間は、所定の競技の開始から経過した時間である、
請求項６に記載の画像認識方法。
情報処理装置が、所定の競技の開始から経過した時間にともなう前記認識対象人物の疲労を加味した前記経時変化顔画像を生成する、
請求項７に記載の画像認識方法。