JP7352119B2 - 学習装置、学習方法及び学習プログラム、並びに、スコア推定装置、スコア推定方法及びスコア推定プログラム - Google Patents
学習装置、学習方法及び学習プログラム、並びに、スコア推定装置、スコア推定方法及びスコア推定プログラム Download PDFInfo
- Publication number
- JP7352119B2 JP7352119B2 JP2022511452A JP2022511452A JP7352119B2 JP 7352119 B2 JP7352119 B2 JP 7352119B2 JP 2022511452 A JP2022511452 A JP 2022511452A JP 2022511452 A JP2022511452 A JP 2022511452A JP 7352119 B2 JP7352119 B2 JP 7352119B2
- Authority
- JP
- Japan
- Prior art keywords
- loss
- video data
- estimated
- scores
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Description
本発明は、例えば、競技者の競技の採点の手法に関するノウハウを学習する学習装置、学習方法及び学習プログラム、並びに、学習結果に基づいて競技のスコアを推定するスコア推定装置、スコア推定方法及びスコア推定プログラムに関する。
スポーツ競技において、高飛び込みや体操などの選手が行った競技に対して、オフィシャルな審判員がスコアを採点し、採点したスコアに基づいて個々の競技の順位を決める競技がある。このような競技には、採点における定量的な採点基準が存在している。
近年、このような競技におけるスコアを自動的に推定するといったコンピュータビジョン分野での活動品質評価で使われる技術の検討が進められており、このような技術としてAQA(Action Quality Assessment)という技術が知られている。例えば、非特許文献1には、AQAを、ディープラーニングを用いて行う手法が開示されている。
非特許文献1に開示されている技術では、競技者による競技が撮影された動画データと、オフィシャルな審判員が当該競技に対して採点することにより得られた真値スコアとを訓練データとして取り込む。非特許文献1に開示されている技術では、次にディープニューラルネットワークを用いて、訓練データに含まれる動画データから特徴量を抽出する。非特許文献1に開示されている技術では、更に、抽出した特徴量から推定スコアを推定する。
非特許文献1に開示されている技術では、推定した推定スコアと、訓練データに含まれる真値スコアとの間の損失を算出する。非特許文献1に開示されている技術では、算出した損失に基づいて、損失が減少するようにディープニューラルネットワークの重みやバイアスを更新することを繰り返す。これにより、オフィシャルな審判員が行う採点の手法に関するノウハウを学習し、学習済みの重みやバイアスが適用されたディープニューラルネットワークを用いることで、任意の競技者が行う競技のスコアを推定することが可能になる。
非特許文献1に開示された技術では、推定スコアと真値スコアの間の損失を示す回帰損失に加えて、得られた推定スコア間の順序の正確性を高めることを目的としたラインキング損失を採用している。回帰損失のみを用いて学習を行うと、真値スコアが近い動画データの間では、スコアを推定の際の誤差により、推定スコアの順番と、真値スコアの順番が入れ替わる可能性があるという問題がある。この問題を解決するために、非特許文献1では、次式(1)に示されるランキング損失を採用することにより、このような誤りが発生する確率を低下させ、従来技術を上回る精度を達成している。
動画データの任意の1つをviとする。式(1)において、「gi」は、動画データviにおける真値スコアである。また、式(1)において、「si」は、動画データviから得られる推定スコアであり、sign(x)関数は、引数xの符号を戻り値とする関数である。式(1)の「-(sj-si)sign(gj-gi)」の項は、推定スコアsi,sjの大小関係と、真値スコアgi,gjの大小関係とが一致している場合、負の値となり、不一致の場合、正の値となる。
ReLU(x)は、引数xが0以上である場合、xを戻り値とし、引数xが0より小さい場合、0を戻り値とする関数である。δは、マージン値であり、正の値である。そのため、推定スコアsi,sjの大小関係と、真値スコアgi,gjの大小関係が不一致の場合に、推定スコアsi,sjの差の絶対値の増加に応じてランキング損失が増加することになる。
マージン値δは、2つの推定スコアsi,sjの差が小さい場合に、少なくともマージン値δに応じた差を有するように2つの推定スコアsi,sjの間を離す効果がある。そのため、推定スコアsi,sjの大小関係と、真値スコアgi,gjの大小関係とが一致している場合にもマージン値δの大きさに応じてランキング損失が生じるようになっている。
Yongjun Li,Xiujuan Chai,Xilin Chen, "End-To-End Learning for Action Quality Assessment", PCM2018,pp.125-1342018)
しかしながら、ランキング損失として、式(1)を用いた場合、マージン値δは、予め定められる固定値であるため、全ての動画データviと動画データvjの組み合わせにおいて、同一のマージン値δを適用することになる。
マージン値δは、上述したように、2つの推定スコアsi,sjの差が小さい場合に、少なくともマージン値に応じた差を有するようにする目的で採用されているパラメータである。
しかしながら、真値スコアgi,gjの間の離れている度合いがマージン値δよりも小さい場合であっても、式(1)においてマージン値δが加算されることにより、推定スコアsi,sjの間を、マージン値δに応じた大きさで余分に離すようにする学習が行われてしまうという問題がある。
上記事情に鑑み、本発明は、従来技術よりも更に正確に競技者の競技の採点の手法に関するノウハウを学習し、かつ、より正確な推定スコアを求めることができる技術の提供を目的としている。
本発明の一態様は、競技者の競技中の動作を記録した動画データと、当該動画データに記録された競技に対して審判員が採点したスコアである複数の真値スコアとを組み合わせた訓練データを取り込む入力部と、パラメータに基づいて関数を近似する関数近似器を有し、前記関数近似器に前記入力部が取り込んだ動画データを入力として与えることにより、当該動画データの推定スコアを推定する推定部と、複数の前記推定スコアの各々と、前記推定スコアの各々に対応する前記真値スコアの各々との間の回帰損失を求める第1の損失関数と、異なる2つの前記動画データの全ての組み合わせの各々に対応する2つの前記推定スコア及び2つの前記真値スコアに基づいて2つの前記推定スコアの間の順序の誤り度合いを示すランキング損失を求める第2の損失関数であって2つの前記真値スコアの差の大きさを考慮して前記ランキング損失を補正する第2の損失関数とに基づいて、前記第1の損失関数の出力である前記回帰損失及び前記第2の損失関数の出力である前記ランキング損失の各々を減少させる学習処理を行うことにより、前記パラメータを更新するパラメータ更新部と、を備える学習装置である。
また、本発明の一態様は、競技者の競技中の動作を記録した動画データを取り込む入力部と、請求項1に記載の学習装置、または、請求項2に記載の学習装置の学習処理によって得られた学習済みのパラメータに基づいて関数を近似する関数近似器を有し、前記関数近似器に前記入力部が取り込んだ前記動画データを入力として与えることにより、当該動画データの推定スコアを推定する推定部と、を備えるスコア推定装置である。
また、本発明の一態様は、競技者の競技中の動作を記録した動画データと、当該動画データに記録された競技に対して審判員が採点したスコアである複数の真値スコアとを組み合わせた訓練データを取り込み、パラメータに基づいて関数を近似する関数近似器に取り込んだ動画データを入力として与えることにより、当該動画データの推定スコアを推定し、複数の前記推定スコアの各々と、前記推定スコアの各々に対応する前記真値スコアの各々との間の回帰損失を求める第1の損失関数と、異なる2つの前記動画データの全ての組み合わせの各々に対応する2つの前記推定スコア及び2つの前記真値スコアに基づいて2つの前記推定スコアの間の順序の誤り度合いを示すランキング損失を求める第2の損失関数であって2つの前記真値スコアの差の大きさを考慮して前記ランキング損失を補正する第2の損失関数とに基づいて、前記第1の損失関数の出力である前記回帰損失及び前記第2の損失関数の出力である前記ランキング損失の各々を減少させる学習処理を行うことにより、前記パラメータを更新する、学習方法である。
また、本発明の一態様は、コンピュータを、競技者の競技中の動作を記録した動画データと、当該動画データに記録された競技に対して審判員が採点したスコアである複数の真値スコアとを組み合わせた訓練データを取り込む入力手段、パラメータに基づいて関数を近似する関数近似器を有し、前記関数近似器に前記入力手段が取り込んだ動画データを入力として与えることにより、当該動画データの推定スコアを推定する推定手段、複数の前記推定スコアの各々と、前記推定スコアの各々に対応する前記真値スコアの各々との間の回帰損失を求める第1の損失関数と、異なる2つの前記動画データの全ての組み合わせの各々に対応する2つの前記推定スコア及び2つの前記真値スコアに基づいて2つの前記推定スコアの間の順序の誤り度合いを示すランキング損失を求める第2の損失関数であって2つの前記真値スコアの差の大きさを考慮して前記ランキング損失を補正する第2の損失関数とに基づいて、前記第1の損失関数の出力である前記回帰損失及び前記第2の損失関数の出力である前記ランキング損失の各々を減少させる学習処理を行うことにより、前記パラメータを更新するパラメータ更新手段、として機能させるための学習プログラムである。
また、本発明の一態様は、競技者の競技中の動作を記録した動画データを取り込み、請求項1に記載の学習装置、または、請求項2に記載の学習装置の学習処理によって得られた学習済みのパラメータに基づいて関数を近似する関数近似器に取り込んだ前記動画データを入力として与えることにより、当該動画データの推定スコアを推定する、スコア推定方法である。
また、本発明の一態様は、コンピュータを、競技者の競技中の動作を記録した動画データと、当該動画データに記録された競技に対して審判員が採点したスコアである複数の真値スコアとを組み合わせた訓練データを取り込む入力手段、パラメータに基づいて関数を近似する関数近似器を有し、前記関数近似器に前記入力手段が取り込んだ動画データを入力として与えることにより、当該動画データの推定スコアを推定する推定手段、複数の前記推定スコアの各々と、前記推定スコアの各々に対応する前記真値スコアの各々との間の回帰損失を求める第1の損失関数と、異なる2つの前記動画データの全ての組み合わせの各々に対応する2つの前記推定スコア及び2つの前記真値スコアに基づいて2つの前記推定スコアの間の順序の誤り度合いを示すランキング損失を求める第2の損失関数であって2つの前記真値スコアの差の大きさを考慮して前記ランキング損失を補正する第2の損失関数とに基づいて、前記第1の損失関数の出力である前記回帰損失及び前記第2の損失関数の出力である前記ランキング損失の各々を減少させる学習処理を行うことにより、前記パラメータを更新するパラメータ更新手段、として機能させるための学習プログラムである。
この発明によれば、従来技術よりも更に正確に競技者の競技の採点の手法に関するノウハウを学習し、かつ、より正確な推定スコアを求めることが可能となる。
(第1の実施形態)
以下、本発明の実施形態について図面を参照して説明する。図1は、第1の実施形態による学習装置1の内部構成を示すブロック図である。学習装置1は、訓練データ記憶部10、入力部11、推定部50、パラメータ更新部14、特徴量抽出用パラメータ記憶部15及びスコア推定用パラメータ記憶部16を備える。推定部50は、特徴量抽出部12と、スコア推定部13とを備える。
以下、本発明の実施形態について図面を参照して説明する。図1は、第1の実施形態による学習装置1の内部構成を示すブロック図である。学習装置1は、訓練データ記憶部10、入力部11、推定部50、パラメータ更新部14、特徴量抽出用パラメータ記憶部15及びスコア推定用パラメータ記憶部16を備える。推定部50は、特徴量抽出部12と、スコア推定部13とを備える。
訓練データ記憶部10は、複数の動画データの各々と、複数の真値スコアの各々とが組み合わされた複数の訓練データを予め記憶する。
複数の動画データの各々は、例えば、競技者が行った競技中の動作をカメラ等で撮影することにより生成される。ここで、競技とは、例えば、高飛び込みや体操などの技に対して定量的な採点基準が存在するスポーツ競技である。競技者とは、例えば、当該競技を行う選手である。
複数の真値スコアの各々は、各々に対応する動画データに記録されている競技者の競技に対して予めオフィシャルな審判員が採点したスコアである。
入力部11は、訓練データ記憶部10からn個ずつ訓練データを繰り返し読み出す。ここで、nは、2以上の整数であり、以下に説明する学習処理が行われる際のバッチサイズである。なお、訓練データ記憶部10が記憶する訓練データの数は、nの倍数、すなわち、n×m個であるものとする(ただし、mは、1以上の整数である)。
また、以下の説明において、n個の訓練データに含まれる任意の1つの動画データをviまたはvjで示し、動画データviに対応する真値スコアをgiとして示し、動画データvjに対応する真値スコアをgjとして示す。ただし、i=1~n、j=1~nの整数であり、j>iであるとする。
入力部11は、読み出したn個の訓練データに含まれるn個の動画データv1~nを1つずつ特徴量抽出部12に出力する。また、入力部11は、読み出したn個の訓練データに含まれるn個の真値スコアg1~nをパラメータ更新部14に出力する。
特徴量抽出用パラメータ記憶部15は、特徴量抽出部12が有する第1の関数近似器に適用する重みやバイアスとなる特徴量抽出用パラメータを記憶する。特徴量抽出部12は、第1の関数近似器を有しており、特徴量抽出用パラメータ記憶部15が記憶する特徴量抽出用パラメータを第1の関数近似器に適用する。第1の関数近似器は、特徴量抽出用パラメータが適用されることで、特徴量抽出用パラメータに応じた関数を近似する。特徴量抽出部12は、入力部11が出力する動画データviを入力として第1の関数近似器に与えることにより動画データviの特徴量を抽出する。
ここで、第1の関数近似器は、動画データviから特徴量を抽出する任意のニューラルネットワークであり、例えば、非特許文献1のFig.1に示される後段にReLU(Rectified Linear Unit)層とMax-Pooling層が結合された2段の畳み込み層を有するニューラルネットワーク(以下「動画特徴量抽出層121」という。)などが適用される。
スコア推定用パラメータ記憶部16は、スコア推定部13が有する第2の関数近似器に適用する重みやバイアスとなるスコア推定用パラメータを記憶する。スコア推定部13は、第2の関数近似器を有しており、スコア推定用パラメータ記憶部16が記憶するスコア推定用パラメータを第2の関数近似器に適用する。第2の関数近似器は、スコア推定用パラメータが適用されることで、スコア推定用パラメータに応じた関数を近似する。スコア推定部13は、特徴量抽出部12が抽出した特徴量を入力として第2の関数近似器に与えることにより推定スコアsiを推定する。
ここで、第2の関数近似器は、特徴量から推定スコアを推定する任意のニューラルネットワークであり、例えば、非特許文献1のFig.1に示される後段にReLU層とDropout層が結合された2段の全結合層を有するニューラルネットワーク(以下「全結合層131」という。)などが適用される。
パラメータ更新部14は、入力部11が出力するn個の真値スコアg1~nと、スコア推定部13が推定するn個の推定スコアs1~nと、予め定められる第1の損失関数に基づいて、推定スコアs1~nの各々と、真値スコアg1~nの各々との間の回帰損失を算出する。
ここでは、第1の損失関数として、例えば、回帰損失を算出する次式(2)に示すMSE(Mean Square Error)を適用する。
また、パラメータ更新部14は、異なる2つの動画データvi,vjの全ての組み合わせの各々に対応する2つの推定スコアsi,sj及び2つの真値スコアgi,gjと、予め定められる第2の損失関数とに基づいて、2つの推定スコアsi,sjの順序の誤り度合いを示すランキング損失を2つの真値スコアgi,gjの差の大きさを考慮して算出する。
ここでは、第2の損失関数として、次式(3)で示される損失関数を適用する。
非特許文献1に記載の技術において採用されていた式(1)と比較すると、式(3)では、マージン値δに替えて、2つの真値スコアgi,gjの差の絶対値が適用されている。なお、式(1)と同様に、式(3)において、sign(x)関数は、引数xの符号を戻り値とする関数であり、ReLU(x)は、引数xが0以上である場合、xを戻り値とし、引数xが0より小さい場合、0を戻り値とする関数である。
パラメータ更新部14は、算出した回帰損失、すなわち式(2)の出力値であるLoss1と、算出したランキング損失、すなわち式(3)の出力値であるLoss2を減少させるように学習処理を行う。パラメータ更新部14は、学習処理を行うことにより、新たな特徴量抽出用パラメータと、新たなスコア推定用パラメータを算出する。
パラメータ更新部14は、算出した新たな特徴量抽出用パラメータと、新たなスコア推定用パラメータとに基づいて、特徴量抽出用パラメータ記憶部15とスコア推定用パラメータ記憶部16の内容を更新する。
(第1の実施形態の学習装置による処理)
次に、図2及び図3を参照しつつ第1の実施形態の学習装置1による処理について説明する。図2は、学習装置1が行う学習処理の流れを示すフローチャートである。
次に、図2及び図3を参照しつつ第1の実施形態の学習装置1による処理について説明する。図2は、学習装置1が行う学習処理の流れを示すフローチャートである。
特徴量抽出用パラメータ記憶部15とスコア推定用パラメータ記憶部16には、それぞれ初期値の特徴量抽出用パラメータと、初期値のスコア推定用パラメータとが予め記憶されている。
特徴量抽出部12は、特徴量抽出用パラメータ記憶部15から特徴量抽出用パラメータを読み出し、読み出した特徴量抽出用パラメータを第1の関数近似器である動画特徴量抽出層121のニューラルネットワークに適用する(ステップS1)。
スコア推定部13は、スコア推定用パラメータ記憶部16からスコア推定用パラメータを読み出し、読み出したスコア推定用パラメータを第2の関数近似器である全結合層131のニューラルネットワークに適用する(ステップS2)。
入力部11は、訓練データ記憶部10から最初のn個の訓練データを読み出す。入力部11は、図3に示すように読み出したn個の訓練データに含まれるn個の動画データv1~nを1つずつ特徴量抽出部12に出力する。また、入力部11は、読み出した訓練データに含まれるn個の真値スコアg1~nをパラメータ更新部14に出力する。パラメータ更新部14は、入力部11が出力するn個の真値スコアg1~nを取り込む(ステップS3)。
n個の動画データv1~nの各々である動画データviについて、ステップS4,S5の処理が繰り返し行われる(ループL1s~L1e)。
特徴量抽出部12は、図3に示すように動画データviを入力として動画特徴量抽出層121に与え、動画特徴量抽出層121の出力として動画データviの特徴量を取得する。特徴量抽出部12は、取得した動画データviの特徴量をスコア推定部13に出力する(ステップS4)。
スコア推定部13は、図3に示すように動画データviの特徴量を入力として全結合層131に与え、全結合層131の出力として動画データviの推定スコアsiを取得する。スコア推定部13は、取得した動画データviの推定スコアsiをパラメータ更新部14に出力する(ステップS5)。
すなわち、図3に示すように、同一の特徴量抽出用パラメータと、同一のスコア推定用パラメータとを、それぞれ動画特徴量抽出層121と、全結合層131に適用した状態で、n個の動画データv1~nの各々を入力として、ステップS4,S5の処理がn回行われる。
パラメータ更新部14は、スコア推定部13が推定したn個の推定スコアs1~nを取り込むと、取り込んだn個の推定スコアs1~nと、ステップS3において取り込んだn個の真値スコアg1~nとに基づいて、式(2)により回帰損失Loss1を算出する(ステップS6)。
パラメータ更新部14は、n個の推定スコアs1~nと、n個の真値スコアg1~nとに基づいて、式(3)によりランキング損失Loss2を算出する(ステップS7)。
パラメータ更新部14は、例えば、次式(4)により評価損失Lossを算出する(ステップS8)。
上記の式(4)において、α1とβ1は、α1>0、β1>0であり、2つの損失のバランスを取るように任意に定められる定数である。また、||ω||2は、L2-reguralationの項である。
パラメータ更新部14は、算出した評価損失Lossが終了条件を満たしているか否かを判定する(ステップS9)。例えば、評価損失Lossが予め定められる閾値未満である場合、評価損失が終了条件を満たしていると判定する。
パラメータ更新部14は、評価損失Lossが終了条件を満たしていると判定した場合(ステップS9、Yes)、処理を終了する。一方、パラメータ更新部14は、評価損失Lossが終了条件を満たしていないと判定した場合(ステップS9、No)、回帰損失Loss1とランキング損失Loss2を減少させるように、例えば、誤差逆伝播法などを用いた学習処理により、新たな特徴量抽出用パラメータと、新たなスコア推定用パラメータとを算出する。
パラメータ更新部14は、算出した新たな特徴量抽出用パラメータを特徴量抽出用パラメータ記憶部15に書き込んで特徴量抽出用パラメータを更新する。パラメータ更新部14は、算出した新たなスコア推定用パラメータをスコア推定用パラメータ記憶部16に書き込んでスコア推定用パラメータを更新する(ステップS10)。
その後、ステップS1からの処理が繰り返し行われ、再び行われるステップS1において、特徴量抽出部12は、特徴量抽出用パラメータ記憶部15から更新された特徴量抽出用パラメータを読み出して動画特徴量抽出層121に適用する。また、再び行われるステップS2において、スコア推定部13は、スコア推定用パラメータ記憶部16から更新されたスコア推定用パラメータを読み出して全結合層131に適用する。
入力部11は、再び行われるステップS3において、訓練データ記憶部10から次のn個の訓練データを読み出す。なお、繰り返す処理の過程において、訓練データ記憶部10に記憶されている全ての訓練データについて、ステップS4,S5の処理が行われた場合、入力部11は、再び最初のn個の訓練データから順に訓練データ記憶部10から読み出すことを繰り返す。
ステップS9において、パラメータ更新部14が、評価損失Lossが、終了条件を満たすと判定した時点で、特徴量抽出用パラメータ記憶部15とスコア推定用パラメータ記憶部16の各々において、十分に回帰損失Loss1と、ランキング損失Loss2が小さくなった状態における学習済みの特徴量抽出用パラメータと、学習済みのスコア推定用パラメータとが記録されることになる。
上記の第1の実施形態の学習装置1において、パラメータ更新部14は、スコア推定部13が推定した複数の推定スコアの各々と、推定スコアの各々に対応する真値スコアの各々との間の回帰損失を求める第1の損失関数と、異なる2つの動画データの全ての組み合わせの各々に対応する2つの推定スコア及び2つの真値スコアに基づいて、2つの推定スコアの間の順序の誤り度合いを示すランキング損失を求める第2の損失関数であって2つの真値スコアの差の大きさを考慮してランキング損失を補正する第2の損失関数とに基づいて、第1の損失関数の出力である回帰損失及び第2の損失関数の出力であるランキング損失の各々を減少させる学習処理を行うことにより、推定部50の関数近似器(第1の関数近似器及び第2の関数近似器)に適用するパラメータ、すなわち特徴量抽出用パラメータと、スコア推定用パラメータとを更新する。第2の損失関数を用いることにより、以下に示すように、学習装置1は、非特許文献1に記載の技術よりも更に正確に競技者の競技に対するオフィシャルな審判員の採点の手法に関するノウハウを学習することが可能になる。
すなわち、上記の第1の実施形態の学習装置1では、ランキング損失として、非特許文献1に開示される技術が採用していた式(1)に替えて、式(3)を用いている。以下、場合分けして、式(3)による効果について説明する。
(推定スコアsi,sjの大小と、真値スコアgi,gjの大小が一致する場合)
この場合、式(1)及び式(3)における「-(sj-si)sign(gj-gi)」の項は、負の値になる。
この場合、式(1)及び式(3)における「-(sj-si)sign(gj-gi)」の項は、負の値になる。
この場合において、式(1)を適用すると、abs(sj-si)<マージン値δのときには、ReLU関数の入力が正の値になるため、ランキング損失が発生することになり、ランキング損失を減少させる学習処理が行われることになる。既に、推定スコアsi,sjの大小と、真値スコアgi,gjの大小が一致しているため、ここで行われる学習処理は、推定スコアsi,sjの順序を入れ替える学習処理ではなく、推定スコアsi,sjの間を離す学習処理となる。
これに対して、式(3)を適用した場合には、abs(sj-si)<abs(gj-gi)になると、ReLU関数の入力が正になるため、ランキング損失が発生する。abs(gj-gi)<マージン値δであるときには、式(1)のランキング損失の方が、式(3)のランキング損失よりも大きくなるため、式(1)を用いると真値スコアgi,gjの差の絶対値よりも、推定スコアsi,sjの差の絶対値を大きくする学習処理が行われる。
一方、abs(gj-gi)>マージン値δであるときには、式(1)のランキング損失の方が、式(3)のランキング損失よりも小さくなるため、式(1)を用いると真値スコアgi,gjの差の絶対値よりも、推定スコアsi,sjの差の絶対値を小さくする学習処理が行われる。
したがって、推定スコアsi,sjの大小と、真値スコアgi,gjの大小が一致している場合、式(1)を用いるよりも式(3)を用いる方が、より正確に推定スコアsi,sjの差の絶対値を、真値スコアgi,gjの差の絶対値に近づける学習処理を行うことが可能になる。
(推定スコアsi,sjの大小と、真値スコアgi,gjの大小が不一致の場合)
この場合、式(1)及び式(3)における「-(sj-si)sign(gj-gi)」の項は、正の値になる。そのため、マージン値δ、abs(gj-gi)のいずれも、ランキング損失を増加させる役割を果たすことになる。この場合も推定スコアsi,sjの差が小さい場合には、式(3)を用いる方が、abs(gj-gi)の大きさに応じて、推定スコアsi,sjの差の絶対値を増加させることができるので、より正確に推定スコアsi,sjの差の絶対値を、真値スコアgi,gjの差の絶対値に近づける学習処理を行うことが可能になる。
この場合、式(1)及び式(3)における「-(sj-si)sign(gj-gi)」の項は、正の値になる。そのため、マージン値δ、abs(gj-gi)のいずれも、ランキング損失を増加させる役割を果たすことになる。この場合も推定スコアsi,sjの差が小さい場合には、式(3)を用いる方が、abs(gj-gi)の大きさに応じて、推定スコアsi,sjの差の絶対値を増加させることができるので、より正確に推定スコアsi,sjの差の絶対値を、真値スコアgi,gjの差の絶対値に近づける学習処理を行うことが可能になる。
(第1の実施形態のスコア推定装置)
図4は、第1の実施形態によるスコア推定装置2の内部構成を示すブロック図である。図4において、図1に示す学習装置1と同一の構成については同一の符号を付して示している。スコア推定装置2は、入力部11-1、推定部50、出力部17、学習済み特徴量抽出用パラメータ記憶部18及び学習済みスコア推定用パラメータ記憶部19を備える。推定部50は、特徴量抽出部12と、スコア推定部13とを備える。
図4は、第1の実施形態によるスコア推定装置2の内部構成を示すブロック図である。図4において、図1に示す学習装置1と同一の構成については同一の符号を付して示している。スコア推定装置2は、入力部11-1、推定部50、出力部17、学習済み特徴量抽出用パラメータ記憶部18及び学習済みスコア推定用パラメータ記憶部19を備える。推定部50は、特徴量抽出部12と、スコア推定部13とを備える。
上述したように、図2に示したステップS9において、パラメータ更新部14が、「Yes」の判定、すなわち、評価損失Lossが終了条件を満たすと判定した場合、特徴量抽出用パラメータ記憶部15とスコア推定用パラメータ記憶部16には、それぞれ学習済みの特徴量抽出用パラメータと、学習済みのスコア推定用パラメータとが記録されることになる。
学習済み特徴量抽出用パラメータ記憶部18は、学習装置1の学習処理が終了した時点で特徴量抽出用パラメータ記憶部15に記録されている学習済みの特徴量抽出用パラメータを予め記憶する。学習済みスコア推定用パラメータ記憶部19は、学習装置1の学習処理が終了した時点でスコア推定用パラメータ記憶部16に記録されている学習済みのスコア推定用パラメータを予め記憶する。
入力部11-1は、外部から与えられる任意の動画データを取り込む。入力部11-1は、取り込んだ動画データを特徴量抽出部12に出力する。
特徴量抽出部12は、学習済み特徴量抽出用パラメータ記憶部18から学習済みの特徴量抽出用パラメータを読み出し、動画特徴量抽出層121に読み出した学習済みの特徴量抽出用パラメータを適用する。特徴量抽出部12は、入力部11-1が出力する動画データを入力として動画特徴量抽出層121に与え、出力として動画データの特徴量を取得し、取得した特徴量をスコア推定部13に出力する。
スコア推定部13は、学習済みスコア推定用パラメータ記憶部19から学習済みのスコア推定用パラメータを読み出し、全結合層131に読み出した学習済みのスコア推定用パラメータを適用する。スコア推定部13は、特徴量抽出部12が出力する特徴量を入力として全結合層131に与え、出力として推定スコアを取得し、取得した推定スコアを出力部17に出力する。出力部17は、スコア推定部13が出力する推定スコアを外部に出力する。
上記の第1の実施形態のスコア推定装置2において、推定部50は、学習装置1の学習処理によって得られた学習済みのパラメータ(学習済みの特徴量抽出用パラメータ及び学習済みのスコア推定用パラメータ)に基づいて関数を近似する関数近似器(第1の関数近似器及び第2の関数近似器)を有し、関数近似器に動画データを入力として与えることにより、当該動画データの推定スコアを推定する。これにより、スコア推定装置2は、非特許文献1に記載の技術よりも更に正確にオフィシャルな審判員の採点の手法に関するノウハウを学習する学習装置1の学習処理によって得られた学習済みの特徴量抽出用パラメータと、得られた学習済みのスコア推定用パラメータとに基づいて、任意の動画データに対する推定スコアを求めることができるので、より正確な推定スコアを求めることが可能になる。
(第2の実施形態)
図5は、第2の実施形態による学習装置1aの内部構成を示すブロック図である。第1の実施形態の学習装置1と同一の構成については同一の符号を付し、以下、異なる構成について説明する。学習装置1aは、訓練データ記憶部10a、入力部11a、推定部50a、パラメータ更新部14a、特徴量抽出用パラメータ記憶部15、スコア推定用パラメータ記憶部16及びクラス推定用パラメータ記憶部21を備える。推定部50aは、特徴量抽出部12と、スコア推定部13と、クラス推定部20とを備える。
図5は、第2の実施形態による学習装置1aの内部構成を示すブロック図である。第1の実施形態の学習装置1と同一の構成については同一の符号を付し、以下、異なる構成について説明する。学習装置1aは、訓練データ記憶部10a、入力部11a、推定部50a、パラメータ更新部14a、特徴量抽出用パラメータ記憶部15、スコア推定用パラメータ記憶部16及びクラス推定用パラメータ記憶部21を備える。推定部50aは、特徴量抽出部12と、スコア推定部13と、クラス推定部20とを備える。
訓練データ記憶部10aは、複数の動画データの各々と、複数の真値スコアの各々と、複数の真値クラスラベルの各々とが組み合わされた複数の訓練データを予め記憶する。
複数の動画データは、各々の動画データに記録される内容に基づいて予め定められる複数のクラスに分類されている。ここで、クラスとは、例えば、高飛び込みや体操などの採点基準の異なる競技の種類である。真値クラスラベルは、対応動画データが分類によって属することになったクラスを示す識別情報である。
入力部11aは、訓練データ記憶部10aからn個ずつ訓練データを繰り返し読み出す。ここで、nは、2以上の整数であり、以下に説明する学習処理が行われる際のバッチサイズである。なお、訓練データ記憶部10aが記憶する訓練データの数は、nの倍数、すなわち、n×m個であるものとする(ただし、mは、1以上の整数である)。
また、以下の説明において、n個の訓練データに含まれる任意の1つの動画データをviまたはvjで示し、動画データviに対応する真値スコアをgiとして示し、動画データvjに対応する真値スコアをgjとして示す。また、動画データviに対応する真値クラスラベルをkiとして示し、動画データvjに対応する真値クラスラベルをkjとして示す。ただし、i=1~n、j=1~nの整数であり、j>iであるとする。
入力部11aは、読み出したn個の訓練データに含まれるn個の動画データv1~nを1つずつ特徴量抽出部12に出力する。また、入力部11aは、読み出したn個の訓練データに含まれるn個の真値スコアg1~nと、n個の真値クラスラベルk1~nとをパラメータ更新部14aに出力する。
クラス推定用パラメータ記憶部21は、クラス推定部20が有する第3の関数近似器に適用する重みやバイアスとなるクラス推定用パラメータを記憶する。クラス推定部20は、第3の関数近似器を有しており、クラス推定用パラメータ記憶部21が記憶するクラス推定用パラメータを第3の関数近似器に適用する。第3の関数近似器は、クラス推定用パラメータが適用されることで、クラス推定用パラメータに応じた関数を近似する。クラス推定部20は、特徴量抽出部12が抽出した特徴量を入力として第3の関数近似器に与えることにより推定クラスciを推定する。ここで、推定クラスciは、クラスごとの確率で示される情報であり、推定クラスciを参照することで、対応する動画データviが何れのクラスに属する確率が高いかを識別することができる。
ここで、第3の関数近似器は、特徴量から推定クラスを推定する任意のニューラルネットワークであり、例えば、後段にSoftmax層が結合された全結合層のニューラルネットワーク(以下「全結合層+Softmax層201」という。)などが適用される。
パラメータ更新部14aは、第1の実施形態のパラメータ更新部14と同様に、入力部11aが出力するn個の真値スコアg1~nと、スコア推定部13が推定するn個の推定スコアs1~nと、上記の式(2)で示される第1の損失関数とに基づいて、推定スコアs1~nの各々と、真値スコアg1~nの各々との間の回帰損失を算出する。
また、パラメータ更新部14aは、入力部11aが出力するn個の真値クラスラベルk1~nと、クラス推定部20が推定するn個の推定クラスc1~nと、予め定められる第3の損失関数に基づいて、推定クラスs1~nの各々と、真値クラスラベルk1~nの各々との間のクラス損失を算出する。
ここでは、第3の損失関数として、例えば、次式(5)に示すCross Entropy Lossを適用する。
式(5)において、Yは、クラスの数である。例えば、Y=3であり、3つのクラスをClass1,Class2,Class3として示すとする。i=1の動画データv1が、Class1のクラスに属している場合、Class1に属する確率が100%になり、Class2及びClass3に属する確率は、0%になる。この場合、真値クラスラベルk1,yは、例えば、k1,1=1.0、k1,2=0.0、k1,3=0.0という形式で示される。推定クラスc1,yは、対応する動画データv1が3つのクラスの各々に属する確率、例えば、c1,1=0.8、c1,2=0.5、c1,3=0.2という形式で示される。
また、パラメータ更新部14aは、異なる2つの動画データvi,vjの全ての組み合わせの各々に対応する2つの推定スコアsi,sj、2つの真値スコアgi,gj及び2つの推定クラスci,cjと、予め定められる第4の損失関数とに基づいて、2つの推定スコアsi,sjの順序の誤り度合いを示すランキング損失を2つの真値スコアgi,gjの差の大きさを考慮し、かつ2つの推定クラスci,cjの間の相関を考慮して算出する。
ここでは、第4の損失関数として、次式(6)で示される損失関数を適用する。
式(6)を、第1実施形態の第2の損失関数である式(3)と比較すると、式(3)のReLU関数の出力に対して、correlationを乗算しているという違いがある。
式(6)において、correlationは、2つの推定クラスci,cjの類似度を示す相関係数である。ここでは、相関係数として、例えば、式(7)によって求められるスピアマンの順位相関係数を適用する。
式(7)において、Yは、式(5)と同様にクラスの数である。CRi、yは、推定クラスciにおけるクラスyの順位である。例えば、Y=3である場合に、推定クラスciがci,1=0.5、ci,2=0.8、ci,3=0.2で表される場合、Class2に属する確率が1位であり、Class1に属する確率が2位であり、Class3に属する確率が3位である。この場合、CRi,1=2、CRi,2=1、CRi,3=3となる。
パラメータ更新部14aは、算出した回帰損失、すなわち式(2)の出力値であるLoss1と、算出したクラス損失、すなわち式(5)の出力値であるLoss3と、算出したランキング損失、すなわち式(6)の出力値であるLoss4を減少させるように学習処理を行う。パラメータ更新部14aは、学習処理により、新たな特徴量抽出用パラメータと、新たなスコア推定用パラメータと、新たなクラス推定用パラメータとを算出する。
パラメータ更新部14aは、算出した新たな特徴量抽出用パラメータと、新たなスコア推定用パラメータと、新たなクラス推定用パラメータとに基づいて、特徴量抽出用パラメータ記憶部15、スコア推定用パラメータ記憶部16及びクラス推定用パラメータ記憶部21の内容を更新する。
(第2の実施形態の学習装置による処理)
次に、図6及び図7を参照しつつ第2の実施形態の学習装置1aによる処理について説明する。図6は、学習装置1aが行う学習処理の流れを示すフローチャートである。
次に、図6及び図7を参照しつつ第2の実施形態の学習装置1aによる処理について説明する。図6は、学習装置1aが行う学習処理の流れを示すフローチャートである。
特徴量抽出用パラメータ記憶部15と、スコア推定用パラメータ記憶部16と、クラス推定用パラメータ記憶部21とには、それぞれ初期値の特徴量抽出用パラメータと、初期値のスコア推定用パラメータと、初期値のクラス推定用パラメータとが予め記憶されている。
ステップS21,S22については、図2に示した第1の実施形態のステップS1,S2と同一の処理が、特徴量抽出部12とスコア推定部13によって行われる。クラス推定部20は、クラス推定用パラメータ記憶部21からクラス推定用パラメータを読み出し、読み出したクラス推定用パラメータを第3の関数近似器である全結合層+Softmax層201のニューラルネットワークに適用する(ステップS23)。
入力部11aは、訓練データ記憶部10aから最初のn個の訓練データを読み出す。入力部11aは、図7に示すように読み出したn個の訓練データに含まれるn個の動画データv1~nを1つずつ特徴量抽出部12に出力する。また、入力部11aは、読み出した訓練データに含まれるn個の真値スコアg1~nとn個の真値クラスラベルk1~nをパラメータ更新部14aに出力する。パラメータ更新部14aは、入力部11aが出力するn個の真値スコアg1~nとn個の真値クラスラベルk1~nを取り込む(ステップS24)。
n個の動画データv1~nの各々である動画データviについて、ステップS25,S26,S27の処理が繰り返し行われる(ループL2s~L2e)。
ステップS25,S26については、図2に示したステップS4,S5と同一の処理が、特徴量抽出部12とスコア推定部13によって行われる。なお、ステップS26において、スコア推定部13は、取得した推定スコアsiをパラメータ更新部14aに出力する。
クラス推定部20は、図7に示すように動画データviの特徴量を入力として全結合層+Softmax層201に与え、全結合層+Softmax層201の出力として動画データviの推定クラスciを取得する。クラス推定部20は、取得した動画データviの推定クラスciをパラメータ更新部14aに出力する(ステップS27)。
すなわち、図7に示すように、同一の特徴量抽出用パラメータと、同一のスコア推定用パラメータと、同一のクラス推定用パラメータとを、それぞれ動画特徴量抽出層121と、全結合層131と、全結合層+Softmax層201に適用した状態で、n個の動画データv1~nの各々を入力として、ステップS25,S26,S27の処理がn回行われる。
ステップS28については、図2に示したステップS6と同一の処理が、パラメータ更新部14aによって行われる。
パラメータ更新部14aは、クラス推定部20が推定したn個の推定クラスc1~nを取り込むと、取り込んだn個の推定クラスc1~nと、ステップS24において取り込んだn個の真値クラスラベルk1~nとに基づいて、式(5)によりクラス損失Loss3を算出する(ステップS29)。
パラメータ更新部14aは、n個の推定スコアs1~nと、n個の真値スコアg1~nと、n個の推定クラスc1~nとに基づいて、式(6)によりランキング損失Loss4を算出する(ステップS30)。
パラメータ更新部14aは、例えば、次式(8)により評価損失Lossを算出する(ステップS31)。
上記の式(8)において、α2とβ2とγ2は、α2>0、β2>0、γ2>0であり、3つの損失のバランスを取るように任意に定められる定数である。また、||ω||2は、L2-reguralationの項である。
パラメータ更新部14aは、算出した評価損失Lossが終了条件を満たしているか否かを判定する(ステップS32)。例えば、評価損失Lossが予め定められる閾値未満である場合、評価損失が終了条件を満たしていると判定する。
パラメータ更新部14aは、評価損失Lossが終了条件を満たしていると判定した場合(ステップS32、Yes)、処理を終了する。一方、パラメータ更新部14aは、評価損失Lossが終了条件を満たしていないと判定した場合(ステップS32、No)、回帰損失Loss1とクラス損失Loss3とランキング損失Loss4を減少させるように、例えば、誤差逆伝播法などを用いた学習処理により、新たな特徴量抽出用パラメータと、新たなスコア推定用パラメータと、新たなクラス推定用パラメータとを算出する。
パラメータ更新部14aは、算出した新たな特徴量抽出用パラメータを特徴量抽出用パラメータ記憶部15に書き込んで特徴量抽出用パラメータを更新する。パラメータ更新部14aは、算出した新たなスコア推定用パラメータをスコア推定用パラメータ記憶部16に書き込んでスコア推定用パラメータを更新する。パラメータ更新部14aは、算出した新たなクラス推定用パラメータをクラス推定用パラメータ記憶部21に書き込んでクラス推定用パラメータを更新する(ステップS33)。
その後、ステップS21からの処理が繰り返し行われ、再び行われるステップS21において、特徴量抽出部12は、特徴量抽出用パラメータ記憶部15から更新された特徴量抽出用パラメータを読み出して動画特徴量抽出層121に適用する。また、再び行われるステップS22において、スコア推定部13は、スコア推定用パラメータ記憶部16から更新されたスコア推定用パラメータを読み出して全結合層131に適用する。また、再び行われるステップS23において、クラス推定部20は、クラス推定用パラメータ記憶部21から更新されたクラス推定用パラメータを読み出して全結合層+Softmax層201に適用する。
入力部11aは、再び行われるステップS24において、訓練データ記憶部10aから次のn個の訓練データを読み出す。なお、繰り返す処理の過程において、訓練データ記憶部10aに記憶されている全ての訓練データについて、ステップS25,S26,S27の処理が行われた場合、入力部11aは、再び最初のn個の訓練データから順に訓練データ記憶部10aから読み出すことを繰り返す。
ステップS32において、パラメータ更新部14aが、評価損失Lossが、終了条件を満たすと判定した時点で、特徴量抽出用パラメータ記憶部15とスコア推定用パラメータ記憶部16とクラス推定用パラメータ記憶部21の各々において、十分に回帰損失Loss1と、クラス損失Loss3と、ランキング損失Loss4が小さくなった状態における学習済みの特徴量抽出用パラメータと、学習済みのスコア推定用パラメータと、学習済みのクラス推定用パラメータとが記録されることになる。
上記の第2の実施形態の学習装置1aにおいて、パラメータ更新部14aは、スコア推定部13が推定した複数の推定スコアの各々と、推定スコアの各々に対応する真値スコアの各々との間の回帰損失を求める第1の損失関数と、クラス推定部20が推定した複数の推定クラスの各々と、推定クラスの各々に対応する真値クラスラベルの各々との間のクラス損失を求める第3の損失関数と、異なる2つの動画データの全ての組み合わせの各々に対応する2つの推定スコア及び2つの真値スコアに基づいて、2つの推定スコアの間の順序の誤り度合いを示すランキング損失を求める第4の損失関数であって2つの真値スコアの差の大きさ、かつ2つの推定クラスの間の相関を考慮してランキング損失を補正する第4の損失関数とに基づいて、第1の損失関数の出力である回帰損失、第3の損失関数の出力であるクラス損失及び第4の損失関数の出力であるランキング損失の各々を減少させる学習処理を行うことにより、推定部50aの関数近似器(第1の関数近似器、第2の関数近似器及び第3の関数近似器)に適用するパラメータ、すなわち特徴量抽出用パラメータと、スコア推定用パラメータと、クラス推定用パラメータとを更新する。第4の損失関数を用いることにより、以下に示すように、学習装置1aは、非特許文献1に記載の技術よりも更に正確に競技者の競技に対するオフィシャルな審判員の採点の手法に関するノウハウを学習することが可能になる。
すなわち、第1の実施形態における第2の損失関数である式(3)と、第2の実施形態における第4の損失関数である式(6)を比較すると、式(6)では、式(3)のReLU関数に対して2つの推定クラスci,cjの相関係数correlationを乗算して、2つの推定クラスci,cjの相関を考慮したランキング損失を採用している。したがって、第2の実施形態の学習装置1aでは、第1の実施形態の学習装置1が奏する効果に加えて、以下のような効果を奏することになる。
第4の損失関数を用いることにより、学習装置1aでは、類似している競技については、ランキング損失の制約を強くすることができ、逆に類似していない競技についてはランキング損失の制約を弱くさせることができる。これにより、例えば、訓練データに含まれる動画データviに高飛び込みや体操などの複数の種類の競技が記録されている場合であっても、学習装置1aは、競技の種類の違いを考慮した上で、学習処理を行うため、学習装置1よりも更に正確にオフィシャルな審判員の採点の手法に関するノウハウを学習することが可能になる。
(第2の実施形態のスコア推定装置)
図8は、第2の実施形態によるスコア推定装置2aの内部構成を示すブロック図である。図8において、図5に示す学習装置1aと同一の構成については同一の符号を付して示している。スコア推定装置2aは、入力部11a-1、推定部50a、出力部17a、学習済み特徴量抽出用パラメータ記憶部18、学習済みスコア推定用パラメータ記憶部19及び学習済みクラス推定用パラメータ記憶部22を備える。推定部50aは、特徴量抽出部12と、スコア推定部13と、クラス推定部20とを備える。
図8は、第2の実施形態によるスコア推定装置2aの内部構成を示すブロック図である。図8において、図5に示す学習装置1aと同一の構成については同一の符号を付して示している。スコア推定装置2aは、入力部11a-1、推定部50a、出力部17a、学習済み特徴量抽出用パラメータ記憶部18、学習済みスコア推定用パラメータ記憶部19及び学習済みクラス推定用パラメータ記憶部22を備える。推定部50aは、特徴量抽出部12と、スコア推定部13と、クラス推定部20とを備える。
上述したように、図6に示したステップS32において、パラメータ更新部14aが、「Yes」の判定、すなわち、評価損失Lossが終了条件を満たすと判定した場合、特徴量抽出用パラメータ記憶部15と、スコア推定用パラメータ記憶部16と、クラス推定用パラメータ記憶部21には、それぞれ学習済みの特徴量抽出用パラメータと、学習済みのスコア推定用パラメータと、学習済みのクラス推定用パラメータとが記録されることになる。
学習済み特徴量抽出用パラメータ記憶部18は、学習装置1aの学習処理が終了した時点で特徴量抽出用パラメータ記憶部15に記録されている学習済みの特徴量抽出用パラメータを予め記憶する。学習済みスコア推定用パラメータ記憶部19は、学習装置1aの学習処理が終了した時点でスコア推定用パラメータ記憶部16に記録されている学習済みのスコア推定用パラメータを予め記憶する。クラス推定用パラメータ記憶部22は、学習装置1aの学習処理が終了した時点でクラス推定用パラメータ記憶部21に記録されている学習済みのクラス推定用パラメータを予め記憶する。
入力部11a-1は、外部から与えられる任意の動画データを取り込む。入力部11a-1は、取り込んだ動画データを特徴量抽出部12に出力する。
特徴量抽出部12は、学習済み特徴量抽出用パラメータ記憶部18から学習済みの特徴量抽出用パラメータを読み出し、動画特徴量抽出層121に読み出した学習済みの特徴量抽出用パラメータを適用する。特徴量抽出部12は、入力部11a-1が出力する動画データを入力として動画特徴量抽出層121に与え、出力として動画データの特徴量を取得し、取得した特徴量をスコア推定部13に出力する。
スコア推定部13は、学習済みスコア推定用パラメータ記憶部19から学習済みのスコア推定用パラメータを読み出し、全結合層131に読み出した学習済みのスコア推定用パラメータを適用する。スコア推定部13は、特徴量抽出部12が出力する特徴量を入力として全結合層131に与え、出力として推定スコアを取得し、取得した推定スコアを出力部17aに出力する。
クラス推定部20は、学習済みクラス推定用パラメータ記憶部22から学習済みのクラス推定用パラメータを読み出し、全結合層+Softmax層201に読み出した学習済みのクラス推定用パラメータを適用する。クラス推定部20は、特徴量抽出部12が出力する特徴量を入力として全結合層+Softmax層201に与え、出力として推定クラスを取得し、取得した推定クラスを出力部17aに出力する。出力部17aは、スコア推定部13が出力する推定スコアを外部に出力し、クラス推定部20が出力する推定クラスを外部に出力する。
なお、上記の第2の実施形態のスコア推定装置2aにおいて、推定スコアのみを求める場合、クラス推定部20と、学習済みクラス推定用パラメータ記憶部22を備えないようにしてもよい。
上記の第2の実施形態のスコア推定装置2aにおいて、推定部50aは、学習装置1aの学習処理によって得られた学習済みのパラメータ(学習済みの特徴量抽出用パラメータ、学習済みのスコア推定用パラメータ及び学習済みのクラス推定用パラメータ)に基づいて関数を近似する関数近似器(第1の関数近似器、第2の関数近似器及び第3の関数近似器)を有し、関数近似器に動画データを入力として与えることにより、当該動画データの推定スコアを推定する。
第2の実施形態では、学習装置1aによって推定クラスciと、真値クラスラベルkiとを含めた学習処理が行われている。そのため、第1の実施形態とは異なり、第2の実施形態の学習済み特徴抽出用パラメータと学習済みスコア推定用パラメータには、動画データviが属するクラスの情報が反映されている。したがって、第2の実施形態のスコア推定装置2aは、多くの種類の競技の動画データを対象として、第1の実施形態よりも更に正確に推定スコアを求めることができる。
また、上記の第1及び第2の実施形態において、第1の損失関数として、式(2)に示すMSEを適用する例を示したが、MSEに替えて、L1-Loss等の他の回帰損失を算出する関数を適用するようにしてもよい。
また、上記の第1の実施形態の評価損失Lossを算出する式(4)及び第2の実施形態の評価損失Lossを算出する式(8)は、一例である。第1の実施形態においては、回帰損失とランキング損失の間のバランス、第2の実施形態においては、回帰損失とランキング損失とクラス損失の間のバランスを取ることができるような任意の式を適用してもよい。
また、第2の実施形態において第3の損失関数としてCross Entoropy Lossを適用する例を示したが、第3の損失関数として他の関数を適用してもよい。また、式(6)の相関係数correlationとして、式(7)に示すスピアマンの順位相関係数を適用する例を示したが、相関係数correlationとして他の相関係数を適用してもよい。
また、上記の第1及び第2の実施形態では、訓練データ記憶部10,10aが学習装置1,1aの内部に備えられているが、学習装置1,1aの外部に備えられていてもよい。また、学習済み特徴量抽出用パラメータ記憶部18、学習済みスコア推定用パラメータ記憶部19及び学習済みクラス推定用パラメータ記憶部22についても、スコア推定装置2,2aの外部に備えられていてもよい。
また、訓練データ記憶部10,10a、学習済み特徴量抽出用パラメータ記憶部18、学習済みスコア推定用パラメータ記憶部19及び学習済みクラス推定用パラメータ記憶部22については、保存しておくデータを記憶する記憶部であるため、不揮発性の記憶領域を適用するのが望ましい。これに対して、特徴量抽出用パラメータ記憶部15、スコア推定用パラメータ記憶部16及びクラス推定用パラメータ記憶部21は、データを一時的に記憶する記憶部であるため、不揮発性の記憶領域を適用してもよいし、揮発性の記憶領域を適用してもよい。
また、上記の第1及び第2の実施形態に示した、第1の関数近似器、第2の関数近似器及び第3の関数近似器は、上述したような構成のニューラルネットワーク以外の他の構成のニューラルネットワークを適用してもよい。また、ニューラルネットワークではなく、機械学習において用いられる学習処理が可能な他の手段を適用してもよい。また、第1の関数近似器、第2の関数近似器及び第3の関数近似器のように分かれていなくてもよく、第1の実施形態では、第1の関数近似器と第2の関数近似器が一体として1つの関数近似器を構成していてもよいし、第2の実施形態では、第1の関数近似器と第2の関数近似器と第3の関数近似器が一体として1つの関数近似器を構成していてもよい。
上述した実施形態における学習装置1,1a、スコア推定装置2,2aをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
スポーツ競技における競技の採点に利用することができる。
1…学習装置、10…訓練データ記憶部、11…入力部、12…特徴量抽出部、13…スコア推定部、14…パラメータ更新部、15…特徴量抽出用パラメータ記憶部、16…スコア推定用パラメータ記憶部、50…推定部
Claims (7)
- 競技者の競技中の動作を記録した動画データと、当該動画データに記録された競技に対して審判員が採点したスコアである複数の真値スコアとを組み合わせた訓練データを取り込む入力部と、
パラメータに基づいて関数を近似する関数近似器を有し、前記関数近似器に前記入力部が取り込んだ動画データを入力として与えることにより、当該動画データの推定スコアを推定する推定部と、
複数の前記推定スコアの各々と、前記推定スコアの各々に対応する前記真値スコアの各々との間の回帰損失を求める第1の損失関数と、異なる2つの前記動画データの全ての組み合わせの各々に対応する2つの前記推定スコア及び2つの前記真値スコアに基づいて2つの前記推定スコアの間の順序の誤り度合いを示すランキング損失を求める第2の損失関数であって2つの前記真値スコアの差の大きさを考慮して前記ランキング損失を補正する第2の損失関数とに基づいて、前記第1の損失関数の出力である前記回帰損失及び前記第2の損失関数の出力である前記ランキング損失の各々を減少させる学習処理を行うことにより、前記パラメータを更新するパラメータ更新部と、
を備える学習装置。 - 前記動画データは、前記動画データに記録される内容に基づいて予め定められる複数のクラスのいずれかに予め分類され、前記動画データに対して前記動画データが属する前記クラスを示す真値クラスラベルが予め付与されており、
前記入力部は、
前記動画データと、当該動画データに対応する前記真値スコアと、当該動画データに付与されている前記真値クラスラベルとを組み合わせた訓練データを取り込み、
前記推定部は、
前記関数近似器に前記入力部が取り込んだ動画データを入力として与えることにより、当該動画データの推定スコアと、当該動画データが何れの前記クラスに属するかの確率を示す推定クラスを推定し、
前記パラメータ更新部は、
複数の前記推定クラスの各々と、前記推定クラスの各々に対応する前記真値クラスラベルの各々との間のクラス損失を求める第3の損失関数と、異なる2つの前記動画データの全ての組み合わせの各々に対応する2つの前記推定スコア及び2つの前記真値スコアに基づいて2つの前記推定スコアの間の順序の誤り度合いを示すランキング損失を求める第4の損失関数であって2つの前記真値スコアの差の大きさ、かつ2つの前記推定クラスの間の相関を考慮して前記ランキング損失を補正する第4の損失関数とに基づいて、前記第1の損失関数の出力である前記回帰損失、前記第3の損失関数の出力である前記クラス損失及び前記第2の損失関数に替えて用いる前記第4の損失関数の出力である前記ランキング損失の各々を減少させる学習処理を行うことにより、前記パラメータを更新する、
請求項1に記載の学習装置。 - 競技者の競技中の動作を記録した動画データを取り込む入力部と、
請求項1に記載の学習装置、または、請求項2に記載の学習装置の学習処理によって得られた学習済みのパラメータに基づいて関数を近似する関数近似器を有し、前記関数近似器に前記入力部が取り込んだ前記動画データを入力として与えることにより、当該動画データの推定スコアを推定する推定部と、
を備えるスコア推定装置。 - 競技者の競技中の動作を記録した動画データと、当該動画データに記録された競技に対して審判員が採点したスコアである複数の真値スコアとを組み合わせた訓練データを取り込み、
パラメータに基づいて関数を近似する関数近似器に取り込んだ動画データを入力として与えることにより、当該動画データの推定スコアを推定し、
複数の前記推定スコアの各々と、前記推定スコアの各々に対応する前記真値スコアの各々との間の回帰損失を求める第1の損失関数と、異なる2つの前記動画データの全ての組み合わせの各々に対応する2つの前記推定スコア及び2つの前記真値スコアに基づいて2つの前記推定スコアの間の順序の誤り度合いを示すランキング損失を求める第2の損失関数であって2つの前記真値スコアの差の大きさを考慮して前記ランキング損失を補正する第2の損失関数とに基づいて、前記第1の損失関数の出力である前記回帰損失及び前記第2の損失関数の出力である前記ランキング損失の各々を減少させる学習処理を行うことにより、前記パラメータを更新する、
学習方法。 - コンピュータを、
競技者の競技中の動作を記録した動画データと、当該動画データに記録された競技に対して審判員が採点したスコアである複数の真値スコアとを組み合わせた訓練データを取り込む入力手段、
パラメータに基づいて関数を近似する関数近似器を有し、前記関数近似器に前記入力手段が取り込んだ動画データを入力として与えることにより、当該動画データの推定スコアを推定する推定手段、
複数の前記推定スコアの各々と、前記推定スコアの各々に対応する前記真値スコアの各々との間の回帰損失を求める第1の損失関数と、異なる2つの前記動画データの全ての組み合わせの各々に対応する2つの前記推定スコア及び2つの前記真値スコアに基づいて2つの前記推定スコアの間の順序の誤り度合いを示すランキング損失を求める第2の損失関数であって2つの前記真値スコアの差の大きさを考慮して前記ランキング損失を補正する第2の損失関数とに基づいて、前記第1の損失関数の出力である前記回帰損失及び前記第2の損失関数の出力である前記ランキング損失の各々を減少させる学習処理を行うことにより、前記パラメータを更新するパラメータ更新手段、
として機能させるための学習プログラム。 - 競技者の競技中の動作を記録した動画データを取り込み、
請求項1に記載の学習装置、または、請求項2に記載の学習装置の学習処理によって得られた学習済みのパラメータに基づいて関数を近似する関数近似器に取り込んだ前記動画データを入力として与えることにより、当該動画データの推定スコアを推定する、
スコア推定方法。 - コンピュータを、
競技者の競技中の動作を記録した動画データを取り込む入力手段、
請求項1に記載の学習装置、または、請求項2に記載の学習装置の学習処理によって得られた学習済みのパラメータに基づいて関数を近似する関数近似器を有し、前記関数近似器に前記入力手段が取り込んだ前記動画データを入力として与えることにより、当該動画データの推定スコアを推定する推定手段、
として機能させるためのスコア推定プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/015136 WO2021199392A1 (ja) | 2020-04-02 | 2020-04-02 | 学習装置、学習方法及び学習プログラム、並びに、スコア推定装置、スコア推定方法及びスコア推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021199392A1 JPWO2021199392A1 (ja) | 2021-10-07 |
JP7352119B2 true JP7352119B2 (ja) | 2023-09-28 |
Family
ID=77930154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022511452A Active JP7352119B2 (ja) | 2020-04-02 | 2020-04-02 | 学習装置、学習方法及び学習プログラム、並びに、スコア推定装置、スコア推定方法及びスコア推定プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7352119B2 (ja) |
WO (1) | WO2021199392A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023176256A (ja) * | 2022-05-31 | 2023-12-13 | 楽天グループ株式会社 | 画像からデータを予測する方法、コンピュータシステム、及びコンピュータ可読媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010061376A (ja) | 2008-09-03 | 2010-03-18 | National Institute Of Advanced Industrial Science & Technology | 動作評価装置および動作評価方法 |
WO2018070414A1 (ja) | 2016-10-11 | 2018-04-19 | 富士通株式会社 | 運動認識装置、運動認識プログラムおよび運動認識方法 |
JP2020038440A (ja) | 2018-09-03 | 2020-03-12 | 国立大学法人 東京大学 | 動作認識方法及び装置 |
-
2020
- 2020-04-02 JP JP2022511452A patent/JP7352119B2/ja active Active
- 2020-04-02 WO PCT/JP2020/015136 patent/WO2021199392A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010061376A (ja) | 2008-09-03 | 2010-03-18 | National Institute Of Advanced Industrial Science & Technology | 動作評価装置および動作評価方法 |
WO2018070414A1 (ja) | 2016-10-11 | 2018-04-19 | 富士通株式会社 | 運動認識装置、運動認識プログラムおよび運動認識方法 |
JP2020038440A (ja) | 2018-09-03 | 2020-03-12 | 国立大学法人 東京大学 | 動作認識方法及び装置 |
Non-Patent Citations (1)
Title |
---|
Yongjun Li et al.,End-To-End Learning for Action Quality Assessment,PCM 2018,スイス,2018年09月21日,p.125-134,<DOI: https://doi.org/10.1007/978-3-030-00767-6> |
Also Published As
Publication number | Publication date |
---|---|
WO2021199392A1 (ja) | 2021-10-07 |
JPWO2021199392A1 (ja) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147711B (zh) | 视频场景识别方法、装置、存储介质和电子装置 | |
CN110472554B (zh) | 基于姿态分割和关键点特征的乒乓球动作识别方法及*** | |
US20200279156A1 (en) | Feature fusion for multi-modal machine learning analysis | |
CN112819852A (zh) | 对基于姿态的运动进行评估 | |
CN111428088A (zh) | 视频分类方法、装置及服务器 | |
US20140143183A1 (en) | Hierarchical model for human activity recognition | |
US11392801B2 (en) | Action recognition method and apparatus | |
CN105590091A (zh) | 一种面部识别方法及其*** | |
CN109248428A (zh) | 一种网球运动轨迹处理***的动态分析方法 | |
US20220362630A1 (en) | Method, device, and non-transitory computer-readable recording medium for estimating information on golf swing | |
JP7352119B2 (ja) | 学習装置、学習方法及び学習プログラム、並びに、スコア推定装置、スコア推定方法及びスコア推定プログラム | |
CN115131879A (zh) | 一种动作评价方法及装置 | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及*** | |
Zahan et al. | Learning sparse temporal video mapping for action quality assessment in floor gymnastics | |
US20220273984A1 (en) | Method and device for recommending golf-related contents, and non-transitory computer-readable recording medium | |
CN116935057A (zh) | 目标评价方法、电子设备和计算机可读存储介质 | |
US11922822B2 (en) | Method of scoring a move of a user and system thereof | |
Iosifidis et al. | Human action recognition based on bag of features and multi-view neural networks | |
CN115035007A (zh) | 基于像素级对齐生成对抗网络的人脸老化***及建立方法 | |
CN110314368B (zh) | 台球击球的辅助方法、装置、设备及可读介质 | |
CN113221690A (zh) | 视频分类方法及装置 | |
KR20230022010A (ko) | 스포츠 활동분류 학습장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치 | |
CN112749625B (zh) | 时序行为检测方法、时序行为检测装置及终端设备 | |
US20230381584A1 (en) | Method, system, and non-transitory computer-readable recording medium for estimating information on golf swing posture | |
JP7460997B2 (ja) | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230828 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7352119 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |