JP2008009938A

JP2008009938A - 動画像データ処理装置、動画像データ処理方法、動画像データ処理プログラム、およびこれを記録した記録媒体

Info

Publication number: JP2008009938A
Application number: JP2006182528A
Authority: JP
Inventors: Kimihiro Ikumo; 公啓生雲; Hiroshi Kuribayashi; 博栗林
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2006-06-30
Filing date: 2006-06-30
Publication date: 2008-01-17

Abstract

【課題】ユーザに対する負担が少なく、かつ、ユーザの意図を的確に反映した区切り位置を特定することを可能とする動画像データ処理装置を提供する。
【解決手段】まず動画像データが表示装置５に表示されている状態で、ユーザから指示入力が行われる。この指示入力は、ユーザが、動画像データにおける区切り位置であると判断した時点で行われるものである。そして、区切り位置特定部２３が、指示タイミングを基準とする所定の時系列位置範囲において、特徴量抽出部２１によって抽出された複数種類の特徴量情報の中から、特徴量変化の大きさに基づいて特定の特徴量情報を選択し、該特徴量情報における特徴量変化が最も大きい時系列位置を区切り位置として時系列位置範囲の中から特定する。
【選択図】図１

Description

本発明は、動画像データから、動画像の内容の区切りなどに対応する区切り位置を特定する動画像データ処理装置に関するものである。

商品ライフサイクルの短期化、ユーザニーズの多様化に伴い、製造業では、多品種少量生産、短納期生産、変量生産などへの対応が迫られている。そうした環境変化を受けて、機械が自動で製品の加工・組立てを行う自動化ラインから、人が手作業で加工・組立て作業を行う手組みラインへとシフトする工場が増えている。

手組みラインとは、小規模構成のラインの中で多能工の作業者が臨機応変に作業を分担し合う生産方式である。セル生産方式は手組みラインの一形態である。

手組みラインでは、製品の生産に必要な一連の作業が複数の工程に分割され、工程毎に作業場所、作業手順が定められる。各工程には作業者が配置され、先頭工程から最終工程まで全ての作業が順に実行されると製品が完成する。ライン全体に配置する作業者の人数や、一人の作業者が担当する工程の数には様々な形態が存在する。

一般に、工場のラインにおける生産の改善活動は、現状把握、課題発見、要因分析、改善実施、および効果評価といった処理が繰り返し行われることによって実現される。この改善活動の第一歩としての現状把握では、ラインの生産能力を定量的に把握することが必要とされる。ここで、上記した手組みラインでは、多種多様な作業方法を直接定量化することは困難であるので、定量化の手法として、各工程での作業時間を計測することが行われている。そして、この作業時間の計測は、生産管理者の負担を軽減するために、自動で計測されることが好ましい。
特開平8-227462号公報（平成8（1996）年9月3日公開）

例えば、工程ごとに作業の開始・終了を検知するセンサなどの検知手段を用いて、工程ごとの作業時間を取得する手法が考えられる。この手法の場合、センサは、生産対象となる製品の移動を検知し、これによって作業の監視・終了が検知されることになる。工程で作業が行われているか否かを判定する具体例としては、例えば赤外線センサや重量センサなどによってある工程での製品の有無を検知したり、例えば各製品にＲＦＩＤを付しておき、特定の作業エリア内に存在するＲＦＩＤを検出したりする方法が考えられる。

しかしながら、この手法の場合、次のような問題がある。まず、作業の開始・終了を検知するセンサを各工程毎に設置する必要があるが、工程の形態によってはセンサの設置が難しい場合が考えられる。また、製品の移動を検知することによって作業の開始・終了を検知するようになっているので、例えば製品が同じ場所に置かれた状態で、複数の工程が順次行われるような生産形態の場合、各工程を区別することができないことになる。

これに対して、生産の状況を撮影するカメラを設置し、このカメラによって撮影された動画像に基づいて各工程を判別する手法が考えられる。この手法の場合、動画像データから区切り位置を特定する手法が問題となるが、例えば特許文献１には、動画像の変化点検出方法が開示されている。この方法は、各フレーム単位に画像データが有するカラーヒストグラムを含む特徴量を計算し、その特徴量と直前の複数枚のフレームの特徴量との間で各々相関係数を求め、求められた相関係数の組み合わせのパターンから動画像の変化点か否かを判定する。

しかしながら、この方法の場合、特徴量にのみ頼って動画像の変化点を検出しているので、必要以上に変化点を検出してしまう可能性が高いという問題がある。また、区切り位置における画像の状況によって変化が生じる特徴量の種類は異なってくることが予想されるが、上記特許文献１に開示されている方法では、これに対応することができない。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、ユーザに対する負担が少なく、かつ、ユーザの意図を的確に反映した区切り位置を特定することを可能とする動画像データ処理装置、動画像データ処理方法、動画像データ処理プログラム、およびこれを記録した記録媒体を提供することにある。

本発明に係る動画像データ処理装置は、上記課題を解決するために、動画像データを動画として表示装置に表示させる制御を行う表示制御部と、上記動画像データが上記表示装置において表示されている状態でユーザから指示入力を受け付け、該指示されたタイミングを、該動画像データにおける時系列位置と対応させて指示タイミングとして取得する入力受付部と、上記動画像データから、時系列データからなる特徴量情報を少なくとも１種類抽出する特徴量抽出部と、上記入力受付部によって取得された指示タイミングを基準とする所定の時系列位置範囲において、上記少なくとも１種類の特徴量情報の中から、特徴量変化の大きさに基づいて特定の特徴量情報を選択し、該特徴量情報における特徴量変化が最も大きい時系列位置を区切り位置として上記所定の時系列位置範囲の中から特定する区切り位置特定部と、を備える構成である。

また、本発明に係る動画像データ処理方法は、動画像データを動画として表示装置に表示させる制御を行う表示制御ステップと、上記動画像データが上記表示装置において表示されている状態でユーザから指示入力を受け付け、該指示されたタイミングを、該動画像データにおける時系列位置と対応させて指示タイミングとして取得する入力受付ステップと、上記動画像データから、時系列データからなる特徴量情報を少なくとも１種類抽出する特徴量抽出ステップと、上記入力受付ステップによって取得された指示タイミングを基準とする所定の時系列位置範囲において、上記少なくとも１種類の特徴量情報の中から、特徴量変化の大きさに基づいて特定の特徴量情報を選択し、該特徴量情報における特徴量変化が最も大きい時系列位置を区切り位置として上記所定の時系列位置範囲の中から特定する区切り位置特定ステップと、を有する方法である。

上記の構成または方法では、まず動画像データが表示装置に表示されている状態で、ユーザから指示入力が行われるようになっている。この指示入力は、ユーザが、動画像データにおける区切り位置であると判断した時点で行われるものである。ここで、ユーザによって指示されたタイミングは、区切り位置の正確な時点である必要はなく、ある程度の誤差が含まれていてもよい。

そして、指示タイミングを基準とする所定の時系列位置範囲において、少なくとも１種類の特徴量情報の中から、特徴量変化の大きさに基づいて特定の特徴量情報が選択され、該特徴量情報における特徴量変化が最も大きい時系列位置が区切り位置として時系列位置範囲の中から特定される。ここで、特徴量変化が大きい時系列位置とは、動画像データの内容に何らかの大きな変化が生じた時系列位置であることが予想される。よって、指示タイミングの近傍にある特徴量変化が大きい時系列位置は、ユーザが本来意図している区切り位置であるとみなすことができる。

このように、ユーザに対して区切り位置の正確な時点を指示することを要求することなく、ユーザが本来意図している区切り位置を特定することが可能となるので、区切り位置の特定処理におけるユーザの手間、負担を大幅に削減することができる。また、ユーザが指定した指示タイミングの近傍で区切り位置が設定されることになるので、必要以上に区切り位置が設定されることも防止することができ、適切な区切り位置のみを設定することが可能となる。

このようにして特定された区切り位置は、例えば動画像データのチャプター分けやインデックス情報などの生成に用いることも可能であるし、詳細は後述するが、特徴量情報の時系列データに基づいて人手を介することなく区切り位置を特定する判別情報を生成するための学習処理に必要とされる教師データとしても用いることも可能である。

また、本発明に係る動画像データ処理装置は、上記の構成において、上記特徴量抽出部によって複数種類の特徴量情報が抽出されるとともに、抽出された各特徴量情報の値を、所定の基準に基づいて正規化した正規化特徴量情報を生成する正規化処理部をさらに備え、上記区切り位置特定部が、上記所定の時系列位置範囲において、複数種類の上記正規化特徴量情報の中から、最も大きい特徴量変化を有する正規化特徴量情報を選択し、該特徴量情報における特徴量変化が最も大きい時系列位置を区切り位置として特定する構成としてもよい。

上記の構成によれば、特徴量情報が複数種類抽出されるようになっている。基本的には、動画像データからは複数種類の特徴量情報を得ることが可能であるが、どの種類の特徴量情報が区切り位置の判定に大きく寄与するかは事前にはわからないことが多い。よって、複数種類の特徴量情報の特徴量の変化を見ていくことが必要になるが、各種類の特徴量情報の値の単位は互いに異なるものであり、単純には変化量の大きさの比較はできない。

これに対して、上記の構成によれば、各特徴量情報の値が正規化されるようになっている。よって、種類が異なる特徴量情報同士の間で、特徴量変化の大小を直接比較することが可能となる。このように正規化処理された複数種類の特徴量情報の中から、最も大きい特徴量変化を有する正規化特徴量情報が選択され、該特徴量情報における特徴量変化が最も大きい時系列位置が区切り位置として特定される。よって、指示タイミングの近傍において、区切り位置として最もふさわしい時系列位置を複数種類の特徴量情報の中から適切に特定することが可能となる。

また、本発明に係る動画像データ処理装置は、上記の構成において、上記区切り位置特定部によって特定された区切り位置情報、および、該区切り位置の内容を示す区切り内容情報、および、該区切り位置における上記複数種類の特徴量情報を対応づけて出力する出力部をさらに備える構成としてもよい。

上記の構成によれば、区切り位置情報、および、該区切り位置の内容を示す区切り内容情報、および、該区切り位置における上記複数種類の特徴量情報を対応づけて出力することが可能となる。このような情報は、例えば特徴量情報の時系列データに基づいて人手を介することなく区切り位置を特定する判別情報を生成するための学習処理に必要とされる教師データとして用いることが可能となる。

また、本発明に係る動画像データ処理装置は、動画像データから、時系列データからなる特徴量情報を少なくとも１種類抽出する特徴量抽出部と、上記特徴量抽出部によって抽出された各特徴量情報について、該特徴量情報に対応して設定されている閾値を超える特徴量変化が生じている時系列位置を区切り候補位置として特定する区切り候補位置特定部と、上記区切り候補位置を基準とする所定の時系列位置範囲の上記動画像データを動画として表示装置に表示させる制御を行う表示範囲設定部と、上記表示装置に表示された上記所定の時系列位置範囲の動画像データに、区切り位置として設定すべき時系列位置が含んでいるか否かの指示入力をユーザから受け付け、これに基づいて区切り位置を特定する区切り位置特定部と、を備える構成である。

また、本発明に係る動画像データ処理方法は、動画像データから、時系列データからなる特徴量情報を少なくとも１種類抽出する特徴量抽出ステップと、上記特徴量抽出ステップによって抽出された各特徴量情報について、該特徴量情報に対応して設定されている閾値を超える特徴量変化が生じている時系列位置を区切り候補位置として特定する区切り候補位置特定ステップと、上記区切り候補位置を基準とする所定の時系列位置範囲の上記動画像データを動画として表示装置に表示させる制御を行う表示範囲設定ステップと、上記表示装置に表示された上記所定の時系列位置範囲の動画像データに、区切り位置として設定すべき時系列位置が含んでいるか否かの指示入力をユーザから受け付け、これに基づいて区切り位置を特定する区切り位置特定ステップと、を有する方法である。

上記の構成または方法では、まず動画像データから特徴量情報が抽出され、各特徴量情報に対応して設定されている閾値を超える特徴量変化が生じている時系列位置が区切り候補位置として特定される。ここで、特徴量変化が所定の閾値を超える時系列位置とは、動画像データの内容に何らかの大きな変化が生じた時系列位置であることが予想される。よって、このような区切り候補位置は、ユーザが区切り位置とみなす可能性が高いものと予想される。

そして、この区切り候補位置を基準とする所定の時系列位置範囲の動画像データが動画として表示装置に表示されるとともに、表示装置に表示された上記所定の時系列位置範囲の動画像データに、区切り位置として設定すべき時系列位置が含んでいるか否かの指示入力がユーザによって行われ、これに基づいて区切り位置が特定される。

このように、区切り候補位置の近傍の動画のみをユーザに提示することによって、ユーザからの区切り位置の指定を受け付けるようになっているので、ユーザは、区切り位置を指定するために動画像データを見る時間を大幅に削減することが可能となる。すなわち、区切り位置の特定処理におけるユーザの手間、負担を大幅に削減することができる。

また、本発明に係る動画像データ処理装置は、上記の構成において、上記区切り位置特定部が、上記区切り位置として設定すべき時系列位置が含まれている旨の指示入力を受け付けた場合に、該区切り位置によって示される区切り内容情報を指定する入力をユーザから受け付けるとともに、上記区切り位置情報、上記区切り内容情報、および、該区切り位置に対応する上記区切り候補位置における上記複数種類の特徴量情報を対応づけて出力する出力部をさらに備える構成としてもよい。

また、本発明に係る動画像データ処理装置は、上記の構成において、上記出力部から出力される上記区切り位置情報、上記区切り内容情報および上記複数種類の特徴量情報を教師データとして受け付ける教師データ入力部と、上記教師データ入力部によって受け付けられた複数の教師データに基づいて学習を行うことにより、上記各区切り内容情報に対応する区切り位置を判別するための、上記特徴量情報の条件を示す判別情報を生成する学習処理部と、をさらに備える構成としてもよい。

基本的には、多数の種類の特徴量情報から、どの種類の特徴量情報を用いて区切り位置との対応付けをすることが好ましいかを判断することは非常に困難である。また、動画像データが異なれば特徴量の変化も異なるものであるので、１つの動画像データのみからでは、上記の対応付けを適切に設定することはできない。このように、判別情報を生成するためには、人手による試行錯誤が伴い、多大の時間と労力とが必要となるとともに、最適な判別情報を生成することも困難である。

これに対して、上記の構成によれば、区切り位置情報、区切り内容情報、および複数種類の特徴量情報を教師データとして用いて学習を行うことにより、各区切り内容情報に対応する区切り位置を判別するための、特徴量情報の条件を示す判別情報が生成される。すなわち、判別情報を生成する手法として教師あり学習を用いることによって、生成が困難な判別情報をより容易に生成することが可能となる。

また、本発明に係る動画像データ処理装置は、上記の構成において、上記特徴量抽出部によって抽出された複数種類の特徴量情報に対して、上記判別情報を適用することによって区切り位置およびそれに対応する区切り内容情報を判別し、該判別結果を出力する判別処理部をさらに備える構成としてもよい。

上記の構成によれば、動画像データにおける区切り位置およびそれに対応する区切り内容情報は、該動画像から特徴量情報を抽出し、この特徴量情報に対して判別情報を適用することによって得ることができる。すなわち、人手を介することなく、動画像データに対して区切り位置およびそれに対応する区切り内容情報を特定することが可能となる。

また、本発明に係る動画像データ処理装置は、上記の構成において、上記動画像データが、被対象物に対して複数の工程で処理が行われる処理システムにおける、少なくとも１つの工程での作業状況が動画撮影された動画撮影データであり、上記区切り位置特定部が、少なくとも１つの工程の開始および／または終了の時点を上記区切り位置として特定する構成としてもよい。

上記の構成によれば、上記の区切り位置を工程の開始および／または終了の時点として設定することによって、各工程の所要時間などを的確に把握することが可能となる。

なお、上記動画像データ処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各部として動作させることにより上記動画像データ処理装置をコンピュータにて実現させる動画像データ処理プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明に係る動画像データ処理装置は、以上のように、動画像データを動画として表示装置に表示させる制御を行う表示制御部と、上記動画像データが上記表示装置において表示されている状態でユーザから指示入力を受け付け、該指示されたタイミングを、該動画像データにおける時系列位置と対応させて指示タイミングとして取得する入力受付部と、上記動画像データから、時系列データからなる特徴量情報を少なくとも１種類抽出する特徴量抽出部と、上記入力受付部によって取得された指示タイミングを基準とする所定の時系列位置範囲において、上記少なくとも１種類の特徴量情報の中から、特徴量変化の大きさに基づいて特定の特徴量情報を選択し、該特徴量情報における特徴量変化が最も大きい時系列位置を区切り位置として上記所定の時系列位置範囲の中から特定する区切り位置特定部と、を備える構成である。これにより、区切り位置の特定処理におけるユーザの手間、負担を大幅に削減することができるとともに、必要以上に区切り位置が設定されることも防止することができ、適切な区切り位置のみを設定することが可能となるという効果を奏する。

本発明の一実施形態について図面に基づいて説明すると以下の通りである。本実施形態では、一例として、複数の工程からなる手組み生産ラインを有する生産システムに適用される、生産管理装置について説明する。

（生産システムの概略構成）
まず、本実施形態に係る生産管理装置２が適用される、ある製品の生産システム１について、図２に基づいて説明する。図２に示す例では、生産システム１は、生産管理装置２、カメラ３…、および作業場６…を備えた構成となっている。

各作業場６には、作業台および治工具などが設定されており、生産対象物としてのワーク（被対象物）に対して１つ以上の工程が行われる。基本的には、ある作業場６で行われる工程が全て完了すると、次の作業場６にワークが移動され、該作業場６での工程が行われる、という処理が繰り返されることによって、生産が実施される。各工程には作業者が配置されるが、生産ライン全体に配置する作業者の人数や、一人の作業者が担当する工程の数には様々な形態が存在する。

カメラ３は、各作業場６に対応して設けられ、該作業場６において実施される１つ以上の工程の作業状況を動画撮影するものである。各カメラ３は、通信手段を介して撮影した動画像データを生産管理装置２に送信する。ここで、各カメラ３は、撮影して得られた動画像データをバッファなどを介してそのまま生産管理装置２に送信するようになっていてもよいし、各カメラ３が記録部を有しており、撮影した動画像データを記録部に記録した後に、適時に生産管理装置２に送信するようになっていてもよい。また、同図に示す例では、１つの作業場６に対して１つのカメラ３が設けられているが、１つのカメラ３が複数の作業場６…の作業状況を撮影するようになっていてもよい。

生産管理装置２は、カメラ３から送られてきた動画像データに基づいて、各作業場６で行われている各工程の作業時間を管理する装置であり、具体的には以下に示す処理を行う。第１の処理としては、動画像データにおいて、各工程の開始および／または終了の時点をユーザからの指示に基づいて設定し、その時点での該動画像データから抽出される特徴量情報と区切り内容情報とを教師データとして設定する教師データ生成処理が挙げられる。第２の処理としては、第１の処理によって設定された教師データに基づいて学習を行い、各区切り内容情報に対応する区切り位置を判別するための、特徴量情報の条件を示す判別情報を生成する学習処理が挙げられる。第３の処理としては、動画像データから特徴量を抽出し、第２の処理によって設定された判別情報に基づいて区切り位置およびそれに対応する区切り内容情報を判別する判別処理が挙げられる。第４の処理としては、第３の処理によって判別された結果に基づいて、生産状況を登録する生産状況登録処理が挙げられる。なお、上記した第１〜第４の処理は、全て行われてもよいし、必要とされる処理のみが行われるようになっていてもよい。

この生産管理装置２は、例えば一般的なＰＣ（Personal Computer）によって構成される。この場合、生産管理装置２は、生産管理装置２に対する各種入力に要する表示や処理結果などの表示が行われる表示装置５、および、利用者からの入力を受け付ける入力装置４を備えた構成としてもよい。表示装置５としては、情報の表示が可能な表示装置であればどのような装置でもよく、例えばＣＲＴ（Cathode Ray Tube）、液晶表示装置などが挙げられる。また、入力装置４としては、利用者からの情報の入力が可能な入力装置であればどのような装置でもよく、例えばマウス、キーボードなどが挙げられる。

生産管理装置２とカメラ３…とは、通信手段によって互いに接続されている。この通信手段としては、有線通信、赤外線通信、Bluetooth（登録商標）、および無線ＬＡＮ（Local Area Network）等が挙げられる。

（生産管理装置の機能構成）
次に、生産管理装置２の機能構成について、図１に示すブロック図を参照しながら説明する。同図に示すように、生産管理装置２は、入力受付部１１、表示制御部１２、動画像データ入力部１３、動画像データ記録部１４、教師データ生成部１５、学習部１６、判別部１７、および生産状況登録部１８を備えた構成となっている。

入力受付部１１は、入力装置４から受信する入力指示信号を受け付ける処理を行う。この入力受付部１１によって受け付けられた指示入力は、その内容に応じて教師データ生成部１５、学習部１６、判別部１７、および生産状況登録部１８に送られる。

表示制御部１２は、表示装置５に対する表示制御を行う。この表示制御部１２は、教師データ生成部１５、学習部１６、判別部１７、および生産状況登録部１８からの指示に基づいて表示制御を行う。

動画像データ入力部１３は、カメラ３…から送られてきた動画像データを受信する処理を行う。この動画像データ入力部１３は、動画像データを受信すると、これを動画像データ記録部１４に記録する。ここで、動画像データ入力部１３は、動画像データを動画像データ記録部１４に記録する際に、各動画像データと、該動画像データを撮影したカメラ３の情報とを対応させて記録するようにしてもよい。

なお、動画像データ入力部１３は、動画像データをカメラ３…以外の装置から受け付けることが可能となっていてもよい。例えば、通信手段を介して接続される外部の端末装置やファイルサーバなどから動画像データを受信してもよいし、リムーバブルメディアなどの各種記録媒体から動画像データを読み出すようになっていてもよい。

動画像データ記録部１４は、動画像データ入力部１３によって受け付けられた動画像データを記録するものである。ここで、動画像データ記録部１４は、教師データを生成するために入力された動画像データ（教師データ用動画像データ）と、判別部１７による判別処理が行われるものとしての動画像データ（判別用動画像データ）とを区別して記録するようになっていてもよい。この区別は、例えば各動画像データに識別フラグを付して記録することによって実現してもよいし、記録領域を別にすることによって実現しても良い。

教師データ生成部１５は、上記した教師データ生成処理を行うブロックであり、特徴量抽出部２１、正規化処理部２２、区切り位置特定部２３、出力部２４、特徴量情報記録部２５、および区切り位置情報記録部２６を備えている。

特徴量抽出部２１は、動画像データ記録部１４から教師データ用動画像データを読み出し、該教師データ用動画像データから、時系列データからなる特徴量情報を複数種類抽出する。なお、特徴量情報の詳細については後述する。特徴量抽出部２１によって抽出された各特徴量情報は、特徴量情報記録部２５に記録される。

正規化処理部２２は、特徴量抽出部２１によって抽出された各特徴量情報に対して正規化処理を行う。ここでの正規化処理は、各特徴量情報に対して予め設定されている正規化演算を各特徴量情報に適用することによって実現される。この正規化処理の詳細については後述する。正規化処理部２２によって正規化された各特徴量情報は、特徴量抽出部２１によって抽出された各特徴量情報に対応づけられて、特徴量情報記録部２５に記録される。

区切り位置特定部２３は、表示装置５に動画表示されている教師データ用動画像データに関して、ユーザからの指示入力に基づいて区切り位置を特定する処理を行う。ユーザからの指示入力は、教師データ用動画像データが動画表示されている状態で、工程の開始または終了の時点を示す動画が表示されているとユーザが判定したタイミングで行われる。そして、区切り位置特定部２３は、この指示されたタイミングを基準とする所定の時系列位置範囲において、特徴量情報記録部２５に記録されている該教師データ用動画像データに対応する複数種類の特徴量情報に基づいて、区切り位置としてより好ましい時系列位置を特定する。この特定された時系列位置が、区切り位置として区切り位置情報記録部２６に記録される。また、区切り位置特定部２３は、特定された区切り位置によって示される区切り内容を示す区切り内容情報を区切り位置情報記録部２６に記録する。この区切り内容情報は、工程を特定する工程特定情報、および、工程の開始であるか終了であるかを示す開始／終了情報などを含んでいる。区切り位置情報記録部２６は、区切り位置情報および区切り内容情報と、特徴量情報とを対応づけて教師データとして記録する。

出力部２４は、区切り位置情報記録部２６から、区切り位置情報および区切り内容情報と特徴量情報とを教師データとして読み出し、これを学習部１６に送信する処理を行う。

学習部１６は、上記した学習処理を行うブロックであり、教師データ入力部３１、学習処理部３２、および判別情報記録部３３を備えている。

教師データ入力部３１は、学習処理の指示をユーザから受け付けると、出力部２４に対して教師データを要求し、該出力部２４から複数の教師データを受信する処理を行う。学習処理部３２は、教師データ入力部３１によって受信された複数の教師データに基づいて、いわゆる教師あり学習によって学習を行う。この学習結果は、判別情報記録部３３に記録される。

判別部１７は、上記した判別処理を行うブロックであり、特徴量抽出部４１、判別処理部４２、特徴量情報記録部４３、および判別結果記録部４４を備えている。

特徴量抽出部４１は、動画像データ記録部１４から判別用動画像データを読み出し、該判別用動画像データから、時系列データからなる特徴量情報を複数種類抽出する。特徴量抽出部２１によって抽出された各特徴量情報は、特徴量情報記録部４３に記録される。

判別処理部４２は、特徴量情報記録部４３から特徴量情報を読み出し、判別情報記録部３３に記録されている判別情報に基づいて判別処理を行う。この判別処理によって、判別用動画像データにおける区切り位置および各区切り位置の区切り内容情報が特定される。この判別結果が判別処理部４２によって判別結果記録部４４に記録される。

生産状況登録部１８は、上記した生産状況登録処理を行うブロックであり、生産状況登録処理部５１および生産状況記録部５２を備えている。

生産状況登録処理部５１は、判別結果記録部４４から判別結果を読み出し、これに基づいて生産状況情報を生産状況記録部５２に記録する処理を行う。ここでの生産状況情報とは、生産が行われた結果として、各工程の開始時刻、終了時刻、およびこれらから算出される各工程の所要時間などの情報が挙げられる。このような生産状況情報が記録されることによって、生産管理者は、生産の状況を明確に把握することが可能となり、生産状況の改善などの対策を施すことが可能となる。

なお、図１に示す構成では、教師データ生成部１５、学習部１６、判別部１７、および生産状況登録部１８が１つの生産管理装置２内に含まれているが、これらの各機能ブロックがそれぞれ別の情報処理装置によって実現されるようになっていてもよいし、複数の上記機能ブロックを含む情報処理装置が複数設けられた構成となっていてもよい。また、上記の各記録部、特に動画像データ記録部１４が、生産管理装置２の外部のデータ記録装置によって実現されてもよい。

（動画像を用いた作業状況把握の概要）
次に、カメラ３によって工程の作業状況が撮影された動画像データに基づいて、作業の区切りを示す時系列位置（区切り位置）としての開始／終了を認識する手法の概要について説明する。図３（ａ）は、ある作業場６において行われる工程の作業状況の時間変化を模式的に表している。同図において、左から右へ時間が経過しているものとする。このように、同じ作業場６において作業が行われている場合、動画像内においては、作業の進行に従って作業者が移動したり、ワークの状態が変化したりというような画像変化が生じることになる。この動画像内における画像変化を検知することによって工程の開始／終了を検出することが可能となる。

画像変化を検知するためには、動画像データから、時系列データからなる特徴量情報を抽出し、該特徴量情報の時間変化を検知すればよい。このような特徴量情報としては、例えば後述する緑色度合い情報のような、動画像データに含まれる画素の色相、明度などの基準に基づく統計値の時系列変化データ、および、速度ベクトル情報のような、動画像データに含まれている画像の移動に関する統計値の時系列変化データ、などが挙げられる。また、動画像データに音声情報が加えられている場合、この音声情報（例えば音量の変化、左右音声のバランスの変化、ステレオ／モノラルの変化など）による時系列変化データなどを特徴量情報として用いても良い。

図３（ｂ）は、特徴量情報として、２つの特徴量（特徴量Ａ、特徴量Ｂ）の時間変化の一例を示すグラフである。同図に示す例において、特徴量Ａに関しては、Ｐ１の時点で値が急激に減少し、Ｐ２の時点で値が急激に増加している。また、特徴量Ｂに関しては、Ｐ３およびＰ４の時点で瞬間的に値のピークが生じている。このように、値が急激に変化する時点は、動画像内に大きな画像変化が生じていると判断することができるので、作業状況が大きく変化したことが予想される。

以上を利用して、特徴量情報の値の変化と、作業の区切り位置との対応付けを予め定義しておくことによって、動画像データに対してデータ処理を行うことのみによって人手を介さずに作業の区切り位置を認識することが可能となる。また、作業の区切り位置を認識することによって、各工程の作業時間を求めることも可能となる。

この特徴量情報の値の変化と、作業の区切り位置との対応付けの一例を図４に示す。同図に示す例では、工程１の開始は、特徴量Ａの値が減少開始した時点となり、工程１の終了は、特徴量Ａの値の減少が停止した時点となる。また、工程２の開始は、特徴量Ａの値の減少が停止した時点となり、工程２の終了は、特徴量Ｂの値が閾値を超え、かつ、特徴量Ａの値が閾値以下となった時点となる。以降、同様の基準で作業の区切り位置が特徴量情報の変化に対応づけられる。

（作業の具体例）
次に、作業の具体例として、基板に対して半田付け作業を行う場合の作業状況把握について説明する。図５は、半田付け作業における動画像の変遷の一例を示している。同図において、（１）は、作業場６に基板Ｗが置かれる前の状態を示す映像、（２）は、作業場６に基板Ｗが置かれた状態を示す映像、（３）は、作業場６に基板Ｗが置かれた状態で作業者によって半田付け作業が行われている状態を示す映像、（４）は、作業が終了した基板Ｗが作業場６から取り除かれた状態を示す映像をそれぞれ示している。

この作業は、（ａ）基板Ｗが作業場６に置かれてから半田付け作業が開始されるまでの工程（工程Ａ）、（ｂ）半田付け作業が開始されてから半田付け作業が終了するまでの工程（工程Ｂ）、および、（ｃ）半田付け作業が終了してから基板Ｗが作業場６から取り除かれるまでの工程（工程Ｃ）の３つの工程に分けることができる。これらの工程が切り替わる時点を区切り位置として認識することによって、各工程の所要時間を計測することができる。

この例において、上記の３つの工程の開始／終了を識別するための特徴量情報として、緑色度合い情報、および速度ベクトル量情報を用いることが考えられる。

緑色度合い情報は、各フレームの緑色度合いを示す特徴量情報である。この例では、用いられる基板Ｗが緑色を多く含んでいるものであることを前提としている。よって、緑色度合いを特徴量情報として用いることによって、基板Ｗが動画像内に存在しているか否かを検知することが可能となる。

この緑色度合い情報は、動画像データにおける各フレームに含まれる画素の緑色成分の値に基づいて算出される。図６は、緑色度合い情報の算出方法の一例を示している。同図に示すように、動画像データにおける各フレームに含まれる画素が、ＲＧＢの色成分で示されている場合、Ｇの色成分の値をフレーム全体に含まれる画素全てに関して合計した値を緑色度合い情報として算出することが考えられる。なお、緑色度合い情報としては、Ｇの色成分の合計値に限らず、該当フレームにおける画素のＧの色成分の集合における代表値、例えば平均値、中央値、最頻値などであってもよい。

また、上記の例では、基板Ｗが緑色であるという前提から、緑色度合いを特徴量情報としているが、検知対象の種類に応じて、他の色成分の度合いを特徴量情報としてもよい。また、色成分に限らず、色相情報、明度情報を特徴量情報としてもよい。また、上記の例では、各画素がＲＧＢ色成分によって表されているが、例えばＣＭＹＫなど他の色成分で表されていても、同様に適用できる。

速度ベクトル量情報は、オプティカルフローとも呼ばれ、動画像データ内の各画素の速度ベクトルの大きさを示す特徴量情報である。この例では、半田付け作業が作業者によって行われることが前提となっている。半田付け作業では、動画像内で作業者の手やはんだごてなどの工具が継続的に移動することが予想されるので、速度ベクトル量情報を特徴量情報として用いることによって、半田付け作業が行われているか否かを検知することが可能となる。

例えば動画像が図７（ａ）に示す状態から図７（ｂ）に示す状態に変化した場合、各画素の速度ベクトルは図７（ｃ）に示すような状態となる。この速度ベクトルの大きさを、フレーム全体に含まれる画素全てに関して合計した値を速度ベクトル量情報として算出することが考えられる。なお、速度ベクトル量情報としては、速度ベクトルの大きさの合計値に限らず、該当フレームにおける画素の速度ベクトルの大きさの集合における代表値、例えば平均値、中央値、最頻値などであってもよい。

図８は、上記の工程Ａ、工程Ｂ、および工程Ｃが行われた場合の緑色度合いの時系列変化および速度ベクトル量情報の時系列変化を示している。まず時刻Ｔ１において、基板Ｗが作業場６に設置され、工程Ａが開始されたものとする。この時点では、緑色度合いは急激に上昇し、所定の閾値を超えた値で安定状態となる。また、速度ベクトル量は、ほぼ０であった状態から一時的に上昇し、所定の閾値を超えてすぐにほぼ０の状態に戻る。

次に、時刻Ｔ２において、半田付け作業が開始されることによって工程Ａが終了し、工程Ｂが開始されたものとする。この時点では、緑色度合いはほとんど変化しない。また、速度ベクトル量は、ほぼ０であった状態から上昇して所定の閾値を超え、所定の閾値を超えた状態で変動する。

次に、時刻Ｔ３において、半田付け作業が終了することによって工程Ｂが終了し、工程Ｃが開始されたものとする。この時点では、緑色度合いはほとんど変化しない。また、速度ベクトル量は、所定の閾値を超えた状態から、ほぼ０の状態に減少する。

次に、時刻Ｔ４において、基板Ｗが作業場６から取り除かれることによって工程Ｃが終了したものとする。この時点では、緑色度合いは所定の閾値を超えた状態から所定の閾値を下回った状態に減少する。また、速度ベクトル量は、ほぼ０であった状態から一時的に上昇し、所定の閾値を超えてすぐにほぼ０の状態に戻る。

以上より、緑色度合い情報および速度ベクトル量情報の値の変化と、作業の区切り位置との対応付けを次のように設定することができる。（１）緑色度合いが所定の閾値を超えるとともに、速度ベクトル量が所定の期間でのみ所定の閾値を超えた場合には、工程Ａの開始であると判断する。（２）緑色度合いが所定の閾値を超えた状態でほぼ変化せずに、速度ベクトル量が所定の期間以上継続して所定の閾値を超えた状態となった場合には、工程Ａの終了および工程Ｂの開始であると判断する。（３）緑色度合いが所定の閾値を超えた状態でほぼ変化せずに、速度ベクトル量が所定の閾値を超えた状態からほぼ０の状態に減少した場合には、工程Ｂの終了および工程Ｃの開始であると判断する。（４）緑色度合いが所定の閾値を超えた状態から所定の閾値を下回った状態に減少するとともに、速度ベクトル量が所定の期間でのみ所定の閾値を超えた場合には、工程Ｃの終了であると判断する。

（学習処理）
以上のように、特徴量情報の値の変化と、作業の区切りとを対応付けた判別情報を生成することによって、動画像データに基づいて人手を介することなく作業の区切りを判別することが可能となる。しかしながら、特徴量情報の値の変化と、作業の区切りとの対応付けは、基本的に困難な作業となる。まず、動画像データからは、様々な観点によって多数の種類の特徴量情報を抽出することが可能である。すなわち、これらの多数の種類の特徴量情報から、どの種類の特徴量情報を用いて作業の区切りとの対応付けをすることが好ましいかを判断することは非常に難しいことになる。また、同じ作業であっても、作業の度毎に動画像の状態は異なるものであるので、１回の作業に対する動画像データのみからでは、適切な対応付けを設定することはできない。このように、判別情報を生成するためには、人手による試行錯誤が伴い、多大の時間と労力とが必要となるとともに、最適な判別情報を生成することも困難である。

そこで、本実施形態では、判別情報を教師あり学習によって生成する。この教師あり学習の処理は次のように行われる。まず、教師データ生成処理が教師データ生成部１５によって行われる。この教師データ生成処理で生成される教師データは、前記したように、区切り位置情報および区切り内容情報と特徴量情報とが対応付けられたものとなる。

教師データが生成されると、これに基づいて学習部１６によって学習処理が行われる。この学習処理では、教師データとして、区切り位置情報および区切り内容情報と特徴量情報とが対応付けられたデータが入力され、学習結果として、各区切り内容情報に対応する区切り位置を判別するための、上記特徴量情報の条件を出力する。このような学習を実現する学習システムとしては、ＳＶＭ（サポートベクタマシン）やＮＮ（ニューラルネットワーク）などが挙げられる。この学習結果が判別情報となる。

この判別情報としては、例えば図４に示すような情報でもよいし、ｎ個の種類の特徴量情報をｎ次元の軸とするｎ次元空間に、各区切り内容情報に対応した空間を設定した判別空間としての情報であってもよい。

（教師データ生成処理）
次に、教師データ生成処理の詳細について説明する。図９は、教師データ生成処理の流れを示すフローチャートである。まずステップ１（以降、単にＳ１のように称する）において、教師データ用動画像データが動画像データ入力部１３によって受け付けられ、これが動画像データ記録部１４に記録される。次に、Ｓ２において、特徴量抽出部２１が動画像データ記録部１４から教師データ用動画像データを読み出し、該教師データ用動画像データから、時系列データからなる特徴量情報を複数種類抽出する。

次に、Ｓ３において、正規化処理部２２が、特徴量抽出部２１によって抽出された各特徴量情報に対して正規化処理を行う。ここでの正規化処理は、各特徴量情報に対して予め設定されている正規化演算を各特徴量情報に適用することによって実現される。例えば、特徴量情報の各種類に対応して、特徴量の値に対して乗じる係数を設定したテーブルを予め用意しておき、このテーブルに基づいて各特徴量情報を正規化することが考えられる。この正規化処理により、異なる種類の特徴量情報同士で、値の変化量の大小比較を行うことが可能となる。

次に、Ｓ４において、区切り位置特定部２３の指示に基づき、表示制御部１２が動画像データ記録部１４から教師データ用動画像データを読み出し、表示装置５に動画表示する制御を行う。ユーザは、この動画表示を見ながら、工程の開始または終了であると判断した時点で入力装置を介して指示入力を行う。入力受付部１１は、この指示入力を受け付けると、該指示されたタイミングを、その時点で表示されている動画像データにおける時系列位置と対応させて指示タイミングとして取得する（Ｓ５）。図１０は、２つの特徴量情報としての特徴量Ａおよび特徴量Ｂの時系列データの一例を示している。同図において、実際の区切り位置はＴ１２で示される時系列位置であったものとする。

ここで、ユーザによって指示されたタイミングは、工程の開始または終了の正確な時点である必要はなく、ある程度の誤差が含まれていることを想定している。図１０に示す例では、ユーザによって指示されたタイミングは、実際の区切り位置Ｔ１２からずれたタイミングであるＴ１１で行われたものとしている。このように、本実施形態では、ユーザに対して工程の開始または終了の正確な時点を指示することを要求する必要がないので、ユーザは、例えば動画像をコマ送りさせて正確なタイミングを指定する、というような手間のかかる作業を行う必要はないことになる。

次に、Ｓ６において、区切り位置特定部２３は、入力受付部１１によって取得された指示タイミングを基準とする所定の時系列位置範囲内で区切り位置を特定する。所定の時系列位置範囲は、例えば指示タイミングを中心とする所定の時間範囲というように予め設定されているものとする。この所定の時系列位置範囲は、ユーザの指示タイミングの誤差を許容する程度に設定される。図１０に示す例では、指示タイミングであるＴ１１を中心とするＴ１０からＴ１３までの範囲を所定の時系列位置範囲としている。

指示タイミングに応じて所定の時系列位置範囲が決定されると、区切り位置特定部２３は、この範囲の正規化された特徴量情報を全ての種類に関して特徴量情報記録部２５から読み出す。そして、区切り位置特定部２３は、読み出した複数種類の特徴量情報の中から、最も大きい特徴量変化を有する特徴量情報を選択し、その最も大きい特徴量変化をしている時系列位置を区切り位置として特定する。図１１は、所定の時系列位置範囲としてのＴ１０からＴ１３の範囲について、特徴量Ａおよび特徴量Ｂの時系列データを抽出した状態を示している。同図に示すように、Ｔ１０からＴ１３の範囲において最も大きい特徴量変化が生じているのは、特徴量ＡにおけるＴ１２の時系列位置であることがわかる。よって、区切り位置特定部２３は、Ｔ１２の時系列位置を区切り位置として特定することになる。図１２（ａ）は、指示タイミングであるＴ１１の時点をそのまま区切り位置と設定した場合の、動画像データにおける各フレームを工程の区切りで区切った状態を示しており、図１２（ｂ）は、上記のように、指示タイミング近傍の特徴量変化の大きい時点であるＴ１２の時点を区切り位置と設定した場合の、動画像データにおける各フレームを工程の区切りで区切った状態を示している。

ここで、区切り位置特定部２３が、最も大きい特徴量変化が所定の閾値未満であるか否かを判定し、所定の閾値未満であった場合には、区切り位置を特定することができない旨をユーザに提示するようにしてもよい。これは、例えばユーザが工程の開始または終了であると判断する指示入力を誤ったタイミングで行った場合などが考えられる。図１０に示す例において、例えばＴ１５に示す時系列位置が指示タイミングとなった場合、特徴量Ａおよび特徴量Ｂのどちらにおいても、所定の時系列位置範囲としてのＴ１４からＴ１６までの範囲において大きな特徴量変化は生じていないことになる。この場合、区切り位置特定部２３は、表示制御部１２に対して、「その区切りは検出できません」などのメッセージを表示装置５に表示させる指示を行う。

なお、本実施形態では、教師データ生成部１５に正規化処理部２２を設け、上記のような正規化処理を行うようになっているが、正規化処理部２２を設けずに、正規化処理を行わない構成としてもよい。この場合、区切り位置特定部２３は、各特徴量情報で最も大きい特徴量変化をしている時系列位置を特定することはできるが、種類の異なる特徴量情報間で特徴量変化の大小を比較することはできないことになる。この場合、例えば特徴量情報の種類毎に所定の閾値を設けておき、各特徴量情報で最も大きい特徴量変化がこの所定の閾値を超える場合に、この時系列位置が区切り位置として特定されるようにしてもよい。このように区切り位置が特定される場合、１つの指示タイミングに対して複数の区切り位置が特定されることがありうることになるが、これらを全て教師データとすることになる。

次に、Ｓ７において、入力受付部１１は、特定された区切り位置の内容を示す区切り内容情報をユーザから入力装置４を介して受け付ける。この区切り内容情報は、該当区切り位置によって示される工程の情報および該工程の開始であるか終了であるかを示す情報を含んでいる。入力受付部１１によって受け付けられた区切り内容情報は、区切り位置特定部２３に伝送される。なお、この区切り内容情報の受付処理は、Ｓ５の処理と同じタイミングで行われても構わない。

次に、Ｓ８において、区切り位置特定部２３は、Ｓ６で特定した区切り位置を示す区切り位置情報、該区切り位置に対応するＳ７で受け付けた区切り内容情報、および、該区切り位置の特定に用いた全ての種類の特徴量情報を区切り位置情報として区切り位置情報記録部２６に記録する。ここで記録された区切り位置情報が教師データとして用いられることになる。以上により、教師データ生成処理は終了する。

以上のように、本実施形態では、ユーザから指示された指示タイミングの近傍にある、特徴量変化の大きい時系列位置が区切り位置として設定され、この区切り位置に基づいて教師データが生成されることになる。このようにして作成された教師データによって学習処理が行われることによって、より少ない学習量でより的確な学習結果を導き出すことが可能となるとともに、判別処理における計算負荷も低減することができる。以下にこの理由について説明する。

図１３（ａ）は、特徴量Ａおよび特徴量Ｂに関する時系列データを、横軸を時間経過に相当する動画像データのフレーム番号、縦軸を特徴量の値としたグラフで示した図である。同図において、Ｔ１１は上記の指示タイミングを示しており、Ｔ１２は特徴量変化の大きさに基づいて設定された区切り位置を示している。このデータにおいて、Ｔ１１を工程Ｍと工程Ｎとの区切りであるとした場合に、特徴量Ａを横軸、特徴量Ｂを縦軸としてグラフに変換した状態を図１３（ｂ）に示す。なお、この図は、前記した、ｎ個の種類の特徴量情報をｎ次元の軸とするｎ次元空間に、各区切り内容情報に対応した空間を設定した判別空間としての情報に相当する（ｎ＝２の場合）ことになる。同図において、丸で示す点を工程Ｍに含まれる点、四角で示す点を工程Ｎに含まれる点としている。同図に示すように、工程Ｍと工程Ｎとを区別する境界線は複雑な曲線となる。このような境界線を学習によって導くためには、教師データも多く必要となるとともに、たとえ教師データを多く用意したとしても、各教師データのばらつきによって的確な学習結果を得られないことも考えられる。また、上記の境界線を判別式によって表現する場合、判別式は非常に複雑な式になり、判別処理における計算負荷が高くなることが予想される。すなわち、判別処理を動画表示と同時に行う場合には、計算負荷が高くなることによってリアルタイム処理ができなくなる可能性も生じる。

これに対して、図１３（ｃ）は、Ｔ１２を工程Ｍと工程Ｎとの区切りであるとした場合の、特徴量Ａを横軸、特徴量Ｂを縦軸としてグラフに変換した状態を示している。同図に示すように、工程Ｍと工程Ｎとを区別する境界線は単純な直線となる。このような境界線は、比較的少ない教師データの数で十分に的確な学習結果を得られることが予想される。また判別式も単純になるので、判別処理における計算負荷も低く抑えることができ、リアルタイム処理に適したものとすることができる。

（生産管理装置の第２の構成例）
次に、生産管理装置２の第２の構成例について、図１４に示すブロック図を参照しながら説明する。本構成例は、図１に示す構成例と比較して、教師データ生成部１５とは異なる構成の教師データ生成部１９が設けられている。その他の構成、すなわち、入力受付部１１、表示制御部１２、動画像データ入力部１３、動画像データ記録部１４、学習部１６、判別部１７、および生産状況登録部１８は、図１に示す構成例と同様であるので、ここではその説明を省略する。

教師データ生成部１９は、上記した教師データ生成処理を行うブロックであり、特徴量抽出部６１、区切り候補位置特定部６２、表示範囲設定部６３、区切り位置情報登録処理部（区切り位置特定部）６４、出力部６５、特徴量情報記録部６６、および区切り位置情報記録部６７を備えている。

特徴量抽出部６１は、動画像データ記録部１４から教師データ用動画像データを読み出し、該教師データ用動画像データから、時系列データからなる特徴量情報を複数種類抽出する。特徴量抽出部６１によって抽出された各特徴量情報は、特徴量情報記録部６６に記録される。

区切り候補位置特定部６２は、特徴量抽出部６１によって抽出された各特徴量情報について、該特徴量情報に対応して設定されている閾値を超える特徴量変化が生じている時系列位置を区切り候補位置として特定する処理を行う。

表示範囲設定部６３は、上記区切り候補位置を基準とする所定の時系列位置範囲の上記動画像データを動画として表示装置に表示させる制御を行う。

区切り位置情報登録処理部６４は、ユーザからの指示入力に基づいて区切り位置を特定し、該区切り位置情報、該区切り位置の内容を示す区切り内容情報、および、特徴量情報を区切り位置情報記録部６７に記録する処理を行う。区切り位置の特定は次のように行われる。まず、表示装置５に表示された上記所定の時系列位置範囲の動画像データに、区切り位置として設定すべき時系列位置が含んでいるか否かの指示入力が入力受付部１１によってユーザから受け付けられ、この情報が区切り位置情報登録処理部６４に伝送される。そして、区切り位置として設定すべき時系列位置が含まれている旨の指示入力を受け付けた場合に、該区切り位置によって示される区切り内容情報を指定する入力が入力受付部１１によってユーザから受け付けられ、この情報が区切り位置情報登録処理部６４に伝送される。

区切り位置情報記録部６７は、区切り位置情報および区切り内容情報と、特徴量情報とを対応づけて教師データとして記録する。出力部６５は、区切り位置情報記録部６７から、区切り位置情報および区切り内容情報と特徴量情報とを教師データとして読み出し、これを学習部１６に送信する処理を行う。

（第２の構成例における教師データ生成処理）
次に、第２の構成例における教師データ生成処理の詳細について説明する。図１５は、教師データ生成処理の流れを示すフローチャートである。まずＳ１１において、教師データ用動画像データが動画像データ入力部１３によって受け付けられ、これが動画像データ記録部１４に記録される。次に、Ｓ１２において、特徴量抽出部６１が動画像データ記録部１４から教師データ用動画像データを読み出し、該教師データ用動画像データから、時系列データからなる特徴量情報を複数種類抽出する。ここで抽出された特徴量情報は、特徴量情報記録部６６に記録される。

次に、Ｓ１３において、区切り候補位置特定部６２が、特徴量抽出部６１によって抽出された各特徴量情報について、該特徴量情報に対応して設定されている閾値を超える特徴量変化が生じている時系列位置を区切り候補位置として特定する処理を行う。具体的には、まず区切り候補位置特定部６２が、特徴量情報記録部６６から１以上の種類の特徴量情報を読み出す。そして、区切り候補位置特定部６２は、各特徴量情報に関して、各時系列位置における特徴量の変化量を算出する。各時系列位置における特徴量の変化量は、例えば、各時系列位置を中心とする所定の数のフレーム群において、フレーム同士の特徴量における差分の絶対値の総和を変化量とみなすことによって算出することが可能である。なお、各時系列位置における特徴量の変化量は、この方法に限らず、例えば２乗誤差などを用いて算出してもよい。

図１６（ａ）は、特徴量Ａの時系列変化の一例を示している。同図内に示されている数字は、その数字が示されている時系列位置における特徴量の値を示している。図１６（ｂ）および図１６（ｃ）は、図１６（ａ）に示す時系列変化において、２つの時系列位置をそれぞれ中心とするフレーム群におけるフレーム同士の特徴量の差分の総和を算出した結果を示している。図１６（ｂ）に示される時系列位置では、特徴量の差分の総和が３２０となっている一方、図１６（ｃ）に示される時系列位置では、特徴量の差分の総和が４０となっている。すなわち、このように特徴量の差分の総和を算出することによって、図１６（ａ）で値が大きく変化している箇所を、変化量が大きいものとして検出することができていることがわかる。

以上のような演算により、区切り候補位置特定部６２が各特徴量情報における各時系列位置での特徴量の変化量を算出する。そして、区切り候補位置特定部６２は、算出した変化量の中で、所定の閾値を超える時系列位置の範囲を抽出し、該範囲に基づいて区切り候補位置を設定する。図１７は、図１６（ａ）に示す特徴量情報に基づいて算出された変化量の時系列変化を示している。この例では、２カ所で閾値を超える時系列位置範囲が存在しており、区切り候補位置は、この閾値を超える部分の最大値をとる箇所に設定されている。

次に、Ｓ１４において、表示範囲設定部６３が、上記区切り候補位置を基準とする所定の時系列位置範囲を表示範囲として設定する。所定の時系列位置範囲は、例えば区切り候補位置を中心とする所定の時間範囲というように予め設定されているものとする。この所定の時系列位置範囲は、ユーザがその範囲の動画像を見て、作業の区切りであるか否かを判断できる程度に設定される。図１８に示す例では、Ｔ２２およびＴ２５で示される時系列位置が区切り候補位置であり、Ｔ２１からＴ２３までの範囲がＴ２２に対応する所定の時系列位置範囲、Ｔ２４からＴ２６までの範囲がＴ２５に対応する所定の時系列位置範囲となっている。

次に、Ｓ１５において、表示範囲設定部６３が、Ｓ１４で設定された１以上の所定の時系列位置範囲のうちの１つを表示装置５において動画表示させるように表示制御部１２を介して制御する。そして、Ｓ１６において、区切り位置情報登録処理部６４が、その時点で表示されている所定の時系列位置範囲に区切り位置が存在するか否かに関するユーザからの指示入力を入力受付部を介して受け付ける。

ここで、その時点で表示されている所定の時系列位置範囲に区切り位置が存在しないという指示入力をユーザから受け付けた場合、表示範囲設定部６３は、Ｓ１４で設定された１以上の所定の時系列位置範囲のうちの次の所定の時系列位置範囲を動画表示させるように制御し、再度Ｓ１７の処理を行う。ここで、ある所定の時系列位置範囲から次の所定の時系列位置範囲に動画表示を移行させる際には、その間をスキップさせてもよいし、早送り表示させてもよい。

Ｓ１７において、その時点で表示されている所定の時系列位置範囲に区切り位置が存在するという指示入力をユーザから受け付けた場合、入力受付部１１は、該区切り位置の内容を示す区切り内容情報をユーザから入力装置４を介して受け付ける。この区切り内容情報は、該当区切り位置によって示される工程の情報および該工程の開始であるか終了であるかを示す情報を含んでいる。入力受付部１１によって受け付けられた区切り内容情報は、区切り位置情報登録処理部６４に伝送される。なお、この区切り内容情報の受付処理は、Ｓ１６の処理と同じタイミングで行われても構わない。

次に、Ｓ８において、区切り位置情報登録処理部６４は、Ｓ１６で特定した区切り位置を示す区切り位置情報、該区切り位置に対応するＳ１７で受け付けた区切り内容情報、および、該区切り位置の特定に用いた全ての種類の特徴量情報を区切り位置情報として区切り位置情報記録部６７に記録する。ここで記録された区切り位置情報が教師データとして用いられることになる。以上の処理が、Ｓ１４で設定された１以上の所定の時系列位置範囲の全てに関して行われると、教師データ生成処理は終了する。

（ソフトウェアによる構成）
上記した生産管理装置２が備える、記録部以外の各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、生産管理装置２は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである生産管理装置２の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記生産管理装置２に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、生産管理装置２を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

本発明に係る動画像データ処理装置は、例えば上記の実施の形態で示したように、生産の状況を撮影するカメラを設置し、このカメラによって撮影された動画像に基づいて各工程を判別する生産管理装置に適用できる。また、例えば動画像データのチャプター分けやインデックス情報などの生成に用いることも可能である。

本発明の一実施形態に係る生産管理装置の機能構成の概略を示すブロック図である。本発明の一実施形態に係る生産システムの構成の概略を示すブロック図である。（ａ）は、ある作業場において行われる工程の作業状況の時間変化を模式的に示す図であり、（ｂ）は、特徴量情報として、２つの特徴量の時間変化の一例を示すグラフである。特徴量情報の値の変化と、作業の区切り位置との対応付けの一例を示す図である。半田付け作業における動画像の変遷の一例を示す図である。緑色度合い情報の算出方法の一例を示す図である。（ａ）および（ｂ）は、動画像の変化を示す図であり、（ｃ）は、この場合の速度ベクトルの状態を示す図である。３つの工程が行われた場合の緑色度合いの時系列変化および速度ベクトル量情報の時系列変化を示す図である。教師データ生成処理の流れを示すフローチャートである。２つの特徴量情報の時系列データの一例を示す図である。所定の時系列位置範囲について、２つの特徴量の時系列データを抽出した状態を示す図である。（ａ）は、指示タイミングをそのまま区切り位置と設定した場合の、動画像データにおける各フレームを工程の区切りで区切った状態を示す図であり、（ｂ）は、指示タイミング近傍の特徴量変化の大きい時点を区切り位置と設定した場合の、動画像データにおける各フレームを工程の区切りで区切った状態を示す図である。（ａ）は、２つの特徴量に関する時系列データを、横軸を時間経過に相当する動画像データのフレーム番号、縦軸を特徴量の値としたグラフで示した図であり、（ｂ）は、指示タイミングを工程同士の区切りであるとした場合に、２つの特徴量をそれぞれ横軸、縦軸としてグラフに変換した状態を示す図であり、（ｃ）は、指示タイミング近傍の特徴量変化の大きい時点を工程同士の区切りであるとした場合に、２つの特徴量をそれぞれ横軸、縦軸としてグラフに変換した状態を示す図である。上記生産管理装置の第２の構成例としての機能構成の概略を示すブロック図である。第２の構成例における教師データ生成処理の流れを示すフローチャートである。（ａ）は、特徴量の時系列変化の一例を示す図であり、（ｂ）および（ｃ）は、（ａ）に示す時系列変化において、２つの時系列位置をそれぞれ中心とするフレーム群におけるフレーム同士の特徴量の差分の総和を算出した結果を示す図である。図１６（ａ）に示す特徴量情報に基づいて算出された変化量の時系列変化を示す図である。特徴量の時系列変化と、区切り候補位置および所定の時系列位置範囲との関係を示す図である。

符号の説明

１生産システム
２生産管理装置
３カメラ
４入力装置
５表示装置
６作業場
１１入力受付部
１２表示制御部
１３動画像データ入力部
１４動画像データ記録部
１５教師データ生成部
１６学習部
１７判別部
１８生産状況登録部
１９教師データ生成部
２１特徴量抽出部
２２正規化処理部
２３区切り位置特定部
２４出力部
２５特徴量情報記録部
２６区切り位置情報記録部
３１教師データ入力部
３２学習処理部
３３判別情報記録部
４１特徴量抽出部
４２判別処理部
４３特徴量情報記録部
４４判別結果記録部
５１生産状況登録処理部
５２生産状況記録部
６１特徴量抽出部
６２区切り候補位置特定部
６３表示範囲設定部
６４区切り位置情報登録処理部（区切り位置特定部）
６５出力部
６６特徴量情報記録部
６７区切り位置情報記録部

Claims

動画像データを動画として表示装置に表示させる制御を行う表示制御部と、
上記動画像データが上記表示装置において表示されている状態でユーザから指示入力を受け付け、該指示されたタイミングを、該動画像データにおける時系列位置と対応させて指示タイミングとして取得する入力受付部と、
上記動画像データから、時系列データからなる特徴量情報を少なくとも１種類抽出する特徴量抽出部と、
上記入力受付部によって取得された指示タイミングを基準とする所定の時系列位置範囲において、上記少なくとも１種類の特徴量情報の中から、特徴量変化の大きさに基づいて特定の特徴量情報を選択し、該特徴量情報における特徴量変化が最も大きい時系列位置を区切り位置として上記所定の時系列位置範囲の中から特定する区切り位置特定部と、
を備えることを特徴とする動画像データ処理装置。
上記特徴量抽出部によって複数種類の特徴量情報が抽出されるとともに、抽出された各特徴量情報の値を、所定の基準に基づいて正規化した正規化特徴量情報を生成する正規化処理部をさらに備え、
上記区切り位置特定部が、
上記所定の時系列位置範囲において、複数種類の上記正規化特徴量情報の中から、最も大きい特徴量変化を有する正規化特徴量情報を選択し、該特徴量情報における特徴量変化が最も大きい時系列位置を区切り位置として特定することを特徴とする請求項１記載の動画像データ処理装置。
上記区切り位置特定部によって特定された区切り位置情報、および、該区切り位置の内容を示す区切り内容情報、および、該区切り位置における上記複数種類の特徴量情報を対応づけて出力する出力部をさらに備えることを特徴とする請求項１記載の動画像データ処理装置。
動画像データから、時系列データからなる特徴量情報を少なくとも１種類抽出する特徴量抽出部と、
上記特徴量抽出部によって抽出された各特徴量情報について、該特徴量情報に対応して設定されている閾値を超える特徴量変化が生じている時系列位置を区切り候補位置として特定する区切り候補位置特定部と、
上記区切り候補位置を基準とする所定の時系列位置範囲の上記動画像データを動画として表示装置に表示させる制御を行う表示範囲設定部と、
上記表示装置に表示された上記所定の時系列位置範囲の動画像データに、区切り位置として設定すべき時系列位置が含んでいるか否かの指示入力をユーザから受け付け、これに基づいて区切り位置を特定する区切り位置特定部と、
を備えることを特徴とする動画像データ処理装置。
上記区切り位置特定部が、上記区切り位置として設定すべき時系列位置が含まれている旨の指示入力を受け付けた場合に、該区切り位置によって示される区切り内容情報を指定する入力をユーザから受け付けるとともに、
上記区切り位置情報、上記区切り内容情報、および、該区切り位置に対応する上記区切り候補位置における上記複数種類の特徴量情報を対応づけて出力する出力部をさらに備えることを特徴とする請求項４記載の動画像データ処理装置。
上記出力部から出力される上記区切り位置情報、上記区切り内容情報および上記複数種類の特徴量情報を教師データとして受け付ける教師データ入力部と、
上記教師データ入力部によって受け付けられた複数の教師データに基づいて学習を行うことにより、上記各区切り内容情報に対応する区切り位置を判別するための、上記特徴量情報の条件を示す判別情報を生成する学習処理部と、
をさらに備えることを特徴とする請求項３または５記載の動画像データ処理装置。
上記特徴量抽出部によって抽出された複数種類の特徴量情報に対して、上記判別情報を適用することによって区切り位置およびそれに対応する区切り内容情報を判別し、該判別結果を出力する判別処理部をさらに備えることを特徴とする請求項６記載の動画像データ処理装置。
上記動画像データが、被対象物に対して複数の工程で処理が行われる処理システムにおける、少なくとも１つの工程での作業状況が動画撮影された動画撮影データであり、
上記区切り位置特定部が、少なくとも１つの工程の開始および／または終了の時点を上記区切り位置として特定することを特徴とする請求項１または４記載の動画像データ処理装置。
動画像データを動画として表示装置に表示させる制御を行う表示制御ステップと、
上記動画像データが上記表示装置において表示されている状態でユーザから指示入力を受け付け、該指示されたタイミングを、該動画像データにおける時系列位置と対応させて指示タイミングとして取得する入力受付ステップと、
上記動画像データから、時系列データからなる特徴量情報を少なくとも１種類抽出する特徴量抽出ステップと、
上記入力受付ステップによって取得された指示タイミングを基準とする所定の時系列位置範囲において、上記少なくとも１種類の特徴量情報の中から、特徴量変化の大きさに基づいて特定の特徴量情報を選択し、該特徴量情報における特徴量変化が最も大きい時系列位置を区切り位置として上記所定の時系列位置範囲の中から特定する区切り位置特定ステップと、
を有することを特徴とする動画像データ処理方法。
動画像データから、時系列データからなる特徴量情報を少なくとも１種類抽出する特徴量抽出ステップと、
上記特徴量抽出ステップによって抽出された各特徴量情報について、該特徴量情報に対応して設定されている閾値を超える特徴量変化が生じている時系列位置を区切り候補位置として特定する区切り候補位置特定ステップと、
上記区切り候補位置を基準とする所定の時系列位置範囲の上記動画像データを動画として表示装置に表示させる制御を行う表示範囲設定ステップと、
上記表示装置に表示された上記所定の時系列位置範囲の動画像データに、区切り位置として設定すべき時系列位置が含んでいるか否かの指示入力をユーザから受け付け、これに基づいて区切り位置を特定する区切り位置特定ステップと、
を有することを特徴とする動画像データ処理方法。
請求項１から８のいずれか１項に記載の動画像データ処理装置を動作させる動画像データ処理プログラムであって、コンピュータを上記の各部として機能させるための動画像データ処理プログラム。
請求項１１に記載の動画像データ処理プログラムを記録したコンピュータ読み取り可能な記録媒体。