JP7143620B2

JP7143620B2 - 情報処理装置およびプログラム

Info

Publication number: JP7143620B2
Application number: JP2018081321A
Authority: JP
Inventors: 喜浩北川; 淳新宮; スレシュムラリ
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2022-09-29
Anticipated expiration: 2038-04-20
Also published as: CN110390242B; US11386658B2; JP2019191738A; US20190325226A1; CN110390242A

Description

本発明は、情報処理装置およびプログラムに関する。

従来、動画のシーン（場面）を切り分けたり映っている事物を認識したりする技術がある。下記特許文献１には、動画像データから音声データと音声が記録された動画像データ上の時間情報とを抽出し、音声認識により音声データから動画像上の空間位置を特定する語句とメタデータとなる語句とを分離して抽出し、各語句を文字データに変換すると共に時間情報とを関連付けて記憶する技術が開示されている。また、特許文献２には、コンテンツのシーンを登録し、または、コンテンツの音声や映像を認識して文字データに変換し、文字データを映像フレームを構成するデータ部に挿入するか、または、文字データをタイムコードと共に文字データの専用ファイルに記録することにより、シーンをマーキングするメタデータまたは文字データを、コンテンツと関連するメタデータとして媒体に記録する技術が開示されている。

特開２００５－６５１９１号公報特開２００７－８２０８８号公報

作業工程を記録した動画において、作業内容を説明する場面と作業中の場面とを切り分け、作業ごとに分類したい場合がある。これは、作業工程を記録した動画に限らず、説明場面と、説明場面において説明される被説明場面とを含む種々の動画に関しても同様であり、説明場面と被説明場面とを切り分け、場面の内容ごとに分類したい場合がある。

本発明は、動画における説明の個所と説明された対象が撮影された個所とで異なる特徴要素に基づいて動画の場面を切り分け、説明場面と被説明場面とに分類する情報処理装置およびプログラムを提供することを目的とする。

請求項１に係る本発明は、
動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段と、
を備えることを特徴とする、情報処理装置である。
請求項２に係る本発明は、
前記特徴抽出手段は、前記動画を解析して得られる、撮影された人物の挙動に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項１に記載の情報処理装置である。
請求項３に係る本発明は、
前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の特定の身体部分の動きのパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項２に記載の情報処理装置である。
請求項４に係る本発明は、
前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の発話における音声パターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項２に記載の情報処理装置である。
請求項５に係る本発明は、
前記特徴抽出手段は、前記動画を解析して得られる、画像の構成に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項１に記載の情報処理装置である。
請求項６に係る本発明は、
前記動画として作業および当該作業の説明の動画を用い、
前記特徴抽出手段は、前記画像の構成に関する特徴として、作業者を被写体とする画像と作業個所を被写体とする画像とを区別し得る特徴を抽出し、
前記識別手段は、前記動画の部分が前記作業者を被写体とする画像であるか、前記作業個所を被写体とする画像であるかを識別条件の一つとして、前記説明場面と前記被説明場面である作業場面とを識別することを特徴とする、請求項５に記載の情報処理装置である。
請求項７に係る本発明は、
前記特徴抽出手段は、操作画面における操作の様子を収録した前記動画を解析して得られる、当該操作画面に表示された表示対象の変化に関する特徴を、前記特徴要素として抽出し、
前記識別手段は、特定の前記表示対象の変化のパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項１に記載の情報処理装置である。
請求項８に係る本発明は、
前記区分手段により区分された動画の部分と当該動画の部分に対応する音声から得られるテキストとを表示する出力画面を生成する画面生成手段をさらに備えることを特徴とする、請求項１に記載の情報処理装置である。
請求項９に係る本発明は、
前記画面生成手段により生成される出力画面は、前記動画の部分と当該動画の部分に対応する音声から得られる前記テキストとが関連付けられており、テキストの一部を指示すると、指示されたテキスト部分に対応する動画の部分が再生されることを特徴とする、請求項８に記載の情報処理装置である。
請求項１０に係る本発明は、
前記画面生成手段は、前記動画の部分のうち、前記説明場面の動画を削除することを特徴とする、請求項９に記載の情報処理装置である。
請求項１１に係る本発明は、
前記画面生成手段は、削除した前記説明場面の動画に対応するテキストを、当該説明場面の直後に位置する前記被説明場面の動画に関連付けることを特徴とする、請求項１０に記載の情報処理装置である。
請求項１２に係る本発明は、
前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記説明場面の動画に対応するテキストと、前記被説明場面に対応するテキストとが識別可能に表示されることを特徴とする、請求項８または請求項９に記載の情報処理装置である。
請求項１３に係る本発明は、
前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記区分手段により区分された前記動画の部分が識別可能に表示されることを特徴とする、請求項８または請求項９に記載の情報処理装置である。
請求項１４に係る本発明は、
前記分割手段は、一の発話音声から次の発話音声までの動画を、一つの前記部分動画として分割することを特徴とする、請求項１に記載の情報処理装置である。
請求項１５に係る本発明は、
前記区分手段は、
説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する説明場面の動画として区分し、
被説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する被説明場面の動画として区分することを特徴とする、請求項１４に記載の情報処理装置である。
請求項１６に係る本発明は、
コンピュータを、
動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段として、
機能させることを特徴とする、プログラムである。

請求項１の発明によれば、動画に収録された音声を認識して得られる語句や予め登録されたメタデータを用いて動画の場面を分類する構成と比較して、動画における説明の個所と説明された対象が撮影された個所とで異なる特徴要素に基づいて動画の場面を切り分け、説明場面と被説明場面とを含む区分を識別する情報処理装置およびプログラムを提供することができる。
請求項２の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、撮影された人物の挙動に基づいて説明場面と被説明場面とを識別する指標を得ることができる。
請求項３の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、撮影された人物の動作が異なる被説明場面と説明場面を分けることができ、個々の場面における内容の区切りを特定することができる。
請求項４の発明によれば、人物の発話内容に基づいて動画を分類する構成と比較して、撮影された人物の発話内容を解析することなく被説明場面と説明場面を識別し、個々の場面における内容の区切りを特定することができる。
請求項５の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、画像の構成に基づいて説明場面と被説明場面とを識別する指標を得ることができる。
請求項６の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、画像の構成が異なる作業場面と説明場面を分けることができ、個々の作業の区切りを特定することができる。
請求項７の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、ＰＣ等の操作の動画に関して、説明場面と被説明場面とを識別する指標を得ることができる。
請求項８の発明によれば、単に動画を分類する構成と比較して、動画内の発話内容をテキストで確認することができる。
請求項９の発明によれば、単に動画を分類する構成と比較して、動画内の発話内容から得られたテキストを索引として用いることで、動画の検索に要する手間を削減することができる。
請求項１０の発明によれば、単に動画を分類する構成と比較して、データ量を削減することができる。
請求項１１の発明によれば、説明場面に対応する動画を単に削除する構成と比較して、動画内の説明場面の発話内容から得られたテキストを動画の索引として用いることができる。
請求項１２の発明によれば、単に動画を分類する構成と比較して、動画の場面を識別可能に表示されたテキストを索引として用いることで、説明場面か被説明場面かを認識して動画を検索することができる。
請求項１３の発明によれば、単に動画を分類する構成と比較して、場面ごとの内容の区分を識別可能に表示されたテキストを索引として用いることで、場面ごとの内容の区分を識別して動画を検索することができる。
請求項１４の発明によれば、動画に収録された音声の解析結果に基づいて動画を分割する構成と比較して、動画の分割に要する処理の負荷を軽減することができる。
請求項１５の発明によれば、動画を解析して説明場面および被説明場面の動画の区分を特定する構成と比較して、動画の区分に要する処理の負荷を軽減することができる。
請求項１６の発明によれば、動画に収録された音声を認識して得られる語句や予め登録されたメタデータを用いて動画の場面を分類する構成と比較して、本発明のプログラムを実行するコンピュータにおいて、動画における説明の個所と説明された対象が撮影された個所とで異なる特徴要素に基づいて動画の場面を切り分け、説明場面と被説明場面とを含む区分を識別する情報処理装置およびプログラムを提供することができる。

本実施形態による情報処理装置の機能構成を示す図である。作業動画の構成例を示す図である。動画分割部による動画の分割の例を示す図である。特徴要素としての手の動きのパターンを示す図であり、図４（Ａ）は、説明場面における手の動きのパターンを示す図、図４（Ｂ）は、作業場面における手の動きのパターンを示す図である。特徴要素としての被写体の相違を示す図であり、図５（Ａ）は、説明場面の被写体を示す図、図５（Ｂ）は、作業場面の被写体を示す図である。特徴要素としてのマウスポインタの動きのパターンを示す図であり、図６（Ａ）は、説明場面におけるマウスポインタの動きのパターンを示す図、図６（Ｂ）は、作業場面におけるマウスポインタの動きのパターンを示す図である。手の動きのパターンを特徴要素として場面識別を行った例を示す図である。頭の向きの変化を特徴要素として場面識別を行った例を示す図である。発話速度を特徴要素として場面識別を行った例を示す図である。操作画面の変化を特徴要素として場面識別を行った例を示す図である。作業手順ファイルに基づく出力画面の構成例を示す図である。図１２は、作業手順ファイルの出力画面においてテキストを選択して部分動画を再生させる様子を示す図であり、図１２（Ａ）はテキストの選択前の状態を示す図、図１２（Ｂ）はテキストの選択が行われた状態を示す図である。作業手順ファイルの出力画面において説明場面のテキストを選択して部分動画を再生させる様子を示す図であり、図１３（Ａ）は説明場面のテキストの選択前の状態を示す図、図１３（Ｂ）は説明場面のテキストの選択が行われた状態を示す図である。情報処理装置として用いられるコンピュータのハードウェア構成例を示す図である。

以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
＜情報処理装置の機能構成＞
図１は、本実施形態による情報処理装置の機能構成を示す図である。情報処理装置１００は、動画取得部１０と、記憶部２０と、動画分割部３０と、特徴抽出部４０と、場面識別部５０と、区分処理部６０と、音声認識部７０と、ファイル作成部８０とを備える。情報処理装置１００は、例えば、パーソナルコンピュータ（ＰＣ）により実現される。

動画取得部１０は、処理対象の動画を取得する。動画の取得は、ビデオカメラと情報処理装置１００とを接続し、ビデオカメラのメモリに記憶されている動画を読み込んでも良いし、外部の記憶装置に保持されている動画ファイルをネットワーク（図示せず）を介して取得しても良い。

本実施形態における処理対象の動画は、撮影された場面が、特定場面と、特定場面についての説明が行われる説明場面とを含む動画である。特定場面は、いわば被説明場面（説明対象を撮影した場面）である。特定場面としては、被写体としての人物が、何らかの行動を行っている場面が挙げられる。行動の例としては、作業や操作、スポーツの実技、楽器の演奏等が挙げられる。また、特定場面としては、特定の現象（自然現象、人為的な現象を問わない）や事象が発生した（または起きている）様子を表す場面が挙げられる。本実施形態では、一例として、処理対象の動画として作業動画を取得する。作業動画とは、作業の様子を録画した動画である。作業の種類は特に限定しない。作業動画は、通常、説明場面と作業場面とを含んでいる。説明場面とは、作業内容を説明している場面である。作業場面とは、実際に作業を行っている様子を撮影した場面である。なお、本実施形態の適用対象は、作業動画に限定されず、上述した特定場面と説明場面とを含む種々の動画に対して適用し得る。

図２は、作業動画の構成例を示す図である。図２に示す作業動画は、説明場面ＳＤと作業場面ＳＷとが交互に現れている。まず、説明場面ＳＤ１があり、その後に、説明場面ＳＤ１で説明された作業が実際に行われる作業場面ＳＷ１がある。続いて、説明場面ＳＤ２があり、その後に、説明場面ＳＤ２で説明された作業が実際に行われる作業場面ＳＷ２がある。このように、作業動画の多くは、説明場面と説明された作業の作業場面とが組となって順番に現れるように構成される。

記憶部２０は、動画取得部１０により取得された作業動画を記憶して保持する。記憶部２０は、例えば、ＲＡＭ（Random Access Memory）、ＳＳＤ（Solid State Drive）等のデータの書き込みが可能な半導体メモリや、磁気ディスク装置等で実現される。

動画分割部３０は、動画取得部１０により取得され記憶部２０に保持された作業動画を、複数の部分動画に分割する。動画分割部３０は、例えば、作業動画に録音された音声に基づいて作業動画の分割を行う。具体的には、動画分割部３０は、作業動画の音声データを解析し、発話音声が録音されている個所（時刻）を特定する。そして、動画分割部３０は、一の発話音声から次の発話音声までの動画を、一つの部分動画として分割する。生成された各部分動画は、記憶部２０に保持される。

特徴抽出部４０は、動画分割部３０により作業動画を分割して得られた各部分動画を解析し、各々の部分動画から特徴要素を抽出する。特徴抽出部４０は、特徴抽出手段の一例である。特徴要素とは、作業動画における説明場面と作業場面とをそれぞれ特徴づける要素である。特徴要素としては、例えば、撮影された作業者の挙動に関する特徴、撮影画面の構成に関する特徴等を用い得る。また、作業動画が操作画面における操作の様子を収録した動画である場合は、操作画面に表示された表示対象の変化に関する特徴を用い得る。特徴要素の詳細については後述する。抽出された特徴要素の情報は、その特徴要素が抽出された部分動画に関連付けられて、記憶部２０に保持される。

場面識別部５０は、特徴抽出部４０により抽出された特徴要素に基づき、動画分割部３０により分割された各部分動画の場面を識別し、説明場面の動画と作業場面の動画とに仕分ける。場面識別部５０は、識別手段の一例である。特徴要素に基づく場面の識別の詳細については後述する。識別結果の情報は、識別対象の部分動画に関連付けられて、記憶部２０に保持される。

区分処理部６０は、場面識別部５０による場面の識別結果に基づき、部分動画を作業ごとに区分する。区分処理部６０は、区分手段の一例である。図２を参照して説明したように、作業動画の多くは、これから行う作業を説明する説明場面があり、そのあとに説明場面で説明した作業を実際に行う作業場面があるという構成を有する。そこで、区分処理部６０は、説明場面とその説明場面に後続する作業場面とを、同じ作業に関する説明と作業であるものとして区分する。ここで、複数の説明場面の部分動画が継続する場合、および、複数の作業場面の部分動画が継続する場合は、区分処理部６０は、それぞれ、ひとつの作業についての説明場面、作業場面が継続しているものと判断する。これは、動画分割部３０が動画の発話音声に基づき動画を分割して部分動画を生成したことに起因する。例えば、作業場面の音声は、作業の合間に発せられることが多い。すると、動画分割部３０は、一続きの作業の場面であっても、音声が発せられるたびに、部分動画として切り分けてしまう。そのため、作業場面の部分動画が連続する場合は、全体で一つの作業の場面として扱う。説明場面の部分動画についても同様である。区分処理部６０による区分処理が行われた結果、各部分動画は、得られた区分ごとに関連付けられて、記憶部２０に保持される。

音声認識部７０は、各部分動画における音声データを音声認識し、テキストデータに変換する。生成されたテキストデータは、元となった音声データが含まれる部分動画に関連付けられて、記憶部２０に保持される。なお、音声認識部７０による音声認識は、既存の音声認識技術を用いて行って良い。

ファイル作成部８０は、作業ごとに区分された部分動画と、音声認識部７０により生成されたテキストデータを用いて、作業手順ファイルを作成する。作業手順ファイルとは、作業手順を説明するためのコンテンツ・ファイルである。作業手順ファイルは、作業動画を作業ごとに区分し、部分動画と部分動画の音声から得られたテキストとを対応付けたコンテンツである。作成された作業ファイルは、記憶部２０に保持される。作業手順ファイルを実行可能なアプリケーション・プログラムにより作業手順ファイルを読み込んで実行すると、作業ごとに区分された作業動画（部分動画）とテキストが対応付けられた出力画面が生成され、表示装置（図示せず）に表示される。ファイル作成部８０は、画面生成手段の一例である。

作業手順ファイルにおいて、部分動画と部分動画に対応するテキストとはリンクされている。したがって、出力画面においてテキストを選択すると、選択されたテキストに対応する部分動画が表示される。作業手順ファイルの出力画面の構成および機能の詳細については後述する。

＜動画の分割の例＞
次に、具体例を挙げて、動画分割部３０による動画の分割についてさらに説明する。上述したように、動画分割部３０は、例えば、作業動画に録音された発話音声に基づいて作業動画の分割を行う。したがって、動画に録音されている音響データのうち発話音声を識別する解析処理が行われる。ただし、ここでは機械の動作音や器具を使う際に発生する音等の環境音と発話音声とを区別できれば良く、音声認識までは必要ない。ただし、動画分割部３０の処理により発話音声が抽出されるので、音声認識部７０による音声認識をこの時点で行っても良い。

図３は、動画分割部３０による動画の分割の例を示す図である。処理対象の作業動画には、発話音声Ａから発話音声Ｇまでの７つの発話音声が収録されているものとする。各発話音声Ａ～Ｇの間は、予め定められた一定以上の時間間隔があり、これによって各発話音声Ａ～Ｇが別個の発話であると判断されている。動画分割部３０は、発話音声Ａの開始時刻から発話音声Ｂの開始時刻までの部分を、この発話音声Ａに対応する場面１の部分動画とする。同様に、動画分割部３０は、発話音声Ｂの開始時刻から発話音声Ｃの開始時刻までの部分を、この発話音声Ｂに対応する場面２の部分動画とする。同様に、動画分割部３０は、発話音声Ｃの開始時刻から発話音声Ｄの開始時刻までの部分を、この発話音声Ｃに対応する場面３の部分動画とする。同様に、動画分割部３０は、発話音声Ｄの開始時刻から発話音声Ｅの開始時刻までの部分を、この発話音声Ｄに対応する場面４の部分動画とする。同様に、動画分割部３０は、発話音声Ｅの開始時刻から発話音声Ｆの開始時刻までの部分を、この発話音声Ｅに対応する場面５の部分動画とする。同様に、動画分割部３０は、発話音声Ｆの開始時刻から発話音声Ｇの開始時刻までの部分を、この発話音声Ｆに対応する場面６の部分動画とする。同様に、動画分割部３０は、発話音声Ｇの開始時刻以降の部分を、この発話音声Ｇに対応する場面７の部分動画とする。以上のようにして、作業動画は、発話音声Ａ～Ｇに各々対応する７つの部分動画に分割される。

＜特徴要素の例＞
次に、具体例を挙げて、特徴抽出部４０により部分動画から抽出される特徴要素についてさらに説明する。特徴要素の一例として、画面に映っている作業者の挙動に関する特徴がある。具体的には、手の動き、頭や視線の動きといった、作業者における特定の身体の部分の動きのパターンを特徴要素として抽出する。例えば、手の動きを特徴要素として抽出する場合を考える。

図４は、特徴要素としての手の動きのパターンを示す図である。図４（Ａ）は、説明場面における手の動きのパターンを示す図、図４（Ｂ）は、作業場面における手の動きのパターンを示す図である。図４では、それぞれの場面において、一定の時間間隔ごとに部分動画の画面１１０における作業者の手の位置を描画している。作業者が作業の説明をする場合、身振り手振りを交えて作業内容の説明を行うことが考えられる。したがって、図４（Ａ）に示すように、広い領域にわたって手が移動する。一方、作業者が作業を行っている場合、作業者の手は、作業が行われている位置から大きく外れて動くことは少ないと考えられる。したがって、図４（Ｂ）に示すように、特定の狭い領域１１１内に手の位置は収まっている。そこで、場面の識別要件として、部分動画における手の移動範囲に対して一定の閾値を設定し、閾値よりも広い範囲で手が移動する場合は説明場面と判断し、閾値よりも狭い範囲で手が移動する場合は作業場面と判断する。

特徴要素として作業者の挙動に関する特徴を用いる場合、作業者の発話における音声パターンを特徴要素として用いても良い。作業者が作業の説明をしているときの発話パターンと作業を行っているときの発話パターンとを比較すると、後者では作業をしながらの発話であるため、前者の場合よりも発話速度が遅いと考えられる。そこで、場面の識別要件として、発話速度に対して一定の閾値を設定し、閾値よりも早い発話速度の場合は説明場面と判断し、閾値よりも遅い発話速度の場合は作業場面と判断する。

特徴要素の他の一例として、撮影された画面の構成に関する特徴がある。具体的には、主な被写体として撮影されている対象の相違を特徴要素として抽出する。例えば、被写体が人物像であるか否かを特徴要素として抽出する場合を考える。

図５は、特徴要素としての被写体の相違を示す図である。図５（Ａ）は、説明場面の被写体を示す図、図５（Ｂ）は、作業場面の被写体を示す図である。図５では、それぞれの場面における部分動画の画面１１０が示されている。作業者が作業の説明をする場合、被写体は説明を行っている作業者自身であることが考えられる。したがって、図５（Ａ）に示すように、人物像が主な被写体となる。一方、作業者が作業を行っている場合、被写体は作業が行われている個所（例えば、手作業であれば手もと）であることが考えられる。したがって、図５（Ｂ）に示すように、人物像ではなく作業個所が主な被写体となる。そこで、場面の識別要件として、主な被写体が人物像か否かという条件を設定し、主な被写体が人物像である場合は説明場面と判断し、主な被写体が人物像でない場合は作業場面と判断する。

特徴要素の他の一例として、作業動画が操作画面における操作の様子を収録した動画である場合に用いることができる、操作画面に表示された表示対象の変化に関する特徴がある。具体的には、マウスポインタの動き、表示されている画像の形状や色彩の変化のパターンを特徴要素として抽出する。例えば、マウスポインタの動きを特徴要素として抽出する場合を考える。

図６は、特徴要素としてのマウスポインタの動きのパターンを示す図である。図６（Ａ）は、説明場面におけるマウスポインタの動きのパターンを示す図、図６（Ｂ）は、作業場面におけるマウスポインタの動きのパターンを示す図である。図６では、それぞれの場面において、マウスポインタが画面内をどのように移動したかを示している。作業者がこれから行う作業としての操作画面の操作の説明をする場合、表示されている画面の説明が主な内容となるため、マウスポインタは、説明中に注目してほしい場所に移動する程度であると考えられる。したがって、図６（Ａ）に示すように、マウスポインタの動きは、比較的単調で静かな動きとなる。一方、作業者が作業を行っている場合、作業に伴ってマウスポインタが操作されると考えられる。したがって、図６（Ｂ）に示すように、マウスポインタの動きは、説明場面の場合と比較して、複雑で激しいものとなる。ここで、マウスポインタの動きの複雑さ、激しさは、マウスポインタの移動方向が変化する回数や、マウスポインタの移動距離で特定し得る。そこで、場面の識別要件として、部分動画におけるマウスポインタの移動方向の変化の回数および移動距離に対して一定の閾値を設定し、閾値よりも小さい値である場合は説明場面と判断し、閾値よりも大きい値である場合は作業場面と判断する。

＜場面識別の例＞
次に、具体例を挙げて場面識別部５０による場面識別についてさらに説明する。場面識別部５０は、各部分画像から抽出された特徴要素に基づき、各部分動画に関して、説明場面の動画か作業場面の動画かの識別を行う。ここでは、図３を参照して説明した場面１～場面７の各部分動画の場面を識別するものとする。

図７は、手の動きのパターンを特徴要素として場面識別を行った例を示す図である。図７を参照すると、場面１および場面５では、手の動きのあった領域の広さが閾値Ｔ１よりも広かった。そこで、場面識別部５０は、場面１および場面５の部分動画を説明場面と判断した。一方、場面２～場面４、場面６および場面７では、手の動きのあった領域の広さが閾値Ｔ１よりも狭かった。そこで、場面識別部５０は、場面２～場面４、場面６および場面７の部分動画を作業場面と判断した。

図８は、頭の向きの変化を特徴要素として場面識別を行った例を示す図である。頭の向きの変化を特徴要素とする場合、頭の向きが様々な方向へ変わる場合は説明場面と判断し、頭の向きが比較的決まった方向に向いている場合は作業画面と判断するものとする。図８を参照すると、場面１および場面５では、頭の向きの分散が閾値Ｔ２よりも大きかった（様々な方向を向いていた）。そこで、場面識別部５０は、場面１および場面５の部分動画を説明場面と判断した。一方、場面２～場面４、場面６および場面７では、頭の向きの分散さが閾値Ｔ２よりも小さかった（特定の方向を向いていた）。そこで、場面識別部５０は、場面２～場面４、場面６および場面７の部分動画を作業場面と判断した。

図９は、発話速度を特徴要素として場面識別を行った例を示す図である。図９を参照すると、場面１および場面５では、発話速度が閾値Ｔ３よりも速かった。そこで、場面識別部５０は、場面１および場面５の部分動画を説明場面と判断した。一方、場面２～場面４、場面６および場面７では、発話速度が閾値Ｔ３よりも遅かった。そこで、場面識別部５０は、場面２～場面４、場面６および場面７の部分動画を作業場面と判断した。

図１０は、操作画面の変化を特徴要素として場面識別を行った例を示す図である。ここでは、操作画面の変化としてマウスポインタの移動量に着目している。図１０を参照すると、場面１および場面５では、マウスポインタの移動量が閾値Ｔ４よりも少なかった。そこで、場面識別部５０は、場面１および場面５の部分動画を説明場面と判断した。一方、場面２～場面４、場面６および場面７では、マウスポインタの移動量が閾値Ｔ４よりも多かった。そこで、場面識別部５０は、場面２～場面４、場面６および場面７の部分動画を作業場面と判断した。

以上、いくつかの特徴要素に基づいて部分動画の場面を識別する例を示した。上記の各例では、いずれも場面１および場面５の部分動画が説明場面と判断され、場面２～場面４、場面６および場面７の部分動画が作業場面と判断された。しかしながら、異なる特徴要素で判断した場合に異なる判断結果が得られる場合もあり得る。そのような場合は、より多くの特徴要素による判断で示された識別結果を採用しても良い。また、特徴要素ごとに異なる重みを付与して識別を行っても良い。複数の特徴要素に基づいて場面識別を行うことにより、識別精度が向上する。

＜作業手順ファイルの出力画面の例＞
次に、具体例を挙げて、ファイル作成部８０により作成される作業手順ファイルの出力画面についてさらに説明する。上述したように作業手順ファイルがアプリケーション・プログラムにより読み込まれて実行されると、作業手順ファイルの内容にしたがって出力画面が生成され、表示装置に表示される。

図１１は、作業手順ファイルに基づく出力画面の構成例を示す図である。出力画面１２０は、動画を表示する動画表示領域１２１および縮小画像表示領域１２２と、テキストを表示するテキスト表示領域１２３とを有する。動画表示領域１２１に表示される動画は、作業動画から得られた部分動画である。縮小画像表示領域１２２に表示される画像は、部分動画の縮小画像である。図１１に示す例では、縮小画像表示領域１２２には３つの画像１２２ａ、１２２ｂ、１２２ｃが表示されている。画像１２２ｂは、動画表示領域１２１に表示されている部分動画を示す画像である。画像１２２ａは、動画表示領域１２１に表示されている部分動画の一つ前の部分動画を示す画像である。画像１２２ｃは、動画表示領域１２１に表示されている部分動画の一つ後の部分動画を示す画像である。テキスト表示領域１２３に表示されるテキストは、音声認識部７０により生成された、部分動画の音声から取得されたテキストである。

図１１に示す例において、作業手順ファイルにおける部分動画およびテキストは、図３を参照して説明した場面１～場面７に関し、図７～図８を参照して説明した識別結果に基づいて各部分動画の場面が特定されているものとする。また、作業手順ファイルにおける部分動画およびテキストは、区分処理部６０の処理により作業ごとに区分されている。すなわち、説明場面である場面１と、これに後続する作業場面である場面２～場面４とが、一つの作業として区分されている。また、説明場面である場面５と、これに後続する作業場面である場面６および場面７とが、一つの作業として区分されている。したがって、テキスト表示領域１２３に表示されたテキストには、付番により作業ごとの区分が示されている。すなわち、場面１に対応するテキストＡには「１」と付番されており、場面２に対応するテキストＢに「１．１」、場面３に対応するテキストＣに「１．２」、場面４に対応するテキストＤに「１．３」とそれぞれ付番されている。ここで、テキストＡの番号には枝番がなく、テキストＢ～テキストＤの番号は、各々、テキストＡの番号に枝番を付した番号となっている。これにより、テキストＡ～テキストＤおよびこれらに対応する場面１～場面４が、一つの作業に対応するものとして区分されていることがわかる。テキストＡの枝番のない番号を区分番号と呼ぶことにする。すなわち、テキストＡ～テキストＤおよびこれらに対応する場面１～場面４は、区分番号「１」に区分される作業に関するコンテンツである。

同様に、場面５に対応するテキストＥには「２」と付番されており、場面６に対応するテキストＦに「２．１」、場面７に対応するテキストＧに「２．２」とそれぞれ付番されている。テキストＥの番号は区分番号「２」であり、テキストＦおよびテキストＧの番号は区分番号「２」に各々枝番を付した番号である。したがって、テキストＥ～テキストＧおよびこれらに対応する場面５～場面７は、一つの作業に対応するものとして区分されており、区分番号「２」に区分される作業に関するコンテンツである。このように、作業手順ファイルの出力画面１２０では、作業区分ごとに識別可能な表示が行われる。

作業手順ファイルにおいて、各テキストは、そのテキストが取得された部分動画に対応付けられており、出力画面１２０において、テキストとこのテキストに対応する部分動画との間にはリンクが張られている。これにより、出力画面１２０のテキスト表示領域１２３に表示されたテキストは、部分動画のインデックスとしての機能を有する。操作者は、テキストを選択することにより、出力画面１２０において選択したテキストに対応する部分動画を再生させることができる。

図１２は、作業手順ファイルの出力画面においてテキストを選択（指定）して部分動画を再生させる様子を示す図である。図１２（Ａ）はテキストの選択（指定）前の状態を示す図、図１２（Ｂ）はテキストの選択（指定）が行われた状態を示す図である。図１２（Ａ）に示すように、テキストの選択前において、出力画面１２０の動画表示領域１２１には、場面３の部分動画が表示されている。テキスト表示領域１２３では、場面３の部分動画に対応する番号「１．２」のテキストＣに、対応する部分動画が表示されていることを示す表示（図示の例ではテキストを囲む枠線１２４）が行われ、表示中の部分動画に対応するテキストであることが識別可能となっている。また、縮小画像表示領域１２２においても、動画表示領域１２１に表示された部分動画に対応する画像１２２ｂが太枠で囲まれている。この状態から、番号「２．２」のテキストＧが選択されたものとする（図１２（Ｂ）参照）。テキストの選択は、例えば、テキスト表示領域１２３において指定しようとするテキストに対してマウスクリック等の予め定められた操作をすることで行われる。図１２（Ｂ）を参照すると、テキスト表示領域１２３において、選択された番号「２．２」のテキストＧにテキストを囲む枠線１２４が表示されており、動画表示領域１２１には、場面７の部分動画が表示されている。すなわち、テキストＧを選択することにより、テキストＧに対応する場面７の動画へジャンプし再生された。なお、図１２（Ｂ）において、動画表示領域１２１に表示された部分画像は、この作業手順ファイルの最後の部分動画であり、この後に他の部分動画が存在しないため、縮小画像表示領域１２２には、後続の部分動画を示す画像１２２ｃが表示されていない。

ここで、説明場面のテキストおよび部分動画についてさらに説明する。作業手順ファイルでは、動画は作業の様子を視覚的に示すのに用いられる。したがって、説明場面の部分動画は、作業手順ファイルにおいては必ずしも必要ではない。そこで、説明場面に関しては、テキストに対応する部分動画を作業手順ファイルに含まないようにしても良い。この場合、作業手順ファイルにおいて説明場面のテキストは、その説明場面が含まれる作業区分（場面ごとの内容の区分）全体に対応させる。一例として、上記のように、作業手順ファイルの出力画面１２０においてテキストと部分動画とをリンクさせる場合、説明場面のテキストは、その説明場面が含まれる作業区分の先頭の動画とリンクさせる。

図１３は、作業手順ファイルの出力画面において説明場面のテキストを選択（指定）して部分動画を再生させる様子を示す図である。図１３（Ａ）は説明場面のテキストの選択（指定）前の状態を示す図、図１３（Ｂ）は説明場面のテキストの選択（指定）が行われた状態を示す図である。テキストの選択前の状態は、図１２（Ｂ）に示した例と同様である。すなわち、出力画面１２０の動画表示領域１２１に場面３の部分動画が表示され、テキスト表示領域１２３において、場面３の部分動画に対応する番号「１．２」のテキストＣに、対応する部分動画が表示されていることを示す表示（枠線１２４）が行われている。この状態から番号「２」のテキストＥが選択されたものとする。図１３（Ｂ）を参照すると、テキスト表示領域１２３において、選択された番号「２」のテキストＥにテキストを囲む枠線１２４が表示されている。そして、動画表示領域１２１には、テキストＥ～テキストＧの作業区分における先頭の部分動画が表示されている。ここでは、テキストＥに対応する場面５の部分動画が説明場面であるために削除されているので、この作業区分の先頭である場面６の部分動画が動画表示領域１２１に表示されている。すなわち、説明場面のテキストＥを選択することにより、テキストＥを含む作業区分の一連の部分動画のうちの先頭である場面６の動画へジャンプし再生された。

＜ハードウェア構成例＞
図１４は、情報処理装置１００として用いられるコンピュータのハードウェア構成例を示す図である。図１４に示すコンピュータ２００は、演算手段であるＣＰＵ（Central Processing Unit）２０１と、記憶手段である主記憶装置（メイン・メモリ）２０２および外部記憶装置２０３を備える。ＣＰＵ２０１は、外部記憶装置２０３に格納されたプログラムを主記憶装置２０２に読み込んで実行する。主記憶装置２０２としては、例えばＲＡＭ（Random Access Memory）が用いられる。外部記憶装置２０３としては、例えば磁気ディスク装置やＳＳＤ（Solid State Drive）等が用いられる。また、コンピュータ２００は、表示装置（ディスプレイ）２１０に表示出力を行うための表示機構２０４と、コンピュータ２００のユーザによる入力操作が行われる入力デバイス２０５とを備える。入力デバイス２０５としては、例えばキーボードやマウス等が用いられる。また、コンピュータ２００は、ネットワークに接続するためのネットワーク・インターフェイス２０６を備える。なお、図１４に示すコンピュータ２００の構成は一例に過ぎず、本実施形態で用いられるコンピュータは図１４の構成例に限定されるものではない。例えば、記憶装置としてフラッシュ・メモリ等の不揮発性メモリやＲＯＭ（Read Only Memory）を備える構成としても良い。

図１に示した情報処理装置１００が図１４に示すコンピュータ２００により実現される場合、動画取得部１０は、例えば、ネットワーク・インターフェイス２０６により実現される。記憶部２０は、例えば、主記憶装置２０２や外部記憶装置２０３により実現される。動画分割部３０、特徴抽出部４０、場面識別部５０、区分処理部６０、音声認識部７０およびファイル作成部８０は、例えば、ＣＰＵ２０１がプログラムを実行することにより実現される。

以上、本発明の実施形態について説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の技術思想の範囲から逸脱しない様々な変更や構成の代替は、本発明に含まれる。例えば、ファイル作成部８０は、作業手順ファイルにおいて、説明場面に対応するテキストを加工し、作業区分のタイトルとしても良い。説明場面では、「まず、○○の作業を行います」や、「次に、○○します」のような、これから行う作業を示す定型的な台詞が発せられることが多い。そこで、テキストに対し、「まず」、「最初に」、「次に」等の作業区分の順番を表す語や末尾の述語を削除するような成形を行う。これにより、説明場面に対応するテキストを、作業区分のタイトルとして出力画面１２０に表示し得る。

また、特徴抽出部４０により抽出される特徴は、上述した例に限定されない。例えば、上記の例では、特徴要素として作業者の挙動に関する特徴を用いる場合として、作業者の発話における発話速度を特徴として抽出する例を挙げた。この他、発話における音声の大きさ等を特徴として抽出しても良い。また、音声認識まで行い、「ここ」、「これ」のような指示語の出現頻度を特徴として抽出しても良い。この場合、例えば、部分動画において指示語の出現頻度が閾値よりも大きい場合に、その部分動画の場面を作業場面と判断し得る。

また、本実施形態は、作業動画以外に、説明場面と被説明場面とを含む種々の動画に対して適用し得る。説明場面による説明対象が作業以外の対象である動画の場合、具体的な説明対象（スポーツの実技、楽器の演奏、現象、事象など）に応じて、説明場面と被説明場面とを特徴付ける特徴要素を選択的にあるいは付加的に用いて場面の識別を行っても良い。

１０…動画取得部、２０…記憶部、３０…動画分割部、４０…特徴抽出部、５０…場面識別部、６０…区分処理部、７０…音声認識部、８０…ファイル作成部、１２０…出力画面、１２１…動画表示領域、１２２…縮小画像表示領域、１２３…テキスト表示領域

Claims

動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段と、
を備えることを特徴とする、情報処理装置。
前記特徴抽出手段は、前記動画を解析して得られる、撮影された人物の挙動に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項１に記載の情報処理装置。
前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の特定の身体部分の動きのパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項２に記載の情報処理装置。
前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の発話における音声パターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項２に記載の情報処理装置。
前記特徴抽出手段は、前記動画を解析して得られる、画像の構成に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項１に記載の情報処理装置。
前記動画として作業および当該作業の説明の動画を用い、
前記特徴抽出手段は、前記画像の構成に関する特徴として、作業者を被写体とする画像と作業個所を被写体とする画像とを区別し得る特徴を抽出し、
前記識別手段は、前記動画の部分が前記作業者を被写体とする画像であるか、前記作業個所を被写体とする画像であるかを識別条件の一つとして、前記説明場面と前記被説明場面である作業場面とを識別することを特徴とする、請求項５に記載の情報処理装置。
前記特徴抽出手段は、操作画面における操作の様子を収録した前記動画を解析して得られる、当該操作画面に表示された表示対象の変化に関する特徴を、前記特徴要素として抽出し、
前記識別手段は、特定の前記表示対象の変化のパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項１に記載の情報処理装置。
前記区分手段により区分された動画の部分と当該動画の部分に対応する音声から得られるテキストとを表示する出力画面を生成する画面生成手段をさらに備えることを特徴とする、請求項１に記載の情報処理装置。
前記画面生成手段により生成される出力画面は、前記動画の部分と当該動画の部分に対応する音声から得られる前記テキストとが関連付けられており、テキストの一部を指示すると、指示されたテキスト部分に対応する動画の部分が再生されることを特徴とする、請求項８に記載の情報処理装置。
前記画面生成手段は、前記動画の部分のうち、前記説明場面の動画を削除することを特徴とする、請求項９に記載の情報処理装置。
前記画面生成手段は、削除した前記説明場面の動画に対応するテキストを、当該説明場面の直後に位置する前記被説明場面の動画に関連付けることを特徴とする、請求項１０に記載の情報処理装置。
前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記説明場面の動画に対応するテキストと、前記被説明場面に対応するテキストとが識別可能に表示されることを特徴とする、請求項８または請求項９に記載の情報処理装置。
前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記区分手段により区分された前記動画の部分が識別可能に表示されることを特徴とする、請求項８または請求項９に記載の情報処理装置。
前記分割手段は、一の発話音声から次の発話音声までの動画を、一つの前記部分動画として分割することを特徴とする、請求項１に記載の情報処理装置。
前記区分手段は、
説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する説明場面の動画として区分し、
被説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する被説明場面の動画として区分することを特徴とする、請求項１４に記載の情報処理装置。
コンピュータを、
動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段として、
機能させることを特徴とする、プログラム。