JP7130290B2

JP7130290B2 - 情報抽出装置

Info

Publication number: JP7130290B2
Application number: JP2022013826A
Authority: JP
Inventors: 渉三神谷
Original assignee: Imbesideyou Inc
Current assignee: Imbesideyou Inc
Priority date: 2020-10-27
Filing date: 2022-02-01
Publication date: 2022-09-05
Anticipated expiration: 2040-10-27
Also published as: JP2022075661A

Description

本開示は、情報抽出装置に関する。

近年、各種コンテンツの配信を受ける配信サービスが普及しつつある。

特許文献１には、ユーザが配信を希望する音楽コンテンツの曲名等がわからないときでも、捜索対象である楽曲の鼻歌を入力することで、所望の音楽コンテンツを検出する処理を可能にした技術が開示されている。

特開２００２－５５９９４号公報

ところで、特許文献１に記載の技術は、配信されるコンテンツが音楽コンテンツに限られるため、それ以外のあらゆる動画コンテンツに対して捜索対象を検出する処理を行うには、コンピュータによる膨大な演算処理が必要となる。

そこで、本開示は、このような状況に鑑みてなされたものであり、演算処理に伴う負荷を軽減し得る情報抽出装置を提供することを一つの目的とする。

上記課題を解決するための本発明の主たる発明は、複数のフレームから構成される動画像から、外部から指示される所定の特定条件に従って特定のフレーム群を抽出する抽出部を備えることを特徴とする。

本開示によれば、演算処理に伴う負荷を軽減し得る。

本開示の第１の実施形態に係る在宅個別指導システム１の構成例を示す概念図である。本開示の第１の実施形態に係る教室映像配信装置１０を実現するコンピュータのハードウェア構成例を示す図である。本開示の第１の実施形態に係る受講生端末２０を実現するコンピュータのハードウェア構成例を示す図である。本開示の第１の実施形態に係る教室映像配信装置１０のソフトウェア構成例を示す図である。本開示の第１の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。本開示の第２の実施形態に係る教室映像配信装置１０のソフトウェア構成例を示す図である。本開示の第２の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。本開示の第３の実施形態に係る教室映像配信装置１０のソフトウェア構成例を示す図である。本開示の第３の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。本開示の第４の実施形態に係る教室映像配信装置１０のソフトウェア構成例を示す図である。本開示の第４の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。

本開示の実施形態の内容を列記して説明する。本開示は、以下のような構成を備える。
［項目１］
複数のフレームから構成される動画像を取得する取得部と、
当該動画像内に含まれる所定のデータを特定するための特定条件を記憶する記憶部と、
当該特定条件に従って、前記動画像から特定のフレーム群を複数抽出する抽出部と、
抽出された前記特定のフレーム群同士を連結する連結部と、
連結された複数のフレーム群を含むダイジェスト情報を出力する出力部と、を備える、
情報抽出装置。
［項目２］
項目１に記載の情報抽出装置であって、
所定の波形データを予め登録する波形登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる音の波形データと前記登録されている波形データとが一致するか否かであって、
前記抽出部は、両波形データが一致した場合に、当該一致した波形に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
［項目３］
項目２に記載の情報抽出装置であって、
動画内に含まれる前記音を音声認識によりテキスト情報に変換する変換部を更に備え、
前記変換部は、前記特定のフレーム群とその前後所定フレーム数とを含む補助フレーム群に対応する前記音を変換する、
情報抽出装置。
［項目４］
項目２又は項目３に記載の情報抽出装置であって、
前記被写体を含む周囲の音が示す情報には、会話情報と非会話情報とが混在する、
情報抽出装置。
［項目５］
項目４に記載の情報抽出装置であって、
前記会話情報には、ポジティブな感情を示すワードと、ネガティブな感情を示すワードの少なくとも何れかが含まれる、
情報抽出装置。
［項目６］
項目４又は項目５に記載の情報抽出装置であって、
前記非会話情報には、舌打ち、溜め息、相槌の少なくとも何れかを示す情報が含まれる、
情報抽出装置。
［項目７］
項目１に記載の情報抽出装置であって、
顔の表情に関する所定の顔評価値を予め登録する顔情報登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる顔の表情から算出される顔評価値と前記登録されている顔評価値とが一致するか否かであって、
前記抽出部は、両顔評価値が一致した場合に、当該一致した顔評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
［項目８］
項目７に記載の情報抽出装置であって、
前記顔評価値には、前記人物の幸福感、退屈感又は緊張感の度合いを評価した評価値が含まれる、
情報抽出装置。
［項目９］
項目７又は項目８に記載の情報抽出装置であって、
前記顔評価値には、前記人物の表情、前記人物の視線の向き、前記人物の顔の向きを評価した評価値が含まれる、
情報抽出装置
［項目１０］
項目１に記載の情報抽出装置であって、
人物の動作に関する所定の動作評価値を予め登録する動作情報登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる人物から算出される動作評価値と前記登録されている動作評価値とが一致するか否かであって、
前記抽出部は、両動作評価値が一致した場合に、当該一致した動作評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
［項目１１］
項目１０に記載の情報抽出装置であって、
前記動作評価値には、前記人物の身振り、手振り、ジェスチャ、ボディランゲージの少なくとも何れかの動作を評価した評価値が含まれる、
情報抽出装置。

［項目１２］
項目１に記載の情報抽出装置であって、
所定の生体情報に関する生体評価値を予め登録する生体情報登録部と、を備え、
前記特定条件は、前記動画像内に含まれる人物から算出可能な生体評価値と、前記登録されている生体評価値とが一致するか否かであって、
前記抽出部は、両生体評価値が一致した場合に、当該一致した生体評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
［項目１３］
項目１２に記載の情報抽出装置であって、
前記生体評価値には、前記人物の血圧、脈拍、脈圧の少なくとも何れかが含まれる、
情報抽出装置。
［項目１４］
項目１乃至項目１３の何れか一項に記載の情報抽出装置であって、
前記特定のフレーム群に対して、当該特定のフレーム群と時系列的に前後に連続する追加フレームを追加するフレーム追加部を備えている、
情報抽出装置。
［項目１５］
項目１乃至項目１４の何れかに記載の情報抽出装置によって抽出されたダイジェスト情報に含まれる少なくとも顔画像又は音声を所定のフレーム単位ごとに識別する識別手段と、
識別した前記顔画像に関する評価値を算出する評価手段とを更に備える、
ビデオミーティング評価端末。
［項目１６］
項目１５に記載のビデオミーティング評価端末であって、
ビデオミーティング評価端末は、前記評価値の時系列によるグラフ情報を提供する、
ビデオミーティング評価端末。
［項目１７］
項目１５又は項目１６に記載のビデオミーティング評価端末であって、
前記ビデオミーティング評価端末は、前記顔画像を複数の異なる観点によって評価した複数の評価値を算出する、
ビデオミーティング評価端末。
［項目１８］
項目１５乃至項目１７のいずれかに記載のビデオミーティング評価端末であって、
前記ビデオミーティング評価端末は、前記動画像に含まれる音声と共に前記評価値を算出する、
ビデオミーティング評価端末。
［項目１９］
項目１５乃至項目１８のいずれかに記載のビデオミーティング評価端末であって、
前記ビデオミーティング評価端末は、前記動画像内に含まれる前記顔画像以外の対象物と共に前記評価値を算出する、
ビデオミーティング評価端末。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

本開示では、デジタル通信回線を介して学習塾・教育機関と生徒・受講生宅を結び、各生徒・受講生は自宅に居ながら学習塾・教育機関で講義されている講義映像を視聴して、学習塾・教育機関の授業を受けられる在宅個別指導システムに情報抽出装置を適用する例を説明する。

＜第１の実施形態＞
図１は、本開示の第１の実施形態に係る在宅個別指導システム１の構成例を示す概念図である。図示するように、この在宅個別指導システム１では、遠隔授業を行う講師Ｔの教室側に設けられた教室映像配信装置１０と、それぞれの在宅で指導を受ける受講生群（受講生Ａ、Ｂ、Ｃ）に夫々関連する受講生端末２０Ａ、２０Ｂ、２０Ｃと、がネットワークＮＷを介して通信可能に接続されている。なお以下では、受講生端末２０Ａ、２０Ｂ、２０Ｃを特に区別して説明する必要がない場合には、単に受講生端末２０と略記する。同様に、受講生Ａ、Ｂ、Ｃを特に区別して説明する必要がない場合には、単に受講生と略記する。

教室映像配信装置１０は、請求の範囲に記載された情報抽出装置の一例となる。なお、本構成は一例であり、ある構成が他の構成を兼ね備えていたり、他の構成が含まれていたりしてもよい。なお、ここでは受講生Ａ、Ｂ、Ｃの３名の場合を示しているが、講師が同時に指導できる人数又はネットワークＮＷの接続回線数等に応じて、さらに多人数としてもよい。

本実施形態において、「講師」とは、教授、教諭、教師を含む概念である。「教室」とは、学習塾、カルチャーセンター、教育機関（例えば、初等・中等・高等教育機関、高等学校、高等専門学校、専門学校、短期大学、四年制大学、大学院など、文部科学省に登録されている学校）を含む概念である。「受講生」とは、生徒、学生、聴講生を含む概念である。

本実施形態においてネットワークＮＷはインターネットを想定している。ネットワークＮＷは、例えば、公衆電話回線網、携帯電話回線網、無線通信網、イーサネット（登録商標）などにより構築される。

＜ハードウェア構成＞
図２は、本実施形態に係る教室映像配信装置１０を実現するコンピュータのハードウェア構成例を示す図である。コンピュータは、少なくとも、通信部１１と、撮像部１２と、収音部１３と、モニタ１４と、メモリ１５と、ストレージ１６と、入出力部１７と、制御部１８等を備える。これらはバス１９を通じて相互に電気的に接続される。

通信部１１は、教室映像配信装置１０をネットワークＮＷに接続する。通信部１１は、例えば、有線ＬＡＮ（Local Area Network）、無線ＬＡＮ、Ｗｉ－Ｆｉ（Wireless Fidelity、登録商標）、赤外線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離または非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して通信する。

撮像部１２は、ＣＭＯＳ又はＣＣＤなどの撮像素子を用いて電子撮影する機能を有する。撮像部１２は、受講生に対する講義を行う講師Ｔを被写体として撮像して、講師映像を取得する。撮像部１２は、講師Ｔが講義を進行する際に使用する黒板又はホワイトボードに記載した画像も撮像できる構成とするとよいが、黒板又はホワイトボードの為に独立したカメラを設けてもよい。

収音部１３は、講師Ｔを含む周囲の音を収音する。収音部１３は、講師Ｔの音声を含む周囲の音を取得するためのマイクロフォン等を備える。さらに、収音部１３は、取得した音を電気信号に変換する等の適宜処理を行い得る。

モニタ１４は、受講生端末２０から送信される受講生映像と、撮像部１２で取得される講師映像とを一覧可能な状態で表示し得る。もちろん、モニタ１４は、受講生映像のみを単独で表示してもよく、講師映像のみを単独で表示してもよい。

メモリ１５は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性記憶装置で構成される主記憶と、フラッシュメモリ又はＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ１５は、制御部１８のワークエリア等として使用され、また、教室映像配信装置１０の起動時に実行されるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）、及び各種設定情報等を格納する。

ストレージ１６は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベースがストレージ１６に構築されていてもよい。

入出力部１７は、例えば、キーボード、マウス、タッチパネル等の情報入力機器である。

制御部１８は、教室映像配信装置１０全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えば制御部１８は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサであり、ストレージ１６に格納されメモリ１５に展開されたプログラム等を実行して各情報処理を実施する。

バス１９は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。

図３は、本実施形態に係る受講生端末２０を実現するコンピュータのハードウェア構成例を示す図である。コンピュータは、少なくとも、通信部２１と、撮像部２２と、収音部２３と、モニタ２４と、メモリ２５と、ストレージ２６と、入出力部２７と、制御部２８等を備える。これらはバス２９を通じて相互に電気的に接続される。本実施形態に係る受講生端末２０を実現するコンピュータ等のハードウェア構成は、図２に示す教室映像配信装置１０のハードウェア構成例と同様であるため、相違点のみ説明する。

通信部２１は、受講生端末２０をネットワークＮＷに接続する。

撮像部２２は、講義を受講する受講生を被写体として撮像して、受講生映像を取得する。

収音部２３は、受講生を含む周囲の音を収音する。音声データを送受するために、受講生端末２０においては、マイク付きヘッドフォンを設けてもよいが、当該端末に内蔵されたマイク並びにスピーカを用いてもよい。

モニタ２４は、教室映像配信装置１０から送信される講師映像と、撮像部２２で取得される受講生映像とを一覧可能な状態で表示し得る。もちろん、モニタ２４は、講師映像のみを単独で表示してもよく、受講生映像のみを単独で表示してもよい。

制御部２８は、受講生端末２０全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。

＜ソフトウェア構成＞
図４は、本実施形態に係る教室映像配信装置１０のソフトウェア構成例を示す図である。教室映像配信装置１０は、抽出部１０１と、波形登録部１０２と、変換部１０３と、表示部１０４と、フレーム切り出し部１０５と、生成部１０６と、を備える。

抽出部１０１と、波形登録部１０２と、変換部１０３と、表示部１０４と、フレーム切り出し部１０５と、生成部１０６とは、制御部１８がストレージ１６に記憶されているプログラムをメモリ１５に読み出して実行することにより実現され得る。

抽出部１０１は、撮像部１２で取得される講師映像と、撮像部２２で取得される受講生映像とを適宜取捨選択して合成すると共に、収音部１３又は収音部２３で収音された音を組み合わせて教室映像を生成する。ここでの講師映像又は受講生映像は、請求の範囲に記載された複数のフレームの一例となる。また、教室映像は、請求の範囲に記載された動画像の一例となる。教室映像は、テキストデータ、数値データ、図形データ、画像データ、動画データ、音声データ等、又はこれらの組み合わせであり、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。

抽出部１０１は、かかる教室映像から、外部から指示される所定の特定条件に従って特定のフレーム群を抽出する機能を有する。例えば、外部からの指示は、合成する教室映像の項目、画像の配置・画像の占有面積等を指示するものであり得る。外部からの指示は、例えば、講師Ｔ自身が講義の途中で映像構成を編集可能な簡便な操作であることが好ましい。

波形登録部１０２は、所定の波形データを予め登録する機能を有する。所定の特定条件とは、例えば、収音部１３又は収音部２３により収音された音の波形データと、波形登録部１０２に登録されている波形データとが一致するか否かであってよく、もちろん、他の条件であってもよい。本実施形態において波形登録部１０２に登録されている波形データは、講義におけるその場全体の雰囲気を評価するために用いられ得る。

抽出部１０１は、所定の特定条件が満たされた場合、例えば、両波形データが一致した場合に、当該一致した波形に対応するフレーム群を特定のフレーム群として前記教室映像から抽出する。

変換部１０３は、収音部１３が収音した音を音声認識によりテキストに変換する機能を有する。このテキストとは、任意の文字列のことである。変換部１０３は、音声認識に成功した場合は、生成したテキストを含む音声認識結果を出力する。音声認識結果に、音声認識が成功したことを示す成功情報を含めてもよい。

表示部１０４は、変換部１０３により変換されたテキストをモニタ１４又はモニタ２４に表示する機能を有する。講師Ｔ又は受講生Ａ、Ｂ、Ｃを含む周囲の音が示す情報には、会話情報と非会話情報とが混在する。会話情報には、例えば、ポジティブな感情を示すワードと、ネガティブな感情を示すワードの少なくとも何れかが含まれる。

ポジティブな感情を示すワードの一例としては、講師が受講生を褒めたり、応援したり、励ましたりする内容として、「よく頑張ったね」「努力したね」「すごいね」「素晴らしいね」「立派だね」「偉いね」等を挙げることができる。

一方、ネガティブな感情を示すワードの一例としては、講師が受講生を貶したり、非難したり、誹謗したりする内容として、「そんなんじゃダメだ」「お前はダメだ」「なにやってんのよ」「落ちるぞ」「バカ」等を挙げることができる。

非会話情報は、会話情報以外のテキスト情報である。非会話情報には、舌打ち、溜め息、相槌の少なくとも何れかを示す情報が含まれる。これらの非会話情報は、講義を受講する受講生の感情を判断するための判断基準となり得る。受講生の感情は、例えば、「幸福感」、「退屈感」、「緊張感」の３つに分類され得る。

フレーム切り出し部１０５は、抽出部１０１により抽出された特定のフレーム群に対して、少なくとも時系列的に前後に連続するフレーム群を切り出す機能を有する。フレーム切り出し部１０５は、例えば、各ワードがどのような文脈で使用されたかを示す文脈情報を取得するために適用可能な任意のフレームレートを用いて、前後に連続するフレーム群を切り出すことができる。ここでの文脈情報とは、例えば、単語前後の任意範囲の文字列、単語間の共起関係等を示す情報である。

生成部１０６は、抽出部１０１により抽出された特定のフレーム群に対して、その前後に連続する先行フレーム群と後続フレームを連結して、ダイジェスト動画を生成する機能を有する。

次に、このように構成された在宅個別指導システム１の動作について説明する。図５は、本開示の第１の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。

ここでは、教室を運営する運営者等が、講師が受講生に対して不適切な発言・問題発言をしていないかどうかをチェックする場面を例に挙げて説明する。具体的に、予め登録された講師の声でネガティブな感情を示すワードとして「バカ」を表す波形データを用いて、ダイジェスト動画を生成する場面を例に説明する。

まず、講義が開始される時刻になると、各受講生Ａ、Ｂ、Ｃは受講生端末２０Ａ、２０Ｂ、２０ＣをネットワークＮＷ経由で在宅個別指導システム１に接続して、講師Ｔの講義開始を待つ。講師Ｔは、教室映像配信装置１０が備えるモニタ１４を見て各受講生Ａ、Ｂ、Ｃが受講態勢にあるか否かを判断し、受講態勢が整っていれば、講義を開始する。すなわち、撮像部１２並びに撮像部２２による撮像動作が開始されるとともに、収音部１３並びに収音部２３による収音動作が開始される（ステップＳ１００）。

そして、抽出部１０１は、撮像部１２で取得される講師映像と、撮像部２２で取得される受講生映像とを適宜取捨選択して合成すると共に、収音部１３又は収音部２３で収音された音を組み合わせて教室映像を生成すると共に、生成した教室映像をネットワークＮＷ経由で受講生端末２０Ａ、２０Ｂ、２０Ｃに配信する（ステップＳ１０２）。

次に、講師が「バカ」と発声すると、その音声は収音部１３で収音されて、その音声データを含む教室映像が特定のフレーム群として抽出部１０１によって抽出される（ステップＳ１０４）。

フレーム切り出し部１０５は、その教室映像の前後において例えば１０秒～２０秒程度の時間間隔で連なるフレーム群を切り出す（ステップＳ１０６）。

そして、生成部１０６は、これらのフレーム群を連結したダイジェスト動画を生成すると共に、当該ダイジェスト動画に基づいて、講師の音声データに対して所定の音響分析を施す（ステップＳ１０８）。

この音響分析によれば、「バカ」というワードがどういう文脈で使われたかを把握することができる。

例えば、（受講生以外の第三者に対して）「こういうバカなことを言ってる人はダメだよね」という文脈で講師において「バカ」というワードが使われた場合には、講師は受講生のことをバカと言ったわけではないことが把握できる。

また例えば、「俺はバカだから」と文脈で講師において「バカ」というワードが使われた場合には、講師は自身のことをバカと言っていることが把握できる。

かくして、教室を運営する運営者等は、「バカ」というワードとその前後の文脈をテキスト文章として例えばレポート形式で取得し得るので、講師が受講生に対して不適切な発言・問題発言をしていないかどうかを容易にチェックできる。

すなわち、予め登録済みの波形データを用いた照合により、演算処理に伴う負荷を軽減しながらも、教室映像内において講師が不適切な発言・問題発言を引き起こす可能性の高い状況を含む特徴的なシーンをピンポイントで引き出すことが可能となる。例えば、講義時間（例えば９０分）に対して、講師によるネガティブな感情を示すワードの発声回数が比較的大きい所定の回数（例えば１０回）に至るような場合には、講師の人間性を判断することも可能になる。もちろん、講師によるポジティブな感情を示すワードの発声回数も講師の人間性を判断する材料になり得る。さらには、講師の側に限らず、受講生の側においても、講師からの発話に対する舌打ちの回数、溜め息の回数、相槌の回数は、受講生がどのような感情を抱いているかを判断する材料となり得る。

＜第２の実施形態＞
以下、図６及び図７に基づいて、第２の実施形態に係る在宅個別指導システムについて説明する。この実施形態では、上述した第１実施形態で説明した要素と同一の要素について同じ符号を付し、詳細な説明を省略する。

上記の第１実施形態に係る在宅個別指導システムでは、既に述べたように、予め登録済みの波形データを用いた照合により、教室映像の中から特定のフレーム群を抽出していたが、第２の実施形態に係る在宅個別指導システムでは、人物の顔の表情に関する評価値に基づいて、教室映像の中から特定のフレーム群を抽出する処理が行われる。

＜ソフトウェア構成＞
図６は、本実施形態に係る教室映像配信装置１０のソフトウェア構成例を示す図である。教室映像配信装置１０は、抽出部１０１と、フレーム切り出し部１０５と、生成部１０６と、顔検出部１０７と、算出部１０８と、顔情報登録部１０９と、を備える。

顔検出部１０７は、例えば、メモリ１５に格納されている教室映像を構成する複数のフレームの夫々について、人物の顔検出を行う機能を有する。例えば、顔検出部１０７は、教室映像の中から特徴点を抽出して、講師Ｔ又は各受講生Ａ、Ｂ、Ｃの顔領域、顔領域の大きさ・顔面積等を検出する。

特徴点としては、例えば、眉、目、鼻、唇の各端点、顔の輪郭点、頭頂点、顎の下端点等が挙げられる。そして、顔検出部１０７は、顔領域の位置情報を特定する。例えば、顔検出部１０７は、画像の横方向をＸ軸とし、縦方向をＹ軸として、顔領域に含まれる画素のＸ座標及びＹ座標を算出する。さらに、顔検出部１０７は、上述した特徴点を用いた演算処理によって、検出した講師又は各受講生の表情・年齢などを判別し得る。

算出部１０８は、教室映像を構成する複数のフレームの夫々について、講師Ｔ又は各受講生Ａ、Ｂ、Ｃの顔に関する評価値を算出する機能を有する。算出部１０８において算出される各評価値は、以下に示す所定の評価値（１）～（６）が含まれる。これらの評価値（１）～（６）は、顔情報登録部１０９に予め登録される。

（１）笑顔の度合い
算出部１０８は、顔検出部１０７が検出した顔のそれぞれについて、例えば、パターンマッチングなどの公知技術を用いて、笑顔の度合いを評価値として算出する。本実施形態では、度合いの一例として、「０：笑顔なし」、「１：微笑」、「２：普通笑い」、「３：大笑い」までの４段階で笑顔の度合いを示す。

（２）視線の向き
算出部１０８は、顔検出部１０７が検出した顔のそれぞれについて、公知の技術を用いて、視線の向きを評価値として算出する。本実施形態では、一例として、「０：視線正面」、「１：視線左右方向」、「２：視線右方向」、「３：視線検出不可」の４種類で視線の向きを示す。

（３）顔の向き
算出部１０８は、顔検出部１０７が検出した顔のそれぞれについて、公知の技術を用いて、顔の向きを評価値として算出する。本実施形態では、一例として、「０：顔向き正面」、「１：顔向き左方向」、「２：顔向き右方向」、「３：検出不可」の４種類で顔の向きを示す。

（４）顔面積
算出部１０８は、顔検出部１０７が検出した顔のそれぞれについて、顔部分の面積を評価値として算出する。

（５）年齢
算出部１０８は、顔検出部１０７が検出した顔のそれぞれについて、公知の技術を用いて、その人物の年齢を評価値として算出する。

（６）目つぶり度合い
算出部１０８は、顔検出部１０７が検出した顔のそれぞれについて、公知の技術を用いて、目つぶり度合いを評価値として算出する。本実施形態では、一例として、「０：目つぶりなし」、「１：一部目つぶりあり」、「２：両目目つぶり」、「３：目つぶり検出不可」の４種類で目つぶり度合いを示す。

これらの評価値（１）～（６）は、講義を受講する受講生の感情を判断するための判断基準となり得る。受講生の感情は、例えば、「幸福感」、「退屈感」、「緊張感」の３つに分類され得る。

抽出部１０１は、所定の特定条件が満たされた場合、例えば、算出部１０８により算出された評価値と、顔情報登録部１０９に予め登録されている評価値とが一致した場合に、当該一致した評価値に対応するフレーム群を特定のフレーム群として前記教室映像から抽出する。

次に、このように構成された在宅個別指導システムの動作について説明する。図７は、本開示の第２の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。

ここでは、教室を運営する運営者等が、受講生Ａである子供を塾などに預ける保護者等からの要望であって、受講生Ａの学習態度・学習状況を把握したいという要望に応える場面を例に挙げて説明する。

まず、講義が開始される時刻になると、各受講生Ａ、Ｂ、Ｃは受講生端末２０Ａ、２０Ｂ、２０ＣをネットワークＮＷ経由で在宅個別指導システムに接続して、講師Ｔの講義開始を待つ。講師Ｔは、教室映像配信装置１０が備えるモニタ１４を見て各受講生Ａ、Ｂ、Ｃが受講態勢にあるか否かを判断し、受講態勢が整っていれば、講義を開始する。すなわち、撮像部１２並びに撮像部２２による撮像動作が開始されるとともに、収音部１３並びに収音部２３による収音動作が開始される（ステップＳ２００）。

そして、抽出部１０１は、撮像部１２で取得される講師映像と、撮像部２２で取得される受講生映像とを適宜取捨選択して合成すると共に、収音部１３又は収音部２３で収音された音を組み合わせて教室映像を生成すると共に、生成した教室映像をネットワークＮＷ経由で受講生端末２０Ａ、２０Ｂ、２０Ｃに配信する（ステップＳ２０２）。

次に、顔検出部１０７は、教室映像について、受講生Ａの顔検出を行う（ステップＳ２０４）。顔検出の具体的な手法については、公知技術と同様であるため説明を省略する。

そして、算出部１０８は、顔検出部１０７が検出した受講生Ａの顔について、公知の技術を用いて、顔の向きを評価値として算出する（ステップＳ２０６）。続いて、抽出部１０１は、算出部１０８により算出された評価値が、顔情報登録部１０９に予め登録されている評価値「１：顔向き左方向」、「２：顔向き右方向」の何れかと一致した場合に、当該一致した評価値に対応するフレーム群を特定のフレーム群として教室映像から抽出する（ステップＳ２０８）。

すなわち、受講生Ａの顔の向きが正面ではなく左方向又は右方向を向いているような場合には、受講生Ａの講義に対する集中度が低下していることが推認され得る。

フレーム切り出し部１０５は、受講生Ａの顔が正面を向いていない教室映像の前後において例えば１０秒～２０秒程度の時間間隔で連なるフレーム群を切り出す（ステップＳ２１０）。

そして、生成部１０６は、これらのフレーム群を連結したダイジェスト動画を生成すると共に、当該ダイジェスト動画に基づいて、講師の音声データに対して所定の音響分析を施す（ステップＳ２１２）。かかる音響分析によれば、受講生Ａの顔が正面を向いていないときに、講師Ｔが発話しているワードが何であるかのみをフラグで管理できる。これにより、受講生Ａの講義に対する集中度が低下した要因となり得るワードを、教室を運営する運営者等が収集できるとともに、受講生Ａの学習態度・学習状況を把握したいという保護者等の要望に対しても効率的に応えることができる。

もちろん、受講生Ａの講義に対する集中度の判定は、受講生Ａの顔の向きに限らず、受講生Ａの視線の向きによっても行い得る。すなわち、受講生Ａの視線の向きが正面ではなく左方向又は右方向を向いているような場合には、受講生Ａの講義に対する集中度が低下していることが推認され得る。

本実施形態に係る在宅個別指導システムには、さらに以下のような使用例が考えられる。

具体的に、受講生Ａが満足感・幸福感・充実感といったポジティブな感情を抱いたシーンのみを集めて編集した動画を受講生Ａの保護者等に向けたダイジェスト動画として生成し得る。

かかるダイジェスト動画を生成し得る具体的な処理の一例としては、まず、算出部１０８は、顔検出部１０７が検出した受講生Ａの顔について、公知の技術を用いて、笑顔の度合いを評価値として算出することができる。続いて、抽出部１０１は、算出部１０８により算出された度合いが、顔情報登録部１０９に予め登録されている度合い「２：普通笑い」、「３：大笑い」の何れかと一致した場合に、当該一致した評価値に対応するフレーム群を特定のフレーム群として教室映像から抽出することができる。

さらに、フレーム切り出し部１０５は、受講生Ａの笑顔の度合いが「２：普通笑い」、「３：大笑い」の何れかであるときの教室映像の前後において例えば１０秒～２０秒程度の時間間隔で連なるフレーム群を切り出すことができる。そして、最後に、生成部１０６は、これらのフレーム群を連結したダイジェスト動画を、受講生Ａの保護者等に向けたダイジェスト動画として生成する。

＜第３の実施形態＞
以下、図８及び図９に基づいて、第３の実施形態に係る在宅個別指導システムについて説明する。この実施形態では、上述した第１実施形態で説明した要素と同一の要素について同じ符号を付し、詳細な説明を省略する。

上記の第１実施形態に係る在宅個別指導システムでは、既に述べたように、予め登録済みの波形データを用いた照合により、教室映像の中から特定のフレーム群を抽出していたが、第３の実施形態に係る在宅個別指導システムでは、人物の動作に関する動作情報に基づいて、教室映像の中から特定のフレーム群を抽出する処理が行われる。

＜ソフトウェア構成＞
図８は、本実施形態に係る教室映像配信装置１０のソフトウェア構成例を示す図である。教室映像配信装置１０は、抽出部１０１と、フレーム切り出し部１０５と、生成部１０６と、特定部１１０と、動作情報登録部１１１と、を備える。

特定部１１０は、例えば、メモリ１５に格納されている教室映像を構成する複数のフレームの夫々について、人物の動作に関する動作情報を特定する機能を有する。この動作情報は、例えば、人物の動作を複数の姿勢の連続として捉えた情報であって、様々な姿勢に対応する人体の骨格を形成する各関節の情報を含み得る。動作情報には、例えば、人物の身振り、手振り、ジェスチャ、ボディランゲージの少なくとも何れかが含まれる。

特定部１１０は、例えば、人体パターンを用いたパターンマッチングにより、教室映像を構成する複数のフレームから、人体の骨格を形成する各関節の座標を得る。座標取得の具体的な手法については、公知技術と同様であるため説明を省略する。そして、この座標系で表される各関節の座標が、例えば、１フレーム分の骨格情報となり得る。さらに、複数フレーム分の骨格情報が所定の動作情報となり得る。

かかる所定の動作情報は、動作情報登録部１１１に予め登録されている。すなわち、動作情報登録部１１１は、様々な姿勢に対応する動作情報を、例えば、公知の人工知能技術を用いた機械学習により予め記憶している。例えば、本実施形態において、受講生が手を振る動きに対応するジェスチャは、講義の内容に納得ができなかったり、引っかかるところがあったりする受講生が講師に対して補充説明を求めるジェスチャパターンとして機械学習済みであるとする。

抽出部１０１は、所定の特定条件が満たされた場合、例えば、特定部１１０により特定された動作情報と、動作情報登録部１１１に予め登録されている動作情報とが一致した場合に、当該一致した動作情報に対応するフレーム群を特定のフレーム群として教室映像から抽出する。

次に、このように構成された在宅個別指導システムの動作について説明する。図９は、本開示の第３の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。

ここでは、講義の内容に納得ができない受講生Ａが講師に対して補充説明を求める状況を含むシーンを教室映像からピックアップする場面を例に挙げて説明する。

まず、講義が開始される時刻になると、各受講生Ａ、Ｂ、Ｃは受講生端末２０Ａ、２０Ｂ、２０ＣをネットワークＮＷ経由で在宅個別指導システムに接続して、講師Ｔの講義開始を待つ。講師Ｔは、教室映像配信装置１０が備えるモニタ１４を見て各受講生Ａ、Ｂ、Ｃが受講態勢にあるか否かを判断し、受講態勢が整っていれば、講義を開始する。すなわち、撮像部１２並びに撮像部２２による撮像動作が開始されるとともに、収音部１３並びに収音部２３による収音動作が開始される（ステップＳ３００）。

そして、抽出部１０１は、撮像部１２で取得される講師映像と、撮像部２２で取得される受講生映像とを適宜取捨選択して合成すると共に、収音部１３又は収音部２３で収音された音を組み合わせて教室映像を生成すると共に、生成した教室映像をネットワークＮＷ経由で受講生端末２０Ａ、２０Ｂ、２０Ｃに配信する（ステップＳ３０２）。

次に、特定部１１０は、人体パターンを用いたパターンマッチングにより、教室映像を構成する複数のフレームから、受講生Ａの骨格を形成する各関節の座標を得る。さらに、特定部１１０は、各関節の座標に基づいて、複数フレーム分の骨格情報を受講生Ａのジェスチャとして特定する（ステップＳ３０４）。

続いて、抽出部１０１は、特定部１１０により特定されたジェスチャが、動作情報登録部１１１において機械学習済みのジェスチャパターン（受講生Ａが講師に対して補充説明を求めるジェスチャパターン）と一致した場合に、当該一致したジェスチャに対応するフレーム群を特定のフレーム群として教室映像から抽出する（ステップＳ３０６）。

フレーム切り出し部１０５は、受講生Ａ講師に対して補充説明を求める教室映像の前後において例えば１０秒～２０秒程度の時間間隔で連なるフレーム群を切り出す（ステップＳ３０８）。

そして、生成部１０６は、これらのフレーム群を連結したダイジェスト動画を生成する（ステップＳ３１０）。

かくして、受講生Ａが講師に対して補充説明を求めるジェスチャパターンが既に登録済みの状態であるので、今後上記フローと同様の状況があれば、動作情報登録部１１１に保持されているジェスチャパターンに従った照合により、教室映像の中から特定のフレーム群をピックアップしてくれば、演算処理に伴う負荷を増やさなくとも同様のダイジェスト動画を生成することが可能となる。

＜第４の実施形態＞
以下、図１０及び図１１に基づいて、第４の実施形態に係る在宅個別指導システムについて説明する。この実施形態では、上述した第１実施形態で説明した要素と同一の要素について同じ符号を付し、詳細な説明を省略する。

上記の第１実施形態に係る在宅個別指導システムでは、既に述べたように、予め登録済みの波形データを用いた照合により、教室映像の中から特定のフレーム群を抽出していたが、第４の実施形態に係る在宅個別指導システムでは、人物の生体情報に基づいて、教室映像の中から特定のフレーム群を抽出する処理が行われる。

＜ソフトウェア構成＞
図１０は、本実施形態に係る教室映像配信装置１０のソフトウェア構成例を示す図である。教室映像配信装置１０は、抽出部１０１と、フレーム切り出し部１０５と、生成部１０６と、生体情報検出部１１２と、生体情報登録部１１３と、を備える。

生体情報検出部１１２は、例えば、メモリ１５に格納されている教室映像を構成する複数のフレームの夫々について、人物の生体情報を検出する機能を有する。人物の生体情報には、人物の血圧、脈拍、脈圧の少なくとも何れかが含まれる。これら所定の生体情報は、各フレームに映り込んだ講師又は受講生の顔領域を一般的な顔検知技術等によって抽出したのちに、血流方向に沿って複数の領域に分割し、各領域における血流を示す色画像の時系列変化に基づいて取得することができる。

かかる所定の生体情報は、生体情報登録部１１３に予め登録されている。すなわち、生体情報登録部１１３は、例えば緊張の有無等の精神状態、体調の良否等の身体状態の検知に用いる生体情報を、例えば、公知の人工知能技術を用いた機械学習により予め記憶している。例えば、本実施形態において、受講生Ａにおいてミリ秒単位での表情の変化、瞳孔の開き、脈拍の速さ（脈拍数）、顔面の紅潮、発汗具合等、受講生Ａが無意識に支配されている情動を読み取り得る生体情報が学習済みであるとする。

抽出部１０１は、所定の特定条件が満たされた場合、例えば、生体情報検出部１１２により検出された生体情報と、生体情報登録部１１３に予め登録されている生体情報とが一致した場合に、当該一致した生体情報に対応するフレーム群を特定のフレーム群として教室映像から抽出する。

次に、このように構成された在宅個別指導システムの動作について説明する。図１１は、本開示の第４の実施の形態による教室映像配信方法の処理の流れを説明するフローチャートである。

ここでは、人間には肉体的安全を保つために遺伝的に備わっているバイアスがあり、見慣れないもの、理解しにくいものに対しては瞬間的に異常を感じるという知見のもとで、受講生Ａが緊張状態に陥ったシーンを教室映像からピックアップする場面を例に挙げて説明する。

まず、講義が開始される時刻になると、各受講生Ａ、Ｂ、Ｃは受講生端末２０Ａ、２０Ｂ、２０ＣをネットワークＮＷ経由で在宅個別指導システムに接続して、講師Ｔの講義開始を待つ。講師Ｔは、教室映像配信装置１０が備えるモニタ１４を見て各受講生Ａ、Ｂ、Ｃが受講態勢にあるか否かを判断し、受講態勢が整っていれば、講義を開始する。すなわち、撮像部１２並びに撮像部２２による撮像動作が開始されるとともに、収音部１３並びに収音部２３による収音動作が開始される（ステップＳ４００）。

そして、抽出部１０１は、撮像部１２で取得される講師映像と、撮像部２２で取得される受講生映像とを適宜取捨選択して合成すると共に、収音部１３又は収音部２３で収音された音を組み合わせて教室映像を生成すると共に、生成した教室映像をネットワークＮＷ経由で受講生端末２０Ａ、２０Ｂ、２０Ｃに配信する（ステップＳ４０２）。

次に、生体情報検出部１１２は、公知の技術を用いて、教室映像を構成する複数のフレームの夫々について、受講生Ａの脈拍数を検出する（ステップＳ４０４）。

続いて、抽出部１０１は、生体情報検出部１１２により検出された脈拍数が、生体情報登録部１１３において機械学習済みの脈拍数（受講生Ａが緊張状態にある脈拍数）と一致した場合に、当該一致した脈拍数に対応するフレーム群を特定のフレーム群として教室映像から抽出する（ステップＳ４０６）。

フレーム切り出し部１０５は、受講生Ａが緊張状態にある教室映像の前後において例えば１０秒～２０秒程度の時間間隔で連なるフレーム群を切り出す（ステップＳ４０８）。

そして、生成部１０６は、これらのフレーム群を連結したダイジェスト動画を生成する（ステップＳ４１０）。

かくして、受講生Ａが緊張状態にある脈拍数が既に登録済みの状態であるので、今後上記フローと同様の状況があれば、生体情報登録部１１３に保持されている脈拍数に従った照合により、教室映像の中から特定のフレーム群をピックアップしてくれば、演算処理に伴う負荷を増やさなくとも同様のダイジェスト動画を生成することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

上述した各実施形態では、遠隔授業を支援する在宅個別指導システムに情報抽出装置を適用する例について述べた。しかし、これに限らない。例えば、会議、講演会等のように、開始時刻および終了時刻が事前に決められており、主として教室、会議室などの特定の空間で行われる各種イベントを支援するシステムに情報抽出装置を適用してもよい。

本明細書において説明した装置は、単独の装置として実現されてもよく、一部または全部がネットワークで接続された複数の装置（例えばクラウドサーバ）等により実現されてもよい。例えば、教室映像配信装置１０のストレージ１６又は制御部１８は、互いにネットワークで接続された異なるサーバにより実現されてもよい。

本明細書において説明した装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。本実施形態に係る教室映像配信装置１０の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

また、本明細書においてフローチャート図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

１在宅個別指導システム
１０教室映像配信装置（情報抽出装置）
１０１抽出部
１０２波形登録部
１０３変換部
１０４表示部
１０５フレーム切り出し部
１０６生成部
１０７顔検出部
１０８算出部
１０９顔情報登録部
１１０特定部
１１１動作情報登録部
１１２生体情報検出部
１１３生体情報登録部
ＮＷネットワーク

Claims

遠隔授業を行う講師及び在宅で指導を受ける受講生のそれぞれを撮像して得られる動画像を取得する取得部と、
当該動画像内に含まれる所定のデータを特定するための特定条件を記憶する記憶部と、
当該特定条件に従って、前記動画像から特定のフレーム群を複数抽出する抽出部と、を備え、
前記抽出部は、前記受講生の顔検出を行い前記動画像において前記受講生に関する前記特定条件に基づいて評価値を算出し、当該評価値に基づいて前記動画像から受講生に関する特定のシーンのみを集めて編集してなる特定のフレーム群を抽出する、
情報抽出装置であって、
受講生の顔の表情に関する所定の顔評価値を予め登録する顔情報登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる前記受講生の顔の表情から算出される顔評価値と前記登録されている顔評価値とが一致するか否かであって、
前記抽出部は、両顔評価値が一致した場合に、当該一致した顔評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出し、
前記顔評価値には、前記受講生の幸福感、退屈感又は緊張感の度合いを評価した評価値が含まれる、
情報抽出装置。
請求項１に記載の情報抽出装置であって、
所定の波形データを予め登録する波形登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる音の波形データと前記登録されている波形データとが一致するか否かであって、
前記抽出部は、両波形データが一致した場合に、当該一致した波形に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
請求項２に記載の情報抽出装置であって、
動画内に含まれる前記音を音声認識によりテキスト情報に変換する変換部を更に備え、
前記変換部は、前記特定のフレーム群とその前後所定フレーム数とを含む補助フレーム群に対応する前記音を変換する、
情報抽出装置。
請求項２又は請求項３に記載の情報抽出装置であって、
前記音には、会話情報と非会話情報とが混在する、
情報抽出装置。
請求項４に記載の情報抽出装置であって、
前記会話情報には、ポジティブな感情を示すワードと、ネガティブな感情を示すワードの少なくとも何れかが含まれる、
情報抽出装置。
請求項４又は請求項５に記載の情報抽出装置であって、
前記非会話情報には、舌打ち、溜め息、相槌の少なくとも何れかを示す情報が含まれる、
情報抽出装置。
請求項１に記載の情報抽出装置であって、
前記顔評価値には、前記受講生の表情、前記受講生の視線の向き、前記受講生の顔の向きを評価した評価値が含まれる、
情報抽出装置
請求項１に記載の情報抽出装置であって、
前記受講生の動作に関する所定の動作評価値を予め登録する動作情報登録部、を更に備え、
前記特定条件は、前記動画像内に含まれる前記受講生から算出される動作評価値と前記登録されている動作評価値とが一致するか否かであって、
前記抽出部は、両動作評価値が一致した場合に、当該一致した動作評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
請求項８に記載の情報抽出装置であって、
前記動作評価値には、前記受講生の身振り、手振り、ジェスチャ、ボディランゲージの少なくとも何れかの動作を評価した評価値が含まれる、
情報抽出装置。
請求項１に記載の情報抽出装置であって、
所定の生体情報に関する生体評価値を予め登録する生体情報登録部と、を備え、
前記特定条件は、前記動画像内に含まれる前記受講生から算出可能な生体評価値と、前記登録されている生体評価値とが一致するか否かであって、
前記抽出部は、両生体評価値が一致した場合に、当該一致した生体評価値に対応するフレーム群を前記特定のフレーム群として前記動画像から抽出する、
情報抽出装置。
請求項１０に記載の情報抽出装置であって、
前記生体評価値には、前記受講生の血圧、脈拍、脈圧の少なくとも何れかが含まれる、
情報抽出装置。
請求項１乃至請求項１１の何れか一項に記載の情報抽出装置であって、
前記特定のフレーム群に対して、当該特定のフレーム群と時系列的に前後に連続する追加フレームを前記評価値の算出対象に追加するフレーム追加部を備えている、
情報抽出装置。
請求項１に記載の情報抽出装置であって、
前記受講生の顔の表情を複数の異なる観点によって評価した複数の評価値を算出する、
情報抽出装置。
請求項１に記載の情報抽出装置であって、
前記動画像に含まれる音声と共に前記評価値を算出する、
情報抽出装置。
請求項１乃至請求項１４の何れかに記載の情報抽出装置であって、
抽出された前記特定のフレーム群同士を連結してダイジェスト情報を生成する手段を更に備えている、
情報抽出装置。