JP7143620B2 - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
JP7143620B2
JP7143620B2 JP2018081321A JP2018081321A JP7143620B2 JP 7143620 B2 JP7143620 B2 JP 7143620B2 JP 2018081321 A JP2018081321 A JP 2018081321A JP 2018081321 A JP2018081321 A JP 2018081321A JP 7143620 B2 JP7143620 B2 JP 7143620B2
Authority
JP
Japan
Prior art keywords
scene
moving image
explanation
work
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018081321A
Other languages
English (en)
Other versions
JP2019191738A (ja
Inventor
喜浩 北川
淳 新宮
スレシュ ムラリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2018081321A priority Critical patent/JP7143620B2/ja
Priority to CN201910168319.8A priority patent/CN110390242B/zh
Priority to US16/382,217 priority patent/US11386658B2/en
Publication of JP2019191738A publication Critical patent/JP2019191738A/ja
Application granted granted Critical
Publication of JP7143620B2 publication Critical patent/JP7143620B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、情報処理装置およびプログラムに関する。
従来、動画のシーン(場面)を切り分けたり映っている事物を認識したりする技術がある。下記特許文献1には、動画像データから音声データと音声が記録された動画像データ上の時間情報とを抽出し、音声認識により音声データから動画像上の空間位置を特定する語句とメタデータとなる語句とを分離して抽出し、各語句を文字データに変換すると共に時間情報とを関連付けて記憶する技術が開示されている。また、特許文献2には、コンテンツのシーンを登録し、または、コンテンツの音声や映像を認識して文字データに変換し、文字データを映像フレームを構成するデータ部に挿入するか、または、文字データをタイムコードと共に文字データの専用ファイルに記録することにより、シーンをマーキングするメタデータまたは文字データを、コンテンツと関連するメタデータとして媒体に記録する技術が開示されている。
特開2005-65191号公報 特開2007-82088号公報
作業工程を記録した動画において、作業内容を説明する場面と作業中の場面とを切り分け、作業ごとに分類したい場合がある。これは、作業工程を記録した動画に限らず、説明場面と、説明場面において説明される被説明場面とを含む種々の動画に関しても同様であり、説明場面と被説明場面とを切り分け、場面の内容ごとに分類したい場合がある。
本発明は、動画における説明の個所と説明された対象が撮影された個所とで異なる特徴要素に基づいて動画の場面を切り分け、説明場面と被説明場面とに分類する情報処理装置およびプログラムを提供することを目的とする。
請求項1に係る本発明は、
動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段と、
を備えることを特徴とする、情報処理装置である。
請求項2に係る本発明は、
前記特徴抽出手段は、前記動画を解析して得られる、撮影された人物の挙動に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項1に記載の情報処理装置である。
請求項3に係る本発明は、
前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の特定の身体部分の動きのパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項2に記載の情報処理装置である。
請求項4に係る本発明は、
前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の発話における音声パターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項2に記載の情報処理装置である。
請求項5に係る本発明は、
前記特徴抽出手段は、前記動画を解析して得られる、画像の構成に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項1に記載の情報処理装置である。
請求項6に係る本発明は、
前記動画として作業および当該作業の説明の動画を用い、
前記特徴抽出手段は、前記画像の構成に関する特徴として、作業者を被写体とする画像と作業個所を被写体とする画像とを区別し得る特徴を抽出し、
前記識別手段は、前記動画の部分が前記作業者を被写体とする画像であるか、前記作業個所を被写体とする画像であるかを識別条件の一つとして、前記説明場面と前記被説明場面である作業場面とを識別することを特徴とする、請求項5に記載の情報処理装置である。
請求項7に係る本発明は、
前記特徴抽出手段は、操作画面における操作の様子を収録した前記動画を解析して得られる、当該操作画面に表示された表示対象の変化に関する特徴を、前記特徴要素として抽出し、
前記識別手段は、特定の前記表示対象の変化のパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項1に記載の情報処理装置である。
請求項8に係る本発明は、
前記区分手段により区分された動画の部分と当該動画の部分に対応する音声から得られるテキストとを表示する出力画面を生成する画面生成手段をさらに備えることを特徴とする、請求項1に記載の情報処理装置である。
請求項9に係る本発明は、
前記画面生成手段により生成される出力画面は、前記動画の部分と当該動画の部分に対応する音声から得られる前記テキストとが関連付けられており、テキストの一部を指示すると、指示されたテキスト部分に対応する動画の部分が再生されることを特徴とする、請求項8に記載の情報処理装置である。
請求項10に係る本発明は、
前記画面生成手段は、前記動画の部分のうち、前記説明場面の動画を削除することを特徴とする、請求項9に記載の情報処理装置である。
請求項11に係る本発明は、
前記画面生成手段は、削除した前記説明場面の動画に対応するテキストを、当該説明場面の直後に位置する前記被説明場面の動画に関連付けることを特徴とする、請求項10に記載の情報処理装置である。
請求項12に係る本発明は、
前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記説明場面の動画に対応するテキストと、前記被説明場面に対応するテキストとが識別可能に表示されることを特徴とする、請求項8または請求項9に記載の情報処理装置である。
請求項13に係る本発明は、
前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記区分手段により区分された前記動画の部分が識別可能に表示されることを特徴とする、請求項8または請求項9に記載の情報処理装置である。
請求項14に係る本発明は、
前記分割手段は、一の発話音声から次の発話音声までの動画を、一つの前記部分動画として分割することを特徴とする、請求項1に記載の情報処理装置である。
請求項15に係る本発明は、
前記区分手段は、
説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する説明場面の動画として区分し、
被説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する被説明場面の動画として区分することを特徴とする、請求項14に記載の情報処理装置である。
請求項16に係る本発明は、
コンピュータを、
動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段として、
機能させることを特徴とする、プログラムである
請求項1の発明によれば、動画に収録された音声を認識して得られる語句や予め登録されたメタデータを用いて動画の場面を分類する構成と比較して、動画における説明の個所と説明された対象が撮影された個所とで異なる特徴要素に基づいて動画の場面を切り分け、説明場面と被説明場面とを含む区分を識別する情報処理装置およびプログラムを提供することができる。
請求項2の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、撮影された人物の挙動に基づいて説明場面と被説明場面とを識別する指標を得ることができる。
請求項3の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、撮影された人物の動作が異なる被説明場面と説明場面を分けることができ、個々の場面における内容の区切りを特定することができる。
請求項4の発明によれば、人物の発話内容に基づいて動画を分類する構成と比較して、撮影された人物の発話内容を解析することなく被説明場面と説明場面を識別し、個々の場面における内容の区切りを特定することができる。
請求項5の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、画像の構成に基づいて説明場面と被説明場面とを識別する指標を得ることができる。
請求項6の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、画像の構成が異なる作業場面と説明場面を分けることができ、個々の作業の区切りを特定することができる。
請求項7の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、PC等の操作の動画に関して、説明場面と被説明場面とを識別する指標を得ることができる。
請求項8の発明によれば、単に動画を分類する構成と比較して、動画内の発話内容をテキストで確認することができる。
請求項9の発明によれば、単に動画を分類する構成と比較して、動画内の発話内容から得られたテキストを索引として用いることで、動画の検索に要する手間を削減することができる。
請求項10の発明によれば、単に動画を分類する構成と比較して、データ量を削減することができる。
請求項11の発明によれば、説明場面に対応する動画を単に削除する構成と比較して、動画内の説明場面の発話内容から得られたテキストを動画の索引として用いることができる。
請求項12の発明によれば、単に動画を分類する構成と比較して、動画の場面を識別可能に表示されたテキストを索引として用いることで、説明場面か被説明場面かを認識して動画を検索することができる。
請求項13の発明によれば、単に動画を分類する構成と比較して、場面ごとの内容の区分を識別可能に表示されたテキストを索引として用いることで、場面ごとの内容の区分を識別して動画を検索することができる。
請求項14の発明によれば、動画に収録された音声の解析結果に基づいて動画を分割する構成と比較して、動画の分割に要する処理の負荷を軽減することができる。
請求項15の発明によれば、動画を解析して説明場面および被説明場面の動画の区分を特定する構成と比較して、動画の区分に要する処理の負荷を軽減することができる。
請求項16の発明によれば、動画に収録された音声を認識して得られる語句や予め登録されたメタデータを用いて動画の場面を分類する構成と比較して、本発明のプログラムを実行するコンピュータにおいて、動画における説明の個所と説明された対象が撮影された個所とで異なる特徴要素に基づいて動画の場面を切り分け、説明場面と被説明場面とを含む区分を識別する情報処理装置およびプログラムを提供することができる。
本実施形態による情報処理装置の機能構成を示す図である。 作業動画の構成例を示す図である。 動画分割部による動画の分割の例を示す図である。 特徴要素としての手の動きのパターンを示す図であり、図4(A)は、説明場面における手の動きのパターンを示す図、図4(B)は、作業場面における手の動きのパターンを示す図である。 特徴要素としての被写体の相違を示す図であり、図5(A)は、説明場面の被写体を示す図、図5(B)は、作業場面の被写体を示す図である。 特徴要素としてのマウスポインタの動きのパターンを示す図であり、図6(A)は、説明場面におけるマウスポインタの動きのパターンを示す図、図6(B)は、作業場面におけるマウスポインタの動きのパターンを示す図である。 手の動きのパターンを特徴要素として場面識別を行った例を示す図である。 頭の向きの変化を特徴要素として場面識別を行った例を示す図である。 発話速度を特徴要素として場面識別を行った例を示す図である。 操作画面の変化を特徴要素として場面識別を行った例を示す図である。 作業手順ファイルに基づく出力画面の構成例を示す図である。 図12は、作業手順ファイルの出力画面においてテキストを選択して部分動画を再生させる様子を示す図であり、図12(A)はテキストの選択前の状態を示す図、図12(B)はテキストの選択が行われた状態を示す図である。 作業手順ファイルの出力画面において説明場面のテキストを選択して部分動画を再生させる様子を示す図であり、図13(A)は説明場面のテキストの選択前の状態を示す図、図13(B)は説明場面のテキストの選択が行われた状態を示す図である。 情報処理装置として用いられるコンピュータのハードウェア構成例を示す図である。
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
<情報処理装置の機能構成>
図1は、本実施形態による情報処理装置の機能構成を示す図である。情報処理装置100は、動画取得部10と、記憶部20と、動画分割部30と、特徴抽出部40と、場面識別部50と、区分処理部60と、音声認識部70と、ファイル作成部80とを備える。情報処理装置100は、例えば、パーソナルコンピュータ(PC)により実現される。
動画取得部10は、処理対象の動画を取得する。動画の取得は、ビデオカメラと情報処理装置100とを接続し、ビデオカメラのメモリに記憶されている動画を読み込んでも良いし、外部の記憶装置に保持されている動画ファイルをネットワーク(図示せず)を介して取得しても良い。
本実施形態における処理対象の動画は、撮影された場面が、特定場面と、特定場面についての説明が行われる説明場面とを含む動画である。特定場面は、いわば被説明場面(説明対象を撮影した場面)である。特定場面としては、被写体としての人物が、何らかの行動を行っている場面が挙げられる。行動の例としては、作業や操作、スポーツの実技、楽器の演奏等が挙げられる。また、特定場面としては、特定の現象(自然現象、人為的な現象を問わない)や事象が発生した(または起きている)様子を表す場面が挙げられる。本実施形態では、一例として、処理対象の動画として作業動画を取得する。作業動画とは、作業の様子を録画した動画である。作業の種類は特に限定しない。作業動画は、通常、説明場面と作業場面とを含んでいる。説明場面とは、作業内容を説明している場面である。作業場面とは、実際に作業を行っている様子を撮影した場面である。なお、本実施形態の適用対象は、作業動画に限定されず、上述した特定場面と説明場面とを含む種々の動画に対して適用し得る。
図2は、作業動画の構成例を示す図である。図2に示す作業動画は、説明場面SDと作業場面SWとが交互に現れている。まず、説明場面SD1があり、その後に、説明場面SD1で説明された作業が実際に行われる作業場面SW1がある。続いて、説明場面SD2があり、その後に、説明場面SD2で説明された作業が実際に行われる作業場面SW2がある。このように、作業動画の多くは、説明場面と説明された作業の作業場面とが組となって順番に現れるように構成される。
記憶部20は、動画取得部10により取得された作業動画を記憶して保持する。記憶部20は、例えば、RAM(Random Access Memory)、SSD(Solid State Drive)等のデータの書き込みが可能な半導体メモリや、磁気ディスク装置等で実現される。
動画分割部30は、動画取得部10により取得され記憶部20に保持された作業動画を、複数の部分動画に分割する。動画分割部30は、例えば、作業動画に録音された音声に基づいて作業動画の分割を行う。具体的には、動画分割部30は、作業動画の音声データを解析し、発話音声が録音されている個所(時刻)を特定する。そして、動画分割部30は、一の発話音声から次の発話音声までの動画を、一つの部分動画として分割する。生成された各部分動画は、記憶部20に保持される。
特徴抽出部40は、動画分割部30により作業動画を分割して得られた各部分動画を解析し、各々の部分動画から特徴要素を抽出する。特徴抽出部40は、特徴抽出手段の一例である。特徴要素とは、作業動画における説明場面と作業場面とをそれぞれ特徴づける要素である。特徴要素としては、例えば、撮影された作業者の挙動に関する特徴、撮影画面の構成に関する特徴等を用い得る。また、作業動画が操作画面における操作の様子を収録した動画である場合は、操作画面に表示された表示対象の変化に関する特徴を用い得る。特徴要素の詳細については後述する。抽出された特徴要素の情報は、その特徴要素が抽出された部分動画に関連付けられて、記憶部20に保持される。
場面識別部50は、特徴抽出部40により抽出された特徴要素に基づき、動画分割部30により分割された各部分動画の場面を識別し、説明場面の動画と作業場面の動画とに仕分ける。場面識別部50は、識別手段の一例である。特徴要素に基づく場面の識別の詳細については後述する。識別結果の情報は、識別対象の部分動画に関連付けられて、記憶部20に保持される。
区分処理部60は、場面識別部50による場面の識別結果に基づき、部分動画を作業ごとに区分する。区分処理部60は、区分手段の一例である。図2を参照して説明したように、作業動画の多くは、これから行う作業を説明する説明場面があり、そのあとに説明場面で説明した作業を実際に行う作業場面があるという構成を有する。そこで、区分処理部60は、説明場面とその説明場面に後続する作業場面とを、同じ作業に関する説明と作業であるものとして区分する。ここで、複数の説明場面の部分動画が継続する場合、および、複数の作業場面の部分動画が継続する場合は、区分処理部60は、それぞれ、ひとつの作業についての説明場面、作業場面が継続しているものと判断する。これは、動画分割部30が動画の発話音声に基づき動画を分割して部分動画を生成したことに起因する。例えば、作業場面の音声は、作業の合間に発せられることが多い。すると、動画分割部30は、一続きの作業の場面であっても、音声が発せられるたびに、部分動画として切り分けてしまう。そのため、作業場面の部分動画が連続する場合は、全体で一つの作業の場面として扱う。説明場面の部分動画についても同様である。区分処理部60による区分処理が行われた結果、各部分動画は、得られた区分ごとに関連付けられて、記憶部20に保持される。
音声認識部70は、各部分動画における音声データを音声認識し、テキストデータに変換する。生成されたテキストデータは、元となった音声データが含まれる部分動画に関連付けられて、記憶部20に保持される。なお、音声認識部70による音声認識は、既存の音声認識技術を用いて行って良い。
ファイル作成部80は、作業ごとに区分された部分動画と、音声認識部70により生成されたテキストデータを用いて、作業手順ファイルを作成する。作業手順ファイルとは、作業手順を説明するためのコンテンツ・ファイルである。作業手順ファイルは、作業動画を作業ごとに区分し、部分動画と部分動画の音声から得られたテキストとを対応付けたコンテンツである。作成された作業ファイルは、記憶部20に保持される。作業手順ファイルを実行可能なアプリケーション・プログラムにより作業手順ファイルを読み込んで実行すると、作業ごとに区分された作業動画(部分動画)とテキストが対応付けられた出力画面が生成され、表示装置(図示せず)に表示される。ファイル作成部80は、画面生成手段の一例である。
作業手順ファイルにおいて、部分動画と部分動画に対応するテキストとはリンクされている。したがって、出力画面においてテキストを選択すると、選択されたテキストに対応する部分動画が表示される。作業手順ファイルの出力画面の構成および機能の詳細については後述する。
<動画の分割の例>
次に、具体例を挙げて、動画分割部30による動画の分割についてさらに説明する。上述したように、動画分割部30は、例えば、作業動画に録音された発話音声に基づいて作業動画の分割を行う。したがって、動画に録音されている音響データのうち発話音声を識別する解析処理が行われる。ただし、ここでは機械の動作音や器具を使う際に発生する音等の環境音と発話音声とを区別できれば良く、音声認識までは必要ない。ただし、動画分割部30の処理により発話音声が抽出されるので、音声認識部70による音声認識をこの時点で行っても良い。
図3は、動画分割部30による動画の分割の例を示す図である。処理対象の作業動画には、発話音声Aから発話音声Gまでの7つの発話音声が収録されているものとする。各発話音声A~Gの間は、予め定められた一定以上の時間間隔があり、これによって各発話音声A~Gが別個の発話であると判断されている。動画分割部30は、発話音声Aの開始時刻から発話音声Bの開始時刻までの部分を、この発話音声Aに対応する場面1の部分動画とする。同様に、動画分割部30は、発話音声Bの開始時刻から発話音声Cの開始時刻までの部分を、この発話音声Bに対応する場面2の部分動画とする。同様に、動画分割部30は、発話音声Cの開始時刻から発話音声Dの開始時刻までの部分を、この発話音声Cに対応する場面3の部分動画とする。同様に、動画分割部30は、発話音声Dの開始時刻から発話音声Eの開始時刻までの部分を、この発話音声Dに対応する場面4の部分動画とする。同様に、動画分割部30は、発話音声Eの開始時刻から発話音声Fの開始時刻までの部分を、この発話音声Eに対応する場面5の部分動画とする。同様に、動画分割部30は、発話音声Fの開始時刻から発話音声Gの開始時刻までの部分を、この発話音声Fに対応する場面6の部分動画とする。同様に、動画分割部30は、発話音声Gの開始時刻以降の部分を、この発話音声Gに対応する場面7の部分動画とする。以上のようにして、作業動画は、発話音声A~Gに各々対応する7つの部分動画に分割される。
<特徴要素の例>
次に、具体例を挙げて、特徴抽出部40により部分動画から抽出される特徴要素についてさらに説明する。特徴要素の一例として、画面に映っている作業者の挙動に関する特徴がある。具体的には、手の動き、頭や視線の動きといった、作業者における特定の身体の部分の動きのパターンを特徴要素として抽出する。例えば、手の動きを特徴要素として抽出する場合を考える。
図4は、特徴要素としての手の動きのパターンを示す図である。図4(A)は、説明場面における手の動きのパターンを示す図、図4(B)は、作業場面における手の動きのパターンを示す図である。図4では、それぞれの場面において、一定の時間間隔ごとに部分動画の画面110における作業者の手の位置を描画している。作業者が作業の説明をする場合、身振り手振りを交えて作業内容の説明を行うことが考えられる。したがって、図4(A)に示すように、広い領域にわたって手が移動する。一方、作業者が作業を行っている場合、作業者の手は、作業が行われている位置から大きく外れて動くことは少ないと考えられる。したがって、図4(B)に示すように、特定の狭い領域111内に手の位置は収まっている。そこで、場面の識別要件として、部分動画における手の移動範囲に対して一定の閾値を設定し、閾値よりも広い範囲で手が移動する場合は説明場面と判断し、閾値よりも狭い範囲で手が移動する場合は作業場面と判断する。
特徴要素として作業者の挙動に関する特徴を用いる場合、作業者の発話における音声パターンを特徴要素として用いても良い。作業者が作業の説明をしているときの発話パターンと作業を行っているときの発話パターンとを比較すると、後者では作業をしながらの発話であるため、前者の場合よりも発話速度が遅いと考えられる。そこで、場面の識別要件として、発話速度に対して一定の閾値を設定し、閾値よりも早い発話速度の場合は説明場面と判断し、閾値よりも遅い発話速度の場合は作業場面と判断する。
特徴要素の他の一例として、撮影された画面の構成に関する特徴がある。具体的には、主な被写体として撮影されている対象の相違を特徴要素として抽出する。例えば、被写体が人物像であるか否かを特徴要素として抽出する場合を考える。
図5は、特徴要素としての被写体の相違を示す図である。図5(A)は、説明場面の被写体を示す図、図5(B)は、作業場面の被写体を示す図である。図5では、それぞれの場面における部分動画の画面110が示されている。作業者が作業の説明をする場合、被写体は説明を行っている作業者自身であることが考えられる。したがって、図5(A)に示すように、人物像が主な被写体となる。一方、作業者が作業を行っている場合、被写体は作業が行われている個所(例えば、手作業であれば手もと)であることが考えられる。したがって、図5(B)に示すように、人物像ではなく作業個所が主な被写体となる。そこで、場面の識別要件として、主な被写体が人物像か否かという条件を設定し、主な被写体が人物像である場合は説明場面と判断し、主な被写体が人物像でない場合は作業場面と判断する。
特徴要素の他の一例として、作業動画が操作画面における操作の様子を収録した動画である場合に用いることができる、操作画面に表示された表示対象の変化に関する特徴がある。具体的には、マウスポインタの動き、表示されている画像の形状や色彩の変化のパターンを特徴要素として抽出する。例えば、マウスポインタの動きを特徴要素として抽出する場合を考える。
図6は、特徴要素としてのマウスポインタの動きのパターンを示す図である。図6(A)は、説明場面におけるマウスポインタの動きのパターンを示す図、図6(B)は、作業場面におけるマウスポインタの動きのパターンを示す図である。図6では、それぞれの場面において、マウスポインタが画面内をどのように移動したかを示している。作業者がこれから行う作業としての操作画面の操作の説明をする場合、表示されている画面の説明が主な内容となるため、マウスポインタは、説明中に注目してほしい場所に移動する程度であると考えられる。したがって、図6(A)に示すように、マウスポインタの動きは、比較的単調で静かな動きとなる。一方、作業者が作業を行っている場合、作業に伴ってマウスポインタが操作されると考えられる。したがって、図6(B)に示すように、マウスポインタの動きは、説明場面の場合と比較して、複雑で激しいものとなる。ここで、マウスポインタの動きの複雑さ、激しさは、マウスポインタの移動方向が変化する回数や、マウスポインタの移動距離で特定し得る。そこで、場面の識別要件として、部分動画におけるマウスポインタの移動方向の変化の回数および移動距離に対して一定の閾値を設定し、閾値よりも小さい値である場合は説明場面と判断し、閾値よりも大きい値である場合は作業場面と判断する。
<場面識別の例>
次に、具体例を挙げて場面識別部50による場面識別についてさらに説明する。場面識別部50は、各部分画像から抽出された特徴要素に基づき、各部分動画に関して、説明場面の動画か作業場面の動画かの識別を行う。ここでは、図3を参照して説明した場面1~場面7の各部分動画の場面を識別するものとする。
図7は、手の動きのパターンを特徴要素として場面識別を行った例を示す図である。図7を参照すると、場面1および場面5では、手の動きのあった領域の広さが閾値T1よりも広かった。そこで、場面識別部50は、場面1および場面5の部分動画を説明場面と判断した。一方、場面2~場面4、場面6および場面7では、手の動きのあった領域の広さが閾値T1よりも狭かった。そこで、場面識別部50は、場面2~場面4、場面6および場面7の部分動画を作業場面と判断した。
図8は、頭の向きの変化を特徴要素として場面識別を行った例を示す図である。頭の向きの変化を特徴要素とする場合、頭の向きが様々な方向へ変わる場合は説明場面と判断し、頭の向きが比較的決まった方向に向いている場合は作業画面と判断するものとする。図8を参照すると、場面1および場面5では、頭の向きの分散が閾値T2よりも大きかった(様々な方向を向いていた)。そこで、場面識別部50は、場面1および場面5の部分動画を説明場面と判断した。一方、場面2~場面4、場面6および場面7では、頭の向きの分散さが閾値T2よりも小さかった(特定の方向を向いていた)。そこで、場面識別部50は、場面2~場面4、場面6および場面7の部分動画を作業場面と判断した。
図9は、発話速度を特徴要素として場面識別を行った例を示す図である。図9を参照すると、場面1および場面5では、発話速度が閾値T3よりも速かった。そこで、場面識別部50は、場面1および場面5の部分動画を説明場面と判断した。一方、場面2~場面4、場面6および場面7では、発話速度が閾値T3よりも遅かった。そこで、場面識別部50は、場面2~場面4、場面6および場面7の部分動画を作業場面と判断した。
図10は、操作画面の変化を特徴要素として場面識別を行った例を示す図である。ここでは、操作画面の変化としてマウスポインタの移動量に着目している。図10を参照すると、場面1および場面5では、マウスポインタの移動量が閾値T4よりも少なかった。そこで、場面識別部50は、場面1および場面5の部分動画を説明場面と判断した。一方、場面2~場面4、場面6および場面7では、マウスポインタの移動量が閾値T4よりも多かった。そこで、場面識別部50は、場面2~場面4、場面6および場面7の部分動画を作業場面と判断した。
以上、いくつかの特徴要素に基づいて部分動画の場面を識別する例を示した。上記の各例では、いずれも場面1および場面5の部分動画が説明場面と判断され、場面2~場面4、場面6および場面7の部分動画が作業場面と判断された。しかしながら、異なる特徴要素で判断した場合に異なる判断結果が得られる場合もあり得る。そのような場合は、より多くの特徴要素による判断で示された識別結果を採用しても良い。また、特徴要素ごとに異なる重みを付与して識別を行っても良い。複数の特徴要素に基づいて場面識別を行うことにより、識別精度が向上する。
<作業手順ファイルの出力画面の例>
次に、具体例を挙げて、ファイル作成部80により作成される作業手順ファイルの出力画面についてさらに説明する。上述したように作業手順ファイルがアプリケーション・プログラムにより読み込まれて実行されると、作業手順ファイルの内容にしたがって出力画面が生成され、表示装置に表示される。
図11は、作業手順ファイルに基づく出力画面の構成例を示す図である。出力画面120は、動画を表示する動画表示領域121および縮小画像表示領域122と、テキストを表示するテキスト表示領域123とを有する。動画表示領域121に表示される動画は、作業動画から得られた部分動画である。縮小画像表示領域122に表示される画像は、部分動画の縮小画像である。図11に示す例では、縮小画像表示領域122には3つの画像122a、122b、122cが表示されている。画像122bは、動画表示領域121に表示されている部分動画を示す画像である。画像122aは、動画表示領域121に表示されている部分動画の一つ前の部分動画を示す画像である。画像122cは、動画表示領域121に表示されている部分動画の一つ後の部分動画を示す画像である。テキスト表示領域123に表示されるテキストは、音声認識部70により生成された、部分動画の音声から取得されたテキストである。
図11に示す例において、作業手順ファイルにおける部分動画およびテキストは、図3を参照して説明した場面1~場面7に関し、図7~図8を参照して説明した識別結果に基づいて各部分動画の場面が特定されているものとする。また、作業手順ファイルにおける部分動画およびテキストは、区分処理部60の処理により作業ごとに区分されている。すなわち、説明場面である場面1と、これに後続する作業場面である場面2~場面4とが、一つの作業として区分されている。また、説明場面である場面5と、これに後続する作業場面である場面6および場面7とが、一つの作業として区分されている。したがって、テキスト表示領域123に表示されたテキストには、付番により作業ごとの区分が示されている。すなわち、場面1に対応するテキストAには「1」と付番されており、場面2に対応するテキストBに「1.1」、場面3に対応するテキストCに「1.2」、場面4に対応するテキストDに「1.3」とそれぞれ付番されている。ここで、テキストAの番号には枝番がなく、テキストB~テキストDの番号は、各々、テキストAの番号に枝番を付した番号となっている。これにより、テキストA~テキストDおよびこれらに対応する場面1~場面4が、一つの作業に対応するものとして区分されていることがわかる。テキストAの枝番のない番号を区分番号と呼ぶことにする。すなわち、テキストA~テキストDおよびこれらに対応する場面1~場面4は、区分番号「1」に区分される作業に関するコンテンツである。
同様に、場面5に対応するテキストEには「2」と付番されており、場面6に対応するテキストFに「2.1」、場面7に対応するテキストGに「2.2」とそれぞれ付番されている。テキストEの番号は区分番号「2」であり、テキストFおよびテキストGの番号は区分番号「2」に各々枝番を付した番号である。したがって、テキストE~テキストGおよびこれらに対応する場面5~場面7は、一つの作業に対応するものとして区分されており、区分番号「2」に区分される作業に関するコンテンツである。このように、作業手順ファイルの出力画面120では、作業区分ごとに識別可能な表示が行われる。
作業手順ファイルにおいて、各テキストは、そのテキストが取得された部分動画に対応付けられており、出力画面120において、テキストとこのテキストに対応する部分動画との間にはリンクが張られている。これにより、出力画面120のテキスト表示領域123に表示されたテキストは、部分動画のインデックスとしての機能を有する。操作者は、テキストを選択することにより、出力画面120において選択したテキストに対応する部分動画を再生させることができる。
図12は、作業手順ファイルの出力画面においてテキストを選択(指定)して部分動画を再生させる様子を示す図である。図12(A)はテキストの選択(指定)前の状態を示す図、図12(B)はテキストの選択(指定)が行われた状態を示す図である。図12(A)に示すように、テキストの選択前において、出力画面120の動画表示領域121には、場面3の部分動画が表示されている。テキスト表示領域123では、場面3の部分動画に対応する番号「1.2」のテキストCに、対応する部分動画が表示されていることを示す表示(図示の例ではテキストを囲む枠線124)が行われ、表示中の部分動画に対応するテキストであることが識別可能となっている。また、縮小画像表示領域122においても、動画表示領域121に表示された部分動画に対応する画像122bが太枠で囲まれている。この状態から、番号「2.2」のテキストGが選択されたものとする(図12(B)参照)。テキストの選択は、例えば、テキスト表示領域123において指定しようとするテキストに対してマウスクリック等の予め定められた操作をすることで行われる。図12(B)を参照すると、テキスト表示領域123において、選択された番号「2.2」のテキストGにテキストを囲む枠線124が表示されており、動画表示領域121には、場面7の部分動画が表示されている。すなわち、テキストGを選択することにより、テキストGに対応する場面7の動画へジャンプし再生された。なお、図12(B)において、動画表示領域121に表示された部分画像は、この作業手順ファイルの最後の部分動画であり、この後に他の部分動画が存在しないため、縮小画像表示領域122には、後続の部分動画を示す画像122cが表示されていない。
ここで、説明場面のテキストおよび部分動画についてさらに説明する。作業手順ファイルでは、動画は作業の様子を視覚的に示すのに用いられる。したがって、説明場面の部分動画は、作業手順ファイルにおいては必ずしも必要ではない。そこで、説明場面に関しては、テキストに対応する部分動画を作業手順ファイルに含まないようにしても良い。この場合、作業手順ファイルにおいて説明場面のテキストは、その説明場面が含まれる作業区分(場面ごとの内容の区分)全体に対応させる。一例として、上記のように、作業手順ファイルの出力画面120においてテキストと部分動画とをリンクさせる場合、説明場面のテキストは、その説明場面が含まれる作業区分の先頭の動画とリンクさせる。
図13は、作業手順ファイルの出力画面において説明場面のテキストを選択(指定)して部分動画を再生させる様子を示す図である。図13(A)は説明場面のテキストの選択(指定)前の状態を示す図、図13(B)は説明場面のテキストの選択(指定)が行われた状態を示す図である。テキストの選択前の状態は、図12(B)に示した例と同様である。すなわち、出力画面120の動画表示領域121に場面3の部分動画が表示され、テキスト表示領域123において、場面3の部分動画に対応する番号「1.2」のテキストCに、対応する部分動画が表示されていることを示す表示(枠線124)が行われている。この状態から番号「2」のテキストEが選択されたものとする。図13(B)を参照すると、テキスト表示領域123において、選択された番号「2」のテキストEにテキストを囲む枠線124が表示されている。そして、動画表示領域121には、テキストE~テキストGの作業区分における先頭の部分動画が表示されている。ここでは、テキストEに対応する場面5の部分動画が説明場面であるために削除されているので、この作業区分の先頭である場面6の部分動画が動画表示領域121に表示されている。すなわち、説明場面のテキストEを選択することにより、テキストEを含む作業区分の一連の部分動画のうちの先頭である場面6の動画へジャンプし再生された。
<ハードウェア構成例>
図14は、情報処理装置100として用いられるコンピュータのハードウェア構成例を示す図である。図14に示すコンピュータ200は、演算手段であるCPU(Central Processing Unit)201と、記憶手段である主記憶装置(メイン・メモリ)202および外部記憶装置203を備える。CPU201は、外部記憶装置203に格納されたプログラムを主記憶装置202に読み込んで実行する。主記憶装置202としては、例えばRAM(Random Access Memory)が用いられる。外部記憶装置203としては、例えば磁気ディスク装置やSSD(Solid State Drive)等が用いられる。また、コンピュータ200は、表示装置(ディスプレイ)210に表示出力を行うための表示機構204と、コンピュータ200のユーザによる入力操作が行われる入力デバイス205とを備える。入力デバイス205としては、例えばキーボードやマウス等が用いられる。また、コンピュータ200は、ネットワークに接続するためのネットワーク・インターフェイス206を備える。なお、図14に示すコンピュータ200の構成は一例に過ぎず、本実施形態で用いられるコンピュータは図14の構成例に限定されるものではない。例えば、記憶装置としてフラッシュ・メモリ等の不揮発性メモリやROM(Read Only Memory)を備える構成としても良い。
図1に示した情報処理装置100が図14に示すコンピュータ200により実現される場合、動画取得部10は、例えば、ネットワーク・インターフェイス206により実現される。記憶部20は、例えば、主記憶装置202や外部記憶装置203により実現される。動画分割部30、特徴抽出部40、場面識別部50、区分処理部60、音声認識部70およびファイル作成部80は、例えば、CPU201がプログラムを実行することにより実現される。
以上、本発明の実施形態について説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の技術思想の範囲から逸脱しない様々な変更や構成の代替は、本発明に含まれる。例えば、ファイル作成部80は、作業手順ファイルにおいて、説明場面に対応するテキストを加工し、作業区分のタイトルとしても良い。説明場面では、「まず、○○の作業を行います」や、「次に、○○します」のような、これから行う作業を示す定型的な台詞が発せられることが多い。そこで、テキストに対し、「まず」、「最初に」、「次に」等の作業区分の順番を表す語や末尾の述語を削除するような成形を行う。これにより、説明場面に対応するテキストを、作業区分のタイトルとして出力画面120に表示し得る。
また、特徴抽出部40により抽出される特徴は、上述した例に限定されない。例えば、上記の例では、特徴要素として作業者の挙動に関する特徴を用いる場合として、作業者の発話における発話速度を特徴として抽出する例を挙げた。この他、発話における音声の大きさ等を特徴として抽出しても良い。また、音声認識まで行い、「ここ」、「これ」のような指示語の出現頻度を特徴として抽出しても良い。この場合、例えば、部分動画において指示語の出現頻度が閾値よりも大きい場合に、その部分動画の場面を作業場面と判断し得る。
また、本実施形態は、作業動画以外に、説明場面と被説明場面とを含む種々の動画に対して適用し得る。説明場面による説明対象が作業以外の対象である動画の場合、具体的な説明対象(スポーツの実技、楽器の演奏、現象、事象など)に応じて、説明場面と被説明場面とを特徴付ける特徴要素を選択的にあるいは付加的に用いて場面の識別を行っても良い。
10…動画取得部、20…記憶部、30…動画分割部、40…特徴抽出部、50…場面識別部、60…区分処理部、70…音声認識部、80…ファイル作成部、120…出力画面、121…動画表示領域、122…縮小画像表示領域、123…テキスト表示領域

Claims (16)

  1. 動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
    前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
    前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
    識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段と、
    を備えることを特徴とする、情報処理装置。
  2. 前記特徴抽出手段は、前記動画を解析して得られる、撮影された人物の挙動に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項1に記載の情報処理装置。
  3. 前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の特定の身体部分の動きのパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項2に記載の情報処理装置。
  4. 前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の発話における音声パターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項2に記載の情報処理装置。
  5. 前記特徴抽出手段は、前記動画を解析して得られる、画像の構成に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項1に記載の情報処理装置。
  6. 前記動画として作業および当該作業の説明の動画を用い、
    前記特徴抽出手段は、前記画像の構成に関する特徴として、作業者を被写体とする画像と作業個所を被写体とする画像とを区別し得る特徴を抽出し、
    前記識別手段は、前記動画の部分が前記作業者を被写体とする画像であるか、前記作業個所を被写体とする画像であるかを識別条件の一つとして、前記説明場面と前記被説明場面である作業場面とを識別することを特徴とする、請求項5に記載の情報処理装置。
  7. 前記特徴抽出手段は、操作画面における操作の様子を収録した前記動画を解析して得られる、当該操作画面に表示された表示対象の変化に関する特徴を、前記特徴要素として抽出し、
    前記識別手段は、特定の前記表示対象の変化のパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項1に記載の情報処理装置。
  8. 前記区分手段により区分された動画の部分と当該動画の部分に対応する音声から得られるテキストとを表示する出力画面を生成する画面生成手段をさらに備えることを特徴とする、請求項1に記載の情報処理装置。
  9. 前記画面生成手段により生成される出力画面は、前記動画の部分と当該動画の部分に対応する音声から得られる前記テキストとが関連付けられており、テキストの一部を指示すると、指示されたテキスト部分に対応する動画の部分が再生されることを特徴とする、請求項8に記載の情報処理装置。
  10. 前記画面生成手段は、前記動画の部分のうち、前記説明場面の動画を削除することを特徴とする、請求項9に記載の情報処理装置。
  11. 前記画面生成手段は、削除した前記説明場面の動画に対応するテキストを、当該説明場面の直後に位置する前記被説明場面の動画に関連付けることを特徴とする、請求項10に記載の情報処理装置。
  12. 前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記説明場面の動画に対応するテキストと、前記被説明場面に対応するテキストとが識別可能に表示されることを特徴とする、請求項8または請求項9に記載の情報処理装置。
  13. 前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記区分手段により区分された前記動画の部分が識別可能に表示されることを特徴とする、請求項8または請求項9に記載の情報処理装置。
  14. 前記分割手段は、一の発話音声から次の発話音声までの動画を、一つの前記部分動画として分割することを特徴とする、請求項1に記載の情報処理装置。
  15. 前記区分手段は、
    説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する説明場面の動画として区分し、
    被説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する被説明場面の動画として区分することを特徴とする、請求項14に記載の情報処理装置。
  16. コンピュータを、
    動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
    前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
    前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
    識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段として、
    機能させることを特徴とする、プログラム。
JP2018081321A 2018-04-20 2018-04-20 情報処理装置およびプログラム Active JP7143620B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018081321A JP7143620B2 (ja) 2018-04-20 2018-04-20 情報処理装置およびプログラム
CN201910168319.8A CN110390242B (zh) 2018-04-20 2019-03-06 信息处理装置以及存储介质
US16/382,217 US11386658B2 (en) 2018-04-20 2019-04-12 Information processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018081321A JP7143620B2 (ja) 2018-04-20 2018-04-20 情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2019191738A JP2019191738A (ja) 2019-10-31
JP7143620B2 true JP7143620B2 (ja) 2022-09-29

Family

ID=68236437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018081321A Active JP7143620B2 (ja) 2018-04-20 2018-04-20 情報処理装置およびプログラム

Country Status (3)

Country Link
US (1) US11386658B2 (ja)
JP (1) JP7143620B2 (ja)
CN (1) CN110390242B (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001527304A (ja) 1997-12-19 2001-12-25 シャープ株式会社 ディジタル動画の階層的要約及び閲覧方法
US20070055695A1 (en) 2005-08-24 2007-03-08 International Business Machines Corporation System and method for semantic video segmentation based on joint audiovisual and text analysis
JP2011188342A (ja) 2010-03-10 2011-09-22 Sony Corp 情報処理装置、情報処理方法及びプログラム
US20170069349A1 (en) 2015-09-07 2017-03-09 Bigvu Inc Apparatus and method for generating a video file by a presenter of the video

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003178076A (ja) 2001-12-10 2003-06-27 Ricoh Co Ltd 映像データ編集・検索装置
JP2005065191A (ja) 2003-08-20 2005-03-10 Ntt Comware Corp 動画メタデータ自動作成装置及び動画メタデータ自動作成プログラム
JP2006339817A (ja) * 2005-05-31 2006-12-14 Toshiba Corp 情報処理装置およびその表示方法
JP2007052626A (ja) 2005-08-18 2007-03-01 Matsushita Electric Ind Co Ltd メタデータ入力装置およびコンテンツ処理装置
JP2007082088A (ja) 2005-09-16 2007-03-29 Matsushita Electric Ind Co Ltd コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム
JP2007101945A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
US8462980B2 (en) * 2008-05-08 2013-06-11 Utc Fire & Security System and method for video detection of smoke and flame
CN101692269B (zh) * 2009-10-16 2015-06-03 北京中星微电子有限公司 一种处理视频节目的方法和装置
JP5424852B2 (ja) * 2009-12-17 2014-02-26 キヤノン株式会社 映像情報処理方法及びその装置
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US9165182B2 (en) * 2013-08-19 2015-10-20 Cisco Technology, Inc. Method and apparatus for using face detection information to improve speaker segmentation
CN105183758A (zh) * 2015-07-22 2015-12-23 深圳市万姓宗祠网络科技股份有限公司 一种连续记录视频、影像的内容识别方法
US10262239B2 (en) * 2016-07-26 2019-04-16 Viisights Solutions Ltd. Video content contextual classification
CN107688792B (zh) * 2017-09-05 2020-06-05 语联网(武汉)信息技术有限公司 一种视频翻译方法及其***
US10740620B2 (en) * 2017-10-12 2020-08-11 Google Llc Generating a video segment of an action from a video

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001527304A (ja) 1997-12-19 2001-12-25 シャープ株式会社 ディジタル動画の階層的要約及び閲覧方法
US20070055695A1 (en) 2005-08-24 2007-03-08 International Business Machines Corporation System and method for semantic video segmentation based on joint audiovisual and text analysis
JP2011188342A (ja) 2010-03-10 2011-09-22 Sony Corp 情報処理装置、情報処理方法及びプログラム
US20170069349A1 (en) 2015-09-07 2017-03-09 Bigvu Inc Apparatus and method for generating a video file by a presenter of the video

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
渡辺 陽介、勝山 裕、直井 聡、横田 治夫,テロップ情報による語学番組シーン検索手法の評価,情報処理学会研究報告,日本,一般社団法人情報処理学会,2010年12月15日

Also Published As

Publication number Publication date
CN110390242B (zh) 2024-03-12
US11386658B2 (en) 2022-07-12
JP2019191738A (ja) 2019-10-31
US20190325226A1 (en) 2019-10-24
CN110390242A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
JP3848319B2 (ja) 情報処理方法及び情報処理装置
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
CN111615696B (zh) 用于相关性检测和审阅的内容的交互式表示
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
US7945142B2 (en) Audio/visual editing tool
KR100446627B1 (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
JP2008175955A (ja) インデキシング装置、方法及びプログラム
JPWO2008146616A1 (ja) 画像音響区間群対応付け装置と方法およびプログラム
Ringeval et al. Emotion recognition in the wild: Incorporating voice and lip activity in multimodal decision-level fusion
Liang et al. Computational modeling of human multimodal language: The mosei dataset and interpretable dynamic fusion
CN111785299B (zh) 一种语音测评方法、装置、设备及计算机存储介质
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP7143620B2 (ja) 情報処理装置およびプログラム
JP2007316323A (ja) トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
Sukhummek et al. Feature selection experiments on emotional speech classification
JP2006251553A (ja) トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
US20240126994A1 (en) Transcript paragraph segmentation and visualization of transcript paragraphs
US20240127857A1 (en) Face-aware speaker diarization for transcripts and text-based video editing
JP2019213160A (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
US20240127855A1 (en) Speaker thumbnail selection and speaker visualization in diarized transcripts for text-based video
US20240135973A1 (en) Video segment selection and editing using transcript interactions
US20240127858A1 (en) Annotated transcript text and transcript thumbnail bars for text-based video editing
US20240127820A1 (en) Music-aware speaker diarization for transcripts and text-based video editing
KR20190133361A (ko) 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체
US20240134909A1 (en) Visual and text search interface for text-based video editing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220829

R150 Certificate of patent or registration of utility model

Ref document number: 7143620

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150