JP7143620B2 - 情報処理装置およびプログラム - Google Patents
情報処理装置およびプログラム Download PDFInfo
- Publication number
- JP7143620B2 JP7143620B2 JP2018081321A JP2018081321A JP7143620B2 JP 7143620 B2 JP7143620 B2 JP 7143620B2 JP 2018081321 A JP2018081321 A JP 2018081321A JP 2018081321 A JP2018081321 A JP 2018081321A JP 7143620 B2 JP7143620 B2 JP 7143620B2
- Authority
- JP
- Japan
- Prior art keywords
- scene
- moving image
- explanation
- work
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 44
- 230000008859 change Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 44
- 238000000034 method Methods 0.000 description 34
- 230000006399 behavior Effects 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000037078 sports performance Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
Description
動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段と、
を備えることを特徴とする、情報処理装置である。
請求項2に係る本発明は、
前記特徴抽出手段は、前記動画を解析して得られる、撮影された人物の挙動に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項1に記載の情報処理装置である。
請求項3に係る本発明は、
前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の特定の身体部分の動きのパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項2に記載の情報処理装置である。
請求項4に係る本発明は、
前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の発話における音声パターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項2に記載の情報処理装置である。
請求項5に係る本発明は、
前記特徴抽出手段は、前記動画を解析して得られる、画像の構成に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項1に記載の情報処理装置である。
請求項6に係る本発明は、
前記動画として作業および当該作業の説明の動画を用い、
前記特徴抽出手段は、前記画像の構成に関する特徴として、作業者を被写体とする画像と作業個所を被写体とする画像とを区別し得る特徴を抽出し、
前記識別手段は、前記動画の部分が前記作業者を被写体とする画像であるか、前記作業個所を被写体とする画像であるかを識別条件の一つとして、前記説明場面と前記被説明場面である作業場面とを識別することを特徴とする、請求項5に記載の情報処理装置である。
請求項7に係る本発明は、
前記特徴抽出手段は、操作画面における操作の様子を収録した前記動画を解析して得られる、当該操作画面に表示された表示対象の変化に関する特徴を、前記特徴要素として抽出し、
前記識別手段は、特定の前記表示対象の変化のパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項1に記載の情報処理装置である。
請求項8に係る本発明は、
前記区分手段により区分された動画の部分と当該動画の部分に対応する音声から得られるテキストとを表示する出力画面を生成する画面生成手段をさらに備えることを特徴とする、請求項1に記載の情報処理装置である。
請求項9に係る本発明は、
前記画面生成手段により生成される出力画面は、前記動画の部分と当該動画の部分に対応する音声から得られる前記テキストとが関連付けられており、テキストの一部を指示すると、指示されたテキスト部分に対応する動画の部分が再生されることを特徴とする、請求項8に記載の情報処理装置である。
請求項10に係る本発明は、
前記画面生成手段は、前記動画の部分のうち、前記説明場面の動画を削除することを特徴とする、請求項9に記載の情報処理装置である。
請求項11に係る本発明は、
前記画面生成手段は、削除した前記説明場面の動画に対応するテキストを、当該説明場面の直後に位置する前記被説明場面の動画に関連付けることを特徴とする、請求項10に記載の情報処理装置である。
請求項12に係る本発明は、
前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記説明場面の動画に対応するテキストと、前記被説明場面に対応するテキストとが識別可能に表示されることを特徴とする、請求項8または請求項9に記載の情報処理装置である。
請求項13に係る本発明は、
前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記区分手段により区分された前記動画の部分が識別可能に表示されることを特徴とする、請求項8または請求項9に記載の情報処理装置である。
請求項14に係る本発明は、
前記分割手段は、一の発話音声から次の発話音声までの動画を、一つの前記部分動画として分割することを特徴とする、請求項1に記載の情報処理装置である。
請求項15に係る本発明は、
前記区分手段は、
説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する説明場面の動画として区分し、
被説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する被説明場面の動画として区分することを特徴とする、請求項14に記載の情報処理装置である。
請求項16に係る本発明は、
コンピュータを、
動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段として、
機能させることを特徴とする、プログラムである。
請求項2の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、撮影された人物の挙動に基づいて説明場面と被説明場面とを識別する指標を得ることができる。
請求項3の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、撮影された人物の動作が異なる被説明場面と説明場面を分けることができ、個々の場面における内容の区切りを特定することができる。
請求項4の発明によれば、人物の発話内容に基づいて動画を分類する構成と比較して、撮影された人物の発話内容を解析することなく被説明場面と説明場面を識別し、個々の場面における内容の区切りを特定することができる。
請求項5の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、画像の構成に基づいて説明場面と被説明場面とを識別する指標を得ることができる。
請求項6の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、画像の構成が異なる作業場面と説明場面を分けることができ、個々の作業の区切りを特定することができる。
請求項7の発明によれば、人為的な操作により分割するための基準を動画に設定する構成と比較して、かかる作業の手間をかけることなく、PC等の操作の動画に関して、説明場面と被説明場面とを識別する指標を得ることができる。
請求項8の発明によれば、単に動画を分類する構成と比較して、動画内の発話内容をテキストで確認することができる。
請求項9の発明によれば、単に動画を分類する構成と比較して、動画内の発話内容から得られたテキストを索引として用いることで、動画の検索に要する手間を削減することができる。
請求項10の発明によれば、単に動画を分類する構成と比較して、データ量を削減することができる。
請求項11の発明によれば、説明場面に対応する動画を単に削除する構成と比較して、動画内の説明場面の発話内容から得られたテキストを動画の索引として用いることができる。
請求項12の発明によれば、単に動画を分類する構成と比較して、動画の場面を識別可能に表示されたテキストを索引として用いることで、説明場面か被説明場面かを認識して動画を検索することができる。
請求項13の発明によれば、単に動画を分類する構成と比較して、場面ごとの内容の区分を識別可能に表示されたテキストを索引として用いることで、場面ごとの内容の区分を識別して動画を検索することができる。
請求項14の発明によれば、動画に収録された音声の解析結果に基づいて動画を分割する構成と比較して、動画の分割に要する処理の負荷を軽減することができる。
請求項15の発明によれば、動画を解析して説明場面および被説明場面の動画の区分を特定する構成と比較して、動画の区分に要する処理の負荷を軽減することができる。
請求項16の発明によれば、動画に収録された音声を認識して得られる語句や予め登録されたメタデータを用いて動画の場面を分類する構成と比較して、本発明のプログラムを実行するコンピュータにおいて、動画における説明の個所と説明された対象が撮影された個所とで異なる特徴要素に基づいて動画の場面を切り分け、説明場面と被説明場面とを含む区分を識別する情報処理装置およびプログラムを提供することができる。
<情報処理装置の機能構成>
図1は、本実施形態による情報処理装置の機能構成を示す図である。情報処理装置100は、動画取得部10と、記憶部20と、動画分割部30と、特徴抽出部40と、場面識別部50と、区分処理部60と、音声認識部70と、ファイル作成部80とを備える。情報処理装置100は、例えば、パーソナルコンピュータ(PC)により実現される。
次に、具体例を挙げて、動画分割部30による動画の分割についてさらに説明する。上述したように、動画分割部30は、例えば、作業動画に録音された発話音声に基づいて作業動画の分割を行う。したがって、動画に録音されている音響データのうち発話音声を識別する解析処理が行われる。ただし、ここでは機械の動作音や器具を使う際に発生する音等の環境音と発話音声とを区別できれば良く、音声認識までは必要ない。ただし、動画分割部30の処理により発話音声が抽出されるので、音声認識部70による音声認識をこの時点で行っても良い。
次に、具体例を挙げて、特徴抽出部40により部分動画から抽出される特徴要素についてさらに説明する。特徴要素の一例として、画面に映っている作業者の挙動に関する特徴がある。具体的には、手の動き、頭や視線の動きといった、作業者における特定の身体の部分の動きのパターンを特徴要素として抽出する。例えば、手の動きを特徴要素として抽出する場合を考える。
次に、具体例を挙げて場面識別部50による場面識別についてさらに説明する。場面識別部50は、各部分画像から抽出された特徴要素に基づき、各部分動画に関して、説明場面の動画か作業場面の動画かの識別を行う。ここでは、図3を参照して説明した場面1~場面7の各部分動画の場面を識別するものとする。
次に、具体例を挙げて、ファイル作成部80により作成される作業手順ファイルの出力画面についてさらに説明する。上述したように作業手順ファイルがアプリケーション・プログラムにより読み込まれて実行されると、作業手順ファイルの内容にしたがって出力画面が生成され、表示装置に表示される。
図14は、情報処理装置100として用いられるコンピュータのハードウェア構成例を示す図である。図14に示すコンピュータ200は、演算手段であるCPU(Central Processing Unit)201と、記憶手段である主記憶装置(メイン・メモリ)202および外部記憶装置203を備える。CPU201は、外部記憶装置203に格納されたプログラムを主記憶装置202に読み込んで実行する。主記憶装置202としては、例えばRAM(Random Access Memory)が用いられる。外部記憶装置203としては、例えば磁気ディスク装置やSSD(Solid State Drive)等が用いられる。また、コンピュータ200は、表示装置(ディスプレイ)210に表示出力を行うための表示機構204と、コンピュータ200のユーザによる入力操作が行われる入力デバイス205とを備える。入力デバイス205としては、例えばキーボードやマウス等が用いられる。また、コンピュータ200は、ネットワークに接続するためのネットワーク・インターフェイス206を備える。なお、図14に示すコンピュータ200の構成は一例に過ぎず、本実施形態で用いられるコンピュータは図14の構成例に限定されるものではない。例えば、記憶装置としてフラッシュ・メモリ等の不揮発性メモリやROM(Read Only Memory)を備える構成としても良い。
Claims (16)
- 動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段と、
を備えることを特徴とする、情報処理装置。 - 前記特徴抽出手段は、前記動画を解析して得られる、撮影された人物の挙動に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項1に記載の情報処理装置。
- 前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の特定の身体部分の動きのパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項2に記載の情報処理装置。
- 前記識別手段は、前記特徴抽出手段により抽出された人物の挙動に関する特徴のうち、当該人物の発話における音声パターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項2に記載の情報処理装置。
- 前記特徴抽出手段は、前記動画を解析して得られる、画像の構成に関する特徴を、前記特徴要素として抽出することを特徴とする、請求項1に記載の情報処理装置。
- 前記動画として作業および当該作業の説明の動画を用い、
前記特徴抽出手段は、前記画像の構成に関する特徴として、作業者を被写体とする画像と作業個所を被写体とする画像とを区別し得る特徴を抽出し、
前記識別手段は、前記動画の部分が前記作業者を被写体とする画像であるか、前記作業個所を被写体とする画像であるかを識別条件の一つとして、前記説明場面と前記被説明場面である作業場面とを識別することを特徴とする、請求項5に記載の情報処理装置。 - 前記特徴抽出手段は、操作画面における操作の様子を収録した前記動画を解析して得られる、当該操作画面に表示された表示対象の変化に関する特徴を、前記特徴要素として抽出し、
前記識別手段は、特定の前記表示対象の変化のパターンを識別条件の一つとして前記説明場面と前記被説明場面とを識別することを特徴とする、請求項1に記載の情報処理装置。 - 前記区分手段により区分された動画の部分と当該動画の部分に対応する音声から得られるテキストとを表示する出力画面を生成する画面生成手段をさらに備えることを特徴とする、請求項1に記載の情報処理装置。
- 前記画面生成手段により生成される出力画面は、前記動画の部分と当該動画の部分に対応する音声から得られる前記テキストとが関連付けられており、テキストの一部を指示すると、指示されたテキスト部分に対応する動画の部分が再生されることを特徴とする、請求項8に記載の情報処理装置。
- 前記画面生成手段は、前記動画の部分のうち、前記説明場面の動画を削除することを特徴とする、請求項9に記載の情報処理装置。
- 前記画面生成手段は、削除した前記説明場面の動画に対応するテキストを、当該説明場面の直後に位置する前記被説明場面の動画に関連付けることを特徴とする、請求項10に記載の情報処理装置。
- 前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記説明場面の動画に対応するテキストと、前記被説明場面に対応するテキストとが識別可能に表示されることを特徴とする、請求項8または請求項9に記載の情報処理装置。
- 前記画面生成手段により生成される出力画面は、前記動画の部分に対応する音声から得られる前記テキストのうち、前記区分手段により区分された前記動画の部分が識別可能に表示されることを特徴とする、請求項8または請求項9に記載の情報処理装置。
- 前記分割手段は、一の発話音声から次の発話音声までの動画を、一つの前記部分動画として分割することを特徴とする、請求項1に記載の情報処理装置。
- 前記区分手段は、
説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する説明場面の動画として区分し、
被説明場面の前記部分動画が複数継続する場合、複数の当該部分動画を一つの説明対象に関する被説明場面の動画として区分することを特徴とする、請求項14に記載の情報処理装置。 - コンピュータを、
動画に録音された音声に基づいて動画を部分動画に分割する分割手段と、
前記部分動画を解析し、各部分動画の特徴要素を抽出する特徴抽出手段と、
前記部分動画ごとにおける前記特徴要素の差異に基づいて、説明が行われている説明場面と説明対象が撮影された被説明場面とを識別する識別手段と、
識別結果に基づき、前記説明場面と当該説明場面に後続する被説明場面とを、一区分として区分する区分手段として、
機能させることを特徴とする、プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018081321A JP7143620B2 (ja) | 2018-04-20 | 2018-04-20 | 情報処理装置およびプログラム |
CN201910168319.8A CN110390242B (zh) | 2018-04-20 | 2019-03-06 | 信息处理装置以及存储介质 |
US16/382,217 US11386658B2 (en) | 2018-04-20 | 2019-04-12 | Information processing apparatus and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018081321A JP7143620B2 (ja) | 2018-04-20 | 2018-04-20 | 情報処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019191738A JP2019191738A (ja) | 2019-10-31 |
JP7143620B2 true JP7143620B2 (ja) | 2022-09-29 |
Family
ID=68236437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018081321A Active JP7143620B2 (ja) | 2018-04-20 | 2018-04-20 | 情報処理装置およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11386658B2 (ja) |
JP (1) | JP7143620B2 (ja) |
CN (1) | CN110390242B (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001527304A (ja) | 1997-12-19 | 2001-12-25 | シャープ株式会社 | ディジタル動画の階層的要約及び閲覧方法 |
US20070055695A1 (en) | 2005-08-24 | 2007-03-08 | International Business Machines Corporation | System and method for semantic video segmentation based on joint audiovisual and text analysis |
JP2011188342A (ja) | 2010-03-10 | 2011-09-22 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
US20170069349A1 (en) | 2015-09-07 | 2017-03-09 | Bigvu Inc | Apparatus and method for generating a video file by a presenter of the video |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003178076A (ja) | 2001-12-10 | 2003-06-27 | Ricoh Co Ltd | 映像データ編集・検索装置 |
JP2005065191A (ja) | 2003-08-20 | 2005-03-10 | Ntt Comware Corp | 動画メタデータ自動作成装置及び動画メタデータ自動作成プログラム |
JP2006339817A (ja) * | 2005-05-31 | 2006-12-14 | Toshiba Corp | 情報処理装置およびその表示方法 |
JP2007052626A (ja) | 2005-08-18 | 2007-03-01 | Matsushita Electric Ind Co Ltd | メタデータ入力装置およびコンテンツ処理装置 |
JP2007082088A (ja) | 2005-09-16 | 2007-03-29 | Matsushita Electric Ind Co Ltd | コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム |
JP2007101945A (ja) * | 2005-10-05 | 2007-04-19 | Fujifilm Corp | 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム |
US8462980B2 (en) * | 2008-05-08 | 2013-06-11 | Utc Fire & Security | System and method for video detection of smoke and flame |
CN101692269B (zh) * | 2009-10-16 | 2015-06-03 | 北京中星微电子有限公司 | 一种处理视频节目的方法和装置 |
JP5424852B2 (ja) * | 2009-12-17 | 2014-02-26 | キヤノン株式会社 | 映像情報処理方法及びその装置 |
JP5602653B2 (ja) * | 2011-01-31 | 2014-10-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、情報処理方法、情報処理システム、およびプログラム |
US9165182B2 (en) * | 2013-08-19 | 2015-10-20 | Cisco Technology, Inc. | Method and apparatus for using face detection information to improve speaker segmentation |
CN105183758A (zh) * | 2015-07-22 | 2015-12-23 | 深圳市万姓宗祠网络科技股份有限公司 | 一种连续记录视频、影像的内容识别方法 |
US10262239B2 (en) * | 2016-07-26 | 2019-04-16 | Viisights Solutions Ltd. | Video content contextual classification |
CN107688792B (zh) * | 2017-09-05 | 2020-06-05 | 语联网(武汉)信息技术有限公司 | 一种视频翻译方法及其*** |
US10740620B2 (en) * | 2017-10-12 | 2020-08-11 | Google Llc | Generating a video segment of an action from a video |
-
2018
- 2018-04-20 JP JP2018081321A patent/JP7143620B2/ja active Active
-
2019
- 2019-03-06 CN CN201910168319.8A patent/CN110390242B/zh active Active
- 2019-04-12 US US16/382,217 patent/US11386658B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001527304A (ja) | 1997-12-19 | 2001-12-25 | シャープ株式会社 | ディジタル動画の階層的要約及び閲覧方法 |
US20070055695A1 (en) | 2005-08-24 | 2007-03-08 | International Business Machines Corporation | System and method for semantic video segmentation based on joint audiovisual and text analysis |
JP2011188342A (ja) | 2010-03-10 | 2011-09-22 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
US20170069349A1 (en) | 2015-09-07 | 2017-03-09 | Bigvu Inc | Apparatus and method for generating a video file by a presenter of the video |
Non-Patent Citations (1)
Title |
---|
渡辺 陽介、勝山 裕、直井 聡、横田 治夫,テロップ情報による語学番組シーン検索手法の評価,情報処理学会研究報告,日本,一般社団法人情報処理学会,2010年12月15日 |
Also Published As
Publication number | Publication date |
---|---|
CN110390242B (zh) | 2024-03-12 |
US11386658B2 (en) | 2022-07-12 |
JP2019191738A (ja) | 2019-10-31 |
US20190325226A1 (en) | 2019-10-24 |
CN110390242A (zh) | 2019-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
KR100828166B1 (ko) | 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체 | |
CN111615696B (zh) | 用于相关性检测和审阅的内容的交互式表示 | |
JP4600828B2 (ja) | 文書対応付け装置、および文書対応付け方法 | |
US7945142B2 (en) | Audio/visual editing tool | |
KR100446627B1 (ko) | 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법 | |
JP2008175955A (ja) | インデキシング装置、方法及びプログラム | |
JPWO2008146616A1 (ja) | 画像音響区間群対応付け装置と方法およびプログラム | |
Ringeval et al. | Emotion recognition in the wild: Incorporating voice and lip activity in multimodal decision-level fusion | |
Liang et al. | Computational modeling of human multimodal language: The mosei dataset and interpretable dynamic fusion | |
CN111785299B (zh) | 一种语音测评方法、装置、设备及计算机存储介质 | |
JP2009278202A (ja) | 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP7143620B2 (ja) | 情報処理装置およびプログラム | |
JP2007316323A (ja) | トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。 | |
Sukhummek et al. | Feature selection experiments on emotional speech classification | |
JP2006251553A (ja) | トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。 | |
US20240126994A1 (en) | Transcript paragraph segmentation and visualization of transcript paragraphs | |
US20240127857A1 (en) | Face-aware speaker diarization for transcripts and text-based video editing | |
JP2019213160A (ja) | 動画編集装置、動画編集方法、及び動画編集プログラム | |
US20240127855A1 (en) | Speaker thumbnail selection and speaker visualization in diarized transcripts for text-based video | |
US20240135973A1 (en) | Video segment selection and editing using transcript interactions | |
US20240127858A1 (en) | Annotated transcript text and transcript thumbnail bars for text-based video editing | |
US20240127820A1 (en) | Music-aware speaker diarization for transcripts and text-based video editing | |
KR20190133361A (ko) | 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체 | |
US20240134909A1 (en) | Visual and text search interface for text-based video editing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7143620 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |