JP7179387B1

JP7179387B1 - ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム

Info

Publication number: JP7179387B1
Application number: JP2022044022A
Authority: JP
Inventors: 功大橋
Original assignee: 株式会社喋ラボ
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-11-29
Anticipated expiration: 2042-03-18
Also published as: JP2023137704A

Abstract

【課題】動画コンテンツからユーザが所望する複数のショート動画を抽出して、ユーザが所望するハイライト動画を生成する。【解決手段】ハイライト動画生成システム１は、元動画を取得する取得部と、取得した元動画を音声認識した結果に基づいて、元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出し、抽出した前記タイムスタンプ付テキストを表示する編集用画面で、タイムスタンプ付テキストから１又は連続する複数の単語をタイムスタンプが飛び飛びとなるようにユーザに複数選択させ、ユーザの選択を受け付け、複数選択された１又は連続する複数の単語の時間範囲を、タイムスタンプ付テキストに基づいて、各々特定し、元動画から、各々特定した時間範囲に対応する部分を各々のショート動画として切り取り、切り取った各々のショート動画を結合して、ハイライト動画を生成する。【選択図】図１

Description

本発明は、ハイライト動画生成システム、ハイライト動画生成方法、およびプログラムに関する。

世の中ではコロナ禍によってＷｅｂセミナーやＹｏｕｔｕｂｅなどの動画コンテンツの利用が増えている。しかしながら、動画コンテンツには長時間の動画もある。そのため、視聴者からすると、動画コンテンツの再生に時間がかかり過ぎたり、途中で退屈になったりする、視聴効率が悪い動画コンテンツが多々あるという問題があった。

上述した問題を解決するために、動画のうちユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術（特許文献１参照）や、再生時に閲覧者が所望の画像音声の再生開始位置に容易かつ的確に到達可能とする技術（特許文献２参照）が提供されている。また、ハイライト動画作成のために、動画コンテンツの中から、フレームの輝度や特定被写体などの特徴量に基づいて算出したフレームの評価値に基づいて特定したハイライト部分を抜き出す技術（特許文献３参照）が提案されている。

特開２０１９―６６７８５号公報特開２０１８―１６８５０８号公報特開２０１９―２１６３６４号公報

しかしながら、特許文献１，２に記載の技術では、動画コンテンツにおいてユーザが視聴を所望する開始位置に容易に到達することはできるが、動画コンテンツから複数のショート動画を切り取って結合して、ハイライト動画を生成することはできない。また、特許文献３に記載の技術では、目立つ部分や盛り上がった部分といったハイライト部分が分かりにくいＷｅｂセミナーのような動画コンテンツからハイライト部分を抜き出すことは難しく、また、抜き出したハイライト部分がユーザが所望する部分とは限らないとの問題点があった。

そこで、本発明は、これらの課題に鑑み、動画コンテンツからユーザが所望する複数のショート動画を抽出して、ユーザが所望するハイライト動画を生成するハイライト動画生成システム、ハイライト動画生成方法、およびプログラムを提供することを目的とする。

本発明は、編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムであって、前記元動画を取得する取得部と、取得した前記元動画を音声認識する音声認識部と、前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを付加したタイムスタンプ付テキストとして抽出する抽出部と、抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部と、前記編集用画面で、前記タイムスタンプ付テキストから１又は連続する複数の単語をユーザに複数選択させ、複数選択された前記１又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付ける選択部と、複数選択された前記１又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部と、前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部と、切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部と、を備えるハイライト動画生成システムを提供する。

また、本発明は、前記生成部が、前記ハイライト動画の先頭および／または後尾に予め用意した動画をさらに結合するハイライト動画生成システムを提供する。

また、本発明は、前記選択部が、複数選択された前記１又は連続する複数の単語の結合順の選択を受け付け、前記生成部が、前記結合順に従って、切り取った前記各々のショート動画を結合して、ハイライト動画を生成するハイライト動画生成システムを提供する。

また、本発明は、前記表示部は、抽出した前記タイムスタンプ付テキストにフィラーが含まれる場合、前記編集用画面において、当該フィラーを削除または当該フィラー以外の単語と区別できるように当該フィラーを表示するハイライト動画生成システムを提供する。

また、本発明は、前記切取部は、複数選択された前記１又は連続する複数の単語にフィラーが含まれる場合、前記元動画から、各々特定した前記時間範囲に対応する部分のうち前記フィラーに対応する部分を除いた部分を、各々のショート動画として切り取るハイライト動画生成システムを提供する。

また、本発明は、前記ハイライト動画にキャプションを付与するキャプション付与部を備えるハイライト動画生成システムを提供する。

また、本発明は、前記ハイライト動画に音データを付加する挿入部を備えるハイライト動画生成システムを提供する。

また、本発明は、コンピュータが実行するハイライト動画生成方法であって、前記元動画を取得するステップと、取得した前記元動画を音声認識するステップと、前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを付加したタイムスタンプ付テキストとして抽出するステップと、抽出した前記タイムスタンプ付テキストを編集用画面に表示するステップと、前記編集用画面で、前記タイムスタンプ付テキストから１又は連続する複数の単語をユーザに複数選択させ、複数選択された前記１又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付けるステップと、複数選択された前記１又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定するステップと、前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取るステップと、切り取った前記各々のショート動画を結合して、ハイライト動画を生成するステップと、を含むハイライト動画生成方法を提供する。

また、本発明は、編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムを、前記元動画を取得する取得部、取得した前記元動画を音声認識する音声認識部、前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを付加したタイムスタンプ付テキストとして抽出する抽出部、抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部、前記編集用画面で、前記タイムスタンプ付テキストから１又は連続する複数の単語をユーザに複数選択させ、複数選択された前記１又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付ける選択部、複数選択された前記１又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部、前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部、切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部、として機能させるプログラムを提供する。

本発明によれば、動画コンテンツからユーザが所望する複数のショート動画を抽出して、ユーザが所望するハイライト動画を生成する。

本発明の実施形態に係るハイライト動画生成システムの概要を説明する図である。本発明の実施形態に係るハイライト動画生成システムの機能構成を示す図である。本発明の実施形態に係るハイライト動画生成システムが実行するハイライト動画生成処理フローを示す図である。

以下、添付図面を参照して、本発明を実施するための形態（以下、実施形態）について詳細に説明する。以降の図においては、実施形態の説明の全体を通して同じ要素には同じ番号または符号を付している。

［基本概念／基本構成］
図１は、本発明の実施形態に係るハイライト動画生成システム１の概要を説明するための図である。ハイライト動画生成システム１は、編集元の動画（以下、元動画という）を音声認識して生成されたテキストを用いてユーザが所望する動画の部分を選択し、元動画からユーザが所望するハイライト動画を生成するシステムである。本実施形態において、ハイライト動画とは、元動画から抽出した、ユーザが視聴者に見せたい部分を集めた動画であって、例えば、元動画で盛り上がった部分、目立った部分、興味を引く部分などを集めた動画や、元動画の重要な部分を集めて元動画の内容が要約された動画などである。

ハイライト動画生成システム１は、ハイライト動画生成装置１０とユーザ端末２０とを含む。ハイライト動画生成装置１０は、ユーザ端末２０とネットワークを介して接続され、ユーザの指示に従って元動画からハイライト動画を生成する装置である。ハイライト動画生成装置１０は、オンプレミスでもクラウドサーバであってもよいが、本実施形態ではクラウドサーバとする。なお、ハイライト動画生成システム１は、ハイライト動画生成装置１０で生成されたハイライト動画を視聴する視聴者端末（図示せず）や、ハイライト動画をアップロードするサーバ等（図示せず）とも、ネットワークを介して接続されてもよい。

ユーザ端末２０は、元動画からハイライト動画を生成する際に指示を行うユーザの端末であって、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ等で構成される。本実施形態においては１台しか表示しないが、複数台であってもよい。

ハイライト動画生成装置１０は、まず、ユーザ端末２０やユーザ端末２０からの指示に基づいてネットワーク上から元動画を取得する。次に、ハイライト動画生成装置１０は、取得した元動画を音声認識し、単語毎にタイムスタンプを保持するタイムスタンプ付きテキストを生成する（Ｓ１）。

ここで、タイムスタンプは、元動画の開始からの経過時間であって、タイムスタンプ付きテキストは、元動画の開始からの経過時間が各単語に、言い換えると単語と単語との区切り部分に、挿入されたテキストである。図１に示す元動画から生成されたタイムスタンプ付きテキストでは、単語毎のタイムスタンプを黒▲で示すが、正確には、吹き出しに示すように黒▲は元動画からの経過時間である。また、図１に示す元動画から生成されたタイムスタンプ付きテキストでは、元動画の各フレームの最初の単語のタイムスタンプに、そのフレームの単語が紐づけられる。

ハイライト動画生成装置１０は、ユーザ端末２０に、Ｓ１で生成したタイムスタンプ付きテキストを編集する編集用画面を表示させる（Ｓ２）。図１に示す編集用画面のタイムスタンプ付きテキストは、ユーザが単語を選択しやすいように、タイムスタンプは表示せず、タイムスタンプが挿入されている箇所をスペースとしているが、当該箇所をスペース以外で表示してもよいし、タイムスタンプを表示してもよい。

ユーザ端末２０において、ユーザは、編集用画面に表示されたタイムスタンプ付きテキストから、ハイライト動画に含めたい部分の１又は連続する複数の単語を１以上選択する。選択は、ドラッグ、クリック、タップなど任意の手段でよく、選択された部分の表示も図１に示すように四角で囲む、ハイライトなど任意の表示方法でよい。以下、１又は連続する複数の単語を文、選択された１又は連続する複数の単語を選択文という。

選択文が複数選択される場合、選択文同士のタイムスタンプが飛び飛びとなるように、言い換えると選択文同士のタイムスタンプが連続しないように、ハイライト動画生成装置１０は制御する。例えば、図１に示す編集用画面にて、「最近話題のお取り寄せについて紹介します」を選択した場合には、「こんにちは」を別の選択文として選択することはできない。但し、「こんにちは」を「最近話題のお取り寄せについて紹介します」と１つの選択文とすることはできる。編集画面で選択された選択文は、ユーザ端末２０からハイライト動画生成装置１０に送信される（Ｓ３）。

ハイライト動画生成装置１０は、ユーザ端末２０から受信した１以上の選択文各々の時間範囲を、タイムススタンプ付きテキストに基づいて特定する（Ｓ４）。ここで、時間範囲は、選択文の元動画における時間範囲である。詳細には、時間範囲は、選択文の最初の単語のタイムスタンプから、当該選択文の後の単語のタイムスタンプまでである。

例えば、図１のタイムスタンプ付きテキストの「最近話題のお取り寄せについて紹介します」が選択文の場合には、「最近」のタイムスタンプ「０：００：１７：０１」から、選択文の後の単語「えー」のタイムスタンプ「０：００：３０：２５」まで、すなわち「０：００：１７：０１～０：００：３０：２５」が選択文「最近話題のお取り寄せについて紹介します」の時間範囲となる。

ハイライト動画生成装置１０は、特定した時間範囲に対応する部分を元動画からショート動画として切り取り、切り取ったショート動画を結合してハイライト動画を生成する（Ｓ５）。

このようなハイライト動画システムによれば、元動画から生成されたタイムスタンプ付きテキストから文をユーザに選択させて、ユーザの所望する部分を特定し、ハイライト動画を生成する。それにより、ユーザは所望の部分を選択しやすく、ユーザは所望のハイライト動画が生成しやすい。その結果、ユーザが見せたい部分のみを集約したハイライト動画が作成でき、生成したハイライト動画を視聴者に視聴させることで、高いマーケティン効果が期待できる。

［ハイライト動画生成システムの機能構成］
図２は、本発明の実施形態に係るハイライト動画生成システム１の機能構成を示す図である。ハイライト動画生成システム１は、ハイライト動画生成装置１０と、ハイライト動画生成装置１０にネットワークを介して接続されたユーザ端末２０と、を備える。

[ハイライト動画生成装置の機能構成]
ハイライト動画生成装置１０は、ユーザ端末２０とデータの送受信を行う送受信部１１と、取得部１２と、音声認識部１３と、抽出部１４と、表示制御部１５と、選択部１６と、特定部１７と、切取部１８と、生成部１９と、記憶部１００と、を備える。

記憶部１００は、後述する、取得部１２で取得する元動画、抽出部１４で抽出されるタイムスタンプ付きテキスト、および生成部１９で生成されるハイライト動画を記憶する。なお、元動画およびタイムスタンプ付きテキストは、ハイライト動画が生成されると削除されてもよい。なお、本実施形態において、ハイライト動画生成装置１０はクラウドサーバであるため、記憶部１００は、クラウドストレージや分散型台帳で構成されるのが望ましい。

取得部１２は、元動画を取得し、記憶部１００に記憶させる。詳細には、取得部１２は、ユーザ端末２０から送受信部１１を介して元動画を取得、または、ユーザ端末２０からＵＲＬ等により指定されたサーバやＷｅｂページから送受信部１１を介して元動画を取得する。そして、取得部１２は、取得した元動画を記憶部１００に記憶させる。

音声認識部１３は、取得部１２で取得した元動画の音声データを認識して、音声をテキストデータに変換する処理を行う。例えば、音声認識部１３は、音響モデルと、言語的な制約を示す言語モデルとを組み合わせることで、音声データをテキストデータに変換する。

抽出部１４は、音声認識部１３で得られたテキストデータに単語毎のタイムスタンプを挿入した、タイムスタンプ付きテキストを抽出する。詳細には、抽出部１４は、音声認識部１３で得られたテキストの各単語について、元動画を参照し、タイムスタンプを取得する。そして、抽出部１４は、各単語について取得したタイムスタンプを、テキストデータの対応する箇所に挿入し、タイムスタンプ付きテキストを抽出する。
抽出部１４は、各単語について取得したタイムスタンプを、テキストデータの対応する箇所に挿入した後、元動画の各フレームの最初の単語のタイムスタンプにそのフレームの単語が紐づけた、タイムスタンプ付きテキストを抽出してもよい。

抽出部１４は、タイムスタンプ付きテキストにフィラーが含まれる場合、フィラーを削除、すなわちフィラーとフィラーのタイムスタンプとを削除したタイムスタンプ付きテキストを抽出してもよい。削除するフィラーは、予め設定され、記憶部１００に保持されている。ここで、フィラーとは、会話の隙間を埋める「あー」、「えー」等の発話である。フィラーは発話文の内容と関係のない無駄な言葉であるので、タイムスタンプ付きテキストから削除することで、ユーザは所望の部分を選択しやすくなる。

表示制御部１５は、抽出部１４で抽出したタイムスタンプ付きテキストに基づいて元動画の編集指示を行う編集用画面データ生成し、ユーザ端末２０に送信する。編集用画面データは、ユーザ端末２０の表示部（図示せず）に、ハイライト動画を作成するために、タイムスタンプ付きテキストから１つの単語または連続する複数の単語を選択させる画面を表示可能とするデータである。

また、編集用画面データは、タイムスタンプ付きテキストの単語を検索する機能をも有する画面や、元動画を再生する機能をも有する画面を表示可能とするデータであってもよい。それにより、容易にユーザが選択したい単語を検索することができ、また、編集用画面でタイムスタンプ付きテキストと元動画とを対比させることができる。

さらに、編集用画面データは、タイムスタンプ付きテキストにフィラーが含まれる場合、タイムスタンプ付きテキストを表示部に表示する際に、フィラーを他の文字と異なる書式、例えば、文字のサイズ、色、フォント、に変更する機能をも有してもよい。なお、フィラーの書式はユーザが編集用画面で選択できるようにしてもよい。

選択部１６は、ユーザ端末２０の表示部に表示された編集用画面で、ユーザに、タイムスタンプ付きテキストから、文をタイムスタンプが飛び飛びとなるように複数選択させるとともに、ユーザが選択した複数の文を受け付ける。詳細には、選択部１６は、編集用画面で複数の文がユーザにより選択されたことに応じて、選択文同士のタイムスタンプが飛び飛びとなっているか、タイムスタンプ付きテキストを参照して判断する。

そして、選択部１６は、選択文同士のタイムスタンプが飛び飛びとなっていない場合には、編集用画面に文の選択しなおしをユーザに促すため、その旨のメッセージの表示やエラー音の出力を編集用画面に指示する。一方、選択部１６は、選択文同士のタイムスタンプが飛び飛びとなっている場合には、選択文を受け付ける。このように、ユーザにタイムスタンプが飛び飛びになるように文を選択させることで、適切なハイライト動画の生成を促すことができ、また、ユーザが所望の部分を選択する際に余計な部分まで含めてしまい冗長なハイライト動画が生成されることを防ぐことができる。

また、編集用画面でユーザが複数の文を選択する際に、選択した複数の文の結合順序も指定された場合、選択部１６は、選択文とともに結合順序を受け付ける。更に、編集用画面でユーザがタイムスタンプ付きテキストの一部の書き換えや削除をし、書き換えや削除後の文が選択された場合、選択部１６は、書き換え後の文を受け付ける。

特定部１７は、複数の選択文各々の時間範囲を、タイムスタンプ付テキストに基づいて、各々特定する。詳細には、特定部１７は、タイムスタンプ付テキストから、選択文の最初の単語のタイムスタンプから、当該選択文の後の単語のタイムスタンプまでを、当該選択文の時間範囲ととして特定する。

切取部１８は、特定部１７で特定された各時間範囲に基づいて、記憶部１００の元動画からショート動画を切り取る。詳細には、切取部１８は、元動画において各時間範囲に対応する部分をそれぞれショート動画として、元動画から切り取る。

切取部１８は、選択文にフィラーが含まれている場合には、元動画において特定部１７で特定された時間範囲に対応する部分からフィラー部分を削除してから、ショート画像として、元動画から切り取ってもよい。また、切取部１８は、編集用画面でユーザがタイムスタンプ付きテキストの一部の書き換えや削除をし、選択文が元動画とは変更されている場合、切り取ったショート画像を変更された選択文に変更する編集をしてもよい。

生成部１９は、切取部１８で切り取られたショート動画を結合して、ハイライト動画を生成する。詳細には、生成部１９は、切取部１８で切り取られたショート動画をタイムスタンプ順に、または、選択部１６で受け付けた選択文に対して指定された結合順に、ショート動画を結合して、ハイライト動画を生成する。

また、生成部１９は、ショート動画を結合する際に、先頭のショート動画の前および／また後尾のショート動画の後に、予め用意した動画や静止画を追加して、ハイライト画像を生成してもよい。それにより、ハイライト動画のタイトルやエンディングを追加することなどができる。

生成部１９は、生成したハイライト動画を送受信部１１を介して、ユーザ端末２０に提供する。また、生成部１９は、生成したハイライト動画を送受信部１１を介して、インターネット上の動画サイト等にアップロードし、ＵＲＬ形式で生成したハイライト動画を視聴者に提供する。

さらに、生成部１９は、ハイライト動画のファイル形式を元動画のファイル形式とは変えたい場合には、ファイル形式の変換を行う。変換後のファイル形式は、編集用画面でユーザが設定して選択部１６が選択文と併せて受け付けてもよいし、ハイライト動画をアップロードする動画サイト等に応じて決定してもよい。

上記の本システムの機能構成は、あくまで一例であり、１つの機能ブロック（データベース及び機能処理部）を分割したり、複数の機能ブロックをまとめて１つの機能ブロックとして構成したりしてもよい。各機能処理部は、装置や端末に内蔵されたＣＰＵ（Central Processing Unit）が、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＳＳＤ(Solid State Drive)、ハードディスク等の記憶装置（記憶部）に格納されたコンピュータ・プログラム（例えば、基幹ソフトや上述の各種処理をＣＰＵに実行させるアプリ等）を読み出し、ＣＰＵにより実行されたコンピュータ・プログラムによって実現される。すなわち、各機能処理部は、このコンピュータ・プログラムが、記憶装置に格納されたデータベース（ＤＢ;Data Base)やメモリ上の記憶領域からテーブル等の必要なデータを読み書きし、場合によっては、関連するハードウェア（例えば、入出力装置、表示装置、通信インターフェース装置）を制御することによって実現される。

[処理フロー]
図３は、本発明の実施形態に係るハイライト動画生成システムが実行するハイライト動画生成処理フローを示す図である。ハイライト動画生成処理は、本実施形態では、ハイライト動画生成装置が実行する。

まず、取得部１２は、ユーザ端末２０やユーザ端末２０からの指示に基づいてネットワーク上から送受信部１１を介して元動画を取得する（Ｓ１１）。次に、音声認識部１３は、Ｓ１１で取得した元動画を音声認識して、音声をテキストデータに変換する（Ｓ１２）。次に、抽出部１４は、Ｓ１２で得られたテキストデータに単語毎のタイムスタンプを挿入した、タイムスタンプ付きテキストを抽出する（Ｓ１３）。

次に、表示制御部１５は、Ｓ１３で抽出したタイムスタンプ付きテキストに基づいて元動画の編集指示を行う編集用画面データを生成し、ユーザ端末２０に送信し、ユーザ端末３０の表示部は、編集画面データに基づいて編集用画面を表示する（Ｓ１４）。次に、選択部１６は、Ｓ１４でユーザ端末２０の表示部に表示された編集用画面で、ユーザに、タイムスタンプ付きテキストから文を、タイムスタンプが飛び飛びとなるように複数選択させるとともに、選択された複数の選択文を受け付ける（Ｓ１５）。

次に、特定部１７は、Ｓ１５で受け付けた複数の選択文各々の時間範囲を、タイムスタンプ付テキストに基づいて、各々特定する（Ｓ１６）。次に、切取部１８は、Ｓ１６で特定された各時間範囲に基づいて、元動画からショート動画を切り取る（Ｓ１７）。そして、生成部１９は、Ｓ１７で切り取られたショート動画を結合して、ハイライト動画を生成する（Ｓ１８）。

ユーザにタイムスタンプが飛び飛びになるように文を選択させることで、適切なハイライト動画の生成を促すことができ、また、ユーザが所望の部分を選択する際に余計な部分まで含めてしまい冗長なハイライト動画が生成されることを防ぐことができる。

[変形例]
（１）例えば、ハイライト動画生成システムは、ハイライト動画にキャプションを付与するキャプション付与部を備えてもよい。キャプションは、元動画および／またはタイムスタンプ付きテキストに基づいてキャプション付与部が生成してもよいし、編集用画面で、選択文についてユーザから入力されたまたは当該選択文から選択されたキャプションをユーザ端末２０から受信してもよい。ハイライト動画にキャプションを付与することで、ユーザが伝えたいことや意識してほしいことなどをはっきりと表示することができる。

（２）例えば、ハイライト動画生成システムは、ハイライト動画にＢＧＭや効果音といった音データを挿入する挿入部を備えてもよい。ハイライト動画をより効果的に視聴者に見せることができ、より高いマーケティン効果が期待できる。

以上、実施形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されないことは言うまでもない。上記実施形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。また、そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。なお、上記の実施形態では、本発明を物の発明として、ハイライト動画生成システムについて説明したが、本発明においてハイライト動画生成システムが実行する方法や、ハイライト動画生成システムを各種手段として機能させるプログラムの発明と捉えることもできる。

１ハイライト動画生成システム
１０ハイライト動画生成装置
１１送受信部
１２取得部
１３音声認識部
１４抽出部
１５表示制御部
１６選択部
１７特定部
１８切取部
１９生成部
１００記憶部
２０ユーザ端末

Claims

編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムであって、
前記元動画を取得する取得部と、
取得した前記元動画を音声認識する音声認識部と、
前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出する抽出部と、
抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部と、
前記編集用画面で、前記タイムスタンプ付テキストから１又は連続する複数の単語をユーザに複数選択させ、複数選択された前記１又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付ける選択部と、
複数選択された前記１又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部と、
前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部と、
切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部と、
を備えるハイライト動画生成システム。
前記生成部が、前記ハイライト動画の先頭および／または後尾に予め用意した動画をさらに結合する請求項１に記載のハイライト動画生成システム。
前記選択部が、複数選択された前記１又は連続する複数の単語の結合順序の選択を受け付け、
前記生成部が、前記結合順に従って、切り取った前記各々のショート動画を結合して、ハイライト動画を生成する請求項１から請求項２のいずれかに記載のハイライト動画生成システム。
前記表示部は、抽出した前記タイムスタンプ付テキストにフィラーが含まれる場合、前記編集用画面において、当該フィラーを削除または当該フィラー以外の単語と区別できるように当該フィラーを表示する請求項１から請求項３のいずれかに記載のハイライト動画生成システム。
前記切取部は、複数選択された前記１又は連続する複数の単語にフィラーが含まれる場合、前記元動画から、各々特定した前記時間範囲に対応する部分のうち前記フィラーに対応する部分を除いた部分を、各々のショート動画として切り取る請求項１から請求項４のいずれかに記載のハイライト動画生成システム。
前記ハイライト動画にキャプションを付与するキャプション付与部を備える請求項１から請求項５のいずれかに記載のハイライト動画生成システム。
前記ハイライト動画に音楽を付加する音楽挿入部を備える請求項１から請求項６のいずれかに記載のハイライト動画生成システム。
コンピュータが実行するハイライト動画生成方法であって、
元動画を取得するステップと、
取得した前記元動画を音声認識するステップと、
前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出するステップと、
抽出した前記タイムスタンプ付テキストを編集用画面に表示するステップと、
前記編集用画面で、前記タイムスタンプ付テキストから１又は連続する複数の単語をユーザに複数選択させ、複数選択された前記１又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付けるステップと、
複数選択された前記１又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定するステップと、
前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取るステップと、
切り取った前記各々のショート動画を結合して、ハイライト動画を生成するステップと、
を含むハイライト動画生成方法。
編集の対象となる元動画から、複数のショート動画を切り取って結合して、ハイライト動画を生成するハイライト動画生成システムを、
前記元動画を取得する取得部、
取得した前記元動画を音声認識する音声認識部、
前記音声認識の結果に基づいて、前記元動画の音声を、単語毎にタイムスタンプを保持したタイムスタンプ付テキストとして抽出する抽出部、
抽出した前記タイムスタンプ付テキストを編集用画面に表示する表示部、
前記編集用画面で、前記タイムスタンプ付テキストから１又は連続する複数の単語をユーザに複数選択させ、複数選択された前記１又は連続する複数の単語同士のタイムスタンプが連続しない場合に、当該ユーザの選択を受け付ける選択部、
複数選択された前記１又は連続する複数の単語の時間範囲を、前記タイムスタンプ付テキストに基づいて、各々特定する特定部、
前記元動画から、各々特定した前記時間範囲に対応する部分を各々のショート動画として切り取る切取部、
切り取った前記各々のショート動画を結合して、ハイライト動画を生成する生成部、
として機能させるプログラム。