JP2006309920A - 情報処理装置及びその方法 - Google Patents

情報処理装置及びその方法 Download PDF

Info

Publication number
JP2006309920A
JP2006309920A JP2006051226A JP2006051226A JP2006309920A JP 2006309920 A JP2006309920 A JP 2006309920A JP 2006051226 A JP2006051226 A JP 2006051226A JP 2006051226 A JP2006051226 A JP 2006051226A JP 2006309920 A JP2006309920 A JP 2006309920A
Authority
JP
Japan
Prior art keywords
data
key
information
voice
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006051226A
Other languages
English (en)
Other versions
JP4621607B2 (ja
Inventor
Kohei Momozaki
浩平 桃崎
Tatsuya Uehara
龍也 上原
Manabu Nagao
学 永尾
Yasuyuki Masai
康之 正井
Kazuhiko Abe
一彦 阿部
Kazunori Imoto
和範 井本
Munehiko Sasajima
宗彦 笹島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006051226A priority Critical patent/JP4621607B2/ja
Priority to US11/391,365 priority patent/US20060222318A1/en
Publication of JP2006309920A publication Critical patent/JP2006309920A/ja
Application granted granted Critical
Publication of JP4621607B2 publication Critical patent/JP4621607B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/322Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier used signal is digitally coded
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】記録保存される映像について、毎回の手動作業を要することなく、視聴に適した分割や制御点の決定と関連情報付与を行うことができる情報処理装置を提供する。
【解決手段】映像音声処理装置は、キーデータ管理部10、映像データ取得部41、音声データ分離部22、キー照合部30、照合結果記録指示部35及び記録媒体90を備え、キーの音声パターンと類似した音声区間を音声データ中から検出し、予め指定された属性に従って、検出された区間の始終端を基準に分割点や制御点を決定し、分割された区間や制御点または音声データ全体に対して、予め指定された名称または予め指定された命名方法に従って付与された名称を設定する。
【選択図】 図1

Description

本発明は、映像音声や音声の記録の処理を行う情報処理装置及びその方法に関する。
近年、音声や映像を記録する機器の主流は、従来のアナログ方式の磁気テープから、デジタル方式の磁気ディスクや半導体メモリ等に移っている。特に大容量のハードディスクを使用した映像記録再生機器では、記録可能な容量が飛躍的に拡大している。このような機器を使用すれば、放送や通信によって提供される多数の番組の映像を保存しておき、ユーザが自在に選択して視聴できる。
ここで、保存されている映像の管理においては、番組等の単位であるタイトル(プログラム)でファイル化した上で、名称その他の情報を付与しておき、一覧の際にタイトルの代表画像(サムネイル)と名称等を並べて表示することができる。また、一番組(タイトル)の中をチャプタ(セグメント)と呼ばれる単位に分割し、チャプタ単位で再生や編集を行うこともできる。チャプタ名を付与したり、チャプタの代表画像(サムネイル)を表示したりして、チャプタ一覧から好みの場面を含むチャプタを選択して再生したり、選択したチャプタを並べてプレイリスト等を作成したりすることができる。これらの管理方法を規定するものとして、DVD(Digital Versatile Disc)のVR(VideoRecording)モードがある。
ところで、番組(タイトル)内の区間や位置の指定に用いられるマーカには、映像・音声コンテンツを再生したときの時間的位置に対応する再生時刻情報が含まれており、チャプタ分割点を表すチャプタマーカのほか、装置によっては、編集操作の際の対象区間を指定するエディットマーカや、頭出し操作の際にジャンプ先の地点を指定するインデックスマーカを使用する場合もある。なお、本明細書における「マーカ」も上記の意味で使用する。
番組名については、EPG(Electronic Program Guide)等によって提供される番組情報を利用すれば、録画保存されたファイルに自動付与することもできる。EPGで提供される番組情報については、ARIB(Association of Radio Industries and Businesses)標準規格(STD−B10)がある。
しかし、一番組の中については、分割する時刻位置を与える情報や、分割された各々を容易に識別できるような名称等をはじめ、視聴や編集等を支援したり自動化したりするために有用なメタデータとしてさまざまなものが考えられるが、これらが汎用的に外部から提供されることはほとんど行われない。このため、一般の視聴者向けの機器においては、記録された音声や映像に基づいて、装置側でメタデータ作成を行うことが必要になっている。
映像・音声コンテンツに関する汎用的なメタデータの記述形式としてMPEG−7があり、コンテンツと対応付けてXML(extensible Markup Language)データベースに格納する方法がある。また、放送におけるメタデータの伝送方式等について、ARIB(Association of Radio Industries and Businesses)標準規格(STD−B38)があり、これらに準拠してメタデータを記録することもできる。
装置が自動的に行うものとして、無音部分、映像の切り替わり(カット)、音声多重モード(モノラル、ステレオ、二か国語)の切り替わり等の検出によるチャプタ分割機能が提供されている場合もある(例えば、特許文献1参照)。しかし、必ずしも適切に分割されるわけではなく、分割された個々のチャプタの意味付け・名称付与を含め、ユーザがかなりの部分を手動で行わなければならない。
また、テロップ画像認識や音声認識により得られた言語情報を利用した、自動的なキーワード抽出等のメタデータ作成については、全文検索的な利用については可能になってきているが(例えば、特許文献2参照)、チャプタ分割や名称付与という部分について全面的な適用は難しいのが現状である。
一方、音響の一致または類似を検索する音響検索や音響ロバストマッチングの方法が考案されているが、その多くは、視聴したい音楽等を検索して再生するといった形で利用されており、映像のメタデータ作成等に適した構成になっていない(例えば、特許文献3参照)。
特開2003−36653公報 特開平8−249343号公報 特開2000−312343公報
このように、従来の技術では、大量に保存されている映像の管理において、特に一番組内の分割については、視聴に適した分割や制御点の決定と関連情報付与が容易にできないという問題があった。
そこで、本発明は上記事情を考慮してなされたもので、その目的は、記録保存される映像について、毎回の手動作業を要することなく、視聴に適した分割や制御点の決定と関連情報付与を行うことができる情報処理装置及びその方法を提供することにある。
本発明は、利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理装置において、前記利用対象データから音声データのみを利用対象音声データとして取得する音声データ取得手段と、照合するための検索キーとなる音声パターンデータを含むキーデータを記録するキーデータ管理手段と、前記利用対象音声データと前記音声パターンデータとを所定の条件に基づいて照合し、前記利用対象音声データにおける前記所定の条件を満たす位置を表す照合結果情報を出力するキー照合手段と、前記出力された照合結果情報を前記支援データとして記録媒体に記録させる照合結果記録指示手段と、を具備することを特徴とする情報処理装置である。
本発明では、キー音声データ中の予め指定された区間の音声またはキー音声データ中から予め切り出して特徴抽出された音声パターンと類似した音声区間を利用対象音声データ中から検出し、予め指定された属性に従って、利用対象音声データにおける検出された区間の始終端の一方または両方を基準として分割点や制御点を決定し、分割された前後いずれかの区間や制御点または利用対象音声データ全体に対して、予め指定された名称または予め指定された命名方法に従って付与された名称を設定するようにしている。
したがって、本発明によれば、コーナータイトル音楽等の毎回出現する特定パターン音声をキーとして、その頭から再生したり、タイトル音楽をスキップしてコーナーの本編から再生したり、その時点や分割されたチャプタにコーナー名称を付与したり、このコーナーを含む番組名を付与したりする。
以下、図面を参照して、本発明の各実施形態について説明する。
[第1の実施形態]
本発明の第1の実施形態に係る映像音声処理装置について図1から図7に基づいて説明する。
本実施形態に係る映像音声処理装置は、キーデータに基づいて利用対象データである映像音声データに再生、編集、検索のための支援データであるメタデータを記録させる装置である。
また、本明細書において、「照合」とは、利用対象データ(映像音声データまたは音声データ)と検索キーである音声パターンデータとを比較し、利用対象データの中でどの位置、または、区間が音声パターンデータに該当するかを検出する意味である。
(1)映像音声処理装置の構成
図1は、本実施形態に係る映像音声処理装置の構成を示すものである。
図1に示す映像音声処理装置は、キーデータ管理部10、映像データ取得部41、音声データ分離部22、キー照合部30、照合結果記録指示部35及び記録媒体90を備えている。
(1−1)キーデータ管理部10
キーデータ管理部10は、複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについて、関連する名称や属性等の情報をキー関連データとして合わせて管理することができる。
図2は、キーデータ管理部10において、検索キーとなる音声パターンデータとともに管理されているキー関連データの例を示すものである。ここでは、キーの名称、タイトルの名称、属性、照合方法及びパラメータが管理されている。
検索キーAについては、「占いコーナー」、「朝の情報テレビ」、「BGM属性1(BGM−1)」、「前方一致」、「BGM」という情報が管理されている。
検索キーBについては、「オープニング」、「夜の連続ドラマ」、「オープニング音楽属性1(OPM−1)」、「完全一致」、「クリーン音楽(CLM)」という情報が管理されている。
検索キーCについては、「スポーツコーナー」、「10時のニュース」、「コーナー音楽属性1(CNM−1)」、「完全一致」、「ロバスト音楽(RBM)」という情報が管理されている。
検索キーDについて、「水泳スタート音」、「(タイトルなし)」、「競技開始イベント属性1(SGE−1)」、「前方一致」、「ロバスト効果音(RBS)」という情報が管理されている。
「属性」は、後述する照合結果記録指示部35において、支援データを記録媒体90にいかに記録させるかの記録指示動作を規定するためのものである。
「照合方法」と「パラメータ」は、後述するキー照合部30における照合アルゴリズムと特徴量選択及び評価方法を規定するものである。パラメータにおける「BGM」はナレーション等の人の声が主で背景に音楽が重畳されているようなもの、「クリーン音楽(CLM)」は音楽のみで無関係な人の声などの重畳がないもの、「ロバスト音楽(RBM)」は音楽が主で雑音等が多少含まれるもの、「ロバスト効果音(RBS)」は特に短時間の効果音で雑音等が多少含まれるもの、をそれぞれ想定している。
キーデータ管理部10における音声パターンデータは、図示されない外部の音声パターン取得手段により与えられた音声または区間を指定して切り出された音声について、キー照合部30で参照できるよう保持している。例えば、再生可能な音声データであってもよく、または音声データを特徴抽出してパラメータ化したものでもよい。
なお、前記の各情報は検索キーとともに予め設定されて管理されているものとしているが、実際に検出や検索のためにキー照合部30に対して選択、設定する際に、一部または全部の情報を変更して使用してもよい。例えば、検索キーBは通常は「完全一致」「クリーン音楽(CLM)」となっているが、「前方一致」「BGM」として使用することで、同番組の予告編を検索・検出するのに適したものになる。
(1−2)映像データ取得部41
映像データ取得部41は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音声データを取得し、記録媒体90に記録すると共に、音声データ分離部22へ渡す。また、外部のビデオカメラ、放送受信チューナー、その他の機器から入力されるアナログ映像音声信号を取得し、デジタル映像音声データに変換した後、記録媒体90に記録したり、音声データ分離部22へ渡してもよい
なお、これらの処理に加えて、必要に応じて映像音声データの暗号解除処理(例えば、B−CAS)、デコード処理(例えば、MPEG2)、形式変換処理(例えば、TS/PS)、レート(圧縮率)変換処理等を行ってもよい。
(1−3)音声データ分離部22
音声データ分離部22は、映像データ取得部41において取得された映像音声データから音声データを分離して、キー照合部30へ渡す。
(1−4)キー照合部30
キー照合部30は、キーデータ管理部10において検索キーとして管理されている音声パターンデータのうち、予め選択された1または複数の音声パターンデータと、音声データ分離部22において分離された音声データとを照合し、類似した区間を検出する。
ここでは、検索キーAに対しては、「前方一致」と「BGM」という情報に従って、人の声の周波数領域をマスクする等でBGMの音楽成分に着目して一致度合いを評価し、検索キーの先頭からパターンが一致するところまでを終端フリーで検出するアルゴリズムを使用する。
検索キーBに対しては、「完全一致」と「クリーン音楽」という情報に従って、音楽成分を重視して一致度合いを評価し、検索キー全体のパターンが一致する箇所を検出するアルゴリズムを使用する。
検索キーCに対しては、「完全一致」と「ロバスト音楽」という情報に従って、音楽成分を重視しながら多少のノイズを許容して一致度合いを評価し、検索キー全体のパターンが一致する箇所を検出するアルゴリズムを使用する。
検索キーDに対しては、「前方一致」と「ロバスト効果音」という情報に従って、スペクトルピークに着目して一致度合いを評価し、検索キーの先頭からパターンが一致するところまでを終端フリーで検出するアルゴリズムを使用する。
(1−5)照合結果記録指示部35
照合結果記録指示部35は、キー照合部30において検出されたキーデータをキーデータ管理部10より取得する。そして、このキーデータにおける検索キーの属性に応じて、再生、編集、検索が簡単にできるようにメタデータを記録媒体90に記録する。記録媒体90において記録されるメタデータは、例えばDVD(Digital Versatile Disc)のVR(Video Recording)モードで規定される構造になっている。
図3は、照合結果記録指示部35における、属性に対応付けて規定された記録指示動作の例を示すものである。
「BGM属性1(BGM−1)」については、検出された区間全体をそのままマーカ区間とし、その区間の名称を「(キーの名称)」(複数検出された場合は「(キーの名称)−番号」)と設定するように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。なお、図3における「#」は番号を表す。
「オープニング音楽属性1(OPM−1)」については、検出された区間の始端と終端でチャプタ分割し、始終端に挟まれたチャプタの名称を「『オープニング』−番号」、終端で分割された後方のチャプタの名称を「『本編』−番号」、もしタイトル名が未設定の場合にはキーに関連付けられた「タイトルの名称」をタイトル名として、それぞれ設定するように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
「コーナー音楽属性1(CNM−1)」については、検出された区間の始端でチャプタ分割し、分割された後方のチャプタの名称を「(キーの名称)」(複数検出された場合は「(キーの名称)−番号」)、もしタイトル名が未設定の場合にはキーに関連付けられた「タイトルの名称」をタイトル名として、それぞれ設定するように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
「競技開始イベント属性1(SGE−1)」については、検出された区間の始端の2秒前をマーカ点とし、マーカの名称を「(キーの名称)−番号」と設定するように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
なお、メタデータは記録媒体90に記録すると同時に、外部の表示装置に表示させるために出力することもできる。この表示装置では、映像データ取得部41において取得された映像音声データや映像音声信号を表示させる際に、メタデータの中から表示可能なものを抽出して表示するか、ユーザーからの表示指示動作に従って表示できるよう記録媒体に保持するようにすることもできる。
また、記録媒体90に記録された映像音声データやメタデータを、記録処理と同時に追いかけ再生処理することにより、同様の表示を行うこともできる。
(2)検索キーAが検出されたときの記録指示動作
キー照合部30において検索キーAが検出されたときに、照合結果記録指示部35が「BGM属性1」の規定の動作に従って記録指示動作を記録媒体90に対して行い、図4は、その記録媒体90に記録された情報を示す模式図である。
12月22日放送の「朝の情報テレビ」番組(1時間54分)における「占いコーナー」の区間が、放送開始から58分ちょうどと1時間51分の計2回検出されて(帯の上に接した濃い印で示す)、それぞれ「占いコーナー−1」「占いコーナー−2」という名前のマーカ(帯の中の斜線で示した部分)がついている。
これにより、例えば、占いコーナー部分だけを抜き出し、高圧縮で再エンコードして携帯機器に転送する等が可能となる。
(3)検索キーBが検出されたときの記録指示動作
キー照合部30において検索キーBが検出されたときに、照合結果記録指示部35が「オープニング音楽属性1」の規定の動作に従って記録指示動作を記録媒体90に対して行い、図5は、その記録媒体90に記録された情報を示す模式図である。
12月23日放送の「夜の連続ドラマ」の5話連続再放送の番組(1時間40分)における「オープニング」の区間が、0分30秒、20分15秒等の計5回検出されて(帯の上に接した濃い印で示す)、1回目の「オープニング」の前のチャプタ(名前なし)、1回目の「オープニング−1」、1回目のオープニングに続く「本編−1」、2回目の「オープニング−2」、2回目のオープニングに続く「本編−2」等のチャプタに分割(帯の中の縦線で示す)されている。また、タイトル名「夜の連続ドラマ」が設定されている。ここで、検索キーBと関連付けて、タイトル名のほかに、ジャンル「ドラマ」、保存先メディア「HDD」、保存先フォルダ「マイドラマ」、最終保存レート(圧縮率)「低」が設定されているとすると、検索キーBが検出されたときに、タイトル名に代えて、またはタイトル名に加えて、ジャンル「ドラマ」が設定されたり、保存先のディスクをHDDの「マイドラマ」フォルダにしたり、最終保存レートに従って品質を落とした「低」レートに変換して保存したりしてもよい。
これにより、例えば、水曜日の再放送である3話目だけを見たい場合にチャプタ一覧から「オープニング−3」を選択して再生したり、オープニング再生中に「次チャプタへジャンプ」等の操作をすることにより、何度も同じオープニングを見ることなく、本編だけをまとめて見たりすることが可能となる。また、EPGによらないタイトル名設定や、ジャンル設定、保存先フォルダ設定等の自動化が可能となる。
(4)検索キーCが検出されたときの記録指示動作
キー照合部30において検索キーCが検出されたときに、照合結果記録指示部35が「コーナー音楽属性1」の規定の動作に従って記録指示動作を記録媒体90に対して行い、図6は、その記録媒体90に記録された情報を示す模式図である。
12月24日放送の「10時のニュース」(60分)における「スポーツコーナー」の音楽が検出され、コーナー音楽の頭(35分30秒)でチャプタ分割されて「スポーツコーナー」のチャプタ名がついている。これにより、例えば、スポーツにしか関心がないユーザは、チャプタ一覧から「スポーツコーナー」を選択して再生することができる。
また、番組冒頭からしばらく主要ニュースを見た後、興味がなくなってきたところで「次チャプタへジャンプ」等の操作をすることにより「スポーツコーナー」までの間を飛ばすような視聴の仕方も可能となる。
(5)検索キーDが検出されたときの記録指示動作
キー照合部30において検索キーDが検出されたときに、照合結果記録指示部35が「競技開始イベント属性1」の規定の動作に従って記録指示動作を記録媒体90に対して行い、図7は、その記録媒体90に記録された情報を示す模式図である。
8月19日放送の「国際水泳競技生中継」番組における「水泳スタート音」が12回、同日放送の「7時のニュース」番組で2回、「今日のスポーツニュース」番組で5回、それぞれ検出されて、各々2秒前に「水泳スタート音−1」「水泳スタート音−2」等のマーカがついている。
これにより、「次マーカへジャンプ」等の操作をすることで、各レースのスタートのシーンを頭出しすることができる。例えば、特定の選手が出場している等で見たいレースがある場合、再生された映像を見ながら次々にジャンプして、見たいレースを見つけることが可能となる。
[第2の実施形態]
本発明の第2の実施形態に係る音声処理装置について図8から図10に基づいて説明する。
本実施形態と第1の実施形態の異なる点は、第1の実施形態では、映像音声データを処理したが、本実施形態は音声データのみを処理する点である。
(1)音声処理装置の構成
図8は、本実施形態に係る音声処理装置の構成を示すものである。
図8に示す音声処理装置は、キーデータ管理部10、音声データ取得部21、キー照合部30、照合結果記録指示部35及び記録媒体90を備えている。第1の実施形態と異なり、画像データを扱わない。
(1−1)キーデータ管理部10
キーデータ管理部10は、第1の実施形態と同様に、複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについて、関連する名称や属性等の情報をキー関連データとして合わせて管理することができる。
図9は、第2の実施形態のキーデータ管理部10において、検索キーとなる音声パターンデータと共に管理されている情報であるキー関連データの例を示すものである。ここでは、キーの名称、タイトルの名称、属性、照合方法及びパラメータがキー関連データとして管理されている。
検索キーEについては、「道路渋滞情報」、「道路情報ラジオ」、「BGM属性2(BGM−2)」、「前方一致」、「BGM」という情報が管理されているものとする。
検索キーFについては、「エンディング」、「○田×男のトーク番組」、「エンディング音楽属性2(EDM−2)」、「後方一致」、「ロバスト音楽(RBM)」が管理されている。
検索キーGについては、「カルチャーコーナー」、「トラベル会話」、「コーナー音楽属性2(CNM−2)」、「完全一致」、「クリーン音楽(CLM)」が管理されている。
検索キーHについては、「金属バット音」、「(タイトルなし)」、「競技注目イベント属性2(AGE−2)」、「前方一致」、「ロバスト効果音(RBS)」という情報が管理されているものとする。
さらに、組で動作する検索キーJ1及びJ2について、それぞれ「曲名“A”」、「(タイトルなし)」、「音楽開始属性2(BOM−2)」、「前方一致」、「クリーン音楽(CLM)」、及び「曲名“A”末尾」、「(タイトルなし)」、「音楽終了属性2(EOM−2)」、「後方一致」、「クリーン音楽(CLM)」という情報が管理されているものとする。
(1−2)音声データ取得部21
音声データ取得部21は、外部のデジタルマイクロホン、デジタル放送等の受信チューナー、その他のデジタル機器から入力される音声データを取得し、記録媒体90に記録すると共に、キー照合部30へ渡す。また、外部のマイクロホン、放送受信チューナー、その他の機器から入力されるアナログ音声信号を取得し、デジタル音声データに変換した後、記録媒体90に記録したり、キー照合部30へ渡してもよい。
なお、これらの処理に加えて、必要に応じて音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。
(1−3)キー照合部30
キー照合部30は、キーデータ管理部10において検索キーとして管理されている音声パターンデータのうち、予め選択された1または複数の音声パターンデータと、音声データ取得部21において取得された音声データとを照合し、類似した区間を検出する。
検索キーEに対しては、「前方一致」と「BGM」という情報に従って、人の声の周波数領域をマスクする等でBGMの音楽成分に着目して一致度合いを評価し、検索キーの先頭からパターンが一致するところまでを終端フリーで検出するアルゴリズムを使用する。
検索キーFに対しては、「後方一致」と「ロバスト音楽」という情報に従って、音楽成分を重視しながら多少のノイズを許容して一致度合いを評価し、検索キー末尾からパターンが一致するところまでを始端フリーで検出するアルゴリズムを使用する。
検索キーGに対しては、「完全一致」と「クリーン音楽」という情報に従って、音楽成分を重視して一致度合いを評価し、検索キー全体のパターンが一致する箇所を検出するアルゴリズムを使用する。
検索キーHに対しては、「前方一致」と「ロバスト効果音」という情報に従って、スペクトルピークに着目して一致度合いを評価し、検索キーの先頭からパターンが一致するところまでを終端フリーで検出するアルゴリズムを使用する。
検索キーJ1に対しては、「前方一致」と「クリーン音楽」という情報に従って、音楽成分を重視して一致度合いを評価し、検索キーの先頭からパターンが一致するところまでを終端フリーで検出するアルゴリズムを使用する。
検索キーJ2に対しては、「後方一致」と「クリーン音楽」という情報に従って、音楽成分を重視して一致度合いを評価し、検索キーの末尾からパターンが一致するところまでを始端フリーで検出するアルゴリズムを使用する。
(1−4)照合結果記録指示部35
照合結果記録指示部35は、キー照合部30において検出されたキーデータをキーデータ管理部10より取得する。そして、このキーデータにおける検索キーの属性に応じて、再生、編集、検索が簡単にできるようにメタデータを記録媒体90に記録する。
図10は、照合結果記録指示部35における、属性に対応付けて規定された記録指示動作の例を示すものである。
「BGM属性2(BGM−2)」については、検出された区間全体をそのままマーカ区間とし、検出された箇所の放送時刻を「HH:MM」(00〜23時、00〜59分)として取得した後、その区間の名称を「(キーの名称)−時刻」)と設定するようにように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
「エンディング音楽属性2(EDM−2)」については、検出された区間の始端と終端でチャプタ分割し、始終端に挟まれたチャプタの名称を「『エンディング』」(複数検出された場合は「『エンディング』−番号」)、もしタイトル名が未設定の場合にはキーに関連付けられた「タイトルの名称」をタイトル名として、それぞれ設定するようにように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
「コーナー音楽属性2(CNM−2)」については、検出された区間の始端でチャプタ分割し、分割された後方のチャプタの名称を「(キーの名称)」、もしタイトル名が未設定の場合にはキーに関連付けられた「タイトルの名称」をタイトル名として、それぞれ設定するようにように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
「競技注目イベント属性2(AGE−2)」については、検出された区間の始端の8秒前をマーカ点とし、マーカの名称を「(キーの名称)−番号」と設定するようにように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
「音楽開始属性2(BOM−2)」については、検出された区間の始端でチャプタ分割し、分割された後方のチャプタの名称を「(キーの名称)」と設定するようにように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
「音楽終了属性2(EOM−2)」については、検出された区間の終端でチャプタ分割するようにように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
(2)検索キーEが検出されたときの記録指示動作
このような構成では、例えば、検索キーEが検出されたときに、「BGM属性2」の規定の記録指示動作に従って、「道路情報ラジオ」番組における「道路渋滞情報」の区間が、複数回検出されて、それぞれ放送された時刻に応じて「道路渋滞情報−9:55」「道路渋滞情報−10:28」「道路渋滞情報−10:56」等という名前のマーカが検出された区間についている。
これにより、例えば、道路渋滞情報だけを最新の情報から順に抜き出して聞く等が可能となる。
(3)検索キーHが検出されたときの記録指示動作
検索キーHが検出されたときに、「競技注目イベント属性2」の規定の動作に従って、「高校対抗野球大会」番組における「金属バット音」が検出され、各々検出された箇所の8秒前にマーカがついているので、打撃のシーンのみを直前の投球動作から順次再生することが可能となる。
(4)検索キーJ1とJ2が検出されたときの記録指示動作
検索キーJ1とJ2が検出されたときに、「音楽開始属性2」と「音楽終了属性2」の規定の動作の組み合わせによって、「曲名“A”」の音楽の開始と終了の両方でチャプタ分割され、音楽の区間が「曲名“A”」のチャプタとなる。
[第3の実施形態]
本発明の第3の実施形態に係る映像音声処理装置について図11に基づいて説明する。
本実施形態と第1の実施形態の異なる点は、第1の実施形態では、外部から取得した映像音声データについて記録及び処理をしていたが、本実施形態では記録済みの映像音声データについて処理を行うことである。
図11は、本実施形態に係る映像音声処理装置の構成を示すものである。
図11に示す映像音声処理装置は、キーデータ管理部10、映像データ取得部46、音声データ分離部22、キー照合部30、照合結果記録指示部35及び記録媒体90を備えている。
キーデータ管理部10は、第1の実施形態と同様に、複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについて、関連する名称や属性等の情報を合わせて管理することができる。
例えば、図2に示すように、検索キーAについて「占いコーナー」「朝の情報テレビ」「BGM属性1」等、検索キーBについて「オープニング」「夜の連続ドラマ」「オープニング音楽属性1」等がキー関連情報として管理されている。
記録媒体90には、予め映像音声データまたは映像音声信号が記録されている。
映像データ取得部46は、記録媒体90に記録されている映像音声データを読み出して取得し、音声データ分離部22へ渡す。また、アナログ映像音声信号を読み出して取得し、デジタル映像音声データに変換した後、音声データ分離部22へ渡してもよい。
なお、これらの処理に加えて、必要に応じて映像音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。なお、第1の実施形態における映像データ取得部41と異なる点は、外部から取得したデータについて記録及び処理を行うのではなく、記録済みのデータについて処理を行うことである。
音声データ分離部22は、映像データ取得部46において取得された映像音声データから音声データを分離して、キー照合部30へ渡す。例えば、MPEG2データをDemuxして、音声データを含むMPEG2 Audio ESを取り出し、デコード(AAC等)する。
キー照合部30は、キーデータ管理部10において検索キーとして管理されている音声パターンデータのうち、予め選択された1または複数の音声パターンデータと、音声データ分離部22において分離された音声データとを照合し、類似した区間を検出する。
照合結果記録指示部35は、キー照合部30において検出されたキーデータをキーデータ管理部10より取得する。そして、このキーデータにおける検索キーの属性に応じて、再生、編集、検索が簡単にできるようにメタデータを記録媒体90に記録する。
例えば、図3と同様に、検索キーAの「BGM属性1」については検出された区間全体を「(キーの名称)」、また、検索キーBの「オープニング音楽属性1」については検出された区間の始終端の間を「オープニング」、終端の後方の区間を「本編」、さらにタイトル名を設定する等の記録指示動作が各属性について規定されている。
また、照合結果記録指示部35において、記録媒体90に記録されるメタデータは、例えばARIB STD−B38で規定される構造になっている。
図17は、キー照合部30において検索キーAが検出されたときに、照合結果記録指示部35によって記録媒体90に記録されるメタデータの例を示すものである。番組開始後3480秒(58分)から120秒間の「占いコーナー−1」と、6660秒(1時間51分)から180秒間の「占いコーナー−2」という2つのセグメントと、これらの占いコーナー部分を抜き出した「占いコーナー」というセグメントグループが記録されている。
図18は、キー照合部30において検索キーBが検出されたときに、照合結果記録指示部35によって記録媒体90に記録されるメタデータの例を示すものである。プログラムに関する、名前(タイトル名)「夜の連続ドラマ」やジャンル「ドラマ」等の情報と、番組開始後30秒から70秒間の「オープニング−1」や1215秒(20分15秒)からの「オープニング−2」、これらの間の「本編−1」「本編−2」等のセグメントが記録されている。
[第4の実施形態]
本発明の第4の実施形態に係る音声処理装置について図12に基づいて説明する。
本実施形態と第2の実施形態の異なる点は、第2の実施形態では、外部から取得したデータについて記録及び処理をしていたが、本実施形態では記録済みのデータについて処理を行うことである。
図12は、本実施形態に係る音声処理装置の構成を示すものである。
図12に示す音声処理装置は、キーデータ管理部10、音声データ取得部26、キー照合部30、照合結果記録指示部35及び記録媒体90を備えている。第3の実施形態と異なり、映像データを扱わない。
キーデータ管理部10は、第2の実施形態と同様に、複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについて、関連する名称や属性等の情報を合わせて管理することができる。
記録媒体90には、予め音声データまたは音声信号あるいは映像音声信号が記録されている。
音声データ取得部26は、記録媒体90に記録されている音声データを読み出して取得し、キー照合部30へ渡す。また、音声データ取得部26は、記録媒体90に記録されているアナログ音声信号を読み出して取得するか、記録媒体90に記録されているアナログ映像音声信号を読み出して音声信号のみ取得し、デジタル音声データに変換した後、キー照合部30へ渡してもよい。なお、これらの処理に加えて、必要に応じて音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。なお、第2の実施形態における音声データ取得部21と異なる点は、外部から取得したデータについて記録及び処理を行うのではなく、記録済みのデータについて処理を行うことである。
キー照合部30は、キーデータ管理部10において検索キーとして管理されている音声パターンデータのうち、予め選択された1または複数の音声パターンデータと、音声データ取得部26において取得された音声データとを照合し、類似した区間を検出する。
照合結果記録指示部35は、キー照合部30において検出されたキーデータをキーデータ管理部10より取得する。そして、このキーデータにおける検索キーの属性に応じて、再生、編集、検索が簡単にできるようにメタデータを記録媒体90に記録する。
[第5の実施形態]
本発明の第5の実施形態に係る映像音声処理装置について図13に基づいて説明する。
本実施形態では、第1〜第4の実施形態のキーデータ管理部30において検索キーとして記録されているキーを生成する映像音声処理装置について説明する。
図13は、本実施形態に係る映像音声処理装置の構成を示すものである。
図13に示す映像音声処理装置は、映像データ取得部43、映像データ指定部47、音声データ分離部25、キー生成部31、キー関連データ入力部56及びキーデータ管理部10を備えている。
映像データ取得部43は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音声データを取得し、映像データ指定部47へ渡す。また、外部のビデオカメラ、放送受信チューナー、その他の機器から入力されるアナログ映像音声信号を取得し、デジタル映像音声データに変換した後、映像データ指定部47へ渡してもよい。
映像データ指定部47は、映像データ取得部43において取得された映像音声データの全部または一部区間を利用者が指定する。利用者の操作により指定する区間を取得する場合には、例えばマウスやリモコンといったデバイスを用いたものが考えられるが、その他の方法を用いてもよい。映像音声データを再生表示しておき、ユーザが映像音声データを確認しながら手動で区間を指定するようにしてもよい。
音声データ分離部25は、映像データ指定部47において指定された映像音声データから音声データを分離して、キー生成部31へ渡す。
キー生成部31は、第1から第4の各実施形態のキー照合部30において使用される音声パターンデータを、音声データ分離部25から渡された音声データについて生成する。
キー関連データ入力部56は、キーデータ管理部10において検索キーとして管理されるもののうち、例えば図2に示すような音声パターンデータ以外のキー関連データを外部入力する。
なお、キー関連データ入力部56は、映像データ指定部47において指定された映像音声データの区間に対応するキー関連データを、映像データ取得部43に入力される映像音声データと対応付けて管理している外部のシステムから取得してもよい。例えば、指定された映像音声データに対応するタイトル名や指定された区間に対応するチャプタ名などをEPGやメタデータから取得してもよい。
キーデータ管理部10は、キー生成部31において生成された音声パターンデータ及びキー関連データ入力部56において入力されたキー関連データを管理する。
[第6の実施形態]
本発明の第6の実施形態に係る音声処理装置について図14に基づいて説明する。
本実施形態では、第1〜第4の実施形態のキーデータ管理部30において検索キーとして記録されているキーを生成する音声処理装置について説明する。本実施形態と第5の実施形態の異なる点は、第5の実施形態では、映像音声データを処理したが、本実施形態は音声データのみを処理する点である。
図14は、本実施形態に係る音声処理装置の構成を示すものである。
図14に示す音声処理装置は、音声データ取得部23、音声データ指定部27、キー生成部31、キー関連データ入力部56及びキーデータ管理部10を備えている。
音声データ取得部23は、外部のデジタルマイクロホン、デジタル放送等の受信チューナー、その他のデジタル機器から入力される音声データを取得し、音声データ指定部27へ渡す。また、外部のマイクロホン、放送受信チューナー、その他の機器から入力されるアナログ音声信号を取得し、デジタル音声データに変換した後、音声データ指定部27へ渡してもよい。
音声データ指定部27は、音声データ取得部23において取得された音声データの全部または一部区間を指定する。利用者の操作により指定する区間を取得する場合には、例えばマウスやリモコンといったデバイスを用いたものが考えられるが、その他の方法を用いてもよい。音声データを再生しておき、ユーザが音声データを確認しながら手動で区間を指定するようにしてもよい。
キー生成部31は、第1から第4の各実施形態のキー照合部30において使用される音声パターンデータを、音声データ指定部27から渡された音声データについて生成する。
キー関連データ入力部56は、キーデータ管理部10において検索キーとして管理されるもののうち、例えば図9に示すような音声パターンデータ以外のキー関連データを外部入力する。
なお、キー関連データ入力部56は、音声データ指定部27において指定された音声データの区間に対応するキー関連データを、音声データ取得部23に入力される音声データと対応付けて管理している外部のシステムから取得してもよい。例えば、指定された音声データに対応するタイトル名や指定された区間に対応するチャプタ名などをEPGやメタデータから取得してもよい。
キーデータ管理部10は、キー生成部31において生成された音声パターンデータ及びキー関連データ入力部56において入力されたキー関連データを管理する。
[第7の実施形態]
本発明の第7の実施形態に係る映像音声処理装置について図15に基づいて説明する。
本実施形態では、第1〜第4の実施形態のキーデータ管理部30において検索キーとして記録されているキーを生成する映像音声処理装置について説明する。本実施形態と第5の実施形態の異なる点は、指定された映像音声データに対応するタイトル名や指定された区間に対応するチャプタ名があれば、それらのキー関連データを利用する点である。
図15は、本実施形態に係る映像音声処理装置の構成を示すものである。
図15に示す映像音声処理装置は、記録媒体90、映像データ取得部48、映像データ指定部47、音声データ分離部25、キー生成部31、キー関連データ取得部55及びキーデータ管理部10を備えている。
記録媒体90には、予め映像音声データまたは映像音声信号が記録されている。また、記録媒体90には、映像音声のタイトルやチャプタといった単位に分割するための情報や、それらの名前や属性等に関する情報が記録されている。
映像データ取得部48は、記録媒体90に記録されている映像音声データを読み出して取得し、映像データ指定部47へ渡す。また、アナログ映像音声信号を読み出して取得し、デジタル映像音声データに変換した後、映像データ指定部47へ渡してもよい。
映像データ指定部47は、映像データ取得部48において取得された映像音声データの全部または一部区間を指定する。利用者の操作により指定する区間を取得する場合には、例えばマウスやリモコンといったデバイスを用いたものが考えられるが、その他の方法を用いてもよい。映像音声データを再生表示しておき、ユーザが映像音声データを確認しながら始終端の位置を指定するようにしてもよい。また、チャプタのサムネイル画像一覧等からチャプタを選択し、そのチャプタ全体を指定された区間と見なしてもよい。
音声データ分離部25は、映像データ指定部47において指定された映像音声データから音声データを分離して、キー生成部31へ渡す。
キー生成部31は、第1から第4の各実施形態のキー照合部30において使用される音声パターンデータを、音声データ分離部25から渡された音声データについて生成する。
キー関連データ取得部55は、映像データ指定部47において指定された映像音声データの区間に対応するキー関連データを記録媒体90から取り出す。例えば、指定された映像音声データに対応するタイトル名や指定された区間に対応するチャプタ名があれば、それらのキー関連データが取り出される。また、以前の検索結果に対応する区間が指定され、その検索結果のキーデータが保存されている場合は、図2のようなキー関連データが取り出される。なお、第5の実施形態におけるキー関連データ入力部56と同様にキー関連データを外部入力してもよい。
タイトル名としては、一つの番組を表す名前だけでなく、複数の番組のグループを表すもの(番組グループ)であったり、シリーズ化された番組を表すもの(番組シリーズ)であってもよい。また、タイトルやチャプタの名前でなく、識別子や、ジャンルなどの属性値をキー関連データとして利用してもよい。その他、EPGや番組メタデータとして与えられる情報があれば、それを利用してもよい。
キーデータ管理部10は、キー生成部31において生成された音声パターンデータ及びキー関連データ取得部55において取得されたキー関連データを管理する。
[第8の実施形態]
本発明の第8の実施形態に係る音声処理装置について図16に基づいて説明する。
本実施形態では、第1〜第4の実施形態のキーデータ管理部30において検索キーとして記録されているキーを生成する音声処理装置について説明する。本実施形態と第6の実施形態の異なる点は、指定された音声データに対応するタイトル名や指定された区間に対応するチャプタ名があれば、それらのキー関連データを利用する点である。
図16は、本実施形態に係る音声処理装置の構成を示すものである。
図16に示す音声処理装置は、記録媒体90、音声データ取得部28、音声データ指定部27、キー生成部31、キー関連データ取得部55及びキーデータ管理部10を備えている。
記録媒体90には、予め音声データまたは音声信号あるいは映像音声信号が記録されている。また、記録媒体90には、音声データのタイトルやチャプタといった単位に分割するための情報や、それらの名前や属性等に関する情報が記録されている。
音声データ取得部28は、記録媒体90に記録されている音声データを読み出して取得し、音声データ指定部27へ渡す。なお、記録媒体90に記録されているアナログ音声信号を読み出して取得するか、記録媒体90に記録されているアナログ映像音声信号を読み出して音声信号のみ取得し、デジタル音声データに変換した後、音声データ指定部27へ渡してもよい。
音声データ指定部27は、音声データ取得部28において取得された音声データの全部または一部区間を指定する。利用者の操作により指定する区間を取得する場合には、例えばマウスやリモコンといったデバイスを用いたものが考えられるが、その他の方法を用いてもよい。音声データを再生しておき、ユーザが音声データを確認しながら始終端の位置を指定するようにしてもよい。また、チャプタ名一覧等からチャプタを選択し、そのチャプタ全体を指定された区間と見なしてもよい。
キー生成部31は、第1から第4の各実施形態のキー照合部30において使用される音声パターンデータを、音声データ指定部27から渡された音声データについて生成する。
キー関連データ取得部55は、音声データ指定部27において指定された音声データの区間に対応するキー関連データを記録媒体90から取り出す。例えば、指定された音声データに対応するタイトル名や指定された区間に対応するチャプタ名があれば、それらのキー関連データが取り出される。また、以前の検索結果に対応する区間が指定され、その検索結果のキーデータが保存されている場合は、図9のようなキー関連データが取り出される。なお、第6の実施形態におけるキー関連データ入力部56と同様にキー関連データを外部入力してもよい。
タイトル名としては、一つの番組を表す名前だけでなく、複数の番組のグループを表すもの(番組グループ)であったり、シリーズ化された番組を表すもの(番組シリーズ)であってもよい。また、タイトルやチャプタの名前でなく、識別子や、ジャンルなどの属性値をキー関連データとして利用してもよい。その他、EPGや番組メタデータとして与えられる情報があれば、それを利用してもよい。
キーデータ管理部10は、キー生成部31において生成された音声パターンデータ及びキー関連データ取得部55において取得されたキー関連データを管理する。
[変更例]
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
例えば、上記各実施形態では、支援データとしてメタデータを用いたが、再生、編集、検索が支援できる情報であれば、他のデータ形式でもよい。
本発明は、例えば、HDD(ハードディスク)レコーダー、DVDレコーダー、パソコン、HDD内蔵型音楽再生装置に好適である。
本発明に係る映像音声処理装置の第1の実施形態の構成を示すブロック図である。 第1の実施形態のキーデータ管理部10において、検索キーと共に管理されている情報の例を示す表である。 第1の実施形態の照合結果記録指示部35において、属性に対応付けて規定されている動作の例を示す表である。 第1の実施形態の照合結果記録指示部35において、「BGM属性1」の規定の動作に従って記録された情報の例を示す模式図である。 第1の実施形態の照合結果記録指示部35において、「オープニング音楽属性1」の規定の動作に従って記録された情報の例を示す模式図である。 第1の実施形態の照合結果記録指示部35において、「コーナー音楽属性1」の規定の動作に従って記録された情報の例を示す模式図である。 第1の実施形態の照合結果記録指示部35において、「競技開始イベント属性1」の規定の動作に従って記録された情報の例を示す模式図である。 本発明に係る音声処理装置の第2の実施形態の構成を示すブロック図である。 第2の実施形態のキーデータ管理部10において、検索キーと共に管理されている情報の例を示す表である。 第2の実施形態の照合結果記録指示部35において、属性に対応付けて規定されている動作の例を示す表である。 本発明に係る映像音声処理装置の第3の実施形態の構成を示すブロック図である。 本発明に係る音声処理装置の第4の実施形態の構成を示すブロック図である。 本発明に係る映像音声処理装置の第5の実施形態の構成を示すブロック図である。 本発明に係る音声処理装置の第6の実施形態の構成を示すブロック図である。 本発明に係る映像音声処理装置の第7の実施形態の構成を示すブロック図である。 本発明に係る音声処理装置の第8の実施形態の構成を示すブロック図である。 キー照合部において検索キーAが検出されたときに、照合結果記録指示部によって記録媒体に記録されるメタデータの例を示す図である。 キー照合部において検索キーBが検出されたときに、照合結果記録指示部によって記録媒体に記録されるメタデータの例を示す図である。
符号の説明
10 キーデータ管理部
21 音声データ取得部
22 音声データ分離部
23 音声データ取得部
25 音声データ分離部
26 音声データ取得部
27 音声データ指定部
28 音声データ取得部
30 キー照合部
31 キー生成部
35 照合結果記録指示部
41 映像データ取得部
43 映像データ取得部
46 映像データ取得部
47 映像データ指定部
48 映像データ取得部
55 キー関連データ取得部
56 キー関連データ入力部
90 記録媒体

Claims (20)

  1. 利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理装置において、
    前記利用対象データから音声データのみを利用対象音声データとして取得する音声データ取得手段と、
    照合のための検索キーとなる音声パターンデータを含むキーデータを記録するキーデータ管理手段と、
    前記利用対象音声データと前記音声パターンデータとを所定の条件に基づいて照合し、前記利用対象音声データにおける前記所定の条件を満たす位置を表す照合結果情報を出力するキー照合手段と、
    前記出力された照合結果情報を前記支援データとして記録媒体に記録させる照合結果記録指示手段と、
    を具備する
    ことを特徴とする情報処理装置。
  2. 前記利用対象データが映像音声データであり、
    前記音声データ取得手段は、前記利用対象データから音声データを分離して、この音声データを利用対象音声データとして取得する
    ことを特徴とする請求項1記載の情報処理装置。
  3. 前記音声データ取得手段は、前記利用対象データを外部から取得すると共に、前記記録媒体に記録させる
    ことを特徴とする請求項1記載の情報処理装置。
  4. 前記音声データ取得手段は、前記利用対象データを前記記録媒体から読み出す
    ことを特徴とする請求項1記載の情報処理装置。
  5. 前記キーデータは、前記再生、編集、検索時の動作に関連する支援データの生成方法を示す動作属性情報を含み、
    前記照合結果記録指示手段は、前記照合結果情報と前記動作属性情報に従って前記記録媒体に前記支援データを記録する
    ことを特徴とする請求項1から請求項4の中で少なくとも一項に記載の情報処理装置。
  6. 前記動作属性情報は、前記利用対象データ中であって、かつ、前記照合結果において検出された区間の始終端の位置を基準として、マーカを記録する位置を決定する記録位置決定方法を規定したものであり、
    前記照合結果記録指示手段は、前記照合結果情報と前記動作属性情報に従って、前記利用対象データ中の位置を決定し、前記決定された位置に前記マーカを支援データとして記録する
    ことを特徴とする請求項5記載の情報処理装置。
  7. 前記動作属性情報は、前記利用対象データ中であって、かつ、前記照合結果において検出された区間の始終端の位置を基準として、前記利用対象データを分割する位置を決定する記録位置決定方法を規定したものであり、
    前記照合結果記録指示手段は、前記照合結果情報と前記動作属性情報に従って、前記利用対象データ中の位置を決定し、前記決定された位置で前記利用対象データを分割するという情報を支援データとして記録する
    ことを特徴とする請求項5記載の情報処理装置。
  8. 前記動作属性情報は、前記照合結果に関連するテキスト情報の生成方法を規定し、
    前記照合結果記録指示手段は、前記規定されたテキスト情報の生成方法に従って、照合結果に関連するテキスト情報を生成し、前記記録された各マーカまたは前記分割された各部分と関連付けて、前記生成されたテキスト情報を支援データとして記録する
    ことを特徴とする請求項6または請求項7記載の情報処理装置。
  9. 前記キーデータは、前記キーデータに関連するテキスト情報を含み、
    前記照合結果記録指示手段は、前記規定されたテキスト情報の生成方法に従って、前記キーデータに関連するテキスト情報に基づいて前記照合結果に関連するテキスト情報を生成する
    ことを特徴とする請求項8記載の情報処理装置。
  10. 前記キーデータは、前記キーデータに関連するテキスト情報を含み、
    前記照合結果記録指示手段は、予め規定されたテキスト情報の生成方法に従って、前記キーデータに関連するテキスト情報に基づいて前記照合結果に関連するテキスト情報を生成し、
    前記照合結果に関連するテキスト情報を支援データとして記録する
    ことを特徴とする請求項1から請求項5の中で少なくとも一項に記載の情報処理装置。
  11. 前記照合結果に関連するテキスト情報は、前記キーデータに関連するテキスト情報と前記照合結果の時刻情報とから生成される
    ことを特徴とする請求項9または請求項10に記載の情報処理装置。
  12. 前記検索キーとなる音声データを取得するキー音声データ取得手段と、
    前記取得されたキー音声データの全部または一部区間を指定するためのキー指定情報を入力するキー指定情報入力手段と、
    前記入力されたキー指定情報に基づいて、キー音声データの全部または一部区間を切り出して音声パターンデータを作成するキー生成手段と、
    前記入力されたキー指定情報に基づいて、前記キーデータに関連するテキスト情報を取得するキーデータ取得手段と、
    をさらに具備し、
    前記キーデータは、前記キーデータ取得手段において取得されたキーデータに関連するテキスト情報を含む
    ことを特徴とする請求項9から請求項11の中で少なくとも一項に記載の情報処理装置。
  13. 前記キーデータは、前記キーデータに関連するタイトル情報を含み、
    前記照合結果記録指示手段は、前記照合結果に含まれる一連の利用対象データ全体に関連するタイトル情報を支援データとして記録する
    ことを特徴とする請求項1から請求項12の中で少なくとも一項に記載の情報処理装置。
  14. 前記検索キーとなる音声データを取得するキー音声データ取得手段と、
    前記取得されたキー音声データの全部または一部区間を指定するためのキー指定情報を入力するキー指定情報入力手段と、
    前記入力されたキー指定情報に基づいて、キー音声データの全部または一部区間を切り出して音声パターンデータを作成するキー生成手段と、
    前記入力されたキー指定情報に基づいて、前記キーデータに関連するタイトル情報を取得するキーデータ取得手段をさらに具備し、
    前記キーデータは、前記キーデータ取得手段において取得されたキーデータに関連するタイトル情報を含む
    ことを特徴とする請求項13記載の情報処理装置。
  15. 前記キーデータは、前記キーデータに関連するタイトルの保存方法に関する情報を含み、
    前記照合結果記録指示手段は、前記キーデータに含まれるタイトルの保存方法に関する情報に従って、前記照合結果に含まれる一連の利用対象データ全体を記録する
    ことを特徴とする請求項1から請求項14の中で少なくとも一項に記載の情報処理装置。
  16. 前記キーデータは、前記キー照合における照合方法を指定する照合方法情報を含み、
    前記キー照合手段は、前記指定された照合方法情報に従って前記照合を行う
    ことを特徴とする請求項1から請求項15の中で少なくとも一項に記載の情報処理装置。
  17. 前記キーデータは、前記キー照合における照合時のパラメータを指定する照合パラメータ情報を含み、
    前記キー照合手段は、前記指定された照合パラメータ情報に従って、前記照合を行う
    ことを特徴とする請求項1から請求項16の中で少なくとも一項に記載の情報処理装置。
  18. 前記支援データが、メタデータである
    ことを特徴とする請求項1から請求項17の中で少なくとも一項に記載の情報処理装置。
  19. 利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理方法において、
    前記利用対象データから音声データのみを利用対象音声データとして取得する音声データ取得ステップと、
    前記再生、編集、または、検索のための検索キーとなる音声パターンデータを含むキーデータを記録するキーデータ管理ステップと、
    前記利用対象音声データと前記音声パターンデータとを所定の条件に基づいて照合し、前記利用対象音声データにおける前記所定の条件を満たす位置を表す照合結果情報を出力するキー照合ステップと、
    前記出力された照合結果情報を前記支援データとして記録媒体に記録させる照合結果記録指示ステップと、
    を具備する
    ことを特徴とする情報処理方法。
  20. 利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理方法をコンピュータによって実現するプログラムにおいて、
    前記利用対象データから音声データのみを利用対象音声データとして取得する音声データ取得機能と、
    前記再生、編集、または、検索のための検索キーとなる音声パターンデータを含むキーデータを記録するキーデータ管理機能と、
    前記利用対象音声データと前記音声パターンデータとを所定の条件に基づいて照合し、前記利用対象音声データにおける前記所定の条件を満たす位置を表す照合結果情報を出力するキー照合機能と、
    前記出力された照合結果情報を前記支援データとして記録媒体に記録させる照合結果記録指示機能と、
    を実現する
    ことを特徴とする情報処理方法のプログラム。
JP2006051226A 2005-03-30 2006-02-27 情報処理装置及びその方法 Expired - Fee Related JP4621607B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006051226A JP4621607B2 (ja) 2005-03-30 2006-02-27 情報処理装置及びその方法
US11/391,365 US20060222318A1 (en) 2005-03-30 2006-03-29 Information processing apparatus and its method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005100192 2005-03-30
JP2006051226A JP4621607B2 (ja) 2005-03-30 2006-02-27 情報処理装置及びその方法

Publications (2)

Publication Number Publication Date
JP2006309920A true JP2006309920A (ja) 2006-11-09
JP4621607B2 JP4621607B2 (ja) 2011-01-26

Family

ID=37070593

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006051226A Expired - Fee Related JP4621607B2 (ja) 2005-03-30 2006-02-27 情報処理装置及びその方法

Country Status (2)

Country Link
US (1) US20060222318A1 (ja)
JP (1) JP4621607B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009017171A (ja) * 2007-07-04 2009-01-22 Sharp Corp 放送受信装置、および放送受信装置の制御方法
JP2010134367A (ja) * 2008-12-08 2010-06-17 Mitsubishi Electric Corp 電気機器
JP2010166352A (ja) * 2009-01-16 2010-07-29 Funai Electric Co Ltd ダビング装置
JP2021117410A (ja) * 2020-01-28 2021-08-10 株式会社第一興商 カラオケ装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8094997B2 (en) * 2006-06-28 2012-01-10 Cyberlink Corp. Systems and method for embedding scene processing information in a multimedia source using an importance value
US20090319273A1 (en) * 2006-06-30 2009-12-24 Nec Corporation Audio content generation system, information exchanging system, program, audio content generating method, and information exchanging method
JP4224095B2 (ja) * 2006-09-28 2009-02-12 株式会社東芝 情報処理装置、情報処理プログラムおよび情報処理システム
US8055662B2 (en) * 2007-08-27 2011-11-08 Mitsubishi Electric Research Laboratories, Inc. Method and system for matching audio recording
US9495713B2 (en) * 2010-12-10 2016-11-15 Quib, Inc. Comment delivery and filtering architecture
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105235A (ja) * 1993-10-08 1995-04-21 Sharp Corp 画像検索方法及び画像検索装置
JP2002288185A (ja) * 2001-03-23 2002-10-04 Hitachi Ltd 画像検索システムおよび画像蓄積方法
JP2004140675A (ja) * 2002-10-18 2004-05-13 Sharp Corp 録画装置
JP2004309920A (ja) * 2003-04-09 2004-11-04 Sony Corp 情報処理装置及び携帯端末装置
JP2005286950A (ja) * 2004-03-31 2005-10-13 Sony Corp 編集方法、記録再生装置、プログラムおよび記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6008802A (en) * 1998-01-05 1999-12-28 Intel Corporation Method and apparatus for automatically performing a function based on the reception of information corresponding to broadcast data
AU3276099A (en) * 1998-03-13 1999-09-27 Matsushita Electric Industrial Co., Ltd. Data storage medium, and apparatus and method for reproducing the data from the same
US7675541B2 (en) * 2001-12-28 2010-03-09 Sony Corporation Display apparatus and control method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105235A (ja) * 1993-10-08 1995-04-21 Sharp Corp 画像検索方法及び画像検索装置
JP2002288185A (ja) * 2001-03-23 2002-10-04 Hitachi Ltd 画像検索システムおよび画像蓄積方法
JP2004140675A (ja) * 2002-10-18 2004-05-13 Sharp Corp 録画装置
JP2004309920A (ja) * 2003-04-09 2004-11-04 Sony Corp 情報処理装置及び携帯端末装置
JP2005286950A (ja) * 2004-03-31 2005-10-13 Sony Corp 編集方法、記録再生装置、プログラムおよび記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009017171A (ja) * 2007-07-04 2009-01-22 Sharp Corp 放送受信装置、および放送受信装置の制御方法
JP2010134367A (ja) * 2008-12-08 2010-06-17 Mitsubishi Electric Corp 電気機器
JP2010166352A (ja) * 2009-01-16 2010-07-29 Funai Electric Co Ltd ダビング装置
JP2021117410A (ja) * 2020-01-28 2021-08-10 株式会社第一興商 カラオケ装置
JP7335175B2 (ja) 2020-01-28 2023-08-29 株式会社第一興商 カラオケ装置

Also Published As

Publication number Publication date
US20060222318A1 (en) 2006-10-05
JP4621607B2 (ja) 2011-01-26

Similar Documents

Publication Publication Date Title
JP4621607B2 (ja) 情報処理装置及びその方法
JP4459179B2 (ja) 情報処理装置及びその方法
JP4224095B2 (ja) 情報処理装置、情報処理プログラムおよび情報処理システム
JP2006345554A (ja) 再生装置
JPWO2005069172A1 (ja) 要約再生装置および要約再生方法
JP2008148077A (ja) 動画再生装置
JPH11238071A (ja) ダイジェスト作成装置及びダイジェスト作成方法
KR20070109921A (ko) 콘텐츠 마킹 방법, 콘텐츠 재생 장치, 콘텐츠 재생 방법,및 기록 매체
JP2006211311A (ja) ダイジェスト映像生成装置
JP4435130B2 (ja) 映像再生装置、再生装置
JP4476786B2 (ja) 検索装置
JP3821362B2 (ja) インデックス情報生成装置、記録再生装置、及びインデックス情報生成方法
JP6266271B2 (ja) 電子機器、電子機器の制御方法及びコンピュータプログラム
JP2007294020A (ja) 記録再生方法、記録再生装置、記録方法、記録装置、再生方法および再生装置
JP2007006095A (ja) コンテンツ再生装置、コンテンツ再生方法、コンテンツ再生プログラムを格納した記録媒体およびコンテンツ再生装置に用いられる集積回路
JP2007149235A (ja) コンテンツ編集装置、プログラム、及び記録媒体
JP4364850B2 (ja) オーディオ再生装置
KR20090114937A (ko) 녹화된 뉴스 프로그램들을 브라우징하는 방법 및 이를 위한장치
JP4230402B2 (ja) サムネイル画像抽出方法、装置、プログラム
JP2005167456A (ja) Avコンテンツ興趣特徴抽出方法及びavコンテンツ興趣特徴抽出装置
JP2005328329A (ja) 映像再生装置と映像録画再生装置と映像再生方法
JP6290046B2 (ja) 映像装置および映像装置の制御方法
JP5286136B2 (ja) デジタル放送受信装置
JP2007028226A (ja) 放送番組再生装置
JP4312167B2 (ja) コンテンツ再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090728

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101101

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees