JP4753605B2 - 音声ファイル処理装置 - Google Patents

音声ファイル処理装置 Download PDF

Info

Publication number
JP4753605B2
JP4753605B2 JP2005104951A JP2005104951A JP4753605B2 JP 4753605 B2 JP4753605 B2 JP 4753605B2 JP 2005104951 A JP2005104951 A JP 2005104951A JP 2005104951 A JP2005104951 A JP 2005104951A JP 4753605 B2 JP4753605 B2 JP 4753605B2
Authority
JP
Japan
Prior art keywords
image
sample data
audio file
audio
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005104951A
Other languages
English (en)
Other versions
JP2006285653A (ja
Inventor
誠司 腰山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2005104951A priority Critical patent/JP4753605B2/ja
Publication of JP2006285653A publication Critical patent/JP2006285653A/ja
Application granted granted Critical
Publication of JP4753605B2 publication Critical patent/JP4753605B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声再生機能と画像表示機能を有する装置に関し、より具体的には、一連の音声データを含む音声ファイルに1枚の標章画像を割り当てて、音声ファイルと標章画像を1対1に関連付けることにより、音声ファイルの判別を容易にする音声ファイル処理装置に関するものである。
一般に、多数の音声ファイルを蓄積する装置においては、各音声ファイルにファイル名が付与されており、ファイル名やファイル作成日時の入力によって特定の音声ファイルの読み出しを行なうことが出来る。
この様な音声ファイル蓄積装置においては、音声ファイルを選択する際の音声ファイルの判別を容易なものとするために、ディスプレイの画面に各音声ファイルの内容を視覚的に表わすアイコン(ラベル)を表示するものが知られており(特許文献1参照)、この様な音声ファイル蓄積装置においては、画面に表示されている複数のアイコンの中から特定のアイコンをクリックすれば、そのアイコンに関連付けられている音声ファイルが読み出されることになる。
特開2000−305748号公報[G06F3/16]
しかしながら、上記従来の音声ファイル蓄積装置においては、音声の録音時にカメラによって画像が撮影され、録音によって作成された音声ファイルとカメラによって撮影された画像とが互いに関連付けられるに過ぎず、音声の録音時にカメラによって画像を撮影することが必須となる。
従って、予め作成されている音声ファイルに対して新たに画像を関連付けることが出来ない問題があった。
そこで本発明の目的は、予め作成されている音声ファイルに対しても画像を関連付けて、音声ファイル読み出し時の判別を容易にすることが出来る、新規な音声ファイル処理装置を提供することである。
本発明に係る音声ファイル処理装置は、一連の音声データを含む音声ファイルの入力に応じて、入力された音声ファイルに含まれる音声データに関連する画像を作成し、その画像を該音声ファイルに対応づけるものであって、
複数種類の音声についての標本データが予め格納されている標本データ格納手段と、
標本データ格納手段に格納されている複数の標本データのそれぞれについて、標本データによって表わされる音声の種類に関連した要素画像が予め格納されている画像格納手段と、
入力された音声ファイルに含まれる音声データを解析し、標本データ格納手段に格納されている複数の標本データの内、入力された音声ファイルに含まれる音声データとの一致度に応じて1或いは複数の標本データを特定するデータ特定手段と、
特定された1或いは複数の標本データに対応する1或いは複数の要素画像を前記画像格納手段から読み出し、読み出した1或いは複数の要素画像を用いて標章画像を生成し、該標章画像を入力された音声ファイルと関連付ける画像関連付け手段
とを具えている。
上記本発明の音声ファイル処理装置においては、1つの音声ファイルが入力されると、先ず、該音声ファイルに含まれる音声データがフーリエ解析等によって解析される。そして、その解析結果に基づいて標本データテーブルが検索され、入力された音声ファイルに含まれる音声データとの一致度に応じて1或いは複数の標本データが特定される。ここで一致度は、例えば両データの相関係数を算出することによって導出することが出来る。
その後、特定された1或いは複数の標本データに対応する1或いは複数の要素画像が、前記画像格納手段から読み出され、読み出された1或いは複数の要素画像を用いて1枚の標章画像が生成され、該標章画像が、入力された音声ファイルと1対1に関連付けられる。
具体的には、前記標本データ格納手段には、音声の質に応じた音声タイプ毎に分類された複数の音声タイプ標本データを含む音声タイプ標本データテーブルと、音声が録音された状況毎に分類された複数の録音状況標本データを含む録音状況標本データテーブルとが格納されている。
そして、前記データ特定手段は、音声タイプ標本データテーブルから、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の音声タイプ標本データを特定すると共に、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の録音状況標本データを特定する。
又、前記画像関連付け手段は、前記特定された1或いは複数の音声タイプ標本データに対応する1或いは複数の要素画像を前記画像格納手段から読み出し、読み出した1或いは複数の要素画像を、前記特定された1或いは複数の録音状況標本データによって表わされる録音状況に応じて合成することにより、1枚の標章画像を生成する。
該具体的構成によれば、データ特定手段によって、音声タイプ標本データテーブルから、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の音声タイプ標本データが特定されると共に、録音状況標本データテーブルから、入力された音声ファイルに含まれる音声データと最も一致度の高い1或いは複数の録音状況標本データが特定される。ここで、音声タイプとしては、男性の声、女性の声、車の音、笛の音、犬の鳴き声、猫の鳴き声などが挙げられる。又、録音状況としては、会議、公園、図書館、雑踏、砂浜、船上などが挙げられる。
次に、画像関連付け手段によって、前記特定された1或いは複数の音声タイプ標本データに対応する1或いは複数の要素画像が前記画像格納手段から読み出され、読み出された1或いは複数の要素画像が、前記特定された1或いは複数の録音状況標本データによって表わされる録音状況に応じて合成される。例えば、画像格納手段には、男性を表わす要素画像、女性を表わす要素画像、犬を表わす要素画像などが格納されており、録音状況が会議であれば、男性を表わす1或いは複数の要素画像と女性を表わす1或いは複数の要素画像とを円陣に配列した1枚の標章画像が生成される。
斯くして、入力された音声ファイルに含まれる音声データの特徴を表わす1枚の標章画像が生成され、該標章画像が、入力された音声ファイルに関連付けられる。
従って、上記標章画像を参照することにより、ユーザは、その音声ファイルに含まれる音声データが、どの様なタイプの音声で、どの様な状況で録音されたかを視覚的に認識することが出来、これによって容易に音声ファイルを判別することが出来る。
本発明に係る音声ファイル処理装置によれば、予め作成されている音声ファイルに対しても標章画像を関連付けて、音声ファイル読み出し時の判別を容易にすることが出来る。
以下、本発明を音声ファイル蓄積システムに実施した形態につき、図面に沿って具体的に説明する。
本発明に係る音声ファイル蓄積システムは、図1に示す如く、音声再生機能と画像表示機能を有する音声ファイル処理装置(10)に対し、複数の音声ファイルを蓄積するためのハードディスク装置等の外部記憶装置(1)を接続して構成されている。
音声ファイル処理装置(10)は、マイクロホン(4)と、マイクロホン(4)から得られる音声信号を音声データに変換するA/D変換回路(5)と、A/D変換回路(5)から得られる音声データに圧縮等の必要な処理を施して音声ファイルを作成する信号処理回路(6)と、各種のデータを格納するためのメモリ(3)と、所定のコンピュータプログラムを実行するCPU(2)と、CPU(2)によって作成された画像を表示する液晶ディスプレイ(7)とから構成されている。
メモリ(3)には、図1に示す音声タイプ標本データテーブル(8)と録音状況標本データテーブル(9)とが予め格納されている。
音声タイプ標本データテーブル(8)には、音声の質に応じた音声タイプ(例えば、男性の声、女性の声、車の音、笛の音、犬の鳴き声、猫の鳴き声など)毎に分類された複数の音声タイプ標本データSAMPLE[0]〜SAMPLE[MAX]が含まれている。一方、録音状況標本データテーブル(9)には、音声が録音された状況(例えば、会議、公園、図書館、雑踏、砂浜、船上など)毎に分類された複数の録音状況標本データSAMPLE[0]〜SAMPLEs[MAX]が含まれている。
又、メモリ(3)には、複数の音声タイプについて、各音声タイプに関連したアイコン(例えば、男性、女性、犬、猫など)の画像が格納されると共に、複数の録音状況について、各録音状況に応じたアイコン画像操作方法(画像合成手続き)が格納されている。
図2及び図3は、前記外部記憶装置(1)に格納されている複数の音声ファイルを対象として各音声ファイルに標章画像を割り当てるための手続きを表わしている。
先ず図2のステップS1にて、1つの音声ファイルに含まれる解析対象の音声データを複数のデータブロックDATA[0]〜DATA[MAX]に時分割する。
そして、ステップS2にてカウンター変数I及びJを0に設定した上、ステップS3では、DATA[I]にフーリエ解析を施す。
次に、ステップS4では、フーリエ解析の結果と音声タイプ標本データSAMPLE[J]とが一致している割合(一致度)を算出し、その結果を一致度変数BUF[J]に代入する。
次にステップS5にて、カウンター変数Jをインクリメントして、ステップS6では、カウンター変数Jが所定の上限値MAXを越えたか否かを判断し、ノーと判断されたときはステップS4に戻って、ステップS4〜ステップS6を繰り返す。そして、ステップS6にてイエスと判断されたとき、ステップS7に移行する。
ステップS7では、一致度変数BUF[0]〜BUF[MAX]の中で最も数値の高いものを選択し、それを最大一致度BUF[A]とする。
次にステップS8では、最大一致度BUF[A]が所定の閾値を越えているか否かを判断し、イエスと判断されたときはステップS9に移行し、ノーと判断されたときはステップS10に移行する。
ステップS9では、最大一致度BUF[A]に対応する音声タイプ標本データの識別番号をデータブロックDATA[I]の解析結果として、解析結果データRESULT[I]に代入する。
ステップS10では、データブロックDATA[I]に対する標本データは存在しないと判断し、解析結果データRESULT[I]にNULLを代入する。
その後、ステップS11では、カウンター変数Iをインクリメントして、ステップS12では、カウンター変数Iが上限値MAXを越えたか否かを判断し、ノーと判断されたときはステップS3に戻って、ステップS3〜ステップS12を繰り返す。
この結果、入力された1つの音声ファイルについての解析結果データRESULT[0]〜RESULT[MAX]が得られることになる。
続いて、図3のステップS13にて、解析対象の音声データ全体に対してフーリエ解析を行なった後、ステップS14にてカウンター変数Iを0に設定する。
そして、ステップS15では、フーリエ解析の結果と録音状況標本データSAMPLE[I]とが一致している割合(一致度)を算出し、その結果を一致度変数BUF[I]に代入する。
次にステップS16にて、カウンター変数Iをインクリメントして、ステップS17では、カウンター変数Iが所定の上限値MAXを越えたか否かを判断し、ノーと判断されたときはステップS15に戻って、ステップS15〜ステップS17を繰り返す。そして、ステップS17にてイエスと判断されたとき、ステップS18に移行する。
ステップS18では、一致度変数BUF[0]〜BUF[MAX]の中で最も数値の高いものを選択し、それを最大一致度BUF[B]とする。
次にステップS19では、最大一致度BUF[B]に対応する録音状況標本データの識別番号を状況の解析結果として、解析結果データRESULTに代入する。
その後、ステップS20では、解析結果データRESULTの識別番号に対応する複数のアイコンデータをアイコン格納部ICONに代入する。
続いて、ステップS21では、アイコン格納部ICONのデータを解析結果データRESULTの識別番号に対応する画像操作方法に従って、標章画像の生成を行ない、生成された標章画像ファイルを元の音声ファイルの音声データに関連付ける。
そして、最後にステップS22にて、音声ファイルの一覧表示等の画面にて、音声ファイルのファイル名の替わりに、前記関連付けされた標章画像ファイルを表示させ、手続きを終了する。
上記本発明の音声ファイル蓄積システムによれば、例えば図4に示す如く男性と女性が参加する会議で録音された音声データのファイルについては、音声タイプ標本データテーブル(8)から、音声ファイルに含まれる音声データと最も一致度の高い音声タイプ標本データとして、男性の声の標本データと女性の声の標本データが特定されると共に、録音状況標本データテーブル(9)から、音声ファイルに含まれる音声データと最も一致度の高い録音状況標本データとして、会議の標本データが特定される。
そして、前記特定された男性の声の標本データと女性の声の標本データに対応する男性のアイコン(11)と女性のアイコン(12)の画像ファイルが前記メモリ(3)から読み出され、読み出された2つの画像ファイルが、前記特定された録音状況標本データによって表わされる会議の録音状況に応じた画像操作方法に従って合成され、例えば男性のアイコン(11)と女性のアイコン(12)が円陣に配置された1枚の標章画像(13)が生成されることになる。
又、図5に示す如く、森の中に犬と猫が居る状況で録音された音声データのファイルについては、犬のアイコン(14)と猫のアイコン(15)の画像ファイルが前記メモリ(3)から読み出され、読み出された2つの画像ファイルが、森の中の録音状況に応じた画像操作方法に従って合成され、例えば犬のアイコン(14)と猫のアイコン(15)と共に木のアイコン(17)が配置された1枚の標章画像(16)が生成されることになる。
又、図6に示す如く、親子で花火を観ている状況で録音された音声データのファイルについては、男性のアイコン(11)と、女性のアイコン(12)と、子供のアイコン(18)とが、花火のイラストを背景として合成され、1枚の標章画像(19)が生成されることになる。
これらの標章画像は、音声ファイルの一覧表示の画面に音声ファイル毎に表示されるので、ユーザは、その標章画像に基づいて各音声ファイルの内容を概ね正確に把握することが出来る。例えば図9に示す標章画像(19)によれば、親子で花火を観ている状況で録音された音声ファイルであると、推測することが出来る。
そこで、ユーザが複数の標章画像の中から目的の音声ファイルであると思われる1つの標章画像を選択すると、その標章画像と関連付けられている音声ファイルが読み出され、音声が再生されることになる。
上述の如く、本発明の音声ファイル蓄積システムによれば、予め作成されている音声ファイルに対しても、その音声ファイルに含まれる音声データを表わす標章画像が自動的に生成されて、音声ファイルに関連付けられるので、カメラを有しない画像蓄積装置においても、標章画像の表示に基づく音声ファイルの読み出しを実現することが出来る。
又、上記の音声ファイル蓄積システムでは、音声タイプと録音状況の判別によって標章画像を生成しているので、音声タイプの判別のみによって標章画像を生成する場合に比べて、音声ファイルの内容をより詳しく認識することが出来、これによって精度の高い画像ファイルの選択が可能である。
尚、本発明の各部構成は上記実施の形態に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能である。例えば、図1の如く録音機能と再生機能を有する音声ファイル処理装置(10)では、録音の直後と音声データの再生時の何れにおいても、標章画像の生成及び関連付けの処理を行なうことが可能である。これに対し、再生機能のみを有する音声ファイル処理装置(10)では、音声データの再生時に標章画像の生成及び関連付けの処理を行なう。
又、入力された音声ファイルに含まれる音声データと標本データとの一致度は、両データの相関係数を算出する方法や両データの周波数特性を比較する方法等、周知の種々の方法を用いて導出することが可能である。
本発明に係る音声ファイル蓄積システムの構成を示すブロック図である。 本発明の音声ファイル処理装置による標章画像の生成及び関連付けの具体的手続きの前半を示すフローチャートである。 同上手続きの後半を示すフローチャートである。 標章画像の生成例を示す図である。 他の標章画像の生成例を示す図である。 更に他の標章画像の生成例を示す図である。
符号の説明
(1) 外部記憶装置
(10) 音声ファイル処理装置
(2) CPU
(3) メモリ
(8) 音声タイプ標本データテーブル
(9) 録音状況標本データテーブル
(11) アイコン
(12) アイコン
(13) 標章画像
(14) アイコン
(15) アイコン
(16) 標章画像
(18) アイコン
(19) 標章画像

Claims (1)

  1. 一連の音声データを含む音声ファイルの入力に応じて、入力された音声ファイルに含まれる音声データに関連する画像を作成し、その画像を該音声ファイルに対応づける音声ファイル処理装置であって、
    複数種類の音声についての標本データが予め格納されている標本データ格納手段と、
    標本データ格納手段に格納されている複数の標本データのそれぞれについて、標本データによって表わされる音声の種類に関連した要素画像が予め格納されている画像格納手段と、
    入力された音声ファイルに含まれる音声データを解析し、標本データ格納手段に格納されている複数の標本データの内、入力された音声ファイルに含まれる音声データとの一致度に応じて複数の標本データを特定するデータ特定手段と、
    入力された音声ファイルに含まれる音声データを解析することによって当該音声ファイルが録音された際の周囲の状況を判別する録音状況判別手段と、
    特定された複数の標本データに対応する複数の要素画像を前記画像格納手段から読み出し、読み出した複数の要素画像を用いて録音状況判別手段によって判別された録音状況に応じて合成し標章画像を生成し、該標章画像を入力された音声ファイルと関連付ける画像関連付け手段
    とを具えていることを特徴とする音声ファイル処理装置。
JP2005104951A 2005-03-31 2005-03-31 音声ファイル処理装置 Expired - Fee Related JP4753605B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005104951A JP4753605B2 (ja) 2005-03-31 2005-03-31 音声ファイル処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005104951A JP4753605B2 (ja) 2005-03-31 2005-03-31 音声ファイル処理装置

Publications (2)

Publication Number Publication Date
JP2006285653A JP2006285653A (ja) 2006-10-19
JP4753605B2 true JP4753605B2 (ja) 2011-08-24

Family

ID=37407511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005104951A Expired - Fee Related JP4753605B2 (ja) 2005-03-31 2005-03-31 音声ファイル処理装置

Country Status (1)

Country Link
JP (1) JP4753605B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3150246B2 (ja) * 1993-12-09 2001-03-26 キヤノン株式会社 データ管理方法及び装置
JP2003216175A (ja) * 2002-01-25 2003-07-30 Fuji Photo Film Co Ltd プログラム、音声ファイル管理装置、及び音声ファイル管理方法

Also Published As

Publication number Publication date
JP2006285653A (ja) 2006-10-19

Similar Documents

Publication Publication Date Title
CN101202864B (zh) 动画再现装置
US8589402B1 (en) Generation of smart tags to locate elements of content
EP2083363A1 (en) Content display apparatus for displaying media according to media categories
CN101002200A (zh) 用于封装媒体对象的代表性样本的***和方法
JP2011170690A (ja) 情報処理装置、情報処理方法、およびプログラム。
KR101268987B1 (ko) 메타데이터를 자동적으로 생성/갱신하는 멀티미디어 데이터기록 방법 및 장치
JP2003209771A (ja) デジタル映像再生装置及び再生方法
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
US6278497B1 (en) Moving picture processing method and apparatus, and computer program product having processing procedure recorded therefore
JP2003259316A (ja) ストリーム処理システムおよびストリーム処理プログラム
JP2004153764A (ja) メタデータ制作装置及び検索装置
JP4753605B2 (ja) 音声ファイル処理装置
JP2012053855A (ja) コンテンツ閲覧装置、コンテンツ表示方法及びコンテンツ表示プログラム
JPH0728830A (ja) オーディオデータファイルの分析処理装置
JP2010057003A (ja) 画像記録装置及び画像記録方法
CN113806208A (zh) 测试取证方法及装置、设备、存储介质
KR100328366B1 (ko) 캠코더를 이용하여 촬영한 영상신호의 편집 시스템 및편집 방법
KR20140077287A (ko) 녹음 파일 제어 단말 장치 및 방법
JP3427970B2 (ja) 擬音語による環境音付き映像編集方法および装置並びに映像編集プログラムを記録した記録媒体
JP3334949B2 (ja) 画像処理装置及びその方法
JP3987561B2 (ja) 情報ファイル装置及び情報ファイルの記録方法並びに記憶媒体
JP2008017050A (ja) 会議システム及び会議方法
JP2005303840A (ja) 動画編集装置及び動画編集方法
JP2002287964A (ja) 画面入出力仕様設計システムと方法およびプログラム
JPH09307851A (ja) 画像及び音声の記録管理装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110328

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110524

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees