JP4753605B2

JP4753605B2 - 音声ファイル処理装置

Info

Publication number: JP4753605B2
Application number: JP2005104951A
Authority: JP
Inventors: 誠司腰山
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2005-03-31
Filing date: 2005-03-31
Publication date: 2011-08-24
Anticipated expiration: 2025-03-31
Also published as: JP2006285653A

Description

本発明は、音声再生機能と画像表示機能を有する装置に関し、より具体的には、一連の音声データを含む音声ファイルに１枚の標章画像を割り当てて、音声ファイルと標章画像を１対１に関連付けることにより、音声ファイルの判別を容易にする音声ファイル処理装置に関するものである。

一般に、多数の音声ファイルを蓄積する装置においては、各音声ファイルにファイル名が付与されており、ファイル名やファイル作成日時の入力によって特定の音声ファイルの読み出しを行なうことが出来る。
この様な音声ファイル蓄積装置においては、音声ファイルを選択する際の音声ファイルの判別を容易なものとするために、ディスプレイの画面に各音声ファイルの内容を視覚的に表わすアイコン(ラベル)を表示するものが知られており(特許文献１参照)、この様な音声ファイル蓄積装置においては、画面に表示されている複数のアイコンの中から特定のアイコンをクリックすれば、そのアイコンに関連付けられている音声ファイルが読み出されることになる。
特開２０００−３０５７４８号公報［G06F3/16］

しかしながら、上記従来の音声ファイル蓄積装置においては、音声の録音時にカメラによって画像が撮影され、録音によって作成された音声ファイルとカメラによって撮影された画像とが互いに関連付けられるに過ぎず、音声の録音時にカメラによって画像を撮影することが必須となる。
従って、予め作成されている音声ファイルに対して新たに画像を関連付けることが出来ない問題があった。

そこで本発明の目的は、予め作成されている音声ファイルに対しても画像を関連付けて、音声ファイル読み出し時の判別を容易にすることが出来る、新規な音声ファイル処理装置を提供することである。

本発明に係る音声ファイル処理装置は、一連の音声データを含む音声ファイルの入力に応じて、入力された音声ファイルに含まれる音声データに関連する画像を作成し、その画像を該音声ファイルに対応づけるものであって、
複数種類の音声についての標本データが予め格納されている標本データ格納手段と、
標本データ格納手段に格納されている複数の標本データのそれぞれについて、標本データによって表わされる音声の種類に関連した要素画像が予め格納されている画像格納手段と、
入力された音声ファイルに含まれる音声データを解析し、標本データ格納手段に格納されている複数の標本データの内、入力された音声ファイルに含まれる音声データとの一致度に応じて１或いは複数の標本データを特定するデータ特定手段と、
特定された１或いは複数の標本データに対応する１或いは複数の要素画像を前記画像格納手段から読み出し、読み出した１或いは複数の要素画像を用いて標章画像を生成し、該標章画像を入力された音声ファイルと関連付ける画像関連付け手段
とを具えている。

上記本発明の音声ファイル処理装置においては、１つの音声ファイルが入力されると、先ず、該音声ファイルに含まれる音声データがフーリエ解析等によって解析される。そして、その解析結果に基づいて標本データテーブルが検索され、入力された音声ファイルに含まれる音声データとの一致度に応じて１或いは複数の標本データが特定される。ここで一致度は、例えば両データの相関係数を算出することによって導出することが出来る。
その後、特定された１或いは複数の標本データに対応する１或いは複数の要素画像が、前記画像格納手段から読み出され、読み出された１或いは複数の要素画像を用いて１枚の標章画像が生成され、該標章画像が、入力された音声ファイルと１対１に関連付けられる。

具体的には、前記標本データ格納手段には、音声の質に応じた音声タイプ毎に分類された複数の音声タイプ標本データを含む音声タイプ標本データテーブルと、音声が録音された状況毎に分類された複数の録音状況標本データを含む録音状況標本データテーブルとが格納されている。
そして、前記データ特定手段は、音声タイプ標本データテーブルから、入力された音声ファイルに含まれる音声データと最も一致度の高い１或いは複数の音声タイプ標本データを特定すると共に、入力された音声ファイルに含まれる音声データと最も一致度の高い１或いは複数の録音状況標本データを特定する。
又、前記画像関連付け手段は、前記特定された１或いは複数の音声タイプ標本データに対応する１或いは複数の要素画像を前記画像格納手段から読み出し、読み出した１或いは複数の要素画像を、前記特定された１或いは複数の録音状況標本データによって表わされる録音状況に応じて合成することにより、１枚の標章画像を生成する。

該具体的構成によれば、データ特定手段によって、音声タイプ標本データテーブルから、入力された音声ファイルに含まれる音声データと最も一致度の高い１或いは複数の音声タイプ標本データが特定されると共に、録音状況標本データテーブルから、入力された音声ファイルに含まれる音声データと最も一致度の高い１或いは複数の録音状況標本データが特定される。ここで、音声タイプとしては、男性の声、女性の声、車の音、笛の音、犬の鳴き声、猫の鳴き声などが挙げられる。又、録音状況としては、会議、公園、図書館、雑踏、砂浜、船上などが挙げられる。
次に、画像関連付け手段によって、前記特定された１或いは複数の音声タイプ標本データに対応する１或いは複数の要素画像が前記画像格納手段から読み出され、読み出された１或いは複数の要素画像が、前記特定された１或いは複数の録音状況標本データによって表わされる録音状況に応じて合成される。例えば、画像格納手段には、男性を表わす要素画像、女性を表わす要素画像、犬を表わす要素画像などが格納されており、録音状況が会議であれば、男性を表わす１或いは複数の要素画像と女性を表わす１或いは複数の要素画像とを円陣に配列した１枚の標章画像が生成される。

斯くして、入力された音声ファイルに含まれる音声データの特徴を表わす１枚の標章画像が生成され、該標章画像が、入力された音声ファイルに関連付けられる。
従って、上記標章画像を参照することにより、ユーザは、その音声ファイルに含まれる音声データが、どの様なタイプの音声で、どの様な状況で録音されたかを視覚的に認識することが出来、これによって容易に音声ファイルを判別することが出来る。

本発明に係る音声ファイル処理装置によれば、予め作成されている音声ファイルに対しても標章画像を関連付けて、音声ファイル読み出し時の判別を容易にすることが出来る。

以下、本発明を音声ファイル蓄積システムに実施した形態につき、図面に沿って具体的に説明する。
本発明に係る音声ファイル蓄積システムは、図１に示す如く、音声再生機能と画像表示機能を有する音声ファイル処理装置(10)に対し、複数の音声ファイルを蓄積するためのハードディスク装置等の外部記憶装置(１)を接続して構成されている。

音声ファイル処理装置(10)は、マイクロホン(４)と、マイクロホン(４)から得られる音声信号を音声データに変換するＡ／Ｄ変換回路(５)と、Ａ／Ｄ変換回路(５)から得られる音声データに圧縮等の必要な処理を施して音声ファイルを作成する信号処理回路(６)と、各種のデータを格納するためのメモリ(３)と、所定のコンピュータプログラムを実行するＣＰＵ(２)と、ＣＰＵ(２)によって作成された画像を表示する液晶ディスプレイ(７)とから構成されている。

メモリ(３)には、図１に示す音声タイプ標本データテーブル(８)と録音状況標本データテーブル(９)とが予め格納されている。
音声タイプ標本データテーブル(８)には、音声の質に応じた音声タイプ(例えば、男性の声、女性の声、車の音、笛の音、犬の鳴き声、猫の鳴き声など)毎に分類された複数の音声タイプ標本データＳＡＭＰＬＥ_Ｔ［０］〜ＳＡＭＰＬＥ_Ｔ［ＭＡＸ_Ｔ］が含まれている。一方、録音状況標本データテーブル(９)には、音声が録音された状況(例えば、会議、公園、図書館、雑踏、砂浜、船上など)毎に分類された複数の録音状況標本データＳＡＭＰＬＥ_Ｓ［０］〜ＳＡＭＰＬＥs［ＭＡＸ_Ｓ］が含まれている。

又、メモリ(３)には、複数の音声タイプについて、各音声タイプに関連したアイコン(例えば、男性、女性、犬、猫など)の画像が格納されると共に、複数の録音状況について、各録音状況に応じたアイコン画像操作方法(画像合成手続き)が格納されている。

図２及び図３は、前記外部記憶装置(１)に格納されている複数の音声ファイルを対象として各音声ファイルに標章画像を割り当てるための手続きを表わしている。
先ず図２のステップＳ１にて、１つの音声ファイルに含まれる解析対象の音声データを複数のデータブロックＤＡＴＡ［０］〜ＤＡＴＡ［ＭＡＸ_Ｄ］に時分割する。

そして、ステップＳ２にてカウンター変数Ｉ及びＪを０に設定した上、ステップＳ３では、ＤＡＴＡ［Ｉ］にフーリエ解析を施す。
次に、ステップＳ４では、フーリエ解析の結果と音声タイプ標本データＳＡＭＰＬＥ_Ｔ［Ｊ］とが一致している割合(一致度)を算出し、その結果を一致度変数ＢＵＦ［Ｊ］に代入する。

次にステップＳ５にて、カウンター変数Ｊをインクリメントして、ステップＳ６では、カウンター変数Ｊが所定の上限値ＭＡＸ_Ｔを越えたか否かを判断し、ノーと判断されたときはステップＳ４に戻って、ステップＳ４〜ステップＳ６を繰り返す。そして、ステップＳ６にてイエスと判断されたとき、ステップＳ７に移行する。

ステップＳ７では、一致度変数ＢＵＦ［０］〜ＢＵＦ［ＭＡＸ_Ｔ］の中で最も数値の高いものを選択し、それを最大一致度ＢＵＦ［Ａ］とする。
次にステップＳ８では、最大一致度ＢＵＦ［Ａ］が所定の閾値を越えているか否かを判断し、イエスと判断されたときはステップＳ９に移行し、ノーと判断されたときはステップＳ１０に移行する。

ステップＳ９では、最大一致度ＢＵＦ［Ａ］に対応する音声タイプ標本データの識別番号をデータブロックＤＡＴＡ［Ｉ］の解析結果として、解析結果データＲＥＳＵＬＴ_Ｔ［Ｉ］に代入する。
ステップＳ１０では、データブロックＤＡＴＡ［Ｉ］に対する標本データは存在しないと判断し、解析結果データＲＥＳＵＬＴ_Ｔ［Ｉ］にＮＵＬＬを代入する。

その後、ステップＳ１１では、カウンター変数Ｉをインクリメントして、ステップＳ１２では、カウンター変数Ｉが上限値ＭＡＸ_Ｄを越えたか否かを判断し、ノーと判断されたときはステップＳ３に戻って、ステップＳ３〜ステップＳ１２を繰り返す。
この結果、入力された１つの音声ファイルについての解析結果データＲＥＳＵＬＴ_Ｔ［０］〜ＲＥＳＵＬＴ_Ｔ［ＭＡＸ_Ｄ］が得られることになる。

続いて、図３のステップＳ１３にて、解析対象の音声データ全体に対してフーリエ解析を行なった後、ステップＳ１４にてカウンター変数Ｉを０に設定する。
そして、ステップＳ１５では、フーリエ解析の結果と録音状況標本データＳＡＭＰＬＥ_Ｓ［Ｉ］とが一致している割合(一致度)を算出し、その結果を一致度変数ＢＵＦ［Ｉ］に代入する。

次にステップＳ１６にて、カウンター変数Ｉをインクリメントして、ステップＳ１７では、カウンター変数Ｉが所定の上限値ＭＡＸ_Ｓを越えたか否かを判断し、ノーと判断されたときはステップＳ１５に戻って、ステップＳ１５〜ステップＳ１７を繰り返す。そして、ステップＳ１７にてイエスと判断されたとき、ステップＳ１８に移行する。

ステップＳ１８では、一致度変数ＢＵＦ［０］〜ＢＵＦ［ＭＡＸ_Ｓ］の中で最も数値の高いものを選択し、それを最大一致度ＢＵＦ［Ｂ］とする。
次にステップＳ１９では、最大一致度ＢＵＦ［Ｂ］に対応する録音状況標本データの識別番号を状況の解析結果として、解析結果データＲＥＳＵＬＴ_Ｓに代入する。

その後、ステップＳ２０では、解析結果データＲＥＳＵＬＴ_Ｔの識別番号に対応する複数のアイコンデータをアイコン格納部ＩＣＯＮに代入する。
続いて、ステップＳ２１では、アイコン格納部ＩＣＯＮのデータを解析結果データＲＥＳＵＬＴ_Ｓの識別番号に対応する画像操作方法に従って、標章画像の生成を行ない、生成された標章画像ファイルを元の音声ファイルの音声データに関連付ける。

そして、最後にステップＳ２２にて、音声ファイルの一覧表示等の画面にて、音声ファイルのファイル名の替わりに、前記関連付けされた標章画像ファイルを表示させ、手続きを終了する。

上記本発明の音声ファイル蓄積システムによれば、例えば図４に示す如く男性と女性が参加する会議で録音された音声データのファイルについては、音声タイプ標本データテーブル(８)から、音声ファイルに含まれる音声データと最も一致度の高い音声タイプ標本データとして、男性の声の標本データと女性の声の標本データが特定されると共に、録音状況標本データテーブル(９)から、音声ファイルに含まれる音声データと最も一致度の高い録音状況標本データとして、会議の標本データが特定される。

そして、前記特定された男性の声の標本データと女性の声の標本データに対応する男性のアイコン(11)と女性のアイコン(12)の画像ファイルが前記メモリ(３)から読み出され、読み出された２つの画像ファイルが、前記特定された録音状況標本データによって表わされる会議の録音状況に応じた画像操作方法に従って合成され、例えば男性のアイコン(11)と女性のアイコン(12)が円陣に配置された１枚の標章画像(13)が生成されることになる。

又、図５に示す如く、森の中に犬と猫が居る状況で録音された音声データのファイルについては、犬のアイコン(14)と猫のアイコン(15)の画像ファイルが前記メモリ(３)から読み出され、読み出された２つの画像ファイルが、森の中の録音状況に応じた画像操作方法に従って合成され、例えば犬のアイコン(14)と猫のアイコン(15)と共に木のアイコン(17)が配置された１枚の標章画像(16)が生成されることになる。

又、図６に示す如く、親子で花火を観ている状況で録音された音声データのファイルについては、男性のアイコン(11)と、女性のアイコン(12)と、子供のアイコン(18)とが、花火のイラストを背景として合成され、１枚の標章画像(19)が生成されることになる。

これらの標章画像は、音声ファイルの一覧表示の画面に音声ファイル毎に表示されるので、ユーザは、その標章画像に基づいて各音声ファイルの内容を概ね正確に把握することが出来る。例えば図９に示す標章画像(19)によれば、親子で花火を観ている状況で録音された音声ファイルであると、推測することが出来る。
そこで、ユーザが複数の標章画像の中から目的の音声ファイルであると思われる１つの標章画像を選択すると、その標章画像と関連付けられている音声ファイルが読み出され、音声が再生されることになる。

上述の如く、本発明の音声ファイル蓄積システムによれば、予め作成されている音声ファイルに対しても、その音声ファイルに含まれる音声データを表わす標章画像が自動的に生成されて、音声ファイルに関連付けられるので、カメラを有しない画像蓄積装置においても、標章画像の表示に基づく音声ファイルの読み出しを実現することが出来る。

又、上記の音声ファイル蓄積システムでは、音声タイプと録音状況の判別によって標章画像を生成しているので、音声タイプの判別のみによって標章画像を生成する場合に比べて、音声ファイルの内容をより詳しく認識することが出来、これによって精度の高い画像ファイルの選択が可能である。

尚、本発明の各部構成は上記実施の形態に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能である。例えば、図１の如く録音機能と再生機能を有する音声ファイル処理装置(10)では、録音の直後と音声データの再生時の何れにおいても、標章画像の生成及び関連付けの処理を行なうことが可能である。これに対し、再生機能のみを有する音声ファイル処理装置(10)では、音声データの再生時に標章画像の生成及び関連付けの処理を行なう。
又、入力された音声ファイルに含まれる音声データと標本データとの一致度は、両データの相関係数を算出する方法や両データの周波数特性を比較する方法等、周知の種々の方法を用いて導出することが可能である。

本発明に係る音声ファイル蓄積システムの構成を示すブロック図である。本発明の音声ファイル処理装置による標章画像の生成及び関連付けの具体的手続きの前半を示すフローチャートである。同上手続きの後半を示すフローチャートである。標章画像の生成例を示す図である。他の標章画像の生成例を示す図である。更に他の標章画像の生成例を示す図である。

符号の説明

(１) 外部記憶装置
(10) 音声ファイル処理装置
(２) ＣＰＵ
(３) メモリ
(８) 音声タイプ標本データテーブル
(９) 録音状況標本データテーブル
(11) アイコン
(12) アイコン
(13) 標章画像
(14) アイコン
(15) アイコン
(16) 標章画像
(18) アイコン
(19) 標章画像

Claims

一連の音声データを含む音声ファイルの入力に応じて、入力された音声ファイルに含まれる音声データに関連する画像を作成し、その画像を該音声ファイルに対応づける音声ファイル処理装置であって、
複数種類の音声についての標本データが予め格納されている標本データ格納手段と、
標本データ格納手段に格納されている複数の標本データのそれぞれについて、標本データによって表わされる音声の種類に関連した要素画像が予め格納されている画像格納手段と、
入力された音声ファイルに含まれる音声データを解析し、標本データ格納手段に格納されている複数の標本データの内、入力された音声ファイルに含まれる音声データとの一致度に応じて複数の標本データを特定するデータ特定手段と、
入力された音声ファイルに含まれる音声データを解析することによって当該音声ファイルが録音された際の周囲の状況を判別する録音状況判別手段と、
特定された複数の標本データに対応する複数の要素画像を前記画像格納手段から読み出し、読み出した複数の要素画像を用いて録音状況判別手段によって判別された録音状況に応じて合成し標章画像を生成し、該標章画像を入力された音声ファイルと関連付ける画像関連付け手段
とを具えていることを特徴とする音声ファイル処理装置。