JP2008107641A

JP2008107641A - 音声データ検索装置

Info

Publication number: JP2008107641A
Application number: JP2006291437A
Authority: JP
Inventors: Juichi Sato; 寿一佐藤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-10-26
Filing date: 2006-10-26
Publication date: 2008-05-08

Abstract

【課題】記録した音声データの所望の部分を正確に検索する。
【解決手段】会議の音声は音声データとなって音声データ記憶部１７に記憶される。また、音声データは、所定のフレーム毎にその特徴がＣＰＵ１１によって抽出され、特徴データ列として分析データ記憶部１８に時刻情報とともに記憶される。一方、検索を行う際は、操作者がマイクロフォン１６に向かって所望の言葉を入力する。この音声は所定のフレーム毎にＣＰＵ１１によって特徴が抽出され、特徴データ列としてＲＡＭ１３に記憶される。次いで、ＲＡＭ１３内の特徴データ列と分析データ記憶部１８内の特徴データ列との一致が検出される。一致しているとみなされた分析データ記憶部１８内の特徴データ列に付けられている時刻情報が抽出され、抽出された時刻情報に対応する音声データ記憶部１７のアドレスから音声データが読み出される。
【選択図】図１

Description

本発明は、記憶された音声データの中から所望の部分を検索するための音声データ検索装置に関する。

記憶された音声データから、所望のキーワードが話されている部分を検索したい場合、例えば、会議の音声をテキストデータ化して保存し、検索キーとなるテキストデータを入力して、保存したデータの中から検索キーと一致するテキストデータ部分を検索する方法がある（特許文献１）。

また、プレゼンテーション用のアプリケーションソフトウエアの操作の切り替わり状況を会議音声と同期して記録し、プレゼンテーションの操作状況をキーとして音声を検索する方法も提案されている（特許文献２）。
特開２００２−３６６５５２号公報特許第３６３７９３７号公報

しかし、特許文献１では、ナレーションのように明瞭に発音した音声なら高い精度でテキスト化することができるが、会議のようにいろいろな人が通常の会話で発言した内容をテキスト化することは、現在の音声認識技術では精度が不十分であり、正確なテキスト化ができない。そして、テキストが不正確だと、所望のデータを検索することはほとんど出来ないという問題がある。

また、特許文献２では、プレゼンテーション用のアプリケーションソフトウエアを使用しない会議も多いから、全く使用できない場合も多いという問題がある。また、プレゼンテーション用のアプリケーションソフトウエアを使用したとしても、検索対象となる音声データが必ずしもプレゼンテーションの操作の切り替えタイミングに該当するとは限らないため、的確な検索ができないという問題がある。

この発明は上述した課題を解決するために、プレゼンテーション用のアプリケーションソフトウエアなどを用いない場合であっても、所望とする音声データを正確に検索することができる音声データ検索装置を提供することを目的とする。

上記課題を解決するために、この発明においては、
収音した音声に対応する音声データを出力する収音手段と、
前記収音手段が出力する音声データを記憶する音声データ記憶手段と、
前記収音手段が出力する音声データを解析してその特徴を示す特徴データを生成する特徴データ生成手段と、
前記特徴データ生成手段が生成した特徴データを、その生成時刻に対応する時刻データとともに記憶する特徴データ記憶手段と、
検索キーの入力を指示する検索キー入力指示手段と、
前記検索キー入力指示手段によって検索キーの入力が指示されている際に、前記特徴データ生成手段が生成した特徴データを検索用特徴データとして記憶する検索用特徴データ記憶手段と、
前記検索用特徴データ記憶手段内の検索用特徴データと前記特徴データ記憶手段内の特徴データとを比較し、一致すると見なされる特徴データを検索する検索手段と、
前記音声データ記憶手段に記憶された音声データについて、前記検索手段によって検索された特徴データの時刻データに対応するアドレスから読み出す読出手段と
を具備することを特徴とする。

また、この発明の他の態様においては、
収音した音声に対応する音声データを出力する収音手段と、
前記収音手段が出力する音声データを記憶する音声データ記憶手段と、
前記収音手段が出力する音声データを解析してその特徴を示す特徴データを生成する特徴データ生成手段と、
前記特徴データ生成手段が生成した特徴データを、その生成時刻に対応する時刻データとともに記憶する特徴データ記憶手段と、
文字列を入力する文字列入力手段と、
文字列の構成要素となる音素と前記音素が発音された際の音声の特徴データとが対応付けられたテーブルと、
前記文字列入力手段が入力した文字列の各文字に対して前記テーブルを参照して特徴データに変換する変換手段と、
前記変換手段が変換した特徴データを検索用特徴データとして記憶する検索用特徴データ記憶手段と、
前記検索用特徴データ記憶手段内の検索用特徴データと前記特徴データ記憶手段内の特徴データとを比較し、一致すると見なされる特徴データを検索する検索手段と、
前記音声データ記憶手段に記憶された音声データについて、前記検索手段によって検索された特徴データの時刻データに対応するアドレスから読み出す読出手段と
を具備することを特徴とする。

また、この発明の他の好ましい態様においては、
前記収音手段は複数のマイクと前記各マイクが収音した音声に対応する音声データを各々生成するとともに、前記音声データがいずれのマイクからの信号であるかを識別する識別データを付けて前記音声データに添付する音声データ生成手段を有し、
前記特徴データ記憶手段は前記識別データに基づいて前記特徴データを区分して記憶し、
前記検索手段は前記識別データが特定されると、特定された識別データによって区分されている前記特徴データと前記検索用特徴データ記憶手段内の検索用特徴データとを比較することを特徴とする。

また、この発明の他の好ましい態様においては、
前記収音手段は、収音方向が可変であるアレイマイクと、前記アレイマイクの収音方向を制御し、収音方向を示す方向データを出力する収音方向制御手段と、前記アレイマイクが収音した音声に対応する音声データを生成する音声データ生成手段とを有し、
前記特徴データ記憶手段は前記方向データに基づいて前記特徴データを区分して記憶し、
前記検索手段は前記方向データが特定されると、特定された方向データによって区分されている前記特徴データと前記検索用特徴データ記憶手段内の検索用特徴データとを比較することを特徴とする。

音声データから抽出された特徴データを用いて比較するため、音声データをテキストデータ等に変換する必要がなく、正確な検索を行うことができる。また、プレゼンテーションソフトウエア等も必要としない。

（第１実施形態）
（Ａ）構成
図１は、本発明の第１実施形態である会議システムのハードウェアの構成を示すブロック図である。図１に示すＣＰＵ（Central Processing Unit）１１は、ＲＯＭ（Read Only Memory）１２に記憶されているコンピュータプログラムを読み出してＲＡＭ（Random Access Memory）１３にロードし、これを実行することにより、ハードウェアの各部を制御する。また、ＲＡＭ１３はＣＰＵ１１のワークエリアとしても使用される。操作部１４は、各種のキーを備えており、押下されたキーに対応した信号をＣＰＵ１１へ出力する。

マイクロフォン１６は、周囲の音を収音して音声信号として出力する。入力ＩＦ（Interface）１５は、マイクロフォン１６から出力される音声信号（アナログ信号）を、所定のサンプリング周波数でサンプリングして音声データＳａｄに変換する。ここで、図２は音声データＳａｄの一例である。図示のように、時間軸に沿ってサンプリングタイミング毎の振幅を表すデータ列となっている。

次に、図１に示す音声データ記憶部１７は、ＣＰＵ１１の制御の下に入力ＩＦ１５が出力する音声データＳａｄを順次記憶する。この場合、各サンプリングタイミング毎の音声データＳａｄが音声データ記憶部１７の一つのアドレスに順次記憶される。

また、ＣＰＵ１１は、入力ＩＦ１５が出力する音声データＳａｄを分析して分析データを生成し、生成した分析データを分析データ記憶部１８に順次記憶させるようになっている。

ここで、分析データの生成方法について説明する。この実施形態では、図３に示すように、所定の時間間隔（この実施形態では１０ｍ秒）のフレーム毎に、音声データＳａｄに対して高速フーリエ変換（ＦＦＴ）を行って周波数スペクトルを生成する。図３に示すフレームｆｒ１〜ｆｒ３における周波数スペクトルの例を、図４の（ａ）〜（ｃ）に示す。この図に示すように、各フレームについて、そのフレームに含まれる正弦波の周波数と振幅が抽出される。ＣＰＵ１１は、このようにして抽出された各フレームに含まれる正弦波の周波数と振幅に対し、以下に述べる正規化処理を行う。

まず、各フレーム毎の正弦波の周波数のうち最も低いものをピッチとするとともに、各フレームの正弦波の振幅の平均値を各フレームの平均音圧レベルとする。そして、各フレームにおける各正弦波の周波数をピッチで除算するとともに、各フレームの正弦波の振幅を平均音圧レベルで除算する。このような処理の結果、各フレームについて、周波数の低い側から高い側に向かって、正規化された周波数と振幅のデータ列が生成される。ここでは、周波数の低い側から高い側に向かって（ｆ１，Ａ１）、（ｆ２，Ａ２）、（ｆ３，Ａ３）…というデータ列が生成される。なお、番号は各フレームにおいて周波数の低い側からの順番を示すものであり、各フレームにおいて番号が同じであっても同じ周波数、同じ振幅を示すものではない。以下の説明においては、このデータ列を特徴データ列という。

図５は、分析データ記憶部１８の記憶内容を示す図である。図示のように、一つのレコードはフレーム番号（ｆｒ１，ｆｒ２，ｆｒ３…）、時刻データ、特徴データ列を含んでいる。時刻データは各フレームの開始時刻である。なお、この場合の時刻データは、特徴データ列の生成時刻に対応していれば良く、フレームの開始時刻や終了時刻、あるいは分析データ記憶部１８への書き込み時刻でもよい。また、各フレーム最初の音声データの収音時刻でもよい。要するに、時刻が特定できればよく、特徴データの生成時刻に対応する時刻であればよい。

図１に示す表示部２０は、ディスプレイを備えており、ＣＰＵ１１の制御の下に、所定の文字や図を表示する。再生部２１は、ＣＰＵ１１の制御の下に、音声データＳａｄを音声信号に変換する。スピーカ２２は、変換された音声信号を音声として出力する。

（Ｂ）動作
次に、この実施形態の動作を説明する。以下においては会議の音声を保存し、その中から所望の部分を検索する場合を例にとって説明する。

まず、会議テーブルなどにマイクロフォン１６を置き、会議参加者の各発言を記録してゆく。すなわち、マイクロフォン１６は各参加者の発言を収音し、音声信号として出力する。この結果、入力ＩＦ１５からは図２に示すような音声データＳａｄが出力され、音声データ記憶部１７に各サンプリングタイミングにおける振幅が順次記録されてゆく。

同時に、ＣＰＵ１１は音声データＳａｄを分析し、その分析結果を分析データ記憶部１８に順次記憶させてゆく。これにより、図５に示すような特徴データ列が順次記憶されてゆく。このようにして、会議における各発言は、音声データＳａｄとして音声データ記憶部１７に記憶されるとともに、その特徴が分析され、特徴データ列として分析データ記憶部１８に記憶される。

次に、記録した音声データの所望の部分を聞きたい要求が生じたとき、操作者は、操作部１４の所定のボタンを押して、検索のためのキーワードとなる言葉をマイクロフォン１６に向かって発声する。例えば、キーワードを「こんにちは」とした場合、操作部１４内の所定のボタンを押して「こんにちは」と発声すると、この言葉の音声データＳａｄが生成され、ＲＡＭ１３に記憶されるとともに、会議の記録のときと同様の処理によって分析される。分析結果は検索用特徴データとして、ＲＡＭ１３の所定エリアに記憶される。図６は、この記憶内容を示す。このように、「こんにちは」の特徴データ列が各フレームＦＲ１，ＦＲ２…について検出される。

続いて、ＣＰＵ１１は、ＲＡＭ１３に記憶されたキーワードの特徴データ列と分析データ記憶部１８に記憶された会議音声の特徴データ列を順次照合する。ここで、フレーム同士の特徴データ列の一致について説明する。例えば、最初のフレームについては、フレームＦＲ１とｆｒ１の特徴データを周波数の低いほうから順次比較して一致しているか否かを判定するが、一致の判定については所定の許容範囲が設定されている。
例えばフレームＦＲ１のｆ１とフレームｆｒ１のｆ１の値は、完全に一致していなくても許容誤差（例えば１０％）以内であれば一致とみなす。同様に振幅Ａ１の相対誤差が例えば１０％以内のときは、振幅は一致しているとみなす。周波数成分と振幅成分の双方が一致とみなされた場合には、その正弦波成分は一致しているとみなす。このようにして、（ｆｒ１，Ａ１）、（ｆｒ２，Ａ２）、（ｆｒ３，Ａ３）…という順に比較してゆき、全サンプル（例えば、５０乃至１００）のうち９０％が一致と見なされた場合は、第１フレームであるフレームＦＲ１とｆｒ１は一致していると判定される。この判定を各フレームについて行ってゆく。
この場合、周波数および振幅は、前述のとおり正規化処理されているため、操作者の発音したキーワードが、会議の発言者が発音と音程（ピッチ）や音圧レベルにおいて異なっていても、特徴データが一致していれば、言葉が一致していると判定される。したがって、操作者や発言者の発音の個性によって、異なる検索対象となってしまうことはない。なお、上述の許容範囲は、実施状況に応じて適宜設定することができる。設定は、操作部１４のキー操作によって行ってもよく、事前にデフォルト値としてＲＯＭ１２やＲＡＭ１３に記憶させておいてもよい。

ここで、一致検索の処理内容についてさらに説明する。ＣＰＵ１１は、ＲＡＭ１３に記憶されたキーワード「こんにちは」１語として認識は、この１語の発音に対応する連続したフレーム（以下、フレーム群という）について、分析データ記憶部１８内の特徴データ列を解析し、一致するフレーム群を抽出する。すなわち、「こんにちは」の先頭のフレームから順に操作者と会議発音者の特徴データ列を比較してゆく。

この場合、発音の長さが操作者と会議発音者とで異なる場合があるが、ＣＰＵ１１は、操作者と会議発音者の発音に対応する２つの特徴データ列に対してＤＰ（Dynamic Programming：動的計画法）マッチングアルゴリズムに従って順次比較していく。ＤＰマッチング処理を行うことにより、操作者音声と会議発音者音声の特徴が一致するフレームの対応付けが行われる。これにより、発音の長さが異なっても、同じ「こんにちは」の発音であれば検索が可能となる。すなわち、操作者が吹き込んだ「こんにちは」と分析データ記憶部１８内に記憶された会議発言者の特徴データ列から抽出される「こんにちは」の発音に対応するフレーム数が異なっていても、両者が同じ「こんにちは」の発音であれば一致検索が可能になる。

この場合、「こんにちは」に一致するフレームが分析データ記憶部１８内から複数検出されることがある。本実施形態においては、ＣＰＵ１１は、「こんにちは」のフレーム群について一致が検出されても、両フレーム群内の各フレームの一致度を参照して、フレーム群同士の一致度を算出する。

例えば、一致するとして検出されたフレーム群が共に１００個のフレームを有しており、９７個のフレームにおいて特徴データ列が一致していると見なされ、他の３フレームについては一致していないとみなされた場合に、この会議発言者の特徴データ列の一致度合いを９７％とするという演算を行う。あるいは、各フレーム同士の一致度合いの平均をフレーム群の一致度合いとしてもよい。また、フレーム数が異なる場合のフレーム群同士の一致度合いは、比例配分によって行えばよい。例えば、フレーム数３０のフレーム群とフレーム数９０のフレーム群との一致判定を行う場合は、前者のフレームのうち一致するフレーム数を３倍して、９０で除するようにして一致度合いである％を求めればよい。
一方、フレーム群に含まれるフレームについて不一致と見なされるフレームの許容割合については予め設定されるが、不一致のフレームが一つでもあれば一致と認めないという設定をしてもよく、２０〜３０％の不一致は認めるという設定をしてもよい。

以上のようにして、分析データ記憶部１８内から「こんにちは」に該当するフレーム群と、そのフレーム群の一致度合いが検出される。ここで、図７に「こんにちは」に一致するフレーム群が検出された場合の表示部２０における表示例を示す。図７においては、分析データ記憶部１８内の３カ所において一致が検出された場合の表示例を示している。図示のように検出順を示す番号と時刻と一致度合いが表示されている。この場合の時刻は、一致していると判定された分析データ記憶部１８内のフレーム群の最初のフレームの時刻（図５参照）である。

表示部２０にはカーソルＣｓｒが表示されており、このカーソルＣｓｒは、操作部１４の所定のキーの押下に従ってＣＰＵ１１の制御の下に移動する。また、所定のキー（Ｅｎｔｅｒキーなど）が押下されると、ＣＰＵ１１はカーソルＣｓｒが特定する時刻を呼び出して開始時刻と認識し、この時刻に対応する音声データを音声データ記憶部１７から読み出す。音声データ記憶部１７内の音声データは、サンプリングタイミングに従って順次記憶されているので、１アドレスの違いはサンプリング周期に対応するから、読み出し開始時刻に対応するアドレスを容易に求めることができる。このようにして読み出された音声データは、再生部２１に供給され、ここで再生信号が生成されてスピーカ２２から発音される。

以上のようにして、操作者が吹き込んだ「こんにちは」に合致する発音、すなわち会議発言者が「こんにちは」と発音している箇所から音声の再生がなされる。このように再生された音声が、所望のものでない場合は、操作者は、表示されたリストの中から、他の候補を選択して聞くことができ、これにより、所望の部分の音声を容易に検索して聞くことができる。このように、この実施形態においては、文字列の入力や音声認識を一切用いず、記録した音声と検索用の音声の特徴同士を直接比較することによって所望の音声データを検出することができる。

（第２実施形態）
次に、本発明の第２実施形態について説明する。なお、以下の説明においては、第１実施形態と共通する部分には共通の符号を付けてその説明を省略する。
（Ａ）構成
本実施形態が前述した第１実施形態と異なる点は、テキスト音素特徴変換部１９が設けられている点である。このテキスト音素特徴変換部１９は、操作部１４のキーボードなどから入力されたテキストデータを特徴データ列に変換する機能を有している。

例えば、操作部１４に備えられたキーボードから、「こんにちは」という文字列が入力された場合、この入力文字列を形態素解析によって実際の発音を表す平仮名列に変換する。ここで形態素解析とは、文字列から単語を認識する処理である。すなわち、日本語文章は英語文書と異なり、“分かち書き”されていないため単語間にスペースがなく、単語を切り出して認識することが困難である。そこで、形態素解析においては、予め記憶した形態素辞書データベース（図示略）に基づいて形態素解析を行って単語単位に分割して品詞を判定する。また、本実施形態においては、実際に発音される音に対応するかなに変換する。例えば、「こんちには」という単語について説明すると、この発音を表す平仮名列は「こんにちわ」となる。すなわち、形態素辞書データベースから「こんにちは」という単語が抽出され、さらに内部の発音辞書データベース（図示略）を参照してその実際の発音は「こんにちわ」であると認識し、その認識結果に対応する「かな」を求める。

このようにして音素が求められると、テキスト音素特徴変換部１９は、その内部に記憶されているテキスト音素特徴変換テーブル（図９参照）を参照して実際の発音「こんにちわ」に対応する検索用特徴データを生成する。テキスト音素特徴変換テーブルにおいては、図９に示すように、各音素「あ」「い」「う」…のそれぞれに対応するフレーム群が設定され、各フレーム群内の各フレームには特徴データ列が書き込まれている。この特徴データ列は、第１実施形態の分析データ記憶部１８に記憶された特徴データ列と同様に正規化されたデータである。なお、図９の各音素に対応するフレーム群については、説明を簡略化するために、５フレーム分のみを図示しているが、実際にはより多くのフレームから構成されている。

なお、英文などの場合は、形態素解析は不要となるが、入力された文字列のスペルから辞書データベースを参照して音素を抽出し、抽出した音素に応じた特徴データ列を図９に示すテキスト音素特徴変換テーブルを参照して求める。なお、この場合は、テキスト音素特徴変換テーブルは、英音の音素に応じた特徴データ列を予め設定する必要がある。

（Ｂ）動作
次に、この実施形態の動作を説明する。操作者が操作部１４のキーボードから、例えば、「こんにちは」というキーワードを入力すると、テキスト音素特徴変換部１９は、この入力文字列を形態素解析によって実際の発音を表す平仮名列「こんにちわ」に変換しこれに対応する特徴データ列を有するフレーム群を図９に示すテキスト音素特徴変換テーブルを参照して求める。ＣＰＵ１１はテキスト音素特徴変換部１９が求めた「こんにちは」に対応するフレーム群をＲＡＭ１３に書き込む。
次に、ＣＰＵ１１は、前述した第１実施形態と同様にして、ＲＡＭ１３に書き込んだフレーム群と一致するフレーム群を分析データ記憶部１８内のフレーム群から求め、検索された候補を表示部２０に表示する。操作者が表示部２０の表示内容から所望の候補を選択すれば、該当する音声がスピーカ２２から放音される。この動作は、第１実施形態と同様である。

以上のように第２の実施形態によれば、キーボードから文字列を打ち込んでも、文字列に対応する特徴データ列を有するフレーム群が特定され、一致検索は特徴データ列同士の比較となるから、会議音声などを音声認識で文字列に変換する必要はなく、音声の特徴同士を比較することにより、検索を行うことができる。

（変形例）
なお、本発明は上述した実施形態に限定されるものではなく、種々の態様で実施が可能である。以下にその例を示す。

（変形例１）
複数のフレームにまたがって共通する特徴が連続している場合、その連続しているフレーム数に基づいて同一とみなす規則を設けてもよい。例えば、第５フレームから第３０フレームまで、一致とみなされる特徴データ列をもつフレームが連続している場合の音素は同一であるとみなす、などの規則を設けてもよい。

（変形例２）
マイクロフォン１６は、図１０に示すように、マイクロフォンＡ，Ｂ，Ｃというように複数設けてもよい。さらにこの場合、マイクロフォン入力端子毎に入力経路情報（識別データ）を付加し、図１１に示すように、分析データに入力経路情報を付加すると発言者を区別でき、音声データを区分することができるので、入力経路情報とキーワードによる検索を行うことで、検索範囲を狭めることができ検索効率を向上させることができる。会議においては、各発言者が同時に発言する事はほとんどなく、ある時刻の音声は、図１２に示すように一人の発言者に向けられたマイクロフォンＡ，Ｂ，Ｃのいずれか一つによって収音されたものと推定できるからである。

（変形例３）
図１０にはマイクロフォンを３つ設置する例を示したが、これに代えて、図１３に示すように、複数のマイクＭｉｃを有するマイクアレイシステム３０を用いてもよい。マイクアレイシステム３０は、音声の入力方向を空間的に生成することができるので、その入力方向を示す方向情報と音声信号とを入力ＩＦ１５に供給するように構成する。そして、入力ＩＦ１５は、音声信号を所定のサンプリング周波数でサンプリングして音声データＳａｄに変換するとともに、方向情報を出力する。音声データ記憶部１７は、ＣＰＵ１１の制御の下に入力ＩＦ１５が出力する音声データＳａｄを順次記憶するとともに、所定のヘッダーを設けて方向情報を記憶させる。この方向情報は、発言者を特定するものとなるので、変形例２の場合と同様に音声データが区分されることになり、検索効率を向上させることができる。

（変形例４）
音声データを音声データ記憶部１７に記憶させる態様としては時刻と振幅が関係付けられているものであれば、どのようなものでもよい。例えば、音声データ記憶部１７の記憶領域の物理アドレスを直接時刻に対応させてもよいし、所定のメモリブロックごとに時刻を記憶するヘッダーを挿入させてもよい。メモリブロック長は固定でもよいし、メモリブロック長の値をヘッダーに含んだ可変長メモリブロックデータの態様でもよい。メモリブロックごとに時刻データを付与する場合は、検索される時刻もメモリブロック単位になって離散的になるが、メモリブロックの大きさを適切に設定することにより、検索対象の時刻が曖昧になる等の問題は生じない。

また、音声データを連続する記憶領域に保管し、時刻データと前記記憶領域の物理アドレスとの対応関係を記憶するテーブルを別の記憶領域に保管してもよい。
また、上述の場合においても、第１、第２の実施形態の場合においても、音声データは圧縮して記憶することもできる。
さらに、会議音声等を録音する場合、無音時間の音声データを記憶させることは無駄であるから、所定の強度以上の振幅値がない音声データは記憶しないことが望ましい。この場合、記録再開時の時刻データを記憶（タイムスタンプ）してもよいし、前述のとおり、固定長又は可変長メモリブロックデータのヘッダーに時刻データを含めてもよい。

（変形例５）
分析データ生成方法のアルゴリズムは、高速フーリエ変換（ＦＦＴ）に限られない。図４のような、各フレームごとに固有の振動数と振幅のスペクトルを生成することができるアルゴリズムであれば、どのようなものであってもよい。例えば、他の離散フーリエ変換や、ウェーブレット変換のアルゴリズムを用いてもよい。
各フレームは前後の期間に重複する期間を設けてもよい。これにより、分析精度を向上させることができる。

（変形例６）
音声データＳａｄの分析は、この音声データＳａｄを音声データ記憶部１７に記憶させるのと同時に行ってもよいが、別々に行ってもよい。例えば、記憶された音声データＳａｄを読み出して、分析を行ってもよい。

（変形例７）
音声データ記憶部１７や分析データ記憶部１８への各データの記憶は直接行ってもよいが、所定のバッファメモリあるいはＲＡＭ１３の記憶領域にバッファリングしてもよい。バッファリングを行うと、一時記憶領域に記憶されているデータに対しては素早く検索することができるので、少し前の発言を再生したい場合などに好適である。

（変形例８）
上述した各実施形態においては、特徴データ列について特徴コード（特徴データ）を付与してもよい。すなわち、特徴データ列は、類似するものを一つの共通の集合として分類できる場合がある。このように分類された集合に対して特徴コードを付与する。そして、この特徴コードを図５，図６、図９、図１１の破線で示すようにテーブルの各レコードに加える。このような構成にすれば、操作者音声と分析データ記憶部１８内のフレーム同士の一致検出を、特徴コードの比較によって行うことができるため、一致検出の処理速度を大幅に向上させることができる。この場合、特徴コードの一致についても、ある程度の許容値を設けてもよい。すなわち、特徴データ列が類似する特徴コードについては完全一致あるいはある一致度（８０％、９０％というような一致度）を付与した上での一致とみなすようにすればよい。
また、上述のようにすれば、特徴データ列に替えて特徴コードのみを分析データ記憶部１８に記憶することにすればよいから記憶領域を小さくすることができる。

特徴データ列から特徴コードを導出する方法としては、例えば日本語の五十音をあらかじめ相当数サンプリングしておき、これを前述の実施形態において用いた方法で分析し、その分析結果に対して類似性のあるものをまとめて特徴コードを付与する方法などが挙げられる。

本発明の１実施形態のハードウェア構成を示す図である。音声データの一例を示す波形図である。音声データの分析に用いるフレームを示すための波形図である。各フレームのスペクトルを示す図である。分析データの一例を示す図である。検索用特徴データの一例を示す図である。検索結果の表示例を示す図である。本発明の第２の実施形態のハードウェア構成を示す図である。テキスト音素特徴変換テーブルを示す図である。複数のマイクロフォンを備えた入力ＩＦを示すブロック図である。入力経路情報（タグ）を含んだ分析データの例を示す図である。複数のマイクロフォンに入力される音声のタイミングを示すタイミングチャートである。マイクアレイシステムを備えた入力ＩＦを示すブロック図である。

符号の説明

１１…ＣＰＵ、１２…ＲＯＭ、１３…ＲＡＭ、１４…操作部、１５…入力ＩＦ、１６…マイクロフォン、１７…音声データ記憶部、１８…分析データ記憶部。

Claims

収音した音声に対応する音声データを出力する収音手段と、
前記収音手段が出力する音声データを記憶する音声データ記憶手段と、
前記収音手段が出力する音声データを解析してその特徴を示す特徴データを生成する特徴データ生成手段と、
前記特徴データ生成手段が生成した特徴データを、その生成時刻に対応する時刻データとともに記憶する特徴データ記憶手段と、
検索キーの入力を指示する検索キー入力指示手段と、
前記検索キー入力指示手段によって検索キーの入力が指示されている際に、前記特徴データ生成手段が生成した特徴データを検索用特徴データとして記憶する検索用特徴データ記憶手段と、
前記検索用特徴データ記憶手段内の検索用特徴データと前記特徴データ記憶手段内の特徴データとを比較し、一致すると見なされる特徴データを検索する検索手段と、
前記音声データ記憶手段に記憶された音声データについて、前記検索手段によって検索された特徴データの時刻データに対応するアドレスから読み出す読出手段と
を具備することを特徴とする音声データ検索装置。
収音した音声に対応する音声データを出力する収音手段と、
前記収音手段が出力する音声データを記憶する音声データ記憶手段と、
前記収音手段が出力する音声データを解析してその特徴を示す特徴データを生成する特徴データ生成手段と、
前記特徴データ生成手段が生成した特徴データを、その生成時刻に対応する時刻データとともに記憶する特徴データ記憶手段と、
文字列を入力する文字列入力手段と、
文字列の構成要素となる音素と前記音素が発音された際の音声の特徴データとが対応付けられたテーブルと、
前記文字列入力手段が入力した文字列の各文字に対して前記テーブルを参照して特徴データに変換する変換手段と、
前記変換手段が変換した特徴データを検索用特徴データとして記憶する検索用特徴データ記憶手段と、
前記検索用特徴データ記憶手段内の検索用特徴データと前記特徴データ記憶手段内の特徴データとを比較し、一致すると見なされる特徴データを検索する検索手段と、
前記音声データ記憶手段に記憶された音声データについて、前記検索手段によって検索された特徴データの時刻データに対応するアドレスから読み出す読出手段と
を具備することを特徴とする音声データ検索装置。
前記収音手段は複数のマイクと前記各マイクが収音した音声に対応する音声データを各々生成するとともに、前記音声データがいずれのマイクからの信号であるかを識別する識別データを付けて前記音声データに添付する音声データ生成手段を有し、
前記特徴データ記憶手段は前記識別データに基づいて前記特徴データを区分して記憶し、
前記検索手段は前記識別データが特定されると、特定された識別データによって区分されている前記特徴データと前記検索用特徴データ記憶手段内の検索用特徴データとを比較することを特徴とする請求項１または２記載の音声データ検索装置。
前記収音手段は、収音方向が可変であるアレイマイクと、前記アレイマイクの収音方向を制御し、収音方向を示す方向データを出力する収音方向制御手段と、前記アレイマイクが収音した音声に対応する音声データを生成する音声データ生成手段とを有し、
前記特徴データ記憶手段は前記方向データに基づいて前記特徴データを区分して記憶し、
前記検索手段は前記方向データが特定されると、特定された方向データによって区分されている前記特徴データと前記検索用特徴データ記憶手段内の検索用特徴データとを比較することを特徴とする請求項１または２記載の音声データ検索装置。