JP5454469B2

JP5454469B2 - 音声認識辞書作成支援装置，処理プログラム，および処理方法

Info

Publication number: JP5454469B2
Application number: JP2010510981A
Authority: JP
Inventors: 佐知子小野寺
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-05-09
Filing date: 2008-05-09
Publication date: 2014-03-26
Anticipated expiration: 2028-05-09
Also published as: US8423354B2; JPWO2009136440A1; US20110119052A1; GB201018822D0; GB2471811A; WO2009136440A1; GB2471811B

Description

本発明は，音声認識処理で使用される音声認識辞書の作成処理を支援する音声認識辞書作成支援装置，処理プログラムおよび処理方法に関する。より詳しくは，音声データから，音声認識辞書に登録するキーワードの候補となる未知語の音声データを抽出する処理に関する。

コールセンタ業務ついて，顧客の問い合わせの種別，質問内容，応対所要時間などの業務内容を把握し，業務分析や業務計画に利用したいという要請がある。そのため，各応対時にオペレータが応対内容を記録し，その応対記録を後から分析することが多くのコールセンタでは行われている。しかし，小規模コールセンタで応対記録を残していない，あるいは，応対記録はあるがそこに残されている情報が少ないために，顧客とオペレータとの対話音声を録音し，その音声対話データを分析する必要がある場合がある。

しかし，音声対話データから応対内容を把握するために，音声データを先頭から全て聴取することは高コストであり困難である。そのため，顧客とオペレータとの間の対話のように話し言葉が主体となる音声データから内容把握に必要な区間を特定するために，音声認識によりキーワードを含む区間を抽出して行う。

しかし，音声認識では，キーワードとなるべき語が未知であれば，既知語に誤認識されたり，認識されず未検出となったりするため，キーワード辞書（キーワードリスト）の維持管理が必要である。特に，コールセンタ業務における顧客とオペレータとの応対を録音した音声データを対象とする場合には，応対中に発話される専門語や固有語などがキーワードとなるため，一般的なキーワード辞書では有効な音声認識処理が実現できない。

従来のキーワード辞書作成処理では，コールセンタでの業務内容に関するマニュアル，関連文書などからキーワードを抽出し，キーワードの音声化データをキーワード辞書に追加していた。または，作業者が音声対話データを先頭から実際に聴取し，キーワードとなる部分を手作業で抽出し追加していた。

また，音声認識時に未知語を抽出する処理手法が知られている。例えば，特許文献１には，未知語が出現することを想定した音声認識用文法を予め用意して，未知語が発生されると想定した区間の音声特徴情報と音韻系列を抽出し，音声特徴情報をもとにクラスタリングし，クラスタリングされた音韻系列の代表音韻系列を未知後として検出して辞書に追加登録する処理が開示されている。
特開２００２−３５８０９５号公報

従来の，関連文書等からのキーワード抽出処理で抽出されたキーワードは，認識対象の音声対話データが話し言葉であるため，適切なキーワードとして利用できない場合があった。

一方，音声対話データを実際に聴取して手作業で抽出されたキーワードは，音声データの聴取時間が長くなるため，作業コストが非常に高くつくという問題があった。

また，特許文献１の処理では，音声認識用文法構造によって未知語が発声されるであろう区間が予め定められているため，定型化されにくい対話を録音した音声データに適用することが困難であった。

以上のように，音声データから未知のキーワードを抽出する手法は実現されていなかった。

本発明の目的は，音声認識処理用のキーワード辞書を作成・維持処理を支援するために，音声データから，キーワードとなる可能性のある未知語を効率的に抽出する処理を行う装置，処理プログラムおよび処理方法を提供することである。

開示する装置は，音声データを記憶する音声データ記憶部を備えて，音声データから，少なくとも音声のパワー値を含む韻律情報を抽出する。さらに，韻律情報をもとに，音声データから，パワー値が所定の閾値以上である時間が予め定めた時間以上となる発話区間を抽出し，発話区間を所定の閾値以上のパワー値が一定時間以上連続する区間に分割して分割音声データを生成する。

そして，分割音声データに対して音素認識処理を行い，各分割音声データの音素列データを取得し，音素列データに対してクラスタリング処理を行い，分類された音素列データの集合であるクラスタを生成する。

さらに，クラスタ各々について，クラスタを構成する音素列データに対応する分割音声データの韻律情報をもとに，評価値を算出し，評価値が一定以上であるクラスタを候補クラスタとして選択する。候補クラスタ各々について，クラスタを構成する音素列データから１つの音素列データを代表音素列として特定し，代表音素列に対応する分割音声データを聴取対象音声データとして選択する。

選択された聴取対象音声データは，音声データからパワー値にもとづいて切り出された発話区間であり，キーワード候補の語に相当する分割音声データである。

作業者は，音声データを先頭から聴取する必要がなく，キーワードとして採用される可能性がある語が発声されている区間である聴取対象音声データのみを聴取するだけでよい。

本発明によれば，音声データから，キーワードとして選択される可能性が高い語が発声されている区間を特定し，その語を発声している代表的な音声データを聴取対象音声データとして抽出する処理を，音声データ以外の情報を用いることなく，かつ自動化して行うことができる。

これにより，音声データを先頭から聴取しキーワードの発声されている区間を取り出すという高コスト作業が不要となり，キーワード辞書の作成・維持作業の効率化を図ることができる。

本発明の実施の形態における音声認識辞書作成支援装置の構成例を示す図である。音声認識辞書作成支援装置の処理の概要を示す図である。音声データ管理テーブルの例を示す図である。韻律データの例を示す図である。発話区間テーブルの例を示す図である。分割データ管理テーブルの例を示す図である。発話区間抽出および音声データ分割の例を示す図である。閾値ｔｈ１，ｔｈ２の設定例を示す図である。音素認識結果テーブルの例を示す図である。クリーニング処理された音素列が格納された音素認識結果テーブルの例を示す図である。クラスタ管理テーブルの例を示す図である。評価値算出処理を説明するための図である。単語らしさ情報による評価値算出処理を説明するための図である。候補クラスタ選択処理を説明するための図である。聴取対象データ選択処理を説明するための図である。出現頻度情報による評価値算出処理（ステップＳ７１）のより詳細な処理フロー図である。パワー値による評価値算出処理（ステップＳ７３）のより詳細な処理フロー図である。分割データ管理テーブルのパワー大の値取得処理（ステップＳ７３０）のより詳細な処理フロー図である。ピッチ値による評価値算出処理（ステップＳ７５）のより詳細な処理フロー図である。分割データ管理テーブルのピッチレンジ大の値取得処理（ステップＳ７５０）のより詳細な処理フロー図である。単語らしさ情報による評価値算出処理（ステップＳ７７）のより詳細な処理フロー図である。聴取対象データ選択処理（ステップＳ９）のより詳細な処理フロー図である。本発明の別の実施の形態における音声認識辞書作成支援装置の構成例を示す図である。別の実施の形態における音声認識辞書作成支援装置の処理の概要を示す図である。登録データ生成を説明するための図である。登録データ生成処理（ステップＳ３１）のより詳細な処理フローを示す図である。

符号の説明

１，１′ 音声認識辞書作成支援装置
１０音声データ記憶部
１１韻律情報抽出部
１２音声データ分割部
１３音素列取得部
１４音素認識部
１５クラスタリング部
１６評価値算出部
１７候補クラスタ選択部
１８聴取対象データ選択部
１９採用判定部
１００音声データ管理テーブル
１０１発話区間テーブル
１０２分割データ管理テーブル
１０３音素認識結果テーブル
１０４クラスタテーブル
１０５音素列出現確率管理テーブル
２０音声データ
２１韻律データ
２２分割音声データ
２３，２３′ 音素列データ
２４クラスタデータ
２５辞書候補フレーズ音声データベース
２６音声認識辞書
３０登録情報生成部
３１文字化ルール記憶部
３２読みバリエーションルール記憶部

図１は，本発明の実施の形態における音声認識辞書作成支援装置１の構成例を示す図である。

音声認識辞書作成支援装置１は，音声データからキーワードが発声されている区間（部分データ）を認識するための音声認識辞書２６の作成および更新処理を支援する装置であって，音声データ記憶部１０，韻律情報抽出部１１，音声データ分割部１２，音素列取得部１３，音素認識部１４，クラスタリング部１５，評価値算出部１６，候補クラスタ選択部１７，聴取対象データ選択部１８，採用判定部１９を備える。

音声データ記憶部１０は，音声が録音された音声データ２０を保存する。音声データ２０は，例えば，コールセンタへ入電された電話応対記録のような話し言葉が主体の対話音声を録音したデータである。

韻律情報抽出部１１は，音声データ２０から，所定時間ごとの音声のパワー値，ピッチ値などの韻律データ２１を抽出する。

音声データ分割部１２は，音声データ２０の発話区間を特定し，各発話区間を所定の区切りで分割し，分割音声データ２２を生成する。

音素列取得部１３は，音素認識部１４によって認識された音声データ２０の音素をもとに，分割音声データ２２に相当する音素列データ２３を生成する。

音素認識部１４は，既知の音声認識手法によって，音声データに含まれる音素を認識する。

クラスタリング部１５は，音素列データ２３のクリーニングを行い，クリーニングされた音素列データ２３′を，既知のクラスタリング手法によって分類し，分類したクラスタに関するクラスタデータ２４を生成する。

評価値算出部１６は，所定の評価手法を用いて，クラスタデータ２４の各クラスタの評価値を算出する。

候補クラスタ選択部１７は，クラスタデータ２４のクラスタから，評価値の高いクラスタをクラスタ候補として選択する。

聴取対象データ選択部１８は，候補クラスタごとに，クラスタを構成する音素列データ２３から代表音素列を特定し，代表音素列に相当する分割音声データ２２を聴取対象データとして選択し，辞書候補フレーズ音声データベース２５に蓄積する。

採用判定部１９は，辞書候補フレーズ音声データ２５に蓄積された分割音声データ２２を再生し，音声認識辞書２６への登録データとして採用するか否かを判定し，採用判定された分割音声データ２２を音声認識辞書２６へ登録する。

図２は，音声認識辞書作成支援装置１の処理の概要を示す図である。

ステップＳ１：韻律データ抽出
韻律情報抽出部１１は，所定の記憶部に格納され音声データ管理テーブル１００で管理されている音声データ２０から，一定時間ごとのパワー値およびピッチ値を算出し，パワー値ファイル，ピッチ値ファイルを生成する。

図３は，音声データ管理テーブル１００の例を示す図である。

音声データ管理テーブル１００は，ｗａｖ＿ｉｄ，音声データ，付帯情報，韻律データの項目で構成される。ｗａｖ＿ｉｄには音声データ２０の識別情報，音声データには音声データ２０のファイル名，付帯情報には音声データ２０の録音者の属性（性別や氏名など）の情報，韻律データには音声データ２０のパワー値ファイル，ピッチ値ファイルのファイル名がそれぞれ格納される。

図４は，韻律データ２１の例を示す図である。図４（Ａ）は，音声データ（ｗａｖ＿ｉｄ＝２００７０９２１００１）から生成されたパワー値ファイル（ａ１＿ｐｏｗ．ｔｘｔ）２１ａ，図４（Ｂ）は，ピッチ値ファイル（ａ１＿ｐｉｔ．ｔｘｔ）２１ｂの例である。

図４（Ａ）のパワー値ファイル２１ａは，一定時間（１２．８[msec]）ごとのパワー値列で構成され，各行は［時間，パワー値］を表す。

図４（Ｂ）のピッチ値ファイル２１ｂは，一定時間（１２．８[msec]）ごとのピッチ値列で構成され，各行は［時間，ピッチ値］を表す。なお，ピッチ値は，算出可能な区間のみが記録される。

ステップＳ２：発話区間抽出
音声データ分割部１２は，パワー値ファイル２１ａをもとに，音声データ２０から閾値ｔｈ１以上のパワー値が連続かつその連続区間が最低発話時間以上である区間を，発話区間として検出する。また，検出した発話区間を発話区間テーブル１０１に登録する。

図５は，発話区間テーブル１０１の例を示す図である。発話区間テーブル１０１は，ｕｔｔｅｒａｎｃｅ＿ｉｄ，ｗａｖ＿ｉｄ，開始，終了の項目で構成される。ｕｔｔｅｒａｎｃｅ＿ｉｄには発話区間の識別情報，ｗａｖ＿ｉｄには発話区間を含む音声データ２０の識別情報，開始には発話区間の開始時刻[msec]，終了には発話区間の終了時刻[msec]がそれぞれ格納される。

ステップＳ３：音声データ分割
音声分割データ部１２は，パワー値ファイル２１ａをもとに，音声データ２０の各発話区間について，閾値ｔｈ２以上のパワー値が連続する区間を検出し，検出した区間の音声データから分割音声データ２２を生成，保存する。また，生成した分割音声データ２２を分割データ管理テーブル１０２に登録する。

図６は，分割データ管理テーブル１０２の例を示す図である。分割データ管理テーブル１０２は，ｓｐｌｉｔ＿ｉｄ，ｗａｖ＿ｉｄ，開始，終了の項目で構成される。ｓｐｌｉｔ＿ｉｄには分割音声データ２２の識別情報，ｗａｖ＿ｉｄには発話区間を含む音声データ２０の識別情報，開始には分割音声データ２２の開始時刻[msec]，終了には分割音声データ２２の終了時刻[msec]がそれぞれ格納される。

図７は，発話区間抽出および音声データ分割の例を示す図である。

図７の上段は，音声データ２０の波形例を示し，図７の下段は音声データ２０のパワー値の例を示す。音声データ２０の音声のパワー値が閾値ｔｈ１より大きい状態が一定時間以上連続する区間が発話区間として検出される。さらに，各発話区間から，パワー値が閾値ｔｈ２より大きい状態が一定時間以上連続する区間ごとに分割されて，分割音声データ２２が生成される。

発話区間抽出（ステップＳ２）および音声データ分割（ステップＳ３）の各処理で使用される閾値ｔｈ１，ｔｈ２は，図８（Ａ）または図８（Ｂ）に示すいずれかの算出処理で設定される。

図８（Ａ）の算出処理では，入力となる音声データ２０の全ての音圧の頻度分布を取得し，この頻度分布において「谷」となっている音圧値，すなわち頻度値が最小の音圧値を閾値ｔｈ１とする。

図８（Ｂ）の算出処理では，入力となる音声データの音圧変化（差）が一定値を超える箇所の音圧値（低い値）の頻度分布を取得し，この頻度分布において頻度値が最大の音圧値を閾値ｔｈ１とする。

閾値ｔｈ２の場合は，処理対象の発話区間に相当する音声データ２０を入力として同様の処理によって算出する。

ステップＳ４：音素列取得
音素認識部１４は，分割音声データ２２から音素を認識する。音素認識部１４は，既知の音素認識処理を実施する処理手段である。音声認識処理手法は，既知の処理手法であって，中間情報として音素データを出力できる手法であればよい。例えば，「Ｊｕｌｉｕｓ音声認識エンジン（http://julius.sourceforge.jp/）」のような処理装置を使用してもよい。ここで，音素は，モノフォン（ｍｏｎｏｐｈｏｎｅ），トライフォン（ｔｒｉｐｈｏｎｅ）でもよく，また，ラティスであってもよい。

音素列取得部１３は，音素認識部１４の処理結果である音素認識結果をもとに，分割音声データ２２に相当する音素列データ２３を生成する。また，生成した音素列データ２３を，音素認識結果テーブル１０３に登録する。

図９は，音素認識結果テーブル１０３の例を示す図である。音素認識結果テーブル１０３は，ｓｐｌｉｔ＿ｉｄ，音素認識結果，クリーニング結果の項目で構成される。

ｓｐｌｉｔ＿ｉｄには分割音声データ２２の識別情報，音素認識結果には音素認識部１４で生成された音素列データ２３，クリーニング結果には，後述するクリーニング処理が施された音素列データ２３′が格納される。

例えば，ｓｐｌｉｔ＿ｉｄ＝２００７０９２１００１＿１＿１の分割音声データ２２に対する音声認識処理によって，音素列データ「ｔｑｈｏｏｕ」が得られる。

ステップＳ５：音素列クリーニング
音素列取得部１３は，所定のクリーニング規則を適用して，音素認識部１４の処理結果である音素認識結果（音素列）に対してクリーニング処理を行う。

以下に，クリーニング規則の例を以下に示す。
・クリーニング規則１：長音（例えば，“ｏ：”，“ｏｕ”）と単音（例えば，“ｏ”）をまとめる。
・クリーニング規則２：不確かな結果を除去する（例えば，促音の連続を除去する）。
・クリーニング規則３：音素列中の子音の連続を除去する
・クリーニング規則４：音素列中の無音区間（＜ｓｐ＞）がある場合に，その箇所で分割する。

なお，音素列データ２３が無音区間で分割された場合には，音素認識結果テーブル１０３に，一行追加し，分割した音素列データの新たな識別情報（ｓｐｌｉｔ＿ｉｄ）を付与して登録する。

図１０は，クリーニング処理された音素列データ２３′が格納された音素認識結果テーブル１０３の例を示す図である。

音素列データ２３「ｔｑｈｏｏｕ」がクリーニング処理され，音素列データ２３′「ｈｏｕ」が得られる。

ステップＳ６：クラスタリング
クラスタリング部１５は，既知のクラスタリング手法を用いて全ての音素列データ２３′を分類し，分類した音素列データ２３′の集合（クラスタ）のクラスタデータ２４を生成する。

クラスタデータ２４は，図１１に示すクラスタテーブル１０４として実施される。

クラスタテーブル１０４は，ｓｐｌｉｔ＿ｉｄ，クラスタＩＤ，スコア，選別結果の項目で構成される。

ｓｐｌｉｔ＿ｉｄには分割音声データ２２（音素列）の識別情報，クラスタＩＤには音素列データ２３が分類されたクラスタの識別情報，スコアにはクラスタの評価値，選別結果には聴取対象データとして選別されたかを示す情報が格納される。

ステップＳ７：評価値算出
評価値算出部１６は，以下の評価処理の１つまたは複数を組み合わせて，クラスタデータ２４の各クラスタについて評価値（スコア）を算出する。

本実施例では，評価値算出部１６は，以下の複数の評価処理を行い，その算出値の総和をスコアＳとする。

評価値算出処理Ｓ７１：出現頻度情報による評価値算出
評価値算出処理Ｓ７３：パワー値による評価値算出
評価値算出処理Ｓ７５：ピッチ値による評価値算出
評価値算出処理Ｓ７７：単語らしさ情報による評価値算出
（１）評価値算出処理Ｓ７１：出現頻度情報による評価値算出
評価値算出部１６は，図１２に示すように，音声データ管理テーブル１００，分割データ管理テーブル１０２を用いて，以下の式（１）で各クラスタのスコアＡを算出し，音素列出現確率管理テーブル１０５に記録する。

スコアＡ＝クラスタ中の音素列が出現する音声データの数／全音声データ数式（１）
スコアＡは，ドキュメント（テキスト）データ評価処理の文書頻度（ＤＦ）に相当するスコアであり，高い頻度で出現する情報を含むクラスタを，より良く評価するものである。発話中に重要な語句は何度も繰り返し発声される傾向を利用し，比較的多く発声されている同じ語を示すデータを多く含むクラスタを良いクラスタとして評価することによって，評価精度を高くすることができる。

（２）評価値算出処理Ｓ７３：パワー値による評価値算出
評価値算出部１６は，図１２に示すように，分割データ管理テーブル１０２にパワー大の項目を追加構成する。そして，分割音声データ２２のパワー値が，その分割音声データ２２が含まれる音声データ２０の平均パワー値を超える場合に，分割データ管理テーブル１０２の「パワー値大」にフラグ（＝１）を設定する。

さらに，分割データ管理テーブル１０２のパワー値大にフラグ（１）が設定された分割音声データ２２の全分割音声データの数に対する出現頻度を以下の式（２）で算出する。

スコアＢ＝フラグ設定された分割音声データの数／全分割音声データ数式（２）
スコアＢは，重要な語句は，はっきり大きく発声されるという特徴を前提に，大きな声で発声されているデータを含むクラスタを，より良く評価するものである。発話中に重要な語句は他に比べてはっきり大きく発声される傾向を利用して，他より大きな声で発声しているデータを多く含むクラスタを良いクラスタとして評価することによって，評価精度を高くすることができる。

（３）評価値算出処理Ｓ７５：ピッチ値による評価値算出
評価値算出部１６は，図１２に示すように，分割データ管理テーブル１０２にピッチレンジ大の項目を追加構成する。そして，分割音声データ２２のピッチレンジの値が，その分割音声データ２２が含まれる音声データ２０の平均ピッチレンジの値を超える場合に，分割データ管理テーブル１０２の「ピッチレンジ大」にフラグ（＝１）を設定する。

さらに，分割データ管理テーブル１０２のピッチレンジ大にフラグ（１）が設定された分割音声データ２２の全分割音声データの数に対する出現頻度を以下の式（３）で算出する。

スコアＣ＝フラグ設定された分割音声データの数／全分割音声データ数式（３）
スコアＣは，重要な語句は，はっきり大きく発声されるという特徴を前提に，抑揚ある（ピッチレンジが広い）声で発声されているデータを含むクラスタを，より良く評価するものである。発話中に重要な語句は他に比べて抑揚をつけて発声される傾向を利用し，他より抑揚すなわちピッチレンジが大きくなっている声で発声しているデータを多く含むクラスタを良いクラスタとして評価することによって，評価精度を高くすることができる。

（４）評価値算出処理Ｓ７７：単語らしさ情報による評価値算出
ステップＳ７７の処理を実施する場合には，音声認識辞書作成支援装置１は，評価値算出部１６が形態素解析処理で使用される形態素解析辞書２７および文字化ルール記憶手段２８を参照できるように構成されている。

図１３（Ａ）に示すように，評価値算出部１６は，形態素解析辞書２７から，名詞，動詞などキーワードとして使用される品詞に分類されている語句を抽出し，抽出した語句のｎ−ｇｒａｍを作成する。さらに，図１３（Ｂ）に示すように，クラスタを構成する音素列データ２３′の共通部分を抽出し，共通音素列（例えば，“ｍｏｂａｉｒｕｎｍｅｒｕ”）について文字化ルールを参照して文字列（例えば，“もばいるめる”）を生成する。

そして，ｎ−ｇｒａｍを用いて，共通音素列の抽出語句の文字列における出現確率を算出し，各クラスタの出現確率を音素列出現確率管理テーブル１０５に記録する。この出現確率をスコアＤとする。

スコアＤは，“えっと”，“あのー”などの間投詞をキーワード選択の対象から除去し，キーワードとなる「単語らしさの度合い」が高いデータを含むクラスタを，より良く評価するものである。キーワードらしさの度合いを用いることによって，評価精度を高くすることができる。

ステップＳ７１，７３，７５，７７の各処理の後，評価値算出部１６は，以下の式（４）で各クラスタのスコアＳを算出する。

スコアＳ＝α＊Ａ＋β＊Ｂ＋γ＊Ｃ＋δ＊Ｄ（４）
（α＋β＋γ＋δ＝１，０≦α≦１，０≦β≦１，０≦γ≦１，０≦δ≦１）
ステップＳ８：候補クラスタ選択
候補クラスタ選択部１７は，クラスタテーブル１０４のスコアをもとに，スコア値が高いクラスタを候補クラスタとして選択する。例えば，スコア値が閾値ｔｈ３以上のクラスタ，またはスコア値が高い順における上位ｎ個のクラスタを選択する。

そして，図１４に示すように，クラスタテーブル１０４の選択したクラスタＩＤの選択結果の項目に候補クラスタとして選択されたことを示すフラグ（＝○）を設定する。なお，候補クラスタとして選択しないことを示す値（＝×）を設定してもよい。

ステップＳ９：聴取対象データ選択
聴取対象データ選択部１８は，図１５（Ａ）に示すように，クラスタテーブル１０４の選択された候補クラスタについて，候補クラスタを構成する音素列データ２３′から以下の方法で代表音素列を選択する。
・選択規則１：クラスタの音素列中，列長が最長の音素列を代表音素列とする。
・選択規則２：クラスタの音素列中，各音素列に対応する分割音声データ数が最多の音素列を代表音素列とする。
・選択規則３：ステップＳ７７の処理と同様の処理によって，各音素列の「単語らしさの度合い」を算出し，値の大きい音素列を代表音素列とする。

図１５（Ｂ）に示すように，クラスタＩＤ＝ｉｄ５を構成する音素列データ２３′から，音素列数が多い音素列データの１つを代表音素列として選択する。例えば，ｓｐｌｉｔ＿ｉｄ＝２００７０９２１００１＿１＿１，音素列＝ｍｏｂａｉｒｕｎｍｅｒｕである音素列データ２３′を代表音素列として選択する。

そして，図１５（ｃ）に示すように，選択した代表音素列に対応する分割音声データ２２＿１を選択し，聴取対象データとして出力し，辞書候補フレーズ音声データベース２５に格納する。

ここで，聴取対象として選択される音声データの属性を示す指定タイプ１１０がユーザによって入力されている場合には，音声データ管理テーブル１００の付帯情報を参照し，付帯情報が合致する分割音声データ２２を辞書候補フレーズ音声データベース２５に格納する。

指定タイプ１１０は，例えば，音圧が大きい声，女性の声などが指定された情報である。ユーザにとって聴きやすい音声性質を指定可能とするためである。

なお，属性を指定する指定タイプ１１０を用いずに聴取対象データ選択処理を行う場合には，音声データ管理テーブル１００の付帯情報の項目も必要ない。

その後，採用判定部１９は，辞書候補フレーズ音声データベース２５に格納された分割音声データ２２を再生する。採用判定部１９は，再生された音声を聴取したユーザが，音声認識辞書２６への登録データとして採用するか否かの決定を行えるインターフェースを設け，採用可否の指定を入力し，採用可が入力された場合に，その分割音声データ２２を音声認識辞書２６へ登録する。

図１６〜図２１は，評価値算出処理（ステップＳ７）のステップＳ７１，Ｓ７３，Ｓ７５，Ｓ７７の各処理のより詳細な処理フロー図である。

図１６は，出現頻度情報による評価値算出処理（ステップＳ７１）のより詳細な処理フロー図である。

評価値算出部１６は，ｃ−ｉｄにクラスタテーブル１０４の最初のクラスタＩＤを代入し，ｃｈｅｃｋ＿ｗａｖ集合を空にする（ステップＳ７１０）。

そして，未処理のｃ−ｉｄがあれば（ステップＳ７１１のＹＥＳ），クラスタテーブル１０４のクラスタＩＤがｃ＿ｉｄとなるｓｐｌｉｔ＿ｉｄを検出し，ｓ＿ｉｄへ代入する（ステップＳ７１２）。

さらに，未処理のｓ＿ｉｄがあれば（ステップＳ７１３のＹＥＳ），ｓ＿ｉｄに対応するｗａｖ＿ｉｄを分割データ管理テーブル１０２から取得する（ステップＳ７１４）。

さらに，ｃｈｅｃｋ＿ｗａｖ集合の要素にｗａｖ＿ｉｄがなければ（ステップＳ７１５のＹＥＳ），ｃｈｅｃｋ＿ｗａｖ集合の要素にｗａｖ＿ｉｄを追加する（ステップＳ７１６）。ｃｈｅｃｋ＿ｗａｖ集合の要素にｗａｖ＿ｉｄがあれば（ステップＳ７１５のＮＯ），ステップＳ７１２の処理へ戻る。

ステップＳ７１３において，未処理のｓ＿ｉｄがなければ（ステップＳ７１３のＮＯ），ｃｈｅｃｋ＿ｗａｖ集合の要素数をＸに代入し，スコアＡ＿ｘ＝Ｘ／Ｎ（Ｎ＝全音声データ数）を算出する（ステップＳ７１７）。

そして，ｃｈｅｃｋ＿ｗａｖ集合を空にし，ｃ−ｉｄにクラスタテーブル１０４の次のクラスタＩＤを代入し，ステップＳ７１１の処理へ戻る（ステップＳ７１８）。

ステップＳ７１１において，未処理のｃ−ｉｄがなければ（ステップＳ７１１のＮＯ），処理を終了する。

図１７は，パワー値による評価値算出処理（ステップＳ７３）のより詳細な処理フロー図である。

評価値算出部１６は，分割データ管理テーブル１０２のパワー大の値を取得する（ステップＳ７３０）。ステップＳ７３０の処理の詳細は後述する。

次に，ｃ−ｉｄにクラスタテーブル１０４の最初のクラスタＩＤを代入し，ｐｏｗｅｒに０（ゼロ），ｓ＿ｉｄ＿ｎｕｍに０（ゼロ）を代入する（ステップＳ７３１）。

未処理のｃ−ｉｄがあれば（ステップＳ７３２のＹＥＳ），クラスタテーブル１０４のクラスタＩＤがｃ＿ｉｄとなるｓｐｌｉｔ＿ｉｄを検出し，ｓ＿ｉｄへ代入する（ステップＳ７３３）。

さらに，未処理のｓ＿ｉｄがあれば（ステップＳ７３４のＹＥＳ），ｓ＿ｉｄ＿ｎｕｍをインクリメント（１加算）し（ステップＳ７３５），ｓ＿ｉｄに対応するパワー大のデータを取得する（ステップＳ７３６）。パワー大にフラグ（１）が設定されていれば（ステップＳ７３７のＹＥＳ），ｐｏｗｅｒをインクリメントする（ステップＳ７３８）。パワー大にフラグ（１）が設定されていなければ（ステップＳ７３７のＮＯ），ステップＳ７３３の処理へ戻る。

ステップＳ７３４において，未処理のｓ＿ｉｄがなければ（ステップＳ７３４のＮＯ），スコアＢ＿ｘ＝ｐｏｗｅｒ／ｓ＿ｉｄ＿ｎｕｍを算出する（ステップＳ７３９）。

そして，ｃ−ｉｄにクラスタテーブル１０４の次のクラスタＩＤを代入し，ｐｏｗｅｒ，ｓ＿ｉｄ＿ｎｕｍにそれぞれ０（ゼロ）を代入し，-ステップＳ７３１の処理へ戻る（ステップＳ７４０）。

ステップＳ７３２において，未処理のｃ−ｉｄがなければ（ステップＳ７３２のＮＯ），処理を終了する。

図１８は，分割データ管理テーブル１０２のパワー大の値取得処理（ステップＳ７３０）のより詳細な処理フロー図である。

評価値算出部１６は，音声データ管理テーブル１００から順に，ｗａｖ＿ｉｄを取得し（ｉ＝ｗａｖ＿ｉｄ）（ステップＳ７３００），対応するパワー値ファイル名を得て，パワー値ファイル２１ａを取得する（ステップＳ７３０１）。パワー値ファイル２１ａからｉの平均パワー値（Ａｖｅ＿ｉ）を算出する（ステップＳ７３０２）。

次に，分割データ管理テーブル１０２から，ｗａｖ＿ｉｄに対応するｓｐｌｉｔ＿ｉｄを順に取得し（ｊ＝ｓｐｌｉｔ＿ｉｄ）（ステップＳ７３０３），ｊの開始時刻，終了時刻を取得して，対応する区間の平均音圧（Ａｖｅ＿ｉｊ）を算出する（ステップＳ７３０４）。

平均音圧Ａｖｅ＿ｉｊと平均パワー値Ａｖｅ＿ｉとを比較し，Ａｖｅ＿ｉｊ＞＝Ａｖｅ＿ｉである場合のみ（ステップＳ７３０５のＹＥＳ），分割データ管理テーブル１０２のｊのパワー大にフラグ（１）を設定する（ステップＳ７３０６）。

次のｓｐｌｉｔ＿ｉｄをｊへ入力し，未処理のｊがあれば（ステップＳ７３０７のＹＥＳ），ステップＳ７３０４の処理へ戻る。未処理のｊがなければ（ステップＳ７３０７のＮＯ），ステップＳ７３０８の処理へ進む。

さらに，次のｗａｖ＿ｉｄをｉへ入力し，未処理のｉがあれば（ステップＳ７３０８のＹＥＳ），ステップＳＳ７３０２の処理へ戻る。未処理のｉがなければ（ステップＳ７３０８のＮＯ），ステップＳ７３０８の処理を終了する。

図１９は，ピッチ値による評価値算出処理（ステップＳ７５）のより詳細な処理フロー図である。

評価値算出部１６は，分割データ管理テーブル１０２のピッチレンジ大の値を取得する（ステップＳ７５０）。ステップＳ７５０の処理の詳細は後述する。

次に，ｃ−ｉｄにクラスタテーブル１０４の最初のクラスタＩＤを代入し，ｐｉｔｃｈに０（ゼロ），ｓ＿ｉｄ＿ｎｕｍに０（ゼロ）を代入する（ステップＳ７５１）。

未処理のｃ−ｉｄがあれば（ステップＳ７５２のＹＥＳ），クラスタテーブル１０４のクラスタＩＤがｃ＿ｉｄとなるｓｐｌｉｔ＿ｉｄを検出し，ｓ＿ｉｄへ代入する（ステップＳ７５３）。

さらに，未処理のｓ＿ｉｄがあれば（ステップＳ７５４のＹＥＳ），ｓ＿ｉｄ＿ｎｕｍをインクリメントし（ステップＳ７５５），ｓ＿ｉｄに対応するピッチレンジ大の値を取得する（ステップＳ７５６）。ピッチレンジ大にフラグ（１）が設定されていれば（ステップＳ７５７のＹＥＳ），ｐｉｔｃｈをインクリメントする（ステップＳ７５８）。ピッチレンジ大にフラグ（１）設定されていなければ（ステップＳ７５７のＮＯ），ステップＳ７５３の処理へ戻る。

ステップＳ７５４において，未処理のｓ＿ｉｄがなければ（ステップＳ７５４のＮＯ），スコアＣ＿ｘ＝ｐｉｔｃｈ／ｓ＿ｉｄ＿ｎｕｍを算出する（ステップＳ７５９）。

そして，ｃ−ｉｄにクラスタテーブル１０４の次のクラスタＩＤを代入し，ｐｉｔｃｈ，ｓ＿ｉｄ＿ｎｕｍにそれぞれ０（ゼロ）を代入し，-ステップＳ７５１の処理へ戻る（ステップＳ７６０）。

ステップＳ７５２において，未処理のｃ−ｉｄがなければ（ステップＳ７５２のＮＯ），処理を終了する。

図２０は，分割データ管理テーブル１０２のピッチレンジ大の値取得処理（ステップＳ７５０）のより詳細な処理フロー図である。

評価値算出部１６は，音声データ管理テーブル１００から順に，ｗａｖ＿ｉｄを取得し（ｉ＝ｗａｖ＿ｉｄ）（ステップＳ７５００），対応するピッチ値ファイル名を得て，ピッチ値ファイル２１ｂを取得する（ステップＳ７５０１）。

発話区間テーブル１０１から，順にｗａｖ＿ｉｄ＝ｉのｕｔｔｅｒａｎｃｅ＿ｉｄを取得し（ｕ＝ｕｔｔｅｒａｎｃｅ＿ｉｄ）（ステップＳ７５０２），ピッチ値ファイル２１ｂから各発話区間（ｕｔｔｅｒａｎｃｅの区間）のピッチレンジを算出し，平均ピッチレンジ（Ａｖｅ＿ｉ）を算出する（ステップＳ７５０３）。

次に，分割データ管理テーブル１０２から，ｗａｖ＿ｉｄに対応するｓｐｌｉｔ＿ｉｄを順に取得し（ｊ＝ｓｐｌｉｔ＿ｉｄ）（ステップＳ７５０４），ｊの開始時刻，終了時刻を取得して，対応する区間のピッチレンジ（ｒａｎｇｅ＿ｉｊ）を算出する（ステップＳ７５０５）。

区間のピッチレンジｒａｎｇｅ＿ｉｊと平均ピッチレンジＡｖｅ＿ｉとを比較し，ｒａｎｇｅ＿ｉｊ＞＝Ａｖｅ＿ｉである場合のみ（ステップＳ７５０６のＹＥＳ），分割データ管理テーブル１０２のｊのパワーレンジ大にフラグ（１）を設定する（ステップＳ７５０７）。

次のｓｐｌｉｔ＿ｉｄをｊへ入力し，未処理のｊがあれば（ステップＳ７５０８のＹＥＳ），ステップＳ７５０５の処理へ戻る。未処理のｊがなければ（ステップＳ７５０８のＮＯ），ステップＳ７５０９の処理へ進む。

さらに，次のｗａｖ＿ｉｄをｉへ入力し，未処理のｉがあれば（ステップＳ７５０９のＹＥＳ），ステップＳＳ７５０２の処理へ戻る。未処理のｉがなければ（ステップＳ７５０９のＮＯ），ステップＳ７５０２の処理を終了する。

図２１は，単語らしさ情報による評価値算出処理（ステップＳ７７）のより詳細な処理フロー図である。

評価値算出部１６は，ｃ−ｉｄにクラスタテーブル１０４の最初のクラスタＩＤを代入する（ステップＳ７７０）。

クラスタテーブル１０４のクラスタＩＤがｃ＿ｉｄとなる音素列データ２３′を全て取得し（ステップＳ７７１），共通音素列部分を取得する（ステップＳ７７２）。さらに，文字化ルール記憶部２８を参照して，共通音素列部分の文字列を取得する（ステップＳ７７３）。形態素解析辞書２７を用いて，ｎ−ｇｒａｍデータによる共通音素列部分の所定の抽出語句における出現確率を算出し（ステップＳ７７４），音素列出現確率管理テーブル１０５に，出現確率を格納する（ステップＳ７７５）。

ｃ−ｉｄにクラスタテーブル１０４の次のクラスタＩＤを代入する（ステップＳ７７６），未処理のｃ−ｉｄがあれば（ステップＳ７７７のＹＥＳ），ステップＳ７７１の処理へ戻り，未処理のｃ−ｉｄがなければ（ステップＳ７７７のＮＯ），処理を終了する。

図２２は，聴取対象データ選択処理（ステップＳ９）のより詳細な処理フロー図である。

聴取対象データ選択部１８は，クラスタテーブル１０４から，候補クラスタに選択されたクラスタのクラスタＩＤを順に取得し，ｃ＿ｉｄに代入する（ステップＳ９０）。

未処理のｃ＿ｉｄがあれば（ステップＳ９１のＹＥＳ），クラスタテーブル１０４からクラスタＩＤがｃ＿ｉｄとなるｓｐｌｉｔ＿ｉｄを検出し，ｓ＿ｉｄへ代入する（ステップＳ９２）。

さらに，未処理のｓ＿ｉｄがあれば（ステップＳ９３のＹＥＳ），音素認識結果テーブル１０３からクリーニング結果（音素列データ２３′）を取得して，ｏｎｓｏに代入する（ステップＳ９４）。さらに，ｏｎｓｏの“母音，Ｎ”の数をカウントし，ｌｅｎｇｔｈ（ｓ＿ｉｄ）として（ステップＳ９５），ステップＳ９２の処理へ戻る。

ステップＳ９３において，未処理のｓ＿ｉｄがなければ（ステップＳ９３のＮＯ），ｌｅｎｇｔｈ（ｓ＿ｉｄ）が最大となるｓ＿ｉｄを得て，ｓ＿ｉｄ＿ｍａｘ集合へ入れる（ステップＳ９６）。なお，該当するｓ＿ｉｄは複数であってもよい。

そして，ｓ＿ｉｄ＿ｍａｘ集合中のｓｐｌｉｔ＿ｉｄについて分割データ管理テーブル１０２からｗａｖ＿ｉｄを取得し，音声データ管理テーブル１００から付帯情報を取得する（ステップＳ９７）。指定タイプ１１０に合致したｓｐｌｉｔ＿ｉｄをｃａｎｄｉｄａｔｅ＿ｗａｖ集合へ入れ（ステップＳ９８），ステップＳ９０の処理へ戻る。

ステップＳ９１の処理において，未処理のｃ＿ｉｄがなければ（ステップＳ９１のＮＯ），ｃａｎｄｉｄａｔｅ＿ｗａｖ集合の各ｓｐｌｉｔ＿ｉｄに対応した分割音声データ２２を辞書候補フレーズ音声データベース２５へ格納する（ステップＳ９９）。

このようにして，音声認識辞書作成支援装置１は，音声認識辞書２６に登録されるキーワードの候補となる音声データを自動的に抽出し，音声認識辞書作成処理を支援することができる。

音声認識辞書作成支援装置１をコールセンタ業務向けの音声認識辞書２６の作成支援に適用する場合には，コールセンタにおける全業務の集合Ｘ（要素ｘ）を設定し，未処理の業務ｘを選択して，業務ｘについての聴取対象データを選択する。具体的には，図２の処理フローのステップＳ５の音素列クリーニング処理が施された音素列データ２３′から業務ｘの音素列データ２３′についてステップＳ６〜Ｓ９の処理を行う。これにより，各業務についての聴取対象データを出力することができる。

図２３は，本発明の別の実施の形態における構成例を示す図である。

図２３の音声認識辞書作成支援装置１′の構成は，図１に示す音声認識辞書作成支援装置１の構成とほぼ同様であるが，聴取対象データ選択部１８の代わりに，登録情報生成部３０，文字化ルール記憶部３１，読みバリエーションルール記憶部３２を備える。

登録情報生成部３０は，文字化ルール記憶部３１および読みバリエーションルール記憶部３２を参照して，代表音素列の音素を文字列に変換し，変換した文字列をもとに，代表音素列を示す表記または読みの登録データを生成し，音声認識辞書２６に登録する。

文字化ルール記憶部３１は，音素と読み文字との対応規則である文字化ルールを記憶する。

読みバリエーションルール記憶部３２は，音素の読み文字列のバリエーションを記憶する。

図２４は，音声認識辞書作成支援装置１′の処理の概要を示す図である。

図２４のステップＳ１〜ステップＳ８までの各処理ステップは，図２に示す同符号の処理ステップと同じものを示す。ステップＳ８の処理の後，ステップＳ３０〜Ｓ３２が実行される。

ステップＳ３０：代表音素列取得
登録情報生成部３０は，クラスタテーブル１０４のフラグ（○）が設定された候補クラスタから，代表音素列となる音素列データ２３′を取得する。

ステップＳ３１：登録データ作成
登録情報生成部３０は，図２５に示すように，文字化ルール記憶部３１を参照して，代表音素列の音素列データ２３′の音素列に相当する文字列を生成する。生成した文字列を，代表音素列に対応する分割音声データ２２の表記および読みとする。

さらに，読みバリエーションルール記憶部３２を参照して，異なる読みがあれば，異なる読み文字列を生成する。

そして，生成した表記の文字列と１つまたは複数の読み文字列との対を登録データとする。

例えば，代表音素列の音素列データ２３′の音素列“ｍｏｂａｉｒｕｎｍｅｒｕ”に相当する文字列“もばいるめる”を生成した場合に，この代表音素列に相当する分割音声データ２２の表記および読みを“もばいるめる”とする。さらに，読み“もばいるめる”に他の読みバリエーションがあれば，異なる読み文字列“もばいるめーる”を生成する。

そして，表記“もばいるめる”と読み“もばいるめる，もばいるめーる”の対とが登録データとなる。

ステップＳ３２：辞書追加
登録情報生成部３０は，生成した登録データを音声認識辞書２６に登録する。

図２６は，ステップＳ３１の登録データ生成処理のより詳細な処理フローを示す図である。

登録情報生成部３０は，候補クラスタの代表音素列である音素列データ２３′から１つの音素列ｘを取得する（ステップＳ３１０）。音素列ｘがあれば（ステップＳ３１１のＹＥＳ），文字化ルール記憶部３１の文字化ルールを適用して代表音素文字列を文字列ｙへ変換する（ステップＳ３１２）。

さらに，読みバリエーションルール記憶部３２の読みバリエーションルールを文字列ｙに適用し，他の文字列ｚ１，ｚ２，…を取得する（ステップＳ３１３）。

「表記＝文字列ｙ，読み＝文字列ｙ，文字列ｚ１，文字列ｚ２，…」である登録データを生成する（ステップＳ３１４）。

生成された登録データは，音声認識辞書２６へ登録される。

このようにして，音声認識辞書作成支援装置１′は，音声認識辞書２６に登録される，音声データ２０から抽出されたキーワードの情報が自動的に生成することができる。

Claims

音声データを記憶する音声データ記憶部と，
前記音声データから，少なくとも音声のパワー値を含む韻律情報を抽出する韻律情報抽出部と，
前記韻律情報をもとに，前記音声データから，前記パワー値が所定の閾値以上である時間が予め定めた時間以上となる発話区間を抽出し，該発話区間を所定の閾値以上のパワー値が一定時間以上連続する区間に分割して分割音声データを生成する音声データ分割部と，
前記分割音声データに対して音素認識処理を行い，各分割音声データの音素列データを取得する音素列取得部と，
前記音素列データに対してクラスタリング処理を行い，分類された音素列データの集合であるクラスタを生成するクラスタリング部と，
前記クラスタ各々について，該クラスタを構成する音素列データに対応する分割音声データの前記韻律情報をもとに，評価値を算出する評価値算出部と，
前記評価値が一定以上であるクラスタを候補クラスタとして選択する候補クラスタ選択部と，
前記候補クラスタ各々について，該クラスタを構成する音素列データから１つの音素列データを代表音素列として特定し，当該代表音素列に対応する分割音声データを聴取対象音声データとして選択する聴取対象データ選択部とを備える
音声認識辞書作成支援装置。
前記評価値算出部は，前記音素列データに対応する分割音声データの前記韻律情報のパワー値が一定の大きさ以上である音素列データのデータ数にもとづいて，前記クラスタの評価値を算出する
請求項１に記載の音声認識辞書作成支援装置。
前記韻律情報抽出部は，前記韻律情報として音声のピッチ値を含む韻律情報を抽出し，
前記評価値算出部は，前記音素列データに対応する分割音声データの前記韻律情報のピッチ値のレンジが一定の大きさ以上である音素列データのデータ数にもとづいて，前記クラスタの評価値を算出する
請求項１または請求項２に記載の音声認識辞書作成支援装置。
前記評価値算出部は，前記音素列データ各々の全分割音声データにおける出現頻度を算出し，当該出現頻度にもとづいて，前記クラスタの評価値を算出する
請求項１ないし請求項３のいずれか一項に記載の音声認識辞書作成支援装置。
前記聴取対象データ選択部は，前記候補クラスタから，音素列長が最長の音素列データを前記代表音素列として特定する
請求項１ないし請求項４のいずれか一項に記載の音声認識辞書作成支援装置。
前記聴取対象データ選択部は，形態素解析処理用の辞書データを備え，当該辞書データから所定の品詞に分類される語句を抽出し，前記候補クラスタを構成する音素列データの当該抽出した語句における出現確率を算出し，当該出現確率が最大の音素列データを前記代表音素列として特定する
請求項１ないし請求項５のいずれか一項に記載の音声認識辞書作成支援装置。
前記音声データの属性に関連する付帯情報を記憶する付帯情報記憶部を備え，
前記聴取対象データ選択部は，外部から入力された音声データの属性が指定された指定条件を取得し，前記付帯情報を参照して，前記代表音素列に対応する分割音声データから当該指定条件に一致する属性の分割音声データを選択する
請求項１ないし請求項６のいずれか一項に記載の音声認識辞書作成支援装置。
音素文字との変換規則を示す文字化ルールを記憶する文字化ルール記憶部と，
当該文字化ルールをもとに，前記代表音素列の各音素を文字に変換して文字列を生成し，当該文字列を表記または読みとする，音声認識用辞書の登録データを生成する登録データ生成部とを備える
請求項１ないし請求項７のいずれか一項に記載の音声認識辞書作成支援装置。
コンピュータを，
音声データを記憶する音声データ記憶部と，
前記音声データから，少なくとも音声のパワー値を含む韻律情報を抽出する韻律情報抽出部と，
前記韻律情報をもとに，前記音声データから，前記パワー値が所定の閾値以上である時間が予め定めた時間以上となる発話区間を抽出し，該発話区間を所定の閾値以上のパワー値が一定時間以上連続する区間に分割して分割音声データを生成する音声データ分割部と，
前記分割音声データに対して音素認識処理を行い，各分割音声データの音素列データを取得する音素列取得部と，
前記音素列データに対してクラスタリング処理を行い，分類された音素列データの集合であるクラスタを生成するクラスタリング部と，
前記クラスタ各々について，該クラスタを構成する音素列データに対応する分割音声データの前記韻律情報をもとに，評価値を算出する評価値算出部と，
前記評価値が一定以上であるクラスタを候補クラスタとして選択する候補クラスタ選択部と，
前記候補クラスタ各々について，該クラスタを構成する音素列データから１つの音素列データを代表音素列として特定し，当該代表音素列に対応する分割音声データを聴取対象音声データとして選択する聴取対象データ選択部とを備える処理装置として
機能させるための音声認識辞書作成支援処理プログラム。
音声データを記憶する音声データ記憶部を備えるコンピュータが，実行する処理方法であって，
音声データ記憶部に格納された音声データから，少なくとも音声のパワー値を含む韻律情報を抽出する処理ステップと，
前記韻律情報をもとに，前記音声データから，前記パワー値が所定の閾値以上である時間が予め定めた時間以上となる発話区間を抽出し，該発話区間を所定の閾値以上のパワー値が一定時間以上連続する区間に分割して分割音声データを生成する処理ステップと，
前記分割音声データに対して音素認識処理を行い，各分割音声データの音素列データを取得する処理ステップと，
前記音素列データに対してクラスタリング処理を行い，分類された音素列データの集合であるクラスタを生成する処理ステップと，
前記クラスタ各々について，該クラスタを構成する音素列データに対応する分割音声データの前記韻律情報をもとに，評価値を算出する処理ステップと，
前記評価値が一定以上であるクラスタを候補クラスタとして選択する処理ステップと，
前記候補クラスタ各々について，該クラスタを構成する音素列データから１つの音素列データを代表音素列として特定し，当該代表音素列に対応する分割音声データを聴取対象音声データとして選択する処理ステップとを備える
音声認識辞書作成支援処理方法。