JP6702119B2

JP6702119B2 - 音声認識結果作成装置、方法及びプログラム

Info

Publication number: JP6702119B2
Application number: JP2016187778A
Authority: JP
Inventors: 伊東　秀夫; 秀夫伊東
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2020-05-27
Anticipated expiration: 2036-09-27
Also published as: JP2018054717A

Description

本発明は、音声認識結果作成装置、方法及びプログラムに関する。

従来、音声を認識する音声認識技術が知られている。音声認識技術では、音声をテキストに変換し、得られたテキストを複数の時間区画に分節し、分節された各テキストに対応する語句を選択し、選択した語句を連接することにより、音声認識結果（音声に対応する文章）が作成される。一般に、音声認識技術では、語句毎に整備された辞書データを利用して、分節された各テキストを対応する語句に変換する。これにより、音声認識結果の精度を向上させることができる。

一方、近年、インターネット上で音声認識サービスが提供されている。音声認識サービスには、音声認識結果と、分節された各テキストに対応する語句の候補と、を含む音声認識データをユーザに提供するものがある。ユーザは、音声データを音声認識サービスに入力することで、音声データに対応する音声認識データを得ることができる。

しかしながら、上記従来の音声認識サービスでは、ユーザは、辞書データを独自に整備することができなかった。このため、音声認識サービスから得られる音声認識結果は、精度が低いという問題があった。

本発明は、上記の課題に鑑みてなされたものであり、音声認識データに基づいて、精度の高い音声認識結果を作成可能とすることを目的とする。

一実施形態に係る音声認識結果作成装置は、各分節テキストに対応する語句の候補及び前記各候補の評価値を含む音声認識データを入力される入力部と、辞書データを記憶する辞書データ記憶部と、前記辞書データと、前記音声認識データと、の一致する部分を検索する検索部と、検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成部と、を備える。

本発明の各実施形態によれば、音声認識データに基づいて、精度の高い音声認識結果を作成することができる。

音声認識結果作成装置の機能構成の一例を示す図。音声認識データの一例を示す図。文章データ（辞書データ）の一例を示す図。音声認識結果作成装置のハードウェア構成の一例を示す図。音声認識結果作成装置の動作の概要を示すフローチャート。第１実施形態における音声認識結果の作成処理の一例を示すフローチャート。評価値の更新後の音声認識データの一例を示す図。同音語データ（辞書データ）の一例を示す図。第２実施形態における音声認識結果の作成処理の一例を示すフローチャート。置換用データ（辞書データ）の一例を示す図。第３実施形態における音声認識結果の作成処理の一例を示すフローチャート。第４実施形態における音声認識結果の作成処理の一例を示すフローチャート。

以下、本発明の各実施形態について、添付の図面を参照しながら説明する。なお、各実施形態に係る明細書及び図面の記載に関して、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重畳した説明を省略する。

（第１実施形態）
第１実施形態に係る音声認識結果作成装置（以下、「作成装置」という）１について、図１〜図７を参照して説明する。まず、作成装置１の機能構成について説明する。図１は、作成装置１の機能構成の一例を示す図である。図１の作成装置１は、入力部１１と、音声認識データ記憶部１２と、辞書データ記憶部１３と、検索部１４と、作成部１５と、を備える。

入力部１１は、外部の音声認識サービスが出力した音声認識データを入力される。入力部１１は、入力された音声認識データを音声認識データ記憶部１２に記憶させる。

音声認識データ記憶部１２は、音声認識データを記憶する。ここで、音声認識データについて説明する。音声認識サービスは、認識対象の音声を入力されると、当該音声をテキストに変換する。次に、音声認識サービスは、得られたテキストを、複数の時間区分に分節する。分節された各テキストを分節テキストという。続いて、音声認識サービスは、各分節テキストに対応する語句の候補を、各候補の評価値とともに、音声認識データとして出力する。すなわち、音声認識データは、各分節テキストに対応する語句の候補と、各候補の評価値と、を含むデータである。ここでいう評価値は、その候補の確からしさ、すなわち、正解である確率の高さを示す値である。正解とは、音声の発話者が意図した語句と一致することをいう。以下では、評価値が高いほど、正解である確率が高いものとする。この場合、音声認識サービスにより得られた音声認識結果は、各分節テキストの語句の候補の中で、最も評価値が高い候補を連接したものとなる。

図２は、音声認識データ記憶部１２に記憶された音声認識データの一例を示す図である。図２の音声認識データは、「リコーノキカクダ」という音声に対して出力されたものである。発話者は、「リコーの企画だ」という発言を意図したものとする。

図２の例では、音声認識サービスは、「リコーノキカクダ」という音声を「イコウノキカクダ」というテキストに変換し、「イコウ」、「ノ」、「キカク」、「ダ」という４つの分節テキストに分節している。「イコウ」に対応する語句の候補として、「行こう」及び「移行」が出力されている。「行こう」の評価値は０．３であり、「移行」の評価値は０．１である。図２の音声認識データの場合、音声認識サービスにより得られた音声認識結果は「行こうの規格だ」となる。

辞書データ記憶部１３は、ユーザにより用意された辞書データを記憶する。辞書データは、音声認識結果の精度を向上させるためのデータある。本実施形態では、辞書データとして、文章データが記憶される。文章データは、発話者の発言に関連するものであるのが好ましい。

図３は、辞書データ記憶部１３に記憶された文章データ（辞書データ）の一例を示す図である。図３の例では、辞書データとして、「リコーのサービスを開発する。」、「その企画はすでに検討済み。」、及び「今後の計画を早急に策定する必要がある。」という３つの文章データが記憶されている。

検索部１４は、音声認識データ及び辞書データをマッチングする。すなわち、検索部１４は、音声認識データと、辞書データと、の一致する部分を検索する。検索部１４による検索方法について、詳しくは後述する。

作成部１５は、音声認識データと、検索部１４による検索結果と、に基づいて、音声認識結果を作成する。作成部１５による音声認識結果の作成方法について、詳しくは後述する。

次に、作成装置１のハードウェア構成について説明する。図４は、作成装置１のハードウェア構成の一例を示す図である。図４の作成装置１は、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、ＨＤＤ（Hard Disk Drive）１０４と、を備える。また、作成装置１は、入力装置１０５と、表示装置１０６と、通信インタフェース１０７と、バス１０８と、を備える。

ＣＰＵ１０１は、プログラムを実行することにより、作成装置１の全体を制御し、上述の各機能構成を実現する。ＲＯＭ１０２は、ＣＰＵ１０１が実行するプログラムを含む各種のデータを記憶する。ＲＡＭ１０３は、ＣＰＵ１０１に作業領域を提供する。ＨＤＤ１０４は、ＣＰＵ１０１が実行するプログラムを含む各種のデータを記憶する。入力装置１０５は、ユーザからの操作に応じた情報を作成装置１に入力する。入力装置１０５は、例えば、キーボード、マウス、及びタッチパネルなどである。表示装置１０６は、映像や画像を表示する。表示装置１０６は、例えば、液晶ディスプレイや有機ＥＬ（Electro Luminescence）ディスプレイなどである。通信インタフェース１０７は、作成装置１を外部のネットワークに接続するためのインタフェースである。バス１０８は、ＣＰＵ１０１と、ＲＯＭ１０２と、ＲＡＭ１０３と、ＨＤＤ１０４と、入力装置１０５と、表示装置１０６と、通信インタフェース１０７と、を接続する。

次に、本実施形態に係る作成装置１の動作について説明する。図５は、作成装置１の動作の概要を示すフローチャートである。作成装置１は、入力部１１に音声認識データを入力されると、図５の動作を開始する。

まず、入力部１１は、入力された音声認識データを、音声認識データ記憶部１２に記憶させる（ステップＳ１０１）。これにより、図２のような音声認識データが音声認識データ記憶部１２に記憶される。

次に、検索部１４は、音声認識データ及び辞書データをマッチングする。そして、作成部１５は、検索部１４による検索結果と、音声認識データと、に基づいて音声認識結果を作成する（ステップＳ１０２）。

図６は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。図６のフローチャートは、図５のステップＳ１０２の内部処理に相当する。以下では、音声認識データ記憶部１２に図２の音声認識データが記憶され、辞書データ記憶部１３に図３の文章データが記憶されているものとする。

まず、検索部１４は、音声認識データに含まれる分節テキストの中から、分節テキストを１つ選択する（ステップＳ２０１）。ここでは、「イコウ」が選択されたものとする。

次に、検索部１４は、選択した分節テキストの語句の候補の中から、候補を１つ選択する（ステップＳ２０２）。ここでは、「行こう」が選択されたものとする。

続いて、検索部１４は、選択した候補を検索キーとして、文章データ（辞書データ）を検索する（ステップＳ２０３）。検索部１４は、検索キー（選択した候補）と文章データとの一致件数を、検索結果として出力する。図３の文章データには「行こう」と一致する部分はないため、検索結果として０件が出力される。

検索部１４が検索結果を出力すると、作成部１５は、出力された検索結果に基づいて、選択中の候補の評価値を更新する（ステップＳ２０４）。本実施形態では、作成部１５は、文章データとの一致件数が多いほど、評価値が高くなるように、評価値を更新する。評価値の更新方法は、任意である。以下では、元の評価値に一致件数を加算することにより、評価値を更新するものとする。この場合、「行こう」は、元の評価値が０．３であり、一致件数が０件であるから、更新後の評価値は０．３（＝０．３＋０）となる。

検索部１４は、検索が終了すると、ステップＳ２０１で選択した分節テキストの全候補が選択されたか（未選択の候補があるか）を確認する（ステップＳ２０５）。未選択の候補がある場合（ステップＳ２０５のＮＯ）、処理はステップＳ２０２に戻る。そして、検索部１４は、未選択の候補の中から次の候補を選択する（ステップＳ２０２）。これにより、「移行」が選択される。

一方、全候補が選択された場合（ステップＳ２０５のＹＥＳ）、検索部１４は、音声認識データに含まれる全分節テキストが選択されたか（未選択の分節テキストがあるか）を確認する（ステップＳ２０６）。

未選択の分節テキストがある場合（ステップＳ２０６のＮＯ）、処理はステップＳ２０１に戻る。そして、検索部１４は、未選択の分節テキストの中から、次の分節テキストを選択する（ステップＳ２０１）。これにより、「ノ」が選択される。

一方、全分節テキストが選択された場合（ステップＳ２０６のＹＥＳ）、作成部１５は、各分節テキストについて、評価値が最高の候補を選択し、選択した候補を連接する（ステップＳ２０７）。これにより、音声認識結果が作成される。

図７は、音声認識データ記憶部１２に記憶された音声認識データの一例を示す図である。図７の音声認識データは、図２の音声認識データの評価値を更新したものに相当する。図７の音声認識データの場合、「イコウ」の候補として「行こう」が選択され、「ノ」の候補として「の」が選択され、「キカク」の候補として「企画」が選択され、「ダ」の候補として「だ」が選択される。これにより、「行こうの企画だ」という音声認識結果が作成される。

作成部１５が作成した「行こうの企画だ」という音声認識結果は、音声認識サービスにより得られた「行こうの規格だ」という音声認識結果に比べて、発言者が意図した「リコーの企画だ」という発言に近くなっていることがわかる。これは、文章データに基づいて評価値を更新した結果、「企画」の評価値が「規格」の評価値より高くなり、「キカク」という分節テキストに対応する語句として「企画」が選択されたためである。

このように、本実施形態によれば、音声認識サービスが出力した音声認識データと、ユーザが用意した文章データ（辞書データ）と、に基づいて、音声認識結果の精度を向上させることができる。言い換えると、本実施形態によれば、音声認識サービスに比べて、精度の高い音声認識結果を作成することができる。

また、本実施形態によれば、辞書データは、文章データであるため、容易に用意することができる。すなわち、データを解析や加工を行うことなく、辞書データを用意することができる。

なお、本実施形態では、語句の候補が１つしかない分節テキストは、選択を省略されてもよい。これは、候補が１つしかない場合、評価値の更新の有無にかかわらず、その候補が選択されるためである。

（第２実施形態）
第２実施形態に係る作成装置１について、図８及び図９を参照して説明する。本実施形態に係る作成装置１の機能構成及びハードウェア構成は、第１実施形態と同様である。ただし、本実施形態では、辞書データとして、文章データ及び同音語データが記憶され、この同音語データを利用して、音声認識結果が作成される。なお、文章データについては、上述の通りである。

同音語データは、複数の同音語の組（以下、「同音語セット」という）を示すデータである。同音語データは、１つ又は複数の同音語セットを含み、各同音語セットには、複数の同音語が含まれる。

図８は、辞書データ記憶部１３に記憶され同音語データ（辞書データ）の一例を示す図である。図８の例では、同音語データには、「キカク」、「ハシ」及び「ジショ」に対応する３つの同音語セットが含まれる。例えば、「キカク」に対応する同音語セットには、「企画」、「規格」及び「其角」の３つの同音語が含まれる。

ここで、本実施形態に係る作成装置１の動作について説明する。本実施形態に係る作成装置１の動作の概要は、第１実施形態と同様である。図９は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。以下では、音声認識データ記憶部１２に図２の音声認識データが記憶され、辞書データ記憶部１３に図３の文章データ及び図８の同音語データが記憶されているものとする。

まず、検索部１４は、音声認識データに含まれる分節テキストの中から、分節テキストを１つ選択する（ステップＳ３０１）。ここでは、「キカク」が選択されたものとする。

次に、検索部１４は、選択した分節テキストの語句の候補の中から、候補を１つ選択する（ステップＳ３０２）。ここでは、「企画」が選択されたものとする。

続いて、検索部１４は、選択した候補を検索キーとして、同音語データ（辞書データ）を検索する（ステップＳ３０３）。検索部１４は、検索キー（選択した候補）を含む同音語セットを、検索結果として出力する。

検索キーを含む同音語セットがない場合（ステップＳ３０４のＮＯ）、処理はステップＳ３０７に進む。

一方、検索キーを含む同音語セットがある場合（ステップＳ３０４のＹＥＳ）、検索部１４は、選択した同音語を検索キーとして、文章データ（辞書データ）を検索する（ステップＳ３０５）。検索部１４は、検索キー（選択した候補）と文章データとの一致件数を、検索結果として出力する。図３の文章データには「企画」と一致する部分が１つあるため、検索結果として１件が出力される。

検索部１４が検索結果を出力すると、作成部１５は、出力された検索結果に基づいて、選択中の候補の評価値を更新する（ステップＳ３０６）。評価値の更新方法は、第１実施形態と同様である。この場合、「企画」は、元の評価値が０．４であり、一致件数が１件であるから、更新後の評価値は１．４３（＝０．４＋１）となる。

検索部１４は、検索が終了すると、ステップＳ３０１で選択した分節テキストの全候補が選択されたか（未選択の候補があるか）を確認する（ステップＳ３０７）。未選択の候補がある場合（ステップＳ３０７のＮＯ）、処理はステップＳ３０２に戻る。そして、検索部１４は、未選択の候補の中から次の候補を選択する（ステップＳ３０２）。これにより、「規格」が選択される。

一方、全候補が選択された場合（ステップＳ３０７のＹＥＳ）、検索部１４は、音声認識データに含まれる全分節テキストが選択されたか（未選択の分節テキストがあるか）を確認する（ステップＳ３０８）。

未選択の分節テキストがある場合（ステップＳ３０８のＮＯ）、処理はステップＳ３０１に戻る。そして、検索部１４は、未選択の分節テキストの中から、次の分節テキストを選択する（ステップＳ３０１）。これにより、「ダ」が選択される。

一方、全分節テキストが選択された場合（ステップＳ３０８のＹＥＳ）、作成部１５は、各分節テキストについて、評価値が最高の候補を選択し、選択した候補を連接する（ステップＳ３０９）。これにより、音声認識結果が作成される。図３の文章データ及び図８の同音語データを利用した場合、評価値の更新後の音声認識データは、図７の音声認識データと同様になる。これにより、「行こうの企画だ」という音声認識結果が作成される。

以上説明した通り、本実施形態によれば、分節テキストの候補が同音語セットに含まれる場合、当該候補の評価値は更新される。言い換えると、分節テキストの候補が同音語セットに含まれない場合、当該候補の評価値は更新されない。これにより、過剰な評価値の更新を抑制し、精度が高い音声認識結果を作成することができる。

（第３実施形態）
第３実施形態に係る作成装置１について、図１０及び図１１を参照して説明する。本実施形態に係る作成装置１の機能構成及びハードウェア構成は、第１実施形態と同様である。ただし、本実施形態では、辞書データとして、置換用データが記憶され、この置換用データを利用して、音声認識結果が作成される。

置換用データは、置換する語句（以下、「第１語句」という）と、置換される語句（以下、「第２語句」という）と、の対応関係を示すデータである。置換用データは、例えば、音声認識サービスにより得られた過去の音声認識結果における誤変換に基づいて用意される。

図１０は、辞書データ記憶部１３に記憶された置換用データ（辞書データ）の一例を示す図である。図１０の例では、「リコー」という第１語句に対して、「行こう」及び「移行」という第２語句が対応付けられている。また、「トピックモデル」という第１語句に対して、「いつも出る」という第２語句が対応付けられている。

ここで、本実施形態に係る作成装置１の動作について説明する。本実施形態に係る作成装置１の動作の概要は、第１実施形態と同様である。図１１は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。図１１のフローチャートは、図５のステップＳ１０２の内部処理に相当する。以下では、音声認識データ記憶部１２に図２の音声認識データが記憶され、辞書データ記憶部１３に図１０の置換用データが記憶されているものとする。

まず、作成部１５は、音声認識データを参照して、各分節テキストについて、評価値が最高の候補を選択し、選択した候補を連接することにより、音声認識結果を作成する（ステップＳ４０１）。この音声認識結果は、音声認識サービスにより得られる音声認識結果に相当する。すなわち、「行こうの規格だ」という音声認識結果が作成される。

次に、検索部１４は、置換用データに含まれる第１語句テキストの中から、第１語句を１つ選択する（ステップＳ４０２）。ここでは、「リコー」が選択されたものとする。

続いて、検索部１４は、選択した第１語句に対応する第２語句の中から、第２語句を１つ選択する（ステップＳ４０３）。ここでは、「行こう」が選択されたものとする。

検索部１４は、選択した第２語句を検索キーとして、作成部１５が作成した音声認識結果を検索する（ステップＳ４０４）。検索部１４は、検索キー（選択した第２語句）と音声認識結果との一致部分を検索結果として出力する。

検索部１４が検索結果を出力すると、作成部１５は、検索結果に基づいて、音声認識結果を更新する。具体的には、音声認識結果に第２語句と一致する部分がある場合（ステップＳ４０５のＹＥＳ）、すなわち、音声認識結果に第２語句が含まれる場合、作成部１５は、第２語句を対応する第１語句に置換する（ステップＳ４０６）。これにより、音声認識結果に含まれる「行こう」が「リコー」に置換される。その後、処理はステップＳ４０７に進む。

一方、音声認識結果に第２語句と一致する部分がない場合（ステップＳ４０５のＮＯ）、すなわち、音声認識結果に第２語句が含まれない場合、処理はステップＳ４０７に進む。

検索部１４は、検索が終了すると、ステップＳ４０２で選択した第１語句に対応する全第２語句が選択されたか（未選択の第２語句があるか）を確認する（ステップＳ４０７）。未選択の第２語句がある場合（ステップＳ４０７のＮＯ）、処理はステップＳ４０３に戻る。そして、検索部１４は、未選択の第２語句の中から次の第２語句を選択する（ステップＳ４０３）。これにより、「移行」が選択される。

一方、全第２語句が選択された場合（ステップＳ４０７のＹＥＳ）、検索部１４は、置換用データに含まれる全第１語句が選択されたか（未選択の第１語句があるか）を確認する（ステップＳ４０８）。

未選択の第１語句がある場合（ステップＳ４０８のＮＯ）、処理はステップＳ４０２に戻る。そして、検索部１４は、未選択の第１語句の中から、次の第１語句を選択する（ステップＳ４０２）。これにより、「トピックモデル」が選択される。

一方、全第１語句が選択された場合（ステップＳ４０８のＹＥＳ）、音声認識結果の作成処理が終了する。この時点で作成部１５が保持している音声認識結果が、作成装置１により得られた音声認識結果となる。結果として、「リコーの規格だ」という音声認識結果が作成される。

作成部１５が作成した「リコーの規格だ」という音声認識結果は、音声認識サービスにより得られた「行こうの規格だ」という音声認識結果に比べて、発言者が意図した「リコーの企画だ」という発言に近くなっていることがわかる。これは、置換用データに基づいて語句を置換したことにより、「行こう」が「リコー」に置換されたためである。

このように、本実施形態によれば、音声認識サービスが出力した音声認識データと、ユーザが用意した置換用データ（辞書データ）と、に基づいて、音声認識結果の精度を向上させることができる。言い換えると、本実施形態によれば、音声認識サービスに比べて、精度の高い音声認識結果を作成することができる。

また、本実施形態によれば、分節テキストを、音声認識データに語句の候補として含まれない語句に、変換することができる。

（第４実施形態）
第４実施形態に係る作成装置１について、図１２を参照して説明する。本実施形態に係る作成装置１の機能構成及びハードウェア構成は、第１実施形態と同様である。ただし、本実施形態では、辞書データとして、文章データ及び置換用データが記憶され、この文章データ及び置換用データを利用して、音声認識結果が作成される。なお、文章データ及び置換用データについては、上述の通りである。

ここで、本実施形態に係る作成装置１の動作について説明する。本実施形態に係る作成装置１の動作の概要は、第１実施形態と同様である。図１２は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。図１２のフローチャートは、図１１のフローチャートに、ステップＳ４０９，Ｓ４１０を追加したものである。以下、ステップＳ４０９，Ｓ４１０について説明する。なお、音声認識データ記憶部１２に図２の音声認識データが記憶され、辞書データ記憶部１３に図３の文章データ及び図１０の置換用データが記憶されているものとする。

本実施形態では、音声認識結果に第２語句と一致する部分がある場合（ステップＳ４０５のＹＥＳ）、検索部１４は、第１近傍文字列及び第２近傍文字列を検索キーとして、文章データを検索する（ステップＳ４０９）。

第２近傍文字列は、音声認識結果における、第２語句及びその近傍文字列からなる文字列である。第２語句の近傍文字列とは、例えば、第２語句の直前又は直後の数文字の文字列のことである。第１近傍文字列は、第２近傍文字列に含まれる第２語句を、対応する第１語句に置換した文字列である。ここでは、第２近傍文字列は、第２語句及びその直後の１文字からなる文字列であるものとする。

例えば、第１語句が「リコー」であり、第２語句が「行こう」であり、音声認識結果が「行こうの規格だ」である場合、第２近傍文字列は「行こうの」となり、第１近傍文字列は「リコーの」となる。

検索部１４は、検索キー（第１近傍文字列）と文章データとの一致件数Ｒ２を、検索結果として出力する。図３の文章データには「リコーの」と一致する部分が１つあるため、検索結果として１件が出力される。

また、検索部１４は、検索キー（第２近傍文字列）と文章データとの一致件数Ｒ２を、検索結果として出力する。図３の文章データには「行こうの」と一致する部分がないため、検索結果として０件が出力される。

作成部１５は、一致件数Ｒ１が一致件数Ｒ２より大きい場合（ステップＳ４１０のＹＥＳ）、第２語句を対応する第１語句に置換する（ステップＳ４０６）。その後、処理はステップＳ４０７に進む。一方、一致件数Ｒ１が一致件数Ｒ２以下である場合（ステップＳ４１０のＮＯ）、処理はステップＳ４０７に進む。本実施形態では、一致件数Ｒ１が一致件数Ｒ２より大きいため、「行こう」が「リコー」に置換され、第３実施形態と同様に、「リコーの規格だ」という音声認識結果が作成される。

以上説明した通り、本実施形態によれば、文章データに対する、第１近傍文字列の一致件数Ｒ１が、第２近傍文字列の一致件数Ｒ２より大きい場合、第２語句が第１語句に置換される。言い換えると、文章データに対する、第１近傍文字列の一致件数Ｒ１が、第２近傍文字列の一致件数Ｒ２以下である場合、第２語句が第１語句に置換されない。これにより、作成装置１は、第２語句の過剰な置換を抑制し、精度が高い音声認識結果を作成することができる。

なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせなど、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

１：音声認識結果作成装置
１１：入力部
１２：音声認識データ記憶部
１３：辞書データ記憶部
１４：検索部
１５：作成部

特開２００４−３３３７０３号公報

Claims

各分節テキストに対応する語句の候補及び前記各候補の評価値を含む音声認識データを入力される入力部と、
ユーザにより予め用意された辞書データを記憶する辞書データ記憶部と、
前記辞書データと、前記音声認識データと、の一致する部分を検索する検索部と、
検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成部と、
を備える音声認識結果作成装置。
前記作成部は、前記各分節テキストについて、前記評価値に基づいて前記候補を選択し、選択した前記候補を連接することにより、前記音声認識結果を作成する
請求項１に記載の音声認識結果作成装置。
前記辞書データは、文章データを含み、
前記検索部は、前記候補を検索キーとして前記文章データを検索し、
前記作成部は、前記候補及び前記文章データの一致件数に基づいて、当該候補の前記評価値を更新する
請求項１又は請求項２に記載の音声認識結果作成装置。
前記辞書データは、複数の同音語を含む少なくとも１つの同音語セットを含む同音語データを含み、
前記検索部は、前記候補を検索キーとして前記同音語データを検索し、当該候補を含む前記同音語セットがある場合、当該候補を検索キーとして前記文章データを検索する
請求項３に記載の音声認識結果作成装置。
前記辞書データは、置換する第１語句と、置換される第２語句と、の対応関係を示す置換用データを含み、
前記作成部は、前記各分節テキストについて、前記評価値に基づいて前記候補を選択し、選択した前記候補を連接することにより、前記音声認識結果を作成し、
前記検索部は、前記第２語句を検索キーとして前記音声認識結果を検索し、
前記作成部は、前記音声認識結果に前記第２語句が含まれる場合、当該第２語句を対応する前記第１語句に置換する
請求項１に記載の音声認識結果作成装置。
前記辞書データは、文章データを含み、
前記検索部は、前記第１語句を含む第１近傍文字列と、前記第２語句を含む第２近傍文字列と、を検索キーとして、前記文章データを検索し、
前記作成部は、前記第１近傍文字列及び前記文章データの一致件数が、前記第２近傍文字列及び前記文章データの一致件数より多い場合、当該第２語句を対応する前記第１語句に置換する
請求項５に記載の音声認識結果作成装置。
各分節テキストに対応する語句の候補及び前記各候補の評価値を含む音声認識データを入力する入力工程と、
ユーザにより予め用意された辞書データと、前記音声認識データと、の一致する部分を検索する検索工程と、
検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成工程と、
を含む音声認識結果作成方法。
各分節テキストに対応する語句の候補及び前記各候補の評価値を含む音声認識データを入力する入力工程と、
ユーザにより予め用意された辞書データと、前記音声認識データと、の一致する部分を検索する検索工程と、
検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成工程と、
をコンピュータに実行させるためのプログラム。