JP6702119B2 - 音声認識結果作成装置、方法及びプログラム - Google Patents

音声認識結果作成装置、方法及びプログラム Download PDF

Info

Publication number
JP6702119B2
JP6702119B2 JP2016187778A JP2016187778A JP6702119B2 JP 6702119 B2 JP6702119 B2 JP 6702119B2 JP 2016187778 A JP2016187778 A JP 2016187778A JP 2016187778 A JP2016187778 A JP 2016187778A JP 6702119 B2 JP6702119 B2 JP 6702119B2
Authority
JP
Japan
Prior art keywords
data
voice recognition
recognition result
search
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016187778A
Other languages
English (en)
Other versions
JP2018054717A (ja
Inventor
伊東 秀夫
秀夫 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016187778A priority Critical patent/JP6702119B2/ja
Publication of JP2018054717A publication Critical patent/JP2018054717A/ja
Application granted granted Critical
Publication of JP6702119B2 publication Critical patent/JP6702119B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識結果作成装置、方法及びプログラムに関する。
従来、音声を認識する音声認識技術が知られている。音声認識技術では、音声をテキストに変換し、得られたテキストを複数の時間区画に分節し、分節された各テキストに対応する語句を選択し、選択した語句を連接することにより、音声認識結果(音声に対応する文章)が作成される。一般に、音声認識技術では、語句毎に整備された辞書データを利用して、分節された各テキストを対応する語句に変換する。これにより、音声認識結果の精度を向上させることができる。
一方、近年、インターネット上で音声認識サービスが提供されている。音声認識サービスには、音声認識結果と、分節された各テキストに対応する語句の候補と、を含む音声認識データをユーザに提供するものがある。ユーザは、音声データを音声認識サービスに入力することで、音声データに対応する音声認識データを得ることができる。
しかしながら、上記従来の音声認識サービスでは、ユーザは、辞書データを独自に整備することができなかった。このため、音声認識サービスから得られる音声認識結果は、精度が低いという問題があった。
本発明は、上記の課題に鑑みてなされたものであり、音声認識データに基づいて、精度の高い音声認識結果を作成可能とすることを目的とする。
一実施形態に係る音声認識結果作成装置は、各分節テキストに対応する語句の候補及び前記各候補の評価値を含む音声認識データを入力される入力部と、辞書データを記憶する辞書データ記憶部と、前記辞書データと、前記音声認識データと、の一致する部分を検索する検索部と、検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成部と、を備える。
本発明の各実施形態によれば、音声認識データに基づいて、精度の高い音声認識結果を作成することができる。
音声認識結果作成装置の機能構成の一例を示す図。 音声認識データの一例を示す図。 文章データ(辞書データ)の一例を示す図。 音声認識結果作成装置のハードウェア構成の一例を示す図。 音声認識結果作成装置の動作の概要を示すフローチャート。 第1実施形態における音声認識結果の作成処理の一例を示すフローチャート。 評価値の更新後の音声認識データの一例を示す図。 同音語データ(辞書データ)の一例を示す図。 第2実施形態における音声認識結果の作成処理の一例を示すフローチャート。 置換用データ(辞書データ)の一例を示す図。 第3実施形態における音声認識結果の作成処理の一例を示すフローチャート。 第4実施形態における音声認識結果の作成処理の一例を示すフローチャート。
以下、本発明の各実施形態について、添付の図面を参照しながら説明する。なお、各実施形態に係る明細書及び図面の記載に関して、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重畳した説明を省略する。
(第1実施形態)
第1実施形態に係る音声認識結果作成装置(以下、「作成装置」という)1について、図1〜図7を参照して説明する。まず、作成装置1の機能構成について説明する。図1は、作成装置1の機能構成の一例を示す図である。図1の作成装置1は、入力部11と、音声認識データ記憶部12と、辞書データ記憶部13と、検索部14と、作成部15と、を備える。
入力部11は、外部の音声認識サービスが出力した音声認識データを入力される。入力部11は、入力された音声認識データを音声認識データ記憶部12に記憶させる。
音声認識データ記憶部12は、音声認識データを記憶する。ここで、音声認識データについて説明する。音声認識サービスは、認識対象の音声を入力されると、当該音声をテキストに変換する。次に、音声認識サービスは、得られたテキストを、複数の時間区分に分節する。分節された各テキストを分節テキストという。続いて、音声認識サービスは、各分節テキストに対応する語句の候補を、各候補の評価値とともに、音声認識データとして出力する。すなわち、音声認識データは、各分節テキストに対応する語句の候補と、各候補の評価値と、を含むデータである。ここでいう評価値は、その候補の確からしさ、すなわち、正解である確率の高さを示す値である。正解とは、音声の発話者が意図した語句と一致することをいう。以下では、評価値が高いほど、正解である確率が高いものとする。この場合、音声認識サービスにより得られた音声認識結果は、各分節テキストの語句の候補の中で、最も評価値が高い候補を連接したものとなる。
図2は、音声認識データ記憶部12に記憶された音声認識データの一例を示す図である。図2の音声認識データは、「リコーノキカクダ」という音声に対して出力されたものである。発話者は、「リコーの企画だ」という発言を意図したものとする。
図2の例では、音声認識サービスは、「リコーノキカクダ」という音声を「イコウノキカクダ」というテキストに変換し、「イコウ」、「ノ」、「キカク」、「ダ」という4つの分節テキストに分節している。「イコウ」に対応する語句の候補として、「行こう」及び「移行」が出力されている。「行こう」の評価値は0.3であり、「移行」の評価値は0.1である。図2の音声認識データの場合、音声認識サービスにより得られた音声認識結果は「行こうの規格だ」となる。
辞書データ記憶部13は、ユーザにより用意された辞書データを記憶する。辞書データは、音声認識結果の精度を向上させるためのデータある。本実施形態では、辞書データとして、文章データが記憶される。文章データは、発話者の発言に関連するものであるのが好ましい。
図3は、辞書データ記憶部13に記憶された文章データ(辞書データ)の一例を示す図である。図3の例では、辞書データとして、「リコーのサービスを開発する。」、「その企画はすでに検討済み。」、及び「今後の計画を早急に策定する必要がある。」という3つの文章データが記憶されている。
検索部14は、音声認識データ及び辞書データをマッチングする。すなわち、検索部14は、音声認識データと、辞書データと、の一致する部分を検索する。検索部14による検索方法について、詳しくは後述する。
作成部15は、音声認識データと、検索部14による検索結果と、に基づいて、音声認識結果を作成する。作成部15による音声認識結果の作成方法について、詳しくは後述する。
次に、作成装置1のハードウェア構成について説明する。図4は、作成装置1のハードウェア構成の一例を示す図である。図4の作成装置1は、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、HDD(Hard Disk Drive)104と、を備える。また、作成装置1は、入力装置105と、表示装置106と、通信インタフェース107と、バス108と、を備える。
CPU101は、プログラムを実行することにより、作成装置1の全体を制御し、上述の各機能構成を実現する。ROM102は、CPU101が実行するプログラムを含む各種のデータを記憶する。RAM103は、CPU101に作業領域を提供する。HDD104は、CPU101が実行するプログラムを含む各種のデータを記憶する。入力装置105は、ユーザからの操作に応じた情報を作成装置1に入力する。入力装置105は、例えば、キーボード、マウス、及びタッチパネルなどである。表示装置106は、映像や画像を表示する。表示装置106は、例えば、液晶ディスプレイや有機EL(Electro Luminescence)ディスプレイなどである。通信インタフェース107は、作成装置1を外部のネットワークに接続するためのインタフェースである。バス108は、CPU101と、ROM102と、RAM103と、HDD104と、入力装置105と、表示装置106と、通信インタフェース107と、を接続する。
次に、本実施形態に係る作成装置1の動作について説明する。図5は、作成装置1の動作の概要を示すフローチャートである。作成装置1は、入力部11に音声認識データを入力されると、図5の動作を開始する。
まず、入力部11は、入力された音声認識データを、音声認識データ記憶部12に記憶させる(ステップS101)。これにより、図2のような音声認識データが音声認識データ記憶部12に記憶される。
次に、検索部14は、音声認識データ及び辞書データをマッチングする。そして、作成部15は、検索部14による検索結果と、音声認識データと、に基づいて音声認識結果を作成する(ステップS102)。
図6は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。図6のフローチャートは、図5のステップS102の内部処理に相当する。以下では、音声認識データ記憶部12に図2の音声認識データが記憶され、辞書データ記憶部13に図3の文章データが記憶されているものとする。
まず、検索部14は、音声認識データに含まれる分節テキストの中から、分節テキストを1つ選択する(ステップS201)。ここでは、「イコウ」が選択されたものとする。
次に、検索部14は、選択した分節テキストの語句の候補の中から、候補を1つ選択する(ステップS202)。ここでは、「行こう」が選択されたものとする。
続いて、検索部14は、選択した候補を検索キーとして、文章データ(辞書データ)を検索する(ステップS203)。検索部14は、検索キー(選択した候補)と文章データとの一致件数を、検索結果として出力する。図3の文章データには「行こう」と一致する部分はないため、検索結果として0件が出力される。
検索部14が検索結果を出力すると、作成部15は、出力された検索結果に基づいて、選択中の候補の評価値を更新する(ステップS204)。本実施形態では、作成部15は、文章データとの一致件数が多いほど、評価値が高くなるように、評価値を更新する。評価値の更新方法は、任意である。以下では、元の評価値に一致件数を加算することにより、評価値を更新するものとする。この場合、「行こう」は、元の評価値が0.3であり、一致件数が0件であるから、更新後の評価値は0.3(=0.3+0)となる。
検索部14は、検索が終了すると、ステップS201で選択した分節テキストの全候補が選択されたか(未選択の候補があるか)を確認する(ステップS205)。未選択の候補がある場合(ステップS205のNO)、処理はステップS202に戻る。そして、検索部14は、未選択の候補の中から次の候補を選択する(ステップS202)。これにより、「移行」が選択される。
一方、全候補が選択された場合(ステップS205のYES)、検索部14は、音声認識データに含まれる全分節テキストが選択されたか(未選択の分節テキストがあるか)を確認する(ステップS206)。
未選択の分節テキストがある場合(ステップS206のNO)、処理はステップS201に戻る。そして、検索部14は、未選択の分節テキストの中から、次の分節テキストを選択する(ステップS201)。これにより、「ノ」が選択される。
一方、全分節テキストが選択された場合(ステップS206のYES)、作成部15は、各分節テキストについて、評価値が最高の候補を選択し、選択した候補を連接する(ステップS207)。これにより、音声認識結果が作成される。
図7は、音声認識データ記憶部12に記憶された音声認識データの一例を示す図である。図7の音声認識データは、図2の音声認識データの評価値を更新したものに相当する。図7の音声認識データの場合、「イコウ」の候補として「行こう」が選択され、「ノ」の候補として「の」が選択され、「キカク」の候補として「企画」が選択され、「ダ」の候補として「だ」が選択される。これにより、「行こうの企画だ」という音声認識結果が作成される。
作成部15が作成した「行こうの企画だ」という音声認識結果は、音声認識サービスにより得られた「行こうの規格だ」という音声認識結果に比べて、発言者が意図した「リコーの企画だ」という発言に近くなっていることがわかる。これは、文章データに基づいて評価値を更新した結果、「企画」の評価値が「規格」の評価値より高くなり、「キカク」という分節テキストに対応する語句として「企画」が選択されたためである。
このように、本実施形態によれば、音声認識サービスが出力した音声認識データと、ユーザが用意した文章データ(辞書データ)と、に基づいて、音声認識結果の精度を向上させることができる。言い換えると、本実施形態によれば、音声認識サービスに比べて、精度の高い音声認識結果を作成することができる。
また、本実施形態によれば、辞書データは、文章データであるため、容易に用意することができる。すなわち、データを解析や加工を行うことなく、辞書データを用意することができる。
なお、本実施形態では、語句の候補が1つしかない分節テキストは、選択を省略されてもよい。これは、候補が1つしかない場合、評価値の更新の有無にかかわらず、その候補が選択されるためである。
(第2実施形態)
第2実施形態に係る作成装置1について、図8及び図9を参照して説明する。本実施形態に係る作成装置1の機能構成及びハードウェア構成は、第1実施形態と同様である。ただし、本実施形態では、辞書データとして、文章データ及び同音語データが記憶され、この同音語データを利用して、音声認識結果が作成される。なお、文章データについては、上述の通りである。
同音語データは、複数の同音語の組(以下、「同音語セット」という)を示すデータである。同音語データは、1つ又は複数の同音語セットを含み、各同音語セットには、複数の同音語が含まれる。
図8は、辞書データ記憶部13に記憶され同音語データ(辞書データ)の一例を示す図である。図8の例では、同音語データには、「キカク」、「ハシ」及び「ジショ」に対応する3つの同音語セットが含まれる。例えば、「キカク」に対応する同音語セットには、「企画」、「規格」及び「其角」の3つの同音語が含まれる。
ここで、本実施形態に係る作成装置1の動作について説明する。本実施形態に係る作成装置1の動作の概要は、第1実施形態と同様である。図9は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。以下では、音声認識データ記憶部12に図2の音声認識データが記憶され、辞書データ記憶部13に図3の文章データ及び図8の同音語データが記憶されているものとする。
まず、検索部14は、音声認識データに含まれる分節テキストの中から、分節テキストを1つ選択する(ステップS301)。ここでは、「キカク」が選択されたものとする。
次に、検索部14は、選択した分節テキストの語句の候補の中から、候補を1つ選択する(ステップS302)。ここでは、「企画」が選択されたものとする。
続いて、検索部14は、選択した候補を検索キーとして、同音語データ(辞書データ)を検索する(ステップS303)。検索部14は、検索キー(選択した候補)を含む同音語セットを、検索結果として出力する。
検索キーを含む同音語セットがない場合(ステップS304のNO)、処理はステップS307に進む。
一方、検索キーを含む同音語セットがある場合(ステップS304のYES)、検索部14は、選択した同音語を検索キーとして、文章データ(辞書データ)を検索する(ステップS305)。検索部14は、検索キー(選択した候補)と文章データとの一致件数を、検索結果として出力する。図3の文章データには「企画」と一致する部分が1つあるため、検索結果として1件が出力される。
検索部14が検索結果を出力すると、作成部15は、出力された検索結果に基づいて、選択中の候補の評価値を更新する(ステップS306)。評価値の更新方法は、第1実施形態と同様である。この場合、「企画」は、元の評価値が0.4であり、一致件数が1件であるから、更新後の評価値は1.43(=0.4+1)となる。
検索部14は、検索が終了すると、ステップS301で選択した分節テキストの全候補が選択されたか(未選択の候補があるか)を確認する(ステップS307)。未選択の候補がある場合(ステップS307のNO)、処理はステップS302に戻る。そして、検索部14は、未選択の候補の中から次の候補を選択する(ステップS302)。これにより、「規格」が選択される。
一方、全候補が選択された場合(ステップS307のYES)、検索部14は、音声認識データに含まれる全分節テキストが選択されたか(未選択の分節テキストがあるか)を確認する(ステップS308)。
未選択の分節テキストがある場合(ステップS308のNO)、処理はステップS301に戻る。そして、検索部14は、未選択の分節テキストの中から、次の分節テキストを選択する(ステップS301)。これにより、「ダ」が選択される。
一方、全分節テキストが選択された場合(ステップS308のYES)、作成部15は、各分節テキストについて、評価値が最高の候補を選択し、選択した候補を連接する(ステップS309)。これにより、音声認識結果が作成される。図3の文章データ及び図8の同音語データを利用した場合、評価値の更新後の音声認識データは、図7の音声認識データと同様になる。これにより、「行こうの企画だ」という音声認識結果が作成される。
以上説明した通り、本実施形態によれば、分節テキストの候補が同音語セットに含まれる場合、当該候補の評価値は更新される。言い換えると、分節テキストの候補が同音語セットに含まれない場合、当該候補の評価値は更新されない。これにより、過剰な評価値の更新を抑制し、精度が高い音声認識結果を作成することができる。
(第3実施形態)
第3実施形態に係る作成装置1について、図10及び図11を参照して説明する。本実施形態に係る作成装置1の機能構成及びハードウェア構成は、第1実施形態と同様である。ただし、本実施形態では、辞書データとして、置換用データが記憶され、この置換用データを利用して、音声認識結果が作成される。
置換用データは、置換する語句(以下、「第1語句」という)と、置換される語句(以下、「第2語句」という)と、の対応関係を示すデータである。置換用データは、例えば、音声認識サービスにより得られた過去の音声認識結果における誤変換に基づいて用意される。
図10は、辞書データ記憶部13に記憶された置換用データ(辞書データ)の一例を示す図である。図10の例では、「リコー」という第1語句に対して、「行こう」及び「移行」という第2語句が対応付けられている。また、「トピックモデル」という第1語句に対して、「いつも出る」という第2語句が対応付けられている。
ここで、本実施形態に係る作成装置1の動作について説明する。本実施形態に係る作成装置1の動作の概要は、第1実施形態と同様である。図11は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。図11のフローチャートは、図5のステップS102の内部処理に相当する。以下では、音声認識データ記憶部12に図2の音声認識データが記憶され、辞書データ記憶部13に図10の置換用データが記憶されているものとする。
まず、作成部15は、音声認識データを参照して、各分節テキストについて、評価値が最高の候補を選択し、選択した候補を連接することにより、音声認識結果を作成する(ステップS401)。この音声認識結果は、音声認識サービスにより得られる音声認識結果に相当する。すなわち、「行こうの規格だ」という音声認識結果が作成される。
次に、検索部14は、置換用データに含まれる第1語句テキストの中から、第1語句を1つ選択する(ステップS402)。ここでは、「リコー」が選択されたものとする。
続いて、検索部14は、選択した第1語句に対応する第2語句の中から、第2語句を1つ選択する(ステップS403)。ここでは、「行こう」が選択されたものとする。
検索部14は、選択した第2語句を検索キーとして、作成部15が作成した音声認識結果を検索する(ステップS404)。検索部14は、検索キー(選択した第2語句)と音声認識結果との一致部分を検索結果として出力する。
検索部14が検索結果を出力すると、作成部15は、検索結果に基づいて、音声認識結果を更新する。具体的には、音声認識結果に第2語句と一致する部分がある場合(ステップS405のYES)、すなわち、音声認識結果に第2語句が含まれる場合、作成部15は、第2語句を対応する第1語句に置換する(ステップS406)。これにより、音声認識結果に含まれる「行こう」が「リコー」に置換される。その後、処理はステップS407に進む。
一方、音声認識結果に第2語句と一致する部分がない場合(ステップS405のNO)、すなわち、音声認識結果に第2語句が含まれない場合、処理はステップS407に進む。
検索部14は、検索が終了すると、ステップS402で選択した第1語句に対応する全第2語句が選択されたか(未選択の第2語句があるか)を確認する(ステップS407)。未選択の第2語句がある場合(ステップS407のNO)、処理はステップS403に戻る。そして、検索部14は、未選択の第2語句の中から次の第2語句を選択する(ステップS403)。これにより、「移行」が選択される。
一方、全第2語句が選択された場合(ステップS407のYES)、検索部14は、置換用データに含まれる全第1語句が選択されたか(未選択の第1語句があるか)を確認する(ステップS408)。
未選択の第1語句がある場合(ステップS408のNO)、処理はステップS402に戻る。そして、検索部14は、未選択の第1語句の中から、次の第1語句を選択する(ステップS402)。これにより、「トピックモデル」が選択される。
一方、全第1語句が選択された場合(ステップS408のYES)、音声認識結果の作成処理が終了する。この時点で作成部15が保持している音声認識結果が、作成装置1により得られた音声認識結果となる。結果として、「リコーの規格だ」という音声認識結果が作成される。
作成部15が作成した「リコーの規格だ」という音声認識結果は、音声認識サービスにより得られた「行こうの規格だ」という音声認識結果に比べて、発言者が意図した「リコーの企画だ」という発言に近くなっていることがわかる。これは、置換用データに基づいて語句を置換したことにより、「行こう」が「リコー」に置換されたためである。
このように、本実施形態によれば、音声認識サービスが出力した音声認識データと、ユーザが用意した置換用データ(辞書データ)と、に基づいて、音声認識結果の精度を向上させることができる。言い換えると、本実施形態によれば、音声認識サービスに比べて、精度の高い音声認識結果を作成することができる。
また、本実施形態によれば、分節テキストを、音声認識データに語句の候補として含まれない語句に、変換することができる。
(第4実施形態)
第4実施形態に係る作成装置1について、図12を参照して説明する。本実施形態に係る作成装置1の機能構成及びハードウェア構成は、第1実施形態と同様である。ただし、本実施形態では、辞書データとして、文章データ及び置換用データが記憶され、この文章データ及び置換用データを利用して、音声認識結果が作成される。なお、文章データ及び置換用データについては、上述の通りである。
ここで、本実施形態に係る作成装置1の動作について説明する。本実施形態に係る作成装置1の動作の概要は、第1実施形態と同様である。図12は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。図12のフローチャートは、図11のフローチャートに、ステップS409,S410を追加したものである。以下、ステップS409,S410について説明する。なお、音声認識データ記憶部12に図2の音声認識データが記憶され、辞書データ記憶部13に図3の文章データ及び図10の置換用データが記憶されているものとする。
本実施形態では、音声認識結果に第2語句と一致する部分がある場合(ステップS405のYES)、検索部14は、第1近傍文字列及び第2近傍文字列を検索キーとして、文章データを検索する(ステップS409)。
第2近傍文字列は、音声認識結果における、第2語句及びその近傍文字列からなる文字列である。第2語句の近傍文字列とは、例えば、第2語句の直前又は直後の数文字の文字列のことである。第1近傍文字列は、第2近傍文字列に含まれる第2語句を、対応する第1語句に置換した文字列である。ここでは、第2近傍文字列は、第2語句及びその直後の1文字からなる文字列であるものとする。
例えば、第1語句が「リコー」であり、第2語句が「行こう」であり、音声認識結果が「行こうの規格だ」である場合、第2近傍文字列は「行こうの」となり、第1近傍文字列は「リコーの」となる。
検索部14は、検索キー(第1近傍文字列)と文章データとの一致件数R2を、検索結果として出力する。図3の文章データには「リコーの」と一致する部分が1つあるため、検索結果として1件が出力される。
また、検索部14は、検索キー(第2近傍文字列)と文章データとの一致件数R2を、検索結果として出力する。図3の文章データには「行こうの」と一致する部分がないため、検索結果として0件が出力される。
作成部15は、一致件数R1が一致件数R2より大きい場合(ステップS410のYES)、第2語句を対応する第1語句に置換する(ステップS406)。その後、処理はステップS407に進む。一方、一致件数R1が一致件数R2以下である場合(ステップS410のNO)、処理はステップS407に進む。本実施形態では、一致件数R1が一致件数R2より大きいため、「行こう」が「リコー」に置換され、第3実施形態と同様に、「リコーの規格だ」という音声認識結果が作成される。
以上説明した通り、本実施形態によれば、文章データに対する、第1近傍文字列の一致件数R1が、第2近傍文字列の一致件数R2より大きい場合、第2語句が第1語句に置換される。言い換えると、文章データに対する、第1近傍文字列の一致件数R1が、第2近傍文字列の一致件数R2以下である場合、第2語句が第1語句に置換されない。これにより、作成装置1は、第2語句の過剰な置換を抑制し、精度が高い音声認識結果を作成することができる。
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせなど、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
1:音声認識結果作成装置
11:入力部
12:音声認識データ記憶部
13:辞書データ記憶部
14:検索部
15:作成部
特開2004−333703号公報

Claims (8)

  1. 各分節テキストに対応する語句の候補及び前記各候補の評価値を含む音声認識データを入力される入力部と、
    ユーザにより予め用意された辞書データを記憶する辞書データ記憶部と、
    前記辞書データと、前記音声認識データと、の一致する部分を検索する検索部と、
    検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成部と、
    を備える音声認識結果作成装置。
  2. 前記作成部は、前記各分節テキストについて、前記評価値に基づいて前記候補を選択し、選択した前記候補を連接することにより、前記音声認識結果を作成する
    請求項1に記載の音声認識結果作成装置。
  3. 前記辞書データは、文章データを含み、
    前記検索部は、前記候補を検索キーとして前記文章データを検索し、
    前記作成部は、前記候補及び前記文章データの一致件数に基づいて、当該候補の前記評価値を更新する
    請求項1又は請求項2に記載の音声認識結果作成装置。
  4. 前記辞書データは、複数の同音語を含む少なくとも1つの同音語セットを含む同音語データを含み、
    前記検索部は、前記候補を検索キーとして前記同音語データを検索し、当該候補を含む前記同音語セットがある場合、当該候補を検索キーとして前記文章データを検索する
    請求項3に記載の音声認識結果作成装置。
  5. 前記辞書データは、置換する第1語句と、置換される第2語句と、の対応関係を示す置換用データを含み、
    前記作成部は、前記各分節テキストについて、前記評価値に基づいて前記候補を選択し、選択した前記候補を連接することにより、前記音声認識結果を作成し、
    前記検索部は、前記第2語句を検索キーとして前記音声認識結果を検索し、
    前記作成部は、前記音声認識結果に前記第2語句が含まれる場合、当該第2語句を対応する前記第1語句に置換する
    請求項1に記載の音声認識結果作成装置。
  6. 前記辞書データは、文章データを含み、
    前記検索部は、前記第1語句を含む第1近傍文字列と、前記第2語句を含む第2近傍文字列と、を検索キーとして、前記文章データを検索し、
    前記作成部は、前記第1近傍文字列及び前記文章データの一致件数が、前記第2近傍文字列及び前記文章データの一致件数より多い場合、当該第2語句を対応する前記第1語句に置換する
    請求項5に記載の音声認識結果作成装置。
  7. 各分節テキストに対応する語句の候補及び前記各候補の評価値を含む音声認識データを入力する入力工程と、
    ユーザにより予め用意された辞書データと、前記音声認識データと、の一致する部分を検索する検索工程と、
    検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成工程と、
    を含む音声認識結果作成方法。
  8. 各分節テキストに対応する語句の候補及び前記各候補の評価値を含む音声認識データを入力する入力工程と、
    ユーザにより予め用意された辞書データと、前記音声認識データと、の一致する部分を検索する検索工程と、
    検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成工程と、
    をコンピュータに実行させるためのプログラム。
JP2016187778A 2016-09-27 2016-09-27 音声認識結果作成装置、方法及びプログラム Active JP6702119B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016187778A JP6702119B2 (ja) 2016-09-27 2016-09-27 音声認識結果作成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016187778A JP6702119B2 (ja) 2016-09-27 2016-09-27 音声認識結果作成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018054717A JP2018054717A (ja) 2018-04-05
JP6702119B2 true JP6702119B2 (ja) 2020-05-27

Family

ID=61835679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016187778A Active JP6702119B2 (ja) 2016-09-27 2016-09-27 音声認識結果作成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6702119B2 (ja)

Also Published As

Publication number Publication date
JP2018054717A (ja) 2018-04-05

Similar Documents

Publication Publication Date Title
US10789529B2 (en) Neural network data entry system
JP5362095B2 (ja) インプットメソッドエディタ
US8543375B2 (en) Multi-mode input method editor
US9824085B2 (en) Personal language model for input method editor
US9779080B2 (en) Text auto-correction via N-grams
JP5802292B2 (ja) 共有された言語モデル
TWI475406B (zh) 取決於上下文之輸入方法
US7742924B2 (en) System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context
US20150169537A1 (en) Using statistical language models to improve text input
WO2016082096A1 (en) System and method for predictive text entry using n-gram language model
JP2010520531A (ja) 統合ピンイン及び画入力
JPWO2007069762A1 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JP2010520532A (ja) 画数の入力
US10387543B2 (en) Phoneme-to-grapheme mapping systems and methods
JP6702119B2 (ja) 音声認識結果作成装置、方法及びプログラム
JP5629543B2 (ja) 文字列変換装置、文字列変換方法、コンピュータプログラムおよび記録媒体
CN105683873A (zh) 容错输入法编辑器
CN106709294B (zh) 一种用户认证方法和装置
KR101645674B1 (ko) 자동완성 후보 단어 제공 방법 및 장치
JP6876658B2 (ja) 施設名称検索装置、施設名称検索方法及びコンピュータ用プログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
KR100910302B1 (ko) 멀티모달 기반의 정보 검색 장치 및 방법
JP2002297577A (ja) 中国語入力変換処理装置、中国語入力変換処理方法及びプログラム
JP5573257B2 (ja) 文字入力用のプログラムおよび通信端末装置
JP2014178953A (ja) 文字入力用のプログラムおよび文字入力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200420

R151 Written notification of patent or utility model registration

Ref document number: 6702119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151