JP6869835B2

JP6869835B2 - 音声認識システム、端末装置、及び辞書管理方法

Info

Publication number: JP6869835B2
Application number: JP2017132708A
Authority: JP
Inventors: 浩明小窪; 松本　卓也; 卓也松本; 則男度會
Original assignee: Clarion Co Ltd; Faurecia Clarion Electronics Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2017-07-06
Filing date: 2017-07-06
Publication date: 2021-05-12
Anticipated expiration: 2037-07-06
Also published as: US20190013010A1; US10818283B2; EP3425629B1; EP3425629A1; JP2019015838A

Description

本発明は、音声認識システム、端末装置、及び辞書管理方法に関する。

近年、スマートフォンやカーナビゲーション等の端末装置には、サーバ側に搭載された音声認識エンジンを使用した音声入力機能を有するものがある。サーバ側の音声認識エンジンは、端末装置に比べて豊富な計算リソース（例えば、演算処理速度や記憶容量）を活用することができる。これにより、サーバ側の音声認識エンジンは、幅広い語彙を認識できる可能性を持っており、また、さまざまな音環境で入力された音声を精度よく認識できる可能性を持っている。

しかし、サーバ側の音声認識エンジンは、過疎地やトンネル内などの端末装置とデータ通信を確立できない環境では、使用することができない。そこで、端末装置側にも音声認識エンジンを搭載し、状況に応じて音声認識処理を端末装置側又はサーバ側に振り分けるように、システムを構成することもできる。

特許文献１には、「振り分け判定部１０２は、解析した入力モードが該当項目選択モードであるか否かを判定する（ステップ１０４）。現在の入力モードが該当項目選択モードである場合には肯定判断が行われる。次に、車載装置１に内蔵された音声認識処理部１００は、マイクロホン２２によって集音された利用者の音声に対して音声認識処理を行う（ステップ１０６）。」、「一方、現在の入力モードがテキスト入力モードである場合にはステップ１０４の判定において否定判断が行われる。次に、音声データ送信部５６は、マイクロホン２２から入力されて圧縮処理部２６によって圧縮処理された音声データをネットワーク３を介してサーバ２に向けて送信して、サーバ２内の音声認識処理部２００による音声認識処理を依頼する（ステップ１１０）。」と記載されている。

特開２０１３−８８４７７号公報

端末装置に搭載される音声認識エンジンは、当該端末装置の計算リソースの制約のため、サーバ側の音声認識エンジンに比べて、認識できる語句が少ない。一方、サーバ側の音声認識エンジンは、端末装置と比べて自由にメンテナンス可能であることから、語句を新たに音声認識辞書に追加することが容易である。そのため、サーバ側の音声認識エンジンでは正しく認識できるものの、端末装置側の音声認識エンジンでは認識できない語句が多く存在する。このような語句は、サーバ側の音声認識エンジンを使用することができない環境では、端末装置によって認識されず、端末装置のユーザは不便を強いられることになる。

そこで、サーバ側の音声認識エンジンで認識された語句のうちユーザの使用頻度が高い語句を、そのユーザの端末装置側の音声認識辞書に追加すれば、端末装置側で音声認識可能な語彙を増やすことができる。

ここで、一般的に、サーバ側の音声認識エンジンから得られる認識結果は、テキスト表記された文字列である。従って、端末装置は、サーバの認識結果を端末装置の音声認識辞書に登録するには、テキスト文字列に読みを付ける読み付与機能を備える必要がある。

しかしながら、読み付与機能は、下記のような問題を有する。例えば、奈良県御所市の「御所」は、「ごしょ」ではなく「ごぜ」と読むといったように、地名などの固有名詞は、独特の読み方をするものも多く、読み付与機能は、必ずしも正しい読みを文字列に対して付与できるとは限らない。また例えば、読み付与機能により正しい読みが付与された語句が音声認識辞書に登録されていても、当該語句をユーザが正しい読み方を知らずに間違った読み方で発声する場合には、音声認識能力の向上を期待できない。

本発明は、上記の問題を鑑みてなされたものであり、独特の読みを持つ語句やユーザにより誤って使用されている読みを持つ語句に対して適切な読みを付与することができる音声認識システム、端末装置、及び辞書管理方法を提供することを目的とする。

本発明は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。

本発明の一態様は、端末装置であって、ユーザの音声データを音声認識サーバに送信し、前記音声認識サーバから第１の認識結果を受信する通信制御部と、音声認識のための音声認識辞書を記憶する記憶部と、前記音声データを前記音声認識辞書を用いて音声認識し、第２の認識結果を得る音声認識部と、前記第１の認識結果が示す第１の語句を前記音声認識辞書に登録する辞書管理部と、を備える。前記辞書管理部は、前記第１の語句を形態素に分割するとともに各形態素に読みを付与し、前記第２の認識結果が示す第２の語句を形態素に分割する形態素解析部と、前記第１の語句を構成する形態素うち、前記第２の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第２の認識結果が示す当該形態素の読みを選択する読み選択部と、を備える。前記辞書管理部は、前記第１の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する。

本発明によれば、独特の読みを持つ語句やユーザにより誤って使用されている読みを持つ語句に対して適切な読みを付与することができる音声認識システム、端末装置、及び辞書管理方法を提供することができる。

上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

第１実施形態に係る音声認識システムのシステム構成及び機能構成の一例を示す図である。第１実施形態に係る端末装置の音声認識処理および認識語句登録処理の一例を示すフローチャートである。第１実施形態に係る端末装置の読み付与処理の一例を示すフローチャートである。認識語句に対して形態素解析により付与された読みの例を示す図である。第１実施形態に係る認識語句に対する読み付与の例を説明する模式図である。Ｎベストの認識結果の例を示す図である。第２実施形態に係る認識語句に対する読み付与の例を説明する模式図である。Ｎベストの認識結果から選択された各形態素と読みの例を示す図である。第３実施形態に係る端末装置の音声認識処理および認識語句登録処理の一例を示すフローチャートである。

以下、本発明の複数の実施形態について、図面を参照して説明する。なお、各実施形態は、本発明の原理に則った具体的な例を示しているが、これらは本発明の理解のためのものであり、本発明を限定的に解釈するために用いられるものではない。

［第１実施形態］
図１は、第１実施形態に係る音声認識システムのシステム構成及び機能構成の一例を示す図である。

音声認識システムは、端末装置１０２と、音声認識サーバ１０３とを備える。端末装置１０２と音声認識サーバ１０３は、例えば携帯電話網、インターネット等の通信ネットワーク（図示せず）を介して、互いに通信することができる。端末装置１０２には、内部あるいは外部にマイクロフォン１０１が接続される。

端末装置１０２は、例えばスマートフォン、フィーチャーフォン、タブレットコンピュータ、ＰＣ（Personal Computer）、ウェアラブルデバイス、車載カーナビゲーション機、車載オーディオ機器、車載ＥＣＵ（Electronic Control Unit）などの情報通信機器である。音声認識サーバ１０３は、例えばサーバコンピュータなどの情報通信機器である。

端末装置１０２は、マイクロフォン１０１を介して入力されるユーザの音声データに対する音声認識機能を有する。また、端末装置１０２は、ユーザの音声データを音声認識サーバ１０３に送信することにより、音声認識サーバ１０３の有する音声認識機能を利用することができる。音声認識サーバ１０３は、端末装置１０２から受信した音声データに対する音声認識機能を有し、その認識結果を端末装置１０２に送信する。

端末装置１０２は、音声認識サーバ１０３と比べて、計算機リソース（例えば、演算処理速度や記憶容量）が少ない。そのため、端末装置１０２における音声認識機能は、音声認識辞書に登録されている語句数が少ないことや処理速度が遅いことにより、認識能力が低く制限される。一方で、音声認識サーバ１０３における音声認識機能は、音声認識辞書に登録されている語句数が多いことや処理速度が速いことにより、認識能力が高い。音声認識サーバ１０３の音声認識辞書は、例えば、正式名称以外にも通称名や省略名称など多様な言い回しを認識できるよう語彙を拡張することが可能である。また、音声認識サーバ１０３の音声認識辞書は、集中管理によるメンテナンスが可能なため、例えば、新しい施設のオープン、新曲のリリース等に合わせて音声認識辞書の内容を更新することが容易である。ただし、端末装置１０２と音声認識サーバ１０３の通信を確立できない場合には、音声認識サーバ１０３における音声認識機能を利用できないというデメリットはある。

そこで、本実施形態の端末装置１０２は、音声認識サーバ１０３から受信した音声認識の結果が示す語句を、その音声認識辞書に登録する機能を有する。これにより、端末装置１０２の音声認識辞書に、ユーザによって使用される可能性の高い語句を効率的に追加し、音声認識サーバ１０３と通信を確立できない環境でも、ユーザの利便性を向上することができる。

端末装置１０２は、音声認識部１０４と、システム辞書１０５及びユーザ辞書１０６（これらを「音声認識辞書」と呼んでもよい）と、通信制御部１０７と、認識結果取得部１０８と、インターフェイス制御部１０９と、辞書管理部１１０とを有する。辞書管理部１１０は、形態素解析部１１１と、読み選択部１１２とを有する。

音声認識部１０４は、ユーザの音声データの入力を、マイクロフォン１０１を介して受け付け、その音声データの音声認識処理を実行し、認識結果として、例えば、認識された語句（文字列）と、認識の信頼度と、その語句の読みデータとを出力する。具体的には、音声認識部１０４は、システム辞書１０５及びユーザ辞書１０６を参照して、それらに登録されている語句の中から、入力された音声に最も類似する読みを持つ語句あるいは複数の語句により表現される語句を推定する。また、音声認識部１０４は、語句の推定とともに、当該推定の信頼度を算出する。このような音声認識処理は、既存の技術を用いて実現できるため、詳細な説明を省略する。

システム辞書１０５は、予め登録された複数の語句を含む音声認識辞書である。ユーザ辞書１０６は、システム辞書１０５に登録されていない、端末装置１０２のユーザにより使用された新規語句を登録するための音声認識辞書である。これらの辞書には、語句の文字列とともにその語句の読みデータが登録される。

通信制御部１０７は、端末装置１０２の備える通信装置（図示せず）を介して音声認識サーバ１０３と通信する。例えば、通信制御部１０７は、マイクロフォン１０１を介してユーザの音声データの入力を受け付け、その音声データを音声認識サーバ１０３に送信する。通信制御部１０７は、送信する音声データに圧縮処理を施してデータサイズを小さくしてもよい。また例えば、通信制御部１０７は、送信した音声データに対する音声認識処理の認識結果を、音声認識サーバ１０３から受信して、認識結果取得部１０８に出力する。音声認識サーバ１０３からの認識結果は、例えば、認識された語句（文字列）と、認識の信頼度とを含み、その語句の読みデータを含んでいない。もちろん、通信制御部１０７は、音声認識サーバ１０３以外の機器と通信してもよい。

認識結果取得部１０８は、音声認識部１０４から出力される認識結果を取得する。また、認識結果取得部１０８は、通信制御部１０７を介して音声認識サーバ１０３からの認識結果を取得する。認識結果取得部１０８は、取得した２つの認識結果のいずれかを選択し、インターフェイス制御部１０９に出力する。認識結果取得部１０８は、例えば各認識結果に含まれる信頼度を比較して、信頼度が高い方の認識結果を選択する。

また、認識結果取得部１０８は、音声認識サーバ１０３による認識結果（「第１の認識結果」ともいう）と音声認識部１０４による認識結果（「第２の認識結果」ともいう）との両方を、辞書管理部１１０に出力する。

インターフェイス制御部１０９は、端末装置１０２に接続されるディスプレイやスピーカ等の出力装置（図示せず）を介してユーザに情報を出力する。また、インターフェイス制御部１０９は、端末装置１０２の備えるソフトキーやハードキー等の入力装置（図示せず）を介してユーザからの情報の入力を受け付ける。なお、インターフェイス制御部１０９は、認識結果取得部１０８から入力された認識結果をユーザに提示し、当該認識結果を許可するかキャンセルするかをユーザから受け付けてもよい。

辞書管理部１１０は、システム辞書１０５及びユーザ辞書１０６を管理する。具体的には、辞書管理部１１０は、認識結果取得部１０８により選択された認識結果（音声認識部１０４による認識結果、又は音声認識サーバ１０３による認識結果）を参照し、当該認識結果が示す認識語句がシステム辞書１０５又はユーザ辞書１０６に登録されているか否かを判定する。辞書管理部１１０は、認識語句が登録されているか否かを文字列の一致で判定する。認識語句がシステム辞書１０５及びユーザ辞書１０６に登録されていない場合、辞書管理部１１０は、当該認識語句を新規語句としてユーザ辞書１０６に登録する。

ここで、認識結果取得部１０８により選択された認識結果が音声認識サーバ１０３による認識結果である場合、その認識結果には、認識語句の読みが含まれていない。この場合、辞書管理部１１０は、形態素解析部１１１と読み選択部１１２を用いて、認識語句に読みデータを付与する。そして、辞書管理部１１０は、認識語句の文字列とともに付与されたその語句の読みデータを、ユーザ辞書１０６に登録する。

形態素解析部１１１は、認識語句の文字列に対して形態素解析を実行する。形態素解析とは、テキストデータを、文法や単語の品詞情報等を用いて、形態素と呼ばれる言語の単位に分割し、それぞれの形態素の品詞や読み等の情報を付与する技術である。日本語の形態素解析ツールは、例えば、非特許文献（MeCab: Yet Another Part-of-Speech and Morphological Analyzer, http://taku910.github.io/mecab/）に開示されている「Mecab」が知られており、本実施形態はこれを利用することができる。形態素解析についての詳細な説明は省略する。

具体的には、形態素解析部１１１は、音声認識サーバ１０３による第１の認識結果が示す語句の文字列に対して形態素解析を実行し、当該語句を複数の形態素に分割するとともに、各形態素に読みを付与する。また、形態素解析部１１１は、音声認識部１０４による第２の認識結果が示す語句の文字列に対して形態素解析を実行し、当該語句を複数の形態素に分割する（各形態素に対する読みの付与は必須ではない）。

読み選択部１１２は、第１の認識結果が示す語句を構成する各形態素に対して、付与すべき読みを選択する。具体的には、読み選択部１１２は、第１の認識結果が示す語句を構成する各形態素（「対象形態素」とも呼ぶ）に対して、文字列の表記が一致する形態素を第２の認識結果が示す語句を構成する各形態素（「候補形態素」とも呼ぶ）の中から特定する。

読み選択部１１２は、表記が一致する候補形態素を特定できた対象形態素に対して、第２の認識結果（読みデータを含む）から当該候補形態素の読みを抽出し、当該対象形態素に付与すべき読みとして選択する。

読み選択部１１２は、表記が一致する候補形態素を特定できなかった対象形態素に対して、形態素解析部１１１により付与された読みを抽出し、当該対象形態素に付与すべき読みとして選択する。

辞書管理部１１０は、上述のようにして読み選択部１１２により選択された各対象形態素の読みを取得し、認識語句の文字列とともにその語句の読みデータを、ユーザ辞書１０６に登録する。

音声認識サーバ１０３は、端末装置１０２からユーザの音声データを受信し、その音声データの音声認識処理を実行し、認識結果として、例えば、認識された語句（文字列）と認識の信頼度を、端末装置１０２に送信する。上述したように、認識結果には、読みデータが含まれない。具体的には、音声認識サーバ１０３は、自装置の備える音声認識辞書（図示せず）を参照して、その中に登録されている語句の中から、入力された音声に最も類似する読みを持つ語句あるいは複数の語句により表現される語句を推定する。また、音声認識サーバ１０３は、語句の推定とともに、当該推定の信頼度を算出する。このような音声認識処理は、既存の技術を用いて実現できるため、詳細な説明を省略する。

なお、音声認識サーバ１０３の備える音声認識辞書には、予め複数の語句が登録されている。また、当該音声認識辞書には、例えば管理者によってあるいはプログラムによって自動的に新しい語句が追加される。また、当該音声認識辞書に登録されている語句は、例えば管理者によってあるいはプログラムによって自動的に更新することができる。

端末装置１０２は、例えば、演算装置、主記憶装置、外部記憶装置、通信装置、入力装置、出力装置等を備えるコンピュータにより実現することができる。演算装置は、例えば、ＣＰＵ（Central Processing Unit）などの装置である。主記憶装置は、例えば、ＲＡＭ（Random Access Memory）などの記憶装置である。外部記憶装置は、例えば、ハードディスクやＳＳＤ（Solid State Drive）、あるいはフラッシュＲＯＭ（Read Only Memory）などの記憶装置である。通信装置は、ネットワークケーブルを介して有線通信を行う通信装置、アンテナを介して無線通信を行う通信装置を含む、情報を送受信する装置である。入力装置は、キーボードやマウスなどのポインティングデバイス、タッチパネル、マイクロフォンなどを含む、入力情報を受け付ける装置である。出力装置は、ディスプレイ、プリンタ、スピーカなどを含む、出力情報を出力する装置である。

端末装置１０２の各機能（図１参照、これらを１つの制御部と呼んでもよい）は、例えば、演算装置が所定のアプリケーションプログラムを実行することによって実現することができる。このアプリケーションプログラムは、例えば、主記憶装置又は外部記憶装置内に記憶され、実行にあたって主記憶装置上にロードされ、演算装置によって実行される。音声認識辞書は、例えば、主記憶装置及び外部記憶装置の少なくとも一方の記憶部に格納される。音声認識サーバ１０３も、上述したようなコンピュータにより実現することができる。

図２は、第１実施形態に係る端末装置の音声認識処理および認識語句登録処理の一例を示すフローチャートである。本フローチャートは、音声データの入力及びその音声認識処理が実行された後の処理を示している。端末装置１０２と音声認識サーバ１０３の通信は確立されているものとする。

まず、認識結果取得部１０８は、入力された音声データの音声認識結果を取得したか否かを判定する（ステップＳ１）。具体的には、認識結果取得部１０８は、音声認識部１０４及び音声認識サーバ１０３のそれぞれから認識結果を取得したか否かを判定する。２つの認識結果を取得していないと判定した場合（ステップＳ１：ＮＯ）、認識結果取得部１０８は、ステップＳ１の処理を継続する。

認識結果取得部１０８は、２つの認識結果を取得したと判定した場合（ステップＳ１：ＹＥＳ）、認識結果を選択する（ステップＳ２）。具体的には、認識結果取得部１０８は、ステップＳ１で取得した２つの認識結果うち、各認識結果に含まれる信頼度を比較して、信頼度が高い方の認識結果を選択する。信頼度の範囲が最小値０〜最大値１である場合を考える。例えば、音声認識部１０４から得られた認識結果が「東京国際空港」（信頼度０．９２）、音声認識サーバ１０３から得られた認識結果が「東京国際空港」（信頼度０．９７）の場合は、どちらの認識結果も信頼度が高いが、より信頼度が高い方が選択される。また例えば、音声認識部１０４から得られた認識結果が「成田国際空港」（信頼度０．３２）、音声認識サーバ１０３から得られた認識結果が「セントレア国際空港」（信頼度０．９４）の場合は、異なる語句の信頼度ではあるが、音声認識部１０４の認識結果は誤っている可能性が高いため、信頼度が高い方が選択される。

なお、端末装置１０２と音声認識サーバ１０３の通信が確立されていない場合、認識結果取得部１０８は、ステップＳ１において、音声認識部１０４から認識結果を取得したか否かを判定し、ステップＳ２において、信頼度に関わらず音声認識部１０４の認識結果を選択する。

次に、認識結果取得部１０８は、選択した認識結果がキャンセルされたか否かを判定する（ステップＳ３）。具体的には、インターフェイス制御部１０９は、ステップＳ２で選択された認識結果が示す語句（あるいは当該語句に対応する操作コマンド）を、ディスプレイやスピーカを介してユーザに提示するとともに、当該語句（あるいは操作コマンド）を許可するかキャンセルするかの選択を、入力装置を介してユーザから受け付ける。インターフェイス制御部１０９は、提示した語句（あるいは操作コマンド）の修正をユーザから受け付けてもよい。

インターフェイス制御部１０９がキャンセルの選択を受け付けた場合、認識結果取得部１０８は、認識結果がキャンセルされたと判定し（ステップＳ３：ＹＥＳ）、処理をステップＳ１に戻し、次の音声データに関する処理を実行する。

インターフェイス制御部１０９が許可の選択を受け付けた場合、認識結果取得部１０８は、認識結果が許可されたと判定し（ステップＳ３：ＮＯ）、処理をステップＳ４に進める。このとき、認識結果取得部１０８は、ステップＳ２で選択されかつステップＳ３で許可された認識結果を辞書管理部１１０に出力する。ステップＳ３で語句が修正された場合には、認識結果取得部１０８は、その修正後の認識結果を辞書管理部１１０に出力すればよい。なお、ユーザに提示した語句（あるいは操作コマンド）が許可された場合、端末装置１０２の処理部（図示せず）は、当該語句（あるいは操作コマンド）に対応付けられた機能を実行してもよい。

次に、辞書管理部１１０は、認識語句が音声認識辞書に登録済であるか否かを判定する（ステップＳ４）。具体的には、辞書管理部１１０は、ステップＳ３で認識結果取得部１０８から出力された認識結果を参照し、当該認識結果が示す語句がシステム辞書１０５又はユーザ辞書１０６に登録されているか否かを判定する。なお、当該認識結果が音声認識部１０４による認識結果である場合、当該認識結果が示す認識語句は、システム辞書１０５又はユーザ辞書１０６に登録されている。一方、当該認識結果が音声認識サーバ１０３による認識結果である場合、当該認識結果が示す認識語句は、システム辞書１０５又はユーザ辞書１０６に登録されていない場合がある。辞書管理部１１０は、認識語句がシステム辞書１０５又はユーザ辞書１０６に登録済であると判定した場合（ステップＳ４：ＹＥＳ）、処理をステップＳ１に戻し、認識結果取得部１０８は次の音声データに関する処理を実行する。

辞書管理部１１０は、認識語句がシステム辞書１０５及びユーザ辞書１０６に登録済でないと判定した場合（ステップＳ４：ＮＯ）、当該認識語句をユーザ辞書１０６に登録するか否かを判定する（ステップＳ５）。具体的には、辞書管理部１１０は、同一の認識語句について、ステップＳ４で登録されていないと判定した回数を記録する。そして、辞書管理部１１０は、当該認識語句の回数が所定閾値を超えた場合に、ユーザ辞書１０６に登録すると判定する。このようにすれば、少ない回数しか認識されていない語句（すなわち、使用頻度が低いと推測される語句）が、即座にユーザ辞書１０６に登録されてしまうのを避けることができる。

ステップＳ５の判定方法は、上述の例に限られない。例えば、辞書管理部１１０は、当該認識語句の信頼度を参照してもよい。そして、辞書管理部１１０は、当該信頼度が所定閾値より大きい場合に、ユーザ辞書１０６に登録すると判定する。このようにすれば、認識の信頼度が低い語句が、ユーザ辞書１０６に登録されてしまうのを避けることができる。もちろん、ステップＳ５の処理を省略して、辞書管理部１１０は、無条件で認識語句をユーザ辞書１０６に登録してもよい。

辞書管理部１１０は、認識語句をユーザ辞書１０６に登録しないと判定した場合（ステップＳ５：ＮＯ）、処理をステップＳ１に戻し、認識結果取得部１０８は次の音声データに関する処理を実行する。

辞書管理部１１０は、認識語句をユーザ辞書１０６に登録すると判定した場合（ステップＳ５：ＹＥＳ）、当該認識語句に読みを付与する（ステップＳ６）。ステップＳ６については、図３を用いて後に詳述する。

辞書管理部１１０は、ステップＳ６の処理の後、認識語句を新規語句としてユーザ辞書１０６に登録する（ステップＳ７）。具体的には、辞書管理部１１０は、認識語句の文字列とともにステップＳ６で付与されたその語句の読みデータを、ユーザ辞書１０６に登録する。そして、辞書管理部１１０は、処理をステップＳ１に戻し、認識結果取得部１０８は次の音声データに関する処理を実行する。

図３は、第１実施形態に係る端末装置の読み付与処理の一例を示すフローチャートである。本フローチャートは、図２のステップＳ６の処理の詳細を示している。

まず、辞書管理部１１０は、音声認識サーバ１０３による第１の認識結果を、認識結果取得部１０８から取得する（ステップＳ６１）。また、辞書管理部１１０は、音声認識部１０４による第２の認識結果を、認識結果取得部１０８から取得する（ステップＳ６２）。

次に、形態素解析部１１１は、ステップＳ６１で取得された第１の認識結果が示す語句の文字列に対して形態素解析を実行し、当該語句を複数の形態素に分割するとともに、各形態素に読みを付与する（ステップＳ６３）。また、形態素解析部１１１は、ステップＳ６２で取得された第２の認識結果が示す語句の文字列に対して形態素解析を実行し、当該語句を複数の形態素に分割する（ステップＳ６４）。

次に、読み選択部１１２は、ステップＳ６３で解析された第１の認識結果が示す語句を構成する各対象形態素に対して、文字列の表記が一致する形態素をステップＳ６４で解析された第２の認識結果が示す語句を構成する各候補形態素の中から特定する（ステップＳ６５）。

次に、読み選択部１１２は、ステップＳ６５において表記が一致する候補形態素を特定できた対象形態素に対して、第２の認識結果から当該候補形態素の読みを抽出し、当該対象形態素に付与すべき読みとして選択する（ステップＳ６６）

次に、読み選択部１１２は、ステップＳ６５において表記が一致する候補形態素を特定できなかった対象形態素に対して、ステップＳ６３で形態素解析部１１１により付与された読みを抽出し、当該対象形態素に付与すべき読みとして選択する（ステップＳ６７）。

なお、辞書管理部１１０は、ステップＳ６６及びステップＳ６７で読み選択部１１２により選択された各対象形態素の読みを取得し、認識語句に対して付与し、本フローチャートの処理を終了する。

以下に、独特の読みを持つ語句やユーザにより誤って使用されている読みを持つ語句に対して適切な読みを付与することができる読み付与の原理について、具体例を用いて説明する。

図４は、認識語句に対して形態素解析により付与された読みの例を示す図である。図４では、符号４０１は、ユーザが発声した発話内容を示し、符号４０２は、音声認識サーバ１０３から得られた認識結果のテキスト文字列を示し、符号４０３は、テキスト文字列を形態素解析した結果を示す。形態素解析結果において、「」は各形態素の区切り位置を示し、（）内は各形態素の読みを示す。図４では、Ｎｏ．１〜３の例が示されている。

例Ｎｏ．１は、形態素解析結果が正しい場合である。例Ｎｏ．１は、「さっぽろぜんくうほてる」というユーザの発話に対して、「札幌全空ホテル」という認識結果が得られ、「札幌（さっぽろ）」「全空（ぜんくう）」「ホテル（ほてる）」という形態素解析結果が得られた場合を示している。認識結果が示す語句「札幌全空ホテル」と、形態素解析結果が示す読み「さっぽろぜんくうほてる」とが併せてユーザ辞書１０６に追加されれば、その後、「さっぽろぜんくうほてる」というユーザの発話に対しては、端末装置１０２内の音声認識部１０４により正しい認識結果「札幌全空ホテル」が得られるようになる。

例Ｎｏ．２は、形態素解析結果が誤っている場合である。例Ｎｏ．２は、「じゅーそーしょーてんがい」というユーザの発話に対して、「十三商店街」という認識結果が得られ、「十三（じゅーさん）」「商店街（しょーてんがい）」という形態素解析結果が得られた場合を示している。正しくは「十三」に対して「じゅーそー」読みが付与されるべきところ、誤って「じゅうさん」という読みが付与されている。

例Ｎｏ．３は、ユーザが正式な読み方を知らなかった場合である。例Ｎｏ．３は、「さっぽろあかほてる」というユーザの発話に対して、「札幌AKAホテル」という認識結果が得られ、「札幌（さっぽろ）」「AKA（えいけいえー）」「ホテル（ほてる）」という形態素解析結果が得られた場合を示している。「AKA」の正式な読み方は「えいけいえー」であるが、ユーザはそれを知らずに「さっぽろあかほてる」と発話してしまい、形態素解析では正式な「さっぽろえいけいえーほてる」という読みが付与されている。

例Ｎｏ．２及び例Ｎｏ．３のいずれの場合も、ユーザの実際の発話と形態素解析により付けられた読みとの間に齟齬が生じている。このような齟齬が解消される原理について図５を参照して説明する。

図５は、第１実施形態に係る認識語句に対する読み付与の例を説明する模式図である。

図５の例では、ユーザは「さっぽろあかほてる」と発話し（５０１）、音声認識サーバ１０３から「札幌AKAホテル」という認識結果が得られ（５０２）、音声認識部１０４からは「AKAプラザホテル」という認識結果が得られている（５０３）。

音声認識サーバ１０３から得られる認識結果（５０２）は、テキスト文字列を含むが、読みは含まれていない。一方、音声認識部１０４から得られる認識結果（５０３）は、音声認識辞書への参照が可能であるため、読みが含まれている。ここでは、「AKAプラザホテル」に対して「あかぷらざほてる」という読みが付与されている。

音声認識サーバ１０３から得られた認識結果（５０２）に対して形態素解析が実施されると、各形態素の読みが得られる（５０４）。ここでは、認識結果は「札幌」「AKA」「ホテル」の３つの形態素に分割され、各形態素にはそれぞれ「さっぽろ」「えいけいえー」「ほてる」という読みが付与されている。

同様に、音声認識部１０４から得られた認識結果（５０３）に対しても形態素解析が実施される（５０５）。ここでは、認識結果は「AKA」「プラザ」「ホテル」の３つの形態素に分割される。このとき、各形態素の読みには、認識結果（５０３）で得られた読みが使用される。従って、各形態素にはそれぞれ「あか」「ぷらざ」「ほてる」という読みが付与されていると扱える。

続いて、形態素解析結果（５０４）に含まれる各形態素のそれぞれに対して、表記が一致する形態素が形態素解析結果（５０５）に存在するか否かが判定され、一致する形態素の読みが抽出される（５０６）。ここでは、「AKA」「ホテル」の２つの形態素が対象となる。これらの形態素については、認識結果（５０３）に基づいた読み（５０５）が選択される。すなわち、「AKA」の読みには、「えいけいえー」の代わりに「あか」が選択される。「ホテル」の読みには、形態素解析結果（５０４）と同じ「ほてる」が選択される。一方、表記が一致する形態素が存在しなかった「札幌」の読みには、形態素解析結果（５０４）に含まれる「さっぽろ」がそのまま選択される。

このようにして、形態素解析結果（５０４）に含まれる各形態素の一部の読みが入れ替えられた結果、「札幌AKAホテル」の読みは、「さっぽろあかほてる」となる（５０７）。そして、この表記「札幌AKAホテル」と読み「さっぽろあかほてる」のセットが、ユーザ辞書１０６に新規語句として登録される。その後、「さっぽろあかほてる」というユーザの発話に対しては、端末装置１０２内の音声認識部１０４により適切な認識結果「札幌AKAホテル」が得られるようになる。

以上、本発明の第１実施形態について説明した。本実施形態の端末装置１０２は、音声認識サーバ１０３の認識結果に基づいて端末装置１０２の音声認識辞書に存在しない語句を新たに登録する際に、音声認識部１０４の認識結果から得られた読み情報を参照する。これにより、独特の読みを持つ語句やユーザにより誤って使用されている読みを持つ語句に対して適切な読みを付与して、音声認識辞書に新規語句を登録することができる。

［第２実施形態］
第１実施形態では、辞書管理部１１０は、音声認識部１０４で得られた単一の認識結果を参照して読みを修正している。この場合、音声認識部１０４の認識結果に、表記が一致する形態素が現れない場合、読みを修正することができない。第２実施形態では、音声認識部１０４で得られる複数の認識結果を参照する。以下、第１実施形態と異なる点を中心に説明する。

一般的な音声認識処理は、入力された音声に対応する文字列の候補として複数の仮説を生成し、それぞれの仮説に付けられたスコア（上述の信頼度）を参照してスコアの一番高い仮説を認識結果として出力する。スコアの高い上位Ｎ個の仮説は、認識結果のＮベストと呼ばれる。

音声認識部１０４は、ＮベストのＮ個の認識結果を生成して、これらの認識結果をスコアとともに認識結果取得部１０８に出力する。なお、音声認識部１０４は、Ｎに定数を設定してＮ個の認識結果を得るようにしてもよいし、スコアが一定値以上である認識結果の数をＮとしてもよい。

認識結果取得部１０８は、図２のステップＳ２において、Ｎ個の認識結果のうちスコアの一番高い認識結果と、音声認識サーバ１０３から取得した認識結果とを比較して、いずれかの認識結果を選択する。

辞書管理部１１０は、図３のステップＳ６２において、音声認識部１０４によるＮベストのＮ個の第２の認識結果を、認識結果取得部１０８から取得する。形態素解析部１１１は、ステップＳ６４において、ステップＳ６２で取得されたＮ個の第２の認識結果それぞれについて形態素解析を実行する。

読み選択部１１２は、図３のステップＳ６５において、ステップＳ６３で解析された第１の認識結果が示す語句を構成する各対象形態素に対して、文字列の表記が一致する形態素をステップＳ６４で解析されたＮ個の第２の認識結果が示す各語句を構成する各候補形態素の中から特定する。なお、読み選択部１１２は、ステップＳ６６において、ステップＳ６５で表記が一致する複数の候補形態素を特定した場合、スコアが高い（順位が高い）認識結果から当該候補形態素の読みを抽出し、対象形態素に付与すべき読みとして選択する。

以下に、Ｎベストの認識結果を用いた読み付与の原理について、具体例を用いて説明する。

図６は、Ｎベストの認識結果の例を示す図である。図６は、音声認識部１０４で得られる認識結果のＮベストを示している。図６では、符号６０１は、認識結果の順位を示し、符号６０２は、認識結果を示し、符号６０３は、スコアを示す。

図７は、第２実施形態に係る認識語句に対する読み付与の例を説明する模式図である。図７は、Ｎ＝２の場合を示している。

図７の例では、ユーザは「さっぽろあかほてる」と発話し（７０１）、音声認識サーバ１０３から「札幌AKAホテル」という認識結果が得られ（７０２）、音声認識部１０４からは「札幌アサホテル」及び「AKAプラザホテル」の２つの認識結果が得られている（７０３）。

音声認識サーバ１０３から得られる認識結果（７０２）は、テキスト文字列を含むが、読みは含まれていない。一方、音声認識部１０４から得られる２つの認識結果（７０３）は、音声認識辞書への参照が可能であるため、それぞれ読みが含まれている。ここでは、「札幌アサホテル」に対して「さっぽろあさほてる」という読みが付与され、「AKAプラザホテル」に対して「あかぷらざほてる」という読みが付与されている。

音声認識サーバ１０３から得られた認識結果（７０２）に対して形態素解析が実施されると、各形態素の読みが得られる（７０４）。ここでは、認識結果は「札幌」「AKA」「ホテル」の３つの形態素に分割され、各形態素にはそれぞれ「さっぽろ」「えいけいえー」「ほてる」という読みが付与されている。

同様に、音声認識部１０４から得られた２つの認識結果（７０３）に対しても形態素解析が実施される（７０５）。ここでは、「札幌アサホテル」は「札幌」「アサ」「ホテル」の３つの形態素に分割され、「AKAプラザホテル」は「AKA」「プラザ」「ホテル」の３つの形態素に分割される。このとき、各形態素の読みには、認識結果（７０３）で得られた読みが使用される。従って、各形態素「札幌」「アサ」「ホテル」には、それぞれ「さっぽろ」「あさ」「ほてる」という読みが付与され、各形態素「AKA」「プラザ」「ホテル」には、それぞれ「あか」「ぷらざ」「ほてる」という読みが付与されていると扱える。

続いて、形態素解析結果（７０４）に含まれる各形態素のそれぞれに対して、表記が一致する形態素が形態素解析結果（７０５）に存在するか否かが判定され、一致する形態素の読みが抽出される（７０６）。ここでは、「札幌」「AKA」「ホテル」の３つの形態素が対象となる。これらの形態素については、認識結果（７０３）に基づいた読み（７０５）が選択される。すなわち、「札幌」の読みには、形態素解析結果（７０４）と同じ「さっぽろ」が選択される。「AKA」の読みには、「えいけいえー」の代わりに「あか」が選択される。「ホテル」の読みには、形態素解析結果（７０４）と同じ「ほてる」が選択される。

このようにして、形態素解析結果（７０４）に含まれる各形態素の読みが入れ替えられた結果、「札幌AKAホテル」の読みは、「さっぽろあかほてる」となる（７０７）。そして、この表記「札幌AKAホテル」と読み「さっぽろあかほてる」のセットが、ユーザ辞書１０６に新規語句として登録される。その後、「さっぽろあかほてる」というユーザの発話に対しては、端末装置１０２内の音声認識部１０４により適切な認識結果「札幌AKAホテル」が得られるようになる。

なお、図７では説明を簡単にするため、Ｎ＝２としているが、Ｎが３以上の場合も同様の原理で新規語句を登録ことができる。

また、Ｎベストの認識結果から読みを取得することにより、仮に、音声認識部１０４での２つの認識結果「札幌アサホテル」及び「AKAプラザホテル」のうち、「札幌アサホテル」のスコアの方が高かった場合においても、「AKA」の読み「あか」を取得することが可能となる。

ここで、Ｎベストの認識結果から読みを取得する場合、対象形態素に対して、表記が一致する複数の候補形態素が特定されることがある。このような場合について説明する。

図８は、Ｎベストの認識結果から選択された各形態素と読みの例を示す図である。図８では、符号８０１は、認識結果の順位を示し、符号８０２は、認識結果を示し、符号８０３は、スコアを示し、符号８０４は、認識結果を形態素解析した結果を示し、符号８０５は、選択された形態素と読みを示す。

図７と同様に、音声認識サーバ１０３から得られた認識結果の形態素解析結果が、「札幌」「AKA」「ホテル」である場合を考える。この場合、各対象形態素と表記が一致する候補形態素は、Ｎｏ．１，３，４の「札幌（さっぽろ）」、Ｎｏ．２の「AKA（あか）」、Ｎｏ．４の「AKA（えいけいえー）」、Ｎｏ．１〜４の「ホテル（ほてる）」である。それぞれの対象形態素に対して複数の候補が存在する。

対象形態素「札幌」については、いずれの候補形態素も同じ読みを有するため、どの候補を選択しても同じ読みが付与される。同様に、対象形態素「ホテル」についても、いずれの候補形態素も同じ読みを有するため、どの候補を選択しても同じ読みが付与される。一方、対象形態素「AKA」については、異なる読みを有する２つの候補形態素が存在する。Ｎｏ．２の「AKA（あか）」を選ぶか、Ｎｏ．４の「AKA（えいけいえー）」を選ぶかで読みが異なってしまう。そこで、本実施形態では、このような読みの競合を防止するため、表記が一致する候補形態素が複数存在する場合には、スコアが高い方の候補形態素の読みを選択するようにする。

図８の例では、対象形態素「札幌」については、Ｎｏ．１の「札幌（さっぽろ）」が選択され、対象形態素「ホテル」についても、Ｎｏ．１の「ホテル（ほてる）」が選択され、対象形態素「AKA」については、Ｎｏ．２の「AKA（あか）」が選択される。この結果、「札幌AKAホテル」には、「さっぽろあかほてる」という読みが付与される。

［第３実施形態］
第１実施形態では、図２のステップＳ４において、認識語句がシステム辞書１０５又はユーザ辞書１０６に登録済である場合は、当該語句はユーザ辞書１０６に登録されない。第３実施形態では、認識語句がシステム辞書１０５又はユーザ辞書１０６に登録済であっても、読みが異なる場合は、当該語句をユーザ辞書１０６に登録する。以下、第１実施形態と異なる点を中心に説明する。

図９は、第３実施形態に係る端末装置の音声認識処理および認識語句登録処理の一例を示すフローチャートである。図２のフローチャートと異なり、ステップＳ６の処理が、ステップＳ３とステップＳ４の間に挿入されている。

認識結果取得部１０８が認識結果が許可されたと判定した場合（ステップＳ３：ＮＯ）、辞書管理部１１０は、ステップＳ６の処理を実行し、その後、ステップＳ４の処理を実行する。なお、辞書管理部１１０は、当該認識結果が音声認識部１０４による認識結果である場合、既に読みが付与されているため、ステップＳ６の処理をスキップしてステップＳ４の処理を実行する。辞書管理部１１０は、認識語句をユーザ辞書１０６に登録すると判定した場合（ステップＳ５：ＹＥＳ）、ステップＳ７の処理を実行する。

ステップＳ４において、辞書管理部１１０は、認識語句及び当該語句の読みのセットが、システム辞書１０５又はユーザ辞書１０６に登録されているか否かを判定する。辞書管理部１１０は、認識語句及びその読みのセットがシステム辞書１０５又はユーザ辞書１０６に登録済であると判定した場合（ステップＳ４：ＹＥＳ）、処理をステップＳ１に戻す。辞書管理部１１０は、認識語句及びその読みのセットがシステム辞書１０５及びユーザ辞書１０６に登録済でないと判定した場合（ステップＳ４：ＮＯ）、処理をステップＳ５に進める。

本発明は、上述の実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。実施形態および各変形例を適宜組み合わせることもできる。

例えば、上述の実施形態では、読みを付与する処理に形態素解析を利用しているが、この方法に限られない。

また例えば、上述の実施形態では、音声認識部１０４からの認識結果を形態素解析部１１１により形態素に分割しているが、別の方法により分割してもよい。具体的には、端末装置１０２の音声認識辞書を、語句の文字列と、その語句の読みデータと、その語句を構成する各形態素の情報とを格納するように構成する。音声認識部１０４は、音声データに対する音声認識処理において、辞書を参照して認識語句を形態素に分割すればよい。

図１の端末装置１０２の構成は、当該装置の構成を理解容易にするために、主な処理内容に応じて分類したものである。構成要素の分類の仕方や名称によって、本発明が制限されることはない。端末装置１０２の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。また、各構成要素の処理は、１つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。また、各構成要素の処理又は機能の分担は、本発明の目的及び効果を達成できるのであれば、上述したものに限られない。

図２、図３、及び図９で示したフローチャートの処理単位は、端末装置１０２の処理を理解容易にするために、主な処理内容に応じて分割したものである。処理単位の分割の仕方や名称によって、本発明が制限されることはない。端末装置１０２の処理は、処理内容に応じて、さらに多くの処理単位に分割することもできる。また、１つの処理単位がさらに多くの処理を含むように分割することもできる。さらに、本発明の目的及び効果を達成できるのであれば、上記のフローチャートの処理順序も、図示した例に限られるものではない。

上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態や変形例の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態や変形例の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部及び処理手段などは、それらの一部又は全部を、プロセッサが各々の機能を実現するプログラムにより実現しても良い。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）などの記憶装置、又は、ＩＣカード、ＳＤ（Secure Digital）メモリカード、ＤＶＤ（Digital Versatile Disk）などの記憶媒体に置くことができる。なお、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。

本発明は、音声認識システム、端末装置に限らず、辞書管理方法、コンピュータ読み取り可能なプログラム等の様々な形態で提供することができる。また、本発明は、日本語に限らず、英語その他の様々な言語の音声認識に適用可能である。

１０１…マイクロフォン、１０２…端末装置、１０３…音声認識サーバ、１０４…音声認識部、１０５…システム辞書、１０６…ユーザ辞書、１０７…通信制御部、１０８…認識結果取得部、１０９…インターフェイス制御部、１１０…辞書管理部、１１１…形態素解析部、１１２…読み選択部、４０１…ユーザの発話、４０２…認識結果、４０３…形態素解析の結果、６０１…順位、６０２…認識結果、６０３…スコア、８０１…順位、８０２…認識結果、８０３…スコア、８０４…形態素解析の結果、８０５…選択された形態素と読み

Claims

ユーザの音声データを音声認識サーバに送信し、前記音声認識サーバから第１の認識結果を受信する通信制御部と、
音声認識のための音声認識辞書を記憶する記憶部と、
前記音声データを前記音声認識辞書を用いて音声認識し、第２の認識結果を得る音声認識部と、
前記第１の認識結果が示す第１の語句を前記音声認識辞書に登録する辞書管理部と、を備え、
前記辞書管理部は、
前記第１の語句を形態素に分割するとともに各形態素に読みを付与し、前記第２の認識結果が示す第２の語句を形態素に分割する形態素解析部と、
前記第１の語句を構成する形態素うち、前記第２の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第２の認識結果が示す当該形態素の読みを選択する読み選択部と、を備え、
前記辞書管理部は、前記第１の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する
端末装置。
請求項１に記載の端末装置であって、
前記読み選択部は、前記第１の語句を構成する形態素うち、前記第２の語句を構成するいずれの形態素とも表記が一致しない形態素に対して、前記形態素解析部により付与された読みを選択する
端末装置。
請求項１に記載の端末装置であって、
前記第１の認識結果と、前記第２の認識結果とを比較し、いずれか一方の認識結果を選択する認識結果取得部を備え、
前記辞書管理部は、前記選択された認識結果が前記第１の認識結果である場合に、前記第１の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する
端末装置。
請求項１に記載の端末装置であって、
前記音声認識部は、複数の前記第２の認識結果を得るものであり、
前記形態素解析部は、前記各第２の認識結果が示す各第２の語句を形態素に分割し、
前記読み選択部は、前記第１の語句を構成する形態素うち、前記各第２の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第２の認識結果が示す当該形態素の読みを選択する
端末装置。
請求項４に記載の端末装置であって、
前記複数の第２の認識結果には、それぞれ順位が設定されており、
前記読み選択部は、前記第１の語句を構成する形態素に対して、表記が一致する複数の形態素が前記各第２の語句中に存在する場合、前記順位が高い前記第２の認識結果が示す当該形態素の読みを選択する
端末装置。
請求項１に記載の端末装置であって、
前記辞書管理部は、前記第１の語句が前記音声認識辞書に登録されていない場合に、前記第１の語句を前記音声認識辞書に登録する
端末装置。
請求項６に記載の端末装置であって、
前記辞書管理部は、前記第１の語句が前記音声認識辞書に登録されている場合でも、読みが異なるときは、別の語句として前記音声認識辞書に登録する
端末装置。
ユーザの音声データを音声認識する音声認識サーバと、端末装置とを備える音声認識システムであって、
前記端末装置は、
前記音声認識サーバに前記音声データを送信し、前記音声認識サーバから第１の認識結果を受信する通信制御部と、
音声認識のための音声認識辞書を記憶する記憶部と、
前記音声データを前記音声認識辞書を用いて音声認識し、第２の認識結果を得る音声認識部と、
前記第１の認識結果が示す第１の語句を前記音声認識辞書に登録する辞書管理部と、を備え、
前記辞書管理部は、
前記第１の語句を形態素に分割するとともに各形態素に読みを付与し、前記第２の認識結果が示す第２の語句を形態素に分割する形態素解析部と、
前記第１の語句を構成する形態素うち、前記第２の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第２の認識結果が示す当該形態素の読みを選択する読み選択部と、を備え、
前記辞書管理部は、前記第１の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する
音声認識システム。
端末装置の辞書管理方法であって、
通信制御部が、ユーザの音声データを音声認識サーバに送信し、前記音声認識サーバから第１の認識結果を受信する第１の認識ステップと、
音声認識部が、前記音声データを前記端末装置が備える音声認識辞書を用いて音声認識し、第２の認識結果を得る第２の認識ステップと、
辞書管理部が、前記第１の認識結果が示す第１の語句を前記音声認識辞書に登録する登録ステップと、を含み、
前記登録ステップは、
前記第１の語句を形態素に分割するとともに各形態素に読みを付与し、前記第２の認識結果が示す第２の語句を形態素に分割する形態素解析ステップと、
前記第１の語句を構成する形態素うち、前記第２の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第２の認識結果が示す当該形態素の読みを選択する読み選択ステップと、
前記第１の語句を、前記読み選択ステップで選択された読みとともに、前記音声認識辞書に登録するステップと、を含む
辞書管理方法。