JP6821393B2

JP6821393B2 - 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット

Info

Publication number: JP6821393B2
Application number: JP2016212625A
Authority: JP
Inventors: 勇次國武; 亮太宮崎; 聖弥樋口; 太田　雄策; 雄策太田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2021-01-27
Anticipated expiration: 2036-10-31
Also published as: US10636415B2; US20180122365A1; CN108022582A; JP2018072578A

Description

本開示は、音声処理装置に用いられる辞書を修正する辞書修正方法、辞書修正プログラム、音声処理装置及びロボットに関するものである。

従来の音声認識システム又は文字列変換システムでは、辞書に登録されていない単語は認識ができなかったり、誤認識されたりするという課題が存在する。これに対し、追加で辞書に単語の意味又は読みなどの情報を登録したり、誤認識された単語を補正するようなルールを登録したりすることにより認識精度を向上する技術が存在する。

しかしながら、辞書に追加で情報を登録した場合、記憶領域に制限がある環境では、追加登録できる容量に制限があるという課題が存在する。従来、以上のような課題に対する技術として、例えば、特許文献１には、辞書に情報が追加登録された場合、古い情報が削除される技術が開示されている。また、例えば、特許文献２には、辞書に追加登録された情報が使用頻度の高い順に並べ替えられ、最も使用されていない情報が削除される技術が開示されている。

特開２００１−２２３７４号公報特開平９−１８５６１６号公報

しかしながら、言語習得段階である幼児は、成長に合わせて語彙数が増え正しい発話を習得していくため、成長により変化する幼児の語彙又は発話特性に合わせた辞書の更新が必要となる。そのため、追加登録した単語又は補正ルールを単純に古いもの又は利用頻度が低いものから順に削除すると、正しい発話を習得できていない単語又は補正ルールを誤って削除する可能性がある。

本開示は、上記の問題を解決するためになされたもので、発話者の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがき、音声認識の精度を向上させることができる辞書修正方法、辞書修正プログラム、音声処理装置及びロボットを提供することを目的とするものである。

本開示の一態様に係る方法は、音声処理装置に用いられる辞書を修正する方法であって、前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出し、前記発話を構成する発話音素列を推定し、第１辞書を用いて、前記発話音素列と、前記第１辞書に登録されている第１単語に対応する第１音素列とのマッチング度を算出し、前記第１辞書は、前記音声処理装置に備えられたメモリに記憶され、前記第１単語と前記第１音素列との対応関係を示し、最も高い前記マッチング度に対応する前記第１単語を、前記対象発話者が発話した発話単語として前記第１辞書から抽出し、前記最も高いマッチング度に基づいて、第２辞書を修正し、前記第２辞書は、第２単語と第３単語との対応関係を示し、前記第３単語は、前記第２単語を意図して前記対象発話者が発話する言語単位に対応し、前記発話単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との対応関係を修正することによって前記第２辞書が修正される。

本開示によれば、発話者の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがき、音声認識の精度を向上させることができる。

本実施の形態１における音声対話システムの全体構成の一例を示す図である。本実施の形態１における幼児語彙辞書の一例を示す図である。本実施の形態１における誤認識補正辞書の一例を示す図である。本実施の形態１における認識履歴テーブルの一例を示す図である。本実施の形態１における補正履歴テーブルの一例を示す図である。本実施の形態１における音声認識処理について説明するためのフローチャートである。本実施の形態１における誤認識補正辞書を修正する処理を説明するためのフローチャートである。本実施の形態１において、誤認識補正辞書に登録されていない誤認識単語及び補正単語を登録する処理を説明するための第１のフローチャートである。本実施の形態１において、誤認識補正辞書に登録されていない誤認識単語及び補正単語を登録する処理を説明するための第２のフローチャートである。本実施の形態１において、対象幼児と音声対話システムとの具体的な対話の一例を示す図である。本実施の形態１における補正履歴テーブルの他の例を示す図である。本実施の形態１における認識履歴テーブルの他の例を示す図である。本実施の形態２において音声認識における誤認識の補正に用いられる誤認識補正辞書を修正する辞書修正方法を説明するためのフローチャートである。本開示の実施の形態３に係るロボットの外観斜視図である。本開示の実施の形態３に係るロボットの内部斜視図である。本開示の実施の形態３に係るロボットの構成を示すブロック図である。

（本開示の基礎となった知見）
ユーザの発話する音声から発話内容を解析し、解析結果を基に自然な応答を返すことでユーザとの自然な対話を実現したり、機器の制御又は情報提供などのサービスを提供したりする音声対話システムに関する技術が検討されている。音声対話システムでは、音声対話システムで認識させたい単語情報を知識として辞書に保持することでユーザが発話した音声を認識することが可能となる。一方で、ユーザが発話する単語にはばらつきがあり、全ての単語情報を辞書に登録することは困難であるという課題が存在する。

このような課題に対し、前述した特許文献１に係る技術では、音声対話システムで扱う単語情報を随時辞書に追加登録し、古くなった単語情報から削除することにより、発話される可能性のある新しい単語の認識を可能とする技術が開示されている。また、前述した特許文献２に係る技術では、対象技術が音声認識ではなく文字列変換ではあるが、誤変換した文字列に対して、修正した情報を補正情報として辞書に登録する。これにより、特許文献２に係る技術では、次回以降の誤変換を防いでいる。また、特許文献２に係る技術では、使用頻度の少ない単語が辞書から削除される技術が開示されている。

しかしながら、音声対話の対象が言語習得の途中段階である幼児である場合、成長するにつれて発話する語彙が増え、正しい単語の発話ができるようになるため、幼児の成長に合わせた辞書の更新が必要になる。例えば、以前幼児が「おいしい」と発話できず「おいてぇー」と発話し音声対話システムが「置いて」と誤認識した場合に、「置いて」を「おいしい」と変換するルールを辞書に登録する。これにより、音声対話システムは、「置いて」を「おいしい」に補正し、「おいしい」という音声を認識することが可能となる。その後、幼児から成長した発話者が「おいしい」を正しく発話できるようになった場合、当該発話者が「置いて」を正しい意味で発話したとしても、音声対話システムは「置いて」を「おいしい」と間違って補正してしまう可能性がある。従って、幼児が正しい発話を習得した単語の補正ルールに関しては、誤補正を抑制するために削除する必要がある。

しかしながら、従来技術のように、登録が古い情報又は使用頻度が単に低い情報から順に削除した場合、幼児が正しい発話を習得していないにも関わらず補正ルールを削除してしまう可能性がある。このような、幼児の言語習得状況を考慮した辞書の更新に関しては従来検討されていなかった。

以上の課題を解決するために、本開示の一態様に係る方法は、音声処理装置に用いられる辞書を修正する方法であって、前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出し、前記発話を構成する発話音素列を推定し、第１辞書を用いて、前記発話音素列と、前記第１辞書に登録されている第１単語に対応する第１音素列とのマッチング度を算出し、前記第１辞書は、前記音声処理装置に備えられたメモリに記憶され、前記第１単語と前記第１音素列との対応関係を示し、最も高い前記マッチング度に対応する前記第１単語を、前記対象発話者が発話した発話単語として前記第１辞書から抽出し、前記最も高いマッチング度に基づいて、第２辞書を修正し、前記第２辞書は、第２単語と第３単語との対応関係を示し、前記第３単語は、前記第２単語を意図して前記対象発話者が発話する言語単位に対応し、前記発話単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との対応関係を修正することによって前記第２辞書が修正される。

この構成によれば、音声処理装置に対応するマイクによって収音された音から対象発話者の発話が抽出される。発話を構成する発話音素列が推定される。第１辞書を用いて、発話音素列と、第１辞書に登録されている第１単語に対応する第１音素列とのマッチング度が算出される。第１辞書は、音声処理装置に備えられたメモリに記憶され、第１単語と第１音素列との対応関係を示す。最も高いマッチング度に対応する第１単語が、対象発話者が発話した発話単語として第１辞書から抽出される。最も高いマッチング度に基づいて、第２辞書が修正される。第２辞書は、第２単語と第３単語との対応関係を示す。第３単語は、第２単語を意図して対象発話者が発話する言語単位に対応する。発話単語に一致する第２単語と、第２単語に対応する第３単語との対応関係を修正することによって第２辞書が修正される。

したがって、対象発話者の発話から推定された発話音素列と、第１単語に対応する第１音素列とのマッチング度が算出され、最も高いマッチング度に基づいて、対象発話者が発話した発話単語に一致する第２単語と、第２単語に対応する第３単語との対応関係が修正されるので、発話者の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがき、音声認識の精度を向上させることができる。

また、上記の方法において、前記発話単語が前記第２辞書に含まれており、前記最も高いマッチング度が第１閾値以上である場合は、前記発話単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との組合せを前記第２辞書から削除することによって前記第２辞書が修正されてもよい。

この構成によれば、発話単語が第２辞書に含まれており、最も高いマッチング度が第１閾値以上である場合は、発話単語に一致する第２単語と、第２単語に対応する第３単語との組合せが第２辞書から削除することによって第２辞書が修正される。

したがって、最も高いマッチング度が第１閾値以上である場合に、発話単語に一致する第２単語と、第２単語に対応する第３単語との組合せを第２辞書から削除することができる。

また、上記の方法において、前記第２辞書は、更に、前記対象発話者が前記発話単語に一致する前記第３単語を発話した頻度と、前記第２単語との対応関係を含み、前記発話単語が前記第２単語として前記第２辞書に登録されており、前記最も高いマッチング度が第１閾値以上であり、前記発話単語に一致する前記第２単語に対応する前記第３単語の前記頻度が第２閾値以下である場合は、前記発話単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との組合せを前記第２辞書から削除することによって前記第２辞書が修正されてもよい。

この構成によれば、第２辞書は、更に、対象発話者が発話単語に一致する第３単語を発話した頻度と、第２単語との対応関係を含む。発話単語が第２単語として第２辞書に登録されており、最も高いマッチング度が第１閾値以上であり、発話単語に一致する第２単語に対応する第３単語の頻度が第２閾値以下である場合は、発話単語に一致する第２単語と、第２単語に対応する第３単語との組合せを第２辞書から削除することによって第２辞書が修正される。

したがって、最も高いマッチング度が第１閾値以上であり、発話単語に一致する第２単語に対応する第３単語の頻度が第２閾値以下である場合に、発話単語に一致する第２単語と、第２単語に対応する第３単語との組合せが第２辞書から削除されるので、発話者が習得した第２単語と第３単語との組合せをより正確に第２辞書から削除することができる。

また、上記の方法において、前記対象発話者は、前記音声処理装置における音声認識の対象である対象幼児であり、前記発話から抽出された声紋と前記メモリに予め記憶された前記対象幼児の声紋とを比較することによって、前記発話者が前記対象幼児であるか否かを判定し、前記発話者が前記対象幼児であると判定された場合、前記発話音素列を推定してもよい。

この構成によれば、対象発話者は、音声処理装置における音声認識の対象である対象幼児である。発話から抽出された声紋とメモリに予め記憶された対象幼児の声紋とが比較されることによって、発話者が対象幼児であるか否かが判定される。発話者が対象幼児であると判定された場合、発話音素列が推定される。

したがって、幼児の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがきる。

また、上記の方法において、更に、前記メモリは、前記第１単語と、前記マッチング度との対応関係を示す履歴テーブルを記憶しており、前記最も高いマッチング度に対応する前記第１単語に、前記マッチング度を対応付けて前記履歴テーブルへ記録する処理を所定回数繰り返した場合、前記履歴テーブルの前記マッチング度に基づいて、前記第２辞書に登録されている前記第２単語と前記第３単語との対応関係を修正することによって前記第２辞書が修正されてもよい。

この構成によれば、更に、メモリは、第１単語と、マッチング度との対応関係を示す履歴テーブルを記憶している。最も高いマッチング度に対応する第１単語に、マッチング度を対応付けて履歴テーブルへ記録する処理が所定回数繰り返された場合、履歴テーブルのマッチング度に基づいて、第２辞書に登録されている第２単語と第３単語との対応関係を修正することによって第２辞書が修正される。

したがって、最も高いマッチング度に対応する第１単語に、マッチング度を対応付けて履歴テーブルへ記録する処理が所定回数繰り返されることにより、より正確なマッチング度を算出することができ、音声処理装置に用いられる辞書をより正確に修正することがきる。

本開示の他の態様に係るプログラムは、音声処理装置に用いられる辞書を修正するプログラムであって、前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出するステップと、前記発話を構成する発話音素列を推定するステップと、第１辞書を用いて、前記発話音素列と、前記第１辞書に登録されている第１単語に対応する第１音素列とのマッチング度を算出するステップと、前記第１辞書は、前記音声処理装置に備えられたメモリに記憶され、前記第１単語と前記第１音素列との対応関係を示し、最も高い前記マッチング度に対応する前記第１単語を、前記対象発話者が発話した発話単語として前記第１辞書から抽出するステップと、前記最も高いマッチング度に基づいて、第２辞書を修正するステップと、前記第２辞書は、第２単語と第３単語との対応関係を示し、前記第３単語は、前記第２単語を意図して前記対象発話者が発話する言語単位に対応し、前記発話単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との対応関係を修正することによって前記第２辞書が修正されるステップと、をプロセッサに実行させる。

本開示の他の態様に係る音声処理装置は、プロセッサと、メモリと、を備え、前記プロセッサは、前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出し、前記発話を構成する発話音素列を推定し、第１辞書を用いて、前記発話音素列と、前記第１辞書に登録されている第１単語に対応する第１音素列とのマッチング度を算出し、前記第１辞書は、前記メモリに記憶され、前記第１単語と前記第１音素列との対応関係を示し、最も高い前記マッチング度に対応する前記第１単語を、前記対象発話者が発話した発話単語として前記第１辞書から抽出し、前記最も高いマッチング度に基づいて、第２辞書を修正し、前記第２辞書は、第２単語と第３単語との対応関係を示し、前記第３単語は、前記第２単語を意図して前記対象発話者が発話する言語単位に対応し、前記発話単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との対応関係を修正することによって前記第２辞書が修正される。

この構成によれば、音声処理装置は、プロセッサと、メモリとを備える。音声処理装置に対応するマイクによって収音された音から対象発話者の発話が抽出される。発話を構成する発話音素列が推定される。第１辞書を用いて、発話音素列と、第１辞書に登録されている第１単語に対応する第１音素列とのマッチング度が算出される。第１辞書は、メモリに記憶され、第１単語と第１音素列との対応関係を示す。最も高いマッチング度に対応する第１単語が、対象発話者が発話した発話単語として第１辞書から抽出される。最も高いマッチング度に基づいて、第２辞書が修正される。第２辞書は、第２単語と第３単語との対応関係を示す。第３単語は、第２単語を意図して対象発話者が発話する言語単位に対応する。発話単語に一致する第２単語と、第２単語に対応する第３単語との対応関係を修正することによって第２辞書が修正される。

本開示の他の態様に係るロボットは、上記の音声処理装置と、前記音声処理装置を内蔵する筐体と、前記筐体を移動させる移動機構と、を備える。

この構成によれば、上記の音声処理装置をロボットに適用することができる。

また、本開示は、以上のような特徴的な処理を実行する辞書修正方法として実現することができるだけでなく、辞書修正方法に含まれる特徴的なステップを実行するための処理部を備える音声処理装置などとして実現することもできる。また、このような辞書修正方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、ＣＤ−ＲＯＭ等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態１）
図１は、実施の形態１における音声対話システムの全体構成の一例を示す図である。図１に示す音声対話システムは、音声入力部１００、音声対話処理装置２００及び音声出力部３００を備える。

音声入力部１００は、例えば指向性マイクなどであり、音声対話処理装置２００が実装された端末又はロボットに組み込んでもよい。また、音声入力部１００は、例えばハンドマイク、ピンマイク又は卓上マイクなど任意の集音デバイスであってもよく、有線又は無線で音声対話処理装置２００が実装された端末に接続されてもよい。また、音声入力部１００は、スマートフォン又はタブレット端末などの集音及び通信機能を持つデバイスを用いて音声を入力してもよい。

音声対話処理装置２００は、ＣＰＵ（中央演算処理装置）２０及びメモリ３０を備える。ＣＰＵ２０は、発話抽出部２０１、対象幼児判定部２０２、音声認識部２０３、意図理解部２０４、応答生成部２０５、音声合成部２０６、履歴情報更新部２０７、補正ルール登録部２０８及び辞書更新部２０９を備える。メモリ３０は、幼児語彙辞書３０１、誤認識補正辞書３０２、認識履歴テーブル３０３及び補正履歴テーブル３０４を備える。

音声対話の処理を行うプログラムは、音声対話を実施するロボット又は端末に組み込まれたメモリ３０に格納され、ＣＰＵ２０等の演算装置によって実行される。また、音声対話処理装置２００を構成する全ての要素は、同一端末に実装されてもよいし、光ファイバ、無線又は公衆電話回線などの任意のネットワークを介して接続される別の端末又はサーバ上に個別に実装されてもよく、音声対話処理装置２００と別の端末又はサーバとが互いに通信することによって音声対話処理を実現してもよい。

発話抽出部２０１は、音声入力部１００によって収音された音から対象発話者の発話を抽出する。

対象幼児判定部２０２は、発話抽出部２０１によって抽出された発話の発話者が音声認識の対象である対象発話者であるか否かを判定する。なお、対象発話者は、音声認識の対象である対象幼児である。また、幼児は、例えば、満１歳以上就学前の者又は６歳未満の者である。対象幼児判定部２０２は、発話から抽出された声紋とメモリ３０に予め記憶された対象幼児の声紋とを比較することによって、発話者が対象幼児であるか否かを判定する。メモリ３０は、対象幼児の声紋を記憶している。

幼児語彙辞書（第１辞書）３０１は、一般的な幼児が発話する単語が登録された辞書である。図２は、本実施の形態１における幼児語彙辞書の一例を示す図である。幼児語彙辞書３０１は、単語（第１単語）と音素列（第１音素列）との対応関係を示す。図２に示すように、幼児語彙辞書３０１には、単語（第１単語）と、単語を構成する音素列（第１音素列）とが対応付けて登録されている。例えば、「りんご」という単語には、「ｒｉｎｇｏ」という登録音素列が対応付けられている。

誤認識補正辞書（第２辞書）３０２は、誤認識単語と、誤認識単語を補正した結果である補正単語との組み合わせを補正ルールとして登録する辞書である。図３は、本実施の形態１における誤認識補正辞書の一例を示す図である。誤認識補正辞書３０２は、補正単語（第２単語）と、補正単語を意図して対象発話者が発話する言語単位に対応する誤認識単語（第３単語）との対応関係を示す。図３に示すように、誤認識補正辞書３０２には、誤認識単語と補正単語とが対応付けて登録されている。例えば、「置いて」という誤認識単語には、「おいしい」という補正単語が対応付けられている。すなわち、対象幼児が「おいしい」を意図したつもりが正しく発話することができず、「おいしい」とは異なる言語単位を発話し、音声認識部２０３が幼児語彙辞書３０１により「置いて」と認識結果を出力した場合、「置いて」という誤認識単語は、「おいしい」という補正単語に変換される。

音声認識部２０３は、音声入力部１００より入力音声データを受け取り、幼児語彙辞書３０１及び誤認識補正辞書３０２を参照することで、対象幼児の発話単語を認識する。

音声認識部２０３は、対象幼児判定部２０２によって発話者が対象幼児（対象発話者）であると判定された場合、発話から発話を構成する音素列を推定する。音声認識部２０３は、幼児語彙辞書３０１を用いて、音素列（発話音素列）と、幼児語彙辞書（第１辞書）３０１に登録されている単語（第１単語）に対応する音素列（第１音素列）とのマッチング度を算出する。マッチング度は、推定した音素列と幼児語彙辞書３０１に登録される単語の登録音素列との類似度を計算することにより得られる。例えば、マッチング度は、レーベシュタイン距離などの編集距離又は動的時間伸縮法（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）による類似度を用いることができる。

音声認識部２０３は、最も高いマッチング度に対応する単語（第１単語）を、対象幼児（対象発話者）が発話した発話単語として幼児語彙辞書（第１辞書）３０１から抽出する。

音声認識部２０３は、幼児語彙辞書３０１から抽出した単語が、誤認識補正辞書３０２に誤認識単語として登録されているか否かを判断する。幼児語彙辞書３０１から抽出した単語が、誤認識補正辞書３０２に誤認識単語として登録されていると判断した場合、音声認識部２０３は、幼児語彙辞書３０１から抽出した単語を、抽出した単語と同じ誤認識単語に対応付けられている補正単語に変換し、補正単語を認識結果として出力する。また、幼児語彙辞書３０１から抽出した単語が、誤認識補正辞書３０２に誤認識単語として登録されていないと判断した場合、音声認識部２０３は、幼児語彙辞書３０１から抽出した単語を認識結果として出力する。

意図理解部２０４は、音声認識部２０３により得られた認識結果を基にユーザが発話した内容がどのような内容であるかを解析する。意図理解の方式としては、音声対話システムで実行可能なタスクを判定するために予め決められたルールに基づいて発話内容を理解するルールベースの方式、又は機械学習などの統計的な手法を用いて発話内容を理解する方式などが採用可能である。

応答生成部２０５は、意図理解部２０４より出力される意図理解結果から、ユーザに対して応答するための応答発話のテキスト情報を生成する。

音声合成部２０６は、応答生成部２０５により生成された応答発話のテキスト情報を音声合成処理により音声データへ変換する。

履歴情報更新部２０７は、音声認識部２０３により音声認識処理が実行された際に、認識履歴テーブル３０３及び補正履歴テーブル３０４を更新する。

認識履歴テーブル３０３には、単語と、その単語を対象幼児がどの程度習得しているかの基準として習熟度とが登録される。図４は、本実施の形態１における認識履歴テーブルの一例を示す図である。音声認識処理結果に含まれる単語のマッチング度が、習熟度として用いられる。認識履歴テーブル３０３は、幼児語彙辞書３０１から抽出された単語と習熟度（マッチング度）との対応関係を示す。

音声認識部２０３は、幼児語彙辞書３０１から抽出した単語と、当該単語のマッチング度とを履歴情報更新部２０７へ出力する。履歴情報更新部２０７は、音声認識部２０３によって幼児語彙辞書３０１から抽出された単語（マッチング度が最も高い登録音素列に対応する第１単語）と、当該単語のマッチング度とを対応付けて認識履歴テーブル３０３に格納する。図４に示すように、認識履歴テーブル３０３には、単語と習熟度（マッチング度）とが対応付けて登録されている。例えば、「置いて」という単語には、「０．５」という習熟度が対応付けられている。

補正履歴テーブル３０４には、誤認識補正辞書３０２に登録されている補正ルールと、その補正ルールが音声認識時に適用された日付を示すタイムスタンプとが登録される。図５は、本実施の形態１における補正履歴テーブルの一例を示す図である。補正履歴テーブル３０４には、誤認識単語と、補正単語と、誤認識単語を補正単語に変換した日付を示すタイムスタンプとが対応付けられる。なお、タイムスタンプは、対象幼児（対象発話者）が補正単語を意図して誤認識単語を発話した日付であってもよい。

音声認識部２０３は、誤認識単語を補正単語に変換した場合、誤認識単語及び補正単語を履歴情報更新部２０７へ出力する。履歴情報更新部２０７は、音声認識部２０３によって誤認識単語が補正単語に変換された場合、誤認識単語と、補正単語と、誤認識単語を補正単語に変換した日付を示すタイムスタンプとを対応付けて補正履歴テーブル３０４に格納する。図５に示すように、補正履歴テーブル３０４には、誤認識単語と、補正単語と、タイムスタンプとが対応付けて登録されている。例えば、「置いて」という誤認識単語及び「おいしい」という補正単語には、「２０１６０４０１」という２０１６年４月１日を示すタイムスタンプが対応付けられている。

なお、本実施の形態では、補正履歴テーブル３０４は、誤認識単語と、補正単語と、タイムスタンプとを対応付けて格納しているが、本開示は特にこれに限定されず、誤認識補正辞書３０２が、誤認識単語と、補正単語と、タイムスタンプとを対応付けて格納してもよい。

補正ルール登録部２０８は、意図理解部２０４による意図理解の結果により対象幼児との対話が成立したか否かを判断する。補正ルール登録部２０８は、対象幼児との対話が成立しなかったと判断した場合、対話が成立しなかった発話内容を録音する。さらに、補正ルール登録部２０８は、対象幼児の例えば親に対して録音した音声データを再生し、対話が成立しなかった発話内容を問い合わせることで対象幼児の発話内容を理解し、誤認識部分の訂正内容を取得する。これにより、補正ルール登録部２０８は、誤認識を補正する補正ルールを獲得し、誤認識補正辞書３０２に補正ルールを登録する。

辞書更新部２０９は、認識履歴テーブル３０３及び補正履歴テーブル３０４に記録されている情報を基に誤認識補正辞書３０２に対象幼児が習得した単語の補正ルールを削除する。辞書更新部２０９は、最も高いマッチング度に基づいて、誤認識補正辞書（第２辞書）３０２を修正する。発話単語に一致する補正単語と、補正単語に対応する誤認識単語との対応関係を修正することによって誤認識補正辞書３０２が修正される。辞書更新部２０９は、発話単語が誤認識補正辞書（第２辞書）３０２に含まれており、最も高いマッチング度が第１閾値以上である場合は、発話単語に一致する補正単語と、補正単語に対応する誤認識単語との組合せを誤認識補正辞書（第２辞書）３０２から削除する。なお、誤認識補正辞書３０２の更新方法については図７を用いて後述する。

音声出力部３００は、例えばスピーカであり、音声合成部２０６によって生成された音声データを出力する。音声出力部３００は、音声対話処理装置２００が実装された端末又はロボットに組み込まれてもよいし、有線又は無線によって音声対話処理装置２００が実装された端末に接続してもよい。また、音声出力部３００は、スマートフォン又はタブレット端末などの集音及び通信機能を持つデバイスに搭載されたスピーカであってもよい。

図６は、本実施の形態１における音声認識処理について説明するためのフローチャートである。図６を用いて対象幼児の音声認識処理について説明する。

まず、発話抽出部２０１は、音声入力部１００から音声信号が入力されたか否かを判断する（ステップＳ１）。ここで、音声信号が入力されていないと判断された場合（ステップＳ１でＮＯ）、音声信号が入力されるまでステップＳ１の処理が繰り返される。

一方、音声信号が入力されたと判断された場合（ステップＳ１でＹＥＳ）、発話抽出部２０１は、音声信号から発話を抽出する（ステップＳ２）。

次に、対象幼児判定部２０２は、発話抽出部２０１によって抽出された発話の発話者が対象幼児であるか否かを判定する（ステップＳ３）。このとき、対象幼児判定部２０２は、発話から抽出された声紋とメモリ３０に予め記憶された対象幼児の声紋とを比較することによって、発話者が対象幼児であるか否かを判定する。ここで、発話者が対象幼児ではないと判定された場合（ステップＳ３でＮＯ）、ステップＳ１の処理に戻る。

一方、発話者が対象幼児であると判定された場合（ステップＳ３でＹＥＳ）、音声認識部２０３は、音響モデルにより発話を構成する音素列を推定する（ステップＳ４）。例えば、「りんごおいてー」と対象幼児が発話した場合、推定される音素列は「ｒｉｎｇｏｏｉｔｅ：」となる。

次に、音声認識部２０３は、推定した音素列と幼児語彙辞書３０１に登録されている登録音素列とを比較し、推定した音素列とのマッチング度が最も高い登録単語列に対応する単語を幼児語彙辞書３０１から抽出する（ステップＳ５）。音声認識部２０３は、抽出した単語を認識結果として出力する。例えば、図２に示す幼児語彙辞書３０１において、レーベシュタイン距離をマッチング度に用いる場合、推定された音素列である「ｏｉｔｅ：」と登録単語列である「ｏｉｔｅ」とのレーベシュタイン距離は、０．２となり、推定された音素列である「ｏｉｔｅ：」と登録単語列である「ｏｉｓｈｉ：」とのレーベシュタイン距離は、０．６となる。レーベシュタイン距離の値が小さいほど、２つの音素列の類似度は高いため、「りんご置いて」が認識結果となる。

次に、履歴情報更新部２０７は、幼児語彙辞書３０１から抽出した単語のマッチング度を、抽出した単語と同じ単語に対応する習熟度として登録し、認識履歴テーブル３０３を更新する（ステップＳ６）。例えば、レーベシュタイン距離をマッチング度に用いる場合、レーベシュタイン距離の値が小さいほど類似度が高くなる。そのため、履歴情報更新部２０７は、値が大きいほど類似度が高くなるようにするために、１からレーベシュタイン距離を引いた値を習熟度として登録する。なお、単語と習熟度とを対応付けたエントリが認識履歴テーブル３０３に格納されていない場合、履歴情報更新部２０７は、単語と習熟度とを対応付けた新たなエントリを認識履歴テーブル３０３に作成する。

次に、音声認識部２０３は、誤認識補正辞書３０２を探索し、抽出した単語が誤認識補正辞書３０２に誤認識単語として登録されているか否かを判断する（ステップＳ７）。ここで、抽出した単語が誤認識補正辞書３０２に登録されていると判断した場合（ステップＳ７でＹＥＳ）、履歴情報更新部２０７は、補正履歴テーブル３０４の誤認識単語に対応するタイムスタンプを現在の日付に変更し、補正履歴テーブル３０４を更新する（ステップＳ８）。なお、誤認識単語と補正単語とタイムスタンプとを対応付けたエントリが補正履歴テーブル３０４に格納されていない場合、履歴情報更新部２０７は、誤認識単語と補正単語とタイムスタンプとを対応付けた新たなエントリを補正履歴テーブル３０４に作成する。

次に、音声認識部２０３は、幼児語彙辞書３０１から抽出した単語を、抽出した単語と同じ誤認識単語に対応付けられている補正単語に変換し、変換した補正単語を認識結果として出力する（ステップＳ９）。なお、ステップＳ８の処理とステップＳ９の処理とは入れ替えてもよい。

一方、抽出した単語が誤認識補正辞書３０２に登録されていないと判断した場合（ステップＳ７でＮＯ）、音声認識部２０３は、幼児語彙辞書３０１から抽出した単語を認識結果として出力する（ステップＳ１０）。

図７は、本実施の形態１における誤認識補正辞書を修正する処理を説明するためのフローチャートである。図７を用いて辞書更新部２０９による誤認識補正辞書３０２に登録されている補正ルールの削除について説明する。

まず、辞書更新部２０９は、音声認識部２０３から認識結果を取得する（ステップＳ２１）。

次に、辞書更新部２０９は、認識履歴テーブル３０３を参照し、認識結果に含まれる単語毎の習熟度を取得する（ステップＳ２２）。例えば、認識結果が「りんごおいしい」であった場合、辞書更新部２０９は、「りんご」及び「おいしい」のそれぞれの単語に対して認識履歴テーブル３０３を参照し、それぞれの単語の習熟度を取得する。図４の認識履歴テーブル３０３の例では、「りんご」の習熟度は０．９であり、「おいしい」の習熟度は０．８である。

次に、辞書更新部２０９は、取得した習熟度が閾値以上である単語が存在するか否かを判断する（ステップＳ２３）。ここで、習熟度が閾値以上である単語が存在しないと判断された場合（ステップＳ２３でＮＯ）、処理を終了する。

一方、習熟度が閾値以上である単語が存在する場合（ステップＳ２３でＹＥＳ）、辞書更新部２０９は、習熟度が閾値以上である単語のうち、誤認識補正辞書３０２に補正単語として登録されている単語が存在するか否かを判断する（ステップＳ２４）。辞書更新部２０９は、閾値以上であった単語を幼児が発話できるようになったと判断し、当該単語を補正ルールの削除候補とする。例えば、幼児が単語を発話できるようになったと判断する習熟度の閾値を０．７とした場合、図４の認識履歴テーブル３０３の例では、「りんご」及び「おいしい」の単語の習熟度は、ともに０．７以上であるため、２つの単語は、補正ルールの削除候補となる。補正ルールの削除候補となった単語は、誤認識補正辞書３０２に補正単語として登録されているか否かが確認される。

ここで、誤認識補正辞書３０２に補正単語として登録されている単語が存在しないと判断された場合（ステップＳ２４でＮＯ）、誤認識補正辞書３０２に補正ルールが登録されていないため処理を終了する。例えば、図３の誤認識補正辞書３０２の場合、「りんご」は補正単語として登録されていないと判断され、「おいしい」は補正単語として登録されていると判断される。

一方、誤認識補正辞書３０２に補正単語として登録されている単語が存在すると判断された場合（ステップＳ２４でＹＥＳ）、辞書更新部２０９は、誤認識補正辞書３０２に補正単語として登録されている単語に対応するタイムスタンプを補正履歴テーブル３０４から取得する（ステップＳ２５）。タイムスタンプは、補正ルールが前回適用された日付を示す。

次に、辞書更新部２０９は、取得したタイムスタンプのうち、予め設定された所定の期間より以前のタイムスタンプが存在するか否かを判断する（ステップＳ２６）。ここで、所定の期間より以前のタイムスタンプが存在しないと判断された場合（ステップＳ２６でＮＯ）、処理を終了する。

一方、所定の期間より以前のタイムスタンプが存在すると判断された場合（ステップＳ２６でＹＥＳ）、辞書更新部２０９は、所定の期間より以前のタイムスタンプに対応する誤認識単語及び補正単語は利用されなくなったと判断し、当該タイムスタンプに対応する誤認識単語及び補正単語を誤認識補正辞書３０２から削除する（ステップＳ２７）。補正ルール（所定の期間より以前のタイムスタンプに対応する誤認識単語及び補正単語）が利用されなくなったと判断する所定の期間は、例えば、１ヶ月間である。

例えば、図３の誤認識補正辞書３０２の場合、補正単語である「おいしい」は、誤認識単語である「置いて」と対応付けて登録されているため、辞書更新部２０９は、補正履歴テーブル３０４を参照する。図５の補正履歴テーブル３０４に記録されている「おいしい」という補正単語に対応するタイムスタンプは「２０１６０４０１」（２０１６年４月１日）である。現在の日付が２０１６年６月２０日である場合、辞書更新部２０９は、１ヶ月以上補正ルールが適用されていないと判断し、「置いて」を「おいしい」と補正する補正ルールを削除する。

なお、レーベシュタイン距離などの認識音素列と辞書登録単語の音素列との距離を習熟度として用いる場合、距離は短い方が類似していると判断される。そのため、ステップＳ２３において設定される閾値よりも習熟度が小さい場合に正しい発話を習得したと判断してもよく、正しい発話を習得したか否かの判断基準は、習熟度として採用する値に依存して決定される。

図８は、本実施の形態１において、誤認識補正辞書に登録されていない誤認識単語及び補正単語を登録する処理を説明するための第１のフローチャートであり、図９は、本実施の形態１において、誤認識補正辞書に登録されていない誤認識単語及び補正単語を登録する処理を説明するための第２のフローチャートである。図８及び図９を用いて補正ルール登録部２０８による誤認識補正辞書３０２に登録されていない誤認識単語及び補正単語の登録について説明する。

まず、補正ルール登録部２０８は、意図理解部２０４による意図理解の結果により対象幼児との対話が成立したか否かを判断する（ステップＳ３１）。ここで、対話が成立したと判断された場合（ステップＳ３１でＹＥＳ）、処理を終了する。

一方、対話が成立していないと判断された場合（ステップＳ３１でＮＯ）、補正ルール登録部２０８は、対話が成立しなかった発話の再入力を受け付ける（ステップＳ３２）。補正ルール登録部２０８は、対話が成立しなかった発話を再度発話するように対象幼児に促す音声を音声出力部３００に出力させる。対象幼児は、音声出力部３００から出力された音声に従って、対話が成立しなかった発話を再度発話する。

次に、発話抽出部２０１は、音声入力部１００から音声信号が入力されたか否かを判断する（ステップＳ３３）。ここで、音声信号が入力されていないと判断された場合（ステップＳ３３でＮＯ）、ステップＳ３２の処理に戻り、音声信号が入力されるまでステップＳ３２及びステップＳ３３の処理が繰り返される。

一方、音声信号が入力されたと判断された場合（ステップＳ３３でＹＥＳ）、補正ルール登録部２０８は、音声入力部１００から入力される音声信号の録音を開始する（ステップＳ３４）。録音データは、メモリ３０に記憶される。

次に、補正ルール登録部２０８は、音声認識部２０３から認識結果を取得する（ステップＳ３５）。この際、音声信号が入力されてから音声認識部２０３が認識結果を出力するまでの処理は、図６のステップＳ２からステップＳ５までの処理と同じである。すなわち、発話抽出部２０１は、音声信号から発話を抽出し、対象幼児判定部２０２は、発話抽出部２０１によって抽出された発話の発話者が対象幼児であるか否かを判定する。発話者が対象幼児であると判定された場合、音声認識部２０３は、音響モデルにより発話を構成する音素列を推定する。次に、音声認識部２０３は、推定した音素列と幼児語彙辞書３０１に登録されている登録音素列とを比較し、推定した音素列とのマッチング度が最も高い登録単語列に対応する単語を幼児語彙辞書３０１から抽出する。そして、音声認識部２０３は、抽出した単語を認識結果として出力する。

次に、補正ルール登録部２０８は、認識結果である認識単語のマッチング度が閾値より大きいか否かを判断する（ステップＳ３６）。このとき、閾値は、図７のステップＳ２３の判断処理に用いられる閾値よりも小さいことが好ましい。すなわち、図７のステップＳ２３の判断処理に用いられる閾値が例えば０．７である場合、ステップＳ３６の判断処理に用いられる閾値は例えば０．４であることが好ましい。

ここで、認識単語のマッチング度が閾値以下であると判断された場合（ステップＳ３６でＮＯ）、補正ルール登録部２０８は、認識単語が既知の単語であると判断し、録音データを破棄する（ステップＳ３７）。

一方、認識単語のマッチング度が閾値より大きいと判断された場合（ステップＳ３６でＹＥＳ）、補正ルール登録部２０８は、認識単語が誤認識単語として誤認識補正辞書３０２に登録されているか否かを判断する（ステップＳ３８）。ここで、認識単語が誤認識単語として誤認識補正辞書３０２に登録されていると判断された場合（ステップＳ３８でＹＥＳ）、ステップＳ３７の処理へ移行する。

一方、認識単語が誤認識単語として誤認識補正辞書３０２に登録されていないと判断された場合（ステップＳ３８でＮＯ）、補正ルール登録部２０８は、認識単語が誤認識補正辞書３０２に登録されていない未知の単語であると判断し、録音データを保存する（ステップＳ３９）。このようにして、誤認識補正辞書３０２に誤認識単語として登録すべき単語を含む対象幼児の発話した録音データが保存される。

次に、補正ルール登録部２０８は、録音データを再生する（ステップＳ４０）。なお、ステップＳ４０の処理は、ステップＳ３９の処理に続けて行われる必要はなく、録音データが保存された後であれば、いつ行われてもよい。例えば、対象幼児の親は、再生された録音データを聞き、対象幼児が発話した単語を補正した補正単語を発話する。

次に、発話抽出部２０１は、音声入力部１００から音声信号が入力されたか否かを判断する（ステップＳ４１）。ここで、音声信号が入力されていないと判断された場合（ステップＳ４１でＮＯ）、音声信号が入力されるまでステップＳ４１の処理が繰り返される。

一方、音声信号が入力されたと判断された場合（ステップＳ４１でＹＥＳ）、補正ルール登録部２０８は、音声認識部２０３から認識結果を取得する（ステップＳ４２）。この際、発話抽出部２０１は、音声信号から発話を抽出する。発話者は、対象幼児ではないため、対象幼児判定部２０２による発話者が対象幼児であるか否かの判定は行われない。音声認識部２０３は、音響モデルにより発話を構成する音素列を推定する。次に、音声認識部２０３は、推定した音素列と幼児語彙辞書３０１に登録されている登録音素列とを比較し、推定した音素列とのマッチング度が最も高い登録単語列に対応する単語を幼児語彙辞書３０１から抽出する。そして、音声認識部２０３は、抽出した単語を認識結果として出力する。

次に、補正ルール登録部２０８は、ステップＳ３５で取得した認識単語を誤認識単語とし、ステップＳ４２で取得した認識結果である認識単語を補正単語として、誤認識単語及び補正単語を互いに対応付けて誤認識補正辞書３０２に登録する（ステップＳ４３）。

図１０は、本実施の形態１において、対象幼児と音声対話システムとの具体的な対話の一例を示す図である。図１０では、対象幼児と音声対話システムとの対話が成立しなかった場合の例を示している。図１０において、対象幼児の発話は「Ｃ」で示され、音声対話システムの応答は「Ｓ」で示される。

まず、発話Ｃ１において、対象幼児は、「りんごおいしい」という意味で発話しているが、実際には「りんごおいてー」と発話している。一方で、音声対話システムは、「りんご置いて」と誤認識しているため、応答Ｓ１において、音声対話システムは、「りんごを置くの？」という応答になる。このとき、対象幼児は、応答内容が自身の発話の意図と異なるため、発話Ｃ２において、「ちがう」と否定的な発話を行う。これに対し、応答Ｓ２において、音声対話システムは、「もう一度言って」と聞き返す。次に、発話Ｃ３において、対象幼児は、再び「りんごおいてー」と発話する。音声対話システムは、再び「りんご置いて」と認識した場合、当該認識結果は誤認識であると判断する。

このとき、補正ルール登録部２０８は、聞き返すタイミングで対象幼児との会話内容を録音する。誤認識であると判断された場合、補正ルール登録部２０８は、親に対して録音した音声を再生し、「“りんご置いて”といっているのではないのですか？“りんご置いて”の正しい意味を教えてください」と発話し、親に対して正しい意味の発話を促す。親は、「りんごおいしい」と正しい意味の単語を発話することで、音声対話システムは、「置いて」が「おいしい」であるという知識を習得し、補正ルール登録部２０８は、「置いて」を「おいしい」に補正する補正ルールを誤認識補正辞書３０２に登録する。

以上で述べた本実施の形態１の音声対話システムによれば、辞書更新部２０９によって、認識履歴テーブル３０３に記録される単語の習熟度と補正履歴テーブル３０４に記録される補正頻度とに基づいて対象幼児が正しい単語の発話を習得したか否かが判断され、対象幼児が正しい発話を習得したと判断された場合は、誤認識補正辞書３０２に登録されている補正ルール（誤認識単語及び補正単語）が削除される。これにより、対象幼児が単語の正しい発話を習得していない段階で補正ルールを削除するという危険性を回避することが可能となる。

なお、辞書更新部２０９は、誤認識補正辞書３０２に登録される誤認識単語と補正単語とを対応付けた補正ルールのうち、習得したと判断した単語の補正ルールを削除するのではなく、フラグ等により補正ルールに対応するエントリを無効化してもよく、新たな補正ルールが追加登録される場合に無効化したエントリに上書きしてもよい。

また、本実施の形態１において、補正履歴テーブル３０４は、対象幼児が単語の正確な発音を習得したか否かを判断する基準として、補正ルールが適用された日付を示すタイムスタンプを格納しているが、本開示は特にこれに限定されない。図１１は、本実施の形態１における補正履歴テーブルの他の例を示す図である。図１１に示すように、補正履歴テーブルは、補正ルールが利用された頻度を示す補正頻度を格納してもよく、例えば１ヶ月間に補正された回数を補正頻度として格納してもよい。補正頻度が所定の閾値以下になったタイミングで削除候補として補正ルールが記憶される。辞書更新部２０９は、削除候補として記憶された補正ルールがさらに所定の期間適用されなかった場合に、当該削除ルールを削除してもよい。このように、削除の判断を段階的にすることにより、対象幼児が誤認識単語を確実に発話しなくなった補正ルールを削除することができる。

なお、補正履歴テーブルが、対象幼児（対象発話者）が補正単語を意図して誤認識単語を発話した頻度との対応関係を含むのではなく、誤認識補正辞書３０２が、対象幼児（対象発話者）が発話単語に一致する誤認識単語を発話した頻度と、誤認識単語との対応関係を含んでもよい。そして、辞書更新部２０９は、発話単語が補正単語として誤認識補正辞書（第２辞書）３０２に登録されており、最も高いマッチング度が第１閾値以上であり、発話単語に一致する誤認識単語に対応する頻度が第２閾値以下である場合は、発話単語に一致する補正単語と、補正単語に対応する誤認識単語との組合せを誤認識補正辞書（第２辞書）３０２から削除してもよい。

また、本実施の形態１において、認識履歴テーブル３０３は、対象幼児が単語の正確な発音を習得したか否かを判断する基準として、単語と習熟度とを対応付けて格納しているが、本開示は特にこれに限定されない。図１２は、本実施の形態１における認識履歴テーブルの他の例を示す図である。図１２に示すように、認識履歴テーブルは、習熟度が閾値を超えた発話の発話頻度をさらに格納してもよく、例えば１ヶ月間に習熟度が閾値を越えた回数を発話頻度として格納してもよい。辞書更新部２０９は、習熟度が所定の閾値を越えた単語が所定の回数以上発話された場合に、当該単語を含む補正ルールを削除するか否かを、補正履歴テーブル３０４を用いて判断してもよい。これにより、対象幼児がより正確に発話できるようになった単語を含む不必要な補正ルールを削除することができる。

また、辞書更新部２０９は、音声認識結果が得られたタイミングで誤認識補正辞書３０２を更新するのではなく、定期的に認識履歴テーブル３０３に登録されている単語の習熟度をチェックし、習熟度が閾値を超える全単語に対して補正ルールが削除可能か否かを判断してもよい。すなわち、辞書更新部２０９は、最も高いマッチング度に対応する第１単語に、マッチング度を対応付けて認識履歴テーブル３０３（履歴テーブル）へ記録する処理を所定回数繰り返した場合、認識履歴テーブル３０３（履歴テーブル）のマッチング度に基づいて、誤認識補正辞書（第２辞書）３０２に登録されている誤認識単語（第２単語）と補正単語（第３単語）との対応関係を修正することによって誤認識補正辞書（第２辞書）が修正されてもよい。これにより、音声認識時の処理負荷を軽減させることが可能となる。

また、本実施の形態１における対象発話者は対象幼児であるが、本開示は特にこれに限定されず、対象発話者は、正確に単語を発音することができない特定の人物であってもよい。例えば、対象発話者は、外国語を学習している特定の人物であってもよい。

また、本実施の形態１では、日本語の音声認識における誤認識の補正に用いられる辞書を修正しているが、本開示は特にこれに限定されず、例えば、英語又は中国語などの日本語以外の言語の音声認識における誤認識の補正に用いられる辞書を修正してもよい。

（実施の形態２）
実施の形態２における音声対話処理装置２００の構成は、図１に実施の形態１における音声対話処理装置２００の構成から履歴情報更新部２０７、認識履歴テーブル３０３及び補正履歴テーブル３０４を省略したものであるので、説明を省略する。

図１３は、本実施の形態２において音声認識における誤認識の補正に用いられる誤認識補正辞書を修正する辞書修正方法を説明するためのフローチャートである。

ステップＳ５１〜ステップＳ５５の処理は、図６に示すステップＳ１〜ステップＳ５の処理と同じである。

次に、辞書更新部２０９は、抽出された単語のマッチング度が所定の閾値を越えたか否かを判断する（ステップＳ５６）。ここで、抽出された単語のマッチング度が所定の閾値を越えていないと判断された場合（ステップＳ５６でＮＯ）、処理を終了する。

一方、抽出された単語のマッチング度が所定の閾値を越えたと判断された場合（ステップＳ５６でＹＥＳ）、辞書更新部２０９は、抽出された単語が誤認識補正辞書３０２に補正単語として登録されているか否かを判断する（ステップＳ５７）。ここで、抽出された単語が誤認識補正辞書３０２に補正単語として登録されていないと判断された場合（ステップＳ５７でＮＯ）、処理を終了する。

一方、抽出された単語が誤認識補正辞書３０２に補正単語として登録されていると判断された場合（ステップＳ５７でＹＥＳ）、辞書更新部２０９は、抽出された単語である補正単語と、当該補正単語に対応する誤認識単語とは利用されなくなったと判断し、当該誤認識単語及び当該補正単語を誤認識補正辞書３０２から削除する（ステップＳ５８）。

（実施の形態３）
図１４は、本開示の実施の形態３に係るロボットの外観斜視図である。ロボット１は、図１４に示すように、球体状の筐体１０１を備える。筐体１０１は、例えば、透明な部材又は半透明の部材で構成される。

図１５は、本開示の実施の形態３に係るロボットの内部斜視図である。

図１５において、フレーム１０２が筐体１０１の内側部に配置されている。フレーム１０２は、第１回転板１０３及び第２回転板１０４を備える。第１回転板１０３は、第２回転板１０４に対して上方に位置している。

図１５に示すように、第１表示部１０５及び第２表示部１０６は、第１回転板１０３の上面に備え付けられている。また、第３表示部１０７は第２回転板１０４の上面に備え付けられている。第１表示部１０５、第２表示部１０６及び第３表示部１０７は、例えば、複数の発光ダイオードにより構成される。第１表示部１０５、第２表示部１０６及び第３表示部１０７は、ロボットの表情の表示情報を表示する。具体的には、第１表示部１０５、第２表示部１０６及び第３表示部１０７は、複数の発光ダイオードの点灯を個別に制御することにより、図１４に示すように、ロボット１の顔の一部、例えば、目や口を表示する。図１４の例では、第１表示部１０５が右目の画像を表示し、第２表示部１０６が左目の画像を表示し、第３表示部１０７が口の画像を表示している。そして、左目、右目、口の画像は、透明又は半透明の部材からなる筐体１０１を透過し、外部に放射されている。

カメラ１０８は、図１５に示すように、第１回転板１０３の上面に備え付けられている。カメラ１０８は、ロボット１の周辺環境の映像を取得する。カメラ１０８は、図１４に示すように、ロボット１の顔の一部、例えば、鼻を構成する。したがって、カメラ１０８の光軸はロボット１の前方に向かうことになる。これにより、カメラ１０８は正面に差し出された認識対象物を撮影できる。

マイク２１７は、ロボット１の周辺環境の音声を取得する。マイク２１７は、フレーム１０２に備え付けられ、音を電気信号に変換し、主制御部２３０に出力する。マイク２１７は、例えば、第１回転板１０３の上面に取り付けられてもよいし、第２回転板１０４の上面に取り付けられてもよい。マイク２１７は、図１４に示すように、ロボット１の額の位置に配置され、ロボット１の額に相当する位置の筐体１０１には、小さな穴が形成されている。

スピーカ２１６は、出力面が正面を向くようにフレーム１０２に備え付けられ、音声の電気信号を物理振動に変換する。スピーカ２１６は、図１４に示すように、ロボット１の顎の位置に配置され、ロボット１の顎に相当する位置の筐体１０１には、複数の小さな穴が形成されている。主制御部２３０は、所定の音声をスピーカ２１６から出力することで、ロボット１に発話させる。

制御回路１０９は、図１５に示すように、第１回転板１０３の上面に備え付けられている。制御回路１０９は、ロボット１の各種動作を制御する。制御回路１０９の詳細は、図１６を参照しながら後述する。

第１駆動輪１１０及び第２駆動輪１１１は、それぞれ、第２回転板１０４の下面に備え付けられており、筐体１０１の内周面に接している。また、第１駆動輪１１０は、第１駆動輪１１０を駆動させる第１モータ１１２を有する。同様に、第２駆動輪１１１は、第２駆動輪１１１を駆動させる第２モータ１１３を有する。即ち、第１駆動輪１１０及び第２駆動輪１１１は、それぞれ独立した個別のモータによって駆動される。第１駆動輪１１０及び第２駆動輪１１１は、一組の駆動輪を構成する。

第１駆動輪１１０及び第２駆動輪１１１を前方方向に回転させると、その動力によって筐体１０１は前方方向に回転する。これにより、ロボット１は前進する。逆に、第１駆動輪１１０及び第２駆動輪１１１を後方方向に回転させると、ロボット１は後進する。

また、第１駆動輪１１０及び第２駆動輪１１１を互いに逆方向に回転させると、その動力によって筐体１０１は、その中心を通過する鉛直軸回りの回転動作を行う。即ち、ロボット１は、その場で左回り又は右回りに回転する。ロボット１は、このような前進、後進又は回転動作によって移動する。

カウンターウェイト１１４は、第１回転板１０３と第２回転板１０４との間に設けられている。カウンターウェイト１１４は、筐体１０１の中心からやや下方に位置する。このため、ロボット１の重心は、筐体１０１の中心から下方に位置する。これにより、ロボット１の動作を安定させることができる。

ロボット１は、図略の電源をさらに備える。ロボット１は、図略の充電器により充電される。

次に、図１６を参照しつつ、本開示の実施の形態３に係るロボット１の内部回路の詳細について説明する。図１６は、本開示の実施の形態３に係るロボットの構成を示すブロック図である。

図１６に示すように、ロボット１は、制御回路１０９、表示部２１１、筐体駆動輪制御部２１４、筐体駆動輪２１２、重り駆動機構制御部２１５、重り駆動機構２１８、マイク２１７、スピーカ２１６及びカメラ１０８を備える。

制御回路１０９は、メモリ２３６と、ＣＰＵ等のプロセッサで構成された主制御部２３０と、表示情報出力制御部２３５とで構成されている。

メモリ２３６は、例えば、不揮発性の書き換え可能な記憶装置で構成され、ロボット１の制御プログラムなどを記憶する。

主制御部２３０は、メモリ２３６に記憶されているロボット１の制御プログラムを実行する。これにより、主制御部２３０は、移動制御部２３１及び音声対話処理部２３４として機能する。

音声対話処理部２３４は、図１に示す発話抽出部２０１、対象幼児判定部２０２、音声認識部２０３、意図理解部２０４、応答生成部２０５、音声合成部２０６、履歴情報更新部２０７、補正ルール登録部２０８及び辞書更新部２０９を備える。また、メモリ２３６は、図１に示す幼児語彙辞書３０１、誤認識補正辞書３０２、認識履歴テーブル３０３及び補正履歴テーブル３０４を備える。また、マイク２１７は、図１に示す音声入力部１００の機能を備え、スピーカ２１６は、図１に示す音声出力部３００の機能を備える。

音声対話処理部２３４は、マイク２１７からの発話者の音声を認識し、認識結果を基に発話内容の意図を理解し、発話内容の意図に応じた応答発話を生成し、生成した応答発話をスピーカ２１６から出力する。

本実施の形態３の音声対話処理部２３４の動作は、実施の形態１の音声対話処理装置２００の動作と同じであるので、説明を省略する。

カメラ１０８は、図１５において説明したように、ロボット１の前方の画像を撮像し、撮像した画像（以下、撮像画像）を主制御部２３０に出力する。主制御部２３０は、カメラ１０８から取得した撮像画像からユーザの顔の有無、位置、及び大きさを認識し、顔認識結果をメモリ２３６に蓄積することで、顔認識結果を管理する。

移動制御部２３１は、ロボット１の移動を制御する。移動制御部２３１は、音声認識結果や顔認識結果に基づきコマンドを生成し、表示情報出力制御部２３５、筐体駆動輪制御部２１４及び重り駆動機構制御部２１５等に出力する。

表示情報出力制御部２３５は、移動制御部２３１から送信されるコマンドに応じたロボット１の表情の表示情報を表示部２１１に表示する。表示部２１１は、図１５において説明した第１表示部１０５、第２表示部１０６及び第３表示部１０７により構成される。

筐体駆動輪制御部２１４は、移動制御部２３１から送信されるコマンドに応じて、ロボット１の筐体駆動輪２１２を動作させる。筐体駆動輪制御部２１４は、図１５において説明した、第１モータ１１２及び第２モータ１１３で構成される。筐体駆動輪２１２は、図１５において説明した第１駆動輪１１０及び第２駆動輪１１１により構成される。筐体駆動輪２１２及び筐体駆動輪制御部２１４が移動機構の一例に相当する。

重り駆動機構制御部２１５は、移動制御部２３１から送信されるコマンドに応じて、ロボット１の重り駆動機構２１８を動作させる。重り駆動機構制御部２１５は、カウンターウェイト１１４に内蔵された、図示しない重り駆動用モータで構成される。重り駆動機構２１８は、カウンターウェイト１１４の位置を移動させることにより、ロボット１の姿勢を制御する。

本開示において、ユニット、装置、部材又は部の全部又は一部、又は図に示されるブロック図の機能ブロックの全部又は一部は、半導体装置、半導体集積回路（ＩＣ）、又はＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）を含む一つ又は複数の電子回路によって実行されてもよい。ＬＳＩ又はＩＣは、一つのチップに集積されてもよいし、複数のチップを組み合わせて構成されてもよい。例えば、記憶素子以外の機能ブロックは、一つのチップに集積されてもよい。ここでは、ＬＳＩやＩＣと呼んでいるが、集積の度合いによって呼び方が変わり、システムＬＳＩ、ＶＬＳＩ（ＶｅｒｙＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）、若しくはＵＬＳＩ（ＵｌｔｒａＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）と呼ばれるものであってもよい。ＬＳＩの製造後にプログラムされる、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ（ＦＰＧＡ）、又はＬＳＩ内部の接合関係の再構成又はＬＳＩ内部の回路区画のセットアップができるＲｅｃｏｎｆｉｇｕｒａｂｌｅＬｏｇｉｃＤｅｖｉｃｅも同じ目的で使うことができる。

さらに、ユニット、装置、部材又は部の全部又は一部の機能又は操作は、ソフトウエア処理によって実行することが可能である。この場合、ソフトウエアは一つ又は複数のＲＯＭ、光学ディスク、ハードディスクドライブなどの非一時的記録媒体に記録され、ソフトウエアが処理装置（Ｐｒｏｃｅｓｓｏｒ）によって実行されたときに、そのソフトウエアで特定された機能が処理装置（Ｐｒｏｃｅｓｓｏｒ）および周辺装置によって実行される。システム又は装置は、ソフトウエアが記録されている一つ又は複数の非一時的記録媒体、処理装置（Ｐｒｏｃｅｓｓｏｒ）、及び必要とされるハードウエアデバイス、例えばインターフェース、を備えていてもよい。

本開示に係る辞書修正方法、辞書修正プログラム、音声処理装置及びロボットは、発話者の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがき、音声認識の精度を向上させることができ、音声処理装置に用いられる辞書を修正する辞書修正方法、辞書修正プログラム、音声処理装置及びロボットとして有用である。

１ロボット
２０ＣＰＵ
３０メモリ
１００音声入力部
１０１筐体
２００音声対話処理装置
２０１発話抽出部
２０２対象幼児判定部
２０３音声認識部
２０４意図理解部
２０５応答生成部
２０６音声合成部
２０７履歴情報更新部
２０８補正ルール登録部
２０９辞書更新部
２１１表示部
２１２筐体駆動輪
２１４筐体駆動輪制御部
２１５駆動機構制御部
２１６スピーカ
２１７マイク
２１８駆動機構
２３０主制御部
２３１移動制御部
２３４音声対話処理部
２３５表示情報出力制御部
２３６メモリ
３００音声出力部
３０１幼児語彙辞書
３０２誤認識補正辞書
３０３認識履歴テーブル
３０４補正履歴テーブル

Claims

音声処理装置に用いられる辞書を修正する方法であって、
前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出し、
前記発話を構成する発話音素列を推定し、
第１辞書を用いて、前記発話音素列と、前記第１辞書に登録されている第１単語に対応する第１音素列とのマッチング度を算出し、前記第１辞書は、前記音声処理装置に備えられたメモリに記憶され、前記第１単語と前記第１音素列との対応関係を示し、
最も高い前記マッチング度に対応する前記第１単語を、前記対象発話者が発話した発話単語として前記第１辞書から抽出し、
前記最も高いマッチング度に基づいて、第２辞書を修正し、前記第２辞書は、第２単語と第３単語との対応関係を示し、前記第３単語は、前記第２単語を意図して前記対象発話者が発話する言語単位に対応し、
前記発話単語が前記第３単語として前記第２辞書に登録されている場合は、前記発話単語を、前記発話単語に一致する前記第３単語に対応する前記第２単語に変換し、
前記第２辞書の修正において、前記発話単語が前記第２単語として前記第２辞書に登録されており、前記最も高いマッチング度が第１閾値以上である場合は、前記発話単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との組合せを前記第２辞書から削除することによって前記第２辞書が修正される、
方法。
前記第２辞書は、更に、前記対象発話者が前記発話単語に一致する前記第３単語を発話した頻度と、前記第２単語との対応関係を含み、
前記発話単語が前記第２単語として前記第２辞書に登録されており、前記最も高いマッチング度が第１閾値以上であり、前記発話単語に一致する前記第２単語に対応する前記第３単語の前記頻度が第２閾値以下である場合は、前記発話単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との組合せを前記第２辞書から削除することによって前記第２辞書が修正される、
請求項１記載の方法。
前記対象発話者は、前記音声処理装置における音声認識の対象である対象幼児であり、
前記発話から抽出された声紋と前記メモリに予め記憶された前記対象幼児の声紋とを比較することによって、前記発話者が前記対象幼児であるか否かを判定し、
前記発話者が前記対象幼児であると判定された場合、前記発話音素列を推定する、
請求項１又は２記載の方法。
更に、前記メモリは、前記第１単語と、前記マッチング度との対応関係を示す履歴テーブルを記憶しており、
前記最も高いマッチング度に対応する前記第１単語に、前記マッチング度を対応付けて前記履歴テーブルへ記録する処理を所定回数繰り返し、前記第１単語が前記第２単語として前記第２辞書に登録されており、前記履歴テーブルの前記第１単語の前記マッチング度が前記第１閾値以上である場合は、前記第１単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との組合せを前記第２辞書から削除することによって前記第２辞書が修正される、
請求項１記載の方法。
音声処理装置に用いられる辞書を修正するプログラムであって、
前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出するステップと、
前記発話を構成する発話音素列を推定するステップと、
第１辞書を用いて、前記発話音素列と、前記第１辞書に登録されている第１単語に対応する第１音素列とのマッチング度を算出するステップと、前記第１辞書は、前記音声処理装置に備えられたメモリに記憶され、前記第１単語と前記第１音素列との対応関係を示し、
最も高い前記マッチング度に対応する前記第１単語を、前記対象発話者が発話した発話単語として前記第１辞書から抽出するステップと、
前記最も高いマッチング度に基づいて、第２辞書を修正するステップと、前記第２辞書は、第２単語と第３単語との対応関係を示し、前記第３単語は、前記第２単語を意図して前記対象発話者が発話する言語単位に対応し、
前記発話単語が前記第３単語として前記第２辞書に登録されている場合は、前記発話単語を、前記発話単語に一致する前記第３単語に対応する前記第２単語に変換するステップと、
をプロセッサに実行させ、
前記第２辞書を修正するステップにおいて、前記発話単語が前記第２単語として前記第２辞書に登録されており、前記最も高いマッチング度が第１閾値以上である場合は、前記発話単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との組合せを前記第２辞書から削除することによって前記第２辞書が修正される、
辞書修正プログラム。
プロセッサと、
メモリと、を備え、
前記プロセッサは、
音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出し、
前記発話を構成する発話音素列を推定し、
第１辞書を用いて、前記発話音素列と、前記第１辞書に登録されている第１単語に対応する第１音素列とのマッチング度を算出し、前記第１辞書は、前記メモリに記憶され、前記第１単語と前記第１音素列との対応関係を示し、
最も高い前記マッチング度に対応する前記第１単語を、前記対象発話者が発話した発話単語として前記第１辞書から抽出し、
前記最も高いマッチング度に基づいて、第２辞書を修正し、前記第２辞書は、第２単語と第３単語との対応関係を示し、前記第３単語は、前記第２単語を意図して前記対象発話者が発話する言語単位に対応し、
前記発話単語が前記第３単語として前記第２辞書に登録されている場合は、前記発話単語を、前記発話単語に一致する前記第３単語に対応する前記第２単語に変換し、
前記第２辞書の修正において、前記発話単語が前記第２単語として前記第２辞書に登録されており、前記最も高いマッチング度が第１閾値以上である場合は、前記発話単語に一致する前記第２単語と、前記第２単語に対応する前記第３単語との組合せを前記第２辞書から削除することによって前記第２辞書が修正される、
音声処理装置。
請求項６記載の音声処理装置と、
前記音声処理装置を内蔵する筐体と、
前記筐体を移動させる移動機構と、
を備えるロボット。