JP6821393B2 - 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット - Google Patents

辞書修正方法、辞書修正プログラム、音声処理装置及びロボット Download PDF

Info

Publication number
JP6821393B2
JP6821393B2 JP2016212625A JP2016212625A JP6821393B2 JP 6821393 B2 JP6821393 B2 JP 6821393B2 JP 2016212625 A JP2016212625 A JP 2016212625A JP 2016212625 A JP2016212625 A JP 2016212625A JP 6821393 B2 JP6821393 B2 JP 6821393B2
Authority
JP
Japan
Prior art keywords
word
dictionary
utterance
spoken
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016212625A
Other languages
English (en)
Other versions
JP2018072578A (ja
Inventor
勇次 國武
勇次 國武
亮太 宮崎
亮太 宮崎
聖弥 樋口
聖弥 樋口
太田 雄策
雄策 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2016212625A priority Critical patent/JP6821393B2/ja
Priority to CN201710748318.1A priority patent/CN108022582A/zh
Priority to US15/791,447 priority patent/US10636415B2/en
Publication of JP2018072578A publication Critical patent/JP2018072578A/ja
Application granted granted Critical
Publication of JP6821393B2 publication Critical patent/JP6821393B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本開示は、音声処理装置に用いられる辞書を修正する辞書修正方法、辞書修正プログラム、音声処理装置及びロボットに関するものである。
従来の音声認識システム又は文字列変換システムでは、辞書に登録されていない単語は認識ができなかったり、誤認識されたりするという課題が存在する。これに対し、追加で辞書に単語の意味又は読みなどの情報を登録したり、誤認識された単語を補正するようなルールを登録したりすることにより認識精度を向上する技術が存在する。
しかしながら、辞書に追加で情報を登録した場合、記憶領域に制限がある環境では、追加登録できる容量に制限があるという課題が存在する。従来、以上のような課題に対する技術として、例えば、特許文献1には、辞書に情報が追加登録された場合、古い情報が削除される技術が開示されている。また、例えば、特許文献2には、辞書に追加登録された情報が使用頻度の高い順に並べ替えられ、最も使用されていない情報が削除される技術が開示されている。
特開2001−22374号公報 特開平9−185616号公報
しかしながら、言語習得段階である幼児は、成長に合わせて語彙数が増え正しい発話を習得していくため、成長により変化する幼児の語彙又は発話特性に合わせた辞書の更新が必要となる。そのため、追加登録した単語又は補正ルールを単純に古いもの又は利用頻度が低いものから順に削除すると、正しい発話を習得できていない単語又は補正ルールを誤って削除する可能性がある。
本開示は、上記の問題を解決するためになされたもので、発話者の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがき、音声認識の精度を向上させることができる辞書修正方法、辞書修正プログラム、音声処理装置及びロボットを提供することを目的とするものである。
本開示の一態様に係る方法は、音声処理装置に用いられる辞書を修正する方法であって、前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出し、前記発話を構成する発話音素列を推定し、第1辞書を用いて、前記発話音素列と、前記第1辞書に登録されている第1単語に対応する第1音素列とのマッチング度を算出し、前記第1辞書は、前記音声処理装置に備えられたメモリに記憶され、前記第1単語と前記第1音素列との対応関係を示し、最も高い前記マッチング度に対応する前記第1単語を、前記対象発話者が発話した発話単語として前記第1辞書から抽出し、前記最も高いマッチング度に基づいて、第2辞書を修正し、前記第2辞書は、第2単語と第3単語との対応関係を示し、前記第3単語は、前記第2単語を意図して前記対象発話者が発話する言語単位に対応し、前記発話単語に一致する前記第単語と、前記第単語に対応する前記第単語との対応関係を修正することによって前記第2辞書が修正される。
本開示によれば、発話者の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがき、音声認識の精度を向上させることができる。
本実施の形態1における音声対話システムの全体構成の一例を示す図である。 本実施の形態1における幼児語彙辞書の一例を示す図である。 本実施の形態1における誤認識補正辞書の一例を示す図である。 本実施の形態1における認識履歴テーブルの一例を示す図である。 本実施の形態1における補正履歴テーブルの一例を示す図である。 本実施の形態1における音声認識処理について説明するためのフローチャートである。 本実施の形態1における誤認識補正辞書を修正する処理を説明するためのフローチャートである。 本実施の形態1において、誤認識補正辞書に登録されていない誤認識単語及び補正単語を登録する処理を説明するための第1のフローチャートである。 本実施の形態1において、誤認識補正辞書に登録されていない誤認識単語及び補正単語を登録する処理を説明するための第2のフローチャートである。 本実施の形態1において、対象幼児と音声対話システムとの具体的な対話の一例を示す図である。 本実施の形態1における補正履歴テーブルの他の例を示す図である。 本実施の形態1における認識履歴テーブルの他の例を示す図である。 本実施の形態2において音声認識における誤認識の補正に用いられる誤認識補正辞書を修正する辞書修正方法を説明するためのフローチャートである。 本開示の実施の形態3に係るロボットの外観斜視図である。 本開示の実施の形態3に係るロボットの内部斜視図である。 本開示の実施の形態3に係るロボットの構成を示すブロック図である。
(本開示の基礎となった知見)
ユーザの発話する音声から発話内容を解析し、解析結果を基に自然な応答を返すことでユーザとの自然な対話を実現したり、機器の制御又は情報提供などのサービスを提供したりする音声対話システムに関する技術が検討されている。音声対話システムでは、音声対話システムで認識させたい単語情報を知識として辞書に保持することでユーザが発話した音声を認識することが可能となる。一方で、ユーザが発話する単語にはばらつきがあり、全ての単語情報を辞書に登録することは困難であるという課題が存在する。
このような課題に対し、前述した特許文献1に係る技術では、音声対話システムで扱う単語情報を随時辞書に追加登録し、古くなった単語情報から削除することにより、発話される可能性のある新しい単語の認識を可能とする技術が開示されている。また、前述した特許文献2に係る技術では、対象技術が音声認識ではなく文字列変換ではあるが、誤変換した文字列に対して、修正した情報を補正情報として辞書に登録する。これにより、特許文献2に係る技術では、次回以降の誤変換を防いでいる。また、特許文献2に係る技術では、使用頻度の少ない単語が辞書から削除される技術が開示されている。
しかしながら、音声対話の対象が言語習得の途中段階である幼児である場合、成長するにつれて発話する語彙が増え、正しい単語の発話ができるようになるため、幼児の成長に合わせた辞書の更新が必要になる。例えば、以前幼児が「おいしい」と発話できず「おいてぇー」と発話し音声対話システムが「置いて」と誤認識した場合に、「置いて」を「おいしい」と変換するルールを辞書に登録する。これにより、音声対話システムは、「置いて」を「おいしい」に補正し、「おいしい」という音声を認識することが可能となる。その後、幼児から成長した発話者が「おいしい」を正しく発話できるようになった場合、当該発話者が「置いて」を正しい意味で発話したとしても、音声対話システムは「置いて」を「おいしい」と間違って補正してしまう可能性がある。従って、幼児が正しい発話を習得した単語の補正ルールに関しては、誤補正を抑制するために削除する必要がある。
しかしながら、従来技術のように、登録が古い情報又は使用頻度が単に低い情報から順に削除した場合、幼児が正しい発話を習得していないにも関わらず補正ルールを削除してしまう可能性がある。このような、幼児の言語習得状況を考慮した辞書の更新に関しては従来検討されていなかった。
以上の課題を解決するために、本開示の一態様に係る方法は、音声処理装置に用いられる辞書を修正する方法であって、前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出し、前記発話を構成する発話音素列を推定し、第1辞書を用いて、前記発話音素列と、前記第1辞書に登録されている第1単語に対応する第1音素列とのマッチング度を算出し、前記第1辞書は、前記音声処理装置に備えられたメモリに記憶され、前記第1単語と前記第1音素列との対応関係を示し、最も高い前記マッチング度に対応する前記第1単語を、前記対象発話者が発話した発話単語として前記第1辞書から抽出し、前記最も高いマッチング度に基づいて、第2辞書を修正し、前記第2辞書は、第2単語と第3単語との対応関係を示し、前記第3単語は、前記第2単語を意図して前記対象発話者が発話する言語単位に対応し、前記発話単語に一致する前記第単語と、前記第単語に対応する前記第単語との対応関係を修正することによって前記第2辞書が修正される。
この構成によれば、音声処理装置に対応するマイクによって収音された音から対象発話者の発話が抽出される。発話を構成する発話音素列が推定される。第1辞書を用いて、発話音素列と、第1辞書に登録されている第1単語に対応する第1音素列とのマッチング度が算出される。第1辞書は、音声処理装置に備えられたメモリに記憶され、第1単語と第1音素列との対応関係を示す。最も高いマッチング度に対応する第1単語が、対象発話者が発話した発話単語として第1辞書から抽出される。最も高いマッチング度に基づいて、第2辞書が修正される。第2辞書は、第2単語と第3単語との対応関係を示す。第3単語は、第2単語を意図して対象発話者が発話する言語単位に対応する。発話単語に一致する第単語と、第単語に対応する第単語との対応関係を修正することによって第2辞書が修正される。
したがって、対象発話者の発話から推定された発話音素列と、第1単語に対応する第1音素列とのマッチング度が算出され、最も高いマッチング度に基づいて、対象発話者が発話した発話単語に一致する第単語と、第単語に対応する第単語との対応関係が修正されるので、発話者の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがき、音声認識の精度を向上させることができる。
また、上記の方法において、前記発話単語が前記第2辞書に含まれており、前記最も高いマッチング度が第1閾値以上である場合は、前記発話単語に一致する前記第2単語と、前記第2単語に対応する前記第3単語との組合せを前記第2辞書から削除することによって前記第2辞書が修正されてもよい。
この構成によれば、発話単語が第2辞書に含まれており、最も高いマッチング度が第1閾値以上である場合は、発話単語に一致する第2単語と、第2単語に対応する第3単語との組合せが第2辞書から削除することによって第2辞書が修正される。
したがって、最も高いマッチング度が第1閾値以上である場合に、発話単語に一致する第2単語と、第2単語に対応する第3単語との組合せを第2辞書から削除することができる。
また、上記の方法において、前記第2辞書は、更に、前記対象発話者が前記発話単語に一致する前記第3単語を発話した頻度と、前記第2単語との対応関係を含み、前記発話単語が前記第2単語として前記第2辞書に登録されており、前記最も高いマッチング度が第1閾値以上であり、前記発話単語に一致する前記第2単語に対応する前記第3単語の前記頻度が第2閾値以下である場合は、前記発話単語に一致する前記第2単語と、前記第2単語に対応する前記第3単語との組合せを前記第2辞書から削除することによって前記第2辞書が修正されてもよい。
この構成によれば、第2辞書は、更に、対象発話者が発話単語に一致する第3単語を発話した頻度と、第2単語との対応関係を含む。発話単語が第2単語として第2辞書に登録されており、最も高いマッチング度が第1閾値以上であり、発話単語に一致する第2単語に対応する第3単語の頻度が第2閾値以下である場合は、発話単語に一致する第2単語と、第2単語に対応する第3単語との組合せを第2辞書から削除することによって第2辞書が修正される。
したがって、最も高いマッチング度が第1閾値以上であり、発話単語に一致する第2単語に対応する第3単語の頻度が第2閾値以下である場合に、発話単語に一致する第2単語と、第2単語に対応する第3単語との組合せが第2辞書から削除されるので、発話者が習得した第2単語と第3単語との組合せをより正確に第2辞書から削除することができる。
また、上記の方法において、前記対象発話者は、前記音声処理装置における音声認識の対象である対象幼児であり、前記発話から抽出された声紋と前記メモリに予め記憶された前記対象幼児の声紋とを比較することによって、前記発話者が前記対象幼児であるか否かを判定し、前記発話者が前記対象幼児であると判定された場合、前記発話音素列を推定してもよい。
この構成によれば、対象発話者は、音声処理装置における音声認識の対象である対象幼児である。発話から抽出された声紋とメモリに予め記憶された対象幼児の声紋とが比較されることによって、発話者が対象幼児であるか否かが判定される。発話者が対象幼児であると判定された場合、発話音素列が推定される。
したがって、幼児の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがきる。
また、上記の方法において、更に、前記メモリは、前記第1単語と、前記マッチング度との対応関係を示す履歴テーブルを記憶しており、前記最も高いマッチング度に対応する前記第1単語に、前記マッチング度を対応付けて前記履歴テーブルへ記録する処理を所定回数繰り返した場合、前記履歴テーブルの前記マッチング度に基づいて、前記第2辞書に登録されている前記第2単語と前記第3単語との対応関係を修正することによって前記第2辞書が修正されてもよい。
この構成によれば、更に、メモリは、第1単語と、マッチング度との対応関係を示す履歴テーブルを記憶している。最も高いマッチング度に対応する第1単語に、マッチング度を対応付けて履歴テーブルへ記録する処理が所定回数繰り返された場合、履歴テーブルのマッチング度に基づいて、第2辞書に登録されている第2単語と第3単語との対応関係を修正することによって第2辞書が修正される。
したがって、最も高いマッチング度に対応する第1単語に、マッチング度を対応付けて履歴テーブルへ記録する処理が所定回数繰り返されることにより、より正確なマッチング度を算出することができ、音声処理装置に用いられる辞書をより正確に修正することがきる。
本開示の他の態様に係るプログラムは、音声処理装置に用いられる辞書を修正するプログラムであって、前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出するステップと、前記発話を構成する発話音素列を推定するステップと、第1辞書を用いて、前記発話音素列と、前記第1辞書に登録されている第1単語に対応する第1音素列とのマッチング度を算出するステップと、前記第1辞書は、前記音声処理装置に備えられたメモリに記憶され、前記第1単語と前記第1音素列との対応関係を示し、最も高い前記マッチング度に対応する前記第1単語を、前記対象発話者が発話した発話単語として前記第1辞書から抽出するステップと、前記最も高いマッチング度に基づいて、第2辞書を修正するステップと、前記第2辞書は、第2単語と第3単語との対応関係を示し、前記第3単語は、前記第2単語を意図して前記対象発話者が発話する言語単位に対応し、前記発話単語に一致する前記第単語と、前記第単語に対応する前記第単語との対応関係を修正することによって前記第2辞書が修正されるステップと、をプロセッサに実行させる。
この構成によれば、音声処理装置に対応するマイクによって収音された音から対象発話者の発話が抽出される。発話を構成する発話音素列が推定される。第1辞書を用いて、発話音素列と、第1辞書に登録されている第1単語に対応する第1音素列とのマッチング度が算出される。第1辞書は、音声処理装置に備えられたメモリに記憶され、第1単語と第1音素列との対応関係を示す。最も高いマッチング度に対応する第1単語が、対象発話者が発話した発話単語として第1辞書から抽出される。最も高いマッチング度に基づいて、第2辞書が修正される。第2辞書は、第2単語と第3単語との対応関係を示す。第3単語は、第2単語を意図して対象発話者が発話する言語単位に対応する。発話単語に一致する第単語と、第単語に対応する第単語との対応関係を修正することによって第2辞書が修正される。
したがって、対象発話者の発話から推定された発話音素列と、第1単語に対応する第1音素列とのマッチング度が算出され、最も高いマッチング度に基づいて、対象発話者が発話した発話単語に一致する第単語と、第単語に対応する第単語との対応関係が修正されるので、発話者の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがき、音声認識の精度を向上させることができる。
本開示の他の態様に係る音声処理装置は、プロセッサと、メモリと、を備え、前記プロセッサは、前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出し、前記発話を構成する発話音素列を推定し、第1辞書を用いて、前記発話音素列と、前記第1辞書に登録されている第1単語に対応する第1音素列とのマッチング度を算出し、前記第1辞書は、前記メモリに記憶され、前記第1単語と前記第1音素列との対応関係を示し、最も高い前記マッチング度に対応する前記第1単語を、前記対象発話者が発話した発話単語として前記第1辞書から抽出し、前記最も高いマッチング度に基づいて、第2辞書を修正し、前記第2辞書は、第2単語と第3単語との対応関係を示し、前記第3単語は、前記第2単語を意図して前記対象発話者が発話する言語単位に対応し、前記発話単語に一致する前記第単語と、前記第単語に対応する前記第単語との対応関係を修正することによって前記第2辞書が修正される。
この構成によれば、音声処理装置は、プロセッサと、メモリとを備える。音声処理装置に対応するマイクによって収音された音から対象発話者の発話が抽出される。発話を構成する発話音素列が推定される。第1辞書を用いて、発話音素列と、第1辞書に登録されている第1単語に対応する第1音素列とのマッチング度が算出される。第1辞書は、メモリに記憶され、第1単語と第1音素列との対応関係を示す。最も高いマッチング度に対応する第1単語が、対象発話者が発話した発話単語として第1辞書から抽出される。最も高いマッチング度に基づいて、第2辞書が修正される。第2辞書は、第2単語と第3単語との対応関係を示す。第3単語は、第2単語を意図して対象発話者が発話する言語単位に対応する。発話単語に一致する第単語と、第単語に対応する第単語との対応関係を修正することによって第2辞書が修正される。
したがって、対象発話者の発話から推定された発話音素列と、第1単語に対応する第1音素列とのマッチング度が算出され、最も高いマッチング度に基づいて、対象発話者が発話した発話単語に一致する第単語と、第単語に対応する第単語との対応関係が修正されるので、発話者の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがき、音声認識の精度を向上させることができる。
本開示の他の態様に係るロボットは、上記の音声処理装置と、前記音声処理装置を内蔵する筐体と、前記筐体を移動させる移動機構と、を備える。
この構成によれば、上記の音声処理装置をロボットに適用することができる。
また、本開示は、以上のような特徴的な処理を実行する辞書修正方法として実現することができるだけでなく、辞書修正方法に含まれる特徴的なステップを実行するための処理部を備える音声処理装置などとして実現することもできる。また、このような辞書修正方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態1)
図1は、実施の形態1における音声対話システムの全体構成の一例を示す図である。図1に示す音声対話システムは、音声入力部100、音声対話処理装置200及び音声出力部300を備える。
音声入力部100は、例えば指向性マイクなどであり、音声対話処理装置200が実装された端末又はロボットに組み込んでもよい。また、音声入力部100は、例えばハンドマイク、ピンマイク又は卓上マイクなど任意の集音デバイスであってもよく、有線又は無線で音声対話処理装置200が実装された端末に接続されてもよい。また、音声入力部100は、スマートフォン又はタブレット端末などの集音及び通信機能を持つデバイスを用いて音声を入力してもよい。
音声対話処理装置200は、CPU(中央演算処理装置)20及びメモリ30を備える。CPU20は、発話抽出部201、対象幼児判定部202、音声認識部203、意図理解部204、応答生成部205、音声合成部206、履歴情報更新部207、補正ルール登録部208及び辞書更新部209を備える。メモリ30は、幼児語彙辞書301、誤認識補正辞書302、認識履歴テーブル303及び補正履歴テーブル304を備える。
音声対話の処理を行うプログラムは、音声対話を実施するロボット又は端末に組み込まれたメモリ30に格納され、CPU20等の演算装置によって実行される。また、音声対話処理装置200を構成する全ての要素は、同一端末に実装されてもよいし、光ファイバ、無線又は公衆電話回線などの任意のネットワークを介して接続される別の端末又はサーバ上に個別に実装されてもよく、音声対話処理装置200と別の端末又はサーバとが互いに通信することによって音声対話処理を実現してもよい。
発話抽出部201は、音声入力部100によって収音された音から対象発話者の発話を抽出する。
対象幼児判定部202は、発話抽出部201によって抽出された発話の発話者が音声認識の対象である対象発話者であるか否かを判定する。なお、対象発話者は、音声認識の対象である対象幼児である。また、幼児は、例えば、満1歳以上就学前の者又は6歳未満の者である。対象幼児判定部202は、発話から抽出された声紋とメモリ30に予め記憶された対象幼児の声紋とを比較することによって、発話者が対象幼児であるか否かを判定する。メモリ30は、対象幼児の声紋を記憶している。
幼児語彙辞書(第1辞書)301は、一般的な幼児が発話する単語が登録された辞書である。図2は、本実施の形態1における幼児語彙辞書の一例を示す図である。幼児語彙辞書301は、単語(第1単語)と音素列(第1音素列)との対応関係を示す。図2に示すように、幼児語彙辞書301には、単語(第1単語)と、単語を構成する音素列(第1音素列)とが対応付けて登録されている。例えば、「りんご」という単語には、「ringo」という登録音素列が対応付けられている。
誤認識補正辞書(第2辞書)302は、誤認識単語と、誤認識単語を補正した結果である補正単語との組み合わせを補正ルールとして登録する辞書である。図3は、本実施の形態1における誤認識補正辞書の一例を示す図である。誤認識補正辞書302は、補正単語(第2単語)と、補正単語を意図して対象発話者が発話する言語単位に対応する誤認識単語(第3単語)との対応関係を示す。図3に示すように、誤認識補正辞書302には、誤認識単語と補正単語とが対応付けて登録されている。例えば、「置いて」という誤認識単語には、「おいしい」という補正単語が対応付けられている。すなわち、対象幼児が「おいしい」を意図したつもりが正しく発話することができず、「おいしい」とは異なる言語単位を発話し、音声認識部203が幼児語彙辞書301により「置いて」と認識結果を出力した場合、「置いて」という誤認識単語は、「おいしい」という補正単語に変換される。
音声認識部203は、音声入力部100より入力音声データを受け取り、幼児語彙辞書301及び誤認識補正辞書302を参照することで、対象幼児の発話単語を認識する。
音声認識部203は、対象幼児判定部202によって発話者が対象幼児(対象発話者)であると判定された場合、発話から発話を構成する音素列を推定する。音声認識部203は、幼児語彙辞書301を用いて、音素列(発話音素列)と、幼児語彙辞書(第1辞書)301に登録されている単語(第1単語)に対応する音素列(第1音素列)とのマッチング度を算出する。マッチング度は、推定した音素列と幼児語彙辞書301に登録される単語の登録音素列との類似度を計算することにより得られる。例えば、マッチング度は、レーベシュタイン距離などの編集距離又は動的時間伸縮法(Dynamic Time Warping)による類似度を用いることができる。
音声認識部203は、最も高いマッチング度に対応する単語(第1単語)を、対象幼児(対象発話者)が発話した発話単語として幼児語彙辞書(第1辞書)301から抽出する。
音声認識部203は、幼児語彙辞書301から抽出した単語が、誤認識補正辞書302に誤認識単語として登録されているか否かを判断する。幼児語彙辞書301から抽出した単語が、誤認識補正辞書302に誤認識単語として登録されていると判断した場合、音声認識部203は、幼児語彙辞書301から抽出した単語を、抽出した単語と同じ誤認識単語に対応付けられている補正単語に変換し、補正単語を認識結果として出力する。また、幼児語彙辞書301から抽出した単語が、誤認識補正辞書302に誤認識単語として登録されていないと判断した場合、音声認識部203は、幼児語彙辞書301から抽出した単語を認識結果として出力する。
意図理解部204は、音声認識部203により得られた認識結果を基にユーザが発話した内容がどのような内容であるかを解析する。意図理解の方式としては、音声対話システムで実行可能なタスクを判定するために予め決められたルールに基づいて発話内容を理解するルールベースの方式、又は機械学習などの統計的な手法を用いて発話内容を理解する方式などが採用可能である。
応答生成部205は、意図理解部204より出力される意図理解結果から、ユーザに対して応答するための応答発話のテキスト情報を生成する。
音声合成部206は、応答生成部205により生成された応答発話のテキスト情報を音声合成処理により音声データへ変換する。
履歴情報更新部207は、音声認識部203により音声認識処理が実行された際に、認識履歴テーブル303及び補正履歴テーブル304を更新する。
認識履歴テーブル303には、単語と、その単語を対象幼児がどの程度習得しているかの基準として習熟度とが登録される。図4は、本実施の形態1における認識履歴テーブルの一例を示す図である。音声認識処理結果に含まれる単語のマッチング度が、習熟度として用いられる。認識履歴テーブル303は、幼児語彙辞書301から抽出された単語と習熟度(マッチング度)との対応関係を示す。
音声認識部203は、幼児語彙辞書301から抽出した単語と、当該単語のマッチング度とを履歴情報更新部207へ出力する。履歴情報更新部207は、音声認識部203によって幼児語彙辞書301から抽出された単語(マッチング度が最も高い登録音素列に対応する第1単語)と、当該単語のマッチング度とを対応付けて認識履歴テーブル303に格納する。図4に示すように、認識履歴テーブル303には、単語と習熟度(マッチング度)とが対応付けて登録されている。例えば、「置いて」という単語には、「0.5」という習熟度が対応付けられている。
補正履歴テーブル304には、誤認識補正辞書302に登録されている補正ルールと、その補正ルールが音声認識時に適用された日付を示すタイムスタンプとが登録される。図5は、本実施の形態1における補正履歴テーブルの一例を示す図である。補正履歴テーブル304には、誤認識単語と、補正単語と、誤認識単語を補正単語に変換した日付を示すタイムスタンプとが対応付けられる。なお、タイムスタンプは、対象幼児(対象発話者)が補正単語を意図して誤認識単語を発話した日付であってもよい。
音声認識部203は、誤認識単語を補正単語に変換した場合、誤認識単語及び補正単語を履歴情報更新部207へ出力する。履歴情報更新部207は、音声認識部203によって誤認識単語が補正単語に変換された場合、誤認識単語と、補正単語と、誤認識単語を補正単語に変換した日付を示すタイムスタンプとを対応付けて補正履歴テーブル304に格納する。図5に示すように、補正履歴テーブル304には、誤認識単語と、補正単語と、タイムスタンプとが対応付けて登録されている。例えば、「置いて」という誤認識単語及び「おいしい」という補正単語には、「20160401」という2016年4月1日を示すタイムスタンプが対応付けられている。
なお、本実施の形態では、補正履歴テーブル304は、誤認識単語と、補正単語と、タイムスタンプとを対応付けて格納しているが、本開示は特にこれに限定されず、誤認識補正辞書302が、誤認識単語と、補正単語と、タイムスタンプとを対応付けて格納してもよい。
補正ルール登録部208は、意図理解部204による意図理解の結果により対象幼児との対話が成立したか否かを判断する。補正ルール登録部208は、対象幼児との対話が成立しなかったと判断した場合、対話が成立しなかった発話内容を録音する。さらに、補正ルール登録部208は、対象幼児の例えば親に対して録音した音声データを再生し、対話が成立しなかった発話内容を問い合わせることで対象幼児の発話内容を理解し、誤認識部分の訂正内容を取得する。これにより、補正ルール登録部208は、誤認識を補正する補正ルールを獲得し、誤認識補正辞書302に補正ルールを登録する。
辞書更新部209は、認識履歴テーブル303及び補正履歴テーブル304に記録されている情報を基に誤認識補正辞書302に対象幼児が習得した単語の補正ルールを削除する。辞書更新部209は、最も高いマッチング度に基づいて、誤認識補正辞書(第2辞書)302を修正する。発話単語に一致する補正単語と、補正単語に対応する誤認識単語との対応関係を修正することによって誤認識補正辞書302が修正される。辞書更新部209は、発話単語が誤認識補正辞書(第2辞書)302に含まれており、最も高いマッチング度が第1閾値以上である場合は、発話単語に一致する補正単語と、補正単語に対応する誤認識単語との組合せを誤認識補正辞書(第2辞書)302から削除する。なお、誤認識補正辞書302の更新方法については図7を用いて後述する。
音声出力部300は、例えばスピーカであり、音声合成部206によって生成された音声データを出力する。音声出力部300は、音声対話処理装置200が実装された端末又はロボットに組み込まれてもよいし、有線又は無線によって音声対話処理装置200が実装された端末に接続してもよい。また、音声出力部300は、スマートフォン又はタブレット端末などの集音及び通信機能を持つデバイスに搭載されたスピーカであってもよい。
図6は、本実施の形態1における音声認識処理について説明するためのフローチャートである。図6を用いて対象幼児の音声認識処理について説明する。
まず、発話抽出部201は、音声入力部100から音声信号が入力されたか否かを判断する(ステップS1)。ここで、音声信号が入力されていないと判断された場合(ステップS1でNO)、音声信号が入力されるまでステップS1の処理が繰り返される。
一方、音声信号が入力されたと判断された場合(ステップS1でYES)、発話抽出部201は、音声信号から発話を抽出する(ステップS2)。
次に、対象幼児判定部202は、発話抽出部201によって抽出された発話の発話者が対象幼児であるか否かを判定する(ステップS3)。このとき、対象幼児判定部202は、発話から抽出された声紋とメモリ30に予め記憶された対象幼児の声紋とを比較することによって、発話者が対象幼児であるか否かを判定する。ここで、発話者が対象幼児ではないと判定された場合(ステップS3でNO)、ステップS1の処理に戻る。
一方、発話者が対象幼児であると判定された場合(ステップS3でYES)、音声認識部203は、音響モデルにより発話を構成する音素列を推定する(ステップS4)。例えば、「りんごおいてー」と対象幼児が発話した場合、推定される音素列は「ringooite:」となる。
次に、音声認識部203は、推定した音素列と幼児語彙辞書301に登録されている登録音素列とを比較し、推定した音素列とのマッチング度が最も高い登録単語列に対応する単語を幼児語彙辞書301から抽出する(ステップS5)。音声認識部203は、抽出した単語を認識結果として出力する。例えば、図2に示す幼児語彙辞書301において、レーベシュタイン距離をマッチング度に用いる場合、推定された音素列である「oite:」と登録単語列である「oite」とのレーベシュタイン距離は、0.2となり、推定された音素列である「oite:」と登録単語列である「oishi:」とのレーベシュタイン距離は、0.6となる。レーベシュタイン距離の値が小さいほど、2つの音素列の類似度は高いため、「りんご置いて」が認識結果となる。
次に、履歴情報更新部207は、幼児語彙辞書301から抽出した単語のマッチング度を、抽出した単語と同じ単語に対応する習熟度として登録し、認識履歴テーブル303を更新する(ステップS6)。例えば、レーベシュタイン距離をマッチング度に用いる場合、レーベシュタイン距離の値が小さいほど類似度が高くなる。そのため、履歴情報更新部207は、値が大きいほど類似度が高くなるようにするために、1からレーベシュタイン距離を引いた値を習熟度として登録する。なお、単語と習熟度とを対応付けたエントリが認識履歴テーブル303に格納されていない場合、履歴情報更新部207は、単語と習熟度とを対応付けた新たなエントリを認識履歴テーブル303に作成する。
次に、音声認識部203は、誤認識補正辞書302を探索し、抽出した単語が誤認識補正辞書302に誤認識単語として登録されているか否かを判断する(ステップS7)。ここで、抽出した単語が誤認識補正辞書302に登録されていると判断した場合(ステップS7でYES)、履歴情報更新部207は、補正履歴テーブル304の誤認識単語に対応するタイムスタンプを現在の日付に変更し、補正履歴テーブル304を更新する(ステップS8)。なお、誤認識単語と補正単語とタイムスタンプとを対応付けたエントリが補正履歴テーブル304に格納されていない場合、履歴情報更新部207は、誤認識単語と補正単語とタイムスタンプとを対応付けた新たなエントリを補正履歴テーブル304に作成する。
次に、音声認識部203は、幼児語彙辞書301から抽出した単語を、抽出した単語と同じ誤認識単語に対応付けられている補正単語に変換し、変換した補正単語を認識結果として出力する(ステップS9)。なお、ステップS8の処理とステップS9の処理とは入れ替えてもよい。
一方、抽出した単語が誤認識補正辞書302に登録されていないと判断した場合(ステップS7でNO)、音声認識部203は、幼児語彙辞書301から抽出した単語を認識結果として出力する(ステップS10)。
図7は、本実施の形態1における誤認識補正辞書を修正する処理を説明するためのフローチャートである。図7を用いて辞書更新部209による誤認識補正辞書302に登録されている補正ルールの削除について説明する。
まず、辞書更新部209は、音声認識部203から認識結果を取得する(ステップS21)。
次に、辞書更新部209は、認識履歴テーブル303を参照し、認識結果に含まれる単語毎の習熟度を取得する(ステップS22)。例えば、認識結果が「りんごおいしい」であった場合、辞書更新部209は、「りんご」及び「おいしい」のそれぞれの単語に対して認識履歴テーブル303を参照し、それぞれの単語の習熟度を取得する。図4の認識履歴テーブル303の例では、「りんご」の習熟度は0.9であり、「おいしい」の習熟度は0.8である。
次に、辞書更新部209は、取得した習熟度が閾値以上である単語が存在するか否かを判断する(ステップS23)。ここで、習熟度が閾値以上である単語が存在しないと判断された場合(ステップS23でNO)、処理を終了する。
一方、習熟度が閾値以上である単語が存在する場合(ステップS23でYES)、辞書更新部209は、習熟度が閾値以上である単語のうち、誤認識補正辞書302に補正単語として登録されている単語が存在するか否かを判断する(ステップS24)。辞書更新部209は、閾値以上であった単語を幼児が発話できるようになったと判断し、当該単語を補正ルールの削除候補とする。例えば、幼児が単語を発話できるようになったと判断する習熟度の閾値を0.7とした場合、図4の認識履歴テーブル303の例では、「りんご」及び「おいしい」の単語の習熟度は、ともに0.7以上であるため、2つの単語は、補正ルールの削除候補となる。補正ルールの削除候補となった単語は、誤認識補正辞書302に補正単語として登録されているか否かが確認される。
ここで、誤認識補正辞書302に補正単語として登録されている単語が存在しないと判断された場合(ステップS24でNO)、誤認識補正辞書302に補正ルールが登録されていないため処理を終了する。例えば、図3の誤認識補正辞書302の場合、「りんご」は補正単語として登録されていないと判断され、「おいしい」は補正単語として登録されていると判断される。
一方、誤認識補正辞書302に補正単語として登録されている単語が存在すると判断された場合(ステップS24でYES)、辞書更新部209は、誤認識補正辞書302に補正単語として登録されている単語に対応するタイムスタンプを補正履歴テーブル304から取得する(ステップS25)。タイムスタンプは、補正ルールが前回適用された日付を示す。
次に、辞書更新部209は、取得したタイムスタンプのうち、予め設定された所定の期間より以前のタイムスタンプが存在するか否かを判断する(ステップS26)。ここで、所定の期間より以前のタイムスタンプが存在しないと判断された場合(ステップS26でNO)、処理を終了する。
一方、所定の期間より以前のタイムスタンプが存在すると判断された場合(ステップS26でYES)、辞書更新部209は、所定の期間より以前のタイムスタンプに対応する誤認識単語及び補正単語は利用されなくなったと判断し、当該タイムスタンプに対応する誤認識単語及び補正単語を誤認識補正辞書302から削除する(ステップS27)。補正ルール(所定の期間より以前のタイムスタンプに対応する誤認識単語及び補正単語)が利用されなくなったと判断する所定の期間は、例えば、1ヶ月間である。
例えば、図3の誤認識補正辞書302の場合、補正単語である「おいしい」は、誤認識単語である「置いて」と対応付けて登録されているため、辞書更新部209は、補正履歴テーブル304を参照する。図5の補正履歴テーブル304に記録されている「おいしい」という補正単語に対応するタイムスタンプは「20160401」(2016年4月1日)である。現在の日付が2016年6月20日である場合、辞書更新部209は、1ヶ月以上補正ルールが適用されていないと判断し、「置いて」を「おいしい」と補正する補正ルールを削除する。
なお、レーベシュタイン距離などの認識音素列と辞書登録単語の音素列との距離を習熟度として用いる場合、距離は短い方が類似していると判断される。そのため、ステップS23において設定される閾値よりも習熟度が小さい場合に正しい発話を習得したと判断してもよく、正しい発話を習得したか否かの判断基準は、習熟度として採用する値に依存して決定される。
図8は、本実施の形態1において、誤認識補正辞書に登録されていない誤認識単語及び補正単語を登録する処理を説明するための第1のフローチャートであり、図9は、本実施の形態1において、誤認識補正辞書に登録されていない誤認識単語及び補正単語を登録する処理を説明するための第2のフローチャートである。図8及び図9を用いて補正ルール登録部208による誤認識補正辞書302に登録されていない誤認識単語及び補正単語の登録について説明する。
まず、補正ルール登録部208は、意図理解部204による意図理解の結果により対象幼児との対話が成立したか否かを判断する(ステップS31)。ここで、対話が成立したと判断された場合(ステップS31でYES)、処理を終了する。
一方、対話が成立していないと判断された場合(ステップS31でNO)、補正ルール登録部208は、対話が成立しなかった発話の再入力を受け付ける(ステップS32)。補正ルール登録部208は、対話が成立しなかった発話を再度発話するように対象幼児に促す音声を音声出力部300に出力させる。対象幼児は、音声出力部300から出力された音声に従って、対話が成立しなかった発話を再度発話する。
次に、発話抽出部201は、音声入力部100から音声信号が入力されたか否かを判断する(ステップS33)。ここで、音声信号が入力されていないと判断された場合(ステップS33でNO)、ステップS32の処理に戻り、音声信号が入力されるまでステップS32及びステップS33の処理が繰り返される。
一方、音声信号が入力されたと判断された場合(ステップS33でYES)、補正ルール登録部208は、音声入力部100から入力される音声信号の録音を開始する(ステップS34)。録音データは、メモリ30に記憶される。
次に、補正ルール登録部208は、音声認識部203から認識結果を取得する(ステップS35)。この際、音声信号が入力されてから音声認識部203が認識結果を出力するまでの処理は、図6のステップS2からステップS5までの処理と同じである。すなわち、発話抽出部201は、音声信号から発話を抽出し、対象幼児判定部202は、発話抽出部201によって抽出された発話の発話者が対象幼児であるか否かを判定する。発話者が対象幼児であると判定された場合、音声認識部203は、音響モデルにより発話を構成する音素列を推定する。次に、音声認識部203は、推定した音素列と幼児語彙辞書301に登録されている登録音素列とを比較し、推定した音素列とのマッチング度が最も高い登録単語列に対応する単語を幼児語彙辞書301から抽出する。そして、音声認識部203は、抽出した単語を認識結果として出力する。
次に、補正ルール登録部208は、認識結果である認識単語のマッチング度が閾値より大きいか否かを判断する(ステップS36)。このとき、閾値は、図7のステップS23の判断処理に用いられる閾値よりも小さいことが好ましい。すなわち、図7のステップS23の判断処理に用いられる閾値が例えば0.7である場合、ステップS36の判断処理に用いられる閾値は例えば0.4であることが好ましい。
ここで、認識単語のマッチング度が閾値以下であると判断された場合(ステップS36でNO)、補正ルール登録部208は、認識単語が既知の単語であると判断し、録音データを破棄する(ステップS37)。
一方、認識単語のマッチング度が閾値より大きいと判断された場合(ステップS36でYES)、補正ルール登録部208は、認識単語が誤認識単語として誤認識補正辞書302に登録されているか否かを判断する(ステップS38)。ここで、認識単語が誤認識単語として誤認識補正辞書302に登録されていると判断された場合(ステップS38でYES)、ステップS37の処理へ移行する。
一方、認識単語が誤認識単語として誤認識補正辞書302に登録されていないと判断された場合(ステップS38でNO)、補正ルール登録部208は、認識単語が誤認識補正辞書302に登録されていない未知の単語であると判断し、録音データを保存する(ステップS39)。このようにして、誤認識補正辞書302に誤認識単語として登録すべき単語を含む対象幼児の発話した録音データが保存される。
次に、補正ルール登録部208は、録音データを再生する(ステップS40)。なお、ステップS40の処理は、ステップS39の処理に続けて行われる必要はなく、録音データが保存された後であれば、いつ行われてもよい。例えば、対象幼児の親は、再生された録音データを聞き、対象幼児が発話した単語を補正した補正単語を発話する。
次に、発話抽出部201は、音声入力部100から音声信号が入力されたか否かを判断する(ステップS41)。ここで、音声信号が入力されていないと判断された場合(ステップS41でNO)、音声信号が入力されるまでステップS41の処理が繰り返される。
一方、音声信号が入力されたと判断された場合(ステップS41でYES)、補正ルール登録部208は、音声認識部203から認識結果を取得する(ステップS42)。この際、発話抽出部201は、音声信号から発話を抽出する。発話者は、対象幼児ではないため、対象幼児判定部202による発話者が対象幼児であるか否かの判定は行われない。音声認識部203は、音響モデルにより発話を構成する音素列を推定する。次に、音声認識部203は、推定した音素列と幼児語彙辞書301に登録されている登録音素列とを比較し、推定した音素列とのマッチング度が最も高い登録単語列に対応する単語を幼児語彙辞書301から抽出する。そして、音声認識部203は、抽出した単語を認識結果として出力する。
次に、補正ルール登録部208は、ステップS35で取得した認識単語を誤認識単語とし、ステップS42で取得した認識結果である認識単語を補正単語として、誤認識単語及び補正単語を互いに対応付けて誤認識補正辞書302に登録する(ステップS43)。
図10は、本実施の形態1において、対象幼児と音声対話システムとの具体的な対話の一例を示す図である。図10では、対象幼児と音声対話システムとの対話が成立しなかった場合の例を示している。図10において、対象幼児の発話は「C」で示され、音声対話システムの応答は「S」で示される。
まず、発話C1において、対象幼児は、「りんごおいしい」という意味で発話しているが、実際には「りんごおいてー」と発話している。一方で、音声対話システムは、「りんご置いて」と誤認識しているため、応答S1において、音声対話システムは、「りんごを置くの?」という応答になる。このとき、対象幼児は、応答内容が自身の発話の意図と異なるため、発話C2において、「ちがう」と否定的な発話を行う。これに対し、応答S2において、音声対話システムは、「もう一度言って」と聞き返す。次に、発話C3において、対象幼児は、再び「りんごおいてー」と発話する。音声対話システムは、再び「りんご置いて」と認識した場合、当該認識結果は誤認識であると判断する。
このとき、補正ルール登録部208は、聞き返すタイミングで対象幼児との会話内容を録音する。誤認識であると判断された場合、補正ルール登録部208は、親に対して録音した音声を再生し、「“りんご置いて”といっているのではないのですか?“りんご置いて”の正しい意味を教えてください」と発話し、親に対して正しい意味の発話を促す。親は、「りんごおいしい」と正しい意味の単語を発話することで、音声対話システムは、「置いて」が「おいしい」であるという知識を習得し、補正ルール登録部208は、「置いて」を「おいしい」に補正する補正ルールを誤認識補正辞書302に登録する。
以上で述べた本実施の形態1の音声対話システムによれば、辞書更新部209によって、認識履歴テーブル303に記録される単語の習熟度と補正履歴テーブル304に記録される補正頻度とに基づいて対象幼児が正しい単語の発話を習得したか否かが判断され、対象幼児が正しい発話を習得したと判断された場合は、誤認識補正辞書302に登録されている補正ルール(誤認識単語及び補正単語)が削除される。これにより、対象幼児が単語の正しい発話を習得していない段階で補正ルールを削除するという危険性を回避することが可能となる。
なお、辞書更新部209は、誤認識補正辞書302に登録される誤認識単語と補正単語とを対応付けた補正ルールのうち、習得したと判断した単語の補正ルールを削除するのではなく、フラグ等により補正ルールに対応するエントリを無効化してもよく、新たな補正ルールが追加登録される場合に無効化したエントリに上書きしてもよい。
また、本実施の形態1において、補正履歴テーブル304は、対象幼児が単語の正確な発音を習得したか否かを判断する基準として、補正ルールが適用された日付を示すタイムスタンプを格納しているが、本開示は特にこれに限定されない。図11は、本実施の形態1における補正履歴テーブルの他の例を示す図である。図11に示すように、補正履歴テーブルは、補正ルールが利用された頻度を示す補正頻度を格納してもよく、例えば1ヶ月間に補正された回数を補正頻度として格納してもよい。補正頻度が所定の閾値以下になったタイミングで削除候補として補正ルールが記憶される。辞書更新部209は、削除候補として記憶された補正ルールがさらに所定の期間適用されなかった場合に、当該削除ルールを削除してもよい。このように、削除の判断を段階的にすることにより、対象幼児が誤認識単語を確実に発話しなくなった補正ルールを削除することができる。
なお、補正履歴テーブルが、対象幼児(対象発話者)が補正単語を意図して誤認識単語を発話した頻度との対応関係を含むのではなく、誤認識補正辞書302が、対象幼児(対象発話者)が発話単語に一致する誤認識単語を発話した頻度と、誤認識単語との対応関係を含んでもよい。そして、辞書更新部209は、発話単語が補正単語として誤認識補正辞書(第2辞書)302に登録されており、最も高いマッチング度が第1閾値以上であり、発話単語に一致する誤認識単語に対応する頻度が第2閾値以下である場合は、発話単語に一致する補正単語と、補正単語に対応する誤認識単語との組合せを誤認識補正辞書(第2辞書)302から削除してもよい。
また、本実施の形態1において、認識履歴テーブル303は、対象幼児が単語の正確な発音を習得したか否かを判断する基準として、単語と習熟度とを対応付けて格納しているが、本開示は特にこれに限定されない。図12は、本実施の形態1における認識履歴テーブルの他の例を示す図である。図12に示すように、認識履歴テーブルは、習熟度が閾値を超えた発話の発話頻度をさらに格納してもよく、例えば1ヶ月間に習熟度が閾値を越えた回数を発話頻度として格納してもよい。辞書更新部209は、習熟度が所定の閾値を越えた単語が所定の回数以上発話された場合に、当該単語を含む補正ルールを削除するか否かを、補正履歴テーブル304を用いて判断してもよい。これにより、対象幼児がより正確に発話できるようになった単語を含む不必要な補正ルールを削除することができる。
また、辞書更新部209は、音声認識結果が得られたタイミングで誤認識補正辞書302を更新するのではなく、定期的に認識履歴テーブル303に登録されている単語の習熟度をチェックし、習熟度が閾値を超える全単語に対して補正ルールが削除可能か否かを判断してもよい。すなわち、辞書更新部209は、最も高いマッチング度に対応する第1単語に、マッチング度を対応付けて認識履歴テーブル303(履歴テーブル)へ記録する処理を所定回数繰り返した場合、認識履歴テーブル303(履歴テーブル)のマッチング度に基づいて、誤認識補正辞書(第2辞書)302に登録されている誤認識単語(第2単語)と補正単語(第3単語)との対応関係を修正することによって誤認識補正辞書(第2辞書)が修正されてもよい。これにより、音声認識時の処理負荷を軽減させることが可能となる。
また、本実施の形態1における対象発話者は対象幼児であるが、本開示は特にこれに限定されず、対象発話者は、正確に単語を発音することができない特定の人物であってもよい。例えば、対象発話者は、外国語を学習している特定の人物であってもよい。
また、本実施の形態1では、日本語の音声認識における誤認識の補正に用いられる辞書を修正しているが、本開示は特にこれに限定されず、例えば、英語又は中国語などの日本語以外の言語の音声認識における誤認識の補正に用いられる辞書を修正してもよい。
(実施の形態2)
実施の形態2における音声対話処理装置200の構成は、図1に実施の形態1における音声対話処理装置200の構成から履歴情報更新部207、認識履歴テーブル303及び補正履歴テーブル304を省略したものであるので、説明を省略する。
図13は、本実施の形態2において音声認識における誤認識の補正に用いられる誤認識補正辞書を修正する辞書修正方法を説明するためのフローチャートである。
ステップS51〜ステップS55の処理は、図6に示すステップS1〜ステップS5の処理と同じである。
次に、辞書更新部209は、抽出された単語のマッチング度が所定の閾値を越えたか否かを判断する(ステップS56)。ここで、抽出された単語のマッチング度が所定の閾値を越えていないと判断された場合(ステップS56でNO)、処理を終了する。
一方、抽出された単語のマッチング度が所定の閾値を越えたと判断された場合(ステップS56でYES)、辞書更新部209は、抽出された単語が誤認識補正辞書302に補正単語として登録されているか否かを判断する(ステップS57)。ここで、抽出された単語が誤認識補正辞書302に補正単語として登録されていないと判断された場合(ステップS57でNO)、処理を終了する。
一方、抽出された単語が誤認識補正辞書302に補正単語として登録されていると判断された場合(ステップS57でYES)、辞書更新部209は、抽出された単語である補正単語と、当該補正単語に対応する誤認識単語とは利用されなくなったと判断し、当該誤認識単語及び当該補正単語を誤認識補正辞書302から削除する(ステップS58)。
(実施の形態3)
図14は、本開示の実施の形態3に係るロボットの外観斜視図である。ロボット1は、図14に示すように、球体状の筐体101を備える。筐体101は、例えば、透明な部材又は半透明の部材で構成される。
図15は、本開示の実施の形態3に係るロボットの内部斜視図である。
図15において、フレーム102が筐体101の内側部に配置されている。フレーム102は、第1回転板103及び第2回転板104を備える。第1回転板103は、第2回転板104に対して上方に位置している。
図15に示すように、第1表示部105及び第2表示部106は、第1回転板103の上面に備え付けられている。また、第3表示部107は第2回転板104の上面に備え付けられている。第1表示部105、第2表示部106及び第3表示部107は、例えば、複数の発光ダイオードにより構成される。第1表示部105、第2表示部106及び第3表示部107は、ロボットの表情の表示情報を表示する。具体的には、第1表示部105、第2表示部106及び第3表示部107は、複数の発光ダイオードの点灯を個別に制御することにより、図14に示すように、ロボット1の顔の一部、例えば、目や口を表示する。図14の例では、第1表示部105が右目の画像を表示し、第2表示部106が左目の画像を表示し、第3表示部107が口の画像を表示している。そして、左目、右目、口の画像は、透明又は半透明の部材からなる筐体101を透過し、外部に放射されている。
カメラ108は、図15に示すように、第1回転板103の上面に備え付けられている。カメラ108は、ロボット1の周辺環境の映像を取得する。カメラ108は、図14に示すように、ロボット1の顔の一部、例えば、鼻を構成する。したがって、カメラ108の光軸はロボット1の前方に向かうことになる。これにより、カメラ108は正面に差し出された認識対象物を撮影できる。
マイク217は、ロボット1の周辺環境の音声を取得する。マイク217は、フレーム102に備え付けられ、音を電気信号に変換し、主制御部230に出力する。マイク217は、例えば、第1回転板103の上面に取り付けられてもよいし、第2回転板104の上面に取り付けられてもよい。マイク217は、図14に示すように、ロボット1の額の位置に配置され、ロボット1の額に相当する位置の筐体101には、小さな穴が形成されている。
スピーカ216は、出力面が正面を向くようにフレーム102に備え付けられ、音声の電気信号を物理振動に変換する。スピーカ216は、図14に示すように、ロボット1の顎の位置に配置され、ロボット1の顎に相当する位置の筐体101には、複数の小さな穴が形成されている。主制御部230は、所定の音声をスピーカ216から出力することで、ロボット1に発話させる。
制御回路109は、図15に示すように、第1回転板103の上面に備え付けられている。制御回路109は、ロボット1の各種動作を制御する。制御回路109の詳細は、図16を参照しながら後述する。
第1駆動輪110及び第2駆動輪111は、それぞれ、第2回転板104の下面に備え付けられており、筐体101の内周面に接している。また、第1駆動輪110は、第1駆動輪110を駆動させる第1モータ112を有する。同様に、第2駆動輪111は、第2駆動輪111を駆動させる第2モータ113を有する。即ち、第1駆動輪110及び第2駆動輪111は、それぞれ独立した個別のモータによって駆動される。第1駆動輪110及び第2駆動輪111は、一組の駆動輪を構成する。
第1駆動輪110及び第2駆動輪111を前方方向に回転させると、その動力によって筐体101は前方方向に回転する。これにより、ロボット1は前進する。逆に、第1駆動輪110及び第2駆動輪111を後方方向に回転させると、ロボット1は後進する。
また、第1駆動輪110及び第2駆動輪111を互いに逆方向に回転させると、その動力によって筐体101は、その中心を通過する鉛直軸回りの回転動作を行う。即ち、ロボット1は、その場で左回り又は右回りに回転する。ロボット1は、このような前進、後進又は回転動作によって移動する。
カウンターウェイト114は、第1回転板103と第2回転板104との間に設けられている。カウンターウェイト114は、筐体101の中心からやや下方に位置する。このため、ロボット1の重心は、筐体101の中心から下方に位置する。これにより、ロボット1の動作を安定させることができる。
ロボット1は、図略の電源をさらに備える。ロボット1は、図略の充電器により充電される。
次に、図16を参照しつつ、本開示の実施の形態3に係るロボット1の内部回路の詳細について説明する。図16は、本開示の実施の形態3に係るロボットの構成を示すブロック図である。
図16に示すように、ロボット1は、制御回路109、表示部211、筐体駆動輪制御部214、筐体駆動輪212、重り駆動機構制御部215、重り駆動機構218、マイク217、スピーカ216及びカメラ108を備える。
制御回路109は、メモリ236と、CPU等のプロセッサで構成された主制御部230と、表示情報出力制御部235とで構成されている。
メモリ236は、例えば、不揮発性の書き換え可能な記憶装置で構成され、ロボット1の制御プログラムなどを記憶する。
主制御部230は、メモリ236に記憶されているロボット1の制御プログラムを実行する。これにより、主制御部230は、移動制御部231及び音声対話処理部234として機能する。
音声対話処理部234は、図1に示す発話抽出部201、対象幼児判定部202、音声認識部203、意図理解部204、応答生成部205、音声合成部206、履歴情報更新部207、補正ルール登録部208及び辞書更新部209を備える。また、メモリ236は、図1に示す幼児語彙辞書301、誤認識補正辞書302、認識履歴テーブル303及び補正履歴テーブル304を備える。また、マイク217は、図1に示す音声入力部100の機能を備え、スピーカ216は、図1に示す音声出力部300の機能を備える。
音声対話処理部234は、マイク217からの発話者の音声を認識し、認識結果を基に発話内容の意図を理解し、発話内容の意図に応じた応答発話を生成し、生成した応答発話をスピーカ216から出力する。
本実施の形態3の音声対話処理部234の動作は、実施の形態1の音声対話処理装置200の動作と同じであるので、説明を省略する。
カメラ108は、図15において説明したように、ロボット1の前方の画像を撮像し、撮像した画像(以下、撮像画像)を主制御部230に出力する。主制御部230は、カメラ108から取得した撮像画像からユーザの顔の有無、位置、及び大きさを認識し、顔認識結果をメモリ236に蓄積することで、顔認識結果を管理する。
移動制御部231は、ロボット1の移動を制御する。移動制御部231は、音声認識結果や顔認識結果に基づきコマンドを生成し、表示情報出力制御部235、筐体駆動輪制御部214及び重り駆動機構制御部215等に出力する。
表示情報出力制御部235は、移動制御部231から送信されるコマンドに応じたロボット1の表情の表示情報を表示部211に表示する。表示部211は、図15において説明した第1表示部105、第2表示部106及び第3表示部107により構成される。
筐体駆動輪制御部214は、移動制御部231から送信されるコマンドに応じて、ロボット1の筐体駆動輪212を動作させる。筐体駆動輪制御部214は、図15において説明した、第1モータ112及び第2モータ113で構成される。筐体駆動輪212は、図15において説明した第1駆動輪110及び第2駆動輪111により構成される。筐体駆動輪212及び筐体駆動輪制御部214が移動機構の一例に相当する。
重り駆動機構制御部215は、移動制御部231から送信されるコマンドに応じて、ロボット1の重り駆動機構218を動作させる。重り駆動機構制御部215は、カウンターウェイト114に内蔵された、図示しない重り駆動用モータで構成される。重り駆動機構218は、カウンターウェイト114の位置を移動させることにより、ロボット1の姿勢を制御する。
本開示において、ユニット、装置、部材又は部の全部又は一部、又は図に示されるブロック図の機能ブロックの全部又は一部は、半導体装置、半導体集積回路(IC)、又はLSI(Large Scale Integration)を含む一つ又は複数の電子回路によって実行されてもよい。LSI又はICは、一つのチップに集積されてもよいし、複数のチップを組み合わせて構成されてもよい。例えば、記憶素子以外の機能ブロックは、一つのチップに集積されてもよい。ここでは、LSIやICと呼んでいるが、集積の度合いによって呼び方が変わり、システムLSI、VLSI(Very Large Scale Integration)、若しくはULSI(Ultra Large Scale Integration)と呼ばれるものであってもよい。LSIの製造後にプログラムされる、Field Programmable Gate Array(FPGA)、又はLSI内部の接合関係の再構成又はLSI内部の回路区画のセットアップができるReconfigurable Logic Deviceも同じ目的で使うことができる。
さらに、ユニット、装置、部材又は部の全部又は一部の機能又は操作は、ソフトウエア処理によって実行することが可能である。この場合、ソフトウエアは一つ又は複数のROM、光学ディスク、ハードディスクドライブなどの非一時的記録媒体に記録され、ソフトウエアが処理装置(Processor)によって実行されたときに、そのソフトウエアで特定された機能が処理装置(Processor)および周辺装置によって実行される。システム又は装置は、ソフトウエアが記録されている一つ又は複数の非一時的記録媒体、処理装置(Processor)、及び必要とされるハードウエアデバイス、例えばインターフェース、を備えていてもよい。
本開示に係る辞書修正方法、辞書修正プログラム、音声処理装置及びロボットは、発話者の言語習得段階に合わせて音声処理装置に用いられる辞書を修正することがき、音声認識の精度を向上させることができ、音声処理装置に用いられる辞書を修正する辞書修正方法、辞書修正プログラム、音声処理装置及びロボットとして有用である。
1 ロボット
20 CPU
30 メモリ
100 音声入力部
101 筐体
200 音声対話処理装置
201 発話抽出部
202 対象幼児判定部
203 音声認識部
204 意図理解部
205 応答生成部
206 音声合成部
207 履歴情報更新部
208 補正ルール登録部
209 辞書更新部
211 表示部
212 筐体駆動輪
214 筐体駆動輪制御部
215 駆動機構制御部
216 スピーカ
217 マイク
218 駆動機構
230 主制御部
231 移動制御部
234 音声対話処理部
235 表示情報出力制御部
236 メモリ
300 音声出力部
301 幼児語彙辞書
302 誤認識補正辞書
303 認識履歴テーブル
304 補正履歴テーブル

Claims (7)

  1. 音声処理装置に用いられる辞書を修正する方法であって、
    前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出し、
    前記発話を構成する発話音素列を推定し、
    第1辞書を用いて、前記発話音素列と、前記第1辞書に登録されている第1単語に対応する第1音素列とのマッチング度を算出し、前記第1辞書は、前記音声処理装置に備えられたメモリに記憶され、前記第1単語と前記第1音素列との対応関係を示し、
    最も高い前記マッチング度に対応する前記第1単語を、前記対象発話者が発話した発話単語として前記第1辞書から抽出し、
    前記最も高いマッチング度に基づいて、第2辞書を修正し、前記第2辞書は、第2単語と第3単語との対応関係を示し、前記第3単語は、前記第2単語を意図して前記対象発話者が発話する言語単位に対応し、
    前記発話単語が前記第3単語として前記第2辞書に登録されている場合は、前記発話単語を、前記発話単語に一致する前記第3単語に対応する前記第2単語に変換し、
    前記第2辞書の修正において、前記発話単語が前記第2単語として前記第2辞書に登録されており、前記最も高いマッチング度が第1閾値以上である場合は、前記発話単語に一致する前記第単語と、前記第単語に対応する前記第単語との組合せを前記第2辞書から削除することによって前記第2辞書が修正される、
    方法。
  2. 前記第2辞書は、更に、前記対象発話者が前記発話単語に一致する前記第3単語を発話した頻度と、前記第2単語との対応関係を含み、
    前記発話単語が前記第2単語として前記第2辞書に登録されており、前記最も高いマッチング度が第1閾値以上であり、前記発話単語に一致する前記第2単語に対応する前記第3単語の前記頻度が第2閾値以下である場合は、前記発話単語に一致する前記第2単語と、前記第2単語に対応する前記第3単語との組合せを前記第2辞書から削除することによって前記第2辞書が修正される、
    請求項1記載の方法。
  3. 前記対象発話者は、前記音声処理装置における音声認識の対象である対象幼児であり、
    前記発話から抽出された声紋と前記メモリに予め記憶された前記対象幼児の声紋とを比較することによって、前記発話者が前記対象幼児であるか否かを判定し、
    前記発話者が前記対象幼児であると判定された場合、前記発話音素列を推定する、
    請求項1又は2記載の方法。
  4. 更に、前記メモリは、前記第1単語と、前記マッチング度との対応関係を示す履歴テーブルを記憶しており、
    前記最も高いマッチング度に対応する前記第1単語に、前記マッチング度を対応付けて前記履歴テーブルへ記録する処理を所定回数繰り返し、前記第1単語が前記第2単語として前記第2辞書に登録されており、前記履歴テーブルの前記第1単語の前記マッチング度が前記第1閾値以上である場合は前記第1単語に一致する前記第2単語と、前記第2単語に対応する前記第3単語との組合せを前記第2辞書から削除することによって前記第2辞書が修正される、
    請求項1記載の方法。
  5. 音声処理装置に用いられる辞書を修正するプログラムであって、
    前記音声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出するステップと、
    前記発話を構成する発話音素列を推定するステップと、
    第1辞書を用いて、前記発話音素列と、前記第1辞書に登録されている第1単語に対応する第1音素列とのマッチング度を算出するステップと、前記第1辞書は、前記音声処理装置に備えられたメモリに記憶され、前記第1単語と前記第1音素列との対応関係を示し、
    最も高い前記マッチング度に対応する前記第1単語を、前記対象発話者が発話した発話単語として前記第1辞書から抽出するステップと、
    前記最も高いマッチング度に基づいて、第2辞書を修正するステップと、前記第2辞書は、第2単語と第3単語との対応関係を示し、前記第3単語は、前記第2単語を意図して前記対象発話者が発話する言語単位に対応し、
    前記発話単語が前記第3単語として前記第2辞書に登録されている場合は、前記発話単語を、前記発話単語に一致する前記第3単語に対応する前記第2単語に変換するステップと、
    をプロセッサに実行させ、
    前記第2辞書を修正するステップにおいて、前記発話単語が前記第2単語として前記第2辞書に登録されており、前記最も高いマッチング度が第1閾値以上である場合は、前記発話単語に一致する前記第単語と、前記第単語に対応する前記第単語との組合せを前記第2辞書から削除することによって前記第2辞書が修正される、
    書修正プログラム。
  6. プロセッサと、
    メモリと、を備え、
    前記プロセッサは、
    声処理装置に対応するマイクによって収音された音から対象発話者の発話を抽出し、
    前記発話を構成する発話音素列を推定し、
    第1辞書を用いて、前記発話音素列と、前記第1辞書に登録されている第1単語に対応する第1音素列とのマッチング度を算出し、前記第1辞書は、前記メモリに記憶され、前記第1単語と前記第1音素列との対応関係を示し、
    最も高い前記マッチング度に対応する前記第1単語を、前記対象発話者が発話した発話単語として前記第1辞書から抽出し、
    前記最も高いマッチング度に基づいて、第2辞書を修正し、前記第2辞書は、第2単語と第3単語との対応関係を示し、前記第3単語は、前記第2単語を意図して前記対象発話者が発話する言語単位に対応し、
    前記発話単語が前記第3単語として前記第2辞書に登録されている場合は、前記発話単語を、前記発話単語に一致する前記第3単語に対応する前記第2単語に変換し、
    前記第2辞書の修正において、前記発話単語が前記第2単語として前記第2辞書に登録されており、前記最も高いマッチング度が第1閾値以上である場合は、前記発話単語に一致する前記第単語と、前記第単語に対応する前記第単語との組合せを前記第2辞書から削除することによって前記第2辞書が修正される、
    音声処理装置。
  7. 請求項記載の音声処理装置と、
    前記音声処理装置を内蔵する筐体と、
    前記筐体を移動させる移動機構と、
    を備えるロボット。
JP2016212625A 2016-10-31 2016-10-31 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット Active JP6821393B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016212625A JP6821393B2 (ja) 2016-10-31 2016-10-31 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット
CN201710748318.1A CN108022582A (zh) 2016-10-31 2017-08-28 辞典修正方法、辞典修正程序、声音处理装置以及机器人
US15/791,447 US10636415B2 (en) 2016-10-31 2017-10-24 Method of correcting dictionary, program for correcting dictionary, voice processing apparatus, and robot

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016212625A JP6821393B2 (ja) 2016-10-31 2016-10-31 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット

Publications (2)

Publication Number Publication Date
JP2018072578A JP2018072578A (ja) 2018-05-10
JP6821393B2 true JP6821393B2 (ja) 2021-01-27

Family

ID=62022523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016212625A Active JP6821393B2 (ja) 2016-10-31 2016-10-31 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット

Country Status (3)

Country Link
US (1) US10636415B2 (ja)
JP (1) JP6821393B2 (ja)
CN (1) CN108022582A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10468017B2 (en) * 2017-12-14 2019-11-05 GM Global Technology Operations LLC System and method for understanding standard language and dialects
US11170762B2 (en) * 2018-01-04 2021-11-09 Google Llc Learning offline voice commands based on usage of online voice commands
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
CN112334975A (zh) * 2018-06-29 2021-02-05 索尼公司 信息处理设备、信息处理方法和程序
WO2021130892A1 (ja) * 2019-12-25 2021-07-01 日本電気株式会社 変換テーブル生成装置、音声対話システム、変換テーブル生成方法、音声対話方法および記録媒体
KR102395164B1 (ko) * 2020-06-26 2022-05-11 카티어스 주식회사 음성 기반 대화 서비스 제공 방법 및 장치
CN112331219B (zh) * 2020-11-05 2024-05-03 北京晴数智慧科技有限公司 语音处理方法和装置
JP7467314B2 (ja) * 2020-11-05 2024-04-15 株式会社東芝 辞書編集装置、辞書編集方法、及びプログラム
US20240112672A1 (en) * 2022-10-04 2024-04-04 Google Llc Generation and utilization of pseudo-correction(s) to prevent forgetting of personalized on-device automatic speech recognition (asr) model(s)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09185616A (ja) 1995-12-28 1997-07-15 Canon Inc 文字処理方法
JP2001022374A (ja) 1999-07-05 2001-01-26 Victor Co Of Japan Ltd 電子番組ガイドの操作装置および電子番組ガイドの送信装置
JP2001249684A (ja) * 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002101203A (ja) * 2000-09-20 2002-04-05 Ricoh Co Ltd 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
US20060106604A1 (en) * 2002-11-11 2006-05-18 Yoshiyuki Okimoto Speech recognition dictionary creation device and speech recognition device
JP2007047412A (ja) * 2005-08-09 2007-02-22 Toshiba Corp 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP4816409B2 (ja) * 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
CN102119412B (zh) * 2008-08-11 2013-01-02 旭化成株式会社 例外语辞典制作装置、例外语辞典制作方法、和声音识别装置和声音识别方法
JP2010266716A (ja) * 2009-05-15 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法及び音声認識プログラム

Also Published As

Publication number Publication date
US10636415B2 (en) 2020-04-28
US20180122365A1 (en) 2018-05-03
CN108022582A (zh) 2018-05-11
JP2018072578A (ja) 2018-05-10

Similar Documents

Publication Publication Date Title
JP6821393B2 (ja) 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット
CN108231070B (zh) 语音对话装置、语音对话方法、记录介质以及机器人
US10276164B2 (en) Multi-speaker speech recognition correction system
JP6550068B2 (ja) 音声認識における発音予測
US9711138B2 (en) Method for building language model, speech recognition method and electronic apparatus
US9640175B2 (en) Pronunciation learning from user correction
US9940932B2 (en) System and method for speech-to-text conversion
US20170025117A1 (en) Speech recognition apparatus and method
US20150325240A1 (en) Method and system for speech input
JP6654611B2 (ja) 成長型対話装置
KR102443087B1 (ko) 전자 기기 및 그의 음성 인식 방법
US20200184958A1 (en) System and method for detection and correction of incorrectly pronounced words
JPWO2018047421A1 (ja) 音声処理装置、情報処理装置、音声処理方法および情報処理方法
US20210134302A1 (en) Electronic apparatus and method thereof
JP6696803B2 (ja) 音声処理装置および音声処理方法
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US11488607B2 (en) Electronic apparatus and control method thereof for adjusting voice recognition recognition accuracy
JP6723907B2 (ja) 言語認識システム、言語認識方法、及び言語認識プログラム
JP5257680B2 (ja) 音声認識装置
KR20210131698A (ko) 발음 기관 영상을 이용한 외국어 발음 교육 방법 및 장치
US20200372900A1 (en) Speech signal processing and evaluation
JP6625961B2 (ja) 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
JP5476760B2 (ja) コマンド認識装置
JP4539313B2 (ja) 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット
JP2002372988A (ja) 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191029

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210106

R151 Written notification of patent or utility model registration

Ref document number: 6821393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151