JP2013205842A - プロミネンスを使用した音声対話システム - Google Patents

プロミネンスを使用した音声対話システム Download PDF

Info

Publication number
JP2013205842A
JP2013205842A JP2013032801A JP2013032801A JP2013205842A JP 2013205842 A JP2013205842 A JP 2013205842A JP 2013032801 A JP2013032801 A JP 2013032801A JP 2013032801 A JP2013032801 A JP 2013032801A JP 2013205842 A JP2013205842 A JP 2013205842A
Authority
JP
Japan
Prior art keywords
utterance
prominence
previous
prosodic
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013032801A
Other languages
English (en)
Other versions
JP6154155B2 (ja
Inventor
Heckmann Martin
ヘックマン マーティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Research Institute Europe GmbH
Original Assignee
Honda Research Institute Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Research Institute Europe GmbH filed Critical Honda Research Institute Europe GmbH
Publication of JP2013205842A publication Critical patent/JP2013205842A/ja
Application granted granted Critical
Publication of JP6154155B2 publication Critical patent/JP6154155B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】
音声対話システムにおいて、直観的でロバストな人間−機械対話を可能とする。
【解決手段】
本方法は、音響信号を受け入れる少なくとも1つの手段(マイクロフォン等)により、発話を受け入れるステップと、処理エンジンを用い、発話を解析して発話から韻律キューを獲得するステップとを含む。前記韻律キューに基づいて前記発話を評価し、当該発話の各部分のプロミネンスを判定し、前記発話を解析して、当該発話が先の発話中の少なくとも1つの部分を置き換えるための少なくとも1つの部分を含んでいることを示すマーカ特徴(否定の陳述など)を検出する。そして、前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定されたプロミネンスに基づいて決定し、前記置き換える部分を、前記発話中の各部分のプロミネンスに基づいて決定して、前記先の発話を前記置き換える部分を用いて評価する。
【選択図】図1

Description

本発明は、音声ベースの人間−機械対話の分野に関する。より正確には、本発明は、音声信号に含まれる韻律情報を組み込むことによる音声対話システムの改善に関する。
音声対話システムは、人間と機械との間の音声に基づく意思伝達を可能にする。音声対話システムの主要な構成要素は、一般に、音声認識器(speech recognizer)、テキスト音声合成(TTS:text-to-speech)システム、応答生成器(response generator)、対話制御器(dialog manager)、知識ベース(knowledge base)、および自然言語理解モジュール(natural language understanding module)のうちの、少なくとも1つである。
人間のスピーチは、話される言葉だけではなく、その言葉がどのように話されるかによっても構成される。これは韻律、すなわち、音声のリズム、速度、強勢、構造、および/または抑揚に現れ、これらを個別に取り出して、あるいはこれらを組み合わせて、韻律キューとして使用することができる。また、発話の他の特徴を韻律キューとして使用することもできる。
そのような韻律キューは、人間−人間の意思伝達において非常に重要な役割を果たし、例えば韻律キューは、句(節の要素)において発話を構造化し、発話における新規な情報を強調し、疑問と陳述とを区別する。
韻律キューを抽出するための様々な手法が提案されている。しかしながら、韻律情報が音声対話システムにおいて使用されることはまれである。
音声言語解析における「発話」は、典型的には、音声の最小単位とされる。発話は、必ずしもそうとは限らないが一般には無音部で囲まれている。
多くの状況において、従来の音声インタフェースは、ユーザが希望または期待するようには機能しない。従来の音声インタフェースは、特に背景雑音が存在する場合や、予期した話し方と異なる話し方がされた場合には、言葉を誤解することが多い。特に、従来のインタフェースは、音声の韻律、すなわち音声のリズム、速度、強勢、構造および/または抑揚については関知しない。
音声インタフェースは、すでに実用自動車の重要な構成要素となっているが、移動通信機器の制御など、他の分野でも重要であり、その重要性は将来一層高まると考えられる。
しかし、従来の音声インタフェースは、直観的にわかり難く誤りを生じやすい。その1つの理由は、従来のシステムが、音声を、人間が解析するようには解析しないことにある。特に、そのようなシステムは、韻律キューに対して「盲目的(blind)」である。システムに韻律キューを組み込めば、当該システムはユーザの目的をよりよく理解することができるようになる。特に、韻律キューの組み込みにより、システムは、より直観的になり、従ってロバストなものとなる。
最も有意な言葉に強勢を置くことは非常に自然な話し方である。このことを考慮すれば、人間−機械対話はより一層自然に、従って人間にとってより容易なものとなる。
後述するように、人間に説明が求められている場合には、強勢を考慮することは特に有用である。従来のシステムでは、説明が行われたり説明が求められている場合でも、発話のどの部分が誤解されていたのかについては関知しない。したがって、その後に続く人間による訂正についての解釈に際し、システムは、最初の発話を解読したときと同じやり方で当該訂正についての発話を解読する。しかしながら、人間は、誤解された語を訂正する際に、その誤解された語を強調する傾向がある。システムに、この強調、すなわちプロミネンスを抽出する能力を与えることにより、システムは追加情報を得ることになり、人間と機械との間の対話が改善される。
音声処理のコンテキストにおいて韻律キューを抽出するための多数の手法がある(非特許文献1〜3参照)。自動音声理解の改善に用いる場合に、複数の音声コーパスからこの情報を抽出し、コーパスの自動音訳(transcription)の改善に用いることが知られている(非特許文献4〜9参照)。ごく最近のシステムとして、韻律を用い、言葉に高低アクセントに応じた異なるスコアを与えることにより、放送ニュースの認識スコアを改善するシステムが知られている(非特許文献10)。このシステムでは、解析される放送ニュースの韻律キューが、基本周波数だけに基づいて決定されている。
韻律使用に関し、良く知られた1つの事例はVerbmobil(バーブモービル)プロジェクト(1993〜2000)(非特許文献11)である。このプロジェクトの目標は、異なる言語を話す人々がコンピュータの支援により相互に口頭で意思伝達できるようにすることである。これを行うため、起点言語での発話の認識が行われ、認識された発話が目標言語に翻訳され、次いで目標言語が再統合されて、出力される。
韻律キューを用い、言葉のプロミネンス情報に基づいて文意の違いを明確にし、韻律的句形成(prosodic phrasing)に関する情報を用いることにより文の句形成を誘導している。導入されたキューは、基本周波数、強度、および持続期間に基づくものである。
他の研究では、視覚チャネル、特に、口領域、眉毛、および頭の動きにおける視覚チャネルも、韻律情報を伝えることが示されている(非特許文献12〜16参照)。少数の研究ではあるが、話者の顔に設けられたマーカを用いて視覚的韻律情報を自動的に抽出することも知られている(非特許文献17〜18参照)。
特許文献1には、韻律特徴を利用して対話行為の標識付け(dialog act tagging)を行うシステムおよび方法が記載されている。対話行為(疑問、躊躇など)は、韻律特徴に基づいている。
特許文献2には、感情検出装置、および分散システムにおいて使用するための方法が記載されている。この文献では、ユーザの感情状態が推測されている。
特許文献3には、音声合成の際に言葉のプロミネンスを予測する方法および装置が記載されている。プロミネンスはテキストから推定され、音声合成の際に使用される。
米国特許第7996214号明細書 米国特許出願公開第2006/0122834号明細書 米国特許第7778819号明細書
Wang, D. & Narayanan, S., An acoustic measure for word prominence in spontaneous speech, Audio, Speech, and Language Processing, IEEE Transactions on, IEEE, 2007, 15, 690-701 Sridhar, R.; Bangalore, S. & Narayanan, S., Exploiting acoustic and syntactic features for automatic prosody labeling in a maximum entropy framework, Audio, Speech, and Language Processing, IEEE Transactions on, IEEE, 2008, 16, 797-811 Jeon, J. & Liu, Y., Syllable-level prominence detection with acoustic evidence, INTERSPEECH, 2010 Wang, M. & Hirschberg, J., Automatic classification of intonational phrase boundaries, Computer Speech & Language, Elsevier, 1992, 6, 175-196 Shriberg, E.; Stolcke, A.; Jurafsky, D.; Coccaro, N.; Meteer, M.; Bates, R.; Taylor, P.; Ries, K.; Martin, R. & Van Ess-Dykema, C., Can prosody aid the automatic classification of dialog acts in conversational speech?, Language and speech, SAGE Publications, 1998, 41, 443 Shriberg, E.; Stolcke, A.; Hakkani-Tur, D. & Tur, G., Prosody-based automatic segmentation of speech into sentences and topics, Speech communication, Elsevier, 2000, 32, 127-154 Ang, J.; Liu, Y. & Shriberg, E., Automatic dialog act segmentation and classification in multiparty meetings, Proc. ICASSP, 2005, 1, 1061-1064 Liu, Y.; Shriberg, E.; Stolcke, A.; Hillard, D.; Ostendorf, M. & Harper, M., Enriching speech recognition with automatic detection of sentence boundaries and disfluencies, Audio, Speech, and Language Processing, IEEE Transactions on, IEEE, 2006, 14, 1526-1540 Rangarajan Sridhar, V.; Bangalore, S. & Narayanan, S., Combining lexical, syntactic and prosodic cues for improved online dialog act tagging, Computer Speech & Language, Elsevier, 2009, 23, 407-422 Jeon, J.; Wang, W. & Liu, Y., N-best rescoring based on pitch-accent patterns, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1, 2011, 732-741 Noth, E.; Batliner, A.; Kiebling, A.; Kompe, R. & Niemann, H., Verbmobil: The use of prosody in the linguistic components of a speech understanding system, IEEE Trans. Speech and Audio Proc., IEEE, 2000, 8, 519-532 Graf, H.; Cosatto, E.; Strom, V. & Huang, F., Visual prosody: Facial movements accompanying speech, Int. Conf. on Automatic Face and Gesture Recognition, 2002, 396-401 Munhall, K.; Jones, J.; Callan, D.; Kuratate, T. & Vatikiotis-Bateson, E., Visual prosody and speech intelligibility, Psychological Science, SAGE Publications, 2004, 15, 133 Beskow, J.; Granstrom, B. & House, D., Visual correlates to prominence in several expressive modes, Proc. of Interspeech, 2006, 1272-1275 Krahmer, E. & Swerts, M., Audiovisual prosody-introduction to the special issue, Language and speech, 2009, 52, 129-133 Prieto, P.; Pugliesi, C.; Borras-Comes, J.; Arroyo, E. & Blat, J., Crossmodal Prosodic and Gestural Contribution to the Perception of Contrastive Focus, Proc. INTERSPEECH, 2011 Dohen, M.; Loevenbruck, H.; Harold, H. et al. Visual correlates of prosodic contrastive focus in French: Description and inter-speaker variability, Proc. Speech Prosody, 2006 Cvejic, E.; Kim, J.; Davis, C. & Gibert, G. Prosody for the Eyes: Quantifying Visual Prosody Using Guided Principal Component Analysis, Proc. INTERSPEECH, 2010
よって本発明の狙いは、音声対話システムの改善であり、特に、人間−機械間意思伝達のための音声インタフェースの改善である。この目的は、独立請求項に記載の方法およびシステムによって達成される。有利な実施形態が従属請求項において定義される。
一態様において、本発明は、音声対話システムにおいて音声を解析する方法を提供する。本方法は、音響信号を受け入れる少なくとも1つの手段、特にマイクロフォンにより、発話を受け入れるステップと、少なくとも1つの処理エンジンを用い、前記発話を解析して前記発話から韻律キューを獲得するステップと、を含む。そして、前記韻律キューに基づいて前記発話を評価して、当該発話の各部分のプロミネンスを判定し、前記発話を解析して、当該発話が先の発話中の少なくとも1つの部分を置き換えるための少なくとも1つの部分を含んでいることを示す少なくとも1つのマーカ特徴、例えば否定の陳述などを検出する。また、前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定された前記プロミネンスに基づいて決定し、前記置き換える部分を、前記発話中の各部分の前記プロミネンスに基づいて決定して、前記先の発話を前記置き換える部分を用いて評価する。
前記発話は、前記先の発話の訂正であり、かつ、語または文である。
前記プロミネンスは、ランク付けに基づいて判定することができる。
プロミネンスは、発話中の各部分の重要さの程度、例えば話者が発話の各部分に置く強調の程度などを表すものとすることができる。
マーカ特徴は、先の発話の少なくとも部分が繰り返されるときに検出される。
前記発話から所定のプロミネンスを有する少なくとも1つの部分、例えば訂正などを抽出し、前記先の発話中の前記置き換えられるべき部分を抽出し、前記抽出された部分についての少なくとも1つの認識仮説を比較し、この比較から、前記先の発話の前記置き換えられるべき部分についての新しい認識仮説を推測することによって、前記先の発話中の前記置き換えられるべき部分を用いて認識精度を改善することができる。
前記マーカ特徴は、前記発話の最初の部分の前記プロミネンスにより判定されるか、または当該プロミネンスと前記発話の語彙解析との組み合わせにより判定されるものとすることができる。
前記発話は、音声/音響信号および/または映像信号の形で解析されるものとすることができる。前記韻律キューは、前記音声/音響信号、前記映像信号(例えば、好ましくは頭および顔を含むユーザの上体の記録したもの)、または前記音声/音響信号と前記映像信号との組み合わせから抽出されるものとすることができる。
ユーザの頭、顔面筋、口および/または眉毛の動きを用いて、韻律キューを判定することができる。
口領域に圧縮変換を適用することができる。当該変換、特に離散コサイン変換(DCT:Discrete Cosine Transformation)を適用する前に、頭の傾きの修正、したがって前記口領域の傾きの修正を行うことができる。
前記韻律キューを獲得するための情報チャネルごとの信頼度が計算されるものとすることができる。前記発話の異なる部分に対する重要度の割り当て、すなわちプロミネンスの割り当ては、前に計算された信頼度を考慮して異なる情報チャネルを適応的に組み合わせることによって行われるものとすることができる。映像チャネルの信頼度は、照明条件に基づいて計算されるものとすることができる。
他の態様として、本発明は、音声対話システムを提供する。本システムは、音響信号を受け入れて発話を受け入れるための少なくとも1つの手段(20)、特にマイクロフォンと、前記発話を解析し、前記発話から韻律キューを獲得する少なくとも1つの処理エンジン(40)と、を備える。そして、本システムは、前記韻律キューに基づいて前記発話を評価して、当該発話の各部分のプロミネンスを判定し、前記発話を解析して、当該発話が先の発話中の少なくとも1つの部分を置き換えるための少なくとも1つの部分を含んでいることを示す少なくとも1つのマーカ特徴、例えば否定の陳述などを検出する。また、前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定された前記プロミネンスに基づいて決定し、前記置き換える部分を、前記発話中の各部分の前記プロミネンスに基づいて決定して、前記先の発話を前記置き換える部分を用いて評価する。
本システムは、映像信号などを取り込むための視覚信号を受け入れる映像受入手段、例えばビデオカメラなどを備えるものとしてもよい。
次に図面を参照して本発明のさらに別の局面を説明する。
本発明の一実施形態の概要を示す図である。 本発明に係るシステムの、システムレイアウトの一例を示す図である。 本発明の一実施形態における処理フロー図である。 本発明の一実施形態における、韻律特徴の抽出および統合を示すブロック図である。
図1に、本発明に係る音声対話システム30の一例の、セットアップの概要を示す。図1では、ユーザ10の発話が受け取られる。この発話は、例えばマイクロフォンなどの、音響信号を受け入れる手段20によって受け取ることができる。あるいは、任意選択で、例えば映像信号を生成するカメラなどの視覚信号を受け入れる手段25も用いて、発話を受け取ることができる。本音声対話システムは、手段20、25によって受け取った信号を処理する処理エンジン40を備える。特に、処理エンジン40は、音声認識器、テキスト音声合成(TTS)システム、応答生成器、対話制御器、知識ベースおよび自然言語理解モジュール、語彙解析器モジュール(lexical analyzer module)またはこれらの組み合わせのうちの少なくとも1つを提供する。図1には処理エンジン40が単一のブロックとして示されているが、処理エンジン40の全ての要素が別々のモジュールとして実現されるものとしてもよい。
さらに、音声対話システム30は、処理手段50と記憶手段60とを備えるか、またはこれらの手段に機能的に接続されている。上記処理エンジンは、処理手段50を用い、処理時に記憶手段60を使用する。また、音声対話システム30は、ユーザ10または他のシステムと通信するためのインタフェース70を備えることができる。例えば、上記他のシステムとして、ナビゲーションシステム、制御ユニット、支援システムなどと通信することができる。またこれらのシステムは、ソフトウェアアプリケーションとして実現されるものとすることができる。この場合には、インタフェース70は、ハードウェアインタフェース又はソフトウェアインタフェースとすることができる。
通常、センサからの入力信号または入力パターンは、音声対話システム30により受け取られた後、ハードウェアユニットおよびソフトウェアコンポーネントによって処理され、出力信号または出力パターンが生成される。この出力信号または出力パターンは、更なる処理を行うための他のシステムへの入力として用いることができる。例えば、視覚化を行う他のシステム、あるいは、ナビゲーション装置、車両、ロボットの制御や、(移動)通信機器、家電機器の制御などを行う他のシステムへの入力とすることができる。入力信号は、例えば視覚的情報または音響的情報の検知を行う1つまたは複数のセンサにより供給されるものとすることができるが、ソフトウェアまたはハードウェアインタフェースを介して供給されるものとしてもよい。出力信号/出力パターンは、別の処理ユニットまたは作動装置に転送することができ、これにより、ロボット、車両または移動通信機器の動作または挙動に影響を与えることができる。
音声対話システム30に必要な演算や変換は、処理手段50によって行われるものとすることができる。処理手段50は、1つまたは複数のプロセッサ(CPU)、信号処理ユニット、若しくは、他の計算、処理、又は演算処理を行うハードウェア及び/又はソフトウェア等とすることができる。また、処理手段50は、並列処理が実行できるように構成されるものとすることができる。
処理および演算処理は、標準的な市販(OTS、off-the-shelf)のハードウェアで実行することもできるし、専用に設計されたハードウェアコンポーネントにより実行することもできる。プロセッサのCPUは、計算処理を行うものであり、メインメモリ(RAM、ROM)、制御ユニット、および/または算術論理演算装置(ALU、arithmetic logic unit)を備えるものとすることができる。また、CPUは、専用のグラフィックプロセッサを利用するものとすることができ、当該専用グラフィックプロセッサは、必要な計算処理を扱うための専用のメモリと処理能力とを提供することができる。
記憶手段60は、処理およびその結果のために必要とされる情報および/または得られたデータを記憶するのに用いられる。また、記憶手段60は、音声対話システム30への入力、および当該入力から抽出され将来の入力処理に影響を及ぼすこととなる知識を保存又は記憶することもできる。このような知識として、例えば、音声認識方法、認識データ、認識仮説などがある。
記憶手段60は、ハードディスク(SSD、HDD、フラッシュメモリ)、RAMおよび/またはROMといったデバイスにより構成することができ、補足的に、フロッピーディスク、CD−ROM、テープ、USBドライブ、スマートカード、ペンドライブなどといった他の(携帯用)記憶媒体を用いることもできる。したがって、本発明に係る方法を符号化するプログラムや、本発明に係るシステム及び又は方法の実施時に又は当該実施のために取得され、処理され、学習され、または必要とされるデータを、個々の記憶媒体に記憶することができる。
特に、本発明により記述される方法は、(例えば携帯用の)物理記憶媒体上のプログラム製品として提供されるものとすることができる。当該記憶媒体は、処理システムまたはコンピュータ機器に対し本発明に係る方法を実行するよう命令を与えるべく、本ソフトウェアプログラム製品を当該システム又は機器に転送するのに用いられる。さらに、本方法は、コンピュータ機器上で直接的に実施することもできるし、コンピュータ機器と組み合わせて提供することもできる。
本発明の一態様は、話者による発話の中の異なる部分の重要度に関する情報を抽出し、その情報を音声対話システムにおいて使用するものであり、その一例が図2に示されている。これらの重要度は、対応する発話部分に置かれた異なる強調レベルとなって音響信号中に表れる。言語学では、発話中の他の部分に対して相対的に強調された当該発話中の部分を、強勢またはプロミネンスと称する。この意味で、これらの相対的強調部分は突出しており、したがって際立っている。プロミネンスは、例えば、発話の最も情報量の多い部分を示すのに使用される。
発話を表す音響信号から抽出された特徴に基づき、発話の各部分に異なるレベルのプロミネンスを割り当てることができる。そして、異なるレベルのプロミネンスを、話者が意図したように発話の重要度のランクにマップすることができる。音声対話システムは、この重要度ランク付けの情報を使用してユーザとの対話を改善することができる。
本発明に係る一の実施形態は、図3に示すような、訂正対話を改善するものである。従来の音声対話システム、特に音声認識システムでは、当該システムはユーザを正しく理解できないことが多い。音声対話システムがそのような認識誤りを自動的に検出することができる場合もあるが、ほとんどの場合、このような認識誤りは、システムに検知されることなく発生する。
人間同士が意思伝達を行う場合、人間は普通、誤解が生じたことを表すのに、「いいえ」、「いいえ、私が言いたいのは…」、「いいえ、私が言ったのは…」などとして否定信号を使用する。以下の仮想の対話を例にとる。
人間A:私は車でマイザッハ(Maisach)へ行きたいです。
人間B:あなたはミュンヘン(Munich)のどの辺りへ行きたいのですか?
人間A:いいえそうではなく、私はマイザッハへ行きたいのです!
例示のように、意思伝達の当事者らは、誤解のすぐ後に、先に言ったことの全部または一部を繰り返す。この繰り返しの際に、意思伝達の当事者らは、前に誤解された語を最も際立つ語にする傾向がある。というのは、その語が当事者らにとって現在最も重要な語だからである(上記の例では、プロミネンスは下線により示されている)。
その場合、人間の聞き手は、まず否定信号から誤解が生じたことを推測し、次にプロミネンスに基づいて誤解されたと想定される語を検出することができる。このシナリオでは、韻律キューは、誤解された語を検出するのに非常に重要であるだけでなく、否定信号を検出するのにも重要である。またこれらの否定信号は普通、高レベルのプロミネンスで発話される。
従来の音声対話システムは、韻律キューを解釈することができないため、ユーザから訂正が行われるような状況においては著しい困難に直面することになる。
本発明は、音声対話システムに、発話の異なる部分のプロミネンスを推測して対話管理において使用する能力を与える方法を提示する。前述の人間と人間との意思伝達の例を人間−機械間の対話へ移し替えるときに、本発明で提案するシステムは、先の対話行為において誤解が生じたことを、否定信号「いいえ」を当該否定信号に付与された高いプロミネンスと共に認識することで検出することができる。
人間:私は車でマイザッハへ行きたいのです。
機械:あなたはミュンヘンのどの辺りへ行きたいのですか?
人間:いいえそうではなく、私はマイザッハへ行きたいのです!
機械:すみません。あなたはマイザッハのどの通りへ行きたいのですか?
本機械は、否定信号「いいえ」のマーカ特徴を認識した後で、非常に高いプロミネンスを有するさらに別の語(「マイザッハ」)を探索し、この語が先の発話において誤解されたと推測する。次に、本機械は、前の対話行為で誤りが生じたことを当該機械が理解していることをユーザに知らせ、その時訂正された語を用いて対話を進めることができる。このとき、システムが誤りを突き止めたことをさらに強調するため、ユーザへのフィードバックにおいてプロミネンスを使用することもできる。このような手法は人間によっても使用される。総じてそのようなシステムは、より少ないやりとりで、より効率の良い、すなわちより迅速な対話ができることを特徴とし、またより自然で直観的な対話ができることを特徴とする。
マーカ特徴は、特に別の言語では別の特徴となり得ることを理解する必要がある。またマーカ特徴は、発話におけるある一定の抑揚、強勢、構造などとすることもできる。
また、全体として誤解が生じていることや、発話のどの部分に誤解が生じたかを検出する際には、発話の関連部分についての正しい認識は必要ない。誤解の発生やその箇所についての情報は、個々の部分のプロミネンスから推測することができ、例えば、発話の最初の非常に際立つセグメントは、誤解訂正のための発話であることを示す有効な兆候である。
従来の音声対話システムでは、誤解が生じたことを検出することができず、その結果として、先に行われた対話行為からのコンテキスト情報を容易に使用することができない。
しかしながら、本システムは通常、そのような訂正対話において同じ語の2つの変形(例えば「マイザッハ」の、誤解された語と訂正された語)にアクセスする。これにより、語が2回発せられた後には、より良好な認識を得ることができる。
その語についての2つのインスタンスの検出に際しては、当該語を認識する必要はない。本発明では、その代わりに、訂正発話中の語のプロミネンスを用いて、その前に誤解され又は誤って解釈された発話中の語を検出する。1つのインスタンスが見つかると、次にやや単純なパターン照合法を使用して先の対話行為における同じ語を再度見つけることが可能になる。これが可能となるのは、同じ話者が少なくとも非常に類似した環境で当該語を発するためである。
これができると、その語のこれらインスタンスの双方についての、最も可能性の高い認識仮説、及びそれよりも可能性の低いいくつかの認識仮説を計算することができる。これらの仮説を比較することで、新しい情報を獲得し、全般的な認識精度を改善することができる。
双方のインスタンスにおいて、認識スコアにより仮説を順序付けたとき、例えば、「ミュンヘン」(0.9)、「マイザッハ」(0.8)、「マインツ(Mainz)」(0.5)となったとする(括弧内は認識スコアである)。このときは、単に2番目に可能性の高いものを選択することが優れた戦略となるはずである。すでに「ミュンヘン」は誤りであると確認されているからである。2つのインスタンスに対して順序付けが異なる場合、例えば、最初:「ミュンヘン」(0.9)、「マインツ」(0.8)、「マイザッハ」(0.7)であり、訂正:「ミュンヘン」(0.9)、「マイザッハ」(0.7)、「マインツ」(0.5)である場合には、「マイザッハ」を選択することが優れた戦略になるはずである。「マイザッハ」は最高の組み合わせスコアを獲得しているからである。
訂正を正しく解釈するためには、以前に行われた対話行為の少なくとも1つが記憶できるシステムの容量確保、一実施形態においては複数の当該対話行為が記憶できる容量確保が前提条件となる。対話行為は、当該対話行為を記録したときと同じ形式で記憶させておくこともできるし、抽象化された特徴表現(abstracted feature representation)として記憶させておくこともできる。
発話の各部分の重要度の尺度、すなわち当該各部分のプロミネンスの尺度を得るために、以下のような音響信号から得られる様々な尺度が提案されている。
スペクトル強度:
ある周波数帯域における、他の周波数帯域と比較した相対的なエネルギーは、プロミネンスとよく相関する。
持続期間:
音節の持続期間の延長は、プロミネンスの特徴である。
ピッチパターン:
あるピッチパターンはプロミネンスを表わしている。
これらの特徴のいくつかについては、ピッチとして知覚される基本周波数を抽出して、その形状を分類する必要がある(参考文献1、2参照)。
スペクトル強度は、音声信号からプロミネンス情報を抽出するための、信頼性が高くて計算処理が可能な、さほどコストのかからない方法の一例である(参考文献3、4参照)。
特に、本発明では、音響信号のみならず話者の頭や顔の動きも利用される(図4を比較されたい)。眉毛、頭、および口領域の動きが発話の各部分のプロミネンスに関する重要な情報を伝えることは、既に知られている(非特許文献12〜14)。一般に、韻律キューは、顔面筋その他の、顔又は身体の特徴から得ることができ、例えば腕や手の動きから得ることができる。また、身ぶりから、例えばマーカ特徴(特定の姿勢、例えば否定的な姿勢や、特の動き又は動きのパターンなど)を得ることもできる。
また、そのような特徴を抽出するための方法も利用することができる(非特許文献17、18、参考文献5)。顔から視覚的特徴を抽出するための非常に有効なやり方は、例えば離散コサイン変換(DCT)などの、変換ベースの手法である(参考文献6)。この場合には、頭部回転の推定や当該推定を行った後の訂正処理も、有利に利用することができる。この頭部回転の推定は、例えばユーザの両目を検出することによって、または口領域の対称軸を計算することによって得ることができる。このタスクに適した、選択的に使用される変換手法として、例えば、主成分変換(PCA、Principal Component Transformation)やフーリエ変換などがある。
プロミネンスの判定において音響情報と視覚情報とを組み合わせる手法は、先行技術から知得することはできず、本発明の一部を為すものである。特に本願発明者らは、音響チャネルおよび視覚チャネルの信頼性尺度を定めて、各チャネルの信頼度に応じて当該各チャネルの統合を行うことを提案している。相異なる様々な尺度、例えば、キューの値の確率モデルに基づく尺度や、現在値とモデルとの比較に基づいた尺度を用いることができる。
すなわち、本発明は、人間−機械対話における韻律的音声特徴を用いて発話の異なる部分の重要度を推測し、この情報を用いて対話をより直観的かつロバストなものにすることができる。
ユーザは韻律を用いてより自然に会話することができ、システムも韻律キューを使用してユーザへフィードバックを与えるので、対話がより直観的なものとなる。このため、認識誤りが低減されて、より高いロバスト性が実現される。
例えば次のような状況が実現される。すなわち、ユーザが句を発話し、システムがその句を誤解する。ユーザは、誤解された部分をより際立たせるように韻律を変更して、システムに対し発話を繰り返す。これは、人間同士が話し合うときに一般に使用される戦略である。システムは、訂正発話の最も際立つ部分、すなわち先の発話において誤解された部分を判定し、次に、例えば訂正発話中の際立った部分とのパターン照合などを行うことにより、最初の発話から誤解部分に対応するセグメントを抽出する。そして、本システムは、この情報を用いて、ユーザが実際には何と言ったのかに関するより適切な仮説を決定する。
本発明の1つの重要な態様は、発話内の異なる部分の重要度の判定、すなわちプロミネンスの判定のために、音響的特徴と視覚的特徴とを組み合わせる点にある。これにより、相異なる複数の情報ストリームの組み合わせが、各情報ストリームの信頼度に応じた組み合わせとなるように適合される。
特に、韻律キューを組み込むことにより、システムはより直観的に、従ってよりロバストになる。最も関連性の高い語に強勢を置くことは、非常に自然な話し方である。これを考慮することにより、人間−機械対話はずっと自然になり、従って人間にとってより容易なものとなる。詳述したように、これは、人間からの説明が必要とされる状況において特に有用となり得る。そのような説明が行われる際、従来のシステムでは通常、最後の発話が説明であったこと、および発話のどの部分が誤解されたかは関知しない。このため、後に続く訂正の解釈において、従来のシステムは、最初の発話を解読したときと同じ方法で訂正発話を解読する。しかし人間は、そのような訂正発話を韻律的に表現し、訂正中で誤解された語を強調する傾向がある。本システムは、訂正を検出した後に、この強調、すなわちプロミネンスを抽出することにより追加情報を獲得するので、人間と機械との対話が改善される。
要約:
本発明は、音声信号から、発話の各部分に話者が置いた異なる重要度を韻律的音声特徴に基づいて判定し、この情報を音声対話システムに組み入れことにより、当該情報を用いて人間機械対話を改善するシステムを提示する。
発話内の部分の重要度はそのプロミネンスによって判定される。発話内の部分のプロミネンスに関するこの情報は、本システムにより次のように用いられる。先の対話行為においてユーザの言葉を本システムが誤解した場合、本システムは、当該先の発話の少なくとも一部分を繰り返すユーザの現在の対話行為から、そのような誤解が生じていることを検出して、先の発話の誤解された部分を検出すると共に、上記情報を用いて、当該発話における誤解部分の認識を改善する。すなわち、本システムは、上記取得した情報を対話管理において使用する。
誤解部分に関する情報は、次のように用いられて、認識精度を改善する。すなわち、繰り返された発話の強調部分(すなわち訂正部分)を抽出して、最初の発話中の誤解された部分を抽出し(例えば、訂正から抽出された部分とのパターン照合などにより抽出する)、a.またはb.において抽出されたセグメントについての上位N個の認識仮説を比較し、この比較から、問題の発話の部分についての新しい認識仮説を推測する。
先の対話行為における誤解の検出は、最後に行われたユーザ応答の最初の部分のプロミネンスを、単独で、又は発話の語彙解析と組み合わせて用いることにより行われる。
本システムは、誤解の発生を検出した後、韻律を用いることで、当該誤解され次に訂正された発話部分を際立たせる。
〔用語〕
〈音声対話システム〉
音声対話システムとは、音声によってやりとりされる対話システムである。このシステムは一般に、以下の構成要素のうちの少なくとも1つ、またはこれらの組み合わせを有する。
音声認識器
テキスト音声合成システム
応答生成器
対話制御器
知識ベース
自然言語理解モジュール
〈韻律〉
音声のリズム、強勢、および抑揚
〈プロミネンス〉
語中のある一定の音節や句又は文中のある一定の語に与えられることのある相対的な強調
〈強勢〉
プロミネンス参照
〔参考文献〕
参考文献1:
Heckmann, M.; Joublin, F. & Goerick, C. Combining Rate and Place Information for Robust Pitch Extraction Proc. INTERSPEECH, 2007, 2765-2768
参考文献2:
Heckmann, M. & Nakadai, K. Robust intonation pattern classification in human robot interaction, Proc. INTERSPEECH, ISCA, 2011
参考文献3:
Tamburini, F. & Wagner, P. On automatic prominence detection for German, Proc. of INTERSPEECH, ISCA, 2007
参考文献4:
Schillingmann, L.; Wagner, P.; Munier, C.; Wrede, B. & Rohlfing, K., Using Prominence Detection to Generate Acoustic Feedback in Tutoring Scenarios
INTERSPEECH, ISCA, 2011
参考文献5:
Christian Lang, Sven Wachsmuth, M. H. H. W. Facial Communicative Signals - Valence Recognition in Task-Oriented Human-Robot-Interaction, Journal of Social Robotics, accepted for publication
参考文献6:
Heckmann, M.; Kroschel, K.; Savariaux, C. & Berthommier, F. DCT-based video features for audio-visual speech recognition, Seventh International Conference on Spoken Language Processing (ICSLP), 2002

Claims (14)

  1. 音声対話システム(30)において音声を解析する方法であって、
    音響信号を受け入れる少なくとも1つの手段(20)、特にマイクロフォンにより、発話を受け入れるステップと、
    少なくとも1つの処理エンジン(40)を用い、前記発話を解析して、前記発話から韻律キューを獲得するステップと
    を含み、
    前記韻律キューに基づいて前記発話を評価して、当該発話の各部分のプロミネンスを判定し、
    前記発話を解析して、当該発話が先の発話中の少なくとも1つの部分を置き換えるための少なくとも1つの部分を含んでいることを示す少なくとも1つのマーカ特徴、例えば否定の陳述などを検出し、
    前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定された前記プロミネンスに基づいて決定し、
    前記置き換える部分を、前記発話中の各部分の前記プロミネンスに基づいて決定し、
    前記先の発話を前記置き換える部分を用いて評価する、
    方法。
  2. 前記発話は、前記先の発話の訂正であり、かつ、語または文である、請求項1に記載の方法。
  3. 前記プロミネンスは、ランク付けに基づいて判定される、請求項1または2に記載の方法。
  4. 前記プロミネンスは、発話中の各部分の重要さの程度、例えば話者が前記発話の各部分に置く強調の程度、を表すものである、請求項1または2に記載の方法。
  5. 前記マーカ特徴は、前記先の発話の少なくとも部分が繰り返されるときに検出される、請求項1に記載の方法。
  6. 前記発話から所定のプロミネンスを有する少なくとも1つの部分、例えば訂正などを抽出し、前記先の発話中の前記置き換えられるべき部分を抽出し、前記抽出された部分についての少なくとも1つの認識仮説を比較し、この比較から、前記先の発話の前記置き換えられるべき部分についての新しい認識仮説を推測することによって、前記先の発話中の前記置き換えられるべき部分を用いて認識精度を改善する、請求項1に記載の方法。
  7. 前記マーカ特徴は、前記発話の最初の部分の前記プロミネンスにより判定されるか、または当該プロミネンスと前記発話の語彙解析との組み合わせにより判定される、請求項1に記載の方法。
  8. 前記発話は、音声/音響信号および/または映像信号の形で解析され、
    前記韻律キューは、前記音声/音響信号、前記映像信号、または前記音声/音響信号と前記映像信号との組み合わせから抽出され、前記映像信号は、例えば、好ましくは頭および顔を含むユーザの上体を記録したものである、請求項1に記載の方法。
  9. ユーザの頭、顔面筋、口および/または眉毛の動きを用いて、前記韻律キューが判定される、請求項1に記載の方法。
  10. 口領域に圧縮変換が適用され、かつ、前記変換、特に離散コサイン変換(DCT:Discrete Cosine Transformation)を適用する前に、頭の傾きの修正、したがって前記口領域の傾きの修正が行われる、請求項1に記載の方法。
  11. 前記韻律キューを獲得するための情報チャネルごとの信頼度が計算され、
    前記発話の前記異なる部分に対する重要度の割り当て、すなわちプロミネンスの割り当てが、前に計算された信頼度を考慮して前記異なる情報チャネルを適応的に組み合わせることによって行われ、
    映像チャネルの前記信頼度は、照明条件に基づいて計算される、
    請求項1に記載の方法。
  12. 音響信号を受け入れて発話を受け入れるための少なくとも1つの手段(20)、特にマイクロフォンと、
    前記発話を解析し、前記発話から韻律キューを獲得する少なくとも1つの処理エンジン(40)と
    を備え、
    前記韻律キューに基づいて前記発話を評価して、当該発話の各部分のプロミネンスを判定し、
    前記発話を解析して、当該発話が先の発話中の少なくとも1つの部分を置き換えるための少なくとも1つの部分を含んでいることを示す少なくとも1つのマーカ特徴、例えば否定の陳述などを検出し、
    前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定された前記プロミネンスに基づいて決定し、
    前記置き換える部分を、前記発話中の各部分の前記プロミネンスに基づいて決定し、
    前記先の発話を前記置き換える部分を用いて評価する、
    音声対話システム(30)。
  13. 請求項1〜11のいずれか一項に記載の方法を実施するように適合された、請求項12に記載のシステム。
  14. 映像信号を取り込むための視覚信号を受け入れる手段(25)を備える、請求項12又は13に記載のシステム。
JP2013032801A 2012-03-29 2013-02-22 プロミネンスを使用した音声対話システム Expired - Fee Related JP6154155B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP12162032.2A EP2645364B1 (en) 2012-03-29 2012-03-29 Spoken dialog system using prominence
EP12162032.2 2012-03-29

Publications (2)

Publication Number Publication Date
JP2013205842A true JP2013205842A (ja) 2013-10-07
JP6154155B2 JP6154155B2 (ja) 2017-06-28

Family

ID=46000743

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013032801A Expired - Fee Related JP6154155B2 (ja) 2012-03-29 2013-02-22 プロミネンスを使用した音声対話システム

Country Status (3)

Country Link
US (1) US9202466B2 (ja)
EP (1) EP2645364B1 (ja)
JP (1) JP6154155B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020522733A (ja) * 2017-05-24 2020-07-30 ロヴィ ガイズ, インコーポレイテッド 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
EP2949536B1 (en) 2014-05-30 2016-10-05 Honda Research Institute Europe GmbH Method for controlling a driver assistance system
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
US10121466B2 (en) * 2015-02-11 2018-11-06 Hand Held Products, Inc. Methods for training a speech recognition system
EP3089159B1 (en) * 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
KR101595090B1 (ko) * 2015-04-30 2016-02-17 주식회사 아마다스 음성 인식을 이용한 정보 검색 방법 및 장치
US10817519B2 (en) * 2016-06-06 2020-10-27 Baidu Usa Llc Automatic conversion stage discovery
US10789534B2 (en) 2016-07-29 2020-09-29 International Business Machines Corporation Measuring mutual understanding in human-computer conversation
PT3533022T (pt) 2016-10-31 2024-05-10 Rovi Guides Inc Sistemas e métodos para a utilização flexível de temas em tendência como parâmetros para recomendar recursos multimédia que estão relacionados com o recurso multimédia visualizado
WO2018174884A1 (en) 2017-03-23 2018-09-27 Rovi Guides, Inc. Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset
US11151986B1 (en) * 2018-09-21 2021-10-19 Amazon Technologies, Inc. Learning how to rewrite user-specific input for natural language understanding
US11409961B2 (en) * 2018-10-10 2022-08-09 Verint Americas Inc. System for minimizing repetition in intelligent virtual assistant conversations
US11721322B2 (en) 2020-02-28 2023-08-08 Rovi Guides, Inc. Automated word correction in speech recognition systems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316386A (ja) * 2002-04-24 2003-11-07 Toshiba Corp 音声認識方法および音声認識装置および音声認識プログラム
JP2009163555A (ja) * 2008-01-08 2009-07-23 Omron Corp 顔照合装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236091A (ja) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> 音声認識結果の誤り訂正方法およびその装置
AU2003275134A1 (en) * 2002-09-19 2004-04-08 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
US7313523B1 (en) 2003-05-14 2007-12-25 Apple Inc. Method and apparatus for assigning word prominence to new or previous information in speech synthesis
US20060122834A1 (en) 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US20080114603A1 (en) * 2006-11-15 2008-05-15 Adacel, Inc. Confirmation system for command or speech recognition using activation means
US8175879B2 (en) * 2007-08-08 2012-05-08 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
US7996214B2 (en) 2007-11-01 2011-08-09 At&T Intellectual Property I, L.P. System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8401849B2 (en) * 2008-12-18 2013-03-19 Lessac Technologies, Inc. Methods employing phase state analysis for use in speech synthesis and recognition
US8756061B2 (en) * 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316386A (ja) * 2002-04-24 2003-11-07 Toshiba Corp 音声認識方法および音声認識装置および音声認識プログラム
JP2009163555A (ja) * 2008-01-08 2009-07-23 Omron Corp 顔照合装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"顔画像と音声を併用した対話者の心情抽出の検討", 電子情報通信学会技術研究報告 VOL.94 NO.445, JPN6016033286, 20 January 1995 (1995-01-20), JP, ISSN: 0003393179 *
矢野 浩利: "音声対話システムにおける否定表現の検出", 日本音響学会2005年春季研究発表会講演論文集−I−, JPN6016033285, 8 March 2005 (2005-03-08), JP, ISSN: 0003393178 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020522733A (ja) * 2017-05-24 2020-07-30 ロヴィ ガイズ, インコーポレイテッド 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム

Also Published As

Publication number Publication date
EP2645364A1 (en) 2013-10-02
JP6154155B2 (ja) 2017-06-28
US20130262117A1 (en) 2013-10-03
EP2645364B1 (en) 2019-05-08
US9202466B2 (en) 2015-12-01

Similar Documents

Publication Publication Date Title
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
US9972318B1 (en) Interpreting voice commands
US10074363B2 (en) Method and apparatus for keyword speech recognition
US10176809B1 (en) Customized compression and decompression of audio data
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US10199034B2 (en) System and method for unified normalization in text-to-speech and automatic speech recognition
CN109686383B (zh) 一种语音分析方法、装置及存储介质
CN107972028B (zh) 人机交互方法、装置及电子设备
Alex et al. Attention and feature selection for automatic speech emotion recognition using utterance and syllable-level prosodic features
JP6654691B2 (ja) 情報処理装置
JP4729902B2 (ja) 音声対話システム
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
KR102062524B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP5451982B2 (ja) 支援装置、プログラムおよび支援方法
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2010197644A (ja) 音声認識システム
JP5257680B2 (ja) 音声認識装置
CN113112575A (zh) 一种口型生成方法、装置、计算机设备及存储介质
US11282495B2 (en) Speech processing using embedding data
Rudzionis et al. Web services based hybrid recognizer of Lithuanian voice commands
Venkatagiri Speech recognition technology applications in communication disorders
KR20220090586A (ko) 오디오-비주얼 매칭을 사용한 자동 음성 인식 가설 재점수화
Ronzhin et al. PARAD-R: Speech analysis software for meeting support
de Carvalho Campinho Automatic Speech Recognition for European Portuguese
JP2004309654A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170601

R150 Certificate of patent or registration of utility model

Ref document number: 6154155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees