JP2013205842A - プロミネンスを使用した音声対話システム - Google Patents
プロミネンスを使用した音声対話システム Download PDFInfo
- Publication number
- JP2013205842A JP2013205842A JP2013032801A JP2013032801A JP2013205842A JP 2013205842 A JP2013205842 A JP 2013205842A JP 2013032801 A JP2013032801 A JP 2013032801A JP 2013032801 A JP2013032801 A JP 2013032801A JP 2013205842 A JP2013205842 A JP 2013205842A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- prominence
- previous
- prosodic
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002452 interceptive effect Effects 0.000 title abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 36
- 239000003550 marker Substances 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 36
- 238000012937 correction Methods 0.000 claims description 19
- 230000000007 visual effect Effects 0.000 claims description 15
- 210000003128 head Anatomy 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 5
- 210000004709 eyebrow Anatomy 0.000 claims description 4
- 210000001097 facial muscle Anatomy 0.000 claims description 3
- 210000000214 mouth Anatomy 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 19
- 241000282412 Homo Species 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 241000665848 Isca Species 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 235000002020 sage Nutrition 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
音声対話システムにおいて、直観的でロバストな人間−機械対話を可能とする。
【解決手段】
本方法は、音響信号を受け入れる少なくとも1つの手段(マイクロフォン等)により、発話を受け入れるステップと、処理エンジンを用い、発話を解析して発話から韻律キューを獲得するステップとを含む。前記韻律キューに基づいて前記発話を評価し、当該発話の各部分のプロミネンスを判定し、前記発話を解析して、当該発話が先の発話中の少なくとも1つの部分を置き換えるための少なくとも1つの部分を含んでいることを示すマーカ特徴(否定の陳述など)を検出する。そして、前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定されたプロミネンスに基づいて決定し、前記置き換える部分を、前記発話中の各部分のプロミネンスに基づいて決定して、前記先の発話を前記置き換える部分を用いて評価する。
【選択図】図1
Description
音声言語解析における「発話」は、典型的には、音声の最小単位とされる。発話は、必ずしもそうとは限らないが一般には無音部で囲まれている。
前記プロミネンスは、ランク付けに基づいて判定することができる。
プロミネンスは、発話中の各部分の重要さの程度、例えば話者が発話の各部分に置く強調の程度などを表すものとすることができる。
マーカ特徴は、先の発話の少なくとも部分が繰り返されるときに検出される。
前記発話は、音声/音響信号および/または映像信号の形で解析されるものとすることができる。前記韻律キューは、前記音声/音響信号、前記映像信号(例えば、好ましくは頭および顔を含むユーザの上体の記録したもの)、または前記音声/音響信号と前記映像信号との組み合わせから抽出されるものとすることができる。
口領域に圧縮変換を適用することができる。当該変換、特に離散コサイン変換(DCT:Discrete Cosine Transformation)を適用する前に、頭の傾きの修正、したがって前記口領域の傾きの修正を行うことができる。
次に図面を参照して本発明のさらに別の局面を説明する。
人間A:私は車でマイザッハ(Maisach)へ行きたいです。
人間B:あなたはミュンヘン(Munich)のどの辺りへ行きたいのですか?
人間A:いいえそうではなく、私はマイザッハへ行きたいのです!
人間:私は車でマイザッハへ行きたいのです。
機械:あなたはミュンヘンのどの辺りへ行きたいのですか?
人間:いいえそうではなく、私はマイザッハへ行きたいのです!
機械:すみません。あなたはマイザッハのどの通りへ行きたいのですか?
スペクトル強度:
ある周波数帯域における、他の周波数帯域と比較した相対的なエネルギーは、プロミネンスとよく相関する。
持続期間:
音節の持続期間の延長は、プロミネンスの特徴である。
ピッチパターン:
あるピッチパターンはプロミネンスを表わしている。
本発明は、音声信号から、発話の各部分に話者が置いた異なる重要度を韻律的音声特徴に基づいて判定し、この情報を音声対話システムに組み入れことにより、当該情報を用いて人間機械対話を改善するシステムを提示する。
本システムは、誤解の発生を検出した後、韻律を用いることで、当該誤解され次に訂正された発話部分を際立たせる。
〈音声対話システム〉
音声対話システムとは、音声によってやりとりされる対話システムである。このシステムは一般に、以下の構成要素のうちの少なくとも1つ、またはこれらの組み合わせを有する。
音声認識器
テキスト音声合成システム
応答生成器
対話制御器
知識ベース
自然言語理解モジュール
〈韻律〉
音声のリズム、強勢、および抑揚
〈プロミネンス〉
語中のある一定の音節や句又は文中のある一定の語に与えられることのある相対的な強調
〈強勢〉
プロミネンス参照
参考文献1:
Heckmann, M.; Joublin, F. & Goerick, C. Combining Rate and Place Information for Robust Pitch Extraction Proc. INTERSPEECH, 2007, 2765-2768
参考文献2:
Heckmann, M. & Nakadai, K. Robust intonation pattern classification in human robot interaction, Proc. INTERSPEECH, ISCA, 2011
参考文献3:
Tamburini, F. & Wagner, P. On automatic prominence detection for German, Proc. of INTERSPEECH, ISCA, 2007
参考文献4:
Schillingmann, L.; Wagner, P.; Munier, C.; Wrede, B. & Rohlfing, K., Using Prominence Detection to Generate Acoustic Feedback in Tutoring Scenarios
INTERSPEECH, ISCA, 2011
参考文献5:
Christian Lang, Sven Wachsmuth, M. H. H. W. Facial Communicative Signals - Valence Recognition in Task-Oriented Human-Robot-Interaction, Journal of Social Robotics, accepted for publication
参考文献6:
Heckmann, M.; Kroschel, K.; Savariaux, C. & Berthommier, F. DCT-based video features for audio-visual speech recognition, Seventh International Conference on Spoken Language Processing (ICSLP), 2002
Claims (14)
- 音声対話システム(30)において音声を解析する方法であって、
音響信号を受け入れる少なくとも1つの手段(20)、特にマイクロフォンにより、発話を受け入れるステップと、
少なくとも1つの処理エンジン(40)を用い、前記発話を解析して、前記発話から韻律キューを獲得するステップと
を含み、
前記韻律キューに基づいて前記発話を評価して、当該発話の各部分のプロミネンスを判定し、
前記発話を解析して、当該発話が先の発話中の少なくとも1つの部分を置き換えるための少なくとも1つの部分を含んでいることを示す少なくとも1つのマーカ特徴、例えば否定の陳述などを検出し、
前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定された前記プロミネンスに基づいて決定し、
前記置き換える部分を、前記発話中の各部分の前記プロミネンスに基づいて決定し、
前記先の発話を前記置き換える部分を用いて評価する、
方法。 - 前記発話は、前記先の発話の訂正であり、かつ、語または文である、請求項1に記載の方法。
- 前記プロミネンスは、ランク付けに基づいて判定される、請求項1または2に記載の方法。
- 前記プロミネンスは、発話中の各部分の重要さの程度、例えば話者が前記発話の各部分に置く強調の程度、を表すものである、請求項1または2に記載の方法。
- 前記マーカ特徴は、前記先の発話の少なくとも部分が繰り返されるときに検出される、請求項1に記載の方法。
- 前記発話から所定のプロミネンスを有する少なくとも1つの部分、例えば訂正などを抽出し、前記先の発話中の前記置き換えられるべき部分を抽出し、前記抽出された部分についての少なくとも1つの認識仮説を比較し、この比較から、前記先の発話の前記置き換えられるべき部分についての新しい認識仮説を推測することによって、前記先の発話中の前記置き換えられるべき部分を用いて認識精度を改善する、請求項1に記載の方法。
- 前記マーカ特徴は、前記発話の最初の部分の前記プロミネンスにより判定されるか、または当該プロミネンスと前記発話の語彙解析との組み合わせにより判定される、請求項1に記載の方法。
- 前記発話は、音声/音響信号および/または映像信号の形で解析され、
前記韻律キューは、前記音声/音響信号、前記映像信号、または前記音声/音響信号と前記映像信号との組み合わせから抽出され、前記映像信号は、例えば、好ましくは頭および顔を含むユーザの上体を記録したものである、請求項1に記載の方法。 - ユーザの頭、顔面筋、口および/または眉毛の動きを用いて、前記韻律キューが判定される、請求項1に記載の方法。
- 口領域に圧縮変換が適用され、かつ、前記変換、特に離散コサイン変換(DCT:Discrete Cosine Transformation)を適用する前に、頭の傾きの修正、したがって前記口領域の傾きの修正が行われる、請求項1に記載の方法。
- 前記韻律キューを獲得するための情報チャネルごとの信頼度が計算され、
前記発話の前記異なる部分に対する重要度の割り当て、すなわちプロミネンスの割り当てが、前に計算された信頼度を考慮して前記異なる情報チャネルを適応的に組み合わせることによって行われ、
映像チャネルの前記信頼度は、照明条件に基づいて計算される、
請求項1に記載の方法。 - 音響信号を受け入れて発話を受け入れるための少なくとも1つの手段(20)、特にマイクロフォンと、
前記発話を解析し、前記発話から韻律キューを獲得する少なくとも1つの処理エンジン(40)と
を備え、
前記韻律キューに基づいて前記発話を評価して、当該発話の各部分のプロミネンスを判定し、
前記発話を解析して、当該発話が先の発話中の少なくとも1つの部分を置き換えるための少なくとも1つの部分を含んでいることを示す少なくとも1つのマーカ特徴、例えば否定の陳述などを検出し、
前記先の発話中の前記置き換えられるべき部分を、前記先の発話中の各部分について判定された前記プロミネンスに基づいて決定し、
前記置き換える部分を、前記発話中の各部分の前記プロミネンスに基づいて決定し、
前記先の発話を前記置き換える部分を用いて評価する、
音声対話システム(30)。 - 請求項1〜11のいずれか一項に記載の方法を実施するように適合された、請求項12に記載のシステム。
- 映像信号を取り込むための視覚信号を受け入れる手段(25)を備える、請求項12又は13に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP12162032.2A EP2645364B1 (en) | 2012-03-29 | 2012-03-29 | Spoken dialog system using prominence |
EP12162032.2 | 2012-03-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013205842A true JP2013205842A (ja) | 2013-10-07 |
JP6154155B2 JP6154155B2 (ja) | 2017-06-28 |
Family
ID=46000743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013032801A Expired - Fee Related JP6154155B2 (ja) | 2012-03-29 | 2013-02-22 | プロミネンスを使用した音声対話システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9202466B2 (ja) |
EP (1) | EP2645364B1 (ja) |
JP (1) | JP6154155B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020522733A (ja) * | 2017-05-24 | 2020-07-30 | ロヴィ ガイズ, インコーポレイテッド | 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9373321B2 (en) * | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
EP2949536B1 (en) | 2014-05-30 | 2016-10-05 | Honda Research Institute Europe GmbH | Method for controlling a driver assistance system |
US9659564B2 (en) * | 2014-10-24 | 2017-05-23 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi | Speaker verification based on acoustic behavioral characteristics of the speaker |
US10121466B2 (en) * | 2015-02-11 | 2018-11-06 | Hand Held Products, Inc. | Methods for training a speech recognition system |
EP3089159B1 (en) * | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
KR101595090B1 (ko) * | 2015-04-30 | 2016-02-17 | 주식회사 아마다스 | 음성 인식을 이용한 정보 검색 방법 및 장치 |
US10817519B2 (en) * | 2016-06-06 | 2020-10-27 | Baidu Usa Llc | Automatic conversion stage discovery |
US10789534B2 (en) | 2016-07-29 | 2020-09-29 | International Business Machines Corporation | Measuring mutual understanding in human-computer conversation |
PT3533022T (pt) | 2016-10-31 | 2024-05-10 | Rovi Guides Inc | Sistemas e métodos para a utilização flexível de temas em tendência como parâmetros para recomendar recursos multimédia que estão relacionados com o recurso multimédia visualizado |
WO2018174884A1 (en) | 2017-03-23 | 2018-09-27 | Rovi Guides, Inc. | Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset |
US11151986B1 (en) * | 2018-09-21 | 2021-10-19 | Amazon Technologies, Inc. | Learning how to rewrite user-specific input for natural language understanding |
US11409961B2 (en) * | 2018-10-10 | 2022-08-09 | Verint Americas Inc. | System for minimizing repetition in intelligent virtual assistant conversations |
US11721322B2 (en) | 2020-02-28 | 2023-08-08 | Rovi Guides, Inc. | Automated word correction in speech recognition systems |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316386A (ja) * | 2002-04-24 | 2003-11-07 | Toshiba Corp | 音声認識方法および音声認識装置および音声認識プログラム |
JP2009163555A (ja) * | 2008-01-08 | 2009-07-23 | Omron Corp | 顔照合装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236091A (ja) * | 2000-02-23 | 2001-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識結果の誤り訂正方法およびその装置 |
AU2003275134A1 (en) * | 2002-09-19 | 2004-04-08 | The Penn State Research Foundation | Prosody based audio/visual co-analysis for co-verbal gesture recognition |
US7313523B1 (en) | 2003-05-14 | 2007-12-25 | Apple Inc. | Method and apparatus for assigning word prominence to new or previous information in speech synthesis |
US20060122834A1 (en) | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US20080114603A1 (en) * | 2006-11-15 | 2008-05-15 | Adacel, Inc. | Confirmation system for command or speech recognition using activation means |
US8175879B2 (en) * | 2007-08-08 | 2012-05-08 | Lessac Technologies, Inc. | System-effected text annotation for expressive prosody in speech synthesis and recognition |
US7996214B2 (en) | 2007-11-01 | 2011-08-09 | At&T Intellectual Property I, L.P. | System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework |
US10496753B2 (en) * | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8401849B2 (en) * | 2008-12-18 | 2013-03-19 | Lessac Technologies, Inc. | Methods employing phase state analysis for use in speech synthesis and recognition |
US8756061B2 (en) * | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
-
2012
- 2012-03-29 EP EP12162032.2A patent/EP2645364B1/en active Active
-
2013
- 2013-02-22 JP JP2013032801A patent/JP6154155B2/ja not_active Expired - Fee Related
- 2013-03-18 US US13/845,841 patent/US9202466B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316386A (ja) * | 2002-04-24 | 2003-11-07 | Toshiba Corp | 音声認識方法および音声認識装置および音声認識プログラム |
JP2009163555A (ja) * | 2008-01-08 | 2009-07-23 | Omron Corp | 顔照合装置 |
Non-Patent Citations (2)
Title |
---|
"顔画像と音声を併用した対話者の心情抽出の検討", 電子情報通信学会技術研究報告 VOL.94 NO.445, JPN6016033286, 20 January 1995 (1995-01-20), JP, ISSN: 0003393179 * |
矢野 浩利: "音声対話システムにおける否定表現の検出", 日本音響学会2005年春季研究発表会講演論文集−I−, JPN6016033285, 8 March 2005 (2005-03-08), JP, ISSN: 0003393178 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020522733A (ja) * | 2017-05-24 | 2020-07-30 | ロヴィ ガイズ, インコーポレイテッド | 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
EP2645364A1 (en) | 2013-10-02 |
JP6154155B2 (ja) | 2017-06-28 |
US20130262117A1 (en) | 2013-10-03 |
EP2645364B1 (en) | 2019-05-08 |
US9202466B2 (en) | 2015-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6154155B2 (ja) | プロミネンスを使用した音声対話システム | |
US9972318B1 (en) | Interpreting voice commands | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US10199034B2 (en) | System and method for unified normalization in text-to-speech and automatic speech recognition | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
CN107972028B (zh) | 人机交互方法、装置及电子设备 | |
Alex et al. | Attention and feature selection for automatic speech emotion recognition using utterance and syllable-level prosodic features | |
JP6654691B2 (ja) | 情報処理装置 | |
JP4729902B2 (ja) | 音声対話システム | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
KR102062524B1 (ko) | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 | |
JP5451982B2 (ja) | 支援装置、プログラムおよび支援方法 | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
JP2010197644A (ja) | 音声認識システム | |
JP5257680B2 (ja) | 音声認識装置 | |
CN113112575A (zh) | 一种口型生成方法、装置、计算机设备及存储介质 | |
US11282495B2 (en) | Speech processing using embedding data | |
Rudzionis et al. | Web services based hybrid recognizer of Lithuanian voice commands | |
Venkatagiri | Speech recognition technology applications in communication disorders | |
KR20220090586A (ko) | 오디오-비주얼 매칭을 사용한 자동 음성 인식 가설 재점수화 | |
Ronzhin et al. | PARAD-R: Speech analysis software for meeting support | |
de Carvalho Campinho | Automatic Speech Recognition for European Portuguese | |
JP2004309654A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170522 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170601 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6154155 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |