JP2015014665A - 音声認識装置及び方法、並びに、半導体集積回路装置 - Google Patents
音声認識装置及び方法、並びに、半導体集積回路装置 Download PDFInfo
- Publication number
- JP2015014665A JP2015014665A JP2013140426A JP2013140426A JP2015014665A JP 2015014665 A JP2015014665 A JP 2015014665A JP 2013140426 A JP2013140426 A JP 2013140426A JP 2013140426 A JP2013140426 A JP 2013140426A JP 2015014665 A JP2015014665 A JP 2015014665A
- Authority
- JP
- Japan
- Prior art keywords
- reproduction data
- voice
- scenario
- audio reproduction
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 239000004065 semiconductor Substances 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims description 19
- 238000006243 chemical reaction Methods 0.000 claims abstract description 172
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 238000013500 data storage Methods 0.000 claims abstract description 29
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 26
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims abstract description 4
- 230000005236 sound signal Effects 0.000 claims description 102
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 235000009419 Fagopyrum esculentum Nutrition 0.000 description 11
- 240000008620 Fagopyrum esculentum Species 0.000 description 11
- 235000013305 food Nutrition 0.000 description 7
- 235000012054 meals Nutrition 0.000 description 5
- 239000006071 cream Substances 0.000 description 4
- 235000012149 noodles Nutrition 0.000 description 4
- 235000021185 dessert Nutrition 0.000 description 3
- 240000000220 Panda oleosa Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 235000011962 puddings Nutrition 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 235000011850 desserts Nutrition 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
Abstract
Description
図1は、本発明の一実施形態に係る音声認識装置の構成例を示すブロック図である。音声認識装置100は、例えば、自動販売機、家電製品、住宅設備、車載装置(ナビゲーション装置等)、又は、携帯端末等に搭載される。音声認識装置100は、音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、音声認識において変換候補となる複数の単語又は文章を含む変換リストを用いてユーザーの音声を認識し、その認識結果に対応する応答や処理を行う。
次に、本発明の一実施形態に係る音声認識方法について、図1及び図2を参照しながら説明する。この音声認識方法は、音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、音声認識において変換候補となる複数の単語又は文章を含む変換リストを用いてユーザーの音声を認識する音声認識装置において用いられる。
次に、本発明の一実施形態に係る音声認識装置における音声認識動作の第1の具体例について説明する。以下においては、図1に示す音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。
次に、本発明の一実施形態に係る音声認識装置における音声認識動作の第2の具体例について説明する。第2の具体例においては、食券の自動販売機が設置される麺専門店と多メニュー店とにおけるメニューの種類の相違に応じて、指定コマンドにより音声認識シナリオが変更される。
図9は、第1の音声認識シナリオを設定する第1の指定コマンドの例を示す図である。第1の指定コマンドにより、麺専門店において実行される第1の音声認識シナリオが設定される。第1の指定コマンドは、図7に示す複数の音声再生データと、図8に示す複数の変換リストとの関係を表すシナリオフロー情報を指定するものである。
図11は、第2の音声認識シナリオを設定する第2の指定コマンドの例を示す図である。第2の指定コマンドにより、多メニュー店において実行される第2の音声認識シナリオが設定される。第2の指定コマンドも、図7に示す複数の音声再生データと、図8に示す複数の変換リストとの関係を表すシナリオフロー情報を指定するものである。
Claims (7)
- 音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、前記ユーザーの音声に対する音声認識の処理を行う音声認識装置において用いられる半導体集積回路装置であって、
複数の前記音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信し、前記シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の前記音声再生データの内から所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の前記変換リストの内から所定の変換リストを選択するシナリオ設定部と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する標準パターン抽出部と、
前記所定の音声再生データに基づいて出力音声信号を合成する音声信号合成部と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
前記音声信号の少なくとも一部から生成された前記特徴パターンと前記音声認識データベースから抽出された前記標準パターンとの比較を行い、音声認識結果を出力する一致検出部と、
を具備する半導体集積回路装置。 - 前記シナリオ設定部が、1回の音声認識動作において、前記音声再生データ格納部に格納されている複数の前記音声再生データの内から、前記シナリオフロー情報に従って前記所定の音声再生データを選択すると共に、前記変換リスト格納部に格納されている複数の前記変換リストの内から、前記シナリオフロー情報に設定されている前記所定の変換リストを選択する、請求項1記載の半導体集積回路装置。
- 前記音声信号合成部が、前記シナリオ設定部によって選択された第1の音声再生データに基づいて出力音声信号を合成した後に、前記シナリオ設定部が、前記一致検出部から出力される音声認識結果に対応して前記シナリオフロー情報に設定されている第2の音声再生データを選択する、請求項1又は2記載の半導体集積回路装置。
- 前記シナリオ設定部が、複数の前記変換リストの内から、前記シナリオフロー情報に従って、前記第2の音声再生データに対応する前記所定の変換リストを選択する、請求項3記載の半導体集積回路装置。
- 前記シナリオ設定部が、少なくとも1つの前記音声再生データ又は少なくとも1つの前記変換リストを設定又は変更するコマンドを受信して、前記音声再生データ格納部において前記少なくとも1つの前記音声再生データを設定又は変更し、又は、前記変換リスト格納部において前記少なくとも1つの前記変換リストを設定又は変更する、請求項1〜4のいずれか1項記載の半導体集積回路装置。
- 請求項1〜5のいずれか1項記載の半導体集積回路装置と、
前記複数の音声再生データと前記複数の変換リストとの対応関係を表す前記シナリオフロー情報を指定する前記コマンドを前記半導体集積回路装置に送信する制御部と、
を具備する音声認識装置。 - 音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、前記ユーザーの音声に対する音声認識の処理を行う音声認識装置において用いられる音声認識方法であって、
複数の前記音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信するステップ(a)と、
前記シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の前記音声再生データの内から所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の前記変換リストの内から所定の変換リストを選択するステップ(b)と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出するステップ(c)と、
前記所定の音声再生データに基づいて出力音声信号を合成するステップ(d)と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(e)と、
前記音声信号の少なくとも一部から生成された前記特徴パターンと前記音声認識データベースから抽出された前記標準パターンとの比較を行い、音声認識結果を出力するステップ(f)と、
を具備する音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013140426A JP2015014665A (ja) | 2013-07-04 | 2013-07-04 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
US14/324,771 US9190060B2 (en) | 2013-07-04 | 2014-07-07 | Speech recognition device and method, and semiconductor integrated circuit device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013140426A JP2015014665A (ja) | 2013-07-04 | 2013-07-04 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015014665A true JP2015014665A (ja) | 2015-01-22 |
Family
ID=52133401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013140426A Withdrawn JP2015014665A (ja) | 2013-07-04 | 2013-07-04 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9190060B2 (ja) |
JP (1) | JP2015014665A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017107098A (ja) * | 2015-12-10 | 2017-06-15 | 株式会社リクルートライフスタイル | 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム |
JP2020034987A (ja) * | 2018-08-27 | 2020-03-05 | 京セラ株式会社 | 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム |
JP2020116330A (ja) * | 2019-01-28 | 2020-08-06 | 株式会社ソフイア | 遊技機 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10134424B2 (en) * | 2015-06-25 | 2018-11-20 | VersaMe, Inc. | Wearable word counter |
US10789939B2 (en) | 2015-06-25 | 2020-09-29 | The University Of Chicago | Wearable word counter |
US10959648B2 (en) | 2015-06-25 | 2021-03-30 | The University Of Chicago | Wearable word counter |
JP2017062300A (ja) * | 2015-09-24 | 2017-03-30 | セイコーエプソン株式会社 | 半導体装置、システム、電子機器、及び、音声認識方法 |
WO2020081544A1 (en) * | 2018-10-19 | 2020-04-23 | Confia Systems, Inc. | Efficient encoding for speech recognition |
CN110827799B (zh) * | 2019-11-21 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003005786A (ja) * | 2001-06-18 | 2003-01-08 | Oki Electric Ind Co Ltd | 音声対話インターフェース装置 |
JP2003195891A (ja) * | 2001-12-27 | 2003-07-09 | Denso Corp | 電子機器 |
JP2006133296A (ja) * | 2004-11-02 | 2006-05-25 | Matsushita Electric Ind Co Ltd | 音声対話装置 |
JP2010054897A (ja) * | 2008-08-29 | 2010-03-11 | Brother Ind Ltd | 音声認識装置、音声認識プログラム、受付装置および受付プログラム |
JP2014048335A (ja) * | 2012-08-29 | 2014-03-17 | Toshiba Tec Corp | 認識辞書作成装置及び認識辞書作成プログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19610019C2 (de) * | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
US6061646A (en) * | 1997-12-18 | 2000-05-09 | International Business Machines Corp. | Kiosk for multiple spoken languages |
US6556972B1 (en) * | 2000-03-16 | 2003-04-29 | International Business Machines Corporation | Method and apparatus for time-synchronized translation and synthesis of natural-language speech |
CN1369834B (zh) * | 2001-01-24 | 2010-04-28 | 松下电器产业株式会社 | 语音转换设备 |
CN1159702C (zh) * | 2001-04-11 | 2004-07-28 | 国际商业机器公司 | 具有情感的语音-语音翻译***和方法 |
JP3920812B2 (ja) * | 2003-05-27 | 2007-05-30 | 株式会社東芝 | コミュニケーション支援装置、支援方法、及び支援プログラム |
DE60322985D1 (de) * | 2003-12-16 | 2008-09-25 | Loquendo Societa Per Azioni | Text-zu-sprache-system und verfahren, computerprogramm dafür |
US7454348B1 (en) * | 2004-01-08 | 2008-11-18 | At&T Intellectual Property Ii, L.P. | System and method for blending synthetic voices |
DE602005026778D1 (de) * | 2004-01-16 | 2011-04-21 | Scansoft Inc | Corpus-gestützte sprachsynthese auf der basis von segmentrekombination |
US20050164788A1 (en) * | 2004-01-26 | 2005-07-28 | Wms Gaming Inc. | Gaming device audio status indicator |
US20050192095A1 (en) * | 2004-02-27 | 2005-09-01 | Chiu-Hao Cheng | Literal and/or verbal translator for game and/or A/V system |
US7785197B2 (en) * | 2004-07-29 | 2010-08-31 | Nintendo Co., Ltd. | Voice-to-text chat conversion for remote video game play |
US20070124142A1 (en) * | 2005-11-25 | 2007-05-31 | Mukherjee Santosh K | Voice enabled knowledge system |
WO2007070558A2 (en) * | 2005-12-12 | 2007-06-21 | Meadan, Inc. | Language translation using a hybrid network of human and machine translators |
US7684991B2 (en) * | 2006-01-05 | 2010-03-23 | Alpine Electronics, Inc. | Digital audio file search method and apparatus using text-to-speech processing |
JP2008015209A (ja) | 2006-07-05 | 2008-01-24 | Kddi Corp | 音声認識装置およびその認識辞書更新方法、プログラムならびに記憶媒体 |
EP1902906B1 (en) * | 2006-09-22 | 2017-07-26 | Harman Becker Automotive Systems GmbH | Add-on module for externally controlling a speech dialog system |
JP4213755B2 (ja) * | 2007-03-28 | 2009-01-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
JP2009189797A (ja) * | 2008-02-13 | 2009-08-27 | Aruze Gaming America Inc | ゲーミングマシン |
KR101589433B1 (ko) * | 2009-03-11 | 2016-01-28 | 삼성전자주식회사 | 동시 통역 시스템 |
-
2013
- 2013-07-04 JP JP2013140426A patent/JP2015014665A/ja not_active Withdrawn
-
2014
- 2014-07-07 US US14/324,771 patent/US9190060B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003005786A (ja) * | 2001-06-18 | 2003-01-08 | Oki Electric Ind Co Ltd | 音声対話インターフェース装置 |
JP2003195891A (ja) * | 2001-12-27 | 2003-07-09 | Denso Corp | 電子機器 |
JP2006133296A (ja) * | 2004-11-02 | 2006-05-25 | Matsushita Electric Ind Co Ltd | 音声対話装置 |
JP2010054897A (ja) * | 2008-08-29 | 2010-03-11 | Brother Ind Ltd | 音声認識装置、音声認識プログラム、受付装置および受付プログラム |
JP2014048335A (ja) * | 2012-08-29 | 2014-03-17 | Toshiba Tec Corp | 認識辞書作成装置及び認識辞書作成プログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017107098A (ja) * | 2015-12-10 | 2017-06-15 | 株式会社リクルートライフスタイル | 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム |
JP2020034987A (ja) * | 2018-08-27 | 2020-03-05 | 京セラ株式会社 | 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム |
JP7055721B2 (ja) | 2018-08-27 | 2022-04-18 | 京セラ株式会社 | 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム |
JP2020116330A (ja) * | 2019-01-28 | 2020-08-06 | 株式会社ソフイア | 遊技機 |
Also Published As
Publication number | Publication date |
---|---|
US20150012275A1 (en) | 2015-01-08 |
US9190060B2 (en) | 2015-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11450313B2 (en) | Determining phonetic relationships | |
US9190060B2 (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
US10741169B1 (en) | Text-to-speech (TTS) processing | |
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
US10692484B1 (en) | Text-to-speech (TTS) processing | |
US9886947B2 (en) | Speech recognition device and method, and semiconductor integrated circuit device | |
US20100057435A1 (en) | System and method for speech-to-speech translation | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US20110238407A1 (en) | Systems and methods for speech-to-speech translation | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
US9390709B2 (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
US9240178B1 (en) | Text-to-speech processing using pre-stored results | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP2017009842A (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP2016521383A (ja) | 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 | |
KR20150105075A (ko) | 자동 통역 장치 및 방법 | |
US9484014B1 (en) | Hybrid unit selection / parametric TTS system | |
JP2015055653A (ja) | 音声認識装置及び方法、並びに、電子機器 | |
JP6221253B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP6221267B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP2013195928A (ja) | 音声素片切出装置 | |
JPH11259094A (ja) | 規則音声合成装置 | |
JPS6211732B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160316 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160617 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20160624 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170606 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20170804 |