JP6869835B2 - 音声認識システム、端末装置、及び辞書管理方法 - Google Patents
音声認識システム、端末装置、及び辞書管理方法 Download PDFInfo
- Publication number
- JP6869835B2 JP6869835B2 JP2017132708A JP2017132708A JP6869835B2 JP 6869835 B2 JP6869835 B2 JP 6869835B2 JP 2017132708 A JP2017132708 A JP 2017132708A JP 2017132708 A JP2017132708 A JP 2017132708A JP 6869835 B2 JP6869835 B2 JP 6869835B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- reading
- phrase
- dictionary
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims description 62
- 230000000877 morphologic effect Effects 0.000 claims description 60
- 238000004458 analytical method Methods 0.000 claims description 59
- 238000004891 communication Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 description 42
- 238000012545 processing Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 235000020021 gose Nutrition 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Description
図1は、第1実施形態に係る音声認識システムのシステム構成及び機能構成の一例を示す図である。
第1実施形態では、辞書管理部110は、音声認識部104で得られた単一の認識結果を参照して読みを修正している。この場合、音声認識部104の認識結果に、表記が一致する形態素が現れない場合、読みを修正することができない。第2実施形態では、音声認識部104で得られる複数の認識結果を参照する。以下、第1実施形態と異なる点を中心に説明する。
第1実施形態では、図2のステップS4において、認識語句がシステム辞書105又はユーザ辞書106に登録済である場合は、当該語句はユーザ辞書106に登録されない。第3実施形態では、認識語句がシステム辞書105又はユーザ辞書106に登録済であっても、読みが異なる場合は、当該語句をユーザ辞書106に登録する。以下、第1実施形態と異なる点を中心に説明する。
Claims (9)
- ユーザの音声データを音声認識サーバに送信し、前記音声認識サーバから第1の認識結果を受信する通信制御部と、
音声認識のための音声認識辞書を記憶する記憶部と、
前記音声データを前記音声認識辞書を用いて音声認識し、第2の認識結果を得る音声認識部と、
前記第1の認識結果が示す第1の語句を前記音声認識辞書に登録する辞書管理部と、を備え、
前記辞書管理部は、
前記第1の語句を形態素に分割するとともに各形態素に読みを付与し、前記第2の認識結果が示す第2の語句を形態素に分割する形態素解析部と、
前記第1の語句を構成する形態素うち、前記第2の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第2の認識結果が示す当該形態素の読みを選択する読み選択部と、を備え、
前記辞書管理部は、前記第1の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する
端末装置。 - 請求項1に記載の端末装置であって、
前記読み選択部は、前記第1の語句を構成する形態素うち、前記第2の語句を構成するいずれの形態素とも表記が一致しない形態素に対して、前記形態素解析部により付与された読みを選択する
端末装置。 - 請求項1に記載の端末装置であって、
前記第1の認識結果と、前記第2の認識結果とを比較し、いずれか一方の認識結果を選択する認識結果取得部を備え、
前記辞書管理部は、前記選択された認識結果が前記第1の認識結果である場合に、前記第1の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する
端末装置。 - 請求項1に記載の端末装置であって、
前記音声認識部は、複数の前記第2の認識結果を得るものであり、
前記形態素解析部は、前記各第2の認識結果が示す各第2の語句を形態素に分割し、
前記読み選択部は、前記第1の語句を構成する形態素うち、前記各第2の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第2の認識結果が示す当該形態素の読みを選択する
端末装置。 - 請求項4に記載の端末装置であって、
前記複数の第2の認識結果には、それぞれ順位が設定されており、
前記読み選択部は、前記第1の語句を構成する形態素に対して、表記が一致する複数の形態素が前記各第2の語句中に存在する場合、前記順位が高い前記第2の認識結果が示す当該形態素の読みを選択する
端末装置。 - 請求項1に記載の端末装置であって、
前記辞書管理部は、前記第1の語句が前記音声認識辞書に登録されていない場合に、前記第1の語句を前記音声認識辞書に登録する
端末装置。 - 請求項6に記載の端末装置であって、
前記辞書管理部は、前記第1の語句が前記音声認識辞書に登録されている場合でも、読みが異なるときは、別の語句として前記音声認識辞書に登録する
端末装置。 - ユーザの音声データを音声認識する音声認識サーバと、端末装置とを備える音声認識システムであって、
前記端末装置は、
前記音声認識サーバに前記音声データを送信し、前記音声認識サーバから第1の認識結果を受信する通信制御部と、
音声認識のための音声認識辞書を記憶する記憶部と、
前記音声データを前記音声認識辞書を用いて音声認識し、第2の認識結果を得る音声認識部と、
前記第1の認識結果が示す第1の語句を前記音声認識辞書に登録する辞書管理部と、を備え、
前記辞書管理部は、
前記第1の語句を形態素に分割するとともに各形態素に読みを付与し、前記第2の認識結果が示す第2の語句を形態素に分割する形態素解析部と、
前記第1の語句を構成する形態素うち、前記第2の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第2の認識結果が示す当該形態素の読みを選択する読み選択部と、を備え、
前記辞書管理部は、前記第1の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する
音声認識システム。 - 端末装置の辞書管理方法であって、
通信制御部が、ユーザの音声データを音声認識サーバに送信し、前記音声認識サーバから第1の認識結果を受信する第1の認識ステップと、
音声認識部が、前記音声データを前記端末装置が備える音声認識辞書を用いて音声認識し、第2の認識結果を得る第2の認識ステップと、
辞書管理部が、前記第1の認識結果が示す第1の語句を前記音声認識辞書に登録する登録ステップと、を含み、
前記登録ステップは、
前記第1の語句を形態素に分割するとともに各形態素に読みを付与し、前記第2の認識結果が示す第2の語句を形態素に分割する形態素解析ステップと、
前記第1の語句を構成する形態素うち、前記第2の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第2の認識結果が示す当該形態素の読みを選択する読み選択ステップと、
前記第1の語句を、前記読み選択ステップで選択された読みとともに、前記音声認識辞書に登録するステップと、を含む
辞書管理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017132708A JP6869835B2 (ja) | 2017-07-06 | 2017-07-06 | 音声認識システム、端末装置、及び辞書管理方法 |
EP18181133.2A EP3425629B1 (en) | 2017-07-06 | 2018-07-02 | Speech recognition system, terminal device, and dictionary management method |
US16/027,500 US10818283B2 (en) | 2017-07-06 | 2018-07-05 | Speech recognition system, terminal device, and dictionary management method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017132708A JP6869835B2 (ja) | 2017-07-06 | 2017-07-06 | 音声認識システム、端末装置、及び辞書管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019015838A JP2019015838A (ja) | 2019-01-31 |
JP6869835B2 true JP6869835B2 (ja) | 2021-05-12 |
Family
ID=62845983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017132708A Active JP6869835B2 (ja) | 2017-07-06 | 2017-07-06 | 音声認識システム、端末装置、及び辞書管理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10818283B2 (ja) |
EP (1) | EP3425629B1 (ja) |
JP (1) | JP6869835B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572586B2 (en) * | 2018-02-27 | 2020-02-25 | International Business Machines Corporation | Technique for automatically splitting words |
SG10201801749PA (en) * | 2018-03-05 | 2019-10-30 | Kaha Pte Ltd | Methods and system for determining and improving behavioural index |
CN108428446B (zh) * | 2018-03-06 | 2020-12-25 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
US11152001B2 (en) * | 2018-12-20 | 2021-10-19 | Synaptics Incorporated | Vision-based presence-aware voice-enabled device |
KR20220052468A (ko) * | 2020-10-21 | 2022-04-28 | 현대자동차주식회사 | 차량 및 그 제어 방법 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
JP3911178B2 (ja) * | 2002-03-19 | 2007-05-09 | シャープ株式会社 | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 |
JP2003295893A (ja) * | 2002-04-01 | 2003-10-15 | Omron Corp | 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004012653A (ja) | 2002-06-05 | 2004-01-15 | Matsushita Electric Ind Co Ltd | 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム |
JP2007140194A (ja) * | 2005-11-18 | 2007-06-07 | Mitsubishi Electric Corp | 番組検索装置および形態素辞書管理サーバ |
US8719027B2 (en) * | 2007-02-28 | 2014-05-06 | Microsoft Corporation | Name synthesis |
JP4902617B2 (ja) * | 2008-09-30 | 2012-03-21 | 株式会社フュートレック | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム |
JP2010097239A (ja) * | 2008-10-14 | 2010-04-30 | Nec Corp | 辞書作成装置、辞書作成方法、および辞書作成プログラム |
JP5697860B2 (ja) * | 2009-09-09 | 2015-04-08 | クラリオン株式会社 | 情報検索装置,情報検索方法及びナビゲーションシステム |
JP2012088370A (ja) | 2010-10-15 | 2012-05-10 | Denso Corp | 音声認識システム、音声認識端末、およびセンター |
CN103635962B (zh) * | 2011-08-19 | 2015-09-23 | 旭化成株式会社 | 声音识别***、识别字典登记***以及声学模型标识符序列生成装置 |
JP2013088477A (ja) | 2011-10-13 | 2013-05-13 | Alpine Electronics Inc | 音声認識システム |
US9741339B2 (en) * | 2013-06-28 | 2017-08-22 | Google Inc. | Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores |
JP2015143866A (ja) | 2015-02-25 | 2015-08-06 | 株式会社東芝 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
KR102443087B1 (ko) * | 2015-09-23 | 2022-09-14 | 삼성전자주식회사 | 전자 기기 및 그의 음성 인식 방법 |
-
2017
- 2017-07-06 JP JP2017132708A patent/JP6869835B2/ja active Active
-
2018
- 2018-07-02 EP EP18181133.2A patent/EP3425629B1/en active Active
- 2018-07-05 US US16/027,500 patent/US10818283B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20190013010A1 (en) | 2019-01-10 |
US10818283B2 (en) | 2020-10-27 |
EP3425629B1 (en) | 2019-11-20 |
EP3425629A1 (en) | 2019-01-09 |
JP2019015838A (ja) | 2019-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6869835B2 (ja) | 音声認識システム、端末装置、及び辞書管理方法 | |
JP6923332B2 (ja) | 自動通訳方法及び装置 | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
US9449599B2 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
KR20190046623A (ko) | 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템 | |
KR102443087B1 (ko) | 전자 기기 및 그의 음성 인식 방법 | |
US20140350934A1 (en) | Systems and Methods for Voice Identification | |
US9697819B2 (en) | Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis | |
KR102396983B1 (ko) | 문법 교정 방법 및 장치 | |
JP5868544B2 (ja) | 音声認識装置および音声認識方法 | |
JP5799733B2 (ja) | 認識装置、認識プログラムおよび認識方法 | |
JP5996152B2 (ja) | 音声認識システム及び音声認識方法 | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
EP3005152B1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP6833203B2 (ja) | 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法 | |
US10600405B2 (en) | Speech signal processing method and speech signal processing apparatus | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
US20200243092A1 (en) | Information processing device, information processing system, and computer program product | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
JP2019109424A (ja) | 計算機、言語解析方法、及びプログラム | |
US11308936B2 (en) | Speech signal processing method and speech signal processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200514 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210414 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6869835 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |