JP7251953B2 - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents
音声認識装置、音声認識方法及び音声認識プログラム Download PDFInfo
- Publication number
- JP7251953B2 JP7251953B2 JP2018216873A JP2018216873A JP7251953B2 JP 7251953 B2 JP7251953 B2 JP 7251953B2 JP 2018216873 A JP2018216873 A JP 2018216873A JP 2018216873 A JP2018216873 A JP 2018216873A JP 7251953 B2 JP7251953 B2 JP 7251953B2
- Authority
- JP
- Japan
- Prior art keywords
- duration
- input
- voice
- speech
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 24
- 239000000284 extract Substances 0.000 claims description 11
- 238000012986 modification Methods 0.000 description 31
- 230000004048 modification Effects 0.000 description 31
- 238000012545 processing Methods 0.000 description 27
- 238000004891 communication Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 230000010365 information processing Effects 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 13
- 238000012790 confirmation Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Navigation (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Description
まず、本発明の一実施の形態に係る音声認識装置を備える車両用音声認識システムについて説明する。図1は、本発明の一実施形態に係る車両用音声認識システムを示す概略図である。図2は、本発明の一実施の形態に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。
これに対し、図3の(b)に示すように、発話開始から「愛知県名古屋市」という単語列の音声データを入力し終え、音声データの入力のない無音状態に遷移した時間t21から、継続時間T2が経過する前の継続時間内に新たな音声データの入力があれば、単語列の入力処理を継続する。例えば、時間t21から、継続時間T1が経過し、かつ継続時間T2(時間t21から時間t23までの期間)内である時間t22に音声入力があれば、単語列の入力処理を継続する。さらに、その後の「昭和区一丁目」という単語列を認識し終えた時間t24から、継続時間T2内(時間t25まで)に新たな音声データの入力がなければ、終話判定部224は、今回の音声入力について音声データの入力が完了(終話)したと判定する。
なお、情報抽出部225は、終話の判定を待たずに、入力された単語列に基づいて情報を抽出している。この場合、単語列から複数の情報が抽出される場合もある。
音声認識装置20は、情報抽出部225によって情報が抽出されると、この抽出情報を車両30に出力する。
入出力部33は、例えば、カーナビゲーションシステムの一部を構成する。
なお、音声認識部34において、上述した単語列に変換してもよい。
また、車両30には、GPS(Global Positioning System)衛星からの電波を受信して、車両30の位置を検出するGPS部を備える(図示略)。検出された位置は、車両30の位置情報として、外部に出力又は記憶部に格納される。
なお、上述したステップS103、S104と、S105~S107とは、順序が逆であってもよい。
次に、本実施の形態の変形例1について、図5を参照して説明する。本変形例1に係る車両用音声認識システムは、上述した音声認識装置20、車両制御装置31において、終話判定部224を車両制御装置31に設ける。これ以外の構成は、上述した車両用音声認識システム1と同じ構成であるため、説明を省略する。
なお、上述したステップS203~S206と、S207~S209とは、順序が逆であってもよい。
図6は、本発明の実施の形態の変形例2に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。本変形例2に係る車両用音声認識システムは、上述した音声認識装置20、車両制御装置31に代えて音声認識装置20A、車両制御装置31Aを備える。
ECU35は、入出力部33を介して選択された個人について、個人情報記憶部37を参照して情報を抽出し、音声認識装置20Aに出力する。
図8は、本発明の実施の形態の変形例2に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。本変形例3に係る車両用音声認識システムは、上述した音声認識装置20に代えて音声認識装置20Bを備える。音声認識装置20B以外の構成は、上述した車両用音声認識システム1と同じ構成であるため、説明を省略する。
制御部23は、認識エラーが生じたと判定された場合に、個人情報記憶部241に記憶されている該当の利用者の認識エラー回数を一つ増加させる。本変形例2では、認識エラー回数が、音声データの特徴に相当する。
さらに、利用者の声の声量や抑揚に応じて継続時間を変更してもよい。
また、使用する曜日などを継続時間の設定パラメータとしてもよい。
また、上述したパラメータを、適宜組み合わせてもよい。
20、20A、20B 音声認識装置
21、32 通信部
22 発話情報処理部
23 制御部
24 記憶部
30 車両
31、31A 車両制御装置
33 入出力部
34 音声認識部
35 ECU
36 マイクロフォン
37、241 個人情報記憶部
221 変換部
222 カテゴリ判定部
223 継続時間設定部
224 終話判定部
225 情報抽出部
226 認識エラー判定部
Claims (9)
- メモリと、
ハードウェアを備えたプロセッサと、
を備え、
前記プロセッサは、
入力される音声データから単語列を抽出し、
該抽出した単語列のカテゴリを決定し、
前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る無音状態の継続時間を、決定した前記カテゴリに基づいて設定する
音声認識装置。 - 前記プロセッサは、入力された音声データが前記無音状態に遷移してから経過した無音時間が、前記無音状態の継続時間を超過した場合に、前記音声データの入力が完了したと判定する
請求項1に記載の音声認識装置。 - 前記プロセッサは、前記音声データから、決定した前記カテゴリが住所、施設名及び電話番号のいずれであるかを判定し、判定した特徴に応じて前記無音状態の継続時間を設定する
請求項1に記載の音声認識装置。 - 前記プロセッサは、前記音声データにおける音声認識のエラー回数を算出し、該エラー回数に応じて前記無音状態の継続時間を設定する
請求項1に記載の音声認識装置。 - 前記プロセッサは、当該音声認識装置を利用する利用者の情報から前記音声データの特徴を取得し、該取得した音声データの特徴に応じて前記無音状態の継続時間を設定する
請求項1に記載の音声認識装置。 - 前記プロセッサは、利用者の年齢を判定し、判定した年齢に応じて前記無音状態の継続時間を設定する
請求項5に記載の音声認識装置。 - 前記プロセッサは、音声データから発話速度を算出し、算出した発話速度に応じて前記無音状態の継続時間を設定する
請求項1に記載の音声認識装置。 - 外部から入力される音声を認識する音声認識方法であって、
入力される音声データから単語列を抽出し、
該抽出した単語列のカテゴリを決定し、
前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る無音状態の継続時間を、決定した前記カテゴリに基づいて設定する
音声認識方法。 - 外部から入力される音声を認識する音声認識装置に、
入力される音声データから単語列を抽出させ、
該抽出した単語列のカテゴリを決定し、
前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る無音状態の継続時間を、決定した前記カテゴリに基づいて設定させる
音声認識プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018216873A JP7251953B2 (ja) | 2018-11-19 | 2018-11-19 | 音声認識装置、音声認識方法及び音声認識プログラム |
US16/563,185 US11195535B2 (en) | 2018-11-19 | 2019-09-06 | Voice recognition device, voice recognition method, and voice recognition program |
CN201910864295.XA CN111199738B (zh) | 2018-11-19 | 2019-09-12 | 语音识别装置、语音识别方法以及语音识别程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018216873A JP7251953B2 (ja) | 2018-11-19 | 2018-11-19 | 音声認識装置、音声認識方法及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020086010A JP2020086010A (ja) | 2020-06-04 |
JP7251953B2 true JP7251953B2 (ja) | 2023-04-04 |
Family
ID=70726709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018216873A Active JP7251953B2 (ja) | 2018-11-19 | 2018-11-19 | 音声認識装置、音声認識方法及び音声認識プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11195535B2 (ja) |
JP (1) | JP7251953B2 (ja) |
CN (1) | CN111199738B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11817117B2 (en) | 2021-01-29 | 2023-11-14 | Nvidia Corporation | Speaker adaptive end of speech detection for conversational AI applications |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018078885A1 (ja) | 2016-10-31 | 2018-05-03 | 富士通株式会社 | 対話装置、対話方法及び対話用コンピュータプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
JP3474089B2 (ja) * | 1997-11-06 | 2003-12-08 | 株式会社デンソー | ナビゲーション装置 |
JP4433704B2 (ja) * | 2003-06-27 | 2010-03-17 | 日産自動車株式会社 | 音声認識装置および音声認識用プログラム |
JP2006071794A (ja) | 2004-08-31 | 2006-03-16 | Fuji Heavy Ind Ltd | 車両の音声認識装置 |
JP4668875B2 (ja) * | 2006-09-20 | 2011-04-13 | 株式会社日立製作所 | 番組録画再生装置、番組再生位置制御方法及び番組情報提供装置 |
US8924211B2 (en) * | 2012-07-09 | 2014-12-30 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
KR101643560B1 (ko) * | 2014-12-17 | 2016-08-10 | 현대자동차주식회사 | 음성 인식 장치, 그를 가지는 차량 및 그 방법 |
JP6203343B2 (ja) * | 2015-11-19 | 2017-09-27 | パナソニック株式会社 | 音声認識方法及び音声認識装置 |
AU2017293423B2 (en) * | 2016-07-05 | 2023-05-25 | Beigene, Ltd. | Combination of a PD-1 antagonist and a RAF inhibitor for treating cancer |
US10038938B1 (en) * | 2017-06-02 | 2018-07-31 | Rovi Guides, Inc. | Systems and methods for controlling permissions to change parental control settings based on vocal characteristics of a user |
KR102441063B1 (ko) * | 2017-06-07 | 2022-09-06 | 현대자동차주식회사 | 끝점 검출 장치, 그를 포함한 시스템 및 그 방법 |
-
2018
- 2018-11-19 JP JP2018216873A patent/JP7251953B2/ja active Active
-
2019
- 2019-09-06 US US16/563,185 patent/US11195535B2/en active Active
- 2019-09-12 CN CN201910864295.XA patent/CN111199738B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018078885A1 (ja) | 2016-10-31 | 2018-05-03 | 富士通株式会社 | 対話装置、対話方法及び対話用コンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US11195535B2 (en) | 2021-12-07 |
US20200160871A1 (en) | 2020-05-21 |
CN111199738A (zh) | 2020-05-26 |
CN111199738B (zh) | 2023-12-01 |
JP2020086010A (ja) | 2020-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11741970B2 (en) | Determining hotword suitability | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN107039038B (zh) | 学习个性化实体发音 | |
US20180190288A1 (en) | System and method of performing automatic speech recognition using local private data | |
US9224394B2 (en) | Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same | |
CN106796788A (zh) | 基于用户反馈来改善自动语音识别 | |
KR20180075050A (ko) | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 | |
JP2010191400A (ja) | 音声認識装置およびデータ更新方法 | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
JP7251953B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP4000828B2 (ja) | 情報システム、電子機器、プログラム | |
WO2012174515A1 (en) | Hybrid dialog speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same | |
CN111161718A (zh) | 语音识别方法、装置、设备、存储介质及空调 | |
US10832675B2 (en) | Speech recognition system with interactive spelling function | |
WO2019230065A1 (ja) | 情報処理装置、情報処理方法、プログラム | |
EP2706528A2 (en) | System and method to generate a narrator specific acoustic database without a predefined script | |
KR20060098673A (ko) | 음성 인식 방법 및 장치 | |
JP2020091435A (ja) | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 | |
US20200321006A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
TWI574255B (zh) | 語音辨識方法、電子裝置及語音辨識系統 | |
CN112995270A (zh) | 智能体***、智能体***的控制方法及存储介质 | |
JP2020034832A (ja) | 辞書生成装置、音声認識システムおよび辞書生成方法 | |
JP2006184421A (ja) | 音声認識装置及び音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210420 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220324 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220726 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221020 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20221122 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20230104 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20230131 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20230228 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20230228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230323 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7251953 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |