JP7400364B2 - 音声認識システム及び情報処理方法 - Google Patents
音声認識システム及び情報処理方法 Download PDFInfo
- Publication number
- JP7400364B2 JP7400364B2 JP2019203340A JP2019203340A JP7400364B2 JP 7400364 B2 JP7400364 B2 JP 7400364B2 JP 2019203340 A JP2019203340 A JP 2019203340A JP 2019203340 A JP2019203340 A JP 2019203340A JP 7400364 B2 JP7400364 B2 JP 7400364B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- audio
- acquisition device
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 6
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000010801 machine learning Methods 0.000 claims description 39
- 238000003384 imaging method Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 17
- 230000001360 synchronised effect Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 12
- 238000009434 installation Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
1a :台座部
1b :延伸部
1c :ユニット設置部
2 :筐体部
10 :終了制御部
11 :同期制御部
12 :記録制御部
13 :記録部
14 :ミュート制御部
15 :通信制御部
20 :ミュートボタン
31,32,33,34,35,36 :会議出席者
50,50-1,50-n :マイク
51,51-1,51-2,50-n :カメラ
100 :会議室
101 :CPU
102 :ROM
103 :RAM
104 :入力装置
105 :通信インタフェース
106 :バス
110 :テーブル
120 :ホワイトボード
200 :クラウドサーバ
201 :音声認識エンジン
201a :音声特徴量抽出部
201b :音声認識器
202 :読唇処理部
202a :画像特徴量抽出部
202b :機械読唇器
203 :統合器
210 :プロセッサ
220 :メモリ
230 :入出力インタフェース
240 :バス
300 :音声認識システム
301 :通信ネットワーク
Claims (12)
- 音声取得装置と、サーバと、を備える音声認識システムであって、
前記音声取得装置は、
複数の音声を検出する音声検出部と、
複数の前記音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、
を備え、
前記サーバは、
同期された複数の前記音声データに対して、教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する
音声認識システム。 - 前記音声取得装置は、
複数の前記音声データを記録する記録部を備える請求項1に記載の音声認識システム。 - 前記音声取得装置は、
外部機器との間で複数の前記音声データの通信を行う通信制御部を備える請求項1又は2に記載の音声認識システム。 - 前記音声取得装置は、
複数の前記音声の録音を一時停止するミュート制御部を備える請求項1から3の何れか一項に記載の音声認識システム。 - 前記ミュート制御部は、記録された複数の前記音声データを一定時間遡った時点まで消去する請求項4に記載の音声認識システム。
- 複数の前記音声検出部は、それぞれの配置位置が互いに異なり、又はそれぞれの向きが互いに異なる請求項1から5の何れか一項に記載の音声認識システム。
- 前記音声取得装置は、
撮像部を備え、
前記撮像部で撮像されたデータである撮像データを、機械読唇の機械学習に用いる請求項1から6の何れか一項に記載の音声認識システム。 - 前記サーバは、
前記音声認識エンジンの機械学習の結果に応じて、前記機械読唇の機械学習の結果を採用し又は採用しない統合器を備える請求項7に記載の音声認識システム。 - 前記音声取得装置の筐体部から着脱可能な撮像部を備える請求項1から8の何れか一項に記載の音声認識システム。
- 前記音声取得装置は、
撮像部を備え、
前記同期制御部は、前記音声データに前記撮像部で撮像された画像の内容を示すデータである撮像データを同期させる制御を行い、
前記サーバは、
同期された複数の前記音声データ及び前記撮像データに対して、教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する請求項1から9の何れか一項に記載の音声認識システム。 - 前記音声取得装置は、
撮像部を備え
前記音声データ及び前記撮像部で撮像されたデータである撮像データに対して、同一の教師ラベルを用いて機械学習を行い、音声を認識する請求項1から10の何れか一項に記載の音声認識システム。 - 音声取得装置と、サーバと、を備える音声認識システムが行う情報処理方法であって、
前記音声取得装置が、音声検出部で複数の音声を検出し、
前記音声取得装置が、前記音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行い、
前記サーバが、同期された複数の前記音声データに対して教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019203340A JP7400364B2 (ja) | 2019-11-08 | 2019-11-08 | 音声認識システム及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019203340A JP7400364B2 (ja) | 2019-11-08 | 2019-11-08 | 音声認識システム及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021076715A JP2021076715A (ja) | 2021-05-20 |
JP7400364B2 true JP7400364B2 (ja) | 2023-12-19 |
Family
ID=75897980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019203340A Active JP7400364B2 (ja) | 2019-11-08 | 2019-11-08 | 音声認識システム及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7400364B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742517B (zh) * | 2021-08-11 | 2022-09-27 | 北京百度网讯科技有限公司 | 语音包的生成方法、装置、电子设备和存储介质 |
CN115881129B (zh) * | 2023-03-09 | 2023-05-09 | 绵阳师范学院 | 一种机器人语音识别***及其使用方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (ja) | 1999-03-26 | 2000-12-19 | Canon Inc | 情報処理装置 |
JP2004084187A (ja) | 2002-08-23 | 2004-03-18 | Natl Inst For Land & Infrastructure Management Mlit | 柱等衝突防止柵 |
JP2007052859A (ja) | 2005-08-18 | 2007-03-01 | Sony Corp | データ記録装置 |
JP2018013549A (ja) | 2016-07-19 | 2018-01-25 | 株式会社デンソー | 発話内容認識装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004084187A1 (ja) * | 2003-03-17 | 2004-09-30 | Nagoya Industrial Science Research Institute | 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置 |
-
2019
- 2019-11-08 JP JP2019203340A patent/JP7400364B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (ja) | 1999-03-26 | 2000-12-19 | Canon Inc | 情報処理装置 |
JP2004084187A (ja) | 2002-08-23 | 2004-03-18 | Natl Inst For Land & Infrastructure Management Mlit | 柱等衝突防止柵 |
JP2007052859A (ja) | 2005-08-18 | 2007-03-01 | Sony Corp | データ記録装置 |
JP2018013549A (ja) | 2016-07-19 | 2018-01-25 | 株式会社デンソー | 発話内容認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021076715A (ja) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11023690B2 (en) | Customized output to optimize for user preference in a distributed system | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
WO2020222928A1 (en) | Synchronization of audio signals from distributed devices | |
US9293133B2 (en) | Improving voice communication over a network | |
WO2020222935A1 (en) | Speaker attributed transcript generation | |
CN112074901A (zh) | 语音识别登入 | |
WO2020222930A1 (en) | Audio-visual diarization to identify meeting attendees | |
CN110874137B (zh) | 一种交互方法以及装置 | |
WO2019206186A1 (zh) | 唇语识别方法及其装置、增强现实设备以及存储介质 | |
WO2020222929A1 (en) | Processing overlapping speech from distributed devices | |
WO2020222921A1 (en) | Audio stream processing for distributed device meeting | |
WO2020057102A1 (zh) | 语音翻译方法及翻译装置 | |
JP7279494B2 (ja) | 会議支援装置、および会議支援システム | |
WO2016187910A1 (zh) | 一种语音文字的转换方法及设备、存储介质 | |
JP7400364B2 (ja) | 音声認識システム及び情報処理方法 | |
JP2023548157A (ja) | 通話およびオーディオメッセージからのその他の話者の音声フィルタリング | |
EP3963575A1 (en) | Distributed device meeting initiation | |
Gogate et al. | Av speech enhancement challenge using a real noisy corpus | |
TWI769520B (zh) | 多國語言語音辨識及翻譯方法與相關的系統 | |
Panek et al. | Challenges in adopting speech control for assistive robots | |
JP2020067562A (ja) | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 | |
JP2022142374A (ja) | 音声認識システム、音声認識方法およびプログラム | |
CN112420046A (zh) | 适合听障人士参与的多人会议方法、***及装置 | |
JP7000547B1 (ja) | プログラム、方法、情報処理装置、システム | |
US20230267942A1 (en) | Audio-visual hearing aid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231120 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7400364 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |