JP6464411B2 - 電子機器、方法及びプログラム - Google Patents
電子機器、方法及びプログラム Download PDFInfo
- Publication number
- JP6464411B2 JP6464411B2 JP2015035353A JP2015035353A JP6464411B2 JP 6464411 B2 JP6464411 B2 JP 6464411B2 JP 2015035353 A JP2015035353 A JP 2015035353A JP 2015035353 A JP2015035353 A JP 2015035353A JP 6464411 B2 JP6464411 B2 JP 6464411B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- screen
- speech
- recognition
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 58
- 238000012545 processing Methods 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 31
- 230000005236 sound signal Effects 0.000 claims description 21
- 238000001514 detection method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000012800 visualization Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- User Interface Of Digital Computer (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
Description
1)認識精度は辞書によるので、予め膨大な辞書データを登録する必要がある。
2)音声を取得する状況(例えば、話者が離れたところに居る等)によっては、認識精度が変化(低下)することがある。
3)長時間会議の場合では音声データ量が膨大となり、認識処理に時間を要することがある。
Claims (15)
- マイクを介して音声信号を受ける入力部と、
ディスプレイと、
前記音声信号の録音、録音された前記音声信号の音声認識、および音声区間を前記ディスプレイの画面上に表示する処理を少なくとも実行する制御部と、
を具備し、
前記制御部は、
前記音声信号の録音中に、前記音声信号に含まれる第1音声区間を示す第1オブジェクトと、前記第1音声区間の後の第2音声区間を示す第2オブジェクトを時系列に並べて前記画面上に表示し、
前記第1音声区間の前記音声認識に対応する第1文字列を、前記第1音声区間の前記音声認識が完了したときに、前記第1オブジェクトに関連付けて前記画面上に表示し、
前記第2音声区間の前記音声認識に対応する第2文字列を、前記第2音声区間の前記音声認識が完了したときに、前記第2オブジェクトに関連付けて前記画面上に表示し、
前記第1オブジェクトが前記画面上から消える位置にあると判断した時は前記第1オブジェクトの音声認識をスキップして、後続する前記第2オブジェクトの少なくとも一部を音声認識する電子機器。 - 前記画面上から前記第2音声区間が優先順位付け指定されると、前記第1オブジェクトと前記第2オブジェクトの前記画面上の表示位置に係わらず前記第2オブジェクトが先に音声認識される請求項1記載の電子機器。
- 前記制御部は、前記第1オブジェクトと前記第2オブジェクトの低域の音声成分と中域の音声成分とを観察し、両音声成分ともフォルマント成分が存在することを検出しない場合、当該オブジェクトの音声認識を行わない請求項1記載の電子機器。
- 前記制御部は、前記第1文字列を前記第1音声区間の長さに応じた態様で前記画面上に表示し、前記第2文字列を前記第2音声区間の長さに応じた態様で前記画面上に表示する請求項1記載の電子機器。
- 前記制御部は、前記第1オブジェクトまたは前記第1文字列と、前記第2オブジェクトまたは前記第2文字列を音声認識の未処理、処理中、処理完了に応じた態様で前記画面上に表示する請求項1記載の電子機器。
- マイクを介して音声信号を受ける入力部と、ディスプレイと、前記音声信号の録音、録音された前記音声信号の音声認識、および音声区間を前記ディスプレイの画面上に表示する処理を少なくとも実行する制御部と、を具備する電子機器の方法であって、
前記音声信号の録音中に、前記音声信号に含まれる第1音声区間を示す第1オブジェクトと、前記第1音声区間の後の第2音声区間を示す第2オブジェクトを時系列に並べて前記画面上に表示し、
前記第1音声区間の前記音声認識に対応する第1文字列を、前記第1音声区間の前記音声認識が完了したときに、前記第1オブジェクトに関連付けて前記画面上に表示し、
前記第2音声区間の前記音声認識に対応する第2文字列を、前記第2音声区間の前記音声認識が完了したときに、前記第2オブジェクトに関連付けて前記画面上に表示し、
前記第1オブジェクトが前記画面上から消える位置にあると判断した時は前記第1オブジェクトの音声認識をスキップして、後続する前記第2オブジェクトの少なくとも一部を音声認識する方法。 - 前記画面上から前記第2音声区間が優先順位付け指定されると、前記第1オブジェクトと前記第2オブジェクトの前記画面上の表示位置に係わらず前記第2オブジェクトが先に音声認識される請求項6記載の方法。
- 前記第1オブジェクトと前記第2オブジェクトの低域の音声成分と中域の音声成分とを観察し、両音声成分ともフォルマント成分が存在することを検出しない場合、当該オブジェクトの音声認識を行わない請求項6記載の方法。
- 前記第1文字列を前記第1音声区間の長さに応じた態様で前記画面上に表示し、前記第2文字列を前記第2音声区間の長さに応じた態様で前記画面上に表示する請求項6記載の方法。
- 前記第1オブジェクトまたは前記第1文字列と、前記第2オブジェクトまたは前記第2文字列を音声認識の未処理、処理中、処理完了に応じた態様で前記画面上に表示する請求項6記載の方法。
- マイクを介して音声信号を受ける入力部と、ディスプレイと、前記音声信号の録音、録音された前記音声信号の音声認識、および音声区間を前記ディスプレイの画面上に表示する処理を少なくとも実行する制御部と、を具備するコンピュータにより実行されるプログラムであって、
前記音声信号の録音中に、前記音声信号に含まれる第1音声区間を示す第1オブジェクトと、前記第1音声区間の後の第2音声区間を示す第2オブジェクトを時系列に並べて前記画面上に表示する手順と、
前記第1音声区間の前記音声認識に対応する第1文字列を、前記第1音声区間の前記音声認識が完了したときに、前記第1オブジェクトに関連付けて前記画面上に表示する手順と、
前記第2音声区間の前記音声認識に対応する第2文字列を、前記第2音声区間の前記音声認識が完了したときに、前記第2オブジェクトに関連付けて前記画面上に表示する手順と、
前記第1オブジェクトが前記画面上から消える位置にあると判断した時は前記第1オブジェクトの音声認識をスキップして、後続する前記第2オブジェクトの少なくとも一部を音声認識する手順と、
を前記コンピュータに実行させるプログラム。 - 前記画面上から前記第2音声区間が優先順位付け指定されると、前記第1オブジェクトと前記第2オブジェクトの前記画面上の表示位置に係わらず前記第2オブジェクトを先に音声認識する手順を更に具備する請求項11記載のプログラム。
- 前記第1オブジェクトと前記第2オブジェクトの低域の音声成分と中域の音声成分とを観察し、両音声成分ともフォルマント成分が存在することを検出しない場合、当該オブジェクトの音声認識を行わない請求項11記載のプログラム。
- 前記第1文字列を前記第1音声区間の長さに応じた態様で前記画面上に表示する手順と、
前記第2文字列を前記第2音声区間の長さに応じた態様で前記画面上に表示する手順を更に具備する請求項11記載のプログラム。 - 前記第1オブジェクトまたは前記第1文字列と、前記第2オブジェクトまたは前記第2文字列を音声認識の未処理、処理中、処理完了に応じた態様で前記画面上に表示する手順を更に具備する請求項11記載のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015035353A JP6464411B6 (ja) | 2015-02-25 | 2015-02-25 | 電子機器、方法及びプログラム |
US14/919,662 US20160247520A1 (en) | 2015-02-25 | 2015-10-21 | Electronic apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015035353A JP6464411B6 (ja) | 2015-02-25 | 2015-02-25 | 電子機器、方法及びプログラム |
Publications (4)
Publication Number | Publication Date |
---|---|
JP2016156996A JP2016156996A (ja) | 2016-09-01 |
JP2016156996A5 JP2016156996A5 (ja) | 2018-03-01 |
JP6464411B2 true JP6464411B2 (ja) | 2019-02-06 |
JP6464411B6 JP6464411B6 (ja) | 2019-03-13 |
Family
ID=56693678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015035353A Active JP6464411B6 (ja) | 2015-02-25 | 2015-02-25 | 電子機器、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20160247520A1 (ja) |
JP (1) | JP6464411B6 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089061B2 (en) | 2015-08-28 | 2018-10-02 | Kabushiki Kaisha Toshiba | Electronic device and method |
US20170075652A1 (en) | 2015-09-14 | 2017-03-16 | Kabushiki Kaisha Toshiba | Electronic device and method |
JP6165913B1 (ja) * | 2016-03-24 | 2017-07-19 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
WO2018144367A1 (en) * | 2017-02-03 | 2018-08-09 | iZotope, Inc. | Audio control system and related methods |
JP2018159759A (ja) * | 2017-03-22 | 2018-10-11 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
JP6646001B2 (ja) * | 2017-03-22 | 2020-02-14 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
KR102068182B1 (ko) * | 2017-04-21 | 2020-01-20 | 엘지전자 주식회사 | 음성 인식 장치, 및 음성 인식 시스템 |
JP7075797B2 (ja) * | 2018-03-27 | 2022-05-26 | 株式会社日立情報通信エンジニアリング | 通話録音システム、録音通話再生方法 |
CN108492347B (zh) * | 2018-04-11 | 2022-02-15 | 广东数相智能科技有限公司 | 图像生成方法、装置与计算机可读存储介质 |
CN108696768A (zh) * | 2018-05-08 | 2018-10-23 | 北京恒信彩虹信息技术有限公司 | 一种语音识别方法及*** |
CN109039872B (zh) * | 2018-09-04 | 2020-04-17 | 北京达佳互联信息技术有限公司 | 实时语音信息的交互方法、装置、电子设备及存储介质 |
CN110797043B (zh) * | 2019-11-13 | 2022-04-12 | 思必驰科技股份有限公司 | 会议语音实时转写方法及*** |
JP7042246B2 (ja) * | 2019-11-25 | 2022-03-25 | フジテック株式会社 | 昇降装置の遠隔制御システム |
JP6946499B2 (ja) * | 2020-03-06 | 2021-10-06 | 株式会社日立製作所 | 発話支援装置、発話支援方法、および発話支援プログラム |
US11468900B2 (en) * | 2020-10-15 | 2022-10-11 | Google Llc | Speaker identification accuracy |
US11477042B2 (en) * | 2021-02-19 | 2022-10-18 | International Business Machines Corporation | Ai (artificial intelligence) aware scrum tracking and optimization |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6490562B1 (en) * | 1997-04-09 | 2002-12-03 | Matsushita Electric Industrial Co., Ltd. | Method and system for analyzing voices |
US6477491B1 (en) * | 1999-05-27 | 2002-11-05 | Mark Chandler | System and method for providing speaker-specific records of statements of speakers |
JP3534712B2 (ja) * | 2001-03-30 | 2004-06-07 | 株式会社コナミコンピュータエンタテインメント東京 | 音声編集装置及び音声編集プログラム |
US20030050777A1 (en) * | 2001-09-07 | 2003-03-13 | Walker William Donald | System and method for automatic transcription of conversations |
US7047200B2 (en) * | 2002-05-24 | 2006-05-16 | Microsoft, Corporation | Voice recognition status display |
US20040138894A1 (en) * | 2002-10-17 | 2004-07-15 | Daniel Kiecza | Speech transcription tool for efficient speech transcription |
US20040117186A1 (en) * | 2002-12-13 | 2004-06-17 | Bhiksha Ramakrishnan | Multi-channel transcription-based speaker separation |
US7567908B2 (en) * | 2004-01-13 | 2009-07-28 | International Business Machines Corporation | Differential dynamic content delivery with text display in dependence upon simultaneous speech |
JP2005202014A (ja) * | 2004-01-14 | 2005-07-28 | Sony Corp | 音声信号処理装置、音声信号処理方法および音声信号処理プログラム |
US8102973B2 (en) * | 2005-02-22 | 2012-01-24 | Raytheon Bbn Technologies Corp. | Systems and methods for presenting end to end calls and associated information |
JP2010113438A (ja) * | 2008-11-05 | 2010-05-20 | Brother Ind Ltd | 情報取得装置、情報取得プログラム、及び情報取得システム |
JP5533854B2 (ja) * | 2009-03-31 | 2014-06-25 | 日本電気株式会社 | 音声認識処理システム、および音声認識処理方法 |
US8370142B2 (en) * | 2009-10-30 | 2013-02-05 | Zipdx, Llc | Real-time transcription of conference calls |
JP5174068B2 (ja) * | 2010-03-11 | 2013-04-03 | 株式会社東芝 | 信号分類装置 |
US9047878B2 (en) * | 2010-11-24 | 2015-06-02 | JVC Kenwood Corporation | Speech determination apparatus and speech determination method |
US9313335B2 (en) * | 2012-09-14 | 2016-04-12 | Google Inc. | Handling concurrent speech |
KR102196671B1 (ko) * | 2013-01-11 | 2020-12-30 | 엘지전자 주식회사 | 전자 기기 및 전자 기기의 제어 방법 |
US9451048B2 (en) * | 2013-03-12 | 2016-09-20 | Shazam Investments Ltd. | Methods and systems for identifying information of a broadcast station and information of broadcasted content |
JP6198432B2 (ja) * | 2013-04-09 | 2017-09-20 | 小島プレス工業株式会社 | 音声認識制御装置 |
KR102045281B1 (ko) * | 2013-06-04 | 2019-11-15 | 삼성전자주식회사 | 데이터 처리 방법 및 그 전자 장치 |
WO2014199596A1 (ja) * | 2013-06-10 | 2014-12-18 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者識別方法、話者識別装置及び話者識別システム |
JP6450312B2 (ja) * | 2013-07-10 | 2019-01-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者識別方法及び話者識別システム |
US9336781B2 (en) * | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US20150142434A1 (en) * | 2013-11-20 | 2015-05-21 | David Wittich | Illustrated Story Creation System and Device |
US10141011B2 (en) * | 2014-04-21 | 2018-11-27 | Avaya Inc. | Conversation quality analysis |
US20150310863A1 (en) * | 2014-04-24 | 2015-10-29 | Nuance Communications, Inc. | Method and apparatus for speaker diarization |
US10354654B2 (en) * | 2014-06-11 | 2019-07-16 | Avaya Inc. | Conversation structure analysis |
JP6509516B2 (ja) * | 2014-09-29 | 2019-05-08 | Dynabook株式会社 | 電子機器、方法及びプログラム |
-
2015
- 2015-02-25 JP JP2015035353A patent/JP6464411B6/ja active Active
- 2015-10-21 US US14/919,662 patent/US20160247520A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP6464411B6 (ja) | 2019-03-13 |
US20160247520A1 (en) | 2016-08-25 |
JP2016156996A (ja) | 2016-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6464411B6 (ja) | 電子機器、方法及びプログラム | |
US10592198B2 (en) | Audio recording/playback device | |
US10089061B2 (en) | Electronic device and method | |
JP6635049B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN110275664B (zh) | 用于提供视听反馈的设备、方法和图形用户界面 | |
US10770077B2 (en) | Electronic device and method | |
US9720644B2 (en) | Information processing apparatus, information processing method, and computer program | |
US20160163331A1 (en) | Electronic device and method for visualizing audio data | |
JP6509516B2 (ja) | 電子機器、方法及びプログラム | |
US20140303975A1 (en) | Information processing apparatus, information processing method and computer program | |
US9389755B2 (en) | Input apparatus, input method, and input program | |
CN110211589A (zh) | 车载***的唤醒方法、装置以及车辆、机器可读介质 | |
JPWO2014069114A1 (ja) | 情報処理装置、再生状態制御方法及びプログラム | |
KR20140096573A (ko) | 컨텐츠 재생을 제어하기 위한 방법 및 장치 | |
US20210064327A1 (en) | Audio highlighter | |
JPWO2016103809A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US9361859B2 (en) | Information processing device, method, and computer program product | |
JP6969576B2 (ja) | 情報処理装置、および情報処理方法 | |
JP7468360B2 (ja) | 情報処理装置および情報処理方法 | |
JP6392051B2 (ja) | 電子機器、方法およびプログラム | |
US20170092334A1 (en) | Electronic device and method for visualizing audio data | |
JP6418179B2 (ja) | 音読練習装置、表示制御方法、及びプログラム | |
WO2012017525A1 (ja) | 処理装置及びコマンド入力支援方法 | |
CN110289010B (zh) | 一种声音采集的方法、装置、设备和计算机存储介质 | |
JP2021128610A (ja) | 電子機器、再生方法、及び再生プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181113 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20181206 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20181207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6464411 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |