JP2012181307A - 音声処理装置、音声処理方法及び音声処理プログラム - Google Patents
音声処理装置、音声処理方法及び音声処理プログラム Download PDFInfo
- Publication number
- JP2012181307A JP2012181307A JP2011043572A JP2011043572A JP2012181307A JP 2012181307 A JP2012181307 A JP 2012181307A JP 2011043572 A JP2011043572 A JP 2011043572A JP 2011043572 A JP2011043572 A JP 2011043572A JP 2012181307 A JP2012181307 A JP 2012181307A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- audio
- recognition
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】入力した音声データを記憶する記憶手段と、前記記憶手段に記憶された音声データを分割する音声分割手段と、前記音声分割手段による分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識手段と、前記音声認識手段による認識結果としての文字データを統合して文書データを生成する統合手段と、を備えたことを特徴とする。
【選択図】 図1
Description
入力した音声データを記憶する記憶手段と、
前記記憶手段に記憶された音声データを分割する音声分割手段と、
前記音声分割手段による分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識手段と、
前記音声認識手段による認識結果としての文字データを統合して文書データを生成する統合手段と、
を備えたことを特徴とする。
記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
を含むことを特徴とする。
記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
をコンピュータに実行させることを特徴とする。
本発明の第1実施形態としての音声処理装置100について、図1を用いて説明する。音声処理装置100は、音声データを認識して文書データに変換する装置である。
本発明の第2実施形態について、図2以降を用いて説明する。図2は、本実施形態に係る音声処理システム200の構成を示すブロック図である。図2において、音声処理システム200は、マイク210、スピーカ220、ディスプレイ230、操作部(マウスやキーボード)240などと接続されている。また、音声処理システム200は、音声記憶部201と音声認識部202と文書処理部203と音声再生部207と操作部240とを備えている。音声処理システム200は、マイク210から入力した音声を認識して、ディスプレイ230やスピーカ220に入力音声や認識結果を出力しつつ、認識結果としての文書中の誤りを修正したり編集したりするシステムである。音声処理システム200の構成要素のうち、音声記憶部201は、マイク210から入力した音声データを記憶する。また、音声認識部202は、音声記憶部201に記憶された音声データを認識して文書データに変換する。更に文書処理部203は、音声認識部202が生成した文書データを用意されたGUIフォームに挿入して、表示データを生成する。生成された表示データは、ディスプレイ230によって表示される。
本発明の第3実施形態に係る音声処理システムについて図9を用いて説明する。図9は、本実施形態に係る音声処理システムに含まれる音声認識部902の内部構成を示す図である。音声認識部902以外の音声処理システムの構成は、上記第2実施形態と同様であるためここでは説明を省略する。
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム又は装置も、本発明の範疇に含まれる。
Claims (11)
- 入力した音声データを記憶する記憶手段と、
前記記憶手段に記憶された音声データを分割する音声分割手段と、
前記音声分割手段による分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識手段と、
前記音声認識手段による認識結果としての文字データを統合して文書データを生成する統合手段と、
を備えたことを特徴とする音声処理装置。 - 前記音声認識手段は、
前記音声分割手段による分割によって生成された1つの部分音声データに対し、少なくとも2つの音声認識エンジンを用いて認識処理を加えることを特徴とする請求項1に記載の音声処理装置。 - 前記音声分割手段は、分割前の音声データを無音部分も含めて等分割することを特徴とする請求項1又は2に記載の音声処理装置。
- 前記音声分割手段は、分割前の音声データから無音部分を除いた音声部分を等分割することを特徴とする請求項1又は2に記載の音声処理装置。
- 前記音声分割手段は、ユーザからの指示を受け付け、該指示に応じて分割の間隔を変更することを特徴とする請求項1乃至4の何れか1項に記載の音声処理装置。
- 前記音声分割手段は、前記音声データに存在する無音区間を検索し、無音区間が開始又は終了するタイミングで前記音声データを分割することを特徴とする請求項1乃至5の何れか1項に記載の音声処理装置。
- 前記音声分割手段は、前記音声データに存在する有音区間の長さに応じて有音区間毎に分割間隔を変更することとを特徴とする請求項6に記載の音声処理装置。
- 前記音声分割手段は、前記音声データにおける無音区間の割合を算出し、その無音割合が所定値よりも小さい場合には分割前の音声データを無音部分も含めて等分割し、前記無音割合が処理値よりも多い場合には分割前の音声データから無音部分を除いた音声部分を等分割することを特徴とする請求項1乃至7の何れか1項の記載の音声処理装置。
- 前記音声分割手段は、前記部分音声データの端部同士が重複した音声データを有するように、前記音声データを分割することを特徴とする請求項1乃至8の何れか1項に記載の音声処理装置。
- 記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
を含むことを特徴とする音声処理方法。 - 記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
をコンピュータに実行させることを特徴とする音声処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011043572A JP2012181307A (ja) | 2011-03-01 | 2011-03-01 | 音声処理装置、音声処理方法及び音声処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011043572A JP2012181307A (ja) | 2011-03-01 | 2011-03-01 | 音声処理装置、音声処理方法及び音声処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012181307A true JP2012181307A (ja) | 2012-09-20 |
Family
ID=47012565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011043572A Pending JP2012181307A (ja) | 2011-03-01 | 2011-03-01 | 音声処理装置、音声処理方法及び音声処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012181307A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013101204A (ja) * | 2011-11-08 | 2013-05-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法とプログラム |
CN110634481A (zh) * | 2019-08-06 | 2019-12-31 | 惠州市德赛西威汽车电子股份有限公司 | 一种输出最优识别结果的语音整合方法 |
JPWO2021181451A1 (ja) * | 2020-03-09 | 2021-09-16 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6129896A (ja) * | 1984-07-20 | 1986-02-10 | 日本電信電話株式会社 | 単語音声認識装置 |
JP2006011066A (ja) * | 2004-06-25 | 2006-01-12 | Nec Corp | 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置 |
JP2007293600A (ja) * | 2006-04-25 | 2007-11-08 | Ziosoft Inc | 医療用サーバ装置、入力装置、校正装置、閲覧装置、音声入力レポートシステムおよびプログラム |
JP2008107624A (ja) * | 2006-10-26 | 2008-05-08 | Kddi Corp | 文字起こしシステム |
-
2011
- 2011-03-01 JP JP2011043572A patent/JP2012181307A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6129896A (ja) * | 1984-07-20 | 1986-02-10 | 日本電信電話株式会社 | 単語音声認識装置 |
JP2006011066A (ja) * | 2004-06-25 | 2006-01-12 | Nec Corp | 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置 |
JP2007293600A (ja) * | 2006-04-25 | 2007-11-08 | Ziosoft Inc | 医療用サーバ装置、入力装置、校正装置、閲覧装置、音声入力レポートシステムおよびプログラム |
JP2008107624A (ja) * | 2006-10-26 | 2008-05-08 | Kddi Corp | 文字起こしシステム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013101204A (ja) * | 2011-11-08 | 2013-05-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法とプログラム |
CN110634481A (zh) * | 2019-08-06 | 2019-12-31 | 惠州市德赛西威汽车电子股份有限公司 | 一种输出最优识别结果的语音整合方法 |
CN110634481B (zh) * | 2019-08-06 | 2021-11-16 | 惠州市德赛西威汽车电子股份有限公司 | 一种输出最优识别结果的语音整合方法 |
JPWO2021181451A1 (ja) * | 2020-03-09 | 2021-09-16 | ||
WO2021181451A1 (ja) * | 2020-03-09 | 2021-09-16 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
JP7501610B2 (ja) | 2020-03-09 | 2024-06-18 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3736806A1 (en) | Audio synthesizing method, storage medium and computer equipment | |
US8359202B2 (en) | Character models for document narration | |
US9489938B2 (en) | Sound synthesis method and sound synthesis apparatus | |
US9064484B1 (en) | Method of providing feedback on performance of karaoke song | |
CN110740275B (zh) | 一种非线性编辑*** | |
US20180226101A1 (en) | Methods and systems for interactive multimedia creation | |
JP6280312B2 (ja) | 議事録記録装置、議事録記録方法及びプログラム | |
US9524751B2 (en) | Semi-automatic generation of multimedia content | |
JP2021182438A (ja) | 動画生成方法、装置、電子機器およびコンピュータ可読媒体 | |
KR20110055957A (ko) | 파워포인트에 TTS 모듈을 플러그인(plug-in)하여 음성 합성된 파워포인트 문서 및 다양한 동영상 파일을 작성하는 방법과 이에 따른 시스템 | |
JP4741406B2 (ja) | ノンリニア編集装置およびそのプログラム | |
CN109845249A (zh) | 用外部信息同步midi文件的方法和*** | |
JP2014202848A (ja) | テキスト生成装置、方法、及びプログラム | |
JP2012181307A (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
KR101493006B1 (ko) | 멀티미디어 콘텐츠 편집장치 및 그 방법 | |
JP2013164609A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP2006236037A (ja) | 音声対話コンテンツ作成方法、装置、プログラム、記録媒体 | |
CN113611268A (zh) | 音乐作品生成、合成方法及其装置、设备、介质、产品 | |
JP2005326811A (ja) | 音声合成装置および音声合成方法 | |
US12046225B2 (en) | Audio synthesizing method, storage medium and computer equipment | |
JP2006284645A (ja) | 音声再生装置およびその再生プログラムならびにその再生方法 | |
US11481185B1 (en) | Method and system for tagging and navigating through performers and other information on time-synchronized content | |
KR101030777B1 (ko) | 스크립트 데이터 생성 방법 및 장치 | |
JP7166370B2 (ja) | 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体 | |
KR102274275B1 (ko) | 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130808 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140417 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140425 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20140530 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20140613 |