JP4757599B2 - 音声認識システムと音声認識方法およびプログラム - Google Patents
音声認識システムと音声認識方法およびプログラム Download PDFInfo
- Publication number
- JP4757599B2 JP4757599B2 JP2005299007A JP2005299007A JP4757599B2 JP 4757599 B2 JP4757599 B2 JP 4757599B2 JP 2005299007 A JP2005299007 A JP 2005299007A JP 2005299007 A JP2005299007 A JP 2005299007A JP 4757599 B2 JP4757599 B2 JP 4757599B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- recognition
- priority
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000007493 shaping process Methods 0.000 claims description 69
- 238000012545 processing Methods 0.000 claims description 38
- 238000011156 evaluation Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 13
- 238000013518 transcription Methods 0.000 claims description 7
- 230000035897 transcription Effects 0.000 claims description 7
- 238000010295 mobile communication Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000220010 Rhode Species 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 241001122315 Polites Species 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000013410 fast food Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 229920000126 latex Polymers 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Description
・認識結果の言語尤度や
・音響尤度、
・信頼度(非特許文献3参照)
などが用いられる。例えば、特許文献3は、評価尺度として正規化された尤度(「信頼度」という)が予め与えられたある閾値を越えた場合は出力し、そうでなければ認識結果を棄却する。
音声データを入力する工程と、
入力音声データを受け音声認識を行う工程と、
音声認識された認識結果及び/又は前記認識結果の部位に対して優先度を求める工程と、
前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の出力情報を整形する工程と、
前記整形された出力情報を出力する工程と、
を含む。
表示画面に、前記作成された出力イメージを出力する工程と、
を含む。
前記出力イメージを作成する工程は、優先度と前記出力の設定範囲とに従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し出力イメージを作成するようにしてもよい。
前記指定に基づき音声データを再生する工程と、
を含むようにしてもよい。
音声データを入力する処理と、
入力した音声データの音声認識を行う処理と、
前記音声認識処理による認識結果及び/又は前記認識結果の部位に対して優先度を求める処理と、
前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の出力情報を整形する処理と、
前記整形された出力情報を出力装置に出力する処理と、
を実行させるプログラムよりなる。
前記優先度と前記出力の設定範囲とに従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し出力イメージを作成する処理と、
を前記コンピュータに実行させるプログラムよりなる。
・音声認識手段120に入力された波形、
・音声認識手段120から受け取った認識結果、
・認識結果の各部位に対する尤度、信頼度、および重要度、
等を保持し、認識結果評価手段140と認識結果整形手段150からの指示に基づいて、これらに必要な情報を受け渡す。
CONFIDENCE(w)は、単語wの認識結果における信頼度である。
IMPORTANCE(w)は、単語wの重要度である。
f(x,y)は、信頼度と重要度を混合する演算である。
(A)適当な係数を用いた線形和や、
(B)適当なバイアスを用いた乗算などを用いる。
・認識結果の上位N候補の尤度に対する第1位の認識候補の尤度の比をとるもの(例えば非特許文献3参照)、
・複数の言語モデルに対してある単語が同じ位置に現れる比率を求めるもの(例えば非特許文献4参照)、
・ある時刻の入力音声に対する仮説数の密度を用いるもの(例えば非特許文献5)、
等様々な尺度が用いられる。
・ある単語と別の単語が連続しているのか、それとも時間的に離れたものなのか、あるいは、
・どの程度離れているのか、
などの情報が、一目で識別できるというメリットがある。
コールセンターのオペレータ品質管理、
議事録の閲覧、
映像アーカイブ検索、
音声書き起こし、
等に適用することができる。
・音声を聴きながら、その次に現れる文脈も先読みすることができる、
・読み飛ばし(聴き飛ばし)や、巻き戻しの指定が、表示画面を用いて視覚的に行うことができる、
・認識精度が比較的良好な発声に関してキータイプ入力の工数を省くことができる、
等の作用効果を奏することができる。
110 音声入力手段
120 音声認識手段
130 記憶手段
140 認識結果評価手段
150 認識結果整形手段
151 認識結果取り込み手段
152 整列済みインデックス記憶手段
153 整形処理計算手段
154 内部出力バッファ手段
160 出力手段
160A 画面表示手段
170 表示対象範囲設定手段
180 波形再生指示手段
190 波形再生手段
200 ウインドウ
210 認識結果表示リストボックス
211 発話インデックスペイン
212 認識結果ペイン
213 スクロールバー
220 拡大表示ボタン
Claims (23)
- 音声データを入力する音声入力手段と、
前記音声入力手段より入力された音声データを受け音声認識を行う音声認識手段と、
前記音声認識手段で音声認識された認識結果のある部位に対して、当該部位以外の他の部位と比較可能な優先度を求める認識結果評価手段と、
前記認識結果と前記優先度とを少なくとも記憶する記憶手段と、
前記優先度に従って前記認識結果の出力情報を整形する認識結果整形手段と、
前記認識結果整形手段で整形された出力情報を出力する出力手段と、
を含み、
前記認識結果評価手段は、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識手段で音声認識された認識結果のある部位の単語について導出し、導出した前記信頼度と、前記単語に関する重要度との混合演算に基づき、前記優先度を算出する、ことを特徴とする音声認識システム。 - 前記認識結果整形手段は、前記優先度に応じて、前記認識結果の出力の有無、及び/又は、前記認識結果の出力形態を可変させる、ことを特徴とする請求項1記載の音声認識システム。
- 前記認識結果整形手段は、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記優先度が相対的に高い認識結果を、前記優先度が相対的に低い認識結果よりも、より判別容易な出力形態で出力する、ことを特徴とする請求項1記載の音声認識システム。
- 前記認識結果整形手段は、前記優先度に応じた前記認識結果の出力形態の可変制御として、前記認識結果の省略形、出力サイズの大小、階調出力、吹き出し、アニメーション、透過出力、重ね出力、出力速度のうちの少なくともいずれか1つを調整する、ことを特徴とする請求項3記載の音声認識システム。
- 前記認識結果評価手段は、前記音声認識手段で音声認識された、前記認識結果及び/又は前記認識結果を構成する部位に対して、前記優先度を求める、ことを特徴とする請求項1記載の音声認識システム。
- 請求項1乃至5のいずれか一に記載の音声認識システムを備えた再生装置であって、
前記音声入力手段は、記録媒体に記録されている音声データを入力して前記音声認識手段に供給し、前記記録媒体に記録されている音声の中から、前記所定の優先度に従って整形された認識結果が出力される、ことを特徴とする再生装置。 - 音声データを入力して音声認識し認識結果を出力する音声書き起こし装置であって、
請求項1乃至5のいずれか一に記載の音声認識システムを備えている、ことを特徴とする音声書き起こし装置。 - 音声データを入力する音声入力手段と、
前記音声入力手段より入力音声データを受け音声認識を行う音声認識手段と、
前記音声認識手段で音声認識された、認識結果及び/又は前記認識結果を構成する部位に対して、優先度を求める認識結果評価手段と、
前記認識結果と前記優先度とを少なくとも記憶する記憶手段と、
前記優先度に従い、前記認識結果及び/又は前記認識結果を構成する部位の表示/非表示を判定し、出力イメージを作成する認識結果整形手段と、
前記出力イメージを表示装置に出力する画面表示手段と、
を含み、
前記認識結果評価手段は、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識手段で音声認識された認識結果のある部位について導出し、導出した前記信頼度と、前記認識結果の前記ある部位の単語に関する重要度との混合演算に基づき、前記優先度を算出する、ことを特徴とする音声認識システム。 - 出力の対象とすべき音声データの範囲と、前記認識結果及び/又は前記認識結果の部位の範囲を設定する表示対象範囲設定手段をさらに含み、
認識結果整形手段は、前記優先度と前記出力の設定範囲とに従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し、出力イメージを作成する、ことを特徴とする請求項8記載の音声認識システム。 - 前記記憶手段には、前記音声入力手段より前記音声認識手段に供給された入力音声データが記憶され、
前記出力イメージを参照して、入力音声データの再生を指定する音声再生指示手段と、
前記音声再生指示手段による指定に基づき、前記記憶手段に記憶されている、入力音声データを再生する音声再生手段と、
をさらに含む、ことを特徴とする請求項8又は9記載の音声認識システム。 - 前記認識結果評価手段は、前記音声認識手段による前記認識結果及び/又は前記認識結果の部位の音響尤度、言語尤度、事後確率による信頼度のうちの少なくとも1つを用いて、前記優先度を導出する、ことを特徴とする請求項1、8、9、10のいずれか一に記載の音声認識システム。
- 前記認識結果評価手段は、前記音声認識手段による前記認識結果及び/又は前記認識結果の一部となり得る単語、単語連鎖に対して、重要度を用いて、前記優先度を導出する、ことを特徴とする請求項1、8、9、10のいずれか一に記載の音声認識システム。
- 前記認識結果整形手段は、前記出力イメージの作成に際して、前記優先度が、予め定められた閾値を越える認識結果及び/又は前記認識結果の部位を表示する、ことを特徴とする請求項8乃至12のいずれか一に記載の音声認識システム。
- 前記認識結果整形手段は、前記出力イメージの作成に際して、優先度の高い認識結果及び/又は前記認識結果の部位から、順に表示し、表示装置における表示領域が不足した場合、残りの認識結果及び/又は前記認識結果の部位を、所定の記号で代替表示する、ことを特徴とする請求項8乃至12のいずれか一に記載の音声認識システム。
- 前記認識結果整形手段は、前記出力イメージの作成に際して、前記優先度の相対的に高い認識結果及び/又は前記認識結果の部位から順に、前記認識結果及び/又は前記認識結果の部位が表示領域において占める領域が大きくなり、前記優先度が相対的に低い認識結果及び/又は前記認識結果の部位が表示領域において占める領域がより小さくなるように制御する、ことを特徴とする請求項8乃至12のいずれか一に記載の音声認識システム。
- 音声認識装置による音声の認識方法であって、
音声データを入力する工程と、
入力音声データの音声認識処理を行う工程と、
音声認識処理による認識結果及び/又は前記認識結果の部位に対して、優先度を求める工程と、
前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の出力情報を整形する工程と、
前記整形された出力情報を出力する工程と、
を含み、
前記優先度を求める工程では、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識処理を行う工程で音声認識された認識結果のある部位について導出し、導出した前記信頼度と、前記認識結果の前記ある部位の単語に関する重要度との混合演算に基づき、前記優先度を算出する、ことを特徴とする音声認識方法。 - 前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し出力イメージを作成する工程と、
表示画面に、前記作成された出力イメージを出力する工程と、
を含む、ことを特徴とする請求項16記載の音声認識方法。 - 出力の対象とすべき音声データの範囲と、前記認識結果及び/又は前記認識結果の部位の範囲を設定する工程を含み、
前記出力イメージを作成する工程は、優先度と前記出力の設定範囲とに従い、前記認識結果及び/又は前記認識結果の部位の表示/非表示を判定し出力イメージを作成する、ことを特徴とする請求項17記載の音声認識方法。 - 前記出力イメージを参照して入力音声データの再生を指定する工程と、
前記指定に基づき音声データを再生する工程と、
を含む、ことを特徴とする請求項17記載の音声認識方法。 - 音声認識処理を行うコンピュータに、
音声データを入力する処理と、
入力した音声データの音声認識を行う処理と、
前記音声認識での認識結果及び/又は前記認識結果の部位に対して、優先度を求める処理であって、認識結果が他の対立する認識候補に対してどの程度高い尤度を持っているかを示す尺度である信頼度を、前記音声認識された認識結果のある部位について導出し、導出した前記信頼度と、前記認識結果の前記ある部位の単語に関する重要度との混合演算に基づき、前記優先度を算出する処理と、
前記優先度に従い、前記認識結果及び/又は前記認識結果の部位の出力情報を整形する処理と、
前記整形された出力情報を出力装置から出力する処理と、
を実行させるプログラム。 - 請求項20記載のプログラムにおいて、
出力の対象とすべき音声データの範囲、認識結果と認識結果の部位の範囲を設定する処理と、
前記優先度と前記出力の設定範囲とに従い、前記認識結果または前記認識結果を構成する各部位の表示/非表示を判定し出力イメージを作成する処理と、
を前記コンピュータに実行させるプログラム。 - 請求項1乃至5、8乃至15のいずれか一に記載の音声認識システムを備えたサーバ装置。
- 請求項1乃至5、8乃至15のいずれか一に記載の音声認識システムを備えた携帯通信端末装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005299007A JP4757599B2 (ja) | 2005-10-13 | 2005-10-13 | 音声認識システムと音声認識方法およびプログラム |
US12/083,498 US8214209B2 (en) | 2005-10-13 | 2006-10-11 | Speech recognition system, method, and computer readable medium that display recognition result formatted in accordance with priority |
PCT/JP2006/320288 WO2007043566A1 (ja) | 2005-10-13 | 2006-10-11 | 音声認識システムと音声認識方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005299007A JP4757599B2 (ja) | 2005-10-13 | 2005-10-13 | 音声認識システムと音声認識方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007108407A JP2007108407A (ja) | 2007-04-26 |
JP4757599B2 true JP4757599B2 (ja) | 2011-08-24 |
Family
ID=37942796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005299007A Expired - Fee Related JP4757599B2 (ja) | 2005-10-13 | 2005-10-13 | 音声認識システムと音声認識方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8214209B2 (ja) |
JP (1) | JP4757599B2 (ja) |
WO (1) | WO2007043566A1 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8712757B2 (en) * | 2007-01-10 | 2014-04-29 | Nuance Communications, Inc. | Methods and apparatus for monitoring communication through identification of priority-ranked keywords |
JP2009055677A (ja) * | 2007-08-24 | 2009-03-12 | Fuji Electric Systems Co Ltd | サーボ制御装置の支援装置 |
JP2010008601A (ja) | 2008-06-25 | 2010-01-14 | Fujitsu Ltd | 案内情報表示装置、案内情報表示方法及びプログラム |
US8943394B2 (en) * | 2008-11-19 | 2015-01-27 | Robert Bosch Gmbh | System and method for interacting with live agents in an automated call center |
US9646603B2 (en) * | 2009-02-27 | 2017-05-09 | Longsand Limited | Various apparatus and methods for a speech recognition system |
WO2010128560A1 (ja) * | 2009-05-08 | 2010-11-11 | パイオニア株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
US8489390B2 (en) * | 2009-09-30 | 2013-07-16 | Cisco Technology, Inc. | System and method for generating vocabulary from network data |
US9201965B1 (en) | 2009-09-30 | 2015-12-01 | Cisco Technology, Inc. | System and method for providing speech recognition using personal vocabulary in a network environment |
US8990083B1 (en) | 2009-09-30 | 2015-03-24 | Cisco Technology, Inc. | System and method for generating personal vocabulary from network data |
US9009040B2 (en) * | 2010-05-05 | 2015-04-14 | Cisco Technology, Inc. | Training a transcription system |
US8935274B1 (en) | 2010-05-12 | 2015-01-13 | Cisco Technology, Inc | System and method for deriving user expertise based on data propagating in a network environment |
US9465795B2 (en) | 2010-12-17 | 2016-10-11 | Cisco Technology, Inc. | System and method for providing feeds based on activity in a network environment |
US8667169B2 (en) * | 2010-12-17 | 2014-03-04 | Cisco Technology, Inc. | System and method for providing argument maps based on activity in a network environment |
US8553065B2 (en) | 2011-04-18 | 2013-10-08 | Cisco Technology, Inc. | System and method for providing augmented data in a network environment |
US8528018B2 (en) | 2011-04-29 | 2013-09-03 | Cisco Technology, Inc. | System and method for evaluating visual worthiness of video data in a network environment |
US8620136B1 (en) | 2011-04-30 | 2013-12-31 | Cisco Technology, Inc. | System and method for media intelligent recording in a network environment |
US8909624B2 (en) | 2011-05-31 | 2014-12-09 | Cisco Technology, Inc. | System and method for evaluating results of a search query in a network environment |
US8886797B2 (en) | 2011-07-14 | 2014-11-11 | Cisco Technology, Inc. | System and method for deriving user expertise based on data propagating in a network environment |
US8831403B2 (en) | 2012-02-01 | 2014-09-09 | Cisco Technology, Inc. | System and method for creating customized on-demand video reports in a network environment |
US9087508B1 (en) * | 2012-10-18 | 2015-07-21 | Audible, Inc. | Presenting representative content portions during content navigation |
JP2014202848A (ja) | 2013-04-03 | 2014-10-27 | 株式会社東芝 | テキスト生成装置、方法、及びプログラム |
JP2015156656A (ja) * | 2015-03-06 | 2015-08-27 | 株式会社インテック | 複数の信号出力装置を管理するためのサーバー装置及び携帯機器用プログラム |
JP6618992B2 (ja) * | 2015-04-10 | 2019-12-11 | 株式会社東芝 | 発言提示装置、発言提示方法およびプログラム |
JP6608199B2 (ja) * | 2015-07-07 | 2019-11-20 | クラリオン株式会社 | 情報システムおよびコンテンツ開始方法 |
JP6441203B2 (ja) * | 2015-11-12 | 2018-12-19 | 日本電信電話株式会社 | 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム |
CN107562760B (zh) * | 2016-06-30 | 2020-11-17 | 科大讯飞股份有限公司 | 一种语音数据处理方法及装置 |
JP6950708B2 (ja) * | 2016-12-05 | 2021-10-13 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、および情報処理システム |
US10499121B2 (en) * | 2018-01-09 | 2019-12-03 | Nbcuniversal Media, Llc | Derivative media content systems and methods |
JP7062958B2 (ja) * | 2018-01-10 | 2022-05-09 | トヨタ自動車株式会社 | 通信システム、及び通信方法 |
JP6640279B2 (ja) * | 2018-05-30 | 2020-02-05 | ソフトバンク株式会社 | 音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システム |
JP7311310B2 (ja) * | 2018-10-18 | 2023-07-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理装置、情報処理方法及びプログラム |
WO2020139121A1 (en) * | 2018-12-28 | 2020-07-02 | Ringcentral, Inc., (A Delaware Corporation) | Systems and methods for recognizing a speech of a speaker |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0798708A (ja) * | 1992-09-30 | 1995-04-11 | Hitachi Ltd | 文書処理システムおよびその方法 |
US5835922A (en) * | 1992-09-30 | 1998-11-10 | Hitachi, Ltd. | Document processing apparatus and method for inputting the requirements of a reader or writer and for processing documents according to the requirements |
JPH08212228A (ja) * | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | 要約文作成装置および要約音声作成装置 |
JPH08255255A (ja) * | 1995-03-16 | 1996-10-01 | Sony Corp | 文書情報レイアウト装置および文書情報表示装置 |
JPH1028170A (ja) * | 1996-07-11 | 1998-01-27 | Sony Corp | 通信機器 |
JPH1125091A (ja) * | 1997-07-09 | 1999-01-29 | Just Syst Corp | 文書要約支援装置およびその装置としてコンピュータを機能させるためのコンピュータ読み取り可能な記録媒体 |
JPH11150603A (ja) | 1997-11-14 | 1999-06-02 | Nec Corp | 音声通信システム |
US6006183A (en) * | 1997-12-16 | 1999-12-21 | International Business Machines Corp. | Speech recognition confidence level display |
JPH11338494A (ja) * | 1998-05-22 | 1999-12-10 | Toshiba Corp | 音声認識システム及び方法 |
JP4132305B2 (ja) * | 1998-11-10 | 2008-08-13 | 浜松ホトニクス株式会社 | 光電子増倍管及びその製造方法 |
JP2002049389A (ja) * | 2000-08-03 | 2002-02-15 | Nec Corp | 音声認識方法およびそのプログラム記録媒体 |
US7236932B1 (en) * | 2000-09-12 | 2007-06-26 | Avaya Technology Corp. | Method of and apparatus for improving productivity of human reviewers of automatically transcribed documents generated by media conversion systems |
US6785650B2 (en) * | 2001-03-16 | 2004-08-31 | International Business Machines Corporation | Hierarchical transcription and display of input speech |
JP3534712B2 (ja) * | 2001-03-30 | 2004-06-07 | 株式会社コナミコンピュータエンタテインメント東京 | 音声編集装置及び音声編集プログラム |
US6973428B2 (en) * | 2001-05-24 | 2005-12-06 | International Business Machines Corporation | System and method for searching, analyzing and displaying text transcripts of speech after imperfect speech recognition |
JP3550110B2 (ja) | 2001-08-06 | 2004-08-04 | 松下電器産業株式会社 | 信号処理回路および信号処理方法 |
JP3927800B2 (ja) * | 2001-12-04 | 2007-06-13 | キヤノン株式会社 | 音声認識装置及び方法、プログラム、並びに記憶媒体 |
JP2003218999A (ja) * | 2002-01-23 | 2003-07-31 | Seiko Epson Corp | 音声認識機能付き携帯電話装置及びその制御プログラム |
US20030189603A1 (en) * | 2002-04-09 | 2003-10-09 | Microsoft Corporation | Assignment and use of confidence levels for recognized text |
US7380203B2 (en) * | 2002-05-14 | 2008-05-27 | Microsoft Corporation | Natural input recognition tool |
US6993482B2 (en) * | 2002-12-18 | 2006-01-31 | Motorola, Inc. | Method and apparatus for displaying speech recognition results |
JP2004326555A (ja) | 2003-04-25 | 2004-11-18 | Nippon Telegr & Teleph Corp <Ntt> | 画像・映像加工表示方法及び装置及び画像・映像加工表示プログラム及び画像・映像加工表示プログラムを格納した記憶媒体 |
JP2004343392A (ja) * | 2003-05-15 | 2004-12-02 | Nec Saitama Ltd | 議事録機能付き携帯電話機およびその議事録生成処理方法 |
JP4296290B2 (ja) * | 2003-10-22 | 2009-07-15 | 株式会社豊田中央研究所 | 音声認識装置、音声認識方法及びプログラム |
US7729912B1 (en) * | 2003-12-23 | 2010-06-01 | At&T Intellectual Property Ii, L.P. | System and method for latency reduction for automatic speech recognition using partial multi-pass results |
US7450698B2 (en) * | 2005-01-14 | 2008-11-11 | At&T Intellectual Property 1, L.P. | System and method of utilizing a hybrid semantic model for speech recognition |
JP3827704B1 (ja) * | 2005-03-30 | 2006-09-27 | 三菱電機インフォメーションシステムズ株式会社 | オペレータ業務支援システム |
-
2005
- 2005-10-13 JP JP2005299007A patent/JP4757599B2/ja not_active Expired - Fee Related
-
2006
- 2006-10-11 US US12/083,498 patent/US8214209B2/en active Active
- 2006-10-11 WO PCT/JP2006/320288 patent/WO2007043566A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US8214209B2 (en) | 2012-07-03 |
WO2007043566A1 (ja) | 2007-04-19 |
US20090234648A1 (en) | 2009-09-17 |
JP2007108407A (ja) | 2007-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4757599B2 (ja) | 音声認識システムと音声認識方法およびプログラム | |
JP5104762B2 (ja) | コンテンツ要約システムと方法とプログラム | |
US9478219B2 (en) | Audio synchronization for document narration with user-selected playback | |
US10088976B2 (en) | Systems and methods for multiple voice document narration | |
US8498867B2 (en) | Systems and methods for selection and use of multiple characters for document narration | |
US8370151B2 (en) | Systems and methods for multiple voice document narration | |
US20120016671A1 (en) | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions | |
KR20070090745A (ko) | 감정 보존 기능을 갖는 음성 및 텍스트 채널을 통한 통신 | |
WO2006054724A1 (ja) | 音声認識装置及び方法ならびにプログラム | |
JP2008083100A (ja) | 音声対話装置及びその方法 | |
JP6513869B1 (ja) | 対話要約生成装置、対話要約生成方法およびプログラム | |
JPWO2018043138A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
JP6327745B2 (ja) | 音声認識装置、及びプログラム | |
JP2009042968A (ja) | 情報選別システム、情報選別方法及び情報選別用プログラム | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
US20240021193A1 (en) | Method of training a neural network | |
JP2020134719A (ja) | 翻訳装置、翻訳方法、および翻訳プログラム | |
EP0982684A1 (en) | Moving picture generating device and image control network learning device | |
JP2006284645A (ja) | 音声再生装置およびその再生プログラムならびにその再生方法 | |
Hempel | Usability of speech dialog systems: listening to the target audience | |
JP4229627B2 (ja) | ディクテーション装置、方法及びプログラム | |
US8635071B2 (en) | Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same | |
KR101830210B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
JP2012190088A (ja) | 音声記録装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090629 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091104 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20091113 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20091204 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110601 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4757599 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140610 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |