JP2003131694A - 認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法 - Google Patents

認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法

Info

Publication number
JP2003131694A
JP2003131694A JP2002224319A JP2002224319A JP2003131694A JP 2003131694 A JP2003131694 A JP 2003131694A JP 2002224319 A JP2002224319 A JP 2002224319A JP 2002224319 A JP2002224319 A JP 2002224319A JP 2003131694 A JP2003131694 A JP 2003131694A
Authority
JP
Japan
Prior art keywords
text
text component
audio signal
confidence level
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002224319A
Other languages
English (en)
Other versions
JP4307028B2 (ja
Inventor
Andreas Kellner
ケルナー アンドレーアス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2003131694A publication Critical patent/JP2003131694A/ja
Application granted granted Critical
Publication of JP4307028B2 publication Critical patent/JP4307028B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 【課題】 音声信号の音声認識から取得されたテキスト
の手動的な補正を支援する方法及び装置を提供する。ま
た、該補正に要求される作業時間を短縮する。 【解決手段】 本発明は、少なくとも1つのテキスト成
分B1〜B5がその音声認識の正しさに関する信頼性レ
ベル3を有する、特に音声信号1からの音声認識により
取得されるテキスト2,30の校正を支援する方法であ
って、テキスト成分B1〜B5の信頼性レベル3の機能
として、テキスト成分B1〜B5に属する音声信号1の
一部の再生速度12,13の勾配を制御するステップを
備えている。音声信号1の信頼性の高いテキスト成分の
高速な再生は、校正に要求される作業時間を短縮し、信
頼性の低いテキスト成分の低速な再生は、校正の注意を
ユーザに与える。そのテキスト成分の信頼性に関する聴
覚的な記録及び/又は視覚的な記録が好ましい。本発明
による方法は、音声認識システム内での実現向けに特に
適している。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に音声認識の
分野に関し、特に、音声認識されたテキストの校正の分
野に関する。
【0002】
【従来の技術】これまで、様々な音声認識システムが利
用されてきており、ユーザは、音声認識システムにより
書かれたテキストに自動的に転写するために、聴覚的に
テキストをディクテーションすることができる。しか
し、かかる音声認識システムは、自動的に生成されたテ
キストがエラーを通常含んでいるように、認識エラーを
実際につくる。したがって、これらのシステムの幾つ
か、たとえば、Philips社からの製品FreeSpeech(登録
商標)は、そのサプライパッケージにおいて補正エディ
タを含んでおり、音声認識エラーの手動的な補正を可能
にしている。
【0003】FreeSpeechにおいて手動的な補正を支援す
るために、認識されたテキストを見て編集し、同時に原
文をディクテーションするために聞くことが可能であ
る。再生に関して、音声認識システムが音声認識プロセ
スの間にちょうど再生されたディクテーションの句に割
当てるテキストの句が記録される。このテキストを校正
するユーザは、ディクテーションに関する音声による再
生を停止することができ、対応する制御を作動すること
により、この再生を再開することができる。通信ポイン
トは、上方向又は下方向にスクロールすることにより選
択することができるが、認識されたテキストにおいてテ
キストカーソルを位置合わせすることにより選択するこ
ともできる。さらに、ユーザは、ユーザ要求に従い手動
的なディクテーションの再生速度を調節することもでき
る。
【0004】近年、その純粋な音声認識機能に加えて、
多くの音声認識システムが信頼性のレベルを計算するた
めの装置に設けられてきている。これらのレベルは、認
識結果がどの位信頼することができるかに関して、定量
的な結果を可能とする。理想的に、これらのレベルは、
認識結果が正しいという可能性を表している。しかし、
これらのレベルは、認識結果の一部がより信頼すること
ができる相対的な指示、及び信頼性の低い指示のみを与
えている。かかるレベルは、設計に依存して異なるレベ
ルに関して計算される。多くのシステムは、それぞれの
文、単語、音節について、或いは(たとえば、サブワー
ドユニットとしてHidden Markov Models)システムの特
別な内部構造のみから生じることがある大きなテキスト
要素又は小さなテキスト要素について、信頼性レベルを
計算する。
【0005】米国特許第6,006,183号は、音声認識シス
テムを開示しており、その対応する表示特性を選択する
ことにより、補正エディタ(かかるテキストを表示する
ためのユーザインターフェース)が信頼性レベルを示
す。この表示特性は、フォントタイプ、ポイントサイ
ズ、属性、作用(ボールド、イタリック、点滅等)、グ
レイの影(グレイスケールマップ)、及び色(1つの色
の影、カラーマップ)を含んでいる。
【0006】たとえば、カラーシェーディングのような
これら表示特性の多くは、一様に連続的に分散される信
頼性レベルを完全に表すことができる。米国特許第6,00
6,183号は、適切な閾値の比較(それぞれのサブレンジ
の境界)を定義することにより、可能性のある信頼性に
関する値を幾つかのサブレンジに結合することが有効で
あることを述べている。特に、1つのスコアの閾値との
比較は、信頼性のある認識結果と信頼性のない認識結果
の間で排他的に区別する場合がある。米国特許第6,006,
183号は、補正エディタのユーザが表示特性を個々に適
合させることができることを提供するものである。
【0007】したがって、表示特性の適切な選択によ
り、ユーザは、信頼性の高いレベルの認識されたテキス
トを明確な方法で見ることができる。たとえば、ユーザ
は、信頼性のあるテキストを標準的な色に示し、信頼性
のないテキストを赤に示す場合がある。明らかに、最後
のステージは、好みに依存させることが可能である。信
頼性のないテキスト成分のこのハイライト表示は、ユー
ザの注意をこれらのテキスト部分に引き付け、結果とし
て、これらのテキスト部分に更に頻繁に起こる認識エラ
ーを検出することが容易となる。特に、この手動的な補
正についてのメカニカルな支援は、音声結果を補正する
ために必要とされる時間を低減する。
【0008】
【課題を解決するための手段】本発明の目的は、音声信
号の音声認識から取得されたテキストの手動的な補正の
ための方法をさらに支援する方法及び装置を提供するこ
とにあり、また、該補正に要求される作業時間をさらに
短縮することにある。
【0009】上記目的は第1に、少なくとも1つのテキ
スト成分がその音声認識の正しさについての信頼性レベ
ルを有する、音声信号の音声認識により取得されたテキ
ストの校正を支援する方法により達成される。本方法
は、テキスト成分の信頼性レベルの機能として、テキス
ト成分に属する音声信号の一部の再生速度の勾配を制御
するステップを含んでいる。
【0010】つぎに、上記目的は第2に、少なくとも1
つのテキスト成分がその音声認識の正しさに関する信頼
性レベルを有する、音声信号の音声認識により取得され
たテキストの校正を支援するための装置により達成され
る。本装置は、テキスト成分の信頼性レベルの機能とし
て、テキスト成分に属する音声信号の一部の再生速度の
勾配を制御するために設計される。
【0011】このように、本発明は、信頼性がないとし
て検出された音声信号よりも、信頼できるとして検出さ
れた音声信号のテキスト成分について、速い再生速度を
使用することを提案している。逆に、全体の音声信号
は、エラーを認識するために十分な時間をユーザに与え
るために、予め遅い再生速度で再生されなければならな
い。これにより、校正に必要な作業時間を短縮すること
ができる。
【0012】これは、典型的なディクテーションの適用
において現在の音声認識システムの低いエラーレートの
ために通常のケースである、音声信号の信頼することが
できるテキスト成分が支配的であるときに特に適用する
ことができる。さらに、信頼性のないテキスト成分の再
生速度を遅くすることにより、これらのテキスト部分を
構成するときにユーザの注意が高められ、これらのテキ
スト成分において頻繁に生じる認識エラーを認識するた
めに、より多くの時間をユーザに与えることができる。
請求項2から請求項6に特許請求される本発明の有利な
実施の形態が組み合わされる場合がある。
【0013】簡易的な実施の形態では、本発明は、たと
えば、認識されたテキストの成分に属する音声信号の一
部、すなわち、単語、文、音節又は他のユニットは、該
成分の信頼性のレベルに依存して、一定の速度で再生す
ることができる。時間的に隣接するが、異なる信頼性か
らなる音声信号の一部の間の再生速度における突然の変
化は、本方法のユーザにおける刺激を生じさせる。した
がって、請求項2では、音声信号の時間的に隣接する再
生速度の調節を実行することが請求されている。全体的
に、突然又は急峻な変化なしに、音声信号の再生速度の
スムースな時間的勾配が与えられる。
【0014】音声信号の時間的に隣接する部分の再生速
度のかかる調節は、たとえば、抑制されている再生信号
における所定の変化を生じる場合がある。このように、
たとえば、比較的短い信頼性のあるテキスト成分が、音
声信号の2つの信頼性のないテキスト成分の間にある状
況が生じる場合がある。かかる状況において、校正する
ユーザを混乱させないために、信頼性のないテキスト成
分の信頼性レベルに対応する一様な速度で、全ての3つ
のテキスト成分を再生することは分別がある。
【0015】公知であるように、音声信号の再生速度に
おける単純な変化は、ピッチ、すなわち信号のピッチの
勾配を変更する。速い再生は、ミッキーマウスの音声を
与え、遅い再生は、唸るような音声を与える。音声ピッ
チにおけるかかるシフトは、ユーザを不必要に混乱させ
る。したがって、請求項3では、音声信号のピッチが影
響を受けないようなやり方で再生速度における変化が生
じるように、本発明が有利に実現される。かかる速度変
化のための方法は、たとえば、文献から専門家には知ら
れている。
【0016】原理的に、音声信号の再生速度の選択は、
認識されたテキストの関連する部分の信頼性のレベルに
関して、一定のやり方で無関係にすることができる。ユ
ーザがほんの2,3の再生速度と出くわす場合、本方法
のユーザにとって更に簡単である。これは、ユーザによ
って、音声認識結果の信頼性のある部分と信頼性のない
部分との間で区別することが更に容易となる。このこと
は、信頼性の全ての可能性のある値の全体の範囲が個々
のサブレンジ、すなわち0から100までの可能性のあ
る全体のレンジを、0から10、10から20、20か
ら30等、90から100までの10のサブレンジに分
割される点で、請求項4に従い達成することができる。
次いで、再生速度は、認識されたテキストの関連する一
部の信頼性の値が属するサブレンジの機能として選択さ
れる。
【0017】請求項5によれば、テキスト成分の信頼性
レベルは、聴覚及び/又は視覚を利用した方法で記録さ
れる場合がある。たとえば、信頼性のないテキスト部分
は、変化された音声ピッチで、及び/又はより大きな強
調により、声高に再生することができる。さらに、信頼
性のないテキスト成分は、たとえば、赤といった色で記
録される場合がある。
【0018】請求項6に係る発明は、システムのユーザ
は、彼自身の望み及び要件に従う再生の方法を構成する
可能性を有していることを提案する。したがって、シス
テムのユーザは、たとえば、再生速度の変化、音量及び
ユーザ自身の好みに対するカラーマーキングを調節する
場合がある。信頼性レベルの視覚的なマーキング、及び
ユーザの構成オプションについて、米国特許第6,006,18
3号に開示される全ての可能性が特に考慮される。この
点に関して、米国特許第6,006,183号は、本出願に含ま
れるものとみなされる。
【0019】請求項8に係る発明は、音声認識システム
に関し、構成要素として、本発明による装置を有してお
り、音声信号の音声認識により取得されたテキストの校
正を支援する。音声信号の音声認識により取得されたテ
キストの校正を支援するための装置を音声認識システム
に統合することにより、1つのパッケージに完全なディ
クテーションシステムを有するという利点がユーザにも
たらされる。結果として、一方で、音声信号の音声認識
により取得されたテキスト及び関連する信頼性レベル
と、他方でテキストの校正を支援するための本発明によ
る装置との間で、可能性のあるインタフェース問題が回
避される。
【0020】請求項9及び請求項10に係る発明は、本
発明の実施の形態に関連し、校正されるテキストは、音
声認識により必ずしも取得されない。本発明は、たとえ
ば、手動的に生成されたテキスト、又は音声認識された
テキストの手動的な補正により取得されたテキストの校
正を支援するために使用される場合がある。テキストの
成分と音声信号の関連する部分の間の割当が既知であ
り、信頼性レベルをテキスト成分に割当てることができ
る場合、構成の間のテキストの再生速度における変化
は、本発明の原理に従い構築することができる。
【0021】かかる信頼性のレベルは、たとえば、テキ
ストライターのエラー統計量から生じる場合がある。し
たがって、たとえば、ライターによる前の補正からの統
計量は、たとえば、ライターがその単語を頻繁に間違え
て書くかについて、定量化するために生成される場合が
ある。多くのライターは、たとえば、文法的な片寄りに
おけるエンディングエラーを行う傾向を有している。代
替的に、要素の文字数は、ディクテーションから取得さ
れた平均からの比の主要な偏差の場合に、要素の省略又
は挿入を結論するために、音声信号の関連する部分の期
間と比較される場合がある。
【0022】請求項10に係る発明では、テキストの音
声信号との時間調整により、音声信号の関連する部分へ
のテキスト成分の割当てが決定される。かかる時間調整
は、たとえば、ダイナミックプログラミング(ダイナミ
ックタイムワーピング)により、特にViterbiアルゴリ
ズムを使用して行われる場合がある(Viterbi調節)。
テキスト成分の関連する信頼性のレベルは、たとえば、
上述したような補正統計量、又は決定に使用される場合
がある音声認識の他の方法のいずれかにより決定される
場合がある。背景モデル(ごみのモデル)、すなわち音
声信号の音声認識における競合する認識の代替を包含す
ることは、この文脈において知られている。
【0023】
【発明の実施の形態】本発明のこれらの態様及び利点、
並びに更なる態様及び利点は、発明の実施の形態、特に
添付図面を参照して更に詳細に説明される。図1は、そ
の成分、信頼性レベル及び再生速度の変化を有する音声
信号を示している。図1のライン1は、はじめに、右の
水平方向にプロットされた音声信号を時間について示し
ており、たとえば、受信するマイクロフォンにおける音
圧である音声信号の物理的パラメータの垂直方向へのプ
ロットを示している。この図は、校正の間の再生速度の
推移に関して、本発明による不均等な勾配を既に考慮し
ている。
【0024】音声信号が遅く再生される時間レンジにお
いて、音声信号は相応して伸張されて示されており、音
声信号が速く再生される時間レンジでは、音声信号は比
較的圧縮されて示されている。音声信号に属するテキス
ト成分は、図1のラインにおいて示されており、B1〜
B5で示されている。これらの成分は、単語、音節、音
素、集中的に話された句又は他のユニットである場合が
ある。ライン2における成分B1〜B5のライン1にお
ける音声信号の一部との関連性は、成分B1〜B5が音
声信号の関連する部分の中心的に下に示されている点で
明らかである。成分間の時間境界は、図1において垂直
ライン5により示されている。
【0025】図1のライン3は、成分B1〜B5の関連
する信頼性レベルを示している。説明のために、具体的
な番号50,80,99,90及び25は、0〜100
(信頼性100%)のスケールに関して選択される。こ
こでは、高い番号が高い信頼性を示している。ライン4
は、右へ増加する時間により時間軸を示している。この
時間軸は、垂直マーキング6により分割されている。こ
のマーキングの異なるインターバルは、一様に分割され
た時間軸の対応する伸張及び圧縮を示しており、したが
って、校正の間の再生速度の異なる再生速度を示してい
る。
【0026】音声信号の校正のために使用される再生速
度の推移は、再び図1の下部におけるx−y軸において
更に説明される。右側の軸10は、図1の他の部分にお
けるのと(伸張又は圧縮された)同じレベルでの時間軸
に対応する。垂直軸11は、更には説明されないがユニ
ットにおける再生速度を与えている。再生速度自身の時
間勾配は、ライン12により与えられる。ライン1及び
ライン12に左手及び右手のエッジでの破線ラインは、
図1に示される音声信号が、時間的に長い信号のほんの
一区分であることを示している。
【0027】図1に示される本発明の実施の形態による
方法は、再生速度が信頼性と共に増加する、全ての信頼
性の値について異なる再生速度を選択する変形例であ
る。再生速度は、一様な信頼性の領域において一定のま
まであるが、異なる信頼性の領域の間では、再生速度は
突然変化する。
【0028】上述したように、再生速度における突然の
変化は、校正するユーザを混乱させる場合がある。した
がって、図2は、再生速度の勾配を構築するための更な
る可能性を示している。ここで、時間的な速度の推移
は、時間軸10及び速度軸11によるx−yグラフにお
いて示されている。図1に示される本発明の実施の形態
との良好な比較のために、図2は、図1におけるような
速度における突然の変化12を示している。図2におけ
る速度経路13は、図1における音声信号についてのこ
の経路12への代替として選択される場合がある。
【0029】経路12とは対照的に、経路13は、3つ
の速度レベルL1〜L3のみを有している。図1からの
5つの信頼性の値B1〜B5は、したがって全ての可能
性のある信頼性の値からなる3つのサブレンジに結合さ
れており、3つの速度レベルL1〜L3のうちの1つ
は、これらサブレンジのうちの1つへのその割当てに従
い、対応する部分B1〜B5の再生速度について選択さ
れる。図2の具体的な期間では、サブレンジ0〜60、
60〜85及び85〜100が選択される。これは、図
1からの速度レベルL1〜L3の5つの成分B1〜B5
からなる信頼性の値への以下の割当てを与える。具体的
には、レベル1では25をB5及び50をB1に、レベ
ル2では80をB2に、レベル3では90をB4及び9
9をB3に割当てる。図2における割当てラインLLに
より示されるように、特に25がB5及び50がB1に
割当てるように、同じ速度レベルL1が選択される。
【0030】さらに、速度経路13を構築することにお
いて、音声信号の時間的に隣接する部分の再生速度に関
して調節が行われる。このために、部分B1〜B5の再
生速度は、その内部レンジのみにおいて割当てられた速
度レベルL1〜L3で維持される。エッジでは、再生速
度は、内部に関する速度レベル間に滑らかな遷移A1〜
A3を与えるように変化する。左から右へ個別に、以下
の速度調節が行われる。L1からL2までのB1とB2
の間にA1を調節し、L2からL3までのB2とB3の
間にA2を調節し、及びL3からL1までのB4とB5
の間にA3を調節する。B3及びB4の信頼性99及び
90が同じ信頼性のサブレンジに属するので、B3とB
4の間に速度調節は存在しないが、割当てられた速度レ
ベルL3は、境界領域において一様に保持される。
【0031】図2は、A1からA3への速度調節の時間
的な位置について、2つの可能性を示している。2つの
調節A1及びA2は、音声信号のテキスト成分の間の関
連する時間的な境界に関して対称的に配置されている。
これは、たとえば、再生速度が、B1に属するテキスト
成分の終了の直前である速度レベルL1から上昇し始
め、B2に属するテキスト成分の開始の後に関連する速
度レベルL2に到達するという、調節A1について意味
する。調節A3では、全体の調節は、より信頼性のある
部分B4に属するテキスト成分において完了する。これ
により、より信頼性のない部分B5に属するテキスト成
分は、遅い速度L1に十分に再生される。これは、より
信頼性のないテキスト部分が、相応して遅い速度(すな
わち、より信頼性のないテキスト成分が隣接する場合
に、遅い速度)で完全に再生され、したがって、校正に
十分な時間がユーザに与えられる。
【0032】成分B1からB5について再生速度の勾配
の更なる調節では、成分B2は、成分B1と同じ速度レ
ベルL1で再生される場合がある。速度レベルL2は、
図2においてもはや現れない。この理由は、成分B2に
属する音声信号の一節の期間が比較的短いためである。
図2に支援される成分B2についての速度レベルL2に
対する再生速度における簡単な変化は、校正しているユ
ーザによりむしろ混乱するものとして知覚される。した
がって、ユーザは、時間的に隣接する一節の速度変化の
より大きな調節を選択することができる。これにより、
L1からL2までのB1とB2の間の速度調節A1は抑
圧され、L1からL3への遷移でB2とB3の間の速度
調節A2が変更される。
【0033】図3は、テキストの校正を支援するため
の、本発明による装置の実施の形態を示している。校正
されるテキストは、ディスプレイ20に完全に示されて
いる。すなわち、音声により再生されている部分を囲む
抜粋である。たとえば、図3は、表現“This is text t
o be proofread”によるテキスト30が示されている。
テキスト要素に属する音声信号の一部が再生されている
ことが考えられる。この再生項目は、再生される項目の
周囲のフレーム31によりディスプレイ10に示される
テキストに記録される。
【0034】2つのテキスト項目32、すなわち句“Th
is is”及び単語“text”は、特別なテキストの属性、
すなわち下線が付されたボールドのイタリック体により
ハイライト表示される。この例では、2つの信頼性のあ
るサブレンジ、すなわち「信頼性のある」と「信頼性の
ない」とが区別されることが想定される。信頼性のある
一節は、通常の表示で示され、信頼性のない一節は、記
載されたようにハイライト表示される。再生速度から、
テキストは信頼性のない部分“This is”で遅く開始す
る。信頼性のある中間部分“to be proof-read”は即座
に再生され、文の再生は、遅く再生された信頼性のない
部分“text”で終了する。
【0035】ディスプレイ20は、制御ユニット21に
より制御され、該ユニットは、音声信号が再生されるス
ピーカ22を制御する。制御ユニット21は、音声信号
メモリ23から音声信号を取り、テキストメモリ24か
ら認識されたテキスト、音声信号の関連する部分に対す
るその成分の割当て情報及び成分の信頼性レベルを取
る。
【図面の簡単な説明】
【図1】その成分による音声信号、信頼性レベル及び再
生速度の変化を説明する図である。
【図2】再生速度を構築するための更なる可能性を説明
する図である。
【図3】テキストの校正を支援するための本発明による
装置の実施の形態を示す図である。
【符号の説明】
20:ディスプレイ 21:制御ユニット 22:スピーカ 23:音声信号メモリ 24:テキストメモリ 30:テキスト
フロントページの続き (72)発明者 アンドレーアス ケルナー ドイツ連邦共和国,52066 アーヘン,ベ ネディクティナーシュトラーセ 12 Fターム(参考) 5B009 RD03 5D015 LL04

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも1つのテキスト成分がその音
    声認識の正しさに関する信頼性レベルを有する、音声信
    号の音声認識により取得されるテキストの校正を支援す
    る方法であって、 前記テキスト成分の前記信頼性レベルの機能として、前
    記テキスト成分に属する前記音声信号の一部の再生速度
    の勾配を制御するステップを備える、方法。
  2. 【請求項2】 前記音声信号の時間的に隣接する部分の
    再生速度の勾配は、互いに調節される、ことを特徴とす
    る請求項1記載の方法。
  3. 【請求項3】 前記音声信号の一部の再生速度の勾配
    は、前記音声信号の一部のピッチの勾配を変えることな
    しに制御される、ことを特徴とする請求項1記載の方
    法。
  4. 【請求項4】 前記信頼性レベルの値のレンジは、サブ
    レンジに分割され、前記テキスト成分に属する前記音声
    信号の一部の再生速度の勾配は、前記テキスト成分の信
    頼性レベルが割当てられる前記サブレンジの機能として
    制御される、ことを特徴とする請求項1記載の方法。
  5. 【請求項5】 前記テキスト成分の前記信頼性レベル
    は、聴覚的及び/又は視覚的に記録される、ことを特徴
    とする請求項1記載の方法。
  6. 【請求項6】 前記再生速度の勾配と前記テキスト成分
    の信頼性レベルの間の依存性、 及び/又は前記音声信号の時間的に隣接する部分の再生
    速度の勾配に関する調節の程度、 及び/又は前記信頼性レベルのサブレンジ、 及び/又は前記テキスト成分の信頼性レベルに関する聴
    覚的な記録又は視覚的な記録の方法は、前記方法のユー
    ザにより適合させることができる、ことを特徴とする請
    求項1記載の方法。
  7. 【請求項7】 少なくとも1つのテキスト成分がその音
    声認識の正しさに関する信頼性レベルを有する、音声信
    号の音声認識により取得されたテキストの校正を支援す
    るための装置であって、 前記テキスト成分の前記信頼性レベルの機能として、前
    記テキスト成分に属する前記音声信号の一部の再生速度
    の勾配を制御するために設計される、装置。
  8. 【請求項8】 少なくとも1つのテキスト成分がその音
    声認識の正しさに関する信頼性レベルを有する、音声信
    号の音声認識により取得されたテキストの校正を支援す
    るための装置を有する音声認識システムであって、 前記テキスト成分の前記信頼性レベルの機能として、前
    記テキスト成分に属する前記音声信号の一部の再生速度
    の勾配を制御するために設計される、音声認識システ
    ム。
  9. 【請求項9】 少なくとも1つのテキスト成分がその音
    声認識の正しさに関する信頼性レベルを有し、前記テキ
    スト成分に属する前記音声信号の一部は公知である、音
    声信号の音声認識により取得されたテキストの校正を支
    援する方法であって、 前記テキスト成分の前記信頼性レベルの機能として、前
    記テキスト成分に属する前記音声信号の一部の再生速度
    の勾配を制御するステップを含む、方法。
  10. 【請求項10】 音声信号の表記への転写により取得さ
    れたテキストの校正をサポートするための方法であっ
    て、 前記テキストが前記音声信号に逸脱する時間により、前
    記テキスト成分に属する前記音声信号の一部を決定する
    ステップと、 前記テキスト成分の正しさに関する信頼性レベルを決定
    するステップと、 前記テキスト成分の信頼性に関する機能として、前記テ
    キスト成分に属する前記音声信号の一部の再生速度の勾
    配を制御するステップと、 を備える方法。
JP2002224319A 2001-08-04 2002-08-01 認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法 Expired - Fee Related JP4307028B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10138408.4 2001-08-04
DE10138408A DE10138408A1 (de) 2001-08-04 2001-08-04 Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf

Publications (2)

Publication Number Publication Date
JP2003131694A true JP2003131694A (ja) 2003-05-09
JP4307028B2 JP4307028B2 (ja) 2009-08-05

Family

ID=7694457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002224319A Expired - Fee Related JP4307028B2 (ja) 2001-08-04 2002-08-01 認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法

Country Status (5)

Country Link
US (1) US7480613B2 (ja)
EP (1) EP1282112B1 (ja)
JP (1) JP4307028B2 (ja)
AT (1) ATE354157T1 (ja)
DE (2) DE10138408A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115391A (ja) * 2003-10-08 2005-04-28 Agfa Inc テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法
WO2006083020A1 (ja) * 2005-02-04 2006-08-10 Hitachi, Ltd. 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2007509377A (ja) * 2003-10-21 2007-04-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ユーザインタフェースを有するインテリジェント音声認識
JP2009503560A (ja) * 2005-07-22 2009-01-29 マルチモダル テクノロジーズ,インク. コンテンツベースの音声再生強調
WO2010146869A1 (ja) * 2009-06-18 2010-12-23 日本電気株式会社 編集支援システム、編集支援方法および編集支援プログラム

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6889383B1 (en) * 2000-10-23 2005-05-03 Clearplay, Inc. Delivery of navigation data for playback of audio and video content
US7975021B2 (en) 2000-10-23 2011-07-05 Clearplay, Inc. Method and user interface for downloading audio and video content filters to a media player
GB0224806D0 (en) * 2002-10-24 2002-12-04 Ibm Method and apparatus for a interactive voice response system
US20050027523A1 (en) 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
US20050086705A1 (en) * 2003-08-26 2005-04-21 Jarman Matthew T. Method and apparatus for controlling play of an audio signal
US7729912B1 (en) * 2003-12-23 2010-06-01 At&T Intellectual Property Ii, L.P. System and method for latency reduction for automatic speech recognition using partial multi-pass results
WO2005076258A1 (ja) * 2004-02-03 2005-08-18 Matsushita Electric Industrial Co., Ltd. ユーザ適応型装置およびその制御方法
WO2006008810A1 (ja) * 2004-07-21 2006-01-26 Fujitsu Limited 速度変換装置、速度変換方法及びプログラム
US9520068B2 (en) * 2004-09-10 2016-12-13 Jtt Holdings, Inc. Sentence level analysis in a reading tutor
US8117282B2 (en) 2004-10-20 2012-02-14 Clearplay, Inc. Media player configured to receive playback filters from alternative storage mediums
US8818808B2 (en) 2005-02-23 2014-08-26 At&T Intellectual Property Ii, L.P. Unsupervised and active learning in automatic speech recognition for call classification
US7729478B1 (en) * 2005-04-12 2010-06-01 Avaya Inc. Change speed of voicemail playback depending on context
US20060236220A1 (en) 2005-04-18 2006-10-19 Clearplay, Inc. Apparatus, System and Method for Associating One or More Filter Files with a Particular Multimedia Presentation
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
EP2030198B1 (en) * 2006-06-22 2018-08-29 Multimodal Technologies, LLC Applying service levels to transcripts
TR201006031A2 (tr) 2010-07-22 2011-10-21 Sestek Ses Ve İleti̇şi̇m Bi̇lgi̇sayar Teknoloji̇leri̇ Sanayi̇ Ti̇caret Anoni̇m Şi̇rketi̇ Otomatik dikte sistemlerinde konuşma sentezi ile teyit yöntemi ve bu yöntemin uygulanması için sistem
US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
WO2014176750A1 (en) * 2013-04-28 2014-11-06 Tencent Technology (Shenzhen) Company Limited Reminder setting method, apparatus and system
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US10748523B2 (en) 2014-02-28 2020-08-18 Ultratec, Inc. Semiautomated relay method and apparatus
JPWO2017130486A1 (ja) * 2016-01-28 2018-11-22 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10157607B2 (en) * 2016-10-20 2018-12-18 International Business Machines Corporation Real time speech output speed adjustment
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
DE19821422A1 (de) * 1998-05-13 1999-11-18 Philips Patentverwaltung Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern
US6865258B1 (en) * 1999-08-13 2005-03-08 Intervoice Limited Partnership Method and system for enhanced transcription
AU1238601A (en) * 1999-10-28 2001-05-08 Qenm.Com, Incorporated Proofreading system and method
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US6952673B2 (en) * 2001-02-20 2005-10-04 International Business Machines Corporation System and method for adapting speech playback speed to typing speed
US6785650B2 (en) * 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115391A (ja) * 2003-10-08 2005-04-28 Agfa Inc テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法
JP4725948B2 (ja) * 2003-10-08 2011-07-13 アグフア・ヘルスケア・インコーポレーテツド テキストのディスプレイとオーディオの再生とを同期させるためのシステム及び方法
JP2007509377A (ja) * 2003-10-21 2007-04-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ユーザインタフェースを有するインテリジェント音声認識
JP4864712B2 (ja) * 2003-10-21 2012-02-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ユーザインタフェースを有するインテリジェント音声認識
US9454965B2 (en) 2004-08-20 2016-09-27 Mmodal Ip Llc Content-based audio playback emphasis
WO2006083020A1 (ja) * 2005-02-04 2006-08-10 Hitachi, Ltd. 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2009503560A (ja) * 2005-07-22 2009-01-29 マルチモダル テクノロジーズ,インク. コンテンツベースの音声再生強調
WO2010146869A1 (ja) * 2009-06-18 2010-12-23 日本電気株式会社 編集支援システム、編集支援方法および編集支援プログラム
JP5533865B2 (ja) * 2009-06-18 2014-06-25 日本電気株式会社 編集支援システム、編集支援方法および編集支援プログラム

Also Published As

Publication number Publication date
DE50209460D1 (de) 2007-03-29
EP1282112A2 (de) 2003-02-05
JP4307028B2 (ja) 2009-08-05
DE10138408A1 (de) 2003-02-20
ATE354157T1 (de) 2007-03-15
EP1282112B1 (de) 2007-02-14
US7480613B2 (en) 2009-01-20
EP1282112A3 (de) 2004-01-28
US20030028375A1 (en) 2003-02-06

Similar Documents

Publication Publication Date Title
JP4307028B2 (ja) 認識の信頼性に適合される再生速度により、音声認識されたテキストの校正を支援する方法
JP4446312B2 (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
JP4972645B2 (ja) サウンド及び手作業により転写されるテキストを同期させるシステム及び方法
US6161087A (en) Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
US8504368B2 (en) Synthetic speech text-input device and program
US4783810A (en) Device for generating the audio information of a set of characters
JP2000259170A (ja) 音声認識システムにユーザを登録する方法および装置
JP2000347681A (ja) テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
JPH11352992A (ja) 複数ワ―ドを表示する方法および装置
US7526735B2 (en) Aiding visual search in a list of learnable speech commands
JP2001022370A (ja) 音声案内装置
JP6314879B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP2002156897A (ja) 発音学習装置
JP2008175851A (ja) 録音時間算出装置、発音練習装置および録音時間算出方法、発音練習処理方法、ならびにそのプログラム、電子辞書
JP2000250401A (ja) 言語学習方法、言語学習装置およびプログラムを記録した媒体
JP6486582B2 (ja) 電子機器、音声制御方法、およびプログラム
Chen Evidence for the role of gestural overlap in consonant place assimilation
KR101104822B1 (ko) 큰소리 발성에 기반을 둔 어학 시스템 및 방법
JP7288530B1 (ja) システムおよびプログラム
JP7458720B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2000181477A (ja) 音声処理装置
JP2007248750A (ja) 音声再生装置
JP2009075526A (ja) 音声合成利用の総合的英語学習システム
JPH05224875A (ja) 音声規則合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090331

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090428

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4307028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees