JP7490062B2 - ダイアログの了解度を評価する方法及び装置 - Google Patents
ダイアログの了解度を評価する方法及び装置 Download PDFInfo
- Publication number
- JP7490062B2 JP7490062B2 JP2022538977A JP2022538977A JP7490062B2 JP 7490062 B2 JP7490062 B2 JP 7490062B2 JP 2022538977 A JP2022538977 A JP 2022538977A JP 2022538977 A JP2022538977 A JP 2022538977A JP 7490062 B2 JP7490062 B2 JP 7490062B2
- Authority
- JP
- Japan
- Prior art keywords
- dialogue
- text
- intelligibility
- soundtrack
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 40
- 230000000694 effects Effects 0.000 claims description 40
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 15
- 239000000203 mixture Substances 0.000 description 11
- 239000003607 modifier Substances 0.000 description 9
- 230000015556 catabolic process Effects 0.000 description 8
- 238000006731 degradation reaction Methods 0.000 description 8
- 230000007423 decrease Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 208000016354 hearing loss disease Diseases 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011295 pitch Substances 0.000 description 2
- 206010013647 Drowning Diseases 0.000 description 1
- 206010013887 Dysarthria Diseases 0.000 description 1
- 241001508691 Martes zibellina Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 208000026473 slurred speech Diseases 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Auxiliary Devices For Music (AREA)
- Machine Translation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
コンテンツ配信者は、映画、TV番組などのミキシングサウンドトラックを含むオーディオ-ビジュアルコンテンツを消費者にストリーミングする。ミキシングサウンドトラックは、ダイアログと、例えば音楽及び映画/TVのサウンドエフェクトを含む非ダイアログサウンドとを含むことができる。消費者は、テレビジョン又はコンピュータなどの再生デバイスのサウンド再生システムを介してミキシングサウンドトラックを再生する。多くの場合、消費者は、居間などの消費者の再生ルームでサウンド再生システムを介して再生されるミキシングサウンドトラックからのダイアログを理解できない。消費者は、ダイアログの了解度又は「分かりやすさ」を低下させる可能性がある多くの要因に起因して、ダイアログを理解できない場合がある。本明細書で用いる「了解度」及び「分かりやすさ」という用語は、同義語であり且つ置き換え可能である。ダイアログの了解度を低下させる可能性がある要因には以下が挙げられる。
a.ダイアログの低信号対雑音比(SNR)。例えば、サウンドミキシングレベルは、非ダイアログサウンドをダイアログに対して高くしすぎることがあり、ダイアログをかき消すことになる。また、再生ルームの背景雑音がダイアログをかき消す可能性がある。
b.反響などの再生ルームの音響特性が、ダイアログの了解度と干渉するか又はこれを低下させる可能性がある。
c.サウンド再生システムの制限が、ダイアログの了解度を低下させることがある。
d.ダイアログにおける言葉の滑舌及び発声、例えばアクセントが、消費者には分かり難く聞こえることがあり、これによってダイアログが高SNRで再生される時にもダイアログの了解度を低下させる。
e.消費者の個人的な聴力の欠損及び障害が、ダイアログの了解度を低下させる可能性がある。
図1を参照すると、リスナーにとってのサウンドトラックのダイアログの了解度を評価及び改良する例示的なサウンドエンジニアリング環境100のハイレベルブロック図である。サウンドエンジニアリング環境100は、以下に記載するように、サウンドトラックのダイアログを分析するよう構成されたコンピュータベースのダイアログアナライザ102と、ダイアログアナライザと対話するためのコンテンツ製作者及び/又はミキシングエンジニアなどの評価器104と、を含む。評価器104は、公知のように、人員とサウンド機器の組み合わせを表すことができる。ダイアログアナライザ102は、例えば、映画及び/又はTV番組を含む、マルチメディア/オーディオ-ビジュアルコンテンツのダイアログに関係付けられる多種多様な入力を評価器104から受信することができる。ダイアログアナライザ102は、サウンド処理技術を用いて入力において伝達されるダイアログを分析して、ダイアログ了解度レポートの形式でダイアログ分析結果/評価を生成して、レポートを評価器104に提供する。
図2を参照すると、了解度が測定される理想基準/規格としてダイアログのみのサウンドトラックAを用いてオリジナルミキシングサウンドトラックB及び修正されたミキシングサウンドトラックEのダイアログの了解度を評価する例示的な第1の方法200の図がある。方法200は、ダイアログアナライザ102によって実行することができる。
方法200は、エミュレートされたサウンドエフェクトなしのオリジナルミキシングサウンドトラックBのダイアログの了解度を全体的に評価する動作202、204、及び206の第1のセットを含む。
個々の違いD=c1d2+c2d2+..+cndn、
ここでnは0以上の整数であり、各ciは係数、更に各diは、別個の比較アルゴリズムである。
方法200は、リスナーにとっての修正されたミキシングサウンドトラックEの了解度、すなわちエミュレートされたサウンドエフェクトが組み合わされたオリジナルミキシングサウンドトラックBの了解度を全体的に評価する動作202、206、及び208の第2のセットを含む。動作202及び206の上記に詳述した説明は、次の説明に対して十分である。
図3を参照すると、ダイアログアナライザ102によって実行される、リスナーにとってのダイアログの了解度が測定される基準としてダイアログのテキストベースのサブタイトルCを用いてミキシングサウンドトラック(例えば、ミキシングサウンドトラックB及びE)のダイアログの了解度を評価する例示的な第2の方法300の図が示されている。
動作302、304、及び306は、全体的に、ミキシングサウンドトラックのダイアログのテキストベースのサブタイトルCに対して参照されるオリジナルミキシングサウンドトラックBの了解度を評価する。オリジナルミキシングサウンドトラックBは、エミュレートされたサウンドエフェクトを含まない。
a.何れかの公知の又は今後開発されるストリングマッチング/ディファレンシング技術を用いて、(現在の)比較テキストセグメントと1又は2以上のサブタイトルチャンクにわたる(現在の)サブタイトルテキストストリングとの間の類似性の測度を決定する。サブタイトルテキストストリングは、比較テキストセグメント及びサブタイトルチャンクのタイムスタンプに基づいて比較テキストセグメントに時間的にほぼ重なる。決定された類似性の測度を類似性の(現在の)最大測度として格納する。
b.サブタイトルテキストストリングを長くする/短くするためにサブタイトルテキストストリングの最後から言葉を追加/取り除き、動作(a)を繰り返して類似性の新しい測度を決定する。類似性の新しい測度が動作(a)からの類似性の最大測度を超えた場合/時にだけ、新しい類似性の測度に等しい類似性の最大測度を設定する。
c.事前に決められた終了条件が満足される、例えば、類似性の事前に決められた最大測度に達するまで動作(a)及び(b)を繰り返し、更に比較の目的でサブタイトルテキストストリング及び比較テキストのマッチを宣言する(これは、テキストマッチングアルゴリズムによって出力される結果である)。
d.次の比較テキストセグメント及び次のサブタイトルテキストストリングに移り、更に動作(a)-(c)を繰り返す。
動作306、308、及び310は、全体的に、テキストベースのサブタイトルCに関して修正されたミキシングサウンドトラックEの了解度を評価する。
図4Aを参照すると、ASRエンジン120によって、サウンドトラックダイアログの連続タイムスライス、DIALOG1-DIALOG4を、基準/比較テキストの対応する連続セグメントに変換することに関連付けられる例示的なタイミング400の図が示されている。基準/比較テキストのセグメントは、「ASRテキストセグメント」又は単純に「ASRテキスト」とも呼ばれる。タイミング400は、サウンドトラックダイアログのタイムスライスDIALOG1-DIALOG4に対応する、基準テキストの連続セグメント(「基準テキストセグメント」)R1-R4及び比較テキストの対応する連続セグメント(「比較テキストセグメント」)C1-C4を示す。連続する個々の違いD1-D4は、基準テキストセグメントR1-R4と比較テキストセグメントC1-C4の対応するセグメントの間の個々の違いを表し、すなわち、個々の違いDiは、テキストセグメントRiとCiの間の違いである。1又は2以上の比較アルゴリズム(図4Aに「-」で示される)は、テキスト距離、パターンマッチング結果などを含むことができる個々の違いD1-D4を生成する。各個々の違いDiは、対応する比較テキストセグメントCiのダイアログの了解度の対応する個々の測度を表すことができる。
表示のために生成され、更に次にダイアログアナライザ102によって表示されるダイアログ了解度レポートは、ここでは図5-12に関して記載されている。ダイアログ了解度レポートは、例えば、ユーザインタフェースのパネルに表示することができる。
a.ダイアログの各タイムスライスの行/タイムスライス識別子のタイムスライス識別子(ID)列804。
b.各タイムスライスのサブタイトルテキスト(例えば、SRTテキスト)の形式の基準テキストの基準テキスト列806。
c.各タイムスライスの開始及び終了時間のタイムスタンプ列808及び810。
d.オリジナルミキシングサウンドトラックの各タイムスライスのASRから生じる比較テキストセグメントを引用する比較テキスト列812。
e.列806の対応するサブタイトルテキストに対して参照される各比較テキストセグメントの了解度の個々の測度(すなわち、個々のスコア)のスコア列814。従って、個々の測度は、サブタイトル品質を示す。個々のスコアは、サブタイトルテキストと比較テキストの間のパーセンテージマッチ(0-100%)として表される。個々のスコアが、上述のように複数の比較アルゴリズムから生じる集約スコアを表す実施例では、スコア列814を、比較アルゴリズムの各々によってコンピュータ計算されたスコアのそれぞれの列を含む複数のスコア列、及び集約スコアの列に細分することができる。例えば、比較ロジック124が、エディテックス及びコサイン距離を集約テキスト距離に組み合わせる実施例では、了解度スコア列を、エディテックス距離の第1の列、コサイン距離の第2の列、及びエディテックス及びコサイン距離を組み合わせた集約テキスト距離の第3の列に細分することができる。
f.修正されたミキシングサウンドトラック、すなわち、エミュレートされたサウンドエフェクトを組み合わせたオリジナルミキシングサウンドトラックの各タイムスライスのASRから生じた比較テキストセグメントを引用する比較テキスト列816。
g.対応するサブタイトルテキストに対して参照された修正されたミキシングサウンドトラックの各比較テキストセグメントの了解度の個々の測度(すなわち、個々のスコア)のスコア列818。
h.各スコアが正確にコンピュータ計算される信頼度レベルの信頼度レベル列820。ASRエンジン120は、信頼度レベルをコンピュータ計算することができる。
図12を参照すると、上述した動作を要約するダイアログの了解度を決定する例示的な方法1200の流れ図が示されている。方法1200は、ダイアログアナライザ102によって実行することができる。
a.第1の比較アルゴリズム(例えば、第1のテキスト距離アルゴリズム)を用いて、対応する基準テキストと比較テキストの間の第1の違い(例えば、第1のテキスト距離)をコンピュータ計算する。
b.第2の比較アルゴリズム(例えば、第2のテキスト距離アルゴリズム)を用いて、対応する基準テキストと比較テキストとの間の第2の違い(例えば、第2のテキスト距離)をコンピュータ計算する。
c.第1の違い(例えば、第1のテキスト距離)及び第2の違い(例えば、第2のテキスト距離)の加重組み合わせとして対応する基準テキストと比較テキストとの間の違い(例えば、組み合わせテキスト距離)をコンピュータ計算する。
図13は、本明細書に提示する実施形態を実施することができる例示的なコンピュータデバイス1300のブロック図である。例えば、コンピュータデバイス1300は、ダイアログアナライザ102を表すことができ、更にパーソナルコンピュータ(PC)、スマートフォン、タブレットPCなどで実施することができる。コンピュータデバイス1300は、本明細書に記載する処理に関連する命令を処理するプロセッサ又はコントローラ1310、多種多様なデータ及びソフトウェア命令を格納するメモリ1320を含む。プロセッサ1310は、例えば、ダイアログアナライザ102に対して本明細書に記載した処理を実施するためにメモリ1320におけるコンピュータデバイス制御論理1355の命令を実行するマイクロプロセッサ又はマイクロコントローラである。コンピュータデバイスはまた、インターネット及び/又はローカルエリアネットワーク(LAN)などの通信ネットワークを通じて他のデバイスと通信するネットワークインタフェースユニット(例えば、カード)1330を含む。ネットワークインタフェースユニット1330は、有線イーサネットリンクを通じて通信するポート(又は複数のこのようなデバイス)を有するイーサネットカード、及び/又は無線リンクを通じて通信する無線送受信機を備えた無線通信カードを含むことができる。コンピュータデバイス1300はまた、他のデバイス、光学インタフェース、オーディオインタフェースなどに物理的に接続するハードウェアプラグ及び/又は受容器を含む他のインタフェースユニットを含む。
104 ダイアログ評価器(コンテンツ製作者、ミキシングエンジニア)
120 ASRエンジン
122 音響エミュレータ
124 比較論理
126 レポート生成器
Claims (24)
- 方法であって、
非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得するステップと、
前記ミキシングサウンドトラックを比較テキストに変換するステップと、
前記ダイアログの了解度の基準として前記ダイアログの基準テキストを取得するステップと、
前記基準テキストに対する前記比較テキストの比較に基づいて、リスナーにとっての前記ミキシングサウンドトラックのダイアログの了解度の測度を決定するステップと、
を含み、
前記ダイアログの了解度の測度を決定するステップは、
前記比較に基づいて、前記比較テキストの連続セグメントの対応するセグメントについての前記ミキシングサウンドトラックのタイムスライスのダイアログの了解度の個々の測度をコンピュータ計算するステップと、
前記ダイアログの了解度の個々の測度に基づいて、前記ダイアログの了解度の測度をコンピュータ計算するステップと、
を含み、
前記方法が更に、
前記ダイアログの了解度の測度をレポートするステップ
を含む、方法。 - 前記変換するステップは、自動音声認識(ASR)を用いて前記ミキシングサウンドトラックを前記比較テキストに変換するステップを含む、請求項1に記載の方法。
- 前記レポートするステップは、前記ダイアログの了解度の測度及び前記ダイアログの了解度の個々の測度を表示するステップを含む、請求項1に記載の方法。
- 前記ダイアログの了解度の個々の測度をコンピュータ計算するステップは、前記ミキシングサウンドトラックのタイムスライスに対応する比較テキストのセグメントと前記基準テキストのセグメントの対応するセグメントとの間の違いを決定するステップを含む、請求項1に記載の方法。
- 前記レポートするステップは、前記ダイアログの了解度の測度、前記ダイアログの了解度の個々の測度、前記比較テキストのセグメント、及び前記基準テキストのセグメントの対応するセグメントを表示するステップを含む、請求項4に記載の方法。
- デジタル再生デバイスのために構成され、前記ダイアログの了解度の個々の測度を少なくとも含むメタデータを生成するステップを更に含む、請求項1に記載の方法。
- 前記基準テキストは、それぞれの時間間隔にわたるサブタイトルテキストのチャンクを含み、
前記了解度の測度を決定するステップは、(i)前記ミキシングサウンドトラックのタイムスライスに対応する比較テキストのセグメントと、(ii)前記比較テキストのセグメントと共通のダイアログを伝達する前記サブタイトルテキストのチャンクの対応するチャンクとの間の個々の違いを決定するステップを含む、
請求項1に記載の方法。 - 前記比較テキストのセグメントの各々と前記サブタイトルテキストのチャンクのマッチングチャンクとの間のテキスト類似性を最大化するテキストマッチングアルゴリズムを用いて、前記比較テキストのセグメントを前記サブタイトルテキストのチャンクの対応するチャンクにマッチングするステップを更に含み、
前記個々の違いを決定するステップは、前記マッチングの結果に基づいて前記個々の違いを決定するステップを含む、
請求項7に記載の方法。 - 前記基準テキストを取得するステップは、ダイアログのみのサウンドトラックを前記基準テキストに変換するステップを含む、請求項1に記載の方法。
- 前記基準テキストを取得するステップは、前記基準テキストとして前記ダイアログのテキストベースのサブタイトルを受信するステップを含む、請求項1に記載の方法。
- 前記ミキシングサウンドトラックを取得するステップは、
非ダイアログサウンドがミキシングされたダイアログを含むオリジナルミキシングサウンドトラックを受信するステップと、
室内音響、サウンド再生システム再生音響、及び背景雑音の1又は2以上をエミュレートするエミュレートサウンドエフェクトによって前記オリジナルミキシングサウンドトラックを音響的に修正し、前記ミキシングサウンドトラックを生成するステップと、
を含む、請求項1に記載の方法。 - 前記変換するステップは、
機械学習ダイアログ抽出器を用いて、前記ミキシングサウンドトラックから前記ダイアログを抽出して優勢ダイアログサウンドトラックを生成するステップと、
前記優勢ダイアログサウンドトラックを前記比較テキストに変換するステップと、
を含む、請求項1に記載の方法。 - 前記ダイアログの了解度の測度を決定するステップは、前記比較テキストと前記基準テキストとの間の違いをコンピュータ計算するステップと、前記違いに基づいて前記ダイアログの了解度の測度をコンピュータ計算するステップと、を含む、請求項1に記載の方法。
- 前記違いをコンピュータ計算するステップは、文字又は言葉の違いを表すテキスト距離として、又はサウンドの違いを表す音声学的テキスト距離として前記違いをコンピュータ計算するステップを含む、請求項13に記載の方法。
- 前記違いをコンピュータ計算するステップは、
第1の比較アルゴリズムを用いて、前記比較テキストと前記基準テキストとの間の第1の違いをコンピュータ計算するステップと、
前記第1の比較アルゴリズムとは異なる第2の比較アルゴリズムを用いて、前記比較テキストと前記基準テキストとの間の第2の違いをコンピュータ計算するステップと、
前記第1の違い及び前記第2の違いの加重組み合わせとして前記違いをコンピュータ計算するステップと、
を含む、請求項13に記載の方法。 - 装置であって、
プロセッサであって、
非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得し、
前記ミキシングサウンドトラックを比較テキストに変換し、
リスナーにとっての前記ダイアログの了解度の基準として前記ダイアログの基準テキストを取得し、
前記比較テキストと前記基準テキストとの間の比較に基づいて、前記比較テキストの連続セグメントの対応するセグメントについての前記ミキシングサウンドトラックのダイアログの了解度の個々の測度をコンピュータ計算し、
前記ダイアログの了解度の個々の測度に基づいて、前記ミキシングサウンドトラックのダイアログの了解度の全体的測度をコンピュータ計算し、
及び前記ダイアログの了解度の全体的測度を含むレポートを生成する、
ように構成されたプロセッサ
を備える、装置。 - 前記プロセッサは、前記ミキシングサウンドトラックのタイムスライスに対応する比較テキストのセグメントと前記基準テキストのセグメントの対応するセグメントとの間の違いを決定することによって、前記ダイアログの了解度の個々の測度をコンピュータ計算するように構成される、請求項16に記載の装置。
- 前記プロセッサは、ASRを用いてダイアログのみのサウンドトラックを前記基準テキストに変換することによって、前記基準テキストを取得するように構成される、請求項16に記載の装置。
- 前記プロセッサは、前記基準テキストとして前記ダイアログのテキストベースのサブタイトルを受信することによって前記基準テキストを取得するように構成される、請求項16に記載の装置。
- 前記プロセッサは、
非ダイアログサウンドがミキシングされたダイアログを含むオリジナルミキシングサウンドトラックを受信し、
室内音響、サウンド再生システム再生音響、及び背景雑音の1又は2以上をエミュレートするエミュレートサウンドエフェクトによって前記オリジナルミキシングサウンドトラックを音響的に修正し、前記ミキシングサウンドトラックを生成する、
ことによって、前記ミキシングサウンドトラックを取得するように構成される、請求項16に記載の装置。 - 非一時的コンピュータ可読媒体であって、プロセッサによって実行される時に、前記プロセッサに、
非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得させ、
自動音声認識(ASR)を用いて前記ミキシングサウンドトラックのタイムスライスを比較テキストに変換させ、
前記ダイアログの了解度の基準として前記ダイアログの基準テキストを取得させ、
前記比較テキストと前記基準テキストとの間の違いに基づいて、前記比較テキストの連続セグメントの対応するセグメントについての前記タイムスライスのミキシングサウンドトラックのダイアログの了解度の個々の測度をコンピュータ計算させ、
前記ダイアログの了解度の個々の測度に基づいて前記ミキシングサウンドトラックのダイアログの了解度の全体的測度をコンピュータ計算させ、
前記ダイアログの了解度の全体的測度及び前記ダイアログの了解度の個々の測度を含むレポートを生成させる、
ようにする命令が格納される非一時的コンピュータ可読媒体。 - 前記プロセッサに前記基準テキストを取得させる前記命令は、前記プロセッサに前記ASRを用いてダイアログのみのサウンドトラックを前記基準テキストに変換させる命令を含む、請求項21に記載の非一時的コンピュータ可読媒体。
- 前記プロセッサに前記基準テキストを取得させる前記命令は、前記プロセッサに前記基準テキストとして前記ダイアログのテキストベースのサブタイトルを受信させる命令を含む、請求項21に記載の非一時的コンピュータ可読媒体。
- 前記プロセッサに前記ミキシングサウンドトラックを取得させる命令は、前記プロセッサに、
非ダイアログサウンドがミキシングされた前記ダイアログを含むオリジナルミキシングサウンドトラックを受信させ、
室内音響、サウンド再生システム再生音響、及び背景雑音の1又は2以上をエミュレートするエミュレートサウンドエフェクトによって前記オリジナルミキシングサウンドトラックを音響的に修正し、前記ミキシングサウンドトラックを生成させる、
命令を含む、請求項21に記載の非一時コンピュータ可読媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2019/068391 WO2021133382A1 (en) | 2019-12-23 | 2019-12-23 | Method and apparatus for dialogue intelligibility assessment |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023514938A JP2023514938A (ja) | 2023-04-12 |
JP7490062B2 true JP7490062B2 (ja) | 2024-05-24 |
Family
ID=69469183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022538977A Active JP7490062B2 (ja) | 2019-12-23 | 2019-12-23 | ダイアログの了解度を評価する方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220328062A1 (ja) |
EP (1) | EP4082011B1 (ja) |
JP (1) | JP7490062B2 (ja) |
KR (1) | KR20220117329A (ja) |
CN (1) | CN115053289A (ja) |
WO (1) | WO2021133382A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020147587A1 (en) | 2001-03-01 | 2002-10-10 | Ordinate Corporation | System for measuring intelligibility of spoken language |
JP2021032909A (ja) | 2019-08-13 | 2021-03-01 | 日本電信電話株式会社 | 予測装置、予測方法及び予測プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6272461B1 (en) * | 1999-03-22 | 2001-08-07 | Siemens Information And Communication Networks, Inc. | Method and apparatus for an enhanced presentation aid |
US10706741B2 (en) * | 2013-09-03 | 2020-07-07 | Roger Midmore | Interactive story system using four-valued logic |
US10776419B2 (en) * | 2014-05-16 | 2020-09-15 | Gracenote Digital Ventures, Llc | Audio file quality and accuracy assessment |
WO2016176371A1 (en) * | 2015-04-27 | 2016-11-03 | TalkIQ, Inc. | Methods and systems for determining conversation quality |
US20180032611A1 (en) * | 2016-07-29 | 2018-02-01 | Paul Charles Cameron | Systems and methods for automatic-generation of soundtracks for live speech audio |
US9876901B1 (en) * | 2016-09-09 | 2018-01-23 | Google Inc. | Conversational call quality evaluator |
EP3542360A4 (en) * | 2016-11-21 | 2020-04-29 | Microsoft Technology Licensing, LLC | METHOD AND DEVICE FOR AUTOMATIC SYNCHRONIZATION |
US10839159B2 (en) * | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11315588B2 (en) * | 2018-10-10 | 2022-04-26 | Robert Taub | Communication system for processing audio input with visual display |
KR20220108076A (ko) * | 2019-12-09 | 2022-08-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 잡음 메트릭 및 스피치 명료도 메트릭에 기초한 오디오 및 비-오디오 특징의 조정 |
US11342003B1 (en) * | 2019-12-12 | 2022-05-24 | Amazon Technologies, Inc. | Segmenting and classifying video content using sounds |
-
2019
- 2019-12-23 JP JP2022538977A patent/JP7490062B2/ja active Active
- 2019-12-23 WO PCT/US2019/068391 patent/WO2021133382A1/en active Search and Examination
- 2019-12-23 EP EP19848917.1A patent/EP4082011B1/en active Active
- 2019-12-23 KR KR1020227025495A patent/KR20220117329A/ko unknown
- 2019-12-23 CN CN201980103515.5A patent/CN115053289A/zh active Pending
-
2022
- 2022-06-22 US US17/846,864 patent/US20220328062A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020147587A1 (en) | 2001-03-01 | 2002-10-10 | Ordinate Corporation | System for measuring intelligibility of spoken language |
JP2021032909A (ja) | 2019-08-13 | 2021-03-01 | 日本電信電話株式会社 | 予測装置、予測方法及び予測プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP4082011A1 (en) | 2022-11-02 |
US20220328062A1 (en) | 2022-10-13 |
JP2023514938A (ja) | 2023-04-12 |
WO2021133382A1 (en) | 2021-07-01 |
CN115053289A (zh) | 2022-09-13 |
EP4082011B1 (en) | 2023-04-19 |
KR20220117329A (ko) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5759022B2 (ja) | セマンティック・オーディオ・トラック・ミキサー | |
US10410615B2 (en) | Audio information processing method and apparatus | |
US11915725B2 (en) | Post-processing of audio recordings | |
CN108780643A (zh) | 自动配音方法和装置 | |
JP2020003537A5 (ja) | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム | |
US9892758B2 (en) | Audio information processing | |
CN102132341A (zh) | 鲁棒的媒体指纹 | |
US8670577B2 (en) | Electronically-simulated live music | |
US20230186782A1 (en) | Electronic device, method and computer program | |
Petermann et al. | Tackling the cocktail fork problem for separation and transcription of real-world soundtracks | |
Özer et al. | Source Separation of Piano Concertos with Test-Time Adaptation. | |
US20110166857A1 (en) | Human Voice Distinguishing Method and Device | |
JP7490062B2 (ja) | ダイアログの了解度を評価する方法及び装置 | |
Cunningham et al. | Subjective evaluation of music compressed with the ACER codec compared to AAC, MP3, and uncompressed PCM | |
CN115331648A (zh) | 音频数据处理方法、装置、设备、存储介质及产品 | |
CN115294960A (zh) | 声码器的训练方法、语音合成的方法及相关产品 | |
US11322173B2 (en) | Evaluation of speech quality in audio or video signals | |
CN107679111A (zh) | 播放演示文件的方法和*** | |
Nistal et al. | Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models | |
US20220417659A1 (en) | Systems, methods, and devices for audio correction | |
Doherty et al. | Streaming Audio Using MPEG–7 Audio Spectrum Envelope to Enable Self-similarity within Polyphonic Audio | |
KR102585031B1 (ko) | 실시간 외국어 발음 평가시스템 및 방법 | |
Santacruz et al. | VOICE2TUBA: transforming singing voice into a musical instrument | |
CN114242036A (zh) | 角色配音方法、装置、存储介质及电子设备 | |
CN114333839A (zh) | 模型训练素材挑选方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221215 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240415 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240514 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7490062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |