JP7490062B2

JP7490062B2 - ダイアログの了解度を評価する方法及び装置

Info

Publication number: JP7490062B2
Application number: JP2022538977A
Authority: JP
Inventors: デイヴィッドコルテスプロヴェンシオ; マーティンウォルシュ; ブライアンスラック; エドワードシュタイン
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2024-05-24
Anticipated expiration: 2039-12-23
Also published as: EP4082011A1; US20220328062A1; JP2023514938A; WO2021133382A1; CN115053289A; EP4082011B1; KR20220117329A

Description

本開示は、サウンドトラックに関するダイアログの了解度の評価に関する。

娯楽産業では、コンテンツ配信者が、映画及びテレビジョン（ＴＶ）番組などのオーディオ－ビジュアルコンテンツを、消費者によるコンテンツの消費のために消費者にストリーミングしている。オーディオに関しては、コンテンツ製作者は、コンテンツ製作者がストリーミングするコンテンツからのダイアログを家庭で適正に聴取し理解できないことに関する消費者からの数多くの持続的な不満の形で、重大な問題に直面している。問題を解決する従来の手法は、ボーカルの周波数範囲をブーストするなどの従来からのデジタル信号処理（ＤＳＰ）技術を介してダイアログの音声了解度を引き上げようと試みている。この従来方法では、一般的に、ＤＳＰ技術が「分かりやすさ」の問題を解決することを仮定しているが、追加の処理の前又は後の何れかで消費者が実際にダイアログをどのくらい良く理解するかを評価又は対処してはいない。これは、問題の間、すなわち、低品質のダイアログ了解度に関する消費者の不満とその解決策との間の品質管理（ＱＣ）のギャップを結果として生じ、従って、報告される問題を実際に適切に解決したかどうかに関する知識なしに解決策の実施をコンテンツ製作者及び／又はサウンドエンジニアに課すことになる。

リスナーにとってのサウンドトラックのダイアログの了解度を評価及び改良する例示的なサウンドエンジニアリング環境を示すブロック図である。サウンドエンジニアリング環境のダイアログアナライザによって実行される、了解度が測定される基準としてダイアログのみのサウンドトラックを用いたミキシングウントドラックのダイアログの了解度を評価する例示的な第１の方法を示す図である。ダイアログアナライザによって実行される、了解度が測定される基準としてダイアログのテキストベースのサブタイトルを用いたミキシングサウンドトラックのダイアログの了解度を評価する例示的な第２の方法を示す図である。ダイアログアナライザのＡＳＲエンジンによってサウンドトラックダイアログの連続タイムスライスを基準／比較テキストの対応する連続セグメントに変換することに関連付けられる例示的なタイミングを示す図である。固定持続時間のダイアログのタイムスライスに対応する自動音声認識（ＡＳＲ）テキストセグメントへのサブタイトルチャンクの例示的なテキストマッチングを示す図である。基準テキストと比較テキスト間の比較の結果としてダイアログアナライザによって生成されたダイアログの了解度の測度（ヒストグラム形式で図示）対時間のプロット形式の例示的なダイアログ了解度レポートを示す図である。サブタイトルに対して参照されるオリジナルミキシングサウンドトラックのダイアログについての了解度の測度のプロット形式の例示的なダイアログ了解度レポートを示す図であり、サブタイトルの品質を示す。サブタイトルに対して参照される修正されたミキシングサウンドトラックのダイアログについての了解度の測度のプロット形式の例示的なダイアログ了解度レポートを示す図である。図６及び７からのダイアログの連続タイムスライスの行と、タイムスライスの各々に対応する様々なデータに対する列とを有するテーブル形式の例示的な了解度レポートを示す図である。比較結果から生成されたメタデータを含む例示的なダイアログ了解度レポートを示す図である。エディテックステキスト距離アルゴリズムを用いた基準テキストと比較テキストの間の比較の結果としてダイアログアナライザによって生成されたテキスト距離対時間の極座標プロット形式の例示的なダイアログ了解度レポートを示す図である。コサインテキスト距離アルゴリズムを用いて基準テキストと比較テキストの間の比較の結果として、ダイアログアナライザによって生成されたテキスト距離対時間の極座標プロット形式の例示的なダイアログ了解度レポートを示す図である。サウンドトラックにおけるダイアログの了解度を評価する例示的なハイレベル方法を示す流れ図である。オーディオアナライザを実装することができる例示的なコンピュータシステム／デバイスを示すブロック図である。

例示的な実施形態
コンテンツ配信者は、映画、ＴＶ番組などのミキシングサウンドトラックを含むオーディオ－ビジュアルコンテンツを消費者にストリーミングする。ミキシングサウンドトラックは、ダイアログと、例えば音楽及び映画／ＴＶのサウンドエフェクトを含む非ダイアログサウンドとを含むことができる。消費者は、テレビジョン又はコンピュータなどの再生デバイスのサウンド再生システムを介してミキシングサウンドトラックを再生する。多くの場合、消費者は、居間などの消費者の再生ルームでサウンド再生システムを介して再生されるミキシングサウンドトラックからのダイアログを理解できない。消費者は、ダイアログの了解度又は「分かりやすさ」を低下させる可能性がある多くの要因に起因して、ダイアログを理解できない場合がある。本明細書で用いる「了解度」及び「分かりやすさ」という用語は、同義語であり且つ置き換え可能である。ダイアログの了解度を低下させる可能性がある要因には以下が挙げられる。
ａ．ダイアログの低信号対雑音比（ＳＮＲ）。例えば、サウンドミキシングレベルは、非ダイアログサウンドをダイアログに対して高くしすぎることがあり、ダイアログをかき消すことになる。また、再生ルームの背景雑音がダイアログをかき消す可能性がある。
ｂ．反響などの再生ルームの音響特性が、ダイアログの了解度と干渉するか又はこれを低下させる可能性がある。
ｃ．サウンド再生システムの制限が、ダイアログの了解度を低下させることがある。
ｄ．ダイアログにおける言葉の滑舌及び発声、例えばアクセントが、消費者には分かり難く聞こえることがあり、これによってダイアログが高ＳＮＲで再生される時にもダイアログの了解度を低下させる。
ｅ．消費者の個人的な聴力の欠損及び障害が、ダイアログの了解度を低下させる可能性がある。

ダイアログの低下した了解度に関連付けられる問題に対する有効な解決策を実施するために、解決策を実施する前及び後に消費者（以下の説明では「リスナー」と呼ばれる）に対するダイアログの了解度を評価できることが有用である。例えば、ダイアログの了解度の減少又は低下の可能性を予測できることが有用である。ダイアログの了解度に関する上述の要因の影響を評価することも有用であり、これによって、解決策が、適正に要因を補償することができるようになる。従来の解決策の欠点は、リスナーがダイアログを理解できる可能性、すなわちダイアログがリスナーにとって明瞭である可能性を解決策が推定しようとしないことである。

従って、本明細書に提示される実施形態は、自動音声認識（ＡＳＲ）の精度を評価して、例えば、サウンドトラックからのダイアログがリスナーによって理解される可能性を推定する。より具体的には、本実施形態は、ＡＳＲを利用して、例えば、再生ルーム又は「リスニング環境」でのリスナーに対するサウンドトラックのダイアログの了解度を推定又は予測する。例えば、本実施形態は、ＡＳＲを用いて典型的な家庭環境における再生に対して典型的なＴＶ及び映画コンテンツのダイアログの了解度の尤度を分析及び定量化する。本実施形態は更に、再生デバイス、室内音響、リスニングレベル、人間の聴力欠陥などのサウンド再生システムの制限などの消費者リスニングシナリオをエミュレートして、ダイアログが再生ルームで明瞭であり続ける可能性を更に予測する。本実施形態は、前述のダイアログ分析から結果として得られたダイアログの了解度に関する質的及び量的情報を含むダイアログ了解度レポート（品質管理（ＱＣ）レポートとも呼ばれる）を提供する。このような情報により、有効な解決策が低下した了解度を修正することが可能となる。解決策は、新しいダイアログのサウンドトラックを記録するか又はダイアログ及び非ダイアログサウンドをリミックスしてリスナーにとってのダイアログの了解度を増大させるステップを含むことができる。

サウンドエンジニアリング環境
図１を参照すると、リスナーにとってのサウンドトラックのダイアログの了解度を評価及び改良する例示的なサウンドエンジニアリング環境１００のハイレベルブロック図である。サウンドエンジニアリング環境１００は、以下に記載するように、サウンドトラックのダイアログを分析するよう構成されたコンピュータベースのダイアログアナライザ１０２と、ダイアログアナライザと対話するためのコンテンツ製作者及び／又はミキシングエンジニアなどの評価器１０４と、を含む。評価器１０４は、公知のように、人員とサウンド機器の組み合わせを表すことができる。ダイアログアナライザ１０２は、例えば、映画及び／又はＴＶ番組を含む、マルチメディア／オーディオ－ビジュアルコンテンツのダイアログに関係付けられる多種多様な入力を評価器１０４から受信することができる。ダイアログアナライザ１０２は、サウンド処理技術を用いて入力において伝達されるダイアログを分析して、ダイアログ了解度レポートの形式でダイアログ分析結果／評価を生成して、レポートを評価器１０４に提供する。

１つの実施例では、評価器１０４は、映画及びＴＶ番組のサウンドトラックの形式のコンテンツをダイアログアナライザ１０２に提供することができる。サウンドトラックは、（ｉ）ダイアログのみの非ミキシングサウンドトラックＡ（「ダイアログのみのサウンドトラック」又は「ダイアログサウンドトラック」とも呼ばれる）、及び（ｉｉ）例えば、音楽及び映画／ＴＶサウンドエフェクトなどの非ダイアログサウンドがミキシングされたダイアログを含むオリジナルミキシングサウンドトラックＢを含むことができる。加えて、評価器１０４は、ダイアログのみ及びミキシングサウンドトラックに対するダイアログを表すテキストベースのサブタイトルＣをダイアログアナライザ１０２に提供することができる。ダイアログアナライザ１０２はまた、評価器１０４から、ダイアログアナライザ１０２によって用いることができるサウンド修正子信号Ｄを受信して、再生ルーム音響、背景雑音、再生デバイスのサウンド再生システムの制限、リスナーの聴力障害などのうちの１又は２以上を含む、様々な障害に対してサウンドエフェクトをエミュレートすることができる。エミュレートされたサウンドエフェクトは、非ダイアログサウンド、例えば、上述されたオリジナルミキシングサウンドトラックＢの映画／ＴＶサウンドエフェクトとは別個である。

ダイアログアナライザ１０２は、了解度の理想基準／規格に対して、ダイアログのみのサウンドトラックＡ、オリジナルミキシングサウンドトラックＢ、及び修正されたミキシングサウンドトラックＥ（エミュレートされたサウンドエフェクトと組み合わされたオリジナルミキシングサウンドトラックを含む）の各々に関してダイアログの了解度を測定するプロセスを実施する。ダイアログアナライザ１０２は、了解度の測度を含むダイアログ了解度レポートを生成して、レポートを評価器１０４に提供することができる。このために、ダイアログアナライザ１０２は、互いに結合され且つ互いに対話するよう構成された、ＡＳＲエンジン１２０、音響エミュレータ１２２、比較ロジック１２４、及びレポート生成器１２６を含む。

ＡＳＲエンジン１２０は、機械学習（ＭＬ）ベースのＡＳＲを実行して、ダイアログのみサウンドトラックＡ、オリジナルミキシングサウンドトラックＢ、及び修正されたミキシングサウンドトラックＥの各々によって伝達されるダイアログを対応するＡＳＲ（ダイアログ）テキストに変換して、テキストを比較ロジック１２４に提供する、ディープニューラルネットワーク（ＤＮＮ）などの１又は２以上のニューラルネットワークを含むことができる。ＡＳＲエンジン１２０は、ダイアログのサウンドトラックをテキストに変換するために用いられる何れかの公知の又は今後開発されるＡＳＲ技術を含むことができる。ミキシング／修正済みミキシングサウンドトラックＢ／Ｅに対してＡＳＲを実行することに関して、ＡＳＲエンジン１２０は、（ｉ）ミキシング／修正済みミキシングサウンドトラックからダイアログを抽出して、優勢なダイアログサウンドトラックを生成するＭＬベースのアルゴリズム（例えば、ＭＬダイアログ抽出器）を含む信号処理アルゴリズム、及び（ｉｉ）優勢ダイアログサウンドトラックをテキストに変換するＡＳＲアルゴリズムを含むことができる。

音響エミュレータ１２２は、サウンド修正子信号Ｄを受信し、サウンド修正子信号に基づいて上述のサウンドエフェクトをエミュレートし、エミュレートされたサウンドエフェクトを生成する。音響エミュレータ１２２は、エミュレートされたサウンドエフェクトをオリジナルミキシングサウンドトラックＢに組み合わせて、修正されたミキシングサウンドトラックＥを生成する。何れかの公知の又は今後開発される音響エミュレータを用いることができる。音響エミュレータ１２２は、修正されたミキシングサウンドトラックをＡＳＲエンジン１２０に提供する。

以下に更に詳細に記載するように、比較ロジック１２４は、ＡＳＲエンジン１２０からの比較テキストＣＴ、及びＡＳＲエンジンからのテキストを含むことができる基準テキストＲＴ、又は代替として、テキストベースのサブタイトルＣを受信する。比較ロジック１２４は、基準テキストに対する比較テキストの比較に基づいて、基準テキストＲＴに対する比較テキストＣＴにて表されるダイアログの了解度の測度Ｉを決定する。比較ロジック１２４は、ダイアログの了解度の測度Ｉ及び他の比較結果をレポート生成器１２６に提供する。レポート生成器１２６は、ダイアログの了解度の測度Ｉ及び他の比較結果を含むダイアログ了解度レポートを生成し、レポートをダイアログ評価器１０４に提供する。

本明細書に提示される実施形態は、単に例証として、了解度の予測器としてＡＳＲを用いる。他の実施形態は、ＡＳＲに頼らないことがある。例えば、このような他の実施形態は、代替の技術を利用して、（ｉ）サウンドトラックのダイアログを、ダイアログのサウンドに近いハッシュ値又は署名などのダイアログの非テキスト表現に翻訳する、及び（ｉｉ）非テキスト表現を理想基準と比較して、ダイアログの了解度の測度を生成する、ことができる。例えば、比較作動は、ＭＬベースの技術を用いて実行し、ダイアログの了解度の測度を示す比較結果を生成することができる。

理想基準としてダイアログのみのサウンドトラックを用いたミキシングサウンドトラックのダイアログ了解度
図２を参照すると、了解度が測定される理想基準／規格としてダイアログのみのサウンドトラックＡを用いてオリジナルミキシングサウンドトラックＢ及び修正されたミキシングサウンドトラックＥのダイアログの了解度を評価する例示的な第１の方法２００の図がある。方法２００は、ダイアログアナライザ１０２によって実行することができる。

オリジナルミキシングサウンドトラックのダイアログ了解度
方法２００は、エミュレートされたサウンドエフェクトなしのオリジナルミキシングサウンドトラックＢのダイアログの了解度を全体的に評価する動作２０２、２０４、及び２０６の第１のセットを含む。

２０２において、ＡＲエンジン１２０は、ダイアログのみのサウンドトラックＡ（図２で「オリジナルダイアログのみのミキシングオーディオ」として表記）を受信する。ダイアログのみのサウンドトラックＡは、例えば、他のフォーマットが可能であるが、波形オーディオファイル（．ＷＡＶ）フォーマットのファイルとして提供することができる。ＡＳＲエンジン１２０は、ダイアログのみのサウンドトラックＡに対してＡＳＲを実行して、ダイアログのみのサウンドトラックを基準テキストに変換する。例えば、ＡＳＲエンジン１２０は、ダイアログのみのサウンドトラックＡの連続タイムスライスを基準テキストの対応する連続セグメントに変換する。連続タイムスライスは各々、連続ダイアログ分析タイムスロットの対応するスロットを占める。タイムスロット（及び従ってタイムスライス）は、例えば、他の持続時間が可能であるが、５－１０秒の範囲の固定持続時間とすることができる。ＡＳＲエンジン１２０は、それぞれの開始時間及びそれぞれの停止時間を有するタイムスロット／タイムスライスの各々にタイムスタンプして、更にまたタイムスロット／タイムスライスの連続するタイムスロット／タイムスライスに増分タイムスライス識別子を割り当てる。ＡＳＲエンジン１２０は、タイムスライス情報（例えば、タイムスタンプ及び識別子）を基準テキストの連続セグメントの対応するセグメントと関連付ける。ＡＳＲエンジン１２０は、基準テキスト及びタイムスライス情報を比較ロジック１２４に提供する。ＡＳＲエンジン１２０はまた、ＡＳＲエンジンが、ダイアログのみのサウンドトラックＡのタイムスライスを基準テキストの対応するセグメントに変換するそれぞれの信頼度レベルを生成する。

２０４にて、ＡＳＲエンジン１２０は、オリジナルミキシングサウンドトラックＢ（図２に「オリジナルフルミキシングオーディオ」として表記）を受信する。オリジナルミキシングサウンドトラックＢは、例えば、．ＷＡＶファイルの１つのファイルとして提供することができる。ＡＳＲエンジン１２０は、オリジナルミキシングサウンドトラックＢに対してＡＳＲを実行し、オリジナルミキシングサウンドトラックのダイアログを比較テキストに変換する。例えば、ＡＳＲエンジン１２０は、ＡＳＲエンジンがダイアログのみのサウンドトラックＡを基準テキストの連続セグメントに変換するのと同様の方法で、オリジナルミキシングサウンドトラックＢのタイムスライスを比較テキストの対応するセグメントに変換する。同じタイムスライス／タイムスロットを表す比較テキストのセグメント及び基準テキストのセグメント、及び従ってダイアログの同じ部分（例えば、共通ダイアログセグメント）は、本明細書では比較の目的のための基準テキスト及び比較テキストの対応するセグメントと呼ばれる。ＡＳＲエンジン１２０は、比較テキストを比較ロジック１２４に提供する。

２０６にて、リスナーにとってのダイアログの理想的な又は最大の了解度を表す基準又は規格として基準テキストを用いて、比較ロジック１２４は、比較テキストと基準テキストの間の比較に基づいて、リスナーにとってのオリジナルミキシングサウンドトラックＢのダイアログの了解度の全体的な測度を決定する。すなわち、比較ロジック１２４は、比較テキストと基準テキストを比較して、２つのテキストの間の全体的な違いを表す比較結果を生成し、この全体的な違いに基づいてリスナーにとってのダイアログの了解度の全体的測度を決定する。

より具体的には、比較ロジック１２４は、（ｉ）上述のタイムスライスタイムスタンプ及び識別子に基づいて、同じ／共通ダイアログを表す比較テキストの連続セグメントと基準テキストの連続セグメントの間の対応関係を確定し、（ｉｉ）以下に記載する１又は２以上の比較アルゴリズムを用いて、比較テキストの連続セグメントと共通ダイアログを表す基準テキストの連続セグメントの対応するセグメントとの間の連続する個々の違いを決定し、（ｉｉｉ）個々の違いに基づいて、オリジナルミキシングサウンドトラックＢのダイアログの了解度の全体的測度をコンピュータ計算する。個々の違いは、比較テキストの連続セグメントの対応するセグメントについてのダイアログの了解度の個々の測度と考えることができる。本明細書で用いる、用語「ダイアログの了解度の測度」及び「ダイアログ了解度測度（又はメトリック）」は、同義語であり置き換えることができ、更に用語「測度」及び「メトリック」もまた、同義語であり置き換えることができる。

従って、本明細書で提示される実施形態は、ＡＳＲエンジン１２０が、リスナー（「平均的な人間のリスナー」と考えられる）にとってのオリジナルミキシングサウンドトラックＢのダイアログの了解度のプロキシとして、比較テキストと基準テキストの間の全体的な違いによって表されるスピーチ－テキストを変換する精度を用いる。全体的な違い（及び同様に個々の違い）がゼロ（正確なマッチを示す）から最大値（最大ミスマッチを指示する）に次第に増大する場合、ダイアログの了解度の測度は、理想から最大の低下まで漸次的に減少／低下し、逆の場合もまた同様である。正確なマッチは、ＡＳＲエンジン１２０がオリジナルミキシングサウンドトラックＢのダイアログを完全に理解し変換し、従って、リスナーは、ダイアログを十分理解していることを示す。対照的に、ミスマッチは、ＡＳＲエンジン１２０がオリジナルミキシングサウンドトラックＢのダイアログを適正には理解しておらず、更に従って、リスナーは、ダイアログを十分理解していないことを示し、すなわち、ダイアログの了解度は低下する。

ダイアログの了解度の測度は、多くの様々な方法で表すことができる。例えば、ダイアログアナライザ１０２は、１から０までのダイアログの了解度の測度（「了解度スコア」とも呼ばれる）を標準化することができ、これによって（ｉ）１は、比較テキストと基準テキストの間の最大ミスマッチ（すなわち、０％マッチ）に起因した最小了解度を表し、すなわち、比較テキスト及び基準テキストは、完全に異なり、更に（ｉｉ）０は、比較テキストと基準テキストの間の完全なマッチ（すなわち、１００％マッチ、ミスマッチなし）による最大了解度を表す。

１つの例では、比較ロジック１２４は、１又は２以上の公知の又は今後開発される比較アルゴリズムを用いて比較テキストと基準テキストを比較し、上記に言及された比較テキストと基準テキストの間の全体的な違いを決定することができる。例えば、比較アルゴリズムは、比較テキストと基準テキストの間のテキスト距離を決定する、編集ベース、トークンベース、シーケンスベース、圧縮ベース、音声学又はサウンドベースなどのテキスト距離アルゴリズムを含むことができる。例示的なテキスト距離アルゴリズムには、比較されるテキストの文字及び／又は言葉の間のテキスト距離をコンピュータ計算するコサイン距離アルゴリズム、及びＺｏｂｅｌ及びＤａｒｔによって開発された、比較されるテキストのサウンド間のテキスト距離すなわちスピーチされた時にテキストがどのように聞こえるかのテキスト距離をコンピュータ計算するエディテックス距離アルゴリズムが挙げられる。別の例では、比較アルゴリズムは、何れかの公知の又は今後開発される画像、パターン、及び／又は基準テキストと比較テキストの間の違いを決定するサウンドマッチングアルゴリズムを含むことができる。

１つの実施形態では、比較ロジック１２４は、同じ比較アルゴリズムを用いて比較テキストと基準テキストの対応するセグメント間の個々の違いを決定することができ、更に個々の違いを組み合わせて、ダイアログの了解度の全体的測度を表す全体的な違いにすることができる。例えば、比較ロジック１２４は、個々の違いの平均値をコンピュータ計算して、この平均値を全体的な違い及び従ってダイアログの了解度の全体的測度として用いることができる。

別の実施形態では、比較ロジック１２４は、個々の違いを相対的な違いに組み合わせる前に、異なる比較アルゴリズムの組み合わせを用いて個々の違いの各々を決定することができる。例えば、比較ロジック１２４は、以下の関数に従って、異なる比較アルゴリズムを用いてコンピュータ計算された個々の違いの加重和として各々の個々の違いをコンピュータ計算することができるが、他の関数も可能である。
個々の違いＤ＝ｃ₁d₂＋c₂ｄ₂＋．．＋ｃ_nｄ_n、
ここでｎは０以上の整数であり、各ｃ_iは係数、更に各ｄ_iは、別個の比較アルゴリズムである。

１つの実施例では、ｄ₁及びｄ₂は、コサイン距離アルゴリズム及びエディテックス距離アルゴリズムそれぞれを表すことができる。

また２０６において、レポート生成器１２６は、動作２０２－２０６で生成される結果を含むダイアログ了解度レポートを生成する。様々なダイアログ了解度レポートが、図５－１１に関して以下に記載される。ダイアログ了解度レポートは、以下に記載される、オリジナルミキシングサウンドトラックＢの全体のダイアログの了解度の全体的測度、比較テキストのセグメントのダイアログの了解度の個々の測度、了解度の個々の測度に対応する比較テキストのセグメント、基準テキストの対応するセグメント、タイムスライスのタイムスタンプ及び識別子、比較結果からの追加の情報、及びメタデータを含むことができる。ダイアログ了解度レポートは、限定ではないが、ハイパーテキストマークアップ言語（ＨＴＭＬ）、ジョイントフォトグラフィックエキスパートグループ（ＪＰＥＧ）、音楽インストゥルメントデジタルインタフェース（ＭＩＤＩ）などを含む様々なフォーマットで提供することができる。

レポート生成器１２６は、ダイアログ了解度レポートに組み入れる上述のメタデータを生成することができる。一般的には、メタデータは、ダイアログ分析の直接結果から抽出されたデータを含み、更にこれは、デジタル再生デバイスによって使用するよう構成される。デジタル再生デバイスの例は、限定ではないが、デジタルオーディオワークステーション（ＤＡＷ）、スタジオオーディオソフトウェア、及びテレビジョンなどの他のオーディオ－ビジュアル（ＡＶ）デバイスを含む。メタデータは、サウンドトラックの再生、ミキシング、編集、及び他の処理のためにミキシングエンジニアによって用いて、サウンドトラックにおけるダイアログの了解度を改良することができる。メタデータは、サウンドトラックにおけるオーディオの劣化したセクションをフラグ付けして更にダイアログの他のセクションに対してこのダイアログのレベルをブーストするために用い、サウンドトラックにおけるダイアログのタイムスライスの「良」及び「不良」チャンクなどをリストすることができる。

上記の説明では、比較ロジック１２４は、ダイアログの了解度を示すテキスト間の違いを表す比較結果を生成すると考えられる。「違い」は、テキスト間の「類似性」の逆のこととして解釈することができる（すなわち、違いが大きい程、類似性が少なく、逆もまた同様である）ので、比較ロジック１２４はまた、テキスト間の類似性を表す比較結果を生成すると言うことができ、これによって類似性の増大は、了解度の増大を示し、逆もまた同様である。何れの解釈の下でも、比較結果は、ダイアログの了解度を示す。更にまた、上述の比較アルゴリズムは、違い、又は逆に了解度を示すテキスト間の類似性を生成すると言うことができる。

修正されたミキシングサウンドトラックのダイアログ了解度
方法２００は、リスナーにとっての修正されたミキシングサウンドトラックＥの了解度、すなわちエミュレートされたサウンドエフェクトが組み合わされたオリジナルミキシングサウンドトラックＢの了解度を全体的に評価する動作２０２、２０６、及び２０８の第２のセットを含む。動作２０２及び２０６の上記に詳述した説明は、次の説明に対して十分である。

簡潔に言えば、２０２において、ＡＳＲエンジン１２０は、上述のようにダイアログのみのサウンドトラックＡを基準テキストに変換する。

２０８にて、サウンドエフェクトエミュレータ１２２は、オリジナルミキシングサウンドトラックＢ及びサウンド修正子信号Ｄを受信する。サウンド修正子信号Ｄは、再生ルーム音響、背景雑音、再生デバイスのサウンド再生システムの制限、及び聴力の障害の１又は２以上などのエミュレートされるサウンドエフェクトを含む。サウンドエフェクトエミュレータ１２２は、サウンド修正子信号Ｄに基づいて１又は２以上のサウンドエフェクトをモデル化又はシミュレートして、サウンドエフェクトによってオリジナルミキシングサウンドトラックＢを修正し、修正されたミキシングサウンドトラックＥを生成する。修正されたミキシングサウンドトラックＥは、（エミュレートされた）サウンドエフェクトを組み合わせたオリジナルミキシングサウンドトラックを表す。例えば、修正されたサウンドトラックＥは、エミュレートされた再生ルームの音響のみ、エミュレートされた背景雑音のみ、エミュレートされたサウンド生成システムの制限のみ、エミュレートされた聴力障害のみ、又は前述のエミュレートされたサウンドエフェクトの２又は３以上の組み合わせを含むことができる。

１つの実施例では、サウンド修正子信号Ｄは、エミュレートされる１又は２以上のサウンドエフェクトに対応する１又は２以上の．ＷＡＶファイルを含む。．ＷＡＶファイルは、本明細書を読んだ当業者には理解されるように、部屋の残響、サウンドハイパス及び／又はローパスフィルタ応答、利得応答などのサウンドエフェクトがエミュレートされるかどうかの周波数応答に対応するインパルス応答を含むことができる。サウンドエフェクトエミュレータ１２２は、サウンドエフェクトの．ＷＡＶファイルをオリジナルミキシングオーディオの．ＷＡＶファイルで畳み込みして、修正されたミキシングサウンドトラックＥを生成することができる。

サウンドエフェクトエミュレータ１２２は、修正されたミキシングサウンドトラックＥをＡＳＲエンジン１２０に提供する。

ＡＳＲエンジン１２０は、修正されたミキシングサウンドトラックＥにＡＳＲを実行して、修正されたミキシングサウンドトラックを、オリジナルミキシングサウンドトラックに対して上述した方法で比較テキストに変換する。ＡＳＲエンジン１２０は、比較テキストの連続セグメントを含む比較テキストを比較ロジック１２４に提供する。

簡潔に言えば、２０６において、比較ロジック１２４は、上述のように、基準テキストに対する比較テキストの比較に基づいて、修正されたミキシングサウンドトラックＥのダイアログの了解度の全体的な測度を決定し、比較テキストのセグメントの対応するセグメントに対するダイアログの了解度の個々の測度と共に、ダイアログの了解度の全体的測度をレポート生成器１２６に提供する。レポート生成器１２６は、動作２０６からの結果に基づいてダイアログ了解度レポートを生成する。

ガイドとしてダイアログ了解度レポートを用いて、ダイアログ評価器１０４は、ダイアログ了解度レポートがエミュレートされたサウンドエフェクトあり又はなしのダイアログの低下した了解度を示す時に、オリジナルミキシングオーディオサウンドトラックＢを再記録又はリミックスして、リミックスサウンドトラックを生成することができる。ダイアログ評価器１０４は、ダイアログアナライザ１０２を用いて、上述のようにリミックスサウンドトラックのダイアログの了解度を評価して、必要な場合に再記録又はリミックスを繰り返すことができる。

理想基準としてテキストベースのサブタイトルを用いたサウンドトラックのダイアログ了解度
図３を参照すると、ダイアログアナライザ１０２によって実行される、リスナーにとってのダイアログの了解度が測定される基準としてダイアログのテキストベースのサブタイトルＣを用いてミキシングサウンドトラック（例えば、ミキシングサウンドトラックＢ及びＥ）のダイアログの了解度を評価する例示的な第２の方法３００の図が示されている。

オリジナルミキシングサウンドトラック（サウンドエフェクトなし）のダイアログ了解度
動作３０２、３０４、及び３０６は、全体的に、ミキシングサウンドトラックのダイアログのテキストベースのサブタイトルＣに対して参照されるオリジナルミキシングサウンドトラックＢの了解度を評価する。オリジナルミキシングサウンドトラックＢは、エミュレートされたサウンドエフェクトを含まない。

３０２にて、比較ロジック１２４は、テキストベースのサブタイトルＣを受信する。テキストベースのサブタイトルは、時間間隔のそれぞれの開始及び停止時間によって指示される、互いに対して変えることができる連続するそれぞれの時間間隔にわたるサブタイトルテキストのチャンクのシーケンスとしてフォーマット化することができる。例えば、テキストベースのサブタイトルは、ＳｕｂＲｉｐ（ＳＲＴ）フォーマット、又は何れかの他の公知の又は今後開発されるサブタイトルフォーマットで提供することができる。

３０４にて、ＡＳＲ１２０は、オリジナルミキシングサウンドトラックＢを受信して更にオリジナルミキシングサウンドトラックにＡＳＲを実行して、上述のように比較テキストを生成する。ＡＳＲ１２０は、比較テキストを比較ロジック１２４に提供する。

サブタイトルテキストＣのチャンクの変化する時間間隔（「サブタイトルチャンク」と呼ばれる）が、比較テキストのセグメント（「比較テキストセグメント」と呼ばれる）の固定タイムスライス持続時間とは異なることがあるので、サブタイトルチャンクの各々と比較テキストセグメントの各々の間の１対１対応が存在しない可能性がある。従って、比較ロジック１２４は、比較テキストセグメントの各々のテキストをサブタイトルチャンクの対応するチャンクにわたる同じ／共通テキストにマッチングして、同じ／共通のダイアログを伝達する比較テキストセグメントとサブタイトルチャンクのテキストとの間の対応を確定する。

このために、比較ロジック１２４は、比較テキストセグメントの各々のテキストと、比較テキストセグメントに時間的に近いか又は隣接するサブタイトルチャンクの対応する／マッチングするチャンクにわたるテキストとの間のテキスト類似性を最大化するテキストマッチングアルゴリズムを用いることができる。テキストマッチングアルゴリズムは、比較テキストセグメントとサブタイトルチャンクのタイムスタンプに基づいて時間の隣接性を確定することができる。

各比較テキストセグメントに対する対応する／マッチングサブタイトルテキストを見付けるために、テキストマッチングアルゴリズムは、以下の例示的な動作を実行することができる。
ａ．何れかの公知の又は今後開発されるストリングマッチング／ディファレンシング技術を用いて、（現在の）比較テキストセグメントと１又は２以上のサブタイトルチャンクにわたる（現在の）サブタイトルテキストストリングとの間の類似性の測度を決定する。サブタイトルテキストストリングは、比較テキストセグメント及びサブタイトルチャンクのタイムスタンプに基づいて比較テキストセグメントに時間的にほぼ重なる。決定された類似性の測度を類似性の（現在の）最大測度として格納する。
ｂ．サブタイトルテキストストリングを長くする／短くするためにサブタイトルテキストストリングの最後から言葉を追加／取り除き、動作（ａ）を繰り返して類似性の新しい測度を決定する。類似性の新しい測度が動作（ａ）からの類似性の最大測度を超えた場合／時にだけ、新しい類似性の測度に等しい類似性の最大測度を設定する。
ｃ．事前に決められた終了条件が満足される、例えば、類似性の事前に決められた最大測度に達するまで動作（ａ）及び（ｂ）を繰り返し、更に比較の目的でサブタイトルテキストストリング及び比較テキストのマッチを宣言する（これは、テキストマッチングアルゴリズムによって出力される結果である）。
ｄ．次の比較テキストセグメント及び次のサブタイトルテキストストリングに移り、更に動作（ａ）－（ｃ）を繰り返す。

３０６にて、比較ロジック１２４は、比較テキストとテキストベースのサブタイトルＣのマッチングするテキストとの間の比較に基づいてリスナーにとってのオリジナルミキシングサウンドトラックＢのダイアログの了解度の全体的測度を決定する。詳細には、比較ロジック１２４は、比較テキストのセグメントと、同じ／共通のダイアログを表すサブタイトルチャンクの対応するセグメントのサブタイトルテキストとの個々の違いを、テキストマッチングアルゴリズムによって決定されるように決定する。比較ロジック１２４は、個々の違いをダイアログの了解度の全体的な測度に組み合わせる。

比較ロジック１２４は、オリジナルミキシングサウンドトラックＢのダイアログの了解度の全体的測度、及び、例えば、個々の違いによって表されるダイアログの了解度の個々の測度（及びサブタイトル品質の指示）を、本明細書で説明するようにダイアログ了解度レポートを生成するレポート生成器１２６に提供する。

修正されたミキシングサウンドトラックのダイアログ了解度（サウンドエフェクトあり）
動作３０６、３０８、及び３１０は、全体的に、テキストベースのサブタイトルＣに関して修正されたミキシングサウンドトラックＥの了解度を評価する。

３０８にて、比較ロジック１２４は、上述のように、基準テキストとして用いるサブタイトルＣを受信する。

動作３１０は、上述された動作２０８に類似である。３１０で、音響エミュレータ１２２は、オリジナルミキシングサウンドトラックＢ及びサウンド修正子信号Ｄを受信する。サウンドエフェクトエミュレータ１２２は、サウンド修正子信号Ｄに基づいて１又は２以上のサウンドエフェクトをシミュレートして、更にサウンドエフェクトによってオリジナルミキシングサウンドトラックＢを修正し、修正されたミキシングサウンドトラックＥを生成する。サウンドエフェクトエミュレータ１２２は、修正されたミキシングサウンドトラックＥをＡＳＲエンジン１２０に提供する。ＡＳＲエンジン１２０は、修正されたミキシングサウンドトラックＥを上述した方法で比較テキストに変換する。ＡＳＲエンジン１２０は、連続比較テキストセグメントを含む比較テキストを比較ロジック１２４に提供する。

３０６にて、比較ロジック１２４は、上述した方法で、比較テキストとテキストベースのサブタイトルＣの間の比較に基づいて、修正されたミキシングサウンドトラックＥのダイアログの了解度の全体的測度を決定する。比較ロジック１２４は、修正されたミキシングサウンドトラックＥのダイアログの了解度の全体的測度、及びダイアログの了解度の個々の測度を、本明細書に記載するようにダイアログ了解度レポートを生成するレポート生成器１２６に提供する。

ガイドとして上述のダイアログ了解度レポートを用いて、ダイアログ評価器１０４は、ダイアログ了解度レポートがエミュレートされたサウンドエフェクトあり又はなしのダイアログの低下した了解度を示す時にオリジナルミキシングオーディオサウンドトラックを再記録するか又はリミックスして、リミックスサウンドトラックを生成することができる。ダイアログアナライザ１０２を用いて、リミックスサウンドトラックのダイアログの了解度を評価することができ、更にリミックス／評価処理を必要な場合に繰り返すことができる。

ＡＳＲセグメント及びサブタイトルのタイミング図
図４Ａを参照すると、ＡＳＲエンジン１２０によって、サウンドトラックダイアログの連続タイムスライス、ＤＩＡＬＯＧ１－ＤＩＡＬＯＧ４を、基準／比較テキストの対応する連続セグメントに変換することに関連付けられる例示的なタイミング４００の図が示されている。基準／比較テキストのセグメントは、「ＡＳＲテキストセグメント」又は単純に「ＡＳＲテキスト」とも呼ばれる。タイミング４００は、サウンドトラックダイアログのタイムスライスＤＩＡＬＯＧ１－ＤＩＡＬＯＧ４に対応する、基準テキストの連続セグメント（「基準テキストセグメント」）Ｒ１－Ｒ４及び比較テキストの対応する連続セグメント（「比較テキストセグメント」）Ｃ１－Ｃ４を示す。連続する個々の違いＤ１－Ｄ４は、基準テキストセグメントＲ１－Ｒ４と比較テキストセグメントＣ１－Ｃ４の対応するセグメントの間の個々の違いを表し、すなわち、個々の違いＤｉは、テキストセグメントＲｉとＣｉの間の違いである。１又は２以上の比較アルゴリズム（図４Ａに「－」で示される）は、テキスト距離、パターンマッチング結果などを含むことができる個々の違いＤ１－Ｄ４を生成する。各個々の違いＤｉは、対応する比較テキストセグメントＣｉのダイアログの了解度の対応する個々の測度を表すことができる。

図４Ｂを参照すると、対応する可変時間間隔にわたるＳＲＴサブタイトルチャンク１－７と、１０秒の固定持続時間を各々が有するダイアログの連続するタイムスライス、スライス１、スライス２、及びスライス３に対応する連続ＡＳＲテキストセグメントのテキストマッチングを示す実施例４５０の図が示されている。各サブタイトルチャンクは、先頭サブタイトルシーケンス番号（例えば、１、２、．．，７）と時間間隔（例えば、「００：００：０３、４００→００：００：０６，１７７」）によって定義され、ここでコンマは、ミリ秒から秒を分ける。図４Ｂの例では、上述のテキストマッチングアルゴリズムが、（ｉ）サブタイトルチャンク１－３にわたるボックス４５２によって包含されるサブタイトルテキストストリングをＡＳＲテキストスライス１のダイアログに、（ｉｉ）サブタイトルチャンク３－５にわたるボックス４５４によって包含されるサブタイトルテキストストリングをＡＳＲテキストスライス２のダイアログに、及び（ｉｉｉ）サブタイトルチャンク５－７にわたるボックス４５６によって包含されるサブタイトルテキストストリングをＡＳＲテキストスライス３のダイアログにマッチングする。

ダイアログ了解度レポート
表示のために生成され、更に次にダイアログアナライザ１０２によって表示されるダイアログ了解度レポートは、ここでは図５－１２に関して記載されている。ダイアログ了解度レポートは、例えば、ユーザインタフェースのパネルに表示することができる。

図５を参照すると、基準テキストと比較テキストとの比較から結果として生じる、ダイアログの了解度の測度（縦軸）対時間（横軸）のプロット形式で例示的なダイアログ了解度レポート５００の図が示されている。了解度の測度は、０から１まで標準化され、ここで０は、完全なマッチ（すなわち、１００％マッチ）を表し、更に１は、完全なミスマッチ又は完全に異なるテキスト（すなわち、０％マッチ又は完全ミスマッチ）を表す。時間軸は、０分から４分２２秒までの時間を、約１０秒の時間増分で（すなわち、約３秒のタイムスライス持続時間を用いて）示している。

プロット上の縦棒は、テキストセグメント／タイムスライスに対する個々の了解度の測度を表す。了解度のマッピングマッチ＝０及びミスマッチ＝１であるとすると、測度における増大が了解度の低下の増大を表すので、個々の了解度の測度は、了解度の低下の測度として解釈することができる。また、読みやすさを拡張するために、異なる範囲内に入る了解度の個々の測度を、異なる色、影、又は平行線模様で示すことができる。例えば、事前に決められた閾値を超える（及び従って低下の高いレベルを表す）個々の了解度の測度は、第１の色（例えば、赤）で示すことができ、同時に事前に決められた閾値を超えない（及び従って、低下の低レベルを表す）了解度の個々の測度を第２の色（例えば、緑）で示すことができる。複数の事前に決められた閾値及び対応する色／影／平行線模様を用いて、緑と赤の間の１又は２以上の範囲を描くことができる。

図３の例は、（ｉ）最も低い了解度のダイアログ、すなわち最大低下の範囲にある了解度を示す二重クロスハッチ（すなわち、「ｘ」クロスハッチ）、（ｉｉ）最も高い了解度のダイアログ、すなわち、最小低下の範囲にある了解度を示すマイナスの傾きを有する（すなわち、左から右に高さが下がる）シングルクロスハッチ、及び（ｉｉｉ）最も高い了解度のダイアログと最も低い了解度のダイアログの間のダイアログの了解度の範囲を示すプラスの傾きを有する（左から右に高さが上がる）シングルクロスハッチを含むダイアログの了解度の３つの対応するベルを示すために、対応する色（又はボールド、破線など）に置き換えることができる３つの異なるクロスハッチングパターンを含む。

加えて、ダイアログ了解度レポート５００は、了解度の個々の測度に基づいてコンピュータ計算された、「全体的スコア」と呼ばれるダイアログの了解度の全体的測度を含む。図５の例では、全体的スコアは、５２．０２％である。

ダイアログのテキストベースのサブタイトルに対して参照される異なるサウンドトラックにおける同じダイアログの様々なダイアログ了解度レポートを、図６－９に関して以下に記載する。ダイアログ了解度レポートは、例えば、方法３００によって実行される分析から結果として生じる。

図６を参照すると、サブタイトル（例えば、サブタイトルＣ）に対して参照されるオリジナルミキシングサウンドトラック（例えば、オリジナルミキシングサウンドトラックＢ）のダイアログについての了解度の測度のプロット形式で例示的なダイアログ了解度レポート６００の図が示されている。換言すると、プロットは、サブタイトルの形式の基準テキストとオリジナルミキシングサウンドトラックから取得された比較テキストとの間の比較の結果を示している。従って、プロットは、サブタイトルの品質を示す。プロット上の縦棒は、上述のように、比較テキストセグメントと対応するサブタイトルチャンクとの間の比較から生じる了解度の個々の測度（又は了解度の低下）を表す。プロットは、オリジナルミキシングサウンドトラックが９４．１７％の全体的スコアを有することを示す。

図７を参照すると、修正されたミキシングサウンドトラック（例えば、修正されたミキシングサウンドトラックＥ）、すなわち、サブタイトルに対して参照される、エミュレートされたサウンドエフェクトを組み合わせた図６のオリジナルミキシングサウンドトラックのダイアログについての了解度の測度のプロット形式での例示的なダイアログ了解度レポート７００の図が示されている。プロットは、エミュレートされたサウンドエフェクトから結果として生じる１：５２直後の時間の突出したダイアログの了解度の低下を示している。プロットは、修正されたミキシングサウンドトラックが、サウンドエフェクトに起因して図６のプロットのスコアに対して減少した９０．８８％の全体的スコアを有することを指示している。

図８を参照すると、（ｉ）図６及び７からのダイアログの連続タイムスライスの列挙行、及び（ｉｉ）タイムスライスの各々に対応する様々なデータの列（すなわち、行）を有するテーブル形式の例示的な了解度レポート８００の図が示されている。表を左から右に移動して、列は、以下を含む。
ａ．ダイアログの各タイムスライスの行／タイムスライス識別子のタイムスライス識別子（ＩＤ）列８０４。
ｂ．各タイムスライスのサブタイトルテキスト（例えば、ＳＲＴテキスト）の形式の基準テキストの基準テキスト列８０６。
ｃ．各タイムスライスの開始及び終了時間のタイムスタンプ列８０８及び８１０。
ｄ．オリジナルミキシングサウンドトラックの各タイムスライスのＡＳＲから生じる比較テキストセグメントを引用する比較テキスト列８１２。
ｅ．列８０６の対応するサブタイトルテキストに対して参照される各比較テキストセグメントの了解度の個々の測度（すなわち、個々のスコア）のスコア列８１４。従って、個々の測度は、サブタイトル品質を示す。個々のスコアは、サブタイトルテキストと比較テキストの間のパーセンテージマッチ（０－１００％）として表される。個々のスコアが、上述のように複数の比較アルゴリズムから生じる集約スコアを表す実施例では、スコア列８１４を、比較アルゴリズムの各々によってコンピュータ計算されたスコアのそれぞれの列を含む複数のスコア列、及び集約スコアの列に細分することができる。例えば、比較ロジック１２４が、エディテックス及びコサイン距離を集約テキスト距離に組み合わせる実施例では、了解度スコア列を、エディテックス距離の第１の列、コサイン距離の第２の列、及びエディテックス及びコサイン距離を組み合わせた集約テキスト距離の第３の列に細分することができる。
ｆ．修正されたミキシングサウンドトラック、すなわち、エミュレートされたサウンドエフェクトを組み合わせたオリジナルミキシングサウンドトラックの各タイムスライスのＡＳＲから生じた比較テキストセグメントを引用する比較テキスト列８１６。
ｇ．対応するサブタイトルテキストに対して参照された修正されたミキシングサウンドトラックの各比較テキストセグメントの了解度の個々の測度（すなわち、個々のスコア）のスコア列８１８。
ｈ．各スコアが正確にコンピュータ計算される信頼度レベルの信頼度レベル列８２０。ＡＳＲエンジン１２０は、信頼度レベルをコンピュータ計算することができる。

不良の了解度（例えば、７５％）を示す事前に決められた閾値より下の了解度のスコアに関連付けられるテーブルのタイムスライス／行は、赤で示すことができ、同時に他の行は、例えば、緑又は黒で示すことができる。図８の例では、低了解度スコアを有するタイムスライス／行１３及び１５は、赤で示すことができる。一般的には、このようなカラーコーディングは、ユーザ固有の低下した又は不良のセグメントを強調する。

図９を参照すると、ダイアログアナライザ１０２によって生成されたメタデータを含む例示的なダイアログ了解度レポート９００の図が示されている。レポート９００は、図８のダイアログ了解度レポート８００からの情報／結果を、例えば標準的ＭＩＤＩファイル（ＳＭＦ）に組み入れる。レポート９００は、ＭＩＤＩファイルのコンテンツを示す。ＭＩＤＩファイルは、ＭＩＤＩファイルを処理するよう構成された何れのＤＡＷでも処理することができる。ＭＩＤＩファイルの上部セクション９０１は、トラックを左から右に移動する縦マーカエニュメレートＭ１－Ｍｎによって指示される連続タイムスライスに各々が分割される、縦に並んだトラック９０２、９０４、及び９０６を示す。トラック９０２は、ダイアログサウンドトラックのオーディオ波形である。トラック９０４、９０６は、０から１２７のピッチが、０－１の了解度スコアを表す横ピッチバーとしてタイムスライスの了解度スコアを表すＭＩＤＩトラックである。トラック９０４は、事前に決められた閾値を超える「良」了解度スコアだけ（短縮ラベル「ＧＯ」によって指示される）を示している。トラック９０６は、事前に決められた閾値を超えない低下した／不良の「ＤＥＧ」了解度スコアだけ（短縮ラベル「ＤＥ」によって指示される）を示している。ＭＩＤＩファイルの下部セクション９１０は、マーカーＭ１－Ｍｎに対応するテキストの行、テキストに対応する了解度スコア、及び一般化された了解度指示子「良」及び「不良」を示す。

図１０を参照すると、ある時間の長さにわたる基準テキストと比較テキストの間の比較の結果としてダイアログアナライザ１０２によって表示するために生成されたテキスト距離（すなわち、半径）対時間（角度回転／ずれ）の極座標プロット形式の例示的なダイアログ了解度レポート１０００の図が示されている。プロットでは、テキスト距離（すなわち、半径）を、０から１まで標準化することができ、ここで０は、完全なマッチを表し、更に１は、完全なミスマッチを表す。図１０の例では、ダイアログアナライザ１０２が、エディテックスアルゴリズムを用いた音声学に基づいて距離を決定した。図１０に関して記載したように、様々な距離の範囲を、異なる色で又はボールド又は破線などの異なるフォーマッティングの他のタイプによって示すことができる。

図１１を参照すると、図１０に示したのと同じ時間の長さにわたる同じ基準テキストと同じ比較テキストとの間の比較の結果としてダイアログアナライザ１０２によって表示するために生成されたテキスト距離（すなわち、半径）対時間（角度回転）の極座標プロット形式の例示的な了解度低下レポート１１００の図が示されている。図１１の例では、ダイアログアナライザ１０２は、コサイン距離アルゴリズムに従って言葉及び文字の違いに基づいてテキスト距離を決定した。

ハイレベルの流れ図
図１２を参照すると、上述した動作を要約するダイアログの了解度を決定する例示的な方法１２００の流れ図が示されている。方法１２００は、ダイアログアナライザ１０２によって実行することができる。

１２０２で、ダイアログアナライザ１０２は、非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得する。例えば、ダイアログアナライザは、非ダイアログサウンドとミキシングされたダイアログを含むオリジナルミキシングサウンドトラックを受信し、更にこのサウンドトラックをミキシングサウンドトラックとして用いる。代替として、ダイアログアナライザは、室内音響、サウンド再生システム再生音響、及び背景雑音の１又は２以上をエミュレートするエミュレートされたサウンドエフェクトによってオリジナルミキシングサウンドトラックを音響的に修正し、ミキシングサウンドトラックを生成する。

１２０４で、ダイアログアナライザ１０２は、ＡＳＲを用いてミキシングサウンドトラックのタイムスライスを比較テキストの連続セグメントに変換する。

１２０６で、ダイアログアナライザ１０は、リスナーにとってのダイアログの了解度の理想基準／規格としてダイアログの基準テキストを取得する。例えば、ダイアログアナライザ１０２は、ＡＳＲを用いてダイアログのみのサウンドトラックのタイムスライスを基準テキストの連続セグメントに変換する。代替として、ダイアログアナライザは、基準テキストとしてダイアログのテキストベースのサブタイトルを受信する。

１２０８で、ダイアログアナライザ１０２は、基準テキストに対する比較テキストの比較に基づいて、リスナーにとってのミキシングサウンドトラックのダイアログの了解度の測度（すなわち、全体的ダイアログ了解度測度）を決定する。例えば、ダイアログアナライザは、（ｉ）比較に基づいて（すなわち、比較テキストと基準テキストの対応するセグメント間の比較に基づいて）ミキシングサウンドトラックのタイムスライスのダイアログの了解度の個々の測度（すなわち、個々のダイアログ了解度測度）をコンピュータ計算し、更に（ｉｉ）ダイアログの了解度の個々の測度に基づいてダイアログの了解度の測度をコンピュータ計算する。

１つの例では、ダイアログアナライザ１０２は、１又は２以上の比較アルゴリズムを用いて対応する基準テキストと比較テキストの間の違いとして了解度の測度（及び了解度の個々の測度）をコンピュータ計算することができる。例えば、ダイアログアナライザ１０２は、以下の動作を実行することができる。
ａ．第１の比較アルゴリズム（例えば、第１のテキスト距離アルゴリズム）を用いて、対応する基準テキストと比較テキストの間の第１の違い（例えば、第１のテキスト距離）をコンピュータ計算する。
ｂ．第２の比較アルゴリズム（例えば、第２のテキスト距離アルゴリズム）を用いて、対応する基準テキストと比較テキストとの間の第２の違い（例えば、第２のテキスト距離）をコンピュータ計算する。
ｃ．第１の違い（例えば、第１のテキスト距離）及び第２の違い（例えば、第２のテキスト距離）の加重組み合わせとして対応する基準テキストと比較テキストとの間の違い（例えば、組み合わせテキスト距離）をコンピュータ計算する。

１２１０で、ダイアログアナライザ１０２は、ダイアログの了解度の測度、タイムスライスのダイアログの了解度の個々の測度、及び他の比較結果、例えば、メタデータをレポートする、例えば表示するために生成し、更に次に表示することができる。代替として及び／又は加えて、ダイアログアナライザ１０２は、レポートをユーザによる次のアクセスのためにファイルに格納することができる。

コンピュータシステム
図１３は、本明細書に提示する実施形態を実施することができる例示的なコンピュータデバイス１３００のブロック図である。例えば、コンピュータデバイス１３００は、ダイアログアナライザ１０２を表すことができ、更にパーソナルコンピュータ（ＰＣ）、スマートフォン、タブレットＰＣなどで実施することができる。コンピュータデバイス１３００は、本明細書に記載する処理に関連する命令を処理するプロセッサ又はコントローラ１３１０、多種多様なデータ及びソフトウェア命令を格納するメモリ１３２０を含む。プロセッサ１３１０は、例えば、ダイアログアナライザ１０２に対して本明細書に記載した処理を実施するためにメモリ１３２０におけるコンピュータデバイス制御論理１３５５の命令を実行するマイクロプロセッサ又はマイクロコントローラである。コンピュータデバイスはまた、インターネット及び／又はローカルエリアネットワーク（ＬＡＮ）などの通信ネットワークを通じて他のデバイスと通信するネットワークインタフェースユニット（例えば、カード）１３３０を含む。ネットワークインタフェースユニット１３３０は、有線イーサネットリンクを通じて通信するポート（又は複数のこのようなデバイス）を有するイーサネットカード、及び／又は無線リンクを通じて通信する無線送受信機を備えた無線通信カードを含むことができる。コンピュータデバイス１３００はまた、他のデバイス、光学インタフェース、オーディオインタフェースなどに物理的に接続するハードウェアプラグ及び／又は受容器を含む他のインタフェースユニットを含む。

コンピュータデバイスは更に、ユーザからの入力を受信するユーザインタフェースユニット１３４０、マイクロフォン１３５０及びラウドスピーカ１３６０を含むことができる。ユーザインタフェースユニット１３４０は、ユーザがコンピュータデバイスに接続できるようにするために、キーボード、マウス及び／又はタッチ画面ユーザインタフェースの形式にすることができる。マイクロフォン１３５０及びラウドスピーカ１３６０は、オーディオを録音及び出力することができる。コンピュータデバイスはまた、例えば、ユーザにデータを表示することができるタッチ画面ディスプレイを含むディスプレイ１３７０を含むこともできる。

メモリ１３２０は、読取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスクストレージ媒体デバイス、光学ストレージ媒体デバイス、フラッシュメモリデバイス、電気、光学、又は他の物理的／有形（例えば、非一時的）メモリストレージデバイスを含むことができる。従って、一般的には、メモリ１３２０は、コンピュータ実行可能命令を含むソフトウェア（例えば、制御論理／ソフトウェア１３５５）によって符号化された１又は２以上の有形（非一時的）コンピュータ可読ストレージ媒体（例えば、メモリデバイス）を含むことができ、更にソフトウェアが（プロセッサ１３１０によって）実行された時に、ダイアログアナライザ１０２に向けられた本明細書に記載する動作を実行することができる。論理１３５５は、上述した、ＡＳＲエンジンの論理、音響エミュレータ、比較論理、及びレポート生成器を含むことができる。論理１３５５は、ディスプレイ１３７０に情報を提示するユーザインタフェースを生成及び表示する命令を含み、更にユーザが、例えば、ユーザインタフェースのユーザ選択可能な選択肢を介してコンピュータデバイス１３００に入力を提供できるようにする。メモリ１３２０はまた、サウンドトラックのデータ、比較結果、メタデータなどのコンピュータデバイス制御論理１３５５によって生成及び使用されたデータを格納する。

要約すると、１つの形式で、非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得するステップ、ミキシングサウンドトラックを比較テキストに変換するステップ、ダイアログの了解度の基準としてダイアログの基準テキストを取得するステップ、基準テキストに対する比較テキストの比較に基づいて、リスナーにとってのミキシングサウンドトラックのダイアログの了解度の測度を決定するステップ、及びダイアログの了解度の測度をレポートするステップを含む方法が提供される。

別の形式で、非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得する、ミキシングサウンドトラックを比較テキストに変換する、リスナーにとってのダイアログの了解度の基準としてダイアログの基準テキストを取得する、比較テキストと基準テキストとの間の比較に基づいてミキシングサウンドトラックのダイアログの了解度の個々の測度をコンピュータ計算する、ダイアログの了解度の個々の測度に基づいてミキシングサウンドトラックのダイアログの了解度の全体的な測度をコンピュータ計算する、更にダイアログの了解度の全体的な測度を含むレポートを生成するよう構成されたプロセッサを含む装置が提供される。

更に別の形式で、非一時的コンピュータ可読媒体が提供される。コンピュータ可読媒体は、プロセッサによって実行された時に、プロセッサに、非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得させ、自動音声認識（ＡＳＲ）を用いてミキシングサウンドトラックのタイムスライスを比較テキストに変換させ、ダイアログの了解度の基準としてダイアログの基準テキストを取得させ、比較テキストと基準テキストとの間の違いに基づいて、タイムスライスのミキシングサウンドトラックのダイアログの了解度の個々の測度をコンピュータ計算させ、ダイアログの了解度の個々の測度に基づいてミキシングサウンドトラックのダイアログの了解度の全体的測度をコンピュータ計算させ、更にダイアログの了解度の全体的測度及びダイアログの了解度の個々の測度を含むレポートを生成させる命令によって符号化される。

本技術は、１又は２以上の特定の実施例にて具現化されるよう本明細書で図示し記載されているが、様々な修正及び構造的変更が、請求項の均等物の範囲内で行い得るので、必ずしも本技術は図示の詳細事項に限定されないものとする。

以下に提示する各請求項は、別の実施形態を表し、異なる請求項及び／又は異なる実施形態を組み合わせた実施形態は、本開示の範囲内にあり、本開示を精査すると当業者には明らかになるであろう。

１０２ダイアログアナライザ
１０４ダイアログ評価器（コンテンツ製作者、ミキシングエンジニア）
１２０ＡＳＲエンジン
１２２音響エミュレータ
１２４比較論理
１２６レポート生成器

Claims

方法であって、
非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得するステップと、
前記ミキシングサウンドトラックを比較テキストに変換するステップと、
前記ダイアログの了解度の基準として前記ダイアログの基準テキストを取得するステップと、
前記基準テキストに対する前記比較テキストの比較に基づいて、リスナーにとっての前記ミキシングサウンドトラックのダイアログの了解度の測度を決定するステップと、
を含み、
前記ダイアログの了解度の測度を決定するステップは、
前記比較に基づいて、前記比較テキストの連続セグメントの対応するセグメントについての前記ミキシングサウンドトラックのタイムスライスのダイアログの了解度の個々の測度をコンピュータ計算するステップと、
前記ダイアログの了解度の個々の測度に基づいて、前記ダイアログの了解度の測度をコンピュータ計算するステップと、
を含み、
前記方法が更に、
前記ダイアログの了解度の測度をレポートするステップ
を含む、方法。
前記変換するステップは、自動音声認識（ＡＳＲ）を用いて前記ミキシングサウンドトラックを前記比較テキストに変換するステップを含む、請求項１に記載の方法。
前記レポートするステップは、前記ダイアログの了解度の測度及び前記ダイアログの了解度の個々の測度を表示するステップを含む、請求項１に記載の方法。
前記ダイアログの了解度の個々の測度をコンピュータ計算するステップは、前記ミキシングサウンドトラックのタイムスライスに対応する比較テキストのセグメントと前記基準テキストのセグメントの対応するセグメントとの間の違いを決定するステップを含む、請求項１に記載の方法。
前記レポートするステップは、前記ダイアログの了解度の測度、前記ダイアログの了解度の個々の測度、前記比較テキストのセグメント、及び前記基準テキストのセグメントの対応するセグメントを表示するステップを含む、請求項４に記載の方法。
デジタル再生デバイスのために構成され、前記ダイアログの了解度の個々の測度を少なくとも含むメタデータを生成するステップを更に含む、請求項１に記載の方法。
前記基準テキストは、それぞれの時間間隔にわたるサブタイトルテキストのチャンクを含み、
前記了解度の測度を決定するステップは、（ｉ）前記ミキシングサウンドトラックのタイムスライスに対応する比較テキストのセグメントと、（ｉｉ）前記比較テキストのセグメントと共通のダイアログを伝達する前記サブタイトルテキストのチャンクの対応するチャンクとの間の個々の違いを決定するステップを含む、
請求項１に記載の方法。
前記比較テキストのセグメントの各々と前記サブタイトルテキストのチャンクのマッチングチャンクとの間のテキスト類似性を最大化するテキストマッチングアルゴリズムを用いて、前記比較テキストのセグメントを前記サブタイトルテキストのチャンクの対応するチャンクにマッチングするステップを更に含み、
前記個々の違いを決定するステップは、前記マッチングの結果に基づいて前記個々の違いを決定するステップを含む、
請求項７に記載の方法。
前記基準テキストを取得するステップは、ダイアログのみのサウンドトラックを前記基準テキストに変換するステップを含む、請求項１に記載の方法。
前記基準テキストを取得するステップは、前記基準テキストとして前記ダイアログのテキストベースのサブタイトルを受信するステップを含む、請求項１に記載の方法。
前記ミキシングサウンドトラックを取得するステップは、
非ダイアログサウンドがミキシングされたダイアログを含むオリジナルミキシングサウンドトラックを受信するステップと、
室内音響、サウンド再生システム再生音響、及び背景雑音の１又は２以上をエミュレートするエミュレートサウンドエフェクトによって前記オリジナルミキシングサウンドトラックを音響的に修正し、前記ミキシングサウンドトラックを生成するステップと、
を含む、請求項１に記載の方法。
前記変換するステップは、
機械学習ダイアログ抽出器を用いて、前記ミキシングサウンドトラックから前記ダイアログを抽出して優勢ダイアログサウンドトラックを生成するステップと、
前記優勢ダイアログサウンドトラックを前記比較テキストに変換するステップと、
を含む、請求項１に記載の方法。
前記ダイアログの了解度の測度を決定するステップは、前記比較テキストと前記基準テキストとの間の違いをコンピュータ計算するステップと、前記違いに基づいて前記ダイアログの了解度の測度をコンピュータ計算するステップと、を含む、請求項１に記載の方法。
前記違いをコンピュータ計算するステップは、文字又は言葉の違いを表すテキスト距離として、又はサウンドの違いを表す音声学的テキスト距離として前記違いをコンピュータ計算するステップを含む、請求項１３に記載の方法。
前記違いをコンピュータ計算するステップは、
第１の比較アルゴリズムを用いて、前記比較テキストと前記基準テキストとの間の第１の違いをコンピュータ計算するステップと、
前記第１の比較アルゴリズムとは異なる第２の比較アルゴリズムを用いて、前記比較テキストと前記基準テキストとの間の第２の違いをコンピュータ計算するステップと、
前記第１の違い及び前記第２の違いの加重組み合わせとして前記違いをコンピュータ計算するステップと、
を含む、請求項１３に記載の方法。
装置であって、
プロセッサであって、
非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得し、
前記ミキシングサウンドトラックを比較テキストに変換し、
リスナーにとっての前記ダイアログの了解度の基準として前記ダイアログの基準テキストを取得し、
前記比較テキストと前記基準テキストとの間の比較に基づいて、前記比較テキストの連続セグメントの対応するセグメントについての前記ミキシングサウンドトラックのダイアログの了解度の個々の測度をコンピュータ計算し、
前記ダイアログの了解度の個々の測度に基づいて、前記ミキシングサウンドトラックのダイアログの了解度の全体的測度をコンピュータ計算し、
及び前記ダイアログの了解度の全体的測度を含むレポートを生成する、
ように構成されたプロセッサ
を備える、装置。
前記プロセッサは、前記ミキシングサウンドトラックのタイムスライスに対応する比較テキストのセグメントと前記基準テキストのセグメントの対応するセグメントとの間の違いを決定することによって、前記ダイアログの了解度の個々の測度をコンピュータ計算するように構成される、請求項１６に記載の装置。
前記プロセッサは、ＡＳＲを用いてダイアログのみのサウンドトラックを前記基準テキストに変換することによって、前記基準テキストを取得するように構成される、請求項１６に記載の装置。
前記プロセッサは、前記基準テキストとして前記ダイアログのテキストベースのサブタイトルを受信することによって前記基準テキストを取得するように構成される、請求項１６に記載の装置。
前記プロセッサは、
非ダイアログサウンドがミキシングされたダイアログを含むオリジナルミキシングサウンドトラックを受信し、
室内音響、サウンド再生システム再生音響、及び背景雑音の１又は２以上をエミュレートするエミュレートサウンドエフェクトによって前記オリジナルミキシングサウンドトラックを音響的に修正し、前記ミキシングサウンドトラックを生成する、
ことによって、前記ミキシングサウンドトラックを取得するように構成される、請求項１６に記載の装置。
非一時的コンピュータ可読媒体であって、プロセッサによって実行される時に、前記プロセッサに、
非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得させ、
自動音声認識（ＡＳＲ）を用いて前記ミキシングサウンドトラックのタイムスライスを比較テキストに変換させ、
前記ダイアログの了解度の基準として前記ダイアログの基準テキストを取得させ、
前記比較テキストと前記基準テキストとの間の違いに基づいて、前記比較テキストの連続セグメントの対応するセグメントについての前記タイムスライスのミキシングサウンドトラックのダイアログの了解度の個々の測度をコンピュータ計算させ、
前記ダイアログの了解度の個々の測度に基づいて前記ミキシングサウンドトラックのダイアログの了解度の全体的測度をコンピュータ計算させ、
前記ダイアログの了解度の全体的測度及び前記ダイアログの了解度の個々の測度を含むレポートを生成させる、
ようにする命令が格納される非一時的コンピュータ可読媒体。
前記プロセッサに前記基準テキストを取得させる前記命令は、前記プロセッサに前記ＡＳＲを用いてダイアログのみのサウンドトラックを前記基準テキストに変換させる命令を含む、請求項２１に記載の非一時的コンピュータ可読媒体。
前記プロセッサに前記基準テキストを取得させる前記命令は、前記プロセッサに前記基準テキストとして前記ダイアログのテキストベースのサブタイトルを受信させる命令を含む、請求項２１に記載の非一時的コンピュータ可読媒体。
前記プロセッサに前記ミキシングサウンドトラックを取得させる命令は、前記プロセッサに、
非ダイアログサウンドがミキシングされた前記ダイアログを含むオリジナルミキシングサウンドトラックを受信させ、
室内音響、サウンド再生システム再生音響、及び背景雑音の１又は２以上をエミュレートするエミュレートサウンドエフェクトによって前記オリジナルミキシングサウンドトラックを音響的に修正し、前記ミキシングサウンドトラックを生成させる、
命令を含む、請求項２１に記載の非一時コンピュータ可読媒体。